srun: job 8262253 queued and waiting for resources
srun: job 8262253 has been allocated resources
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
MASTER_ADDR=batch-block4-0002
JobID: 8262253 | Full list: batch-block4-0002 
NETWORK=Efficient-Large-Model/VILA1.5-13b
WARNING:torch.distributed.run:
*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
*****************************************
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
[2025-05-27 18:08:49,522] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 18:08:49,522] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 18:08:49,522] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 18:08:49,522] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 18:08:49,522] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 18:08:49,522] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 18:08:49,522] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 18:08:49,523] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 18:08:51,531] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 18:08:51,531] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-27 18:08:51,531] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 18:08:51,531] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 18:08:51,531] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 18:08:51,531] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 18:08:51,531] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 18:08:51,531] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 18:08:51,532] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-27 18:08:51,532] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-27 18:08:51,532] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-27 18:08:51,532] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-27 18:08:51,532] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-27 18:08:51,532] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-27 18:08:51,532] [INFO] [comm.py:625:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
[2025-05-27 18:08:51,532] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 18:08:51,532] [INFO] [comm.py:594:init_distributed] cdb=None
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/huggingface_hub/file_download.py:795: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/huggingface_hub/file_download.py:795: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/huggingface_hub/file_download.py:795: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/huggingface_hub/file_download.py:795: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/huggingface_hub/file_download.py:795: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/huggingface_hub/file_download.py:795: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/huggingface_hub/file_download.py:795: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/huggingface_hub/file_download.py:795: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
  warnings.warn(
Fetching 21 files:   0%|          | 0/21 [00:00<?, ?it/s]Fetching 21 files:   0%|          | 0/21 [00:00<?, ?it/s]Fetching 21 files:   0%|          | 0/21 [00:00<?, ?it/s]Fetching 21 files: 100%|██████████| 21/21 [00:00<00:00, 2440.51it/s]Fetching 21 files: 100%|██████████| 21/21 [00:00<00:00, 3048.19it/s]
Fetching 21 files: 100%|██████████| 21/21 [00:00<00:00, 3519.98it/s]

Fetching 21 files:   0%|          | 0/21 [00:00<?, ?it/s]Fetching 21 files:   0%|          | 0/21 [00:00<?, ?it/s]Fetching 21 files: 100%|██████████| 21/21 [00:00<00:00, 8185.91it/s]
Fetching 21 files: 100%|██████████| 21/21 [00:00<00:00, 6686.94it/s]
Fetching 21 files:   0%|          | 0/21 [00:00<?, ?it/s]Fetching 21 files: 100%|██████████| 21/21 [00:00<00:00, 6682.37it/s]
Fetching 21 files:   0%|          | 0/21 [00:00<?, ?it/s]Fetching 21 files: 100%|██████████| 21/21 [00:00<00:00, 6138.43it/s]
Fetching 21 files:   0%|          | 0/21 [00:00<?, ?it/s]Fetching 21 files: 100%|██████████| 21/21 [00:00<00:00, 5188.22it/s]
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-05-27 18:09:01,775] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.02B parameters
Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.32it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.22it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.21it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.20it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.17it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.09it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.06it/s]Loading checkpoint shards:  33%|███▎      | 2/6 [00:02<00:06,  1.67s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:02<00:06,  1.68s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:02<00:06,  1.68s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:02<00:06,  1.68s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:02<00:06,  1.68s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:03<00:06,  1.69s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:03<00:06,  1.69s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:05<00:26,  5.36s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:08<00:09,  3.28s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:08<00:09,  3.28s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:08<00:09,  3.29s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:08<00:09,  3.29s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:08<00:09,  3.29s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:08<00:09,  3.29s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:08<00:09,  3.29s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:10<00:21,  5.26s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:13<00:08,  4.15s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:13<00:08,  4.16s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:13<00:08,  4.16s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:13<00:08,  4.16s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:13<00:08,  4.16s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:13<00:08,  4.17s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:13<00:08,  4.17s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:16<00:16,  5.40s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:19<00:04,  4.79s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:19<00:04,  4.80s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:19<00:04,  4.80s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:19<00:04,  4.80s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:19<00:04,  4.80s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:19<00:04,  4.80s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:19<00:04,  4.80s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.44s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.40s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.44s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.40s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.44s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.41s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.44s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.41s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.44s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.41s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.44s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.41s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.44s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.41s/it]
Loading checkpoint shards:  67%|██████▋   | 4/6 [00:21<00:10,  5.49s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:27<00:05,  5.54s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:28<00:00,  4.10s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:28<00:00,  4.78s/it]
[2025-05-27 18:09:30,798] [WARNING] [partition_parameters.py:836:_post_init_method] param `probe` in SiglipMultiheadAttentionPoolingHead not on GPU so was not broadcasted from rank 0
[2025-05-27 18:09:30,799] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.44B parameters
[2025-05-27 18:09:32,292] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.49B parameters
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask'][Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']

[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[dist-0-of-8] LlavaLlamaModel(
  (llm): LlamaForCausalLM(
    (model): LlamaModel(
      (embed_tokens): Embedding(32000, 5120, padding_idx=0)
      (layers): ModuleList(
        (0-39): 40 x LlamaDecoderLayer(
          (self_attn): LlamaFlashAttention2(
            (q_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (k_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (v_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (o_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (rotary_emb): LlamaRotaryEmbedding()
          )
          (mlp): LlamaMLP(
            (gate_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (up_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (down_proj): Linear(in_features=13824, out_features=5120, bias=False)
            (act_fn): SiLU()
          )
          (input_layernorm): LlamaRMSNorm()
          (post_attention_layernorm): LlamaRMSNorm()
        )
      )
      (norm): LlamaRMSNorm()
    )
    (lm_head): Linear(in_features=5120, out_features=32000, bias=False)
  )
  (vision_tower): SiglipVisionTower(
    (vision_tower): SiglipVisionModel(
      (vision_model): SiglipVisionTransformer(
        (embeddings): SiglipVisionEmbeddings(
          (patch_embedding): Conv2d(3, 1152, kernel_size=(14, 14), stride=(14, 14), padding=valid)
          (position_embedding): Embedding(729, 1152)
        )
        (encoder): SiglipEncoder(
          (layers): ModuleList(
            (0-26): 27 x SiglipEncoderLayer(
              (self_attn): SiglipAttention(
                (k_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (v_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (q_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (out_proj): Linear(in_features=1152, out_features=1152, bias=True)
              )
              (layer_norm1): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
              (mlp): SiglipMLP(
                (activation_fn): PytorchGELUTanh()
                (fc1): Linear(in_features=1152, out_features=4304, bias=True)
                (fc2): Linear(in_features=4304, out_features=1152, bias=True)
              )
              (layer_norm2): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
            )
          )
        )
        (post_layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
        (head): SiglipMultiheadAttentionPoolingHead(
          (attention): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=1152, out_features=1152, bias=True)
          )
          (layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
          (mlp): SiglipMLP(
            (activation_fn): PytorchGELUTanh()
            (fc1): Linear(in_features=1152, out_features=4304, bias=True)
            (fc2): Linear(in_features=4304, out_features=1152, bias=True)
          )
        )
      )
    )
  )
  (mm_projector): MultimodalProjector(
    (layers): Sequential(
      (0): DownSampleBlock()
      (1): LayerNorm((4608,), eps=1e-05, elementwise_affine=True)
      (2): Linear(in_features=4608, out_features=5120, bias=True)
      (3): GELU(approximate='none')
      (4): Linear(in_features=5120, out_features=5120, bias=True)
    )
  )
)
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[dist-0-of-8] Tunable parameters:
language model True
[dist-0-of-8] vision tower True
[dist-0-of-8] mm projector True
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.232950210571289
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2347021102905273
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2328662872314453
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2340164184570312
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.233976364135742
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2344770431518555
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2345194816589355
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2357730865478516
Parameter Offload: Total persistent parameters: 847296 in 365 params
wandb: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
wandb: Tracking run with wandb version 0.18.7
wandb: Run data is saved locally in /lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/wandb/run-20250527_181013-rb0b93dx
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run vila_13b_path_mask
wandb: ⭐️ View project at https://wandb.ai/memmelma/VILA
wandb: 🚀 View run at https://wandb.ai/memmelma/VILA/runs/rb0b93dx
  0%|          | 0/6640 [00:00<?, ?it/s]Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
  0%|          | 1/6640 [00:32<59:49:50, 32.44s/it]                                                   {'loss': 0.7855, 'learning_rate': 1.0000000000000001e-07, 'epoch': 0.0}
  0%|          | 1/6640 [00:32<59:49:50, 32.44s/it]  0%|          | 2/6640 [00:49<43:33:10, 23.62s/it]                                                   {'loss': 0.7356, 'learning_rate': 2.0000000000000002e-07, 'epoch': 0.0}
  0%|          | 2/6640 [00:49<43:33:10, 23.62s/it]  0%|          | 3/6640 [01:05<36:25:27, 19.76s/it]                                                   {'loss': 0.7793, 'learning_rate': 3.0000000000000004e-07, 'epoch': 0.0}
  0%|          | 3/6640 [01:05<36:25:27, 19.76s/it]  0%|          | 4/6640 [01:20<33:35:56, 18.23s/it]                                                   {'loss': 0.7509, 'learning_rate': 4.0000000000000003e-07, 'epoch': 0.0}
  0%|          | 4/6640 [01:20<33:35:56, 18.23s/it]  0%|          | 5/6640 [01:36<31:45:35, 17.23s/it]                                                   {'loss': 0.7582, 'learning_rate': 5.000000000000001e-07, 'epoch': 0.0}
  0%|          | 5/6640 [01:36<31:45:35, 17.23s/it]  0%|          | 6/6640 [01:52<30:59:11, 16.82s/it]                                                   {'loss': 0.7562, 'learning_rate': 6.000000000000001e-07, 'epoch': 0.0}
  0%|          | 6/6640 [01:52<30:59:11, 16.82s/it]  0%|          | 7/6640 [02:09<30:59:54, 16.82s/it]                                                   {'loss': 0.7548, 'learning_rate': 7.000000000000001e-07, 'epoch': 0.0}
  0%|          | 7/6640 [02:09<30:59:54, 16.82s/it]  0%|          | 8/6640 [02:24<30:19:07, 16.46s/it]                                                   {'loss': 0.7631, 'learning_rate': 8.000000000000001e-07, 'epoch': 0.0}
  0%|          | 8/6640 [02:24<30:19:07, 16.46s/it]  0%|          | 9/6640 [02:40<30:03:45, 16.32s/it]                                                   {'loss': 0.7608, 'learning_rate': 9.000000000000001e-07, 'epoch': 0.0}
  0%|          | 9/6640 [02:40<30:03:45, 16.32s/it]  0%|          | 10/6640 [02:57<30:11:30, 16.39s/it]                                                    {'loss': 0.7736, 'learning_rate': 1.0000000000000002e-06, 'epoch': 0.0}
  0%|          | 10/6640 [02:57<30:11:30, 16.39s/it]  0%|          | 11/6640 [03:13<29:48:15, 16.19s/it]                                                    {'loss': 0.7089, 'learning_rate': 1.1e-06, 'epoch': 0.0}
  0%|          | 11/6640 [03:13<29:48:15, 16.19s/it]  0%|          | 12/6640 [03:28<29:31:18, 16.03s/it]                                                    {'loss': 0.742, 'learning_rate': 1.2000000000000002e-06, 'epoch': 0.0}
  0%|          | 12/6640 [03:28<29:31:18, 16.03s/it]  0%|          | 13/6640 [03:44<29:22:09, 15.95s/it]                                                    {'loss': 0.7219, 'learning_rate': 1.3e-06, 'epoch': 0.0}
  0%|          | 13/6640 [03:44<29:22:09, 15.95s/it]  0%|          | 14/6640 [04:00<29:25:14, 15.98s/it]                                                    {'loss': 0.7447, 'learning_rate': 1.4000000000000001e-06, 'epoch': 0.0}
  0%|          | 14/6640 [04:00<29:25:14, 15.98s/it]  0%|          | 15/6640 [04:17<29:47:30, 16.19s/it]                                                    {'loss': 0.7061, 'learning_rate': 1.5e-06, 'epoch': 0.0}
  0%|          | 15/6640 [04:17<29:47:30, 16.19s/it]  0%|          | 16/6640 [04:34<30:02:48, 16.33s/it]                                                    {'loss': 0.6977, 'learning_rate': 1.6000000000000001e-06, 'epoch': 0.0}
  0%|          | 16/6640 [04:34<30:02:48, 16.33s/it]  0%|          | 17/6640 [04:49<29:45:39, 16.18s/it]                                                    {'loss': 0.6872, 'learning_rate': 1.7000000000000002e-06, 'epoch': 0.0}
  0%|          | 17/6640 [04:49<29:45:39, 16.18s/it]  0%|          | 18/6640 [05:06<29:48:19, 16.20s/it]                                                    {'loss': 0.7212, 'learning_rate': 1.8000000000000001e-06, 'epoch': 0.0}
  0%|          | 18/6640 [05:06<29:48:19, 16.20s/it]  0%|          | 19/6640 [05:22<29:58:03, 16.29s/it]                                                    {'loss': 0.6951, 'learning_rate': 1.9000000000000002e-06, 'epoch': 0.0}
  0%|          | 19/6640 [05:22<29:58:03, 16.29s/it]  0%|          | 20/6640 [05:39<30:13:22, 16.44s/it]                                                    {'loss': 0.6905, 'learning_rate': 2.0000000000000003e-06, 'epoch': 0.0}
  0%|          | 20/6640 [05:39<30:13:22, 16.44s/it]  0%|          | 21/6640 [05:57<31:01:22, 16.87s/it]                                                    {'loss': 0.7052, 'learning_rate': 2.1000000000000002e-06, 'epoch': 0.0}
  0%|          | 21/6640 [05:57<31:01:22, 16.87s/it]  0%|          | 22/6640 [06:13<30:43:54, 16.72s/it]                                                    {'loss': 0.6655, 'learning_rate': 2.2e-06, 'epoch': 0.0}
  0%|          | 22/6640 [06:13<30:43:54, 16.72s/it]  0%|          | 23/6640 [06:30<30:35:01, 16.64s/it]                                                    {'loss': 0.6628, 'learning_rate': 2.3000000000000004e-06, 'epoch': 0.0}
  0%|          | 23/6640 [06:30<30:35:01, 16.64s/it]  0%|          | 24/6640 [06:46<30:12:17, 16.44s/it]                                                    {'loss': 0.7065, 'learning_rate': 2.4000000000000003e-06, 'epoch': 0.0}
  0%|          | 24/6640 [06:46<30:12:17, 16.44s/it]  0%|          | 25/6640 [07:02<30:07:38, 16.40s/it]                                                    {'loss': 0.6321, 'learning_rate': 2.5e-06, 'epoch': 0.0}
  0%|          | 25/6640 [07:02<30:07:38, 16.40s/it]  0%|          | 26/6640 [07:18<29:58:03, 16.31s/it]                                                    {'loss': 0.6533, 'learning_rate': 2.6e-06, 'epoch': 0.0}
  0%|          | 26/6640 [07:18<29:58:03, 16.31s/it]  0%|          | 27/6640 [07:34<29:47:07, 16.21s/it]                                                    {'loss': 0.6413, 'learning_rate': 2.7000000000000004e-06, 'epoch': 0.0}
  0%|          | 27/6640 [07:34<29:47:07, 16.21s/it]  0%|          | 28/6640 [07:50<29:49:34, 16.24s/it]                                                    {'loss': 0.6386, 'learning_rate': 2.8000000000000003e-06, 'epoch': 0.0}
  0%|          | 28/6640 [07:50<29:49:34, 16.24s/it]  0%|          | 29/6640 [08:07<30:17:21, 16.49s/it]                                                    {'loss': 0.6577, 'learning_rate': 2.9e-06, 'epoch': 0.0}
  0%|          | 29/6640 [08:07<30:17:21, 16.49s/it]  0%|          | 30/6640 [08:23<29:58:02, 16.32s/it]                                                    {'loss': 0.6563, 'learning_rate': 3e-06, 'epoch': 0.0}
  0%|          | 30/6640 [08:23<29:58:02, 16.32s/it]  0%|          | 31/6640 [08:39<29:33:46, 16.10s/it]                                                    {'loss': 0.641, 'learning_rate': 3.1000000000000004e-06, 'epoch': 0.0}
  0%|          | 31/6640 [08:39<29:33:46, 16.10s/it]  0%|          | 32/6640 [08:55<29:48:36, 16.24s/it]                                                    {'loss': 0.6385, 'learning_rate': 3.2000000000000003e-06, 'epoch': 0.0}
  0%|          | 32/6640 [08:55<29:48:36, 16.24s/it]  0%|          | 33/6640 [09:11<29:34:34, 16.12s/it]                                                    {'loss': 0.6411, 'learning_rate': 3.3000000000000006e-06, 'epoch': 0.0}
  0%|          | 33/6640 [09:11<29:34:34, 16.12s/it]  1%|          | 34/6640 [09:28<29:42:48, 16.19s/it]                                                    {'loss': 0.6249, 'learning_rate': 3.4000000000000005e-06, 'epoch': 0.01}
  1%|          | 34/6640 [09:28<29:42:48, 16.19s/it]  1%|          | 35/6640 [09:45<30:34:01, 16.66s/it]                                                    {'loss': 0.6462, 'learning_rate': 3.5e-06, 'epoch': 0.01}
  1%|          | 35/6640 [09:45<30:34:01, 16.66s/it]  1%|          | 36/6640 [10:01<30:10:28, 16.45s/it]                                                    {'loss': 0.6375, 'learning_rate': 3.6000000000000003e-06, 'epoch': 0.01}
  1%|          | 36/6640 [10:01<30:10:28, 16.45s/it]  1%|          | 37/6640 [10:18<30:14:40, 16.49s/it]                                                    {'loss': 0.6536, 'learning_rate': 3.7e-06, 'epoch': 0.01}
  1%|          | 37/6640 [10:18<30:14:40, 16.49s/it]  1%|          | 38/6640 [10:34<29:58:15, 16.34s/it]                                                    {'loss': 0.6322, 'learning_rate': 3.8000000000000005e-06, 'epoch': 0.01}
  1%|          | 38/6640 [10:34<29:58:15, 16.34s/it]  1%|          | 39/6640 [10:50<29:37:02, 16.15s/it]                                                    {'loss': 0.6273, 'learning_rate': 3.900000000000001e-06, 'epoch': 0.01}
  1%|          | 39/6640 [10:50<29:37:02, 16.15s/it]  1%|          | 40/6640 [11:06<29:41:06, 16.19s/it]                                                    {'loss': 0.6337, 'learning_rate': 4.000000000000001e-06, 'epoch': 0.01}
  1%|          | 40/6640 [11:06<29:41:06, 16.19s/it]  1%|          | 41/6640 [11:23<29:57:47, 16.35s/it]                                                    {'loss': 0.6629, 'learning_rate': 4.1e-06, 'epoch': 0.01}
  1%|          | 41/6640 [11:23<29:57:47, 16.35s/it]  1%|          | 42/6640 [11:38<29:26:39, 16.07s/it]                                                    {'loss': 0.6544, 'learning_rate': 4.2000000000000004e-06, 'epoch': 0.01}
  1%|          | 42/6640 [11:38<29:26:39, 16.07s/it]  1%|          | 43/6640 [11:54<29:20:00, 16.01s/it]                                                    {'loss': 0.6318, 'learning_rate': 4.3e-06, 'epoch': 0.01}
  1%|          | 43/6640 [11:54<29:20:00, 16.01s/it]  1%|          | 44/6640 [12:10<29:09:49, 15.92s/it]                                                    {'loss': 0.6602, 'learning_rate': 4.4e-06, 'epoch': 0.01}
  1%|          | 44/6640 [12:10<29:09:49, 15.92s/it]  1%|          | 45/6640 [12:26<29:37:46, 16.17s/it]                                                    {'loss': 0.6377, 'learning_rate': 4.5e-06, 'epoch': 0.01}
  1%|          | 45/6640 [12:26<29:37:46, 16.17s/it]  1%|          | 46/6640 [12:43<29:39:52, 16.20s/it]                                                    {'loss': 0.6262, 'learning_rate': 4.600000000000001e-06, 'epoch': 0.01}
  1%|          | 46/6640 [12:43<29:39:52, 16.20s/it]  1%|          | 47/6640 [12:59<29:42:42, 16.22s/it]                                                    {'loss': 0.6364, 'learning_rate': 4.7e-06, 'epoch': 0.01}
  1%|          | 47/6640 [12:59<29:42:42, 16.22s/it]  1%|          | 48/6640 [13:15<29:23:02, 16.05s/it]                                                    {'loss': 0.6194, 'learning_rate': 4.800000000000001e-06, 'epoch': 0.01}
  1%|          | 48/6640 [13:15<29:23:02, 16.05s/it]  1%|          | 49/6640 [13:31<29:31:19, 16.12s/it]                                                    {'loss': 0.638, 'learning_rate': 4.9000000000000005e-06, 'epoch': 0.01}
  1%|          | 49/6640 [13:31<29:31:19, 16.12s/it]045  AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...7
 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
  1%|          | 50/6640 [13:47<29:46:56, 16.27s/it]2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
                                                    {'loss': 0.6151, 'learning_rate': 5e-06, 'epoch': 0.01}
  1%|          | 50/6640 [13:47<29:46:56, 16.27s/it]  1%|          | 51/6640 [14:04<29:50:30, 16.30s/it]                                                    {'loss': 0.6234, 'learning_rate': 5.1e-06, 'epoch': 0.01}
  1%|          | 51/6640 [14:04<29:50:30, 16.30s/it]  1%|          | 52/6640 [14:20<29:50:09, 16.30s/it]                                                    {'loss': 0.6086, 'learning_rate': 5.2e-06, 'epoch': 0.01}
  1%|          | 52/6640 [14:20<29:50:09, 16.30s/it]  1%|          | 53/6640 [14:36<29:51:23, 16.32s/it]                                                    {'loss': 0.6292, 'learning_rate': 5.300000000000001e-06, 'epoch': 0.01}
  1%|          | 53/6640 [14:37<29:51:23, 16.32s/it]  1%|          | 54/6640 [14:53<30:01:26, 16.41s/it]                                                    {'loss': 0.6168, 'learning_rate': 5.400000000000001e-06, 'epoch': 0.01}
  1%|          | 54/6640 [14:53<30:01:26, 16.41s/it]  1%|          | 55/6640 [15:11<30:46:02, 16.82s/it]                                                    {'loss': 0.6358, 'learning_rate': 5.500000000000001e-06, 'epoch': 0.01}
  1%|          | 55/6640 [15:11<30:46:02, 16.82s/it]  1%|          | 56/6640 [15:27<30:19:18, 16.58s/it]                                                    {'loss': 0.625, 'learning_rate': 5.600000000000001e-06, 'epoch': 0.01}
  1%|          | 56/6640 [15:27<30:19:18, 16.58s/it]  1%|          | 57/6640 [15:43<29:57:00, 16.38s/it]                                                    {'loss': 0.6257, 'learning_rate': 5.7e-06, 'epoch': 0.01}
  1%|          | 57/6640 [15:43<29:57:00, 16.38s/it]  1%|          | 58/6640 [15:59<29:55:04, 16.36s/it]                                                    {'loss': 0.6263, 'learning_rate': 5.8e-06, 'epoch': 0.01}
  1%|          | 58/6640 [15:59<29:55:04, 16.36s/it]  1%|          | 59/6640 [16:15<29:48:03, 16.30s/it]                                                    {'loss': 0.6149, 'learning_rate': 5.9e-06, 'epoch': 0.01}
  1%|          | 59/6640 [16:15<29:48:03, 16.30s/it]  1%|          | 60/6640 [16:31<29:38:30, 16.22s/it]                                                    {'loss': 0.6002, 'learning_rate': 6e-06, 'epoch': 0.01}
  1%|          | 60/6640 [16:31<29:38:30, 16.22s/it]  1%|          | 61/6640 [16:47<29:29:51, 16.14s/it]                                                    {'loss': 0.6313, 'learning_rate': 6.1e-06, 'epoch': 0.01}
  1%|          | 61/6640 [16:47<29:29:51, 16.14s/it]  1%|          | 62/6640 [17:03<29:17:02, 16.03s/it]                                                    {'loss': 0.606, 'learning_rate': 6.200000000000001e-06, 'epoch': 0.01}
  1%|          | 62/6640 [17:03<29:17:02, 16.03s/it]  1%|          | 63/6640 [17:19<29:12:54, 15.99s/it]                                                    {'loss': 0.6229, 'learning_rate': 6.300000000000001e-06, 'epoch': 0.01}
  1%|          | 63/6640 [17:19<29:12:54, 15.99s/it]  1%|          | 64/6640 [17:36<29:36:52, 16.21s/it]                                                    {'loss': 0.6115, 'learning_rate': 6.4000000000000006e-06, 'epoch': 0.01}
  1%|          | 64/6640 [17:36<29:36:52, 16.21s/it]  1%|          | 65/6640 [17:52<29:47:54, 16.32s/it]                                                    {'loss': 0.5988, 'learning_rate': 6.5000000000000004e-06, 'epoch': 0.01}
  1%|          | 65/6640 [17:52<29:47:54, 16.32s/it]  1%|          | 66/6640 [18:08<29:33:51, 16.19s/it]                                                    {'loss': 0.6137, 'learning_rate': 6.600000000000001e-06, 'epoch': 0.01}
  1%|          | 66/6640 [18:08<29:33:51, 16.19s/it]  1%|          | 67/6640 [18:24<29:33:37, 16.19s/it]                                                    {'loss': 0.6224, 'learning_rate': 6.700000000000001e-06, 'epoch': 0.01}
  1%|          | 67/6640 [18:24<29:33:37, 16.19s/it]  1%|          | 68/6640 [18:40<29:21:21, 16.08s/it]                                                    {'loss': 0.5955, 'learning_rate': 6.800000000000001e-06, 'epoch': 0.01}
  1%|          | 68/6640 [18:40<29:21:21, 16.08s/it]  1%|          | 69/6640 [18:57<29:29:58, 16.16s/it]                                                    {'loss': 0.5873, 'learning_rate': 6.9e-06, 'epoch': 0.01}
  1%|          | 69/6640 [18:57<29:29:58, 16.16s/it]  1%|          | 70/6640 [19:12<29:06:52, 15.95s/it]                                                    {'loss': 0.5801, 'learning_rate': 7e-06, 'epoch': 0.01}
  1%|          | 70/6640 [19:12<29:06:52, 15.95s/it]  1%|          | 71/6640 [19:28<29:08:17, 15.97s/it]                                                    {'loss': 0.5937, 'learning_rate': 7.100000000000001e-06, 'epoch': 0.01}
  1%|          | 71/6640 [19:28<29:08:17, 15.97s/it]  1%|          | 72/6640 [19:45<29:28:22, 16.15s/it]                                                    {'loss': 0.5886, 'learning_rate': 7.2000000000000005e-06, 'epoch': 0.01}
  1%|          | 72/6640 [19:45<29:28:22, 16.15s/it]  1%|          | 73/6640 [20:00<28:57:47, 15.88s/it]                                                    {'loss': 0.5927, 'learning_rate': 7.3e-06, 'epoch': 0.01}
  1%|          | 73/6640 [20:00<28:57:47, 15.88s/it]  1%|          | 74/6640 [20:17<29:33:36, 16.21s/it]                                                    {'loss': 0.5889, 'learning_rate': 7.4e-06, 'epoch': 0.01}
  1%|          | 74/6640 [20:17<29:33:36, 16.21s/it]  1%|          | 75/6640 [20:33<29:29:37, 16.17s/it]                                                    {'loss': 0.6167, 'learning_rate': 7.500000000000001e-06, 'epoch': 0.01}
  1%|          | 75/6640 [20:33<29:29:37, 16.17s/it]  1%|          | 76/6640 [20:50<29:45:52, 16.32s/it]                                                    {'loss': 0.5768, 'learning_rate': 7.600000000000001e-06, 'epoch': 0.01}
  1%|          | 76/6640 [20:50<29:45:52, 16.32s/it]  1%|          | 77/6640 [21:06<29:54:29, 16.41s/it]                                                    {'loss': 0.57, 'learning_rate': 7.7e-06, 'epoch': 0.01}
  1%|          | 77/6640 [21:06<29:54:29, 16.41s/it]  1%|          | 78/6640 [21:23<29:55:17, 16.42s/it]                                                    {'loss': 0.5927, 'learning_rate': 7.800000000000002e-06, 'epoch': 0.01}
  1%|          | 78/6640 [21:23<29:55:17, 16.42s/it]  1%|          | 79/6640 [21:39<29:42:42, 16.30s/it]                                                    {'loss': 0.5809, 'learning_rate': 7.9e-06, 'epoch': 0.01}
  1%|          | 79/6640 [21:39<29:42:42, 16.30s/it]  1%|          | 80/6640 [21:55<29:46:26, 16.34s/it]                                                    {'loss': 0.586, 'learning_rate': 8.000000000000001e-06, 'epoch': 0.01}
  1%|          | 80/6640 [21:55<29:46:26, 16.34s/it]  1%|          | 81/6640 [22:11<29:42:31, 16.31s/it]                                                    {'loss': 0.5767, 'learning_rate': 8.1e-06, 'epoch': 0.01}
  1%|          | 81/6640 [22:11<29:42:31, 16.31s/it]  1%|          | 82/6640 [22:28<30:05:15, 16.52s/it]                                                    {'loss': 0.5891, 'learning_rate': 8.2e-06, 'epoch': 0.01}
  1%|          | 82/6640 [22:28<30:05:15, 16.52s/it]  1%|▏         | 83/6640 [22:44<29:54:54, 16.42s/it]                                                    {'loss': 0.5746, 'learning_rate': 8.3e-06, 'epoch': 0.01}
  1%|▏         | 83/6640 [22:44<29:54:54, 16.42s/it]  1%|▏         | 84/6640 [23:02<30:19:32, 16.65s/it]                                                    {'loss': 0.5892, 'learning_rate': 8.400000000000001e-06, 'epoch': 0.01}
  1%|▏         | 84/6640 [23:02<30:19:32, 16.65s/it]  1%|▏         | 85/6640 [23:18<29:59:20, 16.47s/it]                                                    {'loss': 0.598, 'learning_rate': 8.5e-06, 'epoch': 0.01}
  1%|▏         | 85/6640 [23:18<29:59:20, 16.47s/it]  1%|▏         | 86/6640 [23:34<29:46:19, 16.35s/it]                                                    {'loss': 0.5698, 'learning_rate': 8.6e-06, 'epoch': 0.01}
  1%|▏         | 86/6640 [23:34<29:46:19, 16.35s/it]  1%|▏         | 87/6640 [23:49<29:18:54, 16.10s/it]                                                    {'loss': 0.5814, 'learning_rate': 8.700000000000001e-06, 'epoch': 0.01}
  1%|▏         | 87/6640 [23:49<29:18:54, 16.10s/it]  1%|▏         | 88/6640 [24:06<29:22:13, 16.14s/it]                                                    {'loss': 0.5698, 'learning_rate': 8.8e-06, 'epoch': 0.01}
  1%|▏         | 88/6640 [24:06<29:22:13, 16.14s/it]  1%|▏         | 89/6640 [24:22<29:22:58, 16.15s/it]                                                    {'loss': 0.5903, 'learning_rate': 8.900000000000001e-06, 'epoch': 0.01}
  1%|▏         | 89/6640 [24:22<29:22:58, 16.15s/it]  1%|▏         | 90/6640 [24:38<29:19:30, 16.12s/it]                                                    {'loss': 0.5652, 'learning_rate': 9e-06, 'epoch': 0.01}
  1%|▏         | 90/6640 [24:38<29:19:30, 16.12s/it]  1%|▏         | 91/6640 [24:54<29:15:05, 16.08s/it]                                                    {'loss': 0.5718, 'learning_rate': 9.100000000000001e-06, 'epoch': 0.01}
  1%|▏         | 91/6640 [24:54<29:15:05, 16.08s/it]  1%|▏         | 92/6640 [25:09<28:57:26, 15.92s/it]                                                    {'loss': 0.5752, 'learning_rate': 9.200000000000002e-06, 'epoch': 0.01}
  1%|▏         | 92/6640 [25:09<28:57:26, 15.92s/it]  1%|▏         | 93/6640 [25:25<29:05:34, 16.00s/it]                                                    {'loss': 0.5714, 'learning_rate': 9.3e-06, 'epoch': 0.01}
  1%|▏         | 93/6640 [25:25<29:05:34, 16.00s/it]  1%|▏         | 94/6640 [25:42<29:06:19, 16.01s/it]                                                    {'loss': 0.5778, 'learning_rate': 9.4e-06, 'epoch': 0.01}
  1%|▏         | 94/6640 [25:42<29:06:19, 16.01s/it]  1%|▏         | 95/6640 [25:58<29:10:16, 16.05s/it]                                                    {'loss': 0.5714, 'learning_rate': 9.5e-06, 'epoch': 0.01}
  1%|▏         | 95/6640 [25:58<29:10:16, 16.05s/it]  1%|▏         | 96/6640 [26:14<29:11:19, 16.06s/it]                                                    {'loss': 0.5681, 'learning_rate': 9.600000000000001e-06, 'epoch': 0.01}
  1%|▏         | 96/6640 [26:14<29:11:19, 16.06s/it]  1%|▏         | 97/6640 [26:30<29:10:35, 16.05s/it]                                                    {'loss': 0.5774, 'learning_rate': 9.7e-06, 'epoch': 0.01}
  1%|▏         | 97/6640 [26:30<29:10:35, 16.05s/it]  1%|▏         | 98/6640 [26:45<28:53:54, 15.90s/it]                                                    {'loss': 0.5676, 'learning_rate': 9.800000000000001e-06, 'epoch': 0.01}
  1%|▏         | 98/6640 [26:45<28:53:54, 15.90s/it]  1%|▏         | 99/6640 [27:02<29:08:16, 16.04s/it]                                                    {'loss': 0.5871, 'learning_rate': 9.9e-06, 'epoch': 0.01}
  1%|▏         | 99/6640 [27:02<29:08:16, 16.04s/it]5 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
1 4AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
032  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

6 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
  2%|▏         | 100/6640 [27:18<29:11:12, 16.07s/it]                                                     {'loss': 0.5693, 'learning_rate': 1e-05, 'epoch': 0.02}
  2%|▏         | 100/6640 [27:18<29:11:12, 16.07s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-100/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-100/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-100/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
  2%|▏         | 101/6640 [28:35<62:35:01, 34.45s/it]                                                     {'loss': 0.567, 'learning_rate': 1.0100000000000002e-05, 'epoch': 0.02}
  2%|▏         | 101/6640 [28:35<62:35:01, 34.45s/it]  2%|▏         | 102/6640 [28:52<53:00:46, 29.19s/it]                                                     {'loss': 0.5786, 'learning_rate': 1.02e-05, 'epoch': 0.02}
  2%|▏         | 102/6640 [28:52<53:00:46, 29.19s/it]  2%|▏         | 103/6640 [29:09<46:03:40, 25.37s/it]                                                     {'loss': 0.565, 'learning_rate': 1.0300000000000001e-05, 'epoch': 0.02}
  2%|▏         | 103/6640 [29:09<46:03:40, 25.37s/it]  2%|▏         | 104/6640 [29:24<40:52:18, 22.51s/it]                                                     {'loss': 0.5632, 'learning_rate': 1.04e-05, 'epoch': 0.02}
  2%|▏         | 104/6640 [29:24<40:52:18, 22.51s/it]  2%|▏         | 105/6640 [29:40<36:57:39, 20.36s/it]                                                     {'loss': 0.5589, 'learning_rate': 1.0500000000000001e-05, 'epoch': 0.02}
  2%|▏         | 105/6640 [29:40<36:57:39, 20.36s/it]  2%|▏         | 106/6640 [29:55<34:19:19, 18.91s/it]                                                     {'loss': 0.5696, 'learning_rate': 1.0600000000000002e-05, 'epoch': 0.02}
  2%|▏         | 106/6640 [29:55<34:19:19, 18.91s/it]  2%|▏         | 107/6640 [30:11<32:33:41, 17.94s/it]                                                     {'loss': 0.6159, 'learning_rate': 1.0700000000000001e-05, 'epoch': 0.02}
  2%|▏         | 107/6640 [30:11<32:33:41, 17.94s/it]  2%|▏         | 108/6640 [30:27<31:22:17, 17.29s/it]                                                     {'loss': 0.5703, 'learning_rate': 1.0800000000000002e-05, 'epoch': 0.02}
  2%|▏         | 108/6640 [30:27<31:22:17, 17.29s/it]  2%|▏         | 109/6640 [30:43<30:36:53, 16.88s/it]                                                     {'loss': 0.5557, 'learning_rate': 1.0900000000000002e-05, 'epoch': 0.02}
  2%|▏         | 109/6640 [30:43<30:36:53, 16.88s/it]  2%|▏         | 110/6640 [30:59<30:12:49, 16.66s/it]                                                     {'loss': 0.5693, 'learning_rate': 1.1000000000000001e-05, 'epoch': 0.02}
  2%|▏         | 110/6640 [30:59<30:12:49, 16.66s/it]  2%|▏         | 111/6640 [31:15<30:13:37, 16.67s/it]                                                     {'loss': 0.5532, 'learning_rate': 1.1100000000000002e-05, 'epoch': 0.02}
  2%|▏         | 111/6640 [31:15<30:13:37, 16.67s/it]  2%|▏         | 112/6640 [31:31<29:48:22, 16.44s/it]                                                     {'loss': 0.5578, 'learning_rate': 1.1200000000000001e-05, 'epoch': 0.02}
  2%|▏         | 112/6640 [31:31<29:48:22, 16.44s/it]  2%|▏         | 113/6640 [31:47<29:27:51, 16.25s/it]                                                     {'loss': 0.552, 'learning_rate': 1.13e-05, 'epoch': 0.02}
  2%|▏         | 113/6640 [31:47<29:27:51, 16.25s/it]  2%|▏         | 114/6640 [32:03<29:12:06, 16.11s/it]                                                     {'loss': 0.5693, 'learning_rate': 1.14e-05, 'epoch': 0.02}
  2%|▏         | 114/6640 [32:03<29:12:06, 16.11s/it]  2%|▏         | 115/6640 [32:20<29:57:34, 16.53s/it]                                                     {'loss': 0.581, 'learning_rate': 1.15e-05, 'epoch': 0.02}
  2%|▏         | 115/6640 [32:20<29:57:34, 16.53s/it]  2%|▏         | 116/6640 [32:37<29:44:53, 16.42s/it]                                                     {'loss': 0.5951, 'learning_rate': 1.16e-05, 'epoch': 0.02}
  2%|▏         | 116/6640 [32:37<29:44:53, 16.42s/it]  2%|▏         | 117/6640 [32:52<29:11:04, 16.11s/it]                                                     {'loss': 0.5684, 'learning_rate': 1.17e-05, 'epoch': 0.02}
  2%|▏         | 117/6640 [32:52<29:11:04, 16.11s/it]  2%|▏         | 118/6640 [33:08<29:09:38, 16.10s/it]                                                     {'loss': 0.5878, 'learning_rate': 1.18e-05, 'epoch': 0.02}
  2%|▏         | 118/6640 [33:08<29:09:38, 16.10s/it]  2%|▏         | 119/6640 [33:24<29:07:09, 16.08s/it]                                                     {'loss': 0.5738, 'learning_rate': 1.1900000000000001e-05, 'epoch': 0.02}
  2%|▏         | 119/6640 [33:24<29:07:09, 16.08s/it]  2%|▏         | 120/6640 [33:41<29:33:33, 16.32s/it]                                                     {'loss': 0.5851, 'learning_rate': 1.2e-05, 'epoch': 0.02}
  2%|▏         | 120/6640 [33:41<29:33:33, 16.32s/it]  2%|▏         | 121/6640 [33:57<29:32:37, 16.31s/it]                                                     {'loss': 0.5841, 'learning_rate': 1.2100000000000001e-05, 'epoch': 0.02}
  2%|▏         | 121/6640 [33:57<29:32:37, 16.31s/it]  2%|▏         | 122/6640 [34:13<29:18:14, 16.19s/it]                                                     {'loss': 0.5642, 'learning_rate': 1.22e-05, 'epoch': 0.02}
  2%|▏         | 122/6640 [34:13<29:18:14, 16.19s/it]  2%|▏         | 123/6640 [34:29<29:17:17, 16.18s/it]                                                     {'loss': 0.5553, 'learning_rate': 1.23e-05, 'epoch': 0.02}
  2%|▏         | 123/6640 [34:29<29:17:17, 16.18s/it]  2%|▏         | 124/6640 [34:45<29:07:36, 16.09s/it]                                                     {'loss': 0.6058, 'learning_rate': 1.2400000000000002e-05, 'epoch': 0.02}
  2%|▏         | 124/6640 [34:45<29:07:36, 16.09s/it]  2%|▏         | 125/6640 [35:01<29:07:39, 16.10s/it]                                                     {'loss': 0.5513, 'learning_rate': 1.25e-05, 'epoch': 0.02}
  2%|▏         | 125/6640 [35:01<29:07:39, 16.10s/it]  2%|▏         | 126/6640 [35:18<29:26:34, 16.27s/it]                                                     {'loss': 0.5786, 'learning_rate': 1.2600000000000001e-05, 'epoch': 0.02}
  2%|▏         | 126/6640 [35:18<29:26:34, 16.27s/it]  2%|▏         | 127/6640 [35:34<29:20:25, 16.22s/it]                                                     {'loss': 0.5565, 'learning_rate': 1.27e-05, 'epoch': 0.02}
  2%|▏         | 127/6640 [35:34<29:20:25, 16.22s/it]  2%|▏         | 128/6640 [35:50<28:55:33, 15.99s/it]                                                     {'loss': 0.5663, 'learning_rate': 1.2800000000000001e-05, 'epoch': 0.02}
  2%|▏         | 128/6640 [35:50<28:55:33, 15.99s/it]  2%|▏         | 129/6640 [36:06<29:09:53, 16.13s/it]                                                     {'loss': 0.5655, 'learning_rate': 1.2900000000000002e-05, 'epoch': 0.02}
  2%|▏         | 129/6640 [36:06<29:09:53, 16.13s/it]  2%|▏         | 130/6640 [36:22<28:57:45, 16.02s/it]                                                     {'loss': 0.5712, 'learning_rate': 1.3000000000000001e-05, 'epoch': 0.02}
  2%|▏         | 130/6640 [36:22<28:57:45, 16.02s/it]  2%|▏         | 131/6640 [36:38<29:08:22, 16.12s/it]                                                     {'loss': 0.5494, 'learning_rate': 1.3100000000000002e-05, 'epoch': 0.02}
  2%|▏         | 131/6640 [36:38<29:08:22, 16.12s/it]  2%|▏         | 132/6640 [36:54<29:10:44, 16.14s/it]                                                     {'loss': 0.5521, 'learning_rate': 1.3200000000000002e-05, 'epoch': 0.02}
  2%|▏         | 132/6640 [36:54<29:10:44, 16.14s/it]  2%|▏         | 133/6640 [37:10<29:07:26, 16.11s/it]                                                     {'loss': 0.5511, 'learning_rate': 1.3300000000000001e-05, 'epoch': 0.02}
  2%|▏         | 133/6640 [37:10<29:07:26, 16.11s/it]  2%|▏         | 134/6640 [37:26<29:06:32, 16.11s/it]                                                     {'loss': 0.5941, 'learning_rate': 1.3400000000000002e-05, 'epoch': 0.02}
  2%|▏         | 134/6640 [37:26<29:06:32, 16.11s/it]  2%|▏         | 135/6640 [37:43<29:27:01, 16.30s/it]                                                     {'loss': 0.5623, 'learning_rate': 1.3500000000000001e-05, 'epoch': 0.02}
  2%|▏         | 135/6640 [37:43<29:27:01, 16.30s/it]  2%|▏         | 136/6640 [38:00<29:54:47, 16.56s/it]                                                     {'loss': 0.5663, 'learning_rate': 1.3600000000000002e-05, 'epoch': 0.02}
  2%|▏         | 136/6640 [38:00<29:54:47, 16.56s/it]  2%|▏         | 137/6640 [38:16<29:10:46, 16.15s/it]                                                     {'loss': 0.5681, 'learning_rate': 1.3700000000000003e-05, 'epoch': 0.02}
  2%|▏         | 137/6640 [38:16<29:10:46, 16.15s/it]  2%|▏         | 138/6640 [38:31<28:49:36, 15.96s/it]                                                     {'loss': 0.5866, 'learning_rate': 1.38e-05, 'epoch': 0.02}
  2%|▏         | 138/6640 [38:31<28:49:36, 15.96s/it]  2%|▏         | 139/6640 [38:47<29:02:43, 16.08s/it]                                                     {'loss': 0.5616, 'learning_rate': 1.39e-05, 'epoch': 0.02}
  2%|▏         | 139/6640 [38:47<29:02:43, 16.08s/it]  2%|▏         | 140/6640 [39:04<29:18:33, 16.23s/it]                                                     {'loss': 0.5733, 'learning_rate': 1.4e-05, 'epoch': 0.02}
  2%|▏         | 140/6640 [39:04<29:18:33, 16.23s/it]  2%|▏         | 141/6640 [39:21<29:34:17, 16.38s/it]                                                     {'loss': 0.5603, 'learning_rate': 1.41e-05, 'epoch': 0.02}
  2%|▏         | 141/6640 [39:21<29:34:17, 16.38s/it]  2%|▏         | 142/6640 [39:36<28:58:26, 16.05s/it]                                                     {'loss': 0.5458, 'learning_rate': 1.4200000000000001e-05, 'epoch': 0.02}
  2%|▏         | 142/6640 [39:36<28:58:26, 16.05s/it]  2%|▏         | 143/6640 [39:51<28:30:48, 15.80s/it]                                                     {'loss': 0.5796, 'learning_rate': 1.43e-05, 'epoch': 0.02}
  2%|▏         | 143/6640 [39:51<28:30:48, 15.80s/it]  2%|▏         | 144/6640 [40:07<28:40:01, 15.89s/it]                                                     {'loss': 0.566, 'learning_rate': 1.4400000000000001e-05, 'epoch': 0.02}
  2%|▏         | 144/6640 [40:07<28:40:01, 15.89s/it]  2%|▏         | 145/6640 [40:24<29:13:49, 16.20s/it]                                                     {'loss': 0.5683, 'learning_rate': 1.45e-05, 'epoch': 0.02}
  2%|▏         | 145/6640 [40:24<29:13:49, 16.20s/it]  2%|▏         | 146/6640 [40:41<29:31:51, 16.37s/it]                                                     {'loss': 0.5766, 'learning_rate': 1.46e-05, 'epoch': 0.02}
  2%|▏         | 146/6640 [40:41<29:31:51, 16.37s/it]  2%|▏         | 147/6640 [40:57<29:10:48, 16.18s/it]                                                     {'loss': 0.5757, 'learning_rate': 1.4700000000000002e-05, 'epoch': 0.02}
  2%|▏         | 147/6640 [40:57<29:10:48, 16.18s/it]  2%|▏         | 148/6640 [41:12<28:51:53, 16.01s/it]                                                     {'loss': 0.5585, 'learning_rate': 1.48e-05, 'epoch': 0.02}
  2%|▏         | 148/6640 [41:12<28:51:53, 16.01s/it]  2%|▏         | 149/6640 [41:29<29:15:07, 16.22s/it]                                                     {'loss': 0.5656, 'learning_rate': 1.4900000000000001e-05, 'epoch': 0.02}
  2%|▏         | 149/6640 [41:29<29:15:07, 16.22s/it]2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
  2%|▏         | 150/6640 [41:45<29:11:45, 16.19s/it]6 AutoResumeHook: Checking whether to suspend...
                                                     {'loss': 0.5691, 'learning_rate': 1.5000000000000002e-05, 'epoch': 0.02}
  2%|▏         | 150/6640 [41:45<29:11:45, 16.19s/it]  2%|▏         | 151/6640 [42:01<28:53:19, 16.03s/it]                                                     {'loss': 0.5407, 'learning_rate': 1.5100000000000001e-05, 'epoch': 0.02}
  2%|▏         | 151/6640 [42:01<28:53:19, 16.03s/it]  2%|▏         | 152/6640 [42:17<29:05:38, 16.14s/it]                                                     {'loss': 0.5414, 'learning_rate': 1.5200000000000002e-05, 'epoch': 0.02}
  2%|▏         | 152/6640 [42:17<29:05:38, 16.14s/it]  2%|▏         | 153/6640 [42:34<29:23:00, 16.31s/it]                                                     {'loss': 0.5686, 'learning_rate': 1.5300000000000003e-05, 'epoch': 0.02}
  2%|▏         | 153/6640 [42:34<29:23:00, 16.31s/it]  2%|▏         | 154/6640 [42:50<28:58:16, 16.08s/it]                                                     {'loss': 0.5459, 'learning_rate': 1.54e-05, 'epoch': 0.02}
  2%|▏         | 154/6640 [42:50<28:58:16, 16.08s/it]  2%|▏         | 155/6640 [43:06<28:55:27, 16.06s/it]                                                     {'loss': 0.5559, 'learning_rate': 1.55e-05, 'epoch': 0.02}
  2%|▏         | 155/6640 [43:06<28:55:27, 16.06s/it]  2%|▏         | 156/6640 [43:22<29:05:00, 16.15s/it]                                                     {'loss': 0.5714, 'learning_rate': 1.5600000000000003e-05, 'epoch': 0.02}
  2%|▏         | 156/6640 [43:22<29:05:00, 16.15s/it]  2%|▏         | 157/6640 [43:38<28:52:58, 16.04s/it]                                                     {'loss': 0.5436, 'learning_rate': 1.5700000000000002e-05, 'epoch': 0.02}
  2%|▏         | 157/6640 [43:38<28:52:58, 16.04s/it]  2%|▏         | 158/6640 [43:54<28:57:07, 16.08s/it]                                                     {'loss': 0.5629, 'learning_rate': 1.58e-05, 'epoch': 0.02}
  2%|▏         | 158/6640 [43:54<28:57:07, 16.08s/it]  2%|▏         | 159/6640 [44:10<29:10:29, 16.21s/it]                                                     {'loss': 0.5683, 'learning_rate': 1.5900000000000004e-05, 'epoch': 0.02}
  2%|▏         | 159/6640 [44:10<29:10:29, 16.21s/it]  2%|▏         | 160/6640 [44:26<28:55:16, 16.07s/it]                                                     {'loss': 0.5666, 'learning_rate': 1.6000000000000003e-05, 'epoch': 0.02}
  2%|▏         | 160/6640 [44:26<28:55:16, 16.07s/it]  2%|▏         | 161/6640 [44:42<29:01:51, 16.13s/it]                                                     {'loss': 0.5847, 'learning_rate': 1.6100000000000002e-05, 'epoch': 0.02}
  2%|▏         | 161/6640 [44:42<29:01:51, 16.13s/it]  2%|▏         | 162/6640 [44:59<29:19:37, 16.30s/it]                                                     {'loss': 0.5669, 'learning_rate': 1.62e-05, 'epoch': 0.02}
  2%|▏         | 162/6640 [44:59<29:19:37, 16.30s/it]  2%|▏         | 163/6640 [45:15<29:13:18, 16.24s/it]                                                     {'loss': 0.5476, 'learning_rate': 1.63e-05, 'epoch': 0.02}
  2%|▏         | 163/6640 [45:15<29:13:18, 16.24s/it]  2%|▏         | 164/6640 [45:31<28:59:37, 16.12s/it]                                                     {'loss': 0.5616, 'learning_rate': 1.64e-05, 'epoch': 0.02}
  2%|▏         | 164/6640 [45:31<28:59:37, 16.12s/it]  2%|▏         | 165/6640 [45:47<28:58:41, 16.11s/it]                                                     {'loss': 0.545, 'learning_rate': 1.65e-05, 'epoch': 0.02}
  2%|▏         | 165/6640 [45:47<28:58:41, 16.11s/it]  2%|▎         | 166/6640 [46:03<28:48:53, 16.02s/it]                                                     {'loss': 0.5445, 'learning_rate': 1.66e-05, 'epoch': 0.03}
  2%|▎         | 166/6640 [46:03<28:48:53, 16.02s/it]  3%|▎         | 167/6640 [46:20<29:24:11, 16.35s/it]                                                     {'loss': 0.5769, 'learning_rate': 1.67e-05, 'epoch': 0.03}
  3%|▎         | 167/6640 [46:20<29:24:11, 16.35s/it]  3%|▎         | 168/6640 [46:36<29:06:20, 16.19s/it]                                                     {'loss': 0.5748, 'learning_rate': 1.6800000000000002e-05, 'epoch': 0.03}
  3%|▎         | 168/6640 [46:36<29:06:20, 16.19s/it]  3%|▎         | 169/6640 [46:52<29:14:04, 16.26s/it]                                                     {'loss': 0.5437, 'learning_rate': 1.69e-05, 'epoch': 0.03}
  3%|▎         | 169/6640 [46:52<29:14:04, 16.26s/it]  3%|▎         | 170/6640 [47:09<29:32:19, 16.44s/it]                                                     {'loss': 0.5655, 'learning_rate': 1.7e-05, 'epoch': 0.03}
  3%|▎         | 170/6640 [47:09<29:32:19, 16.44s/it]  3%|▎         | 171/6640 [47:25<29:09:49, 16.23s/it]                                                     {'loss': 0.5649, 'learning_rate': 1.7100000000000002e-05, 'epoch': 0.03}
  3%|▎         | 171/6640 [47:25<29:09:49, 16.23s/it]  3%|▎         | 172/6640 [47:41<29:06:11, 16.20s/it]                                                     {'loss': 0.5645, 'learning_rate': 1.72e-05, 'epoch': 0.03}
  3%|▎         | 172/6640 [47:41<29:06:11, 16.20s/it]  3%|▎         | 173/6640 [47:57<29:10:12, 16.24s/it]                                                     {'loss': 0.5586, 'learning_rate': 1.73e-05, 'epoch': 0.03}
  3%|▎         | 173/6640 [47:57<29:10:12, 16.24s/it]  3%|▎         | 174/6640 [48:14<29:28:21, 16.41s/it]                                                     {'loss': 0.5413, 'learning_rate': 1.7400000000000003e-05, 'epoch': 0.03}
  3%|▎         | 174/6640 [48:14<29:28:21, 16.41s/it]  3%|▎         | 175/6640 [48:30<29:26:45, 16.40s/it]                                                     {'loss': 0.5883, 'learning_rate': 1.7500000000000002e-05, 'epoch': 0.03}
  3%|▎         | 175/6640 [48:30<29:26:45, 16.40s/it]  3%|▎         | 176/6640 [48:47<29:28:46, 16.42s/it]                                                     {'loss': 0.5793, 'learning_rate': 1.76e-05, 'epoch': 0.03}
  3%|▎         | 176/6640 [48:47<29:28:46, 16.42s/it]  3%|▎         | 177/6640 [49:03<29:29:29, 16.43s/it]                                                     {'loss': 0.5584, 'learning_rate': 1.77e-05, 'epoch': 0.03}
  3%|▎         | 177/6640 [49:03<29:29:29, 16.43s/it]  3%|▎         | 178/6640 [49:20<29:35:33, 16.49s/it]                                                     {'loss': 0.5445, 'learning_rate': 1.7800000000000002e-05, 'epoch': 0.03}
  3%|▎         | 178/6640 [49:20<29:35:33, 16.49s/it]  3%|▎         | 179/6640 [49:37<29:46:36, 16.59s/it]                                                     {'loss': 0.553, 'learning_rate': 1.79e-05, 'epoch': 0.03}
  3%|▎         | 179/6640 [49:37<29:46:36, 16.59s/it]  3%|▎         | 180/6640 [49:54<30:00:18, 16.72s/it]                                                     {'loss': 0.5664, 'learning_rate': 1.8e-05, 'epoch': 0.03}
  3%|▎         | 180/6640 [49:54<30:00:18, 16.72s/it]  3%|▎         | 181/6640 [50:10<29:31:54, 16.46s/it]                                                     {'loss': 0.5268, 'learning_rate': 1.8100000000000003e-05, 'epoch': 0.03}
  3%|▎         | 181/6640 [50:10<29:31:54, 16.46s/it]  3%|▎         | 182/6640 [50:26<29:11:26, 16.27s/it]                                                     {'loss': 0.5719, 'learning_rate': 1.8200000000000002e-05, 'epoch': 0.03}
  3%|▎         | 182/6640 [50:26<29:11:26, 16.27s/it]  3%|▎         | 183/6640 [50:42<29:18:20, 16.34s/it]                                                     {'loss': 0.5491, 'learning_rate': 1.83e-05, 'epoch': 0.03}
  3%|▎         | 183/6640 [50:42<29:18:20, 16.34s/it]  3%|▎         | 184/6640 [50:58<29:02:15, 16.19s/it]                                                     {'loss': 0.5708, 'learning_rate': 1.8400000000000003e-05, 'epoch': 0.03}
  3%|▎         | 184/6640 [50:58<29:02:15, 16.19s/it]  3%|▎         | 185/6640 [51:14<29:06:11, 16.23s/it]                                                     {'loss': 0.5676, 'learning_rate': 1.8500000000000002e-05, 'epoch': 0.03}
  3%|▎         | 185/6640 [51:14<29:06:11, 16.23s/it]  3%|▎         | 186/6640 [51:30<28:49:44, 16.08s/it]                                                     {'loss': 0.5603, 'learning_rate': 1.86e-05, 'epoch': 0.03}
  3%|▎         | 186/6640 [51:30<28:49:44, 16.08s/it]  3%|▎         | 187/6640 [51:46<28:39:43, 15.99s/it]                                                     {'loss': 0.557, 'learning_rate': 1.8700000000000004e-05, 'epoch': 0.03}
  3%|▎         | 187/6640 [51:46<28:39:43, 15.99s/it]  3%|▎         | 188/6640 [52:02<28:37:19, 15.97s/it]                                                     {'loss': 0.5553, 'learning_rate': 1.88e-05, 'epoch': 0.03}
  3%|▎         | 188/6640 [52:02<28:37:19, 15.97s/it]  3%|▎         | 189/6640 [52:18<28:51:50, 16.11s/it]                                                     {'loss': 0.5569, 'learning_rate': 1.8900000000000002e-05, 'epoch': 0.03}
  3%|▎         | 189/6640 [52:18<28:51:50, 16.11s/it]  3%|▎         | 190/6640 [52:34<28:59:16, 16.18s/it]                                                     {'loss': 0.5722, 'learning_rate': 1.9e-05, 'epoch': 0.03}
  3%|▎         | 190/6640 [52:34<28:59:16, 16.18s/it]  3%|▎         | 191/6640 [52:51<29:13:08, 16.31s/it]                                                     {'loss': 0.5655, 'learning_rate': 1.91e-05, 'epoch': 0.03}
  3%|▎         | 191/6640 [52:51<29:13:08, 16.31s/it]  3%|▎         | 192/6640 [53:07<28:51:08, 16.11s/it]                                                     {'loss': 0.5583, 'learning_rate': 1.9200000000000003e-05, 'epoch': 0.03}
  3%|▎         | 192/6640 [53:07<28:51:08, 16.11s/it]  3%|▎         | 193/6640 [53:23<28:52:52, 16.13s/it]                                                     {'loss': 0.5673, 'learning_rate': 1.93e-05, 'epoch': 0.03}
  3%|▎         | 193/6640 [53:23<28:52:52, 16.13s/it]  3%|▎         | 194/6640 [53:39<28:56:19, 16.16s/it]                                                     {'loss': 0.5596, 'learning_rate': 1.94e-05, 'epoch': 0.03}
  3%|▎         | 194/6640 [53:39<28:56:19, 16.16s/it]  3%|▎         | 195/6640 [53:55<28:45:30, 16.06s/it]                                                     {'loss': 0.5585, 'learning_rate': 1.95e-05, 'epoch': 0.03}
  3%|▎         | 195/6640 [53:55<28:45:30, 16.06s/it]  3%|▎         | 196/6640 [54:11<28:57:36, 16.18s/it]                                                     {'loss': 0.5597, 'learning_rate': 1.9600000000000002e-05, 'epoch': 0.03}
  3%|▎         | 196/6640 [54:11<28:57:36, 16.18s/it]  3%|▎         | 197/6640 [54:27<28:43:40, 16.05s/it]                                                     {'loss': 0.5551, 'learning_rate': 1.97e-05, 'epoch': 0.03}
  3%|▎         | 197/6640 [54:27<28:43:40, 16.05s/it]  3%|▎         | 198/6640 [54:43<28:35:08, 15.97s/it]                                                     {'loss': 0.5691, 'learning_rate': 1.98e-05, 'epoch': 0.03}
  3%|▎         | 198/6640 [54:43<28:35:08, 15.97s/it]  3%|▎         | 199/6640 [54:59<28:43:12, 16.05s/it]                                                     {'loss': 0.5295, 'learning_rate': 1.9900000000000003e-05, 'epoch': 0.03}
  3%|▎         | 199/6640 [54:59<28:43:12, 16.05s/it]4 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
  3%|▎         | 200/6640 [55:15<28:42:39, 16.05s/it]1 AutoResumeHook: Checking whether to suspend...
                                                     {'loss': 0.563, 'learning_rate': 2e-05, 'epoch': 0.03}
  3%|▎         | 200/6640 [55:15<28:42:39, 16.05s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-200/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-200/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-200/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
  3%|▎         | 201/6640 [56:58<75:05:43, 41.99s/it]                                                     {'loss': 0.5769, 'learning_rate': 1.9999998810134135e-05, 'epoch': 0.03}
  3%|▎         | 201/6640 [56:58<75:05:43, 41.99s/it]  3%|▎         | 202/6640 [57:14<61:06:31, 34.17s/it]                                                     {'loss': 0.5814, 'learning_rate': 1.9999995240536816e-05, 'epoch': 0.03}
  3%|▎         | 202/6640 [57:14<61:06:31, 34.17s/it]  3%|▎         | 203/6640 [57:30<51:24:49, 28.75s/it]                                                     {'loss': 0.551, 'learning_rate': 1.9999989291208895e-05, 'epoch': 0.03}
  3%|▎         | 203/6640 [57:30<51:24:49, 28.75s/it]  3%|▎         | 204/6640 [57:46<44:56:59, 25.14s/it]                                                     {'loss': 0.5587, 'learning_rate': 1.999998096215179e-05, 'epoch': 0.03}
  3%|▎         | 204/6640 [57:46<44:56:59, 25.14s/it]  3%|▎         | 205/6640 [58:04<40:37:38, 22.73s/it]                                                     {'loss': 0.5462, 'learning_rate': 1.999997025336748e-05, 'epoch': 0.03}
  3%|▎         | 205/6640 [58:04<40:37:38, 22.73s/it]  3%|▎         | 206/6640 [58:20<37:02:05, 20.72s/it]                                                     {'loss': 0.5735, 'learning_rate': 1.9999957164858518e-05, 'epoch': 0.03}
  3%|▎         | 206/6640 [58:20<37:02:05, 20.72s/it]  3%|▎         | 207/6640 [58:36<34:40:18, 19.40s/it]                                                     {'loss': 0.5618, 'learning_rate': 1.999994169662801e-05, 'epoch': 0.03}
  3%|▎         | 207/6640 [58:36<34:40:18, 19.40s/it]  3%|▎         | 208/6640 [58:53<33:24:33, 18.70s/it]                                                     {'loss': 0.5691, 'learning_rate': 1.9999923848679645e-05, 'epoch': 0.03}
  3%|▎         | 208/6640 [58:53<33:24:33, 18.70s/it]  3%|▎         | 209/6640 [59:09<31:49:09, 17.81s/it]                                                     {'loss': 0.559, 'learning_rate': 1.999990362101767e-05, 'epoch': 0.03}
  3%|▎         | 209/6640 [59:09<31:49:09, 17.81s/it]  3%|▎         | 210/6640 [59:25<31:01:45, 17.37s/it]                                                     {'loss': 0.5761, 'learning_rate': 1.9999881013646893e-05, 'epoch': 0.03}
  3%|▎         | 210/6640 [59:25<31:01:45, 17.37s/it]  3%|▎         | 211/6640 [59:41<30:20:32, 16.99s/it]                                                     {'loss': 0.5667, 'learning_rate': 1.99998560265727e-05, 'epoch': 0.03}
  3%|▎         | 211/6640 [59:41<30:20:32, 16.99s/it]  3%|▎         | 212/6640 [59:58<30:00:45, 16.81s/it]                                                     {'loss': 0.5762, 'learning_rate': 1.999982865980103e-05, 'epoch': 0.03}
  3%|▎         | 212/6640 [59:58<30:00:45, 16.81s/it]  3%|▎         | 213/6640 [1:00:13<29:27:16, 16.50s/it]                                                       {'loss': 0.5768, 'learning_rate': 1.9999798913338404e-05, 'epoch': 0.03}
  3%|▎         | 213/6640 [1:00:13<29:27:16, 16.50s/it]  3%|▎         | 214/6640 [1:00:29<29:06:52, 16.31s/it]                                                       {'loss': 0.5687, 'learning_rate': 1.9999766787191897e-05, 'epoch': 0.03}
  3%|▎         | 214/6640 [1:00:29<29:06:52, 16.31s/it]  3%|▎         | 215/6640 [1:00:44<28:30:49, 15.98s/it]                                                       {'loss': 0.5413, 'learning_rate': 1.999973228136915e-05, 'epoch': 0.03}
  3%|▎         | 215/6640 [1:00:44<28:30:49, 15.98s/it]  3%|▎         | 216/6640 [1:01:01<28:58:42, 16.24s/it]                                                       {'loss': 0.5572, 'learning_rate': 1.9999695395878382e-05, 'epoch': 0.03}
  3%|▎         | 216/6640 [1:01:01<28:58:42, 16.24s/it]  3%|▎         | 217/6640 [1:01:18<29:02:40, 16.28s/it]                                                       {'loss': 0.5551, 'learning_rate': 1.999965613072837e-05, 'epoch': 0.03}
  3%|▎         | 217/6640 [1:01:18<29:02:40, 16.28s/it]  3%|▎         | 218/6640 [1:01:34<29:16:04, 16.41s/it]                                                       {'loss': 0.5552, 'learning_rate': 1.9999614485928452e-05, 'epoch': 0.03}
  3%|▎         | 218/6640 [1:01:34<29:16:04, 16.41s/it]  3%|▎         | 219/6640 [1:01:50<29:03:34, 16.29s/it]                                                       {'loss': 0.5655, 'learning_rate': 1.9999570461488543e-05, 'epoch': 0.03}
  3%|▎         | 219/6640 [1:01:50<29:03:34, 16.29s/it]  3%|▎         | 220/6640 [1:02:06<28:45:57, 16.13s/it]                                                       {'loss': 0.5589, 'learning_rate': 1.9999524057419116e-05, 'epoch': 0.03}
  3%|▎         | 220/6640 [1:02:06<28:45:57, 16.13s/it]  3%|▎         | 221/6640 [1:02:22<28:41:47, 16.09s/it]                                                       {'loss': 0.5616, 'learning_rate': 1.9999475273731218e-05, 'epoch': 0.03}
  3%|▎         | 221/6640 [1:02:22<28:41:47, 16.09s/it]  3%|▎         | 222/6640 [1:02:38<28:47:29, 16.15s/it]                                                       {'loss': 0.5758, 'learning_rate': 1.999942411043646e-05, 'epoch': 0.03}
  3%|▎         | 222/6640 [1:02:38<28:47:29, 16.15s/it]  3%|▎         | 223/6640 [1:02:54<28:44:03, 16.12s/it]                                                       {'loss': 0.5686, 'learning_rate': 1.9999370567547008e-05, 'epoch': 0.03}
  3%|▎         | 223/6640 [1:02:54<28:44:03, 16.12s/it]  3%|▎         | 224/6640 [1:03:10<28:26:03, 15.95s/it]                                                       {'loss': 0.5697, 'learning_rate': 1.9999314645075612e-05, 'epoch': 0.03}
  3%|▎         | 224/6640 [1:03:10<28:26:03, 15.95s/it]  3%|▎         | 225/6640 [1:03:27<28:43:44, 16.12s/it]                                                       {'loss': 0.5696, 'learning_rate': 1.9999256343035577e-05, 'epoch': 0.03}
  3%|▎         | 225/6640 [1:03:27<28:43:44, 16.12s/it]  3%|▎         | 226/6640 [1:03:43<28:48:08, 16.17s/it]                                                       {'loss': 0.5492, 'learning_rate': 1.999919566144078e-05, 'epoch': 0.03}
  3%|▎         | 226/6640 [1:03:43<28:48:08, 16.17s/it]  3%|▎         | 227/6640 [1:03:59<28:37:16, 16.07s/it]                                                       {'loss': 0.568, 'learning_rate': 1.999913260030566e-05, 'epoch': 0.03}
  3%|▎         | 227/6640 [1:03:59<28:37:16, 16.07s/it]  3%|▎         | 228/6640 [1:04:15<28:51:11, 16.20s/it]                                                       {'loss': 0.558, 'learning_rate': 1.9999067159645222e-05, 'epoch': 0.03}
  3%|▎         | 228/6640 [1:04:15<28:51:11, 16.20s/it]  3%|▎         | 229/6640 [1:04:31<28:48:18, 16.18s/it]                                                       {'loss': 0.5615, 'learning_rate': 1.999899933947504e-05, 'epoch': 0.03}
  3%|▎         | 229/6640 [1:04:31<28:48:18, 16.18s/it]  3%|▎         | 230/6640 [1:04:47<28:48:30, 16.18s/it]                                                       {'loss': 0.5634, 'learning_rate': 1.9998929139811257e-05, 'epoch': 0.03}
  3%|▎         | 230/6640 [1:04:47<28:48:30, 16.18s/it]  3%|▎         | 231/6640 [1:05:04<28:47:57, 16.18s/it]                                                       {'loss': 0.5573, 'learning_rate': 1.9998856560670575e-05, 'epoch': 0.03}
  3%|▎         | 231/6640 [1:05:04<28:47:57, 16.18s/it]  3%|▎         | 232/6640 [1:05:21<29:16:17, 16.44s/it]                                                       {'loss': 0.5715, 'learning_rate': 1.9998781602070264e-05, 'epoch': 0.03}
  3%|▎         | 232/6640 [1:05:21<29:16:17, 16.44s/it]  4%|▎         | 233/6640 [1:05:36<28:52:25, 16.22s/it]                                                       {'loss': 0.5589, 'learning_rate': 1.999870426402817e-05, 'epoch': 0.04}
  4%|▎         | 233/6640 [1:05:36<28:52:25, 16.22s/it]  4%|▎         | 234/6640 [1:05:52<28:45:00, 16.16s/it]                                                       {'loss': 0.5673, 'learning_rate': 1.9998624546562688e-05, 'epoch': 0.04}
  4%|▎         | 234/6640 [1:05:52<28:45:00, 16.16s/it]  4%|▎         | 235/6640 [1:06:09<28:53:47, 16.24s/it]                                                       {'loss': 0.5704, 'learning_rate': 1.9998542449692794e-05, 'epoch': 0.04}
  4%|▎         | 235/6640 [1:06:09<28:53:47, 16.24s/it]  4%|▎         | 236/6640 [1:06:26<29:07:46, 16.38s/it]                                                       {'loss': 0.5642, 'learning_rate': 1.9998457973438023e-05, 'epoch': 0.04}
  4%|▎         | 236/6640 [1:06:26<29:07:46, 16.38s/it]  4%|▎         | 237/6640 [1:06:42<28:58:54, 16.29s/it]                                                       {'loss': 0.5714, 'learning_rate': 1.9998371117818477e-05, 'epoch': 0.04}
  4%|▎         | 237/6640 [1:06:42<28:58:54, 16.29s/it]  4%|▎         | 238/6640 [1:06:58<28:51:24, 16.23s/it]                                                       {'loss': 0.5588, 'learning_rate': 1.9998281882854827e-05, 'epoch': 0.04}
  4%|▎         | 238/6640 [1:06:58<28:51:24, 16.23s/it]  4%|▎         | 239/6640 [1:07:13<28:34:15, 16.07s/it]                                                       {'loss': 0.5677, 'learning_rate': 1.999819026856831e-05, 'epoch': 0.04}
  4%|▎         | 239/6640 [1:07:13<28:34:15, 16.07s/it]  4%|▎         | 240/6640 [1:07:30<28:40:01, 16.13s/it]                                                       {'loss': 0.5692, 'learning_rate': 1.999809627498073e-05, 'epoch': 0.04}
  4%|▎         | 240/6640 [1:07:30<28:40:01, 16.13s/it]  4%|▎         | 241/6640 [1:07:46<28:41:21, 16.14s/it]                                                       {'loss': 0.5577, 'learning_rate': 1.9997999902114447e-05, 'epoch': 0.04}
  4%|▎         | 241/6640 [1:07:46<28:41:21, 16.14s/it]  4%|▎         | 242/6640 [1:08:01<28:24:47, 15.99s/it]                                                       {'loss': 0.5432, 'learning_rate': 1.99979011499924e-05, 'epoch': 0.04}
  4%|▎         | 242/6640 [1:08:01<28:24:47, 15.99s/it]  4%|▎         | 243/6640 [1:08:18<28:32:24, 16.06s/it]                                                       {'loss': 0.5478, 'learning_rate': 1.999780001863809e-05, 'epoch': 0.04}
  4%|▎         | 243/6640 [1:08:18<28:32:24, 16.06s/it]  4%|▎         | 244/6640 [1:08:34<28:25:45, 16.00s/it]                                                       {'loss': 0.5436, 'learning_rate': 1.999769650807558e-05, 'epoch': 0.04}
  4%|▎         | 244/6640 [1:08:34<28:25:45, 16.00s/it]  4%|▎         | 245/6640 [1:08:50<28:25:34, 16.00s/it]                                                       {'loss': 0.5627, 'learning_rate': 1.9997590618329507e-05, 'epoch': 0.04}
  4%|▎         | 245/6640 [1:08:50<28:25:34, 16.00s/it]  4%|▎         | 246/6640 [1:09:06<28:32:38, 16.07s/it]                                                       {'loss': 0.5545, 'learning_rate': 1.999748234942507e-05, 'epoch': 0.04}
  4%|▎         | 246/6640 [1:09:06<28:32:38, 16.07s/it]  4%|▎         | 247/6640 [1:09:21<28:19:08, 15.95s/it]                                                       {'loss': 0.5651, 'learning_rate': 1.9997371701388027e-05, 'epoch': 0.04}
  4%|▎         | 247/6640 [1:09:21<28:19:08, 15.95s/it]  4%|▎         | 248/6640 [1:09:38<28:22:10, 15.98s/it]                                                       {'loss': 0.5505, 'learning_rate': 1.999725867424472e-05, 'epoch': 0.04}
  4%|▎         | 248/6640 [1:09:38<28:22:10, 15.98s/it]  4%|▍         | 249/6640 [1:09:54<28:24:13, 16.00s/it]                                                       {'loss': 0.5598, 'learning_rate': 1.999714326802203e-05, 'epoch': 0.04}
  4%|▍         | 249/6640 [1:09:54<28:24:13, 16.00s/it]2 AutoResumeHook: Checking whether to suspend...
05 AutoResumeHook: Checking whether to suspend...
 6 AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...34 
 AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

7 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
  4%|▍         | 250/6640 [1:10:10<28:47:22, 16.22s/it]                                                       {'loss': 0.5691, 'learning_rate': 1.999702548274744e-05, 'epoch': 0.04}
  4%|▍         | 250/6640 [1:10:10<28:47:22, 16.22s/it]  4%|▍         | 251/6640 [1:10:27<28:48:32, 16.23s/it]                                                       {'loss': 0.5795, 'learning_rate': 1.9996905318448974e-05, 'epoch': 0.04}
  4%|▍         | 251/6640 [1:10:27<28:48:32, 16.23s/it]  4%|▍         | 252/6640 [1:10:43<28:46:34, 16.22s/it]                                                       {'loss': 0.5662, 'learning_rate': 1.9996782775155218e-05, 'epoch': 0.04}
  4%|▍         | 252/6640 [1:10:43<28:46:34, 16.22s/it]  4%|▍         | 253/6640 [1:10:59<28:50:19, 16.25s/it]                                                       {'loss': 0.5949, 'learning_rate': 1.9996657852895344e-05, 'epoch': 0.04}
  4%|▍         | 253/6640 [1:10:59<28:50:19, 16.25s/it]  4%|▍         | 254/6640 [1:11:15<28:39:35, 16.16s/it]                                                       {'loss': 0.5665, 'learning_rate': 1.9996530551699077e-05, 'epoch': 0.04}
  4%|▍         | 254/6640 [1:11:15<28:39:35, 16.16s/it]  4%|▍         | 255/6640 [1:11:32<29:11:10, 16.46s/it]                                                       {'loss': 0.5686, 'learning_rate': 1.999640087159671e-05, 'epoch': 0.04}
  4%|▍         | 255/6640 [1:11:32<29:11:10, 16.46s/it]  4%|▍         | 256/6640 [1:11:48<28:54:41, 16.30s/it]                                                       {'loss': 0.5502, 'learning_rate': 1.999626881261911e-05, 'epoch': 0.04}
  4%|▍         | 256/6640 [1:11:48<28:54:41, 16.30s/it]  4%|▍         | 257/6640 [1:12:06<29:51:00, 16.84s/it]                                                       {'loss': 0.5465, 'learning_rate': 1.9996134374797693e-05, 'epoch': 0.04}
  4%|▍         | 257/6640 [1:12:06<29:51:00, 16.84s/it]  4%|▍         | 258/6640 [1:12:22<29:25:43, 16.60s/it]                                                       {'loss': 0.5647, 'learning_rate': 1.9995997558164458e-05, 'epoch': 0.04}
  4%|▍         | 258/6640 [1:12:22<29:25:43, 16.60s/it]  4%|▍         | 259/6640 [1:12:39<29:15:59, 16.51s/it]                                                       {'loss': 0.5575, 'learning_rate': 1.999585836275196e-05, 'epoch': 0.04}
  4%|▍         | 259/6640 [1:12:39<29:15:59, 16.51s/it]  4%|▍         | 260/6640 [1:12:55<29:02:48, 16.39s/it]                                                       {'loss': 0.5645, 'learning_rate': 1.999571678859333e-05, 'epoch': 0.04}
  4%|▍         | 260/6640 [1:12:55<29:02:48, 16.39s/it]  4%|▍         | 261/6640 [1:13:11<29:02:01, 16.39s/it]                                                       {'loss': 0.5737, 'learning_rate': 1.9995572835722254e-05, 'epoch': 0.04}
  4%|▍         | 261/6640 [1:13:11<29:02:01, 16.39s/it]  4%|▍         | 262/6640 [1:13:27<28:54:50, 16.32s/it]                                                       {'loss': 0.5948, 'learning_rate': 1.9995426504172993e-05, 'epoch': 0.04}
  4%|▍         | 262/6640 [1:13:27<28:54:50, 16.32s/it]  4%|▍         | 263/6640 [1:13:45<29:28:09, 16.64s/it]                                                       {'loss': 0.5662, 'learning_rate': 1.9995277793980362e-05, 'epoch': 0.04}
  4%|▍         | 263/6640 [1:13:45<29:28:09, 16.64s/it]  4%|▍         | 264/6640 [1:14:00<28:52:39, 16.30s/it]                                                       {'loss': 0.5636, 'learning_rate': 1.9995126705179756e-05, 'epoch': 0.04}
  4%|▍         | 264/6640 [1:14:00<28:52:39, 16.30s/it]  4%|▍         | 265/6640 [1:14:17<29:21:18, 16.58s/it]                                                       {'loss': 0.5602, 'learning_rate': 1.9994973237807133e-05, 'epoch': 0.04}
  4%|▍         | 265/6640 [1:14:17<29:21:18, 16.58s/it]  4%|▍         | 266/6640 [1:14:35<29:46:13, 16.81s/it]                                                       {'loss': 0.5491, 'learning_rate': 1.9994817391899007e-05, 'epoch': 0.04}
  4%|▍         | 266/6640 [1:14:35<29:46:13, 16.81s/it]  4%|▍         | 267/6640 [1:14:52<29:48:37, 16.84s/it]                                                       {'loss': 0.5416, 'learning_rate': 1.9994659167492466e-05, 'epoch': 0.04}
  4%|▍         | 267/6640 [1:14:52<29:48:37, 16.84s/it]  4%|▍         | 268/6640 [1:15:08<29:40:41, 16.77s/it]                                                       {'loss': 0.5669, 'learning_rate': 1.9994498564625174e-05, 'epoch': 0.04}
  4%|▍         | 268/6640 [1:15:08<29:40:41, 16.77s/it]  4%|▍         | 269/6640 [1:15:25<29:44:17, 16.80s/it]                                                       {'loss': 0.578, 'learning_rate': 1.9994335583335336e-05, 'epoch': 0.04}
  4%|▍         | 269/6640 [1:15:25<29:44:17, 16.80s/it]  4%|▍         | 270/6640 [1:15:43<30:08:53, 17.04s/it]                                                       {'loss': 0.5669, 'learning_rate': 1.999417022366174e-05, 'epoch': 0.04}
  4%|▍         | 270/6640 [1:15:43<30:08:53, 17.04s/it]  4%|▍         | 271/6640 [1:16:01<30:44:01, 17.37s/it]                                                       {'loss': 0.5799, 'learning_rate': 1.9994002485643746e-05, 'epoch': 0.04}
  4%|▍         | 271/6640 [1:16:01<30:44:01, 17.37s/it]  4%|▍         | 272/6640 [1:16:17<29:58:02, 16.94s/it]                                                       {'loss': 0.5501, 'learning_rate': 1.9993832369321262e-05, 'epoch': 0.04}
  4%|▍         | 272/6640 [1:16:17<29:58:02, 16.94s/it]  4%|▍         | 273/6640 [1:16:33<29:36:15, 16.74s/it]                                                       {'loss': 0.57, 'learning_rate': 1.9993659874734773e-05, 'epoch': 0.04}
  4%|▍         | 273/6640 [1:16:33<29:36:15, 16.74s/it]  4%|▍         | 274/6640 [1:16:49<29:11:41, 16.51s/it]                                                       {'loss': 0.5688, 'learning_rate': 1.9993485001925336e-05, 'epoch': 0.04}
  4%|▍         | 274/6640 [1:16:49<29:11:41, 16.51s/it]  4%|▍         | 275/6640 [1:17:05<28:51:10, 16.32s/it]                                                       {'loss': 0.566, 'learning_rate': 1.9993307750934555e-05, 'epoch': 0.04}
  4%|▍         | 275/6640 [1:17:05<28:51:10, 16.32s/it]  4%|▍         | 276/6640 [1:17:21<28:38:31, 16.20s/it]                                                       {'loss': 0.5282, 'learning_rate': 1.9993128121804615e-05, 'epoch': 0.04}
  4%|▍         | 276/6640 [1:17:21<28:38:31, 16.20s/it]  4%|▍         | 277/6640 [1:17:37<28:26:47, 16.09s/it]                                                       {'loss': 0.5715, 'learning_rate': 1.9992946114578264e-05, 'epoch': 0.04}
  4%|▍         | 277/6640 [1:17:37<28:26:47, 16.09s/it]  4%|▍         | 278/6640 [1:17:52<28:11:28, 15.95s/it]                                                       {'loss': 0.5782, 'learning_rate': 1.9992761729298816e-05, 'epoch': 0.04}
  4%|▍         | 278/6640 [1:17:52<28:11:28, 15.95s/it]  4%|▍         | 279/6640 [1:18:08<28:08:13, 15.92s/it]                                                       {'loss': 0.5589, 'learning_rate': 1.9992574966010144e-05, 'epoch': 0.04}
  4%|▍         | 279/6640 [1:18:08<28:08:13, 15.92s/it]  4%|▍         | 280/6640 [1:18:24<28:19:46, 16.04s/it]                                                       {'loss': 0.5468, 'learning_rate': 1.99923858247567e-05, 'epoch': 0.04}
  4%|▍         | 280/6640 [1:18:24<28:19:46, 16.04s/it]  4%|▍         | 281/6640 [1:18:41<28:27:36, 16.11s/it]                                                       {'loss': 0.5523, 'learning_rate': 1.9992194305583492e-05, 'epoch': 0.04}
  4%|▍         | 281/6640 [1:18:41<28:27:36, 16.11s/it]  4%|▍         | 282/6640 [1:18:58<28:50:04, 16.33s/it]                                                       {'loss': 0.5633, 'learning_rate': 1.999200040853609e-05, 'epoch': 0.04}
  4%|▍         | 282/6640 [1:18:58<28:50:04, 16.33s/it]  4%|▍         | 283/6640 [1:19:13<28:36:31, 16.20s/it]                                                       {'loss': 0.5688, 'learning_rate': 1.999180413366065e-05, 'epoch': 0.04}
  4%|▍         | 283/6640 [1:19:13<28:36:31, 16.20s/it]  4%|▍         | 284/6640 [1:19:30<28:32:04, 16.16s/it]                                                       {'loss': 0.5669, 'learning_rate': 1.9991605481003865e-05, 'epoch': 0.04}
  4%|▍         | 284/6640 [1:19:30<28:32:04, 16.16s/it]  4%|▍         | 285/6640 [1:19:45<28:11:07, 15.97s/it]                                                       {'loss': 0.5551, 'learning_rate': 1.999140445061302e-05, 'epoch': 0.04}
  4%|▍         | 285/6640 [1:19:45<28:11:07, 15.97s/it]  4%|▍         | 286/6640 [1:20:01<28:03:06, 15.89s/it]                                                       {'loss': 0.5412, 'learning_rate': 1.999120104253595e-05, 'epoch': 0.04}
  4%|▍         | 286/6640 [1:20:01<28:03:06, 15.89s/it]  4%|▍         | 287/6640 [1:20:17<28:02:12, 15.89s/it]                                                       {'loss': 0.563, 'learning_rate': 1.9990995256821062e-05, 'epoch': 0.04}
  4%|▍         | 287/6640 [1:20:17<28:02:12, 15.89s/it]  4%|▍         | 288/6640 [1:20:33<28:05:17, 15.92s/it]                                                       {'loss': 0.569, 'learning_rate': 1.9990787093517326e-05, 'epoch': 0.04}
  4%|▍         | 288/6640 [1:20:33<28:05:17, 15.92s/it]  4%|▍         | 289/6640 [1:20:49<28:11:00, 15.98s/it]                                                       {'loss': 0.5722, 'learning_rate': 1.9990576552674282e-05, 'epoch': 0.04}
  4%|▍         | 289/6640 [1:20:49<28:11:00, 15.98s/it]  4%|▍         | 290/6640 [1:21:05<28:14:44, 16.01s/it]                                                       {'loss': 0.5811, 'learning_rate': 1.9990363634342032e-05, 'epoch': 0.04}
  4%|▍         | 290/6640 [1:21:05<28:14:44, 16.01s/it]  4%|▍         | 291/6640 [1:21:20<27:59:02, 15.87s/it]                                                       {'loss': 0.5561, 'learning_rate': 1.999014833857124e-05, 'epoch': 0.04}
  4%|▍         | 291/6640 [1:21:20<27:59:02, 15.87s/it]  4%|▍         | 292/6640 [1:21:36<28:02:39, 15.90s/it]                                                       {'loss': 0.5506, 'learning_rate': 1.9989930665413148e-05, 'epoch': 0.04}
  4%|▍         | 292/6640 [1:21:36<28:02:39, 15.90s/it]  4%|▍         | 293/6640 [1:21:53<28:19:26, 16.07s/it]                                                       {'loss': 0.5562, 'learning_rate': 1.9989710614919553e-05, 'epoch': 0.04}
  4%|▍         | 293/6640 [1:21:53<28:19:26, 16.07s/it]  4%|▍         | 294/6640 [1:22:10<28:50:25, 16.36s/it]                                                       {'loss': 0.5604, 'learning_rate': 1.9989488187142822e-05, 'epoch': 0.04}
  4%|▍         | 294/6640 [1:22:10<28:50:25, 16.36s/it]  4%|▍         | 295/6640 [1:22:26<28:36:56, 16.24s/it]                                                       {'loss': 0.5756, 'learning_rate': 1.9989263382135882e-05, 'epoch': 0.04}
  4%|▍         | 295/6640 [1:22:26<28:36:56, 16.24s/it]  4%|▍         | 296/6640 [1:22:42<28:50:21, 16.37s/it]                                                       {'loss': 0.5682, 'learning_rate': 1.998903619995224e-05, 'epoch': 0.04}
  4%|▍         | 296/6640 [1:22:42<28:50:21, 16.37s/it]  4%|▍         | 297/6640 [1:22:59<28:42:12, 16.29s/it]                                                       {'loss': 0.5606, 'learning_rate': 1.9988806640645954e-05, 'epoch': 0.04}
  4%|▍         | 297/6640 [1:22:59<28:42:12, 16.29s/it]  4%|▍         | 298/6640 [1:23:14<28:21:35, 16.10s/it]                                                       {'loss': 0.5664, 'learning_rate': 1.9988574704271652e-05, 'epoch': 0.04}
  4%|▍         | 298/6640 [1:23:14<28:21:35, 16.10s/it]  5%|▍         | 299/6640 [1:23:30<27:59:57, 15.90s/it]                                                       {'loss': 0.5662, 'learning_rate': 1.9988340390884525e-05, 'epoch': 0.05}
  5%|▍         | 299/6640 [1:23:30<27:59:57, 15.90s/it]2 AutoResumeHook: Checking whether to suspend...
05 AutoResumeHook: Checking whether to suspend...
 6AutoResumeHook: Checking whether to suspend... AutoResumeHook: Checking whether to suspend...

3 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
  5%|▍         | 300/6640 [1:23:46<28:25:37, 16.14s/it]4 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5367, 'learning_rate': 1.9988103700540345e-05, 'epoch': 0.05}
  5%|▍         | 300/6640 [1:23:46<28:25:37, 16.14s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-300/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-300/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-300/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
  5%|▍         | 301/6640 [1:25:29<74:09:16, 42.11s/it]                                                       {'loss': 0.5902, 'learning_rate': 1.9987864633295425e-05, 'epoch': 0.05}
  5%|▍         | 301/6640 [1:25:29<74:09:16, 42.11s/it]  5%|▍         | 302/6640 [1:25:45<60:27:00, 34.34s/it]                                                       {'loss': 0.5469, 'learning_rate': 1.9987623189206667e-05, 'epoch': 0.05}
  5%|▍         | 302/6640 [1:25:45<60:27:00, 34.34s/it]  5%|▍         | 303/6640 [1:26:02<51:05:02, 29.02s/it]                                                       {'loss': 0.5622, 'learning_rate': 1.9987379368331522e-05, 'epoch': 0.05}
  5%|▍         | 303/6640 [1:26:02<51:05:02, 29.02s/it]  5%|▍         | 304/6640 [1:26:18<44:14:54, 25.14s/it]                                                       {'loss': 0.5678, 'learning_rate': 1.9987133170728012e-05, 'epoch': 0.05}
  5%|▍         | 304/6640 [1:26:18<44:14:54, 25.14s/it]  5%|▍         | 305/6640 [1:26:34<39:27:10, 22.42s/it]                                                       {'loss': 0.5428, 'learning_rate': 1.998688459645473e-05, 'epoch': 0.05}
  5%|▍         | 305/6640 [1:26:34<39:27:10, 22.42s/it]  5%|▍         | 306/6640 [1:26:51<36:18:35, 20.64s/it]                                                       {'loss': 0.5547, 'learning_rate': 1.998663364557083e-05, 'epoch': 0.05}
  5%|▍         | 306/6640 [1:26:51<36:18:35, 20.64s/it]  5%|▍         | 307/6640 [1:27:07<34:02:31, 19.35s/it]                                                       {'loss': 0.5789, 'learning_rate': 1.9986380318136028e-05, 'epoch': 0.05}
  5%|▍         | 307/6640 [1:27:07<34:02:31, 19.35s/it]  5%|▍         | 308/6640 [1:27:24<32:36:49, 18.54s/it]                                                       {'loss': 0.568, 'learning_rate': 1.9986124614210608e-05, 'epoch': 0.05}
  5%|▍         | 308/6640 [1:27:24<32:36:49, 18.54s/it]  5%|▍         | 309/6640 [1:27:40<31:29:00, 17.90s/it]                                                       {'loss': 0.5663, 'learning_rate': 1.9985866533855425e-05, 'epoch': 0.05}
  5%|▍         | 309/6640 [1:27:40<31:29:00, 17.90s/it]  5%|▍         | 310/6640 [1:27:57<31:11:45, 17.74s/it]                                                       {'loss': 0.5656, 'learning_rate': 1.9985606077131895e-05, 'epoch': 0.05}
  5%|▍         | 310/6640 [1:27:57<31:11:45, 17.74s/it]  5%|▍         | 311/6640 [1:28:14<30:24:31, 17.30s/it]                                                       {'loss': 0.5383, 'learning_rate': 1.9985343244102e-05, 'epoch': 0.05}
  5%|▍         | 311/6640 [1:28:14<30:24:31, 17.30s/it]  5%|▍         | 312/6640 [1:28:30<30:01:48, 17.08s/it]                                                       {'loss': 0.5565, 'learning_rate': 1.998507803482828e-05, 'epoch': 0.05}
  5%|▍         | 312/6640 [1:28:30<30:01:48, 17.08s/it]  5%|▍         | 313/6640 [1:28:46<29:35:52, 16.84s/it]                                                       {'loss': 0.5661, 'learning_rate': 1.9984810449373858e-05, 'epoch': 0.05}
  5%|▍         | 313/6640 [1:28:46<29:35:52, 16.84s/it]  5%|▍         | 314/6640 [1:29:03<29:32:42, 16.81s/it]                                                       {'loss': 0.5427, 'learning_rate': 1.9984540487802406e-05, 'epoch': 0.05}
  5%|▍         | 314/6640 [1:29:03<29:32:42, 16.81s/it]  5%|▍         | 315/6640 [1:29:20<29:22:49, 16.72s/it]                                                       {'loss': 0.5499, 'learning_rate': 1.998426815017817e-05, 'epoch': 0.05}
  5%|▍         | 315/6640 [1:29:20<29:22:49, 16.72s/it]  5%|▍         | 316/6640 [1:29:36<29:09:53, 16.60s/it]                                                       {'loss': 0.5572, 'learning_rate': 1.9983993436565953e-05, 'epoch': 0.05}
  5%|▍         | 316/6640 [1:29:36<29:09:53, 16.60s/it]  5%|▍         | 317/6640 [1:29:52<29:03:42, 16.55s/it]                                                       {'loss': 0.5662, 'learning_rate': 1.998371634703114e-05, 'epoch': 0.05}
  5%|▍         | 317/6640 [1:29:52<29:03:42, 16.55s/it]  5%|▍         | 318/6640 [1:30:09<29:20:08, 16.70s/it]                                                       {'loss': 0.5644, 'learning_rate': 1.9983436881639662e-05, 'epoch': 0.05}
  5%|▍         | 318/6640 [1:30:09<29:20:08, 16.70s/it]  5%|▍         | 319/6640 [1:30:26<29:18:52, 16.70s/it]                                                       {'loss': 0.5532, 'learning_rate': 1.998315504045803e-05, 'epoch': 0.05}
  5%|▍         | 319/6640 [1:30:26<29:18:52, 16.70s/it]  5%|▍         | 320/6640 [1:30:43<29:11:23, 16.63s/it]                                                       {'loss': 0.5475, 'learning_rate': 1.998287082355331e-05, 'epoch': 0.05}
  5%|▍         | 320/6640 [1:30:43<29:11:23, 16.63s/it]  5%|▍         | 321/6640 [1:30:59<29:04:47, 16.57s/it]                                                       {'loss': 0.5405, 'learning_rate': 1.998258423099314e-05, 'epoch': 0.05}
  5%|▍         | 321/6640 [1:30:59<29:04:47, 16.57s/it]  5%|▍         | 322/6640 [1:31:15<28:46:09, 16.39s/it]                                                       {'loss': 0.5504, 'learning_rate': 1.9982295262845724e-05, 'epoch': 0.05}
  5%|▍         | 322/6640 [1:31:15<28:46:09, 16.39s/it]  5%|▍         | 323/6640 [1:31:31<28:45:10, 16.39s/it]                                                       {'loss': 0.5266, 'learning_rate': 1.9982003919179823e-05, 'epoch': 0.05}
  5%|▍         | 323/6640 [1:31:31<28:45:10, 16.39s/it]  5%|▍         | 324/6640 [1:31:48<28:39:18, 16.33s/it]                                                       {'loss': 0.554, 'learning_rate': 1.9981710200064774e-05, 'epoch': 0.05}
  5%|▍         | 324/6640 [1:31:48<28:39:18, 16.33s/it]  5%|▍         | 325/6640 [1:32:03<28:19:26, 16.15s/it]                                                       {'loss': 0.5383, 'learning_rate': 1.9981414105570473e-05, 'epoch': 0.05}
  5%|▍         | 325/6640 [1:32:03<28:19:26, 16.15s/it]  5%|▍         | 326/6640 [1:32:20<28:34:50, 16.30s/it]                                                       {'loss': 0.5618, 'learning_rate': 1.998111563576738e-05, 'epoch': 0.05}
  5%|▍         | 326/6640 [1:32:20<28:34:50, 16.30s/it]  5%|▍         | 327/6640 [1:32:38<29:13:45, 16.67s/it]                                                       {'loss': 0.5641, 'learning_rate': 1.998081479072653e-05, 'epoch': 0.05}
  5%|▍         | 327/6640 [1:32:38<29:13:45, 16.67s/it]  5%|▍         | 328/6640 [1:32:55<29:33:19, 16.86s/it]                                                       {'loss': 0.5531, 'learning_rate': 1.9980511570519505e-05, 'epoch': 0.05}
  5%|▍         | 328/6640 [1:32:55<29:33:19, 16.86s/it]  5%|▍         | 329/6640 [1:33:11<29:20:53, 16.74s/it]                                                       {'loss': 0.5783, 'learning_rate': 1.998020597521847e-05, 'epoch': 0.05}
  5%|▍         | 329/6640 [1:33:11<29:20:53, 16.74s/it]  5%|▍         | 330/6640 [1:33:27<28:52:48, 16.48s/it]                                                       {'loss': 0.5289, 'learning_rate': 1.997989800489615e-05, 'epoch': 0.05}
  5%|▍         | 330/6640 [1:33:27<28:52:48, 16.48s/it]  5%|▍         | 331/6640 [1:33:44<28:55:30, 16.51s/it]                                                       {'loss': 0.5683, 'learning_rate': 1.9979587659625832e-05, 'epoch': 0.05}
  5%|▍         | 331/6640 [1:33:44<28:55:30, 16.51s/it]  5%|▌         | 332/6640 [1:34:00<28:44:22, 16.40s/it]                                                       {'loss': 0.5513, 'learning_rate': 1.9979274939481368e-05, 'epoch': 0.05}
  5%|▌         | 332/6640 [1:34:00<28:44:22, 16.40s/it]  5%|▌         | 333/6640 [1:34:16<28:50:20, 16.46s/it]                                                       {'loss': 0.5648, 'learning_rate': 1.9978959844537176e-05, 'epoch': 0.05}
  5%|▌         | 333/6640 [1:34:16<28:50:20, 16.46s/it]  5%|▌         | 334/6640 [1:34:33<29:04:30, 16.60s/it]                                                       {'loss': 0.5455, 'learning_rate': 1.9978642374868245e-05, 'epoch': 0.05}
  5%|▌         | 334/6640 [1:34:33<29:04:30, 16.60s/it]  5%|▌         | 335/6640 [1:34:50<28:51:35, 16.48s/it]                                                       {'loss': 0.5452, 'learning_rate': 1.997832253055012e-05, 'epoch': 0.05}
  5%|▌         | 335/6640 [1:34:50<28:51:35, 16.48s/it]  5%|▌         | 336/6640 [1:35:06<28:35:42, 16.33s/it]                                                       {'loss': 0.5527, 'learning_rate': 1.997800031165892e-05, 'epoch': 0.05}
  5%|▌         | 336/6640 [1:35:06<28:35:42, 16.33s/it]  5%|▌         | 337/6640 [1:35:21<28:22:19, 16.20s/it]                                                       {'loss': 0.5684, 'learning_rate': 1.9977675718271317e-05, 'epoch': 0.05}
  5%|▌         | 337/6640 [1:35:21<28:22:19, 16.20s/it]  5%|▌         | 338/6640 [1:35:37<28:12:08, 16.11s/it]                                                       {'loss': 0.5485, 'learning_rate': 1.997734875046456e-05, 'epoch': 0.05}
  5%|▌         | 338/6640 [1:35:37<28:12:08, 16.11s/it]  5%|▌         | 339/6640 [1:35:54<28:32:52, 16.31s/it]                                                       {'loss': 0.5532, 'learning_rate': 1.997701940831646e-05, 'epoch': 0.05}
  5%|▌         | 339/6640 [1:35:54<28:32:52, 16.31s/it]  5%|▌         | 340/6640 [1:36:10<28:32:42, 16.31s/it]                                                       {'loss': 0.5521, 'learning_rate': 1.9976687691905394e-05, 'epoch': 0.05}
  5%|▌         | 340/6640 [1:36:10<28:32:42, 16.31s/it]  5%|▌         | 341/6640 [1:36:27<28:51:26, 16.49s/it]                                                       {'loss': 0.5405, 'learning_rate': 1.9976353601310294e-05, 'epoch': 0.05}
  5%|▌         | 341/6640 [1:36:27<28:51:26, 16.49s/it]  5%|▌         | 342/6640 [1:36:44<28:56:59, 16.55s/it]                                                       {'loss': 0.5604, 'learning_rate': 1.997601713661067e-05, 'epoch': 0.05}
  5%|▌         | 342/6640 [1:36:44<28:56:59, 16.55s/it]  5%|▌         | 343/6640 [1:37:00<28:31:55, 16.31s/it]                                                       {'loss': 0.5442, 'learning_rate': 1.9975678297886586e-05, 'epoch': 0.05}
  5%|▌         | 343/6640 [1:37:00<28:31:55, 16.31s/it]  5%|▌         | 344/6640 [1:37:16<28:25:51, 16.26s/it]                                                       {'loss': 0.5844, 'learning_rate': 1.9975337085218683e-05, 'epoch': 0.05}
  5%|▌         | 344/6640 [1:37:16<28:25:51, 16.26s/it]  5%|▌         | 345/6640 [1:37:32<28:08:18, 16.09s/it]                                                       {'loss': 0.5456, 'learning_rate': 1.997499349868816e-05, 'epoch': 0.05}
  5%|▌         | 345/6640 [1:37:32<28:08:18, 16.09s/it]  5%|▌         | 346/6640 [1:37:48<28:11:42, 16.13s/it]                                                       {'loss': 0.5606, 'learning_rate': 1.9974647538376776e-05, 'epoch': 0.05}
  5%|▌         | 346/6640 [1:37:48<28:11:42, 16.13s/it]  5%|▌         | 347/6640 [1:38:05<28:30:29, 16.31s/it]                                                       {'loss': 0.559, 'learning_rate': 1.997429920436686e-05, 'epoch': 0.05}
  5%|▌         | 347/6640 [1:38:05<28:30:29, 16.31s/it]  5%|▌         | 348/6640 [1:38:23<29:23:58, 16.82s/it]                                                       {'loss': 0.5693, 'learning_rate': 1.9973948496741317e-05, 'epoch': 0.05}
  5%|▌         | 348/6640 [1:38:23<29:23:58, 16.82s/it]  5%|▌         | 349/6640 [1:38:39<29:04:03, 16.63s/it]                                                       {'loss': 0.5928, 'learning_rate': 1.9973595415583594e-05, 'epoch': 0.05}
  5%|▌         | 349/6640 [1:38:39<29:04:03, 16.63s/it]5 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
01  AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
  5%|▌         | 350/6640 [1:38:55<28:45:16, 16.46s/it]6 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5458, 'learning_rate': 1.997323996097772e-05, 'epoch': 0.05}
  5%|▌         | 350/6640 [1:38:55<28:45:16, 16.46s/it]  5%|▌         | 351/6640 [1:39:11<28:30:03, 16.31s/it]                                                       {'loss': 0.553, 'learning_rate': 1.9972882133008287e-05, 'epoch': 0.05}
  5%|▌         | 351/6640 [1:39:11<28:30:03, 16.31s/it]  5%|▌         | 352/6640 [1:39:27<28:12:42, 16.15s/it]                                                       {'loss': 0.5481, 'learning_rate': 1.9972521931760443e-05, 'epoch': 0.05}
  5%|▌         | 352/6640 [1:39:27<28:12:42, 16.15s/it]  5%|▌         | 353/6640 [1:39:43<28:09:33, 16.12s/it]                                                       {'loss': 0.5917, 'learning_rate': 1.9972159357319903e-05, 'epoch': 0.05}
  5%|▌         | 353/6640 [1:39:43<28:09:33, 16.12s/it]  5%|▌         | 354/6640 [1:39:59<28:00:32, 16.04s/it]                                                       {'loss': 0.5495, 'learning_rate': 1.9971794409772962e-05, 'epoch': 0.05}
  5%|▌         | 354/6640 [1:39:59<28:00:32, 16.04s/it]  5%|▌         | 355/6640 [1:40:14<27:53:30, 15.98s/it]                                                       {'loss': 0.5461, 'learning_rate': 1.9971427089206458e-05, 'epoch': 0.05}
  5%|▌         | 355/6640 [1:40:14<27:53:30, 15.98s/it]  5%|▌         | 356/6640 [1:40:30<27:58:19, 16.02s/it]                                                       {'loss': 0.5558, 'learning_rate': 1.99710573957078e-05, 'epoch': 0.05}
  5%|▌         | 356/6640 [1:40:30<27:58:19, 16.02s/it]  5%|▌         | 357/6640 [1:40:48<28:50:31, 16.53s/it]                                                       {'loss': 0.5591, 'learning_rate': 1.9970685329364978e-05, 'epoch': 0.05}
  5%|▌         | 357/6640 [1:40:48<28:50:31, 16.53s/it]  5%|▌         | 358/6640 [1:41:04<28:25:08, 16.29s/it]                                                       {'loss': 0.5672, 'learning_rate': 1.9970310890266527e-05, 'epoch': 0.05}
  5%|▌         | 358/6640 [1:41:04<28:25:08, 16.29s/it]  5%|▌         | 359/6640 [1:41:21<28:44:38, 16.47s/it]                                                       {'loss': 0.5411, 'learning_rate': 1.996993407850155e-05, 'epoch': 0.05}
  5%|▌         | 359/6640 [1:41:21<28:44:38, 16.47s/it]  5%|▌         | 360/6640 [1:41:37<28:43:25, 16.47s/it]                                                       {'loss': 0.557, 'learning_rate': 1.9969554894159723e-05, 'epoch': 0.05}
  5%|▌         | 360/6640 [1:41:37<28:43:25, 16.47s/it]  5%|▌         | 361/6640 [1:41:54<28:42:44, 16.46s/it]                                                       {'loss': 0.5608, 'learning_rate': 1.9969173337331283e-05, 'epoch': 0.05}
  5%|▌         | 361/6640 [1:41:54<28:42:44, 16.46s/it]  5%|▌         | 362/6640 [1:42:11<28:59:29, 16.62s/it]                                                       {'loss': 0.5605, 'learning_rate': 1.9968789408107024e-05, 'epoch': 0.05}
  5%|▌         | 362/6640 [1:42:11<28:59:29, 16.62s/it]  5%|▌         | 363/6640 [1:42:27<28:53:00, 16.57s/it]                                                       {'loss': 0.5473, 'learning_rate': 1.9968403106578312e-05, 'epoch': 0.05}
  5%|▌         | 363/6640 [1:42:27<28:53:00, 16.57s/it]  5%|▌         | 364/6640 [1:42:43<28:43:57, 16.48s/it]                                                       {'loss': 0.5765, 'learning_rate': 1.9968014432837083e-05, 'epoch': 0.05}
  5%|▌         | 364/6640 [1:42:43<28:43:57, 16.48s/it]  5%|▌         | 365/6640 [1:43:00<28:50:15, 16.54s/it]                                                       {'loss': 0.5532, 'learning_rate': 1.9967623386975826e-05, 'epoch': 0.05}
  5%|▌         | 365/6640 [1:43:00<28:50:15, 16.54s/it]  6%|▌         | 366/6640 [1:43:16<28:38:27, 16.43s/it]                                                       {'loss': 0.57, 'learning_rate': 1.99672299690876e-05, 'epoch': 0.06}
  6%|▌         | 366/6640 [1:43:16<28:38:27, 16.43s/it]  6%|▌         | 367/6640 [1:43:33<28:38:19, 16.44s/it]                                                       {'loss': 0.553, 'learning_rate': 1.996683417926603e-05, 'epoch': 0.06}
  6%|▌         | 367/6640 [1:43:33<28:38:19, 16.44s/it]  6%|▌         | 368/6640 [1:43:48<28:03:13, 16.10s/it]                                                       {'loss': 0.5514, 'learning_rate': 1.9966436017605296e-05, 'epoch': 0.06}
  6%|▌         | 368/6640 [1:43:48<28:03:13, 16.10s/it]  6%|▌         | 369/6640 [1:44:04<28:09:37, 16.17s/it]                                                       {'loss': 0.5472, 'learning_rate': 1.9966035484200158e-05, 'epoch': 0.06}
  6%|▌         | 369/6640 [1:44:04<28:09:37, 16.17s/it]  6%|▌         | 370/6640 [1:44:22<28:51:17, 16.57s/it]                                                       {'loss': 0.5623, 'learning_rate': 1.996563257914593e-05, 'epoch': 0.06}
  6%|▌         | 370/6640 [1:44:22<28:51:17, 16.57s/it]  6%|▌         | 371/6640 [1:44:38<28:32:59, 16.39s/it]                                                       {'loss': 0.5606, 'learning_rate': 1.9965227302538492e-05, 'epoch': 0.06}
  6%|▌         | 371/6640 [1:44:38<28:32:59, 16.39s/it]  6%|▌         | 372/6640 [1:44:56<29:15:34, 16.81s/it]                                                       {'loss': 0.5682, 'learning_rate': 1.996481965447429e-05, 'epoch': 0.06}
  6%|▌         | 372/6640 [1:44:56<29:15:34, 16.81s/it]  6%|▌         | 373/6640 [1:45:12<28:57:27, 16.63s/it]                                                       {'loss': 0.562, 'learning_rate': 1.996440963505033e-05, 'epoch': 0.06}
  6%|▌         | 373/6640 [1:45:12<28:57:27, 16.63s/it]  6%|▌         | 374/6640 [1:45:28<28:50:47, 16.57s/it]                                                       {'loss': 0.565, 'learning_rate': 1.996399724436419e-05, 'epoch': 0.06}
  6%|▌         | 374/6640 [1:45:28<28:50:47, 16.57s/it]  6%|▌         | 375/6640 [1:45:44<28:31:03, 16.39s/it]                                                       {'loss': 0.5595, 'learning_rate': 1.9963582482514003e-05, 'epoch': 0.06}
  6%|▌         | 375/6640 [1:45:44<28:31:03, 16.39s/it]  6%|▌         | 376/6640 [1:46:01<28:30:51, 16.39s/it]                                                       {'loss': 0.5768, 'learning_rate': 1.9963165349598473e-05, 'epoch': 0.06}
  6%|▌         | 376/6640 [1:46:01<28:30:51, 16.39s/it]  6%|▌         | 377/6640 [1:46:17<28:27:20, 16.36s/it]                                                       {'loss': 0.5663, 'learning_rate': 1.996274584571687e-05, 'epoch': 0.06}
  6%|▌         | 377/6640 [1:46:17<28:27:20, 16.36s/it]  6%|▌         | 378/6640 [1:46:33<28:11:14, 16.20s/it]                                                       {'loss': 0.5522, 'learning_rate': 1.9962323970969022e-05, 'epoch': 0.06}
  6%|▌         | 378/6640 [1:46:33<28:11:14, 16.20s/it]  6%|▌         | 379/6640 [1:46:49<28:08:00, 16.18s/it]                                                       {'loss': 0.5555, 'learning_rate': 1.9961899725455323e-05, 'epoch': 0.06}
  6%|▌         | 379/6640 [1:46:49<28:08:00, 16.18s/it]  6%|▌         | 380/6640 [1:47:05<28:08:17, 16.18s/it]                                                       {'loss': 0.5711, 'learning_rate': 1.9961473109276735e-05, 'epoch': 0.06}
  6%|▌         | 380/6640 [1:47:05<28:08:17, 16.18s/it]  6%|▌         | 381/6640 [1:47:22<28:42:38, 16.51s/it]                                                       {'loss': 0.5609, 'learning_rate': 1.9961044122534776e-05, 'epoch': 0.06}
  6%|▌         | 381/6640 [1:47:22<28:42:38, 16.51s/it]  6%|▌         | 382/6640 [1:47:39<28:35:38, 16.45s/it]                                                       {'loss': 0.563, 'learning_rate': 1.996061276533154e-05, 'epoch': 0.06}
  6%|▌         | 382/6640 [1:47:39<28:35:38, 16.45s/it]  6%|▌         | 383/6640 [1:47:56<29:16:13, 16.84s/it]                                                       {'loss': 0.5352, 'learning_rate': 1.9960179037769675e-05, 'epoch': 0.06}
  6%|▌         | 383/6640 [1:47:56<29:16:13, 16.84s/it]  6%|▌         | 384/6640 [1:48:12<28:43:33, 16.53s/it]                                                       {'loss': 0.5508, 'learning_rate': 1.9959742939952393e-05, 'epoch': 0.06}
  6%|▌         | 384/6640 [1:48:12<28:43:33, 16.53s/it]  6%|▌         | 385/6640 [1:48:28<28:17:17, 16.28s/it]                                                       {'loss': 0.5649, 'learning_rate': 1.9959304471983477e-05, 'epoch': 0.06}
  6%|▌         | 385/6640 [1:48:28<28:17:17, 16.28s/it]  6%|▌         | 386/6640 [1:48:44<28:24:41, 16.35s/it]                                                       {'loss': 0.5657, 'learning_rate': 1.9958863633967273e-05, 'epoch': 0.06}
  6%|▌         | 386/6640 [1:48:44<28:24:41, 16.35s/it]  6%|▌         | 387/6640 [1:49:00<28:13:47, 16.25s/it]                                                       {'loss': 0.5482, 'learning_rate': 1.9958420426008685e-05, 'epoch': 0.06}
  6%|▌         | 387/6640 [1:49:00<28:13:47, 16.25s/it]  6%|▌         | 388/6640 [1:49:17<28:10:49, 16.23s/it]                                                       {'loss': 0.5515, 'learning_rate': 1.995797484821319e-05, 'epoch': 0.06}
  6%|▌         | 388/6640 [1:49:17<28:10:49, 16.23s/it]  6%|▌         | 389/6640 [1:49:33<28:05:00, 16.17s/it]                                                       {'loss': 0.5372, 'learning_rate': 1.9957526900686814e-05, 'epoch': 0.06}
  6%|▌         | 389/6640 [1:49:33<28:05:00, 16.17s/it]  6%|▌         | 390/6640 [1:49:50<28:42:08, 16.53s/it]                                                       {'loss': 0.5589, 'learning_rate': 1.9957076583536166e-05, 'epoch': 0.06}
  6%|▌         | 390/6640 [1:49:50<28:42:08, 16.53s/it]  6%|▌         | 391/6640 [1:50:06<28:11:02, 16.24s/it]                                                       {'loss': 0.5423, 'learning_rate': 1.9956623896868403e-05, 'epoch': 0.06}
  6%|▌         | 391/6640 [1:50:06<28:11:02, 16.24s/it]  6%|▌         | 392/6640 [1:50:21<27:51:43, 16.05s/it]                                                       {'loss': 0.5357, 'learning_rate': 1.9956168840791256e-05, 'epoch': 0.06}
  6%|▌         | 392/6640 [1:50:21<27:51:43, 16.05s/it]  6%|▌         | 393/6640 [1:50:37<27:32:41, 15.87s/it]                                                       {'loss': 0.5493, 'learning_rate': 1.995571141541301e-05, 'epoch': 0.06}
  6%|▌         | 393/6640 [1:50:37<27:32:41, 15.87s/it]  6%|▌         | 394/6640 [1:50:53<27:37:38, 15.92s/it]                                                       {'loss': 0.5413, 'learning_rate': 1.995525162084253e-05, 'epoch': 0.06}
  6%|▌         | 394/6640 [1:50:53<27:37:38, 15.92s/it]  6%|▌         | 395/6640 [1:51:09<28:03:34, 16.18s/it]                                                       {'loss': 0.5419, 'learning_rate': 1.995478945718923e-05, 'epoch': 0.06}
  6%|▌         | 395/6640 [1:51:09<28:03:34, 16.18s/it]  6%|▌         | 396/6640 [1:51:25<27:55:05, 16.10s/it]                                                       {'loss': 0.5709, 'learning_rate': 1.9954324924563088e-05, 'epoch': 0.06}
  6%|▌         | 396/6640 [1:51:25<27:55:05, 16.10s/it]  6%|▌         | 397/6640 [1:51:41<27:54:43, 16.10s/it]                                                       {'loss': 0.5574, 'learning_rate': 1.995385802307466e-05, 'epoch': 0.06}
  6%|▌         | 397/6640 [1:51:41<27:54:43, 16.10s/it]  6%|▌         | 398/6640 [1:51:58<28:16:58, 16.31s/it]                                                       {'loss': 0.5566, 'learning_rate': 1.9953388752835045e-05, 'epoch': 0.06}
  6%|▌         | 398/6640 [1:51:58<28:16:58, 16.31s/it]  6%|▌         | 399/6640 [1:52:14<28:12:40, 16.27s/it]                                                       {'loss': 0.5601, 'learning_rate': 1.9952917113955926e-05, 'epoch': 0.06}
  6%|▌         | 399/6640 [1:52:14<28:12:40, 16.27s/it]5 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
03 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
  6%|▌         | 400/6640 [1:52:30<28:03:26, 16.19s/it]6 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5657, 'learning_rate': 1.9952443106549535e-05, 'epoch': 0.06}
  6%|▌         | 400/6640 [1:52:30<28:03:26, 16.19s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-400/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-400/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-400/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
  6%|▌         | 401/6640 [1:54:10<71:30:27, 41.26s/it]                                                       {'loss': 0.566, 'learning_rate': 1.9951966730728674e-05, 'epoch': 0.06}
  6%|▌         | 401/6640 [1:54:10<71:30:27, 41.26s/it]  6%|▌         | 402/6640 [1:54:26<58:17:45, 33.64s/it]                                                       {'loss': 0.565, 'learning_rate': 1.995148798660671e-05, 'epoch': 0.06}
  6%|▌         | 402/6640 [1:54:26<58:17:45, 33.64s/it]  6%|▌         | 403/6640 [1:54:43<49:22:20, 28.50s/it]                                                       {'loss': 0.5698, 'learning_rate': 1.9951006874297568e-05, 'epoch': 0.06}
  6%|▌         | 403/6640 [1:54:43<49:22:20, 28.50s/it]  6%|▌         | 404/6640 [1:54:58<42:25:24, 24.49s/it]                                                       {'loss': 0.5771, 'learning_rate': 1.995052339391574e-05, 'epoch': 0.06}
  6%|▌         | 404/6640 [1:54:58<42:25:24, 24.49s/it]  6%|▌         | 405/6640 [1:55:15<38:29:50, 22.23s/it]                                                       {'loss': 0.5525, 'learning_rate': 1.9950037545576288e-05, 'epoch': 0.06}
  6%|▌         | 405/6640 [1:55:15<38:29:50, 22.23s/it]  6%|▌         | 406/6640 [1:55:31<35:21:40, 20.42s/it]                                                       {'loss': 0.5545, 'learning_rate': 1.994954932939482e-05, 'epoch': 0.06}
  6%|▌         | 406/6640 [1:55:31<35:21:40, 20.42s/it]  6%|▌         | 407/6640 [1:55:47<33:19:48, 19.25s/it]                                                       {'loss': 0.5455, 'learning_rate': 1.9949058745487524e-05, 'epoch': 0.06}
  6%|▌         | 407/6640 [1:55:47<33:19:48, 19.25s/it]  6%|▌         | 408/6640 [1:56:03<31:26:37, 18.16s/it]                                                       {'loss': 0.5514, 'learning_rate': 1.994856579397115e-05, 'epoch': 0.06}
  6%|▌         | 408/6640 [1:56:03<31:26:37, 18.16s/it]  6%|▌         | 409/6640 [1:56:19<30:16:19, 17.49s/it]                                                       {'loss': 0.5548, 'learning_rate': 1.9948070474963e-05, 'epoch': 0.06}
  6%|▌         | 409/6640 [1:56:19<30:16:19, 17.49s/it]  6%|▌         | 410/6640 [1:56:35<29:35:41, 17.10s/it]                                                       {'loss': 0.5567, 'learning_rate': 1.994757278858095e-05, 'epoch': 0.06}
  6%|▌         | 410/6640 [1:56:35<29:35:41, 17.10s/it]  6%|▌         | 411/6640 [1:56:52<29:23:53, 16.99s/it]                                                       {'loss': 0.5557, 'learning_rate': 1.9947072734943435e-05, 'epoch': 0.06}
  6%|▌         | 411/6640 [1:56:52<29:23:53, 16.99s/it]  6%|▌         | 412/6640 [1:57:08<29:05:39, 16.82s/it]                                                       {'loss': 0.545, 'learning_rate': 1.9946570314169458e-05, 'epoch': 0.06}
  6%|▌         | 412/6640 [1:57:08<29:05:39, 16.82s/it]  6%|▌         | 413/6640 [1:57:26<29:17:39, 16.94s/it]                                                       {'loss': 0.5681, 'learning_rate': 1.9946065526378575e-05, 'epoch': 0.06}
  6%|▌         | 413/6640 [1:57:26<29:17:39, 16.94s/it]  6%|▌         | 414/6640 [1:57:42<28:49:26, 16.67s/it]                                                       {'loss': 0.5493, 'learning_rate': 1.9945558371690915e-05, 'epoch': 0.06}
  6%|▌         | 414/6640 [1:57:42<28:49:26, 16.67s/it]  6%|▋         | 415/6640 [1:57:58<28:36:51, 16.55s/it]                                                       {'loss': 0.5453, 'learning_rate': 1.994504885022717e-05, 'epoch': 0.06}
  6%|▋         | 415/6640 [1:57:58<28:36:51, 16.55s/it]  6%|▋         | 416/6640 [1:58:14<28:33:34, 16.52s/it]                                                       {'loss': 0.5572, 'learning_rate': 1.9944536962108594e-05, 'epoch': 0.06}
  6%|▋         | 416/6640 [1:58:14<28:33:34, 16.52s/it]  6%|▋         | 417/6640 [1:58:30<28:06:27, 16.26s/it]                                                       {'loss': 0.5683, 'learning_rate': 1.9944022707456992e-05, 'epoch': 0.06}
  6%|▋         | 417/6640 [1:58:30<28:06:27, 16.26s/it]  6%|▋         | 418/6640 [1:58:46<27:58:00, 16.18s/it]                                                       {'loss': 0.5472, 'learning_rate': 1.994350608639475e-05, 'epoch': 0.06}
  6%|▋         | 418/6640 [1:58:46<27:58:00, 16.18s/it]  6%|▋         | 419/6640 [1:59:02<27:56:09, 16.17s/it]                                                       {'loss': 0.5616, 'learning_rate': 1.9942987099044816e-05, 'epoch': 0.06}
  6%|▋         | 419/6640 [1:59:02<27:56:09, 16.17s/it]  6%|▋         | 420/6640 [1:59:19<28:25:03, 16.45s/it]                                                       {'loss': 0.5515, 'learning_rate': 1.9942465745530687e-05, 'epoch': 0.06}
  6%|▋         | 420/6640 [1:59:19<28:25:03, 16.45s/it]  6%|▋         | 421/6640 [1:59:35<28:02:46, 16.24s/it]                                                       {'loss': 0.5411, 'learning_rate': 1.994194202597643e-05, 'epoch': 0.06}
  6%|▋         | 421/6640 [1:59:35<28:02:46, 16.24s/it]  6%|▋         | 422/6640 [1:59:51<28:00:42, 16.22s/it]                                                       {'loss': 0.5466, 'learning_rate': 1.9941415940506678e-05, 'epoch': 0.06}
  6%|▋         | 422/6640 [1:59:51<28:00:42, 16.22s/it]  6%|▋         | 423/6640 [2:00:08<28:10:00, 16.31s/it]                                                       {'loss': 0.5609, 'learning_rate': 1.994088748924663e-05, 'epoch': 0.06}
  6%|▋         | 423/6640 [2:00:08<28:10:00, 16.31s/it]  6%|▋         | 424/6640 [2:00:24<28:05:26, 16.27s/it]                                                       {'loss': 0.5619, 'learning_rate': 1.9940356672322037e-05, 'epoch': 0.06}
  6%|▋         | 424/6640 [2:00:24<28:05:26, 16.27s/it]  6%|▋         | 425/6640 [2:00:40<27:51:07, 16.13s/it]                                                       {'loss': 0.546, 'learning_rate': 1.9939823489859226e-05, 'epoch': 0.06}
  6%|▋         | 425/6640 [2:00:40<27:51:07, 16.13s/it]  6%|▋         | 426/6640 [2:00:56<27:45:57, 16.09s/it]                                                       {'loss': 0.5705, 'learning_rate': 1.993928794198507e-05, 'epoch': 0.06}
  6%|▋         | 426/6640 [2:00:56<27:45:57, 16.09s/it]  6%|▋         | 427/6640 [2:01:12<27:42:15, 16.05s/it]                                                       {'loss': 0.5324, 'learning_rate': 1.9938750028827024e-05, 'epoch': 0.06}
  6%|▋         | 427/6640 [2:01:12<27:42:15, 16.05s/it]  6%|▋         | 428/6640 [2:01:28<27:55:35, 16.18s/it]                                                       {'loss': 0.5599, 'learning_rate': 1.9938209750513092e-05, 'epoch': 0.06}
  6%|▋         | 428/6640 [2:01:28<27:55:35, 16.18s/it]  6%|▋         | 429/6640 [2:01:44<27:33:20, 15.97s/it]                                                       {'loss': 0.5689, 'learning_rate': 1.9937667107171847e-05, 'epoch': 0.06}
  6%|▋         | 429/6640 [2:01:44<27:33:20, 15.97s/it]  6%|▋         | 430/6640 [2:01:59<27:13:38, 15.78s/it]                                                       {'loss': 0.5321, 'learning_rate': 1.9937122098932428e-05, 'epoch': 0.06}
  6%|▋         | 430/6640 [2:01:59<27:13:38, 15.78s/it]  6%|▋         | 431/6640 [2:02:15<27:12:10, 15.77s/it]                                                       {'loss': 0.5594, 'learning_rate': 1.9936574725924526e-05, 'epoch': 0.06}
  6%|▋         | 431/6640 [2:02:15<27:12:10, 15.77s/it]  7%|▋         | 432/6640 [2:02:31<27:34:24, 15.99s/it]                                                       {'loss': 0.5699, 'learning_rate': 1.99360249882784e-05, 'epoch': 0.07}
  7%|▋         | 432/6640 [2:02:31<27:34:24, 15.99s/it]  7%|▋         | 433/6640 [2:02:47<27:45:52, 16.10s/it]                                                       {'loss': 0.5466, 'learning_rate': 1.9935472886124882e-05, 'epoch': 0.07}
  7%|▋         | 433/6640 [2:02:47<27:45:52, 16.10s/it]  7%|▋         | 434/6640 [2:03:04<28:04:53, 16.29s/it]                                                       {'loss': 0.5674, 'learning_rate': 1.9934918419595352e-05, 'epoch': 0.07}
  7%|▋         | 434/6640 [2:03:04<28:04:53, 16.29s/it]  7%|▋         | 435/6640 [2:03:21<28:07:10, 16.31s/it]                                                       {'loss': 0.5433, 'learning_rate': 1.9934361588821757e-05, 'epoch': 0.07}
  7%|▋         | 435/6640 [2:03:21<28:07:10, 16.31s/it]  7%|▋         | 436/6640 [2:03:37<28:09:34, 16.34s/it]                                                       {'loss': 0.5522, 'learning_rate': 1.9933802393936603e-05, 'epoch': 0.07}
  7%|▋         | 436/6640 [2:03:37<28:09:34, 16.34s/it]  7%|▋         | 437/6640 [2:03:54<28:20:39, 16.45s/it]                                                       {'loss': 0.5579, 'learning_rate': 1.9933240835072974e-05, 'epoch': 0.07}
  7%|▋         | 437/6640 [2:03:54<28:20:39, 16.45s/it]  7%|▋         | 438/6640 [2:04:10<28:09:33, 16.35s/it]                                                       {'loss': 0.5493, 'learning_rate': 1.99326769123645e-05, 'epoch': 0.07}
  7%|▋         | 438/6640 [2:04:10<28:09:33, 16.35s/it]  7%|▋         | 439/6640 [2:04:27<28:22:03, 16.47s/it]                                                       {'loss': 0.5729, 'learning_rate': 1.9932110625945384e-05, 'epoch': 0.07}
  7%|▋         | 439/6640 [2:04:27<28:22:03, 16.47s/it]  7%|▋         | 440/6640 [2:04:44<28:49:52, 16.74s/it]                                                       {'loss': 0.5391, 'learning_rate': 1.993154197595038e-05, 'epoch': 0.07}
  7%|▋         | 440/6640 [2:04:44<28:49:52, 16.74s/it]  7%|▋         | 441/6640 [2:05:02<29:28:55, 17.12s/it]                                                       {'loss': 0.5473, 'learning_rate': 1.9930970962514815e-05, 'epoch': 0.07}
  7%|▋         | 441/6640 [2:05:02<29:28:55, 17.12s/it]  7%|▋         | 442/6640 [2:05:19<29:15:11, 16.99s/it]                                                       {'loss': 0.5499, 'learning_rate': 1.9930397585774576e-05, 'epoch': 0.07}
  7%|▋         | 442/6640 [2:05:19<29:15:11, 16.99s/it]  7%|▋         | 443/6640 [2:05:34<28:31:01, 16.57s/it]                                                       {'loss': 0.5789, 'learning_rate': 1.992982184586611e-05, 'epoch': 0.07}
  7%|▋         | 443/6640 [2:05:34<28:31:01, 16.57s/it]  7%|▋         | 444/6640 [2:05:51<28:24:51, 16.51s/it]                                                       {'loss': 0.5537, 'learning_rate': 1.9929243742926428e-05, 'epoch': 0.07}
  7%|▋         | 444/6640 [2:05:51<28:24:51, 16.51s/it]  7%|▋         | 445/6640 [2:06:07<28:33:08, 16.59s/it]                                                       {'loss': 0.5455, 'learning_rate': 1.99286632770931e-05, 'epoch': 0.07}
  7%|▋         | 445/6640 [2:06:07<28:33:08, 16.59s/it]  7%|▋         | 446/6640 [2:06:24<28:31:16, 16.58s/it]                                                       {'loss': 0.5531, 'learning_rate': 1.992808044850427e-05, 'epoch': 0.07}
  7%|▋         | 446/6640 [2:06:24<28:31:16, 16.58s/it]  7%|▋         | 447/6640 [2:06:40<28:26:08, 16.53s/it]                                                       {'loss': 0.5857, 'learning_rate': 1.9927495257298623e-05, 'epoch': 0.07}
  7%|▋         | 447/6640 [2:06:40<28:26:08, 16.53s/it]  7%|▋         | 448/6640 [2:06:57<28:19:02, 16.46s/it]                                                       {'loss': 0.5487, 'learning_rate': 1.992690770361543e-05, 'epoch': 0.07}
  7%|▋         | 448/6640 [2:06:57<28:19:02, 16.46s/it]  7%|▋         | 449/6640 [2:07:13<28:30:09, 16.57s/it]                                                       {'loss': 0.5663, 'learning_rate': 1.9926317787594503e-05, 'epoch': 0.07}
  7%|▋         | 449/6640 [2:07:13<28:30:09, 16.57s/it]02 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
  7%|▋         | 450/6640 [2:07:29<28:07:46, 16.36s/it]                                                       {'loss': 0.5771, 'learning_rate': 1.9925725509376236e-05, 'epoch': 0.07}
  7%|▋         | 450/6640 [2:07:29<28:07:46, 16.36s/it]  7%|▋         | 451/6640 [2:07:46<28:22:49, 16.51s/it]                                                       {'loss': 0.5418, 'learning_rate': 1.9925130869101573e-05, 'epoch': 0.07}
  7%|▋         | 451/6640 [2:07:46<28:22:49, 16.51s/it]  7%|▋         | 452/6640 [2:08:03<28:17:59, 16.46s/it]                                                       {'loss': 0.5727, 'learning_rate': 1.9924533866912017e-05, 'epoch': 0.07}
  7%|▋         | 452/6640 [2:08:03<28:17:59, 16.46s/it]  7%|▋         | 453/6640 [2:08:20<28:34:39, 16.63s/it]                                                       {'loss': 0.5428, 'learning_rate': 1.9923934502949645e-05, 'epoch': 0.07}
  7%|▋         | 453/6640 [2:08:20<28:34:39, 16.63s/it]  7%|▋         | 454/6640 [2:08:35<28:13:43, 16.43s/it]                                                       {'loss': 0.5488, 'learning_rate': 1.992333277735708e-05, 'epoch': 0.07}
  7%|▋         | 454/6640 [2:08:35<28:13:43, 16.43s/it]  7%|▋         | 455/6640 [2:08:51<27:55:19, 16.25s/it]                                                       {'loss': 0.5626, 'learning_rate': 1.9922728690277528e-05, 'epoch': 0.07}
  7%|▋         | 455/6640 [2:08:51<27:55:19, 16.25s/it]  7%|▋         | 456/6640 [2:09:07<27:48:39, 16.19s/it]                                                       {'loss': 0.5527, 'learning_rate': 1.992212224185474e-05, 'epoch': 0.07}
  7%|▋         | 456/6640 [2:09:07<27:48:39, 16.19s/it]  7%|▋         | 457/6640 [2:09:24<27:54:34, 16.25s/it]                                                       {'loss': 0.5648, 'learning_rate': 1.9921513432233033e-05, 'epoch': 0.07}
  7%|▋         | 457/6640 [2:09:24<27:54:34, 16.25s/it]  7%|▋         | 458/6640 [2:09:41<28:16:58, 16.47s/it]                                                       {'loss': 0.5554, 'learning_rate': 1.9920902261557296e-05, 'epoch': 0.07}
  7%|▋         | 458/6640 [2:09:41<28:16:58, 16.47s/it]  7%|▋         | 459/6640 [2:09:56<27:52:27, 16.23s/it]                                                       {'loss': 0.5293, 'learning_rate': 1.992028872997296e-05, 'epoch': 0.07}
  7%|▋         | 459/6640 [2:09:56<27:52:27, 16.23s/it]  7%|▋         | 460/6640 [2:10:12<27:28:13, 16.00s/it]                                                       {'loss': 0.5528, 'learning_rate': 1.991967283762603e-05, 'epoch': 0.07}
  7%|▋         | 460/6640 [2:10:12<27:28:13, 16.00s/it]  7%|▋         | 461/6640 [2:10:28<27:46:01, 16.18s/it]                                                       {'loss': 0.5616, 'learning_rate': 1.9919054584663084e-05, 'epoch': 0.07}
  7%|▋         | 461/6640 [2:10:28<27:46:01, 16.18s/it]  7%|▋         | 462/6640 [2:10:46<28:13:38, 16.45s/it]                                                       {'loss': 0.5538, 'learning_rate': 1.9918433971231233e-05, 'epoch': 0.07}
  7%|▋         | 462/6640 [2:10:46<28:13:38, 16.45s/it]  7%|▋         | 463/6640 [2:11:01<27:54:18, 16.26s/it]                                                       {'loss': 0.5593, 'learning_rate': 1.9917810997478177e-05, 'epoch': 0.07}
  7%|▋         | 463/6640 [2:11:01<27:54:18, 16.26s/it]  7%|▋         | 464/6640 [2:11:18<27:57:15, 16.29s/it]                                                       {'loss': 0.5642, 'learning_rate': 1.9917185663552165e-05, 'epoch': 0.07}
  7%|▋         | 464/6640 [2:11:18<27:57:15, 16.29s/it]  7%|▋         | 465/6640 [2:11:35<28:13:02, 16.45s/it]                                                       {'loss': 0.5494, 'learning_rate': 1.9916557969602007e-05, 'epoch': 0.07}
  7%|▋         | 465/6640 [2:11:35<28:13:02, 16.45s/it]  7%|▋         | 466/6640 [2:11:50<27:49:44, 16.23s/it]                                                       {'loss': 0.5658, 'learning_rate': 1.9915927915777085e-05, 'epoch': 0.07}
  7%|▋         | 466/6640 [2:11:50<27:49:44, 16.23s/it]  7%|▋         | 467/6640 [2:12:06<27:34:56, 16.09s/it]                                                       {'loss': 0.5768, 'learning_rate': 1.9915295502227324e-05, 'epoch': 0.07}
  7%|▋         | 467/6640 [2:12:06<27:34:56, 16.09s/it]  7%|▋         | 468/6640 [2:12:22<27:35:47, 16.10s/it]                                                       {'loss': 0.5542, 'learning_rate': 1.991466072910323e-05, 'epoch': 0.07}
  7%|▋         | 468/6640 [2:12:22<27:35:47, 16.10s/it]  7%|▋         | 469/6640 [2:12:39<27:47:22, 16.21s/it]                                                       {'loss': 0.5536, 'learning_rate': 1.9914023596555858e-05, 'epoch': 0.07}
  7%|▋         | 469/6640 [2:12:39<27:47:22, 16.21s/it]  7%|▋         | 470/6640 [2:12:55<27:42:57, 16.17s/it]                                                       {'loss': 0.5651, 'learning_rate': 1.991338410473683e-05, 'epoch': 0.07}
  7%|▋         | 470/6640 [2:12:55<27:42:57, 16.17s/it]  7%|▋         | 471/6640 [2:13:11<27:42:55, 16.17s/it]                                                       {'loss': 0.548, 'learning_rate': 1.9912742253798327e-05, 'epoch': 0.07}
  7%|▋         | 471/6640 [2:13:11<27:42:55, 16.17s/it]  7%|▋         | 472/6640 [2:13:27<27:37:16, 16.12s/it]                                                       {'loss': 0.5592, 'learning_rate': 1.991209804389309e-05, 'epoch': 0.07}
  7%|▋         | 472/6640 [2:13:27<27:37:16, 16.12s/it]  7%|▋         | 473/6640 [2:13:44<27:56:55, 16.32s/it]                                                       {'loss': 0.5583, 'learning_rate': 1.9911451475174428e-05, 'epoch': 0.07}
  7%|▋         | 473/6640 [2:13:44<27:56:55, 16.32s/it]  7%|▋         | 474/6640 [2:14:00<28:00:42, 16.35s/it]                                                       {'loss': 0.5569, 'learning_rate': 1.9910802547796205e-05, 'epoch': 0.07}
  7%|▋         | 474/6640 [2:14:00<28:00:42, 16.35s/it]  7%|▋         | 475/6640 [2:14:16<27:52:59, 16.28s/it]                                                       {'loss': 0.5481, 'learning_rate': 1.991015126191285e-05, 'epoch': 0.07}
  7%|▋         | 475/6640 [2:14:16<27:52:59, 16.28s/it]  7%|▋         | 476/6640 [2:14:33<28:00:29, 16.36s/it]                                                       {'loss': 0.5384, 'learning_rate': 1.990949761767935e-05, 'epoch': 0.07}
  7%|▋         | 476/6640 [2:14:33<28:00:29, 16.36s/it]  7%|▋         | 477/6640 [2:14:49<27:44:55, 16.21s/it]                                                       {'loss': 0.5563, 'learning_rate': 1.9908841615251252e-05, 'epoch': 0.07}
  7%|▋         | 477/6640 [2:14:49<27:44:55, 16.21s/it]  7%|▋         | 478/6640 [2:15:06<28:12:05, 16.48s/it]                                                       {'loss': 0.5584, 'learning_rate': 1.9908183254784675e-05, 'epoch': 0.07}
  7%|▋         | 478/6640 [2:15:06<28:12:05, 16.48s/it]  7%|▋         | 479/6640 [2:15:22<27:59:15, 16.35s/it]                                                       {'loss': 0.5458, 'learning_rate': 1.990752253643628e-05, 'epoch': 0.07}
  7%|▋         | 479/6640 [2:15:22<27:59:15, 16.35s/it]  7%|▋         | 480/6640 [2:15:37<27:32:21, 16.09s/it]                                                       {'loss': 0.5646, 'learning_rate': 1.9906859460363307e-05, 'epoch': 0.07}
  7%|▋         | 480/6640 [2:15:37<27:32:21, 16.09s/it]  7%|▋         | 481/6640 [2:15:55<28:08:53, 16.45s/it]                                                       {'loss': 0.5361, 'learning_rate': 1.9906194026723554e-05, 'epoch': 0.07}
  7%|▋         | 481/6640 [2:15:55<28:08:53, 16.45s/it]  7%|▋         | 482/6640 [2:16:11<28:16:52, 16.53s/it]                                                       {'loss': 0.5539, 'learning_rate': 1.990552623567537e-05, 'epoch': 0.07}
  7%|▋         | 482/6640 [2:16:11<28:16:52, 16.53s/it]  7%|▋         | 483/6640 [2:16:27<28:05:48, 16.43s/it]                                                       {'loss': 0.5594, 'learning_rate': 1.9904856087377672e-05, 'epoch': 0.07}
  7%|▋         | 483/6640 [2:16:27<28:05:48, 16.43s/it]  7%|▋         | 484/6640 [2:16:45<28:36:03, 16.73s/it]                                                       {'loss': 0.5373, 'learning_rate': 1.9904183581989936e-05, 'epoch': 0.07}
  7%|▋         | 484/6640 [2:16:45<28:36:03, 16.73s/it]  7%|▋         | 485/6640 [2:17:01<28:06:39, 16.44s/it]                                                       {'loss': 0.5586, 'learning_rate': 1.9903508719672208e-05, 'epoch': 0.07}
  7%|▋         | 485/6640 [2:17:01<28:06:39, 16.44s/it]  7%|▋         | 486/6640 [2:17:17<28:00:40, 16.39s/it]                                                       {'loss': 0.5876, 'learning_rate': 1.990283150058508e-05, 'epoch': 0.07}
  7%|▋         | 486/6640 [2:17:17<28:00:40, 16.39s/it]  7%|▋         | 487/6640 [2:17:34<28:32:21, 16.70s/it]                                                       {'loss': 0.5649, 'learning_rate': 1.9902151924889715e-05, 'epoch': 0.07}
  7%|▋         | 487/6640 [2:17:34<28:32:21, 16.70s/it]  7%|▋         | 488/6640 [2:17:51<28:23:12, 16.61s/it]                                                       {'loss': 0.5619, 'learning_rate': 1.990146999274783e-05, 'epoch': 0.07}
  7%|▋         | 488/6640 [2:17:51<28:23:12, 16.61s/it]  7%|▋         | 489/6640 [2:18:07<28:01:43, 16.40s/it]                                                       {'loss': 0.5532, 'learning_rate': 1.990078570432171e-05, 'epoch': 0.07}
  7%|▋         | 489/6640 [2:18:07<28:01:43, 16.40s/it]  7%|▋         | 490/6640 [2:18:23<27:58:38, 16.38s/it]                                                       {'loss': 0.5893, 'learning_rate': 1.9900099059774197e-05, 'epoch': 0.07}
  7%|▋         | 490/6640 [2:18:23<27:58:38, 16.38s/it]  7%|▋         | 491/6640 [2:18:39<27:56:46, 16.36s/it]                                                       {'loss': 0.5571, 'learning_rate': 1.9899410059268696e-05, 'epoch': 0.07}
  7%|▋         | 491/6640 [2:18:39<27:56:46, 16.36s/it]  7%|▋         | 492/6640 [2:18:56<27:58:59, 16.39s/it]                                                       {'loss': 0.5391, 'learning_rate': 1.9898718702969166e-05, 'epoch': 0.07}
  7%|▋         | 492/6640 [2:18:56<27:58:59, 16.39s/it]  7%|▋         | 493/6640 [2:19:12<28:00:26, 16.40s/it]                                                       {'loss': 0.5649, 'learning_rate': 1.9898024991040133e-05, 'epoch': 0.07}
  7%|▋         | 493/6640 [2:19:12<28:00:26, 16.40s/it]  7%|▋         | 494/6640 [2:19:28<27:38:51, 16.19s/it]                                                       {'loss': 0.5485, 'learning_rate': 1.989732892364668e-05, 'epoch': 0.07}
  7%|▋         | 494/6640 [2:19:28<27:38:51, 16.19s/it]  7%|▋         | 495/6640 [2:19:44<27:20:14, 16.02s/it]                                                       {'loss': 0.5384, 'learning_rate': 1.989663050095446e-05, 'epoch': 0.07}
  7%|▋         | 495/6640 [2:19:44<27:20:14, 16.02s/it]  7%|▋         | 496/6640 [2:20:00<27:36:24, 16.18s/it]                                                       {'loss': 0.5574, 'learning_rate': 1.989592972312967e-05, 'epoch': 0.07}
  7%|▋         | 496/6640 [2:20:00<27:36:24, 16.18s/it]  7%|▋         | 497/6640 [2:20:16<27:18:03, 16.00s/it]                                                       {'loss': 0.5351, 'learning_rate': 1.989522659033908e-05, 'epoch': 0.07}
  7%|▋         | 497/6640 [2:20:16<27:18:03, 16.00s/it]  8%|▊         | 498/6640 [2:20:32<27:15:05, 15.97s/it]                                                       {'loss': 0.5692, 'learning_rate': 1.9894521102750018e-05, 'epoch': 0.07}
  8%|▊         | 498/6640 [2:20:32<27:15:05, 15.97s/it]  8%|▊         | 499/6640 [2:20:48<27:37:01, 16.19s/it]                                                       {'loss': 0.5657, 'learning_rate': 1.9893813260530368e-05, 'epoch': 0.08}
  8%|▊         | 499/6640 [2:20:48<27:37:01, 16.19s/it]2 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...3
 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
06 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
  8%|▊         | 500/6640 [2:21:04<27:18:24, 16.01s/it]1 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5589, 'learning_rate': 1.989310306384858e-05, 'epoch': 0.08}
  8%|▊         | 500/6640 [2:21:04<27:18:24, 16.01s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-500/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-500/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-500/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
  8%|▊         | 501/6640 [2:22:46<71:30:54, 41.94s/it]                                                       {'loss': 0.5421, 'learning_rate': 1.989239051287366e-05, 'epoch': 0.08}
  8%|▊         | 501/6640 [2:22:46<71:30:54, 41.94s/it]  8%|▊         | 502/6640 [2:23:03<58:31:35, 34.33s/it]                                                       {'loss': 0.5535, 'learning_rate': 1.989167560777518e-05, 'epoch': 0.08}
  8%|▊         | 502/6640 [2:23:03<58:31:35, 34.33s/it]  8%|▊         | 503/6640 [2:23:19<49:26:07, 29.00s/it]                                                       {'loss': 0.5474, 'learning_rate': 1.989095834872326e-05, 'epoch': 0.08}
  8%|▊         | 503/6640 [2:23:19<49:26:07, 29.00s/it]  8%|▊         | 504/6640 [2:23:36<42:52:16, 25.15s/it]                                                       {'loss': 0.5458, 'learning_rate': 1.9890238735888596e-05, 'epoch': 0.08}
  8%|▊         | 504/6640 [2:23:36<42:52:16, 25.15s/it]  8%|▊         | 505/6640 [2:23:52<38:37:06, 22.66s/it]                                                       {'loss': 0.5616, 'learning_rate': 1.9889516769442436e-05, 'epoch': 0.08}
  8%|▊         | 505/6640 [2:23:52<38:37:06, 22.66s/it]  8%|▊         | 506/6640 [2:24:09<35:15:51, 20.70s/it]                                                       {'loss': 0.5429, 'learning_rate': 1.9888792449556584e-05, 'epoch': 0.08}
  8%|▊         | 506/6640 [2:24:09<35:15:51, 20.70s/it]  8%|▊         | 507/6640 [2:24:26<33:29:53, 19.66s/it]                                                       {'loss': 0.5536, 'learning_rate': 1.9888065776403414e-05, 'epoch': 0.08}
  8%|▊         | 507/6640 [2:24:26<33:29:53, 19.66s/it]  8%|▊         | 508/6640 [2:24:42<31:44:09, 18.63s/it]                                                       {'loss': 0.5717, 'learning_rate': 1.988733675015585e-05, 'epoch': 0.08}
  8%|▊         | 508/6640 [2:24:42<31:44:09, 18.63s/it]  8%|▊         | 509/6640 [2:24:58<30:12:10, 17.73s/it]                                                       {'loss': 0.5643, 'learning_rate': 1.9886605370987384e-05, 'epoch': 0.08}
  8%|▊         | 509/6640 [2:24:58<30:12:10, 17.73s/it]  8%|▊         | 510/6640 [2:25:15<29:49:45, 17.52s/it]                                                       {'loss': 0.5468, 'learning_rate': 1.988587163907206e-05, 'epoch': 0.08}
  8%|▊         | 510/6640 [2:25:15<29:49:45, 17.52s/it]  8%|▊         | 511/6640 [2:25:31<29:12:59, 17.16s/it]                                                       {'loss': 0.5456, 'learning_rate': 1.9885135554584495e-05, 'epoch': 0.08}
  8%|▊         | 511/6640 [2:25:31<29:12:59, 17.16s/it]  8%|▊         | 512/6640 [2:25:47<28:29:41, 16.74s/it]                                                       {'loss': 0.55, 'learning_rate': 1.988439711769985e-05, 'epoch': 0.08}
  8%|▊         | 512/6640 [2:25:47<28:29:41, 16.74s/it]  8%|▊         | 513/6640 [2:26:03<28:14:44, 16.60s/it]                                                       {'loss': 0.5717, 'learning_rate': 1.9883656328593856e-05, 'epoch': 0.08}
  8%|▊         | 513/6640 [2:26:03<28:14:44, 16.60s/it]  8%|▊         | 514/6640 [2:26:20<28:30:19, 16.75s/it]                                                       {'loss': 0.5298, 'learning_rate': 1.9882913187442802e-05, 'epoch': 0.08}
  8%|▊         | 514/6640 [2:26:20<28:30:19, 16.75s/it]  8%|▊         | 515/6640 [2:26:36<27:50:42, 16.37s/it]                                                       {'loss': 0.5533, 'learning_rate': 1.988216769442353e-05, 'epoch': 0.08}
  8%|▊         | 515/6640 [2:26:36<27:50:42, 16.37s/it]  8%|▊         | 516/6640 [2:26:52<27:47:15, 16.33s/it]                                                       {'loss': 0.5609, 'learning_rate': 1.9881419849713452e-05, 'epoch': 0.08}
  8%|▊         | 516/6640 [2:26:52<27:47:15, 16.33s/it]  8%|▊         | 517/6640 [2:27:08<27:50:35, 16.37s/it]                                                       {'loss': 0.5362, 'learning_rate': 1.988066965349054e-05, 'epoch': 0.08}
  8%|▊         | 517/6640 [2:27:08<27:50:35, 16.37s/it]  8%|▊         | 518/6640 [2:27:24<27:37:52, 16.25s/it]                                                       {'loss': 0.565, 'learning_rate': 1.987991710593331e-05, 'epoch': 0.08}
  8%|▊         | 518/6640 [2:27:24<27:37:52, 16.25s/it]  8%|▊         | 519/6640 [2:27:41<27:42:06, 16.29s/it]                                                       {'loss': 0.5483, 'learning_rate': 1.9879162207220855e-05, 'epoch': 0.08}
  8%|▊         | 519/6640 [2:27:41<27:42:06, 16.29s/it]  8%|▊         | 520/6640 [2:27:58<28:01:19, 16.48s/it]                                                       {'loss': 0.5442, 'learning_rate': 1.9878404957532817e-05, 'epoch': 0.08}
  8%|▊         | 520/6640 [2:27:58<28:01:19, 16.48s/it]  8%|▊         | 521/6640 [2:28:14<27:57:52, 16.45s/it]                                                       {'loss': 0.5628, 'learning_rate': 1.9877645357049406e-05, 'epoch': 0.08}
  8%|▊         | 521/6640 [2:28:14<27:57:52, 16.45s/it]  8%|▊         | 522/6640 [2:28:30<27:38:26, 16.26s/it]                                                       {'loss': 0.5393, 'learning_rate': 1.9876883405951378e-05, 'epoch': 0.08}
  8%|▊         | 522/6640 [2:28:30<27:38:26, 16.26s/it]  8%|▊         | 523/6640 [2:28:46<27:28:19, 16.17s/it]                                                       {'loss': 0.5629, 'learning_rate': 1.9876119104420067e-05, 'epoch': 0.08}
  8%|▊         | 523/6640 [2:28:46<27:28:19, 16.17s/it]  8%|▊         | 524/6640 [2:29:01<27:14:25, 16.03s/it]                                                       {'loss': 0.562, 'learning_rate': 1.987535245263735e-05, 'epoch': 0.08}
  8%|▊         | 524/6640 [2:29:01<27:14:25, 16.03s/it]  8%|▊         | 525/6640 [2:29:19<27:57:51, 16.46s/it]                                                       {'loss': 0.5494, 'learning_rate': 1.987458345078567e-05, 'epoch': 0.08}
  8%|▊         | 525/6640 [2:29:19<27:57:51, 16.46s/it]  8%|▊         | 526/6640 [2:29:35<27:56:44, 16.45s/it]                                                       {'loss': 0.5553, 'learning_rate': 1.987381209904803e-05, 'epoch': 0.08}
  8%|▊         | 526/6640 [2:29:35<27:56:44, 16.45s/it]  8%|▊         | 527/6640 [2:29:52<27:55:18, 16.44s/it]                                                       {'loss': 0.5504, 'learning_rate': 1.9873038397607994e-05, 'epoch': 0.08}
  8%|▊         | 527/6640 [2:29:52<27:55:18, 16.44s/it]  8%|▊         | 528/6640 [2:30:08<27:42:15, 16.32s/it]                                                       {'loss': 0.5517, 'learning_rate': 1.987226234664968e-05, 'epoch': 0.08}
  8%|▊         | 528/6640 [2:30:08<27:42:15, 16.32s/it]  8%|▊         | 529/6640 [2:30:24<27:34:39, 16.25s/it]                                                       {'loss': 0.5357, 'learning_rate': 1.987148394635776e-05, 'epoch': 0.08}
  8%|▊         | 529/6640 [2:30:24<27:34:39, 16.25s/it]  8%|▊         | 530/6640 [2:30:40<27:44:17, 16.34s/it]                                                       {'loss': 0.5687, 'learning_rate': 1.9870703196917485e-05, 'epoch': 0.08}
  8%|▊         | 530/6640 [2:30:40<27:44:17, 16.34s/it]  8%|▊         | 531/6640 [2:30:57<27:57:25, 16.48s/it]                                                       {'loss': 0.5675, 'learning_rate': 1.9869920098514647e-05, 'epoch': 0.08}
  8%|▊         | 531/6640 [2:30:57<27:57:25, 16.48s/it]  8%|▊         | 532/6640 [2:31:14<27:58:58, 16.49s/it]                                                       {'loss': 0.5327, 'learning_rate': 1.98691346513356e-05, 'epoch': 0.08}
  8%|▊         | 532/6640 [2:31:14<27:58:58, 16.49s/it]  8%|▊         | 533/6640 [2:31:30<28:01:32, 16.52s/it]                                                       {'loss': 0.5553, 'learning_rate': 1.9868346855567258e-05, 'epoch': 0.08}
  8%|▊         | 533/6640 [2:31:30<28:01:32, 16.52s/it]  8%|▊         | 534/6640 [2:31:46<27:39:02, 16.30s/it]                                                       {'loss': 0.5583, 'learning_rate': 1.98675567113971e-05, 'epoch': 0.08}
  8%|▊         | 534/6640 [2:31:46<27:39:02, 16.30s/it]  8%|▊         | 535/6640 [2:32:02<27:26:44, 16.18s/it]                                                       {'loss': 0.577, 'learning_rate': 1.9866764219013154e-05, 'epoch': 0.08}
  8%|▊         | 535/6640 [2:32:02<27:26:44, 16.18s/it]  8%|▊         | 536/6640 [2:32:18<27:16:57, 16.09s/it]                                                       {'loss': 0.5785, 'learning_rate': 1.9865969378604023e-05, 'epoch': 0.08}
  8%|▊         | 536/6640 [2:32:18<27:16:57, 16.09s/it]  8%|▊         | 537/6640 [2:32:35<27:53:33, 16.45s/it]                                                       {'loss': 0.5353, 'learning_rate': 1.9865172190358845e-05, 'epoch': 0.08}
  8%|▊         | 537/6640 [2:32:35<27:53:33, 16.45s/it]  8%|▊         | 538/6640 [2:32:52<28:00:35, 16.53s/it]                                                       {'loss': 0.558, 'learning_rate': 1.9864372654467338e-05, 'epoch': 0.08}
  8%|▊         | 538/6640 [2:32:52<28:00:35, 16.53s/it]  8%|▊         | 539/6640 [2:33:08<27:45:36, 16.38s/it]                                                       {'loss': 0.5498, 'learning_rate': 1.986357077111976e-05, 'epoch': 0.08}
  8%|▊         | 539/6640 [2:33:08<27:45:36, 16.38s/it]  8%|▊         | 540/6640 [2:33:24<27:30:05, 16.23s/it]                                                       {'loss': 0.5611, 'learning_rate': 1.986276654050695e-05, 'epoch': 0.08}
  8%|▊         | 540/6640 [2:33:24<27:30:05, 16.23s/it]  8%|▊         | 541/6640 [2:33:40<27:16:35, 16.10s/it]                                                       {'loss': 0.5642, 'learning_rate': 1.9861959962820286e-05, 'epoch': 0.08}
  8%|▊         | 541/6640 [2:33:40<27:16:35, 16.10s/it]  8%|▊         | 542/6640 [2:33:57<27:40:22, 16.34s/it]                                                       {'loss': 0.5777, 'learning_rate': 1.9861151038251715e-05, 'epoch': 0.08}
  8%|▊         | 542/6640 [2:33:57<27:40:22, 16.34s/it]  8%|▊         | 543/6640 [2:34:13<27:55:34, 16.49s/it]                                                       {'loss': 0.5662, 'learning_rate': 1.9860339766993735e-05, 'epoch': 0.08}
  8%|▊         | 543/6640 [2:34:13<27:55:34, 16.49s/it]  8%|▊         | 544/6640 [2:34:30<27:49:29, 16.43s/it]                                                       {'loss': 0.5576, 'learning_rate': 1.985952614923941e-05, 'epoch': 0.08}
  8%|▊         | 544/6640 [2:34:30<27:49:29, 16.43s/it]  8%|▊         | 545/6640 [2:34:46<27:48:59, 16.43s/it]                                                       {'loss': 0.5389, 'learning_rate': 1.985871018518236e-05, 'epoch': 0.08}
  8%|▊         | 545/6640 [2:34:46<27:48:59, 16.43s/it]  8%|▊         | 546/6640 [2:35:02<27:35:49, 16.30s/it]                                                       {'loss': 0.591, 'learning_rate': 1.985789187501676e-05, 'epoch': 0.08}
  8%|▊         | 546/6640 [2:35:02<27:35:49, 16.30s/it]  8%|▊         | 547/6640 [2:35:18<27:35:34, 16.30s/it]                                                       {'loss': 0.518, 'learning_rate': 1.985707121893735e-05, 'epoch': 0.08}
  8%|▊         | 547/6640 [2:35:18<27:35:34, 16.30s/it]  8%|▊         | 548/6640 [2:35:35<27:42:52, 16.38s/it]                                                       {'loss': 0.5496, 'learning_rate': 1.985624821713942e-05, 'epoch': 0.08}
  8%|▊         | 548/6640 [2:35:35<27:42:52, 16.38s/it]  8%|▊         | 549/6640 [2:35:51<27:21:51, 16.17s/it]                                                       {'loss': 0.5363, 'learning_rate': 1.985542286981882e-05, 'epoch': 0.08}
  8%|▊         | 549/6640 [2:35:51<27:21:51, 16.17s/it]2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
  8%|▊         | 550/6640 [2:36:06<27:07:22, 16.03s/it]                                                       {'loss': 0.5347, 'learning_rate': 1.9854595177171968e-05, 'epoch': 0.08}
  8%|▊         | 550/6640 [2:36:06<27:07:22, 16.03s/it]  8%|▊         | 551/6640 [2:36:23<27:12:21, 16.08s/it]                                                       {'loss': 0.5484, 'learning_rate': 1.985376513939583e-05, 'epoch': 0.08}
  8%|▊         | 551/6640 [2:36:23<27:12:21, 16.08s/it]  8%|▊         | 552/6640 [2:36:38<26:56:36, 15.93s/it]                                                       {'loss': 0.5497, 'learning_rate': 1.985293275668793e-05, 'epoch': 0.08}
  8%|▊         | 552/6640 [2:36:38<26:56:36, 15.93s/it]  8%|▊         | 553/6640 [2:36:54<27:00:41, 15.98s/it]                                                       {'loss': 0.5231, 'learning_rate': 1.9852098029246357e-05, 'epoch': 0.08}
  8%|▊         | 553/6640 [2:36:54<27:00:41, 15.98s/it]  8%|▊         | 554/6640 [2:37:12<27:43:17, 16.40s/it]                                                       {'loss': 0.5334, 'learning_rate': 1.9851260957269747e-05, 'epoch': 0.08}
  8%|▊         | 554/6640 [2:37:12<27:43:17, 16.40s/it]  8%|▊         | 555/6640 [2:37:28<27:37:55, 16.35s/it]                                                       {'loss': 0.5493, 'learning_rate': 1.9850421540957307e-05, 'epoch': 0.08}
  8%|▊         | 555/6640 [2:37:28<27:37:55, 16.35s/it]  8%|▊         | 556/6640 [2:37:45<27:54:09, 16.51s/it]                                                       {'loss': 0.5513, 'learning_rate': 1.9849579780508792e-05, 'epoch': 0.08}
  8%|▊         | 556/6640 [2:37:45<27:54:09, 16.51s/it]  8%|▊         | 557/6640 [2:38:01<27:36:32, 16.34s/it]                                                       {'loss': 0.5237, 'learning_rate': 1.984873567612452e-05, 'epoch': 0.08}
  8%|▊         | 557/6640 [2:38:01<27:36:32, 16.34s/it]  8%|▊         | 558/6640 [2:38:17<27:37:41, 16.35s/it]                                                       {'loss': 0.566, 'learning_rate': 1.9847889228005366e-05, 'epoch': 0.08}
  8%|▊         | 558/6640 [2:38:17<27:37:41, 16.35s/it]  8%|▊         | 559/6640 [2:38:33<27:32:10, 16.30s/it]                                                       {'loss': 0.5512, 'learning_rate': 1.9847040436352757e-05, 'epoch': 0.08}
  8%|▊         | 559/6640 [2:38:33<27:32:10, 16.30s/it]  8%|▊         | 560/6640 [2:38:49<27:19:36, 16.18s/it]                                                       {'loss': 0.5736, 'learning_rate': 1.984618930136869e-05, 'epoch': 0.08}
  8%|▊         | 560/6640 [2:38:49<27:19:36, 16.18s/it]  8%|▊         | 561/6640 [2:39:06<27:35:40, 16.34s/it]                                                       {'loss': 0.5417, 'learning_rate': 1.984533582325571e-05, 'epoch': 0.08}
  8%|▊         | 561/6640 [2:39:06<27:35:40, 16.34s/it]  8%|▊         | 562/6640 [2:39:22<27:18:29, 16.17s/it]                                                       {'loss': 0.5572, 'learning_rate': 1.984448000221692e-05, 'epoch': 0.08}
  8%|▊         | 562/6640 [2:39:22<27:18:29, 16.17s/it]  8%|▊         | 563/6640 [2:39:37<27:00:34, 16.00s/it]                                                       {'loss': 0.5573, 'learning_rate': 1.984362183845598e-05, 'epoch': 0.08}
  8%|▊         | 563/6640 [2:39:37<27:00:34, 16.00s/it]  8%|▊         | 564/6640 [2:39:54<27:34:23, 16.34s/it]                                                       {'loss': 0.5613, 'learning_rate': 1.9842761332177115e-05, 'epoch': 0.08}
  8%|▊         | 564/6640 [2:39:54<27:34:23, 16.34s/it]  9%|▊         | 565/6640 [2:40:10<27:08:56, 16.09s/it]                                                       {'loss': 0.5442, 'learning_rate': 1.98418984835851e-05, 'epoch': 0.09}
  9%|▊         | 565/6640 [2:40:10<27:08:56, 16.09s/it]  9%|▊         | 566/6640 [2:40:26<26:55:30, 15.96s/it]                                                       {'loss': 0.5416, 'learning_rate': 1.9841033292885276e-05, 'epoch': 0.09}
  9%|▊         | 566/6640 [2:40:26<26:55:30, 15.96s/it]  9%|▊         | 567/6640 [2:40:41<26:52:53, 15.94s/it]                                                       {'loss': 0.5652, 'learning_rate': 1.9840165760283524e-05, 'epoch': 0.09}
  9%|▊         | 567/6640 [2:40:41<26:52:53, 15.94s/it]  9%|▊         | 568/6640 [2:40:58<27:01:23, 16.02s/it]                                                       {'loss': 0.5477, 'learning_rate': 1.98392958859863e-05, 'epoch': 0.09}
  9%|▊         | 568/6640 [2:40:58<27:01:23, 16.02s/it]  9%|▊         | 569/6640 [2:41:15<27:54:27, 16.55s/it]                                                       {'loss': 0.5545, 'learning_rate': 1.983842367020061e-05, 'epoch': 0.09}
  9%|▊         | 569/6640 [2:41:15<27:54:27, 16.55s/it]  9%|▊         | 570/6640 [2:41:31<27:18:14, 16.19s/it]                                                       {'loss': 0.5292, 'learning_rate': 1.9837549113134015e-05, 'epoch': 0.09}
  9%|▊         | 570/6640 [2:41:31<27:18:14, 16.19s/it]  9%|▊         | 571/6640 [2:41:47<27:05:10, 16.07s/it]                                                       {'loss': 0.5544, 'learning_rate': 1.983667221499464e-05, 'epoch': 0.09}
  9%|▊         | 571/6640 [2:41:47<27:05:10, 16.07s/it]  9%|▊         | 572/6640 [2:42:03<27:15:24, 16.17s/it]                                                       {'loss': 0.5448, 'learning_rate': 1.9835792975991164e-05, 'epoch': 0.09}
  9%|▊         | 572/6640 [2:42:03<27:15:24, 16.17s/it]  9%|▊         | 573/6640 [2:42:19<27:12:33, 16.15s/it]                                                       {'loss': 0.5495, 'learning_rate': 1.983491139633282e-05, 'epoch': 0.09}
  9%|▊         | 573/6640 [2:42:19<27:12:33, 16.15s/it]  9%|▊         | 574/6640 [2:42:36<27:37:13, 16.39s/it]                                                       {'loss': 0.5425, 'learning_rate': 1.98340274762294e-05, 'epoch': 0.09}
  9%|▊         | 574/6640 [2:42:36<27:37:13, 16.39s/it]  9%|▊         | 575/6640 [2:42:52<27:27:24, 16.30s/it]                                                       {'loss': 0.5566, 'learning_rate': 1.9833141215891253e-05, 'epoch': 0.09}
  9%|▊         | 575/6640 [2:42:52<27:27:24, 16.30s/it]  9%|▊         | 576/6640 [2:43:08<27:28:32, 16.31s/it]                                                       {'loss': 0.5445, 'learning_rate': 1.9832252615529287e-05, 'epoch': 0.09}
  9%|▊         | 576/6640 [2:43:08<27:28:32, 16.31s/it]  9%|▊         | 577/6640 [2:43:24<27:14:37, 16.18s/it]                                                       {'loss': 0.5479, 'learning_rate': 1.9831361675354962e-05, 'epoch': 0.09}
  9%|▊         | 577/6640 [2:43:24<27:14:37, 16.18s/it]  9%|▊         | 578/6640 [2:43:40<27:10:21, 16.14s/it]                                                       {'loss': 0.5436, 'learning_rate': 1.9830468395580306e-05, 'epoch': 0.09}
  9%|▊         | 578/6640 [2:43:40<27:10:21, 16.14s/it]  9%|▊         | 579/6640 [2:43:57<27:20:14, 16.24s/it]                                                       {'loss': 0.5693, 'learning_rate': 1.9829572776417885e-05, 'epoch': 0.09}
  9%|▊         | 579/6640 [2:43:57<27:20:14, 16.24s/it]  9%|▊         | 580/6640 [2:44:12<26:57:31, 16.02s/it]                                                       {'loss': 0.5305, 'learning_rate': 1.9828674818080837e-05, 'epoch': 0.09}
  9%|▊         | 580/6640 [2:44:12<26:57:31, 16.02s/it]  9%|▉         | 581/6640 [2:44:29<27:26:33, 16.31s/it]                                                       {'loss': 0.567, 'learning_rate': 1.982777452078285e-05, 'epoch': 0.09}
  9%|▉         | 581/6640 [2:44:29<27:26:33, 16.31s/it]  9%|▉         | 582/6640 [2:44:45<26:57:10, 16.02s/it]                                                       {'loss': 0.5566, 'learning_rate': 1.982687188473818e-05, 'epoch': 0.09}
  9%|▉         | 582/6640 [2:44:45<26:57:10, 16.02s/it]  9%|▉         | 583/6640 [2:45:02<27:41:30, 16.46s/it]                                                       {'loss': 0.5684, 'learning_rate': 1.9825966910161618e-05, 'epoch': 0.09}
  9%|▉         | 583/6640 [2:45:02<27:41:30, 16.46s/it]  9%|▉         | 584/6640 [2:45:19<27:44:24, 16.49s/it]                                                       {'loss': 0.5674, 'learning_rate': 1.9825059597268527e-05, 'epoch': 0.09}
  9%|▉         | 584/6640 [2:45:19<27:44:24, 16.49s/it]  9%|▉         | 585/6640 [2:45:36<27:55:48, 16.61s/it]                                                       {'loss': 0.5547, 'learning_rate': 1.9824149946274827e-05, 'epoch': 0.09}
  9%|▉         | 585/6640 [2:45:36<27:55:48, 16.61s/it]  9%|▉         | 586/6640 [2:45:52<27:37:39, 16.43s/it]                                                       {'loss': 0.5755, 'learning_rate': 1.9823237957396988e-05, 'epoch': 0.09}
  9%|▉         | 586/6640 [2:45:52<27:37:39, 16.43s/it]  9%|▉         | 587/6640 [2:46:08<27:41:17, 16.47s/it]                                                       {'loss': 0.5673, 'learning_rate': 1.9822323630852038e-05, 'epoch': 0.09}
  9%|▉         | 587/6640 [2:46:08<27:41:17, 16.47s/it]  9%|▉         | 588/6640 [2:46:25<27:46:39, 16.52s/it]                                                       {'loss': 0.5569, 'learning_rate': 1.982140696685756e-05, 'epoch': 0.09}
  9%|▉         | 588/6640 [2:46:25<27:46:39, 16.52s/it]  9%|▉         | 589/6640 [2:46:41<27:47:46, 16.54s/it]                                                       {'loss': 0.5629, 'learning_rate': 1.9820487965631704e-05, 'epoch': 0.09}
  9%|▉         | 589/6640 [2:46:41<27:47:46, 16.54s/it]  9%|▉         | 590/6640 [2:46:57<27:34:58, 16.41s/it]                                                       {'loss': 0.5392, 'learning_rate': 1.981956662739316e-05, 'epoch': 0.09}
  9%|▉         | 590/6640 [2:46:57<27:34:58, 16.41s/it]  9%|▉         | 591/6640 [2:47:14<27:36:49, 16.43s/it]                                                       {'loss': 0.5609, 'learning_rate': 1.9818642952361188e-05, 'epoch': 0.09}
  9%|▉         | 591/6640 [2:47:14<27:36:49, 16.43s/it]  9%|▉         | 592/6640 [2:47:30<27:25:27, 16.32s/it]                                                       {'loss': 0.5493, 'learning_rate': 1.9817716940755586e-05, 'epoch': 0.09}
  9%|▉         | 592/6640 [2:47:30<27:25:27, 16.32s/it]  9%|▉         | 593/6640 [2:47:47<27:40:05, 16.47s/it]                                                       {'loss': 0.5377, 'learning_rate': 1.9816788592796733e-05, 'epoch': 0.09}
  9%|▉         | 593/6640 [2:47:47<27:40:05, 16.47s/it]  9%|▉         | 594/6640 [2:48:04<27:47:42, 16.55s/it]                                                       {'loss': 0.5501, 'learning_rate': 1.9815857908705545e-05, 'epoch': 0.09}
  9%|▉         | 594/6640 [2:48:04<27:47:42, 16.55s/it]  9%|▉         | 595/6640 [2:48:19<27:25:07, 16.33s/it]                                                       {'loss': 0.5579, 'learning_rate': 1.98149248887035e-05, 'epoch': 0.09}
  9%|▉         | 595/6640 [2:48:19<27:25:07, 16.33s/it]  9%|▉         | 596/6640 [2:48:37<27:57:50, 16.66s/it]                                                       {'loss': 0.5445, 'learning_rate': 1.9813989533012633e-05, 'epoch': 0.09}
  9%|▉         | 596/6640 [2:48:37<27:57:50, 16.66s/it]  9%|▉         | 597/6640 [2:48:54<28:06:31, 16.75s/it]                                                       {'loss': 0.5514, 'learning_rate': 1.9813051841855534e-05, 'epoch': 0.09}
  9%|▉         | 597/6640 [2:48:54<28:06:31, 16.75s/it]  9%|▉         | 598/6640 [2:49:10<27:55:42, 16.64s/it]                                                       {'loss': 0.5219, 'learning_rate': 1.9812111815455345e-05, 'epoch': 0.09}
  9%|▉         | 598/6640 [2:49:10<27:55:42, 16.64s/it]  9%|▉         | 599/6640 [2:49:26<27:41:37, 16.50s/it]                                                       {'loss': 0.5451, 'learning_rate': 1.981116945403577e-05, 'epoch': 0.09}
  9%|▉         | 599/6640 [2:49:26<27:41:37, 16.50s/it]0 2 AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
  9%|▉         | 600/6640 [2:49:42<27:07:02, 16.16s/it]7 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5674, 'learning_rate': 1.9810224757821063e-05, 'epoch': 0.09}
  9%|▉         | 600/6640 [2:49:42<27:07:02, 16.16s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-600/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-600/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-600/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
  9%|▉         | 601/6640 [2:51:30<73:26:35, 43.78s/it]                                                       {'loss': 0.5633, 'learning_rate': 1.9809277727036043e-05, 'epoch': 0.09}
  9%|▉         | 601/6640 [2:51:30<73:26:35, 43.78s/it]  9%|▉         | 602/6640 [2:51:45<59:09:17, 35.27s/it]                                                       {'loss': 0.5426, 'learning_rate': 1.980832836190607e-05, 'epoch': 0.09}
  9%|▉         | 602/6640 [2:51:45<59:09:17, 35.27s/it]  9%|▉         | 603/6640 [2:52:02<49:36:42, 29.58s/it]                                                       {'loss': 0.5592, 'learning_rate': 1.980737666265707e-05, 'epoch': 0.09}
  9%|▉         | 603/6640 [2:52:02<49:36:42, 29.58s/it]  9%|▉         | 604/6640 [2:52:18<43:02:14, 25.67s/it]                                                       {'loss': 0.5597, 'learning_rate': 1.9806422629515524e-05, 'epoch': 0.09}
  9%|▉         | 604/6640 [2:52:18<43:02:14, 25.67s/it]  9%|▉         | 605/6640 [2:52:35<38:29:23, 22.96s/it]                                                       {'loss': 0.5507, 'learning_rate': 1.9805466262708464e-05, 'epoch': 0.09}
  9%|▉         | 605/6640 [2:52:35<38:29:23, 22.96s/it]  9%|▉         | 606/6640 [2:52:51<35:16:06, 21.04s/it]                                                       {'loss': 0.5531, 'learning_rate': 1.9804507562463483e-05, 'epoch': 0.09}
  9%|▉         | 606/6640 [2:52:51<35:16:06, 21.04s/it]  9%|▉         | 607/6640 [2:53:07<32:24:23, 19.34s/it]                                                       {'loss': 0.5308, 'learning_rate': 1.9803546529008722e-05, 'epoch': 0.09}
  9%|▉         | 607/6640 [2:53:07<32:24:23, 19.34s/it]  9%|▉         | 608/6640 [2:53:22<30:34:37, 18.25s/it]                                                       {'loss': 0.569, 'learning_rate': 1.9802583162572883e-05, 'epoch': 0.09}
  9%|▉         | 608/6640 [2:53:22<30:34:37, 18.25s/it]  9%|▉         | 609/6640 [2:53:39<29:32:24, 17.63s/it]                                                       {'loss': 0.563, 'learning_rate': 1.980161746338522e-05, 'epoch': 0.09}
  9%|▉         | 609/6640 [2:53:39<29:32:24, 17.63s/it]  9%|▉         | 610/6640 [2:53:56<29:13:53, 17.45s/it]                                                       {'loss': 0.5702, 'learning_rate': 1.9800649431675544e-05, 'epoch': 0.09}
  9%|▉         | 610/6640 [2:53:56<29:13:53, 17.45s/it]  9%|▉         | 611/6640 [2:54:12<28:32:55, 17.05s/it]                                                       {'loss': 0.5617, 'learning_rate': 1.9799679067674225e-05, 'epoch': 0.09}
  9%|▉         | 611/6640 [2:54:12<28:32:55, 17.05s/it]  9%|▉         | 612/6640 [2:54:29<28:25:12, 16.97s/it]                                                       {'loss': 0.5769, 'learning_rate': 1.9798706371612175e-05, 'epoch': 0.09}
  9%|▉         | 612/6640 [2:54:29<28:25:12, 16.97s/it]  9%|▉         | 613/6640 [2:54:45<28:04:25, 16.77s/it]                                                       {'loss': 0.5621, 'learning_rate': 1.9797731343720878e-05, 'epoch': 0.09}
  9%|▉         | 613/6640 [2:54:45<28:04:25, 16.77s/it]  9%|▉         | 614/6640 [2:55:01<27:39:41, 16.53s/it]                                                       {'loss': 0.5484, 'learning_rate': 1.9796753984232357e-05, 'epoch': 0.09}
  9%|▉         | 614/6640 [2:55:01<27:39:41, 16.53s/it]  9%|▉         | 615/6640 [2:55:17<27:27:46, 16.41s/it]                                                       {'loss': 0.5738, 'learning_rate': 1.9795774293379206e-05, 'epoch': 0.09}
  9%|▉         | 615/6640 [2:55:17<27:27:46, 16.41s/it]  9%|▉         | 616/6640 [2:55:34<27:44:49, 16.58s/it]                                                       {'loss': 0.5684, 'learning_rate': 1.9794792271394554e-05, 'epoch': 0.09}
  9%|▉         | 616/6640 [2:55:34<27:44:49, 16.58s/it]  9%|▉         | 617/6640 [2:55:50<27:39:20, 16.53s/it]                                                       {'loss': 0.5529, 'learning_rate': 1.9793807918512105e-05, 'epoch': 0.09}
  9%|▉         | 617/6640 [2:55:50<27:39:20, 16.53s/it]  9%|▉         | 618/6640 [2:56:08<28:00:03, 16.74s/it]                                                       {'loss': 0.539, 'learning_rate': 1.9792821234966108e-05, 'epoch': 0.09}
  9%|▉         | 618/6640 [2:56:08<28:00:03, 16.74s/it]  9%|▉         | 619/6640 [2:56:24<27:44:09, 16.58s/it]                                                       {'loss': 0.5461, 'learning_rate': 1.9791832220991364e-05, 'epoch': 0.09}
  9%|▉         | 619/6640 [2:56:24<27:44:09, 16.58s/it]  9%|▉         | 620/6640 [2:56:40<27:17:35, 16.32s/it]                                                       {'loss': 0.5679, 'learning_rate': 1.979084087682323e-05, 'epoch': 0.09}
  9%|▉         | 620/6640 [2:56:40<27:17:35, 16.32s/it]  9%|▉         | 621/6640 [2:56:55<27:00:54, 16.16s/it]                                                       {'loss': 0.5459, 'learning_rate': 1.9789847202697624e-05, 'epoch': 0.09}
  9%|▉         | 621/6640 [2:56:55<27:00:54, 16.16s/it]  9%|▉         | 622/6640 [2:57:11<26:54:14, 16.09s/it]                                                       {'loss': 0.5314, 'learning_rate': 1.9788851198851012e-05, 'epoch': 0.09}
  9%|▉         | 622/6640 [2:57:11<26:54:14, 16.09s/it]  9%|▉         | 623/6640 [2:57:28<27:10:15, 16.26s/it]                                                       {'loss': 0.5377, 'learning_rate': 1.9787852865520417e-05, 'epoch': 0.09}
  9%|▉         | 623/6640 [2:57:28<27:10:15, 16.26s/it]  9%|▉         | 624/6640 [2:57:44<27:04:42, 16.20s/it]                                                       {'loss': 0.559, 'learning_rate': 1.9786852202943413e-05, 'epoch': 0.09}
  9%|▉         | 624/6640 [2:57:44<27:04:42, 16.20s/it]  9%|▉         | 625/6640 [2:58:00<27:00:20, 16.16s/it]                                                       {'loss': 0.5455, 'learning_rate': 1.9785849211358133e-05, 'epoch': 0.09}
  9%|▉         | 625/6640 [2:58:00<27:00:20, 16.16s/it]  9%|▉         | 626/6640 [2:58:17<27:19:18, 16.35s/it]                                                       {'loss': 0.552, 'learning_rate': 1.978484389100326e-05, 'epoch': 0.09}
  9%|▉         | 626/6640 [2:58:17<27:19:18, 16.35s/it]  9%|▉         | 627/6640 [2:58:33<27:19:07, 16.36s/it]                                                       {'loss': 0.5688, 'learning_rate': 1.9783836242118036e-05, 'epoch': 0.09}
  9%|▉         | 627/6640 [2:58:33<27:19:07, 16.36s/it]  9%|▉         | 628/6640 [2:58:50<27:18:17, 16.35s/it]                                                       {'loss': 0.5748, 'learning_rate': 1.978282626494225e-05, 'epoch': 0.09}
  9%|▉         | 628/6640 [2:58:50<27:18:17, 16.35s/it]  9%|▉         | 629/6640 [2:59:05<26:55:48, 16.13s/it]                                                       {'loss': 0.5365, 'learning_rate': 1.978181395971626e-05, 'epoch': 0.09}
  9%|▉         | 629/6640 [2:59:05<26:55:48, 16.13s/it]  9%|▉         | 630/6640 [2:59:22<27:11:04, 16.28s/it]                                                       {'loss': 0.5687, 'learning_rate': 1.9780799326680956e-05, 'epoch': 0.09}
  9%|▉         | 630/6640 [2:59:22<27:11:04, 16.28s/it] 10%|▉         | 631/6640 [2:59:38<27:11:44, 16.29s/it]                                                       {'loss': 0.5514, 'learning_rate': 1.9779782366077798e-05, 'epoch': 0.1}
 10%|▉         | 631/6640 [2:59:38<27:11:44, 16.29s/it] 10%|▉         | 632/6640 [2:59:54<27:06:09, 16.24s/it]                                                       {'loss': 0.5404, 'learning_rate': 1.977876307814879e-05, 'epoch': 0.1}
 10%|▉         | 632/6640 [2:59:54<27:06:09, 16.24s/it] 10%|▉         | 633/6640 [3:00:13<28:07:06, 16.85s/it]                                                       {'loss': 0.5524, 'learning_rate': 1.977774146313651e-05, 'epoch': 0.1}
 10%|▉         | 633/6640 [3:00:13<28:07:06, 16.85s/it] 10%|▉         | 634/6640 [3:00:29<28:08:16, 16.87s/it]                                                       {'loss': 0.5372, 'learning_rate': 1.977671752128406e-05, 'epoch': 0.1}
 10%|▉         | 634/6640 [3:00:29<28:08:16, 16.87s/it] 10%|▉         | 635/6640 [3:00:46<27:55:56, 16.75s/it]                                                       {'loss': 0.5494, 'learning_rate': 1.9775691252835113e-05, 'epoch': 0.1}
 10%|▉         | 635/6640 [3:00:46<27:55:56, 16.75s/it] 10%|▉         | 636/6640 [3:01:02<27:22:47, 16.42s/it]                                                       {'loss': 0.5458, 'learning_rate': 1.9774662658033898e-05, 'epoch': 0.1}
 10%|▉         | 636/6640 [3:01:02<27:22:47, 16.42s/it] 10%|▉         | 637/6640 [3:01:18<27:26:30, 16.46s/it]                                                       {'loss': 0.5709, 'learning_rate': 1.9773631737125192e-05, 'epoch': 0.1}
 10%|▉         | 637/6640 [3:01:18<27:26:30, 16.46s/it] 10%|▉         | 638/6640 [3:01:34<27:23:49, 16.43s/it]                                                       {'loss': 0.5507, 'learning_rate': 1.9772598490354328e-05, 'epoch': 0.1}
 10%|▉         | 638/6640 [3:01:34<27:23:49, 16.43s/it] 10%|▉         | 639/6640 [3:01:51<27:22:47, 16.43s/it]                                                       {'loss': 0.5385, 'learning_rate': 1.9771562917967184e-05, 'epoch': 0.1}
 10%|▉         | 639/6640 [3:01:51<27:22:47, 16.43s/it] 10%|▉         | 640/6640 [3:02:07<27:20:32, 16.41s/it]                                                       {'loss': 0.5463, 'learning_rate': 1.9770525020210204e-05, 'epoch': 0.1}
 10%|▉         | 640/6640 [3:02:07<27:20:32, 16.41s/it] 10%|▉         | 641/6640 [3:02:23<27:09:38, 16.30s/it]                                                       {'loss': 0.5562, 'learning_rate': 1.9769484797330383e-05, 'epoch': 0.1}
 10%|▉         | 641/6640 [3:02:23<27:09:38, 16.30s/it] 10%|▉         | 642/6640 [3:02:39<26:56:09, 16.17s/it]                                                       {'loss': 0.5354, 'learning_rate': 1.976844224957526e-05, 'epoch': 0.1}
 10%|▉         | 642/6640 [3:02:39<26:56:09, 16.17s/it] 10%|▉         | 643/6640 [3:02:55<26:53:50, 16.15s/it]                                                       {'loss': 0.5559, 'learning_rate': 1.976739737719293e-05, 'epoch': 0.1}
 10%|▉         | 643/6640 [3:02:55<26:53:50, 16.15s/it] 10%|▉         | 644/6640 [3:03:12<27:09:56, 16.31s/it]                                                       {'loss': 0.5409, 'learning_rate': 1.9766350180432056e-05, 'epoch': 0.1}
 10%|▉         | 644/6640 [3:03:12<27:09:56, 16.31s/it] 10%|▉         | 645/6640 [3:03:29<27:18:17, 16.40s/it]                                                       {'loss': 0.5464, 'learning_rate': 1.9765300659541837e-05, 'epoch': 0.1}
 10%|▉         | 645/6640 [3:03:29<27:18:17, 16.40s/it] 10%|▉         | 646/6640 [3:03:45<27:21:11, 16.43s/it]                                                       {'loss': 0.5432, 'learning_rate': 1.9764248814772028e-05, 'epoch': 0.1}
 10%|▉         | 646/6640 [3:03:45<27:21:11, 16.43s/it] 10%|▉         | 647/6640 [3:04:01<27:00:35, 16.22s/it]                                                       {'loss': 0.5454, 'learning_rate': 1.9763194646372944e-05, 'epoch': 0.1}
 10%|▉         | 647/6640 [3:04:01<27:00:35, 16.22s/it] 10%|▉         | 648/6640 [3:04:17<27:04:16, 16.26s/it]                                                       {'loss': 0.5734, 'learning_rate': 1.9762138154595448e-05, 'epoch': 0.1}
 10%|▉         | 648/6640 [3:04:17<27:04:16, 16.26s/it] 10%|▉         | 649/6640 [3:04:35<27:50:21, 16.73s/it]                                                       {'loss': 0.5497, 'learning_rate': 1.9761079339690955e-05, 'epoch': 0.1}
 10%|▉         | 649/6640 [3:04:35<27:50:21, 16.73s/it]2 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
36  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

4 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
 10%|▉         | 650/6640 [3:04:52<27:49:48, 16.73s/it]                                                       {'loss': 0.5184, 'learning_rate': 1.976001820191143e-05, 'epoch': 0.1}
 10%|▉         | 650/6640 [3:04:52<27:49:48, 16.73s/it] 10%|▉         | 651/6640 [3:05:09<27:53:47, 16.77s/it]                                                       {'loss': 0.5563, 'learning_rate': 1.975895474150941e-05, 'epoch': 0.1}
 10%|▉         | 651/6640 [3:05:09<27:53:47, 16.77s/it] 10%|▉         | 652/6640 [3:05:25<27:46:38, 16.70s/it]                                                       {'loss': 0.5594, 'learning_rate': 1.9757888958737958e-05, 'epoch': 0.1}
 10%|▉         | 652/6640 [3:05:25<27:46:38, 16.70s/it] 10%|▉         | 653/6640 [3:05:41<27:24:39, 16.48s/it]                                                       {'loss': 0.5562, 'learning_rate': 1.9756820853850704e-05, 'epoch': 0.1}
 10%|▉         | 653/6640 [3:05:41<27:24:39, 16.48s/it] 10%|▉         | 654/6640 [3:05:57<27:01:26, 16.25s/it]                                                       {'loss': 0.5597, 'learning_rate': 1.9755750427101827e-05, 'epoch': 0.1}
 10%|▉         | 654/6640 [3:05:57<27:01:26, 16.25s/it] 10%|▉         | 655/6640 [3:06:13<27:07:03, 16.31s/it]                                                       {'loss': 0.5511, 'learning_rate': 1.9754677678746064e-05, 'epoch': 0.1}
 10%|▉         | 655/6640 [3:06:13<27:07:03, 16.31s/it] 10%|▉         | 656/6640 [3:06:30<27:09:58, 16.34s/it]                                                       {'loss': 0.5623, 'learning_rate': 1.9753602609038697e-05, 'epoch': 0.1}
 10%|▉         | 656/6640 [3:06:30<27:09:58, 16.34s/it] 10%|▉         | 657/6640 [3:06:45<26:53:12, 16.18s/it]                                                       {'loss': 0.5601, 'learning_rate': 1.975252521823556e-05, 'epoch': 0.1}
 10%|▉         | 657/6640 [3:06:45<26:53:12, 16.18s/it] 10%|▉         | 658/6640 [3:07:01<26:44:45, 16.10s/it]                                                       {'loss': 0.5581, 'learning_rate': 1.9751445506593057e-05, 'epoch': 0.1}
 10%|▉         | 658/6640 [3:07:01<26:44:45, 16.10s/it] 10%|▉         | 659/6640 [3:07:17<26:46:44, 16.12s/it]                                                       {'loss': 0.5546, 'learning_rate': 1.9750363474368116e-05, 'epoch': 0.1}
 10%|▉         | 659/6640 [3:07:17<26:46:44, 16.12s/it] 10%|▉         | 660/6640 [3:07:34<26:56:47, 16.22s/it]                                                       {'loss': 0.5607, 'learning_rate': 1.9749279121818235e-05, 'epoch': 0.1}
 10%|▉         | 660/6640 [3:07:34<26:56:47, 16.22s/it] 10%|▉         | 661/6640 [3:07:50<26:48:00, 16.14s/it]                                                       {'loss': 0.5252, 'learning_rate': 1.974819244920147e-05, 'epoch': 0.1}
 10%|▉         | 661/6640 [3:07:50<26:48:00, 16.14s/it] 10%|▉         | 662/6640 [3:08:06<26:53:22, 16.19s/it]                                                       {'loss': 0.5515, 'learning_rate': 1.9747103456776406e-05, 'epoch': 0.1}
 10%|▉         | 662/6640 [3:08:06<26:53:22, 16.19s/it] 10%|▉         | 663/6640 [3:08:23<27:13:23, 16.40s/it]                                                       {'loss': 0.5298, 'learning_rate': 1.9746012144802203e-05, 'epoch': 0.1}
 10%|▉         | 663/6640 [3:08:23<27:13:23, 16.40s/it] 10%|█         | 664/6640 [3:08:39<27:13:24, 16.40s/it]                                                       {'loss': 0.5635, 'learning_rate': 1.9744918513538563e-05, 'epoch': 0.1}
 10%|█         | 664/6640 [3:08:40<27:13:24, 16.40s/it] 10%|█         | 665/6640 [3:08:56<27:16:23, 16.43s/it]                                                       {'loss': 0.5391, 'learning_rate': 1.9743822563245738e-05, 'epoch': 0.1}
 10%|█         | 665/6640 [3:08:56<27:16:23, 16.43s/it] 10%|█         | 666/6640 [3:09:12<26:57:16, 16.24s/it]                                                       {'loss': 0.5537, 'learning_rate': 1.9742724294184536e-05, 'epoch': 0.1}
 10%|█         | 666/6640 [3:09:12<26:57:16, 16.24s/it] 10%|█         | 667/6640 [3:09:29<27:35:00, 16.62s/it]                                                       {'loss': 0.5564, 'learning_rate': 1.974162370661632e-05, 'epoch': 0.1}
 10%|█         | 667/6640 [3:09:29<27:35:00, 16.62s/it] 10%|█         | 668/6640 [3:09:45<27:01:33, 16.29s/it]                                                       {'loss': 0.5624, 'learning_rate': 1.974052080080299e-05, 'epoch': 0.1}
 10%|█         | 668/6640 [3:09:45<27:01:33, 16.29s/it] 10%|█         | 669/6640 [3:10:01<27:06:04, 16.34s/it]                                                       {'loss': 0.5507, 'learning_rate': 1.9739415577007016e-05, 'epoch': 0.1}
 10%|█         | 669/6640 [3:10:01<27:06:04, 16.34s/it] 10%|█         | 670/6640 [3:10:18<27:09:30, 16.38s/it]                                                       {'loss': 0.5657, 'learning_rate': 1.973830803549141e-05, 'epoch': 0.1}
 10%|█         | 670/6640 [3:10:18<27:09:30, 16.38s/it] 10%|█         | 671/6640 [3:10:34<27:07:52, 16.36s/it]                                                       {'loss': 0.5678, 'learning_rate': 1.9737198176519738e-05, 'epoch': 0.1}
 10%|█         | 671/6640 [3:10:34<27:07:52, 16.36s/it] 10%|█         | 672/6640 [3:10:50<27:04:47, 16.33s/it]                                                       {'loss': 0.5693, 'learning_rate': 1.9736086000356117e-05, 'epoch': 0.1}
 10%|█         | 672/6640 [3:10:50<27:04:47, 16.33s/it] 10%|█         | 673/6640 [3:11:07<26:59:01, 16.28s/it]                                                       {'loss': 0.5434, 'learning_rate': 1.9734971507265214e-05, 'epoch': 0.1}
 10%|█         | 673/6640 [3:11:07<26:59:01, 16.28s/it] 10%|█         | 674/6640 [3:11:23<27:09:47, 16.39s/it]                                                       {'loss': 0.574, 'learning_rate': 1.9733854697512244e-05, 'epoch': 0.1}
 10%|█         | 674/6640 [3:11:23<27:09:47, 16.39s/it] 10%|█         | 675/6640 [3:11:39<26:57:29, 16.27s/it]                                                       {'loss': 0.5574, 'learning_rate': 1.9732735571362985e-05, 'epoch': 0.1}
 10%|█         | 675/6640 [3:11:39<26:57:29, 16.27s/it] 10%|█         | 676/6640 [3:11:56<27:16:39, 16.47s/it]                                                       {'loss': 0.5663, 'learning_rate': 1.9731614129083756e-05, 'epoch': 0.1}
 10%|█         | 676/6640 [3:11:56<27:16:39, 16.47s/it] 10%|█         | 677/6640 [3:12:12<26:50:14, 16.20s/it]                                                       {'loss': 0.5437, 'learning_rate': 1.973049037094143e-05, 'epoch': 0.1}
 10%|█         | 677/6640 [3:12:12<26:50:14, 16.20s/it] 10%|█         | 678/6640 [3:12:28<26:51:36, 16.22s/it]                                                       {'loss': 0.558, 'learning_rate': 1.972936429720343e-05, 'epoch': 0.1}
 10%|█         | 678/6640 [3:12:28<26:51:36, 16.22s/it] 10%|█         | 679/6640 [3:12:44<26:57:23, 16.28s/it]                                                       {'loss': 0.5526, 'learning_rate': 1.9728235908137736e-05, 'epoch': 0.1}
 10%|█         | 679/6640 [3:12:44<26:57:23, 16.28s/it] 10%|█         | 680/6640 [3:13:00<26:41:58, 16.13s/it]                                                       {'loss': 0.5479, 'learning_rate': 1.972710520401287e-05, 'epoch': 0.1}
 10%|█         | 680/6640 [3:13:00<26:41:58, 16.13s/it] 10%|█         | 681/6640 [3:13:16<26:35:28, 16.06s/it]                                                       {'loss': 0.5664, 'learning_rate': 1.972597218509791e-05, 'epoch': 0.1}
 10%|█         | 681/6640 [3:13:16<26:35:28, 16.06s/it] 10%|█         | 682/6640 [3:13:32<26:34:49, 16.06s/it]                                                       {'loss': 0.5385, 'learning_rate': 1.972483685166248e-05, 'epoch': 0.1}
 10%|█         | 682/6640 [3:13:32<26:34:49, 16.06s/it] 10%|█         | 683/6640 [3:13:51<27:52:10, 16.84s/it]                                                       {'loss': 0.5395, 'learning_rate': 1.9723699203976768e-05, 'epoch': 0.1}
 10%|█         | 683/6640 [3:13:51<27:52:10, 16.84s/it] 10%|█         | 684/6640 [3:14:07<27:40:28, 16.73s/it]                                                       {'loss': 0.5559, 'learning_rate': 1.9722559242311496e-05, 'epoch': 0.1}
 10%|█         | 684/6640 [3:14:07<27:40:28, 16.73s/it] 10%|█         | 685/6640 [3:14:24<27:35:53, 16.68s/it]                                                       {'loss': 0.5499, 'learning_rate': 1.972141696693795e-05, 'epoch': 0.1}
 10%|█         | 685/6640 [3:14:24<27:35:53, 16.68s/it] 10%|█         | 686/6640 [3:14:40<27:13:37, 16.46s/it]                                                       {'loss': 0.5727, 'learning_rate': 1.972027237812796e-05, 'epoch': 0.1}
 10%|█         | 686/6640 [3:14:40<27:13:37, 16.46s/it] 10%|█         | 687/6640 [3:14:57<27:42:55, 16.76s/it]                                                       {'loss': 0.5629, 'learning_rate': 1.97191254761539e-05, 'epoch': 0.1}
 10%|█         | 687/6640 [3:14:57<27:42:55, 16.76s/it] 10%|█         | 688/6640 [3:15:14<27:50:30, 16.84s/it]                                                       {'loss': 0.5372, 'learning_rate': 1.9717976261288713e-05, 'epoch': 0.1}
 10%|█         | 688/6640 [3:15:14<27:50:30, 16.84s/it] 10%|█         | 689/6640 [3:15:31<27:42:20, 16.76s/it]                                                       {'loss': 0.5707, 'learning_rate': 1.9716824733805872e-05, 'epoch': 0.1}
 10%|█         | 689/6640 [3:15:31<27:42:20, 16.76s/it] 10%|█         | 690/6640 [3:15:47<27:13:01, 16.47s/it]                                                       {'loss': 0.5445, 'learning_rate': 1.9715670893979416e-05, 'epoch': 0.1}
 10%|█         | 690/6640 [3:15:47<27:13:01, 16.47s/it] 10%|█         | 691/6640 [3:16:03<27:03:16, 16.37s/it]                                                       {'loss': 0.5673, 'learning_rate': 1.9714514742083923e-05, 'epoch': 0.1}
 10%|█         | 691/6640 [3:16:03<27:03:16, 16.37s/it] 10%|█         | 692/6640 [3:16:19<26:51:46, 16.26s/it]                                                       {'loss': 0.5498, 'learning_rate': 1.9713356278394532e-05, 'epoch': 0.1}
 10%|█         | 692/6640 [3:16:19<26:51:46, 16.26s/it] 10%|█         | 693/6640 [3:16:36<27:07:44, 16.42s/it]                                                       {'loss': 0.5512, 'learning_rate': 1.9712195503186923e-05, 'epoch': 0.1}
 10%|█         | 693/6640 [3:16:36<27:07:44, 16.42s/it] 10%|█         | 694/6640 [3:16:52<27:06:58, 16.42s/it]                                                       {'loss': 0.5508, 'learning_rate': 1.9711032416737326e-05, 'epoch': 0.1}
 10%|█         | 694/6640 [3:16:52<27:06:58, 16.42s/it] 10%|█         | 695/6640 [3:17:09<27:27:12, 16.62s/it]                                                       {'loss': 0.5454, 'learning_rate': 1.9709867019322528e-05, 'epoch': 0.1}
 10%|█         | 695/6640 [3:17:09<27:27:12, 16.62s/it] 10%|█         | 696/6640 [3:17:26<27:26:20, 16.62s/it]                                                       {'loss': 0.564, 'learning_rate': 1.9708699311219865e-05, 'epoch': 0.1}
 10%|█         | 696/6640 [3:17:26<27:26:20, 16.62s/it] 10%|█         | 697/6640 [3:17:42<27:17:19, 16.53s/it]                                                       {'loss': 0.5347, 'learning_rate': 1.970752929270721e-05, 'epoch': 0.1}
 10%|█         | 697/6640 [3:17:42<27:17:19, 16.53s/it] 11%|█         | 698/6640 [3:17:58<27:14:46, 16.51s/it]                                                       {'loss': 0.5548, 'learning_rate': 1.970635696406301e-05, 'epoch': 0.11}
 11%|█         | 698/6640 [3:17:58<27:14:46, 16.51s/it] 11%|█         | 699/6640 [3:18:14<26:50:04, 16.26s/it]                                                       {'loss': 0.5495, 'learning_rate': 1.9705182325566237e-05, 'epoch': 0.11}
 11%|█         | 699/6640 [3:18:14<26:50:04, 16.26s/it]7 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 11%|█         | 700/6640 [3:18:29<26:23:30, 16.00s/it]                                                       {'loss': 0.557, 'learning_rate': 1.9704005377496428e-05, 'epoch': 0.11}
 11%|█         | 700/6640 [3:18:29<26:23:30, 16.00s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-700/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-700/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-700/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 11%|█         | 701/6640 [3:20:12<69:07:03, 41.90s/it]                                                       {'loss': 0.5542, 'learning_rate': 1.9702826120133668e-05, 'epoch': 0.11}
 11%|█         | 701/6640 [3:20:12<69:07:03, 41.90s/it] 11%|█         | 702/6640 [3:20:29<56:40:20, 34.36s/it]                                                       {'loss': 0.546, 'learning_rate': 1.9701644553758582e-05, 'epoch': 0.11}
 11%|█         | 702/6640 [3:20:29<56:40:20, 34.36s/it] 11%|█         | 703/6640 [3:20:45<47:41:44, 28.92s/it]                                                       {'loss': 0.5544, 'learning_rate': 1.9700460678652355e-05, 'epoch': 0.11}
 11%|█         | 703/6640 [3:20:45<47:41:44, 28.92s/it] 11%|█         | 704/6640 [3:21:02<41:40:26, 25.27s/it]                                                       {'loss': 0.5543, 'learning_rate': 1.9699274495096712e-05, 'epoch': 0.11}
 11%|█         | 704/6640 [3:21:02<41:40:26, 25.27s/it] 11%|█         | 705/6640 [3:21:18<37:10:54, 22.55s/it]                                                       {'loss': 0.5542, 'learning_rate': 1.969808600337394e-05, 'epoch': 0.11}
 11%|█         | 705/6640 [3:21:18<37:10:54, 22.55s/it] 11%|█         | 706/6640 [3:21:34<33:58:25, 20.61s/it]                                                       {'loss': 0.542, 'learning_rate': 1.969689520376687e-05, 'epoch': 0.11}
 11%|█         | 706/6640 [3:21:34<33:58:25, 20.61s/it] 11%|█         | 707/6640 [3:21:50<31:32:41, 19.14s/it]                                                       {'loss': 0.5546, 'learning_rate': 1.9695702096558873e-05, 'epoch': 0.11}
 11%|█         | 707/6640 [3:21:50<31:32:41, 19.14s/it] 11%|█         | 708/6640 [3:22:06<30:14:05, 18.35s/it]                                                       {'loss': 0.556, 'learning_rate': 1.969450668203388e-05, 'epoch': 0.11}
 11%|█         | 708/6640 [3:22:06<30:14:05, 18.35s/it] 11%|█         | 709/6640 [3:22:23<29:19:33, 17.80s/it]                                                       {'loss': 0.5577, 'learning_rate': 1.9693308960476367e-05, 'epoch': 0.11}
 11%|█         | 709/6640 [3:22:23<29:19:33, 17.80s/it] 11%|█         | 710/6640 [3:22:38<28:16:00, 17.16s/it]                                                       {'loss': 0.5376, 'learning_rate': 1.969210893217136e-05, 'epoch': 0.11}
 11%|█         | 710/6640 [3:22:38<28:16:00, 17.16s/it] 11%|█         | 711/6640 [3:22:54<27:39:38, 16.80s/it]                                                       {'loss': 0.5542, 'learning_rate': 1.969090659740443e-05, 'epoch': 0.11}
 11%|█         | 711/6640 [3:22:54<27:39:38, 16.80s/it] 11%|█         | 712/6640 [3:23:10<27:19:52, 16.60s/it]                                                       {'loss': 0.5511, 'learning_rate': 1.9689701956461708e-05, 'epoch': 0.11}
 11%|█         | 712/6640 [3:23:10<27:19:52, 16.60s/it] 11%|█         | 713/6640 [3:23:27<27:28:07, 16.68s/it]                                                       {'loss': 0.5578, 'learning_rate': 1.968849500962986e-05, 'epoch': 0.11}
 11%|█         | 713/6640 [3:23:27<27:28:07, 16.68s/it] 11%|█         | 714/6640 [3:23:43<27:10:44, 16.51s/it]                                                       {'loss': 0.5483, 'learning_rate': 1.9687285757196107e-05, 'epoch': 0.11}
 11%|█         | 714/6640 [3:23:43<27:10:44, 16.51s/it] 11%|█         | 715/6640 [3:24:00<27:07:25, 16.48s/it]                                                       {'loss': 0.5545, 'learning_rate': 1.9686074199448222e-05, 'epoch': 0.11}
 11%|█         | 715/6640 [3:24:00<27:07:25, 16.48s/it] 11%|█         | 716/6640 [3:24:16<26:58:27, 16.39s/it]                                                       {'loss': 0.5577, 'learning_rate': 1.9684860336674525e-05, 'epoch': 0.11}
 11%|█         | 716/6640 [3:24:16<26:58:27, 16.39s/it] 11%|█         | 717/6640 [3:24:32<26:59:57, 16.41s/it]                                                       {'loss': 0.5385, 'learning_rate': 1.9683644169163877e-05, 'epoch': 0.11}
 11%|█         | 717/6640 [3:24:32<26:59:57, 16.41s/it] 11%|█         | 718/6640 [3:24:49<26:56:52, 16.38s/it]                                                       {'loss': 0.5539, 'learning_rate': 1.9682425697205695e-05, 'epoch': 0.11}
 11%|█         | 718/6640 [3:24:49<26:56:52, 16.38s/it] 11%|█         | 719/6640 [3:25:06<27:10:35, 16.52s/it]                                                       {'loss': 0.5506, 'learning_rate': 1.9681204921089944e-05, 'epoch': 0.11}
 11%|█         | 719/6640 [3:25:06<27:10:35, 16.52s/it] 11%|█         | 720/6640 [3:25:21<26:46:18, 16.28s/it]                                                       {'loss': 0.5398, 'learning_rate': 1.967998184110713e-05, 'epoch': 0.11}
 11%|█         | 720/6640 [3:25:21<26:46:18, 16.28s/it] 11%|█         | 721/6640 [3:25:37<26:21:18, 16.03s/it]                                                       {'loss': 0.5675, 'learning_rate': 1.9678756457548328e-05, 'epoch': 0.11}
 11%|█         | 721/6640 [3:25:37<26:21:18, 16.03s/it] 11%|█         | 722/6640 [3:25:53<26:30:44, 16.13s/it]                                                       {'loss': 0.5715, 'learning_rate': 1.9677528770705134e-05, 'epoch': 0.11}
 11%|█         | 722/6640 [3:25:53<26:30:44, 16.13s/it] 11%|█         | 723/6640 [3:26:10<26:46:50, 16.29s/it]                                                       {'loss': 0.5449, 'learning_rate': 1.9676298780869704e-05, 'epoch': 0.11}
 11%|█         | 723/6640 [3:26:10<26:46:50, 16.29s/it] 11%|█         | 724/6640 [3:26:26<26:35:14, 16.18s/it]                                                       {'loss': 0.5438, 'learning_rate': 1.967506648833475e-05, 'epoch': 0.11}
 11%|█         | 724/6640 [3:26:26<26:35:14, 16.18s/it] 11%|█         | 725/6640 [3:26:42<26:38:35, 16.22s/it]                                                       {'loss': 0.5672, 'learning_rate': 1.967383189339352e-05, 'epoch': 0.11}
 11%|█         | 725/6640 [3:26:42<26:38:35, 16.22s/it] 11%|█         | 726/6640 [3:26:58<26:33:48, 16.17s/it]                                                       {'loss': 0.5741, 'learning_rate': 1.967259499633981e-05, 'epoch': 0.11}
 11%|█         | 726/6640 [3:26:58<26:33:48, 16.17s/it] 11%|█         | 727/6640 [3:27:13<26:08:55, 15.92s/it]                                                       {'loss': 0.5709, 'learning_rate': 1.9671355797467977e-05, 'epoch': 0.11}
 11%|█         | 727/6640 [3:27:13<26:08:55, 15.92s/it] 11%|█         | 728/6640 [3:27:30<26:43:54, 16.28s/it]                                                       {'loss': 0.5426, 'learning_rate': 1.9670114297072915e-05, 'epoch': 0.11}
 11%|█         | 728/6640 [3:27:30<26:43:54, 16.28s/it] 11%|█         | 729/6640 [3:27:47<27:00:51, 16.45s/it]                                                       {'loss': 0.5383, 'learning_rate': 1.9668870495450064e-05, 'epoch': 0.11}
 11%|█         | 729/6640 [3:27:47<27:00:51, 16.45s/it] 11%|█         | 730/6640 [3:28:04<26:52:47, 16.37s/it]                                                       {'loss': 0.5577, 'learning_rate': 1.9667624392895423e-05, 'epoch': 0.11}
 11%|█         | 730/6640 [3:28:04<26:52:47, 16.37s/it] 11%|█         | 731/6640 [3:28:20<26:45:49, 16.31s/it]                                                       {'loss': 0.5594, 'learning_rate': 1.966637598970552e-05, 'epoch': 0.11}
 11%|█         | 731/6640 [3:28:20<26:45:49, 16.31s/it] 11%|█         | 732/6640 [3:28:36<26:39:22, 16.24s/it]                                                       {'loss': 0.5513, 'learning_rate': 1.9665125286177448e-05, 'epoch': 0.11}
 11%|█         | 732/6640 [3:28:36<26:39:22, 16.24s/it] 11%|█         | 733/6640 [3:28:52<26:32:40, 16.18s/it]                                                       {'loss': 0.5358, 'learning_rate': 1.9663872282608843e-05, 'epoch': 0.11}
 11%|█         | 733/6640 [3:28:52<26:32:40, 16.18s/it] 11%|█         | 734/6640 [3:29:08<26:34:08, 16.20s/it]                                                       {'loss': 0.5479, 'learning_rate': 1.966261697929788e-05, 'epoch': 0.11}
 11%|█         | 734/6640 [3:29:08<26:34:08, 16.20s/it] 11%|█         | 735/6640 [3:29:25<26:52:30, 16.38s/it]                                                       {'loss': 0.5449, 'learning_rate': 1.9661359376543295e-05, 'epoch': 0.11}
 11%|█         | 735/6640 [3:29:25<26:52:30, 16.38s/it] 11%|█         | 736/6640 [3:29:42<27:01:59, 16.48s/it]                                                       {'loss': 0.5441, 'learning_rate': 1.9660099474644357e-05, 'epoch': 0.11}
 11%|█         | 736/6640 [3:29:42<27:01:59, 16.48s/it] 11%|█         | 737/6640 [3:29:58<27:03:16, 16.50s/it]                                                       {'loss': 0.5402, 'learning_rate': 1.965883727390089e-05, 'epoch': 0.11}
 11%|█         | 737/6640 [3:29:58<27:03:16, 16.50s/it] 11%|█         | 738/6640 [3:30:15<27:08:55, 16.56s/it]                                                       {'loss': 0.5474, 'learning_rate': 1.9657572774613266e-05, 'epoch': 0.11}
 11%|█         | 738/6640 [3:30:15<27:08:55, 16.56s/it] 11%|█         | 739/6640 [3:30:31<26:52:18, 16.39s/it]                                                       {'loss': 0.5315, 'learning_rate': 1.9656305977082405e-05, 'epoch': 0.11}
 11%|█         | 739/6640 [3:30:31<26:52:18, 16.39s/it] 11%|█         | 740/6640 [3:30:47<26:52:55, 16.40s/it]                                                       {'loss': 0.5616, 'learning_rate': 1.9655036881609763e-05, 'epoch': 0.11}
 11%|█         | 740/6640 [3:30:47<26:52:55, 16.40s/it] 11%|█         | 741/6640 [3:31:04<26:59:47, 16.48s/it]                                                       {'loss': 0.5573, 'learning_rate': 1.9653765488497354e-05, 'epoch': 0.11}
 11%|█         | 741/6640 [3:31:04<26:59:47, 16.48s/it] 11%|█         | 742/6640 [3:31:20<26:42:11, 16.30s/it]                                                       {'loss': 0.5613, 'learning_rate': 1.965249179804774e-05, 'epoch': 0.11}
 11%|█         | 742/6640 [3:31:20<26:42:11, 16.30s/it] 11%|█         | 743/6640 [3:31:38<27:31:59, 16.81s/it]                                                       {'loss': 0.5512, 'learning_rate': 1.965121581056402e-05, 'epoch': 0.11}
 11%|█         | 743/6640 [3:31:38<27:31:59, 16.81s/it] 11%|█         | 744/6640 [3:31:54<27:14:04, 16.63s/it]                                                       {'loss': 0.5539, 'learning_rate': 1.9649937526349842e-05, 'epoch': 0.11}
 11%|█         | 744/6640 [3:31:54<27:14:04, 16.63s/it] 11%|█         | 745/6640 [3:32:10<26:52:44, 16.41s/it]                                                       {'loss': 0.5257, 'learning_rate': 1.9648656945709413e-05, 'epoch': 0.11}
 11%|█         | 745/6640 [3:32:10<26:52:44, 16.41s/it] 11%|█         | 746/6640 [3:32:26<26:37:46, 16.27s/it]                                                       {'loss': 0.5611, 'learning_rate': 1.964737406894747e-05, 'epoch': 0.11}
 11%|█         | 746/6640 [3:32:26<26:37:46, 16.27s/it]WARNING: tokenization mismatch: 1 vs. 1590. [[{'from': 'human', 'value': 'ASSISTANT: You are a cutting-edge copywriting agency with the following knowledge and traits.\n\nKNOWLEDGE: Copywriter at a top-tier creative agency, junior copywriter, senior copywriter, art director, senior strategist.\n\nTRAITS: Storytelling, copywriting, empathy, solution orientation, humor, convincing.\n\nTASK: Use your knowledge to write a LinkedIn Post. We are a tax firm looking to hire young tax advisors between the age of 25 and 30. Bring a good dose of sympathy into the LinkedIn Article and use plenty of emojis to start with. Start the Linked In post with an exciting question. Use the language of the target group. Don´t mention the targeted age. \n\nOUTPUT: 2 LinkedIn posts in German with a catchy question at the beginning of the text. Hashtags at the end of the text.'}, {'from': 'gpt', 'value': 'Post 1:\n\n👋 Hey Leute! Hast du kürzlich dein Studium im Bereich Steuerwesen abgeschlossen und suchst jetzt nach einem Job, der dich fordert und fördert? 🤔\n\nDann bist du bei uns genau richtig! Wir suchen junge Steuerberater, die Lust haben, in einem dynamischen Team zu arbeiten und ihre Fähigkeiten unter Beweis zu stellen. 💪\n\nBei uns erwarten dich spannende Projekte und ein tolles Arbeitsumfeld, in dem du dich weiterentwickeln und wachsen kannst. 🌱\n\nInteressiert? Dann bewirb dich jetzt und werde Teil unseres Teams! 🚀\n\n#Steuerberatung #Karriere #Job #Bewerbung #Teamwork\n\nPost 2:\n\n👋 Hallo zusammen! Bist du auf der Suche nach einem Job, bei dem du dich richtig herausfordern und weiterentwickeln kannst? 🤔\n\nDann haben wir vielleicht das passende Angebot für dich! Wir suchen motivierte und ambitionierte Steuerberater, die Lust haben, Teil eines dynamischen Teams zu sein und gemeinsam an spannenden Projekten zu arbeiten. 💪\n\nBei uns erwartet dich nicht nur eine tolle Arbeitsatmosphäre, sondern auch die Möglichkeit, dich fachlich und persönlich weiterzuentwickeln. 🌱\n\nAlso, worauf wartest du? Bewirb dich jetzt und starte deine Karriere bei uns! 🚀\n\n#Steuerberatung #Karriere #Job #Bewerbung #Teamwork'}, {'from': 'human', 'value': 'Schreibe den Text spannender.'}, {'from': 'gpt', 'value': 'Post 1:\n\n👋 Hey Leute! Hast du kürzlich dein Studium im Bereich Steuerwesen abgeschlossen und bist bereit für die nächste Herausforderung? 🤔\n\nDann haben wir genau das Richtige für dich! Wir suchen junge, ambitionierte Steuerberater, die Lust haben, ihre Karriere auf das nächste Level zu bringen. 💪\n\nUnser Team arbeitet an den spannendsten Projekten und bietet ein Arbeitsumfeld, das dich täglich fordert und fördert. Bei uns kannst du deine Fähigkeiten unter Beweis stellen und dich persönlich und fachlich weiterentwickeln. 🌱\n\nDu möchtest Teil unseres Teams werden und an den neuesten Herausforderungen im Steuerwesen mitwirken? Dann zögere nicht und bewirb dich jetzt bei uns! 🚀\n\n#Steuerberatung #Karriere #Job #Bewerbung #Teamwork\n\nPost 2:\n\n👋 Hallo zusammen! Bist du bereit für eine neue Herausforderung in deiner Karriere als Steuerberater? 🤔\n\nDann bist du bei uns genau richtig! Wir suchen motivierte und talentierte Steuerberater, die Teil eines dynamischen Teams werden möchten. Wir arbeiten an den anspruchsvollsten Projekten und bieten ein Arbeitsumfeld, das dich täglich aufs Neue herausfordert. 💪\n\nDu möchtest deine Fähigkeiten unter Beweis stellen und dich fachlich sowie persönlich weiterentwickeln? Dann bewirb dich jetzt bei uns und werde Teil unseres Erfolgsteams! 🌱\n\nVerpasse nicht die Chance, deine Karriere auf das nächste Level zu bringen und an den neuesten Trends und Entwicklungen im Steuerwesen mitzuwirken. Wir freuen uns auf deine Bewerbung! 🚀\n\n#Steuerberatung #Karriere #Job #Bewerbung #Teamwork'}, {'from': 'human', 'value': 'Schreibe den Text objektiv und sachlich.'}, {'from': 'gpt', 'value': 'Post 1:\n\nGuten Tag,\n\nWir sind auf der Suche nach jungen, talentierten Steuerberatern, die ihr Studium im Bereich Steuerwesen erfolgreich abgeschlossen haben. Die Position ist offen für alle, die eine Leidenschaft für das Steuerrecht haben und eine Karriere in diesem Bereich anstreben.\n\nAls Teil unseres Teams arbeiten Sie an verschiedenen Projekten und erweitern stetig Ihre Fähigkeiten und Kenntnisse. Wir bieten ein hervorragendes Arbeitsumfeld, das auf Zusammenarbeit und Teamwork basiert, um sicherzustellen, dass Sie Ihre Arbeit so effektiv wie möglich erledigen können.\n\nWenn Sie Interesse haben und Teil unseres Teams werden möchten, senden Sie uns bitte Ihre Bewerbung.\n\nVielen Dank.\n\nPost 2:\n\nGuten Tag,\n\nWir sind auf der Suche nach motivierten und talentierten Steuerberatern, die an einer Karriere in diesem Bereich interessiert sind. Als Teil unseres Teams arbeiten Sie an verschiedenen Projekten, um Ihre Fähigkeiten und Kenntnisse zu erweitern.\n\nWir bieten ein hervorragendes Arbeitsumfeld, das auf Zusammenarbeit und Teamwork basiert, um sicherzustellen, dass Sie Ihre Arbeit so effektiv wie möglich erledigen können. Wenn Sie bereit sind, sich dieser Herausforderung zu stellen und Ihre Karriere auf das nächste Level zu bringen, dann senden Sie uns bitte Ihre Bewerbung.\n\nVielen Dank.'}]] (ignored)
 11%|█▏        | 747/6640 [3:32:42<26:41:08, 16.30s/it]                                                       {'loss': 0.5437, 'learning_rate': 1.96460888963693e-05, 'epoch': 0.11}
 11%|█▏        | 747/6640 [3:32:42<26:41:08, 16.30s/it] 11%|█▏        | 748/6640 [3:32:59<27:00:20, 16.50s/it]                                                       {'loss': 0.5661, 'learning_rate': 1.964480142828075e-05, 'epoch': 0.11}
 11%|█▏        | 748/6640 [3:32:59<27:00:20, 16.50s/it] 11%|█▏        | 749/6640 [3:33:15<26:49:25, 16.39s/it]                                                       {'loss': 0.5376, 'learning_rate': 1.9643511664988195e-05, 'epoch': 0.11}
 11%|█▏        | 749/6640 [3:33:15<26:49:25, 16.39s/it]2 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
05 AutoResumeHook: Checking whether to suspend...3
 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 11%|█▏        | 750/6640 [3:33:31<26:40:31, 16.30s/it]1 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5684, 'learning_rate': 1.9642219606798566e-05, 'epoch': 0.11}
 11%|█▏        | 750/6640 [3:33:31<26:40:31, 16.30s/it] 11%|█▏        | 751/6640 [3:33:48<26:37:01, 16.27s/it]                                                       {'loss': 0.5229, 'learning_rate': 1.9640925254019342e-05, 'epoch': 0.11}
 11%|█▏        | 751/6640 [3:33:48<26:37:01, 16.27s/it] 11%|█▏        | 752/6640 [3:34:04<26:33:33, 16.24s/it]                                                       {'loss': 0.5449, 'learning_rate': 1.9639628606958535e-05, 'epoch': 0.11}
 11%|█▏        | 752/6640 [3:34:04<26:33:33, 16.24s/it] 11%|█▏        | 753/6640 [3:34:20<26:35:05, 16.26s/it]                                                       {'loss': 0.5469, 'learning_rate': 1.963832966592472e-05, 'epoch': 0.11}
 11%|█▏        | 753/6640 [3:34:20<26:35:05, 16.26s/it] 11%|█▏        | 754/6640 [3:34:37<26:54:32, 16.46s/it]                                                       {'loss': 0.5607, 'learning_rate': 1.9637028431227006e-05, 'epoch': 0.11}
 11%|█▏        | 754/6640 [3:34:37<26:54:32, 16.46s/it] 11%|█▏        | 755/6640 [3:34:56<28:20:23, 17.34s/it]                                                       {'loss': 0.5593, 'learning_rate': 1.9635724903175055e-05, 'epoch': 0.11}
 11%|█▏        | 755/6640 [3:34:56<28:20:23, 17.34s/it] 11%|█▏        | 756/6640 [3:35:13<28:05:56, 17.19s/it]                                                       {'loss': 0.5288, 'learning_rate': 1.9634419082079073e-05, 'epoch': 0.11}
 11%|█▏        | 756/6640 [3:35:13<28:05:56, 17.19s/it] 11%|█▏        | 757/6640 [3:35:29<27:36:31, 16.89s/it]                                                       {'loss': 0.5406, 'learning_rate': 1.9633110968249807e-05, 'epoch': 0.11}
 11%|█▏        | 757/6640 [3:35:29<27:36:31, 16.89s/it] 11%|█▏        | 758/6640 [3:35:45<26:55:58, 16.48s/it]                                                       {'loss': 0.539, 'learning_rate': 1.963180056199855e-05, 'epoch': 0.11}
 11%|█▏        | 758/6640 [3:35:45<26:55:58, 16.48s/it] 11%|█▏        | 759/6640 [3:36:02<27:09:44, 16.63s/it]                                                       {'loss': 0.5267, 'learning_rate': 1.9630487863637153e-05, 'epoch': 0.11}
 11%|█▏        | 759/6640 [3:36:02<27:09:44, 16.63s/it] 11%|█▏        | 760/6640 [3:36:20<27:43:24, 16.97s/it]                                                       {'loss': 0.5443, 'learning_rate': 1.9629172873477995e-05, 'epoch': 0.11}
 11%|█▏        | 760/6640 [3:36:20<27:43:24, 16.97s/it] 11%|█▏        | 761/6640 [3:36:36<27:24:52, 16.79s/it]                                                       {'loss': 0.5473, 'learning_rate': 1.962785559183401e-05, 'epoch': 0.11}
 11%|█▏        | 761/6640 [3:36:36<27:24:52, 16.79s/it] 11%|█▏        | 762/6640 [3:36:52<26:53:44, 16.47s/it]                                                       {'loss': 0.5502, 'learning_rate': 1.9626536019018676e-05, 'epoch': 0.11}
 11%|█▏        | 762/6640 [3:36:52<26:53:44, 16.47s/it] 11%|█▏        | 763/6640 [3:37:08<26:51:41, 16.45s/it]                                                       {'loss': 0.5622, 'learning_rate': 1.962521415534602e-05, 'epoch': 0.11}
 11%|█▏        | 763/6640 [3:37:08<26:51:41, 16.45s/it] 12%|█▏        | 764/6640 [3:37:24<26:29:28, 16.23s/it]                                                       {'loss': 0.5545, 'learning_rate': 1.9623890001130602e-05, 'epoch': 0.12}
 12%|█▏        | 764/6640 [3:37:24<26:29:28, 16.23s/it] 12%|█▏        | 765/6640 [3:37:39<26:08:46, 16.02s/it]                                                       {'loss': 0.55, 'learning_rate': 1.9622563556687545e-05, 'epoch': 0.12}
 12%|█▏        | 765/6640 [3:37:39<26:08:46, 16.02s/it] 12%|█▏        | 766/6640 [3:37:56<26:15:31, 16.09s/it]                                                       {'loss': 0.5538, 'learning_rate': 1.9621234822332498e-05, 'epoch': 0.12}
 12%|█▏        | 766/6640 [3:37:56<26:15:31, 16.09s/it] 12%|█▏        | 767/6640 [3:38:12<26:16:52, 16.11s/it]                                                       {'loss': 0.5591, 'learning_rate': 1.961990379838167e-05, 'epoch': 0.12}
 12%|█▏        | 767/6640 [3:38:12<26:16:52, 16.11s/it] 12%|█▏        | 768/6640 [3:38:28<26:10:04, 16.04s/it]                                                       {'loss': 0.557, 'learning_rate': 1.9618570485151805e-05, 'epoch': 0.12}
 12%|█▏        | 768/6640 [3:38:28<26:10:04, 16.04s/it] 12%|█▏        | 769/6640 [3:38:44<26:18:49, 16.14s/it]                                                       {'loss': 0.5766, 'learning_rate': 1.9617234882960197e-05, 'epoch': 0.12}
 12%|█▏        | 769/6640 [3:38:44<26:18:49, 16.14s/it] 12%|█▏        | 770/6640 [3:38:59<25:50:01, 15.84s/it]                                                       {'loss': 0.5459, 'learning_rate': 1.961589699212469e-05, 'epoch': 0.12}
 12%|█▏        | 770/6640 [3:38:59<25:50:01, 15.84s/it] 12%|█▏        | 771/6640 [3:39:16<26:13:14, 16.08s/it]                                                       {'loss': 0.529, 'learning_rate': 1.9614556812963656e-05, 'epoch': 0.12}
 12%|█▏        | 771/6640 [3:39:16<26:13:14, 16.08s/it] 12%|█▏        | 772/6640 [3:39:32<26:09:05, 16.04s/it]                                                       {'loss': 0.5338, 'learning_rate': 1.9613214345796026e-05, 'epoch': 0.12}
 12%|█▏        | 772/6640 [3:39:32<26:09:05, 16.04s/it] 12%|█▏        | 773/6640 [3:39:49<26:48:02, 16.44s/it]                                                       {'loss': 0.5299, 'learning_rate': 1.9611869590941273e-05, 'epoch': 0.12}
 12%|█▏        | 773/6640 [3:39:49<26:48:02, 16.44s/it] 12%|█▏        | 774/6640 [3:40:06<26:50:04, 16.47s/it]                                                       {'loss': 0.5524, 'learning_rate': 1.961052254871941e-05, 'epoch': 0.12}
 12%|█▏        | 774/6640 [3:40:06<26:50:04, 16.47s/it] 12%|█▏        | 775/6640 [3:40:22<26:44:22, 16.41s/it]                                                       {'loss': 0.55, 'learning_rate': 1.9609173219450998e-05, 'epoch': 0.12}
 12%|█▏        | 775/6640 [3:40:22<26:44:22, 16.41s/it] 12%|█▏        | 776/6640 [3:40:38<26:40:33, 16.38s/it]                                                       {'loss': 0.5408, 'learning_rate': 1.960782160345714e-05, 'epoch': 0.12}
 12%|█▏        | 776/6640 [3:40:38<26:40:33, 16.38s/it] 12%|█▏        | 777/6640 [3:40:54<26:17:15, 16.14s/it]                                                       {'loss': 0.5557, 'learning_rate': 1.9606467701059486e-05, 'epoch': 0.12}
 12%|█▏        | 777/6640 [3:40:54<26:17:15, 16.14s/it] 12%|█▏        | 778/6640 [3:41:11<26:31:02, 16.29s/it]                                                       {'loss': 0.5356, 'learning_rate': 1.960511151258023e-05, 'epoch': 0.12}
 12%|█▏        | 778/6640 [3:41:11<26:31:02, 16.29s/it] 12%|█▏        | 779/6640 [3:41:27<26:33:05, 16.31s/it]                                                       {'loss': 0.5437, 'learning_rate': 1.9603753038342103e-05, 'epoch': 0.12}
 12%|█▏        | 779/6640 [3:41:27<26:33:05, 16.31s/it] 12%|█▏        | 780/6640 [3:41:43<26:20:50, 16.19s/it]                                                       {'loss': 0.5565, 'learning_rate': 1.960239227866839e-05, 'epoch': 0.12}
 12%|█▏        | 780/6640 [3:41:43<26:20:50, 16.19s/it] 12%|█▏        | 781/6640 [3:42:00<26:37:39, 16.36s/it]                                                       {'loss': 0.5386, 'learning_rate': 1.9601029233882914e-05, 'epoch': 0.12}
 12%|█▏        | 781/6640 [3:42:00<26:37:39, 16.36s/it] 12%|█▏        | 782/6640 [3:42:16<26:54:16, 16.53s/it]                                                       {'loss': 0.5633, 'learning_rate': 1.9599663904310044e-05, 'epoch': 0.12}
 12%|█▏        | 782/6640 [3:42:16<26:54:16, 16.53s/it] 12%|█▏        | 783/6640 [3:42:34<27:08:34, 16.68s/it]                                                       {'loss': 0.5491, 'learning_rate': 1.959829629027469e-05, 'epoch': 0.12}
 12%|█▏        | 783/6640 [3:42:34<27:08:34, 16.68s/it] 12%|█▏        | 784/6640 [3:42:49<26:40:15, 16.40s/it]                                                       {'loss': 0.5518, 'learning_rate': 1.959692639210231e-05, 'epoch': 0.12}
 12%|█▏        | 784/6640 [3:42:49<26:40:15, 16.40s/it] 12%|█▏        | 785/6640 [3:43:06<26:37:26, 16.37s/it]                                                       {'loss': 0.5346, 'learning_rate': 1.9595554210118896e-05, 'epoch': 0.12}
 12%|█▏        | 785/6640 [3:43:06<26:37:26, 16.37s/it] 12%|█▏        | 786/6640 [3:43:22<26:38:41, 16.39s/it]                                                       {'loss': 0.5568, 'learning_rate': 1.9594179744651e-05, 'epoch': 0.12}
 12%|█▏        | 786/6640 [3:43:22<26:38:41, 16.39s/it] 12%|█▏        | 787/6640 [3:43:38<26:33:08, 16.33s/it]                                                       {'loss': 0.5599, 'learning_rate': 1.9592802996025702e-05, 'epoch': 0.12}
 12%|█▏        | 787/6640 [3:43:38<26:33:08, 16.33s/it] 12%|█▏        | 788/6640 [3:43:55<26:43:45, 16.44s/it]                                                       {'loss': 0.5437, 'learning_rate': 1.9591423964570634e-05, 'epoch': 0.12}
 12%|█▏        | 788/6640 [3:43:55<26:43:45, 16.44s/it] 12%|█▏        | 789/6640 [3:44:11<26:25:53, 16.26s/it]                                                       {'loss': 0.531, 'learning_rate': 1.9590042650613968e-05, 'epoch': 0.12}
 12%|█▏        | 789/6640 [3:44:11<26:25:53, 16.26s/it] 12%|█▏        | 790/6640 [3:44:27<26:24:26, 16.25s/it]                                                       {'loss': 0.5526, 'learning_rate': 1.9588659054484417e-05, 'epoch': 0.12}
 12%|█▏        | 790/6640 [3:44:27<26:24:26, 16.25s/it] 12%|█▏        | 791/6640 [3:44:43<26:27:24, 16.28s/it]                                                       {'loss': 0.5482, 'learning_rate': 1.9587273176511242e-05, 'epoch': 0.12}
 12%|█▏        | 791/6640 [3:44:43<26:27:24, 16.28s/it] 12%|█▏        | 792/6640 [3:44:59<26:06:32, 16.07s/it]                                                       {'loss': 0.5709, 'learning_rate': 1.9585885017024248e-05, 'epoch': 0.12}
 12%|█▏        | 792/6640 [3:44:59<26:06:32, 16.07s/it] 12%|█▏        | 793/6640 [3:45:16<26:26:46, 16.28s/it]                                                       {'loss': 0.5283, 'learning_rate': 1.9584494576353776e-05, 'epoch': 0.12}
 12%|█▏        | 793/6640 [3:45:16<26:26:46, 16.28s/it] 12%|█▏        | 794/6640 [3:45:32<26:24:46, 16.27s/it]                                                       {'loss': 0.5625, 'learning_rate': 1.9583101854830714e-05, 'epoch': 0.12}
 12%|█▏        | 794/6640 [3:45:32<26:24:46, 16.27s/it] 12%|█▏        | 795/6640 [3:45:48<26:33:54, 16.36s/it]                                                       {'loss': 0.5662, 'learning_rate': 1.9581706852786492e-05, 'epoch': 0.12}
 12%|█▏        | 795/6640 [3:45:48<26:33:54, 16.36s/it] 12%|█▏        | 796/6640 [3:46:05<26:47:39, 16.51s/it]                                                       {'loss': 0.5437, 'learning_rate': 1.958030957055308e-05, 'epoch': 0.12}
 12%|█▏        | 796/6640 [3:46:05<26:47:39, 16.51s/it] 12%|█▏        | 797/6640 [3:46:22<26:46:20, 16.50s/it]                                                       {'loss': 0.5667, 'learning_rate': 1.9578910008462998e-05, 'epoch': 0.12}
 12%|█▏        | 797/6640 [3:46:22<26:46:20, 16.50s/it] 12%|█▏        | 798/6640 [3:46:38<26:32:17, 16.35s/it]                                                       {'loss': 0.5524, 'learning_rate': 1.9577508166849308e-05, 'epoch': 0.12}
 12%|█▏        | 798/6640 [3:46:38<26:32:17, 16.35s/it] 12%|█▏        | 799/6640 [3:46:54<26:20:57, 16.24s/it]                                                       {'loss': 0.5589, 'learning_rate': 1.95761040460456e-05, 'epoch': 0.12}
 12%|█▏        | 799/6640 [3:46:54<26:20:57, 16.24s/it]6 AutoResumeHook: Checking whether to suspend...
5 1AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
240  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
 12%|█▏        | 800/6640 [3:47:11<26:38:15, 16.42s/it]3 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5515, 'learning_rate': 1.9574697646386027e-05, 'epoch': 0.12}
 12%|█▏        | 800/6640 [3:47:11<26:38:15, 16.42s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-800/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-800/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-800/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 12%|█▏        | 801/6640 [3:48:54<68:54:19, 42.48s/it]                                                       {'loss': 0.5429, 'learning_rate': 1.9573288968205267e-05, 'epoch': 0.12}
 12%|█▏        | 801/6640 [3:48:54<68:54:19, 42.48s/it] 12%|█▏        | 802/6640 [3:49:10<55:59:26, 34.53s/it]                                                       {'loss': 0.5477, 'learning_rate': 1.9571878011838557e-05, 'epoch': 0.12}
 12%|█▏        | 802/6640 [3:49:10<55:59:26, 34.53s/it] 12%|█▏        | 803/6640 [3:49:26<46:51:52, 28.90s/it]                                                       {'loss': 0.5505, 'learning_rate': 1.9570464777621657e-05, 'epoch': 0.12}
 12%|█▏        | 803/6640 [3:49:26<46:51:52, 28.90s/it] 12%|█▏        | 804/6640 [3:49:42<40:46:49, 25.16s/it]                                                       {'loss': 0.5521, 'learning_rate': 1.9569049265890885e-05, 'epoch': 0.12}
 12%|█▏        | 804/6640 [3:49:42<40:46:49, 25.16s/it] 12%|█▏        | 805/6640 [3:49:58<36:13:45, 22.35s/it]                                                       {'loss': 0.5504, 'learning_rate': 1.9567631476983088e-05, 'epoch': 0.12}
 12%|█▏        | 805/6640 [3:49:58<36:13:45, 22.35s/it] 12%|█▏        | 806/6640 [3:50:15<33:28:59, 20.66s/it]                                                       {'loss': 0.5471, 'learning_rate': 1.956621141123567e-05, 'epoch': 0.12}
 12%|█▏        | 806/6640 [3:50:15<33:28:59, 20.66s/it] 12%|█▏        | 807/6640 [3:50:31<31:16:05, 19.30s/it]                                                       {'loss': 0.5573, 'learning_rate': 1.9564789068986564e-05, 'epoch': 0.12}
 12%|█▏        | 807/6640 [3:50:31<31:16:05, 19.30s/it] 12%|█▏        | 808/6640 [3:50:48<30:12:57, 18.65s/it]                                                       {'loss': 0.5509, 'learning_rate': 1.956336445057425e-05, 'epoch': 0.12}
 12%|█▏        | 808/6640 [3:50:48<30:12:57, 18.65s/it] 12%|█▏        | 809/6640 [3:51:04<28:59:12, 17.90s/it]                                                       {'loss': 0.5588, 'learning_rate': 1.956193755633775e-05, 'epoch': 0.12}
 12%|█▏        | 809/6640 [3:51:04<28:59:12, 17.90s/it] 12%|█▏        | 810/6640 [3:51:21<28:26:57, 17.57s/it]                                                       {'loss': 0.5557, 'learning_rate': 1.9560508386616624e-05, 'epoch': 0.12}
 12%|█▏        | 810/6640 [3:51:21<28:26:57, 17.57s/it] 12%|█▏        | 811/6640 [3:51:37<27:38:25, 17.07s/it]                                                       {'loss': 0.5352, 'learning_rate': 1.955907694175098e-05, 'epoch': 0.12}
 12%|█▏        | 811/6640 [3:51:37<27:38:25, 17.07s/it] 12%|█▏        | 812/6640 [3:51:53<27:02:59, 16.71s/it]                                                       {'loss': 0.523, 'learning_rate': 1.955764322208146e-05, 'epoch': 0.12}
 12%|█▏        | 812/6640 [3:51:53<27:02:59, 16.71s/it] 12%|█▏        | 813/6640 [3:52:10<27:19:43, 16.88s/it]                                                       {'loss': 0.5572, 'learning_rate': 1.955620722794925e-05, 'epoch': 0.12}
 12%|█▏        | 813/6640 [3:52:10<27:19:43, 16.88s/it] 12%|█▏        | 814/6640 [3:52:27<27:15:18, 16.84s/it]                                                       {'loss': 0.5449, 'learning_rate': 1.9554768959696078e-05, 'epoch': 0.12}
 12%|█▏        | 814/6640 [3:52:27<27:15:18, 16.84s/it] 12%|█▏        | 815/6640 [3:52:42<26:45:19, 16.54s/it]                                                       {'loss': 0.532, 'learning_rate': 1.9553328417664223e-05, 'epoch': 0.12}
 12%|█▏        | 815/6640 [3:52:42<26:45:19, 16.54s/it] 12%|█▏        | 816/6640 [3:52:59<26:55:48, 16.65s/it]                                                       {'loss': 0.5593, 'learning_rate': 1.9551885602196482e-05, 'epoch': 0.12}
 12%|█▏        | 816/6640 [3:52:59<26:55:48, 16.65s/it] 12%|█▏        | 817/6640 [3:53:15<26:29:58, 16.38s/it]                                                       {'loss': 0.5639, 'learning_rate': 1.9550440513636217e-05, 'epoch': 0.12}
 12%|█▏        | 817/6640 [3:53:15<26:29:58, 16.38s/it] 12%|█▏        | 818/6640 [3:53:31<26:19:19, 16.28s/it]                                                       {'loss': 0.5466, 'learning_rate': 1.9548993152327308e-05, 'epoch': 0.12}
 12%|█▏        | 818/6640 [3:53:31<26:19:19, 16.28s/it] 12%|█▏        | 819/6640 [3:53:47<26:08:18, 16.17s/it]                                                       {'loss': 0.5348, 'learning_rate': 1.95475435186142e-05, 'epoch': 0.12}
 12%|█▏        | 819/6640 [3:53:47<26:08:18, 16.17s/it] 12%|█▏        | 820/6640 [3:54:03<26:07:44, 16.16s/it]                                                       {'loss': 0.5645, 'learning_rate': 1.954609161284186e-05, 'epoch': 0.12}
 12%|█▏        | 820/6640 [3:54:03<26:07:44, 16.16s/it] 12%|█▏        | 821/6640 [3:54:19<26:11:28, 16.20s/it]                                                       {'loss': 0.5642, 'learning_rate': 1.954463743535581e-05, 'epoch': 0.12}
 12%|█▏        | 821/6640 [3:54:20<26:11:28, 16.20s/it] 12%|█▏        | 822/6640 [3:54:35<25:52:45, 16.01s/it]                                                       {'loss': 0.5561, 'learning_rate': 1.9543180986502097e-05, 'epoch': 0.12}
 12%|█▏        | 822/6640 [3:54:35<25:52:45, 16.01s/it] 12%|█▏        | 823/6640 [3:54:52<26:06:43, 16.16s/it]                                                       {'loss': 0.5271, 'learning_rate': 1.954172226662732e-05, 'epoch': 0.12}
 12%|█▏        | 823/6640 [3:54:52<26:06:43, 16.16s/it] 12%|█▏        | 824/6640 [3:55:08<26:06:41, 16.16s/it]                                                       {'loss': 0.5936, 'learning_rate': 1.9540261276078615e-05, 'epoch': 0.12}
 12%|█▏        | 824/6640 [3:55:08<26:06:41, 16.16s/it] 12%|█▏        | 825/6640 [3:55:25<26:51:18, 16.63s/it]                                                       {'loss': 0.5378, 'learning_rate': 1.953879801520366e-05, 'epoch': 0.12}
 12%|█▏        | 825/6640 [3:55:25<26:51:18, 16.63s/it] 12%|█▏        | 826/6640 [3:55:42<26:43:40, 16.55s/it]                                                       {'loss': 0.5568, 'learning_rate': 1.9537332484350672e-05, 'epoch': 0.12}
 12%|█▏        | 826/6640 [3:55:42<26:43:40, 16.55s/it] 12%|█▏        | 827/6640 [3:55:59<27:04:18, 16.77s/it]                                                       {'loss': 0.5515, 'learning_rate': 1.9535864683868403e-05, 'epoch': 0.12}
 12%|█▏        | 827/6640 [3:55:59<27:04:18, 16.77s/it] 12%|█▏        | 828/6640 [3:56:15<26:35:07, 16.47s/it]                                                       {'loss': 0.5352, 'learning_rate': 1.9534394614106155e-05, 'epoch': 0.12}
 12%|█▏        | 828/6640 [3:56:15<26:35:07, 16.47s/it] 12%|█▏        | 829/6640 [3:56:33<27:08:58, 16.82s/it]                                                       {'loss': 0.5485, 'learning_rate': 1.9532922275413767e-05, 'epoch': 0.12}
 12%|█▏        | 829/6640 [3:56:33<27:08:58, 16.82s/it] 12%|█▎        | 830/6640 [3:56:49<26:47:15, 16.60s/it]                                                       {'loss': 0.5476, 'learning_rate': 1.953144766814161e-05, 'epoch': 0.12}
 12%|█▎        | 830/6640 [3:56:49<26:47:15, 16.60s/it] 13%|█▎        | 831/6640 [3:57:05<26:54:48, 16.68s/it]                                                       {'loss': 0.5604, 'learning_rate': 1.9529970792640604e-05, 'epoch': 0.13}
 13%|█▎        | 831/6640 [3:57:05<26:54:48, 16.68s/it] 13%|█▎        | 832/6640 [3:57:21<26:27:40, 16.40s/it]                                                       {'loss': 0.5466, 'learning_rate': 1.952849164926221e-05, 'epoch': 0.13}
 13%|█▎        | 832/6640 [3:57:21<26:27:40, 16.40s/it]May 27 22:07:44.833330 2016297 slurmstepd   0x155550ab8700: error: *** STEP 8262253.0 ON batch-block4-0002 CANCELLED AT 2025-05-27T22:07:44 DUE TO TIME LIMIT ***
srun: Job step aborted: Waiting up to 122 seconds for job step to finish.
srun: error: batch-block4-0002: task 0: Terminated
srun: Terminating StepId=8262253.0
srun: job 8269468 queued and waiting for resources
srun: job 8269468 has been allocated resources
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
MASTER_ADDR=batch-block5-00321
JobID: 8269468 | Full list: batch-block5-00321 
NETWORK=Efficient-Large-Model/VILA1.5-13b
WARNING:torch.distributed.run:
*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
*****************************************
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
[2025-05-27 22:10:07,005] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 22:10:07,005] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 22:10:07,005] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 22:10:07,005] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 22:10:07,005] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 22:10:07,005] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 22:10:07,005] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 22:10:07,005] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-27 22:10:08,621] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 22:10:08,621] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 22:10:08,621] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 22:10:08,621] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-27 22:10:08,621] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 22:10:08,621] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 22:10:08,621] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-27 22:10:08,621] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-27 22:10:08,621] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 22:10:08,621] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 22:10:08,621] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-27 22:10:08,621] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-27 22:10:08,621] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-27 22:10:08,621] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-27 22:10:08,621] [INFO] [comm.py:625:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
[2025-05-27 22:10:08,621] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-27 22:10:08,621] [INFO] [comm.py:594:init_distributed] cdb=None
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-05-27 22:10:18,896] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.02B parameters
Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:05,  1.17s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.22s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.22s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.23s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.23s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.26s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.26s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.19s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.21s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.22s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.22s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.21s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.23s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.25s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:06<00:33,  6.64s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.09s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.08s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.08s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.09s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.09s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.10s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.10s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:12<00:25,  6.41s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:16<00:09,  4.96s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:16<00:09,  4.95s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:16<00:09,  4.96s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:16<00:09,  4.96s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:16<00:09,  4.96s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:16<00:09,  4.96s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:16<00:09,  4.97s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:19<00:19,  6.39s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:22<00:05,  5.29s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:22<00:05,  5.29s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:22<00:05,  5.29s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:22<00:05,  5.29s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:22<00:05,  5.29s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:22<00:05,  5.30s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:22<00:05,  5.30s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:23<00:00,  3.81s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:23<00:00,  3.92s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:23<00:00,  3.80s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:23<00:00,  3.92s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:23<00:00,  3.81s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:23<00:00,  3.92s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:23<00:00,  3.81s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:23<00:00,  3.93s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:23<00:00,  3.81s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:23<00:00,  3.93s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:23<00:00,  3.81s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:23<00:00,  3.93s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:23<00:00,  3.82s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:23<00:00,  3.93s/it]
Loading checkpoint shards:  67%|██████▋   | 4/6 [00:24<00:12,  6.08s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:31<00:06,  6.11s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:32<00:00,  4.57s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:32<00:00,  5.44s/it]
[2025-05-27 22:10:51,840] [WARNING] [partition_parameters.py:836:_post_init_method] param `probe` in SiglipMultiheadAttentionPoolingHead not on GPU so was not broadcasted from rank 0
[2025-05-27 22:10:51,841] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.44B parameters
[2025-05-27 22:10:53,792] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.49B parameters
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask'][Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask'][Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']


[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[dist-0-of-8] LlavaLlamaModel(
  (llm): LlamaForCausalLM(
    (model): LlamaModel(
      (embed_tokens): Embedding(32000, 5120, padding_idx=0)
      (layers): ModuleList(
        (0-39): 40 x LlamaDecoderLayer(
          (self_attn): LlamaFlashAttention2(
            (q_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (k_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (v_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (o_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (rotary_emb): LlamaRotaryEmbedding()
          )
          (mlp): LlamaMLP(
            (gate_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (up_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (down_proj): Linear(in_features=13824, out_features=5120, bias=False)
            (act_fn): SiLU()
          )
          (input_layernorm): LlamaRMSNorm()
          (post_attention_layernorm): LlamaRMSNorm()
        )
      )
      (norm): LlamaRMSNorm()
    )
    (lm_head): Linear(in_features=5120, out_features=32000, bias=False)
  )
  (vision_tower): SiglipVisionTower(
    (vision_tower): SiglipVisionModel(
      (vision_model): SiglipVisionTransformer(
        (embeddings): SiglipVisionEmbeddings(
          (patch_embedding): Conv2d(3, 1152, kernel_size=(14, 14), stride=(14, 14), padding=valid)
          (position_embedding): Embedding(729, 1152)
        )
        (encoder): SiglipEncoder(
          (layers): ModuleList(
            (0-26): 27 x SiglipEncoderLayer(
              (self_attn): SiglipAttention(
                (k_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (v_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (q_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (out_proj): Linear(in_features=1152, out_features=1152, bias=True)
              )
              (layer_norm1): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
              (mlp): SiglipMLP(
                (activation_fn): PytorchGELUTanh()
                (fc1): Linear(in_features=1152, out_features=4304, bias=True)
                (fc2): Linear(in_features=4304, out_features=1152, bias=True)
              )
              (layer_norm2): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
            )
          )
        )
        (post_layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
        (head): SiglipMultiheadAttentionPoolingHead(
          (attention): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=1152, out_features=1152, bias=True)
          )
          (layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
          (mlp): SiglipMLP(
            (activation_fn): PytorchGELUTanh()
            (fc1): Linear(in_features=1152, out_features=4304, bias=True)
            (fc2): Linear(in_features=4304, out_features=1152, bias=True)
          )
        )
      )
    )
  )
  (mm_projector): MultimodalProjector(
    (layers): Sequential(
      (0): DownSampleBlock()
      (1): LayerNorm((4608,), eps=1e-05, elementwise_affine=True)
      (2): Linear(in_features=4608, out_features=5120, bias=True)
      (3): GELU(approximate='none')
      (4): Linear(in_features=5120, out_features=5120, bias=True)
    )
  )
)
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[dist-0-of-8] Tunable parameters:
language model True
[dist-0-of-8] vision tower True
[dist-0-of-8] mm projector True
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.234224319458008
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2332606315612793
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.235705852508545
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.234145164489746
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2322282791137695
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.233153820037842
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.234724521636963
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2341365814208984
Parameter Offload: Total persistent parameters: 847296 in 365 params
wandb: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
wandb: Tracking run with wandb version 0.18.7
wandb: Run data is saved locally in /lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/wandb/run-20250527_221243-7mrwktbb
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run vila_13b_path_mask
wandb: ⭐️ View project at https://wandb.ai/memmelma/VILA
wandb: 🚀 View run at https://wandb.ai/memmelma/VILA/runs/7mrwktbb
  0%|          | 0/6640 [00:00<?, ?it/s]Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
 12%|█▏        | 801/6640 [00:34<04:10, 23.28it/s]                                                  {'loss': 0.5429, 'learning_rate': 1.9573288968205267e-05, 'epoch': 0.12}
 12%|█▏        | 801/6640 [00:34<04:10, 23.28it/s] 12%|█▏        | 801/6640 [00:48<04:10, 23.28it/s] 12%|█▏        | 802/6640 [00:50<06:56, 14.00it/s]                                                  {'loss': 0.5475, 'learning_rate': 1.9571878011838557e-05, 'epoch': 0.12}
 12%|█▏        | 802/6640 [00:50<06:56, 14.00it/s] 12%|█▏        | 803/6640 [01:06<10:48,  9.00it/s]                                                  {'loss': 0.5505, 'learning_rate': 1.9570464777621657e-05, 'epoch': 0.12}
 12%|█▏        | 803/6640 [01:06<10:48,  9.00it/s] 12%|█▏        | 804/6640 [01:22<16:33,  5.87it/s]                                                  {'loss': 0.5523, 'learning_rate': 1.9569049265890885e-05, 'epoch': 0.12}
 12%|█▏        | 804/6640 [01:22<16:33,  5.87it/s] 12%|█▏        | 805/6640 [01:38<24:21,  3.99it/s]                                                  {'loss': 0.5503, 'learning_rate': 1.9567631476983088e-05, 'epoch': 0.12}
 12%|█▏        | 805/6640 [01:38<24:21,  3.99it/s] 12%|█▏        | 806/6640 [01:55<36:00,  2.70it/s]                                                  {'loss': 0.5473, 'learning_rate': 1.956621141123567e-05, 'epoch': 0.12}
 12%|█▏        | 806/6640 [01:55<36:00,  2.70it/s] 12%|█▏        | 807/6640 [02:11<51:46,  1.88it/s]                                                  {'loss': 0.5575, 'learning_rate': 1.9564789068986564e-05, 'epoch': 0.12}
 12%|█▏        | 807/6640 [02:11<51:46,  1.88it/s] 12%|█▏        | 808/6640 [02:28<1:15:25,  1.29it/s]                                                    {'loss': 0.551, 'learning_rate': 1.956336445057425e-05, 'epoch': 0.12}
 12%|█▏        | 808/6640 [02:28<1:15:25,  1.29it/s] 12%|█▏        | 809/6640 [02:44<1:45:46,  1.09s/it]                                                    {'loss': 0.5589, 'learning_rate': 1.956193755633775e-05, 'epoch': 0.12}
 12%|█▏        | 809/6640 [02:44<1:45:46,  1.09s/it] 12%|█▏        | 810/6640 [03:01<2:28:36,  1.53s/it]                                                    {'loss': 0.5556, 'learning_rate': 1.9560508386616624e-05, 'epoch': 0.12}
 12%|█▏        | 810/6640 [03:01<2:28:36,  1.53s/it] 12%|█▏        | 811/6640 [03:17<3:23:01,  2.09s/it]                                                    {'loss': 0.5351, 'learning_rate': 1.955907694175098e-05, 'epoch': 0.12}
 12%|█▏        | 811/6640 [03:17<3:23:01,  2.09s/it] 12%|█▏        | 812/6640 [03:33<4:33:04,  2.81s/it]                                                    {'loss': 0.5233, 'learning_rate': 1.955764322208146e-05, 'epoch': 0.12}
 12%|█▏        | 812/6640 [03:33<4:33:04,  2.81s/it] 12%|█▏        | 813/6640 [03:50<6:11:20,  3.82s/it]                                                    {'loss': 0.5572, 'learning_rate': 1.955620722794925e-05, 'epoch': 0.12}
 12%|█▏        | 813/6640 [03:50<6:11:20,  3.82s/it] 12%|█▏        | 814/6640 [04:07<8:04:51,  4.99s/it]                                                    {'loss': 0.5448, 'learning_rate': 1.9554768959696078e-05, 'epoch': 0.12}
 12%|█▏        | 814/6640 [04:07<8:04:51,  4.99s/it] 12%|█▏        | 815/6640 [04:23<10:05:26,  6.24s/it]                                                     {'loss': 0.5317, 'learning_rate': 1.9553328417664223e-05, 'epoch': 0.12}
 12%|█▏        | 815/6640 [04:23<10:05:26,  6.24s/it] 12%|█▏        | 816/6640 [04:40<12:31:19,  7.74s/it]                                                     {'loss': 0.5592, 'learning_rate': 1.9551885602196482e-05, 'epoch': 0.12}
 12%|█▏        | 816/6640 [04:40<12:31:19,  7.74s/it] 12%|█▏        | 817/6640 [04:56<14:41:05,  9.08s/it]                                                     {'loss': 0.5639, 'learning_rate': 1.9550440513636217e-05, 'epoch': 0.12}
 12%|█▏        | 817/6640 [04:56<14:41:05,  9.08s/it] 12%|█▏        | 818/6640 [05:12<16:52:33, 10.44s/it]                                                     {'loss': 0.5467, 'learning_rate': 1.9548993152327308e-05, 'epoch': 0.12}
 12%|█▏        | 818/6640 [05:12<16:52:33, 10.44s/it] 12%|█▏        | 819/6640 [05:28<18:47:31, 11.62s/it]                                                     {'loss': 0.5347, 'learning_rate': 1.95475435186142e-05, 'epoch': 0.12}
 12%|█▏        | 819/6640 [05:28<18:47:31, 11.62s/it] 12%|█▏        | 820/6640 [05:44<20:31:59, 12.70s/it]                                                     {'loss': 0.5643, 'learning_rate': 1.954609161284186e-05, 'epoch': 0.12}
 12%|█▏        | 820/6640 [05:44<20:31:59, 12.70s/it] 12%|█▏        | 821/6640 [06:00<22:00:30, 13.62s/it]                                                     {'loss': 0.5642, 'learning_rate': 1.954463743535581e-05, 'epoch': 0.12}
 12%|█▏        | 821/6640 [06:00<22:00:30, 13.62s/it] 12%|█▏        | 822/6640 [06:16<22:49:37, 14.12s/it]                                                     {'loss': 0.556, 'learning_rate': 1.9543180986502097e-05, 'epoch': 0.12}
 12%|█▏        | 822/6640 [06:16<22:49:37, 14.12s/it] 12%|█▏        | 823/6640 [06:32<23:52:58, 14.78s/it]                                                     {'loss': 0.5272, 'learning_rate': 1.954172226662732e-05, 'epoch': 0.12}
 12%|█▏        | 823/6640 [06:32<23:52:58, 14.78s/it] 12%|█▏        | 824/6640 [06:48<24:31:46, 15.18s/it]                                                     {'loss': 0.5943, 'learning_rate': 1.9540261276078615e-05, 'epoch': 0.12}
 12%|█▏        | 824/6640 [06:48<24:31:46, 15.18s/it] 12%|█▏        | 825/6640 [07:06<25:42:22, 15.91s/it]                                                     {'loss': 0.538, 'learning_rate': 1.953879801520366e-05, 'epoch': 0.12}
 12%|█▏        | 825/6640 [07:06<25:42:22, 15.91s/it] 12%|█▏        | 826/6640 [07:23<25:55:21, 16.05s/it]                                                     {'loss': 0.5568, 'learning_rate': 1.9537332484350672e-05, 'epoch': 0.12}
 12%|█▏        | 826/6640 [07:23<25:55:21, 16.05s/it] 12%|█▏        | 827/6640 [07:40<26:30:25, 16.42s/it]                                                     {'loss': 0.552, 'learning_rate': 1.9535864683868403e-05, 'epoch': 0.12}
 12%|█▏        | 827/6640 [07:40<26:30:25, 16.42s/it] 12%|█▏        | 828/6640 [07:56<26:11:28, 16.22s/it]                                                     {'loss': 0.5351, 'learning_rate': 1.9534394614106155e-05, 'epoch': 0.12}
 12%|█▏        | 828/6640 [07:56<26:11:28, 16.22s/it] 12%|█▏        | 829/6640 [08:13<26:53:43, 16.66s/it]                                                     {'loss': 0.5485, 'learning_rate': 1.9532922275413767e-05, 'epoch': 0.12}
 12%|█▏        | 829/6640 [08:13<26:53:43, 16.66s/it] 12%|█▎        | 830/6640 [08:29<26:36:41, 16.49s/it]                                                     {'loss': 0.5477, 'learning_rate': 1.953144766814161e-05, 'epoch': 0.12}
 12%|█▎        | 830/6640 [08:29<26:36:41, 16.49s/it] 13%|█▎        | 831/6640 [08:46<26:46:06, 16.59s/it]                                                     {'loss': 0.5606, 'learning_rate': 1.9529970792640604e-05, 'epoch': 0.13}
 13%|█▎        | 831/6640 [08:46<26:46:06, 16.59s/it] 13%|█▎        | 832/6640 [09:02<26:21:23, 16.34s/it]                                                     {'loss': 0.5477, 'learning_rate': 1.952849164926221e-05, 'epoch': 0.13}
 13%|█▎        | 832/6640 [09:02<26:21:23, 16.34s/it] 13%|█▎        | 833/6640 [09:18<26:19:24, 16.32s/it]                                                     {'loss': 0.5469, 'learning_rate': 1.9527010238358414e-05, 'epoch': 0.13}
 13%|█▎        | 833/6640 [09:18<26:19:24, 16.32s/it] 13%|█▎        | 834/6640 [09:34<26:11:43, 16.24s/it]                                                     {'loss': 0.5528, 'learning_rate': 1.9525526560281763e-05, 'epoch': 0.13}
 13%|█▎        | 834/6640 [09:34<26:11:43, 16.24s/it] 13%|█▎        | 835/6640 [09:51<26:21:00, 16.34s/it]                                                     {'loss': 0.5409, 'learning_rate': 1.9524040615385324e-05, 'epoch': 0.13}
 13%|█▎        | 835/6640 [09:51<26:21:00, 16.34s/it] 13%|█▎        | 836/6640 [10:07<26:18:18, 16.32s/it]                                                     {'loss': 0.5482, 'learning_rate': 1.952255240402272e-05, 'epoch': 0.13}
 13%|█▎        | 836/6640 [10:07<26:18:18, 16.32s/it] 13%|█▎        | 837/6640 [10:23<26:07:40, 16.21s/it]                                                     {'loss': 0.5476, 'learning_rate': 1.9521061926548096e-05, 'epoch': 0.13}
 13%|█▎        | 837/6640 [10:23<26:07:40, 16.21s/it] 13%|█▎        | 838/6640 [10:40<26:20:16, 16.34s/it]                                                     {'loss': 0.5528, 'learning_rate': 1.951956918331616e-05, 'epoch': 0.13}
 13%|█▎        | 838/6640 [10:40<26:20:16, 16.34s/it] 13%|█▎        | 839/6640 [10:56<26:22:05, 16.36s/it]                                                     {'loss': 0.5677, 'learning_rate': 1.951807417468213e-05, 'epoch': 0.13}
 13%|█▎        | 839/6640 [10:56<26:22:05, 16.36s/it] 13%|█▎        | 840/6640 [11:13<26:38:10, 16.53s/it]                                                     {'loss': 0.5426, 'learning_rate': 1.951657690100178e-05, 'epoch': 0.13}
 13%|█▎        | 840/6640 [11:13<26:38:10, 16.53s/it] 13%|█▎        | 841/6640 [11:30<26:39:34, 16.55s/it]                                                     {'loss': 0.5719, 'learning_rate': 1.951507736263143e-05, 'epoch': 0.13}
 13%|█▎        | 841/6640 [11:30<26:39:34, 16.55s/it] 13%|█▎        | 842/6640 [11:45<26:04:33, 16.19s/it]                                                     {'loss': 0.53, 'learning_rate': 1.9513575559927922e-05, 'epoch': 0.13}
 13%|█▎        | 842/6640 [11:45<26:04:33, 16.19s/it] 13%|█▎        | 843/6640 [12:01<25:50:46, 16.05s/it]                                                     {'loss': 0.5546, 'learning_rate': 1.951207149324865e-05, 'epoch': 0.13}
 13%|█▎        | 843/6640 [12:01<25:50:46, 16.05s/it] 13%|█▎        | 844/6640 [12:17<25:52:24, 16.07s/it]                                                     {'loss': 0.5618, 'learning_rate': 1.9510565162951538e-05, 'epoch': 0.13}
 13%|█▎        | 844/6640 [12:17<25:52:24, 16.07s/it] 13%|█▎        | 845/6640 [12:33<25:56:17, 16.11s/it]                                                     {'loss': 0.5482, 'learning_rate': 1.950905656939505e-05, 'epoch': 0.13}
 13%|█▎        | 845/6640 [12:33<25:56:17, 16.11s/it] 13%|█▎        | 846/6640 [12:49<25:52:56, 16.08s/it]                                                     {'loss': 0.5249, 'learning_rate': 1.9507545712938198e-05, 'epoch': 0.13}
 13%|█▎        | 846/6640 [12:49<25:52:56, 16.08s/it] 13%|█▎        | 847/6640 [13:07<26:45:22, 16.63s/it]                                                     {'loss': 0.5715, 'learning_rate': 1.950603259394052e-05, 'epoch': 0.13}
 13%|█▎        | 847/6640 [13:07<26:45:22, 16.63s/it] 13%|█▎        | 848/6640 [13:23<26:26:06, 16.43s/it]                                                     {'loss': 0.5365, 'learning_rate': 1.95045172127621e-05, 'epoch': 0.13}
 13%|█▎        | 848/6640 [13:23<26:26:06, 16.43s/it] 13%|█▎        | 849/6640 [13:40<26:43:52, 16.62s/it]                                                     {'loss': 0.5368, 'learning_rate': 1.9502999569763553e-05, 'epoch': 0.13}
 13%|█▎        | 849/6640 [13:40<26:43:52, 16.62s/it]6 AutoResumeHook: Checking whether to suspend...
74  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

3 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 13%|█▎        | 850/6640 [13:56<26:27:33, 16.45s/it]                                                     {'loss': 0.5368, 'learning_rate': 1.9501479665306046e-05, 'epoch': 0.13}
 13%|█▎        | 850/6640 [13:56<26:27:33, 16.45s/it] 13%|█▎        | 851/6640 [14:12<26:03:34, 16.21s/it]                                                     {'loss': 0.5254, 'learning_rate': 1.949995749975127e-05, 'epoch': 0.13}
 13%|█▎        | 851/6640 [14:12<26:03:34, 16.21s/it] 13%|█▎        | 852/6640 [14:30<26:47:53, 16.67s/it]                                                     {'loss': 0.5324, 'learning_rate': 1.9498433073461456e-05, 'epoch': 0.13}
 13%|█▎        | 852/6640 [14:30<26:47:53, 16.67s/it] 13%|█▎        | 853/6640 [14:47<27:17:28, 16.98s/it]                                                     {'loss': 0.5462, 'learning_rate': 1.9496906386799387e-05, 'epoch': 0.13}
 13%|█▎        | 853/6640 [14:47<27:17:28, 16.98s/it] 13%|█▎        | 854/6640 [15:04<27:08:50, 16.89s/it]                                                     {'loss': 0.5621, 'learning_rate': 1.9495377440128365e-05, 'epoch': 0.13}
 13%|█▎        | 854/6640 [15:04<27:08:50, 16.89s/it] 13%|█▎        | 855/6640 [15:20<26:44:31, 16.64s/it]                                                     {'loss': 0.5532, 'learning_rate': 1.949384623381224e-05, 'epoch': 0.13}
 13%|█▎        | 855/6640 [15:20<26:44:31, 16.64s/it] 13%|█▎        | 856/6640 [15:38<27:10:37, 16.92s/it]                                                     {'loss': 0.5678, 'learning_rate': 1.94923127682154e-05, 'epoch': 0.13}
 13%|█▎        | 856/6640 [15:38<27:10:37, 16.92s/it] 13%|█▎        | 857/6640 [15:54<26:48:02, 16.68s/it]                                                     {'loss': 0.5478, 'learning_rate': 1.9490777043702763e-05, 'epoch': 0.13}
 13%|█▎        | 857/6640 [15:54<26:48:02, 16.68s/it] 13%|█▎        | 858/6640 [16:10<26:28:46, 16.49s/it]                                                     {'loss': 0.5556, 'learning_rate': 1.94892390606398e-05, 'epoch': 0.13}
 13%|█▎        | 858/6640 [16:10<26:28:46, 16.49s/it] 13%|█▎        | 859/6640 [16:26<26:17:25, 16.37s/it]                                                     {'loss': 0.5439, 'learning_rate': 1.94876988193925e-05, 'epoch': 0.13}
 13%|█▎        | 859/6640 [16:26<26:17:25, 16.37s/it] 13%|█▎        | 860/6640 [16:43<26:30:21, 16.51s/it]                                                     {'loss': 0.5485, 'learning_rate': 1.9486156320327406e-05, 'epoch': 0.13}
 13%|█▎        | 860/6640 [16:43<26:30:21, 16.51s/it] 13%|█▎        | 861/6640 [16:59<26:31:19, 16.52s/it]                                                     {'loss': 0.5575, 'learning_rate': 1.948461156381159e-05, 'epoch': 0.13}
 13%|█▎        | 861/6640 [16:59<26:31:19, 16.52s/it] 13%|█▎        | 862/6640 [17:15<26:22:22, 16.43s/it]                                                     {'loss': 0.5461, 'learning_rate': 1.948306455021266e-05, 'epoch': 0.13}
 13%|█▎        | 862/6640 [17:15<26:22:22, 16.43s/it] 13%|█▎        | 863/6640 [17:31<26:05:56, 16.26s/it]                                                     {'loss': 0.5313, 'learning_rate': 1.9481515279898765e-05, 'epoch': 0.13}
 13%|█▎        | 863/6640 [17:31<26:05:56, 16.26s/it] 13%|█▎        | 864/6640 [17:48<26:13:24, 16.34s/it]                                                     {'loss': 0.5678, 'learning_rate': 1.9479963753238592e-05, 'epoch': 0.13}
 13%|█▎        | 864/6640 [17:48<26:13:24, 16.34s/it] 13%|█▎        | 865/6640 [18:04<26:00:09, 16.21s/it]                                                     {'loss': 0.555, 'learning_rate': 1.947840997060136e-05, 'epoch': 0.13}
 13%|█▎        | 865/6640 [18:04<26:00:09, 16.21s/it] 13%|█▎        | 866/6640 [18:20<26:13:57, 16.36s/it]                                                     {'loss': 0.556, 'learning_rate': 1.9476853932356827e-05, 'epoch': 0.13}
 13%|█▎        | 866/6640 [18:20<26:13:57, 16.36s/it] 13%|█▎        | 867/6640 [18:36<25:55:36, 16.17s/it]                                                     {'loss': 0.5529, 'learning_rate': 1.947529563887529e-05, 'epoch': 0.13}
 13%|█▎        | 867/6640 [18:36<25:55:36, 16.17s/it] 13%|█▎        | 868/6640 [18:53<26:10:23, 16.32s/it]                                                     {'loss': 0.5427, 'learning_rate': 1.947373509052758e-05, 'epoch': 0.13}
 13%|█▎        | 868/6640 [18:53<26:10:23, 16.32s/it] 13%|█▎        | 869/6640 [19:09<26:16:20, 16.39s/it]                                                     {'loss': 0.5637, 'learning_rate': 1.9472172287685067e-05, 'epoch': 0.13}
 13%|█▎        | 869/6640 [19:09<26:16:20, 16.39s/it] 13%|█▎        | 870/6640 [19:26<26:11:36, 16.34s/it]                                                     {'loss': 0.5427, 'learning_rate': 1.9470607230719654e-05, 'epoch': 0.13}
 13%|█▎        | 870/6640 [19:26<26:11:36, 16.34s/it] 13%|█▎        | 871/6640 [19:41<25:51:36, 16.14s/it]                                                     {'loss': 0.5257, 'learning_rate': 1.9469039920003788e-05, 'epoch': 0.13}
 13%|█▎        | 871/6640 [19:41<25:51:36, 16.14s/it] 13%|█▎        | 872/6640 [19:58<26:11:56, 16.35s/it]                                                     {'loss': 0.545, 'learning_rate': 1.9467470355910438e-05, 'epoch': 0.13}
 13%|█▎        | 872/6640 [19:58<26:11:56, 16.35s/it] 13%|█▎        | 873/6640 [20:14<25:45:21, 16.08s/it]                                                     {'loss': 0.5433, 'learning_rate': 1.946589853881313e-05, 'epoch': 0.13}
 13%|█▎        | 873/6640 [20:14<25:45:21, 16.08s/it] 13%|█▎        | 874/6640 [20:31<26:22:56, 16.47s/it]                                                     {'loss': 0.5565, 'learning_rate': 1.94643244690859e-05, 'epoch': 0.13}
 13%|█▎        | 874/6640 [20:31<26:22:56, 16.47s/it] 13%|█▎        | 875/6640 [20:47<26:09:51, 16.34s/it]                                                     {'loss': 0.5471, 'learning_rate': 1.9462748147103342e-05, 'epoch': 0.13}
 13%|█▎        | 875/6640 [20:47<26:09:51, 16.34s/it] 13%|█▎        | 876/6640 [21:04<26:35:07, 16.60s/it]                                                     {'loss': 0.5255, 'learning_rate': 1.9461169573240583e-05, 'epoch': 0.13}
 13%|█▎        | 876/6640 [21:04<26:35:07, 16.60s/it] 13%|█▎        | 877/6640 [21:20<26:22:49, 16.48s/it]                                                     {'loss': 0.5537, 'learning_rate': 1.9459588747873273e-05, 'epoch': 0.13}
 13%|█▎        | 877/6640 [21:20<26:22:49, 16.48s/it] 13%|█▎        | 878/6640 [21:38<26:45:46, 16.72s/it]                                                     {'loss': 0.5477, 'learning_rate': 1.9458005671377612e-05, 'epoch': 0.13}
 13%|█▎        | 878/6640 [21:38<26:45:46, 16.72s/it] 13%|█▎        | 879/6640 [21:54<26:27:17, 16.53s/it]                                                     {'loss': 0.5428, 'learning_rate': 1.9456420344130324e-05, 'epoch': 0.13}
 13%|█▎        | 879/6640 [21:54<26:27:17, 16.53s/it] 13%|█▎        | 880/6640 [22:10<26:22:21, 16.48s/it]                                                     {'loss': 0.5478, 'learning_rate': 1.945483276650868e-05, 'epoch': 0.13}
 13%|█▎        | 880/6640 [22:10<26:22:21, 16.48s/it] 13%|█▎        | 881/6640 [22:26<25:55:57, 16.21s/it]                                                     {'loss': 0.5466, 'learning_rate': 1.945324293889048e-05, 'epoch': 0.13}
 13%|█▎        | 881/6640 [22:26<25:55:57, 16.21s/it] 13%|█▎        | 882/6640 [22:42<25:50:45, 16.16s/it]                                                     {'loss': 0.5904, 'learning_rate': 1.9451650861654056e-05, 'epoch': 0.13}
 13%|█▎        | 882/6640 [22:42<25:50:45, 16.16s/it] 13%|█▎        | 883/6640 [22:59<26:27:35, 16.55s/it]                                                     {'loss': 0.5602, 'learning_rate': 1.945005653517828e-05, 'epoch': 0.13}
 13%|█▎        | 883/6640 [22:59<26:27:35, 16.55s/it] 13%|█▎        | 884/6640 [23:16<26:27:11, 16.54s/it]                                                     {'loss': 0.5473, 'learning_rate': 1.9448459959842564e-05, 'epoch': 0.13}
 13%|█▎        | 884/6640 [23:16<26:27:11, 16.54s/it] 13%|█▎        | 885/6640 [23:33<26:57:04, 16.86s/it]                                                     {'loss': 0.5376, 'learning_rate': 1.9446861136026846e-05, 'epoch': 0.13}
 13%|█▎        | 885/6640 [23:33<26:57:04, 16.86s/it] 13%|█▎        | 886/6640 [23:49<26:27:57, 16.56s/it]                                                     {'loss': 0.5314, 'learning_rate': 1.9445260064111608e-05, 'epoch': 0.13}
 13%|█▎        | 886/6640 [23:49<26:27:57, 16.56s/it] 13%|█▎        | 887/6640 [24:05<26:16:16, 16.44s/it]                                                     {'loss': 0.5624, 'learning_rate': 1.944365674447786e-05, 'epoch': 0.13}
 13%|█▎        | 887/6640 [24:05<26:16:16, 16.44s/it] 13%|█▎        | 888/6640 [24:22<26:23:39, 16.52s/it]                                                     {'loss': 0.5549, 'learning_rate': 1.944205117750714e-05, 'epoch': 0.13}
 13%|█▎        | 888/6640 [24:22<26:23:39, 16.52s/it] 13%|█▎        | 889/6640 [24:38<25:58:02, 16.26s/it]                                                     {'loss': 0.5448, 'learning_rate': 1.9440443363581542e-05, 'epoch': 0.13}
 13%|█▎        | 889/6640 [24:38<25:58:02, 16.26s/it] 13%|█▎        | 890/6640 [24:54<25:48:48, 16.16s/it]                                                     {'loss': 0.5554, 'learning_rate': 1.9438833303083677e-05, 'epoch': 0.13}
 13%|█▎        | 890/6640 [24:54<25:48:48, 16.16s/it] 13%|█▎        | 891/6640 [25:10<25:47:20, 16.15s/it]                                                     {'loss': 0.5517, 'learning_rate': 1.9437220996396696e-05, 'epoch': 0.13}
 13%|█▎        | 891/6640 [25:10<25:47:20, 16.15s/it] 13%|█▎        | 892/6640 [25:26<26:04:04, 16.33s/it]                                                     {'loss': 0.5612, 'learning_rate': 1.9435606443904293e-05, 'epoch': 0.13}
 13%|█▎        | 892/6640 [25:26<26:04:04, 16.33s/it] 13%|█▎        | 893/6640 [25:43<26:00:40, 16.29s/it]                                                     {'loss': 0.5448, 'learning_rate': 1.9433989645990677e-05, 'epoch': 0.13}
 13%|█▎        | 893/6640 [25:43<26:00:40, 16.29s/it] 13%|█▎        | 894/6640 [25:59<25:56:40, 16.25s/it]                                                     {'loss': 0.553, 'learning_rate': 1.9432370603040606e-05, 'epoch': 0.13}
 13%|█▎        | 894/6640 [25:59<25:56:40, 16.25s/it] 13%|█▎        | 895/6640 [26:15<26:02:24, 16.32s/it]                                                     {'loss': 0.5586, 'learning_rate': 1.943074931543937e-05, 'epoch': 0.13}
 13%|█▎        | 895/6640 [26:15<26:02:24, 16.32s/it] 13%|█▎        | 896/6640 [26:31<25:54:19, 16.24s/it]                                                     {'loss': 0.5565, 'learning_rate': 1.9429125783572793e-05, 'epoch': 0.13}
 13%|█▎        | 896/6640 [26:31<25:54:19, 16.24s/it] 14%|█▎        | 897/6640 [26:48<25:55:02, 16.25s/it]                                                     {'loss': 0.5486, 'learning_rate': 1.9427500007827228e-05, 'epoch': 0.14}
 14%|█▎        | 897/6640 [26:48<25:55:02, 16.25s/it] 14%|█▎        | 898/6640 [27:04<26:12:34, 16.43s/it]                                                     {'loss': 0.5463, 'learning_rate': 1.942587198858957e-05, 'epoch': 0.14}
 14%|█▎        | 898/6640 [27:05<26:12:34, 16.43s/it] 14%|█▎        | 899/6640 [27:21<26:07:11, 16.38s/it]                                                     {'loss': 0.5536, 'learning_rate': 1.9424241726247243e-05, 'epoch': 0.14}
 14%|█▎        | 899/6640 [27:21<26:07:11, 16.38s/it]5 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 14%|█▎        | 900/6640 [27:37<26:06:18, 16.37s/it]                                                     {'loss': 0.5543, 'learning_rate': 1.9422609221188208e-05, 'epoch': 0.14}
 14%|█▎        | 900/6640 [27:37<26:06:18, 16.37s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-900/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-900/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-900/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 14%|█▎        | 901/6640 [30:05<88:53:18, 55.76s/it]                                                     {'loss': 0.5681, 'learning_rate': 1.9420974473800952e-05, 'epoch': 0.14}
 14%|█▎        | 901/6640 [30:05<88:53:18, 55.76s/it] 14%|█▎        | 902/6640 [30:21<70:03:59, 43.96s/it]                                                     {'loss': 0.5408, 'learning_rate': 1.94193374844745e-05, 'epoch': 0.14}
 14%|█▎        | 902/6640 [30:21<70:03:59, 43.96s/it] 14%|█▎        | 903/6640 [30:38<56:52:42, 35.69s/it]                                                     {'loss': 0.5483, 'learning_rate': 1.9417698253598422e-05, 'epoch': 0.14}
 14%|█▎        | 903/6640 [30:38<56:52:42, 35.69s/it] 14%|█▎        | 904/6640 [30:53<47:16:46, 29.67s/it]                                                     {'loss': 0.5602, 'learning_rate': 1.94160567815628e-05, 'epoch': 0.14}
 14%|█▎        | 904/6640 [30:53<47:16:46, 29.67s/it] 14%|█▎        | 905/6640 [31:09<40:40:02, 25.53s/it]                                                     {'loss': 0.5515, 'learning_rate': 1.9414413068758266e-05, 'epoch': 0.14}
 14%|█▎        | 905/6640 [31:09<40:40:02, 25.53s/it] 14%|█▎        | 906/6640 [31:25<35:55:53, 22.56s/it]                                                     {'loss': 0.5343, 'learning_rate': 1.9412767115575977e-05, 'epoch': 0.14}
 14%|█▎        | 906/6640 [31:25<35:55:53, 22.56s/it] 14%|█▎        | 907/6640 [31:41<32:44:04, 20.56s/it]                                                     {'loss': 0.539, 'learning_rate': 1.941111892240763e-05, 'epoch': 0.14}
 14%|█▎        | 907/6640 [31:41<32:44:04, 20.56s/it] 14%|█▎        | 908/6640 [31:57<30:38:08, 19.24s/it]                                                     {'loss': 0.5443, 'learning_rate': 1.9409468489645444e-05, 'epoch': 0.14}
 14%|█▎        | 908/6640 [31:57<30:38:08, 19.24s/it] 14%|█▎        | 909/6640 [32:13<29:05:38, 18.28s/it]                                                     {'loss': 0.5306, 'learning_rate': 1.9407815817682183e-05, 'epoch': 0.14}
 14%|█▎        | 909/6640 [32:13<29:05:38, 18.28s/it] 14%|█▎        | 910/6640 [32:29<28:14:39, 17.75s/it]                                                     {'loss': 0.5379, 'learning_rate': 1.9406160906911137e-05, 'epoch': 0.14}
 14%|█▎        | 910/6640 [32:29<28:14:39, 17.75s/it] 14%|█▎        | 911/6640 [32:45<27:29:17, 17.27s/it]                                                     {'loss': 0.564, 'learning_rate': 1.940450375772613e-05, 'epoch': 0.14}
 14%|█▎        | 911/6640 [32:45<27:29:17, 17.27s/it] 14%|█▎        | 912/6640 [33:02<26:57:06, 16.94s/it]                                                     {'loss': 0.5333, 'learning_rate': 1.9402844370521515e-05, 'epoch': 0.14}
 14%|█▎        | 912/6640 [33:02<26:57:06, 16.94s/it] 14%|█▍        | 913/6640 [33:19<26:55:58, 16.93s/it]                                                     {'loss': 0.5538, 'learning_rate': 1.940118274569219e-05, 'epoch': 0.14}
 14%|█▍        | 913/6640 [33:19<26:55:58, 16.93s/it] 14%|█▍        | 914/6640 [33:35<26:37:57, 16.74s/it]                                                     {'loss': 0.5382, 'learning_rate': 1.9399518883633575e-05, 'epoch': 0.14}
 14%|█▍        | 914/6640 [33:35<26:37:57, 16.74s/it] 14%|█▍        | 915/6640 [33:51<26:14:57, 16.51s/it]                                                     {'loss': 0.547, 'learning_rate': 1.939785278474162e-05, 'epoch': 0.14}
 14%|█▍        | 915/6640 [33:51<26:14:57, 16.51s/it] 14%|█▍        | 916/6640 [34:08<26:23:47, 16.60s/it]                                                     {'loss': 0.538, 'learning_rate': 1.9396184449412817e-05, 'epoch': 0.14}
 14%|█▍        | 916/6640 [34:08<26:23:47, 16.60s/it] 14%|█▍        | 917/6640 [34:24<26:15:10, 16.51s/it]                                                     {'loss': 0.5711, 'learning_rate': 1.939451387804418e-05, 'epoch': 0.14}
 14%|█▍        | 917/6640 [34:24<26:15:10, 16.51s/it] 14%|█▍        | 918/6640 [34:41<26:19:39, 16.56s/it]                                                     {'loss': 0.545, 'learning_rate': 1.939284107103326e-05, 'epoch': 0.14}
 14%|█▍        | 918/6640 [34:41<26:19:39, 16.56s/it] 14%|█▍        | 919/6640 [34:56<25:59:14, 16.35s/it]                                                     {'loss': 0.5344, 'learning_rate': 1.9391166028778146e-05, 'epoch': 0.14}
 14%|█▍        | 919/6640 [34:56<25:59:14, 16.35s/it] 14%|█▍        | 920/6640 [35:13<25:57:09, 16.33s/it]                                                     {'loss': 0.5428, 'learning_rate': 1.938948875167745e-05, 'epoch': 0.14}
 14%|█▍        | 920/6640 [35:13<25:57:09, 16.33s/it] 14%|█▍        | 921/6640 [35:29<25:53:12, 16.30s/it]                                                     {'loss': 0.5678, 'learning_rate': 1.938780924013032e-05, 'epoch': 0.14}
 14%|█▍        | 921/6640 [35:29<25:53:12, 16.30s/it] 14%|█▍        | 922/6640 [35:45<25:50:42, 16.27s/it]                                                     {'loss': 0.5448, 'learning_rate': 1.9386127494536433e-05, 'epoch': 0.14}
 14%|█▍        | 922/6640 [35:45<25:50:42, 16.27s/it] 14%|█▍        | 923/6640 [36:02<26:04:29, 16.42s/it]                                                     {'loss': 0.5437, 'learning_rate': 1.9384443515295998e-05, 'epoch': 0.14}
 14%|█▍        | 923/6640 [36:02<26:04:29, 16.42s/it] 14%|█▍        | 924/6640 [36:18<25:40:12, 16.17s/it]                                                     {'loss': 0.5469, 'learning_rate': 1.938275730280976e-05, 'epoch': 0.14}
 14%|█▍        | 924/6640 [36:18<25:40:12, 16.17s/it] 14%|█▍        | 925/6640 [36:34<25:39:59, 16.17s/it]                                                     {'loss': 0.5399, 'learning_rate': 1.9381068857478994e-05, 'epoch': 0.14}
 14%|█▍        | 925/6640 [36:34<25:39:59, 16.17s/it] 14%|█▍        | 926/6640 [36:51<26:13:01, 16.52s/it]                                                     {'loss': 0.5564, 'learning_rate': 1.93793781797055e-05, 'epoch': 0.14}
 14%|█▍        | 926/6640 [36:51<26:13:01, 16.52s/it] 14%|█▍        | 927/6640 [37:07<25:45:10, 16.23s/it]                                                     {'loss': 0.5473, 'learning_rate': 1.9377685269891614e-05, 'epoch': 0.14}
 14%|█▍        | 927/6640 [37:07<25:45:10, 16.23s/it] 14%|█▍        | 928/6640 [37:23<26:03:46, 16.43s/it]                                                     {'loss': 0.5328, 'learning_rate': 1.9375990128440205e-05, 'epoch': 0.14}
 14%|█▍        | 928/6640 [37:23<26:03:46, 16.43s/it] 14%|█▍        | 929/6640 [37:39<25:48:43, 16.27s/it]                                                     {'loss': 0.5313, 'learning_rate': 1.9374292755754674e-05, 'epoch': 0.14}
 14%|█▍        | 929/6640 [37:39<25:48:43, 16.27s/it] 14%|█▍        | 930/6640 [37:56<25:53:16, 16.32s/it]                                                     {'loss': 0.5675, 'learning_rate': 1.937259315223894e-05, 'epoch': 0.14}
 14%|█▍        | 930/6640 [37:56<25:53:16, 16.32s/it] 14%|█▍        | 931/6640 [38:12<25:59:41, 16.39s/it]                                                     {'loss': 0.5348, 'learning_rate': 1.937089131829748e-05, 'epoch': 0.14}
 14%|█▍        | 931/6640 [38:12<25:59:41, 16.39s/it] 14%|█▍        | 932/6640 [38:28<25:37:15, 16.16s/it]                                                     {'loss': 0.5533, 'learning_rate': 1.936918725433527e-05, 'epoch': 0.14}
 14%|█▍        | 932/6640 [38:28<25:37:15, 16.16s/it] 14%|█▍        | 933/6640 [38:44<25:25:59, 16.04s/it]                                                     {'loss': 0.5634, 'learning_rate': 1.9367480960757836e-05, 'epoch': 0.14}
 14%|█▍        | 933/6640 [38:44<25:25:59, 16.04s/it] 14%|█▍        | 934/6640 [39:00<25:41:13, 16.21s/it]                                                     {'loss': 0.5667, 'learning_rate': 1.9365772437971233e-05, 'epoch': 0.14}
 14%|█▍        | 934/6640 [39:00<25:41:13, 16.21s/it] 14%|█▍        | 935/6640 [39:16<25:30:12, 16.09s/it]                                                     {'loss': 0.5318, 'learning_rate': 1.9364061686382042e-05, 'epoch': 0.14}
 14%|█▍        | 935/6640 [39:16<25:30:12, 16.09s/it] 14%|█▍        | 936/6640 [39:33<25:46:41, 16.27s/it]                                                     {'loss': 0.5477, 'learning_rate': 1.9362348706397374e-05, 'epoch': 0.14}
 14%|█▍        | 936/6640 [39:33<25:46:41, 16.27s/it] 14%|█▍        | 937/6640 [39:49<25:34:43, 16.15s/it]                                                     {'loss': 0.5433, 'learning_rate': 1.9360633498424875e-05, 'epoch': 0.14}
 14%|█▍        | 937/6640 [39:49<25:34:43, 16.15s/it] 14%|█▍        | 938/6640 [40:05<25:31:38, 16.12s/it]                                                     {'loss': 0.5373, 'learning_rate': 1.9358916062872714e-05, 'epoch': 0.14}
 14%|█▍        | 938/6640 [40:05<25:31:38, 16.12s/it] 14%|█▍        | 939/6640 [40:22<25:59:40, 16.41s/it]                                                     {'loss': 0.5507, 'learning_rate': 1.93571964001496e-05, 'epoch': 0.14}
 14%|█▍        | 939/6640 [40:22<25:59:40, 16.41s/it] 14%|█▍        | 940/6640 [40:38<25:51:45, 16.33s/it]                                                     {'loss': 0.5607, 'learning_rate': 1.9355474510664763e-05, 'epoch': 0.14}
 14%|█▍        | 940/6640 [40:38<25:51:45, 16.33s/it]WARNING: tokenization mismatch: 1 vs. 624. [[{'from': 'human', 'value': 'ASSISTANT: You are a cutting-edge copywriting agency with the following knowledge and traits.\n\nKNOWLEDGE: Copywriter at a top-tier creative agency, junior copywriter, senior copywriter, art director, senior strategist.\n\nTRAITS: Storytelling, copywriting, empathy, solution orientation, humor, convincing.\n\nTASK: Use your knowledge to write a LinkedIn Post. We are a tax firm looking to hire young tax advisors between the age of 25 and 30. Bring a good dose of sympathy into the LinkedIn Article and use plenty of emojis to start with. Start the Linked In post with an exciting question. Use the language of the target group. Don´t mention the targeted age. \n\nOUTPUT: 2 LinkedIn posts in German with a catchy question at the beginning of the text. Hashtags at the end of the text.'}, {'from': 'gpt', 'value': 'Post 1:\n\n👋 Hey, ihr Steuerprofis da draußen! 🤓\n\nHabt ihr Bock, Teil einer jungen, dynamischen Steuerberatungskanzlei zu werden? 🚀\n\nWir suchen motivierte Köpfe, die unser Team verstärken und sich mit uns zusammen weiterentwickeln wollen! 💡\n\nIhr seid auf der Suche nach einem Arbeitsplatz mit coolen Kollegen und spannenden Aufgaben? 🤝 Dann seid ihr bei uns genau richtig! 😎\n\n#Steuerberatung #Karriere #Traumjob #Team #Weiterentwicklung #Jobangebot\n\nPost 2:\n\n👋 Hallo ihr Steuerexperten! 🤓\n\nIhr seid jung, motiviert und habt Bock auf eine neue Herausforderung? 🚀\n\nDann seid ihr bei uns genau richtig! Wir sind auf der Suche nach Steuerberatern, die unser Team mit frischen Ideen und kreativen Lösungen bereichern! 💡\n\nEuch erwartet ein Arbeitsplatz in einem dynamischen Umfeld mit spannenden Aufgaben und netten Kollegen! 🤝\n\nInteressiert? Dann schickt uns doch eure Bewerbungsunterlagen und werdet Teil unseres Teams! 😎\n\n#Jobangebot #Steuerberatung #Karriere #Traumjob #Team #Weiterentwicklung'}]] (ignored)
 14%|█▍        | 941/6640 [40:54<25:41:13, 16.23s/it]                                                     {'loss': 0.5389, 'learning_rate': 1.9353750394827967e-05, 'epoch': 0.14}
 14%|█▍        | 941/6640 [40:54<25:41:13, 16.23s/it] 14%|█▍        | 942/6640 [41:10<25:47:50, 16.30s/it]                                                     {'loss': 0.5341, 'learning_rate': 1.935202405304951e-05, 'epoch': 0.14}
 14%|█▍        | 942/6640 [41:10<25:47:50, 16.30s/it] 14%|█▍        | 943/6640 [41:27<25:47:35, 16.30s/it]                                                     {'loss': 0.5471, 'learning_rate': 1.9350295485740208e-05, 'epoch': 0.14}
 14%|█▍        | 943/6640 [41:27<25:47:35, 16.30s/it] 14%|█▍        | 944/6640 [41:44<26:03:57, 16.47s/it]                                                     {'loss': 0.5259, 'learning_rate': 1.9348564693311417e-05, 'epoch': 0.14}
 14%|█▍        | 944/6640 [41:44<26:03:57, 16.47s/it] 14%|█▍        | 945/6640 [42:00<25:56:40, 16.40s/it]                                                     {'loss': 0.5612, 'learning_rate': 1.934683167617502e-05, 'epoch': 0.14}
 14%|█▍        | 945/6640 [42:00<25:56:40, 16.40s/it] 14%|█▍        | 946/6640 [42:16<25:35:23, 16.18s/it]                                                     {'loss': 0.5503, 'learning_rate': 1.9345096434743426e-05, 'epoch': 0.14}
 14%|█▍        | 946/6640 [42:16<25:35:23, 16.18s/it] 14%|█▍        | 947/6640 [42:32<25:50:43, 16.34s/it]                                                     {'loss': 0.5415, 'learning_rate': 1.934335896942958e-05, 'epoch': 0.14}
 14%|█▍        | 947/6640 [42:32<25:50:43, 16.34s/it] 14%|█▍        | 948/6640 [42:49<26:03:43, 16.48s/it]                                                     {'loss': 0.5394, 'learning_rate': 1.934161928064695e-05, 'epoch': 0.14}
 14%|█▍        | 948/6640 [42:49<26:03:43, 16.48s/it] 14%|█▍        | 949/6640 [43:05<25:52:13, 16.37s/it]                                                     {'loss': 0.5375, 'learning_rate': 1.933987736880953e-05, 'epoch': 0.14}
 14%|█▍        | 949/6640 [43:05<25:52:13, 16.37s/it]5 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
12 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
03 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
 14%|█▍        | 950/6640 [43:22<25:57:56, 16.43s/it]                                                     {'loss': 0.5636, 'learning_rate': 1.933813323433186e-05, 'epoch': 0.14}
 14%|█▍        | 950/6640 [43:22<25:57:56, 16.43s/it] 14%|█▍        | 951/6640 [43:40<26:51:31, 17.00s/it]                                                     {'loss': 0.5561, 'learning_rate': 1.9336386877628985e-05, 'epoch': 0.14}
 14%|█▍        | 951/6640 [43:40<26:51:31, 17.00s/it] 14%|█▍        | 952/6640 [43:56<26:28:23, 16.76s/it]                                                     {'loss': 0.5472, 'learning_rate': 1.9334638299116495e-05, 'epoch': 0.14}
 14%|█▍        | 952/6640 [43:56<26:28:23, 16.76s/it] 14%|█▍        | 953/6640 [44:13<26:24:41, 16.72s/it]                                                     {'loss': 0.5358, 'learning_rate': 1.9332887499210513e-05, 'epoch': 0.14}
 14%|█▍        | 953/6640 [44:13<26:24:41, 16.72s/it] 14%|█▍        | 954/6640 [44:29<26:08:51, 16.56s/it]                                                     {'loss': 0.5472, 'learning_rate': 1.9331134478327672e-05, 'epoch': 0.14}
 14%|█▍        | 954/6640 [44:29<26:08:51, 16.56s/it] 14%|█▍        | 955/6640 [44:45<25:54:00, 16.40s/it]                                                     {'loss': 0.5574, 'learning_rate': 1.9329379236885145e-05, 'epoch': 0.14}
 14%|█▍        | 955/6640 [44:45<25:54:00, 16.40s/it] 14%|█▍        | 956/6640 [45:01<25:42:45, 16.29s/it]                                                     {'loss': 0.5456, 'learning_rate': 1.932762177530064e-05, 'epoch': 0.14}
 14%|█▍        | 956/6640 [45:01<25:42:45, 16.29s/it] 14%|█▍        | 957/6640 [45:17<25:29:07, 16.14s/it]                                                     {'loss': 0.5417, 'learning_rate': 1.9325862093992377e-05, 'epoch': 0.14}
 14%|█▍        | 957/6640 [45:17<25:29:07, 16.14s/it] 14%|█▍        | 958/6640 [45:33<25:21:47, 16.07s/it]                                                     {'loss': 0.5654, 'learning_rate': 1.9324100193379116e-05, 'epoch': 0.14}
 14%|█▍        | 958/6640 [45:33<25:21:47, 16.07s/it] 14%|█▍        | 959/6640 [45:49<25:34:54, 16.21s/it]                                                     {'loss': 0.5635, 'learning_rate': 1.9322336073880143e-05, 'epoch': 0.14}
 14%|█▍        | 959/6640 [45:49<25:34:54, 16.21s/it] 14%|█▍        | 960/6640 [46:06<25:55:11, 16.43s/it]                                                     {'loss': 0.537, 'learning_rate': 1.9320569735915273e-05, 'epoch': 0.14}
 14%|█▍        | 960/6640 [46:06<25:55:11, 16.43s/it] 14%|█▍        | 961/6640 [46:23<26:02:35, 16.51s/it]                                                     {'loss': 0.5531, 'learning_rate': 1.9318801179904843e-05, 'epoch': 0.14}
 14%|█▍        | 961/6640 [46:23<26:02:35, 16.51s/it] 14%|█▍        | 962/6640 [46:39<25:59:08, 16.48s/it]                                                     {'loss': 0.5349, 'learning_rate': 1.9317030406269724e-05, 'epoch': 0.14}
 14%|█▍        | 962/6640 [46:39<25:59:08, 16.48s/it] 15%|█▍        | 963/6640 [46:57<26:32:21, 16.83s/it]                                                     {'loss': 0.5338, 'learning_rate': 1.931525741543131e-05, 'epoch': 0.15}
 15%|█▍        | 963/6640 [46:57<26:32:21, 16.83s/it] 15%|█▍        | 964/6640 [47:14<26:25:53, 16.76s/it]                                                     {'loss': 0.5443, 'learning_rate': 1.9313482207811532e-05, 'epoch': 0.15}
 15%|█▍        | 964/6640 [47:14<26:25:53, 16.76s/it] 15%|█▍        | 965/6640 [47:29<25:53:22, 16.42s/it]                                                     {'loss': 0.5545, 'learning_rate': 1.9311704783832835e-05, 'epoch': 0.15}
 15%|█▍        | 965/6640 [47:29<25:53:22, 16.42s/it] 15%|█▍        | 966/6640 [47:46<25:58:57, 16.49s/it]                                                     {'loss': 0.5492, 'learning_rate': 1.9309925143918204e-05, 'epoch': 0.15}
 15%|█▍        | 966/6640 [47:46<25:58:57, 16.49s/it] 15%|█▍        | 967/6640 [48:02<25:47:12, 16.36s/it]                                                     {'loss': 0.5293, 'learning_rate': 1.9308143288491138e-05, 'epoch': 0.15}
 15%|█▍        | 967/6640 [48:02<25:47:12, 16.36s/it] 15%|█▍        | 968/6640 [48:18<25:46:36, 16.36s/it]                                                     {'loss': 0.5436, 'learning_rate': 1.930635921797568e-05, 'epoch': 0.15}
 15%|█▍        | 968/6640 [48:18<25:46:36, 16.36s/it] 15%|█▍        | 969/6640 [48:35<25:44:43, 16.34s/it]                                                     {'loss': 0.552, 'learning_rate': 1.930457293279638e-05, 'epoch': 0.15}
 15%|█▍        | 969/6640 [48:35<25:44:43, 16.34s/it] 15%|█▍        | 970/6640 [48:51<25:45:02, 16.35s/it]                                                     {'loss': 0.5378, 'learning_rate': 1.9302784433378333e-05, 'epoch': 0.15}
 15%|█▍        | 970/6640 [48:51<25:45:02, 16.35s/it] 15%|█▍        | 971/6640 [49:08<25:53:39, 16.44s/it]                                                     {'loss': 0.5421, 'learning_rate': 1.9300993720147155e-05, 'epoch': 0.15}
 15%|█▍        | 971/6640 [49:08<25:53:39, 16.44s/it] 15%|█▍        | 972/6640 [49:25<26:05:59, 16.58s/it]                                                     {'loss': 0.5543, 'learning_rate': 1.9299200793528983e-05, 'epoch': 0.15}
 15%|█▍        | 972/6640 [49:25<26:05:59, 16.58s/it] 15%|█▍        | 973/6640 [49:41<26:00:59, 16.53s/it]                                                     {'loss': 0.5457, 'learning_rate': 1.929740565395049e-05, 'epoch': 0.15}
 15%|█▍        | 973/6640 [49:41<26:00:59, 16.53s/it] 15%|█▍        | 974/6640 [49:58<26:15:50, 16.69s/it]                                                     {'loss': 0.555, 'learning_rate': 1.9295608301838867e-05, 'epoch': 0.15}
 15%|█▍        | 974/6640 [49:58<26:15:50, 16.69s/it] 15%|█▍        | 975/6640 [50:14<26:07:20, 16.60s/it]                                                     {'loss': 0.5526, 'learning_rate': 1.9293808737621837e-05, 'epoch': 0.15}
 15%|█▍        | 975/6640 [50:14<26:07:20, 16.60s/it] 15%|█▍        | 976/6640 [50:32<26:24:27, 16.78s/it]                                                     {'loss': 0.5314, 'learning_rate': 1.9292006961727653e-05, 'epoch': 0.15}
 15%|█▍        | 976/6640 [50:32<26:24:27, 16.78s/it] 15%|█▍        | 977/6640 [50:48<26:05:16, 16.58s/it]                                                     {'loss': 0.5453, 'learning_rate': 1.929020297458508e-05, 'epoch': 0.15}
 15%|█▍        | 977/6640 [50:48<26:05:16, 16.58s/it] 15%|█▍        | 978/6640 [51:04<26:01:28, 16.55s/it]                                                     {'loss': 0.547, 'learning_rate': 1.9288396776623424e-05, 'epoch': 0.15}
 15%|█▍        | 978/6640 [51:04<26:01:28, 16.55s/it] 15%|█▍        | 979/6640 [51:20<25:38:01, 16.30s/it]                                                     {'loss': 0.5413, 'learning_rate': 1.928658836827251e-05, 'epoch': 0.15}
 15%|█▍        | 979/6640 [51:20<25:38:01, 16.30s/it] 15%|█▍        | 980/6640 [51:37<26:02:57, 16.57s/it]                                                     {'loss': 0.5435, 'learning_rate': 1.9284777749962696e-05, 'epoch': 0.15}
 15%|█▍        | 980/6640 [51:37<26:02:57, 16.57s/it] 15%|█▍        | 981/6640 [51:54<25:58:23, 16.52s/it]                                                     {'loss': 0.5483, 'learning_rate': 1.9282964922124854e-05, 'epoch': 0.15}
 15%|█▍        | 981/6640 [51:54<25:58:23, 16.52s/it] 15%|█▍        | 982/6640 [52:10<25:45:37, 16.39s/it]                                                     {'loss': 0.5651, 'learning_rate': 1.928114988519039e-05, 'epoch': 0.15}
 15%|█▍        | 982/6640 [52:10<25:45:37, 16.39s/it] 15%|█▍        | 983/6640 [52:26<25:55:04, 16.49s/it]                                                     {'loss': 0.5547, 'learning_rate': 1.9279332639591235e-05, 'epoch': 0.15}
 15%|█▍        | 983/6640 [52:26<25:55:04, 16.49s/it] 15%|█▍        | 984/6640 [52:43<25:58:17, 16.53s/it]                                                     {'loss': 0.5598, 'learning_rate': 1.9277513185759847e-05, 'epoch': 0.15}
 15%|█▍        | 984/6640 [52:43<25:58:17, 16.53s/it] 15%|█▍        | 985/6640 [52:59<25:37:57, 16.32s/it]                                                     {'loss': 0.5612, 'learning_rate': 1.9275691524129203e-05, 'epoch': 0.15}
 15%|█▍        | 985/6640 [52:59<25:37:57, 16.32s/it] 15%|█▍        | 986/6640 [53:15<25:42:16, 16.37s/it]                                                     {'loss': 0.5593, 'learning_rate': 1.927386765513281e-05, 'epoch': 0.15}
 15%|█▍        | 986/6640 [53:15<25:42:16, 16.37s/it] 15%|█▍        | 987/6640 [53:32<25:40:45, 16.35s/it]                                                     {'loss': 0.5623, 'learning_rate': 1.9272041579204704e-05, 'epoch': 0.15}
 15%|█▍        | 987/6640 [53:32<25:40:45, 16.35s/it] 15%|█▍        | 988/6640 [53:48<25:38:13, 16.33s/it]                                                     {'loss': 0.6035, 'learning_rate': 1.9270213296779436e-05, 'epoch': 0.15}
 15%|█▍        | 988/6640 [53:48<25:38:13, 16.33s/it] 15%|█▍        | 989/6640 [54:04<25:44:48, 16.40s/it]                                                     {'loss': 0.5596, 'learning_rate': 1.9268382808292094e-05, 'epoch': 0.15}
 15%|█▍        | 989/6640 [54:04<25:44:48, 16.40s/it] 15%|█▍        | 990/6640 [54:20<25:28:33, 16.23s/it]                                                     {'loss': 0.5528, 'learning_rate': 1.926655011417828e-05, 'epoch': 0.15}
 15%|█▍        | 990/6640 [54:20<25:28:33, 16.23s/it] 15%|█▍        | 991/6640 [54:36<25:11:21, 16.05s/it]                                                     {'loss': 0.5392, 'learning_rate': 1.926471521487413e-05, 'epoch': 0.15}
 15%|█▍        | 991/6640 [54:36<25:11:21, 16.05s/it] 15%|█▍        | 992/6640 [54:52<25:09:06, 16.03s/it]                                                     {'loss': 0.5677, 'learning_rate': 1.92628781108163e-05, 'epoch': 0.15}
 15%|█▍        | 992/6640 [54:52<25:09:06, 16.03s/it] 15%|█▍        | 993/6640 [55:09<25:34:56, 16.31s/it]                                                     {'loss': 0.5507, 'learning_rate': 1.926103880244197e-05, 'epoch': 0.15}
 15%|█▍        | 993/6640 [55:09<25:34:56, 16.31s/it] 15%|█▍        | 994/6640 [55:25<25:41:01, 16.38s/it]                                                     {'loss': 0.5583, 'learning_rate': 1.9259197290188848e-05, 'epoch': 0.15}
 15%|█▍        | 994/6640 [55:25<25:41:01, 16.38s/it] 15%|█▍        | 995/6640 [55:42<25:47:24, 16.45s/it]                                                     {'loss': 0.5532, 'learning_rate': 1.9257353574495164e-05, 'epoch': 0.15}
 15%|█▍        | 995/6640 [55:42<25:47:24, 16.45s/it] 15%|█▌        | 996/6640 [55:59<25:48:38, 16.46s/it]                                                     {'loss': 0.5542, 'learning_rate': 1.925550765579967e-05, 'epoch': 0.15}
 15%|█▌        | 996/6640 [55:59<25:48:38, 16.46s/it] 15%|█▌        | 997/6640 [56:14<25:30:23, 16.27s/it]                                                     {'loss': 0.5362, 'learning_rate': 1.925365953454165e-05, 'epoch': 0.15}
 15%|█▌        | 997/6640 [56:14<25:30:23, 16.27s/it] 15%|█▌        | 998/6640 [56:30<25:22:26, 16.19s/it]                                                     {'loss': 0.558, 'learning_rate': 1.9251809211160905e-05, 'epoch': 0.15}
 15%|█▌        | 998/6640 [56:30<25:22:26, 16.19s/it] 15%|█▌        | 999/6640 [56:46<25:12:49, 16.09s/it]                                                     {'loss': 0.5451, 'learning_rate': 1.9249956686097758e-05, 'epoch': 0.15}
 15%|█▌        | 999/6640 [56:46<25:12:49, 16.09s/it]7 AutoResumeHook: Checking whether to suspend...
02  AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...6 AutoResumeHook: Checking whether to suspend...

3 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
 15%|█▌        | 1000/6640 [57:03<25:21:21, 16.18s/it]4 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
                                                      {'loss': 0.5302, 'learning_rate': 1.9248101959793066e-05, 'epoch': 0.15}
 15%|█▌        | 1000/6640 [57:03<25:21:21, 16.18s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1000/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1000/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1000/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 15%|█▌        | 1001/6640 [59:23<83:38:59, 53.40s/it]                                                      {'loss': 0.5502, 'learning_rate': 1.9246245032688203e-05, 'epoch': 0.15}
 15%|█▌        | 1001/6640 [59:23<83:38:59, 53.40s/it] 15%|█▌        | 1002/6640 [59:39<66:18:58, 42.34s/it]                                                      {'loss': 0.5418, 'learning_rate': 1.924438590522507e-05, 'epoch': 0.15}
 15%|█▌        | 1002/6640 [59:39<66:18:58, 42.34s/it] 15%|█▌        | 1003/6640 [59:56<54:01:54, 34.51s/it]                                                      {'loss': 0.5466, 'learning_rate': 1.9242524577846083e-05, 'epoch': 0.15}
 15%|█▌        | 1003/6640 [59:56<54:01:54, 34.51s/it] 15%|█▌        | 1004/6640 [1:00:12<45:42:40, 29.20s/it]                                                        {'loss': 0.5585, 'learning_rate': 1.9240661050994192e-05, 'epoch': 0.15}
 15%|█▌        | 1004/6640 [1:00:12<45:42:40, 29.20s/it] 15%|█▌        | 1005/6640 [1:00:29<39:39:42, 25.34s/it]                                                        {'loss': 0.5437, 'learning_rate': 1.9238795325112867e-05, 'epoch': 0.15}
 15%|█▌        | 1005/6640 [1:00:29<39:39:42, 25.34s/it] 15%|█▌        | 1006/6640 [1:00:45<35:26:34, 22.65s/it]                                                        {'loss': 0.5434, 'learning_rate': 1.9236927400646102e-05, 'epoch': 0.15}
 15%|█▌        | 1006/6640 [1:00:45<35:26:34, 22.65s/it] 15%|█▌        | 1007/6640 [1:01:00<31:59:25, 20.44s/it]                                                        {'loss': 0.5806, 'learning_rate': 1.923505727803841e-05, 'epoch': 0.15}
 15%|█▌        | 1007/6640 [1:01:00<31:59:25, 20.44s/it] 15%|█▌        | 1008/6640 [1:01:17<30:10:32, 19.29s/it]                                                        {'loss': 0.5329, 'learning_rate': 1.923318495773483e-05, 'epoch': 0.15}
 15%|█▌        | 1008/6640 [1:01:17<30:10:32, 19.29s/it] 15%|█▌        | 1009/6640 [1:01:34<29:01:36, 18.56s/it]                                                        {'loss': 0.5535, 'learning_rate': 1.9231310440180923e-05, 'epoch': 0.15}
 15%|█▌        | 1009/6640 [1:01:34<29:01:36, 18.56s/it] 15%|█▌        | 1010/6640 [1:01:51<28:22:43, 18.15s/it]                                                        {'loss': 0.5466, 'learning_rate': 1.9229433725822776e-05, 'epoch': 0.15}
 15%|█▌        | 1010/6640 [1:01:51<28:22:43, 18.15s/it] 15%|█▌        | 1011/6640 [1:02:08<27:50:28, 17.81s/it]                                                        {'loss': 0.5537, 'learning_rate': 1.9227554815106998e-05, 'epoch': 0.15}
 15%|█▌        | 1011/6640 [1:02:08<27:50:28, 17.81s/it] 15%|█▌        | 1012/6640 [1:02:24<27:10:30, 17.38s/it]                                                        {'loss': 0.5482, 'learning_rate': 1.922567370848072e-05, 'epoch': 0.15}
 15%|█▌        | 1012/6640 [1:02:24<27:10:30, 17.38s/it] 15%|█▌        | 1013/6640 [1:02:40<26:30:58, 16.96s/it]                                                        {'loss': 0.5537, 'learning_rate': 1.9223790406391588e-05, 'epoch': 0.15}
 15%|█▌        | 1013/6640 [1:02:40<26:30:58, 16.96s/it] 15%|█▌        | 1014/6640 [1:02:57<26:26:42, 16.92s/it]                                                        {'loss': 0.5394, 'learning_rate': 1.9221904909287786e-05, 'epoch': 0.15}
 15%|█▌        | 1014/6640 [1:02:57<26:26:42, 16.92s/it] 15%|█▌        | 1015/6640 [1:03:14<26:18:03, 16.83s/it]                                                        {'loss': 0.5455, 'learning_rate': 1.9220017217618006e-05, 'epoch': 0.15}
 15%|█▌        | 1015/6640 [1:03:14<26:18:03, 16.83s/it] 15%|█▌        | 1016/6640 [1:03:30<26:05:25, 16.70s/it]                                                        {'loss': 0.5668, 'learning_rate': 1.9218127331831468e-05, 'epoch': 0.15}
 15%|█▌        | 1016/6640 [1:03:30<26:05:25, 16.70s/it] 15%|█▌        | 1017/6640 [1:03:47<25:54:52, 16.59s/it]                                                        {'loss': 0.5434, 'learning_rate': 1.921623525237792e-05, 'epoch': 0.15}
 15%|█▌        | 1017/6640 [1:03:47<25:54:52, 16.59s/it] 15%|█▌        | 1018/6640 [1:04:04<26:11:54, 16.78s/it]                                                        {'loss': 0.5413, 'learning_rate': 1.9214340979707617e-05, 'epoch': 0.15}
 15%|█▌        | 1018/6640 [1:04:04<26:11:54, 16.78s/it] 15%|█▌        | 1019/6640 [1:04:20<25:48:41, 16.53s/it]                                                        {'loss': 0.5362, 'learning_rate': 1.921244451427135e-05, 'epoch': 0.15}
 15%|█▌        | 1019/6640 [1:04:20<25:48:41, 16.53s/it] 15%|█▌        | 1020/6640 [1:04:36<25:40:01, 16.44s/it]                                                        {'loss': 0.5413, 'learning_rate': 1.921054585652043e-05, 'epoch': 0.15}
 15%|█▌        | 1020/6640 [1:04:36<25:40:01, 16.44s/it] 15%|█▌        | 1021/6640 [1:04:52<25:35:16, 16.39s/it]                                                        {'loss': 0.5359, 'learning_rate': 1.9208645006906684e-05, 'epoch': 0.15}
 15%|█▌        | 1021/6640 [1:04:52<25:35:16, 16.39s/it] 15%|█▌        | 1022/6640 [1:05:09<25:30:06, 16.34s/it]                                                        {'loss': 0.5272, 'learning_rate': 1.920674196588246e-05, 'epoch': 0.15}
 15%|█▌        | 1022/6640 [1:05:09<25:30:06, 16.34s/it] 15%|█▌        | 1023/6640 [1:05:25<25:29:54, 16.34s/it]                                                        {'loss': 0.5663, 'learning_rate': 1.9204836733900636e-05, 'epoch': 0.15}
 15%|█▌        | 1023/6640 [1:05:25<25:29:54, 16.34s/it] 15%|█▌        | 1024/6640 [1:05:41<25:09:39, 16.13s/it]                                                        {'loss': 0.5426, 'learning_rate': 1.9202929311414602e-05, 'epoch': 0.15}
 15%|█▌        | 1024/6640 [1:05:41<25:09:39, 16.13s/it] 15%|█▌        | 1025/6640 [1:05:57<25:25:37, 16.30s/it]                                                        {'loss': 0.553, 'learning_rate': 1.9201019698878272e-05, 'epoch': 0.15}
 15%|█▌        | 1025/6640 [1:05:57<25:25:37, 16.30s/it] 15%|█▌        | 1026/6640 [1:06:14<25:44:17, 16.50s/it]                                                        {'loss': 0.5503, 'learning_rate': 1.9199107896746093e-05, 'epoch': 0.15}
 15%|█▌        | 1026/6640 [1:06:14<25:44:17, 16.50s/it] 15%|█▌        | 1027/6640 [1:06:31<26:01:37, 16.69s/it]                                                        {'loss': 0.5491, 'learning_rate': 1.919719390547301e-05, 'epoch': 0.15}
 15%|█▌        | 1027/6640 [1:06:31<26:01:37, 16.69s/it] 15%|█▌        | 1028/6640 [1:06:47<25:24:55, 16.30s/it]                                                        {'loss': 0.5391, 'learning_rate': 1.919527772551451e-05, 'epoch': 0.15}
 15%|█▌        | 1028/6640 [1:06:47<25:24:55, 16.30s/it] 15%|█▌        | 1029/6640 [1:07:03<25:21:13, 16.27s/it]                                                        {'loss': 0.5762, 'learning_rate': 1.9193359357326584e-05, 'epoch': 0.15}
 15%|█▌        | 1029/6640 [1:07:03<25:21:13, 16.27s/it] 16%|█▌        | 1030/6640 [1:07:19<25:27:12, 16.33s/it]                                                        {'loss': 0.557, 'learning_rate': 1.9191438801365763e-05, 'epoch': 0.16}
 16%|█▌        | 1030/6640 [1:07:19<25:27:12, 16.33s/it] 16%|█▌        | 1031/6640 [1:07:36<25:39:41, 16.47s/it]                                                        {'loss': 0.561, 'learning_rate': 1.9189516058089076e-05, 'epoch': 0.16}
 16%|█▌        | 1031/6640 [1:07:36<25:39:41, 16.47s/it] 16%|█▌        | 1032/6640 [1:07:53<25:35:37, 16.43s/it]                                                        {'loss': 0.5473, 'learning_rate': 1.9187591127954096e-05, 'epoch': 0.16}
 16%|█▌        | 1032/6640 [1:07:53<25:35:37, 16.43s/it] 16%|█▌        | 1033/6640 [1:08:09<25:38:20, 16.46s/it]                                                        {'loss': 0.5468, 'learning_rate': 1.9185664011418895e-05, 'epoch': 0.16}
 16%|█▌        | 1033/6640 [1:08:09<25:38:20, 16.46s/it] 16%|█▌        | 1034/6640 [1:08:25<25:18:44, 16.25s/it]                                                        {'loss': 0.5384, 'learning_rate': 1.918373470894208e-05, 'epoch': 0.16}
 16%|█▌        | 1034/6640 [1:08:25<25:18:44, 16.25s/it] 16%|█▌        | 1035/6640 [1:08:41<25:26:58, 16.35s/it]                                                        {'loss': 0.55, 'learning_rate': 1.9181803220982776e-05, 'epoch': 0.16}
 16%|█▌        | 1035/6640 [1:08:41<25:26:58, 16.35s/it] 16%|█▌        | 1036/6640 [1:08:57<25:13:15, 16.20s/it]                                                        {'loss': 0.5427, 'learning_rate': 1.9179869548000618e-05, 'epoch': 0.16}
 16%|█▌        | 1036/6640 [1:08:57<25:13:15, 16.20s/it] 16%|█▌        | 1037/6640 [1:09:13<25:07:04, 16.14s/it]                                                        {'loss': 0.5437, 'learning_rate': 1.9177933690455775e-05, 'epoch': 0.16}
 16%|█▌        | 1037/6640 [1:09:13<25:07:04, 16.14s/it] 16%|█▌        | 1038/6640 [1:09:30<25:13:16, 16.21s/it]                                                        {'loss': 0.5458, 'learning_rate': 1.9175995648808922e-05, 'epoch': 0.16}
 16%|█▌        | 1038/6640 [1:09:30<25:13:16, 16.21s/it] 16%|█▌        | 1039/6640 [1:09:46<25:19:42, 16.28s/it]                                                        {'loss': 0.5606, 'learning_rate': 1.9174055423521268e-05, 'epoch': 0.16}
 16%|█▌        | 1039/6640 [1:09:46<25:19:42, 16.28s/it] 16%|█▌        | 1040/6640 [1:10:02<25:13:04, 16.21s/it]                                                        {'loss': 0.532, 'learning_rate': 1.917211301505453e-05, 'epoch': 0.16}
 16%|█▌        | 1040/6640 [1:10:02<25:13:04, 16.21s/it] 16%|█▌        | 1041/6640 [1:10:18<25:12:34, 16.21s/it]                                                        {'loss': 0.5389, 'learning_rate': 1.9170168423870954e-05, 'epoch': 0.16}
 16%|█▌        | 1041/6640 [1:10:18<25:12:34, 16.21s/it] 16%|█▌        | 1042/6640 [1:10:35<25:12:44, 16.21s/it]                                                        {'loss': 0.5543, 'learning_rate': 1.9168221650433295e-05, 'epoch': 0.16}
 16%|█▌        | 1042/6640 [1:10:35<25:12:44, 16.21s/it] 16%|█▌        | 1043/6640 [1:10:51<25:21:58, 16.32s/it]                                                        {'loss': 0.5312, 'learning_rate': 1.9166272695204836e-05, 'epoch': 0.16}
 16%|█▌        | 1043/6640 [1:10:51<25:21:58, 16.32s/it] 16%|█▌        | 1044/6640 [1:11:07<25:10:32, 16.20s/it]                                                        {'loss': 0.5329, 'learning_rate': 1.9164321558649375e-05, 'epoch': 0.16}
 16%|█▌        | 1044/6640 [1:11:07<25:10:32, 16.20s/it] 16%|█▌        | 1045/6640 [1:11:23<25:07:23, 16.17s/it]                                                        {'loss': 0.5434, 'learning_rate': 1.916236824123123e-05, 'epoch': 0.16}
 16%|█▌        | 1045/6640 [1:11:23<25:07:23, 16.17s/it] 16%|█▌        | 1046/6640 [1:11:40<25:15:17, 16.25s/it]                                                        {'loss': 0.5785, 'learning_rate': 1.9160412743415237e-05, 'epoch': 0.16}
 16%|█▌        | 1046/6640 [1:11:40<25:15:17, 16.25s/it] 16%|█▌        | 1047/6640 [1:11:56<25:17:52, 16.28s/it]                                                        {'loss': 0.5303, 'learning_rate': 1.9158455065666758e-05, 'epoch': 0.16}
 16%|█▌        | 1047/6640 [1:11:56<25:17:52, 16.28s/it] 16%|█▌        | 1048/6640 [1:12:12<25:23:10, 16.34s/it]                                                        {'loss': 0.5406, 'learning_rate': 1.915649520845166e-05, 'epoch': 0.16}
 16%|█▌        | 1048/6640 [1:12:12<25:23:10, 16.34s/it] 16%|█▌        | 1049/6640 [1:12:28<25:05:54, 16.16s/it]                                                        {'loss': 0.5266, 'learning_rate': 1.915453317223634e-05, 'epoch': 0.16}
 16%|█▌        | 1049/6640 [1:12:28<25:05:54, 16.16s/it]35 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
07  AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
 16%|█▌        | 1050/6640 [1:12:46<26:01:28, 16.76s/it]6 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5428, 'learning_rate': 1.915256895748771e-05, 'epoch': 0.16}
 16%|█▌        | 1050/6640 [1:12:46<26:01:28, 16.76s/it] 16%|█▌        | 1051/6640 [1:13:02<25:34:30, 16.47s/it]                                                        {'loss': 0.5609, 'learning_rate': 1.91506025646732e-05, 'epoch': 0.16}
 16%|█▌        | 1051/6640 [1:13:02<25:34:30, 16.47s/it] 16%|█▌        | 1052/6640 [1:13:19<25:44:24, 16.58s/it]                                                        {'loss': 0.5384, 'learning_rate': 1.914863399426076e-05, 'epoch': 0.16}
 16%|█▌        | 1052/6640 [1:13:19<25:44:24, 16.58s/it] 16%|█▌        | 1053/6640 [1:13:35<25:42:21, 16.56s/it]                                                        {'loss': 0.5582, 'learning_rate': 1.9146663246718854e-05, 'epoch': 0.16}
 16%|█▌        | 1053/6640 [1:13:35<25:42:21, 16.56s/it] 16%|█▌        | 1054/6640 [1:13:51<25:19:55, 16.33s/it]                                                        {'loss': 0.5368, 'learning_rate': 1.914469032251647e-05, 'epoch': 0.16}
 16%|█▌        | 1054/6640 [1:13:51<25:19:55, 16.33s/it] 16%|█▌        | 1055/6640 [1:14:07<25:06:15, 16.18s/it]                                                        {'loss': 0.5504, 'learning_rate': 1.914271522212311e-05, 'epoch': 0.16}
 16%|█▌        | 1055/6640 [1:14:07<25:06:15, 16.18s/it] 16%|█▌        | 1056/6640 [1:14:24<25:13:01, 16.26s/it]                                                        {'loss': 0.5238, 'learning_rate': 1.9140737946008797e-05, 'epoch': 0.16}
 16%|█▌        | 1056/6640 [1:14:24<25:13:01, 16.26s/it] 16%|█▌        | 1057/6640 [1:14:40<25:13:16, 16.26s/it]                                                        {'loss': 0.5267, 'learning_rate': 1.9138758494644065e-05, 'epoch': 0.16}
 16%|█▌        | 1057/6640 [1:14:40<25:13:16, 16.26s/it] 16%|█▌        | 1058/6640 [1:14:57<25:44:15, 16.60s/it]                                                        {'loss': 0.5393, 'learning_rate': 1.9136776868499975e-05, 'epoch': 0.16}
 16%|█▌        | 1058/6640 [1:14:57<25:44:15, 16.60s/it] 16%|█▌        | 1059/6640 [1:15:13<25:16:59, 16.31s/it]                                                        {'loss': 0.5409, 'learning_rate': 1.9134793068048095e-05, 'epoch': 0.16}
 16%|█▌        | 1059/6640 [1:15:13<25:16:59, 16.31s/it] 16%|█▌        | 1060/6640 [1:15:29<25:27:04, 16.42s/it]                                                        {'loss': 0.5698, 'learning_rate': 1.9132807093760523e-05, 'epoch': 0.16}
 16%|█▌        | 1060/6640 [1:15:29<25:27:04, 16.42s/it] 16%|█▌        | 1061/6640 [1:15:46<25:23:45, 16.39s/it]                                                        {'loss': 0.5237, 'learning_rate': 1.9130818946109865e-05, 'epoch': 0.16}
 16%|█▌        | 1061/6640 [1:15:46<25:23:45, 16.39s/it] 16%|█▌        | 1062/6640 [1:16:02<25:11:09, 16.25s/it]                                                        {'loss': 0.5486, 'learning_rate': 1.9128828625569243e-05, 'epoch': 0.16}
 16%|█▌        | 1062/6640 [1:16:02<25:11:09, 16.25s/it] 16%|█▌        | 1063/6640 [1:16:18<25:03:17, 16.17s/it]                                                        {'loss': 0.5638, 'learning_rate': 1.9126836132612305e-05, 'epoch': 0.16}
 16%|█▌        | 1063/6640 [1:16:18<25:03:17, 16.17s/it] 16%|█▌        | 1064/6640 [1:16:34<25:11:33, 16.26s/it]                                                        {'loss': 0.5474, 'learning_rate': 1.9124841467713212e-05, 'epoch': 0.16}
 16%|█▌        | 1064/6640 [1:16:34<25:11:33, 16.26s/it] 16%|█▌        | 1065/6640 [1:16:50<24:59:34, 16.14s/it]                                                        {'loss': 0.55, 'learning_rate': 1.9122844631346632e-05, 'epoch': 0.16}
 16%|█▌        | 1065/6640 [1:16:50<24:59:34, 16.14s/it] 16%|█▌        | 1066/6640 [1:17:06<25:06:32, 16.22s/it]                                                        {'loss': 0.5578, 'learning_rate': 1.912084562398777e-05, 'epoch': 0.16}
 16%|█▌        | 1066/6640 [1:17:06<25:06:32, 16.22s/it] 16%|█▌        | 1067/6640 [1:17:23<25:08:30, 16.24s/it]                                                        {'loss': 0.5302, 'learning_rate': 1.911884444611233e-05, 'epoch': 0.16}
 16%|█▌        | 1067/6640 [1:17:23<25:08:30, 16.24s/it] 16%|█▌        | 1068/6640 [1:17:39<25:02:27, 16.18s/it]                                                        {'loss': 0.5559, 'learning_rate': 1.9116841098196538e-05, 'epoch': 0.16}
 16%|█▌        | 1068/6640 [1:17:39<25:02:27, 16.18s/it] 16%|█▌        | 1069/6640 [1:17:55<25:04:07, 16.20s/it]                                                        {'loss': 0.5498, 'learning_rate': 1.9114835580717136e-05, 'epoch': 0.16}
 16%|█▌        | 1069/6640 [1:17:55<25:04:07, 16.20s/it] 16%|█▌        | 1070/6640 [1:18:12<25:23:05, 16.41s/it]                                                        {'loss': 0.5323, 'learning_rate': 1.9112827894151386e-05, 'epoch': 0.16}
 16%|█▌        | 1070/6640 [1:18:12<25:23:05, 16.41s/it] 16%|█▌        | 1071/6640 [1:18:28<25:11:22, 16.28s/it]                                                        {'loss': 0.5538, 'learning_rate': 1.9110818038977067e-05, 'epoch': 0.16}
 16%|█▌        | 1071/6640 [1:18:28<25:11:22, 16.28s/it] 16%|█▌        | 1072/6640 [1:18:44<25:14:58, 16.33s/it]                                                        {'loss': 0.5428, 'learning_rate': 1.9108806015672463e-05, 'epoch': 0.16}
 16%|█▌        | 1072/6640 [1:18:44<25:14:58, 16.33s/it] 16%|█▌        | 1073/6640 [1:19:00<25:02:18, 16.19s/it]                                                        {'loss': 0.5564, 'learning_rate': 1.9106791824716387e-05, 'epoch': 0.16}
 16%|█▌        | 1073/6640 [1:19:00<25:02:18, 16.19s/it] 16%|█▌        | 1074/6640 [1:19:17<25:28:30, 16.48s/it]                                                        {'loss': 0.5305, 'learning_rate': 1.9104775466588162e-05, 'epoch': 0.16}
 16%|█▌        | 1074/6640 [1:19:17<25:28:30, 16.48s/it] 16%|█▌        | 1075/6640 [1:19:34<25:29:19, 16.49s/it]                                                        {'loss': 0.5524, 'learning_rate': 1.9102756941767625e-05, 'epoch': 0.16}
 16%|█▌        | 1075/6640 [1:19:34<25:29:19, 16.49s/it] 16%|█▌        | 1076/6640 [1:19:50<25:12:50, 16.31s/it]                                                        {'loss': 0.5455, 'learning_rate': 1.910073625073513e-05, 'epoch': 0.16}
 16%|█▌        | 1076/6640 [1:19:50<25:12:50, 16.31s/it] 16%|█▌        | 1077/6640 [1:20:07<25:28:20, 16.48s/it]                                                        {'loss': 0.5485, 'learning_rate': 1.9098713393971547e-05, 'epoch': 0.16}
 16%|█▌        | 1077/6640 [1:20:07<25:28:20, 16.48s/it] 16%|█▌        | 1078/6640 [1:20:23<25:34:23, 16.55s/it]                                                        {'loss': 0.5377, 'learning_rate': 1.909668837195827e-05, 'epoch': 0.16}
 16%|█▌        | 1078/6640 [1:20:23<25:34:23, 16.55s/it] 16%|█▋        | 1079/6640 [1:20:40<25:37:20, 16.59s/it]                                                        {'loss': 0.5544, 'learning_rate': 1.909466118517719e-05, 'epoch': 0.16}
 16%|█▋        | 1079/6640 [1:20:40<25:37:20, 16.59s/it] 16%|█▋        | 1080/6640 [1:20:56<25:29:33, 16.51s/it]                                                        {'loss': 0.5497, 'learning_rate': 1.9092631834110723e-05, 'epoch': 0.16}
 16%|█▋        | 1080/6640 [1:20:56<25:29:33, 16.51s/it] 16%|█▋        | 1081/6640 [1:21:12<25:15:35, 16.36s/it]                                                        {'loss': 0.5444, 'learning_rate': 1.9090600319241808e-05, 'epoch': 0.16}
 16%|█▋        | 1081/6640 [1:21:12<25:15:35, 16.36s/it] 16%|█▋        | 1082/6640 [1:21:29<25:18:35, 16.39s/it]                                                        {'loss': 0.5522, 'learning_rate': 1.9088566641053887e-05, 'epoch': 0.16}
 16%|█▋        | 1082/6640 [1:21:29<25:18:35, 16.39s/it] 16%|█▋        | 1083/6640 [1:21:46<25:26:47, 16.49s/it]                                                        {'loss': 0.5546, 'learning_rate': 1.908653080003092e-05, 'epoch': 0.16}
 16%|█▋        | 1083/6640 [1:21:46<25:26:47, 16.49s/it] 16%|█▋        | 1084/6640 [1:22:01<25:11:10, 16.32s/it]                                                        {'loss': 0.5403, 'learning_rate': 1.9084492796657382e-05, 'epoch': 0.16}
 16%|█▋        | 1084/6640 [1:22:01<25:11:10, 16.32s/it] 16%|█▋        | 1085/6640 [1:22:17<24:59:31, 16.20s/it]                                                        {'loss': 0.5633, 'learning_rate': 1.9082452631418265e-05, 'epoch': 0.16}
 16%|█▋        | 1085/6640 [1:22:17<24:59:31, 16.20s/it] 16%|█▋        | 1086/6640 [1:22:33<24:45:14, 16.05s/it]                                                        {'loss': 0.5352, 'learning_rate': 1.9080410304799072e-05, 'epoch': 0.16}
 16%|█▋        | 1086/6640 [1:22:33<24:45:14, 16.05s/it]WARNING: tokenization mismatch: 1 vs. 1473. [[{'from': 'human', 'value': 'ASSISTANT: Du bist eine auf Kundenfeedback spezialisierte Agentur mit den folgenden Kenntnissen und Eigenschaften.\n\nKENNTNISSE: Kundenfeedback, wissenschaftliche Datenerhebung, Fragebogendesign, Benutzerfreundlichkeit, Kundenbindung, Service-Qualitätsevaluation.\n\nEIGENSCHAFTEN: Präzision, Effizienz, Empathie, Anpassungsfähigkeit, Datenorientierung, Kundenfokus.\n\nAUFGABE: Nutze dein Wissen, um ein Kundenfeedback-Formular zu entwickeln, das die Service-Qualität einer Steuerberatung evaluiert. Das Formular soll auf wissenschaftlich fundierten Datenniveaus basieren und dabei darauf achten, dass es nur so lang ist, dass es tatsächlich vom Kunden ausgefüllt wird. Konzentriere dich auf die Gestaltung eines benutzerfreundlichen und effizienten Fragebogens, der aussagekräftige Informationen über die Steuerberatung liefert.\n\nOUTPUT: Ein strukturiertes Kundenfeedback-Formular, das auf wissenschaftlich fundierten Datenniveaus basiert und eine angemessene Länge hat, um von Kunden tatsächlich ausgefüllt zu werden, und speziell auf die Evaluation der Service-Qualität einer Steuerberatung abzielt.'}, {'from': 'gpt', 'value': 'Kundenfeedback-Formular: Steuerberatung Service-Qualität\n\nTeil 1: Allgemeine Informationen\n(Bitte füllen Sie die folgenden Informationen aus.)\n\n1. Name (Optional):\n2. Alter:\n☐ Unter 25\n☐ 25-34\n☐ 35-44\n☐ 45-54\n☐ 55-64\n☐ 65 oder älter\n3. Geschlecht:\n☐ Männlich\n☐ Weiblich\n☐ Andere\n☐ Lieber nicht angeben\n\nTeil 2: Service-Qualität\n(Bitte bewerten Sie die folgenden Aspekte der Steuerberatung auf einer Skala von 1 bis 5, wobei 1 = sehr unzufrieden und 5 = sehr zufrieden.)\n\n1. Fachliche Kompetenz des Steuerberaters:\n☐ 1\n☐ 2\n☐ 3\n☐ 4\n☐ 5\n2. Freundlichkeit und Hilfsbereitschaft des Personals:\n☐ 1\n☐ 2\n☐ 3\n☐ 4\n☐ 5\n3. Reaktionsgeschwindigkeit auf Anfragen und Probleme:\n☐ 1\n☐ 2\n☐ 3\n☐ 4\n☐ 5\n4. Verständlichkeit der erbrachten Informationen und Beratung:\n☐ 1\n☐ 2\n☐ 3\n☐ 4\n☐ 5\n5. Qualität der bereitgestellten Dienstleistungen und Lösungen:\n☐ 1\n☐ 2\n☐ 3\n☐ 4\n☐ 5\n6. Preis-Leistungs-Verhältnis:\n☐ 1\n☐ 2\n☐ 3\n☐ 4\n☐ 5\n\nTeil 3: Kundenbindung und Zufriedenheit\n(Bitte beantworten Sie die folgenden Fragen.)\n\n1. Wie wahrscheinlich ist es, dass Sie die Steuerberatung an Freunde, Familie oder Kollegen weiterempfehlen? (Skala von 1 bis 10, wobei 1 = sehr unwahrscheinlich und 10 = sehr wahrscheinlich)\n☐ 1\n☐ 2\n☐ 3\n☐ 4\n☐ 5\n☐ 6\n☐ 7\n☐ 8\n☐ 9\n☐ 10\n2. Wie zufrieden sind Sie insgesamt mit der Steuerberatung? (Skala von 1 bis 5, wobei 1 = sehr unzufrieden und 5 = sehr zufrieden)\n☐ 1\n☐ 2\n☐ 3\n☐ 4\n☐ 5\n\nTeil 4: Offene Fragen\n(Bitte teilen Sie uns Ihre Gedanken und Erfahrungen mit.)\n\n1. Was hat Ihnen am meisten an der Steuerberatung gefallen? (Optional)\n2. Was könnte die Steuerberatung verbessern, um Ihre Zufriedenheit zu erhöhen? (Optional)\n\nVielen Dank für Ihre Zeit und Ihr'}, {'from': 'human', 'value': 'Continue.'}, {'from': 'gpt', 'value': 'wertvolles Feedback! Ihre Meinung hilft uns dabei, den Service und die Qualität unserer Steuerberatung kontinuierlich zu verbessern. Wenn Sie Fragen oder Anmerkungen haben oder zusätzliche Informationen benötigen, zögern Sie bitte nicht, uns zu kontaktieren.\n\nTeil 5: Kontaktaufnahme (Optional)\n(Bitte geben Sie Ihre Kontaktinformationen an, falls Sie möchten, dass wir Ihnen bezüglich Ihres Feedbacks antworten oder weitere Informationen anbieten.)\n\n1. Name:\n2. E-Mail-Adresse:\n3. Telefonnummer:\n\nHinweis zum Datenschutz: Ihre persönlichen Daten werden vertraulich behandelt und nur für interne Zwecke verwendet. Sie werden nicht an Dritte weitergegeben.\n\nBitte klicken Sie auf "Absenden", um das Formular abzuschließen. Nochmals vielen Dank für Ihre Rückmeldung und Ihre Unterstützung bei der Verbesserung unserer Steuerberatung!'}]] (ignored)
 16%|█▋        | 1087/6640 [1:22:50<25:10:22, 16.32s/it]                                                        {'loss': 0.5426, 'learning_rate': 1.9078365817285825e-05, 'epoch': 0.16}
 16%|█▋        | 1087/6640 [1:22:50<25:10:22, 16.32s/it] 16%|█▋        | 1088/6640 [1:23:06<24:50:42, 16.11s/it]                                                        {'loss': 0.5402, 'learning_rate': 1.9076319169365055e-05, 'epoch': 0.16}
 16%|█▋        | 1088/6640 [1:23:06<24:50:42, 16.11s/it] 16%|█▋        | 1089/6640 [1:23:23<25:11:58, 16.34s/it]                                                        {'loss': 0.5828, 'learning_rate': 1.9074270361523805e-05, 'epoch': 0.16}
 16%|█▋        | 1089/6640 [1:23:23<25:11:58, 16.34s/it] 16%|█▋        | 1090/6640 [1:23:40<25:33:32, 16.58s/it]                                                        {'loss': 0.545, 'learning_rate': 1.9072219394249644e-05, 'epoch': 0.16}
 16%|█▋        | 1090/6640 [1:23:40<25:33:32, 16.58s/it] 16%|█▋        | 1091/6640 [1:23:56<25:32:09, 16.57s/it]                                                        {'loss': 0.549, 'learning_rate': 1.9070166268030643e-05, 'epoch': 0.16}
 16%|█▋        | 1091/6640 [1:23:56<25:32:09, 16.57s/it] 16%|█▋        | 1092/6640 [1:24:13<25:31:25, 16.56s/it]                                                        {'loss': 0.5194, 'learning_rate': 1.9068110983355394e-05, 'epoch': 0.16}
 16%|█▋        | 1092/6640 [1:24:13<25:31:25, 16.56s/it] 16%|█▋        | 1093/6640 [1:24:31<26:05:51, 16.94s/it]                                                        {'loss': 0.5295, 'learning_rate': 1.906605354071299e-05, 'epoch': 0.16}
 16%|█▋        | 1093/6640 [1:24:31<26:05:51, 16.94s/it] 16%|█▋        | 1094/6640 [1:24:47<25:54:01, 16.81s/it]                                                        {'loss': 0.5666, 'learning_rate': 1.9063993940593062e-05, 'epoch': 0.16}
 16%|█▋        | 1094/6640 [1:24:47<25:54:01, 16.81s/it] 16%|█▋        | 1095/6640 [1:25:03<25:28:49, 16.54s/it]                                                        {'loss': 0.5175, 'learning_rate': 1.9061932183485726e-05, 'epoch': 0.16}
 16%|█▋        | 1095/6640 [1:25:03<25:28:49, 16.54s/it] 17%|█▋        | 1096/6640 [1:25:19<25:06:21, 16.30s/it]                                                        {'loss': 0.5398, 'learning_rate': 1.9059868269881637e-05, 'epoch': 0.17}
 17%|█▋        | 1096/6640 [1:25:19<25:06:21, 16.30s/it] 17%|█▋        | 1097/6640 [1:25:35<25:00:07, 16.24s/it]                                                        {'loss': 0.5639, 'learning_rate': 1.9057802200271943e-05, 'epoch': 0.17}
 17%|█▋        | 1097/6640 [1:25:35<25:00:07, 16.24s/it] 17%|█▋        | 1098/6640 [1:25:51<24:59:14, 16.23s/it]                                                        {'loss': 0.5535, 'learning_rate': 1.9055733975148315e-05, 'epoch': 0.17}
 17%|█▋        | 1098/6640 [1:25:51<24:59:14, 16.23s/it] 17%|█▋        | 1099/6640 [1:26:08<25:12:19, 16.38s/it]                                                        {'loss': 0.5487, 'learning_rate': 1.9053663595002935e-05, 'epoch': 0.17}
 17%|█▋        | 1099/6640 [1:26:08<25:12:19, 16.38s/it]4 AutoResumeHook: Checking whether to suspend...
37  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

1 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 17%|█▋        | 1100/6640 [1:26:24<25:09:43, 16.35s/it]                                                        {'loss': 0.5461, 'learning_rate': 1.9051591060328496e-05, 'epoch': 0.17}
 17%|█▋        | 1100/6640 [1:26:24<25:09:43, 16.35s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1100/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1100/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1100/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 17%|█▋        | 1101/6640 [1:28:37<78:55:29, 51.30s/it]                                                        {'loss': 0.5317, 'learning_rate': 1.904951637161821e-05, 'epoch': 0.17}
 17%|█▋        | 1101/6640 [1:28:37<78:55:29, 51.30s/it] 17%|█▋        | 1102/6640 [1:28:54<62:57:50, 40.93s/it]                                                        {'loss': 0.5654, 'learning_rate': 1.9047439529365793e-05, 'epoch': 0.17}
 17%|█▋        | 1102/6640 [1:28:54<62:57:50, 40.93s/it] 17%|█▋        | 1103/6640 [1:29:10<51:27:08, 33.45s/it]                                                        {'loss': 0.5451, 'learning_rate': 1.9045360534065484e-05, 'epoch': 0.17}
 17%|█▋        | 1103/6640 [1:29:10<51:27:08, 33.45s/it] 17%|█▋        | 1104/6640 [1:29:26<43:25:18, 28.24s/it]                                                        {'loss': 0.5405, 'learning_rate': 1.904327938621202e-05, 'epoch': 0.17}
 17%|█▋        | 1104/6640 [1:29:26<43:25:18, 28.24s/it] 17%|█▋        | 1105/6640 [1:29:41<37:39:30, 24.49s/it]                                                        {'loss': 0.5473, 'learning_rate': 1.9041196086300666e-05, 'epoch': 0.17}
 17%|█▋        | 1105/6640 [1:29:41<37:39:30, 24.49s/it] 17%|█▋        | 1106/6640 [1:29:58<33:45:23, 21.96s/it]                                                        {'loss': 0.5412, 'learning_rate': 1.9039110634827185e-05, 'epoch': 0.17}
 17%|█▋        | 1106/6640 [1:29:58<33:45:23, 21.96s/it] 17%|█▋        | 1107/6640 [1:30:14<31:20:29, 20.39s/it]                                                        {'loss': 0.5335, 'learning_rate': 1.9037023032287863e-05, 'epoch': 0.17}
 17%|█▋        | 1107/6640 [1:30:14<31:20:29, 20.39s/it] 17%|█▋        | 1108/6640 [1:30:30<29:21:24, 19.10s/it]                                                        {'loss': 0.557, 'learning_rate': 1.903493327917949e-05, 'epoch': 0.17}
 17%|█▋        | 1108/6640 [1:30:30<29:21:24, 19.10s/it] 17%|█▋        | 1109/6640 [1:30:47<28:04:17, 18.27s/it]                                                        {'loss': 0.5503, 'learning_rate': 1.9032841375999373e-05, 'epoch': 0.17}
 17%|█▋        | 1109/6640 [1:30:47<28:04:17, 18.27s/it] 17%|█▋        | 1110/6640 [1:31:03<27:02:18, 17.60s/it]                                                        {'loss': 0.5276, 'learning_rate': 1.903074732324533e-05, 'epoch': 0.17}
 17%|█▋        | 1110/6640 [1:31:03<27:02:18, 17.60s/it] 17%|█▋        | 1111/6640 [1:31:18<26:04:10, 16.97s/it]                                                        {'loss': 0.5534, 'learning_rate': 1.9028651121415687e-05, 'epoch': 0.17}
 17%|█▋        | 1111/6640 [1:31:18<26:04:10, 16.97s/it] 17%|█▋        | 1112/6640 [1:31:35<25:44:57, 16.77s/it]                                                        {'loss': 0.5462, 'learning_rate': 1.9026552771009284e-05, 'epoch': 0.17}
 17%|█▋        | 1112/6640 [1:31:35<25:44:57, 16.77s/it] 17%|█▋        | 1113/6640 [1:31:51<25:33:13, 16.64s/it]                                                        {'loss': 0.5182, 'learning_rate': 1.9024452272525474e-05, 'epoch': 0.17}
 17%|█▋        | 1113/6640 [1:31:51<25:33:13, 16.64s/it] 17%|█▋        | 1114/6640 [1:32:07<25:22:19, 16.53s/it]                                                        {'loss': 0.5503, 'learning_rate': 1.9022349626464118e-05, 'epoch': 0.17}
 17%|█▋        | 1114/6640 [1:32:07<25:22:19, 16.53s/it] 17%|█▋        | 1115/6640 [1:32:24<25:33:35, 16.65s/it]                                                        {'loss': 0.5426, 'learning_rate': 1.902024483332559e-05, 'epoch': 0.17}
 17%|█▋        | 1115/6640 [1:32:24<25:33:35, 16.65s/it] 17%|█▋        | 1116/6640 [1:32:41<25:53:34, 16.87s/it]                                                        {'loss': 0.5325, 'learning_rate': 1.9018137893610775e-05, 'epoch': 0.17}
 17%|█▋        | 1116/6640 [1:32:41<25:53:34, 16.87s/it] 17%|█▋        | 1117/6640 [1:32:58<25:30:31, 16.63s/it]                                                        {'loss': 0.5412, 'learning_rate': 1.9016028807821067e-05, 'epoch': 0.17}
 17%|█▋        | 1117/6640 [1:32:58<25:30:31, 16.63s/it] 17%|█▋        | 1118/6640 [1:33:14<25:26:54, 16.59s/it]                                                        {'loss': 0.551, 'learning_rate': 1.901391757645837e-05, 'epoch': 0.17}
 17%|█▋        | 1118/6640 [1:33:14<25:26:54, 16.59s/it] 17%|█▋        | 1119/6640 [1:33:30<25:15:50, 16.47s/it]                                                        {'loss': 0.5469, 'learning_rate': 1.9011804200025103e-05, 'epoch': 0.17}
 17%|█▋        | 1119/6640 [1:33:30<25:15:50, 16.47s/it] 17%|█▋        | 1120/6640 [1:33:47<25:31:00, 16.64s/it]                                                        {'loss': 0.5471, 'learning_rate': 1.900968867902419e-05, 'epoch': 0.17}
 17%|█▋        | 1120/6640 [1:33:47<25:31:00, 16.64s/it] 17%|█▋        | 1121/6640 [1:34:04<25:23:59, 16.57s/it]                                                        {'loss': 0.5349, 'learning_rate': 1.9007571013959077e-05, 'epoch': 0.17}
 17%|█▋        | 1121/6640 [1:34:04<25:23:59, 16.57s/it] 17%|█▋        | 1122/6640 [1:34:20<25:07:38, 16.39s/it]                                                        {'loss': 0.5391, 'learning_rate': 1.90054512053337e-05, 'epoch': 0.17}
 17%|█▋        | 1122/6640 [1:34:20<25:07:38, 16.39s/it] 17%|█▋        | 1123/6640 [1:34:36<25:06:36, 16.39s/it]                                                        {'loss': 0.53, 'learning_rate': 1.900332925365252e-05, 'epoch': 0.17}
 17%|█▋        | 1123/6640 [1:34:36<25:06:36, 16.39s/it] 17%|█▋        | 1124/6640 [1:34:52<24:46:14, 16.17s/it]                                                        {'loss': 0.5305, 'learning_rate': 1.9001205159420512e-05, 'epoch': 0.17}
 17%|█▋        | 1124/6640 [1:34:52<24:46:14, 16.17s/it] 17%|█▋        | 1125/6640 [1:35:08<24:50:19, 16.21s/it]                                                        {'loss': 0.5369, 'learning_rate': 1.8999078923143142e-05, 'epoch': 0.17}
 17%|█▋        | 1125/6640 [1:35:08<24:50:19, 16.21s/it] 17%|█▋        | 1126/6640 [1:35:24<24:44:36, 16.15s/it]                                                        {'loss': 0.5415, 'learning_rate': 1.8996950545326406e-05, 'epoch': 0.17}
 17%|█▋        | 1126/6640 [1:35:24<24:44:36, 16.15s/it] 17%|█▋        | 1127/6640 [1:35:40<24:47:31, 16.19s/it]                                                        {'loss': 0.5634, 'learning_rate': 1.8994820026476798e-05, 'epoch': 0.17}
 17%|█▋        | 1127/6640 [1:35:40<24:47:31, 16.19s/it] 17%|█▋        | 1128/6640 [1:35:57<25:01:14, 16.34s/it]                                                        {'loss': 0.5612, 'learning_rate': 1.8992687367101325e-05, 'epoch': 0.17}
 17%|█▋        | 1128/6640 [1:35:57<25:01:14, 16.34s/it] 17%|█▋        | 1129/6640 [1:36:13<24:49:56, 16.22s/it]                                                        {'loss': 0.5641, 'learning_rate': 1.8990552567707495e-05, 'epoch': 0.17}
 17%|█▋        | 1129/6640 [1:36:13<24:49:56, 16.22s/it] 17%|█▋        | 1130/6640 [1:36:30<25:26:06, 16.62s/it]                                                        {'loss': 0.5436, 'learning_rate': 1.8988415628803345e-05, 'epoch': 0.17}
 17%|█▋        | 1130/6640 [1:36:30<25:26:06, 16.62s/it] 17%|█▋        | 1131/6640 [1:36:47<25:14:04, 16.49s/it]                                                        {'loss': 0.5478, 'learning_rate': 1.8986276550897404e-05, 'epoch': 0.17}
 17%|█▋        | 1131/6640 [1:36:47<25:14:04, 16.49s/it] 17%|█▋        | 1132/6640 [1:37:02<24:51:27, 16.25s/it]                                                        {'loss': 0.5437, 'learning_rate': 1.898413533449871e-05, 'epoch': 0.17}
 17%|█▋        | 1132/6640 [1:37:02<24:51:27, 16.25s/it] 17%|█▋        | 1133/6640 [1:37:19<24:49:15, 16.23s/it]                                                        {'loss': 0.5701, 'learning_rate': 1.8981991980116823e-05, 'epoch': 0.17}
 17%|█▋        | 1133/6640 [1:37:19<24:49:15, 16.23s/it] 17%|█▋        | 1134/6640 [1:37:35<24:50:41, 16.24s/it]                                                        {'loss': 0.5403, 'learning_rate': 1.8979846488261802e-05, 'epoch': 0.17}
 17%|█▋        | 1134/6640 [1:37:35<24:50:41, 16.24s/it] 17%|█▋        | 1135/6640 [1:37:51<24:38:15, 16.11s/it]                                                        {'loss': 0.564, 'learning_rate': 1.8977698859444217e-05, 'epoch': 0.17}
 17%|█▋        | 1135/6640 [1:37:51<24:38:15, 16.11s/it] 17%|█▋        | 1136/6640 [1:38:07<24:44:57, 16.19s/it]                                                        {'loss': 0.5466, 'learning_rate': 1.8975549094175138e-05, 'epoch': 0.17}
 17%|█▋        | 1136/6640 [1:38:07<24:44:57, 16.19s/it] 17%|█▋        | 1137/6640 [1:38:23<24:42:36, 16.17s/it]                                                        {'loss': 0.5425, 'learning_rate': 1.8973397192966162e-05, 'epoch': 0.17}
 17%|█▋        | 1137/6640 [1:38:23<24:42:36, 16.17s/it] 17%|█▋        | 1138/6640 [1:38:39<24:25:00, 15.98s/it]                                                        {'loss': 0.5624, 'learning_rate': 1.897124315632938e-05, 'epoch': 0.17}
 17%|█▋        | 1138/6640 [1:38:39<24:25:00, 15.98s/it] 17%|█▋        | 1139/6640 [1:38:55<24:24:36, 15.97s/it]                                                        {'loss': 0.529, 'learning_rate': 1.8969086984777397e-05, 'epoch': 0.17}
 17%|█▋        | 1139/6640 [1:38:55<24:24:36, 15.97s/it] 17%|█▋        | 1140/6640 [1:39:11<24:26:34, 16.00s/it]                                                        {'loss': 0.5484, 'learning_rate': 1.8966928678823317e-05, 'epoch': 0.17}
 17%|█▋        | 1140/6640 [1:39:11<24:26:34, 16.00s/it] 17%|█▋        | 1141/6640 [1:39:27<24:50:05, 16.26s/it]                                                        {'loss': 0.5427, 'learning_rate': 1.8964768238980765e-05, 'epoch': 0.17}
 17%|█▋        | 1141/6640 [1:39:28<24:50:05, 16.26s/it] 17%|█▋        | 1142/6640 [1:39:44<24:58:36, 16.35s/it]                                                        {'loss': 0.5679, 'learning_rate': 1.8962605665763865e-05, 'epoch': 0.17}
 17%|█▋        | 1142/6640 [1:39:44<24:58:36, 16.35s/it] 17%|█▋        | 1143/6640 [1:39:59<24:30:47, 16.05s/it]                                                        {'loss': 0.542, 'learning_rate': 1.8960440959687254e-05, 'epoch': 0.17}
 17%|█▋        | 1143/6640 [1:39:59<24:30:47, 16.05s/it] 17%|█▋        | 1144/6640 [1:40:16<24:32:22, 16.07s/it]                                                        {'loss': 0.5667, 'learning_rate': 1.895827412126607e-05, 'epoch': 0.17}
 17%|█▋        | 1144/6640 [1:40:16<24:32:22, 16.07s/it] 17%|█▋        | 1145/6640 [1:40:32<24:28:45, 16.04s/it]                                                        {'loss': 0.5567, 'learning_rate': 1.8956105151015966e-05, 'epoch': 0.17}
 17%|█▋        | 1145/6640 [1:40:32<24:28:45, 16.04s/it] 17%|█▋        | 1146/6640 [1:40:48<24:43:29, 16.20s/it]                                                        {'loss': 0.569, 'learning_rate': 1.8953934049453102e-05, 'epoch': 0.17}
 17%|█▋        | 1146/6640 [1:40:48<24:43:29, 16.20s/it] 17%|█▋        | 1147/6640 [1:41:04<24:38:23, 16.15s/it]                                                        {'loss': 0.5343, 'learning_rate': 1.8951760817094135e-05, 'epoch': 0.17}
 17%|█▋        | 1147/6640 [1:41:04<24:38:23, 16.15s/it] 17%|█▋        | 1148/6640 [1:41:21<25:05:59, 16.45s/it]                                                        {'loss': 0.5717, 'learning_rate': 1.8949585454456234e-05, 'epoch': 0.17}
 17%|█▋        | 1148/6640 [1:41:21<25:05:59, 16.45s/it] 17%|█▋        | 1149/6640 [1:41:38<25:02:22, 16.42s/it]                                                        {'loss': 0.5486, 'learning_rate': 1.8947407962057087e-05, 'epoch': 0.17}
 17%|█▋        | 1149/6640 [1:41:38<25:02:22, 16.42s/it]5 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 17%|█▋        | 1150/6640 [1:41:54<24:49:20, 16.28s/it]                                                        {'loss': 0.5452, 'learning_rate': 1.894522834041487e-05, 'epoch': 0.17}
 17%|█▋        | 1150/6640 [1:41:54<24:49:20, 16.28s/it] 17%|█▋        | 1151/6640 [1:42:10<24:55:57, 16.35s/it]                                                        {'loss': 0.5455, 'learning_rate': 1.894304659004828e-05, 'epoch': 0.17}
 17%|█▋        | 1151/6640 [1:42:10<24:55:57, 16.35s/it] 17%|█▋        | 1152/6640 [1:42:27<25:17:59, 16.60s/it]                                                        {'loss': 0.5383, 'learning_rate': 1.8940862711476515e-05, 'epoch': 0.17}
 17%|█▋        | 1152/6640 [1:42:27<25:17:59, 16.60s/it] 17%|█▋        | 1153/6640 [1:42:43<25:06:42, 16.48s/it]                                                        {'loss': 0.5553, 'learning_rate': 1.8938676705219272e-05, 'epoch': 0.17}
 17%|█▋        | 1153/6640 [1:42:43<25:06:42, 16.48s/it] 17%|█▋        | 1154/6640 [1:43:00<25:03:34, 16.44s/it]                                                        {'loss': 0.5385, 'learning_rate': 1.8936488571796772e-05, 'epoch': 0.17}
 17%|█▋        | 1154/6640 [1:43:00<25:03:34, 16.44s/it] 17%|█▋        | 1155/6640 [1:43:16<25:09:39, 16.51s/it]                                                        {'loss': 0.5492, 'learning_rate': 1.8934298311729728e-05, 'epoch': 0.17}
 17%|█▋        | 1155/6640 [1:43:16<25:09:39, 16.51s/it] 17%|█▋        | 1156/6640 [1:43:33<25:14:56, 16.57s/it]                                                        {'loss': 0.5535, 'learning_rate': 1.8932105925539357e-05, 'epoch': 0.17}
 17%|█▋        | 1156/6640 [1:43:33<25:14:56, 16.57s/it] 17%|█▋        | 1157/6640 [1:43:50<25:25:11, 16.69s/it]                                                        {'loss': 0.5465, 'learning_rate': 1.8929911413747395e-05, 'epoch': 0.17}
 17%|█▋        | 1157/6640 [1:43:50<25:25:11, 16.69s/it] 17%|█▋        | 1158/6640 [1:44:06<25:14:12, 16.57s/it]                                                        {'loss': 0.5408, 'learning_rate': 1.8927714776876075e-05, 'epoch': 0.17}
 17%|█▋        | 1158/6640 [1:44:06<25:14:12, 16.57s/it] 17%|█▋        | 1159/6640 [1:44:22<24:56:46, 16.39s/it]                                                        {'loss': 0.5476, 'learning_rate': 1.8925516015448144e-05, 'epoch': 0.17}
 17%|█▋        | 1159/6640 [1:44:22<24:56:46, 16.39s/it] 17%|█▋        | 1160/6640 [1:44:39<24:57:44, 16.40s/it]                                                        {'loss': 0.5515, 'learning_rate': 1.8923315129986838e-05, 'epoch': 0.17}
 17%|█▋        | 1160/6640 [1:44:39<24:57:44, 16.40s/it] 17%|█▋        | 1161/6640 [1:44:54<24:34:05, 16.14s/it]                                                        {'loss': 0.5286, 'learning_rate': 1.8921112121015913e-05, 'epoch': 0.17}
 17%|█▋        | 1161/6640 [1:44:54<24:34:05, 16.14s/it] 18%|█▊        | 1162/6640 [1:45:10<24:31:25, 16.12s/it]                                                        {'loss': 0.5358, 'learning_rate': 1.8918906989059626e-05, 'epoch': 0.17}
 18%|█▊        | 1162/6640 [1:45:10<24:31:25, 16.12s/it] 18%|█▊        | 1163/6640 [1:45:27<24:37:57, 16.19s/it]                                                        {'loss': 0.5442, 'learning_rate': 1.891669973464274e-05, 'epoch': 0.18}
 18%|█▊        | 1163/6640 [1:45:27<24:37:57, 16.19s/it] 18%|█▊        | 1164/6640 [1:45:43<24:34:14, 16.15s/it]                                                        {'loss': 0.5595, 'learning_rate': 1.891449035829052e-05, 'epoch': 0.18}
 18%|█▊        | 1164/6640 [1:45:43<24:34:14, 16.15s/it] 18%|█▊        | 1165/6640 [1:46:00<24:48:10, 16.31s/it]                                                        {'loss': 0.5513, 'learning_rate': 1.8912278860528742e-05, 'epoch': 0.18}
 18%|█▊        | 1165/6640 [1:46:00<24:48:10, 16.31s/it] 18%|█▊        | 1166/6640 [1:46:15<24:27:14, 16.08s/it]                                                        {'loss': 0.5303, 'learning_rate': 1.891006524188368e-05, 'epoch': 0.18}
 18%|█▊        | 1166/6640 [1:46:15<24:27:14, 16.08s/it] 18%|█▊        | 1167/6640 [1:46:32<24:37:48, 16.20s/it]                                                        {'loss': 0.5536, 'learning_rate': 1.890784950288212e-05, 'epoch': 0.18}
 18%|█▊        | 1167/6640 [1:46:32<24:37:48, 16.20s/it] 18%|█▊        | 1168/6640 [1:46:48<24:42:03, 16.25s/it]                                                        {'loss': 0.5516, 'learning_rate': 1.890563164405134e-05, 'epoch': 0.18}
 18%|█▊        | 1168/6640 [1:46:48<24:42:03, 16.25s/it] 18%|█▊        | 1169/6640 [1:47:04<24:42:09, 16.25s/it]                                                        {'loss': 0.5487, 'learning_rate': 1.890341166591914e-05, 'epoch': 0.18}
 18%|█▊        | 1169/6640 [1:47:04<24:42:09, 16.25s/it] 18%|█▊        | 1170/6640 [1:47:20<24:21:58, 16.04s/it]                                                        {'loss': 0.536, 'learning_rate': 1.890118956901381e-05, 'epoch': 0.18}
 18%|█▊        | 1170/6640 [1:47:20<24:21:58, 16.04s/it] 18%|█▊        | 1171/6640 [1:47:38<25:25:04, 16.73s/it]                                                        {'loss': 0.5519, 'learning_rate': 1.8898965353864152e-05, 'epoch': 0.18}
 18%|█▊        | 1171/6640 [1:47:38<25:25:04, 16.73s/it] 18%|█▊        | 1172/6640 [1:47:54<25:08:25, 16.55s/it]                                                        {'loss': 0.56, 'learning_rate': 1.889673902099947e-05, 'epoch': 0.18}
 18%|█▊        | 1172/6640 [1:47:54<25:08:25, 16.55s/it] 18%|█▊        | 1173/6640 [1:48:11<25:05:54, 16.53s/it]                                                        {'loss': 0.5514, 'learning_rate': 1.8894510570949566e-05, 'epoch': 0.18}
 18%|█▊        | 1173/6640 [1:48:11<25:05:54, 16.53s/it] 18%|█▊        | 1174/6640 [1:48:26<24:45:24, 16.31s/it]                                                        {'loss': 0.5291, 'learning_rate': 1.8892280004244757e-05, 'epoch': 0.18}
 18%|█▊        | 1174/6640 [1:48:26<24:45:24, 16.31s/it] 18%|█▊        | 1175/6640 [1:48:43<24:47:04, 16.33s/it]                                                        {'loss': 0.5554, 'learning_rate': 1.8890047321415856e-05, 'epoch': 0.18}
 18%|█▊        | 1175/6640 [1:48:43<24:47:04, 16.33s/it] 18%|█▊        | 1176/6640 [1:48:59<24:40:29, 16.26s/it]                                                        {'loss': 0.5472, 'learning_rate': 1.8887812522994186e-05, 'epoch': 0.18}
 18%|█▊        | 1176/6640 [1:48:59<24:40:29, 16.26s/it] 18%|█▊        | 1177/6640 [1:49:15<24:23:33, 16.07s/it]                                                        {'loss': 0.5179, 'learning_rate': 1.888557560951156e-05, 'epoch': 0.18}
 18%|█▊        | 1177/6640 [1:49:15<24:23:33, 16.07s/it] 18%|█▊        | 1178/6640 [1:49:31<24:25:04, 16.09s/it]                                                        {'loss': 0.5756, 'learning_rate': 1.8883336581500313e-05, 'epoch': 0.18}
 18%|█▊        | 1178/6640 [1:49:31<24:25:04, 16.09s/it] 18%|█▊        | 1179/6640 [1:49:46<24:13:17, 15.97s/it]                                                        {'loss': 0.5444, 'learning_rate': 1.8881095439493268e-05, 'epoch': 0.18}
 18%|█▊        | 1179/6640 [1:49:46<24:13:17, 15.97s/it] 18%|█▊        | 1180/6640 [1:50:03<24:17:13, 16.01s/it]                                                        {'loss': 0.5567, 'learning_rate': 1.8878852184023754e-05, 'epoch': 0.18}
 18%|█▊        | 1180/6640 [1:50:03<24:17:13, 16.01s/it] 18%|█▊        | 1181/6640 [1:50:21<25:13:38, 16.64s/it]                                                        {'loss': 0.5411, 'learning_rate': 1.887660681562561e-05, 'epoch': 0.18}
 18%|█▊        | 1181/6640 [1:50:21<25:13:38, 16.64s/it] 18%|█▊        | 1182/6640 [1:50:37<25:07:17, 16.57s/it]                                                        {'loss': 0.5491, 'learning_rate': 1.8874359334833176e-05, 'epoch': 0.18}
 18%|█▊        | 1182/6640 [1:50:37<25:07:17, 16.57s/it] 18%|█▊        | 1183/6640 [1:50:53<24:54:42, 16.43s/it]                                                        {'loss': 0.545, 'learning_rate': 1.887210974218129e-05, 'epoch': 0.18}
 18%|█▊        | 1183/6640 [1:50:53<24:54:42, 16.43s/it] 18%|█▊        | 1184/6640 [1:51:10<25:06:54, 16.57s/it]                                                        {'loss': 0.5402, 'learning_rate': 1.886985803820529e-05, 'epoch': 0.18}
 18%|█▊        | 1184/6640 [1:51:10<25:06:54, 16.57s/it] 18%|█▊        | 1185/6640 [1:51:27<25:07:25, 16.58s/it]                                                        {'loss': 0.5532, 'learning_rate': 1.8867604223441027e-05, 'epoch': 0.18}
 18%|█▊        | 1185/6640 [1:51:27<25:07:25, 16.58s/it] 18%|█▊        | 1186/6640 [1:51:43<24:52:46, 16.42s/it]                                                        {'loss': 0.5599, 'learning_rate': 1.8865348298424844e-05, 'epoch': 0.18}
 18%|█▊        | 1186/6640 [1:51:43<24:52:46, 16.42s/it] 18%|█▊        | 1187/6640 [1:51:59<24:55:44, 16.46s/it]                                                        {'loss': 0.5327, 'learning_rate': 1.8863090263693596e-05, 'epoch': 0.18}
 18%|█▊        | 1187/6640 [1:51:59<24:55:44, 16.46s/it] 18%|█▊        | 1188/6640 [1:52:16<25:07:29, 16.59s/it]                                                        {'loss': 0.537, 'learning_rate': 1.886083011978463e-05, 'epoch': 0.18}
 18%|█▊        | 1188/6640 [1:52:16<25:07:29, 16.59s/it] 18%|█▊        | 1189/6640 [1:52:32<24:51:57, 16.42s/it]                                                        {'loss': 0.5462, 'learning_rate': 1.88585678672358e-05, 'epoch': 0.18}
 18%|█▊        | 1189/6640 [1:52:32<24:51:57, 16.42s/it] 18%|█▊        | 1190/6640 [1:52:49<25:05:34, 16.58s/it]                                                        {'loss': 0.5442, 'learning_rate': 1.885630350658546e-05, 'epoch': 0.18}
 18%|█▊        | 1190/6640 [1:52:49<25:05:34, 16.58s/it] 18%|█▊        | 1191/6640 [1:53:05<24:47:43, 16.38s/it]                                                        {'loss': 0.5277, 'learning_rate': 1.8854037038372477e-05, 'epoch': 0.18}
 18%|█▊        | 1191/6640 [1:53:05<24:47:43, 16.38s/it] 18%|█▊        | 1192/6640 [1:53:21<24:48:39, 16.39s/it]                                                        {'loss': 0.5467, 'learning_rate': 1.88517684631362e-05, 'epoch': 0.18}
 18%|█▊        | 1192/6640 [1:53:21<24:48:39, 16.39s/it] 18%|█▊        | 1193/6640 [1:53:37<24:35:49, 16.26s/it]                                                        {'loss': 0.5332, 'learning_rate': 1.8849497781416488e-05, 'epoch': 0.18}
 18%|█▊        | 1193/6640 [1:53:37<24:35:49, 16.26s/it] 18%|█▊        | 1194/6640 [1:53:54<24:35:21, 16.25s/it]                                                        {'loss': 0.5483, 'learning_rate': 1.884722499375371e-05, 'epoch': 0.18}
 18%|█▊        | 1194/6640 [1:53:54<24:35:21, 16.25s/it] 18%|█▊        | 1195/6640 [1:54:10<24:39:24, 16.30s/it]                                                        {'loss': 0.5552, 'learning_rate': 1.884495010068872e-05, 'epoch': 0.18}
 18%|█▊        | 1195/6640 [1:54:10<24:39:24, 16.30s/it] 18%|█▊        | 1196/6640 [1:54:26<24:36:27, 16.27s/it]                                                        {'loss': 0.5613, 'learning_rate': 1.884267310276289e-05, 'epoch': 0.18}
 18%|█▊        | 1196/6640 [1:54:26<24:36:27, 16.27s/it] 18%|█▊        | 1197/6640 [1:54:42<24:34:41, 16.26s/it]                                                        {'loss': 0.5604, 'learning_rate': 1.884039400051808e-05, 'epoch': 0.18}
 18%|█▊        | 1197/6640 [1:54:42<24:34:41, 16.26s/it] 18%|█▊        | 1198/6640 [1:54:59<24:45:04, 16.37s/it]                                                        {'loss': 0.5352, 'learning_rate': 1.883811279449665e-05, 'epoch': 0.18}
 18%|█▊        | 1198/6640 [1:54:59<24:45:04, 16.37s/it] 18%|█▊        | 1199/6640 [1:55:15<24:34:21, 16.26s/it]                                                        {'loss': 0.5376, 'learning_rate': 1.8835829485241475e-05, 'epoch': 0.18}
 18%|█▊        | 1199/6640 [1:55:15<24:34:21, 16.26s/it]7 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 18%|█▊        | 1200/6640 [1:55:31<24:19:23, 16.10s/it]                                                        {'loss': 0.5317, 'learning_rate': 1.8833544073295918e-05, 'epoch': 0.18}
 18%|█▊        | 1200/6640 [1:55:31<24:19:23, 16.10s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1200/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1200/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1200/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 18%|█▊        | 1201/6640 [1:57:53<81:22:28, 53.86s/it]                                                        {'loss': 0.5463, 'learning_rate': 1.8831256559203847e-05, 'epoch': 0.18}
 18%|█▊        | 1201/6640 [1:57:53<81:22:28, 53.86s/it] 18%|█▊        | 1202/6640 [1:58:09<64:20:24, 42.59s/it]                                                        {'loss': 0.5413, 'learning_rate': 1.8828966943509623e-05, 'epoch': 0.18}
 18%|█▊        | 1202/6640 [1:58:09<64:20:24, 42.59s/it] 18%|█▊        | 1203/6640 [1:58:26<52:42:04, 34.90s/it]                                                        {'loss': 0.5568, 'learning_rate': 1.882667522675812e-05, 'epoch': 0.18}
 18%|█▊        | 1203/6640 [1:58:26<52:42:04, 34.90s/it] 18%|█▊        | 1204/6640 [1:58:42<44:16:45, 29.32s/it]                                                        {'loss': 0.5661, 'learning_rate': 1.88243814094947e-05, 'epoch': 0.18}
 18%|█▊        | 1204/6640 [1:58:42<44:16:45, 29.32s/it] 18%|█▊        | 1205/6640 [1:58:58<38:02:28, 25.20s/it]                                                        {'loss': 0.559, 'learning_rate': 1.8822085492265235e-05, 'epoch': 0.18}
 18%|█▊        | 1205/6640 [1:58:58<38:02:28, 25.20s/it] 18%|█▊        | 1206/6640 [1:59:14<34:02:23, 22.55s/it]                                                        {'loss': 0.5517, 'learning_rate': 1.8819787475616088e-05, 'epoch': 0.18}
 18%|█▊        | 1206/6640 [1:59:14<34:02:23, 22.55s/it] 18%|█▊        | 1207/6640 [1:59:31<31:22:04, 20.78s/it]                                                        {'loss': 0.5607, 'learning_rate': 1.8817487360094128e-05, 'epoch': 0.18}
 18%|█▊        | 1207/6640 [1:59:31<31:22:04, 20.78s/it] 18%|█▊        | 1208/6640 [1:59:47<29:13:43, 19.37s/it]                                                        {'loss': 0.54, 'learning_rate': 1.8815185146246718e-05, 'epoch': 0.18}
 18%|█▊        | 1208/6640 [1:59:47<29:13:43, 19.37s/it] 18%|█▊        | 1209/6640 [2:00:03<27:48:11, 18.43s/it]                                                        {'loss': 0.5397, 'learning_rate': 1.8812880834621725e-05, 'epoch': 0.18}
 18%|█▊        | 1209/6640 [2:00:03<27:48:11, 18.43s/it] 18%|█▊        | 1210/6640 [2:00:19<26:36:49, 17.64s/it]                                                        {'loss': 0.548, 'learning_rate': 1.8810574425767512e-05, 'epoch': 0.18}
 18%|█▊        | 1210/6640 [2:00:19<26:36:49, 17.64s/it] 18%|█▊        | 1211/6640 [2:00:35<26:00:44, 17.25s/it]                                                        {'loss': 0.5531, 'learning_rate': 1.8808265920232943e-05, 'epoch': 0.18}
 18%|█▊        | 1211/6640 [2:00:35<26:00:44, 17.25s/it] 18%|█▊        | 1212/6640 [2:00:52<25:31:07, 16.92s/it]                                                        {'loss': 0.539, 'learning_rate': 1.880595531856738e-05, 'epoch': 0.18}
 18%|█▊        | 1212/6640 [2:00:52<25:31:07, 16.92s/it] 18%|█▊        | 1213/6640 [2:01:07<24:58:12, 16.56s/it]                                                        {'loss': 0.5631, 'learning_rate': 1.880364262132069e-05, 'epoch': 0.18}
 18%|█▊        | 1213/6640 [2:01:07<24:58:12, 16.56s/it] 18%|█▊        | 1214/6640 [2:01:26<25:59:25, 17.24s/it]                                                        {'loss': 0.5684, 'learning_rate': 1.880132782904322e-05, 'epoch': 0.18}
 18%|█▊        | 1214/6640 [2:01:26<25:59:25, 17.24s/it] 18%|█▊        | 1215/6640 [2:01:42<25:25:51, 16.88s/it]                                                        {'loss': 0.563, 'learning_rate': 1.879901094228584e-05, 'epoch': 0.18}
 18%|█▊        | 1215/6640 [2:01:42<25:25:51, 16.88s/it] 18%|█▊        | 1216/6640 [2:01:58<25:03:04, 16.63s/it]                                                        {'loss': 0.5733, 'learning_rate': 1.8796691961599904e-05, 'epoch': 0.18}
 18%|█▊        | 1216/6640 [2:01:58<25:03:04, 16.63s/it] 18%|█▊        | 1217/6640 [2:02:14<24:41:22, 16.39s/it]                                                        {'loss': 0.5601, 'learning_rate': 1.8794370887537265e-05, 'epoch': 0.18}
 18%|█▊        | 1217/6640 [2:02:14<24:41:22, 16.39s/it] 18%|█▊        | 1218/6640 [2:02:31<25:01:59, 16.62s/it]                                                        {'loss': 0.5695, 'learning_rate': 1.8792047720650276e-05, 'epoch': 0.18}
 18%|█▊        | 1218/6640 [2:02:31<25:01:59, 16.62s/it] 18%|█▊        | 1219/6640 [2:02:47<24:51:07, 16.50s/it]                                                        {'loss': 0.5528, 'learning_rate': 1.8789722461491794e-05, 'epoch': 0.18}
 18%|█▊        | 1219/6640 [2:02:47<24:51:07, 16.50s/it] 18%|█▊        | 1220/6640 [2:03:03<24:36:11, 16.34s/it]                                                        {'loss': 0.5562, 'learning_rate': 1.8787395110615163e-05, 'epoch': 0.18}
 18%|█▊        | 1220/6640 [2:03:03<24:36:11, 16.34s/it] 18%|█▊        | 1221/6640 [2:03:19<24:17:35, 16.14s/it]                                                        {'loss': 0.5369, 'learning_rate': 1.878506566857423e-05, 'epoch': 0.18}
 18%|█▊        | 1221/6640 [2:03:19<24:17:35, 16.14s/it] 18%|█▊        | 1222/6640 [2:03:35<24:07:41, 16.03s/it]                                                        {'loss': 0.5379, 'learning_rate': 1.878273413592334e-05, 'epoch': 0.18}
 18%|█▊        | 1222/6640 [2:03:35<24:07:41, 16.03s/it] 18%|█▊        | 1223/6640 [2:03:51<24:08:52, 16.05s/it]                                                        {'loss': 0.5497, 'learning_rate': 1.8780400513217338e-05, 'epoch': 0.18}
 18%|█▊        | 1223/6640 [2:03:51<24:08:52, 16.05s/it] 18%|█▊        | 1224/6640 [2:04:07<24:14:31, 16.11s/it]                                                        {'loss': 0.5297, 'learning_rate': 1.8778064801011564e-05, 'epoch': 0.18}
 18%|█▊        | 1224/6640 [2:04:07<24:14:31, 16.11s/it] 18%|█▊        | 1225/6640 [2:04:23<24:09:28, 16.06s/it]                                                        {'loss': 0.5507, 'learning_rate': 1.877572699986185e-05, 'epoch': 0.18}
 18%|█▊        | 1225/6640 [2:04:23<24:09:28, 16.06s/it] 18%|█▊        | 1226/6640 [2:04:39<24:10:47, 16.08s/it]                                                        {'loss': 0.5592, 'learning_rate': 1.8773387110324534e-05, 'epoch': 0.18}
 18%|█▊        | 1226/6640 [2:04:39<24:10:47, 16.08s/it] 18%|█▊        | 1227/6640 [2:04:56<24:23:07, 16.22s/it]                                                        {'loss': 0.5661, 'learning_rate': 1.8771045132956444e-05, 'epoch': 0.18}
 18%|█▊        | 1227/6640 [2:04:56<24:23:07, 16.22s/it] 18%|█▊        | 1228/6640 [2:05:12<24:28:07, 16.28s/it]                                                        {'loss': 0.5412, 'learning_rate': 1.876870106831491e-05, 'epoch': 0.18}
 18%|█▊        | 1228/6640 [2:05:12<24:28:07, 16.28s/it] 19%|█▊        | 1229/6640 [2:05:29<24:33:37, 16.34s/it]                                                        {'loss': 0.561, 'learning_rate': 1.8766354916957758e-05, 'epoch': 0.19}
 19%|█▊        | 1229/6640 [2:05:29<24:33:37, 16.34s/it] 19%|█▊        | 1230/6640 [2:05:45<24:23:01, 16.23s/it]                                                        {'loss': 0.5289, 'learning_rate': 1.8764006679443306e-05, 'epoch': 0.19}
 19%|█▊        | 1230/6640 [2:05:45<24:23:01, 16.23s/it] 19%|█▊        | 1231/6640 [2:06:02<24:39:24, 16.41s/it]                                                        {'loss': 0.5486, 'learning_rate': 1.876165635633037e-05, 'epoch': 0.19}
 19%|█▊        | 1231/6640 [2:06:02<24:39:24, 16.41s/it] 19%|█▊        | 1232/6640 [2:06:18<24:33:00, 16.34s/it]                                                        {'loss': 0.5538, 'learning_rate': 1.875930394817827e-05, 'epoch': 0.19}
 19%|█▊        | 1232/6640 [2:06:18<24:33:00, 16.34s/it] 19%|█▊        | 1233/6640 [2:06:34<24:43:42, 16.46s/it]                                                        {'loss': 0.5468, 'learning_rate': 1.875694945554681e-05, 'epoch': 0.19}
 19%|█▊        | 1233/6640 [2:06:34<24:43:42, 16.46s/it] 19%|█▊        | 1234/6640 [2:06:51<24:37:29, 16.40s/it]                                                        {'loss': 0.5491, 'learning_rate': 1.8754592878996298e-05, 'epoch': 0.19}
 19%|█▊        | 1234/6640 [2:06:51<24:37:29, 16.40s/it] 19%|█▊        | 1235/6640 [2:07:07<24:33:52, 16.36s/it]                                                        {'loss': 0.5534, 'learning_rate': 1.8752234219087538e-05, 'epoch': 0.19}
 19%|█▊        | 1235/6640 [2:07:07<24:33:52, 16.36s/it] 19%|█▊        | 1236/6640 [2:07:23<24:31:29, 16.34s/it]                                                        {'loss': 0.543, 'learning_rate': 1.8749873476381827e-05, 'epoch': 0.19}
 19%|█▊        | 1236/6640 [2:07:23<24:31:29, 16.34s/it] 19%|█▊        | 1237/6640 [2:07:40<24:49:42, 16.54s/it]                                                        {'loss': 0.5591, 'learning_rate': 1.8747510651440958e-05, 'epoch': 0.19}
 19%|█▊        | 1237/6640 [2:07:40<24:49:42, 16.54s/it] 19%|█▊        | 1238/6640 [2:07:56<24:31:31, 16.34s/it]                                                        {'loss': 0.541, 'learning_rate': 1.874514574482722e-05, 'epoch': 0.19}
 19%|█▊        | 1238/6640 [2:07:56<24:31:31, 16.34s/it] 19%|█▊        | 1239/6640 [2:08:13<24:34:04, 16.38s/it]                                                        {'loss': 0.5447, 'learning_rate': 1.8742778757103394e-05, 'epoch': 0.19}
 19%|█▊        | 1239/6640 [2:08:13<24:34:04, 16.38s/it] 19%|█▊        | 1240/6640 [2:08:29<24:24:03, 16.27s/it]                                                        {'loss': 0.5683, 'learning_rate': 1.8740409688832762e-05, 'epoch': 0.19}
 19%|█▊        | 1240/6640 [2:08:29<24:24:03, 16.27s/it] 19%|█▊        | 1241/6640 [2:08:45<24:22:46, 16.26s/it]                                                        {'loss': 0.5506, 'learning_rate': 1.8738038540579103e-05, 'epoch': 0.19}
 19%|█▊        | 1241/6640 [2:08:45<24:22:46, 16.26s/it] 19%|█▊        | 1242/6640 [2:09:02<24:48:15, 16.54s/it]                                                        {'loss': 0.5502, 'learning_rate': 1.8735665312906685e-05, 'epoch': 0.19}
 19%|█▊        | 1242/6640 [2:09:02<24:48:15, 16.54s/it] 19%|█▊        | 1243/6640 [2:09:18<24:43:53, 16.50s/it]                                                        {'loss': 0.5366, 'learning_rate': 1.8733290006380264e-05, 'epoch': 0.19}
 19%|█▊        | 1243/6640 [2:09:18<24:43:53, 16.50s/it] 19%|█▊        | 1244/6640 [2:09:34<24:14:36, 16.17s/it]                                                        {'loss': 0.5362, 'learning_rate': 1.873091262156511e-05, 'epoch': 0.19}
 19%|█▊        | 1244/6640 [2:09:34<24:14:36, 16.17s/it] 19%|█▉        | 1245/6640 [2:09:51<24:27:37, 16.32s/it]                                                        {'loss': 0.5465, 'learning_rate': 1.8728533159026972e-05, 'epoch': 0.19}
 19%|█▉        | 1245/6640 [2:09:51<24:27:37, 16.32s/it] 19%|█▉        | 1246/6640 [2:10:07<24:24:08, 16.29s/it]                                                        {'loss': 0.5326, 'learning_rate': 1.8726151619332097e-05, 'epoch': 0.19}
 19%|█▉        | 1246/6640 [2:10:07<24:24:08, 16.29s/it] 19%|█▉        | 1247/6640 [2:10:24<24:46:47, 16.54s/it]                                                        {'loss': 0.5429, 'learning_rate': 1.8723768003047233e-05, 'epoch': 0.19}
 19%|█▉        | 1247/6640 [2:10:24<24:46:47, 16.54s/it] 19%|█▉        | 1248/6640 [2:10:41<24:52:22, 16.61s/it]                                                        {'loss': 0.5719, 'learning_rate': 1.8721382310739608e-05, 'epoch': 0.19}
 19%|█▉        | 1248/6640 [2:10:41<24:52:22, 16.61s/it] 19%|█▉        | 1249/6640 [2:10:57<24:42:18, 16.50s/it]                                                        {'loss': 0.5781, 'learning_rate': 1.871899454297696e-05, 'epoch': 0.19}
 19%|█▉        | 1249/6640 [2:10:57<24:42:18, 16.50s/it]4 AutoResumeHook: Checking whether to suspend...5
 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
60 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
 19%|█▉        | 1250/6640 [2:11:12<24:08:58, 16.13s/it]                                                        {'loss': 0.5692, 'learning_rate': 1.8716604700327516e-05, 'epoch': 0.19}
 19%|█▉        | 1250/6640 [2:11:12<24:08:58, 16.13s/it] 19%|█▉        | 1251/6640 [2:11:28<24:10:02, 16.14s/it]                                                        {'loss': 0.555, 'learning_rate': 1.8714212783359984e-05, 'epoch': 0.19}
 19%|█▉        | 1251/6640 [2:11:28<24:10:02, 16.14s/it] 19%|█▉        | 1252/6640 [2:11:45<24:27:11, 16.34s/it]                                                        {'loss': 0.5692, 'learning_rate': 1.8711818792643585e-05, 'epoch': 0.19}
 19%|█▉        | 1252/6640 [2:11:45<24:27:11, 16.34s/it] 19%|█▉        | 1253/6640 [2:12:01<24:16:56, 16.23s/it]                                                        {'loss': 0.566, 'learning_rate': 1.870942272874802e-05, 'epoch': 0.19}
 19%|█▉        | 1253/6640 [2:12:01<24:16:56, 16.23s/it] 19%|█▉        | 1254/6640 [2:12:17<24:20:24, 16.27s/it]                                                        {'loss': 0.5671, 'learning_rate': 1.870702459224349e-05, 'epoch': 0.19}
 19%|█▉        | 1254/6640 [2:12:17<24:20:24, 16.27s/it] 19%|█▉        | 1255/6640 [2:12:34<24:16:23, 16.23s/it]                                                        {'loss': 0.5466, 'learning_rate': 1.8704624383700686e-05, 'epoch': 0.19}
 19%|█▉        | 1255/6640 [2:12:34<24:16:23, 16.23s/it] 19%|█▉        | 1256/6640 [2:12:50<24:21:05, 16.28s/it]                                                        {'loss': 0.5266, 'learning_rate': 1.8702222103690797e-05, 'epoch': 0.19}
 19%|█▉        | 1256/6640 [2:12:50<24:21:05, 16.28s/it] 19%|█▉        | 1257/6640 [2:13:06<24:09:28, 16.16s/it]                                                        {'loss': 0.567, 'learning_rate': 1.8699817752785495e-05, 'epoch': 0.19}
 19%|█▉        | 1257/6640 [2:13:06<24:09:28, 16.16s/it] 19%|█▉        | 1258/6640 [2:13:22<24:11:58, 16.19s/it]                                                        {'loss': 0.5277, 'learning_rate': 1.8697411331556958e-05, 'epoch': 0.19}
 19%|█▉        | 1258/6640 [2:13:22<24:11:58, 16.19s/it] 19%|█▉        | 1259/6640 [2:13:38<24:11:14, 16.18s/it]                                                        {'loss': 0.5549, 'learning_rate': 1.869500284057784e-05, 'epoch': 0.19}
 19%|█▉        | 1259/6640 [2:13:38<24:11:14, 16.18s/it] 19%|█▉        | 1260/6640 [2:13:54<24:08:22, 16.15s/it]                                                        {'loss': 0.563, 'learning_rate': 1.8692592280421305e-05, 'epoch': 0.19}
 19%|█▉        | 1260/6640 [2:13:54<24:08:22, 16.15s/it] 19%|█▉        | 1261/6640 [2:14:11<24:20:20, 16.29s/it]                                                        {'loss': 0.5523, 'learning_rate': 1.8690179651661002e-05, 'epoch': 0.19}
 19%|█▉        | 1261/6640 [2:14:11<24:20:20, 16.29s/it] 19%|█▉        | 1262/6640 [2:14:28<24:44:42, 16.56s/it]                                                        {'loss': 0.5632, 'learning_rate': 1.868776495487107e-05, 'epoch': 0.19}
 19%|█▉        | 1262/6640 [2:14:28<24:44:42, 16.56s/it] 19%|█▉        | 1263/6640 [2:14:44<24:26:58, 16.37s/it]                                                        {'loss': 0.5448, 'learning_rate': 1.868534819062614e-05, 'epoch': 0.19}
 19%|█▉        | 1263/6640 [2:14:44<24:26:58, 16.37s/it] 19%|█▉        | 1264/6640 [2:15:00<24:27:09, 16.37s/it]                                                        {'loss': 0.5354, 'learning_rate': 1.8682929359501338e-05, 'epoch': 0.19}
 19%|█▉        | 1264/6640 [2:15:00<24:27:09, 16.37s/it] 19%|█▉        | 1265/6640 [2:15:18<24:48:45, 16.62s/it]                                                        {'loss': 0.5565, 'learning_rate': 1.8680508462072282e-05, 'epoch': 0.19}
 19%|█▉        | 1265/6640 [2:15:18<24:48:45, 16.62s/it] 19%|█▉        | 1266/6640 [2:15:36<25:33:51, 17.13s/it]                                                        {'loss': 0.5699, 'learning_rate': 1.8678085498915083e-05, 'epoch': 0.19}
 19%|█▉        | 1266/6640 [2:15:36<25:33:51, 17.13s/it] 19%|█▉        | 1267/6640 [2:15:53<25:27:17, 17.06s/it]                                                        {'loss': 0.5431, 'learning_rate': 1.8675660470606337e-05, 'epoch': 0.19}
 19%|█▉        | 1267/6640 [2:15:53<25:27:17, 17.06s/it] 19%|█▉        | 1268/6640 [2:16:09<25:04:17, 16.80s/it]                                                        {'loss': 0.5309, 'learning_rate': 1.8673233377723138e-05, 'epoch': 0.19}
 19%|█▉        | 1268/6640 [2:16:09<25:04:17, 16.80s/it] 19%|█▉        | 1269/6640 [2:16:27<25:46:13, 17.27s/it]                                                        {'loss': 0.5305, 'learning_rate': 1.8670804220843063e-05, 'epoch': 0.19}
 19%|█▉        | 1269/6640 [2:16:27<25:46:13, 17.27s/it] 19%|█▉        | 1270/6640 [2:16:43<24:56:28, 16.72s/it]                                                        {'loss': 0.5546, 'learning_rate': 1.8668373000544197e-05, 'epoch': 0.19}
 19%|█▉        | 1270/6640 [2:16:43<24:56:28, 16.72s/it] 19%|█▉        | 1271/6640 [2:16:59<24:49:50, 16.65s/it]                                                        {'loss': 0.5473, 'learning_rate': 1.86659397174051e-05, 'epoch': 0.19}
 19%|█▉        | 1271/6640 [2:16:59<24:49:50, 16.65s/it] 19%|█▉        | 1272/6640 [2:17:15<24:20:41, 16.33s/it]                                                        {'loss': 0.5684, 'learning_rate': 1.8663504372004825e-05, 'epoch': 0.19}
 19%|█▉        | 1272/6640 [2:17:15<24:20:41, 16.33s/it] 19%|█▉        | 1273/6640 [2:17:31<24:24:15, 16.37s/it]                                                        {'loss': 0.5408, 'learning_rate': 1.8661066964922922e-05, 'epoch': 0.19}
 19%|█▉        | 1273/6640 [2:17:31<24:24:15, 16.37s/it] 19%|█▉        | 1274/6640 [2:17:47<23:56:56, 16.07s/it]                                                        {'loss': 0.5537, 'learning_rate': 1.865862749673943e-05, 'epoch': 0.19}
 19%|█▉        | 1274/6640 [2:17:47<23:56:56, 16.07s/it] 19%|█▉        | 1275/6640 [2:18:03<24:02:31, 16.13s/it]                                                        {'loss': 0.5648, 'learning_rate': 1.865618596803487e-05, 'epoch': 0.19}
 19%|█▉        | 1275/6640 [2:18:03<24:02:31, 16.13s/it] 19%|█▉        | 1276/6640 [2:18:20<24:16:18, 16.29s/it]                                                        {'loss': 0.5582, 'learning_rate': 1.8653742379390274e-05, 'epoch': 0.19}
 19%|█▉        | 1276/6640 [2:18:20<24:16:18, 16.29s/it] 19%|█▉        | 1277/6640 [2:18:36<24:06:28, 16.18s/it]                                                        {'loss': 0.5414, 'learning_rate': 1.8651296731387134e-05, 'epoch': 0.19}
 19%|█▉        | 1277/6640 [2:18:36<24:06:28, 16.18s/it] 19%|█▉        | 1278/6640 [2:18:51<23:53:43, 16.04s/it]                                                        {'loss': 0.5507, 'learning_rate': 1.864884902460746e-05, 'epoch': 0.19}
 19%|█▉        | 1278/6640 [2:18:51<23:53:43, 16.04s/it] 19%|█▉        | 1279/6640 [2:19:07<23:49:23, 16.00s/it]                                                        {'loss': 0.5302, 'learning_rate': 1.8646399259633737e-05, 'epoch': 0.19}
 19%|█▉        | 1279/6640 [2:19:07<23:49:23, 16.00s/it] 19%|█▉        | 1280/6640 [2:19:24<23:57:27, 16.09s/it]                                                        {'loss': 0.5484, 'learning_rate': 1.8643947437048944e-05, 'epoch': 0.19}
 19%|█▉        | 1280/6640 [2:19:24<23:57:27, 16.09s/it] 19%|█▉        | 1281/6640 [2:19:40<24:02:30, 16.15s/it]                                                        {'loss': 0.5545, 'learning_rate': 1.864149355743655e-05, 'epoch': 0.19}
 19%|█▉        | 1281/6640 [2:19:40<24:02:30, 16.15s/it] 19%|█▉        | 1282/6640 [2:19:56<23:57:14, 16.09s/it]                                                        {'loss': 0.5356, 'learning_rate': 1.8639037621380507e-05, 'epoch': 0.19}
 19%|█▉        | 1282/6640 [2:19:56<23:57:14, 16.09s/it] 19%|█▉        | 1283/6640 [2:20:12<23:58:56, 16.12s/it]                                                        {'loss': 0.5383, 'learning_rate': 1.8636579629465267e-05, 'epoch': 0.19}
 19%|█▉        | 1283/6640 [2:20:12<23:58:56, 16.12s/it] 19%|█▉        | 1284/6640 [2:20:28<24:00:55, 16.14s/it]                                                        {'loss': 0.5207, 'learning_rate': 1.8634119582275768e-05, 'epoch': 0.19}
 19%|█▉        | 1284/6640 [2:20:28<24:00:55, 16.14s/it] 19%|█▉        | 1285/6640 [2:20:44<23:42:59, 15.94s/it]                                                        {'loss': 0.5361, 'learning_rate': 1.863165748039743e-05, 'epoch': 0.19}
 19%|█▉        | 1285/6640 [2:20:44<23:42:59, 15.94s/it] 19%|█▉        | 1286/6640 [2:20:59<23:38:40, 15.90s/it]                                                        {'loss': 0.5525, 'learning_rate': 1.862919332441617e-05, 'epoch': 0.19}
 19%|█▉        | 1286/6640 [2:20:59<23:38:40, 15.90s/it] 19%|█▉        | 1287/6640 [2:21:16<23:42:47, 15.95s/it]                                                        {'loss': 0.5487, 'learning_rate': 1.862672711491839e-05, 'epoch': 0.19}
 19%|█▉        | 1287/6640 [2:21:16<23:42:47, 15.95s/it] 19%|█▉        | 1288/6640 [2:21:31<23:39:13, 15.91s/it]                                                        {'loss': 0.5513, 'learning_rate': 1.8624258852490983e-05, 'epoch': 0.19}
 19%|█▉        | 1288/6640 [2:21:31<23:39:13, 15.91s/it] 19%|█▉        | 1289/6640 [2:21:47<23:43:32, 15.96s/it]                                                        {'loss': 0.5582, 'learning_rate': 1.8621788537721325e-05, 'epoch': 0.19}
 19%|█▉        | 1289/6640 [2:21:47<23:43:32, 15.96s/it] 19%|█▉        | 1290/6640 [2:22:03<23:30:04, 15.81s/it]                                                        {'loss': 0.5476, 'learning_rate': 1.8619316171197292e-05, 'epoch': 0.19}
 19%|█▉        | 1290/6640 [2:22:03<23:30:04, 15.81s/it] 19%|█▉        | 1291/6640 [2:22:19<23:30:48, 15.83s/it]                                                        {'loss': 0.55, 'learning_rate': 1.8616841753507235e-05, 'epoch': 0.19}
 19%|█▉        | 1291/6640 [2:22:19<23:30:48, 15.83s/it] 19%|█▉        | 1292/6640 [2:22:35<23:33:11, 15.85s/it]                                                        {'loss': 0.5391, 'learning_rate': 1.8614365285240002e-05, 'epoch': 0.19}
 19%|█▉        | 1292/6640 [2:22:35<23:33:11, 15.85s/it] 19%|█▉        | 1293/6640 [2:22:51<23:51:12, 16.06s/it]                                                        {'loss': 0.5404, 'learning_rate': 1.8611886766984924e-05, 'epoch': 0.19}
 19%|█▉        | 1293/6640 [2:22:51<23:51:12, 16.06s/it] 19%|█▉        | 1294/6640 [2:23:07<23:50:29, 16.05s/it]                                                        {'loss': 0.533, 'learning_rate': 1.8609406199331825e-05, 'epoch': 0.19}
 19%|█▉        | 1294/6640 [2:23:07<23:50:29, 16.05s/it] 20%|█▉        | 1295/6640 [2:23:24<24:22:05, 16.41s/it]                                                        {'loss': 0.5318, 'learning_rate': 1.8606923582871007e-05, 'epoch': 0.2}
 20%|█▉        | 1295/6640 [2:23:24<24:22:05, 16.41s/it] 20%|█▉        | 1296/6640 [2:23:41<24:29:00, 16.49s/it]                                                        {'loss': 0.5653, 'learning_rate': 1.8604438918193274e-05, 'epoch': 0.2}
 20%|█▉        | 1296/6640 [2:23:41<24:29:00, 16.49s/it] 20%|█▉        | 1297/6640 [2:23:58<24:36:44, 16.58s/it]                                                        {'loss': 0.5446, 'learning_rate': 1.860195220588991e-05, 'epoch': 0.2}
 20%|█▉        | 1297/6640 [2:23:58<24:36:44, 16.58s/it] 20%|█▉        | 1298/6640 [2:24:15<24:36:59, 16.59s/it]                                                        {'loss': 0.5508, 'learning_rate': 1.8599463446552676e-05, 'epoch': 0.2}
 20%|█▉        | 1298/6640 [2:24:15<24:36:59, 16.59s/it] 20%|█▉        | 1299/6640 [2:24:31<24:31:00, 16.53s/it]                                                        {'loss': 0.5371, 'learning_rate': 1.859697264077384e-05, 'epoch': 0.2}
 20%|█▉        | 1299/6640 [2:24:31<24:31:00, 16.53s/it]7 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
 20%|█▉        | 1300/6640 [2:24:47<24:19:00, 16.39s/it]4 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5471, 'learning_rate': 1.859447978914614e-05, 'epoch': 0.2}
 20%|█▉        | 1300/6640 [2:24:47<24:19:00, 16.39s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1300/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1300/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1300/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 20%|█▉        | 1301/6640 [2:27:02<77:01:16, 51.93s/it]                                                        {'loss': 0.5471, 'learning_rate': 1.859198489226281e-05, 'epoch': 0.2}
 20%|█▉        | 1301/6640 [2:27:02<77:01:16, 51.93s/it] 20%|█▉        | 1302/6640 [2:27:18<61:14:08, 41.30s/it]                                                        {'loss': 0.5286, 'learning_rate': 1.858948795071757e-05, 'epoch': 0.2}
 20%|█▉        | 1302/6640 [2:27:18<61:14:08, 41.30s/it] 20%|█▉        | 1303/6640 [2:27:34<49:58:20, 33.71s/it]                                                        {'loss': 0.5496, 'learning_rate': 1.858698896510462e-05, 'epoch': 0.2}
 20%|█▉        | 1303/6640 [2:27:34<49:58:20, 33.71s/it] 20%|█▉        | 1304/6640 [2:27:50<42:06:09, 28.41s/it]                                                        {'loss': 0.5409, 'learning_rate': 1.8584487936018663e-05, 'epoch': 0.2}
 20%|█▉        | 1304/6640 [2:27:50<42:06:09, 28.41s/it] 20%|█▉        | 1305/6640 [2:28:06<36:23:49, 24.56s/it]                                                        {'loss': 0.5529, 'learning_rate': 1.8581984864054866e-05, 'epoch': 0.2}
 20%|█▉        | 1305/6640 [2:28:06<36:23:49, 24.56s/it] 20%|█▉        | 1306/6640 [2:28:22<32:41:42, 22.07s/it]                                                        {'loss': 0.539, 'learning_rate': 1.8579479749808896e-05, 'epoch': 0.2}
 20%|█▉        | 1306/6640 [2:28:22<32:41:42, 22.07s/it] 20%|█▉        | 1307/6640 [2:28:39<30:15:29, 20.43s/it]                                                        {'loss': 0.5456, 'learning_rate': 1.857697259387691e-05, 'epoch': 0.2}
 20%|█▉        | 1307/6640 [2:28:39<30:15:29, 20.43s/it] 20%|█▉        | 1308/6640 [2:28:56<28:43:49, 19.40s/it]                                                        {'loss': 0.5442, 'learning_rate': 1.857446339685553e-05, 'epoch': 0.2}
 20%|█▉        | 1308/6640 [2:28:56<28:43:49, 19.40s/it] 20%|█▉        | 1309/6640 [2:29:12<27:04:20, 18.28s/it]                                                        {'loss': 0.5459, 'learning_rate': 1.857195215934189e-05, 'epoch': 0.2}
 20%|█▉        | 1309/6640 [2:29:12<27:04:20, 18.28s/it] 20%|█▉        | 1310/6640 [2:29:27<26:01:29, 17.58s/it]                                                        {'loss': 0.5305, 'learning_rate': 1.8569438881933587e-05, 'epoch': 0.2}
 20%|█▉        | 1310/6640 [2:29:27<26:01:29, 17.58s/it] 20%|█▉        | 1311/6640 [2:29:43<25:13:16, 17.04s/it]                                                        {'loss': 0.5413, 'learning_rate': 1.856692356522872e-05, 'epoch': 0.2}
 20%|█▉        | 1311/6640 [2:29:43<25:13:16, 17.04s/it] 20%|█▉        | 1312/6640 [2:30:00<25:11:28, 17.02s/it]                                                        {'loss': 0.5373, 'learning_rate': 1.8564406209825868e-05, 'epoch': 0.2}
 20%|█▉        | 1312/6640 [2:30:00<25:11:28, 17.02s/it] 20%|█▉        | 1313/6640 [2:30:17<24:55:36, 16.85s/it]                                                        {'loss': 0.5521, 'learning_rate': 1.8561886816324094e-05, 'epoch': 0.2}
 20%|█▉        | 1313/6640 [2:30:17<24:55:36, 16.85s/it] 20%|█▉        | 1314/6640 [2:30:33<24:45:03, 16.73s/it]                                                        {'loss': 0.5422, 'learning_rate': 1.855936538532294e-05, 'epoch': 0.2}
 20%|█▉        | 1314/6640 [2:30:33<24:45:03, 16.73s/it] 20%|█▉        | 1315/6640 [2:30:49<24:24:43, 16.50s/it]                                                        {'loss': 0.5272, 'learning_rate': 1.8556841917422443e-05, 'epoch': 0.2}
 20%|█▉        | 1315/6640 [2:30:49<24:24:43, 16.50s/it] 20%|█▉        | 1316/6640 [2:31:06<24:26:33, 16.53s/it]                                                        {'loss': 0.5403, 'learning_rate': 1.8554316413223123e-05, 'epoch': 0.2}
 20%|█▉        | 1316/6640 [2:31:06<24:26:33, 16.53s/it] 20%|█▉        | 1317/6640 [2:31:22<24:12:17, 16.37s/it]                                                        {'loss': 0.5465, 'learning_rate': 1.8551788873325973e-05, 'epoch': 0.2}
 20%|█▉        | 1317/6640 [2:31:22<24:12:17, 16.37s/it] 20%|█▉        | 1318/6640 [2:31:39<24:31:11, 16.59s/it]                                                        {'loss': 0.54, 'learning_rate': 1.8549259298332495e-05, 'epoch': 0.2}
 20%|█▉        | 1318/6640 [2:31:39<24:31:11, 16.59s/it] 20%|█▉        | 1319/6640 [2:31:55<24:28:35, 16.56s/it]                                                        {'loss': 0.5379, 'learning_rate': 1.8546727688844645e-05, 'epoch': 0.2}
 20%|█▉        | 1319/6640 [2:31:55<24:28:35, 16.56s/it] 20%|█▉        | 1320/6640 [2:32:12<24:25:33, 16.53s/it]                                                        {'loss': 0.5516, 'learning_rate': 1.8544194045464888e-05, 'epoch': 0.2}
 20%|█▉        | 1320/6640 [2:32:12<24:25:33, 16.53s/it] 20%|█▉        | 1321/6640 [2:32:28<24:16:57, 16.44s/it]                                                        {'loss': 0.5255, 'learning_rate': 1.8541658368796157e-05, 'epoch': 0.2}
 20%|█▉        | 1321/6640 [2:32:28<24:16:57, 16.44s/it] 20%|█▉        | 1322/6640 [2:32:45<24:27:28, 16.56s/it]                                                        {'loss': 0.5374, 'learning_rate': 1.853912065944188e-05, 'epoch': 0.2}
 20%|█▉        | 1322/6640 [2:32:45<24:27:28, 16.56s/it] 20%|█▉        | 1323/6640 [2:33:02<24:42:34, 16.73s/it]                                                        {'loss': 0.5842, 'learning_rate': 1.853658091800596e-05, 'epoch': 0.2}
 20%|█▉        | 1323/6640 [2:33:02<24:42:34, 16.73s/it] 20%|█▉        | 1324/6640 [2:33:18<24:26:31, 16.55s/it]                                                        {'loss': 0.5762, 'learning_rate': 1.853403914509279e-05, 'epoch': 0.2}
 20%|█▉        | 1324/6640 [2:33:18<24:26:31, 16.55s/it] 20%|█▉        | 1325/6640 [2:33:35<24:30:39, 16.60s/it]                                                        {'loss': 0.5581, 'learning_rate': 1.853149534130724e-05, 'epoch': 0.2}
 20%|█▉        | 1325/6640 [2:33:35<24:30:39, 16.60s/it] 20%|█▉        | 1326/6640 [2:33:50<24:04:52, 16.31s/it]                                                        {'loss': 0.5643, 'learning_rate': 1.852894950725467e-05, 'epoch': 0.2}
 20%|█▉        | 1326/6640 [2:33:50<24:04:52, 16.31s/it] 20%|█▉        | 1327/6640 [2:34:06<23:46:20, 16.11s/it]                                                        {'loss': 0.5475, 'learning_rate': 1.8526401643540924e-05, 'epoch': 0.2}
 20%|█▉        | 1327/6640 [2:34:06<23:46:20, 16.11s/it] 20%|██        | 1328/6640 [2:34:22<23:40:25, 16.04s/it]                                                        {'loss': 0.5487, 'learning_rate': 1.8523851750772318e-05, 'epoch': 0.2}
 20%|██        | 1328/6640 [2:34:22<23:40:25, 16.04s/it] 20%|██        | 1329/6640 [2:34:38<23:35:56, 16.00s/it]                                                        {'loss': 0.5451, 'learning_rate': 1.852129982955566e-05, 'epoch': 0.2}
 20%|██        | 1329/6640 [2:34:38<23:35:56, 16.00s/it] 20%|██        | 1330/6640 [2:34:54<23:40:53, 16.06s/it]                                                        {'loss': 0.5449, 'learning_rate': 1.8518745880498242e-05, 'epoch': 0.2}
 20%|██        | 1330/6640 [2:34:54<23:40:53, 16.06s/it] 20%|██        | 1331/6640 [2:35:11<23:59:46, 16.27s/it]                                                        {'loss': 0.5688, 'learning_rate': 1.851618990420783e-05, 'epoch': 0.2}
 20%|██        | 1331/6640 [2:35:11<23:59:46, 16.27s/it] 20%|██        | 1332/6640 [2:35:29<24:39:26, 16.72s/it]                                                        {'loss': 0.5261, 'learning_rate': 1.8513631901292685e-05, 'epoch': 0.2}
 20%|██        | 1332/6640 [2:35:29<24:39:26, 16.72s/it] 20%|██        | 1333/6640 [2:35:45<24:33:18, 16.66s/it]                                                        {'loss': 0.5532, 'learning_rate': 1.8511071872361537e-05, 'epoch': 0.2}
 20%|██        | 1333/6640 [2:35:45<24:33:18, 16.66s/it] 20%|██        | 1334/6640 [2:36:01<24:22:24, 16.54s/it]                                                        {'loss': 0.5828, 'learning_rate': 1.850850981802361e-05, 'epoch': 0.2}
 20%|██        | 1334/6640 [2:36:01<24:22:24, 16.54s/it] 20%|██        | 1335/6640 [2:36:19<24:43:45, 16.78s/it]                                                        {'loss': 0.5577, 'learning_rate': 1.8505945738888593e-05, 'epoch': 0.2}
 20%|██        | 1335/6640 [2:36:19<24:43:45, 16.78s/it] 20%|██        | 1336/6640 [2:36:35<24:32:29, 16.66s/it]                                                        {'loss': 0.5558, 'learning_rate': 1.850337963556668e-05, 'epoch': 0.2}
 20%|██        | 1336/6640 [2:36:35<24:32:29, 16.66s/it] 20%|██        | 1337/6640 [2:36:52<24:27:21, 16.60s/it]                                                        {'loss': 0.54, 'learning_rate': 1.8500811508668534e-05, 'epoch': 0.2}
 20%|██        | 1337/6640 [2:36:52<24:27:21, 16.60s/it] 20%|██        | 1338/6640 [2:37:07<23:56:04, 16.25s/it]                                                        {'loss': 0.5332, 'learning_rate': 1.849824135880529e-05, 'epoch': 0.2}
 20%|██        | 1338/6640 [2:37:07<23:56:04, 16.25s/it] 20%|██        | 1339/6640 [2:37:23<23:46:49, 16.15s/it]                                                        {'loss': 0.5256, 'learning_rate': 1.8495669186588583e-05, 'epoch': 0.2}
 20%|██        | 1339/6640 [2:37:23<23:46:49, 16.15s/it] 20%|██        | 1340/6640 [2:37:40<24:01:49, 16.32s/it]                                                        {'loss': 0.5553, 'learning_rate': 1.849309499263052e-05, 'epoch': 0.2}
 20%|██        | 1340/6640 [2:37:40<24:01:49, 16.32s/it] 20%|██        | 1341/6640 [2:37:57<24:19:13, 16.52s/it]                                                        {'loss': 0.5603, 'learning_rate': 1.849051877754369e-05, 'epoch': 0.2}
 20%|██        | 1341/6640 [2:37:57<24:19:13, 16.52s/it] 20%|██        | 1342/6640 [2:38:13<24:20:23, 16.54s/it]                                                        {'loss': 0.5576, 'learning_rate': 1.8487940541941162e-05, 'epoch': 0.2}
 20%|██        | 1342/6640 [2:38:13<24:20:23, 16.54s/it] 20%|██        | 1343/6640 [2:38:30<24:29:16, 16.64s/it]                                                        {'loss': 0.551, 'learning_rate': 1.8485360286436488e-05, 'epoch': 0.2}
 20%|██        | 1343/6640 [2:38:30<24:29:16, 16.64s/it] 20%|██        | 1344/6640 [2:38:46<24:11:32, 16.44s/it]                                                        {'loss': 0.5238, 'learning_rate': 1.8482778011643696e-05, 'epoch': 0.2}
 20%|██        | 1344/6640 [2:38:46<24:11:32, 16.44s/it] 20%|██        | 1345/6640 [2:39:02<24:07:10, 16.40s/it]                                                        {'loss': 0.5407, 'learning_rate': 1.8480193718177305e-05, 'epoch': 0.2}
 20%|██        | 1345/6640 [2:39:02<24:07:10, 16.40s/it] 20%|██        | 1346/6640 [2:39:18<23:42:54, 16.13s/it]                                                        {'loss': 0.5524, 'learning_rate': 1.84776074066523e-05, 'epoch': 0.2}
 20%|██        | 1346/6640 [2:39:18<23:42:54, 16.13s/it] 20%|██        | 1347/6640 [2:39:34<23:51:50, 16.23s/it]                                                        {'loss': 0.5739, 'learning_rate': 1.8475019077684164e-05, 'epoch': 0.2}
 20%|██        | 1347/6640 [2:39:34<23:51:50, 16.23s/it] 20%|██        | 1348/6640 [2:39:50<23:51:21, 16.23s/it]                                                        {'loss': 0.5494, 'learning_rate': 1.8472428731888836e-05, 'epoch': 0.2}
 20%|██        | 1348/6640 [2:39:50<23:51:21, 16.23s/it] 20%|██        | 1349/6640 [2:40:07<24:05:28, 16.39s/it]                                                        {'loss': 0.5494, 'learning_rate': 1.846983636988276e-05, 'epoch': 0.2}
 20%|██        | 1349/6640 [2:40:07<24:05:28, 16.39s/it]4 AutoResumeHook: Checking whether to suspend...
60 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
 20%|██        | 1350/6640 [2:40:24<24:08:54, 16.43s/it]5 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5445, 'learning_rate': 1.8467241992282842e-05, 'epoch': 0.2}
 20%|██        | 1350/6640 [2:40:24<24:08:54, 16.43s/it] 20%|██        | 1351/6640 [2:40:41<24:41:52, 16.81s/it]                                                        {'loss': 0.5393, 'learning_rate': 1.8464645599706478e-05, 'epoch': 0.2}
 20%|██        | 1351/6640 [2:40:41<24:41:52, 16.81s/it] 20%|██        | 1352/6640 [2:40:58<24:27:04, 16.65s/it]                                                        {'loss': 0.5285, 'learning_rate': 1.846204719277154e-05, 'epoch': 0.2}
 20%|██        | 1352/6640 [2:40:58<24:27:04, 16.65s/it] 20%|██        | 1353/6640 [2:41:14<24:17:57, 16.55s/it]                                                        {'loss': 0.5729, 'learning_rate': 1.8459446772096377e-05, 'epoch': 0.2}
 20%|██        | 1353/6640 [2:41:14<24:17:57, 16.55s/it] 20%|██        | 1354/6640 [2:41:30<24:04:59, 16.40s/it]                                                        {'loss': 0.5551, 'learning_rate': 1.8456844338299822e-05, 'epoch': 0.2}
 20%|██        | 1354/6640 [2:41:30<24:04:59, 16.40s/it] 20%|██        | 1355/6640 [2:41:47<24:13:27, 16.50s/it]                                                        {'loss': 0.5479, 'learning_rate': 1.845423989200118e-05, 'epoch': 0.2}
 20%|██        | 1355/6640 [2:41:47<24:13:27, 16.50s/it] 20%|██        | 1356/6640 [2:42:03<24:10:02, 16.47s/it]                                                        {'loss': 0.5493, 'learning_rate': 1.845163343382024e-05, 'epoch': 0.2}
 20%|██        | 1356/6640 [2:42:03<24:10:02, 16.47s/it] 20%|██        | 1357/6640 [2:42:20<24:07:15, 16.44s/it]                                                        {'loss': 0.58, 'learning_rate': 1.8449024964377278e-05, 'epoch': 0.2}
 20%|██        | 1357/6640 [2:42:20<24:07:15, 16.44s/it] 20%|██        | 1358/6640 [2:42:36<24:00:29, 16.36s/it]                                                        {'loss': 0.5507, 'learning_rate': 1.844641448429303e-05, 'epoch': 0.2}
 20%|██        | 1358/6640 [2:42:36<24:00:29, 16.36s/it] 20%|██        | 1359/6640 [2:42:52<23:54:43, 16.30s/it]                                                        {'loss': 0.5345, 'learning_rate': 1.844380199418872e-05, 'epoch': 0.2}
 20%|██        | 1359/6640 [2:42:52<23:54:43, 16.30s/it] 20%|██        | 1360/6640 [2:43:07<23:32:34, 16.05s/it]                                                        {'loss': 0.5603, 'learning_rate': 1.8441187494686055e-05, 'epoch': 0.2}
 20%|██        | 1360/6640 [2:43:07<23:32:34, 16.05s/it] 20%|██        | 1361/6640 [2:43:23<23:19:35, 15.91s/it]                                                        {'loss': 0.5498, 'learning_rate': 1.8438570986407212e-05, 'epoch': 0.2}
 20%|██        | 1361/6640 [2:43:23<23:19:35, 15.91s/it] 21%|██        | 1362/6640 [2:43:39<23:25:14, 15.97s/it]                                                        {'loss': 0.5591, 'learning_rate': 1.8435952469974858e-05, 'epoch': 0.21}
 21%|██        | 1362/6640 [2:43:39<23:25:14, 15.97s/it] 21%|██        | 1363/6640 [2:43:56<23:42:44, 16.18s/it]                                                        {'loss': 0.5664, 'learning_rate': 1.8433331946012122e-05, 'epoch': 0.21}
 21%|██        | 1363/6640 [2:43:56<23:42:44, 16.18s/it] 21%|██        | 1364/6640 [2:44:12<23:50:33, 16.27s/it]                                                        {'loss': 0.5424, 'learning_rate': 1.843070941514262e-05, 'epoch': 0.21}
 21%|██        | 1364/6640 [2:44:12<23:50:33, 16.27s/it] 21%|██        | 1365/6640 [2:44:29<24:10:19, 16.50s/it]                                                        {'loss': 0.5378, 'learning_rate': 1.8428084877990443e-05, 'epoch': 0.21}
 21%|██        | 1365/6640 [2:44:29<24:10:19, 16.50s/it] 21%|██        | 1366/6640 [2:44:45<24:00:36, 16.39s/it]                                                        {'loss': 0.5344, 'learning_rate': 1.8425458335180163e-05, 'epoch': 0.21}
 21%|██        | 1366/6640 [2:44:45<24:00:36, 16.39s/it] 21%|██        | 1367/6640 [2:45:01<23:44:01, 16.20s/it]                                                        {'loss': 0.5521, 'learning_rate': 1.8422829787336825e-05, 'epoch': 0.21}
 21%|██        | 1367/6640 [2:45:01<23:44:01, 16.20s/it] 21%|██        | 1368/6640 [2:45:18<24:06:04, 16.46s/it]                                                        {'loss': 0.5485, 'learning_rate': 1.8420199235085952e-05, 'epoch': 0.21}
 21%|██        | 1368/6640 [2:45:18<24:06:04, 16.46s/it] 21%|██        | 1369/6640 [2:45:34<23:43:18, 16.20s/it]                                                        {'loss': 0.5599, 'learning_rate': 1.8417566679053546e-05, 'epoch': 0.21}
 21%|██        | 1369/6640 [2:45:34<23:43:18, 16.20s/it] 21%|██        | 1370/6640 [2:45:50<23:33:46, 16.10s/it]                                                        {'loss': 0.5248, 'learning_rate': 1.841493211986609e-05, 'epoch': 0.21}
 21%|██        | 1370/6640 [2:45:50<23:33:46, 16.10s/it] 21%|██        | 1371/6640 [2:46:06<23:37:36, 16.14s/it]                                                        {'loss': 0.5333, 'learning_rate': 1.8412295558150527e-05, 'epoch': 0.21}
 21%|██        | 1371/6640 [2:46:06<23:37:36, 16.14s/it] 21%|██        | 1372/6640 [2:46:23<24:00:15, 16.40s/it]                                                        {'loss': 0.5514, 'learning_rate': 1.8409656994534296e-05, 'epoch': 0.21}
 21%|██        | 1372/6640 [2:46:23<24:00:15, 16.40s/it] 21%|██        | 1373/6640 [2:46:39<23:56:44, 16.37s/it]                                                        {'loss': 0.5581, 'learning_rate': 1.8407016429645305e-05, 'epoch': 0.21}
 21%|██        | 1373/6640 [2:46:39<23:56:44, 16.37s/it] 21%|██        | 1374/6640 [2:46:55<23:43:40, 16.22s/it]                                                        {'loss': 0.5468, 'learning_rate': 1.840437386411193e-05, 'epoch': 0.21}
 21%|██        | 1374/6640 [2:46:55<23:43:40, 16.22s/it]/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/model/llava_arch.py:397: UserWarning: Inputs truncated!
  warnings.warn("Inputs truncated!")
 21%|██        | 1375/6640 [2:47:11<23:39:43, 16.18s/it]                                                        {'loss': 0.552, 'learning_rate': 1.840172929856304e-05, 'epoch': 0.21}
 21%|██        | 1375/6640 [2:47:11<23:39:43, 16.18s/it] 21%|██        | 1376/6640 [2:47:27<23:35:55, 16.14s/it]                                                        {'loss': 0.5382, 'learning_rate': 1.8399082733627967e-05, 'epoch': 0.21}
 21%|██        | 1376/6640 [2:47:27<23:35:55, 16.14s/it] 21%|██        | 1377/6640 [2:47:43<23:37:45, 16.16s/it]                                                        {'loss': 0.544, 'learning_rate': 1.839643416993652e-05, 'epoch': 0.21}
 21%|██        | 1377/6640 [2:47:43<23:37:45, 16.16s/it] 21%|██        | 1378/6640 [2:47:59<23:21:55, 15.99s/it]                                                        {'loss': 0.5441, 'learning_rate': 1.839378360811899e-05, 'epoch': 0.21}
 21%|██        | 1378/6640 [2:47:59<23:21:55, 15.99s/it] 21%|██        | 1379/6640 [2:48:15<23:26:09, 16.04s/it]                                                        {'loss': 0.5342, 'learning_rate': 1.8391131048806136e-05, 'epoch': 0.21}
 21%|██        | 1379/6640 [2:48:15<23:26:09, 16.04s/it] 21%|██        | 1380/6640 [2:48:32<23:47:43, 16.29s/it]                                                        {'loss': 0.5591, 'learning_rate': 1.8388476492629198e-05, 'epoch': 0.21}
 21%|██        | 1380/6640 [2:48:32<23:47:43, 16.29s/it] 21%|██        | 1381/6640 [2:48:49<23:53:26, 16.35s/it]                                                        {'loss': 0.5344, 'learning_rate': 1.8385819940219888e-05, 'epoch': 0.21}
 21%|██        | 1381/6640 [2:48:49<23:53:26, 16.35s/it] 21%|██        | 1382/6640 [2:49:05<23:50:16, 16.32s/it]                                                        {'loss': 0.535, 'learning_rate': 1.8383161392210397e-05, 'epoch': 0.21}
 21%|██        | 1382/6640 [2:49:05<23:50:16, 16.32s/it] 21%|██        | 1383/6640 [2:49:21<23:58:55, 16.42s/it]                                                        {'loss': 0.5564, 'learning_rate': 1.8380500849233388e-05, 'epoch': 0.21}
 21%|██        | 1383/6640 [2:49:21<23:58:55, 16.42s/it] 21%|██        | 1384/6640 [2:49:37<23:37:29, 16.18s/it]                                                        {'loss': 0.5337, 'learning_rate': 1.8377838311921993e-05, 'epoch': 0.21}
 21%|██        | 1384/6640 [2:49:37<23:37:29, 16.18s/it] 21%|██        | 1385/6640 [2:49:53<23:41:10, 16.23s/it]                                                        {'loss': 0.5556, 'learning_rate': 1.837517378090983e-05, 'epoch': 0.21}
 21%|██        | 1385/6640 [2:49:53<23:41:10, 16.23s/it] 21%|██        | 1386/6640 [2:50:10<23:39:03, 16.21s/it]                                                        {'loss': 0.5336, 'learning_rate': 1.8372507256830984e-05, 'epoch': 0.21}
 21%|██        | 1386/6640 [2:50:10<23:39:03, 16.21s/it] 21%|██        | 1387/6640 [2:50:26<23:50:57, 16.34s/it]                                                        {'loss': 0.5376, 'learning_rate': 1.8369838740320015e-05, 'epoch': 0.21}
 21%|██        | 1387/6640 [2:50:26<23:50:57, 16.34s/it] 21%|██        | 1388/6640 [2:50:42<23:41:53, 16.24s/it]                                                        {'loss': 0.5316, 'learning_rate': 1.8367168232011962e-05, 'epoch': 0.21}
 21%|██        | 1388/6640 [2:50:42<23:41:53, 16.24s/it] 21%|██        | 1389/6640 [2:50:59<23:42:37, 16.26s/it]                                                        {'loss': 0.526, 'learning_rate': 1.8364495732542333e-05, 'epoch': 0.21}
 21%|██        | 1389/6640 [2:50:59<23:42:37, 16.26s/it] 21%|██        | 1390/6640 [2:51:14<23:19:26, 15.99s/it]                                                        {'loss': 0.5601, 'learning_rate': 1.836182124254711e-05, 'epoch': 0.21}
 21%|██        | 1390/6640 [2:51:14<23:19:26, 15.99s/it] 21%|██        | 1391/6640 [2:51:31<23:38:58, 16.22s/it]                                                        {'loss': 0.5456, 'learning_rate': 1.8359144762662752e-05, 'epoch': 0.21}
 21%|██        | 1391/6640 [2:51:31<23:38:58, 16.22s/it] 21%|██        | 1392/6640 [2:51:48<23:55:28, 16.41s/it]                                                        {'loss': 0.5093, 'learning_rate': 1.8356466293526183e-05, 'epoch': 0.21}
 21%|██        | 1392/6640 [2:51:48<23:55:28, 16.41s/it] 21%|██        | 1393/6640 [2:52:03<23:42:58, 16.27s/it]                                                        {'loss': 0.5529, 'learning_rate': 1.8353785835774815e-05, 'epoch': 0.21}
 21%|██        | 1393/6640 [2:52:03<23:42:58, 16.27s/it] 21%|██        | 1394/6640 [2:52:20<24:00:08, 16.47s/it]                                                        {'loss': 0.5496, 'learning_rate': 1.835110339004652e-05, 'epoch': 0.21}
 21%|██        | 1394/6640 [2:52:20<24:00:08, 16.47s/it] 21%|██        | 1395/6640 [2:52:37<24:06:45, 16.55s/it]                                                        {'loss': 0.5581, 'learning_rate': 1.834841895697965e-05, 'epoch': 0.21}
 21%|██        | 1395/6640 [2:52:37<24:06:45, 16.55s/it] 21%|██        | 1396/6640 [2:52:53<23:51:42, 16.38s/it]                                                        {'loss': 0.5381, 'learning_rate': 1.834573253721303e-05, 'epoch': 0.21}
 21%|██        | 1396/6640 [2:52:53<23:51:42, 16.38s/it] 21%|██        | 1397/6640 [2:53:09<23:47:34, 16.34s/it]                                                        {'loss': 0.551, 'learning_rate': 1.834304413138595e-05, 'epoch': 0.21}
 21%|██        | 1397/6640 [2:53:09<23:47:34, 16.34s/it] 21%|██        | 1398/6640 [2:53:25<23:37:33, 16.23s/it]                                                        {'loss': 0.5402, 'learning_rate': 1.8340353740138185e-05, 'epoch': 0.21}
 21%|██        | 1398/6640 [2:53:25<23:37:33, 16.23s/it] 21%|██        | 1399/6640 [2:53:41<23:26:21, 16.10s/it]                                                        {'loss': 0.5443, 'learning_rate': 1.8337661364109973e-05, 'epoch': 0.21}
 21%|██        | 1399/6640 [2:53:41<23:26:21, 16.10s/it]4 AutoResumeHook: Checking whether to suspend...
5 7AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
30 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 21%|██        | 1400/6640 [2:53:58<23:43:04, 16.29s/it]2 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5354, 'learning_rate': 1.833496700394202e-05, 'epoch': 0.21}
 21%|██        | 1400/6640 [2:53:58<23:43:04, 16.29s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1400/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1400/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1400/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 21%|██        | 1401/6640 [2:56:18<77:57:00, 53.56s/it]                                                        {'loss': 0.5473, 'learning_rate': 1.833227066027553e-05, 'epoch': 0.21}
 21%|██        | 1401/6640 [2:56:18<77:57:00, 53.56s/it] 21%|██        | 1402/6640 [2:56:35<61:35:58, 42.34s/it]                                                        {'loss': 0.5437, 'learning_rate': 1.8329572333752138e-05, 'epoch': 0.21}
 21%|██        | 1402/6640 [2:56:35<61:35:58, 42.34s/it] 21%|██        | 1403/6640 [2:56:51<50:17:17, 34.57s/it]                                                        {'loss': 0.5386, 'learning_rate': 1.8326872025013993e-05, 'epoch': 0.21}
 21%|██        | 1403/6640 [2:56:51<50:17:17, 34.57s/it] 21%|██        | 1404/6640 [2:57:07<42:07:16, 28.96s/it]                                                        {'loss': 0.5397, 'learning_rate': 1.832416973470368e-05, 'epoch': 0.21}
 21%|██        | 1404/6640 [2:57:07<42:07:16, 28.96s/it] 21%|██        | 1405/6640 [2:57:22<36:14:10, 24.92s/it]                                                        {'loss': 0.5438, 'learning_rate': 1.8321465463464287e-05, 'epoch': 0.21}
 21%|██        | 1405/6640 [2:57:22<36:14:10, 24.92s/it] 21%|██        | 1406/6640 [2:57:40<33:07:39, 22.79s/it]                                                        {'loss': 0.5166, 'learning_rate': 1.831875921193935e-05, 'epoch': 0.21}
 21%|██        | 1406/6640 [2:57:40<33:07:39, 22.79s/it] 21%|██        | 1407/6640 [2:57:57<30:23:59, 20.91s/it]                                                        {'loss': 0.5431, 'learning_rate': 1.831605098077288e-05, 'epoch': 0.21}
 21%|██        | 1407/6640 [2:57:57<30:23:59, 20.91s/it] 21%|██        | 1408/6640 [2:58:14<28:43:20, 19.76s/it]                                                        {'loss': 0.5441, 'learning_rate': 1.8313340770609368e-05, 'epoch': 0.21}
 21%|██        | 1408/6640 [2:58:14<28:43:20, 19.76s/it] 21%|██        | 1409/6640 [2:58:31<27:33:49, 18.97s/it]                                                        {'loss': 0.5629, 'learning_rate': 1.831062858209377e-05, 'epoch': 0.21}
 21%|██        | 1409/6640 [2:58:31<27:33:49, 18.97s/it] 21%|██        | 1410/6640 [2:58:47<26:19:56, 18.13s/it]                                                        {'loss': 0.5599, 'learning_rate': 1.8307914415871516e-05, 'epoch': 0.21}
 21%|██        | 1410/6640 [2:58:47<26:19:56, 18.13s/it] 21%|██▏       | 1411/6640 [2:59:05<26:04:26, 17.95s/it]                                                        {'loss': 0.5298, 'learning_rate': 1.8305198272588508e-05, 'epoch': 0.21}
 21%|██▏       | 1411/6640 [2:59:05<26:04:26, 17.95s/it] 21%|██▏       | 1412/6640 [2:59:21<25:30:28, 17.56s/it]                                                        {'loss': 0.563, 'learning_rate': 1.8302480152891105e-05, 'epoch': 0.21}
 21%|██▏       | 1412/6640 [2:59:21<25:30:28, 17.56s/it] 21%|██▏       | 1413/6640 [2:59:37<24:51:01, 17.12s/it]                                                        {'loss': 0.5519, 'learning_rate': 1.829976005742616e-05, 'epoch': 0.21}
 21%|██▏       | 1413/6640 [2:59:37<24:51:01, 17.12s/it] 21%|██▏       | 1414/6640 [2:59:54<24:30:17, 16.88s/it]                                                        {'loss': 0.5583, 'learning_rate': 1.829703798684097e-05, 'epoch': 0.21}
 21%|██▏       | 1414/6640 [2:59:54<24:30:17, 16.88s/it] 21%|██▏       | 1415/6640 [3:00:10<24:25:01, 16.82s/it]                                                        {'loss': 0.5446, 'learning_rate': 1.829431394178332e-05, 'epoch': 0.21}
 21%|██▏       | 1415/6640 [3:00:10<24:25:01, 16.82s/it] 21%|██▏       | 1416/6640 [3:00:27<24:30:59, 16.90s/it]                                                        {'loss': 0.5507, 'learning_rate': 1.8291587922901462e-05, 'epoch': 0.21}
 21%|██▏       | 1416/6640 [3:00:27<24:30:59, 16.90s/it] 21%|██▏       | 1417/6640 [3:00:43<24:04:38, 16.60s/it]                                                        {'loss': 0.5499, 'learning_rate': 1.8288859930844115e-05, 'epoch': 0.21}
 21%|██▏       | 1417/6640 [3:00:43<24:04:38, 16.60s/it] 21%|██▏       | 1418/6640 [3:00:59<23:49:59, 16.43s/it]                                                        {'loss': 0.5508, 'learning_rate': 1.828612996626046e-05, 'epoch': 0.21}
 21%|██▏       | 1418/6640 [3:00:59<23:49:59, 16.43s/it] 21%|██▏       | 1419/6640 [3:01:16<23:53:47, 16.48s/it]                                                        {'loss': 0.5546, 'learning_rate': 1.8283398029800167e-05, 'epoch': 0.21}
 21%|██▏       | 1419/6640 [3:01:16<23:53:47, 16.48s/it] 21%|██▏       | 1420/6640 [3:01:32<23:31:22, 16.22s/it]                                                        {'loss': 0.55, 'learning_rate': 1.8280664122113356e-05, 'epoch': 0.21}
 21%|██▏       | 1420/6640 [3:01:32<23:31:22, 16.22s/it] 21%|██▏       | 1421/6640 [3:01:48<23:40:18, 16.33s/it]                                                        {'loss': 0.5414, 'learning_rate': 1.8277928243850628e-05, 'epoch': 0.21}
 21%|██▏       | 1421/6640 [3:01:48<23:40:18, 16.33s/it] 21%|██▏       | 1422/6640 [3:02:06<24:16:18, 16.75s/it]                                                        {'loss': 0.5406, 'learning_rate': 1.8275190395663042e-05, 'epoch': 0.21}
 21%|██▏       | 1422/6640 [3:02:06<24:16:18, 16.75s/it] 21%|██▏       | 1423/6640 [3:02:22<23:55:47, 16.51s/it]                                                        {'loss': 0.538, 'learning_rate': 1.827245057820214e-05, 'epoch': 0.21}
 21%|██▏       | 1423/6640 [3:02:22<23:55:47, 16.51s/it] 21%|██▏       | 1424/6640 [3:02:38<23:49:17, 16.44s/it]                                                        {'loss': 0.5468, 'learning_rate': 1.826970879211992e-05, 'epoch': 0.21}
 21%|██▏       | 1424/6640 [3:02:38<23:49:17, 16.44s/it] 21%|██▏       | 1425/6640 [3:02:56<24:25:22, 16.86s/it]                                                        {'loss': 0.5619, 'learning_rate': 1.8266965038068856e-05, 'epoch': 0.21}
 21%|██▏       | 1425/6640 [3:02:56<24:25:22, 16.86s/it] 21%|██▏       | 1426/6640 [3:03:12<24:02:20, 16.60s/it]                                                        {'loss': 0.5421, 'learning_rate': 1.826421931670189e-05, 'epoch': 0.21}
 21%|██▏       | 1426/6640 [3:03:12<24:02:20, 16.60s/it] 21%|██▏       | 1427/6640 [3:03:28<23:53:45, 16.50s/it]                                                        {'loss': 0.546, 'learning_rate': 1.8261471628672426e-05, 'epoch': 0.21}
 21%|██▏       | 1427/6640 [3:03:28<23:53:45, 16.50s/it] 22%|██▏       | 1428/6640 [3:03:44<23:45:06, 16.41s/it]                                                        {'loss': 0.5343, 'learning_rate': 1.825872197463434e-05, 'epoch': 0.22}
 22%|██▏       | 1428/6640 [3:03:44<23:45:06, 16.41s/it] 22%|██▏       | 1429/6640 [3:04:01<23:55:47, 16.53s/it]                                                        {'loss': 0.5442, 'learning_rate': 1.825597035524198e-05, 'epoch': 0.22}
 22%|██▏       | 1429/6640 [3:04:01<23:55:47, 16.53s/it] 22%|██▏       | 1430/6640 [3:04:17<23:33:15, 16.28s/it]                                                        {'loss': 0.5226, 'learning_rate': 1.8253216771150153e-05, 'epoch': 0.22}
 22%|██▏       | 1430/6640 [3:04:17<23:33:15, 16.28s/it] 22%|██▏       | 1431/6640 [3:04:33<23:38:18, 16.34s/it]                                                        {'loss': 0.5642, 'learning_rate': 1.825046122301414e-05, 'epoch': 0.22}
 22%|██▏       | 1431/6640 [3:04:33<23:38:18, 16.34s/it] 22%|██▏       | 1432/6640 [3:04:50<23:35:36, 16.31s/it]                                                        {'loss': 0.5289, 'learning_rate': 1.8247703711489684e-05, 'epoch': 0.22}
 22%|██▏       | 1432/6640 [3:04:50<23:35:36, 16.31s/it] 22%|██▏       | 1433/6640 [3:05:06<23:45:11, 16.42s/it]                                                        {'loss': 0.5289, 'learning_rate': 1.824494423723301e-05, 'epoch': 0.22}
 22%|██▏       | 1433/6640 [3:05:06<23:45:11, 16.42s/it] 22%|██▏       | 1434/6640 [3:05:22<23:21:51, 16.16s/it]                                                        {'loss': 0.5532, 'learning_rate': 1.8242182800900786e-05, 'epoch': 0.22}
 22%|██▏       | 1434/6640 [3:05:22<23:21:51, 16.16s/it] 22%|██▏       | 1435/6640 [3:05:37<23:06:07, 15.98s/it]                                                        {'loss': 0.5459, 'learning_rate': 1.823941940315017e-05, 'epoch': 0.22}
 22%|██▏       | 1435/6640 [3:05:37<23:06:07, 15.98s/it] 22%|██▏       | 1436/6640 [3:05:53<22:57:29, 15.88s/it]                                                        {'loss': 0.557, 'learning_rate': 1.8236654044638764e-05, 'epoch': 0.22}
 22%|██▏       | 1436/6640 [3:05:53<22:57:29, 15.88s/it] 22%|██▏       | 1437/6640 [3:06:10<23:20:22, 16.15s/it]                                                        {'loss': 0.5471, 'learning_rate': 1.823388672602466e-05, 'epoch': 0.22}
 22%|██▏       | 1437/6640 [3:06:10<23:20:22, 16.15s/it] 22%|██▏       | 1438/6640 [3:06:26<23:21:37, 16.17s/it]                                                        {'loss': 0.5583, 'learning_rate': 1.8231117447966404e-05, 'epoch': 0.22}
 22%|██▏       | 1438/6640 [3:06:26<23:21:37, 16.17s/it] 22%|██▏       | 1439/6640 [3:06:43<23:41:25, 16.40s/it]                                                        {'loss': 0.552, 'learning_rate': 1.8228346211123e-05, 'epoch': 0.22}
 22%|██▏       | 1439/6640 [3:06:43<23:41:25, 16.40s/it] 22%|██▏       | 1440/6640 [3:06:59<23:36:33, 16.34s/it]                                                        {'loss': 0.5416, 'learning_rate': 1.8225573016153945e-05, 'epoch': 0.22}
 22%|██▏       | 1440/6640 [3:06:59<23:36:33, 16.34s/it] 22%|██▏       | 1441/6640 [3:07:15<23:18:24, 16.14s/it]                                                        {'loss': 0.5452, 'learning_rate': 1.8222797863719174e-05, 'epoch': 0.22}
 22%|██▏       | 1441/6640 [3:07:15<23:18:24, 16.14s/it] 22%|██▏       | 1442/6640 [3:07:31<23:22:30, 16.19s/it]                                                        {'loss': 0.5338, 'learning_rate': 1.8220020754479104e-05, 'epoch': 0.22}
 22%|██▏       | 1442/6640 [3:07:31<23:22:30, 16.19s/it] 22%|██▏       | 1443/6640 [3:07:48<23:46:25, 16.47s/it]                                                        {'loss': 0.5527, 'learning_rate': 1.8217241689094602e-05, 'epoch': 0.22}
 22%|██▏       | 1443/6640 [3:07:48<23:46:25, 16.47s/it] 22%|██▏       | 1444/6640 [3:08:04<23:37:48, 16.37s/it]                                                        {'loss': 0.5579, 'learning_rate': 1.8214460668227023e-05, 'epoch': 0.22}
 22%|██▏       | 1444/6640 [3:08:04<23:37:48, 16.37s/it] 22%|██▏       | 1445/6640 [3:08:21<23:39:09, 16.39s/it]                                                        {'loss': 0.5284, 'learning_rate': 1.821167769253817e-05, 'epoch': 0.22}
 22%|██▏       | 1445/6640 [3:08:21<23:39:09, 16.39s/it] 22%|██▏       | 1446/6640 [3:08:38<23:45:30, 16.47s/it]                                                        {'loss': 0.5411, 'learning_rate': 1.820889276269032e-05, 'epoch': 0.22}
 22%|██▏       | 1446/6640 [3:08:38<23:45:30, 16.47s/it] 22%|██▏       | 1447/6640 [3:08:55<23:58:44, 16.62s/it]                                                        {'loss': 0.5368, 'learning_rate': 1.8206105879346203e-05, 'epoch': 0.22}
 22%|██▏       | 1447/6640 [3:08:55<23:58:44, 16.62s/it] 22%|██▏       | 1448/6640 [3:09:11<24:00:57, 16.65s/it]                                                        {'loss': 0.5388, 'learning_rate': 1.820331704316903e-05, 'epoch': 0.22}
 22%|██▏       | 1448/6640 [3:09:11<24:00:57, 16.65s/it] 22%|██▏       | 1449/6640 [3:09:28<23:52:41, 16.56s/it]                                                        {'loss': 0.5468, 'learning_rate': 1.820052625482247e-05, 'epoch': 0.22}
 22%|██▏       | 1449/6640 [3:09:28<23:52:41, 16.56s/it]0 2 AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
 22%|██▏       | 1450/6640 [3:09:43<23:32:10, 16.33s/it]3 AutoResumeHook: Checking whether to suspend...
56  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

4 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5637, 'learning_rate': 1.8197733514970655e-05, 'epoch': 0.22}
 22%|██▏       | 1450/6640 [3:09:43<23:32:10, 16.33s/it] 22%|██▏       | 1451/6640 [3:10:00<23:33:05, 16.34s/it]                                                        {'loss': 0.5731, 'learning_rate': 1.8194938824278178e-05, 'epoch': 0.22}
 22%|██▏       | 1451/6640 [3:10:00<23:33:05, 16.34s/it] 22%|██▏       | 1452/6640 [3:10:16<23:43:05, 16.46s/it]                                                        {'loss': 0.555, 'learning_rate': 1.81921421834101e-05, 'epoch': 0.22}
 22%|██▏       | 1452/6640 [3:10:16<23:43:05, 16.46s/it] 22%|██▏       | 1453/6640 [3:10:33<23:40:39, 16.43s/it]                                                        {'loss': 0.5352, 'learning_rate': 1.8189343593031957e-05, 'epoch': 0.22}
 22%|██▏       | 1453/6640 [3:10:33<23:40:39, 16.43s/it] 22%|██▏       | 1454/6640 [3:10:49<23:34:00, 16.36s/it]                                                        {'loss': 0.5508, 'learning_rate': 1.8186543053809727e-05, 'epoch': 0.22}
 22%|██▏       | 1454/6640 [3:10:49<23:34:00, 16.36s/it] 22%|██▏       | 1455/6640 [3:11:05<23:33:44, 16.36s/it]                                                        {'loss': 0.5479, 'learning_rate': 1.8183740566409867e-05, 'epoch': 0.22}
 22%|██▏       | 1455/6640 [3:11:05<23:33:44, 16.36s/it] 22%|██▏       | 1456/6640 [3:11:22<23:36:53, 16.40s/it]                                                        {'loss': 0.5379, 'learning_rate': 1.8180936131499293e-05, 'epoch': 0.22}
 22%|██▏       | 1456/6640 [3:11:22<23:36:53, 16.40s/it] 22%|██▏       | 1457/6640 [3:11:38<23:36:04, 16.39s/it]                                                        {'loss': 0.5245, 'learning_rate': 1.8178129749745386e-05, 'epoch': 0.22}
 22%|██▏       | 1457/6640 [3:11:38<23:36:04, 16.39s/it] 22%|██▏       | 1458/6640 [3:11:54<23:21:25, 16.23s/it]                                                        {'loss': 0.5335, 'learning_rate': 1.817532142181599e-05, 'epoch': 0.22}
 22%|██▏       | 1458/6640 [3:11:54<23:21:25, 16.23s/it] 22%|██▏       | 1459/6640 [3:12:10<23:01:01, 15.99s/it]                                                        {'loss': 0.5399, 'learning_rate': 1.8172511148379413e-05, 'epoch': 0.22}
 22%|██▏       | 1459/6640 [3:12:10<23:01:01, 15.99s/it] 22%|██▏       | 1460/6640 [3:12:26<23:10:12, 16.10s/it]                                                        {'loss': 0.5509, 'learning_rate': 1.816969893010442e-05, 'epoch': 0.22}
 22%|██▏       | 1460/6640 [3:12:26<23:10:12, 16.10s/it] 22%|██▏       | 1461/6640 [3:12:43<23:42:21, 16.48s/it]                                                        {'loss': 0.5672, 'learning_rate': 1.816688476766025e-05, 'epoch': 0.22}
 22%|██▏       | 1461/6640 [3:12:43<23:42:21, 16.48s/it] 22%|██▏       | 1462/6640 [3:12:59<23:32:34, 16.37s/it]                                                        {'loss': 0.5586, 'learning_rate': 1.8164068661716596e-05, 'epoch': 0.22}
 22%|██▏       | 1462/6640 [3:12:59<23:32:34, 16.37s/it] 22%|██▏       | 1463/6640 [3:13:16<23:33:16, 16.38s/it]                                                        {'loss': 0.5401, 'learning_rate': 1.8161250612943613e-05, 'epoch': 0.22}
 22%|██▏       | 1463/6640 [3:13:16<23:33:16, 16.38s/it] 22%|██▏       | 1464/6640 [3:13:32<23:27:32, 16.32s/it]                                                        {'loss': 0.568, 'learning_rate': 1.815843062201192e-05, 'epoch': 0.22}
 22%|██▏       | 1464/6640 [3:13:32<23:27:32, 16.32s/it] 22%|██▏       | 1465/6640 [3:13:50<24:01:25, 16.71s/it]                                                        {'loss': 0.5481, 'learning_rate': 1.8155608689592604e-05, 'epoch': 0.22}
 22%|██▏       | 1465/6640 [3:13:50<24:01:25, 16.71s/it] 22%|██▏       | 1466/6640 [3:14:06<24:02:21, 16.73s/it]                                                        {'loss': 0.553, 'learning_rate': 1.8152784816357205e-05, 'epoch': 0.22}
 22%|██▏       | 1466/6640 [3:14:06<24:02:21, 16.73s/it] 22%|██▏       | 1467/6640 [3:14:23<23:47:20, 16.56s/it]                                                        {'loss': 0.5333, 'learning_rate': 1.8149959002977736e-05, 'epoch': 0.22}
 22%|██▏       | 1467/6640 [3:14:23<23:47:20, 16.56s/it] 22%|██▏       | 1468/6640 [3:14:39<23:43:33, 16.51s/it]                                                        {'loss': 0.5525, 'learning_rate': 1.8147131250126653e-05, 'epoch': 0.22}
 22%|██▏       | 1468/6640 [3:14:39<23:43:33, 16.51s/it] 22%|██▏       | 1469/6640 [3:14:55<23:25:16, 16.31s/it]                                                        {'loss': 0.5708, 'learning_rate': 1.8144301558476894e-05, 'epoch': 0.22}
 22%|██▏       | 1469/6640 [3:14:55<23:25:16, 16.31s/it] 22%|██▏       | 1470/6640 [3:15:10<23:10:09, 16.13s/it]                                                        {'loss': 0.5629, 'learning_rate': 1.8141469928701852e-05, 'epoch': 0.22}
 22%|██▏       | 1470/6640 [3:15:10<23:10:09, 16.13s/it] 22%|██▏       | 1471/6640 [3:15:26<22:44:28, 15.84s/it]                                                        {'loss': 0.5626, 'learning_rate': 1.813863636147537e-05, 'epoch': 0.22}
 22%|██▏       | 1471/6640 [3:15:26<22:44:28, 15.84s/it] 22%|██▏       | 1472/6640 [3:15:42<22:53:03, 15.94s/it]                                                        {'loss': 0.5432, 'learning_rate': 1.8135800857471768e-05, 'epoch': 0.22}
 22%|██▏       | 1472/6640 [3:15:42<22:53:03, 15.94s/it] 22%|██▏       | 1473/6640 [3:16:00<23:42:58, 16.52s/it]                                                        {'loss': 0.5259, 'learning_rate': 1.8132963417365818e-05, 'epoch': 0.22}
 22%|██▏       | 1473/6640 [3:16:00<23:42:58, 16.52s/it] 22%|██▏       | 1474/6640 [3:16:15<23:20:14, 16.26s/it]                                                        {'loss': 0.549, 'learning_rate': 1.813012404183275e-05, 'epoch': 0.22}
 22%|██▏       | 1474/6640 [3:16:15<23:20:14, 16.26s/it] 22%|██▏       | 1475/6640 [3:16:31<23:16:00, 16.22s/it]                                                        {'loss': 0.5486, 'learning_rate': 1.812728273154827e-05, 'epoch': 0.22}
 22%|██▏       | 1475/6640 [3:16:31<23:16:00, 16.22s/it] 22%|██▏       | 1476/6640 [3:16:48<23:11:40, 16.17s/it]                                                        {'loss': 0.5515, 'learning_rate': 1.8124439487188525e-05, 'epoch': 0.22}
 22%|██▏       | 1476/6640 [3:16:48<23:11:40, 16.17s/it] 22%|██▏       | 1477/6640 [3:17:04<23:14:48, 16.21s/it]                                                        {'loss': 0.5438, 'learning_rate': 1.812159430943013e-05, 'epoch': 0.22}
 22%|██▏       | 1477/6640 [3:17:04<23:14:48, 16.21s/it] 22%|██▏       | 1478/6640 [3:17:20<23:24:13, 16.32s/it]                                                        {'loss': 0.5527, 'learning_rate': 1.8118747198950165e-05, 'epoch': 0.22}
 22%|██▏       | 1478/6640 [3:17:20<23:24:13, 16.32s/it] 22%|██▏       | 1479/6640 [3:17:36<23:08:35, 16.14s/it]                                                        {'loss': 0.5442, 'learning_rate': 1.8115898156426167e-05, 'epoch': 0.22}
 22%|██▏       | 1479/6640 [3:17:36<23:08:35, 16.14s/it] 22%|██▏       | 1480/6640 [3:17:52<23:07:00, 16.13s/it]                                                        {'loss': 0.563, 'learning_rate': 1.8113047182536128e-05, 'epoch': 0.22}
 22%|██▏       | 1480/6640 [3:17:52<23:07:00, 16.13s/it] 22%|██▏       | 1481/6640 [3:18:08<23:07:42, 16.14s/it]                                                        {'loss': 0.5425, 'learning_rate': 1.8110194277958505e-05, 'epoch': 0.22}
 22%|██▏       | 1481/6640 [3:18:08<23:07:42, 16.14s/it] 22%|██▏       | 1482/6640 [3:18:24<22:59:08, 16.04s/it]                                                        {'loss': 0.5458, 'learning_rate': 1.8107339443372215e-05, 'epoch': 0.22}
 22%|██▏       | 1482/6640 [3:18:24<22:59:08, 16.04s/it] 22%|██▏       | 1483/6640 [3:18:40<22:58:22, 16.04s/it]                                                        {'loss': 0.5496, 'learning_rate': 1.8104482679456623e-05, 'epoch': 0.22}
 22%|██▏       | 1483/6640 [3:18:40<22:58:22, 16.04s/it] 22%|██▏       | 1484/6640 [3:18:56<23:02:33, 16.09s/it]                                                        {'loss': 0.548, 'learning_rate': 1.8101623986891574e-05, 'epoch': 0.22}
 22%|██▏       | 1484/6640 [3:18:56<23:02:33, 16.09s/it] 22%|██▏       | 1485/6640 [3:19:12<22:58:13, 16.04s/it]                                                        {'loss': 0.5652, 'learning_rate': 1.8098763366357354e-05, 'epoch': 0.22}
 22%|██▏       | 1485/6640 [3:19:12<22:58:13, 16.04s/it] 22%|██▏       | 1486/6640 [3:19:29<23:11:51, 16.20s/it]                                                        {'loss': 0.5696, 'learning_rate': 1.8095900818534714e-05, 'epoch': 0.22}
 22%|██▏       | 1486/6640 [3:19:29<23:11:51, 16.20s/it] 22%|██▏       | 1487/6640 [3:19:45<22:57:17, 16.04s/it]                                                        {'loss': 0.546, 'learning_rate': 1.8093036344104868e-05, 'epoch': 0.22}
 22%|██▏       | 1487/6640 [3:19:45<22:57:17, 16.04s/it] 22%|██▏       | 1488/6640 [3:20:02<23:33:44, 16.46s/it]                                                        {'loss': 0.5548, 'learning_rate': 1.8090169943749477e-05, 'epoch': 0.22}
 22%|██▏       | 1488/6640 [3:20:02<23:33:44, 16.46s/it] 22%|██▏       | 1489/6640 [3:20:18<23:26:35, 16.38s/it]                                                        {'loss': 0.5491, 'learning_rate': 1.808730161815067e-05, 'epoch': 0.22}
 22%|██▏       | 1489/6640 [3:20:18<23:26:35, 16.38s/it] 22%|██▏       | 1490/6640 [3:20:34<23:17:12, 16.28s/it]                                                        {'loss': 0.5413, 'learning_rate': 1.8084431367991032e-05, 'epoch': 0.22}
 22%|██▏       | 1490/6640 [3:20:34<23:17:12, 16.28s/it] 22%|██▏       | 1491/6640 [3:20:51<23:34:30, 16.48s/it]                                                        {'loss': 0.5547, 'learning_rate': 1.8081559193953612e-05, 'epoch': 0.22}
 22%|██▏       | 1491/6640 [3:20:51<23:34:30, 16.48s/it] 22%|██▏       | 1492/6640 [3:21:07<23:23:58, 16.36s/it]                                                        {'loss': 0.5557, 'learning_rate': 1.80786850967219e-05, 'epoch': 0.22}
 22%|██▏       | 1492/6640 [3:21:07<23:23:58, 16.36s/it] 22%|██▏       | 1493/6640 [3:21:25<24:02:14, 16.81s/it]                                                        {'loss': 0.5516, 'learning_rate': 1.807580907697986e-05, 'epoch': 0.22}
 22%|██▏       | 1493/6640 [3:21:25<24:02:14, 16.81s/it] 22%|██▎       | 1494/6640 [3:21:42<24:06:37, 16.87s/it]                                                        {'loss': 0.5506, 'learning_rate': 1.8072931135411904e-05, 'epoch': 0.23}
 22%|██▎       | 1494/6640 [3:21:42<24:06:37, 16.87s/it] 23%|██▎       | 1495/6640 [3:21:58<23:42:28, 16.59s/it]                                                        {'loss': 0.536, 'learning_rate': 1.8070051272702905e-05, 'epoch': 0.23}
 23%|██▎       | 1495/6640 [3:21:58<23:42:28, 16.59s/it] 23%|██▎       | 1496/6640 [3:22:15<23:41:00, 16.57s/it]                                                        {'loss': 0.5276, 'learning_rate': 1.80671694895382e-05, 'epoch': 0.23}
 23%|██▎       | 1496/6640 [3:22:15<23:41:00, 16.57s/it] 23%|██▎       | 1497/6640 [3:22:31<23:36:00, 16.52s/it]                                                        {'loss': 0.571, 'learning_rate': 1.8064285786603572e-05, 'epoch': 0.23}
 23%|██▎       | 1497/6640 [3:22:31<23:36:00, 16.52s/it] 23%|██▎       | 1498/6640 [3:22:48<23:50:53, 16.70s/it]                                                        {'loss': 0.5447, 'learning_rate': 1.8061400164585257e-05, 'epoch': 0.23}
 23%|██▎       | 1498/6640 [3:22:48<23:50:53, 16.70s/it] 23%|██▎       | 1499/6640 [3:23:04<23:39:24, 16.57s/it]                                                        {'loss': 0.5319, 'learning_rate': 1.805851262416997e-05, 'epoch': 0.23}
 23%|██▎       | 1499/6640 [3:23:04<23:39:24, 16.57s/it]01 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
 23%|██▎       | 1500/6640 [3:23:20<23:20:48, 16.35s/it]3 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5659, 'learning_rate': 1.8055623166044855e-05, 'epoch': 0.23}
 23%|██▎       | 1500/6640 [3:23:20<23:20:48, 16.35s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1500/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1500/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1500/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 23%|██▎       | 1501/6640 [3:25:47<79:19:05, 55.56s/it]                                                        {'loss': 0.5398, 'learning_rate': 1.805273179089753e-05, 'epoch': 0.23}
 23%|██▎       | 1501/6640 [3:25:47<79:19:05, 55.56s/it] 23%|██▎       | 1502/6640 [3:26:04<62:36:10, 43.86s/it]                                                        {'loss': 0.5727, 'learning_rate': 1.804983849941607e-05, 'epoch': 0.23}
 23%|██▎       | 1502/6640 [3:26:04<62:36:10, 43.86s/it] 23%|██▎       | 1503/6640 [3:26:20<50:52:08, 35.65s/it]                                                        {'loss': 0.5365, 'learning_rate': 1.8046943292289e-05, 'epoch': 0.23}
 23%|██▎       | 1503/6640 [3:26:20<50:52:08, 35.65s/it] 23%|██▎       | 1504/6640 [3:26:38<42:57:10, 30.11s/it]                                                        {'loss': 0.5402, 'learning_rate': 1.8044046170205295e-05, 'epoch': 0.23}
 23%|██▎       | 1504/6640 [3:26:38<42:57:10, 30.11s/it] 23%|██▎       | 1505/6640 [3:26:54<37:12:04, 26.08s/it]                                                        {'loss': 0.5391, 'learning_rate': 1.804114713385439e-05, 'epoch': 0.23}
 23%|██▎       | 1505/6640 [3:26:54<37:12:04, 26.08s/it] 23%|██▎       | 1506/6640 [3:27:11<33:07:04, 23.22s/it]                                                        {'loss': 0.5639, 'learning_rate': 1.803824618392619e-05, 'epoch': 0.23}
 23%|██▎       | 1506/6640 [3:27:11<33:07:04, 23.22s/it] 23%|██▎       | 1507/6640 [3:27:28<30:29:52, 21.39s/it]                                                        {'loss': 0.5435, 'learning_rate': 1.8035343321111035e-05, 'epoch': 0.23}
 23%|██▎       | 1507/6640 [3:27:28<30:29:52, 21.39s/it] 23%|██▎       | 1508/6640 [3:27:44<28:07:30, 19.73s/it]                                                        {'loss': 0.5401, 'learning_rate': 1.8032438546099733e-05, 'epoch': 0.23}
 23%|██▎       | 1508/6640 [3:27:44<28:07:30, 19.73s/it] 23%|██▎       | 1509/6640 [3:28:00<26:47:24, 18.80s/it]                                                        {'loss': 0.5391, 'learning_rate': 1.802953185958354e-05, 'epoch': 0.23}
 23%|██▎       | 1509/6640 [3:28:00<26:47:24, 18.80s/it] 23%|██▎       | 1510/6640 [3:28:17<25:56:04, 18.20s/it]                                                        {'loss': 0.536, 'learning_rate': 1.8026623262254164e-05, 'epoch': 0.23}
 23%|██▎       | 1510/6640 [3:28:17<25:56:04, 18.20s/it] 23%|██▎       | 1511/6640 [3:28:34<25:11:31, 17.68s/it]                                                        {'loss': 0.5526, 'learning_rate': 1.8023712754803783e-05, 'epoch': 0.23}
 23%|██▎       | 1511/6640 [3:28:34<25:11:31, 17.68s/it] 23%|██▎       | 1512/6640 [3:28:50<24:44:38, 17.37s/it]                                                        {'loss': 0.5576, 'learning_rate': 1.802080033792501e-05, 'epoch': 0.23}
 23%|██▎       | 1512/6640 [3:28:50<24:44:38, 17.37s/it] 23%|██▎       | 1513/6640 [3:29:06<24:09:41, 16.97s/it]                                                        {'loss': 0.5449, 'learning_rate': 1.8017886012310933e-05, 'epoch': 0.23}
 23%|██▎       | 1513/6640 [3:29:06<24:09:41, 16.97s/it] 23%|██▎       | 1514/6640 [3:29:22<23:35:12, 16.57s/it]                                                        {'loss': 0.5621, 'learning_rate': 1.8014969778655076e-05, 'epoch': 0.23}
 23%|██▎       | 1514/6640 [3:29:22<23:35:12, 16.57s/it] 23%|██▎       | 1515/6640 [3:29:38<23:22:44, 16.42s/it]                                                        {'loss': 0.5368, 'learning_rate': 1.8012051637651423e-05, 'epoch': 0.23}
 23%|██▎       | 1515/6640 [3:29:38<23:22:44, 16.42s/it] 23%|██▎       | 1516/6640 [3:29:54<23:17:15, 16.36s/it]                                                        {'loss': 0.5507, 'learning_rate': 1.8009131589994418e-05, 'epoch': 0.23}
 23%|██▎       | 1516/6640 [3:29:54<23:17:15, 16.36s/it] 23%|██▎       | 1517/6640 [3:30:10<23:09:44, 16.28s/it]                                                        {'loss': 0.5343, 'learning_rate': 1.8006209636378952e-05, 'epoch': 0.23}
 23%|██▎       | 1517/6640 [3:30:10<23:09:44, 16.28s/it] 23%|██▎       | 1518/6640 [3:30:26<22:55:01, 16.11s/it]                                                        {'loss': 0.5298, 'learning_rate': 1.800328577750037e-05, 'epoch': 0.23}
 23%|██▎       | 1518/6640 [3:30:26<22:55:01, 16.11s/it] 23%|██▎       | 1519/6640 [3:30:42<22:51:21, 16.07s/it]                                                        {'loss': 0.5407, 'learning_rate': 1.8000360014054477e-05, 'epoch': 0.23}
 23%|██▎       | 1519/6640 [3:30:42<22:51:21, 16.07s/it] 23%|██▎       | 1520/6640 [3:30:58<22:41:51, 15.96s/it]                                                        {'loss': 0.5377, 'learning_rate': 1.7997432346737524e-05, 'epoch': 0.23}
 23%|██▎       | 1520/6640 [3:30:58<22:41:51, 15.96s/it] 23%|██▎       | 1521/6640 [3:31:15<23:15:31, 16.36s/it]                                                        {'loss': 0.5468, 'learning_rate': 1.7994502776246215e-05, 'epoch': 0.23}
 23%|██▎       | 1521/6640 [3:31:15<23:15:31, 16.36s/it] 23%|██▎       | 1522/6640 [3:31:31<23:11:30, 16.31s/it]                                                        {'loss': 0.5358, 'learning_rate': 1.7991571303277707e-05, 'epoch': 0.23}
 23%|██▎       | 1522/6640 [3:31:31<23:11:30, 16.31s/it] 23%|██▎       | 1523/6640 [3:31:48<23:18:29, 16.40s/it]                                                        {'loss': 0.5392, 'learning_rate': 1.7988637928529616e-05, 'epoch': 0.23}
 23%|██▎       | 1523/6640 [3:31:48<23:18:29, 16.40s/it] 23%|██▎       | 1524/6640 [3:32:07<24:18:08, 17.10s/it]                                                        {'loss': 0.5282, 'learning_rate': 1.798570265270001e-05, 'epoch': 0.23}
 23%|██▎       | 1524/6640 [3:32:07<24:18:08, 17.10s/it] 23%|██▎       | 1525/6640 [3:32:22<23:46:50, 16.74s/it]                                                        {'loss': 0.5355, 'learning_rate': 1.7982765476487398e-05, 'epoch': 0.23}
 23%|██▎       | 1525/6640 [3:32:22<23:46:50, 16.74s/it] 23%|██▎       | 1526/6640 [3:32:40<23:55:17, 16.84s/it]                                                        {'loss': 0.5438, 'learning_rate': 1.7979826400590756e-05, 'epoch': 0.23}
 23%|██▎       | 1526/6640 [3:32:40<23:55:17, 16.84s/it] 23%|██▎       | 1527/6640 [3:32:55<23:31:48, 16.57s/it]                                                        {'loss': 0.549, 'learning_rate': 1.79768854257095e-05, 'epoch': 0.23}
 23%|██▎       | 1527/6640 [3:32:55<23:31:48, 16.57s/it] 23%|██▎       | 1528/6640 [3:33:12<23:42:37, 16.70s/it]                                                        {'loss': 0.5442, 'learning_rate': 1.7973942552543504e-05, 'epoch': 0.23}
 23%|██▎       | 1528/6640 [3:33:12<23:42:37, 16.70s/it] 23%|██▎       | 1529/6640 [3:33:29<23:38:33, 16.65s/it]                                                        {'loss': 0.5491, 'learning_rate': 1.7970997781793094e-05, 'epoch': 0.23}
 23%|██▎       | 1529/6640 [3:33:29<23:38:33, 16.65s/it] 23%|██▎       | 1530/6640 [3:33:45<23:27:28, 16.53s/it]                                                        {'loss': 0.5272, 'learning_rate': 1.7968051114159046e-05, 'epoch': 0.23}
 23%|██▎       | 1530/6640 [3:33:45<23:27:28, 16.53s/it] 23%|██▎       | 1531/6640 [3:34:01<23:12:19, 16.35s/it]                                                        {'loss': 0.5218, 'learning_rate': 1.7965102550342592e-05, 'epoch': 0.23}
 23%|██▎       | 1531/6640 [3:34:01<23:12:19, 16.35s/it] 23%|██▎       | 1532/6640 [3:34:17<22:50:48, 16.10s/it]                                                        {'loss': 0.5465, 'learning_rate': 1.7962152091045407e-05, 'epoch': 0.23}
 23%|██▎       | 1532/6640 [3:34:17<22:50:48, 16.10s/it] 23%|██▎       | 1533/6640 [3:34:33<23:05:42, 16.28s/it]                                                        {'loss': 0.552, 'learning_rate': 1.7959199736969618e-05, 'epoch': 0.23}
 23%|██▎       | 1533/6640 [3:34:33<23:05:42, 16.28s/it] 23%|██▎       | 1534/6640 [3:34:50<23:15:06, 16.39s/it]                                                        {'loss': 0.5302, 'learning_rate': 1.795624548881781e-05, 'epoch': 0.23}
 23%|██▎       | 1534/6640 [3:34:50<23:15:06, 16.39s/it] 23%|██▎       | 1535/6640 [3:35:06<22:58:40, 16.20s/it]                                                        {'loss': 0.5583, 'learning_rate': 1.795328934729302e-05, 'epoch': 0.23}
 23%|██▎       | 1535/6640 [3:35:06<22:58:40, 16.20s/it] 23%|██▎       | 1536/6640 [3:35:22<22:55:35, 16.17s/it]                                                        {'loss': 0.5694, 'learning_rate': 1.795033131309872e-05, 'epoch': 0.23}
 23%|██▎       | 1536/6640 [3:35:22<22:55:35, 16.17s/it] 23%|██▎       | 1537/6640 [3:35:38<23:01:03, 16.24s/it]                                                        {'loss': 0.5448, 'learning_rate': 1.7947371386938848e-05, 'epoch': 0.23}
 23%|██▎       | 1537/6640 [3:35:38<23:01:03, 16.24s/it] 23%|██▎       | 1538/6640 [3:35:55<23:05:06, 16.29s/it]                                                        {'loss': 0.5559, 'learning_rate': 1.7944409569517786e-05, 'epoch': 0.23}
 23%|██▎       | 1538/6640 [3:35:55<23:05:06, 16.29s/it] 23%|██▎       | 1539/6640 [3:36:11<22:58:43, 16.22s/it]                                                        {'loss': 0.539, 'learning_rate': 1.794144586154037e-05, 'epoch': 0.23}
 23%|██▎       | 1539/6640 [3:36:11<22:58:43, 16.22s/it] 23%|██▎       | 1540/6640 [3:36:27<22:57:45, 16.21s/it]                                                        {'loss': 0.5488, 'learning_rate': 1.793848026371188e-05, 'epoch': 0.23}
 23%|██▎       | 1540/6640 [3:36:27<22:57:45, 16.21s/it] 23%|██▎       | 1541/6640 [3:36:43<23:05:05, 16.30s/it]                                                        {'loss': 0.548, 'learning_rate': 1.793551277673805e-05, 'epoch': 0.23}
 23%|██▎       | 1541/6640 [3:36:43<23:05:05, 16.30s/it] 23%|██▎       | 1542/6640 [3:36:59<22:56:24, 16.20s/it]                                                        {'loss': 0.5617, 'learning_rate': 1.793254340132506e-05, 'epoch': 0.23}
 23%|██▎       | 1542/6640 [3:36:59<22:56:24, 16.20s/it] 23%|██▎       | 1543/6640 [3:37:16<23:02:28, 16.27s/it]                                                        {'loss': 0.559, 'learning_rate': 1.7929572138179546e-05, 'epoch': 0.23}
 23%|██▎       | 1543/6640 [3:37:16<23:02:28, 16.27s/it] 23%|██▎       | 1544/6640 [3:37:32<23:08:21, 16.35s/it]                                                        {'loss': 0.5455, 'learning_rate': 1.7926598988008584e-05, 'epoch': 0.23}
 23%|██▎       | 1544/6640 [3:37:32<23:08:21, 16.35s/it] 23%|██▎       | 1545/6640 [3:37:48<22:51:18, 16.15s/it]                                                        {'loss': 0.549, 'learning_rate': 1.7923623951519708e-05, 'epoch': 0.23}
 23%|██▎       | 1545/6640 [3:37:48<22:51:18, 16.15s/it] 23%|██▎       | 1546/6640 [3:38:04<22:44:51, 16.08s/it]                                                        {'loss': 0.5248, 'learning_rate': 1.7920647029420894e-05, 'epoch': 0.23}
 23%|██▎       | 1546/6640 [3:38:04<22:44:51, 16.08s/it] 23%|██▎       | 1547/6640 [3:38:20<22:53:18, 16.18s/it]                                                        {'loss': 0.5167, 'learning_rate': 1.791766822242057e-05, 'epoch': 0.23}
 23%|██▎       | 1547/6640 [3:38:20<22:53:18, 16.18s/it] 23%|██▎       | 1548/6640 [3:38:37<23:06:08, 16.33s/it]                                                        {'loss': 0.543, 'learning_rate': 1.7914687531227613e-05, 'epoch': 0.23}
 23%|██▎       | 1548/6640 [3:38:37<23:06:08, 16.33s/it] 23%|██▎       | 1549/6640 [3:38:54<23:22:20, 16.53s/it]                                                        {'loss': 0.5557, 'learning_rate': 1.791170495655135e-05, 'epoch': 0.23}
 23%|██▎       | 1549/6640 [3:38:54<23:22:20, 16.53s/it]2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
54 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 23%|██▎       | 1550/6640 [3:39:11<23:24:24, 16.55s/it]6 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.56, 'learning_rate': 1.7908720499101552e-05, 'epoch': 0.23}
 23%|██▎       | 1550/6640 [3:39:11<23:24:24, 16.55s/it] 23%|██▎       | 1551/6640 [3:39:28<23:38:28, 16.72s/it]                                                        {'loss': 0.5494, 'learning_rate': 1.7905734159588437e-05, 'epoch': 0.23}
 23%|██▎       | 1551/6640 [3:39:28<23:38:28, 16.72s/it] 23%|██▎       | 1552/6640 [3:39:45<23:52:44, 16.90s/it]                                                        {'loss': 0.5465, 'learning_rate': 1.7902745938722675e-05, 'epoch': 0.23}
 23%|██▎       | 1552/6640 [3:39:45<23:52:44, 16.90s/it] 23%|██▎       | 1553/6640 [3:40:01<23:38:34, 16.73s/it]                                                        {'loss': 0.5569, 'learning_rate': 1.7899755837215386e-05, 'epoch': 0.23}
 23%|██▎       | 1553/6640 [3:40:01<23:38:34, 16.73s/it] 23%|██▎       | 1554/6640 [3:40:18<23:26:13, 16.59s/it]                                                        {'loss': 0.5703, 'learning_rate': 1.789676385577813e-05, 'epoch': 0.23}
 23%|██▎       | 1554/6640 [3:40:18<23:26:13, 16.59s/it] 23%|██▎       | 1555/6640 [3:40:33<23:01:58, 16.31s/it]                                                        {'loss': 0.5532, 'learning_rate': 1.7893769995122916e-05, 'epoch': 0.23}
 23%|██▎       | 1555/6640 [3:40:33<23:01:58, 16.31s/it] 23%|██▎       | 1556/6640 [3:40:50<23:10:24, 16.41s/it]                                                        {'loss': 0.5348, 'learning_rate': 1.789077425596221e-05, 'epoch': 0.23}
 23%|██▎       | 1556/6640 [3:40:50<23:10:24, 16.41s/it] 23%|██▎       | 1557/6640 [3:41:06<23:07:11, 16.37s/it]                                                        {'loss': 0.5548, 'learning_rate': 1.7887776639008912e-05, 'epoch': 0.23}
 23%|██▎       | 1557/6640 [3:41:06<23:07:11, 16.37s/it] 23%|██▎       | 1558/6640 [3:41:22<23:01:20, 16.31s/it]                                                        {'loss': 0.535, 'learning_rate': 1.7884777144976376e-05, 'epoch': 0.23}
 23%|██▎       | 1558/6640 [3:41:22<23:01:20, 16.31s/it] 23%|██▎       | 1559/6640 [3:41:40<23:23:28, 16.57s/it]                                                        {'loss': 0.5387, 'learning_rate': 1.78817757745784e-05, 'epoch': 0.23}
 23%|██▎       | 1559/6640 [3:41:40<23:23:28, 16.57s/it] 23%|██▎       | 1560/6640 [3:41:56<23:08:33, 16.40s/it]                                                        {'loss': 0.556, 'learning_rate': 1.7878772528529232e-05, 'epoch': 0.23}
 23%|██▎       | 1560/6640 [3:41:56<23:08:33, 16.40s/it] 24%|██▎       | 1561/6640 [3:42:12<22:58:15, 16.28s/it]                                                        {'loss': 0.542, 'learning_rate': 1.7875767407543562e-05, 'epoch': 0.24}
 24%|██▎       | 1561/6640 [3:42:12<22:58:15, 16.28s/it] 24%|██▎       | 1562/6640 [3:42:27<22:35:59, 16.02s/it]                                                        {'loss': 0.5602, 'learning_rate': 1.7872760412336533e-05, 'epoch': 0.24}
 24%|██▎       | 1562/6640 [3:42:27<22:35:59, 16.02s/it] 24%|██▎       | 1563/6640 [3:42:43<22:44:54, 16.13s/it]                                                        {'loss': 0.5705, 'learning_rate': 1.7869751543623718e-05, 'epoch': 0.24}
 24%|██▎       | 1563/6640 [3:42:43<22:44:54, 16.13s/it] 24%|██▎       | 1564/6640 [3:43:00<23:00:37, 16.32s/it]                                                        {'loss': 0.5504, 'learning_rate': 1.786674080212116e-05, 'epoch': 0.24}
 24%|██▎       | 1564/6640 [3:43:00<23:00:37, 16.32s/it] 24%|██▎       | 1565/6640 [3:43:17<22:59:58, 16.32s/it]                                                        {'loss': 0.5558, 'learning_rate': 1.7863728188545326e-05, 'epoch': 0.24}
 24%|██▎       | 1565/6640 [3:43:17<22:59:58, 16.32s/it] 24%|██▎       | 1566/6640 [3:43:33<22:54:54, 16.26s/it]                                                        {'loss': 0.5371, 'learning_rate': 1.786071370361314e-05, 'epoch': 0.24}
 24%|██▎       | 1566/6640 [3:43:33<22:54:54, 16.26s/it] 24%|██▎       | 1567/6640 [3:43:49<22:48:26, 16.19s/it]                                                        {'loss': 0.5393, 'learning_rate': 1.785769734804197e-05, 'epoch': 0.24}
 24%|██▎       | 1567/6640 [3:43:49<22:48:26, 16.19s/it] 24%|██▎       | 1568/6640 [3:44:04<22:35:11, 16.03s/it]                                                        {'loss': 0.551, 'learning_rate': 1.7854679122549624e-05, 'epoch': 0.24}
 24%|██▎       | 1568/6640 [3:44:04<22:35:11, 16.03s/it] 24%|██▎       | 1569/6640 [3:44:20<22:25:57, 15.93s/it]                                                        {'loss': 0.5352, 'learning_rate': 1.7851659027854365e-05, 'epoch': 0.24}
 24%|██▎       | 1569/6640 [3:44:20<22:25:57, 15.93s/it] 24%|██▎       | 1570/6640 [3:44:36<22:17:40, 15.83s/it]                                                        {'loss': 0.5406, 'learning_rate': 1.7848637064674887e-05, 'epoch': 0.24}
 24%|██▎       | 1570/6640 [3:44:36<22:17:40, 15.83s/it] 24%|██▎       | 1571/6640 [3:44:52<22:25:19, 15.92s/it]                                                        {'loss': 0.5451, 'learning_rate': 1.7845613233730342e-05, 'epoch': 0.24}
 24%|██▎       | 1571/6640 [3:44:52<22:25:19, 15.92s/it] 24%|██▎       | 1572/6640 [3:45:08<22:36:49, 16.06s/it]                                                        {'loss': 0.5459, 'learning_rate': 1.7842587535740315e-05, 'epoch': 0.24}
 24%|██▎       | 1572/6640 [3:45:08<22:36:49, 16.06s/it] 24%|██▎       | 1573/6640 [3:45:24<22:26:52, 15.95s/it]                                                        {'loss': 0.5342, 'learning_rate': 1.7839559971424844e-05, 'epoch': 0.24}
 24%|██▎       | 1573/6640 [3:45:24<22:26:52, 15.95s/it] 24%|██▎       | 1574/6640 [3:45:40<22:21:26, 15.89s/it]                                                        {'loss': 0.5533, 'learning_rate': 1.7836530541504412e-05, 'epoch': 0.24}
 24%|██▎       | 1574/6640 [3:45:40<22:21:26, 15.89s/it] 24%|██▎       | 1575/6640 [3:45:56<22:34:33, 16.05s/it]                                                        {'loss': 0.5493, 'learning_rate': 1.783349924669994e-05, 'epoch': 0.24}
 24%|██▎       | 1575/6640 [3:45:56<22:34:33, 16.05s/it] 24%|██▎       | 1576/6640 [3:46:11<22:10:58, 15.77s/it]                                                        {'loss': 0.5232, 'learning_rate': 1.7830466087732788e-05, 'epoch': 0.24}
 24%|██▎       | 1576/6640 [3:46:11<22:10:58, 15.77s/it] 24%|██▍       | 1577/6640 [3:46:28<22:26:46, 15.96s/it]                                                        {'loss': 0.5642, 'learning_rate': 1.7827431065324773e-05, 'epoch': 0.24}
 24%|██▍       | 1577/6640 [3:46:28<22:26:46, 15.96s/it] 24%|██▍       | 1578/6640 [3:46:43<22:17:46, 15.86s/it]                                                        {'loss': 0.5259, 'learning_rate': 1.7824394180198147e-05, 'epoch': 0.24}
 24%|██▍       | 1578/6640 [3:46:43<22:17:46, 15.86s/it] 24%|██▍       | 1579/6640 [3:46:59<22:21:37, 15.91s/it]                                                        {'loss': 0.5304, 'learning_rate': 1.7821355433075612e-05, 'epoch': 0.24}
 24%|██▍       | 1579/6640 [3:46:59<22:21:37, 15.91s/it] 24%|██▍       | 1580/6640 [3:47:15<22:26:41, 15.97s/it]                                                        {'loss': 0.5416, 'learning_rate': 1.78183148246803e-05, 'epoch': 0.24}
 24%|██▍       | 1580/6640 [3:47:15<22:26:41, 15.97s/it] 24%|██▍       | 1581/6640 [3:47:32<22:47:29, 16.22s/it]                                                        {'loss': 0.5571, 'learning_rate': 1.7815272355735798e-05, 'epoch': 0.24}
 24%|██▍       | 1581/6640 [3:47:32<22:47:29, 16.22s/it] 24%|██▍       | 1582/6640 [3:47:48<22:36:24, 16.09s/it]                                                        {'loss': 0.5319, 'learning_rate': 1.7812228026966133e-05, 'epoch': 0.24}
 24%|██▍       | 1582/6640 [3:47:48<22:36:24, 16.09s/it] 24%|██▍       | 1583/6640 [3:48:04<22:24:44, 15.96s/it]                                                        {'loss': 0.5379, 'learning_rate': 1.7809181839095778e-05, 'epoch': 0.24}
 24%|██▍       | 1583/6640 [3:48:04<22:24:44, 15.96s/it] 24%|██▍       | 1584/6640 [3:48:19<22:13:20, 15.82s/it]                                                        {'loss': 0.5535, 'learning_rate': 1.7806133792849634e-05, 'epoch': 0.24}
 24%|██▍       | 1584/6640 [3:48:19<22:13:20, 15.82s/it] 24%|██▍       | 1585/6640 [3:48:36<22:31:53, 16.05s/it]                                                        {'loss': 0.5302, 'learning_rate': 1.7803083888953058e-05, 'epoch': 0.24}
 24%|██▍       | 1585/6640 [3:48:36<22:31:53, 16.05s/it] 24%|██▍       | 1586/6640 [3:48:52<22:34:42, 16.08s/it]                                                        {'loss': 0.543, 'learning_rate': 1.7800032128131846e-05, 'epoch': 0.24}
 24%|██▍       | 1586/6640 [3:48:52<22:34:42, 16.08s/it] 24%|██▍       | 1587/6640 [3:49:07<22:23:43, 15.96s/it]                                                        {'loss': 0.5491, 'learning_rate': 1.779697851111224e-05, 'epoch': 0.24}
 24%|██▍       | 1587/6640 [3:49:07<22:23:43, 15.96s/it] 24%|██▍       | 1588/6640 [3:49:24<22:44:35, 16.21s/it]                                                        {'loss': 0.5322, 'learning_rate': 1.7793923038620913e-05, 'epoch': 0.24}
 24%|██▍       | 1588/6640 [3:49:24<22:44:35, 16.21s/it] 24%|██▍       | 1589/6640 [3:49:41<22:51:43, 16.29s/it]                                                        {'loss': 0.5454, 'learning_rate': 1.779086571138499e-05, 'epoch': 0.24}
 24%|██▍       | 1589/6640 [3:49:41<22:51:43, 16.29s/it] 24%|██▍       | 1590/6640 [3:49:57<23:01:44, 16.42s/it]                                                        {'loss': 0.5327, 'learning_rate': 1.7787806530132022e-05, 'epoch': 0.24}
 24%|██▍       | 1590/6640 [3:49:57<23:01:44, 16.42s/it] 24%|██▍       | 1591/6640 [3:50:14<23:04:49, 16.46s/it]                                                        {'loss': 0.5591, 'learning_rate': 1.7784745495590025e-05, 'epoch': 0.24}
 24%|██▍       | 1591/6640 [3:50:14<23:04:49, 16.46s/it] 24%|██▍       | 1592/6640 [3:50:30<22:53:49, 16.33s/it]                                                        {'loss': 0.5447, 'learning_rate': 1.778168260848744e-05, 'epoch': 0.24}
 24%|██▍       | 1592/6640 [3:50:30<22:53:49, 16.33s/it] 24%|██▍       | 1593/6640 [3:50:46<22:36:29, 16.13s/it]                                                        {'loss': 0.5641, 'learning_rate': 1.7778617869553144e-05, 'epoch': 0.24}
 24%|██▍       | 1593/6640 [3:50:46<22:36:29, 16.13s/it] 24%|██▍       | 1594/6640 [3:51:03<23:03:06, 16.45s/it]                                                        {'loss': 0.5354, 'learning_rate': 1.7775551279516474e-05, 'epoch': 0.24}
 24%|██▍       | 1594/6640 [3:51:03<23:03:06, 16.45s/it] 24%|██▍       | 1595/6640 [3:51:19<23:04:19, 16.46s/it]                                                        {'loss': 0.5204, 'learning_rate': 1.777248283910719e-05, 'epoch': 0.24}
 24%|██▍       | 1595/6640 [3:51:19<23:04:19, 16.46s/it] 24%|██▍       | 1596/6640 [3:51:35<22:52:25, 16.33s/it]                                                        {'loss': 0.555, 'learning_rate': 1.77694125490555e-05, 'epoch': 0.24}
 24%|██▍       | 1596/6640 [3:51:35<22:52:25, 16.33s/it] 24%|██▍       | 1597/6640 [3:51:51<22:44:09, 16.23s/it]                                                        {'loss': 0.5183, 'learning_rate': 1.7766340410092047e-05, 'epoch': 0.24}
 24%|██▍       | 1597/6640 [3:51:51<22:44:09, 16.23s/it] 24%|██▍       | 1598/6640 [3:52:08<22:44:19, 16.24s/it]                                                        {'loss': 0.5621, 'learning_rate': 1.776326642294792e-05, 'epoch': 0.24}
 24%|██▍       | 1598/6640 [3:52:08<22:44:19, 16.24s/it] 24%|██▍       | 1599/6640 [3:52:24<22:44:05, 16.24s/it]                                                        {'loss': 0.5402, 'learning_rate': 1.7760190588354654e-05, 'epoch': 0.24}
 24%|██▍       | 1599/6640 [3:52:24<22:44:05, 16.24s/it]1 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...4
 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 24%|██▍       | 1600/6640 [3:52:40<22:33:50, 16.12s/it]                                                        {'loss': 0.537, 'learning_rate': 1.77571129070442e-05, 'epoch': 0.24}
 24%|██▍       | 1600/6640 [3:52:40<22:33:50, 16.12s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1600/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1600/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1600/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 24%|██▍       | 1601/6640 [3:54:45<68:25:00, 48.88s/it]                                                        {'loss': 0.5414, 'learning_rate': 1.7754033379748973e-05, 'epoch': 0.24}
 24%|██▍       | 1601/6640 [3:54:45<68:25:00, 48.88s/it] 24%|██▍       | 1602/6640 [3:55:01<54:26:44, 38.91s/it]                                                        {'loss': 0.5381, 'learning_rate': 1.7750952007201815e-05, 'epoch': 0.24}
 24%|██▍       | 1602/6640 [3:55:01<54:26:44, 38.91s/it] 24%|██▍       | 1603/6640 [3:55:16<44:44:18, 31.98s/it]                                                        {'loss': 0.5511, 'learning_rate': 1.7747868790136012e-05, 'epoch': 0.24}
 24%|██▍       | 1603/6640 [3:55:16<44:44:18, 31.98s/it] 24%|██▍       | 1604/6640 [3:55:33<38:09:17, 27.28s/it]                                                        {'loss': 0.52, 'learning_rate': 1.7744783729285285e-05, 'epoch': 0.24}
 24%|██▍       | 1604/6640 [3:55:33<38:09:17, 27.28s/it] 24%|██▍       | 1605/6640 [3:55:49<33:24:35, 23.89s/it]                                                        {'loss': 0.5468, 'learning_rate': 1.7741696825383797e-05, 'epoch': 0.24}
 24%|██▍       | 1605/6640 [3:55:49<33:24:35, 23.89s/it] 24%|██▍       | 1606/6640 [3:56:05<30:06:37, 21.53s/it]                                                        {'loss': 0.5414, 'learning_rate': 1.7738608079166147e-05, 'epoch': 0.24}
 24%|██▍       | 1606/6640 [3:56:05<30:06:37, 21.53s/it]May 28 02:09:06.844378 1691346 slurmstepd   0x155550ab8700: error: *** STEP 8269468.0 ON batch-block5-00321 CANCELLED AT 2025-05-28T02:09:06 DUE TO TIME LIMIT ***
srun: Job step aborted: Waiting up to 122 seconds for job step to finish.
 24%|██▍       | 1607/6640 [3:56:23<28:34:46, 20.44s/it]                                                        {'loss': 0.5547, 'learning_rate': 1.7735517491367377e-05, 'epoch': 0.24}
 24%|██▍       | 1607/6640 [3:56:23<28:34:46, 20.44s/it]srun: error: batch-block5-00321: task 0: Terminated
srun: Terminating StepId=8269468.0
srun: job 8277401 queued and waiting for resources
srun: job 8277401 has been allocated resources
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
MASTER_ADDR=batch-block7-01076
JobID: 8277401 | Full list: batch-block7-01076 
NETWORK=Efficient-Large-Model/VILA1.5-13b
WARNING:torch.distributed.run:
*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
*****************************************
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
[2025-05-28 02:11:14,689] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 02:11:14,689] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 02:11:14,689] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 02:11:14,689] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 02:11:14,689] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 02:11:14,689] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 02:11:14,689] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 02:11:14,690] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 02:11:16,040] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 02:11:16,040] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 02:11:16,040] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 02:11:16,040] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 02:11:16,040] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 02:11:16,040] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 02:11:16,040] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 02:11:16,040] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 02:11:16,049] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 02:11:16,049] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 02:11:16,049] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 02:11:16,049] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 02:11:16,049] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 02:11:16,049] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 02:11:16,049] [INFO] [comm.py:625:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
[2025-05-28 02:11:16,049] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 02:11:16,049] [INFO] [comm.py:594:init_distributed] cdb=None
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-05-28 02:11:24,322] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.02B parameters
Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.68s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.72s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.74s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.74s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.77s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.78s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.78s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:03<00:07,  1.99s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:03<00:07,  1.99s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:03<00:08,  2.01s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:03<00:08,  2.01s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:03<00:08,  2.01s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:03<00:08,  2.02s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:03<00:08,  2.03s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:06<00:30,  6.12s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:09<00:11,  3.67s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:09<00:11,  3.68s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:09<00:10,  3.66s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:09<00:11,  3.68s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:09<00:11,  3.70s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:09<00:11,  3.69s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:09<00:11,  3.70s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:12<00:25,  6.32s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.42s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.44s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.43s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.44s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.45s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.45s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.45s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:17<00:17,  5.73s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.72s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.73s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.72s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.73s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.74s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.73s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.74s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.43s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.56s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.44s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.56s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.44s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.56s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.44s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.56s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.45s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.57s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.44s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.57s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.45s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.57s/it]
Loading checkpoint shards:  67%|██████▋   | 4/6 [00:22<00:10,  5.39s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:27<00:05,  5.43s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:29<00:00,  4.09s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:29<00:00,  4.91s/it]
[2025-05-28 02:11:54,077] [WARNING] [partition_parameters.py:836:_post_init_method] param `probe` in SiglipMultiheadAttentionPoolingHead not on GPU so was not broadcasted from rank 0
[2025-05-28 02:11:54,078] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.44B parameters
[2025-05-28 02:11:55,246] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.49B parameters
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask'][Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']

[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[dist-0-of-8] LlavaLlamaModel(
  (llm): LlamaForCausalLM(
    (model): LlamaModel(
      (embed_tokens): Embedding(32000, 5120, padding_idx=0)
      (layers): ModuleList(
        (0-39): 40 x LlamaDecoderLayer(
          (self_attn): LlamaFlashAttention2(
            (q_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (k_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (v_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (o_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (rotary_emb): LlamaRotaryEmbedding()
          )
          (mlp): LlamaMLP(
            (gate_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (up_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (down_proj): Linear(in_features=13824, out_features=5120, bias=False)
            (act_fn): SiLU()
          )
          (input_layernorm): LlamaRMSNorm()
          (post_attention_layernorm): LlamaRMSNorm()
        )
      )
      (norm): LlamaRMSNorm()
    )
    (lm_head): Linear(in_features=5120, out_features=32000, bias=False)
  )
  (vision_tower): SiglipVisionTower(
    (vision_tower): SiglipVisionModel(
      (vision_model): SiglipVisionTransformer(
        (embeddings): SiglipVisionEmbeddings(
          (patch_embedding): Conv2d(3, 1152, kernel_size=(14, 14), stride=(14, 14), padding=valid)
          (position_embedding): Embedding(729, 1152)
        )
        (encoder): SiglipEncoder(
          (layers): ModuleList(
            (0-26): 27 x SiglipEncoderLayer(
              (self_attn): SiglipAttention(
                (k_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (v_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (q_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (out_proj): Linear(in_features=1152, out_features=1152, bias=True)
              )
              (layer_norm1): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
              (mlp): SiglipMLP(
                (activation_fn): PytorchGELUTanh()
                (fc1): Linear(in_features=1152, out_features=4304, bias=True)
                (fc2): Linear(in_features=4304, out_features=1152, bias=True)
              )
              (layer_norm2): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
            )
          )
        )
        (post_layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
        (head): SiglipMultiheadAttentionPoolingHead(
          (attention): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=1152, out_features=1152, bias=True)
          )
          (layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
          (mlp): SiglipMLP(
            (activation_fn): PytorchGELUTanh()
            (fc1): Linear(in_features=1152, out_features=4304, bias=True)
            (fc2): Linear(in_features=4304, out_features=1152, bias=True)
          )
        )
      )
    )
  )
  (mm_projector): MultimodalProjector(
    (layers): Sequential(
      (0): DownSampleBlock()
      (1): LayerNorm((4608,), eps=1e-05, elementwise_affine=True)
      (2): Linear(in_features=4608, out_features=5120, bias=True)
      (3): GELU(approximate='none')
      (4): Linear(in_features=5120, out_features=5120, bias=True)
    )
  )
)
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[dist-0-of-8] Tunable parameters:
language model True
[dist-0-of-8] vision tower True
[dist-0-of-8] mm projector True
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2338919639587402
length of dataloader: 13280 1700195
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.233156681060791
[GPU memory] before trainer 3.234004497528076
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2333102226257324
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.236856460571289
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.23234224319458
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.231172561645508
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.233351230621338
Parameter Offload: Total persistent parameters: 847296 in 365 params
wandb: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
wandb: Tracking run with wandb version 0.18.7
wandb: Run data is saved locally in /lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/wandb/run-20250528_021333-jo79i4gq
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run vila_13b_path_mask
wandb: ⭐️ View project at https://wandb.ai/memmelma/VILA
wandb: 🚀 View run at https://wandb.ai/memmelma/VILA/runs/jo79i4gq
  0%|          | 0/6640 [00:00<?, ?it/s]Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
 24%|██▍       | 1601/6640 [00:34<01:49, 46.19it/s]                                                   {'loss': 0.5414, 'learning_rate': 1.7754033379748973e-05, 'epoch': 0.24}
 24%|██▍       | 1601/6640 [00:34<01:49, 46.19it/s] 24%|██▍       | 1601/6640 [00:47<01:49, 46.19it/s] 24%|██▍       | 1602/6640 [00:50<02:59, 27.99it/s]                                                   {'loss': 0.5381, 'learning_rate': 1.7750952007201815e-05, 'epoch': 0.24}
 24%|██▍       | 1602/6640 [00:50<02:59, 27.99it/s] 24%|██▍       | 1603/6640 [01:06<04:41, 17.87it/s]                                                   {'loss': 0.551, 'learning_rate': 1.7747868790136012e-05, 'epoch': 0.24}
 24%|██▍       | 1603/6640 [01:06<04:41, 17.87it/s] 24%|██▍       | 1604/6640 [01:22<07:10, 11.69it/s]                                                   {'loss': 0.5201, 'learning_rate': 1.7744783729285285e-05, 'epoch': 0.24}
 24%|██▍       | 1604/6640 [01:22<07:10, 11.69it/s] 24%|██▍       | 1605/6640 [01:38<10:38,  7.88it/s]                                                   {'loss': 0.5466, 'learning_rate': 1.7741696825383797e-05, 'epoch': 0.24}
 24%|██▍       | 1605/6640 [01:38<10:38,  7.88it/s] 24%|██▍       | 1606/6640 [01:54<15:34,  5.39it/s]                                                   {'loss': 0.5414, 'learning_rate': 1.7738608079166147e-05, 'epoch': 0.24}
 24%|██▍       | 1606/6640 [01:54<15:34,  5.39it/s] 24%|██▍       | 1607/6640 [02:12<23:20,  3.59it/s]                                                   {'loss': 0.5545, 'learning_rate': 1.7735517491367377e-05, 'epoch': 0.24}
 24%|██▍       | 1607/6640 [02:12<23:20,  3.59it/s] 24%|██▍       | 1608/6640 [02:28<32:55,  2.55it/s]                                                   {'loss': 0.5508, 'learning_rate': 1.7732425062722957e-05, 'epoch': 0.24}
 24%|██▍       | 1608/6640 [02:28<32:55,  2.55it/s] 24%|██▍       | 1609/6640 [02:46<48:22,  1.73it/s]                                                   {'loss': 0.5443, 'learning_rate': 1.772933079396881e-05, 'epoch': 0.24}
 24%|██▍       | 1609/6640 [02:46<48:22,  1.73it/s] 24%|██▍       | 1610/6640 [03:03<1:08:51,  1.22it/s]                                                     {'loss': 0.5598, 'learning_rate': 1.7726234685841283e-05, 'epoch': 0.24}
 24%|██▍       | 1610/6640 [03:03<1:08:51,  1.22it/s] 24%|██▍       | 1611/6640 [03:19<1:34:39,  1.13s/it]                                                     {'loss': 0.5602, 'learning_rate': 1.772313673907717e-05, 'epoch': 0.24}
 24%|██▍       | 1611/6640 [03:19<1:34:39,  1.13s/it] 24%|██▍       | 1612/6640 [03:35<2:10:57,  1.56s/it]                                                     {'loss': 0.5579, 'learning_rate': 1.77200369544137e-05, 'epoch': 0.24}
 24%|██▍       | 1612/6640 [03:35<2:10:57,  1.56s/it] 24%|██▍       | 1613/6640 [03:51<2:58:03,  2.13s/it]                                                     {'loss': 0.5611, 'learning_rate': 1.7716935332588536e-05, 'epoch': 0.24}
 24%|██▍       | 1613/6640 [03:51<2:58:03,  2.13s/it] 24%|██▍       | 1614/6640 [04:07<4:00:35,  2.87s/it]                                                     {'loss': 0.5263, 'learning_rate': 1.771383187433978e-05, 'epoch': 0.24}
 24%|██▍       | 1614/6640 [04:07<4:00:35,  2.87s/it] 24%|██▍       | 1615/6640 [04:23<5:17:56,  3.80s/it]                                                     {'loss': 0.5509, 'learning_rate': 1.7710726580405977e-05, 'epoch': 0.24}
 24%|██▍       | 1615/6640 [04:23<5:17:56,  3.80s/it] 24%|██▍       | 1616/6640 [04:39<6:49:29,  4.89s/it]                                                     {'loss': 0.5377, 'learning_rate': 1.77076194515261e-05, 'epoch': 0.24}
 24%|██▍       | 1616/6640 [04:39<6:49:29,  4.89s/it] 24%|██▍       | 1617/6640 [04:55<8:38:47,  6.20s/it]                                                     {'loss': 0.5566, 'learning_rate': 1.770451048843956e-05, 'epoch': 0.24}
 24%|██▍       | 1617/6640 [04:55<8:38:47,  6.20s/it] 24%|██▍       | 1618/6640 [05:11<10:30:54,  7.54s/it]                                                      {'loss': 0.5327, 'learning_rate': 1.770139969188621e-05, 'epoch': 0.24}
 24%|██▍       | 1618/6640 [05:11<10:30:54,  7.54s/it] 24%|██▍       | 1619/6640 [05:28<12:48:33,  9.18s/it]                                                      {'loss': 0.5501, 'learning_rate': 1.7698287062606337e-05, 'epoch': 0.24}
 24%|██▍       | 1619/6640 [05:28<12:48:33,  9.18s/it] 24%|██▍       | 1620/6640 [05:45<14:52:03, 10.66s/it]                                                      {'loss': 0.5502, 'learning_rate': 1.769517260134066e-05, 'epoch': 0.24}
 24%|██▍       | 1620/6640 [05:45<14:52:03, 10.66s/it] 24%|██▍       | 1621/6640 [06:01<16:33:17, 11.87s/it]                                                      {'loss': 0.5466, 'learning_rate': 1.769205630883034e-05, 'epoch': 0.24}
 24%|██▍       | 1621/6640 [06:01<16:33:17, 11.87s/it] 24%|██▍       | 1622/6640 [06:18<18:07:32, 13.00s/it]                                                      {'loss': 0.5452, 'learning_rate': 1.7688938185816972e-05, 'epoch': 0.24}
 24%|██▍       | 1622/6640 [06:18<18:07:32, 13.00s/it] 24%|██▍       | 1623/6640 [06:35<19:31:59, 14.02s/it]                                                      {'loss': 0.5423, 'learning_rate': 1.768581823304258e-05, 'epoch': 0.24}
 24%|██▍       | 1623/6640 [06:35<19:31:59, 14.02s/it] 24%|██▍       | 1624/6640 [06:51<20:13:05, 14.51s/it]                                                      {'loss': 0.5465, 'learning_rate': 1.7682696451249635e-05, 'epoch': 0.24}
 24%|██▍       | 1624/6640 [06:51<20:13:05, 14.51s/it] 24%|██▍       | 1625/6640 [07:07<20:55:30, 15.02s/it]                                                      {'loss': 0.5474, 'learning_rate': 1.7679572841181033e-05, 'epoch': 0.24}
 24%|██▍       | 1625/6640 [07:07<20:55:30, 15.02s/it] 24%|██▍       | 1626/6640 [07:23<21:18:12, 15.30s/it]                                                      {'loss': 0.5347, 'learning_rate': 1.7676447403580114e-05, 'epoch': 0.24}
 24%|██▍       | 1626/6640 [07:23<21:18:12, 15.30s/it] 25%|██▍       | 1627/6640 [07:40<21:46:59, 15.64s/it]                                                      {'loss': 0.5481, 'learning_rate': 1.7673320139190644e-05, 'epoch': 0.25}
 25%|██▍       | 1627/6640 [07:40<21:46:59, 15.64s/it] 25%|██▍       | 1628/6640 [07:56<22:01:05, 15.82s/it]                                                      {'loss': 0.5598, 'learning_rate': 1.7670191048756827e-05, 'epoch': 0.25}
 25%|██▍       | 1628/6640 [07:56<22:01:05, 15.82s/it] 25%|██▍       | 1629/6640 [08:12<22:13:26, 15.97s/it]                                                      {'loss': 0.5623, 'learning_rate': 1.7667060133023312e-05, 'epoch': 0.25}
 25%|██▍       | 1629/6640 [08:12<22:13:26, 15.97s/it] 25%|██▍       | 1630/6640 [08:28<22:15:12, 15.99s/it]                                                      {'loss': 0.5459, 'learning_rate': 1.766392739273516e-05, 'epoch': 0.25}
 25%|██▍       | 1630/6640 [08:28<22:15:12, 15.99s/it] 25%|██▍       | 1631/6640 [08:45<22:37:59, 16.27s/it]                                                      {'loss': 0.5342, 'learning_rate': 1.766079282863789e-05, 'epoch': 0.25}
 25%|██▍       | 1631/6640 [08:45<22:37:59, 16.27s/it] 25%|██▍       | 1632/6640 [09:02<22:44:12, 16.34s/it]                                                      {'loss': 0.5505, 'learning_rate': 1.7657656441477436e-05, 'epoch': 0.25}
 25%|██▍       | 1632/6640 [09:02<22:44:12, 16.34s/it] 25%|██▍       | 1633/6640 [09:18<22:36:20, 16.25s/it]                                                      {'loss': 0.5493, 'learning_rate': 1.765451823200018e-05, 'epoch': 0.25}
 25%|██▍       | 1633/6640 [09:18<22:36:20, 16.25s/it] 25%|██▍       | 1634/6640 [09:33<22:19:08, 16.05s/it]                                                      {'loss': 0.532, 'learning_rate': 1.765137820095293e-05, 'epoch': 0.25}
 25%|██▍       | 1634/6640 [09:33<22:19:08, 16.05s/it] 25%|██▍       | 1635/6640 [09:50<22:31:44, 16.20s/it]                                                      {'loss': 0.5429, 'learning_rate': 1.7648236349082928e-05, 'epoch': 0.25}
 25%|██▍       | 1635/6640 [09:50<22:31:44, 16.20s/it] 25%|██▍       | 1636/6640 [10:08<23:11:34, 16.69s/it]                                                      {'loss': 0.5553, 'learning_rate': 1.764509267713785e-05, 'epoch': 0.25}
 25%|██▍       | 1636/6640 [10:08<23:11:34, 16.69s/it] 25%|██▍       | 1637/6640 [10:24<22:51:11, 16.44s/it]                                                      {'loss': 0.5512, 'learning_rate': 1.7641947185865808e-05, 'epoch': 0.25}
 25%|██▍       | 1637/6640 [10:24<22:51:11, 16.44s/it] 25%|██▍       | 1638/6640 [10:40<22:49:20, 16.43s/it]                                                      {'loss': 0.5601, 'learning_rate': 1.763879987601534e-05, 'epoch': 0.25}
 25%|██▍       | 1638/6640 [10:40<22:49:20, 16.43s/it] 25%|██▍       | 1639/6640 [10:56<22:29:34, 16.19s/it]                                                      {'loss': 0.5281, 'learning_rate': 1.7635650748335426e-05, 'epoch': 0.25}
 25%|██▍       | 1639/6640 [10:56<22:29:34, 16.19s/it] 25%|██▍       | 1640/6640 [11:12<22:37:28, 16.29s/it]                                                      {'loss': 0.5561, 'learning_rate': 1.7632499803575473e-05, 'epoch': 0.25}
 25%|██▍       | 1640/6640 [11:12<22:37:28, 16.29s/it] 25%|██▍       | 1641/6640 [11:28<22:41:00, 16.34s/it]                                                      {'loss': 0.5477, 'learning_rate': 1.7629347042485322e-05, 'epoch': 0.25}
 25%|██▍       | 1641/6640 [11:28<22:41:00, 16.34s/it] 25%|██▍       | 1642/6640 [11:45<22:38:56, 16.31s/it]                                                      {'loss': 0.5372, 'learning_rate': 1.762619246581524e-05, 'epoch': 0.25}
 25%|██▍       | 1642/6640 [11:45<22:38:56, 16.31s/it] 25%|██▍       | 1643/6640 [12:01<22:29:46, 16.21s/it]                                                      {'loss': 0.5434, 'learning_rate': 1.762303607431594e-05, 'epoch': 0.25}
 25%|██▍       | 1643/6640 [12:01<22:29:46, 16.21s/it] 25%|██▍       | 1644/6640 [12:17<22:25:11, 16.16s/it]                                                      {'loss': 0.534, 'learning_rate': 1.761987786873855e-05, 'epoch': 0.25}
 25%|██▍       | 1644/6640 [12:17<22:25:11, 16.16s/it] 25%|██▍       | 1645/6640 [12:32<22:14:03, 16.02s/it]                                                      {'loss': 0.5389, 'learning_rate': 1.7616717849834644e-05, 'epoch': 0.25}
 25%|██▍       | 1645/6640 [12:32<22:14:03, 16.02s/it] 25%|██▍       | 1646/6640 [12:49<22:26:21, 16.18s/it]                                                      {'loss': 0.5356, 'learning_rate': 1.761355601835622e-05, 'epoch': 0.25}
 25%|██▍       | 1646/6640 [12:49<22:26:21, 16.18s/it] 25%|██▍       | 1647/6640 [13:05<22:15:59, 16.05s/it]                                                      {'loss': 0.5343, 'learning_rate': 1.761039237505571e-05, 'epoch': 0.25}
 25%|██▍       | 1647/6640 [13:05<22:15:59, 16.05s/it] 25%|██▍       | 1648/6640 [13:21<22:25:31, 16.17s/it]                                                      {'loss': 0.5468, 'learning_rate': 1.7607226920685976e-05, 'epoch': 0.25}
 25%|██▍       | 1648/6640 [13:21<22:25:31, 16.17s/it] 25%|██▍       | 1649/6640 [13:38<22:31:58, 16.25s/it]                                                      {'loss': 0.5262, 'learning_rate': 1.7604059656000313e-05, 'epoch': 0.25}
 25%|██▍       | 1649/6640 [13:38<22:31:58, 16.25s/it]024 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
17 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...6
 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
 25%|██▍       | 1650/6640 [13:53<22:13:24, 16.03s/it]                                                      {'loss': 0.5408, 'learning_rate': 1.7600890581752435e-05, 'epoch': 0.25}
 25%|██▍       | 1650/6640 [13:53<22:13:24, 16.03s/it] 25%|██▍       | 1651/6640 [14:10<22:23:54, 16.16s/it]                                                      {'loss': 0.5288, 'learning_rate': 1.759771969869651e-05, 'epoch': 0.25}
 25%|██▍       | 1651/6640 [14:10<22:23:54, 16.16s/it] 25%|██▍       | 1652/6640 [14:25<22:10:45, 16.01s/it]                                                      {'loss': 0.5532, 'learning_rate': 1.759454700758712e-05, 'epoch': 0.25}
 25%|██▍       | 1652/6640 [14:25<22:10:45, 16.01s/it] 25%|██▍       | 1653/6640 [14:43<22:46:18, 16.44s/it]                                                      {'loss': 0.5344, 'learning_rate': 1.7591372509179273e-05, 'epoch': 0.25}
 25%|██▍       | 1653/6640 [14:43<22:46:18, 16.44s/it] 25%|██▍       | 1654/6640 [14:58<22:29:03, 16.23s/it]                                                      {'loss': 0.548, 'learning_rate': 1.7588196204228423e-05, 'epoch': 0.25}
 25%|██▍       | 1654/6640 [14:58<22:29:03, 16.23s/it] 25%|██▍       | 1655/6640 [15:15<22:34:29, 16.30s/it]                                                      {'loss': 0.5602, 'learning_rate': 1.758501809349044e-05, 'epoch': 0.25}
 25%|██▍       | 1655/6640 [15:15<22:34:29, 16.30s/it] 25%|██▍       | 1656/6640 [15:30<22:12:38, 16.04s/it]                                                      {'loss': 0.535, 'learning_rate': 1.758183817772163e-05, 'epoch': 0.25}
 25%|██▍       | 1656/6640 [15:30<22:12:38, 16.04s/it] 25%|██▍       | 1657/6640 [15:47<22:15:27, 16.08s/it]                                                      {'loss': 0.5409, 'learning_rate': 1.757865645767873e-05, 'epoch': 0.25}
 25%|██▍       | 1657/6640 [15:47<22:15:27, 16.08s/it] 25%|██▍       | 1658/6640 [16:03<22:29:51, 16.26s/it]                                                      {'loss': 0.5738, 'learning_rate': 1.75754729341189e-05, 'epoch': 0.25}
 25%|██▍       | 1658/6640 [16:03<22:29:51, 16.26s/it] 25%|██▍       | 1659/6640 [16:19<22:23:38, 16.19s/it]                                                      {'loss': 0.5388, 'learning_rate': 1.7572287607799735e-05, 'epoch': 0.25}
 25%|██▍       | 1659/6640 [16:19<22:23:38, 16.19s/it] 25%|██▌       | 1660/6640 [16:36<22:27:13, 16.23s/it]                                                      {'loss': 0.5555, 'learning_rate': 1.756910047947926e-05, 'epoch': 0.25}
 25%|██▌       | 1660/6640 [16:36<22:27:13, 16.23s/it] 25%|██▌       | 1661/6640 [16:51<22:18:44, 16.13s/it]                                                      {'loss': 0.5529, 'learning_rate': 1.7565911549915925e-05, 'epoch': 0.25}
 25%|██▌       | 1661/6640 [16:51<22:18:44, 16.13s/it] 25%|██▌       | 1662/6640 [17:08<22:17:07, 16.12s/it]                                                      {'loss': 0.5302, 'learning_rate': 1.756272081986861e-05, 'epoch': 0.25}
 25%|██▌       | 1662/6640 [17:08<22:17:07, 16.12s/it] 25%|██▌       | 1663/6640 [17:24<22:23:04, 16.19s/it]                                                      {'loss': 0.5489, 'learning_rate': 1.7559528290096618e-05, 'epoch': 0.25}
 25%|██▌       | 1663/6640 [17:24<22:23:04, 16.19s/it] 25%|██▌       | 1664/6640 [17:40<22:15:55, 16.11s/it]                                                      {'loss': 0.5521, 'learning_rate': 1.755633396135969e-05, 'epoch': 0.25}
 25%|██▌       | 1664/6640 [17:40<22:15:55, 16.11s/it] 25%|██▌       | 1665/6640 [17:56<22:22:09, 16.19s/it]                                                      {'loss': 0.5453, 'learning_rate': 1.755313783441799e-05, 'epoch': 0.25}
 25%|██▌       | 1665/6640 [17:56<22:22:09, 16.19s/it] 25%|██▌       | 1666/6640 [18:14<22:56:28, 16.60s/it]                                                      {'loss': 0.5445, 'learning_rate': 1.7549939910032113e-05, 'epoch': 0.25}
 25%|██▌       | 1666/6640 [18:14<22:56:28, 16.60s/it] 25%|██▌       | 1667/6640 [18:30<22:44:11, 16.46s/it]                                                      {'loss': 0.5367, 'learning_rate': 1.7546740188963075e-05, 'epoch': 0.25}
 25%|██▌       | 1667/6640 [18:30<22:44:11, 16.46s/it] 25%|██▌       | 1668/6640 [18:46<22:38:30, 16.39s/it]                                                      {'loss': 0.5559, 'learning_rate': 1.754353867197232e-05, 'epoch': 0.25}
 25%|██▌       | 1668/6640 [18:46<22:38:30, 16.39s/it] 25%|██▌       | 1669/6640 [19:02<22:32:13, 16.32s/it]                                                      {'loss': 0.5595, 'learning_rate': 1.7540335359821735e-05, 'epoch': 0.25}
 25%|██▌       | 1669/6640 [19:02<22:32:13, 16.32s/it] 25%|██▌       | 1670/6640 [19:19<22:33:42, 16.34s/it]                                                      {'loss': 0.5459, 'learning_rate': 1.7537130253273613e-05, 'epoch': 0.25}
 25%|██▌       | 1670/6640 [19:19<22:33:42, 16.34s/it] 25%|██▌       | 1671/6640 [19:35<22:28:37, 16.28s/it]                                                      {'loss': 0.5291, 'learning_rate': 1.7533923353090686e-05, 'epoch': 0.25}
 25%|██▌       | 1671/6640 [19:35<22:28:37, 16.28s/it] 25%|██▌       | 1672/6640 [19:52<22:44:16, 16.48s/it]                                                      {'loss': 0.534, 'learning_rate': 1.7530714660036112e-05, 'epoch': 0.25}
 25%|██▌       | 1672/6640 [19:52<22:44:16, 16.48s/it] 25%|██▌       | 1673/6640 [20:08<22:47:41, 16.52s/it]                                                      {'loss': 0.537, 'learning_rate': 1.7527504174873468e-05, 'epoch': 0.25}
 25%|██▌       | 1673/6640 [20:08<22:47:41, 16.52s/it] 25%|██▌       | 1674/6640 [20:24<22:31:39, 16.33s/it]                                                      {'loss': 0.5481, 'learning_rate': 1.7524291898366776e-05, 'epoch': 0.25}
 25%|██▌       | 1674/6640 [20:24<22:31:39, 16.33s/it] 25%|██▌       | 1675/6640 [20:41<22:31:22, 16.33s/it]                                                      {'loss': 0.542, 'learning_rate': 1.7521077831280453e-05, 'epoch': 0.25}
 25%|██▌       | 1675/6640 [20:41<22:31:22, 16.33s/it] 25%|██▌       | 1676/6640 [20:57<22:20:50, 16.21s/it]                                                      {'loss': 0.5552, 'learning_rate': 1.7517861974379378e-05, 'epoch': 0.25}
 25%|██▌       | 1676/6640 [20:57<22:20:50, 16.21s/it] 25%|██▌       | 1677/6640 [21:12<22:07:10, 16.04s/it]                                                      {'loss': 0.529, 'learning_rate': 1.7514644328428826e-05, 'epoch': 0.25}
 25%|██▌       | 1677/6640 [21:12<22:07:10, 16.04s/it] 25%|██▌       | 1678/6640 [21:29<22:21:38, 16.22s/it]                                                      {'loss': 0.5394, 'learning_rate': 1.751142489419452e-05, 'epoch': 0.25}
 25%|██▌       | 1678/6640 [21:29<22:21:38, 16.22s/it] 25%|██▌       | 1679/6640 [21:45<22:28:39, 16.31s/it]                                                      {'loss': 0.5417, 'learning_rate': 1.7508203672442595e-05, 'epoch': 0.25}
 25%|██▌       | 1679/6640 [21:45<22:28:39, 16.31s/it] 25%|██▌       | 1680/6640 [22:01<22:18:09, 16.19s/it]                                                      {'loss': 0.5445, 'learning_rate': 1.7504980663939614e-05, 'epoch': 0.25}
 25%|██▌       | 1680/6640 [22:01<22:18:09, 16.19s/it] 25%|██▌       | 1681/6640 [22:17<22:10:55, 16.10s/it]                                                      {'loss': 0.5475, 'learning_rate': 1.750175586945257e-05, 'epoch': 0.25}
 25%|██▌       | 1681/6640 [22:17<22:10:55, 16.10s/it] 25%|██▌       | 1682/6640 [22:33<21:58:33, 15.96s/it]                                                      {'loss': 0.5382, 'learning_rate': 1.7498529289748875e-05, 'epoch': 0.25}
 25%|██▌       | 1682/6640 [22:33<21:58:33, 15.96s/it] 25%|██▌       | 1683/6640 [22:49<22:17:02, 16.18s/it]                                                      {'loss': 0.5461, 'learning_rate': 1.7495300925596366e-05, 'epoch': 0.25}
 25%|██▌       | 1683/6640 [22:49<22:17:02, 16.18s/it] 25%|██▌       | 1684/6640 [23:05<22:08:09, 16.08s/it]                                                      {'loss': 0.5316, 'learning_rate': 1.749207077776331e-05, 'epoch': 0.25}
 25%|██▌       | 1684/6640 [23:05<22:08:09, 16.08s/it] 25%|██▌       | 1685/6640 [23:22<22:34:44, 16.40s/it]                                                      {'loss': 0.5551, 'learning_rate': 1.7488838847018397e-05, 'epoch': 0.25}
 25%|██▌       | 1685/6640 [23:22<22:34:44, 16.40s/it] 25%|██▌       | 1686/6640 [23:38<22:24:22, 16.28s/it]                                                      {'loss': 0.5476, 'learning_rate': 1.7485605134130738e-05, 'epoch': 0.25}
 25%|██▌       | 1686/6640 [23:38<22:24:22, 16.28s/it] 25%|██▌       | 1687/6640 [23:56<22:45:27, 16.54s/it]                                                      {'loss': 0.5284, 'learning_rate': 1.748236963986987e-05, 'epoch': 0.25}
 25%|██▌       | 1687/6640 [23:56<22:45:27, 16.54s/it] 25%|██▌       | 1688/6640 [24:12<22:43:09, 16.52s/it]                                                      {'loss': 0.5491, 'learning_rate': 1.7479132365005756e-05, 'epoch': 0.25}
 25%|██▌       | 1688/6640 [24:12<22:43:09, 16.52s/it] 25%|██▌       | 1689/6640 [24:28<22:21:34, 16.26s/it]                                                      {'loss': 0.5662, 'learning_rate': 1.747589331030878e-05, 'epoch': 0.25}
 25%|██▌       | 1689/6640 [24:28<22:21:34, 16.26s/it] 25%|██▌       | 1690/6640 [24:45<22:39:23, 16.48s/it]                                                      {'loss': 0.5462, 'learning_rate': 1.7472652476549747e-05, 'epoch': 0.25}
 25%|██▌       | 1690/6640 [24:45<22:39:23, 16.48s/it] 25%|██▌       | 1691/6640 [25:01<22:28:30, 16.35s/it]                                                      {'loss': 0.5347, 'learning_rate': 1.746940986449989e-05, 'epoch': 0.25}
 25%|██▌       | 1691/6640 [25:01<22:28:30, 16.35s/it] 25%|██▌       | 1692/6640 [25:17<22:14:01, 16.18s/it]                                                      {'loss': 0.5594, 'learning_rate': 1.7466165474930862e-05, 'epoch': 0.25}
 25%|██▌       | 1692/6640 [25:17<22:14:01, 16.18s/it] 25%|██▌       | 1693/6640 [25:32<22:02:24, 16.04s/it]                                                      {'loss': 0.5377, 'learning_rate': 1.7462919308614744e-05, 'epoch': 0.25}
 25%|██▌       | 1693/6640 [25:32<22:02:24, 16.04s/it] 26%|██▌       | 1694/6640 [25:50<22:32:20, 16.41s/it]                                                      {'loss': 0.5321, 'learning_rate': 1.7459671366324035e-05, 'epoch': 0.26}
 26%|██▌       | 1694/6640 [25:50<22:32:20, 16.41s/it] 26%|██▌       | 1695/6640 [26:05<22:20:34, 16.27s/it]                                                      {'loss': 0.5278, 'learning_rate': 1.7456421648831658e-05, 'epoch': 0.26}
 26%|██▌       | 1695/6640 [26:05<22:20:34, 16.27s/it] 26%|██▌       | 1696/6640 [26:22<22:31:07, 16.40s/it]                                                      {'loss': 0.5136, 'learning_rate': 1.7453170156910958e-05, 'epoch': 0.26}
 26%|██▌       | 1696/6640 [26:22<22:31:07, 16.40s/it] 26%|██▌       | 1697/6640 [26:38<22:20:50, 16.28s/it]                                                      {'loss': 0.5635, 'learning_rate': 1.7449916891335705e-05, 'epoch': 0.26}
 26%|██▌       | 1697/6640 [26:38<22:20:50, 16.28s/it] 26%|██▌       | 1698/6640 [26:56<22:46:38, 16.59s/it]                                                      {'loss': 0.545, 'learning_rate': 1.744666185288009e-05, 'epoch': 0.26}
 26%|██▌       | 1698/6640 [26:56<22:46:38, 16.59s/it] 26%|██▌       | 1699/6640 [27:11<22:29:15, 16.38s/it]                                                      {'loss': 0.5409, 'learning_rate': 1.7443405042318718e-05, 'epoch': 0.26}
 26%|██▌       | 1699/6640 [27:11<22:29:15, 16.38s/it]4 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
67  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

01 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
3  AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
 26%|██▌       | 1700/6640 [27:28<22:25:53, 16.35s/it]                                                      {'loss': 0.5475, 'learning_rate': 1.744014646042663e-05, 'epoch': 0.26}
 26%|██▌       | 1700/6640 [27:28<22:25:53, 16.35s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1700/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1700/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1700/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 26%|██▌       | 1701/6640 [29:05<55:52:20, 40.72s/it]                                                      {'loss': 0.5546, 'learning_rate': 1.7436886107979276e-05, 'epoch': 0.26}
 26%|██▌       | 1701/6640 [29:05<55:52:20, 40.72s/it] 26%|██▌       | 1702/6640 [29:21<45:35:37, 33.24s/it]                                                      {'loss': 0.5272, 'learning_rate': 1.7433623985752537e-05, 'epoch': 0.26}
 26%|██▌       | 1702/6640 [29:21<45:35:37, 33.24s/it] 26%|██▌       | 1703/6640 [29:37<38:38:02, 28.17s/it]                                                      {'loss': 0.553, 'learning_rate': 1.7430360094522706e-05, 'epoch': 0.26}
 26%|██▌       | 1703/6640 [29:37<38:38:02, 28.17s/it] 26%|██▌       | 1704/6640 [29:54<33:49:35, 24.67s/it]                                                      {'loss': 0.5207, 'learning_rate': 1.74270944350665e-05, 'epoch': 0.26}
 26%|██▌       | 1704/6640 [29:54<33:49:35, 24.67s/it] 26%|██▌       | 1705/6640 [30:10<30:23:33, 22.17s/it]                                                      {'loss': 0.5403, 'learning_rate': 1.742382700816107e-05, 'epoch': 0.26}
 26%|██▌       | 1705/6640 [30:10<30:23:33, 22.17s/it] 26%|██▌       | 1706/6640 [30:27<28:04:03, 20.48s/it]                                                      {'loss': 0.5356, 'learning_rate': 1.7420557814583965e-05, 'epoch': 0.26}
 26%|██▌       | 1706/6640 [30:27<28:04:03, 20.48s/it] 26%|██▌       | 1707/6640 [30:43<26:07:28, 19.07s/it]                                                      {'loss': 0.566, 'learning_rate': 1.7417286855113166e-05, 'epoch': 0.26}
 26%|██▌       | 1707/6640 [30:43<26:07:28, 19.07s/it] 26%|██▌       | 1708/6640 [30:58<24:39:00, 17.99s/it]                                                      {'loss': 0.5318, 'learning_rate': 1.7414014130527077e-05, 'epoch': 0.26}
 26%|██▌       | 1708/6640 [30:58<24:39:00, 17.99s/it] 26%|██▌       | 1709/6640 [31:14<23:53:40, 17.44s/it]                                                      {'loss': 0.5405, 'learning_rate': 1.7410739641604516e-05, 'epoch': 0.26}
 26%|██▌       | 1709/6640 [31:14<23:53:40, 17.44s/it] 26%|██▌       | 1710/6640 [31:30<23:15:17, 16.98s/it]                                                      {'loss': 0.5309, 'learning_rate': 1.7407463389124728e-05, 'epoch': 0.26}
 26%|██▌       | 1710/6640 [31:30<23:15:17, 16.98s/it] 26%|██▌       | 1711/6640 [31:46<22:50:38, 16.68s/it]                                                      {'loss': 0.5395, 'learning_rate': 1.740418537386737e-05, 'epoch': 0.26}
 26%|██▌       | 1711/6640 [31:46<22:50:38, 16.68s/it] 26%|██▌       | 1712/6640 [32:02<22:23:33, 16.36s/it]                                                      {'loss': 0.5373, 'learning_rate': 1.740090559661252e-05, 'epoch': 0.26}
 26%|██▌       | 1712/6640 [32:02<22:23:33, 16.36s/it] 26%|██▌       | 1713/6640 [32:17<22:06:52, 16.16s/it]                                                      {'loss': 0.5228, 'learning_rate': 1.739762405814068e-05, 'epoch': 0.26}
 26%|██▌       | 1713/6640 [32:17<22:06:52, 16.16s/it] 26%|██▌       | 1714/6640 [32:33<21:52:09, 15.98s/it]                                                      {'loss': 0.547, 'learning_rate': 1.7394340759232768e-05, 'epoch': 0.26}
 26%|██▌       | 1714/6640 [32:33<21:52:09, 15.98s/it] 26%|██▌       | 1715/6640 [32:49<21:58:26, 16.06s/it]                                                      {'loss': 0.5358, 'learning_rate': 1.739105570067012e-05, 'epoch': 0.26}
 26%|██▌       | 1715/6640 [32:49<21:58:26, 16.06s/it] 26%|██▌       | 1716/6640 [33:07<22:43:44, 16.62s/it]                                                      {'loss': 0.5268, 'learning_rate': 1.738776888323449e-05, 'epoch': 0.26}
 26%|██▌       | 1716/6640 [33:07<22:43:44, 16.62s/it] 26%|██▌       | 1717/6640 [33:24<22:38:48, 16.56s/it]                                                      {'loss': 0.5356, 'learning_rate': 1.7384480307708057e-05, 'epoch': 0.26}
 26%|██▌       | 1717/6640 [33:24<22:38:48, 16.56s/it] 26%|██▌       | 1718/6640 [33:40<22:27:33, 16.43s/it]                                                      {'loss': 0.5283, 'learning_rate': 1.738118997487341e-05, 'epoch': 0.26}
 26%|██▌       | 1718/6640 [33:40<22:27:33, 16.43s/it] 26%|██▌       | 1719/6640 [33:56<22:24:18, 16.39s/it]                                                      {'loss': 0.5562, 'learning_rate': 1.7377897885513556e-05, 'epoch': 0.26}
 26%|██▌       | 1719/6640 [33:56<22:24:18, 16.39s/it] 26%|██▌       | 1720/6640 [34:12<22:24:23, 16.40s/it]                                                      {'loss': 0.5668, 'learning_rate': 1.7374604040411934e-05, 'epoch': 0.26}
 26%|██▌       | 1720/6640 [34:12<22:24:23, 16.40s/it] 26%|██▌       | 1721/6640 [34:30<22:50:54, 16.72s/it]                                                      {'loss': 0.5601, 'learning_rate': 1.7371308440352388e-05, 'epoch': 0.26}
 26%|██▌       | 1721/6640 [34:30<22:50:54, 16.72s/it] 26%|██▌       | 1722/6640 [34:46<22:47:39, 16.69s/it]                                                      {'loss': 0.5486, 'learning_rate': 1.7368011086119175e-05, 'epoch': 0.26}
 26%|██▌       | 1722/6640 [34:46<22:47:39, 16.69s/it] 26%|██▌       | 1723/6640 [35:03<22:32:50, 16.51s/it]                                                      {'loss': 0.5413, 'learning_rate': 1.7364711978496984e-05, 'epoch': 0.26}
 26%|██▌       | 1723/6640 [35:03<22:32:50, 16.51s/it] 26%|██▌       | 1724/6640 [35:19<22:31:53, 16.50s/it]                                                      {'loss': 0.5432, 'learning_rate': 1.7361411118270915e-05, 'epoch': 0.26}
 26%|██▌       | 1724/6640 [35:19<22:31:53, 16.50s/it] 26%|██▌       | 1725/6640 [35:35<22:26:20, 16.44s/it]                                                      {'loss': 0.5469, 'learning_rate': 1.7358108506226477e-05, 'epoch': 0.26}
 26%|██▌       | 1725/6640 [35:35<22:26:20, 16.44s/it] 26%|██▌       | 1726/6640 [35:51<22:05:34, 16.19s/it]                                                      {'loss': 0.5434, 'learning_rate': 1.735480414314961e-05, 'epoch': 0.26}
 26%|██▌       | 1726/6640 [35:51<22:05:34, 16.19s/it] 26%|██▌       | 1727/6640 [36:07<21:53:46, 16.04s/it]                                                      {'loss': 0.5323, 'learning_rate': 1.7351498029826662e-05, 'epoch': 0.26}
 26%|██▌       | 1727/6640 [36:07<21:53:46, 16.04s/it] 26%|██▌       | 1728/6640 [36:24<22:19:48, 16.37s/it]                                                      {'loss': 0.5242, 'learning_rate': 1.7348190167044398e-05, 'epoch': 0.26}
 26%|██▌       | 1728/6640 [36:24<22:19:48, 16.37s/it] 26%|██▌       | 1729/6640 [36:40<22:11:19, 16.27s/it]                                                      {'loss': 0.5454, 'learning_rate': 1.7344880555589997e-05, 'epoch': 0.26}
 26%|██▌       | 1729/6640 [36:40<22:11:19, 16.27s/it] 26%|██▌       | 1730/6640 [36:56<22:08:33, 16.23s/it]                                                      {'loss': 0.5353, 'learning_rate': 1.7341569196251065e-05, 'epoch': 0.26}
 26%|██▌       | 1730/6640 [36:56<22:08:33, 16.23s/it] 26%|██▌       | 1731/6640 [37:13<22:24:24, 16.43s/it]                                                      {'loss': 0.533, 'learning_rate': 1.7338256089815612e-05, 'epoch': 0.26}
 26%|██▌       | 1731/6640 [37:13<22:24:24, 16.43s/it] 26%|██▌       | 1732/6640 [37:29<22:26:34, 16.46s/it]                                                      {'loss': 0.53, 'learning_rate': 1.7334941237072072e-05, 'epoch': 0.26}
 26%|██▌       | 1732/6640 [37:29<22:26:34, 16.46s/it] 26%|██▌       | 1733/6640 [37:46<22:23:21, 16.43s/it]                                                      {'loss': 0.5442, 'learning_rate': 1.733162463880929e-05, 'epoch': 0.26}
 26%|██▌       | 1733/6640 [37:46<22:23:21, 16.43s/it] 26%|██▌       | 1734/6640 [38:02<22:22:13, 16.42s/it]                                                      {'loss': 0.5566, 'learning_rate': 1.732830629581652e-05, 'epoch': 0.26}
 26%|██▌       | 1734/6640 [38:02<22:22:13, 16.42s/it] 26%|██▌       | 1735/6640 [38:19<22:32:51, 16.55s/it]                                                      {'loss': 0.5411, 'learning_rate': 1.732498620888345e-05, 'epoch': 0.26}
 26%|██▌       | 1735/6640 [38:19<22:32:51, 16.55s/it] 26%|██▌       | 1736/6640 [38:35<22:27:54, 16.49s/it]                                                      {'loss': 0.5409, 'learning_rate': 1.7321664378800166e-05, 'epoch': 0.26}
 26%|██▌       | 1736/6640 [38:35<22:27:54, 16.49s/it] 26%|██▌       | 1737/6640 [38:53<23:04:15, 16.94s/it]                                                      {'loss': 0.5365, 'learning_rate': 1.7318340806357174e-05, 'epoch': 0.26}
 26%|██▌       | 1737/6640 [38:53<23:04:15, 16.94s/it] 26%|██▌       | 1738/6640 [39:09<22:41:19, 16.66s/it]                                                      {'loss': 0.5698, 'learning_rate': 1.73150154923454e-05, 'epoch': 0.26}
 26%|██▌       | 1738/6640 [39:09<22:41:19, 16.66s/it] 26%|██▌       | 1739/6640 [39:26<22:35:54, 16.60s/it]                                                      {'loss': 0.5335, 'learning_rate': 1.731168843755617e-05, 'epoch': 0.26}
 26%|██▌       | 1739/6640 [39:26<22:35:54, 16.60s/it] 26%|██▌       | 1740/6640 [39:42<22:24:09, 16.46s/it]                                                      {'loss': 0.5552, 'learning_rate': 1.730835964278124e-05, 'epoch': 0.26}
 26%|██▌       | 1740/6640 [39:42<22:24:09, 16.46s/it] 26%|██▌       | 1741/6640 [39:58<22:25:11, 16.48s/it]                                                      {'loss': 0.536, 'learning_rate': 1.7305029108812777e-05, 'epoch': 0.26}
 26%|██▌       | 1741/6640 [39:58<22:25:11, 16.48s/it] 26%|██▌       | 1742/6640 [40:14<22:14:11, 16.34s/it]                                                      {'loss': 0.5414, 'learning_rate': 1.7301696836443355e-05, 'epoch': 0.26}
 26%|██▌       | 1742/6640 [40:14<22:14:11, 16.34s/it] 26%|██▋       | 1743/6640 [40:31<22:15:10, 16.36s/it]                                                      {'loss': 0.5232, 'learning_rate': 1.729836282646596e-05, 'epoch': 0.26}
 26%|██▋       | 1743/6640 [40:31<22:15:10, 16.36s/it] 26%|██▋       | 1744/6640 [40:48<22:26:32, 16.50s/it]                                                      {'loss': 0.5538, 'learning_rate': 1.729502707967401e-05, 'epoch': 0.26}
 26%|██▋       | 1744/6640 [40:48<22:26:32, 16.50s/it] 26%|██▋       | 1745/6640 [41:04<22:25:35, 16.49s/it]                                                      {'loss': 0.5349, 'learning_rate': 1.729168959686131e-05, 'epoch': 0.26}
 26%|██▋       | 1745/6640 [41:04<22:25:35, 16.49s/it] 26%|██▋       | 1746/6640 [41:20<22:21:18, 16.44s/it]                                                      {'loss': 0.5495, 'learning_rate': 1.7288350378822098e-05, 'epoch': 0.26}
 26%|██▋       | 1746/6640 [41:20<22:21:18, 16.44s/it] 26%|██▋       | 1747/6640 [41:37<22:23:11, 16.47s/it]                                                      {'loss': 0.5388, 'learning_rate': 1.7285009426351018e-05, 'epoch': 0.26}
 26%|██▋       | 1747/6640 [41:37<22:23:11, 16.47s/it] 26%|██▋       | 1748/6640 [41:53<22:09:15, 16.30s/it]                                                      {'loss': 0.5539, 'learning_rate': 1.7281666740243127e-05, 'epoch': 0.26}
 26%|██▋       | 1748/6640 [41:53<22:09:15, 16.30s/it] 26%|██▋       | 1749/6640 [42:09<22:15:04, 16.38s/it]                                                      {'loss': 0.535, 'learning_rate': 1.7278322321293895e-05, 'epoch': 0.26}
 26%|██▋       | 1749/6640 [42:09<22:15:04, 16.38s/it]4 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
61  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

30 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
 26%|██▋       | 1750/6640 [42:26<22:22:30, 16.47s/it]                                                      {'loss': 0.5273, 'learning_rate': 1.7274976170299197e-05, 'epoch': 0.26}
 26%|██▋       | 1750/6640 [42:26<22:22:30, 16.47s/it] 26%|██▋       | 1751/6640 [42:43<22:36:22, 16.65s/it]                                                      {'loss': 0.5407, 'learning_rate': 1.727162828805534e-05, 'epoch': 0.26}
 26%|██▋       | 1751/6640 [42:43<22:36:22, 16.65s/it] 26%|██▋       | 1752/6640 [42:59<22:11:33, 16.34s/it]                                                      {'loss': 0.5382, 'learning_rate': 1.7268278675359022e-05, 'epoch': 0.26}
 26%|██▋       | 1752/6640 [42:59<22:11:33, 16.34s/it] 26%|██▋       | 1753/6640 [43:15<22:11:14, 16.34s/it]                                                      {'loss': 0.5484, 'learning_rate': 1.7264927333007363e-05, 'epoch': 0.26}
 26%|██▋       | 1753/6640 [43:15<22:11:14, 16.34s/it] 26%|██▋       | 1754/6640 [43:32<22:15:55, 16.41s/it]                                                      {'loss': 0.5356, 'learning_rate': 1.7261574261797887e-05, 'epoch': 0.26}
 26%|██▋       | 1754/6640 [43:32<22:15:55, 16.41s/it] 26%|██▋       | 1755/6640 [43:49<22:47:09, 16.79s/it]                                                      {'loss': 0.5509, 'learning_rate': 1.7258219462528543e-05, 'epoch': 0.26}
 26%|██▋       | 1755/6640 [43:49<22:47:09, 16.79s/it] 26%|██▋       | 1756/6640 [44:05<22:23:40, 16.51s/it]                                                      {'loss': 0.5441, 'learning_rate': 1.7254862935997677e-05, 'epoch': 0.26}
 26%|██▋       | 1756/6640 [44:05<22:23:40, 16.51s/it] 26%|██▋       | 1757/6640 [44:21<22:12:07, 16.37s/it]                                                      {'loss': 0.553, 'learning_rate': 1.725150468300406e-05, 'epoch': 0.26}
 26%|██▋       | 1757/6640 [44:21<22:12:07, 16.37s/it] 26%|██▋       | 1758/6640 [44:38<22:09:46, 16.34s/it]                                                      {'loss': 0.5391, 'learning_rate': 1.724814470434686e-05, 'epoch': 0.26}
 26%|██▋       | 1758/6640 [44:38<22:09:46, 16.34s/it] 26%|██▋       | 1759/6640 [44:55<22:29:21, 16.59s/it]                                                      {'loss': 0.5595, 'learning_rate': 1.7244783000825665e-05, 'epoch': 0.26}
 26%|██▋       | 1759/6640 [44:55<22:29:21, 16.59s/it] 27%|██▋       | 1760/6640 [45:11<22:09:26, 16.35s/it]                                                      {'loss': 0.5206, 'learning_rate': 1.7241419573240463e-05, 'epoch': 0.27}
 27%|██▋       | 1760/6640 [45:11<22:09:26, 16.35s/it] 27%|██▋       | 1761/6640 [45:27<22:05:28, 16.30s/it]                                                      {'loss': 0.5722, 'learning_rate': 1.7238054422391672e-05, 'epoch': 0.27}
 27%|██▋       | 1761/6640 [45:27<22:05:28, 16.30s/it] 27%|██▋       | 1762/6640 [45:44<22:23:36, 16.53s/it]                                                      {'loss': 0.5366, 'learning_rate': 1.7234687549080096e-05, 'epoch': 0.27}
 27%|██▋       | 1762/6640 [45:44<22:23:36, 16.53s/it] 27%|██▋       | 1763/6640 [45:59<22:02:16, 16.27s/it]                                                      {'loss': 0.5474, 'learning_rate': 1.7231318954106966e-05, 'epoch': 0.27}
 27%|██▋       | 1763/6640 [45:59<22:02:16, 16.27s/it] 27%|██▋       | 1764/6640 [46:16<22:09:30, 16.36s/it]                                                      {'loss': 0.5446, 'learning_rate': 1.7227948638273918e-05, 'epoch': 0.27}
 27%|██▋       | 1764/6640 [46:16<22:09:30, 16.36s/it] 27%|██▋       | 1765/6640 [46:32<21:56:34, 16.20s/it]                                                      {'loss': 0.5298, 'learning_rate': 1.7224576602382993e-05, 'epoch': 0.27}
 27%|██▋       | 1765/6640 [46:32<21:56:34, 16.20s/it] 27%|██▋       | 1766/6640 [46:48<21:52:52, 16.16s/it]                                                      {'loss': 0.5442, 'learning_rate': 1.7221202847236648e-05, 'epoch': 0.27}
 27%|██▋       | 1766/6640 [46:48<21:52:52, 16.16s/it] 27%|██▋       | 1767/6640 [47:05<22:03:35, 16.30s/it]                                                      {'loss': 0.5433, 'learning_rate': 1.7217827373637746e-05, 'epoch': 0.27}
 27%|██▋       | 1767/6640 [47:05<22:03:35, 16.30s/it] 27%|██▋       | 1768/6640 [47:20<21:50:55, 16.14s/it]                                                      {'loss': 0.551, 'learning_rate': 1.721445018238956e-05, 'epoch': 0.27}
 27%|██▋       | 1768/6640 [47:20<21:50:55, 16.14s/it] 27%|██▋       | 1769/6640 [47:37<22:01:58, 16.28s/it]                                                      {'loss': 0.543, 'learning_rate': 1.7211071274295766e-05, 'epoch': 0.27}
 27%|██▋       | 1769/6640 [47:37<22:01:58, 16.28s/it] 27%|██▋       | 1770/6640 [47:53<21:47:32, 16.11s/it]                                                      {'loss': 0.5293, 'learning_rate': 1.720769065016046e-05, 'epoch': 0.27}
 27%|██▋       | 1770/6640 [47:53<21:47:32, 16.11s/it] 27%|██▋       | 1771/6640 [48:09<21:47:56, 16.12s/it]                                                      {'loss': 0.5354, 'learning_rate': 1.7204308310788138e-05, 'epoch': 0.27}
 27%|██▋       | 1771/6640 [48:09<21:47:56, 16.12s/it] 27%|██▋       | 1772/6640 [48:24<21:37:39, 15.99s/it]                                                      {'loss': 0.57, 'learning_rate': 1.7200924256983703e-05, 'epoch': 0.27}
 27%|██▋       | 1772/6640 [48:24<21:37:39, 15.99s/it] 27%|██▋       | 1773/6640 [48:40<21:35:24, 15.97s/it]                                                      {'loss': 0.5416, 'learning_rate': 1.719753848955247e-05, 'epoch': 0.27}
 27%|██▋       | 1773/6640 [48:40<21:35:24, 15.97s/it] 27%|██▋       | 1774/6640 [48:57<21:57:14, 16.24s/it]                                                      {'loss': 0.5081, 'learning_rate': 1.7194151009300162e-05, 'epoch': 0.27}
 27%|██▋       | 1774/6640 [48:57<21:57:14, 16.24s/it] 27%|██▋       | 1775/6640 [49:13<21:55:25, 16.22s/it]                                                      {'loss': 0.5523, 'learning_rate': 1.719076181703291e-05, 'epoch': 0.27}
 27%|██▋       | 1775/6640 [49:13<21:55:25, 16.22s/it] 27%|██▋       | 1776/6640 [49:30<22:09:43, 16.40s/it]                                                      {'loss': 0.5308, 'learning_rate': 1.7187370913557247e-05, 'epoch': 0.27}
 27%|██▋       | 1776/6640 [49:30<22:09:43, 16.40s/it] 27%|██▋       | 1777/6640 [49:47<22:14:19, 16.46s/it]                                                      {'loss': 0.5423, 'learning_rate': 1.718397829968012e-05, 'epoch': 0.27}
 27%|██▋       | 1777/6640 [49:47<22:14:19, 16.46s/it] 27%|██▋       | 1778/6640 [50:03<21:57:46, 16.26s/it]                                                      {'loss': 0.5647, 'learning_rate': 1.718058397620888e-05, 'epoch': 0.27}
 27%|██▋       | 1778/6640 [50:03<21:57:46, 16.26s/it] 27%|██▋       | 1779/6640 [50:19<22:02:16, 16.32s/it]                                                      {'loss': 0.5511, 'learning_rate': 1.717718794395128e-05, 'epoch': 0.27}
 27%|██▋       | 1779/6640 [50:19<22:02:16, 16.32s/it] 27%|██▋       | 1780/6640 [50:35<22:02:07, 16.32s/it]                                                      {'loss': 0.5656, 'learning_rate': 1.7173790203715494e-05, 'epoch': 0.27}
 27%|██▋       | 1780/6640 [50:35<22:02:07, 16.32s/it] 27%|██▋       | 1781/6640 [50:52<22:05:02, 16.36s/it]                                                      {'loss': 0.534, 'learning_rate': 1.7170390756310088e-05, 'epoch': 0.27}
 27%|██▋       | 1781/6640 [50:52<22:05:02, 16.36s/it] 27%|██▋       | 1782/6640 [51:08<21:51:07, 16.19s/it]                                                      {'loss': 0.5294, 'learning_rate': 1.7166989602544036e-05, 'epoch': 0.27}
 27%|██▋       | 1782/6640 [51:08<21:51:07, 16.19s/it] 27%|██▋       | 1783/6640 [51:24<21:49:08, 16.17s/it]                                                      {'loss': 0.5385, 'learning_rate': 1.7163586743226726e-05, 'epoch': 0.27}
 27%|██▋       | 1783/6640 [51:24<21:49:08, 16.17s/it] 27%|██▋       | 1784/6640 [51:41<22:06:58, 16.40s/it]                                                      {'loss': 0.5339, 'learning_rate': 1.7160182179167942e-05, 'epoch': 0.27}
 27%|██▋       | 1784/6640 [51:41<22:06:58, 16.40s/it] 27%|██▋       | 1785/6640 [51:57<22:03:26, 16.36s/it]                                                      {'loss': 0.5318, 'learning_rate': 1.7156775911177888e-05, 'epoch': 0.27}
 27%|██▋       | 1785/6640 [51:57<22:03:26, 16.36s/it] 27%|██▋       | 1786/6640 [52:13<22:01:34, 16.34s/it]                                                      {'loss': 0.5331, 'learning_rate': 1.7153367940067157e-05, 'epoch': 0.27}
 27%|██▋       | 1786/6640 [52:13<22:01:34, 16.34s/it] 27%|██▋       | 1787/6640 [52:30<22:10:18, 16.45s/it]                                                      {'loss': 0.521, 'learning_rate': 1.7149958266646756e-05, 'epoch': 0.27}
 27%|██▋       | 1787/6640 [52:30<22:10:18, 16.45s/it] 27%|██▋       | 1788/6640 [52:46<22:01:03, 16.34s/it]                                                      {'loss': 0.519, 'learning_rate': 1.7146546891728096e-05, 'epoch': 0.27}
 27%|██▋       | 1788/6640 [52:46<22:01:03, 16.34s/it] 27%|██▋       | 1789/6640 [53:03<22:13:16, 16.49s/it]                                                      {'loss': 0.5578, 'learning_rate': 1.7143133816122993e-05, 'epoch': 0.27}
 27%|██▋       | 1789/6640 [53:03<22:13:16, 16.49s/it] 27%|██▋       | 1790/6640 [53:20<22:27:53, 16.67s/it]                                                      {'loss': 0.5402, 'learning_rate': 1.713971904064367e-05, 'epoch': 0.27}
 27%|██▋       | 1790/6640 [53:20<22:27:53, 16.67s/it] 27%|██▋       | 1791/6640 [53:36<21:58:37, 16.32s/it]                                                      {'loss': 0.5445, 'learning_rate': 1.7136302566102747e-05, 'epoch': 0.27}
 27%|██▋       | 1791/6640 [53:36<21:58:37, 16.32s/it] 27%|██▋       | 1792/6640 [53:52<21:52:07, 16.24s/it]                                                      {'loss': 0.5393, 'learning_rate': 1.7132884393313257e-05, 'epoch': 0.27}
 27%|██▋       | 1792/6640 [53:52<21:52:07, 16.24s/it] 27%|██▋       | 1793/6640 [54:08<22:02:51, 16.38s/it]                                                      {'loss': 0.5564, 'learning_rate': 1.712946452308863e-05, 'epoch': 0.27}
 27%|██▋       | 1793/6640 [54:08<22:02:51, 16.38s/it] 27%|██▋       | 1794/6640 [54:25<22:15:42, 16.54s/it]                                                      {'loss': 0.5358, 'learning_rate': 1.7126042956242708e-05, 'epoch': 0.27}
 27%|██▋       | 1794/6640 [54:25<22:15:42, 16.54s/it] 27%|██▋       | 1795/6640 [54:41<22:05:47, 16.42s/it]                                                      {'loss': 0.5417, 'learning_rate': 1.712261969358973e-05, 'epoch': 0.27}
 27%|██▋       | 1795/6640 [54:41<22:05:47, 16.42s/it] 27%|██▋       | 1796/6640 [54:57<21:57:01, 16.31s/it]                                                      {'loss': 0.5553, 'learning_rate': 1.7119194735944336e-05, 'epoch': 0.27}
 27%|██▋       | 1796/6640 [54:57<21:57:01, 16.31s/it] 27%|██▋       | 1797/6640 [55:13<21:51:12, 16.24s/it]                                                      {'loss': 0.5378, 'learning_rate': 1.7115768084121585e-05, 'epoch': 0.27}
 27%|██▋       | 1797/6640 [55:13<21:51:12, 16.24s/it] 27%|██▋       | 1798/6640 [55:30<21:49:05, 16.22s/it]                                                      {'loss': 0.5513, 'learning_rate': 1.711233973893692e-05, 'epoch': 0.27}
 27%|██▋       | 1798/6640 [55:30<21:49:05, 16.22s/it] 27%|██▋       | 1799/6640 [55:46<21:43:23, 16.15s/it]                                                      {'loss': 0.5493, 'learning_rate': 1.7108909701206196e-05, 'epoch': 0.27}
 27%|██▋       | 1799/6640 [55:46<21:43:23, 16.15s/it]4 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
60 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
 27%|██▋       | 1800/6640 [56:01<21:21:59, 15.89s/it]3 AutoResumeHook: Checking whether to suspend...
                                                      {'loss': 0.5369, 'learning_rate': 1.7105477971745668e-05, 'epoch': 0.27}
 27%|██▋       | 1800/6640 [56:01<21:21:59, 15.89s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1800/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1800/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1800/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 27%|██▋       | 1801/6640 [57:54<60:29:17, 45.00s/it]                                                      {'loss': 0.5226, 'learning_rate': 1.7102044551372e-05, 'epoch': 0.27}
 27%|██▋       | 1801/6640 [57:54<60:29:17, 45.00s/it] 27%|██▋       | 1802/6640 [58:10<48:57:47, 36.43s/it]                                                      {'loss': 0.5375, 'learning_rate': 1.7098609440902256e-05, 'epoch': 0.27}
 27%|██▋       | 1802/6640 [58:10<48:57:47, 36.43s/it] 27%|██▋       | 1803/6640 [58:28<41:29:26, 30.88s/it]                                                      {'loss': 0.5493, 'learning_rate': 1.7095172641153894e-05, 'epoch': 0.27}
 27%|██▋       | 1803/6640 [58:28<41:29:26, 30.88s/it] 27%|██▋       | 1804/6640 [58:45<35:39:55, 26.55s/it]                                                      {'loss': 0.5301, 'learning_rate': 1.709173415294478e-05, 'epoch': 0.27}
 27%|██▋       | 1804/6640 [58:45<35:39:55, 26.55s/it] 27%|██▋       | 1805/6640 [59:01<31:22:31, 23.36s/it]                                                      {'loss': 0.542, 'learning_rate': 1.7088293977093187e-05, 'epoch': 0.27}
 27%|██▋       | 1805/6640 [59:01<31:22:31, 23.36s/it] 27%|██▋       | 1806/6640 [59:16<28:17:39, 21.07s/it]                                                      {'loss': 0.5636, 'learning_rate': 1.708485211441778e-05, 'epoch': 0.27}
 27%|██▋       | 1806/6640 [59:16<28:17:39, 21.07s/it] 27%|██▋       | 1807/6640 [59:33<26:26:03, 19.69s/it]                                                      {'loss': 0.5535, 'learning_rate': 1.7081408565737633e-05, 'epoch': 0.27}
 27%|██▋       | 1807/6640 [59:33<26:26:03, 19.69s/it] 27%|██▋       | 1808/6640 [59:49<24:54:45, 18.56s/it]                                                      {'loss': 0.5472, 'learning_rate': 1.7077963331872222e-05, 'epoch': 0.27}
 27%|██▋       | 1808/6640 [59:49<24:54:45, 18.56s/it] 27%|██▋       | 1809/6640 [1:00:05<24:03:56, 17.93s/it]                                                        {'loss': 0.5501, 'learning_rate': 1.707451641364141e-05, 'epoch': 0.27}
 27%|██▋       | 1809/6640 [1:00:05<24:03:56, 17.93s/it] 27%|██▋       | 1810/6640 [1:00:21<23:02:00, 17.17s/it]                                                        {'loss': 0.531, 'learning_rate': 1.7071067811865477e-05, 'epoch': 0.27}
 27%|██▋       | 1810/6640 [1:00:21<23:02:00, 17.17s/it] 27%|██▋       | 1811/6640 [1:00:36<22:30:22, 16.78s/it]                                                        {'loss': 0.5366, 'learning_rate': 1.70676175273651e-05, 'epoch': 0.27}
 27%|██▋       | 1811/6640 [1:00:36<22:30:22, 16.78s/it] 27%|██▋       | 1812/6640 [1:00:54<22:41:40, 16.92s/it]                                                        {'loss': 0.5488, 'learning_rate': 1.706416556096135e-05, 'epoch': 0.27}
 27%|██▋       | 1812/6640 [1:00:54<22:41:40, 16.92s/it] 27%|██▋       | 1813/6640 [1:01:09<22:09:48, 16.53s/it]                                                        {'loss': 0.5445, 'learning_rate': 1.7060711913475703e-05, 'epoch': 0.27}
 27%|██▋       | 1813/6640 [1:01:09<22:09:48, 16.53s/it] 27%|██▋       | 1814/6640 [1:01:26<22:09:11, 16.53s/it]                                                        {'loss': 0.5524, 'learning_rate': 1.7057256585730035e-05, 'epoch': 0.27}
 27%|██▋       | 1814/6640 [1:01:26<22:09:11, 16.53s/it] 27%|██▋       | 1815/6640 [1:01:42<22:04:15, 16.47s/it]                                                        {'loss': 0.5441, 'learning_rate': 1.7053799578546623e-05, 'epoch': 0.27}
 27%|██▋       | 1815/6640 [1:01:42<22:04:15, 16.47s/it] 27%|██▋       | 1816/6640 [1:01:58<21:51:33, 16.31s/it]                                                        {'loss': 0.5476, 'learning_rate': 1.705034089274814e-05, 'epoch': 0.27}
 27%|██▋       | 1816/6640 [1:01:58<21:51:33, 16.31s/it] 27%|██▋       | 1817/6640 [1:02:14<21:45:15, 16.24s/it]                                                        {'loss': 0.5433, 'learning_rate': 1.704688052915766e-05, 'epoch': 0.27}
 27%|██▋       | 1817/6640 [1:02:14<21:45:15, 16.24s/it] 27%|██▋       | 1818/6640 [1:02:32<22:20:19, 16.68s/it]                                                        {'loss': 0.5313, 'learning_rate': 1.704341848859866e-05, 'epoch': 0.27}
 27%|██▋       | 1818/6640 [1:02:32<22:20:19, 16.68s/it] 27%|██▋       | 1819/6640 [1:02:47<21:53:18, 16.34s/it]                                                        {'loss': 0.5451, 'learning_rate': 1.703995477189501e-05, 'epoch': 0.27}
 27%|██▋       | 1819/6640 [1:02:47<21:53:18, 16.34s/it] 27%|██▋       | 1820/6640 [1:03:04<21:59:34, 16.43s/it]                                                        {'loss': 0.5337, 'learning_rate': 1.7036489379870982e-05, 'epoch': 0.27}
 27%|██▋       | 1820/6640 [1:03:04<21:59:34, 16.43s/it] 27%|██▋       | 1821/6640 [1:03:20<21:54:18, 16.36s/it]                                                        {'loss': 0.5639, 'learning_rate': 1.7033022313351244e-05, 'epoch': 0.27}
 27%|██▋       | 1821/6640 [1:03:20<21:54:18, 16.36s/it] 27%|██▋       | 1822/6640 [1:03:37<21:57:59, 16.41s/it]                                                        {'loss': 0.5294, 'learning_rate': 1.702955357316087e-05, 'epoch': 0.27}
 27%|██▋       | 1822/6640 [1:03:37<21:57:59, 16.41s/it] 27%|██▋       | 1823/6640 [1:03:53<21:41:13, 16.21s/it]                                                        {'loss': 0.5542, 'learning_rate': 1.7026083160125324e-05, 'epoch': 0.27}
 27%|██▋       | 1823/6640 [1:03:53<21:41:13, 16.21s/it] 27%|██▋       | 1824/6640 [1:04:09<21:54:17, 16.37s/it]                                                        {'loss': 0.5427, 'learning_rate': 1.7022611075070476e-05, 'epoch': 0.27}
 27%|██▋       | 1824/6640 [1:04:09<21:54:17, 16.37s/it] 27%|██▋       | 1825/6640 [1:04:26<21:58:08, 16.43s/it]                                                        {'loss': 0.5579, 'learning_rate': 1.7019137318822577e-05, 'epoch': 0.27}
 27%|██▋       | 1825/6640 [1:04:26<21:58:08, 16.43s/it] 28%|██▊       | 1826/6640 [1:04:42<21:51:51, 16.35s/it]                                                        {'loss': 0.5474, 'learning_rate': 1.7015661892208298e-05, 'epoch': 0.28}
 28%|██▊       | 1826/6640 [1:04:42<21:51:51, 16.35s/it] 28%|██▊       | 1827/6640 [1:04:59<21:56:43, 16.41s/it]                                                        {'loss': 0.5258, 'learning_rate': 1.7012184796054695e-05, 'epoch': 0.28}
 28%|██▊       | 1827/6640 [1:04:59<21:56:43, 16.41s/it] 28%|██▊       | 1828/6640 [1:05:16<22:15:42, 16.65s/it]                                                        {'loss': 0.5489, 'learning_rate': 1.7008706031189225e-05, 'epoch': 0.28}
 28%|██▊       | 1828/6640 [1:05:16<22:15:42, 16.65s/it] 28%|██▊       | 1829/6640 [1:05:32<21:59:24, 16.45s/it]                                                        {'loss': 0.5379, 'learning_rate': 1.7005225598439737e-05, 'epoch': 0.28}
 28%|██▊       | 1829/6640 [1:05:32<21:59:24, 16.45s/it] 28%|██▊       | 1830/6640 [1:05:48<22:05:20, 16.53s/it]                                                        {'loss': 0.5312, 'learning_rate': 1.7001743498634487e-05, 'epoch': 0.28}
 28%|██▊       | 1830/6640 [1:05:48<22:05:20, 16.53s/it] 28%|██▊       | 1831/6640 [1:06:04<21:50:51, 16.36s/it]                                                        {'loss': 0.5194, 'learning_rate': 1.6998259732602114e-05, 'epoch': 0.28}
 28%|██▊       | 1831/6640 [1:06:04<21:50:51, 16.36s/it] 28%|██▊       | 1832/6640 [1:06:21<21:58:29, 16.45s/it]                                                        {'loss': 0.5255, 'learning_rate': 1.6994774301171662e-05, 'epoch': 0.28}
 28%|██▊       | 1832/6640 [1:06:21<21:58:29, 16.45s/it] 28%|██▊       | 1833/6640 [1:06:37<21:47:58, 16.33s/it]                                                        {'loss': 0.5415, 'learning_rate': 1.6991287205172575e-05, 'epoch': 0.28}
 28%|██▊       | 1833/6640 [1:06:37<21:47:58, 16.33s/it] 28%|██▊       | 1834/6640 [1:06:53<21:43:34, 16.27s/it]                                                        {'loss': 0.5366, 'learning_rate': 1.6987798445434686e-05, 'epoch': 0.28}
 28%|██▊       | 1834/6640 [1:06:53<21:43:34, 16.27s/it] 28%|██▊       | 1835/6640 [1:07:10<21:51:40, 16.38s/it]                                                        {'loss': 0.5515, 'learning_rate': 1.6984308022788227e-05, 'epoch': 0.28}
 28%|██▊       | 1835/6640 [1:07:10<21:51:40, 16.38s/it] 28%|██▊       | 1836/6640 [1:07:26<21:40:39, 16.24s/it]                                                        {'loss': 0.5252, 'learning_rate': 1.6980815938063818e-05, 'epoch': 0.28}
 28%|██▊       | 1836/6640 [1:07:26<21:40:39, 16.24s/it] 28%|██▊       | 1837/6640 [1:07:42<21:45:25, 16.31s/it]                                                        {'loss': 0.5264, 'learning_rate': 1.697732219209249e-05, 'epoch': 0.28}
 28%|██▊       | 1837/6640 [1:07:42<21:45:25, 16.31s/it] 28%|██▊       | 1838/6640 [1:07:59<21:43:25, 16.29s/it]                                                        {'loss': 0.5426, 'learning_rate': 1.697382678570566e-05, 'epoch': 0.28}
 28%|██▊       | 1838/6640 [1:07:59<21:43:25, 16.29s/it] 28%|██▊       | 1839/6640 [1:08:14<21:34:17, 16.18s/it]                                                        {'loss': 0.5498, 'learning_rate': 1.6970329719735136e-05, 'epoch': 0.28}
 28%|██▊       | 1839/6640 [1:08:14<21:34:17, 16.18s/it] 28%|██▊       | 1840/6640 [1:08:31<21:47:47, 16.35s/it]                                                        {'loss': 0.5363, 'learning_rate': 1.6966830995013134e-05, 'epoch': 0.28}
 28%|██▊       | 1840/6640 [1:08:31<21:47:47, 16.35s/it] 28%|██▊       | 1841/6640 [1:08:48<21:57:06, 16.47s/it]                                                        {'loss': 0.5523, 'learning_rate': 1.6963330612372243e-05, 'epoch': 0.28}
 28%|██▊       | 1841/6640 [1:08:48<21:57:06, 16.47s/it] 28%|██▊       | 1842/6640 [1:09:05<22:00:44, 16.52s/it]                                                        {'loss': 0.538, 'learning_rate': 1.6959828572645474e-05, 'epoch': 0.28}
 28%|██▊       | 1842/6640 [1:09:05<22:00:44, 16.52s/it] 28%|██▊       | 1843/6640 [1:09:21<22:01:06, 16.52s/it]                                                        {'loss': 0.539, 'learning_rate': 1.695632487666621e-05, 'epoch': 0.28}
 28%|██▊       | 1843/6640 [1:09:21<22:01:06, 16.52s/it] 28%|██▊       | 1844/6640 [1:09:39<22:23:59, 16.81s/it]                                                        {'loss': 0.5343, 'learning_rate': 1.695281952526824e-05, 'epoch': 0.28}
 28%|██▊       | 1844/6640 [1:09:39<22:23:59, 16.81s/it] 28%|██▊       | 1845/6640 [1:09:55<22:11:14, 16.66s/it]                                                        {'loss': 0.5343, 'learning_rate': 1.694931251928575e-05, 'epoch': 0.28}
 28%|██▊       | 1845/6640 [1:09:55<22:11:14, 16.66s/it] 28%|██▊       | 1846/6640 [1:10:11<22:02:54, 16.56s/it]                                                        {'loss': 0.5436, 'learning_rate': 1.6945803859553298e-05, 'epoch': 0.28}
 28%|██▊       | 1846/6640 [1:10:11<22:02:54, 16.56s/it] 28%|██▊       | 1847/6640 [1:10:27<21:52:56, 16.44s/it]                                                        {'loss': 0.5391, 'learning_rate': 1.6942293546905867e-05, 'epoch': 0.28}
 28%|██▊       | 1847/6640 [1:10:27<21:52:56, 16.44s/it] 28%|██▊       | 1848/6640 [1:10:43<21:41:49, 16.30s/it]                                                        {'loss': 0.5142, 'learning_rate': 1.6938781582178805e-05, 'epoch': 0.28}
 28%|██▊       | 1848/6640 [1:10:43<21:41:49, 16.30s/it] 28%|██▊       | 1849/6640 [1:11:00<21:40:53, 16.29s/it]                                                        {'loss': 0.53, 'learning_rate': 1.693526796620787e-05, 'epoch': 0.28}
 28%|██▊       | 1849/6640 [1:11:00<21:40:53, 16.29s/it]24  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

01 AutoResumeHook: Checking whether to suspend...7
 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...3
 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
 28%|██▊       | 1850/6640 [1:11:16<21:47:13, 16.37s/it]5 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5452, 'learning_rate': 1.693175269982921e-05, 'epoch': 0.28}
 28%|██▊       | 1850/6640 [1:11:16<21:47:13, 16.37s/it] 28%|██▊       | 1851/6640 [1:11:32<21:40:05, 16.29s/it]                                                        {'loss': 0.5296, 'learning_rate': 1.692823578387936e-05, 'epoch': 0.28}
 28%|██▊       | 1851/6640 [1:11:32<21:40:05, 16.29s/it] 28%|██▊       | 1852/6640 [1:11:50<22:06:32, 16.62s/it]                                                        {'loss': 0.5277, 'learning_rate': 1.6924717219195258e-05, 'epoch': 0.28}
 28%|██▊       | 1852/6640 [1:11:50<22:06:32, 16.62s/it] 28%|██▊       | 1853/6640 [1:12:06<21:50:51, 16.43s/it]                                                        {'loss': 0.546, 'learning_rate': 1.6921197006614224e-05, 'epoch': 0.28}
 28%|██▊       | 1853/6640 [1:12:06<21:50:51, 16.43s/it] 28%|██▊       | 1854/6640 [1:12:22<21:39:00, 16.29s/it]                                                        {'loss': 0.5354, 'learning_rate': 1.6917675146973973e-05, 'epoch': 0.28}
 28%|██▊       | 1854/6640 [1:12:22<21:39:00, 16.29s/it] 28%|██▊       | 1855/6640 [1:12:38<21:36:17, 16.25s/it]                                                        {'loss': 0.5419, 'learning_rate': 1.691415164111261e-05, 'epoch': 0.28}
 28%|██▊       | 1855/6640 [1:12:38<21:36:17, 16.25s/it] 28%|██▊       | 1856/6640 [1:12:56<22:27:31, 16.90s/it]                                                        {'loss': 0.5552, 'learning_rate': 1.691062648986865e-05, 'epoch': 0.28}
 28%|██▊       | 1856/6640 [1:12:56<22:27:31, 16.90s/it] 28%|██▊       | 1857/6640 [1:13:13<22:22:11, 16.84s/it]                                                        {'loss': 0.5294, 'learning_rate': 1.6907099694080966e-05, 'epoch': 0.28}
 28%|██▊       | 1857/6640 [1:13:13<22:22:11, 16.84s/it] 28%|██▊       | 1858/6640 [1:13:29<21:52:37, 16.47s/it]                                                        {'loss': 0.534, 'learning_rate': 1.6903571254588853e-05, 'epoch': 0.28}
 28%|██▊       | 1858/6640 [1:13:29<21:52:37, 16.47s/it] 28%|██▊       | 1859/6640 [1:13:45<21:58:53, 16.55s/it]                                                        {'loss': 0.5473, 'learning_rate': 1.6900041172231976e-05, 'epoch': 0.28}
 28%|██▊       | 1859/6640 [1:13:45<21:58:53, 16.55s/it] 28%|██▊       | 1860/6640 [1:14:02<21:56:05, 16.52s/it]                                                        {'loss': 0.5493, 'learning_rate': 1.689650944785041e-05, 'epoch': 0.28}
 28%|██▊       | 1860/6640 [1:14:02<21:56:05, 16.52s/it] 28%|██▊       | 1861/6640 [1:14:17<21:33:15, 16.24s/it]                                                        {'loss': 0.5555, 'learning_rate': 1.68929760822846e-05, 'epoch': 0.28}
 28%|██▊       | 1861/6640 [1:14:17<21:33:15, 16.24s/it] 28%|██▊       | 1862/6640 [1:14:34<21:35:12, 16.26s/it]                                                        {'loss': 0.5392, 'learning_rate': 1.6889441076375396e-05, 'epoch': 0.28}
 28%|██▊       | 1862/6640 [1:14:34<21:35:12, 16.26s/it] 28%|██▊       | 1863/6640 [1:14:51<21:57:41, 16.55s/it]                                                        {'loss': 0.5356, 'learning_rate': 1.6885904430964043e-05, 'epoch': 0.28}
 28%|██▊       | 1863/6640 [1:14:51<21:57:41, 16.55s/it] 28%|██▊       | 1864/6640 [1:15:07<21:37:21, 16.30s/it]                                                        {'loss': 0.528, 'learning_rate': 1.6882366146892155e-05, 'epoch': 0.28}
 28%|██▊       | 1864/6640 [1:15:07<21:37:21, 16.30s/it] 28%|██▊       | 1865/6640 [1:15:24<22:03:58, 16.64s/it]                                                        {'loss': 0.5354, 'learning_rate': 1.6878826225001756e-05, 'epoch': 0.28}
 28%|██▊       | 1865/6640 [1:15:24<22:03:58, 16.64s/it] 28%|██▊       | 1866/6640 [1:15:40<21:53:18, 16.51s/it]                                                        {'loss': 0.5465, 'learning_rate': 1.6875284666135252e-05, 'epoch': 0.28}
 28%|██▊       | 1866/6640 [1:15:40<21:53:18, 16.51s/it] 28%|██▊       | 1867/6640 [1:15:56<21:48:50, 16.45s/it]                                                        {'loss': 0.5364, 'learning_rate': 1.6871741471135438e-05, 'epoch': 0.28}
 28%|██▊       | 1867/6640 [1:15:57<21:48:50, 16.45s/it] 28%|██▊       | 1868/6640 [1:16:12<21:32:58, 16.26s/it]                                                        {'loss': 0.5207, 'learning_rate': 1.6868196640845495e-05, 'epoch': 0.28}
 28%|██▊       | 1868/6640 [1:16:12<21:32:58, 16.26s/it] 28%|██▊       | 1869/6640 [1:16:29<21:42:17, 16.38s/it]                                                        {'loss': 0.5154, 'learning_rate': 1.6864650176109007e-05, 'epoch': 0.28}
 28%|██▊       | 1869/6640 [1:16:29<21:42:17, 16.38s/it] 28%|██▊       | 1870/6640 [1:16:45<21:40:53, 16.36s/it]                                                        {'loss': 0.54, 'learning_rate': 1.686110207776993e-05, 'epoch': 0.28}
 28%|██▊       | 1870/6640 [1:16:45<21:40:53, 16.36s/it] 28%|██▊       | 1871/6640 [1:17:01<21:31:52, 16.25s/it]                                                        {'loss': 0.5434, 'learning_rate': 1.6857552346672616e-05, 'epoch': 0.28}
 28%|██▊       | 1871/6640 [1:17:01<21:31:52, 16.25s/it] 28%|██▊       | 1872/6640 [1:17:18<21:37:32, 16.33s/it]                                                        {'loss': 0.569, 'learning_rate': 1.6854000983661813e-05, 'epoch': 0.28}
 28%|██▊       | 1872/6640 [1:17:18<21:37:32, 16.33s/it] 28%|██▊       | 1873/6640 [1:17:34<21:39:23, 16.35s/it]                                                        {'loss': 0.564, 'learning_rate': 1.6850447989582642e-05, 'epoch': 0.28}
 28%|██▊       | 1873/6640 [1:17:34<21:39:23, 16.35s/it] 28%|██▊       | 1874/6640 [1:17:52<22:22:19, 16.90s/it]                                                        {'loss': 0.5362, 'learning_rate': 1.6846893365280625e-05, 'epoch': 0.28}
 28%|██▊       | 1874/6640 [1:17:52<22:22:19, 16.90s/it] 28%|██▊       | 1875/6640 [1:18:09<22:08:59, 16.73s/it]                                                        {'loss': 0.5552, 'learning_rate': 1.6843337111601663e-05, 'epoch': 0.28}
 28%|██▊       | 1875/6640 [1:18:09<22:08:59, 16.73s/it] 28%|██▊       | 1876/6640 [1:18:25<21:54:58, 16.56s/it]                                                        {'loss': 0.5444, 'learning_rate': 1.6839779229392053e-05, 'epoch': 0.28}
 28%|██▊       | 1876/6640 [1:18:25<21:54:58, 16.56s/it] 28%|██▊       | 1877/6640 [1:18:41<21:48:34, 16.48s/it]                                                        {'loss': 0.5535, 'learning_rate': 1.6836219719498475e-05, 'epoch': 0.28}
 28%|██▊       | 1877/6640 [1:18:41<21:48:34, 16.48s/it] 28%|██▊       | 1878/6640 [1:18:57<21:43:42, 16.43s/it]                                                        {'loss': 0.5388, 'learning_rate': 1.6832658582767996e-05, 'epoch': 0.28}
 28%|██▊       | 1878/6640 [1:18:57<21:43:42, 16.43s/it] 28%|██▊       | 1879/6640 [1:19:14<21:37:48, 16.36s/it]                                                        {'loss': 0.5545, 'learning_rate': 1.682909582004807e-05, 'epoch': 0.28}
 28%|██▊       | 1879/6640 [1:19:14<21:37:48, 16.36s/it] 28%|██▊       | 1880/6640 [1:19:30<21:35:48, 16.33s/it]                                                        {'loss': 0.5358, 'learning_rate': 1.6825531432186545e-05, 'epoch': 0.28}
 28%|██▊       | 1880/6640 [1:19:30<21:35:48, 16.33s/it] 28%|██▊       | 1881/6640 [1:19:46<21:30:23, 16.27s/it]                                                        {'loss': 0.5347, 'learning_rate': 1.6821965420031638e-05, 'epoch': 0.28}
 28%|██▊       | 1881/6640 [1:19:46<21:30:23, 16.27s/it] 28%|██▊       | 1882/6640 [1:20:04<22:07:11, 16.74s/it]                                                        {'loss': 0.5371, 'learning_rate': 1.6818397784431974e-05, 'epoch': 0.28}
 28%|██▊       | 1882/6640 [1:20:04<22:07:11, 16.74s/it] 28%|██▊       | 1883/6640 [1:20:20<21:59:43, 16.65s/it]                                                        {'loss': 0.53, 'learning_rate': 1.6814828526236552e-05, 'epoch': 0.28}
 28%|██▊       | 1883/6640 [1:20:20<21:59:43, 16.65s/it] 28%|██▊       | 1884/6640 [1:20:37<21:55:14, 16.59s/it]                                                        {'loss': 0.5496, 'learning_rate': 1.681125764629476e-05, 'epoch': 0.28}
 28%|██▊       | 1884/6640 [1:20:37<21:55:14, 16.59s/it] 28%|██▊       | 1885/6640 [1:20:53<21:40:05, 16.40s/it]                                                        {'loss': 0.5444, 'learning_rate': 1.680768514545637e-05, 'epoch': 0.28}
 28%|██▊       | 1885/6640 [1:20:53<21:40:05, 16.40s/it] 28%|██▊       | 1886/6640 [1:21:10<21:51:18, 16.55s/it]                                                        {'loss': 0.5477, 'learning_rate': 1.680411102457154e-05, 'epoch': 0.28}
 28%|██▊       | 1886/6640 [1:21:10<21:51:18, 16.55s/it] 28%|██▊       | 1887/6640 [1:21:26<21:48:06, 16.51s/it]                                                        {'loss': 0.5365, 'learning_rate': 1.680053528449082e-05, 'epoch': 0.28}
 28%|██▊       | 1887/6640 [1:21:26<21:48:06, 16.51s/it] 28%|██▊       | 1888/6640 [1:21:43<21:50:51, 16.55s/it]                                                        {'loss': 0.5556, 'learning_rate': 1.6796957926065137e-05, 'epoch': 0.28}
 28%|██▊       | 1888/6640 [1:21:43<21:50:51, 16.55s/it] 28%|██▊       | 1889/6640 [1:21:59<21:53:11, 16.58s/it]                                                        {'loss': 0.5082, 'learning_rate': 1.6793378950145806e-05, 'epoch': 0.28}
 28%|██▊       | 1889/6640 [1:21:59<21:53:11, 16.58s/it] 28%|██▊       | 1890/6640 [1:22:16<21:46:06, 16.50s/it]                                                        {'loss': 0.5382, 'learning_rate': 1.6789798357584524e-05, 'epoch': 0.28}
 28%|██▊       | 1890/6640 [1:22:16<21:46:06, 16.50s/it] 28%|██▊       | 1891/6640 [1:22:32<21:35:00, 16.36s/it]                                                        {'loss': 0.5543, 'learning_rate': 1.6786216149233388e-05, 'epoch': 0.28}
 28%|██▊       | 1891/6640 [1:22:32<21:35:00, 16.36s/it] 28%|██▊       | 1892/6640 [1:22:48<21:26:33, 16.26s/it]                                                        {'loss': 0.5451, 'learning_rate': 1.6782632325944853e-05, 'epoch': 0.28}
 28%|██▊       | 1892/6640 [1:22:48<21:26:33, 16.26s/it] 29%|██▊       | 1893/6640 [1:23:04<21:25:20, 16.25s/it]                                                        {'loss': 0.5384, 'learning_rate': 1.6779046888571784e-05, 'epoch': 0.29}
 29%|██▊       | 1893/6640 [1:23:04<21:25:20, 16.25s/it]Token indices sequence length is longer than the specified maximum sequence length for this model (4374 > 4096). Running this sequence through the model will result in indexing errors
 29%|██▊       | 1894/6640 [1:23:20<21:16:34, 16.14s/it]                                                        {'loss': 0.5448, 'learning_rate': 1.677545983796741e-05, 'epoch': 0.29}
 29%|██▊       | 1894/6640 [1:23:20<21:16:34, 16.14s/it] 29%|██▊       | 1895/6640 [1:23:36<21:28:32, 16.29s/it]                                                        {'loss': 0.5378, 'learning_rate': 1.677187117498536e-05, 'epoch': 0.29}
 29%|██▊       | 1895/6640 [1:23:37<21:28:32, 16.29s/it] 29%|██▊       | 1896/6640 [1:23:53<21:43:11, 16.48s/it]                                                        {'loss': 0.5428, 'learning_rate': 1.6768280900479634e-05, 'epoch': 0.29}
 29%|██▊       | 1896/6640 [1:23:53<21:43:11, 16.48s/it] 29%|██▊       | 1897/6640 [1:24:10<21:33:21, 16.36s/it]                                                        {'loss': 0.5363, 'learning_rate': 1.6764689015304624e-05, 'epoch': 0.29}
 29%|██▊       | 1897/6640 [1:24:10<21:33:21, 16.36s/it] 29%|██▊       | 1898/6640 [1:24:26<21:39:00, 16.44s/it]                                                        {'loss': 0.5567, 'learning_rate': 1.67610955203151e-05, 'epoch': 0.29}
 29%|██▊       | 1898/6640 [1:24:26<21:39:00, 16.44s/it] 29%|██▊       | 1899/6640 [1:24:43<21:48:56, 16.57s/it]                                                        {'loss': 0.5249, 'learning_rate': 1.6757500416366225e-05, 'epoch': 0.29}
 29%|██▊       | 1899/6640 [1:24:43<21:48:56, 16.57s/it]6 AutoResumeHook: Checking whether to suspend...
04 AutoResumeHook: Checking whether to suspend...
 7 AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
 29%|██▊       | 1900/6640 [1:24:59<21:38:15, 16.43s/it]5 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5475, 'learning_rate': 1.6753903704313527e-05, 'epoch': 0.29}
 29%|██▊       | 1900/6640 [1:24:59<21:38:15, 16.43s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1900/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1900/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-1900/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 29%|██▊       | 1901/6640 [1:26:48<58:07:25, 44.15s/it]                                                        {'loss': 0.552, 'learning_rate': 1.6750305385012936e-05, 'epoch': 0.29}
 29%|██▊       | 1901/6640 [1:26:48<58:07:25, 44.15s/it] 29%|██▊       | 1902/6640 [1:27:04<47:04:53, 35.77s/it]                                                        {'loss': 0.5565, 'learning_rate': 1.6746705459320746e-05, 'epoch': 0.29}
 29%|██▊       | 1902/6640 [1:27:04<47:04:53, 35.77s/it] 29%|██▊       | 1903/6640 [1:27:20<39:12:27, 29.80s/it]                                                        {'loss': 0.5363, 'learning_rate': 1.674310392809365e-05, 'epoch': 0.29}
 29%|██▊       | 1903/6640 [1:27:20<39:12:27, 29.80s/it] 29%|██▊       | 1904/6640 [1:27:36<33:36:46, 25.55s/it]                                                        {'loss': 0.5597, 'learning_rate': 1.673950079218871e-05, 'epoch': 0.29}
 29%|██▊       | 1904/6640 [1:27:36<33:36:46, 25.55s/it] 29%|██▊       | 1905/6640 [1:27:52<29:50:48, 22.69s/it]                                                        {'loss': 0.5216, 'learning_rate': 1.6735896052463384e-05, 'epoch': 0.29}
 29%|██▊       | 1905/6640 [1:27:52<29:50:48, 22.69s/it] 29%|██▊       | 1906/6640 [1:28:10<27:57:56, 21.27s/it]                                                        {'loss': 0.5398, 'learning_rate': 1.6732289709775496e-05, 'epoch': 0.29}
 29%|██▊       | 1906/6640 [1:28:10<27:57:56, 21.27s/it] 29%|██▊       | 1907/6640 [1:28:26<25:52:51, 19.69s/it]                                                        {'loss': 0.5552, 'learning_rate': 1.672868176498326e-05, 'epoch': 0.29}
 29%|██▊       | 1907/6640 [1:28:26<25:52:51, 19.69s/it] 29%|██▊       | 1908/6640 [1:28:42<24:42:15, 18.79s/it]                                                        {'loss': 0.5538, 'learning_rate': 1.6725072218945274e-05, 'epoch': 0.29}
 29%|██▊       | 1908/6640 [1:28:42<24:42:15, 18.79s/it] 29%|██▉       | 1909/6640 [1:28:59<23:40:05, 18.01s/it]                                                        {'loss': 0.5287, 'learning_rate': 1.672146107252051e-05, 'epoch': 0.29}
 29%|██▉       | 1909/6640 [1:28:59<23:40:05, 18.01s/it]/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/model/llava_arch.py:397: UserWarning: Inputs truncated!
  warnings.warn("Inputs truncated!")
 29%|██▉       | 1910/6640 [1:29:15<23:01:27, 17.52s/it]                                                        {'loss': 0.5529, 'learning_rate': 1.6717848326568327e-05, 'epoch': 0.29}
 29%|██▉       | 1910/6640 [1:29:15<23:01:27, 17.52s/it] 29%|██▉       | 1911/6640 [1:29:31<22:32:55, 17.17s/it]                                                        {'loss': 0.5551, 'learning_rate': 1.6714233981948457e-05, 'epoch': 0.29}
 29%|██▉       | 1911/6640 [1:29:31<22:32:55, 17.17s/it] 29%|██▉       | 1912/6640 [1:29:47<22:09:38, 16.87s/it]                                                        {'loss': 0.5621, 'learning_rate': 1.6710618039521017e-05, 'epoch': 0.29}
 29%|██▉       | 1912/6640 [1:29:47<22:09:38, 16.87s/it] 29%|██▉       | 1913/6640 [1:30:03<21:47:56, 16.60s/it]                                                        {'loss': 0.5448, 'learning_rate': 1.6707000500146505e-05, 'epoch': 0.29}
 29%|██▉       | 1913/6640 [1:30:03<21:47:56, 16.60s/it] 29%|██▉       | 1914/6640 [1:30:19<21:28:21, 16.36s/it]                                                        {'loss': 0.553, 'learning_rate': 1.6703381364685805e-05, 'epoch': 0.29}
 29%|██▉       | 1914/6640 [1:30:19<21:28:21, 16.36s/it] 29%|██▉       | 1915/6640 [1:30:36<21:37:34, 16.48s/it]                                                        {'loss': 0.531, 'learning_rate': 1.6699760634000166e-05, 'epoch': 0.29}
 29%|██▉       | 1915/6640 [1:30:36<21:37:34, 16.48s/it] 29%|██▉       | 1916/6640 [1:30:53<21:41:40, 16.53s/it]                                                        {'loss': 0.5166, 'learning_rate': 1.6696138308951227e-05, 'epoch': 0.29}
 29%|██▉       | 1916/6640 [1:30:53<21:41:40, 16.53s/it] 29%|██▉       | 1917/6640 [1:31:09<21:38:57, 16.50s/it]                                                        {'loss': 0.5323, 'learning_rate': 1.669251439040101e-05, 'epoch': 0.29}
 29%|██▉       | 1917/6640 [1:31:09<21:38:57, 16.50s/it] 29%|██▉       | 1918/6640 [1:31:26<21:41:39, 16.54s/it]                                                        {'loss': 0.5436, 'learning_rate': 1.66888888792119e-05, 'epoch': 0.29}
 29%|██▉       | 1918/6640 [1:31:26<21:41:39, 16.54s/it] 29%|██▉       | 1919/6640 [1:31:42<21:27:46, 16.37s/it]                                                        {'loss': 0.5486, 'learning_rate': 1.668526177624668e-05, 'epoch': 0.29}
 29%|██▉       | 1919/6640 [1:31:42<21:27:46, 16.37s/it] 29%|██▉       | 1920/6640 [1:31:58<21:23:07, 16.31s/it]                                                        {'loss': 0.545, 'learning_rate': 1.66816330823685e-05, 'epoch': 0.29}
 29%|██▉       | 1920/6640 [1:31:58<21:23:07, 16.31s/it] 29%|██▉       | 1921/6640 [1:32:14<21:28:56, 16.39s/it]                                                        {'loss': 0.536, 'learning_rate': 1.6678002798440887e-05, 'epoch': 0.29}
 29%|██▉       | 1921/6640 [1:32:14<21:28:56, 16.39s/it] 29%|██▉       | 1922/6640 [1:32:31<21:26:51, 16.37s/it]                                                        {'loss': 0.527, 'learning_rate': 1.667437092532776e-05, 'epoch': 0.29}
 29%|██▉       | 1922/6640 [1:32:31<21:26:51, 16.37s/it] 29%|██▉       | 1923/6640 [1:32:47<21:33:35, 16.45s/it]                                                        {'loss': 0.548, 'learning_rate': 1.6670737463893403e-05, 'epoch': 0.29}
 29%|██▉       | 1923/6640 [1:32:47<21:33:35, 16.45s/it] 29%|██▉       | 1924/6640 [1:33:03<21:18:26, 16.27s/it]                                                        {'loss': 0.5472, 'learning_rate': 1.6667102415002482e-05, 'epoch': 0.29}
 29%|██▉       | 1924/6640 [1:33:03<21:18:26, 16.27s/it] 29%|██▉       | 1925/6640 [1:33:20<21:23:51, 16.34s/it]                                                        {'loss': 0.5428, 'learning_rate': 1.6663465779520042e-05, 'epoch': 0.29}
 29%|██▉       | 1925/6640 [1:33:20<21:23:51, 16.34s/it] 29%|██▉       | 1926/6640 [1:33:36<21:26:40, 16.38s/it]                                                        {'loss': 0.5307, 'learning_rate': 1.6659827558311504e-05, 'epoch': 0.29}
 29%|██▉       | 1926/6640 [1:33:36<21:26:40, 16.38s/it] 29%|██▉       | 1927/6640 [1:33:52<21:17:12, 16.26s/it]                                                        {'loss': 0.5313, 'learning_rate': 1.665618775224267e-05, 'epoch': 0.29}
 29%|██▉       | 1927/6640 [1:33:52<21:17:12, 16.26s/it] 29%|██▉       | 1928/6640 [1:34:08<21:06:52, 16.13s/it]                                                        {'loss': 0.5488, 'learning_rate': 1.665254636217971e-05, 'epoch': 0.29}
 29%|██▉       | 1928/6640 [1:34:08<21:06:52, 16.13s/it] 29%|██▉       | 1929/6640 [1:34:24<21:16:10, 16.25s/it]                                                        {'loss': 0.5289, 'learning_rate': 1.6648903388989182e-05, 'epoch': 0.29}
 29%|██▉       | 1929/6640 [1:34:24<21:16:10, 16.25s/it] 29%|██▉       | 1930/6640 [1:34:41<21:11:39, 16.20s/it]                                                        {'loss': 0.5402, 'learning_rate': 1.6645258833538015e-05, 'epoch': 0.29}
 29%|██▉       | 1930/6640 [1:34:41<21:11:39, 16.20s/it] 29%|██▉       | 1931/6640 [1:34:57<21:25:07, 16.37s/it]                                                        {'loss': 0.5536, 'learning_rate': 1.6641612696693513e-05, 'epoch': 0.29}
 29%|██▉       | 1931/6640 [1:34:57<21:25:07, 16.37s/it] 29%|██▉       | 1932/6640 [1:35:13<21:16:21, 16.27s/it]                                                        {'loss': 0.5545, 'learning_rate': 1.6637964979323363e-05, 'epoch': 0.29}
 29%|██▉       | 1932/6640 [1:35:13<21:16:21, 16.27s/it] 29%|██▉       | 1933/6640 [1:35:30<21:22:55, 16.35s/it]                                                        {'loss': 0.5354, 'learning_rate': 1.6634315682295622e-05, 'epoch': 0.29}
 29%|██▉       | 1933/6640 [1:35:30<21:22:55, 16.35s/it] 29%|██▉       | 1934/6640 [1:35:46<21:14:44, 16.25s/it]                                                        {'loss': 0.5232, 'learning_rate': 1.6630664806478726e-05, 'epoch': 0.29}
 29%|██▉       | 1934/6640 [1:35:46<21:14:44, 16.25s/it] 29%|██▉       | 1935/6640 [1:36:03<21:26:57, 16.41s/it]                                                        {'loss': 0.5584, 'learning_rate': 1.6627012352741482e-05, 'epoch': 0.29}
 29%|██▉       | 1935/6640 [1:36:03<21:26:57, 16.41s/it] 29%|██▉       | 1936/6640 [1:36:19<21:21:30, 16.35s/it]                                                        {'loss': 0.5434, 'learning_rate': 1.662335832195308e-05, 'epoch': 0.29}
 29%|██▉       | 1936/6640 [1:36:19<21:21:30, 16.35s/it] 29%|██▉       | 1937/6640 [1:36:35<21:07:24, 16.17s/it]                                                        {'loss': 0.5677, 'learning_rate': 1.6619702714983077e-05, 'epoch': 0.29}
 29%|██▉       | 1937/6640 [1:36:35<21:07:24, 16.17s/it] 29%|██▉       | 1938/6640 [1:36:50<20:56:00, 16.03s/it]                                                        {'loss': 0.5341, 'learning_rate': 1.661604553270141e-05, 'epoch': 0.29}
 29%|██▉       | 1938/6640 [1:36:50<20:56:00, 16.03s/it] 29%|██▉       | 1939/6640 [1:37:07<21:11:38, 16.23s/it]                                                        {'loss': 0.5603, 'learning_rate': 1.6612386775978398e-05, 'epoch': 0.29}
 29%|██▉       | 1939/6640 [1:37:07<21:11:38, 16.23s/it] 29%|██▉       | 1940/6640 [1:37:23<20:58:56, 16.07s/it]                                                        {'loss': 0.5372, 'learning_rate': 1.6608726445684715e-05, 'epoch': 0.29}
 29%|██▉       | 1940/6640 [1:37:23<20:58:56, 16.07s/it] 29%|██▉       | 1941/6640 [1:37:39<21:12:20, 16.25s/it]                                                        {'loss': 0.5369, 'learning_rate': 1.660506454269143e-05, 'epoch': 0.29}
 29%|██▉       | 1941/6640 [1:37:39<21:12:20, 16.25s/it] 29%|██▉       | 1942/6640 [1:37:55<21:08:05, 16.20s/it]                                                        {'loss': 0.5604, 'learning_rate': 1.6601401067869978e-05, 'epoch': 0.29}
 29%|██▉       | 1942/6640 [1:37:56<21:08:05, 16.20s/it] 29%|██▉       | 1943/6640 [1:38:12<21:05:05, 16.16s/it]                                                        {'loss': 0.5412, 'learning_rate': 1.659773602209216e-05, 'epoch': 0.29}
 29%|██▉       | 1943/6640 [1:38:12<21:05:05, 16.16s/it] 29%|██▉       | 1944/6640 [1:38:27<20:46:49, 15.93s/it]                                                        {'loss': 0.5659, 'learning_rate': 1.6594069406230167e-05, 'epoch': 0.29}
 29%|██▉       | 1944/6640 [1:38:27<20:46:49, 15.93s/it] 29%|██▉       | 1945/6640 [1:38:43<20:43:37, 15.89s/it]                                                        {'loss': 0.5308, 'learning_rate': 1.659040122115655e-05, 'epoch': 0.29}
 29%|██▉       | 1945/6640 [1:38:43<20:43:37, 15.89s/it] 29%|██▉       | 1946/6640 [1:38:59<20:50:48, 15.99s/it]                                                        {'loss': 0.5351, 'learning_rate': 1.658673146774424e-05, 'epoch': 0.29}
 29%|██▉       | 1946/6640 [1:38:59<20:50:48, 15.99s/it] 29%|██▉       | 1947/6640 [1:39:16<21:05:44, 16.18s/it]                                                        {'loss': 0.5553, 'learning_rate': 1.6583060146866542e-05, 'epoch': 0.29}
 29%|██▉       | 1947/6640 [1:39:16<21:05:44, 16.18s/it] 29%|██▉       | 1948/6640 [1:39:33<21:22:15, 16.40s/it]                                                        {'loss': 0.5241, 'learning_rate': 1.657938725939713e-05, 'epoch': 0.29}
 29%|██▉       | 1948/6640 [1:39:33<21:22:15, 16.40s/it] 29%|██▉       | 1949/6640 [1:39:49<21:14:46, 16.31s/it]                                                        {'loss': 0.5339, 'learning_rate': 1.657571280621005e-05, 'epoch': 0.29}
 29%|██▉       | 1949/6640 [1:39:49<21:14:46, 16.31s/it]6 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
01 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...3 AutoResumeHook: Checking whether to suspend...

 29%|██▉       | 1950/6640 [1:40:05<21:10:45, 16.26s/it]5 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5543, 'learning_rate': 1.6572036788179728e-05, 'epoch': 0.29}
 29%|██▉       | 1950/6640 [1:40:05<21:10:45, 16.26s/it] 29%|██▉       | 1951/6640 [1:40:20<20:57:13, 16.09s/it]                                                        {'loss': 0.5498, 'learning_rate': 1.6568359206180952e-05, 'epoch': 0.29}
 29%|██▉       | 1951/6640 [1:40:20<20:57:13, 16.09s/it] 29%|██▉       | 1952/6640 [1:40:37<21:11:16, 16.27s/it]                                                        {'loss': 0.5479, 'learning_rate': 1.6564680061088897e-05, 'epoch': 0.29}
 29%|██▉       | 1952/6640 [1:40:37<21:11:16, 16.27s/it] 29%|██▉       | 1953/6640 [1:40:54<21:33:10, 16.55s/it]                                                        {'loss': 0.5534, 'learning_rate': 1.6560999353779092e-05, 'epoch': 0.29}
 29%|██▉       | 1953/6640 [1:40:54<21:33:10, 16.55s/it] 29%|██▉       | 1954/6640 [1:41:11<21:26:25, 16.47s/it]                                                        {'loss': 0.5333, 'learning_rate': 1.655731708512745e-05, 'epoch': 0.29}
 29%|██▉       | 1954/6640 [1:41:11<21:26:25, 16.47s/it] 29%|██▉       | 1955/6640 [1:41:27<21:24:25, 16.45s/it]                                                        {'loss': 0.5391, 'learning_rate': 1.6553633256010254e-05, 'epoch': 0.29}
 29%|██▉       | 1955/6640 [1:41:27<21:24:25, 16.45s/it] 29%|██▉       | 1956/6640 [1:41:44<21:27:28, 16.49s/it]                                                        {'loss': 0.5433, 'learning_rate': 1.6549947867304154e-05, 'epoch': 0.29}
 29%|██▉       | 1956/6640 [1:41:44<21:27:28, 16.49s/it] 29%|██▉       | 1957/6640 [1:42:00<21:22:29, 16.43s/it]                                                        {'loss': 0.5644, 'learning_rate': 1.654626091988617e-05, 'epoch': 0.29}
 29%|██▉       | 1957/6640 [1:42:00<21:22:29, 16.43s/it] 29%|██▉       | 1958/6640 [1:42:16<21:22:56, 16.44s/it]                                                        {'loss': 0.5376, 'learning_rate': 1.6542572414633707e-05, 'epoch': 0.29}
 29%|██▉       | 1958/6640 [1:42:16<21:22:56, 16.44s/it] 30%|██▉       | 1959/6640 [1:42:33<21:15:18, 16.35s/it]                                                        {'loss': 0.55, 'learning_rate': 1.653888235242452e-05, 'epoch': 0.3}
 30%|██▉       | 1959/6640 [1:42:33<21:15:18, 16.35s/it] 30%|██▉       | 1960/6640 [1:42:49<21:24:47, 16.47s/it]                                                        {'loss': 0.5491, 'learning_rate': 1.653519073413675e-05, 'epoch': 0.3}
 30%|██▉       | 1960/6640 [1:42:49<21:24:47, 16.47s/it] 30%|██▉       | 1961/6640 [1:43:06<21:19:48, 16.41s/it]                                                        {'loss': 0.5561, 'learning_rate': 1.6531497560648903e-05, 'epoch': 0.3}
 30%|██▉       | 1961/6640 [1:43:06<21:19:48, 16.41s/it] 30%|██▉       | 1962/6640 [1:43:22<21:23:01, 16.46s/it]                                                        {'loss': 0.526, 'learning_rate': 1.6527802832839853e-05, 'epoch': 0.3}
 30%|██▉       | 1962/6640 [1:43:22<21:23:01, 16.46s/it] 30%|██▉       | 1963/6640 [1:43:38<21:06:11, 16.24s/it]                                                        {'loss': 0.5333, 'learning_rate': 1.652410655158885e-05, 'epoch': 0.3}
 30%|██▉       | 1963/6640 [1:43:38<21:06:11, 16.24s/it] 30%|██▉       | 1964/6640 [1:43:54<21:08:43, 16.28s/it]                                                        {'loss': 0.5528, 'learning_rate': 1.6520408717775507e-05, 'epoch': 0.3}
 30%|██▉       | 1964/6640 [1:43:54<21:08:43, 16.28s/it] 30%|██▉       | 1965/6640 [1:44:11<21:18:05, 16.40s/it]                                                        {'loss': 0.5416, 'learning_rate': 1.6516709332279806e-05, 'epoch': 0.3}
 30%|██▉       | 1965/6640 [1:44:11<21:18:05, 16.40s/it] 30%|██▉       | 1966/6640 [1:44:27<21:14:53, 16.37s/it]                                                        {'loss': 0.5492, 'learning_rate': 1.6513008395982107e-05, 'epoch': 0.3}
 30%|██▉       | 1966/6640 [1:44:27<21:14:53, 16.37s/it] 30%|██▉       | 1967/6640 [1:44:45<21:47:40, 16.79s/it]                                                        {'loss': 0.5433, 'learning_rate': 1.650930590976313e-05, 'epoch': 0.3}
 30%|██▉       | 1967/6640 [1:44:45<21:47:40, 16.79s/it] 30%|██▉       | 1968/6640 [1:45:01<21:37:03, 16.66s/it]                                                        {'loss': 0.5409, 'learning_rate': 1.650560187450397e-05, 'epoch': 0.3}
 30%|██▉       | 1968/6640 [1:45:01<21:37:03, 16.66s/it] 30%|██▉       | 1969/6640 [1:45:18<21:29:34, 16.56s/it]                                                        {'loss': 0.546, 'learning_rate': 1.650189629108609e-05, 'epoch': 0.3}
 30%|██▉       | 1969/6640 [1:45:18<21:29:34, 16.56s/it] 30%|██▉       | 1970/6640 [1:45:35<21:37:21, 16.67s/it]                                                        {'loss': 0.525, 'learning_rate': 1.649818916039131e-05, 'epoch': 0.3}
 30%|██▉       | 1970/6640 [1:45:35<21:37:21, 16.67s/it] 30%|██▉       | 1971/6640 [1:45:51<21:26:59, 16.54s/it]                                                        {'loss': 0.5394, 'learning_rate': 1.6494480483301836e-05, 'epoch': 0.3}
 30%|██▉       | 1971/6640 [1:45:51<21:26:59, 16.54s/it] 30%|██▉       | 1972/6640 [1:46:08<21:39:24, 16.70s/it]                                                        {'loss': 0.52, 'learning_rate': 1.6490770260700234e-05, 'epoch': 0.3}
 30%|██▉       | 1972/6640 [1:46:08<21:39:24, 16.70s/it] 30%|██▉       | 1973/6640 [1:46:24<21:35:56, 16.66s/it]                                                        {'loss': 0.5668, 'learning_rate': 1.6487058493469437e-05, 'epoch': 0.3}
 30%|██▉       | 1973/6640 [1:46:24<21:35:56, 16.66s/it] 30%|██▉       | 1974/6640 [1:46:40<21:06:04, 16.28s/it]                                                        {'loss': 0.5117, 'learning_rate': 1.6483345182492742e-05, 'epoch': 0.3}
 30%|██▉       | 1974/6640 [1:46:40<21:06:04, 16.28s/it] 30%|██▉       | 1975/6640 [1:46:56<21:12:32, 16.37s/it]                                                        {'loss': 0.5503, 'learning_rate': 1.6479630328653814e-05, 'epoch': 0.3}
 30%|██▉       | 1975/6640 [1:46:56<21:12:32, 16.37s/it] 30%|██▉       | 1976/6640 [1:47:13<21:07:55, 16.31s/it]                                                        {'loss': 0.5409, 'learning_rate': 1.64759139328367e-05, 'epoch': 0.3}
 30%|██▉       | 1976/6640 [1:47:13<21:07:55, 16.31s/it] 30%|██▉       | 1977/6640 [1:47:29<21:01:09, 16.23s/it]                                                        {'loss': 0.5467, 'learning_rate': 1.6472195995925796e-05, 'epoch': 0.3}
 30%|██▉       | 1977/6640 [1:47:29<21:01:09, 16.23s/it] 30%|██▉       | 1978/6640 [1:47:46<21:16:21, 16.43s/it]                                                        {'loss': 0.5382, 'learning_rate': 1.6468476518805872e-05, 'epoch': 0.3}
 30%|██▉       | 1978/6640 [1:47:46<21:16:21, 16.43s/it] 30%|██▉       | 1979/6640 [1:48:03<21:40:04, 16.74s/it]                                                        {'loss': 0.5383, 'learning_rate': 1.6464755502362063e-05, 'epoch': 0.3}
 30%|██▉       | 1979/6640 [1:48:03<21:40:04, 16.74s/it] 30%|██▉       | 1980/6640 [1:48:19<21:20:59, 16.49s/it]                                                        {'loss': 0.5462, 'learning_rate': 1.646103294747987e-05, 'epoch': 0.3}
 30%|██▉       | 1980/6640 [1:48:19<21:20:59, 16.49s/it] 30%|██▉       | 1981/6640 [1:48:35<21:05:03, 16.29s/it]                                                        {'loss': 0.5279, 'learning_rate': 1.6457308855045165e-05, 'epoch': 0.3}
 30%|██▉       | 1981/6640 [1:48:35<21:05:03, 16.29s/it] 30%|██▉       | 1982/6640 [1:48:52<21:24:22, 16.54s/it]                                                        {'loss': 0.5587, 'learning_rate': 1.645358322594418e-05, 'epoch': 0.3}
 30%|██▉       | 1982/6640 [1:48:52<21:24:22, 16.54s/it] 30%|██▉       | 1983/6640 [1:49:08<21:18:57, 16.48s/it]                                                        {'loss': 0.5571, 'learning_rate': 1.6449856061063513e-05, 'epoch': 0.3}
 30%|██▉       | 1983/6640 [1:49:08<21:18:57, 16.48s/it] 30%|██▉       | 1984/6640 [1:49:26<21:48:08, 16.86s/it]                                                        {'loss': 0.5332, 'learning_rate': 1.644612736129013e-05, 'epoch': 0.3}
 30%|██▉       | 1984/6640 [1:49:26<21:48:08, 16.86s/it] 30%|██▉       | 1985/6640 [1:49:42<21:33:28, 16.67s/it]                                                        {'loss': 0.5251, 'learning_rate': 1.6442397127511366e-05, 'epoch': 0.3}
 30%|██▉       | 1985/6640 [1:49:42<21:33:28, 16.67s/it] 30%|██▉       | 1986/6640 [1:49:58<21:23:18, 16.54s/it]                                                        {'loss': 0.5254, 'learning_rate': 1.643866536061491e-05, 'epoch': 0.3}
 30%|██▉       | 1986/6640 [1:49:58<21:23:18, 16.54s/it] 30%|██▉       | 1987/6640 [1:50:14<21:05:29, 16.32s/it]                                                        {'loss': 0.526, 'learning_rate': 1.6434932061488827e-05, 'epoch': 0.3}
 30%|██▉       | 1987/6640 [1:50:14<21:05:29, 16.32s/it] 30%|██▉       | 1988/6640 [1:50:31<21:09:34, 16.37s/it]                                                        {'loss': 0.5597, 'learning_rate': 1.6431197231021543e-05, 'epoch': 0.3}
 30%|██▉       | 1988/6640 [1:50:31<21:09:34, 16.37s/it] 30%|██▉       | 1989/6640 [1:50:47<21:12:33, 16.42s/it]                                                        {'loss': 0.59, 'learning_rate': 1.6427460870101837e-05, 'epoch': 0.3}
 30%|██▉       | 1989/6640 [1:50:47<21:12:33, 16.42s/it] 30%|██▉       | 1990/6640 [1:51:03<21:04:49, 16.32s/it]                                                        {'loss': 0.5368, 'learning_rate': 1.6423722979618883e-05, 'epoch': 0.3}
 30%|██▉       | 1990/6640 [1:51:03<21:04:49, 16.32s/it] 30%|██▉       | 1991/6640 [1:51:20<21:16:15, 16.47s/it]                                                        {'loss': 0.5697, 'learning_rate': 1.6419983560462178e-05, 'epoch': 0.3}
 30%|██▉       | 1991/6640 [1:51:20<21:16:15, 16.47s/it] 30%|███       | 1992/6640 [1:51:37<21:17:50, 16.50s/it]                                                        {'loss': 0.5482, 'learning_rate': 1.6416242613521612e-05, 'epoch': 0.3}
 30%|███       | 1992/6640 [1:51:37<21:17:50, 16.50s/it] 30%|███       | 1993/6640 [1:51:53<21:07:03, 16.36s/it]                                                        {'loss': 0.5264, 'learning_rate': 1.641250013968743e-05, 'epoch': 0.3}
 30%|███       | 1993/6640 [1:51:53<21:07:03, 16.36s/it] 30%|███       | 1994/6640 [1:52:09<21:06:21, 16.35s/it]                                                        {'loss': 0.5465, 'learning_rate': 1.6408756139850243e-05, 'epoch': 0.3}
 30%|███       | 1994/6640 [1:52:09<21:06:21, 16.35s/it] 30%|███       | 1995/6640 [1:52:25<20:54:31, 16.20s/it]                                                        {'loss': 0.5405, 'learning_rate': 1.6405010614901017e-05, 'epoch': 0.3}
 30%|███       | 1995/6640 [1:52:25<20:54:31, 16.20s/it] 30%|███       | 1996/6640 [1:52:41<20:46:13, 16.10s/it]                                                        {'loss': 0.5535, 'learning_rate': 1.640126356573109e-05, 'epoch': 0.3}
 30%|███       | 1996/6640 [1:52:41<20:46:13, 16.10s/it] 30%|███       | 1997/6640 [1:52:58<21:18:35, 16.52s/it]                                                        {'loss': 0.5457, 'learning_rate': 1.639751499323216e-05, 'epoch': 0.3}
 30%|███       | 1997/6640 [1:52:58<21:18:35, 16.52s/it] 30%|███       | 1998/6640 [1:53:15<21:14:25, 16.47s/it]                                                        {'loss': 0.5268, 'learning_rate': 1.6393764898296283e-05, 'epoch': 0.3}
 30%|███       | 1998/6640 [1:53:15<21:14:25, 16.47s/it] 30%|███       | 1999/6640 [1:53:31<21:03:48, 16.34s/it]                                                        {'loss': 0.5446, 'learning_rate': 1.6390013281815884e-05, 'epoch': 0.3}
 30%|███       | 1999/6640 [1:53:31<21:03:48, 16.34s/it]6 AutoResumeHook: Checking whether to suspend...
07 AutoResumeHook: Checking whether to suspend...
4  AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
 30%|███       | 2000/6640 [1:53:47<21:12:58, 16.46s/it]2 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5436, 'learning_rate': 1.6386260144683744e-05, 'epoch': 0.3}
 30%|███       | 2000/6640 [1:53:47<21:12:58, 16.46s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2000/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2000/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2000/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 30%|███       | 2001/6640 [1:55:35<56:17:19, 43.68s/it]                                                        {'loss': 0.5411, 'learning_rate': 1.6382505487793015e-05, 'epoch': 0.3}
 30%|███       | 2001/6640 [1:55:35<56:17:19, 43.68s/it] 30%|███       | 2002/6640 [1:55:51<45:44:49, 35.51s/it]                                                        {'loss': 0.5432, 'learning_rate': 1.6378749312037197e-05, 'epoch': 0.3}
 30%|███       | 2002/6640 [1:55:51<45:44:49, 35.51s/it] 30%|███       | 2003/6640 [1:56:08<38:22:26, 29.79s/it]                                                        {'loss': 0.5471, 'learning_rate': 1.6374991618310165e-05, 'epoch': 0.3}
 30%|███       | 2003/6640 [1:56:08<38:22:26, 29.79s/it] 30%|███       | 2004/6640 [1:56:23<32:56:54, 25.59s/it]                                                        {'loss': 0.5402, 'learning_rate': 1.6371232407506146e-05, 'epoch': 0.3}
 30%|███       | 2004/6640 [1:56:23<32:56:54, 25.59s/it] 30%|███       | 2005/6640 [1:56:39<29:10:03, 22.65s/it]                                                        {'loss': 0.5572, 'learning_rate': 1.6367471680519734e-05, 'epoch': 0.3}
 30%|███       | 2005/6640 [1:56:39<29:10:03, 22.65s/it] 30%|███       | 2006/6640 [1:56:55<26:34:45, 20.65s/it]                                                        {'loss': 0.552, 'learning_rate': 1.6363709438245877e-05, 'epoch': 0.3}
 30%|███       | 2006/6640 [1:56:55<26:34:45, 20.65s/it] 30%|███       | 2007/6640 [1:57:12<25:01:11, 19.44s/it]                                                        {'loss': 0.5511, 'learning_rate': 1.635994568157989e-05, 'epoch': 0.3}
 30%|███       | 2007/6640 [1:57:12<25:01:11, 19.44s/it] 30%|███       | 2008/6640 [1:57:28<23:57:48, 18.62s/it]                                                        {'loss': 0.5509, 'learning_rate': 1.6356180411417448e-05, 'epoch': 0.3}
 30%|███       | 2008/6640 [1:57:28<23:57:48, 18.62s/it] 30%|███       | 2009/6640 [1:57:45<23:17:28, 18.11s/it]                                                        {'loss': 0.5499, 'learning_rate': 1.6352413628654584e-05, 'epoch': 0.3}
 30%|███       | 2009/6640 [1:57:45<23:17:28, 18.11s/it] 30%|███       | 2010/6640 [1:58:02<22:47:53, 17.73s/it]                                                        {'loss': 0.5389, 'learning_rate': 1.6348645334187686e-05, 'epoch': 0.3}
 30%|███       | 2010/6640 [1:58:02<22:47:53, 17.73s/it] 30%|███       | 2011/6640 [1:58:19<22:25:00, 17.43s/it]                                                        {'loss': 0.5392, 'learning_rate': 1.6344875528913517e-05, 'epoch': 0.3}
 30%|███       | 2011/6640 [1:58:19<22:25:00, 17.43s/it] 30%|███       | 2012/6640 [1:58:35<21:43:49, 16.90s/it]                                                        {'loss': 0.5469, 'learning_rate': 1.6341104213729177e-05, 'epoch': 0.3}
 30%|███       | 2012/6640 [1:58:35<21:43:49, 16.90s/it] 30%|███       | 2013/6640 [1:58:51<21:23:51, 16.65s/it]                                                        {'loss': 0.5464, 'learning_rate': 1.6337331389532148e-05, 'epoch': 0.3}
 30%|███       | 2013/6640 [1:58:51<21:23:51, 16.65s/it] 30%|███       | 2014/6640 [1:59:08<21:35:24, 16.80s/it]                                                        {'loss': 0.5626, 'learning_rate': 1.633355705722025e-05, 'epoch': 0.3}
 30%|███       | 2014/6640 [1:59:08<21:35:24, 16.80s/it] 30%|███       | 2015/6640 [1:59:24<21:10:15, 16.48s/it]                                                        {'loss': 0.5243, 'learning_rate': 1.632978121769169e-05, 'epoch': 0.3}
 30%|███       | 2015/6640 [1:59:24<21:10:15, 16.48s/it] 30%|███       | 2016/6640 [1:59:40<20:59:30, 16.34s/it]                                                        {'loss': 0.5503, 'learning_rate': 1.6326003871845003e-05, 'epoch': 0.3}
 30%|███       | 2016/6640 [1:59:40<20:59:30, 16.34s/it] 30%|███       | 2017/6640 [1:59:56<21:10:26, 16.49s/it]                                                        {'loss': 0.5325, 'learning_rate': 1.63222250205791e-05, 'epoch': 0.3}
 30%|███       | 2017/6640 [1:59:56<21:10:26, 16.49s/it] 30%|███       | 2018/6640 [2:00:13<21:05:02, 16.42s/it]                                                        {'loss': 0.5461, 'learning_rate': 1.6318444664793243e-05, 'epoch': 0.3}
 30%|███       | 2018/6640 [2:00:13<21:05:02, 16.42s/it] 30%|███       | 2019/6640 [2:00:29<20:54:39, 16.29s/it]                                                        {'loss': 0.521, 'learning_rate': 1.631466280538706e-05, 'epoch': 0.3}
 30%|███       | 2019/6640 [2:00:29<20:54:39, 16.29s/it] 30%|███       | 2020/6640 [2:00:45<20:52:19, 16.26s/it]                                                        {'loss': 0.5416, 'learning_rate': 1.631087944326053e-05, 'epoch': 0.3}
 30%|███       | 2020/6640 [2:00:45<20:52:19, 16.26s/it] 30%|███       | 2021/6640 [2:01:01<20:47:57, 16.21s/it]                                                        {'loss': 0.5333, 'learning_rate': 1.630709457931399e-05, 'epoch': 0.3}
 30%|███       | 2021/6640 [2:01:01<20:47:57, 16.21s/it] 30%|███       | 2022/6640 [2:01:17<20:51:53, 16.27s/it]                                                        {'loss': 0.5574, 'learning_rate': 1.630330821444814e-05, 'epoch': 0.3}
 30%|███       | 2022/6640 [2:01:17<20:51:53, 16.27s/it] 30%|███       | 2023/6640 [2:01:33<20:46:07, 16.19s/it]                                                        {'loss': 0.5322, 'learning_rate': 1.629952034956403e-05, 'epoch': 0.3}
 30%|███       | 2023/6640 [2:01:33<20:46:07, 16.19s/it] 30%|███       | 2024/6640 [2:01:49<20:38:54, 16.10s/it]                                                        {'loss': 0.5356, 'learning_rate': 1.6295730985563074e-05, 'epoch': 0.3}
 30%|███       | 2024/6640 [2:01:49<20:38:54, 16.10s/it] 30%|███       | 2025/6640 [2:02:06<20:52:50, 16.29s/it]                                                        {'loss': 0.538, 'learning_rate': 1.6291940123347033e-05, 'epoch': 0.3}
 30%|███       | 2025/6640 [2:02:06<20:52:50, 16.29s/it] 31%|███       | 2026/6640 [2:02:22<20:43:09, 16.17s/it]                                                        {'loss': 0.5374, 'learning_rate': 1.6288147763818038e-05, 'epoch': 0.31}
 31%|███       | 2026/6640 [2:02:22<20:43:09, 16.17s/it] 31%|███       | 2027/6640 [2:02:40<21:28:18, 16.76s/it]                                                        {'loss': 0.5458, 'learning_rate': 1.6284353907878557e-05, 'epoch': 0.31}
 31%|███       | 2027/6640 [2:02:40<21:28:18, 16.76s/it] 31%|███       | 2028/6640 [2:02:56<21:13:10, 16.56s/it]                                                        {'loss': 0.5437, 'learning_rate': 1.6280558556431437e-05, 'epoch': 0.31}
 31%|███       | 2028/6640 [2:02:56<21:13:10, 16.56s/it] 31%|███       | 2029/6640 [2:03:12<21:03:50, 16.45s/it]                                                        {'loss': 0.5423, 'learning_rate': 1.627676171037987e-05, 'epoch': 0.31}
 31%|███       | 2029/6640 [2:03:12<21:03:50, 16.45s/it] 31%|███       | 2030/6640 [2:03:28<20:50:05, 16.27s/it]                                                        {'loss': 0.5385, 'learning_rate': 1.6272963370627398e-05, 'epoch': 0.31}
 31%|███       | 2030/6640 [2:03:28<20:50:05, 16.27s/it] 31%|███       | 2031/6640 [2:03:44<20:48:47, 16.26s/it]                                                        {'loss': 0.5317, 'learning_rate': 1.626916353807793e-05, 'epoch': 0.31}
 31%|███       | 2031/6640 [2:03:44<20:48:47, 16.26s/it] 31%|███       | 2032/6640 [2:04:00<20:45:32, 16.22s/it]                                                        {'loss': 0.5441, 'learning_rate': 1.6265362213635714e-05, 'epoch': 0.31}
 31%|███       | 2032/6640 [2:04:00<20:45:32, 16.22s/it] 31%|███       | 2033/6640 [2:04:18<21:15:27, 16.61s/it]                                                        {'loss': 0.5483, 'learning_rate': 1.626155939820537e-05, 'epoch': 0.31}
 31%|███       | 2033/6640 [2:04:18<21:15:27, 16.61s/it] 31%|███       | 2034/6640 [2:04:35<21:21:49, 16.70s/it]                                                        {'loss': 0.5497, 'learning_rate': 1.6257755092691865e-05, 'epoch': 0.31}
 31%|███       | 2034/6640 [2:04:35<21:21:49, 16.70s/it] 31%|███       | 2035/6640 [2:04:51<21:12:14, 16.58s/it]                                                        {'loss': 0.5488, 'learning_rate': 1.6253949298000527e-05, 'epoch': 0.31}
 31%|███       | 2035/6640 [2:04:51<21:12:14, 16.58s/it] 31%|███       | 2036/6640 [2:05:08<21:19:24, 16.67s/it]                                                        {'loss': 0.5363, 'learning_rate': 1.6250142015037024e-05, 'epoch': 0.31}
 31%|███       | 2036/6640 [2:05:08<21:19:24, 16.67s/it] 31%|███       | 2037/6640 [2:05:25<21:15:09, 16.62s/it]                                                        {'loss': 0.5575, 'learning_rate': 1.624633324470739e-05, 'epoch': 0.31}
 31%|███       | 2037/6640 [2:05:25<21:15:09, 16.62s/it] 31%|███       | 2038/6640 [2:05:41<21:19:49, 16.69s/it]                                                        {'loss': 0.5284, 'learning_rate': 1.6242522987918016e-05, 'epoch': 0.31}
 31%|███       | 2038/6640 [2:05:41<21:19:49, 16.69s/it] 31%|███       | 2039/6640 [2:05:59<21:39:20, 16.94s/it]                                                        {'loss': 0.5484, 'learning_rate': 1.6238711245575632e-05, 'epoch': 0.31}
 31%|███       | 2039/6640 [2:05:59<21:39:20, 16.94s/it] 31%|███       | 2040/6640 [2:06:15<21:19:55, 16.69s/it]                                                        {'loss': 0.531, 'learning_rate': 1.6234898018587336e-05, 'epoch': 0.31}
 31%|███       | 2040/6640 [2:06:15<21:19:55, 16.69s/it] 31%|███       | 2041/6640 [2:06:31<20:57:26, 16.40s/it]                                                        {'loss': 0.5364, 'learning_rate': 1.6231083307860574e-05, 'epoch': 0.31}
 31%|███       | 2041/6640 [2:06:31<20:57:26, 16.40s/it] 31%|███       | 2042/6640 [2:06:48<21:06:36, 16.53s/it]                                                        {'loss': 0.541, 'learning_rate': 1.6227267114303145e-05, 'epoch': 0.31}
 31%|███       | 2042/6640 [2:06:48<21:06:36, 16.53s/it] 31%|███       | 2043/6640 [2:07:04<20:58:48, 16.43s/it]                                                        {'loss': 0.5375, 'learning_rate': 1.6223449438823194e-05, 'epoch': 0.31}
 31%|███       | 2043/6640 [2:07:04<20:58:48, 16.43s/it] 31%|███       | 2044/6640 [2:07:20<20:48:03, 16.29s/it]                                                        {'loss': 0.5367, 'learning_rate': 1.6219630282329232e-05, 'epoch': 0.31}
 31%|███       | 2044/6640 [2:07:20<20:48:03, 16.29s/it] 31%|███       | 2045/6640 [2:07:36<20:43:08, 16.23s/it]                                                        {'loss': 0.539, 'learning_rate': 1.6215809645730115e-05, 'epoch': 0.31}
 31%|███       | 2045/6640 [2:07:36<20:43:08, 16.23s/it] 31%|███       | 2046/6640 [2:07:52<20:39:33, 16.19s/it]                                                        {'loss': 0.5527, 'learning_rate': 1.6211987529935055e-05, 'epoch': 0.31}
 31%|███       | 2046/6640 [2:07:52<20:39:33, 16.19s/it] 31%|███       | 2047/6640 [2:08:08<20:25:08, 16.00s/it]                                                        {'loss': 0.5433, 'learning_rate': 1.6208163935853605e-05, 'epoch': 0.31}
 31%|███       | 2047/6640 [2:08:08<20:25:08, 16.00s/it] 31%|███       | 2048/6640 [2:08:23<20:17:20, 15.91s/it]                                                        {'loss': 0.5162, 'learning_rate': 1.6204338864395683e-05, 'epoch': 0.31}
 31%|███       | 2048/6640 [2:08:23<20:17:20, 15.91s/it] 31%|███       | 2049/6640 [2:08:40<20:43:21, 16.25s/it]                                                        {'loss': 0.5488, 'learning_rate': 1.620051231647155e-05, 'epoch': 0.31}
 31%|███       | 2049/6640 [2:08:40<20:43:21, 16.25s/it]04 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
 2AutoResumeHook: Checking whether to suspend... AutoResumeHook: Checking whether to suspend...

76 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
 31%|███       | 2050/6640 [2:08:57<20:55:21, 16.41s/it]5 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5391, 'learning_rate': 1.6196684292991827e-05, 'epoch': 0.31}
 31%|███       | 2050/6640 [2:08:57<20:55:21, 16.41s/it] 31%|███       | 2051/6640 [2:09:14<21:03:30, 16.52s/it]                                                        {'loss': 0.5494, 'learning_rate': 1.6192854794867477e-05, 'epoch': 0.31}
 31%|███       | 2051/6640 [2:09:14<21:03:30, 16.52s/it] 31%|███       | 2052/6640 [2:09:30<20:56:43, 16.43s/it]                                                        {'loss': 0.525, 'learning_rate': 1.618902382300982e-05, 'epoch': 0.31}
 31%|███       | 2052/6640 [2:09:30<20:56:43, 16.43s/it] 31%|███       | 2053/6640 [2:09:47<21:00:39, 16.49s/it]                                                        {'loss': 0.5463, 'learning_rate': 1.6185191378330523e-05, 'epoch': 0.31}
 31%|███       | 2053/6640 [2:09:47<21:00:39, 16.49s/it] 31%|███       | 2054/6640 [2:10:03<21:07:20, 16.58s/it]                                                        {'loss': 0.5545, 'learning_rate': 1.6181357461741603e-05, 'epoch': 0.31}
 31%|███       | 2054/6640 [2:10:03<21:07:20, 16.58s/it] 31%|███       | 2055/6640 [2:10:20<21:09:08, 16.61s/it]                                                        {'loss': 0.5397, 'learning_rate': 1.6177522074155436e-05, 'epoch': 0.31}
 31%|███       | 2055/6640 [2:10:20<21:09:08, 16.61s/it] 31%|███       | 2056/6640 [2:10:36<20:52:49, 16.40s/it]                                                        {'loss': 0.5522, 'learning_rate': 1.6173685216484734e-05, 'epoch': 0.31}
 31%|███       | 2056/6640 [2:10:36<20:52:49, 16.40s/it] 31%|███       | 2057/6640 [2:10:54<21:33:28, 16.93s/it]                                                        {'loss': 0.538, 'learning_rate': 1.6169846889642572e-05, 'epoch': 0.31}
 31%|███       | 2057/6640 [2:10:54<21:33:28, 16.93s/it] 31%|███       | 2058/6640 [2:11:11<21:19:50, 16.76s/it]                                                        {'loss': 0.559, 'learning_rate': 1.6166007094542365e-05, 'epoch': 0.31}
 31%|███       | 2058/6640 [2:11:11<21:19:50, 16.76s/it] 31%|███       | 2059/6640 [2:11:27<21:13:32, 16.68s/it]                                                        {'loss': 0.5778, 'learning_rate': 1.616216583209788e-05, 'epoch': 0.31}
 31%|███       | 2059/6640 [2:11:27<21:13:32, 16.68s/it] 31%|███       | 2060/6640 [2:11:43<21:04:14, 16.56s/it]                                                        {'loss': 0.5396, 'learning_rate': 1.615832310322324e-05, 'epoch': 0.31}
 31%|███       | 2060/6640 [2:11:43<21:04:14, 16.56s/it] 31%|███       | 2061/6640 [2:12:00<20:58:04, 16.49s/it]                                                        {'loss': 0.5541, 'learning_rate': 1.6154478908832907e-05, 'epoch': 0.31}
 31%|███       | 2061/6640 [2:12:00<20:58:04, 16.49s/it] 31%|███       | 2062/6640 [2:12:15<20:38:56, 16.24s/it]                                                        {'loss': 0.5373, 'learning_rate': 1.6150633249841696e-05, 'epoch': 0.31}
 31%|███       | 2062/6640 [2:12:15<20:38:56, 16.24s/it]WARNING: tokenization mismatch: 1 vs. 1419. [[{'from': 'human', 'value': 'ASSISTANT: You are an innovative tax advisory firm with the following knowledge and traits.\n\nKNOWLEDGE: Tax advisor, junior tax advisor, senior tax advisor, financial strategist, tax regulations.\n\nTRAITS: Empathy, innovation, solution orientation, professionalism, communication, client focus.\n\nTASK: Use your knowledge to develop an internal strategy document. We are a tax advisory firm looking to identify 10 creative ways to improve client satisfaction and loyalty. Focus on ideas that are tailored to the needs of tax advisors and enhance the overall client experience.\n\nOUTPUT: A table in German containing 10 creative strategies to improve client satisfaction and loyalty for a tax advisory firm, including a brief description for each.'}, {'from': 'gpt', 'value': 'Tabelle: 10 kreative Strategien zur Steigerung der Kundenzufriedenheit und -loyalität in einer Steuerberatungskanzlei\n\n| Nr. | Strategie | Beschreibung |\n| --- | --- | --- |\n| 1 | Personalisierter Service | Jeder Kunde erhält einen dedizierten Steuerberater, der auf seine individuellen Bedürfnisse und Anliegen eingeht. |\n| 2 | Proaktive Steuerplanung | Regelmäßige Updates und Empfehlungen zur Steueroptimierung, basierend auf aktuellen Gesetzesänderungen und Kundenzielen. |\n| 3 | Umfassende Schulungsangebote | Kostenlose Workshops und Webinare, um das Steuerwissen der Kunden zu erweitern und den Umgang mit Steuerthemen zu erleichtern. |\n| 4 | Digitale Plattform | Eine benutzerfreundliche Online-Plattform, die den Kunden den Zugriff auf ihre Steuerdokumente und den Kontakt zum Berater erleichtert. |\n| 5 | Einführung von Steuer-Coaching | Persönliche Coaching-Sitzungen, um den Kunden dabei zu unterstützen, ihre steuerlichen Ziele und Möglichkeiten besser zu verstehen. |\n| 6 | Schnelle Reaktionszeiten | Verbindliches Versprechen, innerhalb von 24 Stunden auf Kundenanfragen zu reagieren, um eine effiziente Kommunikation zu gewährleisten. |\n| 7 | Transparente Preisgestaltung | Klare und faire Preisstrukturen, die den Kunden im Voraus bekannt sind, um böse Überraschungen zu vermeiden. |\n| 8 | Individuelle Jahresgespräche | Regelmäßige persönliche Jahresgespräche, um auf die Bedürfnisse und Ziele der Kunden einzugehen und die Zusammenarbeit zu stärken. |\n| 9 | Kunden-Feedback-System | Einrichtung eines einfachen Feedback-Systems, um Kundenmeinungen und Verbesserungsvorschläge aktiv einzuholen und umzusetzen. |\n| 10 | Steuer-Newsletter und Informationsangebot | Monatlicher Newsletter mit aktuellen Steuerinformationen und Tipps, der den Kunden einen Mehrwert bietet und sie auf dem Laufenden hält. |'}, {'from': 'human', 'value': 'Bitte etwas kreativer und auf bezugnehmend auf die zwischenmenschliche Ebene.'}, {'from': 'gpt', 'value': 'Tabelle: 10 kreative Strategien zur Steigerung der Kundenzufriedenheit und -loyalität in einer Steuerberatungskanzlei mit Fokus auf zwischenmenschlicher Ebene\n\n| Nr. | Strategie | Beschreibung |\n| --- | --- | --- |\n| 1 | Kunden-Events | Organisation von regelmäßigen, informellen Veranstaltungen, um den persönlichen Kontakt zwischen Klienten und Beratern zu fördern. |\n| 2 | Persönliche Geburtstagsgrüße | Individuelle Geburtstagskarten oder -nachrichten für jeden Kunden, um Wertschätzung zu zeigen und Beziehungen zu stärken. |\n| 3 | Kundenbefragung & Anpassung | Aktives Einholen von Kundenmeinungen zur individuellen Betreuung und Anpassung unserer Leistungen entsprechend der Kundenbedürfnisse. |\n| 4 | Teamvorstellung & Empathie | Vorstellung unserer Berater auf der Firmenwebsite und in sozialen Medien, um eine persönliche und empathische Beziehung zum Kunden aufzubauen. |\n| 5 | Kunden-Mentoring-Programm | Schaffung eines Programms, bei dem langjährige Kunden als Mentoren für Neukunden fungieren, um Vertrauen und Loyalität zu fördern. |\n| 6 | "Tag der offenen Tür" | Einladung der Kunden zu einem "Tag der offenen Tür" in unserer Kanzlei, um ihnen einen persönlichen Einblick in unsere Arbeitsweise zu geben. |\n| 7 | Individuelle Erfolgsgeschichten | Erstellung von individuellen Erfolgsgeschichten für jeden Kunden, um ihre steuerlichen Erfolge hervorzuheben und ihre Loyalität zu stärken. |\n| 8 | Gemeinsame soziale Projekte | Zusammenarbeit mit Kunden an sozialen Projekten und Spendenaktionen, um gemeinsame Werte zu teilen und die Zusammenarbeit zu fördern. |\n| 9 | Flexibilität in der Kommunikation | Anbieten verschiedener Kommunikationswege (Telefon, E-Mail, Videoanruf, etc.), um auf die individuellen Bedürfnisse der Kunden einzugehen. |\n| 10 | Jährliches Kunden-Dankeschön | Überraschung der Kunden mit einer kleinen Aufmerksamkeit oder einem Dankeschön-Event, um die Wertschätzung für ihre Treue auszudrücken. |'}]] (ignored)
 31%|███       | 2063/6640 [2:12:32<20:57:46, 16.49s/it]                                                        {'loss': 0.5401, 'learning_rate': 1.6146786127164773e-05, 'epoch': 0.31}
 31%|███       | 2063/6640 [2:12:32<20:57:46, 16.49s/it] 31%|███       | 2064/6640 [2:12:50<21:22:51, 16.82s/it]                                                        {'loss': 0.5621, 'learning_rate': 1.614293754171765e-05, 'epoch': 0.31}
 31%|███       | 2064/6640 [2:12:50<21:22:51, 16.82s/it] 31%|███       | 2065/6640 [2:13:06<21:07:13, 16.62s/it]                                                        {'loss': 0.5522, 'learning_rate': 1.6139087494416184e-05, 'epoch': 0.31}
 31%|███       | 2065/6640 [2:13:06<21:07:13, 16.62s/it] 31%|███       | 2066/6640 [2:13:22<20:59:46, 16.53s/it]                                                        {'loss': 0.5335, 'learning_rate': 1.6135235986176584e-05, 'epoch': 0.31}
 31%|███       | 2066/6640 [2:13:22<20:59:46, 16.53s/it] 31%|███       | 2067/6640 [2:13:38<20:43:53, 16.32s/it]                                                        {'loss': 0.5459, 'learning_rate': 1.613138301791541e-05, 'epoch': 0.31}
 31%|███       | 2067/6640 [2:13:38<20:43:53, 16.32s/it] 31%|███       | 2068/6640 [2:13:55<20:51:14, 16.42s/it]                                                        {'loss': 0.5526, 'learning_rate': 1.6127528590549563e-05, 'epoch': 0.31}
 31%|███       | 2068/6640 [2:13:55<20:51:14, 16.42s/it] 31%|███       | 2069/6640 [2:14:11<20:43:56, 16.33s/it]                                                        {'loss': 0.5312, 'learning_rate': 1.612367270499629e-05, 'epoch': 0.31}
 31%|███       | 2069/6640 [2:14:11<20:43:56, 16.33s/it] 31%|███       | 2070/6640 [2:14:28<20:56:10, 16.49s/it]                                                        {'loss': 0.539, 'learning_rate': 1.6119815362173188e-05, 'epoch': 0.31}
 31%|███       | 2070/6640 [2:14:28<20:56:10, 16.49s/it] 31%|███       | 2071/6640 [2:14:44<20:45:43, 16.36s/it]                                                        {'loss': 0.5536, 'learning_rate': 1.6115956562998208e-05, 'epoch': 0.31}
 31%|███       | 2071/6640 [2:14:44<20:45:43, 16.36s/it] 31%|███       | 2072/6640 [2:15:00<20:32:23, 16.19s/it]                                                        {'loss': 0.5534, 'learning_rate': 1.611209630838963e-05, 'epoch': 0.31}
 31%|███       | 2072/6640 [2:15:00<20:32:23, 16.19s/it] 31%|███       | 2073/6640 [2:15:16<20:33:46, 16.21s/it]                                                        {'loss': 0.5341, 'learning_rate': 1.6108234599266102e-05, 'epoch': 0.31}
 31%|███       | 2073/6640 [2:15:16<20:33:46, 16.21s/it] 31%|███       | 2074/6640 [2:15:32<20:25:50, 16.11s/it]                                                        {'loss': 0.544, 'learning_rate': 1.6104371436546604e-05, 'epoch': 0.31}
 31%|███       | 2074/6640 [2:15:32<20:25:50, 16.11s/it] 31%|███▏      | 2075/6640 [2:15:48<20:30:41, 16.18s/it]                                                        {'loss': 0.5391, 'learning_rate': 1.6100506821150455e-05, 'epoch': 0.31}
 31%|███▏      | 2075/6640 [2:15:48<20:30:41, 16.18s/it] 31%|███▏      | 2076/6640 [2:16:05<20:44:23, 16.36s/it]                                                        {'loss': 0.548, 'learning_rate': 1.609664075399735e-05, 'epoch': 0.31}
 31%|███▏      | 2076/6640 [2:16:05<20:44:23, 16.36s/it] 31%|███▏      | 2077/6640 [2:16:21<20:43:36, 16.35s/it]                                                        {'loss': 0.5496, 'learning_rate': 1.6092773236007288e-05, 'epoch': 0.31}
 31%|███▏      | 2077/6640 [2:16:21<20:43:36, 16.35s/it] 31%|███▏      | 2078/6640 [2:16:37<20:38:09, 16.28s/it]                                                        {'loss': 0.5206, 'learning_rate': 1.6088904268100648e-05, 'epoch': 0.31}
 31%|███▏      | 2078/6640 [2:16:38<20:38:09, 16.28s/it] 31%|███▏      | 2079/6640 [2:16:54<20:35:53, 16.26s/it]                                                        {'loss': 0.5249, 'learning_rate': 1.6085033851198136e-05, 'epoch': 0.31}
 31%|███▏      | 2079/6640 [2:16:54<20:35:53, 16.26s/it] 31%|███▏      | 2080/6640 [2:17:10<20:38:18, 16.29s/it]                                                        {'loss': 0.5266, 'learning_rate': 1.6081161986220807e-05, 'epoch': 0.31}
 31%|███▏      | 2080/6640 [2:17:10<20:38:18, 16.29s/it] 31%|███▏      | 2081/6640 [2:17:26<20:35:01, 16.25s/it]                                                        {'loss': 0.5438, 'learning_rate': 1.6077288674090063e-05, 'epoch': 0.31}
 31%|███▏      | 2081/6640 [2:17:26<20:35:01, 16.25s/it] 31%|███▏      | 2082/6640 [2:17:43<20:38:47, 16.31s/it]                                                        {'loss': 0.5245, 'learning_rate': 1.6073413915727648e-05, 'epoch': 0.31}
 31%|███▏      | 2082/6640 [2:17:43<20:38:47, 16.31s/it] 31%|███▏      | 2083/6640 [2:17:59<20:38:37, 16.31s/it]                                                        {'loss': 0.5324, 'learning_rate': 1.6069537712055652e-05, 'epoch': 0.31}
 31%|███▏      | 2083/6640 [2:17:59<20:38:37, 16.31s/it] 31%|███▏      | 2084/6640 [2:18:15<20:41:24, 16.35s/it]                                                        {'loss': 0.5593, 'learning_rate': 1.6065660063996502e-05, 'epoch': 0.31}
 31%|███▏      | 2084/6640 [2:18:15<20:41:24, 16.35s/it] 31%|███▏      | 2085/6640 [2:18:32<20:40:29, 16.34s/it]                                                        {'loss': 0.5567, 'learning_rate': 1.6061780972472978e-05, 'epoch': 0.31}
 31%|███▏      | 2085/6640 [2:18:32<20:40:29, 16.34s/it] 31%|███▏      | 2086/6640 [2:18:48<20:39:38, 16.33s/it]                                                        {'loss': 0.5248, 'learning_rate': 1.60579004384082e-05, 'epoch': 0.31}
 31%|███▏      | 2086/6640 [2:18:48<20:39:38, 16.33s/it] 31%|███▏      | 2087/6640 [2:19:04<20:23:50, 16.13s/it]                                                        {'loss': 0.5352, 'learning_rate': 1.605401846272563e-05, 'epoch': 0.31}
 31%|███▏      | 2087/6640 [2:19:04<20:23:50, 16.13s/it] 31%|███▏      | 2088/6640 [2:19:20<20:35:21, 16.28s/it]                                                        {'loss': 0.5618, 'learning_rate': 1.6050135046349073e-05, 'epoch': 0.31}
 31%|███▏      | 2088/6640 [2:19:20<20:35:21, 16.28s/it] 31%|███▏      | 2089/6640 [2:19:36<20:15:17, 16.02s/it]                                                        {'loss': 0.5372, 'learning_rate': 1.6046250190202684e-05, 'epoch': 0.31}
 31%|███▏      | 2089/6640 [2:19:36<20:15:17, 16.02s/it] 31%|███▏      | 2090/6640 [2:19:52<20:15:47, 16.03s/it]                                                        {'loss': 0.5417, 'learning_rate': 1.6042363895210948e-05, 'epoch': 0.31}
 31%|███▏      | 2090/6640 [2:19:52<20:15:47, 16.03s/it] 31%|███▏      | 2091/6640 [2:20:08<20:14:51, 16.02s/it]                                                        {'loss': 0.5423, 'learning_rate': 1.60384761622987e-05, 'epoch': 0.31}
 31%|███▏      | 2091/6640 [2:20:08<20:14:51, 16.02s/it] 32%|███▏      | 2092/6640 [2:20:24<20:11:54, 15.99s/it]                                                        {'loss': 0.5562, 'learning_rate': 1.603458699239112e-05, 'epoch': 0.32}
 32%|███▏      | 2092/6640 [2:20:24<20:11:54, 15.99s/it] 32%|███▏      | 2093/6640 [2:20:40<20:11:20, 15.98s/it]                                                        {'loss': 0.5448, 'learning_rate': 1.6030696386413715e-05, 'epoch': 0.32}
 32%|███▏      | 2093/6640 [2:20:40<20:11:20, 15.98s/it] 32%|███▏      | 2094/6640 [2:20:56<20:10:20, 15.97s/it]                                                        {'loss': 0.5219, 'learning_rate': 1.602680434529236e-05, 'epoch': 0.32}
 32%|███▏      | 2094/6640 [2:20:56<20:10:20, 15.97s/it] 32%|███▏      | 2095/6640 [2:21:11<19:57:27, 15.81s/it]                                                        {'loss': 0.5342, 'learning_rate': 1.6022910869953245e-05, 'epoch': 0.32}
 32%|███▏      | 2095/6640 [2:21:11<19:57:27, 15.81s/it] 32%|███▏      | 2096/6640 [2:21:27<19:54:30, 15.77s/it]                                                        {'loss': 0.5353, 'learning_rate': 1.601901596132292e-05, 'epoch': 0.32}
 32%|███▏      | 2096/6640 [2:21:27<19:54:30, 15.77s/it] 32%|███▏      | 2097/6640 [2:21:44<20:34:16, 16.30s/it]                                                        {'loss': 0.5483, 'learning_rate': 1.6015119620328266e-05, 'epoch': 0.32}
 32%|███▏      | 2097/6640 [2:21:44<20:34:16, 16.30s/it] 32%|███▏      | 2098/6640 [2:22:01<20:41:30, 16.40s/it]                                                        {'loss': 0.5217, 'learning_rate': 1.601122184789651e-05, 'epoch': 0.32}
 32%|███▏      | 2098/6640 [2:22:01<20:41:30, 16.40s/it] 32%|███▏      | 2099/6640 [2:22:18<21:04:28, 16.71s/it]                                                        {'loss': 0.5395, 'learning_rate': 1.6007322644955208e-05, 'epoch': 0.32}
 32%|███▏      | 2099/6640 [2:22:18<21:04:28, 16.71s/it]4 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
07 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
 3 AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
 32%|███▏      | 2100/6640 [2:22:34<20:40:36, 16.40s/it]5 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5241, 'learning_rate': 1.6003422012432275e-05, 'epoch': 0.32}
 32%|███▏      | 2100/6640 [2:22:34<20:40:36, 16.40s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2100/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2100/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2100/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 32%|███▏      | 2101/6640 [2:24:22<55:27:34, 43.99s/it]                                                        {'loss': 0.5408, 'learning_rate': 1.5999519951255957e-05, 'epoch': 0.32}
 32%|███▏      | 2101/6640 [2:24:22<55:27:34, 43.99s/it] 32%|███▏      | 2102/6640 [2:24:39<45:13:02, 35.87s/it]                                                        {'loss': 0.5498, 'learning_rate': 1.5995616462354835e-05, 'epoch': 0.32}
 32%|███▏      | 2102/6640 [2:24:39<45:13:02, 35.87s/it] 32%|███▏      | 2103/6640 [2:24:56<38:00:29, 30.16s/it]                                                        {'loss': 0.5354, 'learning_rate': 1.5991711546657837e-05, 'epoch': 0.32}
 32%|███▏      | 2103/6640 [2:24:56<38:00:29, 30.16s/it] 32%|███▏      | 2104/6640 [2:25:13<32:50:32, 26.07s/it]                                                        {'loss': 0.5507, 'learning_rate': 1.5987805205094225e-05, 'epoch': 0.32}
 32%|███▏      | 2104/6640 [2:25:13<32:50:32, 26.07s/it] 32%|███▏      | 2105/6640 [2:25:30<29:28:43, 23.40s/it]                                                        {'loss': 0.5457, 'learning_rate': 1.5983897438593612e-05, 'epoch': 0.32}
 32%|███▏      | 2105/6640 [2:25:30<29:28:43, 23.40s/it] 32%|███▏      | 2106/6640 [2:25:47<27:00:21, 21.44s/it]                                                        {'loss': 0.5294, 'learning_rate': 1.597998824808593e-05, 'epoch': 0.32}
 32%|███▏      | 2106/6640 [2:25:47<27:00:21, 21.44s/it] 32%|███▏      | 2107/6640 [2:26:03<24:57:51, 19.83s/it]                                                        {'loss': 0.5515, 'learning_rate': 1.5976077634501476e-05, 'epoch': 0.32}
 32%|███▏      | 2107/6640 [2:26:03<24:57:51, 19.83s/it] 32%|███▏      | 2108/6640 [2:26:19<23:31:06, 18.68s/it]                                                        {'loss': 0.5448, 'learning_rate': 1.5972165598770853e-05, 'epoch': 0.32}
 32%|███▏      | 2108/6640 [2:26:19<23:31:06, 18.68s/it] 32%|███▏      | 2109/6640 [2:26:35<22:42:35, 18.04s/it]                                                        {'loss': 0.523, 'learning_rate': 1.5968252141825038e-05, 'epoch': 0.32}
 32%|███▏      | 2109/6640 [2:26:35<22:42:35, 18.04s/it] 32%|███▏      | 2110/6640 [2:26:52<22:07:47, 17.59s/it]                                                        {'loss': 0.5583, 'learning_rate': 1.596433726459532e-05, 'epoch': 0.32}
 32%|███▏      | 2110/6640 [2:26:52<22:07:47, 17.59s/it] 32%|███▏      | 2111/6640 [2:27:08<21:33:24, 17.14s/it]                                                        {'loss': 0.5392, 'learning_rate': 1.5960420968013334e-05, 'epoch': 0.32}
 32%|███▏      | 2111/6640 [2:27:08<21:33:24, 17.14s/it] 32%|███▏      | 2112/6640 [2:27:24<21:14:19, 16.89s/it]                                                        {'loss': 0.5051, 'learning_rate': 1.5956503253011052e-05, 'epoch': 0.32}
 32%|███▏      | 2112/6640 [2:27:24<21:14:19, 16.89s/it] 32%|███▏      | 2113/6640 [2:27:41<21:03:28, 16.75s/it]                                                        {'loss': 0.5223, 'learning_rate': 1.595258412052079e-05, 'epoch': 0.32}
 32%|███▏      | 2113/6640 [2:27:41<21:03:28, 16.75s/it] 32%|███▏      | 2114/6640 [2:27:57<20:53:17, 16.61s/it]                                                        {'loss': 0.5374, 'learning_rate': 1.5948663571475197e-05, 'epoch': 0.32}
 32%|███▏      | 2114/6640 [2:27:57<20:53:17, 16.61s/it] 32%|███▏      | 2115/6640 [2:28:13<20:33:53, 16.36s/it]                                                        {'loss': 0.5301, 'learning_rate': 1.5944741606807257e-05, 'epoch': 0.32}
 32%|███▏      | 2115/6640 [2:28:13<20:33:53, 16.36s/it] 32%|███▏      | 2116/6640 [2:28:29<20:28:01, 16.29s/it]                                                        {'loss': 0.5228, 'learning_rate': 1.5940818227450292e-05, 'epoch': 0.32}
 32%|███▏      | 2116/6640 [2:28:29<20:28:01, 16.29s/it] 32%|███▏      | 2117/6640 [2:28:46<20:45:18, 16.52s/it]                                                        {'loss': 0.5411, 'learning_rate': 1.5936893434337957e-05, 'epoch': 0.32}
 32%|███▏      | 2117/6640 [2:28:46<20:45:18, 16.52s/it] 32%|███▏      | 2118/6640 [2:29:02<20:26:14, 16.27s/it]                                                        {'loss': 0.547, 'learning_rate': 1.5932967228404255e-05, 'epoch': 0.32}
 32%|███▏      | 2118/6640 [2:29:02<20:26:14, 16.27s/it] 32%|███▏      | 2119/6640 [2:29:18<20:23:42, 16.24s/it]                                                        {'loss': 0.5509, 'learning_rate': 1.592903961058351e-05, 'epoch': 0.32}
 32%|███▏      | 2119/6640 [2:29:18<20:23:42, 16.24s/it] 32%|███▏      | 2120/6640 [2:29:35<20:50:30, 16.60s/it]                                                        {'loss': 0.5679, 'learning_rate': 1.5925110581810396e-05, 'epoch': 0.32}
 32%|███▏      | 2120/6640 [2:29:35<20:50:30, 16.60s/it] 32%|███▏      | 2121/6640 [2:29:51<20:34:06, 16.39s/it]                                                        {'loss': 0.5273, 'learning_rate': 1.5921180143019915e-05, 'epoch': 0.32}
 32%|███▏      | 2121/6640 [2:29:51<20:34:06, 16.39s/it] 32%|███▏      | 2122/6640 [2:30:07<20:22:47, 16.24s/it]                                                        {'loss': 0.559, 'learning_rate': 1.59172482951474e-05, 'epoch': 0.32}
 32%|███▏      | 2122/6640 [2:30:07<20:22:47, 16.24s/it] 32%|███▏      | 2123/6640 [2:30:23<20:20:16, 16.21s/it]                                                        {'loss': 0.5337, 'learning_rate': 1.5913315039128534e-05, 'epoch': 0.32}
 32%|███▏      | 2123/6640 [2:30:23<20:20:16, 16.21s/it] 32%|███▏      | 2124/6640 [2:30:40<20:34:43, 16.40s/it]                                                        {'loss': 0.5464, 'learning_rate': 1.5909380375899323e-05, 'epoch': 0.32}
 32%|███▏      | 2124/6640 [2:30:40<20:34:43, 16.40s/it] 32%|███▏      | 2125/6640 [2:30:56<20:21:17, 16.23s/it]                                                        {'loss': 0.5327, 'learning_rate': 1.590544430639611e-05, 'epoch': 0.32}
 32%|███▏      | 2125/6640 [2:30:56<20:21:17, 16.23s/it] 32%|███▏      | 2126/6640 [2:31:13<20:35:19, 16.42s/it]                                                        {'loss': 0.529, 'learning_rate': 1.5901506831555575e-05, 'epoch': 0.32}
 32%|███▏      | 2126/6640 [2:31:13<20:35:19, 16.42s/it] 32%|███▏      | 2127/6640 [2:31:29<20:36:07, 16.43s/it]                                                        {'loss': 0.5262, 'learning_rate': 1.5897567952314733e-05, 'epoch': 0.32}
 32%|███▏      | 2127/6640 [2:31:29<20:36:07, 16.43s/it] 32%|███▏      | 2128/6640 [2:31:45<20:13:11, 16.13s/it]                                                        {'loss': 0.552, 'learning_rate': 1.5893627669610926e-05, 'epoch': 0.32}
 32%|███▏      | 2128/6640 [2:31:45<20:13:11, 16.13s/it] 32%|███▏      | 2129/6640 [2:32:01<20:12:38, 16.13s/it]                                                        {'loss': 0.5311, 'learning_rate': 1.588968598438184e-05, 'epoch': 0.32}
 32%|███▏      | 2129/6640 [2:32:01<20:12:38, 16.13s/it] 32%|███▏      | 2130/6640 [2:32:17<20:14:20, 16.16s/it]                                                        {'loss': 0.5499, 'learning_rate': 1.5885742897565494e-05, 'epoch': 0.32}
 32%|███▏      | 2130/6640 [2:32:17<20:14:20, 16.16s/it] 32%|███▏      | 2131/6640 [2:32:33<20:07:00, 16.06s/it]                                                        {'loss': 0.5213, 'learning_rate': 1.588179841010023e-05, 'epoch': 0.32}
 32%|███▏      | 2131/6640 [2:32:33<20:07:00, 16.06s/it] 32%|███▏      | 2132/6640 [2:32:49<20:01:46, 16.00s/it]                                                        {'loss': 0.5302, 'learning_rate': 1.5877852522924733e-05, 'epoch': 0.32}
 32%|███▏      | 2132/6640 [2:32:49<20:01:46, 16.00s/it] 32%|███▏      | 2133/6640 [2:33:06<20:28:05, 16.35s/it]                                                        {'loss': 0.5458, 'learning_rate': 1.5873905236978017e-05, 'epoch': 0.32}
 32%|███▏      | 2133/6640 [2:33:06<20:28:05, 16.35s/it] 32%|███▏      | 2134/6640 [2:33:23<20:37:15, 16.47s/it]                                                        {'loss': 0.5509, 'learning_rate': 1.5869956553199432e-05, 'epoch': 0.32}
 32%|███▏      | 2134/6640 [2:33:23<20:37:15, 16.47s/it] 32%|███▏      | 2135/6640 [2:33:39<20:26:01, 16.33s/it]                                                        {'loss': 0.5422, 'learning_rate': 1.586600647252866e-05, 'epoch': 0.32}
 32%|███▏      | 2135/6640 [2:33:39<20:26:01, 16.33s/it] 32%|███▏      | 2136/6640 [2:33:55<20:27:42, 16.35s/it]                                                        {'loss': 0.5524, 'learning_rate': 1.5862054995905712e-05, 'epoch': 0.32}
 32%|███▏      | 2136/6640 [2:33:55<20:27:42, 16.35s/it] 32%|███▏      | 2137/6640 [2:34:13<21:13:32, 16.97s/it]                                                        {'loss': 0.5365, 'learning_rate': 1.5858102124270933e-05, 'epoch': 0.32}
 32%|███▏      | 2137/6640 [2:34:13<21:13:32, 16.97s/it] 32%|███▏      | 2138/6640 [2:34:30<20:57:19, 16.76s/it]                                                        {'loss': 0.5379, 'learning_rate': 1.5854147858565002e-05, 'epoch': 0.32}
 32%|███▏      | 2138/6640 [2:34:30<20:57:19, 16.76s/it] 32%|███▏      | 2139/6640 [2:34:47<21:02:05, 16.82s/it]                                                        {'loss': 0.5278, 'learning_rate': 1.5850192199728927e-05, 'epoch': 0.32}
 32%|███▏      | 2139/6640 [2:34:47<21:02:05, 16.82s/it] 32%|███▏      | 2140/6640 [2:35:03<20:47:52, 16.64s/it]                                                        {'loss': 0.5365, 'learning_rate': 1.5846235148704047e-05, 'epoch': 0.32}
 32%|███▏      | 2140/6640 [2:35:03<20:47:52, 16.64s/it] 32%|███▏      | 2141/6640 [2:35:19<20:38:27, 16.52s/it]                                                        {'loss': 0.5431, 'learning_rate': 1.584227670643204e-05, 'epoch': 0.32}
 32%|███▏      | 2141/6640 [2:35:19<20:38:27, 16.52s/it] 32%|███▏      | 2142/6640 [2:35:35<20:16:16, 16.22s/it]                                                        {'loss': 0.5563, 'learning_rate': 1.58383168738549e-05, 'epoch': 0.32}
 32%|███▏      | 2142/6640 [2:35:35<20:16:16, 16.22s/it] 32%|███▏      | 2143/6640 [2:35:52<20:36:00, 16.49s/it]                                                        {'loss': 0.5476, 'learning_rate': 1.583435565191497e-05, 'epoch': 0.32}
 32%|███▏      | 2143/6640 [2:35:52<20:36:00, 16.49s/it] 32%|███▏      | 2144/6640 [2:36:08<20:41:05, 16.56s/it]                                                        {'loss': 0.5354, 'learning_rate': 1.583039304155491e-05, 'epoch': 0.32}
 32%|███▏      | 2144/6640 [2:36:08<20:41:05, 16.56s/it] 32%|███▏      | 2145/6640 [2:36:25<20:37:15, 16.52s/it]                                                        {'loss': 0.5519, 'learning_rate': 1.5826429043717716e-05, 'epoch': 0.32}
 32%|███▏      | 2145/6640 [2:36:25<20:37:15, 16.52s/it] 32%|███▏      | 2146/6640 [2:36:41<20:30:48, 16.43s/it]                                                        {'loss': 0.5385, 'learning_rate': 1.582246365934671e-05, 'epoch': 0.32}
 32%|███▏      | 2146/6640 [2:36:41<20:30:48, 16.43s/it] 32%|███▏      | 2147/6640 [2:36:57<20:22:30, 16.33s/it]                                                        {'loss': 0.5437, 'learning_rate': 1.5818496889385554e-05, 'epoch': 0.32}
 32%|███▏      | 2147/6640 [2:36:57<20:22:30, 16.33s/it] 32%|███▏      | 2148/6640 [2:37:13<20:09:17, 16.15s/it]                                                        {'loss': 0.5292, 'learning_rate': 1.5814528734778228e-05, 'epoch': 0.32}
 32%|███▏      | 2148/6640 [2:37:13<20:09:17, 16.15s/it] 32%|███▏      | 2149/6640 [2:37:29<20:07:54, 16.14s/it]                                                        {'loss': 0.5301, 'learning_rate': 1.5810559196469043e-05, 'epoch': 0.32}
 32%|███▏      | 2149/6640 [2:37:29<20:07:54, 16.14s/it]1 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
0 67 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
 32%|███▏      | 2150/6640 [2:37:45<20:11:55, 16.19s/it]4 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5446, 'learning_rate': 1.580658827540265e-05, 'epoch': 0.32}
 32%|███▏      | 2150/6640 [2:37:45<20:11:55, 16.19s/it] 32%|███▏      | 2151/6640 [2:38:03<20:46:28, 16.66s/it]                                                        {'loss': 0.5343, 'learning_rate': 1.5802615972524017e-05, 'epoch': 0.32}
 32%|███▏      | 2151/6640 [2:38:03<20:46:28, 16.66s/it] 32%|███▏      | 2152/6640 [2:38:20<20:42:19, 16.61s/it]                                                        {'loss': 0.5146, 'learning_rate': 1.579864228877845e-05, 'epoch': 0.32}
 32%|███▏      | 2152/6640 [2:38:20<20:42:19, 16.61s/it] 32%|███▏      | 2153/6640 [2:38:36<20:38:57, 16.57s/it]                                                        {'loss': 0.5399, 'learning_rate': 1.5794667225111572e-05, 'epoch': 0.32}
 32%|███▏      | 2153/6640 [2:38:36<20:38:57, 16.57s/it] 32%|███▏      | 2154/6640 [2:38:52<20:21:13, 16.33s/it]                                                        {'loss': 0.5431, 'learning_rate': 1.5790690782469345e-05, 'epoch': 0.32}
 32%|███▏      | 2154/6640 [2:38:52<20:21:13, 16.33s/it] 32%|███▏      | 2155/6640 [2:39:07<20:04:00, 16.11s/it]                                                        {'loss': 0.5339, 'learning_rate': 1.578671296179806e-05, 'epoch': 0.32}
 32%|███▏      | 2155/6640 [2:39:07<20:04:00, 16.11s/it] 32%|███▏      | 2156/6640 [2:39:26<20:55:14, 16.80s/it]                                                        {'loss': 0.5332, 'learning_rate': 1.5782733764044326e-05, 'epoch': 0.32}
 32%|███▏      | 2156/6640 [2:39:26<20:55:14, 16.80s/it] 32%|███▏      | 2157/6640 [2:39:42<20:33:44, 16.51s/it]                                                        {'loss': 0.5243, 'learning_rate': 1.5778753190155085e-05, 'epoch': 0.32}
 32%|███▏      | 2157/6640 [2:39:42<20:33:44, 16.51s/it] 32%|███▎      | 2158/6640 [2:39:58<20:25:28, 16.41s/it]                                                        {'loss': 0.5195, 'learning_rate': 1.5774771241077612e-05, 'epoch': 0.33}
 32%|███▎      | 2158/6640 [2:39:58<20:25:28, 16.41s/it] 33%|███▎      | 2159/6640 [2:40:15<20:35:07, 16.54s/it]                                                        {'loss': 0.5456, 'learning_rate': 1.57707879177595e-05, 'epoch': 0.33}
 33%|███▎      | 2159/6640 [2:40:15<20:35:07, 16.54s/it] 33%|███▎      | 2160/6640 [2:40:31<20:36:45, 16.56s/it]                                                        {'loss': 0.5389, 'learning_rate': 1.5766803221148676e-05, 'epoch': 0.33}
 33%|███▎      | 2160/6640 [2:40:31<20:36:45, 16.56s/it] 33%|███▎      | 2161/6640 [2:40:47<20:19:23, 16.33s/it]                                                        {'loss': 0.5558, 'learning_rate': 1.5762817152193383e-05, 'epoch': 0.33}
 33%|███▎      | 2161/6640 [2:40:47<20:19:23, 16.33s/it] 33%|███▎      | 2162/6640 [2:41:04<20:21:32, 16.37s/it]                                                        {'loss': 0.5429, 'learning_rate': 1.5758829711842208e-05, 'epoch': 0.33}
 33%|███▎      | 2162/6640 [2:41:04<20:21:32, 16.37s/it] 33%|███▎      | 2163/6640 [2:41:19<20:10:22, 16.22s/it]                                                        {'loss': 0.5264, 'learning_rate': 1.5754840901044054e-05, 'epoch': 0.33}
 33%|███▎      | 2163/6640 [2:41:19<20:10:22, 16.22s/it]Token indices sequence length is longer than the specified maximum sequence length for this model (5014 > 4096). Running this sequence through the model will result in indexing errors
 33%|███▎      | 2164/6640 [2:41:35<20:01:20, 16.10s/it]                                                        {'loss': 0.5484, 'learning_rate': 1.5750850720748146e-05, 'epoch': 0.33}
 33%|███▎      | 2164/6640 [2:41:35<20:01:20, 16.10s/it] 33%|███▎      | 2165/6640 [2:41:52<20:07:47, 16.19s/it]                                                        {'loss': 0.5429, 'learning_rate': 1.574685917190404e-05, 'epoch': 0.33}
 33%|███▎      | 2165/6640 [2:41:52<20:07:47, 16.19s/it] 33%|███▎      | 2166/6640 [2:42:07<19:46:16, 15.91s/it]                                                        {'loss': 0.5343, 'learning_rate': 1.574286625546162e-05, 'epoch': 0.33}
 33%|███▎      | 2166/6640 [2:42:07<19:46:16, 15.91s/it] 33%|███▎      | 2167/6640 [2:42:23<19:56:04, 16.04s/it]                                                        {'loss': 0.5151, 'learning_rate': 1.5738871972371096e-05, 'epoch': 0.33}
 33%|███▎      | 2167/6640 [2:42:23<19:56:04, 16.04s/it] 33%|███▎      | 2168/6640 [2:42:40<20:22:49, 16.41s/it]                                                        {'loss': 0.5498, 'learning_rate': 1.5734876323582996e-05, 'epoch': 0.33}
 33%|███▎      | 2168/6640 [2:42:40<20:22:49, 16.41s/it] 33%|███▎      | 2169/6640 [2:42:56<20:09:03, 16.23s/it]                                                        {'loss': 0.5419, 'learning_rate': 1.5730879310048175e-05, 'epoch': 0.33}
 33%|███▎      | 2169/6640 [2:42:56<20:09:03, 16.23s/it] 33%|███▎      | 2170/6640 [2:43:14<20:32:23, 16.54s/it]                                                        {'loss': 0.5455, 'learning_rate': 1.572688093271782e-05, 'epoch': 0.33}
 33%|███▎      | 2170/6640 [2:43:14<20:32:23, 16.54s/it] 33%|███▎      | 2171/6640 [2:43:31<20:45:07, 16.72s/it]                                                        {'loss': 0.5374, 'learning_rate': 1.5722881192543433e-05, 'epoch': 0.33}
 33%|███▎      | 2171/6640 [2:43:31<20:45:07, 16.72s/it] 33%|███▎      | 2172/6640 [2:43:49<21:15:24, 17.13s/it]                                                        {'loss': 0.5396, 'learning_rate': 1.5718880090476852e-05, 'epoch': 0.33}
 33%|███▎      | 2172/6640 [2:43:49<21:15:24, 17.13s/it] 33%|███▎      | 2173/6640 [2:44:05<21:02:47, 16.96s/it]                                                        {'loss': 0.5275, 'learning_rate': 1.5714877627470225e-05, 'epoch': 0.33}
 33%|███▎      | 2173/6640 [2:44:05<21:02:47, 16.96s/it] 33%|███▎      | 2174/6640 [2:44:21<20:29:53, 16.52s/it]                                                        {'loss': 0.5424, 'learning_rate': 1.5710873804476035e-05, 'epoch': 0.33}
 33%|███▎      | 2174/6640 [2:44:21<20:29:53, 16.52s/it] 33%|███▎      | 2175/6640 [2:44:37<20:26:10, 16.48s/it]                                                        {'loss': 0.5321, 'learning_rate': 1.5706868622447084e-05, 'epoch': 0.33}
 33%|███▎      | 2175/6640 [2:44:37<20:26:10, 16.48s/it] 33%|███▎      | 2176/6640 [2:44:53<20:12:37, 16.30s/it]                                                        {'loss': 0.5323, 'learning_rate': 1.570286208233649e-05, 'epoch': 0.33}
 33%|███▎      | 2176/6640 [2:44:53<20:12:37, 16.30s/it] 33%|███▎      | 2177/6640 [2:45:10<20:17:35, 16.37s/it]                                                        {'loss': 0.5561, 'learning_rate': 1.5698854185097713e-05, 'epoch': 0.33}
 33%|███▎      | 2177/6640 [2:45:10<20:17:35, 16.37s/it] 33%|███▎      | 2178/6640 [2:45:27<20:32:40, 16.58s/it]                                                        {'loss': 0.5395, 'learning_rate': 1.569484493168452e-05, 'epoch': 0.33}
 33%|███▎      | 2178/6640 [2:45:27<20:32:40, 16.58s/it] 33%|███▎      | 2179/6640 [2:45:43<20:20:01, 16.41s/it]                                                        {'loss': 0.5234, 'learning_rate': 1.569083432305101e-05, 'epoch': 0.33}
 33%|███▎      | 2179/6640 [2:45:43<20:20:01, 16.41s/it] 33%|███▎      | 2180/6640 [2:46:00<20:43:10, 16.72s/it]                                                        {'loss': 0.536, 'learning_rate': 1.568682236015159e-05, 'epoch': 0.33}
 33%|███▎      | 2180/6640 [2:46:00<20:43:10, 16.72s/it]/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/model/llava_arch.py:397: UserWarning: Inputs truncated!
  warnings.warn("Inputs truncated!")
 33%|███▎      | 2181/6640 [2:46:18<21:11:27, 17.11s/it]                                                        {'loss': 0.543, 'learning_rate': 1.5682809043941013e-05, 'epoch': 0.33}
 33%|███▎      | 2181/6640 [2:46:18<21:11:27, 17.11s/it] 33%|███▎      | 2182/6640 [2:46:35<20:56:30, 16.91s/it]                                                        {'loss': 0.5243, 'learning_rate': 1.567879437537433e-05, 'epoch': 0.33}
 33%|███▎      | 2182/6640 [2:46:35<20:56:30, 16.91s/it] 33%|███▎      | 2183/6640 [2:46:51<20:40:37, 16.70s/it]                                                        {'loss': 0.5394, 'learning_rate': 1.5674778355406928e-05, 'epoch': 0.33}
 33%|███▎      | 2183/6640 [2:46:51<20:40:37, 16.70s/it] 33%|███▎      | 2184/6640 [2:47:06<20:13:29, 16.34s/it]                                                        {'loss': 0.5477, 'learning_rate': 1.5670760984994516e-05, 'epoch': 0.33}
 33%|███▎      | 2184/6640 [2:47:06<20:13:29, 16.34s/it] 33%|███▎      | 2185/6640 [2:47:22<20:08:09, 16.27s/it]                                                        {'loss': 0.5414, 'learning_rate': 1.566674226509311e-05, 'epoch': 0.33}
 33%|███▎      | 2185/6640 [2:47:22<20:08:09, 16.27s/it] 33%|███▎      | 2186/6640 [2:47:39<20:09:11, 16.29s/it]                                                        {'loss': 0.5671, 'learning_rate': 1.566272219665907e-05, 'epoch': 0.33}
 33%|███▎      | 2186/6640 [2:47:39<20:09:11, 16.29s/it] 33%|███▎      | 2187/6640 [2:47:54<19:54:25, 16.09s/it]                                                        {'loss': 0.5405, 'learning_rate': 1.5658700780649057e-05, 'epoch': 0.33}
 33%|███▎      | 2187/6640 [2:47:54<19:54:25, 16.09s/it] 33%|███▎      | 2188/6640 [2:48:11<19:57:10, 16.13s/it]                                                        {'loss': 0.5411, 'learning_rate': 1.565467801802006e-05, 'epoch': 0.33}
 33%|███▎      | 2188/6640 [2:48:11<19:57:10, 16.13s/it] 33%|███▎      | 2189/6640 [2:48:27<20:02:27, 16.21s/it]                                                        {'loss': 0.5605, 'learning_rate': 1.565065390972939e-05, 'epoch': 0.33}
 33%|███▎      | 2189/6640 [2:48:27<20:02:27, 16.21s/it] 33%|███▎      | 2190/6640 [2:48:43<19:59:45, 16.18s/it]                                                        {'loss': 0.5354, 'learning_rate': 1.564662845673468e-05, 'epoch': 0.33}
 33%|███▎      | 2190/6640 [2:48:43<19:59:45, 16.18s/it] 33%|███▎      | 2191/6640 [2:49:00<20:07:48, 16.29s/it]                                                        {'loss': 0.5334, 'learning_rate': 1.5642601659993877e-05, 'epoch': 0.33}
 33%|███▎      | 2191/6640 [2:49:00<20:07:48, 16.29s/it] 33%|███▎      | 2192/6640 [2:49:16<20:18:31, 16.44s/it]                                                        {'loss': 0.5506, 'learning_rate': 1.563857352046525e-05, 'epoch': 0.33}
 33%|███▎      | 2192/6640 [2:49:16<20:18:31, 16.44s/it] 33%|███▎      | 2193/6640 [2:49:33<20:20:29, 16.47s/it]                                                        {'loss': 0.5502, 'learning_rate': 1.563454403910739e-05, 'epoch': 0.33}
 33%|███▎      | 2193/6640 [2:49:33<20:20:29, 16.47s/it] 33%|███▎      | 2194/6640 [2:49:50<20:30:51, 16.61s/it]                                                        {'loss': 0.549, 'learning_rate': 1.5630513216879203e-05, 'epoch': 0.33}
 33%|███▎      | 2194/6640 [2:49:50<20:30:51, 16.61s/it] 33%|███▎      | 2195/6640 [2:50:06<20:24:08, 16.52s/it]                                                        {'loss': 0.5367, 'learning_rate': 1.5626481054739916e-05, 'epoch': 0.33}
 33%|███▎      | 2195/6640 [2:50:06<20:24:08, 16.52s/it] 33%|███▎      | 2196/6640 [2:50:23<20:21:33, 16.49s/it]                                                        {'loss': 0.5519, 'learning_rate': 1.562244755364908e-05, 'epoch': 0.33}
 33%|███▎      | 2196/6640 [2:50:23<20:21:33, 16.49s/it] 33%|███▎      | 2197/6640 [2:50:39<20:21:25, 16.49s/it]                                                        {'loss': 0.5518, 'learning_rate': 1.5618412714566555e-05, 'epoch': 0.33}
 33%|███▎      | 2197/6640 [2:50:39<20:21:25, 16.49s/it] 33%|███▎      | 2198/6640 [2:50:55<20:01:03, 16.22s/it]                                                        {'loss': 0.5516, 'learning_rate': 1.5614376538452524e-05, 'epoch': 0.33}
 33%|███▎      | 2198/6640 [2:50:55<20:01:03, 16.22s/it] 33%|███▎      | 2199/6640 [2:51:11<20:06:21, 16.30s/it]                                                        {'loss': 0.5389, 'learning_rate': 1.5610339026267497e-05, 'epoch': 0.33}
 33%|███▎      | 2199/6640 [2:51:11<20:06:21, 16.30s/it]7 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
04 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
 33%|███▎      | 2200/6640 [2:51:28<20:07:28, 16.32s/it]                                                        {'loss': 0.5363, 'learning_rate': 1.560630017897229e-05, 'epoch': 0.33}
 33%|███▎      | 2200/6640 [2:51:28<20:07:28, 16.32s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2200/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2200/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2200/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 33%|███▎      | 2201/6640 [2:53:16<54:09:40, 43.92s/it]                                                        {'loss': 0.5334, 'learning_rate': 1.5602259997528028e-05, 'epoch': 0.33}
 33%|███▎      | 2201/6640 [2:53:16<54:09:40, 43.92s/it] 33%|███▎      | 2202/6640 [2:53:33<44:02:09, 35.72s/it]                                                        {'loss': 0.5343, 'learning_rate': 1.5598218482896182e-05, 'epoch': 0.33}
 33%|███▎      | 2202/6640 [2:53:33<44:02:09, 35.72s/it] 33%|███▎      | 2203/6640 [2:53:48<36:42:03, 29.78s/it]                                                        {'loss': 0.5505, 'learning_rate': 1.559417563603852e-05, 'epoch': 0.33}
 33%|███▎      | 2203/6640 [2:53:48<36:42:03, 29.78s/it] 33%|███▎      | 2204/6640 [2:54:04<31:33:23, 25.61s/it]                                                        {'loss': 0.55, 'learning_rate': 1.5590131457917128e-05, 'epoch': 0.33}
 33%|███▎      | 2204/6640 [2:54:04<31:33:23, 25.61s/it] 33%|███▎      | 2205/6640 [2:54:20<27:48:55, 22.58s/it]                                                        {'loss': 0.5423, 'learning_rate': 1.558608594949441e-05, 'epoch': 0.33}
 33%|███▎      | 2205/6640 [2:54:20<27:48:55, 22.58s/it] 33%|███▎      | 2206/6640 [2:54:37<25:42:54, 20.88s/it]                                                        {'loss': 0.5387, 'learning_rate': 1.5582039111733096e-05, 'epoch': 0.33}
 33%|███▎      | 2206/6640 [2:54:37<25:42:54, 20.88s/it] 33%|███▎      | 2207/6640 [2:54:53<24:02:32, 19.52s/it]                                                        {'loss': 0.5358, 'learning_rate': 1.5577990945596217e-05, 'epoch': 0.33}
 33%|███▎      | 2207/6640 [2:54:53<24:02:32, 19.52s/it] 33%|███▎      | 2208/6640 [2:55:10<23:05:14, 18.75s/it]                                                        {'loss': 0.5211, 'learning_rate': 1.557394145204713e-05, 'epoch': 0.33}
 33%|███▎      | 2208/6640 [2:55:10<23:05:14, 18.75s/it] 33%|███▎      | 2209/6640 [2:55:26<21:55:32, 17.81s/it]                                                        {'loss': 0.5374, 'learning_rate': 1.5569890632049515e-05, 'epoch': 0.33}
 33%|███▎      | 2209/6640 [2:55:26<21:55:32, 17.81s/it] 33%|███▎      | 2210/6640 [2:55:42<21:16:15, 17.29s/it]                                                        {'loss': 0.5473, 'learning_rate': 1.5565838486567343e-05, 'epoch': 0.33}
 33%|███▎      | 2210/6640 [2:55:42<21:16:15, 17.29s/it] 33%|███▎      | 2211/6640 [2:55:59<21:04:30, 17.13s/it]                                                        {'loss': 0.5432, 'learning_rate': 1.5561785016564928e-05, 'epoch': 0.33}
 33%|███▎      | 2211/6640 [2:55:59<21:04:30, 17.13s/it] 33%|███▎      | 2212/6640 [2:56:16<21:01:31, 17.09s/it]                                                        {'loss': 0.5412, 'learning_rate': 1.555773022300688e-05, 'epoch': 0.33}
 33%|███▎      | 2212/6640 [2:56:16<21:01:31, 17.09s/it] 33%|███▎      | 2213/6640 [2:56:34<21:21:00, 17.36s/it]                                                        {'loss': 0.5341, 'learning_rate': 1.5553674106858135e-05, 'epoch': 0.33}
 33%|███▎      | 2213/6640 [2:56:34<21:21:00, 17.36s/it] 33%|███▎      | 2214/6640 [2:56:50<21:06:46, 17.17s/it]                                                        {'loss': 0.5513, 'learning_rate': 1.5549616669083937e-05, 'epoch': 0.33}
 33%|███▎      | 2214/6640 [2:56:50<21:06:46, 17.17s/it] 33%|███▎      | 2215/6640 [2:57:07<20:55:01, 17.02s/it]                                                        {'loss': 0.5401, 'learning_rate': 1.554555791064985e-05, 'epoch': 0.33}
 33%|███▎      | 2215/6640 [2:57:07<20:55:01, 17.02s/it] 33%|███▎      | 2216/6640 [2:57:24<20:55:46, 17.03s/it]                                                        {'loss': 0.5405, 'learning_rate': 1.554149783252175e-05, 'epoch': 0.33}
 33%|███▎      | 2216/6640 [2:57:24<20:55:46, 17.03s/it] 33%|███▎      | 2217/6640 [2:57:40<20:25:41, 16.63s/it]                                                        {'loss': 0.5576, 'learning_rate': 1.5537436435665823e-05, 'epoch': 0.33}
 33%|███▎      | 2217/6640 [2:57:40<20:25:41, 16.63s/it] 33%|███▎      | 2218/6640 [2:57:56<20:19:50, 16.55s/it]                                                        {'loss': 0.5315, 'learning_rate': 1.5533373721048576e-05, 'epoch': 0.33}
 33%|███▎      | 2218/6640 [2:57:56<20:19:50, 16.55s/it] 33%|███▎      | 2219/6640 [2:58:12<20:15:59, 16.50s/it]                                                        {'loss': 0.5426, 'learning_rate': 1.5529309689636826e-05, 'epoch': 0.33}
 33%|███▎      | 2219/6640 [2:58:12<20:15:59, 16.50s/it] 33%|███▎      | 2220/6640 [2:58:29<20:08:36, 16.41s/it]                                                        {'loss': 0.5435, 'learning_rate': 1.55252443423977e-05, 'epoch': 0.33}
 33%|███▎      | 2220/6640 [2:58:29<20:08:36, 16.41s/it] 33%|███▎      | 2221/6640 [2:58:44<19:49:43, 16.15s/it]                                                        {'loss': 0.522, 'learning_rate': 1.5521177680298645e-05, 'epoch': 0.33}
 33%|███▎      | 2221/6640 [2:58:44<19:49:43, 16.15s/it] 33%|███▎      | 2222/6640 [2:59:01<20:12:49, 16.47s/it]                                                        {'loss': 0.5476, 'learning_rate': 1.5517109704307417e-05, 'epoch': 0.33}
 33%|███▎      | 2222/6640 [2:59:01<20:12:49, 16.47s/it] 33%|███▎      | 2223/6640 [2:59:17<19:46:53, 16.12s/it]                                                        {'loss': 0.5319, 'learning_rate': 1.551304041539208e-05, 'epoch': 0.33}
 33%|███▎      | 2223/6640 [2:59:17<19:46:53, 16.12s/it] 33%|███▎      | 2224/6640 [2:59:33<19:41:57, 16.06s/it]                                                        {'loss': 0.5476, 'learning_rate': 1.5508969814521026e-05, 'epoch': 0.33}
 33%|███▎      | 2224/6640 [2:59:33<19:41:57, 16.06s/it] 34%|███▎      | 2225/6640 [2:59:50<20:04:59, 16.38s/it]                                                        {'loss': 0.5508, 'learning_rate': 1.550489790266294e-05, 'epoch': 0.34}
 34%|███▎      | 2225/6640 [2:59:50<20:04:59, 16.38s/it] 34%|███▎      | 2226/6640 [3:00:06<20:00:30, 16.32s/it]                                                        {'loss': 0.5422, 'learning_rate': 1.5500824680786832e-05, 'epoch': 0.34}
 34%|███▎      | 2226/6640 [3:00:06<20:00:30, 16.32s/it] 34%|███▎      | 2227/6640 [3:00:22<19:58:25, 16.29s/it]                                                        {'loss': 0.563, 'learning_rate': 1.549675014986202e-05, 'epoch': 0.34}
 34%|███▎      | 2227/6640 [3:00:22<19:58:25, 16.29s/it] 34%|███▎      | 2228/6640 [3:00:38<19:45:37, 16.12s/it]                                                        {'loss': 0.5359, 'learning_rate': 1.5492674310858127e-05, 'epoch': 0.34}
 34%|███▎      | 2228/6640 [3:00:38<19:45:37, 16.12s/it] 34%|███▎      | 2229/6640 [3:00:54<19:38:51, 16.04s/it]                                                        {'loss': 0.5291, 'learning_rate': 1.5488597164745104e-05, 'epoch': 0.34}
 34%|███▎      | 2229/6640 [3:00:54<19:38:51, 16.04s/it] 34%|███▎      | 2230/6640 [3:01:10<19:53:47, 16.24s/it]                                                        {'loss': 0.5469, 'learning_rate': 1.5484518712493188e-05, 'epoch': 0.34}
 34%|███▎      | 2230/6640 [3:01:10<19:53:47, 16.24s/it] 34%|███▎      | 2231/6640 [3:01:27<20:03:16, 16.37s/it]                                                        {'loss': 0.5411, 'learning_rate': 1.5480438955072954e-05, 'epoch': 0.34}
 34%|███▎      | 2231/6640 [3:01:27<20:03:16, 16.37s/it] 34%|███▎      | 2232/6640 [3:01:44<20:13:48, 16.52s/it]                                                        {'loss': 0.5471, 'learning_rate': 1.5476357893455268e-05, 'epoch': 0.34}
 34%|███▎      | 2232/6640 [3:01:44<20:13:48, 16.52s/it] 34%|███▎      | 2233/6640 [3:02:00<20:00:44, 16.35s/it]                                                        {'loss': 0.5366, 'learning_rate': 1.5472275528611317e-05, 'epoch': 0.34}
 34%|███▎      | 2233/6640 [3:02:00<20:00:44, 16.35s/it] 34%|███▎      | 2234/6640 [3:02:17<20:14:52, 16.54s/it]                                                        {'loss': 0.5467, 'learning_rate': 1.546819186151259e-05, 'epoch': 0.34}
 34%|███▎      | 2234/6640 [3:02:17<20:14:52, 16.54s/it] 34%|███▎      | 2235/6640 [3:02:34<20:15:58, 16.56s/it]                                                        {'loss': 0.5372, 'learning_rate': 1.5464106893130896e-05, 'epoch': 0.34}
 34%|███▎      | 2235/6640 [3:02:34<20:15:58, 16.56s/it] 34%|███▎      | 2236/6640 [3:02:49<19:56:20, 16.30s/it]                                                        {'loss': 0.5281, 'learning_rate': 1.5460020624438346e-05, 'epoch': 0.34}
 34%|███▎      | 2236/6640 [3:02:49<19:56:20, 16.30s/it] 34%|███▎      | 2237/6640 [3:03:05<19:44:42, 16.14s/it]                                                        {'loss': 0.536, 'learning_rate': 1.545593305640736e-05, 'epoch': 0.34}
 34%|███▎      | 2237/6640 [3:03:05<19:44:42, 16.14s/it] 34%|███▎      | 2238/6640 [3:03:21<19:32:00, 15.97s/it]                                                        {'loss': 0.5307, 'learning_rate': 1.5451844190010666e-05, 'epoch': 0.34}
 34%|███▎      | 2238/6640 [3:03:21<19:32:00, 15.97s/it] 34%|███▎      | 2239/6640 [3:03:37<19:44:18, 16.15s/it]                                                        {'loss': 0.5342, 'learning_rate': 1.5447754026221313e-05, 'epoch': 0.34}
 34%|███▎      | 2239/6640 [3:03:37<19:44:18, 16.15s/it] 34%|███▎      | 2240/6640 [3:03:52<19:26:10, 15.90s/it]                                                        {'loss': 0.511, 'learning_rate': 1.5443662566012645e-05, 'epoch': 0.34}
 34%|███▎      | 2240/6640 [3:03:52<19:26:10, 15.90s/it] 34%|███▍      | 2241/6640 [3:04:09<19:31:09, 15.97s/it]                                                        {'loss': 0.5322, 'learning_rate': 1.5439569810358324e-05, 'epoch': 0.34}
 34%|███▍      | 2241/6640 [3:04:09<19:31:09, 15.97s/it] 34%|███▍      | 2242/6640 [3:04:26<19:54:28, 16.30s/it]                                                        {'loss': 0.5518, 'learning_rate': 1.543547576023231e-05, 'epoch': 0.34}
 34%|███▍      | 2242/6640 [3:04:26<19:54:28, 16.30s/it] 34%|███▍      | 2243/6640 [3:04:41<19:44:39, 16.17s/it]                                                        {'loss': 0.5383, 'learning_rate': 1.543138041660888e-05, 'epoch': 0.34}
 34%|███▍      | 2243/6640 [3:04:41<19:44:39, 16.17s/it] 34%|███▍      | 2244/6640 [3:04:58<19:47:58, 16.21s/it]                                                        {'loss': 0.5395, 'learning_rate': 1.542728378046262e-05, 'epoch': 0.34}
 34%|███▍      | 2244/6640 [3:04:58<19:47:58, 16.21s/it] 34%|███▍      | 2245/6640 [3:05:14<19:52:48, 16.28s/it]                                                        {'loss': 0.5497, 'learning_rate': 1.542318585276841e-05, 'epoch': 0.34}
 34%|███▍      | 2245/6640 [3:05:14<19:52:48, 16.28s/it] 34%|███▍      | 2246/6640 [3:05:30<19:49:46, 16.25s/it]                                                        {'loss': 0.5454, 'learning_rate': 1.5419086634501455e-05, 'epoch': 0.34}
 34%|███▍      | 2246/6640 [3:05:30<19:49:46, 16.25s/it] 34%|███▍      | 2247/6640 [3:05:46<19:43:15, 16.16s/it]                                                        {'loss': 0.5699, 'learning_rate': 1.541498612663726e-05, 'epoch': 0.34}
 34%|███▍      | 2247/6640 [3:05:46<19:43:15, 16.16s/it] 34%|███▍      | 2248/6640 [3:06:02<19:37:06, 16.08s/it]                                                        {'loss': 0.5249, 'learning_rate': 1.5410884330151628e-05, 'epoch': 0.34}
 34%|███▍      | 2248/6640 [3:06:02<19:37:06, 16.08s/it] 34%|███▍      | 2249/6640 [3:06:19<19:48:14, 16.24s/it]                                                        {'loss': 0.5468, 'learning_rate': 1.5406781246020683e-05, 'epoch': 0.34}
 34%|███▍      | 2249/6640 [3:06:19<19:48:14, 16.24s/it]7 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
26  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

4 AutoResumeHook: Checking whether to suspend...
03 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
 34%|███▍      | 2250/6640 [3:06:35<19:54:58, 16.33s/it]                                                        {'loss': 0.5627, 'learning_rate': 1.5402676875220847e-05, 'epoch': 0.34}
 34%|███▍      | 2250/6640 [3:06:35<19:54:58, 16.33s/it] 34%|███▍      | 2251/6640 [3:06:51<19:49:07, 16.26s/it]                                                        {'loss': 0.5261, 'learning_rate': 1.539857121872885e-05, 'epoch': 0.34}
 34%|███▍      | 2251/6640 [3:06:52<19:49:07, 16.26s/it] 34%|███▍      | 2252/6640 [3:07:08<19:53:18, 16.32s/it]                                                        {'loss': 0.5402, 'learning_rate': 1.5394464277521727e-05, 'epoch': 0.34}
 34%|███▍      | 2252/6640 [3:07:08<19:53:18, 16.32s/it] 34%|███▍      | 2253/6640 [3:07:24<19:48:38, 16.26s/it]                                                        {'loss': 0.5491, 'learning_rate': 1.539035605257682e-05, 'epoch': 0.34}
 34%|███▍      | 2253/6640 [3:07:24<19:48:38, 16.26s/it] 34%|███▍      | 2254/6640 [3:07:41<20:04:45, 16.48s/it]                                                        {'loss': 0.5423, 'learning_rate': 1.538624654487178e-05, 'epoch': 0.34}
 34%|███▍      | 2254/6640 [3:07:41<20:04:45, 16.48s/it] 34%|███▍      | 2255/6640 [3:07:58<20:08:43, 16.54s/it]                                                        {'loss': 0.5284, 'learning_rate': 1.5382135755384554e-05, 'epoch': 0.34}
 34%|███▍      | 2255/6640 [3:07:58<20:08:43, 16.54s/it] 34%|███▍      | 2256/6640 [3:08:13<19:50:47, 16.30s/it]                                                        {'loss': 0.5645, 'learning_rate': 1.5378023685093408e-05, 'epoch': 0.34}
 34%|███▍      | 2256/6640 [3:08:13<19:50:47, 16.30s/it] 34%|███▍      | 2257/6640 [3:08:29<19:44:09, 16.21s/it]                                                        {'loss': 0.5343, 'learning_rate': 1.537391033497689e-05, 'epoch': 0.34}
 34%|███▍      | 2257/6640 [3:08:29<19:44:09, 16.21s/it] 34%|███▍      | 2258/6640 [3:08:45<19:35:47, 16.10s/it]                                                        {'loss': 0.5427, 'learning_rate': 1.536979570601388e-05, 'epoch': 0.34}
 34%|███▍      | 2258/6640 [3:08:45<19:35:47, 16.10s/it] 34%|███▍      | 2259/6640 [3:09:02<19:37:25, 16.13s/it]                                                        {'loss': 0.5344, 'learning_rate': 1.5365679799183548e-05, 'epoch': 0.34}
 34%|███▍      | 2259/6640 [3:09:02<19:37:25, 16.13s/it] 34%|███▍      | 2260/6640 [3:09:18<19:40:26, 16.17s/it]                                                        {'loss': 0.5206, 'learning_rate': 1.5361562615465366e-05, 'epoch': 0.34}
 34%|███▍      | 2260/6640 [3:09:18<19:40:26, 16.17s/it] 34%|███▍      | 2261/6640 [3:09:34<19:40:54, 16.18s/it]                                                        {'loss': 0.5379, 'learning_rate': 1.535744415583911e-05, 'epoch': 0.34}
 34%|███▍      | 2261/6640 [3:09:34<19:40:54, 16.18s/it] 34%|███▍      | 2262/6640 [3:09:50<19:46:23, 16.26s/it]                                                        {'loss': 0.5361, 'learning_rate': 1.535332442128487e-05, 'epoch': 0.34}
 34%|███▍      | 2262/6640 [3:09:50<19:46:23, 16.26s/it] 34%|███▍      | 2263/6640 [3:10:07<19:43:47, 16.23s/it]                                                        {'loss': 0.5266, 'learning_rate': 1.5349203412783028e-05, 'epoch': 0.34}
 34%|███▍      | 2263/6640 [3:10:07<19:43:47, 16.23s/it] 34%|███▍      | 2264/6640 [3:10:24<20:06:30, 16.54s/it]                                                        {'loss': 0.5077, 'learning_rate': 1.5345081131314276e-05, 'epoch': 0.34}
 34%|███▍      | 2264/6640 [3:10:24<20:06:30, 16.54s/it] 34%|███▍      | 2265/6640 [3:10:40<19:55:02, 16.39s/it]                                                        {'loss': 0.5516, 'learning_rate': 1.5340957577859605e-05, 'epoch': 0.34}
 34%|███▍      | 2265/6640 [3:10:40<19:55:02, 16.39s/it] 34%|███▍      | 2266/6640 [3:10:57<20:00:08, 16.46s/it]                                                        {'loss': 0.5218, 'learning_rate': 1.533683275340031e-05, 'epoch': 0.34}
 34%|███▍      | 2266/6640 [3:10:57<20:00:08, 16.46s/it] 34%|███▍      | 2267/6640 [3:11:13<19:54:31, 16.39s/it]                                                        {'loss': 0.5419, 'learning_rate': 1.5332706658917985e-05, 'epoch': 0.34}
 34%|███▍      | 2267/6640 [3:11:13<19:54:31, 16.39s/it] 34%|███▍      | 2268/6640 [3:11:29<19:54:25, 16.39s/it]                                                        {'loss': 0.5304, 'learning_rate': 1.5328579295394534e-05, 'epoch': 0.34}
 34%|███▍      | 2268/6640 [3:11:29<19:54:25, 16.39s/it] 34%|███▍      | 2269/6640 [3:11:46<19:57:00, 16.43s/it]                                                        {'loss': 0.5259, 'learning_rate': 1.5324450663812164e-05, 'epoch': 0.34}
 34%|███▍      | 2269/6640 [3:11:46<19:57:00, 16.43s/it] 34%|███▍      | 2270/6640 [3:12:02<19:44:35, 16.26s/it]                                                        {'loss': 0.5483, 'learning_rate': 1.5320320765153367e-05, 'epoch': 0.34}
 34%|███▍      | 2270/6640 [3:12:02<19:44:35, 16.26s/it] 34%|███▍      | 2271/6640 [3:12:18<19:52:23, 16.38s/it]                                                        {'loss': 0.5315, 'learning_rate': 1.5316189600400955e-05, 'epoch': 0.34}
 34%|███▍      | 2271/6640 [3:12:18<19:52:23, 16.38s/it] 34%|███▍      | 2272/6640 [3:12:34<19:47:20, 16.31s/it]                                                        {'loss': 0.5193, 'learning_rate': 1.5312057170538033e-05, 'epoch': 0.34}
 34%|███▍      | 2272/6640 [3:12:34<19:47:20, 16.31s/it] 34%|███▍      | 2273/6640 [3:12:51<19:53:30, 16.40s/it]                                                        {'loss': 0.5508, 'learning_rate': 1.530792347654801e-05, 'epoch': 0.34}
 34%|███▍      | 2273/6640 [3:12:51<19:53:30, 16.40s/it] 34%|███▍      | 2274/6640 [3:13:07<19:47:10, 16.31s/it]                                                        {'loss': 0.536, 'learning_rate': 1.5303788519414594e-05, 'epoch': 0.34}
 34%|███▍      | 2274/6640 [3:13:07<19:47:10, 16.31s/it] 34%|███▍      | 2275/6640 [3:13:23<19:37:21, 16.18s/it]                                                        {'loss': 0.539, 'learning_rate': 1.5299652300121792e-05, 'epoch': 0.34}
 34%|███▍      | 2275/6640 [3:13:23<19:37:21, 16.18s/it] 34%|███▍      | 2276/6640 [3:13:39<19:31:23, 16.11s/it]                                                        {'loss': 0.5525, 'learning_rate': 1.5295514819653913e-05, 'epoch': 0.34}
 34%|███▍      | 2276/6640 [3:13:39<19:31:23, 16.11s/it] 34%|███▍      | 2277/6640 [3:13:55<19:33:08, 16.13s/it]                                                        {'loss': 0.5539, 'learning_rate': 1.529137607899557e-05, 'epoch': 0.34}
 34%|███▍      | 2277/6640 [3:13:55<19:33:08, 16.13s/it] 34%|███▍      | 2278/6640 [3:14:10<19:15:03, 15.89s/it]                                                        {'loss': 0.5577, 'learning_rate': 1.5287236079131668e-05, 'epoch': 0.34}
 34%|███▍      | 2278/6640 [3:14:10<19:15:03, 15.89s/it] 34%|███▍      | 2279/6640 [3:14:26<19:18:58, 15.95s/it]                                                        {'loss': 0.538, 'learning_rate': 1.5283094821047416e-05, 'epoch': 0.34}
 34%|███▍      | 2279/6640 [3:14:26<19:18:58, 15.95s/it] 34%|███▍      | 2280/6640 [3:14:42<19:13:53, 15.88s/it]                                                        {'loss': 0.5079, 'learning_rate': 1.5278952305728325e-05, 'epoch': 0.34}
 34%|███▍      | 2280/6640 [3:14:42<19:13:53, 15.88s/it] 34%|███▍      | 2281/6640 [3:14:59<19:25:48, 16.05s/it]                                                        {'loss': 0.5534, 'learning_rate': 1.5274808534160203e-05, 'epoch': 0.34}
 34%|███▍      | 2281/6640 [3:14:59<19:25:48, 16.05s/it] 34%|███▍      | 2282/6640 [3:15:15<19:28:09, 16.08s/it]                                                        {'loss': 0.5286, 'learning_rate': 1.5270663507329152e-05, 'epoch': 0.34}
 34%|███▍      | 2282/6640 [3:15:15<19:28:09, 16.08s/it] 34%|███▍      | 2283/6640 [3:15:32<19:41:38, 16.27s/it]                                                        {'loss': 0.5218, 'learning_rate': 1.5266517226221585e-05, 'epoch': 0.34}
 34%|███▍      | 2283/6640 [3:15:32<19:41:38, 16.27s/it] 34%|███▍      | 2284/6640 [3:15:48<19:40:15, 16.26s/it]                                                        {'loss': 0.534, 'learning_rate': 1.52623696918242e-05, 'epoch': 0.34}
 34%|███▍      | 2284/6640 [3:15:48<19:40:15, 16.26s/it] 34%|███▍      | 2285/6640 [3:16:05<19:57:26, 16.50s/it]                                                        {'loss': 0.5358, 'learning_rate': 1.5258220905123997e-05, 'epoch': 0.34}
 34%|███▍      | 2285/6640 [3:16:05<19:57:26, 16.50s/it] 34%|███▍      | 2286/6640 [3:16:21<19:55:50, 16.48s/it]                                                        {'loss': 0.525, 'learning_rate': 1.5254070867108277e-05, 'epoch': 0.34}
 34%|███▍      | 2286/6640 [3:16:21<19:55:50, 16.48s/it] 34%|███▍      | 2287/6640 [3:16:37<19:38:13, 16.24s/it]                                                        {'loss': 0.5391, 'learning_rate': 1.5249919578764641e-05, 'epoch': 0.34}
 34%|███▍      | 2287/6640 [3:16:37<19:38:13, 16.24s/it] 34%|███▍      | 2288/6640 [3:16:53<19:40:26, 16.27s/it]                                                        {'loss': 0.5202, 'learning_rate': 1.5245767041080983e-05, 'epoch': 0.34}
 34%|███▍      | 2288/6640 [3:16:53<19:40:26, 16.27s/it] 34%|███▍      | 2289/6640 [3:17:09<19:25:17, 16.07s/it]                                                        {'loss': 0.5266, 'learning_rate': 1.5241613255045495e-05, 'epoch': 0.34}
 34%|███▍      | 2289/6640 [3:17:09<19:25:17, 16.07s/it] 34%|███▍      | 2290/6640 [3:17:26<19:41:18, 16.29s/it]                                                        {'loss': 0.5435, 'learning_rate': 1.5237458221646668e-05, 'epoch': 0.34}
 34%|███▍      | 2290/6640 [3:17:26<19:41:18, 16.29s/it]WARNING: tokenization mismatch: 1 vs. 1440. [[{'from': 'human', 'value': 'ASSISTANT: Du bist ein Personalmarketing-Experte mit den folgenden Kenntnissen und Eigenschaften.\n\nKENNTNISSE: Personalmarketing, Social Media Marketing, Facebook-Marketing, Kampagnenentwicklung, Zielgruppenanalyse, Content-Strategie, Werbeanzeigen, Performance-Messung, Personalgewinnung, Steuerfachangestellte.\n\nEIGENSCHAFTEN: Kreativ, strategisch, analytisch, kommunikativ, zielorientiert, detailverliebt, teamorientiert.\n\nAUFGABE: Entwickle eine erfolgreiche Personalmarketing-Strategie für die Gewinnung von Steuerfachangestellten über Facebook. Erstelle eine Tabelle mit allen Maßnahmen und weise jeder Maßnahme den zuständigen Spezialisten in einer Marketingagentur zu. Achte dabei auf Zielgruppenanalyse, Content-Strategie, Werbeanzeigen und Performance-Messung.\n\nOUTPUT: Eine Tabelle mit allen Maßnahmen für eine erfolgreiche Personalmarketing-Kampagne zur Gewinnung von Steuerfachangestellten auf Facebook, die die Verantwortlichkeiten der Spezialisten in einer Marketingagentur aufzeigt, einschließlich Zielgruppenanalyse, Content-Strategie, Werbeanzeigen und Performance-Messung.'}, {'from': 'gpt', 'value': '| Maßnahme | Beschreibung | Zuständiger Spezialist |\n| --- | --- | --- |\n| Zielgruppenanalyse | Analyse der demografischen Daten, Interessen und Verhaltensweisen der potenziellen Bewerber. | Marktanalyst |\n| Erstellung von Personas | Entwicklung von fiktiven, repräsentativen Bewerberprofilen zur besseren Zielgruppenansprache. | Personalmarketing-Experte |\n| Content-Strategie | Planung von relevantem, ansprechendem und zielgruppenspezifischem Content. | Content-Stratege |\n| Redaktionsplan | Erstellung eines Zeitplans für die Veröffentlichung von Inhalten auf Facebook. | Social Media Manager |\n| Erstellung von Werbeanzeigen | Design und Texten von ansprechenden, zielgruppenspezifischen Facebook-Werbeanzeigen. | Art Director & Copywriter |\n| Auswahl von Targeting-Optionen | Festlegung der Zielgruppenparameter für die Facebook-Werbekampagnen. | Facebook-Marketing-Experte |\n| Budgetierung und Zeitplanung | Festlegung des Budgets und der Laufzeit für die Facebook-Werbekampagnen. | Media Planner |\n| Erstellung von Landing Pages | Gestaltung und Implementierung von spezifischen Landing Pages für die Bewerbung. | Web-Designer |\n| Performance-Messung | Überwachung und Analyse der Kampagnenleistung, einschließlich KPIs wie Klicks und Bewerbungen. | Data Analyst |\n| A/B-Testing | Durchführung von A/B-Tests, um die Effektivität von Anzeigen und Landing Pages zu optimieren. | Conversion-Optimierungsexperte |\n| Community-Management | Interaktion mit der Zielgruppe auf Facebook, Beantwortung von Fragen und Moderation von Diskussionen. | Community Manager |\n| Reporting und Optimierung | Regelmäßige Berichterstattung über die Kampagnenergebnisse und Anpassung der Strategie. | Performance Marketing-Manager |'}, {'from': 'human', 'value': 'Weiter.'}, {'from': 'gpt', 'value': 'Hier sind einige zusätzliche Maßnahmen, die Sie in Ihre Personalmarketing-Strategie für die Gewinnung von Steuerfachangestellten über Facebook einbeziehen können:\n\n| Maßnahme | Beschreibung | Zuständiger Spezialist |\n| --- | --- | --- |\n| Video-Content | Erstellung von Video-Content, wie Interviews mit aktuellen Mitarbeitern oder Berufsalltagsvideos. | Videoproduzent |\n| Influencer-Marketing | Zusammenarbeit mit Influencern aus der Branche, um Ihre Arbeitgebermarke zu stärken. | Influencer-Marketing-Experte |\n| Anpassung von Stellenanzeigen | Anpassung der Stellenanzeigen auf Facebook, um die Zielgruppe besser anzusprechen. | Personalmarketing-Experte |\n| Mitarbeiter-Testimonials | Teilen von Erfahrungsberichten und Zitaten der Mitarbeiter auf Facebook, um Authentizität zu schaffen. | Content-Stratege |\n| Virtuelle Karriere-Events | Durchführung von virtuellen Karriere-Events oder Informationsveranstaltungen auf Facebook. | Event-Manager |\n| Interaktive Umfragen und Quiz | Nutzung von interaktiven Umfragen und Quiz auf Facebook, um das Engagement zu erhöhen. | Social Media Manager |\n| Remarketing-Kampagnen | Einsatz von Remarketing-Anzeigen, um die Personen erneut anzusprechen, die bereits interessiert waren. | Facebook-Marketing-Experte |\n| Monitoring von Wettbewerbern | Beobachtung der Personalmarketing-Aktivitäten der Wettbewerber auf Facebook und Ableitung von Optimierungspotenzialen. | Marktanalyst |\n| Integration von Chatbots | Implementierung von Chatbots auf der Facebook-Seite und der Landing Page zur Automatisierung des Bewerbungsprozesses. | Chatbot-Entwickler |\n| Employer Branding-Kampagne | Entwicklung einer Employer Branding-Kampagne, die die Unternehmenskultur und -werte hervorhebt. | Employer Branding-Experte |\n\nMit diesen erweiterten Maßnahmen können Sie eine noch umfassendere Personalmarketing-Strategie entwickeln, die die Chancen erhöht, qualifizierte Steuerfachangestellte über Facebook zu gewinnen.'}]] (ignored)
 35%|███▍      | 2291/6640 [3:17:42<19:37:18, 16.24s/it]                                                        {'loss': 0.5122, 'learning_rate': 1.5233301941873286e-05, 'epoch': 0.35}
 35%|███▍      | 2291/6640 [3:17:42<19:37:18, 16.24s/it] 35%|███▍      | 2292/6640 [3:17:57<19:24:09, 16.06s/it]                                                        {'loss': 0.5323, 'learning_rate': 1.5229144416714435e-05, 'epoch': 0.35}
 35%|███▍      | 2292/6640 [3:17:57<19:24:09, 16.06s/it] 35%|███▍      | 2293/6640 [3:18:13<19:12:38, 15.91s/it]                                                        {'loss': 0.5278, 'learning_rate': 1.5224985647159489e-05, 'epoch': 0.35}
 35%|███▍      | 2293/6640 [3:18:13<19:12:38, 15.91s/it] 35%|███▍      | 2294/6640 [3:18:29<19:18:00, 15.99s/it]                                                        {'loss': 0.5292, 'learning_rate': 1.5220825634198133e-05, 'epoch': 0.35}
 35%|███▍      | 2294/6640 [3:18:29<19:18:00, 15.99s/it] 35%|███▍      | 2295/6640 [3:18:45<19:08:48, 15.86s/it]                                                        {'loss': 0.5238, 'learning_rate': 1.5216664378820327e-05, 'epoch': 0.35}
 35%|███▍      | 2295/6640 [3:18:45<19:08:48, 15.86s/it] 35%|███▍      | 2296/6640 [3:19:01<19:08:15, 15.86s/it]                                                        {'loss': 0.5307, 'learning_rate': 1.5212501882016346e-05, 'epoch': 0.35}
 35%|███▍      | 2296/6640 [3:19:01<19:08:15, 15.86s/it] 35%|███▍      | 2297/6640 [3:19:16<19:05:12, 15.82s/it]                                                        {'loss': 0.5476, 'learning_rate': 1.5208338144776754e-05, 'epoch': 0.35}
 35%|███▍      | 2297/6640 [3:19:16<19:05:12, 15.82s/it] 35%|███▍      | 2298/6640 [3:19:32<19:05:11, 15.82s/it]                                                        {'loss': 0.5265, 'learning_rate': 1.5204173168092405e-05, 'epoch': 0.35}
 35%|███▍      | 2298/6640 [3:19:32<19:05:11, 15.82s/it] 35%|███▍      | 2299/6640 [3:19:48<19:12:17, 15.93s/it]                                                        {'loss': 0.5432, 'learning_rate': 1.520000695295445e-05, 'epoch': 0.35}
 35%|███▍      | 2299/6640 [3:19:48<19:12:17, 15.93s/it]1 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
6 0AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
 75  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...


3 AutoResumeHook: Checking whether to suspend...
 35%|███▍      | 2300/6640 [3:20:05<19:37:23, 16.28s/it]                                                        {'loss': 0.5604, 'learning_rate': 1.5195839500354337e-05, 'epoch': 0.35}
 35%|███▍      | 2300/6640 [3:20:05<19:37:23, 16.28s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2300/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2300/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2300/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 35%|███▍      | 2301/6640 [3:21:50<51:32:22, 42.76s/it]                                                        {'loss': 0.528, 'learning_rate': 1.5191670811283813e-05, 'epoch': 0.35}
 35%|███▍      | 2301/6640 [3:21:50<51:32:22, 42.76s/it] 35%|███▍      | 2302/6640 [3:22:06<41:57:31, 34.82s/it]                                                        {'loss': 0.5343, 'learning_rate': 1.5187500886734908e-05, 'epoch': 0.35}
 35%|███▍      | 2302/6640 [3:22:06<41:57:31, 34.82s/it] 35%|███▍      | 2303/6640 [3:22:23<35:15:38, 29.27s/it]                                                        {'loss': 0.5427, 'learning_rate': 1.5183329727699957e-05, 'epoch': 0.35}
 35%|███▍      | 2303/6640 [3:22:23<35:15:38, 29.27s/it]WARNING: tokenization mismatch: 1 vs. 64. [[{'from': 'human', 'value': '<image>\nWhat vitamin is this vegetable associated with?\nAnswer the question using a single word or phrase.'}, {'from': 'gpt', 'value': ''}]] (ignored)
 35%|███▍      | 2304/6640 [3:22:39<30:45:04, 25.53s/it]                                                        {'loss': 0.5366, 'learning_rate': 1.5179157335171579e-05, 'epoch': 0.35}
 35%|███▍      | 2304/6640 [3:22:39<30:45:04, 25.53s/it] 35%|███▍      | 2305/6640 [3:22:55<27:20:15, 22.70s/it]                                                        {'loss': 0.5439, 'learning_rate': 1.5174983710142694e-05, 'epoch': 0.35}
 35%|███▍      | 2305/6640 [3:22:55<27:20:15, 22.70s/it] 35%|███▍      | 2306/6640 [3:23:12<25:12:30, 20.94s/it]                                                        {'loss': 0.5105, 'learning_rate': 1.5170808853606515e-05, 'epoch': 0.35}
 35%|███▍      | 2306/6640 [3:23:12<25:12:30, 20.94s/it] 35%|███▍      | 2307/6640 [3:23:29<23:30:58, 19.54s/it]                                                        {'loss': 0.5296, 'learning_rate': 1.5166632766556546e-05, 'epoch': 0.35}
 35%|███▍      | 2307/6640 [3:23:29<23:30:58, 19.54s/it] 35%|███▍      | 2308/6640 [3:23:45<22:17:23, 18.52s/it]                                                        {'loss': 0.528, 'learning_rate': 1.516245544998658e-05, 'epoch': 0.35}
 35%|███▍      | 2308/6640 [3:23:45<22:17:23, 18.52s/it] 35%|███▍      | 2309/6640 [3:24:01<21:35:48, 17.95s/it]                                                        {'loss': 0.5441, 'learning_rate': 1.5158276904890708e-05, 'epoch': 0.35}
 35%|███▍      | 2309/6640 [3:24:01<21:35:48, 17.95s/it] 35%|███▍      | 2310/6640 [3:24:18<20:59:40, 17.45s/it]                                                        {'loss': 0.5315, 'learning_rate': 1.515409713226331e-05, 'epoch': 0.35}
 35%|███▍      | 2310/6640 [3:24:18<20:59:40, 17.45s/it] 35%|███▍      | 2311/6640 [3:24:34<20:35:37, 17.13s/it]                                                        {'loss': 0.5542, 'learning_rate': 1.5149916133099063e-05, 'epoch': 0.35}
 35%|███▍      | 2311/6640 [3:24:34<20:35:37, 17.13s/it] 35%|███▍      | 2312/6640 [3:24:50<20:12:20, 16.81s/it]                                                        {'loss': 0.5063, 'learning_rate': 1.514573390839293e-05, 'epoch': 0.35}
 35%|███▍      | 2312/6640 [3:24:50<20:12:20, 16.81s/it] 35%|███▍      | 2313/6640 [3:25:06<19:50:04, 16.50s/it]                                                        {'loss': 0.5433, 'learning_rate': 1.5141550459140168e-05, 'epoch': 0.35}
 35%|███▍      | 2313/6640 [3:25:06<19:50:04, 16.50s/it] 35%|███▍      | 2314/6640 [3:25:23<20:08:17, 16.76s/it]                                                        {'loss': 0.5573, 'learning_rate': 1.5137365786336329e-05, 'epoch': 0.35}
 35%|███▍      | 2314/6640 [3:25:23<20:08:17, 16.76s/it] 35%|███▍      | 2315/6640 [3:25:39<19:46:44, 16.46s/it]                                                        {'loss': 0.5393, 'learning_rate': 1.513317989097725e-05, 'epoch': 0.35}
 35%|███▍      | 2315/6640 [3:25:39<19:46:44, 16.46s/it] 35%|███▍      | 2316/6640 [3:25:56<19:49:33, 16.51s/it]                                                        {'loss': 0.5467, 'learning_rate': 1.5128992774059063e-05, 'epoch': 0.35}
 35%|███▍      | 2316/6640 [3:25:56<19:49:33, 16.51s/it] 35%|███▍      | 2317/6640 [3:26:13<19:59:10, 16.64s/it]                                                        {'loss': 0.5295, 'learning_rate': 1.5124804436578191e-05, 'epoch': 0.35}
 35%|███▍      | 2317/6640 [3:26:13<19:59:10, 16.64s/it] 35%|███▍      | 2318/6640 [3:26:29<19:49:23, 16.51s/it]                                                        {'loss': 0.5352, 'learning_rate': 1.512061487953134e-05, 'epoch': 0.35}
 35%|███▍      | 2318/6640 [3:26:29<19:49:23, 16.51s/it] 35%|███▍      | 2319/6640 [3:26:45<19:36:25, 16.34s/it]                                                        {'loss': 0.5673, 'learning_rate': 1.5116424103915519e-05, 'epoch': 0.35}
 35%|███▍      | 2319/6640 [3:26:45<19:36:25, 16.34s/it] 35%|███▍      | 2320/6640 [3:27:01<19:39:48, 16.39s/it]                                                        {'loss': 0.5455, 'learning_rate': 1.5112232110728016e-05, 'epoch': 0.35}
 35%|███▍      | 2320/6640 [3:27:01<19:39:48, 16.39s/it] 35%|███▍      | 2321/6640 [3:27:18<19:40:38, 16.40s/it]                                                        {'loss': 0.521, 'learning_rate': 1.5108038900966416e-05, 'epoch': 0.35}
 35%|███▍      | 2321/6640 [3:27:18<19:40:38, 16.40s/it] 35%|███▍      | 2322/6640 [3:27:34<19:36:24, 16.35s/it]                                                        {'loss': 0.5408, 'learning_rate': 1.5103844475628585e-05, 'epoch': 0.35}
 35%|███▍      | 2322/6640 [3:27:34<19:36:24, 16.35s/it] 35%|███▍      | 2323/6640 [3:27:50<19:22:22, 16.16s/it]                                                        {'loss': 0.5307, 'learning_rate': 1.509964883571269e-05, 'epoch': 0.35}
 35%|███▍      | 2323/6640 [3:27:50<19:22:22, 16.16s/it] 35%|███▌      | 2324/6640 [3:28:06<19:22:09, 16.16s/it]                                                        {'loss': 0.5519, 'learning_rate': 1.5095451982217177e-05, 'epoch': 0.35}
 35%|███▌      | 2324/6640 [3:28:06<19:22:09, 16.16s/it] 35%|███▌      | 2325/6640 [3:28:22<19:19:27, 16.12s/it]                                                        {'loss': 0.5373, 'learning_rate': 1.5091253916140789e-05, 'epoch': 0.35}
 35%|███▌      | 2325/6640 [3:28:22<19:19:27, 16.12s/it] 35%|███▌      | 2326/6640 [3:28:38<19:29:03, 16.26s/it]                                                        {'loss': 0.5393, 'learning_rate': 1.508705463848255e-05, 'epoch': 0.35}
 35%|███▌      | 2326/6640 [3:28:38<19:29:03, 16.26s/it] 35%|███▌      | 2327/6640 [3:28:55<19:37:08, 16.38s/it]                                                        {'loss': 0.5403, 'learning_rate': 1.5082854150241773e-05, 'epoch': 0.35}
 35%|███▌      | 2327/6640 [3:28:55<19:37:08, 16.38s/it] 35%|███▌      | 2328/6640 [3:29:12<19:42:15, 16.45s/it]                                                        {'loss': 0.5219, 'learning_rate': 1.5078652452418063e-05, 'epoch': 0.35}
 35%|███▌      | 2328/6640 [3:29:12<19:42:15, 16.45s/it] 35%|███▌      | 2329/6640 [3:29:28<19:49:13, 16.55s/it]                                                        {'loss': 0.5289, 'learning_rate': 1.5074449546011312e-05, 'epoch': 0.35}
 35%|███▌      | 2329/6640 [3:29:28<19:49:13, 16.55s/it] 35%|███▌      | 2330/6640 [3:29:44<19:38:19, 16.40s/it]                                                        {'loss': 0.5408, 'learning_rate': 1.5070245432021699e-05, 'epoch': 0.35}
 35%|███▌      | 2330/6640 [3:29:44<19:38:19, 16.40s/it] 35%|███▌      | 2331/6640 [3:30:01<19:32:00, 16.32s/it]                                                        {'loss': 0.5243, 'learning_rate': 1.5066040111449692e-05, 'epoch': 0.35}
 35%|███▌      | 2331/6640 [3:30:01<19:32:00, 16.32s/it] 35%|███▌      | 2332/6640 [3:30:17<19:43:47, 16.49s/it]                                                        {'loss': 0.5491, 'learning_rate': 1.5061833585296044e-05, 'epoch': 0.35}
 35%|███▌      | 2332/6640 [3:30:17<19:43:47, 16.49s/it] 35%|███▌      | 2333/6640 [3:30:34<19:34:07, 16.36s/it]                                                        {'loss': 0.5397, 'learning_rate': 1.505762585456179e-05, 'epoch': 0.35}
 35%|███▌      | 2333/6640 [3:30:34<19:34:07, 16.36s/it] 35%|███▌      | 2334/6640 [3:30:50<19:34:37, 16.37s/it]                                                        {'loss': 0.5267, 'learning_rate': 1.5053416920248267e-05, 'epoch': 0.35}
 35%|███▌      | 2334/6640 [3:30:50<19:34:37, 16.37s/it] 35%|███▌      | 2335/6640 [3:31:06<19:25:15, 16.24s/it]                                                        {'loss': 0.5248, 'learning_rate': 1.5049206783357082e-05, 'epoch': 0.35}
 35%|███▌      | 2335/6640 [3:31:06<19:25:15, 16.24s/it] 35%|███▌      | 2336/6640 [3:31:22<19:14:06, 16.09s/it]                                                        {'loss': 0.5371, 'learning_rate': 1.504499544489013e-05, 'epoch': 0.35}
 35%|███▌      | 2336/6640 [3:31:22<19:14:06, 16.09s/it] 35%|███▌      | 2337/6640 [3:31:38<19:22:50, 16.21s/it]                                                        {'loss': 0.5387, 'learning_rate': 1.504078290584961e-05, 'epoch': 0.35}
 35%|███▌      | 2337/6640 [3:31:38<19:22:50, 16.21s/it] 35%|███▌      | 2338/6640 [3:31:55<19:29:33, 16.31s/it]                                                        {'loss': 0.5438, 'learning_rate': 1.5036569167237978e-05, 'epoch': 0.35}
 35%|███▌      | 2338/6640 [3:31:55<19:29:33, 16.31s/it] 35%|███▌      | 2339/6640 [3:32:13<20:06:15, 16.83s/it]                                                        {'loss': 0.5435, 'learning_rate': 1.5032354230058004e-05, 'epoch': 0.35}
 35%|███▌      | 2339/6640 [3:32:13<20:06:15, 16.83s/it] 35%|███▌      | 2340/6640 [3:32:29<19:56:39, 16.70s/it]                                                        {'loss': 0.5315, 'learning_rate': 1.502813809531272e-05, 'epoch': 0.35}
 35%|███▌      | 2340/6640 [3:32:29<19:56:39, 16.70s/it] 35%|███▌      | 2341/6640 [3:32:45<19:43:52, 16.52s/it]                                                        {'loss': 0.5247, 'learning_rate': 1.502392076400546e-05, 'epoch': 0.35}
 35%|███▌      | 2341/6640 [3:32:45<19:43:52, 16.52s/it] 35%|███▌      | 2342/6640 [3:33:02<19:50:46, 16.62s/it]                                                        {'loss': 0.538, 'learning_rate': 1.501970223713983e-05, 'epoch': 0.35}
 35%|███▌      | 2342/6640 [3:33:02<19:50:46, 16.62s/it] 35%|███▌      | 2343/6640 [3:33:18<19:46:06, 16.56s/it]                                                        {'loss': 0.5346, 'learning_rate': 1.501548251571973e-05, 'epoch': 0.35}
 35%|███▌      | 2343/6640 [3:33:18<19:46:06, 16.56s/it] 35%|███▌      | 2344/6640 [3:33:35<19:38:37, 16.46s/it]                                                        {'loss': 0.5487, 'learning_rate': 1.501126160074934e-05, 'epoch': 0.35}
 35%|███▌      | 2344/6640 [3:33:35<19:38:37, 16.46s/it] 35%|███▌      | 2345/6640 [3:33:51<19:28:00, 16.32s/it]                                                        {'loss': 0.5391, 'learning_rate': 1.5007039493233123e-05, 'epoch': 0.35}
 35%|███▌      | 2345/6640 [3:33:51<19:28:00, 16.32s/it] 35%|███▌      | 2346/6640 [3:34:07<19:27:03, 16.31s/it]                                                        {'loss': 0.5287, 'learning_rate': 1.5002816194175829e-05, 'epoch': 0.35}
 35%|███▌      | 2346/6640 [3:34:07<19:27:03, 16.31s/it] 35%|███▌      | 2347/6640 [3:34:23<19:21:40, 16.24s/it]                                                        {'loss': 0.5251, 'learning_rate': 1.4998591704582488e-05, 'epoch': 0.35}
 35%|███▌      | 2347/6640 [3:34:23<19:21:40, 16.24s/it] 35%|███▌      | 2348/6640 [3:34:39<19:11:00, 16.09s/it]                                                        {'loss': 0.5448, 'learning_rate': 1.4994366025458421e-05, 'epoch': 0.35}
 35%|███▌      | 2348/6640 [3:34:39<19:11:00, 16.09s/it] 35%|███▌      | 2349/6640 [3:34:55<19:22:37, 16.26s/it]                                                        {'loss': 0.5411, 'learning_rate': 1.4990139157809217e-05, 'epoch': 0.35}
 35%|███▌      | 2349/6640 [3:34:55<19:22:37, 16.26s/it]1 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
03 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 35%|███▌      | 2350/6640 [3:35:12<19:38:25, 16.48s/it]7 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5428, 'learning_rate': 1.4985911102640762e-05, 'epoch': 0.35}
 35%|███▌      | 2350/6640 [3:35:12<19:38:25, 16.48s/it] 35%|███▌      | 2351/6640 [3:35:29<19:35:18, 16.44s/it]                                                        {'loss': 0.5339, 'learning_rate': 1.4981681860959222e-05, 'epoch': 0.35}
 35%|███▌      | 2351/6640 [3:35:29<19:35:18, 16.44s/it] 35%|███▌      | 2352/6640 [3:35:45<19:36:43, 16.47s/it]                                                        {'loss': 0.5229, 'learning_rate': 1.4977451433771037e-05, 'epoch': 0.35}
 35%|███▌      | 2352/6640 [3:35:45<19:36:43, 16.47s/it] 35%|███▌      | 2353/6640 [3:36:02<19:42:48, 16.55s/it]                                                        {'loss': 0.5415, 'learning_rate': 1.4973219822082942e-05, 'epoch': 0.35}
 35%|███▌      | 2353/6640 [3:36:02<19:42:48, 16.55s/it] 35%|███▌      | 2354/6640 [3:36:19<19:46:37, 16.61s/it]                                                        {'loss': 0.5282, 'learning_rate': 1.4968987026901942e-05, 'epoch': 0.35}
 35%|███▌      | 2354/6640 [3:36:19<19:46:37, 16.61s/it] 35%|███▌      | 2355/6640 [3:36:35<19:27:59, 16.35s/it]                                                        {'loss': 0.5274, 'learning_rate': 1.4964753049235333e-05, 'epoch': 0.35}
 35%|███▌      | 2355/6640 [3:36:35<19:27:59, 16.35s/it] 35%|███▌      | 2356/6640 [3:36:50<19:18:04, 16.22s/it]                                                        {'loss': 0.5309, 'learning_rate': 1.4960517890090683e-05, 'epoch': 0.35}
 35%|███▌      | 2356/6640 [3:36:50<19:18:04, 16.22s/it] 35%|███▌      | 2357/6640 [3:37:06<19:10:33, 16.12s/it]                                                        {'loss': 0.5267, 'learning_rate': 1.4956281550475851e-05, 'epoch': 0.35}
 35%|███▌      | 2357/6640 [3:37:06<19:10:33, 16.12s/it] 36%|███▌      | 2358/6640 [3:37:23<19:21:40, 16.28s/it]                                                        {'loss': 0.5381, 'learning_rate': 1.4952044031398966e-05, 'epoch': 0.36}
 36%|███▌      | 2358/6640 [3:37:23<19:21:40, 16.28s/it] 36%|███▌      | 2359/6640 [3:37:39<19:14:53, 16.19s/it]                                                        {'loss': 0.5113, 'learning_rate': 1.4947805333868453e-05, 'epoch': 0.36}
 36%|███▌      | 2359/6640 [3:37:39<19:14:53, 16.19s/it] 36%|███▌      | 2360/6640 [3:37:56<19:26:16, 16.35s/it]                                                        {'loss': 0.5265, 'learning_rate': 1.4943565458892999e-05, 'epoch': 0.36}
 36%|███▌      | 2360/6640 [3:37:56<19:26:16, 16.35s/it] 36%|███▌      | 2361/6640 [3:38:12<19:26:14, 16.35s/it]                                                        {'loss': 0.54, 'learning_rate': 1.4939324407481588e-05, 'epoch': 0.36}
 36%|███▌      | 2361/6640 [3:38:12<19:26:14, 16.35s/it] 36%|███▌      | 2362/6640 [3:38:29<19:34:41, 16.48s/it]                                                        {'loss': 0.5375, 'learning_rate': 1.493508218064347e-05, 'epoch': 0.36}
 36%|███▌      | 2362/6640 [3:38:29<19:34:41, 16.48s/it] 36%|███▌      | 2363/6640 [3:38:45<19:26:28, 16.36s/it]                                                        {'loss': 0.5437, 'learning_rate': 1.4930838779388186e-05, 'epoch': 0.36}
 36%|███▌      | 2363/6640 [3:38:45<19:26:28, 16.36s/it] 36%|███▌      | 2364/6640 [3:39:02<19:37:03, 16.52s/it]                                                        {'loss': 0.548, 'learning_rate': 1.4926594204725552e-05, 'epoch': 0.36}
 36%|███▌      | 2364/6640 [3:39:02<19:37:03, 16.52s/it] 36%|███▌      | 2365/6640 [3:39:18<19:32:04, 16.45s/it]                                                        {'loss': 0.5367, 'learning_rate': 1.4922348457665656e-05, 'epoch': 0.36}
 36%|███▌      | 2365/6640 [3:39:18<19:32:04, 16.45s/it] 36%|███▌      | 2366/6640 [3:39:34<19:29:38, 16.42s/it]                                                        {'loss': 0.5644, 'learning_rate': 1.491810153921888e-05, 'epoch': 0.36}
 36%|███▌      | 2366/6640 [3:39:34<19:29:38, 16.42s/it] 36%|███▌      | 2367/6640 [3:39:51<19:34:44, 16.50s/it]                                                        {'loss': 0.5173, 'learning_rate': 1.4913853450395874e-05, 'epoch': 0.36}
 36%|███▌      | 2367/6640 [3:39:51<19:34:44, 16.50s/it] 36%|███▌      | 2368/6640 [3:40:07<19:27:06, 16.39s/it]                                                        {'loss': 0.5416, 'learning_rate': 1.4909604192207569e-05, 'epoch': 0.36}
 36%|███▌      | 2368/6640 [3:40:07<19:27:06, 16.39s/it] 36%|███▌      | 2369/6640 [3:40:24<19:30:51, 16.45s/it]                                                        {'loss': 0.5395, 'learning_rate': 1.4905353765665171e-05, 'epoch': 0.36}
 36%|███▌      | 2369/6640 [3:40:24<19:30:51, 16.45s/it] 36%|███▌      | 2370/6640 [3:40:40<19:20:38, 16.31s/it]                                                        {'loss': 0.5502, 'learning_rate': 1.4901102171780175e-05, 'epoch': 0.36}
 36%|███▌      | 2370/6640 [3:40:40<19:20:38, 16.31s/it] 36%|███▌      | 2371/6640 [3:40:56<19:15:04, 16.23s/it]                                                        {'loss': 0.5273, 'learning_rate': 1.4896849411564337e-05, 'epoch': 0.36}
 36%|███▌      | 2371/6640 [3:40:56<19:15:04, 16.23s/it] 36%|███▌      | 2372/6640 [3:41:12<19:09:35, 16.16s/it]                                                        {'loss': 0.5266, 'learning_rate': 1.4892595486029709e-05, 'epoch': 0.36}
 36%|███▌      | 2372/6640 [3:41:12<19:09:35, 16.16s/it] 36%|███▌      | 2373/6640 [3:41:29<19:23:16, 16.36s/it]                                                        {'loss': 0.5609, 'learning_rate': 1.4888340396188606e-05, 'epoch': 0.36}
 36%|███▌      | 2373/6640 [3:41:29<19:23:16, 16.36s/it] 36%|███▌      | 2374/6640 [3:41:45<19:15:43, 16.25s/it]                                                        {'loss': 0.5403, 'learning_rate': 1.4884084143053622e-05, 'epoch': 0.36}
 36%|███▌      | 2374/6640 [3:41:45<19:15:43, 16.25s/it] 36%|███▌      | 2375/6640 [3:42:01<19:25:23, 16.39s/it]                                                        {'loss': 0.5243, 'learning_rate': 1.487982672763764e-05, 'epoch': 0.36}
 36%|███▌      | 2375/6640 [3:42:01<19:25:23, 16.39s/it] 36%|███▌      | 2376/6640 [3:42:17<19:07:28, 16.15s/it]                                                        {'loss': 0.5337, 'learning_rate': 1.4875568150953805e-05, 'epoch': 0.36}
 36%|███▌      | 2376/6640 [3:42:17<19:07:28, 16.15s/it] 36%|███▌      | 2377/6640 [3:42:33<18:54:14, 15.96s/it]                                                        {'loss': 0.5169, 'learning_rate': 1.4871308414015547e-05, 'epoch': 0.36}
 36%|███▌      | 2377/6640 [3:42:33<18:54:14, 15.96s/it] 36%|███▌      | 2378/6640 [3:42:49<19:11:02, 16.20s/it]                                                        {'loss': 0.5151, 'learning_rate': 1.486704751783656e-05, 'epoch': 0.36}
 36%|███▌      | 2378/6640 [3:42:49<19:11:02, 16.20s/it] 36%|███▌      | 2379/6640 [3:43:05<19:09:32, 16.19s/it]                                                        {'loss': 0.5603, 'learning_rate': 1.4862785463430836e-05, 'epoch': 0.36}
 36%|███▌      | 2379/6640 [3:43:05<19:09:32, 16.19s/it] 36%|███▌      | 2380/6640 [3:43:23<19:30:19, 16.48s/it]                                                        {'loss': 0.5287, 'learning_rate': 1.4858522251812621e-05, 'epoch': 0.36}
 36%|███▌      | 2380/6640 [3:43:23<19:30:19, 16.48s/it] 36%|███▌      | 2381/6640 [3:43:39<19:18:02, 16.31s/it]                                                        {'loss': 0.531, 'learning_rate': 1.4854257883996449e-05, 'epoch': 0.36}
 36%|███▌      | 2381/6640 [3:43:39<19:18:02, 16.31s/it] 36%|███▌      | 2382/6640 [3:43:55<19:14:07, 16.26s/it]                                                        {'loss': 0.555, 'learning_rate': 1.4849992360997126e-05, 'epoch': 0.36}
 36%|███▌      | 2382/6640 [3:43:55<19:14:07, 16.26s/it] 36%|███▌      | 2383/6640 [3:44:11<19:05:19, 16.14s/it]                                                        {'loss': 0.5381, 'learning_rate': 1.4845725683829723e-05, 'epoch': 0.36}
 36%|███▌      | 2383/6640 [3:44:11<19:05:19, 16.14s/it] 36%|███▌      | 2384/6640 [3:44:27<19:20:12, 16.36s/it]                                                        {'loss': 0.5568, 'learning_rate': 1.4841457853509606e-05, 'epoch': 0.36}
 36%|███▌      | 2384/6640 [3:44:27<19:20:12, 16.36s/it] 36%|███▌      | 2385/6640 [3:44:45<19:40:13, 16.64s/it]                                                        {'loss': 0.5519, 'learning_rate': 1.4837188871052399e-05, 'epoch': 0.36}
 36%|███▌      | 2385/6640 [3:44:45<19:40:13, 16.64s/it] 36%|███▌      | 2386/6640 [3:45:01<19:28:05, 16.48s/it]                                                        {'loss': 0.5527, 'learning_rate': 1.4832918737474007e-05, 'epoch': 0.36}
 36%|███▌      | 2386/6640 [3:45:01<19:28:05, 16.48s/it] 36%|███▌      | 2387/6640 [3:45:18<19:33:47, 16.56s/it]                                                        {'loss': 0.563, 'learning_rate': 1.4828647453790606e-05, 'epoch': 0.36}
 36%|███▌      | 2387/6640 [3:45:18<19:33:47, 16.56s/it] 36%|███▌      | 2388/6640 [3:45:33<19:19:23, 16.36s/it]                                                        {'loss': 0.5405, 'learning_rate': 1.4824375021018645e-05, 'epoch': 0.36}
 36%|███▌      | 2388/6640 [3:45:33<19:19:23, 16.36s/it] 36%|███▌      | 2389/6640 [3:45:50<19:19:36, 16.37s/it]                                                        {'loss': 0.5199, 'learning_rate': 1.4820101440174852e-05, 'epoch': 0.36}
 36%|███▌      | 2389/6640 [3:45:50<19:19:36, 16.37s/it] 36%|███▌      | 2390/6640 [3:46:06<19:22:58, 16.42s/it]                                                        {'loss': 0.5588, 'learning_rate': 1.481582671227622e-05, 'epoch': 0.36}
 36%|███▌      | 2390/6640 [3:46:06<19:22:58, 16.42s/it] 36%|███▌      | 2391/6640 [3:46:22<19:15:30, 16.32s/it]                                                        {'loss': 0.549, 'learning_rate': 1.4811550838340028e-05, 'epoch': 0.36}
 36%|███▌      | 2391/6640 [3:46:22<19:15:30, 16.32s/it] 36%|███▌      | 2392/6640 [3:46:39<19:19:16, 16.37s/it]                                                        {'loss': 0.5431, 'learning_rate': 1.4807273819383809e-05, 'epoch': 0.36}
 36%|███▌      | 2392/6640 [3:46:39<19:19:16, 16.37s/it] 36%|███▌      | 2393/6640 [3:46:55<19:01:57, 16.13s/it]                                                        {'loss': 0.5177, 'learning_rate': 1.4802995656425387e-05, 'epoch': 0.36}
 36%|███▌      | 2393/6640 [3:46:55<19:01:57, 16.13s/it] 36%|███▌      | 2394/6640 [3:47:11<19:04:28, 16.17s/it]                                                        {'loss': 0.5193, 'learning_rate': 1.4798716350482845e-05, 'epoch': 0.36}
 36%|███▌      | 2394/6640 [3:47:11<19:04:28, 16.17s/it] 36%|███▌      | 2395/6640 [3:47:27<18:58:37, 16.09s/it]                                                        {'loss': 0.5584, 'learning_rate': 1.4794435902574543e-05, 'epoch': 0.36}
 36%|███▌      | 2395/6640 [3:47:27<18:58:37, 16.09s/it] 36%|███▌      | 2396/6640 [3:47:43<19:01:15, 16.13s/it]                                                        {'loss': 0.5374, 'learning_rate': 1.4790154313719117e-05, 'epoch': 0.36}
 36%|███▌      | 2396/6640 [3:47:43<19:01:15, 16.13s/it] 36%|███▌      | 2397/6640 [3:47:59<19:10:32, 16.27s/it]                                                        {'loss': 0.5599, 'learning_rate': 1.4785871584935469e-05, 'epoch': 0.36}
 36%|███▌      | 2397/6640 [3:48:00<19:10:32, 16.27s/it] 36%|███▌      | 2398/6640 [3:48:16<19:16:36, 16.36s/it]                                                        {'loss': 0.5215, 'learning_rate': 1.4781587717242772e-05, 'epoch': 0.36}
 36%|███▌      | 2398/6640 [3:48:16<19:16:36, 16.36s/it] 36%|███▌      | 2399/6640 [3:48:32<19:13:56, 16.33s/it]                                                        {'loss': 0.5278, 'learning_rate': 1.4777302711660469e-05, 'epoch': 0.36}
 36%|███▌      | 2399/6640 [3:48:32<19:13:56, 16.33s/it]01 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
 6 AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
 36%|███▌      | 2400/6640 [3:48:49<19:22:33, 16.45s/it]5 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5452, 'learning_rate': 1.4773016569208283e-05, 'epoch': 0.36}
 36%|███▌      | 2400/6640 [3:48:49<19:22:33, 16.45s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2400/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2400/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2400/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 36%|███▌      | 2401/6640 [3:50:36<51:28:22, 43.71s/it]                                                        {'loss': 0.5432, 'learning_rate': 1.4768729290906194e-05, 'epoch': 0.36}
 36%|███▌      | 2401/6640 [3:50:36<51:28:22, 43.71s/it] 36%|███▌      | 2402/6640 [3:50:52<41:35:52, 35.34s/it]                                                        {'loss': 0.5374, 'learning_rate': 1.4764440877774465e-05, 'epoch': 0.36}
 36%|███▌      | 2402/6640 [3:50:52<41:35:52, 35.34s/it] 36%|███▌      | 2403/6640 [3:51:08<34:32:37, 29.35s/it]                                                        {'loss': 0.5209, 'learning_rate': 1.476015133083362e-05, 'epoch': 0.36}
 36%|███▌      | 2403/6640 [3:51:08<34:32:37, 29.35s/it] 36%|███▌      | 2404/6640 [3:51:24<29:50:53, 25.37s/it]                                                        {'loss': 0.5227, 'learning_rate': 1.4755860651104455e-05, 'epoch': 0.36}
 36%|███▌      | 2404/6640 [3:51:24<29:50:53, 25.37s/it] 36%|███▌      | 2405/6640 [3:51:40<26:37:25, 22.63s/it]                                                        {'loss': 0.5245, 'learning_rate': 1.4751568839608036e-05, 'epoch': 0.36}
 36%|███▌      | 2405/6640 [3:51:40<26:37:25, 22.63s/it] 36%|███▌      | 2406/6640 [3:51:56<24:22:34, 20.73s/it]                                                        {'loss': 0.535, 'learning_rate': 1.4747275897365707e-05, 'epoch': 0.36}
 36%|███▌      | 2406/6640 [3:51:56<24:22:34, 20.73s/it] 36%|███▋      | 2407/6640 [3:52:13<23:01:45, 19.59s/it]                                                        {'loss': 0.5431, 'learning_rate': 1.4742981825399067e-05, 'epoch': 0.36}
 36%|███▋      | 2407/6640 [3:52:13<23:01:45, 19.59s/it] 36%|███▋      | 2408/6640 [3:52:29<21:53:56, 18.63s/it]                                                        {'loss': 0.5433, 'learning_rate': 1.4738686624729987e-05, 'epoch': 0.36}
 36%|███▋      | 2408/6640 [3:52:29<21:53:56, 18.63s/it] 36%|███▋      | 2409/6640 [3:52:46<20:59:28, 17.86s/it]                                                        {'loss': 0.5243, 'learning_rate': 1.4734390296380618e-05, 'epoch': 0.36}
 36%|███▋      | 2409/6640 [3:52:46<20:59:28, 17.86s/it] 36%|███▋      | 2410/6640 [3:53:02<20:19:52, 17.30s/it]                                                        {'loss': 0.5298, 'learning_rate': 1.4730092841373362e-05, 'epoch': 0.36}
 36%|███▋      | 2410/6640 [3:53:02<20:19:52, 17.30s/it] 36%|███▋      | 2411/6640 [3:53:18<20:02:29, 17.06s/it]                                                        {'loss': 0.5291, 'learning_rate': 1.4725794260730903e-05, 'epoch': 0.36}
 36%|███▋      | 2411/6640 [3:53:18<20:02:29, 17.06s/it] 36%|███▋      | 2412/6640 [3:53:35<19:57:37, 17.00s/it]                                                        {'loss': 0.5439, 'learning_rate': 1.4721494555476189e-05, 'epoch': 0.36}
 36%|███▋      | 2412/6640 [3:53:35<19:57:37, 17.00s/it] 36%|███▋      | 2413/6640 [3:53:52<19:52:19, 16.92s/it]                                                        {'loss': 0.5514, 'learning_rate': 1.4717193726632428e-05, 'epoch': 0.36}
 36%|███▋      | 2413/6640 [3:53:52<19:52:19, 16.92s/it] 36%|███▋      | 2414/6640 [3:54:08<19:36:44, 16.71s/it]                                                        {'loss': 0.5379, 'learning_rate': 1.4712891775223108e-05, 'epoch': 0.36}
 36%|███▋      | 2414/6640 [3:54:08<19:36:44, 16.71s/it] 36%|███▋      | 2415/6640 [3:54:25<19:41:28, 16.78s/it]                                                        {'loss': 0.5423, 'learning_rate': 1.4708588702271978e-05, 'epoch': 0.36}
 36%|███▋      | 2415/6640 [3:54:25<19:41:28, 16.78s/it] 36%|███▋      | 2416/6640 [3:54:43<20:01:24, 17.07s/it]                                                        {'loss': 0.5293, 'learning_rate': 1.470428450880305e-05, 'epoch': 0.36}
 36%|███▋      | 2416/6640 [3:54:43<20:01:24, 17.07s/it] 36%|███▋      | 2417/6640 [3:54:59<19:56:57, 17.01s/it]                                                        {'loss': 0.5388, 'learning_rate': 1.469997919584061e-05, 'epoch': 0.36}
 36%|███▋      | 2417/6640 [3:54:59<19:56:57, 17.01s/it] 36%|███▋      | 2418/6640 [3:55:17<20:07:36, 17.16s/it]                                                        {'loss': 0.5442, 'learning_rate': 1.4695672764409205e-05, 'epoch': 0.36}
 36%|███▋      | 2418/6640 [3:55:17<20:07:36, 17.16s/it] 36%|███▋      | 2419/6640 [3:55:33<19:41:45, 16.80s/it]                                                        {'loss': 0.5227, 'learning_rate': 1.4691365215533653e-05, 'epoch': 0.36}
 36%|███▋      | 2419/6640 [3:55:33<19:41:45, 16.80s/it] 36%|███▋      | 2420/6640 [3:55:50<19:41:19, 16.80s/it]                                                        {'loss': 0.5473, 'learning_rate': 1.468705655023903e-05, 'epoch': 0.36}
 36%|███▋      | 2420/6640 [3:55:50<19:41:19, 16.80s/it] 36%|███▋      | 2421/6640 [3:56:06<19:28:41, 16.62s/it]                                                        {'loss': 0.5487, 'learning_rate': 1.4682746769550686e-05, 'epoch': 0.36}
 36%|███▋      | 2421/6640 [3:56:06<19:28:41, 16.62s/it] 36%|███▋      | 2422/6640 [3:56:23<19:31:28, 16.66s/it]                                                        {'loss': 0.5385, 'learning_rate': 1.4678435874494234e-05, 'epoch': 0.36}
 36%|███▋      | 2422/6640 [3:56:23<19:31:28, 16.66s/it] 36%|███▋      | 2423/6640 [3:56:40<19:36:33, 16.74s/it]                                                        {'loss': 0.552, 'learning_rate': 1.4674123866095551e-05, 'epoch': 0.36}
 36%|███▋      | 2423/6640 [3:56:40<19:36:33, 16.74s/it] 37%|███▋      | 2424/6640 [3:56:57<19:49:13, 16.92s/it]                                                        {'loss': 0.5313, 'learning_rate': 1.4669810745380778e-05, 'epoch': 0.37}
 37%|███▋      | 2424/6640 [3:56:57<19:49:13, 16.92s/it]May 28 06:10:44.238270 342306 slurmstepd   0x155550ab8700: error: *** STEP 8277401.0 ON batch-block7-01076 CANCELLED AT 2025-05-28T06:10:44 DUE TO TIME LIMIT ***
srun: Job step aborted: Waiting up to 122 seconds for job step to finish.
srun: error: batch-block7-01076: task 0: Terminated
srun: Terminating StepId=8277401.0
srun: job 8284398 queued and waiting for resources
srun: job 8284398 has been allocated resources
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
MASTER_ADDR=batch-block1-0066
JobID: 8284398 | Full list: batch-block1-0066 
NETWORK=Efficient-Large-Model/VILA1.5-13b
WARNING:torch.distributed.run:
*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
*****************************************
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
[2025-05-28 06:12:58,146] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 06:12:58,146] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 06:12:58,146] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 06:12:58,146] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 06:12:58,146] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 06:12:58,146] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 06:12:58,146] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 06:12:58,146] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 06:12:59,726] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 06:12:59,726] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 06:12:59,726] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 06:12:59,726] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 06:12:59,726] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 06:12:59,726] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 06:12:59,726] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 06:12:59,726] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 06:12:59,726] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 06:12:59,726] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 06:12:59,726] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 06:12:59,726] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 06:12:59,726] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 06:12:59,726] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 06:12:59,726] [INFO] [comm.py:625:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
[2025-05-28 06:12:59,726] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 06:12:59,726] [INFO] [comm.py:594:init_distributed] cdb=None
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-05-28 06:13:06,907] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.02B parameters
Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.33s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.34s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.35s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.36s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.36s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.40s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:07,  1.40s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:11,  2.81s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:11,  2.82s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:11,  2.82s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:11,  2.83s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:11,  2.83s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:11,  2.84s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:11,  2.91s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:07<00:38,  7.62s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:11,  3.99s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:11,  4.00s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.00s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.00s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.00s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.01s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.01s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:12<00:24,  6.05s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:14<00:08,  4.14s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:14<00:08,  4.13s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:14<00:08,  4.13s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:14<00:08,  4.14s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:14<00:08,  4.14s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:14<00:08,  4.14s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.17s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:17<00:16,  5.42s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:19<00:04,  4.33s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:19<00:04,  4.33s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:19<00:04,  4.33s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:19<00:04,  4.33s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:19<00:04,  4.33s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:19<00:04,  4.33s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:19<00:04,  4.34s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.22s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.45s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.22s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.45s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.22s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.45s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.22s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.45s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.22s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.46s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.22s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.45s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.22s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:20<00:00,  3.46s/it]
Loading checkpoint shards:  67%|██████▋   | 4/6 [00:21<00:10,  5.04s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:26<00:04,  4.94s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:27<00:00,  3.64s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:27<00:00,  4.60s/it]
[2025-05-28 06:13:34,769] [WARNING] [partition_parameters.py:836:_post_init_method] param `probe` in SiglipMultiheadAttentionPoolingHead not on GPU so was not broadcasted from rank 0
[2025-05-28 06:13:34,770] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.44B parameters
[2025-05-28 06:13:35,947] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.49B parameters
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[dist-0-of-8] LlavaLlamaModel(
  (llm): LlamaForCausalLM(
    (model): LlamaModel(
      (embed_tokens): Embedding(32000, 5120, padding_idx=0)
      (layers): ModuleList(
        (0-39): 40 x LlamaDecoderLayer(
          (self_attn): LlamaFlashAttention2(
            (q_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (k_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (v_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (o_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (rotary_emb): LlamaRotaryEmbedding()
          )
          (mlp): LlamaMLP(
            (gate_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (up_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (down_proj): Linear(in_features=13824, out_features=5120, bias=False)
            (act_fn): SiLU()
          )
          (input_layernorm): LlamaRMSNorm()
          (post_attention_layernorm): LlamaRMSNorm()
        )
      )
      (norm): LlamaRMSNorm()
    )
    (lm_head): Linear(in_features=5120, out_features=32000, bias=False)
  )
  (vision_tower): SiglipVisionTower(
    (vision_tower): SiglipVisionModel(
      (vision_model): SiglipVisionTransformer(
        (embeddings): SiglipVisionEmbeddings(
          (patch_embedding): Conv2d(3, 1152, kernel_size=(14, 14), stride=(14, 14), padding=valid)
          (position_embedding): Embedding(729, 1152)
        )
        (encoder): SiglipEncoder(
          (layers): ModuleList(
            (0-26): 27 x SiglipEncoderLayer(
              (self_attn): SiglipAttention(
                (k_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (v_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (q_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (out_proj): Linear(in_features=1152, out_features=1152, bias=True)
              )
              (layer_norm1): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
              (mlp): SiglipMLP(
                (activation_fn): PytorchGELUTanh()
                (fc1): Linear(in_features=1152, out_features=4304, bias=True)
                (fc2): Linear(in_features=4304, out_features=1152, bias=True)
              )
              (layer_norm2): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
            )
          )
        )
        (post_layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
        (head): SiglipMultiheadAttentionPoolingHead(
          (attention): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=1152, out_features=1152, bias=True)
          )
          (layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
          (mlp): SiglipMLP(
            (activation_fn): PytorchGELUTanh()
            (fc1): Linear(in_features=1152, out_features=4304, bias=True)
            (fc2): Linear(in_features=4304, out_features=1152, bias=True)
          )
        )
      )
    )
  )
  (mm_projector): MultimodalProjector(
    (layers): Sequential(
      (0): DownSampleBlock()
      (1): LayerNorm((4608,), eps=1e-05, elementwise_affine=True)
      (2): Linear(in_features=4608, out_features=5120, bias=True)
      (3): GELU(approximate='none')
      (4): Linear(in_features=5120, out_features=5120, bias=True)
    )
  )
)
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[dist-0-of-8] Tunable parameters:
language model True
[dist-0-of-8] vision tower True
[dist-0-of-8] mm projector True
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.234170913696289
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2342677116394043
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.235413074493408
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2325186729431152
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2363929748535156
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2335891723632812
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2338333129882812
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.234862804412842
Parameter Offload: Total persistent parameters: 847296 in 365 params
wandb: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
wandb: Tracking run with wandb version 0.18.7
wandb: Run data is saved locally in /lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/wandb/run-20250528_061514-mtaifjzo
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run vila_13b_path_mask
wandb: ⭐️ View project at https://wandb.ai/memmelma/VILA
wandb: 🚀 View run at https://wandb.ai/memmelma/VILA/runs/mtaifjzo
  0%|          | 0/6640 [00:00<?, ?it/s]Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
 36%|███▌      | 2401/6640 [00:29<00:52, 81.30it/s]                                                   {'loss': 0.5433, 'learning_rate': 1.4768729290906194e-05, 'epoch': 0.36}
 36%|███▌      | 2401/6640 [00:29<00:52, 81.30it/s]                                                   {'loss': 0.5373, 'learning_rate': 1.4764440877774465e-05, 'epoch': 0.36}
 36%|███▌      | 2402/6640 [00:45<00:52, 81.30it/s] 36%|███▌      | 2402/6640 [00:47<00:52, 81.30it/s] 36%|███▌      | 2403/6640 [01:00<02:10, 32.37it/s]                                                   {'loss': 0.5209, 'learning_rate': 1.476015133083362e-05, 'epoch': 0.36}
 36%|███▌      | 2403/6640 [01:00<02:10, 32.37it/s] 36%|███▌      | 2404/6640 [01:17<03:08, 22.43it/s]                                                   {'loss': 0.5226, 'learning_rate': 1.4755860651104455e-05, 'epoch': 0.36}
 36%|███▌      | 2404/6640 [01:17<03:08, 22.43it/s] 36%|███▌      | 2405/6640 [01:33<04:32, 15.56it/s]                                                   {'loss': 0.5246, 'learning_rate': 1.4751568839608036e-05, 'epoch': 0.36}
 36%|███▌      | 2405/6640 [01:33<04:32, 15.56it/s] 36%|███▌      | 2406/6640 [01:49<06:31, 10.82it/s]                                                   {'loss': 0.5349, 'learning_rate': 1.4747275897365707e-05, 'epoch': 0.36}
 36%|███▌      | 2406/6640 [01:49<06:31, 10.82it/s] 36%|███▋      | 2407/6640 [02:06<09:26,  7.48it/s]                                                   {'loss': 0.5432, 'learning_rate': 1.4742981825399067e-05, 'epoch': 0.36}
 36%|███▋      | 2407/6640 [02:06<09:26,  7.48it/s] 36%|███▋      | 2408/6640 [02:23<13:28,  5.24it/s]                                                   {'loss': 0.5431, 'learning_rate': 1.4738686624729987e-05, 'epoch': 0.36}
 36%|███▋      | 2408/6640 [02:23<13:28,  5.24it/s] 36%|███▋      | 2409/6640 [02:39<19:07,  3.69it/s]                                                   {'loss': 0.5244, 'learning_rate': 1.4734390296380618e-05, 'epoch': 0.36}
 36%|███▋      | 2409/6640 [02:39<19:07,  3.69it/s] 36%|███▋      | 2410/6640 [02:55<26:59,  2.61it/s]                                                   {'loss': 0.5298, 'learning_rate': 1.4730092841373362e-05, 'epoch': 0.36}
 36%|███▋      | 2410/6640 [02:55<26:59,  2.61it/s] 36%|███▋      | 2411/6640 [03:11<38:19,  1.84it/s]                                                   {'loss': 0.5289, 'learning_rate': 1.4725794260730903e-05, 'epoch': 0.36}
 36%|███▋      | 2411/6640 [03:11<38:19,  1.84it/s] 36%|███▋      | 2412/6640 [03:28<54:22,  1.30it/s]                                                   {'loss': 0.5438, 'learning_rate': 1.4721494555476189e-05, 'epoch': 0.36}
 36%|███▋      | 2412/6640 [03:28<54:22,  1.30it/s] 36%|███▋      | 2413/6640 [03:45<1:16:37,  1.09s/it]                                                     {'loss': 0.5514, 'learning_rate': 1.4717193726632428e-05, 'epoch': 0.36}
 36%|███▋      | 2413/6640 [03:45<1:16:37,  1.09s/it] 36%|███▋      | 2414/6640 [04:01<1:45:53,  1.50s/it]                                                     {'loss': 0.538, 'learning_rate': 1.4712891775223108e-05, 'epoch': 0.36}
 36%|███▋      | 2414/6640 [04:01<1:45:53,  1.50s/it] 36%|███▋      | 2415/6640 [04:18<2:27:16,  2.09s/it]                                                     {'loss': 0.5423, 'learning_rate': 1.4708588702271978e-05, 'epoch': 0.36}
 36%|███▋      | 2415/6640 [04:18<2:27:16,  2.09s/it] 36%|███▋      | 2416/6640 [04:36<3:23:47,  2.89s/it]                                                     {'loss': 0.5295, 'learning_rate': 1.470428450880305e-05, 'epoch': 0.36}
 36%|███▋      | 2416/6640 [04:36<3:23:47,  2.89s/it] 36%|███▋      | 2417/6640 [04:53<4:30:38,  3.85s/it]                                                     {'loss': 0.5389, 'learning_rate': 1.469997919584061e-05, 'epoch': 0.36}
 36%|███▋      | 2417/6640 [04:53<4:30:38,  3.85s/it] 36%|███▋      | 2418/6640 [05:11<5:56:13,  5.06s/it]                                                     {'loss': 0.5441, 'learning_rate': 1.4695672764409205e-05, 'epoch': 0.36}
 36%|███▋      | 2418/6640 [05:11<5:56:13,  5.06s/it] 36%|███▋      | 2419/6640 [05:27<7:22:50,  6.29s/it]                                                     {'loss': 0.5228, 'learning_rate': 1.4691365215533653e-05, 'epoch': 0.36}
 36%|███▋      | 2419/6640 [05:27<7:22:50,  6.29s/it] 36%|███▋      | 2420/6640 [05:44<9:03:43,  7.73s/it]                                                     {'loss': 0.5471, 'learning_rate': 1.468705655023903e-05, 'epoch': 0.36}
 36%|███▋      | 2420/6640 [05:44<9:03:43,  7.73s/it] 36%|███▋      | 2421/6640 [06:00<10:43:23,  9.15s/it]                                                      {'loss': 0.5487, 'learning_rate': 1.4682746769550686e-05, 'epoch': 0.36}
 36%|███▋      | 2421/6640 [06:00<10:43:23,  9.15s/it] 36%|███▋      | 2422/6640 [06:17<12:25:31, 10.61s/it]                                                      {'loss': 0.5384, 'learning_rate': 1.4678435874494234e-05, 'epoch': 0.36}
 36%|███▋      | 2422/6640 [06:17<12:25:31, 10.61s/it] 36%|███▋      | 2423/6640 [06:34<14:00:17, 11.96s/it]                                                      {'loss': 0.5521, 'learning_rate': 1.4674123866095551e-05, 'epoch': 0.36}
 36%|███▋      | 2423/6640 [06:34<14:00:17, 11.96s/it] 37%|███▋      | 2424/6640 [06:51<15:25:28, 13.17s/it]                                                      {'loss': 0.5311, 'learning_rate': 1.4669810745380778e-05, 'epoch': 0.37}
 37%|███▋      | 2424/6640 [06:51<15:25:28, 13.17s/it] 37%|███▋      | 2425/6640 [07:08<16:35:10, 14.17s/it]                                                      {'loss': 0.5556, 'learning_rate': 1.466549651337632e-05, 'epoch': 0.37}
 37%|███▋      | 2425/6640 [07:08<16:35:10, 14.17s/it] 37%|███▋      | 2426/6640 [07:24<17:17:02, 14.77s/it]                                                      {'loss': 0.5293, 'learning_rate': 1.4661181171108855e-05, 'epoch': 0.37}
 37%|███▋      | 2426/6640 [07:24<17:17:02, 14.77s/it] 37%|███▋      | 2427/6640 [07:41<17:59:11, 15.37s/it]                                                      {'loss': 0.5298, 'learning_rate': 1.4656864719605314e-05, 'epoch': 0.37}
 37%|███▋      | 2427/6640 [07:41<17:59:11, 15.37s/it] 37%|███▋      | 2428/6640 [07:59<18:41:29, 15.98s/it]                                                      {'loss': 0.5332, 'learning_rate': 1.4652547159892896e-05, 'epoch': 0.37}
 37%|███▋      | 2428/6640 [07:59<18:41:29, 15.98s/it] 37%|███▋      | 2429/6640 [08:15<18:51:23, 16.12s/it]                                                      {'loss': 0.5563, 'learning_rate': 1.4648228492999065e-05, 'epoch': 0.37}
 37%|███▋      | 2429/6640 [08:15<18:51:23, 16.12s/it] 37%|███▋      | 2430/6640 [08:32<19:05:26, 16.32s/it]                                                      {'loss': 0.5365, 'learning_rate': 1.4643908719951551e-05, 'epoch': 0.37}
 37%|███▋      | 2430/6640 [08:32<19:05:26, 16.32s/it] 37%|███▋      | 2431/6640 [08:49<19:08:35, 16.37s/it]                                                      {'loss': 0.5647, 'learning_rate': 1.4639587841778342e-05, 'epoch': 0.37}
 37%|███▋      | 2431/6640 [08:49<19:08:35, 16.37s/it] 37%|███▋      | 2432/6640 [09:05<19:10:48, 16.41s/it]                                                      {'loss': 0.5546, 'learning_rate': 1.4635265859507687e-05, 'epoch': 0.37}
 37%|███▋      | 2432/6640 [09:05<19:10:48, 16.41s/it] 37%|███▋      | 2433/6640 [09:22<19:27:20, 16.65s/it]                                                      {'loss': 0.5199, 'learning_rate': 1.4630942774168113e-05, 'epoch': 0.37}
 37%|███▋      | 2433/6640 [09:22<19:27:20, 16.65s/it] 37%|███▋      | 2434/6640 [09:38<19:14:40, 16.47s/it]                                                      {'loss': 0.5485, 'learning_rate': 1.4626618586788385e-05, 'epoch': 0.37}
 37%|███▋      | 2434/6640 [09:38<19:14:40, 16.47s/it] 37%|███▋      | 2435/6640 [09:55<19:16:47, 16.51s/it]                                                      {'loss': 0.553, 'learning_rate': 1.4622293298397554e-05, 'epoch': 0.37}
 37%|███▋      | 2435/6640 [09:55<19:16:47, 16.51s/it] 37%|███▋      | 2436/6640 [10:11<19:14:00, 16.47s/it]                                                      {'loss': 0.512, 'learning_rate': 1.4617966910024914e-05, 'epoch': 0.37}
 37%|███▋      | 2436/6640 [10:11<19:14:00, 16.47s/it] 37%|███▋      | 2437/6640 [10:28<19:07:45, 16.38s/it]                                                      {'loss': 0.5353, 'learning_rate': 1.4613639422700034e-05, 'epoch': 0.37}
 37%|███▋      | 2437/6640 [10:28<19:07:45, 16.38s/it] 37%|███▋      | 2438/6640 [10:43<18:53:28, 16.18s/it]                                                      {'loss': 0.5441, 'learning_rate': 1.4609310837452744e-05, 'epoch': 0.37}
 37%|███▋      | 2438/6640 [10:43<18:53:28, 16.18s/it] 37%|███▋      | 2439/6640 [10:59<18:46:39, 16.09s/it]                                                      {'loss': 0.5242, 'learning_rate': 1.4604981155313121e-05, 'epoch': 0.37}
 37%|███▋      | 2439/6640 [10:59<18:46:39, 16.09s/it] 37%|███▋      | 2440/6640 [11:15<18:42:20, 16.03s/it]                                                      {'loss': 0.5472, 'learning_rate': 1.4600650377311523e-05, 'epoch': 0.37}
 37%|███▋      | 2440/6640 [11:15<18:42:20, 16.03s/it] 37%|███▋      | 2441/6640 [11:32<18:59:16, 16.28s/it]                                                      {'loss': 0.5558, 'learning_rate': 1.4596318504478553e-05, 'epoch': 0.37}
 37%|███▋      | 2441/6640 [11:32<18:59:16, 16.28s/it] 37%|███▋      | 2442/6640 [11:48<18:59:21, 16.28s/it]                                                      {'loss': 0.5479, 'learning_rate': 1.4591985537845084e-05, 'epoch': 0.37}
 37%|███▋      | 2442/6640 [11:48<18:59:21, 16.28s/it] 37%|███▋      | 2443/6640 [12:05<19:03:10, 16.34s/it]                                                      {'loss': 0.5246, 'learning_rate': 1.4587651478442242e-05, 'epoch': 0.37}
 37%|███▋      | 2443/6640 [12:05<19:03:10, 16.34s/it] 37%|███▋      | 2444/6640 [12:21<19:01:16, 16.32s/it]                                                      {'loss': 0.5319, 'learning_rate': 1.458331632730142e-05, 'epoch': 0.37}
 37%|███▋      | 2444/6640 [12:21<19:01:16, 16.32s/it] 37%|███▋      | 2445/6640 [12:38<19:21:19, 16.61s/it]                                                      {'loss': 0.5601, 'learning_rate': 1.4578980085454268e-05, 'epoch': 0.37}
 37%|███▋      | 2445/6640 [12:38<19:21:19, 16.61s/it] 37%|███▋      | 2446/6640 [12:54<19:02:07, 16.34s/it]                                                      {'loss': 0.5299, 'learning_rate': 1.457464275393269e-05, 'epoch': 0.37}
 37%|███▋      | 2446/6640 [12:54<19:02:07, 16.34s/it] 37%|███▋      | 2447/6640 [13:11<19:15:52, 16.54s/it]                                                      {'loss': 0.535, 'learning_rate': 1.4570304333768865e-05, 'epoch': 0.37}
 37%|███▋      | 2447/6640 [13:11<19:15:52, 16.54s/it] 37%|███▋      | 2448/6640 [13:27<18:57:49, 16.29s/it]                                                      {'loss': 0.5605, 'learning_rate': 1.456596482599521e-05, 'epoch': 0.37}
 37%|███▋      | 2448/6640 [13:27<18:57:49, 16.29s/it] 37%|███▋      | 2449/6640 [13:43<18:56:19, 16.27s/it]                                                      {'loss': 0.5281, 'learning_rate': 1.4561624231644418e-05, 'epoch': 0.37}
 37%|███▋      | 2449/6640 [13:43<18:56:19, 16.27s/it]6 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
12 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
05 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 37%|███▋      | 2450/6640 [14:00<19:20:40, 16.62s/it]                                                      {'loss': 0.532, 'learning_rate': 1.4557282551749428e-05, 'epoch': 0.37}
 37%|███▋      | 2450/6640 [14:00<19:20:40, 16.62s/it] 37%|███▋      | 2451/6640 [14:17<19:24:26, 16.68s/it]                                                      {'loss': 0.5365, 'learning_rate': 1.455293978734345e-05, 'epoch': 0.37}
 37%|███▋      | 2451/6640 [14:17<19:24:26, 16.68s/it] 37%|███▋      | 2452/6640 [14:33<19:14:45, 16.54s/it]                                                      {'loss': 0.5236, 'learning_rate': 1.4548595939459942e-05, 'epoch': 0.37}
 37%|███▋      | 2452/6640 [14:33<19:14:45, 16.54s/it] 37%|███▋      | 2453/6640 [14:50<19:15:31, 16.56s/it]                                                      {'loss': 0.5343, 'learning_rate': 1.4544251009132624e-05, 'epoch': 0.37}
 37%|███▋      | 2453/6640 [14:50<19:15:31, 16.56s/it] 37%|███▋      | 2454/6640 [15:06<19:09:55, 16.48s/it]                                                      {'loss': 0.5503, 'learning_rate': 1.4539904997395468e-05, 'epoch': 0.37}
 37%|███▋      | 2454/6640 [15:06<19:09:55, 16.48s/it] 37%|███▋      | 2455/6640 [15:23<19:15:02, 16.56s/it]                                                      {'loss': 0.5184, 'learning_rate': 1.4535557905282716e-05, 'epoch': 0.37}
 37%|███▋      | 2455/6640 [15:23<19:15:02, 16.56s/it] 37%|███▋      | 2456/6640 [15:40<19:27:16, 16.74s/it]                                                      {'loss': 0.5592, 'learning_rate': 1.4531209733828858e-05, 'epoch': 0.37}
 37%|███▋      | 2456/6640 [15:40<19:27:16, 16.74s/it] 37%|███▋      | 2457/6640 [15:56<19:14:23, 16.56s/it]                                                      {'loss': 0.5375, 'learning_rate': 1.4526860484068638e-05, 'epoch': 0.37}
 37%|███▋      | 2457/6640 [15:56<19:14:23, 16.56s/it] 37%|███▋      | 2458/6640 [16:13<19:17:31, 16.61s/it]                                                      {'loss': 0.5447, 'learning_rate': 1.4522510157037063e-05, 'epoch': 0.37}
 37%|███▋      | 2458/6640 [16:13<19:17:31, 16.61s/it] 37%|███▋      | 2459/6640 [16:29<19:11:24, 16.52s/it]                                                      {'loss': 0.5348, 'learning_rate': 1.4518158753769396e-05, 'epoch': 0.37}
 37%|███▋      | 2459/6640 [16:29<19:11:24, 16.52s/it] 37%|███▋      | 2460/6640 [16:45<19:04:20, 16.43s/it]                                                      {'loss': 0.5217, 'learning_rate': 1.451380627530115e-05, 'epoch': 0.37}
 37%|███▋      | 2460/6640 [16:45<19:04:20, 16.43s/it] 37%|███▋      | 2461/6640 [17:02<18:57:22, 16.33s/it]                                                      {'loss': 0.5381, 'learning_rate': 1.45094527226681e-05, 'epoch': 0.37}
 37%|███▋      | 2461/6640 [17:02<18:57:22, 16.33s/it] 37%|███▋      | 2462/6640 [17:18<18:48:48, 16.21s/it]                                                      {'loss': 0.5326, 'learning_rate': 1.4505098096906279e-05, 'epoch': 0.37}
 37%|███▋      | 2462/6640 [17:18<18:48:48, 16.21s/it] 37%|███▋      | 2463/6640 [17:34<19:01:57, 16.40s/it]                                                      {'loss': 0.5392, 'learning_rate': 1.4500742399051963e-05, 'epoch': 0.37}
 37%|███▋      | 2463/6640 [17:34<19:01:57, 16.40s/it] 37%|███▋      | 2464/6640 [17:51<19:03:56, 16.44s/it]                                                      {'loss': 0.5282, 'learning_rate': 1.4496385630141699e-05, 'epoch': 0.37}
 37%|███▋      | 2464/6640 [17:51<19:03:56, 16.44s/it] 37%|███▋      | 2465/6640 [18:07<19:06:25, 16.48s/it]                                                      {'loss': 0.555, 'learning_rate': 1.4492027791212275e-05, 'epoch': 0.37}
 37%|███▋      | 2465/6640 [18:07<19:06:25, 16.48s/it] 37%|███▋      | 2466/6640 [18:23<18:46:55, 16.20s/it]                                                      {'loss': 0.5189, 'learning_rate': 1.4487668883300743e-05, 'epoch': 0.37}
 37%|███▋      | 2466/6640 [18:23<18:46:55, 16.20s/it] 37%|███▋      | 2467/6640 [18:39<18:50:45, 16.26s/it]                                                      {'loss': 0.5222, 'learning_rate': 1.4483308907444407e-05, 'epoch': 0.37}
 37%|███▋      | 2467/6640 [18:39<18:50:45, 16.26s/it] 37%|███▋      | 2468/6640 [18:56<18:55:02, 16.32s/it]                                                      {'loss': 0.5165, 'learning_rate': 1.4478947864680821e-05, 'epoch': 0.37}
 37%|███▋      | 2468/6640 [18:56<18:55:02, 16.32s/it] 37%|███▋      | 2469/6640 [19:12<18:55:03, 16.33s/it]                                                      {'loss': 0.531, 'learning_rate': 1.4474585756047801e-05, 'epoch': 0.37}
 37%|███▋      | 2469/6640 [19:12<18:55:03, 16.33s/it] 37%|███▋      | 2470/6640 [19:29<18:55:55, 16.34s/it]                                                      {'loss': 0.5537, 'learning_rate': 1.4470222582583404e-05, 'epoch': 0.37}
 37%|███▋      | 2470/6640 [19:29<18:55:55, 16.34s/it] 37%|███▋      | 2471/6640 [19:45<18:48:09, 16.24s/it]                                                      {'loss': 0.537, 'learning_rate': 1.4465858345325956e-05, 'epoch': 0.37}
 37%|███▋      | 2471/6640 [19:45<18:48:09, 16.24s/it] 37%|███▋      | 2472/6640 [20:01<18:50:04, 16.27s/it]                                                      {'loss': 0.5336, 'learning_rate': 1.4461493045314026e-05, 'epoch': 0.37}
 37%|███▋      | 2472/6640 [20:01<18:50:04, 16.27s/it] 37%|███▋      | 2473/6640 [20:17<18:53:09, 16.32s/it]                                                      {'loss': 0.5415, 'learning_rate': 1.4457126683586436e-05, 'epoch': 0.37}
 37%|███▋      | 2473/6640 [20:17<18:53:09, 16.32s/it] 37%|███▋      | 2474/6640 [20:33<18:35:06, 16.06s/it]                                                      {'loss': 0.5315, 'learning_rate': 1.4452759261182268e-05, 'epoch': 0.37}
 37%|███▋      | 2474/6640 [20:33<18:35:06, 16.06s/it] 37%|███▋      | 2475/6640 [20:50<18:54:51, 16.35s/it]                                                      {'loss': 0.5668, 'learning_rate': 1.4448390779140844e-05, 'epoch': 0.37}
 37%|███▋      | 2475/6640 [20:50<18:54:51, 16.35s/it] 37%|███▋      | 2476/6640 [21:06<18:53:35, 16.33s/it]                                                      {'loss': 0.5221, 'learning_rate': 1.4444021238501754e-05, 'epoch': 0.37}
 37%|███▋      | 2476/6640 [21:06<18:53:35, 16.33s/it] 37%|███▋      | 2477/6640 [21:23<18:59:33, 16.42s/it]                                                      {'loss': 0.5508, 'learning_rate': 1.4439650640304822e-05, 'epoch': 0.37}
 37%|███▋      | 2477/6640 [21:23<18:59:33, 16.42s/it] 37%|███▋      | 2478/6640 [21:39<18:57:08, 16.39s/it]                                                      {'loss': 0.5379, 'learning_rate': 1.443527898559014e-05, 'epoch': 0.37}
 37%|███▋      | 2478/6640 [21:39<18:57:08, 16.39s/it] 37%|███▋      | 2479/6640 [21:55<18:47:46, 16.26s/it]                                                      {'loss': 0.5339, 'learning_rate': 1.4430906275398044e-05, 'epoch': 0.37}
 37%|███▋      | 2479/6640 [21:55<18:47:46, 16.26s/it] 37%|███▋      | 2480/6640 [22:12<18:59:13, 16.43s/it]                                                      {'loss': 0.5514, 'learning_rate': 1.442653251076912e-05, 'epoch': 0.37}
 37%|███▋      | 2480/6640 [22:12<18:59:13, 16.43s/it] 37%|███▋      | 2481/6640 [22:28<18:53:59, 16.36s/it]                                                      {'loss': 0.5287, 'learning_rate': 1.442215769274421e-05, 'epoch': 0.37}
 37%|███▋      | 2481/6640 [22:28<18:53:59, 16.36s/it] 37%|███▋      | 2482/6640 [22:44<18:46:49, 16.26s/it]                                                      {'loss': 0.5426, 'learning_rate': 1.4417781822364396e-05, 'epoch': 0.37}
 37%|███▋      | 2482/6640 [22:44<18:46:49, 16.26s/it] 37%|███▋      | 2483/6640 [23:01<18:57:07, 16.41s/it]                                                      {'loss': 0.5318, 'learning_rate': 1.4413404900671025e-05, 'epoch': 0.37}
 37%|███▋      | 2483/6640 [23:01<18:57:07, 16.41s/it] 37%|███▋      | 2484/6640 [23:17<18:53:07, 16.36s/it]                                                      {'loss': 0.5333, 'learning_rate': 1.4409026928705683e-05, 'epoch': 0.37}
 37%|███▋      | 2484/6640 [23:17<18:53:07, 16.36s/it] 37%|███▋      | 2485/6640 [23:34<19:03:13, 16.51s/it]                                                      {'loss': 0.5257, 'learning_rate': 1.4404647907510212e-05, 'epoch': 0.37}
 37%|███▋      | 2485/6640 [23:34<19:03:13, 16.51s/it] 37%|███▋      | 2486/6640 [23:50<18:58:34, 16.45s/it]                                                      {'loss': 0.5538, 'learning_rate': 1.44002678381267e-05, 'epoch': 0.37}
 37%|███▋      | 2486/6640 [23:50<18:58:34, 16.45s/it] 37%|███▋      | 2487/6640 [24:07<19:05:57, 16.56s/it]                                                      {'loss': 0.563, 'learning_rate': 1.4395886721597485e-05, 'epoch': 0.37}
 37%|███▋      | 2487/6640 [24:07<19:05:57, 16.56s/it] 37%|███▋      | 2488/6640 [24:23<18:58:30, 16.45s/it]                                                      {'loss': 0.5601, 'learning_rate': 1.4391504558965157e-05, 'epoch': 0.37}
 37%|███▋      | 2488/6640 [24:23<18:58:30, 16.45s/it] 37%|███▋      | 2489/6640 [24:40<19:03:45, 16.53s/it]                                                      {'loss': 0.5314, 'learning_rate': 1.4387121351272555e-05, 'epoch': 0.37}
 37%|███▋      | 2489/6640 [24:40<19:03:45, 16.53s/it] 38%|███▊      | 2490/6640 [24:56<19:00:33, 16.49s/it]                                                      {'loss': 0.521, 'learning_rate': 1.4382737099562765e-05, 'epoch': 0.38}
 38%|███▊      | 2490/6640 [24:56<19:00:33, 16.49s/it] 38%|███▊      | 2491/6640 [25:12<18:45:19, 16.27s/it]                                                      {'loss': 0.5312, 'learning_rate': 1.4378351804879113e-05, 'epoch': 0.38}
 38%|███▊      | 2491/6640 [25:12<18:45:19, 16.27s/it] 38%|███▊      | 2492/6640 [25:28<18:36:38, 16.15s/it]                                                      {'loss': 0.5447, 'learning_rate': 1.4373965468265195e-05, 'epoch': 0.38}
 38%|███▊      | 2492/6640 [25:28<18:36:38, 16.15s/it] 38%|███▊      | 2493/6640 [25:44<18:26:48, 16.01s/it]                                                      {'loss': 0.5485, 'learning_rate': 1.4369578090764829e-05, 'epoch': 0.38}
 38%|███▊      | 2493/6640 [25:44<18:26:48, 16.01s/it] 38%|███▊      | 2494/6640 [26:00<18:22:56, 15.96s/it]                                                      {'loss': 0.5276, 'learning_rate': 1.43651896734221e-05, 'epoch': 0.38}
 38%|███▊      | 2494/6640 [26:00<18:22:56, 15.96s/it] 38%|███▊      | 2495/6640 [26:16<18:34:35, 16.13s/it]                                                      {'loss': 0.5322, 'learning_rate': 1.436080021728133e-05, 'epoch': 0.38}
 38%|███▊      | 2495/6640 [26:16<18:34:35, 16.13s/it] 38%|███▊      | 2496/6640 [26:32<18:23:41, 15.98s/it]                                                      {'loss': 0.5384, 'learning_rate': 1.4356409723387092e-05, 'epoch': 0.38}
 38%|███▊      | 2496/6640 [26:32<18:23:41, 15.98s/it] 38%|███▊      | 2497/6640 [26:48<18:25:20, 16.01s/it]                                                      {'loss': 0.5414, 'learning_rate': 1.435201819278421e-05, 'epoch': 0.38}
 38%|███▊      | 2497/6640 [26:48<18:25:20, 16.01s/it] 38%|███▊      | 2498/6640 [27:05<18:42:35, 16.26s/it]                                                      {'loss': 0.5372, 'learning_rate': 1.434762562651775e-05, 'epoch': 0.38}
 38%|███▊      | 2498/6640 [27:05<18:42:35, 16.26s/it] 38%|███▊      | 2499/6640 [27:21<18:36:36, 16.18s/it]                                                      {'loss': 0.5261, 'learning_rate': 1.434323202563302e-05, 'epoch': 0.38}
 38%|███▊      | 2499/6640 [27:21<18:36:36, 16.18s/it]4 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
73  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

012 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 38%|███▊      | 2500/6640 [27:37<18:45:31, 16.31s/it]                                                      {'loss': 0.5245, 'learning_rate': 1.4338837391175582e-05, 'epoch': 0.38}
 38%|███▊      | 2500/6640 [27:37<18:45:31, 16.31s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2500/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2500/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2500/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 38%|███▊      | 2501/6640 [29:14<46:25:04, 40.37s/it]                                                      {'loss': 0.5263, 'learning_rate': 1.4334441724191244e-05, 'epoch': 0.38}
 38%|███▊      | 2501/6640 [29:14<46:25:04, 40.37s/it] 38%|███▊      | 2502/6640 [29:30<38:01:38, 33.08s/it]                                                      {'loss': 0.5306, 'learning_rate': 1.4330045025726049e-05, 'epoch': 0.38}
 38%|███▊      | 2502/6640 [29:30<38:01:38, 33.08s/it] 38%|███▊      | 2503/6640 [29:46<32:16:38, 28.09s/it]                                                      {'loss': 0.5487, 'learning_rate': 1.4325647296826302e-05, 'epoch': 0.38}
 38%|███▊      | 2503/6640 [29:46<32:16:38, 28.09s/it] 38%|███▊      | 2504/6640 [30:02<28:01:35, 24.39s/it]                                                      {'loss': 0.5117, 'learning_rate': 1.4321248538538537e-05, 'epoch': 0.38}
 38%|███▊      | 2504/6640 [30:02<28:01:35, 24.39s/it] 38%|███▊      | 2505/6640 [30:19<25:30:01, 22.20s/it]                                                      {'loss': 0.5514, 'learning_rate': 1.431684875190955e-05, 'epoch': 0.38}
 38%|███▊      | 2505/6640 [30:19<25:30:01, 22.20s/it] 38%|███▊      | 2506/6640 [30:36<23:32:09, 20.50s/it]                                                      {'loss': 0.5567, 'learning_rate': 1.431244793798636e-05, 'epoch': 0.38}
 38%|███▊      | 2506/6640 [30:36<23:32:09, 20.50s/it] 38%|███▊      | 2507/6640 [30:52<22:11:50, 19.33s/it]                                                      {'loss': 0.5466, 'learning_rate': 1.4308046097816252e-05, 'epoch': 0.38}
 38%|███▊      | 2507/6640 [30:52<22:11:50, 19.33s/it] 38%|███▊      | 2508/6640 [31:09<21:09:19, 18.43s/it]                                                      {'loss': 0.5322, 'learning_rate': 1.4303643232446745e-05, 'epoch': 0.38}
 38%|███▊      | 2508/6640 [31:09<21:09:19, 18.43s/it] 38%|███▊      | 2509/6640 [31:25<20:36:20, 17.96s/it]                                                      {'loss': 0.5663, 'learning_rate': 1.4299239342925597e-05, 'epoch': 0.38}
 38%|███▊      | 2509/6640 [31:25<20:36:20, 17.96s/it] 38%|███▊      | 2510/6640 [31:42<19:59:20, 17.42s/it]                                                      {'loss': 0.5352, 'learning_rate': 1.4294834430300822e-05, 'epoch': 0.38}
 38%|███▊      | 2510/6640 [31:42<19:59:20, 17.42s/it] 38%|███▊      | 2511/6640 [31:59<19:57:18, 17.40s/it]                                                      {'loss': 0.5301, 'learning_rate': 1.4290428495620664e-05, 'epoch': 0.38}
 38%|███▊      | 2511/6640 [31:59<19:57:18, 17.40s/it] 38%|███▊      | 2512/6640 [32:16<19:40:29, 17.16s/it]                                                      {'loss': 0.5504, 'learning_rate': 1.4286021539933625e-05, 'epoch': 0.38}
 38%|███▊      | 2512/6640 [32:16<19:40:29, 17.16s/it] 38%|███▊      | 2513/6640 [32:32<19:27:55, 16.98s/it]                                                      {'loss': 0.5174, 'learning_rate': 1.4281613564288436e-05, 'epoch': 0.38}
 38%|███▊      | 2513/6640 [32:32<19:27:55, 16.98s/it] 38%|███▊      | 2514/6640 [32:48<19:10:36, 16.73s/it]                                                      {'loss': 0.5555, 'learning_rate': 1.4277204569734085e-05, 'epoch': 0.38}
 38%|███▊      | 2514/6640 [32:48<19:10:36, 16.73s/it] 38%|███▊      | 2515/6640 [33:05<19:18:26, 16.85s/it]                                                      {'loss': 0.5246, 'learning_rate': 1.4272794557319785e-05, 'epoch': 0.38}
 38%|███▊      | 2515/6640 [33:05<19:18:26, 16.85s/it] 38%|███▊      | 2516/6640 [33:23<19:42:15, 17.20s/it]                                                      {'loss': 0.5079, 'learning_rate': 1.4268383528095007e-05, 'epoch': 0.38}
 38%|███▊      | 2516/6640 [33:23<19:42:15, 17.20s/it] 38%|███▊      | 2517/6640 [33:40<19:25:30, 16.96s/it]                                                      {'loss': 0.5284, 'learning_rate': 1.4263971483109456e-05, 'epoch': 0.38}
 38%|███▊      | 2517/6640 [33:40<19:25:30, 16.96s/it] 38%|███▊      | 2518/6640 [33:56<19:07:05, 16.70s/it]                                                      {'loss': 0.5316, 'learning_rate': 1.4259558423413076e-05, 'epoch': 0.38}
 38%|███▊      | 2518/6640 [33:56<19:07:05, 16.70s/it] 38%|███▊      | 2519/6640 [34:12<19:03:32, 16.65s/it]                                                      {'loss': 0.5466, 'learning_rate': 1.4255144350056065e-05, 'epoch': 0.38}
 38%|███▊      | 2519/6640 [34:12<19:03:32, 16.65s/it] 38%|███▊      | 2520/6640 [34:30<19:20:11, 16.90s/it]                                                      {'loss': 0.5527, 'learning_rate': 1.4250729264088845e-05, 'epoch': 0.38}
 38%|███▊      | 2520/6640 [34:30<19:20:11, 16.90s/it] 38%|███▊      | 2521/6640 [34:47<19:17:15, 16.86s/it]                                                      {'loss': 0.5241, 'learning_rate': 1.4246313166562095e-05, 'epoch': 0.38}
 38%|███▊      | 2521/6640 [34:47<19:17:15, 16.86s/it] 38%|███▊      | 2522/6640 [35:04<19:22:06, 16.93s/it]                                                      {'loss': 0.533, 'learning_rate': 1.4241896058526723e-05, 'epoch': 0.38}
 38%|███▊      | 2522/6640 [35:04<19:22:06, 16.93s/it] 38%|███▊      | 2523/6640 [35:21<19:26:44, 17.00s/it]                                                      {'loss': 0.5359, 'learning_rate': 1.4237477941033888e-05, 'epoch': 0.38}
 38%|███▊      | 2523/6640 [35:21<19:26:44, 17.00s/it] 38%|███▊      | 2524/6640 [35:38<19:24:11, 16.97s/it]                                                      {'loss': 0.5419, 'learning_rate': 1.4233058815134978e-05, 'epoch': 0.38}
 38%|███▊      | 2524/6640 [35:38<19:24:11, 16.97s/it] 38%|███▊      | 2525/6640 [35:54<19:04:27, 16.69s/it]                                                      {'loss': 0.5323, 'learning_rate': 1.4228638681881633e-05, 'epoch': 0.38}
 38%|███▊      | 2525/6640 [35:54<19:04:27, 16.69s/it] 38%|███▊      | 2526/6640 [36:10<18:58:55, 16.61s/it]                                                      {'loss': 0.5459, 'learning_rate': 1.4224217542325718e-05, 'epoch': 0.38}
 38%|███▊      | 2526/6640 [36:10<18:58:55, 16.61s/it] 38%|███▊      | 2527/6640 [36:26<18:45:19, 16.42s/it]                                                      {'loss': 0.5419, 'learning_rate': 1.4219795397519347e-05, 'epoch': 0.38}
 38%|███▊      | 2527/6640 [36:26<18:45:19, 16.42s/it] 38%|███▊      | 2528/6640 [36:43<18:56:15, 16.58s/it]                                                      {'loss': 0.5242, 'learning_rate': 1.4215372248514875e-05, 'epoch': 0.38}
 38%|███▊      | 2528/6640 [36:43<18:56:15, 16.58s/it] 38%|███▊      | 2529/6640 [37:00<19:00:37, 16.65s/it]                                                      {'loss': 0.5365, 'learning_rate': 1.4210948096364893e-05, 'epoch': 0.38}
 38%|███▊      | 2529/6640 [37:00<19:00:37, 16.65s/it] 38%|███▊      | 2530/6640 [37:16<18:50:34, 16.50s/it]                                                      {'loss': 0.5299, 'learning_rate': 1.4206522942122232e-05, 'epoch': 0.38}
 38%|███▊      | 2530/6640 [37:16<18:50:34, 16.50s/it] 38%|███▊      | 2531/6640 [37:32<18:39:29, 16.35s/it]                                                      {'loss': 0.5548, 'learning_rate': 1.4202096786839953e-05, 'epoch': 0.38}
 38%|███▊      | 2531/6640 [37:32<18:39:29, 16.35s/it] 38%|███▊      | 2532/6640 [37:49<18:44:18, 16.42s/it]                                                      {'loss': 0.54, 'learning_rate': 1.4197669631571369e-05, 'epoch': 0.38}
 38%|███▊      | 2532/6640 [37:49<18:44:18, 16.42s/it] 38%|███▊      | 2533/6640 [38:05<18:34:14, 16.28s/it]                                                      {'loss': 0.5235, 'learning_rate': 1.419324147737002e-05, 'epoch': 0.38}
 38%|███▊      | 2533/6640 [38:05<18:34:14, 16.28s/it] 38%|███▊      | 2534/6640 [38:21<18:40:19, 16.37s/it]                                                      {'loss': 0.5405, 'learning_rate': 1.4188812325289693e-05, 'epoch': 0.38}
 38%|███▊      | 2534/6640 [38:21<18:40:19, 16.37s/it] 38%|███▊      | 2535/6640 [38:38<18:43:06, 16.42s/it]                                                      {'loss': 0.5332, 'learning_rate': 1.4184382176384403e-05, 'epoch': 0.38}
 38%|███▊      | 2535/6640 [38:38<18:43:06, 16.42s/it] 38%|███▊      | 2536/6640 [38:55<18:57:33, 16.63s/it]                                                      {'loss': 0.5523, 'learning_rate': 1.4179951031708408e-05, 'epoch': 0.38}
 38%|███▊      | 2536/6640 [38:55<18:57:33, 16.63s/it] 38%|███▊      | 2537/6640 [39:11<18:48:41, 16.51s/it]                                                      {'loss': 0.5388, 'learning_rate': 1.4175518892316199e-05, 'epoch': 0.38}
 38%|███▊      | 2537/6640 [39:11<18:48:41, 16.51s/it] 38%|███▊      | 2538/6640 [39:28<18:50:21, 16.53s/it]                                                      {'loss': 0.542, 'learning_rate': 1.4171085759262507e-05, 'epoch': 0.38}
 38%|███▊      | 2538/6640 [39:28<18:50:21, 16.53s/it] 38%|███▊      | 2539/6640 [39:44<18:38:25, 16.36s/it]                                                      {'loss': 0.5544, 'learning_rate': 1.4166651633602304e-05, 'epoch': 0.38}
 38%|███▊      | 2539/6640 [39:44<18:38:25, 16.36s/it] 38%|███▊      | 2540/6640 [40:01<18:53:07, 16.58s/it]                                                      {'loss': 0.5343, 'learning_rate': 1.4162216516390787e-05, 'epoch': 0.38}
 38%|███▊      | 2540/6640 [40:01<18:53:07, 16.58s/it] 38%|███▊      | 2541/6640 [40:17<18:47:30, 16.50s/it]                                                      {'loss': 0.537, 'learning_rate': 1.41577804086834e-05, 'epoch': 0.38}
 38%|███▊      | 2541/6640 [40:17<18:47:30, 16.50s/it] 38%|███▊      | 2542/6640 [40:33<18:38:37, 16.38s/it]                                                      {'loss': 0.5246, 'learning_rate': 1.4153343311535812e-05, 'epoch': 0.38}
 38%|███▊      | 2542/6640 [40:33<18:38:37, 16.38s/it] 38%|███▊      | 2543/6640 [40:49<18:23:27, 16.16s/it]                                                      {'loss': 0.5501, 'learning_rate': 1.4148905226003936e-05, 'epoch': 0.38}
 38%|███▊      | 2543/6640 [40:49<18:23:27, 16.16s/it] 38%|███▊      | 2544/6640 [41:06<18:42:39, 16.45s/it]                                                      {'loss': 0.5426, 'learning_rate': 1.4144466153143918e-05, 'epoch': 0.38}
 38%|███▊      | 2544/6640 [41:06<18:42:39, 16.45s/it] 38%|███▊      | 2545/6640 [41:24<19:14:00, 16.91s/it]                                                      {'loss': 0.5477, 'learning_rate': 1.4140026094012136e-05, 'epoch': 0.38}
 38%|███▊      | 2545/6640 [41:24<19:14:00, 16.91s/it] 38%|███▊      | 2546/6640 [41:40<19:04:39, 16.78s/it]                                                      {'loss': 0.5273, 'learning_rate': 1.4135585049665207e-05, 'epoch': 0.38}
 38%|███▊      | 2546/6640 [41:40<19:04:39, 16.78s/it] 38%|███▊      | 2547/6640 [41:59<19:33:45, 17.21s/it]                                                      {'loss': 0.5343, 'learning_rate': 1.4131143021159981e-05, 'epoch': 0.38}
 38%|███▊      | 2547/6640 [41:59<19:33:45, 17.21s/it] 38%|███▊      | 2548/6640 [42:15<19:08:14, 16.84s/it]                                                      {'loss': 0.5397, 'learning_rate': 1.412670000955354e-05, 'epoch': 0.38}
 38%|███▊      | 2548/6640 [42:15<19:08:14, 16.84s/it] 38%|███▊      | 2549/6640 [42:32<19:10:16, 16.87s/it]                                                      {'loss': 0.526, 'learning_rate': 1.4122256015903201e-05, 'epoch': 0.38}
 38%|███▊      | 2549/6640 [42:32<19:10:16, 16.87s/it]6 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...0
 AutoResumeHook: Checking whether to suspend...
 38%|███▊      | 2550/6640 [42:47<18:45:02, 16.50s/it]                                                      {'loss': 0.5328, 'learning_rate': 1.4117811041266518e-05, 'epoch': 0.38}
 38%|███▊      | 2550/6640 [42:47<18:45:02, 16.50s/it] 38%|███▊      | 2551/6640 [43:04<18:48:37, 16.56s/it]                                                      {'loss': 0.5511, 'learning_rate': 1.4113365086701271e-05, 'epoch': 0.38}
 38%|███▊      | 2551/6640 [43:04<18:48:37, 16.56s/it] 38%|███▊      | 2552/6640 [43:21<18:48:43, 16.57s/it]                                                      {'loss': 0.5417, 'learning_rate': 1.4108918153265485e-05, 'epoch': 0.38}
 38%|███▊      | 2552/6640 [43:21<18:48:43, 16.57s/it] 38%|███▊      | 2553/6640 [43:36<18:32:48, 16.34s/it]                                                      {'loss': 0.5337, 'learning_rate': 1.4104470242017403e-05, 'epoch': 0.38}
 38%|███▊      | 2553/6640 [43:36<18:32:48, 16.34s/it] 38%|███▊      | 2554/6640 [43:53<18:44:14, 16.51s/it]                                                      {'loss': 0.5277, 'learning_rate': 1.4100021354015512e-05, 'epoch': 0.38}
 38%|███▊      | 2554/6640 [43:53<18:44:14, 16.51s/it] 38%|███▊      | 2555/6640 [44:10<18:59:35, 16.74s/it]                                                      {'loss': 0.5276, 'learning_rate': 1.4095571490318532e-05, 'epoch': 0.38}
 38%|███▊      | 2555/6640 [44:11<18:59:35, 16.74s/it] 38%|███▊      | 2556/6640 [44:27<18:52:52, 16.64s/it]                                                      {'loss': 0.5378, 'learning_rate': 1.4091120651985404e-05, 'epoch': 0.38}
 38%|███▊      | 2556/6640 [44:27<18:52:52, 16.64s/it] 39%|███▊      | 2557/6640 [44:43<18:40:37, 16.47s/it]                                                      {'loss': 0.5353, 'learning_rate': 1.4086668840075313e-05, 'epoch': 0.39}
 39%|███▊      | 2557/6640 [44:43<18:40:37, 16.47s/it] 39%|███▊      | 2558/6640 [45:00<18:42:09, 16.49s/it]                                                      {'loss': 0.5278, 'learning_rate': 1.4082216055647668e-05, 'epoch': 0.39}
 39%|███▊      | 2558/6640 [45:00<18:42:09, 16.49s/it] 39%|███▊      | 2559/6640 [45:16<18:48:25, 16.59s/it]                                                      {'loss': 0.5311, 'learning_rate': 1.4077762299762116e-05, 'epoch': 0.39}
 39%|███▊      | 2559/6640 [45:16<18:48:25, 16.59s/it] 39%|███▊      | 2560/6640 [45:32<18:31:32, 16.35s/it]                                                      {'loss': 0.5576, 'learning_rate': 1.4073307573478528e-05, 'epoch': 0.39}
 39%|███▊      | 2560/6640 [45:32<18:31:32, 16.35s/it] 39%|███▊      | 2561/6640 [45:48<18:22:20, 16.21s/it]                                                      {'loss': 0.5373, 'learning_rate': 1.4068851877857013e-05, 'epoch': 0.39}
 39%|███▊      | 2561/6640 [45:48<18:22:20, 16.21s/it] 39%|███▊      | 2562/6640 [46:05<18:39:58, 16.48s/it]                                                      {'loss': 0.5486, 'learning_rate': 1.40643952139579e-05, 'epoch': 0.39}
 39%|███▊      | 2562/6640 [46:05<18:39:58, 16.48s/it] 39%|███▊      | 2563/6640 [46:21<18:32:51, 16.38s/it]                                                      {'loss': 0.5474, 'learning_rate': 1.405993758284176e-05, 'epoch': 0.39}
 39%|███▊      | 2563/6640 [46:21<18:32:51, 16.38s/it] 39%|███▊      | 2564/6640 [46:38<18:30:12, 16.34s/it]                                                      {'loss': 0.5297, 'learning_rate': 1.4055478985569393e-05, 'epoch': 0.39}
 39%|███▊      | 2564/6640 [46:38<18:30:12, 16.34s/it] 39%|███▊      | 2565/6640 [46:54<18:36:44, 16.44s/it]                                                      {'loss': 0.5325, 'learning_rate': 1.405101942320182e-05, 'epoch': 0.39}
 39%|███▊      | 2565/6640 [46:54<18:36:44, 16.44s/it] 39%|███▊      | 2566/6640 [47:12<19:05:07, 16.86s/it]                                                      {'loss': 0.529, 'learning_rate': 1.4046558896800299e-05, 'epoch': 0.39}
 39%|███▊      | 2566/6640 [47:12<19:05:07, 16.86s/it] 39%|███▊      | 2567/6640 [47:30<19:17:15, 17.05s/it]                                                      {'loss': 0.5476, 'learning_rate': 1.4042097407426316e-05, 'epoch': 0.39}
 39%|███▊      | 2567/6640 [47:30<19:17:15, 17.05s/it] 39%|███▊      | 2568/6640 [47:47<19:21:35, 17.12s/it]                                                      {'loss': 0.5249, 'learning_rate': 1.4037634956141586e-05, 'epoch': 0.39}
 39%|███▊      | 2568/6640 [47:47<19:21:35, 17.12s/it] 39%|███▊      | 2569/6640 [48:03<19:05:07, 16.88s/it]                                                      {'loss': 0.537, 'learning_rate': 1.4033171544008053e-05, 'epoch': 0.39}
 39%|███▊      | 2569/6640 [48:03<19:05:07, 16.88s/it] 39%|███▊      | 2570/6640 [48:20<19:06:34, 16.90s/it]                                                      {'loss': 0.5316, 'learning_rate': 1.4028707172087885e-05, 'epoch': 0.39}
 39%|███▊      | 2570/6640 [48:20<19:06:34, 16.90s/it] 39%|███▊      | 2571/6640 [48:38<19:19:53, 17.10s/it]                                                      {'loss': 0.5295, 'learning_rate': 1.4024241841443491e-05, 'epoch': 0.39}
 39%|███▊      | 2571/6640 [48:38<19:19:53, 17.10s/it] 39%|███▊      | 2572/6640 [48:54<18:58:39, 16.79s/it]                                                      {'loss': 0.5306, 'learning_rate': 1.4019775553137493e-05, 'epoch': 0.39}
 39%|███▊      | 2572/6640 [48:54<18:58:39, 16.79s/it] 39%|███▉      | 2573/6640 [49:10<18:38:32, 16.50s/it]                                                      {'loss': 0.5376, 'learning_rate': 1.4015308308232753e-05, 'epoch': 0.39}
 39%|███▉      | 2573/6640 [49:10<18:38:32, 16.50s/it] 39%|███▉      | 2574/6640 [49:27<18:48:35, 16.65s/it]                                                      {'loss': 0.5172, 'learning_rate': 1.401084010779235e-05, 'epoch': 0.39}
 39%|███▉      | 2574/6640 [49:27<18:48:35, 16.65s/it] 39%|███▉      | 2575/6640 [49:43<18:50:29, 16.69s/it]                                                      {'loss': 0.5417, 'learning_rate': 1.40063709528796e-05, 'epoch': 0.39}
 39%|███▉      | 2575/6640 [49:43<18:50:29, 16.69s/it] 39%|███▉      | 2576/6640 [49:59<18:37:12, 16.49s/it]                                                      {'loss': 0.5536, 'learning_rate': 1.4001900844558038e-05, 'epoch': 0.39}
 39%|███▉      | 2576/6640 [49:59<18:37:12, 16.49s/it] 39%|███▉      | 2577/6640 [50:16<18:43:39, 16.59s/it]                                                      {'loss': 0.5511, 'learning_rate': 1.3997429783891434e-05, 'epoch': 0.39}
 39%|███▉      | 2577/6640 [50:16<18:43:39, 16.59s/it] 39%|███▉      | 2578/6640 [50:32<18:29:56, 16.40s/it]                                                      {'loss': 0.54, 'learning_rate': 1.3992957771943778e-05, 'epoch': 0.39}
 39%|███▉      | 2578/6640 [50:32<18:29:56, 16.40s/it] 39%|███▉      | 2579/6640 [50:48<18:14:45, 16.17s/it]                                                      {'loss': 0.5271, 'learning_rate': 1.3988484809779291e-05, 'epoch': 0.39}
 39%|███▉      | 2579/6640 [50:48<18:14:45, 16.17s/it] 39%|███▉      | 2580/6640 [51:04<18:12:46, 16.15s/it]                                                      {'loss': 0.5313, 'learning_rate': 1.3984010898462417e-05, 'epoch': 0.39}
 39%|███▉      | 2580/6640 [51:04<18:12:46, 16.15s/it] 39%|███▉      | 2581/6640 [51:20<18:14:42, 16.18s/it]                                                      {'loss': 0.5348, 'learning_rate': 1.3979536039057823e-05, 'epoch': 0.39}
 39%|███▉      | 2581/6640 [51:20<18:14:42, 16.18s/it] 39%|███▉      | 2582/6640 [51:36<18:08:27, 16.09s/it]                                                      {'loss': 0.5214, 'learning_rate': 1.3975060232630413e-05, 'epoch': 0.39}
 39%|███▉      | 2582/6640 [51:36<18:08:27, 16.09s/it] 39%|███▉      | 2583/6640 [51:53<18:28:06, 16.39s/it]                                                      {'loss': 0.5289, 'learning_rate': 1.3970583480245304e-05, 'epoch': 0.39}
 39%|███▉      | 2583/6640 [51:53<18:28:06, 16.39s/it] 39%|███▉      | 2584/6640 [52:10<18:35:47, 16.51s/it]                                                      {'loss': 0.5435, 'learning_rate': 1.3966105782967843e-05, 'epoch': 0.39}
 39%|███▉      | 2584/6640 [52:10<18:35:47, 16.51s/it] 39%|███▉      | 2585/6640 [52:26<18:31:55, 16.45s/it]                                                      {'loss': 0.5425, 'learning_rate': 1.3961627141863603e-05, 'epoch': 0.39}
 39%|███▉      | 2585/6640 [52:26<18:31:55, 16.45s/it] 39%|███▉      | 2586/6640 [52:43<18:32:42, 16.47s/it]                                                      {'loss': 0.5234, 'learning_rate': 1.3957147557998378e-05, 'epoch': 0.39}
 39%|███▉      | 2586/6640 [52:43<18:32:42, 16.47s/it] 39%|███▉      | 2587/6640 [52:59<18:20:36, 16.29s/it]                                                      {'loss': 0.5617, 'learning_rate': 1.3952667032438191e-05, 'epoch': 0.39}
 39%|███▉      | 2587/6640 [52:59<18:20:36, 16.29s/it] 39%|███▉      | 2588/6640 [53:15<18:12:27, 16.18s/it]                                                      {'loss': 0.5315, 'learning_rate': 1.3948185566249293e-05, 'epoch': 0.39}
 39%|███▉      | 2588/6640 [53:15<18:12:27, 16.18s/it] 39%|███▉      | 2589/6640 [53:32<18:31:59, 16.47s/it]                                                      {'loss': 0.5392, 'learning_rate': 1.3943703160498144e-05, 'epoch': 0.39}
 39%|███▉      | 2589/6640 [53:32<18:31:59, 16.47s/it] 39%|███▉      | 2590/6640 [53:48<18:35:46, 16.53s/it]                                                      {'loss': 0.5172, 'learning_rate': 1.3939219816251435e-05, 'epoch': 0.39}
 39%|███▉      | 2590/6640 [53:48<18:35:46, 16.53s/it] 39%|███▉      | 2591/6640 [54:04<18:28:02, 16.42s/it]                                                      {'loss': 0.5451, 'learning_rate': 1.3934735534576088e-05, 'epoch': 0.39}
 39%|███▉      | 2591/6640 [54:04<18:28:02, 16.42s/it] 39%|███▉      | 2592/6640 [54:21<18:28:41, 16.43s/it]                                                      {'loss': 0.5514, 'learning_rate': 1.3930250316539237e-05, 'epoch': 0.39}
 39%|███▉      | 2592/6640 [54:21<18:28:41, 16.43s/it] 39%|███▉      | 2593/6640 [54:37<18:25:38, 16.39s/it]                                                      {'loss': 0.5326, 'learning_rate': 1.3925764163208251e-05, 'epoch': 0.39}
 39%|███▉      | 2593/6640 [54:37<18:25:38, 16.39s/it] 39%|███▉      | 2594/6640 [54:54<18:29:56, 16.46s/it]                                                      {'loss': 0.5421, 'learning_rate': 1.3921277075650703e-05, 'epoch': 0.39}
 39%|███▉      | 2594/6640 [54:54<18:29:56, 16.46s/it] 39%|███▉      | 2595/6640 [55:11<18:34:29, 16.53s/it]                                                      {'loss': 0.5253, 'learning_rate': 1.3916789054934408e-05, 'epoch': 0.39}
 39%|███▉      | 2595/6640 [55:11<18:34:29, 16.53s/it] 39%|███▉      | 2596/6640 [55:28<18:44:31, 16.68s/it]                                                      {'loss': 0.5302, 'learning_rate': 1.391230010212739e-05, 'epoch': 0.39}
 39%|███▉      | 2596/6640 [55:28<18:44:31, 16.68s/it] 39%|███▉      | 2597/6640 [55:44<18:38:27, 16.60s/it]                                                      {'loss': 0.5474, 'learning_rate': 1.3907810218297905e-05, 'epoch': 0.39}
 39%|███▉      | 2597/6640 [55:44<18:38:27, 16.60s/it] 39%|███▉      | 2598/6640 [56:01<18:51:39, 16.80s/it]                                                      {'loss': 0.5067, 'learning_rate': 1.3903319404514421e-05, 'epoch': 0.39}
 39%|███▉      | 2598/6640 [56:01<18:51:39, 16.80s/it] 39%|███▉      | 2599/6640 [56:17<18:36:16, 16.57s/it]                                                      {'loss': 0.5283, 'learning_rate': 1.3898827661845628e-05, 'epoch': 0.39}
 39%|███▉      | 2599/6640 [56:17<18:36:16, 16.57s/it]2 AutoResumeHook: Checking whether to suspend...3
 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
05 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 39%|███▉      | 2600/6640 [56:34<18:33:31, 16.54s/it]                                                      {'loss': 0.522, 'learning_rate': 1.3894334991360448e-05, 'epoch': 0.39}
 39%|███▉      | 2600/6640 [56:34<18:33:31, 16.54s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2600/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2600/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2600/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 39%|███▉      | 2601/6640 [58:12<46:02:37, 41.04s/it]                                                      {'loss': 0.5108, 'learning_rate': 1.3889841394128007e-05, 'epoch': 0.39}
 39%|███▉      | 2601/6640 [58:12<46:02:37, 41.04s/it] 39%|███▉      | 2602/6640 [58:29<37:47:00, 33.69s/it]                                                      {'loss': 0.5488, 'learning_rate': 1.388534687121767e-05, 'epoch': 0.39}
 39%|███▉      | 2602/6640 [58:29<37:47:00, 33.69s/it] 39%|███▉      | 2603/6640 [58:45<32:01:48, 28.56s/it]                                                      {'loss': 0.5363, 'learning_rate': 1.3880851423699005e-05, 'epoch': 0.39}
 39%|███▉      | 2603/6640 [58:45<32:01:48, 28.56s/it] 39%|███▉      | 2604/6640 [59:03<28:15:42, 25.21s/it]                                                      {'loss': 0.5499, 'learning_rate': 1.387635505264181e-05, 'epoch': 0.39}
 39%|███▉      | 2604/6640 [59:03<28:15:42, 25.21s/it] 39%|███▉      | 2605/6640 [59:19<25:10:54, 22.47s/it]                                                      {'loss': 0.5352, 'learning_rate': 1.3871857759116104e-05, 'epoch': 0.39}
 39%|███▉      | 2605/6640 [59:19<25:10:54, 22.47s/it] 39%|███▉      | 2606/6640 [59:34<22:51:03, 20.39s/it]                                                      {'loss': 0.5501, 'learning_rate': 1.386735954419212e-05, 'epoch': 0.39}
 39%|███▉      | 2606/6640 [59:34<22:51:03, 20.39s/it] 39%|███▉      | 2607/6640 [59:50<21:28:33, 19.17s/it]                                                      {'loss': 0.5473, 'learning_rate': 1.3862860408940315e-05, 'epoch': 0.39}
 39%|███▉      | 2607/6640 [59:50<21:28:33, 19.17s/it] 39%|███▉      | 2608/6640 [1:00:06<20:21:59, 18.18s/it]                                                        {'loss': 0.5338, 'learning_rate': 1.3858360354431355e-05, 'epoch': 0.39}
 39%|███▉      | 2608/6640 [1:00:06<20:21:59, 18.18s/it] 39%|███▉      | 2609/6640 [1:00:22<19:34:23, 17.48s/it]                                                        {'loss': 0.5468, 'learning_rate': 1.385385938173614e-05, 'epoch': 0.39}
 39%|███▉      | 2609/6640 [1:00:22<19:34:23, 17.48s/it] 39%|███▉      | 2610/6640 [1:00:38<18:55:55, 16.91s/it]                                                        {'loss': 0.5134, 'learning_rate': 1.3849357491925779e-05, 'epoch': 0.39}
 39%|███▉      | 2610/6640 [1:00:38<18:55:55, 16.91s/it] 39%|███▉      | 2611/6640 [1:00:54<18:44:11, 16.74s/it]                                                        {'loss': 0.5374, 'learning_rate': 1.3844854686071596e-05, 'epoch': 0.39}
 39%|███▉      | 2611/6640 [1:00:54<18:44:11, 16.74s/it] 39%|███▉      | 2612/6640 [1:01:11<18:41:40, 16.71s/it]                                                        {'loss': 0.5262, 'learning_rate': 1.3840350965245144e-05, 'epoch': 0.39}
 39%|███▉      | 2612/6640 [1:01:11<18:41:40, 16.71s/it] 39%|███▉      | 2613/6640 [1:01:27<18:39:35, 16.68s/it]                                                        {'loss': 0.5413, 'learning_rate': 1.3835846330518188e-05, 'epoch': 0.39}
 39%|███▉      | 2613/6640 [1:01:27<18:39:35, 16.68s/it] 39%|███▉      | 2614/6640 [1:01:43<18:26:17, 16.49s/it]                                                        {'loss': 0.5107, 'learning_rate': 1.3831340782962706e-05, 'epoch': 0.39}
 39%|███▉      | 2614/6640 [1:01:43<18:26:17, 16.49s/it] 39%|███▉      | 2615/6640 [1:02:00<18:19:15, 16.39s/it]                                                        {'loss': 0.5269, 'learning_rate': 1.3826834323650899e-05, 'epoch': 0.39}
 39%|███▉      | 2615/6640 [1:02:00<18:19:15, 16.39s/it] 39%|███▉      | 2616/6640 [1:02:16<18:11:57, 16.28s/it]                                                        {'loss': 0.5097, 'learning_rate': 1.3822326953655186e-05, 'epoch': 0.39}
 39%|███▉      | 2616/6640 [1:02:16<18:11:57, 16.28s/it] 39%|███▉      | 2617/6640 [1:02:33<18:27:54, 16.52s/it]                                                        {'loss': 0.5339, 'learning_rate': 1.3817818674048195e-05, 'epoch': 0.39}
 39%|███▉      | 2617/6640 [1:02:33<18:27:54, 16.52s/it] 39%|███▉      | 2618/6640 [1:02:50<18:37:04, 16.66s/it]                                                        {'loss': 0.5304, 'learning_rate': 1.3813309485902781e-05, 'epoch': 0.39}
 39%|███▉      | 2618/6640 [1:02:50<18:37:04, 16.66s/it] 39%|███▉      | 2619/6640 [1:03:06<18:36:35, 16.66s/it]                                                        {'loss': 0.5423, 'learning_rate': 1.3808799390292004e-05, 'epoch': 0.39}
 39%|███▉      | 2619/6640 [1:03:06<18:36:35, 16.66s/it] 39%|███▉      | 2620/6640 [1:03:22<18:24:45, 16.49s/it]                                                        {'loss': 0.548, 'learning_rate': 1.3804288388289152e-05, 'epoch': 0.39}
 39%|███▉      | 2620/6640 [1:03:22<18:24:45, 16.49s/it] 39%|███▉      | 2621/6640 [1:03:40<18:43:52, 16.78s/it]                                                        {'loss': 0.497, 'learning_rate': 1.3799776480967719e-05, 'epoch': 0.39}
 39%|███▉      | 2621/6640 [1:03:40<18:43:52, 16.78s/it] 39%|███▉      | 2622/6640 [1:03:56<18:31:53, 16.60s/it]                                                        {'loss': 0.5376, 'learning_rate': 1.379526366940142e-05, 'epoch': 0.39}
 39%|███▉      | 2622/6640 [1:03:56<18:31:53, 16.60s/it] 40%|███▉      | 2623/6640 [1:04:13<18:36:02, 16.67s/it]                                                        {'loss': 0.5221, 'learning_rate': 1.379074995466418e-05, 'epoch': 0.4}
 40%|███▉      | 2623/6640 [1:04:13<18:36:02, 16.67s/it] 40%|███▉      | 2624/6640 [1:04:30<18:43:23, 16.78s/it]                                                        {'loss': 0.5263, 'learning_rate': 1.3786235337830146e-05, 'epoch': 0.4}
 40%|███▉      | 2624/6640 [1:04:30<18:43:23, 16.78s/it] 40%|███▉      | 2625/6640 [1:04:46<18:26:25, 16.53s/it]                                                        {'loss': 0.5435, 'learning_rate': 1.378171981997367e-05, 'epoch': 0.4}
 40%|███▉      | 2625/6640 [1:04:46<18:26:25, 16.53s/it] 40%|███▉      | 2626/6640 [1:05:02<18:08:14, 16.27s/it]                                                        {'loss': 0.5428, 'learning_rate': 1.3777203402169328e-05, 'epoch': 0.4}
 40%|███▉      | 2626/6640 [1:05:02<18:08:14, 16.27s/it] 40%|███▉      | 2627/6640 [1:05:18<18:15:05, 16.37s/it]                                                        {'loss': 0.5556, 'learning_rate': 1.3772686085491907e-05, 'epoch': 0.4}
 40%|███▉      | 2627/6640 [1:05:18<18:15:05, 16.37s/it] 40%|███▉      | 2628/6640 [1:05:34<18:00:47, 16.16s/it]                                                        {'loss': 0.5384, 'learning_rate': 1.3768167871016402e-05, 'epoch': 0.4}
 40%|███▉      | 2628/6640 [1:05:34<18:00:47, 16.16s/it] 40%|███▉      | 2629/6640 [1:05:50<18:01:08, 16.17s/it]                                                        {'loss': 0.5373, 'learning_rate': 1.3763648759818035e-05, 'epoch': 0.4}
 40%|███▉      | 2629/6640 [1:05:50<18:01:08, 16.17s/it] 40%|███▉      | 2630/6640 [1:06:07<18:20:12, 16.46s/it]                                                        {'loss': 0.527, 'learning_rate': 1.3759128752972229e-05, 'epoch': 0.4}
 40%|███▉      | 2630/6640 [1:06:07<18:20:12, 16.46s/it] 40%|███▉      | 2631/6640 [1:06:24<18:22:32, 16.50s/it]                                                        {'loss': 0.5301, 'learning_rate': 1.3754607851554624e-05, 'epoch': 0.4}
 40%|███▉      | 2631/6640 [1:06:24<18:22:32, 16.50s/it] 40%|███▉      | 2632/6640 [1:06:40<18:14:14, 16.38s/it]                                                        {'loss': 0.5351, 'learning_rate': 1.3750086056641072e-05, 'epoch': 0.4}
 40%|███▉      | 2632/6640 [1:06:40<18:14:14, 16.38s/it] 40%|███▉      | 2633/6640 [1:06:56<18:08:12, 16.29s/it]                                                        {'loss': 0.543, 'learning_rate': 1.3745563369307642e-05, 'epoch': 0.4}
 40%|███▉      | 2633/6640 [1:06:56<18:08:12, 16.29s/it] 40%|███▉      | 2634/6640 [1:07:13<18:33:16, 16.67s/it]                                                        {'loss': 0.5386, 'learning_rate': 1.374103979063061e-05, 'epoch': 0.4}
 40%|███▉      | 2634/6640 [1:07:13<18:33:16, 16.67s/it] 40%|███▉      | 2635/6640 [1:07:29<18:12:12, 16.36s/it]                                                        {'loss': 0.5605, 'learning_rate': 1.3736515321686468e-05, 'epoch': 0.4}
 40%|███▉      | 2635/6640 [1:07:29<18:12:12, 16.36s/it] 40%|███▉      | 2636/6640 [1:07:46<18:14:04, 16.39s/it]                                                        {'loss': 0.532, 'learning_rate': 1.3731989963551916e-05, 'epoch': 0.4}
 40%|███▉      | 2636/6640 [1:07:46<18:14:04, 16.39s/it] 40%|███▉      | 2637/6640 [1:08:02<18:12:11, 16.37s/it]                                                        {'loss': 0.5503, 'learning_rate': 1.3727463717303869e-05, 'epoch': 0.4}
 40%|███▉      | 2637/6640 [1:08:02<18:12:11, 16.37s/it] 40%|███▉      | 2638/6640 [1:08:18<18:14:01, 16.40s/it]                                                        {'loss': 0.5439, 'learning_rate': 1.3722936584019453e-05, 'epoch': 0.4}
 40%|███▉      | 2638/6640 [1:08:18<18:14:01, 16.40s/it] 40%|███▉      | 2639/6640 [1:08:35<18:21:54, 16.52s/it]                                                        {'loss': 0.5168, 'learning_rate': 1.3718408564776002e-05, 'epoch': 0.4}
 40%|███▉      | 2639/6640 [1:08:35<18:21:54, 16.52s/it] 40%|███▉      | 2640/6640 [1:08:52<18:36:00, 16.74s/it]                                                        {'loss': 0.5248, 'learning_rate': 1.3713879660651069e-05, 'epoch': 0.4}
 40%|███▉      | 2640/6640 [1:08:52<18:36:00, 16.74s/it] 40%|███▉      | 2641/6640 [1:09:09<18:28:21, 16.63s/it]                                                        {'loss': 0.5324, 'learning_rate': 1.3709349872722405e-05, 'epoch': 0.4}
 40%|███▉      | 2641/6640 [1:09:09<18:28:21, 16.63s/it] 40%|███▉      | 2642/6640 [1:09:25<18:26:07, 16.60s/it]                                                        {'loss': 0.5323, 'learning_rate': 1.370481920206798e-05, 'epoch': 0.4}
 40%|███▉      | 2642/6640 [1:09:25<18:26:07, 16.60s/it] 40%|███▉      | 2643/6640 [1:09:42<18:19:10, 16.50s/it]                                                        {'loss': 0.5329, 'learning_rate': 1.3700287649765973e-05, 'epoch': 0.4}
 40%|███▉      | 2643/6640 [1:09:42<18:19:10, 16.50s/it] 40%|███▉      | 2644/6640 [1:09:59<18:35:19, 16.75s/it]                                                        {'loss': 0.5092, 'learning_rate': 1.3695755216894772e-05, 'epoch': 0.4}
 40%|███▉      | 2644/6640 [1:09:59<18:35:19, 16.75s/it] 40%|███▉      | 2645/6640 [1:10:14<18:11:16, 16.39s/it]                                                        {'loss': 0.5475, 'learning_rate': 1.3691221904532972e-05, 'epoch': 0.4}
 40%|███▉      | 2645/6640 [1:10:14<18:11:16, 16.39s/it] 40%|███▉      | 2646/6640 [1:10:31<18:06:16, 16.32s/it]                                                        {'loss': 0.551, 'learning_rate': 1.368668771375938e-05, 'epoch': 0.4}
 40%|███▉      | 2646/6640 [1:10:31<18:06:16, 16.32s/it] 40%|███▉      | 2647/6640 [1:10:47<18:09:14, 16.37s/it]                                                        {'loss': 0.5239, 'learning_rate': 1.368215264565302e-05, 'epoch': 0.4}
 40%|███▉      | 2647/6640 [1:10:47<18:09:14, 16.37s/it] 40%|███▉      | 2648/6640 [1:11:03<17:55:54, 16.17s/it]                                                        {'loss': 0.5544, 'learning_rate': 1.3677616701293104e-05, 'epoch': 0.4}
 40%|███▉      | 2648/6640 [1:11:03<17:55:54, 16.17s/it] 40%|███▉      | 2649/6640 [1:11:19<17:55:24, 16.17s/it]                                                        {'loss': 0.5345, 'learning_rate': 1.3673079881759073e-05, 'epoch': 0.4}
 40%|███▉      | 2649/6640 [1:11:19<17:55:24, 16.17s/it]4 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
01 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 40%|███▉      | 2650/6640 [1:11:36<18:13:43, 16.45s/it]3 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5522, 'learning_rate': 1.3668542188130567e-05, 'epoch': 0.4}
 40%|███▉      | 2650/6640 [1:11:36<18:13:43, 16.45s/it] 40%|███▉      | 2651/6640 [1:11:55<18:58:05, 17.12s/it]                                                        {'loss': 0.5333, 'learning_rate': 1.3664003621487435e-05, 'epoch': 0.4}
 40%|███▉      | 2651/6640 [1:11:55<18:58:05, 17.12s/it] 40%|███▉      | 2652/6640 [1:12:12<18:50:48, 17.01s/it]                                                        {'loss': 0.5142, 'learning_rate': 1.3659464182909731e-05, 'epoch': 0.4}
 40%|███▉      | 2652/6640 [1:12:12<18:50:48, 17.01s/it] 40%|███▉      | 2653/6640 [1:12:28<18:38:22, 16.83s/it]                                                        {'loss': 0.5161, 'learning_rate': 1.3654923873477724e-05, 'epoch': 0.4}
 40%|███▉      | 2653/6640 [1:12:28<18:38:22, 16.83s/it] 40%|███▉      | 2654/6640 [1:12:44<18:22:39, 16.60s/it]                                                        {'loss': 0.5218, 'learning_rate': 1.3650382694271885e-05, 'epoch': 0.4}
 40%|███▉      | 2654/6640 [1:12:44<18:22:39, 16.60s/it] 40%|███▉      | 2655/6640 [1:13:01<18:23:54, 16.62s/it]                                                        {'loss': 0.5401, 'learning_rate': 1.364584064637289e-05, 'epoch': 0.4}
 40%|███▉      | 2655/6640 [1:13:01<18:23:54, 16.62s/it] 40%|████      | 2656/6640 [1:13:17<18:10:04, 16.42s/it]                                                        {'loss': 0.5453, 'learning_rate': 1.364129773086163e-05, 'epoch': 0.4}
 40%|████      | 2656/6640 [1:13:17<18:10:04, 16.42s/it] 40%|████      | 2657/6640 [1:13:34<18:33:21, 16.77s/it]                                                        {'loss': 0.5183, 'learning_rate': 1.3636753948819188e-05, 'epoch': 0.4}
 40%|████      | 2657/6640 [1:13:34<18:33:21, 16.77s/it] 40%|████      | 2658/6640 [1:13:51<18:41:41, 16.90s/it]                                                        {'loss': 0.5481, 'learning_rate': 1.3632209301326873e-05, 'epoch': 0.4}
 40%|████      | 2658/6640 [1:13:51<18:41:41, 16.90s/it] 40%|████      | 2659/6640 [1:14:08<18:30:46, 16.74s/it]                                                        {'loss': 0.5433, 'learning_rate': 1.3627663789466181e-05, 'epoch': 0.4}
 40%|████      | 2659/6640 [1:14:08<18:30:46, 16.74s/it] 40%|████      | 2660/6640 [1:14:25<18:30:40, 16.74s/it]                                                        {'loss': 0.5391, 'learning_rate': 1.3623117414318827e-05, 'epoch': 0.4}
 40%|████      | 2660/6640 [1:14:25<18:30:40, 16.74s/it] 40%|████      | 2661/6640 [1:14:41<18:23:42, 16.64s/it]                                                        {'loss': 0.5426, 'learning_rate': 1.3618570176966723e-05, 'epoch': 0.4}
 40%|████      | 2661/6640 [1:14:41<18:23:42, 16.64s/it] 40%|████      | 2662/6640 [1:14:58<18:29:53, 16.74s/it]                                                        {'loss': 0.5109, 'learning_rate': 1.3614022078491991e-05, 'epoch': 0.4}
 40%|████      | 2662/6640 [1:14:58<18:29:53, 16.74s/it] 40%|████      | 2663/6640 [1:15:15<18:31:12, 16.76s/it]                                                        {'loss': 0.5324, 'learning_rate': 1.3609473119976957e-05, 'epoch': 0.4}
 40%|████      | 2663/6640 [1:15:15<18:31:12, 16.76s/it] 40%|████      | 2664/6640 [1:15:31<18:25:05, 16.68s/it]                                                        {'loss': 0.5501, 'learning_rate': 1.3604923302504146e-05, 'epoch': 0.4}
 40%|████      | 2664/6640 [1:15:31<18:25:05, 16.68s/it] 40%|████      | 2665/6640 [1:15:48<18:27:29, 16.72s/it]                                                        {'loss': 0.5321, 'learning_rate': 1.3600372627156304e-05, 'epoch': 0.4}
 40%|████      | 2665/6640 [1:15:48<18:27:29, 16.72s/it] 40%|████      | 2666/6640 [1:16:06<18:50:00, 17.06s/it]                                                        {'loss': 0.535, 'learning_rate': 1.3595821095016357e-05, 'epoch': 0.4}
 40%|████      | 2666/6640 [1:16:06<18:50:00, 17.06s/it] 40%|████      | 2667/6640 [1:16:22<18:33:25, 16.81s/it]                                                        {'loss': 0.5358, 'learning_rate': 1.3591268707167456e-05, 'epoch': 0.4}
 40%|████      | 2667/6640 [1:16:22<18:33:25, 16.81s/it] 40%|████      | 2668/6640 [1:16:38<18:23:41, 16.67s/it]                                                        {'loss': 0.5271, 'learning_rate': 1.3586715464692942e-05, 'epoch': 0.4}
 40%|████      | 2668/6640 [1:16:38<18:23:41, 16.67s/it] 40%|████      | 2669/6640 [1:16:55<18:14:58, 16.54s/it]                                                        {'loss': 0.5466, 'learning_rate': 1.3582161368676366e-05, 'epoch': 0.4}
 40%|████      | 2669/6640 [1:16:55<18:14:58, 16.54s/it] 40%|████      | 2670/6640 [1:17:12<18:26:30, 16.72s/it]                                                        {'loss': 0.5278, 'learning_rate': 1.3577606420201483e-05, 'epoch': 0.4}
 40%|████      | 2670/6640 [1:17:12<18:26:30, 16.72s/it] 40%|████      | 2671/6640 [1:17:28<18:21:15, 16.65s/it]                                                        {'loss': 0.5402, 'learning_rate': 1.3573050620352247e-05, 'epoch': 0.4}
 40%|████      | 2671/6640 [1:17:28<18:21:15, 16.65s/it] 40%|████      | 2672/6640 [1:17:45<18:13:33, 16.54s/it]                                                        {'loss': 0.5258, 'learning_rate': 1.3568493970212817e-05, 'epoch': 0.4}
 40%|████      | 2672/6640 [1:17:45<18:13:33, 16.54s/it] 40%|████      | 2673/6640 [1:18:01<18:16:31, 16.58s/it]                                                        {'loss': 0.5217, 'learning_rate': 1.3563936470867549e-05, 'epoch': 0.4}
 40%|████      | 2673/6640 [1:18:01<18:16:31, 16.58s/it] 40%|████      | 2674/6640 [1:18:17<18:07:01, 16.45s/it]                                                        {'loss': 0.5698, 'learning_rate': 1.3559378123401012e-05, 'epoch': 0.4}
 40%|████      | 2674/6640 [1:18:17<18:07:01, 16.45s/it] 40%|████      | 2675/6640 [1:18:34<18:08:37, 16.47s/it]                                                        {'loss': 0.5362, 'learning_rate': 1.3554818928897965e-05, 'epoch': 0.4}
 40%|████      | 2675/6640 [1:18:34<18:08:37, 16.47s/it] 40%|████      | 2676/6640 [1:18:51<18:14:20, 16.56s/it]                                                        {'loss': 0.5313, 'learning_rate': 1.3550258888443382e-05, 'epoch': 0.4}
 40%|████      | 2676/6640 [1:18:51<18:14:20, 16.56s/it] 40%|████      | 2677/6640 [1:19:07<18:11:37, 16.53s/it]                                                        {'loss': 0.5339, 'learning_rate': 1.354569800312242e-05, 'epoch': 0.4}
 40%|████      | 2677/6640 [1:19:07<18:11:37, 16.53s/it] 40%|████      | 2678/6640 [1:19:23<17:58:18, 16.33s/it]                                                        {'loss': 0.5208, 'learning_rate': 1.3541136274020452e-05, 'epoch': 0.4}
 40%|████      | 2678/6640 [1:19:23<17:58:18, 16.33s/it] 40%|████      | 2679/6640 [1:19:39<17:53:00, 16.25s/it]                                                        {'loss': 0.5372, 'learning_rate': 1.353657370222305e-05, 'epoch': 0.4}
 40%|████      | 2679/6640 [1:19:39<17:53:00, 16.25s/it] 40%|████      | 2680/6640 [1:19:56<18:00:54, 16.38s/it]                                                        {'loss': 0.5416, 'learning_rate': 1.353201028881598e-05, 'epoch': 0.4}
 40%|████      | 2680/6640 [1:19:56<18:00:54, 16.38s/it] 40%|████      | 2681/6640 [1:20:12<17:51:59, 16.25s/it]                                                        {'loss': 0.525, 'learning_rate': 1.3527446034885214e-05, 'epoch': 0.4}
 40%|████      | 2681/6640 [1:20:12<17:51:59, 16.25s/it] 40%|████      | 2682/6640 [1:20:28<17:55:33, 16.30s/it]                                                        {'loss': 0.523, 'learning_rate': 1.3522880941516919e-05, 'epoch': 0.4}
 40%|████      | 2682/6640 [1:20:28<17:55:33, 16.30s/it] 40%|████      | 2683/6640 [1:20:44<17:47:07, 16.18s/it]                                                        {'loss': 0.5512, 'learning_rate': 1.351831500979747e-05, 'epoch': 0.4}
 40%|████      | 2683/6640 [1:20:44<17:47:07, 16.18s/it] 40%|████      | 2684/6640 [1:21:01<17:59:00, 16.37s/it]                                                        {'loss': 0.545, 'learning_rate': 1.3513748240813429e-05, 'epoch': 0.4}
 40%|████      | 2684/6640 [1:21:01<17:59:00, 16.37s/it] 40%|████      | 2685/6640 [1:21:17<18:00:22, 16.39s/it]                                                        {'loss': 0.5338, 'learning_rate': 1.350918063565157e-05, 'epoch': 0.4}
 40%|████      | 2685/6640 [1:21:17<18:00:22, 16.39s/it] 40%|████      | 2686/6640 [1:21:33<17:51:05, 16.25s/it]                                                        {'loss': 0.5325, 'learning_rate': 1.3504612195398858e-05, 'epoch': 0.4}
 40%|████      | 2686/6640 [1:21:33<17:51:05, 16.25s/it] 40%|████      | 2687/6640 [1:21:50<17:51:32, 16.26s/it]                                                        {'loss': 0.5674, 'learning_rate': 1.3500042921142463e-05, 'epoch': 0.4}
 40%|████      | 2687/6640 [1:21:50<17:51:32, 16.26s/it] 40%|████      | 2688/6640 [1:22:05<17:44:21, 16.16s/it]                                                        {'loss': 0.5346, 'learning_rate': 1.3495472813969746e-05, 'epoch': 0.4}
 40%|████      | 2688/6640 [1:22:05<17:44:21, 16.16s/it] 40%|████      | 2689/6640 [1:22:21<17:40:42, 16.11s/it]                                                        {'loss': 0.5413, 'learning_rate': 1.349090187496827e-05, 'epoch': 0.4}
 40%|████      | 2689/6640 [1:22:21<17:40:42, 16.11s/it] 41%|████      | 2690/6640 [1:22:38<17:40:54, 16.11s/it]                                                        {'loss': 0.526, 'learning_rate': 1.3486330105225797e-05, 'epoch': 0.41}
 41%|████      | 2690/6640 [1:22:38<17:40:54, 16.11s/it] 41%|████      | 2691/6640 [1:22:54<17:45:43, 16.19s/it]                                                        {'loss': 0.5196, 'learning_rate': 1.3481757505830284e-05, 'epoch': 0.41}
 41%|████      | 2691/6640 [1:22:54<17:45:43, 16.19s/it] 41%|████      | 2692/6640 [1:23:09<17:30:13, 15.96s/it]                                                        {'loss': 0.5355, 'learning_rate': 1.3477184077869892e-05, 'epoch': 0.41}
 41%|████      | 2692/6640 [1:23:09<17:30:13, 15.96s/it] 41%|████      | 2693/6640 [1:23:26<17:35:47, 16.05s/it]                                                        {'loss': 0.5328, 'learning_rate': 1.3472609822432964e-05, 'epoch': 0.41}
 41%|████      | 2693/6640 [1:23:26<17:35:47, 16.05s/it] 41%|████      | 2694/6640 [1:23:43<18:05:56, 16.51s/it]                                                        {'loss': 0.5216, 'learning_rate': 1.346803474060806e-05, 'epoch': 0.41}
 41%|████      | 2694/6640 [1:23:43<18:05:56, 16.51s/it] 41%|████      | 2695/6640 [1:24:00<18:07:37, 16.54s/it]                                                        {'loss': 0.5301, 'learning_rate': 1.3463458833483923e-05, 'epoch': 0.41}
 41%|████      | 2695/6640 [1:24:00<18:07:37, 16.54s/it] 41%|████      | 2696/6640 [1:24:16<17:52:53, 16.32s/it]                                                        {'loss': 0.5141, 'learning_rate': 1.3458882102149497e-05, 'epoch': 0.41}
 41%|████      | 2696/6640 [1:24:16<17:52:53, 16.32s/it] 41%|████      | 2697/6640 [1:24:31<17:41:21, 16.15s/it]                                                        {'loss': 0.524, 'learning_rate': 1.3454304547693923e-05, 'epoch': 0.41}
 41%|████      | 2697/6640 [1:24:31<17:41:21, 16.15s/it] 41%|████      | 2698/6640 [1:24:48<17:56:25, 16.38s/it]                                                        {'loss': 0.5395, 'learning_rate': 1.344972617120653e-05, 'epoch': 0.41}
 41%|████      | 2698/6640 [1:24:48<17:56:25, 16.38s/it] 41%|████      | 2699/6640 [1:25:05<18:03:13, 16.49s/it]                                                        {'loss': 0.5395, 'learning_rate': 1.3445146973776854e-05, 'epoch': 0.41}
 41%|████      | 2699/6640 [1:25:05<18:03:13, 16.49s/it]4 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
70 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 41%|████      | 2700/6640 [1:25:21<17:53:43, 16.35s/it]                                                        {'loss': 0.5413, 'learning_rate': 1.344056695649462e-05, 'epoch': 0.41}
 41%|████      | 2700/6640 [1:25:21<17:53:43, 16.35s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2700/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2700/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2700/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 41%|████      | 2701/6640 [1:27:10<48:26:19, 44.27s/it]                                                        {'loss': 0.5484, 'learning_rate': 1.3435986120449748e-05, 'epoch': 0.41}
 41%|████      | 2701/6640 [1:27:10<48:26:19, 44.27s/it] 41%|████      | 2702/6640 [1:27:28<39:44:59, 36.34s/it]                                                        {'loss': 0.5438, 'learning_rate': 1.3431404466732356e-05, 'epoch': 0.41}
 41%|████      | 2702/6640 [1:27:28<39:44:59, 36.34s/it] 41%|████      | 2703/6640 [1:27:44<33:08:04, 30.30s/it]                                                        {'loss': 0.5477, 'learning_rate': 1.3426821996432753e-05, 'epoch': 0.41}
 41%|████      | 2703/6640 [1:27:45<33:08:04, 30.30s/it] 41%|████      | 2704/6640 [1:28:01<28:36:47, 26.17s/it]                                                        {'loss': 0.544, 'learning_rate': 1.3422238710641445e-05, 'epoch': 0.41}
 41%|████      | 2704/6640 [1:28:01<28:36:47, 26.17s/it] 41%|████      | 2705/6640 [1:28:18<25:27:05, 23.28s/it]                                                        {'loss': 0.544, 'learning_rate': 1.3417654610449131e-05, 'epoch': 0.41}
 41%|████      | 2705/6640 [1:28:18<25:27:05, 23.28s/it] 41%|████      | 2706/6640 [1:28:34<23:18:18, 21.33s/it]                                                        {'loss': 0.55, 'learning_rate': 1.3413069696946706e-05, 'epoch': 0.41}
 41%|████      | 2706/6640 [1:28:34<23:18:18, 21.33s/it] 41%|████      | 2707/6640 [1:28:51<21:36:30, 19.78s/it]                                                        {'loss': 0.542, 'learning_rate': 1.340848397122525e-05, 'epoch': 0.41}
 41%|████      | 2707/6640 [1:28:51<21:36:30, 19.78s/it] 41%|████      | 2708/6640 [1:29:06<20:11:18, 18.48s/it]                                                        {'loss': 0.559, 'learning_rate': 1.340389743437605e-05, 'epoch': 0.41}
 41%|████      | 2708/6640 [1:29:06<20:11:18, 18.48s/it] 41%|████      | 2709/6640 [1:29:22<19:22:05, 17.74s/it]                                                        {'loss': 0.5378, 'learning_rate': 1.3399310087490573e-05, 'epoch': 0.41}
 41%|████      | 2709/6640 [1:29:22<19:22:05, 17.74s/it] 41%|████      | 2710/6640 [1:29:38<18:57:31, 17.37s/it]                                                        {'loss': 0.5296, 'learning_rate': 1.3394721931660488e-05, 'epoch': 0.41}
 41%|████      | 2710/6640 [1:29:38<18:57:31, 17.37s/it] 41%|████      | 2711/6640 [1:29:54<18:20:25, 16.80s/it]                                                        {'loss': 0.5083, 'learning_rate': 1.3390132967977651e-05, 'epoch': 0.41}
 41%|████      | 2711/6640 [1:29:54<18:20:25, 16.80s/it] 41%|████      | 2712/6640 [1:30:10<18:10:59, 16.66s/it]                                                        {'loss': 0.5118, 'learning_rate': 1.3385543197534116e-05, 'epoch': 0.41}
 41%|████      | 2712/6640 [1:30:10<18:10:59, 16.66s/it] 41%|████      | 2713/6640 [1:30:26<17:55:46, 16.44s/it]                                                        {'loss': 0.5482, 'learning_rate': 1.338095262142212e-05, 'epoch': 0.41}
 41%|████      | 2713/6640 [1:30:26<17:55:46, 16.44s/it] 41%|████      | 2714/6640 [1:30:43<17:57:22, 16.47s/it]                                                        {'loss': 0.5299, 'learning_rate': 1.3376361240734102e-05, 'epoch': 0.41}
 41%|████      | 2714/6640 [1:30:43<17:57:22, 16.47s/it] 41%|████      | 2715/6640 [1:30:59<18:02:01, 16.54s/it]                                                        {'loss': 0.5562, 'learning_rate': 1.3371769056562683e-05, 'epoch': 0.41}
 41%|████      | 2715/6640 [1:30:59<18:02:01, 16.54s/it] 41%|████      | 2716/6640 [1:31:16<18:00:03, 16.51s/it]                                                        {'loss': 0.5401, 'learning_rate': 1.3367176070000682e-05, 'epoch': 0.41}
 41%|████      | 2716/6640 [1:31:16<18:00:03, 16.51s/it] 41%|████      | 2717/6640 [1:31:32<17:50:54, 16.38s/it]                                                        {'loss': 0.532, 'learning_rate': 1.3362582282141109e-05, 'epoch': 0.41}
 41%|████      | 2717/6640 [1:31:32<17:50:54, 16.38s/it] 41%|████      | 2718/6640 [1:31:48<17:43:45, 16.27s/it]                                                        {'loss': 0.5459, 'learning_rate': 1.3357987694077155e-05, 'epoch': 0.41}
 41%|████      | 2718/6640 [1:31:48<17:43:45, 16.27s/it] 41%|████      | 2719/6640 [1:32:04<17:36:24, 16.17s/it]                                                        {'loss': 0.5154, 'learning_rate': 1.335339230690221e-05, 'epoch': 0.41}
 41%|████      | 2719/6640 [1:32:04<17:36:24, 16.17s/it] 41%|████      | 2720/6640 [1:32:20<17:40:17, 16.23s/it]                                                        {'loss': 0.5403, 'learning_rate': 1.3348796121709862e-05, 'epoch': 0.41}
 41%|████      | 2720/6640 [1:32:20<17:40:17, 16.23s/it] 41%|████      | 2721/6640 [1:32:37<17:43:58, 16.29s/it]                                                        {'loss': 0.521, 'learning_rate': 1.3344199139593875e-05, 'epoch': 0.41}
 41%|████      | 2721/6640 [1:32:37<17:43:58, 16.29s/it] 41%|████      | 2722/6640 [1:32:53<17:43:24, 16.28s/it]                                                        {'loss': 0.5369, 'learning_rate': 1.33396013616482e-05, 'epoch': 0.41}
 41%|████      | 2722/6640 [1:32:53<17:43:24, 16.28s/it] 41%|████      | 2723/6640 [1:33:10<17:51:57, 16.42s/it]                                                        {'loss': 0.5332, 'learning_rate': 1.3335002788966995e-05, 'epoch': 0.41}
 41%|████      | 2723/6640 [1:33:10<17:51:57, 16.42s/it] 41%|████      | 2724/6640 [1:33:26<17:58:16, 16.52s/it]                                                        {'loss': 0.5591, 'learning_rate': 1.3330403422644596e-05, 'epoch': 0.41}
 41%|████      | 2724/6640 [1:33:26<17:58:16, 16.52s/it] 41%|████      | 2725/6640 [1:33:43<18:01:33, 16.58s/it]                                                        {'loss': 0.5265, 'learning_rate': 1.3325803263775521e-05, 'epoch': 0.41}
 41%|████      | 2725/6640 [1:33:43<18:01:33, 16.58s/it] 41%|████      | 2726/6640 [1:34:00<17:58:54, 16.54s/it]                                                        {'loss': 0.5371, 'learning_rate': 1.332120231345449e-05, 'epoch': 0.41}
 41%|████      | 2726/6640 [1:34:00<17:58:54, 16.54s/it] 41%|████      | 2727/6640 [1:34:16<17:51:55, 16.44s/it]                                                        {'loss': 0.5354, 'learning_rate': 1.3316600572776405e-05, 'epoch': 0.41}
 41%|████      | 2727/6640 [1:34:16<17:51:55, 16.44s/it] 41%|████      | 2728/6640 [1:34:32<17:52:43, 16.45s/it]                                                        {'loss': 0.5149, 'learning_rate': 1.3311998042836355e-05, 'epoch': 0.41}
 41%|████      | 2728/6640 [1:34:32<17:52:43, 16.45s/it] 41%|████      | 2729/6640 [1:34:49<17:56:50, 16.52s/it]                                                        {'loss': 0.5497, 'learning_rate': 1.3307394724729624e-05, 'epoch': 0.41}
 41%|████      | 2729/6640 [1:34:49<17:56:50, 16.52s/it] 41%|████      | 2730/6640 [1:35:05<17:48:20, 16.39s/it]                                                        {'loss': 0.5292, 'learning_rate': 1.3302790619551673e-05, 'epoch': 0.41}
 41%|████      | 2730/6640 [1:35:05<17:48:20, 16.39s/it] 41%|████      | 2731/6640 [1:35:21<17:40:08, 16.27s/it]                                                        {'loss': 0.5247, 'learning_rate': 1.3298185728398156e-05, 'epoch': 0.41}
 41%|████      | 2731/6640 [1:35:21<17:40:08, 16.27s/it] 41%|████      | 2732/6640 [1:35:38<17:45:54, 16.37s/it]                                                        {'loss': 0.547, 'learning_rate': 1.3293580052364916e-05, 'epoch': 0.41}
 41%|████      | 2732/6640 [1:35:38<17:45:54, 16.37s/it] 41%|████      | 2733/6640 [1:35:53<17:34:27, 16.19s/it]                                                        {'loss': 0.5644, 'learning_rate': 1.328897359254798e-05, 'epoch': 0.41}
 41%|████      | 2733/6640 [1:35:53<17:34:27, 16.19s/it] 41%|████      | 2734/6640 [1:36:09<17:25:33, 16.06s/it]                                                        {'loss': 0.5329, 'learning_rate': 1.3284366350043558e-05, 'epoch': 0.41}
 41%|████      | 2734/6640 [1:36:09<17:25:33, 16.06s/it] 41%|████      | 2735/6640 [1:36:26<17:29:49, 16.13s/it]                                                        {'loss': 0.5556, 'learning_rate': 1.3279758325948054e-05, 'epoch': 0.41}
 41%|████      | 2735/6640 [1:36:26<17:29:49, 16.13s/it] 41%|████      | 2736/6640 [1:36:42<17:28:05, 16.11s/it]                                                        {'loss': 0.5394, 'learning_rate': 1.3275149521358052e-05, 'epoch': 0.41}
 41%|████      | 2736/6640 [1:36:42<17:28:05, 16.11s/it] 41%|████      | 2737/6640 [1:36:59<17:57:49, 16.57s/it]                                                        {'loss': 0.5327, 'learning_rate': 1.3270539937370328e-05, 'epoch': 0.41}
 41%|████      | 2737/6640 [1:36:59<17:57:49, 16.57s/it] 41%|████      | 2738/6640 [1:37:18<18:42:00, 17.25s/it]                                                        {'loss': 0.5303, 'learning_rate': 1.3265929575081836e-05, 'epoch': 0.41}
 41%|████      | 2738/6640 [1:37:18<18:42:00, 17.25s/it] 41%|████▏     | 2739/6640 [1:37:35<18:32:20, 17.11s/it]                                                        {'loss': 0.5223, 'learning_rate': 1.326131843558972e-05, 'epoch': 0.41}
 41%|████▏     | 2739/6640 [1:37:35<18:32:20, 17.11s/it] 41%|████▏     | 2740/6640 [1:37:52<18:30:30, 17.08s/it]                                                        {'loss': 0.5207, 'learning_rate': 1.32567065199913e-05, 'epoch': 0.41}
 41%|████▏     | 2740/6640 [1:37:52<18:30:30, 17.08s/it] 41%|████▏     | 2741/6640 [1:38:08<18:12:09, 16.81s/it]                                                        {'loss': 0.5308, 'learning_rate': 1.32520938293841e-05, 'epoch': 0.41}
 41%|████▏     | 2741/6640 [1:38:08<18:12:09, 16.81s/it] 41%|████▏     | 2742/6640 [1:38:24<18:02:06, 16.66s/it]                                                        {'loss': 0.5232, 'learning_rate': 1.324748036486581e-05, 'epoch': 0.41}
 41%|████▏     | 2742/6640 [1:38:24<18:02:06, 16.66s/it] 41%|████▏     | 2743/6640 [1:38:42<18:19:02, 16.92s/it]                                                        {'loss': 0.5194, 'learning_rate': 1.324286612753431e-05, 'epoch': 0.41}
 41%|████▏     | 2743/6640 [1:38:42<18:19:02, 16.92s/it] 41%|████▏     | 2744/6640 [1:38:58<18:06:55, 16.74s/it]                                                        {'loss': 0.5404, 'learning_rate': 1.3238251118487669e-05, 'epoch': 0.41}
 41%|████▏     | 2744/6640 [1:38:58<18:06:55, 16.74s/it] 41%|████▏     | 2745/6640 [1:39:14<17:58:10, 16.61s/it]                                                        {'loss': 0.5188, 'learning_rate': 1.3233635338824132e-05, 'epoch': 0.41}
 41%|████▏     | 2745/6640 [1:39:14<17:58:10, 16.61s/it] 41%|████▏     | 2746/6640 [1:39:31<17:48:30, 16.46s/it]                                                        {'loss': 0.5309, 'learning_rate': 1.3229018789642132e-05, 'epoch': 0.41}
 41%|████▏     | 2746/6640 [1:39:31<17:48:30, 16.46s/it] 41%|████▏     | 2747/6640 [1:39:47<17:55:04, 16.57s/it]                                                        {'loss': 0.538, 'learning_rate': 1.3224401472040282e-05, 'epoch': 0.41}
 41%|████▏     | 2747/6640 [1:39:47<17:55:04, 16.57s/it] 41%|████▏     | 2748/6640 [1:40:03<17:44:34, 16.41s/it]                                                        {'loss': 0.5139, 'learning_rate': 1.3219783387117384e-05, 'epoch': 0.41}
 41%|████▏     | 2748/6640 [1:40:03<17:44:34, 16.41s/it] 41%|████▏     | 2749/6640 [1:40:20<17:47:34, 16.46s/it]                                                        {'loss': 0.5424, 'learning_rate': 1.3215164535972415e-05, 'epoch': 0.41}
 41%|████▏     | 2749/6640 [1:40:20<17:47:34, 16.46s/it]5 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 41%|████▏     | 2750/6640 [1:40:36<17:46:03, 16.44s/it]                                                        {'loss': 0.5379, 'learning_rate': 1.3210544919704539e-05, 'epoch': 0.41}
 41%|████▏     | 2750/6640 [1:40:36<17:46:03, 16.44s/it] 41%|████▏     | 2751/6640 [1:40:53<17:48:20, 16.48s/it]                                                        {'loss': 0.5434, 'learning_rate': 1.3205924539413099e-05, 'epoch': 0.41}
 41%|████▏     | 2751/6640 [1:40:53<17:48:20, 16.48s/it] 41%|████▏     | 2752/6640 [1:41:09<17:31:21, 16.22s/it]                                                        {'loss': 0.5234, 'learning_rate': 1.3201303396197621e-05, 'epoch': 0.41}
 41%|████▏     | 2752/6640 [1:41:09<17:31:21, 16.22s/it] 41%|████▏     | 2753/6640 [1:41:27<18:03:07, 16.72s/it]                                                        {'loss': 0.549, 'learning_rate': 1.3196681491157816e-05, 'epoch': 0.41}
 41%|████▏     | 2753/6640 [1:41:27<18:03:07, 16.72s/it] 41%|████▏     | 2754/6640 [1:41:43<18:00:17, 16.68s/it]                                                        {'loss': 0.5065, 'learning_rate': 1.3192058825393572e-05, 'epoch': 0.41}
 41%|████▏     | 2754/6640 [1:41:43<18:00:17, 16.68s/it] 41%|████▏     | 2755/6640 [1:41:59<17:54:10, 16.59s/it]                                                        {'loss': 0.5264, 'learning_rate': 1.318743540000496e-05, 'epoch': 0.41}
 41%|████▏     | 2755/6640 [1:41:59<17:54:10, 16.59s/it] 42%|████▏     | 2756/6640 [1:42:15<17:38:45, 16.36s/it]                                                        {'loss': 0.5251, 'learning_rate': 1.318281121609223e-05, 'epoch': 0.42}
 42%|████▏     | 2756/6640 [1:42:15<17:38:45, 16.36s/it] 42%|████▏     | 2757/6640 [1:42:31<17:32:21, 16.26s/it]                                                        {'loss': 0.5279, 'learning_rate': 1.3178186274755818e-05, 'epoch': 0.42}
 42%|████▏     | 2757/6640 [1:42:31<17:32:21, 16.26s/it] 42%|████▏     | 2758/6640 [1:42:48<17:32:43, 16.27s/it]                                                        {'loss': 0.5388, 'learning_rate': 1.3173560577096326e-05, 'epoch': 0.42}
 42%|████▏     | 2758/6640 [1:42:48<17:32:43, 16.27s/it] 42%|████▏     | 2759/6640 [1:43:04<17:33:14, 16.28s/it]                                                        {'loss': 0.5136, 'learning_rate': 1.316893412421456e-05, 'epoch': 0.42}
 42%|████▏     | 2759/6640 [1:43:04<17:33:14, 16.28s/it] 42%|████▏     | 2760/6640 [1:43:20<17:25:33, 16.17s/it]                                                        {'loss': 0.5281, 'learning_rate': 1.3164306917211475e-05, 'epoch': 0.42}
 42%|████▏     | 2760/6640 [1:43:20<17:25:33, 16.17s/it] 42%|████▏     | 2761/6640 [1:43:36<17:32:00, 16.27s/it]                                                        {'loss': 0.5381, 'learning_rate': 1.3159678957188237e-05, 'epoch': 0.42}
 42%|████▏     | 2761/6640 [1:43:36<17:32:00, 16.27s/it] 42%|████▏     | 2762/6640 [1:43:54<17:49:39, 16.55s/it]                                                        {'loss': 0.5294, 'learning_rate': 1.3155050245246171e-05, 'epoch': 0.42}
 42%|████▏     | 2762/6640 [1:43:54<17:49:39, 16.55s/it] 42%|████▏     | 2763/6640 [1:44:11<17:57:27, 16.67s/it]                                                        {'loss': 0.533, 'learning_rate': 1.3150420782486784e-05, 'epoch': 0.42}
 42%|████▏     | 2763/6640 [1:44:11<17:57:27, 16.67s/it] 42%|████▏     | 2764/6640 [1:44:27<17:50:57, 16.58s/it]                                                        {'loss': 0.5576, 'learning_rate': 1.3145790570011767e-05, 'epoch': 0.42}
 42%|████▏     | 2764/6640 [1:44:27<17:50:57, 16.58s/it] 42%|████▏     | 2765/6640 [1:44:43<17:43:50, 16.47s/it]                                                        {'loss': 0.5326, 'learning_rate': 1.3141159608922984e-05, 'epoch': 0.42}
 42%|████▏     | 2765/6640 [1:44:43<17:43:50, 16.47s/it] 42%|████▏     | 2766/6640 [1:45:00<17:59:12, 16.71s/it]                                                        {'loss': 0.5375, 'learning_rate': 1.3136527900322483e-05, 'epoch': 0.42}
 42%|████▏     | 2766/6640 [1:45:00<17:59:12, 16.71s/it] 42%|████▏     | 2767/6640 [1:45:17<17:50:53, 16.59s/it]                                                        {'loss': 0.5276, 'learning_rate': 1.3131895445312481e-05, 'epoch': 0.42}
 42%|████▏     | 2767/6640 [1:45:17<17:50:53, 16.59s/it] 42%|████▏     | 2768/6640 [1:45:32<17:31:14, 16.29s/it]                                                        {'loss': 0.5193, 'learning_rate': 1.3127262244995383e-05, 'epoch': 0.42}
 42%|████▏     | 2768/6640 [1:45:32<17:31:14, 16.29s/it] 42%|████▏     | 2769/6640 [1:45:49<17:34:31, 16.35s/it]                                                        {'loss': 0.5445, 'learning_rate': 1.3122628300473763e-05, 'epoch': 0.42}
 42%|████▏     | 2769/6640 [1:45:49<17:34:31, 16.35s/it] 42%|████▏     | 2770/6640 [1:46:06<17:48:18, 16.56s/it]                                                        {'loss': 0.5256, 'learning_rate': 1.3117993612850377e-05, 'epoch': 0.42}
 42%|████▏     | 2770/6640 [1:46:06<17:48:18, 16.56s/it] 42%|████▏     | 2771/6640 [1:46:22<17:41:47, 16.47s/it]                                                        {'loss': 0.498, 'learning_rate': 1.3113358183228157e-05, 'epoch': 0.42}
 42%|████▏     | 2771/6640 [1:46:22<17:41:47, 16.47s/it] 42%|████▏     | 2772/6640 [1:46:39<17:44:56, 16.52s/it]                                                        {'loss': 0.5262, 'learning_rate': 1.310872201271021e-05, 'epoch': 0.42}
 42%|████▏     | 2772/6640 [1:46:39<17:44:56, 16.52s/it] 42%|████▏     | 2773/6640 [1:46:55<17:49:22, 16.59s/it]                                                        {'loss': 0.5085, 'learning_rate': 1.3104085102399822e-05, 'epoch': 0.42}
 42%|████▏     | 2773/6640 [1:46:55<17:49:22, 16.59s/it] 42%|████▏     | 2774/6640 [1:47:11<17:37:08, 16.41s/it]                                                        {'loss': 0.5262, 'learning_rate': 1.3099447453400447e-05, 'epoch': 0.42}
 42%|████▏     | 2774/6640 [1:47:11<17:37:08, 16.41s/it] 42%|████▏     | 2775/6640 [1:47:27<17:26:44, 16.25s/it]                                                        {'loss': 0.5267, 'learning_rate': 1.3094809066815731e-05, 'epoch': 0.42}
 42%|████▏     | 2775/6640 [1:47:27<17:26:44, 16.25s/it] 42%|████▏     | 2776/6640 [1:47:43<17:22:18, 16.18s/it]                                                        {'loss': 0.5244, 'learning_rate': 1.3090169943749475e-05, 'epoch': 0.42}
 42%|████▏     | 2776/6640 [1:47:43<17:22:18, 16.18s/it] 42%|████▏     | 2777/6640 [1:48:01<17:42:30, 16.50s/it]                                                        {'loss': 0.5413, 'learning_rate': 1.3085530085305673e-05, 'epoch': 0.42}
 42%|████▏     | 2777/6640 [1:48:01<17:42:30, 16.50s/it] 42%|████▏     | 2778/6640 [1:48:16<17:30:08, 16.32s/it]                                                        {'loss': 0.5317, 'learning_rate': 1.3080889492588487e-05, 'epoch': 0.42}
 42%|████▏     | 2778/6640 [1:48:16<17:30:08, 16.32s/it] 42%|████▏     | 2779/6640 [1:48:33<17:25:11, 16.24s/it]                                                        {'loss': 0.5369, 'learning_rate': 1.307624816670225e-05, 'epoch': 0.42}
 42%|████▏     | 2779/6640 [1:48:33<17:25:11, 16.24s/it] 42%|████▏     | 2780/6640 [1:48:50<17:47:49, 16.60s/it]                                                        {'loss': 0.5266, 'learning_rate': 1.3071606108751475e-05, 'epoch': 0.42}
 42%|████▏     | 2780/6640 [1:48:50<17:47:49, 16.60s/it] 42%|████▏     | 2781/6640 [1:49:06<17:43:08, 16.53s/it]                                                        {'loss': 0.5501, 'learning_rate': 1.3066963319840846e-05, 'epoch': 0.42}
 42%|████▏     | 2781/6640 [1:49:06<17:43:08, 16.53s/it] 42%|████▏     | 2782/6640 [1:49:22<17:30:33, 16.34s/it]                                                        {'loss': 0.5351, 'learning_rate': 1.3062319801075225e-05, 'epoch': 0.42}
 42%|████▏     | 2782/6640 [1:49:22<17:30:33, 16.34s/it] 42%|████▏     | 2783/6640 [1:49:38<17:21:01, 16.19s/it]                                                        {'loss': 0.5292, 'learning_rate': 1.3057675553559638e-05, 'epoch': 0.42}
 42%|████▏     | 2783/6640 [1:49:38<17:21:01, 16.19s/it] 42%|████▏     | 2784/6640 [1:49:54<17:21:23, 16.20s/it]                                                        {'loss': 0.5396, 'learning_rate': 1.3053030578399301e-05, 'epoch': 0.42}
 42%|████▏     | 2784/6640 [1:49:54<17:21:23, 16.20s/it] 42%|████▏     | 2785/6640 [1:50:11<17:22:23, 16.22s/it]                                                        {'loss': 0.5271, 'learning_rate': 1.3048384876699588e-05, 'epoch': 0.42}
 42%|████▏     | 2785/6640 [1:50:11<17:22:23, 16.22s/it] 42%|████▏     | 2786/6640 [1:50:26<17:13:18, 16.09s/it]                                                        {'loss': 0.5472, 'learning_rate': 1.304373844956605e-05, 'epoch': 0.42}
 42%|████▏     | 2786/6640 [1:50:26<17:13:18, 16.09s/it] 42%|████▏     | 2787/6640 [1:50:43<17:16:18, 16.14s/it]                                                        {'loss': 0.5407, 'learning_rate': 1.3039091298104415e-05, 'epoch': 0.42}
 42%|████▏     | 2787/6640 [1:50:43<17:16:18, 16.14s/it] 42%|████▏     | 2788/6640 [1:50:59<17:22:11, 16.23s/it]                                                        {'loss': 0.5402, 'learning_rate': 1.3034443423420582e-05, 'epoch': 0.42}
 42%|████▏     | 2788/6640 [1:50:59<17:22:11, 16.23s/it] 42%|████▏     | 2789/6640 [1:51:15<17:24:55, 16.28s/it]                                                        {'loss': 0.5492, 'learning_rate': 1.3029794826620616e-05, 'epoch': 0.42}
 42%|████▏     | 2789/6640 [1:51:15<17:24:55, 16.28s/it] 42%|████▏     | 2790/6640 [1:51:32<17:21:00, 16.22s/it]                                                        {'loss': 0.5429, 'learning_rate': 1.302514550881076e-05, 'epoch': 0.42}
 42%|████▏     | 2790/6640 [1:51:32<17:21:00, 16.22s/it] 42%|████▏     | 2791/6640 [1:51:48<17:25:23, 16.30s/it]                                                        {'loss': 0.5382, 'learning_rate': 1.3020495471097428e-05, 'epoch': 0.42}
 42%|████▏     | 2791/6640 [1:51:48<17:25:23, 16.30s/it] 42%|████▏     | 2792/6640 [1:52:05<17:40:20, 16.53s/it]                                                        {'loss': 0.5387, 'learning_rate': 1.3015844714587203e-05, 'epoch': 0.42}
 42%|████▏     | 2792/6640 [1:52:05<17:40:20, 16.53s/it] 42%|████▏     | 2793/6640 [1:52:21<17:25:01, 16.30s/it]                                                        {'loss': 0.5368, 'learning_rate': 1.3011193240386838e-05, 'epoch': 0.42}
 42%|████▏     | 2793/6640 [1:52:21<17:25:01, 16.30s/it] 42%|████▏     | 2794/6640 [1:52:37<17:29:53, 16.38s/it]                                                        {'loss': 0.5322, 'learning_rate': 1.3006541049603265e-05, 'epoch': 0.42}
 42%|████▏     | 2794/6640 [1:52:37<17:29:53, 16.38s/it] 42%|████▏     | 2795/6640 [1:52:54<17:35:48, 16.48s/it]                                                        {'loss': 0.5554, 'learning_rate': 1.3001888143343578e-05, 'epoch': 0.42}
 42%|████▏     | 2795/6640 [1:52:54<17:35:48, 16.48s/it] 42%|████▏     | 2796/6640 [1:53:11<17:40:45, 16.56s/it]                                                        {'loss': 0.5324, 'learning_rate': 1.2997234522715041e-05, 'epoch': 0.42}
 42%|████▏     | 2796/6640 [1:53:11<17:40:45, 16.56s/it] 42%|████▏     | 2797/6640 [1:53:28<17:55:09, 16.79s/it]                                                        {'loss': 0.557, 'learning_rate': 1.2992580188825093e-05, 'epoch': 0.42}
 42%|████▏     | 2797/6640 [1:53:28<17:55:09, 16.79s/it] 42%|████▏     | 2798/6640 [1:53:46<18:13:02, 17.07s/it]                                                        {'loss': 0.5275, 'learning_rate': 1.2987925142781344e-05, 'epoch': 0.42}
 42%|████▏     | 2798/6640 [1:53:46<18:13:02, 17.07s/it] 42%|████▏     | 2799/6640 [1:54:02<17:55:09, 16.80s/it]                                                        {'loss': 0.5376, 'learning_rate': 1.2983269385691562e-05, 'epoch': 0.42}
 42%|████▏     | 2799/6640 [1:54:02<17:55:09, 16.80s/it]4 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 42%|████▏     | 2800/6640 [1:54:19<17:51:39, 16.74s/it]                                                        {'loss': 0.5324, 'learning_rate': 1.2978612918663702e-05, 'epoch': 0.42}
 42%|████▏     | 2800/6640 [1:54:19<17:51:39, 16.74s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2800/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2800/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2800/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 42%|████▏     | 2801/6640 [1:56:07<47:00:28, 44.08s/it]                                                        {'loss': 0.5298, 'learning_rate': 1.297395574280587e-05, 'epoch': 0.42}
 42%|████▏     | 2801/6640 [1:56:07<47:00:28, 44.08s/it] 42%|████▏     | 2802/6640 [1:56:22<37:57:01, 35.60s/it]                                                        {'loss': 0.5447, 'learning_rate': 1.296929785922635e-05, 'epoch': 0.42}
 42%|████▏     | 2802/6640 [1:56:22<37:57:01, 35.60s/it] 42%|████▏     | 2803/6640 [1:56:39<31:58:10, 29.99s/it]                                                        {'loss': 0.5374, 'learning_rate': 1.2964639269033601e-05, 'epoch': 0.42}
 42%|████▏     | 2803/6640 [1:56:39<31:58:10, 29.99s/it] 42%|████▏     | 2804/6640 [1:56:55<27:27:27, 25.77s/it]                                                        {'loss': 0.5244, 'learning_rate': 1.2959979973336236e-05, 'epoch': 0.42}
 42%|████▏     | 2804/6640 [1:56:55<27:27:27, 25.77s/it] 42%|████▏     | 2805/6640 [1:57:11<24:24:56, 22.92s/it]                                                        {'loss': 0.5215, 'learning_rate': 1.2955319973243043e-05, 'epoch': 0.42}
 42%|████▏     | 2805/6640 [1:57:11<24:24:56, 22.92s/it] 42%|████▏     | 2806/6640 [1:57:27<22:07:30, 20.77s/it]                                                        {'loss': 0.5523, 'learning_rate': 1.2950659269862975e-05, 'epoch': 0.42}
 42%|████▏     | 2806/6640 [1:57:27<22:07:30, 20.77s/it] 42%|████▏     | 2807/6640 [1:57:44<20:55:19, 19.65s/it]                                                        {'loss': 0.5295, 'learning_rate': 1.294599786430516e-05, 'epoch': 0.42}
 42%|████▏     | 2807/6640 [1:57:44<20:55:19, 19.65s/it] 42%|████▏     | 2808/6640 [1:58:01<19:58:20, 18.76s/it]                                                        {'loss': 0.5291, 'learning_rate': 1.2941335757678883e-05, 'epoch': 0.42}
 42%|████▏     | 2808/6640 [1:58:01<19:58:20, 18.76s/it] 42%|████▏     | 2809/6640 [1:58:16<18:53:11, 17.75s/it]                                                        {'loss': 0.5246, 'learning_rate': 1.2936672951093602e-05, 'epoch': 0.42}
 42%|████▏     | 2809/6640 [1:58:16<18:53:11, 17.75s/it] 42%|████▏     | 2810/6640 [1:58:32<18:20:01, 17.23s/it]                                                        {'loss': 0.5241, 'learning_rate': 1.293200944565894e-05, 'epoch': 0.42}
 42%|████▏     | 2810/6640 [1:58:32<18:20:01, 17.23s/it] 42%|████▏     | 2811/6640 [1:58:50<18:21:35, 17.26s/it]                                                        {'loss': 0.5324, 'learning_rate': 1.2927345242484683e-05, 'epoch': 0.42}
 42%|████▏     | 2811/6640 [1:58:50<18:21:35, 17.26s/it] 42%|████▏     | 2812/6640 [1:59:05<17:52:27, 16.81s/it]                                                        {'loss': 0.5481, 'learning_rate': 1.2922680342680792e-05, 'epoch': 0.42}
 42%|████▏     | 2812/6640 [1:59:05<17:52:27, 16.81s/it] 42%|████▏     | 2813/6640 [1:59:22<17:50:48, 16.79s/it]                                                        {'loss': 0.5293, 'learning_rate': 1.2918014747357384e-05, 'epoch': 0.42}
 42%|████▏     | 2813/6640 [1:59:22<17:50:48, 16.79s/it] 42%|████▏     | 2814/6640 [1:59:39<17:42:29, 16.66s/it]                                                        {'loss': 0.5343, 'learning_rate': 1.2913348457624746e-05, 'epoch': 0.42}
 42%|████▏     | 2814/6640 [1:59:39<17:42:29, 16.66s/it] 42%|████▏     | 2815/6640 [1:59:54<17:28:06, 16.44s/it]                                                        {'loss': 0.5312, 'learning_rate': 1.290868147459333e-05, 'epoch': 0.42}
 42%|████▏     | 2815/6640 [1:59:54<17:28:06, 16.44s/it] 42%|████▏     | 2816/6640 [2:00:10<17:13:49, 16.22s/it]                                                        {'loss': 0.5403, 'learning_rate': 1.2904013799373755e-05, 'epoch': 0.42}
 42%|████▏     | 2816/6640 [2:00:10<17:13:49, 16.22s/it] 42%|████▏     | 2817/6640 [2:00:26<17:06:38, 16.11s/it]                                                        {'loss': 0.5365, 'learning_rate': 1.2899345433076797e-05, 'epoch': 0.42}
 42%|████▏     | 2817/6640 [2:00:26<17:06:38, 16.11s/it] 42%|████▏     | 2818/6640 [2:00:42<17:11:41, 16.20s/it]                                                        {'loss': 0.5319, 'learning_rate': 1.289467637681341e-05, 'epoch': 0.42}
 42%|████▏     | 2818/6640 [2:00:42<17:11:41, 16.20s/it] 42%|████▏     | 2819/6640 [2:00:59<17:22:25, 16.37s/it]                                                        {'loss': 0.5388, 'learning_rate': 1.2890006631694693e-05, 'epoch': 0.42}
 42%|████▏     | 2819/6640 [2:00:59<17:22:25, 16.37s/it] 42%|████▏     | 2820/6640 [2:01:16<17:23:00, 16.38s/it]                                                        {'loss': 0.563, 'learning_rate': 1.2885336198831933e-05, 'epoch': 0.42}
 42%|████▏     | 2820/6640 [2:01:16<17:23:00, 16.38s/it] 42%|████▏     | 2821/6640 [2:01:32<17:25:41, 16.43s/it]                                                        {'loss': 0.5664, 'learning_rate': 1.2880665079336558e-05, 'epoch': 0.42}
 42%|████▏     | 2821/6640 [2:01:32<17:25:41, 16.43s/it] 42%|████▎     | 2822/6640 [2:01:49<17:36:10, 16.60s/it]                                                        {'loss': 0.5629, 'learning_rate': 1.2875993274320173e-05, 'epoch': 0.42}
 42%|████▎     | 2822/6640 [2:01:49<17:36:10, 16.60s/it] 43%|████▎     | 2823/6640 [2:02:05<17:25:42, 16.44s/it]                                                        {'loss': 0.5275, 'learning_rate': 1.2871320784894544e-05, 'epoch': 0.43}
 43%|████▎     | 2823/6640 [2:02:05<17:25:42, 16.44s/it] 43%|████▎     | 2824/6640 [2:02:22<17:28:01, 16.48s/it]                                                        {'loss': 0.5365, 'learning_rate': 1.2866647612171594e-05, 'epoch': 0.43}
 43%|████▎     | 2824/6640 [2:02:22<17:28:01, 16.48s/it] 43%|████▎     | 2825/6640 [2:02:39<17:42:13, 16.71s/it]                                                        {'loss': 0.5316, 'learning_rate': 1.2861973757263416e-05, 'epoch': 0.43}
 43%|████▎     | 2825/6640 [2:02:39<17:42:13, 16.71s/it] 43%|████▎     | 2826/6640 [2:02:56<17:40:11, 16.68s/it]                                                        {'loss': 0.5258, 'learning_rate': 1.2857299221282259e-05, 'epoch': 0.43}
 43%|████▎     | 2826/6640 [2:02:56<17:40:11, 16.68s/it] 43%|████▎     | 2827/6640 [2:03:11<17:23:13, 16.42s/it]                                                        {'loss': 0.5423, 'learning_rate': 1.285262400534054e-05, 'epoch': 0.43}
 43%|████▎     | 2827/6640 [2:03:11<17:23:13, 16.42s/it] 43%|████▎     | 2828/6640 [2:03:28<17:27:24, 16.49s/it]                                                        {'loss': 0.5398, 'learning_rate': 1.284794811055083e-05, 'epoch': 0.43}
 43%|████▎     | 2828/6640 [2:03:28<17:27:24, 16.49s/it] 43%|████▎     | 2829/6640 [2:03:45<17:36:01, 16.63s/it]                                                        {'loss': 0.5156, 'learning_rate': 1.2843271538025874e-05, 'epoch': 0.43}
 43%|████▎     | 2829/6640 [2:03:45<17:36:01, 16.63s/it] 43%|████▎     | 2830/6640 [2:04:02<17:36:09, 16.63s/it]                                                        {'loss': 0.5474, 'learning_rate': 1.2838594288878567e-05, 'epoch': 0.43}
 43%|████▎     | 2830/6640 [2:04:02<17:36:09, 16.63s/it] 43%|████▎     | 2831/6640 [2:04:18<17:32:10, 16.57s/it]                                                        {'loss': 0.5308, 'learning_rate': 1.283391636422197e-05, 'epoch': 0.43}
 43%|████▎     | 2831/6640 [2:04:18<17:32:10, 16.57s/it] 43%|████▎     | 2832/6640 [2:04:34<17:14:35, 16.30s/it]                                                        {'loss': 0.5399, 'learning_rate': 1.28292377651693e-05, 'epoch': 0.43}
 43%|████▎     | 2832/6640 [2:04:34<17:14:35, 16.30s/it] 43%|████▎     | 2833/6640 [2:04:50<17:03:29, 16.13s/it]                                                        {'loss': 0.5341, 'learning_rate': 1.2824558492833944e-05, 'epoch': 0.43}
 43%|████▎     | 2833/6640 [2:04:50<17:03:29, 16.13s/it] 43%|████▎     | 2834/6640 [2:05:07<17:22:48, 16.44s/it]                                                        {'loss': 0.5308, 'learning_rate': 1.2819878548329439e-05, 'epoch': 0.43}
 43%|████▎     | 2834/6640 [2:05:07<17:22:48, 16.44s/it] 43%|████▎     | 2835/6640 [2:05:22<17:07:12, 16.20s/it]                                                        {'loss': 0.5395, 'learning_rate': 1.2815197932769486e-05, 'epoch': 0.43}
 43%|████▎     | 2835/6640 [2:05:22<17:07:12, 16.20s/it] 43%|████▎     | 2836/6640 [2:05:39<17:07:26, 16.21s/it]                                                        {'loss': 0.5204, 'learning_rate': 1.2810516647267946e-05, 'epoch': 0.43}
 43%|████▎     | 2836/6640 [2:05:39<17:07:26, 16.21s/it] 43%|████▎     | 2837/6640 [2:05:55<17:14:44, 16.33s/it]                                                        {'loss': 0.5435, 'learning_rate': 1.2805834692938841e-05, 'epoch': 0.43}
 43%|████▎     | 2837/6640 [2:05:55<17:14:44, 16.33s/it] 43%|████▎     | 2838/6640 [2:06:11<17:07:44, 16.22s/it]                                                        {'loss': 0.548, 'learning_rate': 1.2801152070896352e-05, 'epoch': 0.43}
 43%|████▎     | 2838/6640 [2:06:11<17:07:44, 16.22s/it] 43%|████▎     | 2839/6640 [2:06:28<17:26:12, 16.51s/it]                                                        {'loss': 0.5414, 'learning_rate': 1.2796468782254814e-05, 'epoch': 0.43}
 43%|████▎     | 2839/6640 [2:06:28<17:26:12, 16.51s/it] 43%|████▎     | 2840/6640 [2:06:45<17:32:10, 16.61s/it]                                                        {'loss': 0.547, 'learning_rate': 1.2791784828128727e-05, 'epoch': 0.43}
 43%|████▎     | 2840/6640 [2:06:45<17:32:10, 16.61s/it] 43%|████▎     | 2841/6640 [2:07:01<17:08:41, 16.25s/it]                                                        {'loss': 0.5586, 'learning_rate': 1.2787100209632741e-05, 'epoch': 0.43}
 43%|████▎     | 2841/6640 [2:07:01<17:08:41, 16.25s/it] 43%|████▎     | 2842/6640 [2:07:17<17:15:28, 16.36s/it]                                                        {'loss': 0.5311, 'learning_rate': 1.278241492788168e-05, 'epoch': 0.43}
 43%|████▎     | 2842/6640 [2:07:17<17:15:28, 16.36s/it] 43%|████▎     | 2843/6640 [2:07:33<17:13:21, 16.33s/it]                                                        {'loss': 0.5115, 'learning_rate': 1.2777728983990502e-05, 'epoch': 0.43}
 43%|████▎     | 2843/6640 [2:07:33<17:13:21, 16.33s/it] 43%|████▎     | 2844/6640 [2:07:50<17:16:26, 16.38s/it]                                                        {'loss': 0.5398, 'learning_rate': 1.2773042379074345e-05, 'epoch': 0.43}
 43%|████▎     | 2844/6640 [2:07:50<17:16:26, 16.38s/it] 43%|████▎     | 2845/6640 [2:08:06<17:11:25, 16.31s/it]                                                        {'loss': 0.5263, 'learning_rate': 1.2768355114248493e-05, 'epoch': 0.43}
 43%|████▎     | 2845/6640 [2:08:06<17:11:25, 16.31s/it] 43%|████▎     | 2846/6640 [2:08:23<17:14:03, 16.35s/it]                                                        {'loss': 0.521, 'learning_rate': 1.2763667190628391e-05, 'epoch': 0.43}
 43%|████▎     | 2846/6640 [2:08:23<17:14:03, 16.35s/it] 43%|████▎     | 2847/6640 [2:08:40<17:32:59, 16.66s/it]                                                        {'loss': 0.5524, 'learning_rate': 1.2758978609329638e-05, 'epoch': 0.43}
 43%|████▎     | 2847/6640 [2:08:40<17:32:59, 16.66s/it] 43%|████▎     | 2848/6640 [2:08:56<17:22:37, 16.50s/it]                                                        {'loss': 0.5344, 'learning_rate': 1.2754289371467987e-05, 'epoch': 0.43}
 43%|████▎     | 2848/6640 [2:08:56<17:22:37, 16.50s/it] 43%|████▎     | 2849/6640 [2:09:13<17:22:58, 16.51s/it]                                                        {'loss': 0.5193, 'learning_rate': 1.2749599478159356e-05, 'epoch': 0.43}
 43%|████▎     | 2849/6640 [2:09:13<17:22:58, 16.51s/it]1 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
76  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

3 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 43%|████▎     | 2850/6640 [2:09:29<17:14:49, 16.38s/it]                                                        {'loss': 0.5534, 'learning_rate': 1.274490893051981e-05, 'epoch': 0.43}
 43%|████▎     | 2850/6640 [2:09:29<17:14:49, 16.38s/it] 43%|████▎     | 2851/6640 [2:09:45<17:15:55, 16.40s/it]                                                        {'loss': 0.5257, 'learning_rate': 1.2740217729665579e-05, 'epoch': 0.43}
 43%|████▎     | 2851/6640 [2:09:45<17:15:55, 16.40s/it] 43%|████▎     | 2852/6640 [2:10:02<17:17:33, 16.43s/it]                                                        {'loss': 0.5242, 'learning_rate': 1.2735525876713033e-05, 'epoch': 0.43}
 43%|████▎     | 2852/6640 [2:10:02<17:17:33, 16.43s/it] 43%|████▎     | 2853/6640 [2:10:18<17:14:18, 16.39s/it]                                                        {'loss': 0.5249, 'learning_rate': 1.2730833372778714e-05, 'epoch': 0.43}
 43%|████▎     | 2853/6640 [2:10:18<17:14:18, 16.39s/it] 43%|████▎     | 2854/6640 [2:10:34<17:13:17, 16.38s/it]                                                        {'loss': 0.5213, 'learning_rate': 1.2726140218979314e-05, 'epoch': 0.43}
 43%|████▎     | 2854/6640 [2:10:34<17:13:17, 16.38s/it] 43%|████▎     | 2855/6640 [2:10:51<17:13:25, 16.38s/it]                                                        {'loss': 0.53, 'learning_rate': 1.2721446416431676e-05, 'epoch': 0.43}
 43%|████▎     | 2855/6640 [2:10:51<17:13:25, 16.38s/it] 43%|████▎     | 2856/6640 [2:11:07<17:09:03, 16.32s/it]                                                        {'loss': 0.5424, 'learning_rate': 1.2716751966252797e-05, 'epoch': 0.43}
 43%|████▎     | 2856/6640 [2:11:07<17:09:03, 16.32s/it] 43%|████▎     | 2857/6640 [2:11:23<17:05:41, 16.27s/it]                                                        {'loss': 0.5419, 'learning_rate': 1.2712056869559829e-05, 'epoch': 0.43}
 43%|████▎     | 2857/6640 [2:11:23<17:05:41, 16.27s/it] 43%|████▎     | 2858/6640 [2:11:39<17:04:07, 16.25s/it]                                                        {'loss': 0.538, 'learning_rate': 1.2707361127470081e-05, 'epoch': 0.43}
 43%|████▎     | 2858/6640 [2:11:39<17:04:07, 16.25s/it] 43%|████▎     | 2859/6640 [2:11:55<16:56:34, 16.13s/it]                                                        {'loss': 0.5281, 'learning_rate': 1.2702664741101014e-05, 'epoch': 0.43}
 43%|████▎     | 2859/6640 [2:11:55<16:56:34, 16.13s/it] 43%|████▎     | 2860/6640 [2:12:11<16:51:34, 16.06s/it]                                                        {'loss': 0.5302, 'learning_rate': 1.2697967711570243e-05, 'epoch': 0.43}
 43%|████▎     | 2860/6640 [2:12:11<16:51:34, 16.06s/it] 43%|████▎     | 2861/6640 [2:12:28<17:06:58, 16.31s/it]                                                        {'loss': 0.5385, 'learning_rate': 1.2693270039995536e-05, 'epoch': 0.43}
 43%|████▎     | 2861/6640 [2:12:28<17:06:58, 16.31s/it] 43%|████▎     | 2862/6640 [2:12:44<16:59:16, 16.19s/it]                                                        {'loss': 0.5164, 'learning_rate': 1.2688571727494807e-05, 'epoch': 0.43}
 43%|████▎     | 2862/6640 [2:12:44<16:59:16, 16.19s/it] 43%|████▎     | 2863/6640 [2:13:01<17:17:00, 16.47s/it]                                                        {'loss': 0.5292, 'learning_rate': 1.2683872775186134e-05, 'epoch': 0.43}
 43%|████▎     | 2863/6640 [2:13:01<17:17:00, 16.47s/it] 43%|████▎     | 2864/6640 [2:13:19<17:44:16, 16.91s/it]                                                        {'loss': 0.5142, 'learning_rate': 1.2679173184187738e-05, 'epoch': 0.43}
 43%|████▎     | 2864/6640 [2:13:19<17:44:16, 16.91s/it] 43%|████▎     | 2865/6640 [2:13:36<17:42:18, 16.88s/it]                                                        {'loss': 0.5148, 'learning_rate': 1.2674472955618001e-05, 'epoch': 0.43}
 43%|████▎     | 2865/6640 [2:13:36<17:42:18, 16.88s/it] 43%|████▎     | 2866/6640 [2:13:52<17:33:37, 16.75s/it]                                                        {'loss': 0.5099, 'learning_rate': 1.2669772090595443e-05, 'epoch': 0.43}
 43%|████▎     | 2866/6640 [2:13:52<17:33:37, 16.75s/it] 43%|████▎     | 2867/6640 [2:14:09<17:28:45, 16.68s/it]                                                        {'loss': 0.5479, 'learning_rate': 1.2665070590238753e-05, 'epoch': 0.43}
 43%|████▎     | 2867/6640 [2:14:09<17:28:45, 16.68s/it] 43%|████▎     | 2868/6640 [2:14:26<17:40:38, 16.87s/it]                                                        {'loss': 0.5315, 'learning_rate': 1.2660368455666752e-05, 'epoch': 0.43}
 43%|████▎     | 2868/6640 [2:14:26<17:40:38, 16.87s/it] 43%|████▎     | 2869/6640 [2:14:43<17:40:19, 16.87s/it]                                                        {'loss': 0.5282, 'learning_rate': 1.2655665687998428e-05, 'epoch': 0.43}
 43%|████▎     | 2869/6640 [2:14:43<17:40:19, 16.87s/it] 43%|████▎     | 2870/6640 [2:14:59<17:29:11, 16.70s/it]                                                        {'loss': 0.5355, 'learning_rate': 1.2650962288352916e-05, 'epoch': 0.43}
 43%|████▎     | 2870/6640 [2:14:59<17:29:11, 16.70s/it] 43%|████▎     | 2871/6640 [2:15:16<17:35:47, 16.81s/it]                                                        {'loss': 0.5292, 'learning_rate': 1.2646258257849494e-05, 'epoch': 0.43}
 43%|████▎     | 2871/6640 [2:15:16<17:35:47, 16.81s/it] 43%|████▎     | 2872/6640 [2:15:33<17:37:09, 16.83s/it]                                                        {'loss': 0.5233, 'learning_rate': 1.2641553597607597e-05, 'epoch': 0.43}
 43%|████▎     | 2872/6640 [2:15:33<17:37:09, 16.83s/it] 43%|████▎     | 2873/6640 [2:15:49<17:20:06, 16.57s/it]                                                        {'loss': 0.5371, 'learning_rate': 1.2636848308746808e-05, 'epoch': 0.43}
 43%|████▎     | 2873/6640 [2:15:49<17:20:06, 16.57s/it] 43%|████▎     | 2874/6640 [2:16:05<17:17:40, 16.53s/it]                                                        {'loss': 0.5254, 'learning_rate': 1.263214239238686e-05, 'epoch': 0.43}
 43%|████▎     | 2874/6640 [2:16:05<17:17:40, 16.53s/it] 43%|████▎     | 2875/6640 [2:16:22<17:24:01, 16.64s/it]                                                        {'loss': 0.5289, 'learning_rate': 1.2627435849647629e-05, 'epoch': 0.43}
 43%|████▎     | 2875/6640 [2:16:22<17:24:01, 16.64s/it] 43%|████▎     | 2876/6640 [2:16:39<17:29:34, 16.73s/it]                                                        {'loss': 0.5326, 'learning_rate': 1.2622728681649155e-05, 'epoch': 0.43}
 43%|████▎     | 2876/6640 [2:16:39<17:29:34, 16.73s/it] 43%|████▎     | 2877/6640 [2:16:56<17:27:05, 16.70s/it]                                                        {'loss': 0.5514, 'learning_rate': 1.2618020889511612e-05, 'epoch': 0.43}
 43%|████▎     | 2877/6640 [2:16:56<17:27:05, 16.70s/it] 43%|████▎     | 2878/6640 [2:17:13<17:28:01, 16.71s/it]                                                        {'loss': 0.5472, 'learning_rate': 1.261331247435533e-05, 'epoch': 0.43}
 43%|████▎     | 2878/6640 [2:17:13<17:28:01, 16.71s/it] 43%|████▎     | 2879/6640 [2:17:29<17:24:08, 16.66s/it]                                                        {'loss': 0.5419, 'learning_rate': 1.2608603437300788e-05, 'epoch': 0.43}
 43%|████▎     | 2879/6640 [2:17:29<17:24:08, 16.66s/it] 43%|████▎     | 2880/6640 [2:17:46<17:25:56, 16.69s/it]                                                        {'loss': 0.5273, 'learning_rate': 1.2603893779468604e-05, 'epoch': 0.43}
 43%|████▎     | 2880/6640 [2:17:46<17:25:56, 16.69s/it] 43%|████▎     | 2881/6640 [2:18:02<17:15:21, 16.53s/it]                                                        {'loss': 0.5163, 'learning_rate': 1.2599183501979558e-05, 'epoch': 0.43}
 43%|████▎     | 2881/6640 [2:18:02<17:15:21, 16.53s/it] 43%|████▎     | 2882/6640 [2:18:19<17:30:54, 16.78s/it]                                                        {'loss': 0.5512, 'learning_rate': 1.2594472605954561e-05, 'epoch': 0.43}
 43%|████▎     | 2882/6640 [2:18:19<17:30:54, 16.78s/it] 43%|████▎     | 2883/6640 [2:18:37<17:38:08, 16.90s/it]                                                        {'loss': 0.5518, 'learning_rate': 1.258976109251469e-05, 'epoch': 0.43}
 43%|████▎     | 2883/6640 [2:18:37<17:38:08, 16.90s/it] 43%|████▎     | 2884/6640 [2:18:52<17:10:58, 16.47s/it]                                                        {'loss': 0.5198, 'learning_rate': 1.2585048962781148e-05, 'epoch': 0.43}
 43%|████▎     | 2884/6640 [2:18:52<17:10:58, 16.47s/it] 43%|████▎     | 2885/6640 [2:19:07<16:44:21, 16.05s/it]                                                        {'loss': 0.54, 'learning_rate': 1.2580336217875303e-05, 'epoch': 0.43}
 43%|████▎     | 2885/6640 [2:19:07<16:44:21, 16.05s/it] 43%|████▎     | 2886/6640 [2:19:24<16:52:00, 16.17s/it]                                                        {'loss': 0.5266, 'learning_rate': 1.257562285891866e-05, 'epoch': 0.43}
 43%|████▎     | 2886/6640 [2:19:24<16:52:00, 16.17s/it] 43%|████▎     | 2887/6640 [2:19:40<16:54:23, 16.22s/it]                                                        {'loss': 0.546, 'learning_rate': 1.2570908887032872e-05, 'epoch': 0.43}
 43%|████▎     | 2887/6640 [2:19:40<16:54:23, 16.22s/it] 43%|████▎     | 2888/6640 [2:19:56<17:01:21, 16.33s/it]                                                        {'loss': 0.5212, 'learning_rate': 1.2566194303339738e-05, 'epoch': 0.43}
 43%|████▎     | 2888/6640 [2:19:57<17:01:21, 16.33s/it] 44%|████▎     | 2889/6640 [2:20:13<17:01:31, 16.34s/it]                                                        {'loss': 0.5223, 'learning_rate': 1.2561479108961201e-05, 'epoch': 0.44}
 44%|████▎     | 2889/6640 [2:20:13<17:01:31, 16.34s/it] 44%|████▎     | 2890/6640 [2:20:30<17:11:16, 16.50s/it]                                                        {'loss': 0.5237, 'learning_rate': 1.2556763305019353e-05, 'epoch': 0.44}
 44%|████▎     | 2890/6640 [2:20:30<17:11:16, 16.50s/it] 44%|████▎     | 2891/6640 [2:20:46<17:15:41, 16.58s/it]                                                        {'loss': 0.5395, 'learning_rate': 1.2552046892636427e-05, 'epoch': 0.44}
 44%|████▎     | 2891/6640 [2:20:46<17:15:41, 16.58s/it] 44%|████▎     | 2892/6640 [2:21:02<17:01:14, 16.35s/it]                                                        {'loss': 0.5164, 'learning_rate': 1.2547329872934803e-05, 'epoch': 0.44}
 44%|████▎     | 2892/6640 [2:21:02<17:01:14, 16.35s/it] 44%|████▎     | 2893/6640 [2:21:19<17:08:33, 16.47s/it]                                                        {'loss': 0.5148, 'learning_rate': 1.2542612247037005e-05, 'epoch': 0.44}
 44%|████▎     | 2893/6640 [2:21:19<17:08:33, 16.47s/it] 44%|████▎     | 2894/6640 [2:21:36<17:12:57, 16.55s/it]                                                        {'loss': 0.5293, 'learning_rate': 1.2537894016065702e-05, 'epoch': 0.44}
 44%|████▎     | 2894/6640 [2:21:36<17:12:57, 16.55s/it] 44%|████▎     | 2895/6640 [2:21:52<17:15:01, 16.58s/it]                                                        {'loss': 0.5292, 'learning_rate': 1.2533175181143704e-05, 'epoch': 0.44}
 44%|████▎     | 2895/6640 [2:21:52<17:15:01, 16.58s/it] 44%|████▎     | 2896/6640 [2:22:09<17:07:06, 16.46s/it]                                                        {'loss': 0.5533, 'learning_rate': 1.2528455743393972e-05, 'epoch': 0.44}
 44%|████▎     | 2896/6640 [2:22:09<17:07:06, 16.46s/it] 44%|████▎     | 2897/6640 [2:22:26<17:23:08, 16.72s/it]                                                        {'loss': 0.5396, 'learning_rate': 1.2523735703939607e-05, 'epoch': 0.44}
 44%|████▎     | 2897/6640 [2:22:26<17:23:08, 16.72s/it] 44%|████▎     | 2898/6640 [2:22:42<17:17:37, 16.64s/it]                                                        {'loss': 0.52, 'learning_rate': 1.2519015063903841e-05, 'epoch': 0.44}
 44%|████▎     | 2898/6640 [2:22:42<17:17:37, 16.64s/it] 44%|████▎     | 2899/6640 [2:22:59<17:10:22, 16.53s/it]                                                        {'loss': 0.5255, 'learning_rate': 1.2514293824410068e-05, 'epoch': 0.44}
 44%|████▎     | 2899/6640 [2:22:59<17:10:22, 16.53s/it]5 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 44%|████▎     | 2900/6640 [2:23:15<17:05:44, 16.46s/it]                                                        {'loss': 0.5244, 'learning_rate': 1.2509571986581814e-05, 'epoch': 0.44}
 44%|████▎     | 2900/6640 [2:23:15<17:05:44, 16.46s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2900/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2900/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-2900/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 44%|████▎     | 2901/6640 [2:25:03<45:29:57, 43.81s/it]                                                        {'loss': 0.5364, 'learning_rate': 1.250484955154275e-05, 'epoch': 0.44}
 44%|████▎     | 2901/6640 [2:25:03<45:29:57, 43.81s/it] 44%|████▎     | 2902/6640 [2:25:19<36:54:40, 35.55s/it]                                                        {'loss': 0.5373, 'learning_rate': 1.250012652041669e-05, 'epoch': 0.44}
 44%|████▎     | 2902/6640 [2:25:19<36:54:40, 35.55s/it] 44%|████▎     | 2903/6640 [2:25:37<31:23:29, 30.24s/it]                                                        {'loss': 0.5337, 'learning_rate': 1.249540289432759e-05, 'epoch': 0.44}
 44%|████▎     | 2903/6640 [2:25:37<31:23:29, 30.24s/it] 44%|████▎     | 2904/6640 [2:25:53<27:01:44, 26.05s/it]                                                        {'loss': 0.5221, 'learning_rate': 1.2490678674399544e-05, 'epoch': 0.44}
 44%|████▎     | 2904/6640 [2:25:53<27:01:44, 26.05s/it] 44%|████▍     | 2905/6640 [2:26:10<24:09:25, 23.28s/it]                                                        {'loss': 0.5131, 'learning_rate': 1.248595386175679e-05, 'epoch': 0.44}
 44%|████▍     | 2905/6640 [2:26:10<24:09:25, 23.28s/it] 44%|████▍     | 2906/6640 [2:26:26<21:54:22, 21.12s/it]                                                        {'loss': 0.5235, 'learning_rate': 1.2481228457523706e-05, 'epoch': 0.44}
 44%|████▍     | 2906/6640 [2:26:26<21:54:22, 21.12s/it] 44%|████▍     | 2907/6640 [2:26:43<20:32:51, 19.82s/it]                                                        {'loss': 0.5287, 'learning_rate': 1.2476502462824812e-05, 'epoch': 0.44}
 44%|████▍     | 2907/6640 [2:26:43<20:32:51, 19.82s/it] 44%|████▍     | 2908/6640 [2:27:00<19:38:52, 18.95s/it]                                                        {'loss': 0.5391, 'learning_rate': 1.2471775878784768e-05, 'epoch': 0.44}
 44%|████▍     | 2908/6640 [2:27:00<19:38:52, 18.95s/it] 44%|████▍     | 2909/6640 [2:27:16<18:49:32, 18.16s/it]                                                        {'loss': 0.5063, 'learning_rate': 1.2467048706528373e-05, 'epoch': 0.44}
 44%|████▍     | 2909/6640 [2:27:16<18:49:32, 18.16s/it] 44%|████▍     | 2910/6640 [2:27:33<18:28:17, 17.83s/it]                                                        {'loss': 0.5187, 'learning_rate': 1.2462320947180565e-05, 'epoch': 0.44}
 44%|████▍     | 2910/6640 [2:27:33<18:28:17, 17.83s/it] 44%|████▍     | 2911/6640 [2:27:50<18:18:14, 17.67s/it]                                                        {'loss': 0.5241, 'learning_rate': 1.2457592601866432e-05, 'epoch': 0.44}
 44%|████▍     | 2911/6640 [2:27:50<18:18:14, 17.67s/it] 44%|████▍     | 2912/6640 [2:28:07<17:54:06, 17.29s/it]                                                        {'loss': 0.5396, 'learning_rate': 1.2452863671711189e-05, 'epoch': 0.44}
 44%|████▍     | 2912/6640 [2:28:07<17:54:06, 17.29s/it] 44%|████▍     | 2913/6640 [2:28:23<17:30:01, 16.90s/it]                                                        {'loss': 0.5379, 'learning_rate': 1.244813415784019e-05, 'epoch': 0.44}
 44%|████▍     | 2913/6640 [2:28:23<17:30:01, 16.90s/it] 44%|████▍     | 2914/6640 [2:28:38<17:04:00, 16.49s/it]                                                        {'loss': 0.5155, 'learning_rate': 1.2443404061378941e-05, 'epoch': 0.44}
 44%|████▍     | 2914/6640 [2:28:38<17:04:00, 16.49s/it] 44%|████▍     | 2915/6640 [2:28:54<16:57:13, 16.38s/it]                                                        {'loss': 0.5598, 'learning_rate': 1.2438673383453073e-05, 'epoch': 0.44}
 44%|████▍     | 2915/6640 [2:28:54<16:57:13, 16.38s/it] 44%|████▍     | 2916/6640 [2:29:11<17:06:56, 16.55s/it]                                                        {'loss': 0.5318, 'learning_rate': 1.2433942125188359e-05, 'epoch': 0.44}
 44%|████▍     | 2916/6640 [2:29:11<17:06:56, 16.55s/it] 44%|████▍     | 2917/6640 [2:29:27<16:58:41, 16.42s/it]                                                        {'loss': 0.5186, 'learning_rate': 1.2429210287710716e-05, 'epoch': 0.44}
 44%|████▍     | 2917/6640 [2:29:27<16:58:41, 16.42s/it] 44%|████▍     | 2918/6640 [2:29:44<16:59:50, 16.44s/it]                                                        {'loss': 0.5492, 'learning_rate': 1.2424477872146188e-05, 'epoch': 0.44}
 44%|████▍     | 2918/6640 [2:29:44<16:59:50, 16.44s/it] 44%|████▍     | 2919/6640 [2:30:00<16:44:50, 16.20s/it]                                                        {'loss': 0.5254, 'learning_rate': 1.2419744879620969e-05, 'epoch': 0.44}
 44%|████▍     | 2919/6640 [2:30:00<16:44:50, 16.20s/it] 44%|████▍     | 2920/6640 [2:30:16<16:52:15, 16.33s/it]                                                        {'loss': 0.5363, 'learning_rate': 1.241501131126138e-05, 'epoch': 0.44}
 44%|████▍     | 2920/6640 [2:30:16<16:52:15, 16.33s/it] 44%|████▍     | 2921/6640 [2:30:32<16:43:28, 16.19s/it]                                                        {'loss': 0.5336, 'learning_rate': 1.241027716819389e-05, 'epoch': 0.44}
 44%|████▍     | 2921/6640 [2:30:32<16:43:28, 16.19s/it] 44%|████▍     | 2922/6640 [2:30:49<17:03:53, 16.52s/it]                                                        {'loss': 0.5316, 'learning_rate': 1.240554245154509e-05, 'epoch': 0.44}
 44%|████▍     | 2922/6640 [2:30:49<17:03:53, 16.52s/it] 44%|████▍     | 2923/6640 [2:31:06<16:59:32, 16.46s/it]                                                        {'loss': 0.521, 'learning_rate': 1.2400807162441721e-05, 'epoch': 0.44}
 44%|████▍     | 2923/6640 [2:31:06<16:59:32, 16.46s/it] 44%|████▍     | 2924/6640 [2:31:22<16:59:36, 16.46s/it]                                                        {'loss': 0.5063, 'learning_rate': 1.2396071302010653e-05, 'epoch': 0.44}
 44%|████▍     | 2924/6640 [2:31:22<16:59:36, 16.46s/it] 44%|████▍     | 2925/6640 [2:31:39<17:00:38, 16.48s/it]                                                        {'loss': 0.5381, 'learning_rate': 1.239133487137889e-05, 'epoch': 0.44}
 44%|████▍     | 2925/6640 [2:31:39<17:00:38, 16.48s/it] 44%|████▍     | 2926/6640 [2:31:56<17:18:34, 16.78s/it]                                                        {'loss': 0.5451, 'learning_rate': 1.2386597871673582e-05, 'epoch': 0.44}
 44%|████▍     | 2926/6640 [2:31:56<17:18:34, 16.78s/it] 44%|████▍     | 2927/6640 [2:32:13<17:24:27, 16.88s/it]                                                        {'loss': 0.5328, 'learning_rate': 1.2381860304022002e-05, 'epoch': 0.44}
 44%|████▍     | 2927/6640 [2:32:13<17:24:27, 16.88s/it] 44%|████▍     | 2928/6640 [2:32:30<17:19:49, 16.81s/it]                                                        {'loss': 0.5425, 'learning_rate': 1.237712216955157e-05, 'epoch': 0.44}
 44%|████▍     | 2928/6640 [2:32:30<17:19:49, 16.81s/it] 44%|████▍     | 2929/6640 [2:32:46<17:10:21, 16.66s/it]                                                        {'loss': 0.5387, 'learning_rate': 1.237238346938983e-05, 'epoch': 0.44}
 44%|████▍     | 2929/6640 [2:32:46<17:10:21, 16.66s/it] 44%|████▍     | 2930/6640 [2:33:02<16:58:27, 16.47s/it]                                                        {'loss': 0.5485, 'learning_rate': 1.2367644204664468e-05, 'epoch': 0.44}
 44%|████▍     | 2930/6640 [2:33:02<16:58:27, 16.47s/it] 44%|████▍     | 2931/6640 [2:33:18<16:55:26, 16.43s/it]                                                        {'loss': 0.5288, 'learning_rate': 1.2362904376503302e-05, 'epoch': 0.44}
 44%|████▍     | 2931/6640 [2:33:18<16:55:26, 16.43s/it] 44%|████▍     | 2932/6640 [2:33:35<16:48:07, 16.31s/it]                                                        {'loss': 0.5237, 'learning_rate': 1.2358163986034281e-05, 'epoch': 0.44}
 44%|████▍     | 2932/6640 [2:33:35<16:48:07, 16.31s/it] 44%|████▍     | 2933/6640 [2:33:51<16:45:55, 16.28s/it]                                                        {'loss': 0.5364, 'learning_rate': 1.2353423034385496e-05, 'epoch': 0.44}
 44%|████▍     | 2933/6640 [2:33:51<16:45:55, 16.28s/it] 44%|████▍     | 2934/6640 [2:34:07<16:48:20, 16.33s/it]                                                        {'loss': 0.5367, 'learning_rate': 1.234868152268516e-05, 'epoch': 0.44}
 44%|████▍     | 2934/6640 [2:34:07<16:48:20, 16.33s/it] 44%|████▍     | 2935/6640 [2:34:23<16:47:56, 16.32s/it]                                                        {'loss': 0.5453, 'learning_rate': 1.2343939452061628e-05, 'epoch': 0.44}
 44%|████▍     | 2935/6640 [2:34:23<16:47:56, 16.32s/it] 44%|████▍     | 2936/6640 [2:34:40<16:59:02, 16.51s/it]                                                        {'loss': 0.525, 'learning_rate': 1.2339196823643387e-05, 'epoch': 0.44}
 44%|████▍     | 2936/6640 [2:34:40<16:59:02, 16.51s/it] 44%|████▍     | 2937/6640 [2:34:57<17:00:18, 16.53s/it]                                                        {'loss': 0.5298, 'learning_rate': 1.2334453638559057e-05, 'epoch': 0.44}
 44%|████▍     | 2937/6640 [2:34:57<17:00:18, 16.53s/it] 44%|████▍     | 2938/6640 [2:35:13<16:54:40, 16.45s/it]                                                        {'loss': 0.5037, 'learning_rate': 1.2329709897937382e-05, 'epoch': 0.44}
 44%|████▍     | 2938/6640 [2:35:13<16:54:40, 16.45s/it] 44%|████▍     | 2939/6640 [2:35:30<17:02:53, 16.58s/it]                                                        {'loss': 0.5412, 'learning_rate': 1.2324965602907253e-05, 'epoch': 0.44}
 44%|████▍     | 2939/6640 [2:35:30<17:02:53, 16.58s/it] 44%|████▍     | 2940/6640 [2:35:46<16:52:52, 16.43s/it]                                                        {'loss': 0.5224, 'learning_rate': 1.232022075459768e-05, 'epoch': 0.44}
 44%|████▍     | 2940/6640 [2:35:46<16:52:52, 16.43s/it] 44%|████▍     | 2941/6640 [2:36:03<17:03:33, 16.60s/it]                                                        {'loss': 0.5271, 'learning_rate': 1.2315475354137813e-05, 'epoch': 0.44}
 44%|████▍     | 2941/6640 [2:36:03<17:03:33, 16.60s/it] 44%|████▍     | 2942/6640 [2:36:20<16:57:49, 16.51s/it]                                                        {'loss': 0.551, 'learning_rate': 1.2310729402656927e-05, 'epoch': 0.44}
 44%|████▍     | 2942/6640 [2:36:20<16:57:49, 16.51s/it] 44%|████▍     | 2943/6640 [2:36:36<16:54:28, 16.46s/it]                                                        {'loss': 0.5488, 'learning_rate': 1.230598290128443e-05, 'epoch': 0.44}
 44%|████▍     | 2943/6640 [2:36:36<16:54:28, 16.46s/it] 44%|████▍     | 2944/6640 [2:36:52<16:56:24, 16.50s/it]                                                        {'loss': 0.5274, 'learning_rate': 1.2301235851149867e-05, 'epoch': 0.44}
 44%|████▍     | 2944/6640 [2:36:52<16:56:24, 16.50s/it] 44%|████▍     | 2945/6640 [2:37:08<16:46:30, 16.34s/it]                                                        {'loss': 0.5399, 'learning_rate': 1.2296488253382902e-05, 'epoch': 0.44}
 44%|████▍     | 2945/6640 [2:37:08<16:46:30, 16.34s/it] 44%|████▍     | 2946/6640 [2:37:25<16:58:25, 16.54s/it]                                                        {'loss': 0.5185, 'learning_rate': 1.2291740109113343e-05, 'epoch': 0.44}
 44%|████▍     | 2946/6640 [2:37:25<16:58:25, 16.54s/it] 44%|████▍     | 2947/6640 [2:37:41<16:40:54, 16.26s/it]                                                        {'loss': 0.5312, 'learning_rate': 1.2286991419471115e-05, 'epoch': 0.44}
 44%|████▍     | 2947/6640 [2:37:41<16:40:54, 16.26s/it] 44%|████▍     | 2948/6640 [2:37:57<16:36:37, 16.20s/it]                                                        {'loss': 0.5081, 'learning_rate': 1.2282242185586283e-05, 'epoch': 0.44}
 44%|████▍     | 2948/6640 [2:37:57<16:36:37, 16.20s/it] 44%|████▍     | 2949/6640 [2:38:13<16:26:42, 16.04s/it]                                                        {'loss': 0.5302, 'learning_rate': 1.2277492408589036e-05, 'epoch': 0.44}
 44%|████▍     | 2949/6640 [2:38:13<16:26:42, 16.04s/it]5 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
 44%|████▍     | 2950/6640 [2:38:30<16:49:43, 16.42s/it]                                                        {'loss': 0.5394, 'learning_rate': 1.2272742089609694e-05, 'epoch': 0.44}
 44%|████▍     | 2950/6640 [2:38:30<16:49:43, 16.42s/it] 44%|████▍     | 2951/6640 [2:38:47<16:56:29, 16.53s/it]                                                        {'loss': 0.5353, 'learning_rate': 1.2267991229778702e-05, 'epoch': 0.44}
 44%|████▍     | 2951/6640 [2:38:47<16:56:29, 16.53s/it] 44%|████▍     | 2952/6640 [2:39:03<16:49:35, 16.43s/it]                                                        {'loss': 0.5499, 'learning_rate': 1.2263239830226641e-05, 'epoch': 0.44}
 44%|████▍     | 2952/6640 [2:39:03<16:49:35, 16.43s/it] 44%|████▍     | 2953/6640 [2:39:19<16:47:12, 16.39s/it]                                                        {'loss': 0.5311, 'learning_rate': 1.2258487892084215e-05, 'epoch': 0.44}
 44%|████▍     | 2953/6640 [2:39:19<16:47:12, 16.39s/it] 44%|████▍     | 2954/6640 [2:39:35<16:35:30, 16.20s/it]                                                        {'loss': 0.5351, 'learning_rate': 1.2253735416482258e-05, 'epoch': 0.44}
 44%|████▍     | 2954/6640 [2:39:35<16:35:30, 16.20s/it] 45%|████▍     | 2955/6640 [2:39:51<16:29:43, 16.11s/it]                                                        {'loss': 0.5443, 'learning_rate': 1.2248982404551733e-05, 'epoch': 0.45}
 45%|████▍     | 2955/6640 [2:39:51<16:29:43, 16.11s/it] 45%|████▍     | 2956/6640 [2:40:07<16:25:51, 16.06s/it]                                                        {'loss': 0.5513, 'learning_rate': 1.2244228857423726e-05, 'epoch': 0.45}
 45%|████▍     | 2956/6640 [2:40:07<16:25:51, 16.06s/it] 45%|████▍     | 2957/6640 [2:40:23<16:18:12, 15.94s/it]                                                        {'loss': 0.5322, 'learning_rate': 1.2239474776229459e-05, 'epoch': 0.45}
 45%|████▍     | 2957/6640 [2:40:23<16:18:12, 15.94s/it] 45%|████▍     | 2958/6640 [2:40:39<16:19:02, 15.95s/it]                                                        {'loss': 0.5249, 'learning_rate': 1.2234720162100271e-05, 'epoch': 0.45}
 45%|████▍     | 2958/6640 [2:40:39<16:19:02, 15.95s/it] 45%|████▍     | 2959/6640 [2:40:55<16:18:29, 15.95s/it]                                                        {'loss': 0.5176, 'learning_rate': 1.2229965016167635e-05, 'epoch': 0.45}
 45%|████▍     | 2959/6640 [2:40:55<16:18:29, 15.95s/it] 45%|████▍     | 2960/6640 [2:41:11<16:31:13, 16.16s/it]                                                        {'loss': 0.558, 'learning_rate': 1.2225209339563144e-05, 'epoch': 0.45}
 45%|████▍     | 2960/6640 [2:41:11<16:31:13, 16.16s/it] 45%|████▍     | 2961/6640 [2:41:27<16:31:08, 16.16s/it]                                                        {'loss': 0.5302, 'learning_rate': 1.2220453133418529e-05, 'epoch': 0.45}
 45%|████▍     | 2961/6640 [2:41:27<16:31:08, 16.16s/it] 45%|████▍     | 2962/6640 [2:41:44<16:34:57, 16.23s/it]                                                        {'loss': 0.5337, 'learning_rate': 1.2215696398865636e-05, 'epoch': 0.45}
 45%|████▍     | 2962/6640 [2:41:44<16:34:57, 16.23s/it] 45%|████▍     | 2963/6640 [2:42:01<16:47:24, 16.44s/it]                                                        {'loss': 0.5357, 'learning_rate': 1.2210939137036435e-05, 'epoch': 0.45}
 45%|████▍     | 2963/6640 [2:42:01<16:47:24, 16.44s/it] 45%|████▍     | 2964/6640 [2:42:17<16:45:07, 16.41s/it]                                                        {'loss': 0.5348, 'learning_rate': 1.2206181349063035e-05, 'epoch': 0.45}
 45%|████▍     | 2964/6640 [2:42:17<16:45:07, 16.41s/it] 45%|████▍     | 2965/6640 [2:42:34<16:59:34, 16.65s/it]                                                        {'loss': 0.5297, 'learning_rate': 1.2201423036077657e-05, 'epoch': 0.45}
 45%|████▍     | 2965/6640 [2:42:34<16:59:34, 16.65s/it] 45%|████▍     | 2966/6640 [2:42:51<16:58:32, 16.63s/it]                                                        {'loss': 0.503, 'learning_rate': 1.2196664199212655e-05, 'epoch': 0.45}
 45%|████▍     | 2966/6640 [2:42:51<16:58:32, 16.63s/it] 45%|████▍     | 2967/6640 [2:43:06<16:39:58, 16.34s/it]                                                        {'loss': 0.5186, 'learning_rate': 1.21919048396005e-05, 'epoch': 0.45}
 45%|████▍     | 2967/6640 [2:43:06<16:39:58, 16.34s/it] 45%|████▍     | 2968/6640 [2:43:24<17:06:24, 16.77s/it]                                                        {'loss': 0.5352, 'learning_rate': 1.2187144958373793e-05, 'epoch': 0.45}
 45%|████▍     | 2968/6640 [2:43:24<17:06:24, 16.77s/it] 45%|████▍     | 2969/6640 [2:43:40<16:54:29, 16.58s/it]                                                        {'loss': 0.5197, 'learning_rate': 1.2182384556665264e-05, 'epoch': 0.45}
 45%|████▍     | 2969/6640 [2:43:40<16:54:29, 16.58s/it] 45%|████▍     | 2970/6640 [2:43:57<17:00:11, 16.68s/it]                                                        {'loss': 0.5262, 'learning_rate': 1.2177623635607753e-05, 'epoch': 0.45}
 45%|████▍     | 2970/6640 [2:43:57<17:00:11, 16.68s/it] 45%|████▍     | 2971/6640 [2:44:13<16:50:05, 16.52s/it]                                                        {'loss': 0.5254, 'learning_rate': 1.2172862196334239e-05, 'epoch': 0.45}
 45%|████▍     | 2971/6640 [2:44:13<16:50:05, 16.52s/it] 45%|████▍     | 2972/6640 [2:44:30<16:48:13, 16.49s/it]                                                        {'loss': 0.5434, 'learning_rate': 1.216810023997781e-05, 'epoch': 0.45}
 45%|████▍     | 2972/6640 [2:44:30<16:48:13, 16.49s/it] 45%|████▍     | 2973/6640 [2:44:47<17:03:19, 16.74s/it]                                                        {'loss': 0.531, 'learning_rate': 1.2163337767671687e-05, 'epoch': 0.45}
 45%|████▍     | 2973/6640 [2:44:47<17:03:19, 16.74s/it] 45%|████▍     | 2974/6640 [2:45:03<16:45:03, 16.45s/it]                                                        {'loss': 0.528, 'learning_rate': 1.2158574780549209e-05, 'epoch': 0.45}
 45%|████▍     | 2974/6640 [2:45:03<16:45:03, 16.45s/it] 45%|████▍     | 2975/6640 [2:45:20<16:52:55, 16.58s/it]                                                        {'loss': 0.5307, 'learning_rate': 1.2153811279743841e-05, 'epoch': 0.45}
 45%|████▍     | 2975/6640 [2:45:20<16:52:55, 16.58s/it] 45%|████▍     | 2976/6640 [2:45:36<16:39:07, 16.36s/it]                                                        {'loss': 0.5099, 'learning_rate': 1.2149047266389167e-05, 'epoch': 0.45}
 45%|████▍     | 2976/6640 [2:45:36<16:39:07, 16.36s/it] 45%|████▍     | 2977/6640 [2:45:53<17:03:53, 16.77s/it]                                                        {'loss': 0.5271, 'learning_rate': 1.2144282741618896e-05, 'epoch': 0.45}
 45%|████▍     | 2977/6640 [2:45:53<17:03:53, 16.77s/it] 45%|████▍     | 2978/6640 [2:46:10<17:05:58, 16.81s/it]                                                        {'loss': 0.5478, 'learning_rate': 1.2139517706566857e-05, 'epoch': 0.45}
 45%|████▍     | 2978/6640 [2:46:10<17:05:58, 16.81s/it] 45%|████▍     | 2979/6640 [2:46:26<16:48:08, 16.52s/it]                                                        {'loss': 0.5387, 'learning_rate': 1.2134752162366998e-05, 'epoch': 0.45}
 45%|████▍     | 2979/6640 [2:46:26<16:48:08, 16.52s/it] 45%|████▍     | 2980/6640 [2:46:42<16:37:28, 16.35s/it]                                                        {'loss': 0.5194, 'learning_rate': 1.2129986110153395e-05, 'epoch': 0.45}
 45%|████▍     | 2980/6640 [2:46:42<16:37:28, 16.35s/it] 45%|████▍     | 2981/6640 [2:46:59<16:43:00, 16.45s/it]                                                        {'loss': 0.5284, 'learning_rate': 1.2125219551060234e-05, 'epoch': 0.45}
 45%|████▍     | 2981/6640 [2:46:59<16:43:00, 16.45s/it] 45%|████▍     | 2982/6640 [2:47:15<16:33:22, 16.29s/it]                                                        {'loss': 0.5367, 'learning_rate': 1.2120452486221837e-05, 'epoch': 0.45}
 45%|████▍     | 2982/6640 [2:47:15<16:33:22, 16.29s/it] 45%|████▍     | 2983/6640 [2:47:31<16:28:12, 16.21s/it]                                                        {'loss': 0.539, 'learning_rate': 1.211568491677263e-05, 'epoch': 0.45}
 45%|████▍     | 2983/6640 [2:47:31<16:28:12, 16.21s/it] 45%|████▍     | 2984/6640 [2:47:47<16:27:17, 16.20s/it]                                                        {'loss': 0.5387, 'learning_rate': 1.2110916843847172e-05, 'epoch': 0.45}
 45%|████▍     | 2984/6640 [2:47:47<16:27:17, 16.20s/it] 45%|████▍     | 2985/6640 [2:48:03<16:25:07, 16.17s/it]                                                        {'loss': 0.5351, 'learning_rate': 1.210614826858013e-05, 'epoch': 0.45}
 45%|████▍     | 2985/6640 [2:48:03<16:25:07, 16.17s/it] 45%|████▍     | 2986/6640 [2:48:19<16:29:26, 16.25s/it]                                                        {'loss': 0.5372, 'learning_rate': 1.2101379192106302e-05, 'epoch': 0.45}
 45%|████▍     | 2986/6640 [2:48:19<16:29:26, 16.25s/it] 45%|████▍     | 2987/6640 [2:48:36<16:39:17, 16.41s/it]                                                        {'loss': 0.5481, 'learning_rate': 1.2096609615560601e-05, 'epoch': 0.45}
 45%|████▍     | 2987/6640 [2:48:36<16:39:17, 16.41s/it] 45%|████▌     | 2988/6640 [2:48:53<16:52:09, 16.63s/it]                                                        {'loss': 0.5425, 'learning_rate': 1.2091839540078055e-05, 'epoch': 0.45}
 45%|████▌     | 2988/6640 [2:48:53<16:52:09, 16.63s/it] 45%|████▌     | 2989/6640 [2:49:10<16:48:42, 16.58s/it]                                                        {'loss': 0.5306, 'learning_rate': 1.2087068966793815e-05, 'epoch': 0.45}
 45%|████▌     | 2989/6640 [2:49:10<16:48:42, 16.58s/it] 45%|████▌     | 2990/6640 [2:49:26<16:42:44, 16.48s/it]                                                        {'loss': 0.5086, 'learning_rate': 1.208229789684315e-05, 'epoch': 0.45}
 45%|████▌     | 2990/6640 [2:49:26<16:42:44, 16.48s/it] 45%|████▌     | 2991/6640 [2:49:42<16:34:16, 16.35s/it]                                                        {'loss': 0.5387, 'learning_rate': 1.2077526331361446e-05, 'epoch': 0.45}
 45%|████▌     | 2991/6640 [2:49:42<16:34:16, 16.35s/it] 45%|████▌     | 2992/6640 [2:49:58<16:33:01, 16.33s/it]                                                        {'loss': 0.5466, 'learning_rate': 1.2072754271484209e-05, 'epoch': 0.45}
 45%|████▌     | 2992/6640 [2:49:58<16:33:01, 16.33s/it] 45%|████▌     | 2993/6640 [2:50:15<16:43:14, 16.51s/it]                                                        {'loss': 0.5373, 'learning_rate': 1.206798171834706e-05, 'epoch': 0.45}
 45%|████▌     | 2993/6640 [2:50:15<16:43:14, 16.51s/it] 45%|████▌     | 2994/6640 [2:50:31<16:32:47, 16.34s/it]                                                        {'loss': 0.5388, 'learning_rate': 1.2063208673085738e-05, 'epoch': 0.45}
 45%|████▌     | 2994/6640 [2:50:31<16:32:47, 16.34s/it] 45%|████▌     | 2995/6640 [2:50:48<16:43:37, 16.52s/it]                                                        {'loss': 0.54, 'learning_rate': 1.2058435136836101e-05, 'epoch': 0.45}
 45%|████▌     | 2995/6640 [2:50:48<16:43:37, 16.52s/it] 45%|████▌     | 2996/6640 [2:51:05<16:56:02, 16.73s/it]                                                        {'loss': 0.5391, 'learning_rate': 1.2053661110734124e-05, 'epoch': 0.45}
 45%|████▌     | 2996/6640 [2:51:05<16:56:02, 16.73s/it] 45%|████▌     | 2997/6640 [2:51:22<16:48:16, 16.61s/it]                                                        {'loss': 0.5359, 'learning_rate': 1.2048886595915894e-05, 'epoch': 0.45}
 45%|████▌     | 2997/6640 [2:51:22<16:48:16, 16.61s/it] 45%|████▌     | 2998/6640 [2:51:38<16:45:29, 16.56s/it]                                                        {'loss': 0.5096, 'learning_rate': 1.204411159351762e-05, 'epoch': 0.45}
 45%|████▌     | 2998/6640 [2:51:38<16:45:29, 16.56s/it] 45%|████▌     | 2999/6640 [2:51:55<16:45:13, 16.57s/it]                                                        {'loss': 0.5149, 'learning_rate': 1.203933610467562e-05, 'epoch': 0.45}
 45%|████▌     | 2999/6640 [2:51:55<16:45:13, 16.57s/it]Token indices sequence length is longer than the specified maximum sequence length for this model (5002 > 4096). Running this sequence through the model will result in indexing errors
4 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
02 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 45%|████▌     | 3000/6640 [2:52:11<16:34:17, 16.39s/it]                                                        {'loss': 0.5432, 'learning_rate': 1.2034560130526341e-05, 'epoch': 0.45}
 45%|████▌     | 3000/6640 [2:52:11<16:34:17, 16.39s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3000/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3000/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3000/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 45%|████▌     | 3001/6640 [2:54:00<44:35:53, 44.12s/it]                                                        {'loss': 0.515, 'learning_rate': 1.2029783672206326e-05, 'epoch': 0.45}
 45%|████▌     | 3001/6640 [2:54:00<44:35:53, 44.12s/it] 45%|████▌     | 3002/6640 [2:54:16<36:13:46, 35.85s/it]                                                        {'loss': 0.5288, 'learning_rate': 1.202500673085225e-05, 'epoch': 0.45}
 45%|████▌     | 3002/6640 [2:54:16<36:13:46, 35.85s/it] 45%|████▌     | 3003/6640 [2:54:33<30:20:27, 30.03s/it]                                                        {'loss': 0.5211, 'learning_rate': 1.2020229307600897e-05, 'epoch': 0.45}
 45%|████▌     | 3003/6640 [2:54:33<30:20:27, 30.03s/it] 45%|████▌     | 3004/6640 [2:54:50<26:28:14, 26.21s/it]                                                        {'loss': 0.5225, 'learning_rate': 1.2015451403589164e-05, 'epoch': 0.45}
 45%|████▌     | 3004/6640 [2:54:50<26:28:14, 26.21s/it] 45%|████▌     | 3005/6640 [2:55:08<24:01:35, 23.80s/it]                                                        {'loss': 0.5281, 'learning_rate': 1.201067301995407e-05, 'epoch': 0.45}
 45%|████▌     | 3005/6640 [2:55:08<24:01:35, 23.80s/it] 45%|████▌     | 3006/6640 [2:55:25<22:03:16, 21.85s/it]                                                        {'loss': 0.5659, 'learning_rate': 1.200589415783273e-05, 'epoch': 0.45}
 45%|████▌     | 3006/6640 [2:55:25<22:03:16, 21.85s/it] 45%|████▌     | 3007/6640 [2:55:42<20:19:31, 20.14s/it]                                                        {'loss': 0.5263, 'learning_rate': 1.2001114818362394e-05, 'epoch': 0.45}
 45%|████▌     | 3007/6640 [2:55:42<20:19:31, 20.14s/it] 45%|████▌     | 3008/6640 [2:55:58<19:15:12, 19.08s/it]                                                        {'loss': 0.5315, 'learning_rate': 1.1996335002680413e-05, 'epoch': 0.45}
 45%|████▌     | 3008/6640 [2:55:58<19:15:12, 19.08s/it] 45%|████▌     | 3009/6640 [2:56:14<18:22:55, 18.23s/it]                                                        {'loss': 0.5372, 'learning_rate': 1.1991554711924256e-05, 'epoch': 0.45}
 45%|████▌     | 3009/6640 [2:56:14<18:22:55, 18.23s/it] 45%|████▌     | 3010/6640 [2:56:30<17:38:37, 17.50s/it]                                                        {'loss': 0.5314, 'learning_rate': 1.1986773947231505e-05, 'epoch': 0.45}
 45%|████▌     | 3010/6640 [2:56:30<17:38:37, 17.50s/it] 45%|████▌     | 3011/6640 [2:56:47<17:31:41, 17.39s/it]                                                        {'loss': 0.5357, 'learning_rate': 1.1981992709739853e-05, 'epoch': 0.45}
 45%|████▌     | 3011/6640 [2:56:47<17:31:41, 17.39s/it] 45%|████▌     | 3012/6640 [2:57:04<17:11:50, 17.06s/it]                                                        {'loss': 0.5141, 'learning_rate': 1.1977211000587109e-05, 'epoch': 0.45}
 45%|████▌     | 3012/6640 [2:57:04<17:11:50, 17.06s/it] 45%|████▌     | 3013/6640 [2:57:20<17:05:13, 16.96s/it]                                                        {'loss': 0.5335, 'learning_rate': 1.1972428820911185e-05, 'epoch': 0.45}
 45%|████▌     | 3013/6640 [2:57:20<17:05:13, 16.96s/it] 45%|████▌     | 3014/6640 [2:57:37<16:52:41, 16.76s/it]                                                        {'loss': 0.5271, 'learning_rate': 1.1967646171850118e-05, 'epoch': 0.45}
 45%|████▌     | 3014/6640 [2:57:37<16:52:41, 16.76s/it] 45%|████▌     | 3015/6640 [2:57:54<17:05:28, 16.97s/it]                                                        {'loss': 0.5567, 'learning_rate': 1.1962863054542045e-05, 'epoch': 0.45}
 45%|████▌     | 3015/6640 [2:57:54<17:05:28, 16.97s/it] 45%|████▌     | 3016/6640 [2:58:11<16:57:11, 16.84s/it]                                                        {'loss': 0.5243, 'learning_rate': 1.1958079470125223e-05, 'epoch': 0.45}
 45%|████▌     | 3016/6640 [2:58:11<16:57:11, 16.84s/it]/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/model/llava_arch.py:397: UserWarning: Inputs truncated!
  warnings.warn("Inputs truncated!")
 45%|████▌     | 3017/6640 [2:58:29<17:26:55, 17.34s/it]                                                        {'loss': 0.5339, 'learning_rate': 1.1953295419738013e-05, 'epoch': 0.45}
 45%|████▌     | 3017/6640 [2:58:29<17:26:55, 17.34s/it] 45%|████▌     | 3018/6640 [2:58:45<17:05:13, 16.98s/it]                                                        {'loss': 0.5339, 'learning_rate': 1.1948510904518895e-05, 'epoch': 0.45}
 45%|████▌     | 3018/6640 [2:58:45<17:05:13, 16.98s/it] 45%|████▌     | 3019/6640 [2:59:02<16:51:16, 16.76s/it]                                                        {'loss': 0.5267, 'learning_rate': 1.1943725925606453e-05, 'epoch': 0.45}
 45%|████▌     | 3019/6640 [2:59:02<16:51:16, 16.76s/it] 45%|████▌     | 3020/6640 [2:59:18<16:43:58, 16.64s/it]                                                        {'loss': 0.5334, 'learning_rate': 1.1938940484139387e-05, 'epoch': 0.45}
 45%|████▌     | 3020/6640 [2:59:18<16:43:58, 16.64s/it] 45%|████▌     | 3021/6640 [2:59:34<16:41:41, 16.61s/it]                                                        {'loss': 0.5372, 'learning_rate': 1.1934154581256498e-05, 'epoch': 0.45}
 45%|████▌     | 3021/6640 [2:59:34<16:41:41, 16.61s/it] 46%|████▌     | 3022/6640 [2:59:51<16:35:02, 16.50s/it]                                                        {'loss': 0.5216, 'learning_rate': 1.1929368218096708e-05, 'epoch': 0.46}
 46%|████▌     | 3022/6640 [2:59:51<16:35:02, 16.50s/it] 46%|████▌     | 3023/6640 [3:00:07<16:29:07, 16.41s/it]                                                        {'loss': 0.5265, 'learning_rate': 1.1924581395799039e-05, 'epoch': 0.46}
 46%|████▌     | 3023/6640 [3:00:07<16:29:07, 16.41s/it] 46%|████▌     | 3024/6640 [3:00:23<16:25:00, 16.34s/it]                                                        {'loss': 0.5289, 'learning_rate': 1.1919794115502628e-05, 'epoch': 0.46}
 46%|████▌     | 3024/6640 [3:00:23<16:25:00, 16.34s/it] 46%|████▌     | 3025/6640 [3:00:40<16:40:09, 16.60s/it]                                                        {'loss': 0.5555, 'learning_rate': 1.1915006378346719e-05, 'epoch': 0.46}
 46%|████▌     | 3025/6640 [3:00:40<16:40:09, 16.60s/it] 46%|████▌     | 3026/6640 [3:00:56<16:22:10, 16.31s/it]                                                        {'loss': 0.5185, 'learning_rate': 1.1910218185470663e-05, 'epoch': 0.46}
 46%|████▌     | 3026/6640 [3:00:56<16:22:10, 16.31s/it] 46%|████▌     | 3027/6640 [3:01:12<16:26:55, 16.39s/it]                                                        {'loss': 0.5356, 'learning_rate': 1.1905429538013926e-05, 'epoch': 0.46}
 46%|████▌     | 3027/6640 [3:01:12<16:26:55, 16.39s/it] 46%|████▌     | 3028/6640 [3:01:28<16:05:29, 16.04s/it]                                                        {'loss': 0.5074, 'learning_rate': 1.1900640437116074e-05, 'epoch': 0.46}
 46%|████▌     | 3028/6640 [3:01:28<16:05:29, 16.04s/it] 46%|████▌     | 3029/6640 [3:01:45<16:20:34, 16.29s/it]                                                        {'loss': 0.5278, 'learning_rate': 1.1895850883916786e-05, 'epoch': 0.46}
 46%|████▌     | 3029/6640 [3:01:45<16:20:34, 16.29s/it] 46%|████▌     | 3030/6640 [3:02:01<16:20:41, 16.30s/it]                                                        {'loss': 0.5326, 'learning_rate': 1.1891060879555847e-05, 'epoch': 0.46}
 46%|████▌     | 3030/6640 [3:02:01<16:20:41, 16.30s/it] 46%|████▌     | 3031/6640 [3:02:18<16:29:22, 16.45s/it]                                                        {'loss': 0.5446, 'learning_rate': 1.188627042517315e-05, 'epoch': 0.46}
 46%|████▌     | 3031/6640 [3:02:18<16:29:22, 16.45s/it] 46%|████▌     | 3032/6640 [3:02:34<16:19:38, 16.29s/it]                                                        {'loss': 0.5423, 'learning_rate': 1.1881479521908694e-05, 'epoch': 0.46}
 46%|████▌     | 3032/6640 [3:02:34<16:19:38, 16.29s/it]Token indices sequence length is longer than the specified maximum sequence length for this model (5158 > 4096). Running this sequence through the model will result in indexing errors
 46%|████▌     | 3033/6640 [3:02:50<16:28:26, 16.44s/it]                                                        {'loss': 0.5141, 'learning_rate': 1.1876688170902583e-05, 'epoch': 0.46}
 46%|████▌     | 3033/6640 [3:02:50<16:28:26, 16.44s/it] 46%|████▌     | 3034/6640 [3:03:07<16:23:05, 16.36s/it]                                                        {'loss': 0.5411, 'learning_rate': 1.1871896373295033e-05, 'epoch': 0.46}
 46%|████▌     | 3034/6640 [3:03:07<16:23:05, 16.36s/it] 46%|████▌     | 3035/6640 [3:03:23<16:22:22, 16.35s/it]                                                        {'loss': 0.5543, 'learning_rate': 1.1867104130226363e-05, 'epoch': 0.46}
 46%|████▌     | 3035/6640 [3:03:23<16:22:22, 16.35s/it] 46%|████▌     | 3036/6640 [3:03:39<16:16:13, 16.25s/it]                                                        {'loss': 0.5301, 'learning_rate': 1.1862311442837e-05, 'epoch': 0.46}
 46%|████▌     | 3036/6640 [3:03:39<16:16:13, 16.25s/it] 46%|████▌     | 3037/6640 [3:03:56<16:28:49, 16.47s/it]                                                        {'loss': 0.5216, 'learning_rate': 1.185751831226747e-05, 'epoch': 0.46}
 46%|████▌     | 3037/6640 [3:03:56<16:28:49, 16.47s/it] 46%|████▌     | 3038/6640 [3:04:12<16:25:46, 16.42s/it]                                                        {'loss': 0.5261, 'learning_rate': 1.1852724739658417e-05, 'epoch': 0.46}
 46%|████▌     | 3038/6640 [3:04:12<16:25:46, 16.42s/it] 46%|████▌     | 3039/6640 [3:04:29<16:23:36, 16.39s/it]                                                        {'loss': 0.544, 'learning_rate': 1.1847930726150574e-05, 'epoch': 0.46}
 46%|████▌     | 3039/6640 [3:04:29<16:23:36, 16.39s/it] 46%|████▌     | 3040/6640 [3:04:45<16:24:29, 16.41s/it]                                                        {'loss': 0.5157, 'learning_rate': 1.1843136272884795e-05, 'epoch': 0.46}
 46%|████▌     | 3040/6640 [3:04:45<16:24:29, 16.41s/it] 46%|████▌     | 3041/6640 [3:05:01<16:25:01, 16.42s/it]                                                        {'loss': 0.5283, 'learning_rate': 1.1838341381002027e-05, 'epoch': 0.46}
 46%|████▌     | 3041/6640 [3:05:01<16:25:01, 16.42s/it] 46%|████▌     | 3042/6640 [3:05:18<16:20:33, 16.35s/it]                                                        {'loss': 0.5268, 'learning_rate': 1.1833546051643325e-05, 'epoch': 0.46}
 46%|████▌     | 3042/6640 [3:05:18<16:20:33, 16.35s/it] 46%|████▌     | 3043/6640 [3:05:34<16:19:10, 16.33s/it]                                                        {'loss': 0.5216, 'learning_rate': 1.182875028594985e-05, 'epoch': 0.46}
 46%|████▌     | 3043/6640 [3:05:34<16:19:10, 16.33s/it] 46%|████▌     | 3044/6640 [3:05:50<16:16:28, 16.29s/it]                                                        {'loss': 0.5304, 'learning_rate': 1.1823954085062867e-05, 'epoch': 0.46}
 46%|████▌     | 3044/6640 [3:05:50<16:16:28, 16.29s/it] 46%|████▌     | 3045/6640 [3:06:07<16:31:11, 16.54s/it]                                                        {'loss': 0.5517, 'learning_rate': 1.1819157450123745e-05, 'epoch': 0.46}
 46%|████▌     | 3045/6640 [3:06:07<16:31:11, 16.54s/it] 46%|████▌     | 3046/6640 [3:06:23<16:19:56, 16.36s/it]                                                        {'loss': 0.5238, 'learning_rate': 1.1814360382273949e-05, 'epoch': 0.46}
 46%|████▌     | 3046/6640 [3:06:23<16:19:56, 16.36s/it] 46%|████▌     | 3047/6640 [3:06:40<16:22:22, 16.40s/it]                                                        {'loss': 0.5408, 'learning_rate': 1.1809562882655054e-05, 'epoch': 0.46}
 46%|████▌     | 3047/6640 [3:06:40<16:22:22, 16.40s/it] 46%|████▌     | 3048/6640 [3:06:56<16:21:35, 16.40s/it]                                                        {'loss': 0.5245, 'learning_rate': 1.180476495240874e-05, 'epoch': 0.46}
 46%|████▌     | 3048/6640 [3:06:56<16:21:35, 16.40s/it] 46%|████▌     | 3049/6640 [3:07:12<16:18:28, 16.35s/it]                                                        {'loss': 0.5272, 'learning_rate': 1.1799966592676784e-05, 'epoch': 0.46}
 46%|████▌     | 3049/6640 [3:07:12<16:18:28, 16.35s/it]54  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 46%|████▌     | 3050/6640 [3:07:29<16:16:45, 16.32s/it]7 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5565, 'learning_rate': 1.1795167804601062e-05, 'epoch': 0.46}
 46%|████▌     | 3050/6640 [3:07:29<16:16:45, 16.32s/it] 46%|████▌     | 3051/6640 [3:07:46<16:37:23, 16.67s/it]                                                        {'loss': 0.5296, 'learning_rate': 1.1790368589323562e-05, 'epoch': 0.46}
 46%|████▌     | 3051/6640 [3:07:46<16:37:23, 16.67s/it] 46%|████▌     | 3052/6640 [3:08:03<16:36:49, 16.67s/it]                                                        {'loss': 0.5083, 'learning_rate': 1.1785568947986368e-05, 'epoch': 0.46}
 46%|████▌     | 3052/6640 [3:08:03<16:36:49, 16.67s/it] 46%|████▌     | 3053/6640 [3:08:19<16:33:58, 16.63s/it]                                                        {'loss': 0.5149, 'learning_rate': 1.1780768881731664e-05, 'epoch': 0.46}
 46%|████▌     | 3053/6640 [3:08:19<16:33:58, 16.63s/it] 46%|████▌     | 3054/6640 [3:08:37<16:48:23, 16.87s/it]                                                        {'loss': 0.5238, 'learning_rate': 1.177596839170174e-05, 'epoch': 0.46}
 46%|████▌     | 3054/6640 [3:08:37<16:48:23, 16.87s/it] 46%|████▌     | 3055/6640 [3:08:53<16:41:55, 16.77s/it]                                                        {'loss': 0.5078, 'learning_rate': 1.1771167479038978e-05, 'epoch': 0.46}
 46%|████▌     | 3055/6640 [3:08:53<16:41:55, 16.77s/it] 46%|████▌     | 3056/6640 [3:09:10<16:40:45, 16.75s/it]                                                        {'loss': 0.5218, 'learning_rate': 1.1766366144885877e-05, 'epoch': 0.46}
 46%|████▌     | 3056/6640 [3:09:10<16:40:45, 16.75s/it] 46%|████▌     | 3057/6640 [3:09:26<16:28:40, 16.56s/it]                                                        {'loss': 0.5195, 'learning_rate': 1.1761564390385015e-05, 'epoch': 0.46}
 46%|████▌     | 3057/6640 [3:09:26<16:28:40, 16.56s/it] 46%|████▌     | 3058/6640 [3:09:42<16:21:41, 16.44s/it]                                                        {'loss': 0.5476, 'learning_rate': 1.1756762216679085e-05, 'epoch': 0.46}
 46%|████▌     | 3058/6640 [3:09:42<16:21:41, 16.44s/it] 46%|████▌     | 3059/6640 [3:09:59<16:23:38, 16.48s/it]                                                        {'loss': 0.5306, 'learning_rate': 1.1751959624910874e-05, 'epoch': 0.46}
 46%|████▌     | 3059/6640 [3:09:59<16:23:38, 16.48s/it] 46%|████▌     | 3060/6640 [3:10:15<16:24:47, 16.50s/it]                                                        {'loss': 0.5293, 'learning_rate': 1.1747156616223272e-05, 'epoch': 0.46}
 46%|████▌     | 3060/6640 [3:10:15<16:24:47, 16.50s/it] 46%|████▌     | 3061/6640 [3:10:31<16:12:15, 16.30s/it]                                                        {'loss': 0.563, 'learning_rate': 1.1742353191759267e-05, 'epoch': 0.46}
 46%|████▌     | 3061/6640 [3:10:31<16:12:15, 16.30s/it] 46%|████▌     | 3062/6640 [3:10:47<16:05:09, 16.18s/it]                                                        {'loss': 0.5282, 'learning_rate': 1.173754935266194e-05, 'epoch': 0.46}
 46%|████▌     | 3062/6640 [3:10:47<16:05:09, 16.18s/it] 46%|████▌     | 3063/6640 [3:11:03<15:59:54, 16.10s/it]                                                        {'loss': 0.5289, 'learning_rate': 1.1732745100074485e-05, 'epoch': 0.46}
 46%|████▌     | 3063/6640 [3:11:03<15:59:54, 16.10s/it] 46%|████▌     | 3064/6640 [3:11:20<16:08:08, 16.24s/it]                                                        {'loss': 0.5488, 'learning_rate': 1.1727940435140177e-05, 'epoch': 0.46}
 46%|████▌     | 3064/6640 [3:11:20<16:08:08, 16.24s/it] 46%|████▌     | 3065/6640 [3:11:35<16:01:17, 16.13s/it]                                                        {'loss': 0.5503, 'learning_rate': 1.1723135359002403e-05, 'epoch': 0.46}
 46%|████▌     | 3065/6640 [3:11:35<16:01:17, 16.13s/it] 46%|████▌     | 3066/6640 [3:11:51<15:53:14, 16.00s/it]                                                        {'loss': 0.5287, 'learning_rate': 1.1718329872804635e-05, 'epoch': 0.46}
 46%|████▌     | 3066/6640 [3:11:51<15:53:14, 16.00s/it] 46%|████▌     | 3067/6640 [3:12:08<16:05:09, 16.21s/it]                                                        {'loss': 0.5354, 'learning_rate': 1.1713523977690458e-05, 'epoch': 0.46}
 46%|████▌     | 3067/6640 [3:12:08<16:05:09, 16.21s/it] 46%|████▌     | 3068/6640 [3:12:24<15:58:51, 16.11s/it]                                                        {'loss': 0.5321, 'learning_rate': 1.1708717674803538e-05, 'epoch': 0.46}
 46%|████▌     | 3068/6640 [3:12:24<15:58:51, 16.11s/it] 46%|████▌     | 3069/6640 [3:12:41<16:27:53, 16.60s/it]                                                        {'loss': 0.5484, 'learning_rate': 1.1703910965287653e-05, 'epoch': 0.46}
 46%|████▌     | 3069/6640 [3:12:41<16:27:53, 16.60s/it] 46%|████▌     | 3070/6640 [3:12:59<16:45:04, 16.89s/it]                                                        {'loss': 0.523, 'learning_rate': 1.1699103850286668e-05, 'epoch': 0.46}
 46%|████▌     | 3070/6640 [3:12:59<16:45:04, 16.89s/it] 46%|████▋     | 3071/6640 [3:13:15<16:35:35, 16.74s/it]                                                        {'loss': 0.5323, 'learning_rate': 1.1694296330944548e-05, 'epoch': 0.46}
 46%|████▋     | 3071/6640 [3:13:15<16:35:35, 16.74s/it] 46%|████▋     | 3072/6640 [3:13:32<16:29:55, 16.65s/it]                                                        {'loss': 0.5284, 'learning_rate': 1.1689488408405354e-05, 'epoch': 0.46}
 46%|████▋     | 3072/6640 [3:13:32<16:29:55, 16.65s/it] 46%|████▋     | 3073/6640 [3:13:50<16:56:11, 17.09s/it]                                                        {'loss': 0.5431, 'learning_rate': 1.168468008381324e-05, 'epoch': 0.46}
 46%|████▋     | 3073/6640 [3:13:50<16:56:11, 17.09s/it]Token indices sequence length is longer than the specified maximum sequence length for this model (4399 > 4096). Running this sequence through the model will result in indexing errors
 46%|████▋     | 3074/6640 [3:14:06<16:37:15, 16.78s/it]                                                        {'loss': 0.5218, 'learning_rate': 1.1679871358312462e-05, 'epoch': 0.46}
 46%|████▋     | 3074/6640 [3:14:06<16:37:15, 16.78s/it] 46%|████▋     | 3075/6640 [3:14:23<16:36:30, 16.77s/it]                                                        {'loss': 0.5069, 'learning_rate': 1.1675062233047365e-05, 'epoch': 0.46}
 46%|████▋     | 3075/6640 [3:14:23<16:36:30, 16.77s/it] 46%|████▋     | 3076/6640 [3:14:39<16:24:12, 16.57s/it]                                                        {'loss': 0.5276, 'learning_rate': 1.1670252709162393e-05, 'epoch': 0.46}
 46%|████▋     | 3076/6640 [3:14:39<16:24:12, 16.57s/it] 46%|████▋     | 3077/6640 [3:14:55<16:14:42, 16.41s/it]                                                        {'loss': 0.5249, 'learning_rate': 1.1665442787802083e-05, 'epoch': 0.46}
 46%|████▋     | 3077/6640 [3:14:55<16:14:42, 16.41s/it] 46%|████▋     | 3078/6640 [3:15:12<16:18:02, 16.47s/it]                                                        {'loss': 0.5174, 'learning_rate': 1.1660632470111069e-05, 'epoch': 0.46}
 46%|████▋     | 3078/6640 [3:15:12<16:18:02, 16.47s/it] 46%|████▋     | 3079/6640 [3:15:28<16:09:34, 16.34s/it]                                                        {'loss': 0.5327, 'learning_rate': 1.1655821757234075e-05, 'epoch': 0.46}
 46%|████▋     | 3079/6640 [3:15:28<16:09:34, 16.34s/it] 46%|████▋     | 3080/6640 [3:15:44<16:12:11, 16.39s/it]                                                        {'loss': 0.5117, 'learning_rate': 1.1651010650315923e-05, 'epoch': 0.46}
 46%|████▋     | 3080/6640 [3:15:44<16:12:11, 16.39s/it] 46%|████▋     | 3081/6640 [3:16:01<16:16:34, 16.46s/it]                                                        {'loss': 0.533, 'learning_rate': 1.164619915050153e-05, 'epoch': 0.46}
 46%|████▋     | 3081/6640 [3:16:01<16:16:34, 16.46s/it] 46%|████▋     | 3082/6640 [3:16:17<16:16:47, 16.47s/it]                                                        {'loss': 0.5266, 'learning_rate': 1.1641387258935896e-05, 'epoch': 0.46}
 46%|████▋     | 3082/6640 [3:16:17<16:16:47, 16.47s/it] 46%|████▋     | 3083/6640 [3:16:33<16:02:39, 16.24s/it]                                                        {'loss': 0.5237, 'learning_rate': 1.1636574976764133e-05, 'epoch': 0.46}
 46%|████▋     | 3083/6640 [3:16:33<16:02:39, 16.24s/it] 46%|████▋     | 3084/6640 [3:16:49<16:05:42, 16.29s/it]                                                        {'loss': 0.5156, 'learning_rate': 1.1631762305131424e-05, 'epoch': 0.46}
 46%|████▋     | 3084/6640 [3:16:49<16:05:42, 16.29s/it] 46%|████▋     | 3085/6640 [3:17:07<16:31:20, 16.73s/it]                                                        {'loss': 0.5246, 'learning_rate': 1.1626949245183061e-05, 'epoch': 0.46}
 46%|████▋     | 3085/6640 [3:17:07<16:31:20, 16.73s/it] 46%|████▋     | 3086/6640 [3:17:24<16:29:11, 16.70s/it]                                                        {'loss': 0.5339, 'learning_rate': 1.1622135798064427e-05, 'epoch': 0.46}
 46%|████▋     | 3086/6640 [3:17:24<16:29:11, 16.70s/it] 46%|████▋     | 3087/6640 [3:17:40<16:20:07, 16.55s/it]                                                        {'loss': 0.5118, 'learning_rate': 1.1617321964920986e-05, 'epoch': 0.46}
 46%|████▋     | 3087/6640 [3:17:40<16:20:07, 16.55s/it] 47%|████▋     | 3088/6640 [3:17:56<16:15:50, 16.48s/it]                                                        {'loss': 0.5153, 'learning_rate': 1.1612507746898307e-05, 'epoch': 0.47}
 47%|████▋     | 3088/6640 [3:17:56<16:15:50, 16.48s/it] 47%|████▋     | 3089/6640 [3:18:12<16:10:53, 16.40s/it]                                                        {'loss': 0.5473, 'learning_rate': 1.160769314514204e-05, 'epoch': 0.47}
 47%|████▋     | 3089/6640 [3:18:12<16:10:53, 16.40s/it] 47%|████▋     | 3090/6640 [3:18:29<16:19:15, 16.55s/it]                                                        {'loss': 0.5615, 'learning_rate': 1.1602878160797936e-05, 'epoch': 0.47}
 47%|████▋     | 3090/6640 [3:18:29<16:19:15, 16.55s/it] 47%|████▋     | 3091/6640 [3:18:46<16:20:45, 16.58s/it]                                                        {'loss': 0.5484, 'learning_rate': 1.1598062795011827e-05, 'epoch': 0.47}
 47%|████▋     | 3091/6640 [3:18:46<16:20:45, 16.58s/it] 47%|████▋     | 3092/6640 [3:19:02<16:18:01, 16.54s/it]                                                        {'loss': 0.5351, 'learning_rate': 1.1593247048929644e-05, 'epoch': 0.47}
 47%|████▋     | 3092/6640 [3:19:02<16:18:01, 16.54s/it] 47%|████▋     | 3093/6640 [3:19:19<16:13:04, 16.46s/it]                                                        {'loss': 0.5261, 'learning_rate': 1.1588430923697404e-05, 'epoch': 0.47}
 47%|████▋     | 3093/6640 [3:19:19<16:13:04, 16.46s/it] 47%|████▋     | 3094/6640 [3:19:35<16:14:27, 16.49s/it]                                                        {'loss': 0.5333, 'learning_rate': 1.1583614420461218e-05, 'epoch': 0.47}
 47%|████▋     | 3094/6640 [3:19:35<16:14:27, 16.49s/it] 47%|████▋     | 3095/6640 [3:19:51<16:08:15, 16.39s/it]                                                        {'loss': 0.5141, 'learning_rate': 1.1578797540367284e-05, 'epoch': 0.47}
 47%|████▋     | 3095/6640 [3:19:51<16:08:15, 16.39s/it] 47%|████▋     | 3096/6640 [3:20:09<16:33:49, 16.83s/it]                                                        {'loss': 0.533, 'learning_rate': 1.1573980284561886e-05, 'epoch': 0.47}
 47%|████▋     | 3096/6640 [3:20:09<16:33:49, 16.83s/it] 47%|████▋     | 3097/6640 [3:20:25<16:21:22, 16.62s/it]                                                        {'loss': 0.5208, 'learning_rate': 1.1569162654191408e-05, 'epoch': 0.47}
 47%|████▋     | 3097/6640 [3:20:25<16:21:22, 16.62s/it] 47%|████▋     | 3098/6640 [3:20:41<16:09:59, 16.43s/it]                                                        {'loss': 0.5163, 'learning_rate': 1.156434465040231e-05, 'epoch': 0.47}
 47%|████▋     | 3098/6640 [3:20:41<16:09:59, 16.43s/it] 47%|████▋     | 3099/6640 [3:20:59<16:23:44, 16.67s/it]                                                        {'loss': 0.5354, 'learning_rate': 1.1559526274341155e-05, 'epoch': 0.47}
 47%|████▋     | 3099/6640 [3:20:59<16:23:44, 16.67s/it]34  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

2 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
07 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 47%|████▋     | 3100/6640 [3:21:17<16:56:55, 17.24s/it]                                                        {'loss': 0.56, 'learning_rate': 1.155470752715458e-05, 'epoch': 0.47}
 47%|████▋     | 3100/6640 [3:21:17<16:56:55, 17.24s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3100/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3100/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3100/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 47%|████▋     | 3101/6640 [3:23:06<44:00:38, 44.77s/it]                                                        {'loss': 0.5296, 'learning_rate': 1.154988840998932e-05, 'epoch': 0.47}
 47%|████▋     | 3101/6640 [3:23:06<44:00:38, 44.77s/it] 47%|████▋     | 3102/6640 [3:23:23<35:52:59, 36.51s/it]                                                        {'loss': 0.5239, 'learning_rate': 1.1545068923992199e-05, 'epoch': 0.47}
 47%|████▋     | 3102/6640 [3:23:23<35:52:59, 36.51s/it] 47%|████▋     | 3103/6640 [3:23:39<29:40:26, 30.20s/it]                                                        {'loss': 0.5369, 'learning_rate': 1.1540249070310124e-05, 'epoch': 0.47}
 47%|████▋     | 3103/6640 [3:23:39<29:40:26, 30.20s/it] 47%|████▋     | 3104/6640 [3:23:55<25:35:21, 26.05s/it]                                                        {'loss': 0.5387, 'learning_rate': 1.1535428850090092e-05, 'epoch': 0.47}
 47%|████▋     | 3104/6640 [3:23:55<25:35:21, 26.05s/it] 47%|████▋     | 3105/6640 [3:24:12<22:45:53, 23.18s/it]                                                        {'loss': 0.518, 'learning_rate': 1.153060826447918e-05, 'epoch': 0.47}
 47%|████▋     | 3105/6640 [3:24:12<22:45:53, 23.18s/it] 47%|████▋     | 3106/6640 [3:24:29<20:56:45, 21.34s/it]                                                        {'loss': 0.5412, 'learning_rate': 1.1525787314624564e-05, 'epoch': 0.47}
 47%|████▋     | 3106/6640 [3:24:29<20:56:45, 21.34s/it] 47%|████▋     | 3107/6640 [3:24:46<19:51:32, 20.24s/it]                                                        {'loss': 0.5284, 'learning_rate': 1.1520966001673496e-05, 'epoch': 0.47}
 47%|████▋     | 3107/6640 [3:24:46<19:51:32, 20.24s/it] 47%|████▋     | 3108/6640 [3:25:02<18:33:35, 18.92s/it]                                                        {'loss': 0.5235, 'learning_rate': 1.1516144326773324e-05, 'epoch': 0.47}
 47%|████▋     | 3108/6640 [3:25:02<18:33:35, 18.92s/it] 47%|████▋     | 3109/6640 [3:25:19<17:49:41, 18.18s/it]                                                        {'loss': 0.5367, 'learning_rate': 1.1511322291071474e-05, 'epoch': 0.47}
 47%|████▋     | 3109/6640 [3:25:19<17:49:41, 18.18s/it] 47%|████▋     | 3110/6640 [3:25:36<17:29:25, 17.84s/it]                                                        {'loss': 0.5097, 'learning_rate': 1.1506499895715462e-05, 'epoch': 0.47}
 47%|████▋     | 3110/6640 [3:25:36<17:29:25, 17.84s/it] 47%|████▋     | 3111/6640 [3:25:52<17:02:43, 17.39s/it]                                                        {'loss': 0.5289, 'learning_rate': 1.150167714185289e-05, 'epoch': 0.47}
 47%|████▋     | 3111/6640 [3:25:52<17:02:43, 17.39s/it] 47%|████▋     | 3112/6640 [3:26:08<16:44:19, 17.08s/it]                                                        {'loss': 0.5329, 'learning_rate': 1.1496854030631443e-05, 'epoch': 0.47}
 47%|████▋     | 3112/6640 [3:26:08<16:44:19, 17.08s/it] 47%|████▋     | 3113/6640 [3:26:25<16:40:18, 17.02s/it]                                                        {'loss': 0.5149, 'learning_rate': 1.1492030563198895e-05, 'epoch': 0.47}
 47%|████▋     | 3113/6640 [3:26:25<16:40:18, 17.02s/it] 47%|████▋     | 3114/6640 [3:26:41<16:22:23, 16.72s/it]                                                        {'loss': 0.5241, 'learning_rate': 1.1487206740703094e-05, 'epoch': 0.47}
 47%|████▋     | 3114/6640 [3:26:41<16:22:23, 16.72s/it] 47%|████▋     | 3115/6640 [3:26:58<16:19:12, 16.67s/it]                                                        {'loss': 0.5044, 'learning_rate': 1.148238256429199e-05, 'epoch': 0.47}
 47%|████▋     | 3115/6640 [3:26:58<16:19:12, 16.67s/it] 47%|████▋     | 3116/6640 [3:27:14<16:09:04, 16.50s/it]                                                        {'loss': 0.5004, 'learning_rate': 1.14775580351136e-05, 'epoch': 0.47}
 47%|████▋     | 3116/6640 [3:27:14<16:09:04, 16.50s/it] 47%|████▋     | 3117/6640 [3:27:30<16:07:11, 16.47s/it]                                                        {'loss': 0.5282, 'learning_rate': 1.1472733154316037e-05, 'epoch': 0.47}
 47%|████▋     | 3117/6640 [3:27:30<16:07:11, 16.47s/it] 47%|████▋     | 3118/6640 [3:27:47<16:00:15, 16.36s/it]                                                        {'loss': 0.5311, 'learning_rate': 1.1467907923047488e-05, 'epoch': 0.47}
 47%|████▋     | 3118/6640 [3:27:47<16:00:15, 16.36s/it] 47%|████▋     | 3119/6640 [3:28:03<15:58:24, 16.33s/it]                                                        {'loss': 0.5293, 'learning_rate': 1.1463082342456238e-05, 'epoch': 0.47}
 47%|████▋     | 3119/6640 [3:28:03<15:58:24, 16.33s/it] 47%|████▋     | 3120/6640 [3:28:20<16:07:27, 16.49s/it]                                                        {'loss': 0.5444, 'learning_rate': 1.1458256413690634e-05, 'epoch': 0.47}
 47%|████▋     | 3120/6640 [3:28:20<16:07:27, 16.49s/it] 47%|████▋     | 3121/6640 [3:28:36<16:05:44, 16.47s/it]                                                        {'loss': 0.5324, 'learning_rate': 1.1453430137899129e-05, 'epoch': 0.47}
 47%|████▋     | 3121/6640 [3:28:36<16:05:44, 16.47s/it] 47%|████▋     | 3122/6640 [3:28:53<16:05:45, 16.47s/it]                                                        {'loss': 0.5441, 'learning_rate': 1.1448603516230241e-05, 'epoch': 0.47}
 47%|████▋     | 3122/6640 [3:28:53<16:05:45, 16.47s/it] 47%|████▋     | 3123/6640 [3:29:09<16:07:06, 16.50s/it]                                                        {'loss': 0.5161, 'learning_rate': 1.1443776549832574e-05, 'epoch': 0.47}
 47%|████▋     | 3123/6640 [3:29:09<16:07:06, 16.50s/it] 47%|████▋     | 3124/6640 [3:29:26<16:11:24, 16.58s/it]                                                        {'loss': 0.5246, 'learning_rate': 1.1438949239854822e-05, 'epoch': 0.47}
 47%|████▋     | 3124/6640 [3:29:26<16:11:24, 16.58s/it] 47%|████▋     | 3125/6640 [3:29:42<15:56:47, 16.33s/it]                                                        {'loss': 0.5349, 'learning_rate': 1.1434121587445752e-05, 'epoch': 0.47}
 47%|████▋     | 3125/6640 [3:29:42<15:56:47, 16.33s/it] 47%|████▋     | 3126/6640 [3:29:59<16:07:15, 16.52s/it]                                                        {'loss': 0.5434, 'learning_rate': 1.1429293593754216e-05, 'epoch': 0.47}
 47%|████▋     | 3126/6640 [3:29:59<16:07:15, 16.52s/it] 47%|████▋     | 3127/6640 [3:30:15<16:08:08, 16.54s/it]                                                        {'loss': 0.5429, 'learning_rate': 1.1424465259929148e-05, 'epoch': 0.47}
 47%|████▋     | 3127/6640 [3:30:15<16:08:08, 16.54s/it] 47%|████▋     | 3128/6640 [3:30:32<16:04:56, 16.49s/it]                                                        {'loss': 0.5148, 'learning_rate': 1.1419636587119563e-05, 'epoch': 0.47}
 47%|████▋     | 3128/6640 [3:30:32<16:04:56, 16.49s/it] 47%|████▋     | 3129/6640 [3:30:48<15:59:17, 16.39s/it]                                                        {'loss': 0.5407, 'learning_rate': 1.1414807576474554e-05, 'epoch': 0.47}
 47%|████▋     | 3129/6640 [3:30:48<15:59:17, 16.39s/it] 47%|████▋     | 3130/6640 [3:31:04<16:04:01, 16.48s/it]                                                        {'loss': 0.5335, 'learning_rate': 1.1409978229143297e-05, 'epoch': 0.47}
 47%|████▋     | 3130/6640 [3:31:04<16:04:01, 16.48s/it] 47%|████▋     | 3131/6640 [3:31:21<16:06:07, 16.52s/it]                                                        {'loss': 0.5317, 'learning_rate': 1.1405148546275046e-05, 'epoch': 0.47}
 47%|████▋     | 3131/6640 [3:31:21<16:06:07, 16.52s/it] 47%|████▋     | 3132/6640 [3:31:39<16:28:46, 16.91s/it]                                                        {'loss': 0.5325, 'learning_rate': 1.1400318529019134e-05, 'epoch': 0.47}
 47%|████▋     | 3132/6640 [3:31:39<16:28:46, 16.91s/it] 47%|████▋     | 3133/6640 [3:31:55<16:10:25, 16.60s/it]                                                        {'loss': 0.5386, 'learning_rate': 1.1395488178524982e-05, 'epoch': 0.47}
 47%|████▋     | 3133/6640 [3:31:55<16:10:25, 16.60s/it] 47%|████▋     | 3134/6640 [3:32:11<15:57:03, 16.38s/it]                                                        {'loss': 0.5301, 'learning_rate': 1.1390657495942077e-05, 'epoch': 0.47}
 47%|████▋     | 3134/6640 [3:32:11<15:57:03, 16.38s/it] 47%|████▋     | 3135/6640 [3:32:26<15:42:49, 16.14s/it]                                                        {'loss': 0.5361, 'learning_rate': 1.1385826482419993e-05, 'epoch': 0.47}
 47%|████▋     | 3135/6640 [3:32:26<15:42:49, 16.14s/it] 47%|████▋     | 3136/6640 [3:32:42<15:42:21, 16.14s/it]                                                        {'loss': 0.538, 'learning_rate': 1.1380995139108383e-05, 'epoch': 0.47}
 47%|████▋     | 3136/6640 [3:32:42<15:42:21, 16.14s/it] 47%|████▋     | 3137/6640 [3:32:58<15:42:59, 16.15s/it]                                                        {'loss': 0.5433, 'learning_rate': 1.137616346715698e-05, 'epoch': 0.47}
 47%|████▋     | 3137/6640 [3:32:58<15:42:59, 16.15s/it] 47%|████▋     | 3138/6640 [3:33:14<15:34:25, 16.01s/it]                                                        {'loss': 0.5247, 'learning_rate': 1.137133146771559e-05, 'epoch': 0.47}
 47%|████▋     | 3138/6640 [3:33:14<15:34:25, 16.01s/it] 47%|████▋     | 3139/6640 [3:33:30<15:35:16, 16.03s/it]                                                        {'loss': 0.524, 'learning_rate': 1.1366499141934098e-05, 'epoch': 0.47}
 47%|████▋     | 3139/6640 [3:33:30<15:35:16, 16.03s/it] 47%|████▋     | 3140/6640 [3:33:47<15:49:40, 16.28s/it]                                                        {'loss': 0.5336, 'learning_rate': 1.1361666490962468e-05, 'epoch': 0.47}
 47%|████▋     | 3140/6640 [3:33:47<15:49:40, 16.28s/it] 47%|████▋     | 3141/6640 [3:34:03<15:48:49, 16.27s/it]                                                        {'loss': 0.5466, 'learning_rate': 1.1356833515950743e-05, 'epoch': 0.47}
 47%|████▋     | 3141/6640 [3:34:03<15:48:49, 16.27s/it] 47%|████▋     | 3142/6640 [3:34:21<16:16:07, 16.74s/it]                                                        {'loss': 0.5443, 'learning_rate': 1.1352000218049038e-05, 'epoch': 0.47}
 47%|████▋     | 3142/6640 [3:34:21<16:16:07, 16.74s/it] 47%|████▋     | 3143/6640 [3:34:38<16:12:09, 16.68s/it]                                                        {'loss': 0.5298, 'learning_rate': 1.1347166598407551e-05, 'epoch': 0.47}
 47%|████▋     | 3143/6640 [3:34:38<16:12:09, 16.68s/it] 47%|████▋     | 3144/6640 [3:34:54<16:10:57, 16.66s/it]                                                        {'loss': 0.5518, 'learning_rate': 1.1342332658176556e-05, 'epoch': 0.47}
 47%|████▋     | 3144/6640 [3:34:54<16:10:57, 16.66s/it] 47%|████▋     | 3145/6640 [3:35:12<16:23:38, 16.89s/it]                                                        {'loss': 0.5407, 'learning_rate': 1.1337498398506397e-05, 'epoch': 0.47}
 47%|████▋     | 3145/6640 [3:35:12<16:23:38, 16.89s/it] 47%|████▋     | 3146/6640 [3:35:29<16:26:54, 16.95s/it]                                                        {'loss': 0.5101, 'learning_rate': 1.13326638205475e-05, 'epoch': 0.47}
 47%|████▋     | 3146/6640 [3:35:29<16:26:54, 16.95s/it] 47%|████▋     | 3147/6640 [3:35:45<16:17:58, 16.80s/it]                                                        {'loss': 0.5464, 'learning_rate': 1.1327828925450363e-05, 'epoch': 0.47}
 47%|████▋     | 3147/6640 [3:35:45<16:17:58, 16.80s/it] 47%|████▋     | 3148/6640 [3:36:01<16:05:40, 16.59s/it]                                                        {'loss': 0.5156, 'learning_rate': 1.1322993714365567e-05, 'epoch': 0.47}
 47%|████▋     | 3148/6640 [3:36:01<16:05:40, 16.59s/it] 47%|████▋     | 3149/6640 [3:36:18<16:07:50, 16.63s/it]                                                        {'loss': 0.5334, 'learning_rate': 1.1318158188443758e-05, 'epoch': 0.47}
 47%|████▋     | 3149/6640 [3:36:18<16:07:50, 16.63s/it]5 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
07 AutoResumeHook: Checking whether to suspend...
 3 AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
 47%|████▋     | 3150/6640 [3:36:33<15:44:35, 16.24s/it]6 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5203, 'learning_rate': 1.1313322348835658e-05, 'epoch': 0.47}
 47%|████▋     | 3150/6640 [3:36:33<15:44:35, 16.24s/it] 47%|████▋     | 3151/6640 [3:36:50<15:56:40, 16.45s/it]                                                        {'loss': 0.5244, 'learning_rate': 1.130848619669207e-05, 'epoch': 0.47}
 47%|████▋     | 3151/6640 [3:36:50<15:56:40, 16.45s/it] 47%|████▋     | 3152/6640 [3:37:07<15:58:39, 16.49s/it]                                                        {'loss': 0.5287, 'learning_rate': 1.130364973316387e-05, 'epoch': 0.47}
 47%|████▋     | 3152/6640 [3:37:07<15:58:39, 16.49s/it] 47%|████▋     | 3153/6640 [3:37:25<16:19:40, 16.86s/it]                                                        {'loss': 0.5457, 'learning_rate': 1.129881295940201e-05, 'epoch': 0.47}
 47%|████▋     | 3153/6640 [3:37:25<16:19:40, 16.86s/it] 48%|████▊     | 3154/6640 [3:37:40<15:56:28, 16.46s/it]                                                        {'loss': 0.5327, 'learning_rate': 1.1293975876557506e-05, 'epoch': 0.47}
 48%|████▊     | 3154/6640 [3:37:40<15:56:28, 16.46s/it] 48%|████▊     | 3155/6640 [3:37:57<16:02:40, 16.57s/it]                                                        {'loss': 0.5284, 'learning_rate': 1.1289138485781456e-05, 'epoch': 0.48}
 48%|████▊     | 3155/6640 [3:37:57<16:02:40, 16.57s/it] 48%|████▊     | 3156/6640 [3:38:14<16:04:34, 16.61s/it]                                                        {'loss': 0.5452, 'learning_rate': 1.1284300788225032e-05, 'epoch': 0.48}
 48%|████▊     | 3156/6640 [3:38:14<16:04:34, 16.61s/it] 48%|████▊     | 3157/6640 [3:38:30<16:00:10, 16.54s/it]                                                        {'loss': 0.5411, 'learning_rate': 1.1279462785039472e-05, 'epoch': 0.48}
 48%|████▊     | 3157/6640 [3:38:30<16:00:10, 16.54s/it] 48%|████▊     | 3158/6640 [3:38:46<15:54:27, 16.45s/it]                                                        {'loss': 0.5211, 'learning_rate': 1.1274624477376091e-05, 'epoch': 0.48}
 48%|████▊     | 3158/6640 [3:38:46<15:54:27, 16.45s/it] 48%|████▊     | 3159/6640 [3:39:04<16:09:09, 16.70s/it]                                                        {'loss': 0.5078, 'learning_rate': 1.1269785866386279e-05, 'epoch': 0.48}
 48%|████▊     | 3159/6640 [3:39:04<16:09:09, 16.70s/it] 48%|████▊     | 3160/6640 [3:39:20<15:57:59, 16.52s/it]                                                        {'loss': 0.5272, 'learning_rate': 1.1264946953221496e-05, 'epoch': 0.48}
 48%|████▊     | 3160/6640 [3:39:20<15:57:59, 16.52s/it] 48%|████▊     | 3161/6640 [3:39:37<16:09:52, 16.73s/it]                                                        {'loss': 0.5269, 'learning_rate': 1.126010773903327e-05, 'epoch': 0.48}
 48%|████▊     | 3161/6640 [3:39:37<16:09:52, 16.73s/it] 48%|████▊     | 3162/6640 [3:39:53<16:03:43, 16.63s/it]                                                        {'loss': 0.5437, 'learning_rate': 1.125526822497321e-05, 'epoch': 0.48}
 48%|████▊     | 3162/6640 [3:39:53<16:03:43, 16.63s/it] 48%|████▊     | 3163/6640 [3:40:10<16:06:06, 16.67s/it]                                                        {'loss': 0.5254, 'learning_rate': 1.1250428412192985e-05, 'epoch': 0.48}
 48%|████▊     | 3163/6640 [3:40:10<16:06:06, 16.67s/it] 48%|████▊     | 3164/6640 [3:40:27<16:02:22, 16.61s/it]                                                        {'loss': 0.5361, 'learning_rate': 1.1245588301844343e-05, 'epoch': 0.48}
 48%|████▊     | 3164/6640 [3:40:27<16:02:22, 16.61s/it] 48%|████▊     | 3165/6640 [3:40:42<15:39:07, 16.22s/it]                                                        {'loss': 0.5381, 'learning_rate': 1.12407478950791e-05, 'epoch': 0.48}
 48%|████▊     | 3165/6640 [3:40:42<15:39:07, 16.22s/it] 48%|████▊     | 3166/6640 [3:40:59<15:46:52, 16.35s/it]                                                        {'loss': 0.5265, 'learning_rate': 1.1235907193049145e-05, 'epoch': 0.48}
 48%|████▊     | 3166/6640 [3:40:59<15:46:52, 16.35s/it] 48%|████▊     | 3167/6640 [3:41:15<15:48:21, 16.38s/it]                                                        {'loss': 0.5327, 'learning_rate': 1.123106619690643e-05, 'epoch': 0.48}
 48%|████▊     | 3167/6640 [3:41:15<15:48:21, 16.38s/it] 48%|████▊     | 3168/6640 [3:41:31<15:36:03, 16.18s/it]                                                        {'loss': 0.5374, 'learning_rate': 1.1226224907802986e-05, 'epoch': 0.48}
 48%|████▊     | 3168/6640 [3:41:31<15:36:03, 16.18s/it] 48%|████▊     | 3169/6640 [3:41:47<15:30:17, 16.08s/it]                                                        {'loss': 0.5442, 'learning_rate': 1.1221383326890911e-05, 'epoch': 0.48}
 48%|████▊     | 3169/6640 [3:41:47<15:30:17, 16.08s/it] 48%|████▊     | 3170/6640 [3:42:03<15:32:18, 16.12s/it]                                                        {'loss': 0.5288, 'learning_rate': 1.1216541455322367e-05, 'epoch': 0.48}
 48%|████▊     | 3170/6640 [3:42:03<15:32:18, 16.12s/it] 48%|████▊     | 3171/6640 [3:42:20<15:42:33, 16.30s/it]                                                        {'loss': 0.5333, 'learning_rate': 1.1211699294249597e-05, 'epoch': 0.48}
 48%|████▊     | 3171/6640 [3:42:20<15:42:33, 16.30s/it]Token indices sequence length is longer than the specified maximum sequence length for this model (4338 > 4096). Running this sequence through the model will result in indexing errors
 48%|████▊     | 3172/6640 [3:42:36<15:50:56, 16.45s/it]                                                        {'loss': 0.5329, 'learning_rate': 1.1206856844824896e-05, 'epoch': 0.48}
 48%|████▊     | 3172/6640 [3:42:36<15:50:56, 16.45s/it] 48%|████▊     | 3173/6640 [3:42:53<15:46:46, 16.38s/it]                                                        {'loss': 0.5429, 'learning_rate': 1.1202014108200645e-05, 'epoch': 0.48}
 48%|████▊     | 3173/6640 [3:42:53<15:46:46, 16.38s/it] 48%|████▊     | 3174/6640 [3:43:09<15:47:00, 16.39s/it]                                                        {'loss': 0.52, 'learning_rate': 1.119717108552928e-05, 'epoch': 0.48}
 48%|████▊     | 3174/6640 [3:43:09<15:47:00, 16.39s/it] 48%|████▊     | 3175/6640 [3:43:26<15:51:47, 16.48s/it]                                                        {'loss': 0.539, 'learning_rate': 1.1192327777963313e-05, 'epoch': 0.48}
 48%|████▊     | 3175/6640 [3:43:26<15:51:47, 16.48s/it] 48%|████▊     | 3176/6640 [3:43:42<15:58:01, 16.59s/it]                                                        {'loss': 0.5187, 'learning_rate': 1.118748418665532e-05, 'epoch': 0.48}
 48%|████▊     | 3176/6640 [3:43:42<15:58:01, 16.59s/it] 48%|████▊     | 3177/6640 [3:43:59<15:49:08, 16.44s/it]                                                        {'loss': 0.5353, 'learning_rate': 1.1182640312757949e-05, 'epoch': 0.48}
 48%|████▊     | 3177/6640 [3:43:59<15:49:08, 16.44s/it] 48%|████▊     | 3178/6640 [3:44:15<15:48:09, 16.43s/it]                                                        {'loss': 0.5425, 'learning_rate': 1.1177796157423908e-05, 'epoch': 0.48}
 48%|████▊     | 3178/6640 [3:44:15<15:48:09, 16.43s/it] 48%|████▊     | 3179/6640 [3:44:31<15:46:00, 16.40s/it]                                                        {'loss': 0.5356, 'learning_rate': 1.1172951721805977e-05, 'epoch': 0.48}
 48%|████▊     | 3179/6640 [3:44:31<15:46:00, 16.40s/it] 48%|████▊     | 3180/6640 [3:44:48<15:48:21, 16.45s/it]                                                        {'loss': 0.5281, 'learning_rate': 1.1168107007057006e-05, 'epoch': 0.48}
 48%|████▊     | 3180/6640 [3:44:48<15:48:21, 16.45s/it] 48%|████▊     | 3181/6640 [3:45:05<15:58:37, 16.63s/it]                                                        {'loss': 0.52, 'learning_rate': 1.1163262014329902e-05, 'epoch': 0.48}
 48%|████▊     | 3181/6640 [3:45:05<15:58:37, 16.63s/it] 48%|████▊     | 3182/6640 [3:45:22<16:02:45, 16.70s/it]                                                        {'loss': 0.5246, 'learning_rate': 1.1158416744777644e-05, 'epoch': 0.48}
 48%|████▊     | 3182/6640 [3:45:22<16:02:45, 16.70s/it] 48%|████▊     | 3183/6640 [3:45:38<16:01:58, 16.70s/it]                                                        {'loss': 0.5232, 'learning_rate': 1.1153571199553276e-05, 'epoch': 0.48}
 48%|████▊     | 3183/6640 [3:45:38<16:01:58, 16.70s/it] 48%|████▊     | 3184/6640 [3:45:55<15:54:31, 16.57s/it]                                                        {'loss': 0.5384, 'learning_rate': 1.1148725379809911e-05, 'epoch': 0.48}
 48%|████▊     | 3184/6640 [3:45:55<15:54:31, 16.57s/it] 48%|████▊     | 3185/6640 [3:46:12<16:00:15, 16.68s/it]                                                        {'loss': 0.5264, 'learning_rate': 1.1143879286700723e-05, 'epoch': 0.48}
 48%|████▊     | 3185/6640 [3:46:12<16:00:15, 16.68s/it] 48%|████▊     | 3186/6640 [3:46:28<15:45:43, 16.43s/it]                                                        {'loss': 0.5514, 'learning_rate': 1.1139032921378947e-05, 'epoch': 0.48}
 48%|████▊     | 3186/6640 [3:46:28<15:45:43, 16.43s/it] 48%|████▊     | 3187/6640 [3:46:44<15:38:29, 16.31s/it]                                                        {'loss': 0.5206, 'learning_rate': 1.1134186284997897e-05, 'epoch': 0.48}
 48%|████▊     | 3187/6640 [3:46:44<15:38:29, 16.31s/it] 48%|████▊     | 3188/6640 [3:47:01<15:50:05, 16.51s/it]                                                        {'loss': 0.5177, 'learning_rate': 1.1129339378710933e-05, 'epoch': 0.48}
 48%|████▊     | 3188/6640 [3:47:01<15:50:05, 16.51s/it]/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/model/llava_arch.py:397: UserWarning: Inputs truncated!
  warnings.warn("Inputs truncated!")
 48%|████▊     | 3189/6640 [3:47:17<15:54:40, 16.60s/it]                                                        {'loss': 0.5404, 'learning_rate': 1.1124492203671498e-05, 'epoch': 0.48}
 48%|████▊     | 3189/6640 [3:47:17<15:54:40, 16.60s/it] 48%|████▊     | 3190/6640 [3:47:33<15:39:04, 16.33s/it]                                                        {'loss': 0.53, 'learning_rate': 1.1119644761033079e-05, 'epoch': 0.48}
 48%|████▊     | 3190/6640 [3:47:33<15:39:04, 16.33s/it] 48%|████▊     | 3191/6640 [3:47:51<15:58:36, 16.68s/it]                                                        {'loss': 0.523, 'learning_rate': 1.1114797051949248e-05, 'epoch': 0.48}
 48%|████▊     | 3191/6640 [3:47:51<15:58:36, 16.68s/it] 48%|████▊     | 3192/6640 [3:48:07<15:46:07, 16.46s/it]                                                        {'loss': 0.5258, 'learning_rate': 1.1109949077573623e-05, 'epoch': 0.48}
 48%|████▊     | 3192/6640 [3:48:07<15:46:07, 16.46s/it] 48%|████▊     | 3193/6640 [3:48:23<15:45:11, 16.45s/it]                                                        {'loss': 0.5233, 'learning_rate': 1.1105100839059892e-05, 'epoch': 0.48}
 48%|████▊     | 3193/6640 [3:48:23<15:45:11, 16.45s/it] 48%|████▊     | 3194/6640 [3:48:39<15:46:34, 16.48s/it]                                                        {'loss': 0.5382, 'learning_rate': 1.110025233756181e-05, 'epoch': 0.48}
 48%|████▊     | 3194/6640 [3:48:39<15:46:34, 16.48s/it] 48%|████▊     | 3195/6640 [3:48:56<15:44:11, 16.44s/it]                                                        {'loss': 0.543, 'learning_rate': 1.1095403574233185e-05, 'epoch': 0.48}
 48%|████▊     | 3195/6640 [3:48:56<15:44:11, 16.44s/it] 48%|████▊     | 3196/6640 [3:49:13<15:55:19, 16.64s/it]                                                        {'loss': 0.5444, 'learning_rate': 1.1090554550227899e-05, 'epoch': 0.48}
 48%|████▊     | 3196/6640 [3:49:13<15:55:19, 16.64s/it] 48%|████▊     | 3197/6640 [3:49:29<15:53:20, 16.61s/it]                                                        {'loss': 0.5342, 'learning_rate': 1.1085705266699884e-05, 'epoch': 0.48}
 48%|████▊     | 3197/6640 [3:49:29<15:53:20, 16.61s/it] 48%|████▊     | 3198/6640 [3:49:46<15:47:09, 16.51s/it]                                                        {'loss': 0.5425, 'learning_rate': 1.1080855724803141e-05, 'epoch': 0.48}
 48%|████▊     | 3198/6640 [3:49:46<15:47:09, 16.51s/it] 48%|████▊     | 3199/6640 [3:50:02<15:49:35, 16.56s/it]                                                        {'loss': 0.5268, 'learning_rate': 1.1076005925691731e-05, 'epoch': 0.48}
 48%|████▊     | 3199/6640 [3:50:02<15:49:35, 16.56s/it]4 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 48%|████▊     | 3200/6640 [3:50:19<15:47:01, 16.52s/it]6 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5176, 'learning_rate': 1.1071155870519777e-05, 'epoch': 0.48}
 48%|████▊     | 3200/6640 [3:50:19<15:47:01, 16.52s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3200/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3200/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3200/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 48%|████▊     | 3201/6640 [3:52:10<42:56:00, 44.94s/it]                                                        {'loss': 0.5322, 'learning_rate': 1.106630556044146e-05, 'epoch': 0.48}
 48%|████▊     | 3201/6640 [3:52:10<42:56:00, 44.94s/it] 48%|████▊     | 3202/6640 [3:52:27<34:48:32, 36.45s/it]                                                        {'loss': 0.5227, 'learning_rate': 1.1061454996611026e-05, 'epoch': 0.48}
 48%|████▊     | 3202/6640 [3:52:27<34:48:32, 36.45s/it] 48%|████▊     | 3203/6640 [3:52:43<28:56:26, 30.31s/it]                                                        {'loss': 0.5302, 'learning_rate': 1.1056604180182777e-05, 'epoch': 0.48}
 48%|████▊     | 3203/6640 [3:52:43<28:56:26, 30.31s/it] 48%|████▊     | 3204/6640 [3:52:59<24:51:30, 26.05s/it]                                                        {'loss': 0.5335, 'learning_rate': 1.105175311231108e-05, 'epoch': 0.48}
 48%|████▊     | 3204/6640 [3:52:59<24:51:30, 26.05s/it] 48%|████▊     | 3205/6640 [3:53:15<22:06:55, 23.18s/it]                                                        {'loss': 0.5355, 'learning_rate': 1.1046901794150358e-05, 'epoch': 0.48}
 48%|████▊     | 3205/6640 [3:53:15<22:06:55, 23.18s/it] 48%|████▊     | 3206/6640 [3:53:32<20:13:40, 21.21s/it]                                                        {'loss': 0.5141, 'learning_rate': 1.104205022685509e-05, 'epoch': 0.48}
 48%|████▊     | 3206/6640 [3:53:32<20:13:40, 21.21s/it] 48%|████▊     | 3207/6640 [3:53:48<18:40:06, 19.58s/it]                                                        {'loss': 0.5121, 'learning_rate': 1.1037198411579826e-05, 'epoch': 0.48}
 48%|████▊     | 3207/6640 [3:53:48<18:40:06, 19.58s/it] 48%|████▊     | 3208/6640 [3:54:04<17:46:35, 18.65s/it]                                                        {'loss': 0.5398, 'learning_rate': 1.1032346349479162e-05, 'epoch': 0.48}
 48%|████▊     | 3208/6640 [3:54:04<17:46:35, 18.65s/it] 48%|████▊     | 3209/6640 [3:54:20<16:56:42, 17.78s/it]                                                        {'loss': 0.5194, 'learning_rate': 1.1027494041707761e-05, 'epoch': 0.48}
 48%|████▊     | 3209/6640 [3:54:20<16:56:42, 17.78s/it] 48%|████▊     | 3210/6640 [3:54:36<16:30:08, 17.32s/it]                                                        {'loss': 0.5329, 'learning_rate': 1.1022641489420342e-05, 'epoch': 0.48}
 48%|████▊     | 3210/6640 [3:54:36<16:30:08, 17.32s/it] 48%|████▊     | 3211/6640 [3:54:52<16:12:17, 17.01s/it]                                                        {'loss': 0.5437, 'learning_rate': 1.1017788693771685e-05, 'epoch': 0.48}
 48%|████▊     | 3211/6640 [3:54:52<16:12:17, 17.01s/it] 48%|████▊     | 3212/6640 [3:55:08<15:48:35, 16.60s/it]                                                        {'loss': 0.5382, 'learning_rate': 1.1012935655916624e-05, 'epoch': 0.48}
 48%|████▊     | 3212/6640 [3:55:08<15:48:35, 16.60s/it] 48%|████▊     | 3213/6640 [3:55:25<15:52:20, 16.67s/it]                                                        {'loss': 0.5245, 'learning_rate': 1.1008082377010045e-05, 'epoch': 0.48}
 48%|████▊     | 3213/6640 [3:55:25<15:52:20, 16.67s/it] 48%|████▊     | 3214/6640 [3:55:42<15:55:02, 16.73s/it]                                                        {'loss': 0.5401, 'learning_rate': 1.100322885820691e-05, 'epoch': 0.48}
 48%|████▊     | 3214/6640 [3:55:42<15:55:02, 16.73s/it] 48%|████▊     | 3215/6640 [3:55:58<15:47:43, 16.60s/it]                                                        {'loss': 0.5337, 'learning_rate': 1.0998375100662215e-05, 'epoch': 0.48}
 48%|████▊     | 3215/6640 [3:55:58<15:47:43, 16.60s/it] 48%|████▊     | 3216/6640 [3:56:14<15:42:51, 16.52s/it]                                                        {'loss': 0.516, 'learning_rate': 1.0993521105531033e-05, 'epoch': 0.48}
 48%|████▊     | 3216/6640 [3:56:14<15:42:51, 16.52s/it] 48%|████▊     | 3217/6640 [3:56:31<15:41:40, 16.51s/it]                                                        {'loss': 0.5332, 'learning_rate': 1.0988666873968477e-05, 'epoch': 0.48}
 48%|████▊     | 3217/6640 [3:56:31<15:41:40, 16.51s/it] 48%|████▊     | 3218/6640 [3:56:47<15:33:27, 16.37s/it]                                                        {'loss': 0.5187, 'learning_rate': 1.0983812407129728e-05, 'epoch': 0.48}
 48%|████▊     | 3218/6640 [3:56:47<15:33:27, 16.37s/it]May 28 10:12:09.774501 1384361 slurmstepd   0x155550ab8700: error: *** STEP 8284398.0 ON batch-block1-0066 CANCELLED AT 2025-05-28T10:12:09 DUE TO TIME LIMIT ***
srun: Job step aborted: Waiting up to 122 seconds for job step to finish.
srun: error: batch-block1-0066: task 0: Terminated
srun: Terminating StepId=8284398.0
srun: job 8289522 queued and waiting for resources
srun: job 8289522 has been allocated resources
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
MASTER_ADDR=batch-block1-0105
JobID: 8289522 | Full list: batch-block1-0105 
NETWORK=Efficient-Large-Model/VILA1.5-13b
WARNING:torch.distributed.run:
*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
*****************************************
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
[2025-05-28 10:14:11,640] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 10:14:11,640] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 10:14:11,640] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 10:14:11,640] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 10:14:11,640] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 10:14:11,640] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 10:14:11,640] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 10:14:11,640] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 10:14:12,794] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 10:14:12,794] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 10:14:12,794] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 10:14:12,794] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 10:14:12,794] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 10:14:12,794] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 10:14:12,794] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 10:14:12,794] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 10:14:12,794] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 10:14:12,794] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 10:14:12,794] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 10:14:12,794] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 10:14:12,794] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 10:14:12,794] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 10:14:12,794] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 10:14:12,794] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 10:14:12,794] [INFO] [comm.py:625:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-05-28 10:14:20,455] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.02B parameters
Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:07,  1.44s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:07,  1.45s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:07,  1.45s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:07,  1.48s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:07,  1.55s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:07,  1.56s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:07,  1.58s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.22s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.23s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.23s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.24s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.25s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:09,  2.26s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:09,  2.26s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:06<00:31,  6.28s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:09<00:10,  3.62s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:09<00:10,  3.63s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:09<00:10,  3.62s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:09<00:10,  3.63s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:09<00:10,  3.62s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:09<00:10,  3.62s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:09<00:10,  3.63s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:11<00:22,  5.56s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:14<00:08,  4.01s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:14<00:08,  4.01s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:14<00:08,  4.01s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:14<00:08,  4.00s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:14<00:08,  4.02s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:14<00:08,  4.02s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:14<00:08,  4.03s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:16<00:15,  5.22s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:18<00:04,  4.29s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:18<00:04,  4.29s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:18<00:04,  4.29s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:18<00:04,  4.29s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:18<00:04,  4.30s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:18<00:04,  4.29s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:18<00:04,  4.30s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:19<00:00,  3.17s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:19<00:00,  3.31s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:19<00:00,  3.17s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:19<00:00,  3.32s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:19<00:00,  3.17s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:19<00:00,  3.32s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:19<00:00,  3.17s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:19<00:00,  3.32s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:19<00:00,  3.17s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:19<00:00,  3.32s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:19<00:00,  3.16s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:19<00:00,  3.32s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:19<00:00,  3.18s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:19<00:00,  3.33s/it]
Loading checkpoint shards:  67%|██████▋   | 4/6 [00:20<00:09,  5.00s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:25<00:04,  4.85s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:26<00:00,  3.62s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:26<00:00,  4.44s/it]
[2025-05-28 10:14:47,388] [WARNING] [partition_parameters.py:836:_post_init_method] param `probe` in SiglipMultiheadAttentionPoolingHead not on GPU so was not broadcasted from rank 0
[2025-05-28 10:14:47,389] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.44B parameters
[2025-05-28 10:14:48,562] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.49B parameters
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask'][Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']

[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[dist-0-of-8] LlavaLlamaModel(
  (llm): LlamaForCausalLM(
    (model): LlamaModel(
      (embed_tokens): Embedding(32000, 5120, padding_idx=0)
      (layers): ModuleList(
        (0-39): 40 x LlamaDecoderLayer(
          (self_attn): LlamaFlashAttention2(
            (q_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (k_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (v_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (o_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (rotary_emb): LlamaRotaryEmbedding()
          )
          (mlp): LlamaMLP(
            (gate_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (up_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (down_proj): Linear(in_features=13824, out_features=5120, bias=False)
            (act_fn): SiLU()
          )
          (input_layernorm): LlamaRMSNorm()
          (post_attention_layernorm): LlamaRMSNorm()
        )
      )
      (norm): LlamaRMSNorm()
    )
    (lm_head): Linear(in_features=5120, out_features=32000, bias=False)
  )
  (vision_tower): SiglipVisionTower(
    (vision_tower): SiglipVisionModel(
      (vision_model): SiglipVisionTransformer(
        (embeddings): SiglipVisionEmbeddings(
          (patch_embedding): Conv2d(3, 1152, kernel_size=(14, 14), stride=(14, 14), padding=valid)
          (position_embedding): Embedding(729, 1152)
        )
        (encoder): SiglipEncoder(
          (layers): ModuleList(
            (0-26): 27 x SiglipEncoderLayer(
              (self_attn): SiglipAttention(
                (k_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (v_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (q_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (out_proj): Linear(in_features=1152, out_features=1152, bias=True)
              )
              (layer_norm1): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
              (mlp): SiglipMLP(
                (activation_fn): PytorchGELUTanh()
                (fc1): Linear(in_features=1152, out_features=4304, bias=True)
                (fc2): Linear(in_features=4304, out_features=1152, bias=True)
              )
              (layer_norm2): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
            )
          )
        )
        (post_layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
        (head): SiglipMultiheadAttentionPoolingHead(
          (attention): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=1152, out_features=1152, bias=True)
          )
          (layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
          (mlp): SiglipMLP(
            (activation_fn): PytorchGELUTanh()
            (fc1): Linear(in_features=1152, out_features=4304, bias=True)
            (fc2): Linear(in_features=4304, out_features=1152, bias=True)
          )
        )
      )
    )
  )
  (mm_projector): MultimodalProjector(
    (layers): Sequential(
      (0): DownSampleBlock()
      (1): LayerNorm((4608,), eps=1e-05, elementwise_affine=True)
      (2): Linear(in_features=4608, out_features=5120, bias=True)
      (3): GELU(approximate='none')
      (4): Linear(in_features=5120, out_features=5120, bias=True)
    )
  )
)
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[dist-0-of-8] Tunable parameters:
language model True
[dist-0-of-8] vision tower True
[dist-0-of-8] mm projector True
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode


WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2337141036987305
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.234532356262207
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.234898567199707
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2335891723632812
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2360124588012695
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.233687400817871
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2367329597473145
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.235544204711914
Parameter Offload: Total persistent parameters: 847296 in 365 params
wandb: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
wandb: Tracking run with wandb version 0.18.7
wandb: Run data is saved locally in /lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/wandb/run-20250528_101632-3yfoenh8
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run vila_13b_path_mask
wandb: ⭐️ View project at https://wandb.ai/memmelma/VILA
wandb: 🚀 View run at https://wandb.ai/memmelma/VILA/runs/3yfoenh8
  0%|          | 0/6640 [00:00<?, ?it/s]Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
 48%|████▊     | 3201/6640 [00:28<00:31, 110.62it/s]                                                    {'loss': 0.5322, 'learning_rate': 1.106630556044146e-05, 'epoch': 0.48}
 48%|████▊     | 3201/6640 [00:28<00:31, 110.62it/s] 48%|████▊     | 3201/6640 [00:44<00:31, 110.62it/s] 48%|████▊     | 3202/6640 [00:45<00:56, 61.20it/s]                                                    {'loss': 0.5226, 'learning_rate': 1.1061454996611026e-05, 'epoch': 0.48}
 48%|████▊     | 3202/6640 [00:45<00:56, 61.20it/s] 48%|████▊     | 3203/6640 [01:01<01:30, 37.91it/s]                                                   {'loss': 0.5302, 'learning_rate': 1.1056604180182777e-05, 'epoch': 0.48}
 48%|████▊     | 3203/6640 [01:01<01:30, 37.91it/s] 48%|████▊     | 3204/6640 [01:16<02:20, 24.53it/s]                                                   {'loss': 0.5333, 'learning_rate': 1.105175311231108e-05, 'epoch': 0.48}
 48%|████▊     | 3204/6640 [01:16<02:20, 24.53it/s] 48%|████▊     | 3205/6640 [01:33<03:31, 16.21it/s]                                                   {'loss': 0.5355, 'learning_rate': 1.1046901794150358e-05, 'epoch': 0.48}
 48%|████▊     | 3205/6640 [01:33<03:31, 16.21it/s] 48%|████▊     | 3206/6640 [01:49<05:16, 10.86it/s]                                                   {'loss': 0.5142, 'learning_rate': 1.104205022685509e-05, 'epoch': 0.48}
 48%|████▊     | 3206/6640 [01:49<05:16, 10.86it/s] 48%|████▊     | 3207/6640 [02:05<07:38,  7.49it/s]                                                   {'loss': 0.5119, 'learning_rate': 1.1037198411579826e-05, 'epoch': 0.48}
 48%|████▊     | 3207/6640 [02:05<07:38,  7.49it/s] 48%|████▊     | 3208/6640 [02:21<11:05,  5.16it/s]                                                   {'loss': 0.5396, 'learning_rate': 1.1032346349479162e-05, 'epoch': 0.48}
 48%|████▊     | 3208/6640 [02:21<11:05,  5.16it/s] 48%|████▊     | 3209/6640 [02:37<15:49,  3.61it/s]                                                   {'loss': 0.5195, 'learning_rate': 1.1027494041707761e-05, 'epoch': 0.48}
 48%|████▊     | 3209/6640 [02:37<15:49,  3.61it/s] 48%|████▊     | 3210/6640 [02:53<22:38,  2.52it/s]                                                   {'loss': 0.5328, 'learning_rate': 1.1022641489420342e-05, 'epoch': 0.48}
 48%|████▊     | 3210/6640 [02:53<22:38,  2.52it/s] 48%|████▊     | 3211/6640 [03:09<32:13,  1.77it/s]                                                   {'loss': 0.5435, 'learning_rate': 1.1017788693771685e-05, 'epoch': 0.48}
 48%|████▊     | 3211/6640 [03:09<32:13,  1.77it/s] 48%|████▊     | 3212/6640 [03:25<45:11,  1.26it/s]                                                   {'loss': 0.5381, 'learning_rate': 1.1012935655916624e-05, 'epoch': 0.48}
 48%|████▊     | 3212/6640 [03:25<45:11,  1.26it/s] 48%|████▊     | 3213/6640 [03:41<1:04:06,  1.12s/it]                                                     {'loss': 0.5246, 'learning_rate': 1.1008082377010045e-05, 'epoch': 0.48}
 48%|████▊     | 3213/6640 [03:41<1:04:06,  1.12s/it] 48%|████▊     | 3214/6640 [03:58<1:30:06,  1.58s/it]                                                     {'loss': 0.54, 'learning_rate': 1.100322885820691e-05, 'epoch': 0.48}
 48%|████▊     | 3214/6640 [03:58<1:30:06,  1.58s/it] 48%|████▊     | 3215/6640 [04:14<2:03:21,  2.16s/it]                                                     {'loss': 0.5338, 'learning_rate': 1.0998375100662215e-05, 'epoch': 0.48}
 48%|████▊     | 3215/6640 [04:14<2:03:21,  2.16s/it] 48%|████▊     | 3216/6640 [04:30<2:46:36,  2.92s/it]                                                     {'loss': 0.5161, 'learning_rate': 1.0993521105531033e-05, 'epoch': 0.48}
 48%|████▊     | 3216/6640 [04:30<2:46:36,  2.92s/it] 48%|████▊     | 3217/6640 [04:47<3:41:44,  3.89s/it]                                                     {'loss': 0.5333, 'learning_rate': 1.0988666873968477e-05, 'epoch': 0.48}
 48%|████▊     | 3217/6640 [04:47<3:41:44,  3.89s/it] 48%|████▊     | 3218/6640 [05:03<4:45:10,  5.00s/it]                                                     {'loss': 0.5185, 'learning_rate': 1.0983812407129728e-05, 'epoch': 0.48}
 48%|████▊     | 3218/6640 [05:03<4:45:10,  5.00s/it] 48%|████▊     | 3219/6640 [05:20<6:04:37,  6.40s/it]                                                     {'loss': 0.5259, 'learning_rate': 1.0978957706170016e-05, 'epoch': 0.48}
 48%|████▊     | 3219/6640 [05:20<6:04:37,  6.40s/it] 48%|████▊     | 3220/6640 [05:36<7:22:57,  7.77s/it]                                                     {'loss': 0.531, 'learning_rate': 1.0974102772244638e-05, 'epoch': 0.48}
 48%|████▊     | 3220/6640 [05:36<7:22:57,  7.77s/it] 49%|████▊     | 3221/6640 [05:52<8:47:18,  9.25s/it]                                                     {'loss': 0.5331, 'learning_rate': 1.0969247606508928e-05, 'epoch': 0.49}
 49%|████▊     | 3221/6640 [05:52<8:47:18,  9.25s/it] 49%|████▊     | 3222/6640 [06:10<10:19:41, 10.88s/it]                                                      {'loss': 0.5441, 'learning_rate': 1.0964392210118292e-05, 'epoch': 0.49}
 49%|████▊     | 3222/6640 [06:10<10:19:41, 10.88s/it] 49%|████▊     | 3223/6640 [06:26<11:27:03, 12.06s/it]                                                      {'loss': 0.5364, 'learning_rate': 1.0959536584228181e-05, 'epoch': 0.49}
 49%|████▊     | 3223/6640 [06:26<11:27:03, 12.06s/it] 49%|████▊     | 3224/6640 [06:43<12:28:50, 13.15s/it]                                                      {'loss': 0.5131, 'learning_rate': 1.0954680729994103e-05, 'epoch': 0.49}
 49%|████▊     | 3224/6640 [06:43<12:28:50, 13.15s/it] 49%|████▊     | 3225/6640 [06:59<13:16:31, 13.99s/it]                                                      {'loss': 0.5431, 'learning_rate': 1.094982464857162e-05, 'epoch': 0.49}
 49%|████▊     | 3225/6640 [06:59<13:16:31, 13.99s/it] 49%|████▊     | 3226/6640 [07:15<13:49:36, 14.58s/it]                                                      {'loss': 0.5316, 'learning_rate': 1.0944968341116353e-05, 'epoch': 0.49}
 49%|████▊     | 3226/6640 [07:15<13:49:36, 14.58s/it] 49%|████▊     | 3227/6640 [07:32<14:14:47, 15.03s/it]                                                      {'loss': 0.534, 'learning_rate': 1.0940111808783972e-05, 'epoch': 0.49}
 49%|████▊     | 3227/6640 [07:32<14:14:47, 15.03s/it] 49%|████▊     | 3228/6640 [07:49<14:48:24, 15.62s/it]                                                      {'loss': 0.5384, 'learning_rate': 1.09352550527302e-05, 'epoch': 0.49}
 49%|████▊     | 3228/6640 [07:49<14:48:24, 15.62s/it] 49%|████▊     | 3229/6640 [08:06<15:08:16, 15.98s/it]                                                      {'loss': 0.5344, 'learning_rate': 1.0930398074110815e-05, 'epoch': 0.49}
 49%|████▊     | 3229/6640 [08:06<15:08:16, 15.98s/it] 49%|████▊     | 3230/6640 [08:21<14:59:19, 15.82s/it]                                                      {'loss': 0.5318, 'learning_rate': 1.0925540874081649e-05, 'epoch': 0.49}
 49%|████▊     | 3230/6640 [08:21<14:59:19, 15.82s/it] 49%|████▊     | 3231/6640 [08:37<15:00:56, 15.86s/it]                                                      {'loss': 0.5104, 'learning_rate': 1.0920683453798581e-05, 'epoch': 0.49}
 49%|████▊     | 3231/6640 [08:37<15:00:56, 15.86s/it] 49%|████▊     | 3232/6640 [08:53<15:01:02, 15.86s/it]                                                      {'loss': 0.5271, 'learning_rate': 1.0915825814417555e-05, 'epoch': 0.49}
 49%|████▊     | 3232/6640 [08:53<15:01:02, 15.86s/it] 49%|████▊     | 3233/6640 [09:10<15:15:16, 16.12s/it]                                                      {'loss': 0.5152, 'learning_rate': 1.0910967957094549e-05, 'epoch': 0.49}
 49%|████▊     | 3233/6640 [09:10<15:15:16, 16.12s/it] 49%|████▊     | 3234/6640 [09:26<15:15:45, 16.13s/it]                                                      {'loss': 0.5248, 'learning_rate': 1.0906109882985606e-05, 'epoch': 0.49}
 49%|████▊     | 3234/6640 [09:26<15:15:45, 16.13s/it] 49%|████▊     | 3235/6640 [09:42<15:16:14, 16.15s/it]                                                      {'loss': 0.5264, 'learning_rate': 1.0901251593246822e-05, 'epoch': 0.49}
 49%|████▊     | 3235/6640 [09:42<15:16:14, 16.15s/it] 49%|████▊     | 3236/6640 [09:58<15:21:06, 16.24s/it]                                                      {'loss': 0.5321, 'learning_rate': 1.0896393089034336e-05, 'epoch': 0.49}
 49%|████▊     | 3236/6640 [09:58<15:21:06, 16.24s/it] 49%|████▉     | 3237/6640 [10:15<15:28:40, 16.37s/it]                                                      {'loss': 0.5236, 'learning_rate': 1.0891534371504341e-05, 'epoch': 0.49}
 49%|████▉     | 3237/6640 [10:15<15:28:40, 16.37s/it] 49%|████▉     | 3238/6640 [10:31<15:27:55, 16.37s/it]                                                      {'loss': 0.5353, 'learning_rate': 1.0886675441813083e-05, 'epoch': 0.49}
 49%|████▉     | 3238/6640 [10:31<15:27:55, 16.37s/it] 49%|████▉     | 3239/6640 [10:48<15:34:10, 16.48s/it]                                                      {'loss': 0.5492, 'learning_rate': 1.0881816301116857e-05, 'epoch': 0.49}
 49%|████▉     | 3239/6640 [10:48<15:34:10, 16.48s/it] 49%|████▉     | 3240/6640 [11:05<15:32:22, 16.45s/it]                                                      {'loss': 0.5314, 'learning_rate': 1.0876956950572006e-05, 'epoch': 0.49}
 49%|████▉     | 3240/6640 [11:05<15:32:22, 16.45s/it] 49%|████▉     | 3241/6640 [11:21<15:29:58, 16.42s/it]                                                      {'loss': 0.5567, 'learning_rate': 1.0872097391334928e-05, 'epoch': 0.49}
 49%|████▉     | 3241/6640 [11:21<15:29:58, 16.42s/it] 49%|████▉     | 3242/6640 [11:37<15:29:04, 16.41s/it]                                                      {'loss': 0.5343, 'learning_rate': 1.0867237624562064e-05, 'epoch': 0.49}
 49%|████▉     | 3242/6640 [11:37<15:29:04, 16.41s/it] 49%|████▉     | 3243/6640 [11:53<15:20:41, 16.26s/it]                                                      {'loss': 0.5223, 'learning_rate': 1.0862377651409912e-05, 'epoch': 0.49}
 49%|████▉     | 3243/6640 [11:53<15:20:41, 16.26s/it] 49%|████▉     | 3244/6640 [12:10<15:34:10, 16.50s/it]                                                      {'loss': 0.5216, 'learning_rate': 1.0857517473035013e-05, 'epoch': 0.49}
 49%|████▉     | 3244/6640 [12:10<15:34:10, 16.50s/it] 49%|████▉     | 3245/6640 [12:27<15:31:00, 16.45s/it]                                                      {'loss': 0.512, 'learning_rate': 1.0852657090593961e-05, 'epoch': 0.49}
 49%|████▉     | 3245/6640 [12:27<15:31:00, 16.45s/it] 49%|████▉     | 3246/6640 [12:44<15:52:24, 16.84s/it]                                                      {'loss': 0.5207, 'learning_rate': 1.0847796505243393e-05, 'epoch': 0.49}
 49%|████▉     | 3246/6640 [12:44<15:52:24, 16.84s/it] 49%|████▉     | 3247/6640 [13:01<15:43:33, 16.69s/it]                                                      {'loss': 0.5378, 'learning_rate': 1.0842935718140005e-05, 'epoch': 0.49}
 49%|████▉     | 3247/6640 [13:01<15:43:33, 16.69s/it] 49%|████▉     | 3248/6640 [13:17<15:36:13, 16.56s/it]                                                      {'loss': 0.5316, 'learning_rate': 1.0838074730440525e-05, 'epoch': 0.49}
 49%|████▉     | 3248/6640 [13:17<15:36:13, 16.56s/it] 49%|████▉     | 3249/6640 [13:34<15:38:37, 16.61s/it]                                                      {'loss': 0.5376, 'learning_rate': 1.0833213543301742e-05, 'epoch': 0.49}
 49%|████▉     | 3249/6640 [13:34<15:38:37, 16.61s/it]2 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
017 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
4 49%|████▉     | 3250/6640 [13:52<16:15:52, 17.27s/it] AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
                                                      {'loss': 0.5279, 'learning_rate': 1.0828352157880489e-05, 'epoch': 0.49}
 49%|████▉     | 3250/6640 [13:52<16:15:52, 17.27s/it] 49%|████▉     | 3251/6640 [14:09<16:01:12, 17.02s/it]                                                      {'loss': 0.5431, 'learning_rate': 1.0823490575333641e-05, 'epoch': 0.49}
 49%|████▉     | 3251/6640 [14:09<16:01:12, 17.02s/it] 49%|████▉     | 3252/6640 [14:25<15:41:54, 16.68s/it]                                                      {'loss': 0.5261, 'learning_rate': 1.0818628796818134e-05, 'epoch': 0.49}
 49%|████▉     | 3252/6640 [14:25<15:41:54, 16.68s/it] 49%|████▉     | 3253/6640 [14:41<15:40:20, 16.66s/it]                                                      {'loss': 0.5262, 'learning_rate': 1.0813766823490927e-05, 'epoch': 0.49}
 49%|████▉     | 3253/6640 [14:41<15:40:20, 16.66s/it] 49%|████▉     | 3254/6640 [14:57<15:17:32, 16.26s/it]                                                      {'loss': 0.5102, 'learning_rate': 1.0808904656509054e-05, 'epoch': 0.49}
 49%|████▉     | 3254/6640 [14:57<15:17:32, 16.26s/it] 49%|████▉     | 3255/6640 [15:13<15:18:06, 16.27s/it]                                                      {'loss': 0.5293, 'learning_rate': 1.0804042297029567e-05, 'epoch': 0.49}
 49%|████▉     | 3255/6640 [15:13<15:18:06, 16.27s/it] 49%|████▉     | 3256/6640 [15:29<15:07:14, 16.09s/it]                                                      {'loss': 0.5118, 'learning_rate': 1.0799179746209586e-05, 'epoch': 0.49}
 49%|████▉     | 3256/6640 [15:29<15:07:14, 16.09s/it] 49%|████▉     | 3257/6640 [15:45<15:03:04, 16.02s/it]                                                      {'loss': 0.5387, 'learning_rate': 1.0794317005206263e-05, 'epoch': 0.49}
 49%|████▉     | 3257/6640 [15:45<15:03:04, 16.02s/it] 49%|████▉     | 3258/6640 [16:00<15:01:28, 15.99s/it]                                                      {'loss': 0.5443, 'learning_rate': 1.0789454075176805e-05, 'epoch': 0.49}
 49%|████▉     | 3258/6640 [16:00<15:01:28, 15.99s/it] 49%|████▉     | 3259/6640 [16:17<15:11:32, 16.18s/it]                                                      {'loss': 0.5344, 'learning_rate': 1.0784590957278452e-05, 'epoch': 0.49}
 49%|████▉     | 3259/6640 [16:17<15:11:32, 16.18s/it] 49%|████▉     | 3260/6640 [16:36<15:52:35, 16.91s/it]                                                      {'loss': 0.5281, 'learning_rate': 1.0779727652668496e-05, 'epoch': 0.49}
 49%|████▉     | 3260/6640 [16:36<15:52:35, 16.91s/it] 49%|████▉     | 3261/6640 [16:52<15:39:42, 16.69s/it]                                                      {'loss': 0.5501, 'learning_rate': 1.0774864162504285e-05, 'epoch': 0.49}
 49%|████▉     | 3261/6640 [16:52<15:39:42, 16.69s/it] 49%|████▉     | 3262/6640 [17:09<15:40:32, 16.71s/it]                                                      {'loss': 0.54, 'learning_rate': 1.0770000487943182e-05, 'epoch': 0.49}
 49%|████▉     | 3262/6640 [17:09<15:40:32, 16.71s/it] 49%|████▉     | 3263/6640 [17:25<15:33:05, 16.58s/it]                                                      {'loss': 0.5378, 'learning_rate': 1.0765136630142626e-05, 'epoch': 0.49}
 49%|████▉     | 3263/6640 [17:25<15:33:05, 16.58s/it] 49%|████▉     | 3264/6640 [17:42<15:34:36, 16.61s/it]                                                      {'loss': 0.5053, 'learning_rate': 1.0760272590260072e-05, 'epoch': 0.49}
 49%|████▉     | 3264/6640 [17:42<15:34:36, 16.61s/it] 49%|████▉     | 3265/6640 [17:57<15:22:57, 16.41s/it]                                                      {'loss': 0.5148, 'learning_rate': 1.075540836945304e-05, 'epoch': 0.49}
 49%|████▉     | 3265/6640 [17:58<15:22:57, 16.41s/it] 49%|████▉     | 3266/6640 [18:13<15:14:31, 16.26s/it]                                                      {'loss': 0.5462, 'learning_rate': 1.0750543968879081e-05, 'epoch': 0.49}
 49%|████▉     | 3266/6640 [18:13<15:14:31, 16.26s/it] 49%|████▉     | 3267/6640 [18:29<15:07:37, 16.15s/it]                                                      {'loss': 0.517, 'learning_rate': 1.0745679389695792e-05, 'epoch': 0.49}
 49%|████▉     | 3267/6640 [18:29<15:07:37, 16.15s/it] 49%|████▉     | 3268/6640 [18:45<15:00:54, 16.03s/it]                                                      {'loss': 0.5162, 'learning_rate': 1.0740814633060812e-05, 'epoch': 0.49}
 49%|████▉     | 3268/6640 [18:45<15:00:54, 16.03s/it] 49%|████▉     | 3269/6640 [19:02<15:09:21, 16.19s/it]                                                      {'loss': 0.5421, 'learning_rate': 1.0735949700131822e-05, 'epoch': 0.49}
 49%|████▉     | 3269/6640 [19:02<15:09:21, 16.19s/it] 49%|████▉     | 3270/6640 [19:17<15:02:51, 16.07s/it]                                                      {'loss': 0.5433, 'learning_rate': 1.0731084592066548e-05, 'epoch': 0.49}
 49%|████▉     | 3270/6640 [19:17<15:02:51, 16.07s/it] 49%|████▉     | 3271/6640 [19:35<15:29:07, 16.55s/it]                                                      {'loss': 0.5177, 'learning_rate': 1.0726219310022752e-05, 'epoch': 0.49}
 49%|████▉     | 3271/6640 [19:35<15:29:07, 16.55s/it] 49%|████▉     | 3272/6640 [19:51<15:24:15, 16.47s/it]                                                      {'loss': 0.5317, 'learning_rate': 1.0721353855158243e-05, 'epoch': 0.49}
 49%|████▉     | 3272/6640 [19:51<15:24:15, 16.47s/it] 49%|████▉     | 3273/6640 [20:07<15:14:11, 16.29s/it]                                                      {'loss': 0.5106, 'learning_rate': 1.0716488228630867e-05, 'epoch': 0.49}
 49%|████▉     | 3273/6640 [20:07<15:14:11, 16.29s/it] 49%|████▉     | 3274/6640 [20:24<15:20:46, 16.41s/it]                                                      {'loss': 0.5194, 'learning_rate': 1.0711622431598516e-05, 'epoch': 0.49}
 49%|████▉     | 3274/6640 [20:24<15:20:46, 16.41s/it] 49%|████▉     | 3275/6640 [20:41<15:29:15, 16.57s/it]                                                      {'loss': 0.5394, 'learning_rate': 1.0706756465219114e-05, 'epoch': 0.49}
 49%|████▉     | 3275/6640 [20:41<15:29:15, 16.57s/it] 49%|████▉     | 3276/6640 [20:57<15:21:31, 16.44s/it]                                                      {'loss': 0.5269, 'learning_rate': 1.0701890330650633e-05, 'epoch': 0.49}
 49%|████▉     | 3276/6640 [20:57<15:21:31, 16.44s/it] 49%|████▉     | 3277/6640 [21:13<15:19:21, 16.40s/it]                                                      {'loss': 0.5307, 'learning_rate': 1.0697024029051085e-05, 'epoch': 0.49}
 49%|████▉     | 3277/6640 [21:13<15:19:21, 16.40s/it] 49%|████▉     | 3278/6640 [21:30<15:23:04, 16.47s/it]                                                      {'loss': 0.5416, 'learning_rate': 1.0692157561578515e-05, 'epoch': 0.49}
 49%|████▉     | 3278/6640 [21:30<15:23:04, 16.47s/it] 49%|████▉     | 3279/6640 [21:46<15:16:52, 16.37s/it]                                                      {'loss': 0.5122, 'learning_rate': 1.0687290929391017e-05, 'epoch': 0.49}
 49%|████▉     | 3279/6640 [21:46<15:16:52, 16.37s/it] 49%|████▉     | 3280/6640 [22:02<15:14:34, 16.33s/it]                                                      {'loss': 0.5494, 'learning_rate': 1.0682424133646712e-05, 'epoch': 0.49}
 49%|████▉     | 3280/6640 [22:02<15:14:34, 16.33s/it] 49%|████▉     | 3281/6640 [22:19<15:15:38, 16.36s/it]                                                      {'loss': 0.5614, 'learning_rate': 1.0677557175503771e-05, 'epoch': 0.49}
 49%|████▉     | 3281/6640 [22:19<15:15:38, 16.36s/it] 49%|████▉     | 3282/6640 [22:36<15:32:32, 16.66s/it]                                                      {'loss': 0.5371, 'learning_rate': 1.0672690056120398e-05, 'epoch': 0.49}
 49%|████▉     | 3282/6640 [22:36<15:32:32, 16.66s/it] 49%|████▉     | 3283/6640 [22:53<15:31:40, 16.65s/it]                                                      {'loss': 0.4961, 'learning_rate': 1.0667822776654836e-05, 'epoch': 0.49}
 49%|████▉     | 3283/6640 [22:53<15:31:40, 16.65s/it] 49%|████▉     | 3284/6640 [23:09<15:26:12, 16.56s/it]                                                      {'loss': 0.5418, 'learning_rate': 1.066295533826537e-05, 'epoch': 0.49}
 49%|████▉     | 3284/6640 [23:09<15:26:12, 16.56s/it] 49%|████▉     | 3285/6640 [23:25<15:09:01, 16.26s/it]                                                      {'loss': 0.5332, 'learning_rate': 1.0658087742110322e-05, 'epoch': 0.49}
 49%|████▉     | 3285/6640 [23:25<15:09:01, 16.26s/it] 49%|████▉     | 3286/6640 [23:40<14:57:17, 16.05s/it]                                                      {'loss': 0.5155, 'learning_rate': 1.0653219989348045e-05, 'epoch': 0.49}
 49%|████▉     | 3286/6640 [23:40<14:57:17, 16.05s/it] 50%|████▉     | 3287/6640 [23:56<14:56:26, 16.04s/it]                                                      {'loss': 0.5318, 'learning_rate': 1.064835208113693e-05, 'epoch': 0.5}
 50%|████▉     | 3287/6640 [23:56<14:56:26, 16.04s/it] 50%|████▉     | 3288/6640 [24:13<15:01:50, 16.14s/it]                                                      {'loss': 0.5273, 'learning_rate': 1.0643484018635418e-05, 'epoch': 0.5}
 50%|████▉     | 3288/6640 [24:13<15:01:50, 16.14s/it] 50%|████▉     | 3289/6640 [24:28<14:54:44, 16.02s/it]                                                      {'loss': 0.5312, 'learning_rate': 1.0638615803001967e-05, 'epoch': 0.5}
 50%|████▉     | 3289/6640 [24:28<14:54:44, 16.02s/it] 50%|████▉     | 3290/6640 [24:45<14:57:31, 16.08s/it]                                                      {'loss': 0.5196, 'learning_rate': 1.063374743539509e-05, 'epoch': 0.5}
 50%|████▉     | 3290/6640 [24:45<14:57:31, 16.08s/it] 50%|████▉     | 3291/6640 [25:01<15:09:51, 16.30s/it]                                                      {'loss': 0.5252, 'learning_rate': 1.0628878916973322e-05, 'epoch': 0.5}
 50%|████▉     | 3291/6640 [25:01<15:09:51, 16.30s/it] 50%|████▉     | 3292/6640 [25:17<15:06:43, 16.25s/it]                                                      {'loss': 0.5283, 'learning_rate': 1.0624010248895242e-05, 'epoch': 0.5}
 50%|████▉     | 3292/6640 [25:17<15:06:43, 16.25s/it] 50%|████▉     | 3293/6640 [25:34<15:12:53, 16.36s/it]                                                      {'loss': 0.5402, 'learning_rate': 1.0619141432319464e-05, 'epoch': 0.5}
 50%|████▉     | 3293/6640 [25:34<15:12:53, 16.36s/it] 50%|████▉     | 3294/6640 [25:52<15:29:37, 16.67s/it]                                                      {'loss': 0.5242, 'learning_rate': 1.0614272468404637e-05, 'epoch': 0.5}
 50%|████▉     | 3294/6640 [25:52<15:29:37, 16.67s/it] 50%|████▉     | 3295/6640 [26:07<15:14:48, 16.41s/it]                                                      {'loss': 0.5359, 'learning_rate': 1.060940335830944e-05, 'epoch': 0.5}
 50%|████▉     | 3295/6640 [26:07<15:14:48, 16.41s/it] 50%|████▉     | 3296/6640 [26:23<15:04:45, 16.23s/it]                                                      {'loss': 0.5232, 'learning_rate': 1.060453410319259e-05, 'epoch': 0.5}
 50%|████▉     | 3296/6640 [26:23<15:04:45, 16.23s/it] 50%|████▉     | 3297/6640 [26:39<15:04:41, 16.24s/it]                                                      {'loss': 0.5484, 'learning_rate': 1.0599664704212844e-05, 'epoch': 0.5}
 50%|████▉     | 3297/6640 [26:39<15:04:41, 16.24s/it] 50%|████▉     | 3298/6640 [26:57<15:19:22, 16.51s/it]                                                      {'loss': 0.5446, 'learning_rate': 1.0594795162528982e-05, 'epoch': 0.5}
 50%|████▉     | 3298/6640 [26:57<15:19:22, 16.51s/it] 50%|████▉     | 3299/6640 [27:13<15:18:12, 16.49s/it]                                                      {'loss': 0.5172, 'learning_rate': 1.0589925479299833e-05, 'epoch': 0.5}
 50%|████▉     | 3299/6640 [27:13<15:18:12, 16.49s/it]5 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
37  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

6 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 50%|████▉     | 3300/6640 [27:29<15:10:02, 16.35s/it]                                                      {'loss': 0.5212, 'learning_rate': 1.058505565568424e-05, 'epoch': 0.5}
 50%|████▉     | 3300/6640 [27:29<15:10:02, 16.35s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3300/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3300/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3300/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 50%|████▉     | 3301/6640 [29:20<41:25:21, 44.66s/it]                                                      {'loss': 0.5163, 'learning_rate': 1.0580185692841095e-05, 'epoch': 0.5}
 50%|████▉     | 3301/6640 [29:20<41:25:21, 44.66s/it] 50%|████▉     | 3302/6640 [29:36<33:32:02, 36.17s/it]                                                      {'loss': 0.5287, 'learning_rate': 1.0575315591929322e-05, 'epoch': 0.5}
 50%|████▉     | 3302/6640 [29:36<33:32:02, 36.17s/it] 50%|████▉     | 3303/6640 [29:52<27:50:50, 30.04s/it]                                                      {'loss': 0.5207, 'learning_rate': 1.0570445354107874e-05, 'epoch': 0.5}
 50%|████▉     | 3303/6640 [29:52<27:50:50, 30.04s/it] 50%|████▉     | 3304/6640 [30:07<23:36:55, 25.48s/it]                                                      {'loss': 0.5523, 'learning_rate': 1.0565574980535733e-05, 'epoch': 0.5}
 50%|████▉     | 3304/6640 [30:07<23:36:55, 25.48s/it] 50%|████▉     | 3305/6640 [30:23<21:01:07, 22.69s/it]                                                      {'loss': 0.5301, 'learning_rate': 1.0560704472371919e-05, 'epoch': 0.5}
 50%|████▉     | 3305/6640 [30:23<21:01:07, 22.69s/it] 50%|████▉     | 3306/6640 [30:43<20:12:40, 21.82s/it]                                                      {'loss': 0.5438, 'learning_rate': 1.0555833830775483e-05, 'epoch': 0.5}
 50%|████▉     | 3306/6640 [30:43<20:12:40, 21.82s/it] 50%|████▉     | 3307/6640 [30:59<18:42:07, 20.20s/it]                                                      {'loss': 0.5399, 'learning_rate': 1.0550963056905506e-05, 'epoch': 0.5}
 50%|████▉     | 3307/6640 [30:59<18:42:07, 20.20s/it] 50%|████▉     | 3308/6640 [31:15<17:37:18, 19.04s/it]                                                      {'loss': 0.5196, 'learning_rate': 1.05460921519211e-05, 'epoch': 0.5}
 50%|████▉     | 3308/6640 [31:15<17:37:18, 19.04s/it] 50%|████▉     | 3309/6640 [31:31<16:48:04, 18.16s/it]                                                      {'loss': 0.535, 'learning_rate': 1.0541221116981412e-05, 'epoch': 0.5}
 50%|████▉     | 3309/6640 [31:31<16:48:04, 18.16s/it] 50%|████▉     | 3310/6640 [31:47<16:07:33, 17.43s/it]                                                      {'loss': 0.5424, 'learning_rate': 1.0536349953245622e-05, 'epoch': 0.5}
 50%|████▉     | 3310/6640 [31:47<16:07:33, 17.43s/it] 50%|████▉     | 3311/6640 [32:04<15:53:28, 17.18s/it]                                                      {'loss': 0.5139, 'learning_rate': 1.0531478661872926e-05, 'epoch': 0.5}
 50%|████▉     | 3311/6640 [32:04<15:53:28, 17.18s/it] 50%|████▉     | 3312/6640 [32:20<15:36:44, 16.89s/it]                                                      {'loss': 0.544, 'learning_rate': 1.0526607244022571e-05, 'epoch': 0.5}
 50%|████▉     | 3312/6640 [32:20<15:36:44, 16.89s/it] 50%|████▉     | 3313/6640 [32:37<15:31:33, 16.80s/it]                                                      {'loss': 0.5165, 'learning_rate': 1.0521735700853818e-05, 'epoch': 0.5}
 50%|████▉     | 3313/6640 [32:37<15:31:33, 16.80s/it] 50%|████▉     | 3314/6640 [32:53<15:21:49, 16.63s/it]                                                      {'loss': 0.5117, 'learning_rate': 1.0516864033525961e-05, 'epoch': 0.5}
 50%|████▉     | 3314/6640 [32:53<15:21:49, 16.63s/it] 50%|████▉     | 3315/6640 [33:09<15:08:42, 16.40s/it]                                                      {'loss': 0.5264, 'learning_rate': 1.0511992243198335e-05, 'epoch': 0.5}
 50%|████▉     | 3315/6640 [33:09<15:08:42, 16.40s/it] 50%|████▉     | 3316/6640 [33:25<15:08:48, 16.40s/it]                                                      {'loss': 0.5345, 'learning_rate': 1.0507120331030286e-05, 'epoch': 0.5}
 50%|████▉     | 3316/6640 [33:25<15:08:48, 16.40s/it] 50%|████▉     | 3317/6640 [33:43<15:27:06, 16.74s/it]                                                      {'loss': 0.5214, 'learning_rate': 1.0502248298181202e-05, 'epoch': 0.5}
 50%|████▉     | 3317/6640 [33:43<15:27:06, 16.74s/it] 50%|████▉     | 3318/6640 [33:59<15:14:46, 16.52s/it]                                                      {'loss': 0.53, 'learning_rate': 1.0497376145810496e-05, 'epoch': 0.5}
 50%|████▉     | 3318/6640 [33:59<15:14:46, 16.52s/it] 50%|████▉     | 3319/6640 [34:16<15:21:46, 16.65s/it]                                                      {'loss': 0.5115, 'learning_rate': 1.0492503875077613e-05, 'epoch': 0.5}
 50%|████▉     | 3319/6640 [34:16<15:21:46, 16.65s/it] 50%|█████     | 3320/6640 [34:32<15:24:40, 16.71s/it]                                                      {'loss': 0.5228, 'learning_rate': 1.0487631487142018e-05, 'epoch': 0.5}
 50%|█████     | 3320/6640 [34:32<15:24:40, 16.71s/it] 50%|█████     | 3321/6640 [34:49<15:21:35, 16.66s/it]                                                      {'loss': 0.5175, 'learning_rate': 1.0482758983163215e-05, 'epoch': 0.5}
 50%|█████     | 3321/6640 [34:49<15:21:35, 16.66s/it] 50%|█████     | 3322/6640 [35:05<15:08:26, 16.43s/it]                                                      {'loss': 0.5388, 'learning_rate': 1.0477886364300722e-05, 'epoch': 0.5}
 50%|█████     | 3322/6640 [35:05<15:08:26, 16.43s/it] 50%|█████     | 3323/6640 [35:21<15:04:06, 16.35s/it]                                                      {'loss': 0.5265, 'learning_rate': 1.0473013631714092e-05, 'epoch': 0.5}
 50%|█████     | 3323/6640 [35:21<15:04:06, 16.35s/it] 50%|█████     | 3324/6640 [35:37<15:02:39, 16.33s/it]                                                      {'loss': 0.519, 'learning_rate': 1.0468140786562911e-05, 'epoch': 0.5}
 50%|█████     | 3324/6640 [35:37<15:02:39, 16.33s/it] 50%|█████     | 3325/6640 [35:54<15:04:02, 16.36s/it]                                                      {'loss': 0.524, 'learning_rate': 1.0463267830006779e-05, 'epoch': 0.5}
 50%|█████     | 3325/6640 [35:54<15:04:02, 16.36s/it] 50%|█████     | 3326/6640 [36:11<15:14:58, 16.57s/it]                                                      {'loss': 0.5071, 'learning_rate': 1.0458394763205329e-05, 'epoch': 0.5}
 50%|█████     | 3326/6640 [36:11<15:14:58, 16.57s/it] 50%|█████     | 3327/6640 [36:27<15:13:33, 16.54s/it]                                                      {'loss': 0.5355, 'learning_rate': 1.0453521587318226e-05, 'epoch': 0.5}
 50%|█████     | 3327/6640 [36:27<15:13:33, 16.54s/it] 50%|█████     | 3328/6640 [36:43<15:06:41, 16.43s/it]                                                      {'loss': 0.5152, 'learning_rate': 1.044864830350515e-05, 'epoch': 0.5}
 50%|█████     | 3328/6640 [36:43<15:06:41, 16.43s/it] 50%|█████     | 3329/6640 [36:59<14:59:38, 16.30s/it]                                                      {'loss': 0.5316, 'learning_rate': 1.0443774912925814e-05, 'epoch': 0.5}
 50%|█████     | 3329/6640 [36:59<14:59:38, 16.30s/it] 50%|█████     | 3330/6640 [37:15<14:53:56, 16.20s/it]                                                      {'loss': 0.5213, 'learning_rate': 1.0438901416739955e-05, 'epoch': 0.5}
 50%|█████     | 3330/6640 [37:15<14:53:56, 16.20s/it] 50%|█████     | 3331/6640 [37:32<15:00:22, 16.33s/it]                                                      {'loss': 0.5371, 'learning_rate': 1.0434027816107333e-05, 'epoch': 0.5}
 50%|█████     | 3331/6640 [37:32<15:00:22, 16.33s/it] 50%|█████     | 3332/6640 [37:48<14:58:32, 16.30s/it]                                                      {'loss': 0.5381, 'learning_rate': 1.0429154112187731e-05, 'epoch': 0.5}
 50%|█████     | 3332/6640 [37:48<14:58:32, 16.30s/it] 50%|█████     | 3333/6640 [38:05<15:02:36, 16.38s/it]                                                      {'loss': 0.5198, 'learning_rate': 1.0424280306140966e-05, 'epoch': 0.5}
 50%|█████     | 3333/6640 [38:05<15:02:36, 16.38s/it] 50%|█████     | 3334/6640 [38:21<15:05:26, 16.43s/it]                                                      {'loss': 0.5255, 'learning_rate': 1.0419406399126868e-05, 'epoch': 0.5}
 50%|█████     | 3334/6640 [38:21<15:05:26, 16.43s/it] 50%|█████     | 3335/6640 [38:38<15:01:41, 16.37s/it]                                                      {'loss': 0.5145, 'learning_rate': 1.0414532392305301e-05, 'epoch': 0.5}
 50%|█████     | 3335/6640 [38:38<15:01:41, 16.37s/it] 50%|█████     | 3336/6640 [38:54<14:57:07, 16.29s/it]                                                      {'loss': 0.5249, 'learning_rate': 1.0409658286836144e-05, 'epoch': 0.5}
 50%|█████     | 3336/6640 [38:54<14:57:07, 16.29s/it] 50%|█████     | 3337/6640 [39:10<14:54:27, 16.25s/it]                                                      {'loss': 0.5205, 'learning_rate': 1.0404784083879305e-05, 'epoch': 0.5}
 50%|█████     | 3337/6640 [39:10<14:54:27, 16.25s/it] 50%|█████     | 3338/6640 [39:27<15:10:55, 16.55s/it]                                                      {'loss': 0.5383, 'learning_rate': 1.0399909784594711e-05, 'epoch': 0.5}
 50%|█████     | 3338/6640 [39:27<15:10:55, 16.55s/it] 50%|█████     | 3339/6640 [39:44<15:07:21, 16.49s/it]                                                      {'loss': 0.5229, 'learning_rate': 1.0395035390142319e-05, 'epoch': 0.5}
 50%|█████     | 3339/6640 [39:44<15:07:21, 16.49s/it] 50%|█████     | 3340/6640 [39:59<14:52:41, 16.23s/it]                                                      {'loss': 0.5056, 'learning_rate': 1.03901609016821e-05, 'epoch': 0.5}
 50%|█████     | 3340/6640 [39:59<14:52:41, 16.23s/it] 50%|█████     | 3341/6640 [40:16<14:59:38, 16.36s/it]                                                      {'loss': 0.5296, 'learning_rate': 1.0385286320374053e-05, 'epoch': 0.5}
 50%|█████     | 3341/6640 [40:16<14:59:38, 16.36s/it] 50%|█████     | 3342/6640 [40:33<15:09:00, 16.54s/it]                                                      {'loss': 0.5328, 'learning_rate': 1.0380411647378196e-05, 'epoch': 0.5}
 50%|█████     | 3342/6640 [40:33<15:09:00, 16.54s/it] 50%|█████     | 3343/6640 [40:50<15:15:55, 16.67s/it]                                                      {'loss': 0.5303, 'learning_rate': 1.0375536883854575e-05, 'epoch': 0.5}
 50%|█████     | 3343/6640 [40:50<15:15:55, 16.67s/it] 50%|█████     | 3344/6640 [41:06<15:11:24, 16.59s/it]                                                      {'loss': 0.5173, 'learning_rate': 1.037066203096325e-05, 'epoch': 0.5}
 50%|█████     | 3344/6640 [41:06<15:11:24, 16.59s/it] 50%|█████     | 3345/6640 [41:22<15:02:25, 16.43s/it]                                                      {'loss': 0.5301, 'learning_rate': 1.0365787089864303e-05, 'epoch': 0.5}
 50%|█████     | 3345/6640 [41:22<15:02:25, 16.43s/it] 50%|█████     | 3346/6640 [41:39<15:03:23, 16.46s/it]                                                      {'loss': 0.552, 'learning_rate': 1.0360912061717845e-05, 'epoch': 0.5}
 50%|█████     | 3346/6640 [41:39<15:03:23, 16.46s/it] 50%|█████     | 3347/6640 [41:55<14:54:04, 16.29s/it]                                                      {'loss': 0.5536, 'learning_rate': 1.0356036947683994e-05, 'epoch': 0.5}
 50%|█████     | 3347/6640 [41:55<14:54:04, 16.29s/it] 50%|█████     | 3348/6640 [42:11<14:47:22, 16.17s/it]                                                      {'loss': 0.5481, 'learning_rate': 1.0351161748922905e-05, 'epoch': 0.5}
 50%|█████     | 3348/6640 [42:11<14:47:22, 16.17s/it] 50%|█████     | 3349/6640 [42:27<14:44:26, 16.12s/it]                                                      {'loss': 0.5358, 'learning_rate': 1.0346286466594738e-05, 'epoch': 0.5}
 50%|█████     | 3349/6640 [42:27<14:44:26, 16.12s/it]70 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
 50%|█████     | 3350/6640 [42:44<15:04:16, 16.49s/it]6 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
                                                      {'loss': 0.5454, 'learning_rate': 1.034141110185968e-05, 'epoch': 0.5}
 50%|█████     | 3350/6640 [42:44<15:04:16, 16.49s/it] 50%|█████     | 3351/6640 [43:01<15:13:19, 16.66s/it]                                                      {'loss': 0.521, 'learning_rate': 1.0336535655877942e-05, 'epoch': 0.5}
 50%|█████     | 3351/6640 [43:01<15:13:19, 16.66s/it] 50%|█████     | 3352/6640 [43:17<15:07:24, 16.56s/it]                                                      {'loss': 0.5199, 'learning_rate': 1.0331660129809743e-05, 'epoch': 0.5}
 50%|█████     | 3352/6640 [43:17<15:07:24, 16.56s/it] 50%|█████     | 3353/6640 [43:34<15:03:38, 16.49s/it]                                                      {'loss': 0.5295, 'learning_rate': 1.0326784524815331e-05, 'epoch': 0.5}
 50%|█████     | 3353/6640 [43:34<15:03:38, 16.49s/it] 51%|█████     | 3354/6640 [43:49<14:51:50, 16.28s/it]                                                      {'loss': 0.5209, 'learning_rate': 1.0321908842054969e-05, 'epoch': 0.51}
 51%|█████     | 3354/6640 [43:49<14:51:50, 16.28s/it] 51%|█████     | 3355/6640 [44:05<14:47:34, 16.21s/it]                                                      {'loss': 0.5627, 'learning_rate': 1.031703308268894e-05, 'epoch': 0.51}
 51%|█████     | 3355/6640 [44:05<14:47:34, 16.21s/it] 51%|█████     | 3356/6640 [44:22<14:50:38, 16.27s/it]                                                      {'loss': 0.5145, 'learning_rate': 1.031215724787754e-05, 'epoch': 0.51}
 51%|█████     | 3356/6640 [44:22<14:50:38, 16.27s/it] 51%|█████     | 3357/6640 [44:39<14:58:55, 16.43s/it]                                                      {'loss': 0.5371, 'learning_rate': 1.0307281338781092e-05, 'epoch': 0.51}
 51%|█████     | 3357/6640 [44:39<14:58:55, 16.43s/it] 51%|█████     | 3358/6640 [44:55<14:57:56, 16.42s/it]                                                      {'loss': 0.5134, 'learning_rate': 1.0302405356559925e-05, 'epoch': 0.51}
 51%|█████     | 3358/6640 [44:55<14:57:56, 16.42s/it] 51%|█████     | 3359/6640 [45:11<14:46:56, 16.22s/it]                                                      {'loss': 0.5256, 'learning_rate': 1.0297529302374396e-05, 'epoch': 0.51}
 51%|█████     | 3359/6640 [45:11<14:46:56, 16.22s/it] 51%|█████     | 3360/6640 [45:27<14:41:02, 16.12s/it]                                                      {'loss': 0.5429, 'learning_rate': 1.0292653177384878e-05, 'epoch': 0.51}
 51%|█████     | 3360/6640 [45:27<14:41:02, 16.12s/it] 51%|█████     | 3361/6640 [45:42<14:31:57, 15.96s/it]                                                      {'loss': 0.5311, 'learning_rate': 1.0287776982751752e-05, 'epoch': 0.51}
 51%|█████     | 3361/6640 [45:42<14:31:57, 15.96s/it] 51%|█████     | 3362/6640 [45:59<14:49:30, 16.28s/it]                                                      {'loss': 0.5304, 'learning_rate': 1.0282900719635425e-05, 'epoch': 0.51}
 51%|█████     | 3362/6640 [45:59<14:49:30, 16.28s/it] 51%|█████     | 3363/6640 [46:15<14:47:48, 16.26s/it]                                                      {'loss': 0.5267, 'learning_rate': 1.0278024389196314e-05, 'epoch': 0.51}
 51%|█████     | 3363/6640 [46:15<14:47:48, 16.26s/it] 51%|█████     | 3364/6640 [46:31<14:41:35, 16.15s/it]                                                      {'loss': 0.5319, 'learning_rate': 1.0273147992594861e-05, 'epoch': 0.51}
 51%|█████     | 3364/6640 [46:31<14:41:35, 16.15s/it] 51%|█████     | 3365/6640 [46:48<14:51:48, 16.34s/it]                                                      {'loss': 0.5482, 'learning_rate': 1.0268271530991509e-05, 'epoch': 0.51}
 51%|█████     | 3365/6640 [46:48<14:51:48, 16.34s/it] 51%|█████     | 3366/6640 [47:05<14:57:45, 16.45s/it]                                                      {'loss': 0.5208, 'learning_rate': 1.0263395005546735e-05, 'epoch': 0.51}
 51%|█████     | 3366/6640 [47:05<14:57:45, 16.45s/it] 51%|█████     | 3367/6640 [47:21<14:55:39, 16.42s/it]                                                      {'loss': 0.5384, 'learning_rate': 1.025851841742101e-05, 'epoch': 0.51}
 51%|█████     | 3367/6640 [47:21<14:55:39, 16.42s/it] 51%|█████     | 3368/6640 [47:37<14:49:23, 16.31s/it]                                                      {'loss': 0.5071, 'learning_rate': 1.0253641767774838e-05, 'epoch': 0.51}
 51%|█████     | 3368/6640 [47:37<14:49:23, 16.31s/it] 51%|█████     | 3369/6640 [47:55<15:11:40, 16.72s/it]                                                      {'loss': 0.5324, 'learning_rate': 1.0248765057768733e-05, 'epoch': 0.51}
 51%|█████     | 3369/6640 [47:55<15:11:40, 16.72s/it] 51%|█████     | 3370/6640 [48:11<15:02:45, 16.56s/it]                                                      {'loss': 0.551, 'learning_rate': 1.0243888288563213e-05, 'epoch': 0.51}
 51%|█████     | 3370/6640 [48:11<15:02:45, 16.56s/it] 51%|█████     | 3371/6640 [48:28<14:59:07, 16.50s/it]                                                      {'loss': 0.5281, 'learning_rate': 1.0239011461318827e-05, 'epoch': 0.51}
 51%|█████     | 3371/6640 [48:28<14:59:07, 16.50s/it] 51%|█████     | 3372/6640 [48:46<15:33:02, 17.13s/it]                                                      {'loss': 0.5142, 'learning_rate': 1.0234134577196122e-05, 'epoch': 0.51}
 51%|█████     | 3372/6640 [48:46<15:33:02, 17.13s/it] 51%|█████     | 3373/6640 [49:04<15:38:21, 17.23s/it]                                                      {'loss': 0.5225, 'learning_rate': 1.0229257637355672e-05, 'epoch': 0.51}
 51%|█████     | 3373/6640 [49:04<15:38:21, 17.23s/it] 51%|█████     | 3374/6640 [49:20<15:26:55, 17.03s/it]                                                      {'loss': 0.5121, 'learning_rate': 1.0224380642958052e-05, 'epoch': 0.51}
 51%|█████     | 3374/6640 [49:20<15:26:55, 17.03s/it] 51%|█████     | 3375/6640 [49:37<15:16:06, 16.84s/it]                                                      {'loss': 0.5369, 'learning_rate': 1.0219503595163857e-05, 'epoch': 0.51}
 51%|█████     | 3375/6640 [49:37<15:16:06, 16.84s/it] 51%|█████     | 3376/6640 [49:54<15:22:19, 16.95s/it]                                                      {'loss': 0.548, 'learning_rate': 1.0214626495133697e-05, 'epoch': 0.51}
 51%|█████     | 3376/6640 [49:54<15:22:19, 16.95s/it] 51%|█████     | 3377/6640 [50:10<15:06:44, 16.67s/it]                                                      {'loss': 0.4988, 'learning_rate': 1.0209749344028189e-05, 'epoch': 0.51}
 51%|█████     | 3377/6640 [50:10<15:06:44, 16.67s/it] 51%|█████     | 3378/6640 [50:26<15:02:04, 16.59s/it]                                                      {'loss': 0.5176, 'learning_rate': 1.0204872143007965e-05, 'epoch': 0.51}
 51%|█████     | 3378/6640 [50:26<15:02:04, 16.59s/it] 51%|█████     | 3379/6640 [50:43<14:59:20, 16.55s/it]                                                      {'loss': 0.5335, 'learning_rate': 1.0199994893233664e-05, 'epoch': 0.51}
 51%|█████     | 3379/6640 [50:43<14:59:20, 16.55s/it] 51%|█████     | 3380/6640 [50:59<14:51:59, 16.42s/it]                                                      {'loss': 0.5167, 'learning_rate': 1.0195117595865947e-05, 'epoch': 0.51}
 51%|█████     | 3380/6640 [50:59<14:51:59, 16.42s/it] 51%|█████     | 3381/6640 [51:15<14:47:38, 16.34s/it]                                                      {'loss': 0.5352, 'learning_rate': 1.0190240252065472e-05, 'epoch': 0.51}
 51%|█████     | 3381/6640 [51:15<14:47:38, 16.34s/it] 51%|█████     | 3382/6640 [51:31<14:35:44, 16.13s/it]                                                      {'loss': 0.5304, 'learning_rate': 1.0185362862992925e-05, 'epoch': 0.51}
 51%|█████     | 3382/6640 [51:31<14:35:44, 16.13s/it] 51%|█████     | 3383/6640 [51:46<14:32:13, 16.07s/it]                                                      {'loss': 0.5554, 'learning_rate': 1.0180485429808986e-05, 'epoch': 0.51}
 51%|█████     | 3383/6640 [51:46<14:32:13, 16.07s/it] 51%|█████     | 3384/6640 [52:03<14:37:40, 16.17s/it]                                                      {'loss': 0.5123, 'learning_rate': 1.0175607953674358e-05, 'epoch': 0.51}
 51%|█████     | 3384/6640 [52:03<14:37:40, 16.17s/it] 51%|█████     | 3385/6640 [52:19<14:41:17, 16.25s/it]                                                      {'loss': 0.5086, 'learning_rate': 1.017073043574975e-05, 'epoch': 0.51}
 51%|█████     | 3385/6640 [52:19<14:41:17, 16.25s/it] 51%|█████     | 3386/6640 [52:36<14:49:22, 16.40s/it]                                                      {'loss': 0.5389, 'learning_rate': 1.0165852877195874e-05, 'epoch': 0.51}
 51%|█████     | 3386/6640 [52:36<14:49:22, 16.40s/it] 51%|█████     | 3387/6640 [52:52<14:37:29, 16.18s/it]                                                      {'loss': 0.5226, 'learning_rate': 1.0160975279173467e-05, 'epoch': 0.51}
 51%|█████     | 3387/6640 [52:52<14:37:29, 16.18s/it] 51%|█████     | 3388/6640 [53:09<14:49:47, 16.42s/it]                                                      {'loss': 0.5355, 'learning_rate': 1.015609764284326e-05, 'epoch': 0.51}
 51%|█████     | 3388/6640 [53:09<14:49:47, 16.42s/it] 51%|█████     | 3389/6640 [53:24<14:37:14, 16.19s/it]                                                      {'loss': 0.5193, 'learning_rate': 1.0151219969366001e-05, 'epoch': 0.51}
 51%|█████     | 3389/6640 [53:24<14:37:14, 16.19s/it] 51%|█████     | 3390/6640 [53:41<14:43:13, 16.31s/it]                                                      {'loss': 0.5422, 'learning_rate': 1.0146342259902446e-05, 'epoch': 0.51}
 51%|█████     | 3390/6640 [53:41<14:43:13, 16.31s/it] 51%|█████     | 3391/6640 [53:57<14:44:32, 16.34s/it]                                                      {'loss': 0.535, 'learning_rate': 1.0141464515613357e-05, 'epoch': 0.51}
 51%|█████     | 3391/6640 [53:57<14:44:32, 16.34s/it] 51%|█████     | 3392/6640 [54:14<14:42:51, 16.31s/it]                                                      {'loss': 0.5172, 'learning_rate': 1.013658673765951e-05, 'epoch': 0.51}
 51%|█████     | 3392/6640 [54:14<14:42:51, 16.31s/it] 51%|█████     | 3393/6640 [54:30<14:44:19, 16.34s/it]                                                      {'loss': 0.5303, 'learning_rate': 1.0131708927201687e-05, 'epoch': 0.51}
 51%|█████     | 3393/6640 [54:30<14:44:19, 16.34s/it] 51%|█████     | 3394/6640 [54:46<14:39:31, 16.26s/it]                                                      {'loss': 0.5426, 'learning_rate': 1.012683108540067e-05, 'epoch': 0.51}
 51%|█████     | 3394/6640 [54:46<14:39:31, 16.26s/it] 51%|█████     | 3395/6640 [55:02<14:39:06, 16.25s/it]                                                      {'loss': 0.5568, 'learning_rate': 1.0121953213417256e-05, 'epoch': 0.51}
 51%|█████     | 3395/6640 [55:02<14:39:06, 16.25s/it] 51%|█████     | 3396/6640 [55:19<14:48:06, 16.43s/it]                                                      {'loss': 0.5235, 'learning_rate': 1.0117075312412253e-05, 'epoch': 0.51}
 51%|█████     | 3396/6640 [55:19<14:48:06, 16.43s/it] 51%|█████     | 3397/6640 [55:35<14:41:53, 16.32s/it]                                                      {'loss': 0.532, 'learning_rate': 1.011219738354646e-05, 'epoch': 0.51}
 51%|█████     | 3397/6640 [55:35<14:41:53, 16.32s/it] 51%|█████     | 3398/6640 [55:52<14:43:00, 16.34s/it]                                                      {'loss': 0.5301, 'learning_rate': 1.0107319427980704e-05, 'epoch': 0.51}
 51%|█████     | 3398/6640 [55:52<14:43:00, 16.34s/it] 51%|█████     | 3399/6640 [56:08<14:46:53, 16.42s/it]                                                      {'loss': 0.533, 'learning_rate': 1.0102441446875801e-05, 'epoch': 0.51}
 51%|█████     | 3399/6640 [56:08<14:46:53, 16.42s/it]7 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
32  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

06 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
 51%|█████     | 3400/6640 [56:25<14:49:27, 16.47s/it]                                                      {'loss': 0.54, 'learning_rate': 1.0097563441392582e-05, 'epoch': 0.51}
 51%|█████     | 3400/6640 [56:25<14:49:27, 16.47s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3400/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3400/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3400/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 51%|█████     | 3401/6640 [58:15<40:03:22, 44.52s/it]                                                      {'loss': 0.5344, 'learning_rate': 1.009268541269188e-05, 'epoch': 0.51}
 51%|█████     | 3401/6640 [58:15<40:03:22, 44.52s/it] 51%|█████     | 3402/6640 [58:31<32:22:54, 36.00s/it]                                                      {'loss': 0.5358, 'learning_rate': 1.008780736193454e-05, 'epoch': 0.51}
 51%|█████     | 3402/6640 [58:31<32:22:54, 36.00s/it] 51%|█████▏    | 3403/6640 [58:47<27:04:06, 30.10s/it]                                                      {'loss': 0.5312, 'learning_rate': 1.0082929290281405e-05, 'epoch': 0.51}
 51%|█████▏    | 3403/6640 [58:47<27:04:06, 30.10s/it] 51%|█████▏    | 3404/6640 [59:03<23:18:57, 25.94s/it]                                                      {'loss': 0.5377, 'learning_rate': 1.0078051198893318e-05, 'epoch': 0.51}
 51%|█████▏    | 3404/6640 [59:03<23:18:57, 25.94s/it] 51%|█████▏    | 3405/6640 [59:20<20:48:09, 23.15s/it]                                                      {'loss': 0.5468, 'learning_rate': 1.0073173088931143e-05, 'epoch': 0.51}
 51%|█████▏    | 3405/6640 [59:20<20:48:09, 23.15s/it] 51%|█████▏    | 3406/6640 [59:37<19:00:32, 21.16s/it]                                                      {'loss': 0.5235, 'learning_rate': 1.0068294961555734e-05, 'epoch': 0.51}
 51%|█████▏    | 3406/6640 [59:37<19:00:32, 21.16s/it] 51%|█████▏    | 3407/6640 [59:53<17:41:14, 19.70s/it]                                                      {'loss': 0.5161, 'learning_rate': 1.0063416817927958e-05, 'epoch': 0.51}
 51%|█████▏    | 3407/6640 [59:53<17:41:14, 19.70s/it] 51%|█████▏    | 3408/6640 [1:00:09<16:40:31, 18.57s/it]                                                        {'loss': 0.5206, 'learning_rate': 1.005853865920868e-05, 'epoch': 0.51}
 51%|█████▏    | 3408/6640 [1:00:09<16:40:31, 18.57s/it] 51%|█████▏    | 3409/6640 [1:00:25<16:03:01, 17.88s/it]                                                        {'loss': 0.5463, 'learning_rate': 1.0053660486558766e-05, 'epoch': 0.51}
 51%|█████▏    | 3409/6640 [1:00:25<16:03:01, 17.88s/it] 51%|█████▏    | 3410/6640 [1:00:41<15:33:10, 17.33s/it]                                                        {'loss': 0.5293, 'learning_rate': 1.0048782301139102e-05, 'epoch': 0.51}
 51%|█████▏    | 3410/6640 [1:00:41<15:33:10, 17.33s/it] 51%|█████▏    | 3411/6640 [1:00:57<15:15:50, 17.02s/it]                                                        {'loss': 0.5366, 'learning_rate': 1.0043904104110557e-05, 'epoch': 0.51}
 51%|█████▏    | 3411/6640 [1:00:57<15:15:50, 17.02s/it] 51%|█████▏    | 3412/6640 [1:01:13<14:54:29, 16.63s/it]                                                        {'loss': 0.5183, 'learning_rate': 1.0039025896634016e-05, 'epoch': 0.51}
 51%|█████▏    | 3412/6640 [1:01:13<14:54:29, 16.63s/it] 51%|█████▏    | 3413/6640 [1:01:29<14:45:32, 16.47s/it]                                                        {'loss': 0.5298, 'learning_rate': 1.0034147679870356e-05, 'epoch': 0.51}
 51%|█████▏    | 3413/6640 [1:01:29<14:45:32, 16.47s/it] 51%|█████▏    | 3414/6640 [1:01:46<14:51:28, 16.58s/it]                                                        {'loss': 0.5146, 'learning_rate': 1.0029269454980465e-05, 'epoch': 0.51}
 51%|█████▏    | 3414/6640 [1:01:46<14:51:28, 16.58s/it] 51%|█████▏    | 3415/6640 [1:02:03<14:55:05, 16.65s/it]                                                        {'loss': 0.5202, 'learning_rate': 1.0024391223125226e-05, 'epoch': 0.51}
 51%|█████▏    | 3415/6640 [1:02:03<14:55:05, 16.65s/it] 51%|█████▏    | 3416/6640 [1:02:18<14:36:43, 16.32s/it]                                                        {'loss': 0.5335, 'learning_rate': 1.0019512985465533e-05, 'epoch': 0.51}
 51%|█████▏    | 3416/6640 [1:02:18<14:36:43, 16.32s/it] 51%|█████▏    | 3417/6640 [1:02:35<14:41:48, 16.42s/it]                                                        {'loss': 0.527, 'learning_rate': 1.0014634743162273e-05, 'epoch': 0.51}
 51%|█████▏    | 3417/6640 [1:02:35<14:41:48, 16.42s/it] 51%|█████▏    | 3418/6640 [1:02:51<14:32:27, 16.25s/it]                                                        {'loss': 0.5245, 'learning_rate': 1.0009756497376337e-05, 'epoch': 0.51}
 51%|█████▏    | 3418/6640 [1:02:51<14:32:27, 16.25s/it] 51%|█████▏    | 3419/6640 [1:03:07<14:29:24, 16.20s/it]                                                        {'loss': 0.5247, 'learning_rate': 1.0004878249268614e-05, 'epoch': 0.51}
 51%|█████▏    | 3419/6640 [1:03:07<14:29:24, 16.20s/it] 52%|█████▏    | 3420/6640 [1:03:23<14:25:27, 16.13s/it]                                                        {'loss': 0.5333, 'learning_rate': 1e-05, 'epoch': 0.52}
 52%|█████▏    | 3420/6640 [1:03:23<14:25:27, 16.13s/it] 52%|█████▏    | 3421/6640 [1:03:39<14:18:35, 16.00s/it]                                                        {'loss': 0.5303, 'learning_rate': 9.995121750731389e-06, 'epoch': 0.52}
 52%|█████▏    | 3421/6640 [1:03:39<14:18:35, 16.00s/it] 52%|█████▏    | 3422/6640 [1:03:55<14:18:57, 16.02s/it]                                                        {'loss': 0.5316, 'learning_rate': 9.99024350262367e-06, 'epoch': 0.52}
 52%|█████▏    | 3422/6640 [1:03:55<14:18:57, 16.02s/it] 52%|█████▏    | 3423/6640 [1:04:11<14:16:40, 15.98s/it]                                                        {'loss': 0.5346, 'learning_rate': 9.985365256837729e-06, 'epoch': 0.52}
 52%|█████▏    | 3423/6640 [1:04:11<14:16:40, 15.98s/it] 52%|█████▏    | 3424/6640 [1:04:27<14:17:22, 16.00s/it]                                                        {'loss': 0.5461, 'learning_rate': 9.980487014534469e-06, 'epoch': 0.52}
 52%|█████▏    | 3424/6640 [1:04:27<14:17:22, 16.00s/it] 52%|█████▏    | 3425/6640 [1:04:43<14:17:11, 16.00s/it]                                                        {'loss': 0.5559, 'learning_rate': 9.975608776874775e-06, 'epoch': 0.52}
 52%|█████▏    | 3425/6640 [1:04:43<14:17:11, 16.00s/it] 52%|█████▏    | 3426/6640 [1:05:00<14:32:21, 16.29s/it]                                                        {'loss': 0.5424, 'learning_rate': 9.97073054501954e-06, 'epoch': 0.52}
 52%|█████▏    | 3426/6640 [1:05:00<14:32:21, 16.29s/it] 52%|█████▏    | 3427/6640 [1:05:16<14:33:26, 16.31s/it]                                                        {'loss': 0.5296, 'learning_rate': 9.965852320129646e-06, 'epoch': 0.52}
 52%|█████▏    | 3427/6640 [1:05:16<14:33:26, 16.31s/it] 52%|█████▏    | 3428/6640 [1:05:32<14:32:13, 16.29s/it]                                                        {'loss': 0.5133, 'learning_rate': 9.960974103365987e-06, 'epoch': 0.52}
 52%|█████▏    | 3428/6640 [1:05:32<14:32:13, 16.29s/it] 52%|█████▏    | 3429/6640 [1:05:49<14:36:36, 16.38s/it]                                                        {'loss': 0.5345, 'learning_rate': 9.956095895889444e-06, 'epoch': 0.52}
 52%|█████▏    | 3429/6640 [1:05:49<14:36:36, 16.38s/it] 52%|█████▏    | 3430/6640 [1:06:07<15:02:14, 16.86s/it]                                                        {'loss': 0.5443, 'learning_rate': 9.951217698860902e-06, 'epoch': 0.52}
 52%|█████▏    | 3430/6640 [1:06:07<15:02:14, 16.86s/it] 52%|█████▏    | 3431/6640 [1:06:23<14:56:17, 16.76s/it]                                                        {'loss': 0.5246, 'learning_rate': 9.946339513441235e-06, 'epoch': 0.52}
 52%|█████▏    | 3431/6640 [1:06:23<14:56:17, 16.76s/it] 52%|█████▏    | 3432/6640 [1:06:39<14:36:02, 16.38s/it]                                                        {'loss': 0.5178, 'learning_rate': 9.941461340791326e-06, 'epoch': 0.52}
 52%|█████▏    | 3432/6640 [1:06:39<14:36:02, 16.38s/it] 52%|█████▏    | 3433/6640 [1:06:55<14:27:10, 16.22s/it]                                                        {'loss': 0.5194, 'learning_rate': 9.936583182072045e-06, 'epoch': 0.52}
 52%|█████▏    | 3433/6640 [1:06:55<14:27:10, 16.22s/it] 52%|█████▏    | 3434/6640 [1:07:14<15:13:34, 17.10s/it]                                                        {'loss': 0.5195, 'learning_rate': 9.93170503844427e-06, 'epoch': 0.52}
 52%|█████▏    | 3434/6640 [1:07:14<15:13:34, 17.10s/it] 52%|█████▏    | 3435/6640 [1:07:30<14:53:30, 16.73s/it]                                                        {'loss': 0.5287, 'learning_rate': 9.926826911068862e-06, 'epoch': 0.52}
 52%|█████▏    | 3435/6640 [1:07:30<14:53:30, 16.73s/it] 52%|█████▏    | 3436/6640 [1:07:46<14:52:26, 16.71s/it]                                                        {'loss': 0.5349, 'learning_rate': 9.921948801106682e-06, 'epoch': 0.52}
 52%|█████▏    | 3436/6640 [1:07:46<14:52:26, 16.71s/it] 52%|█████▏    | 3437/6640 [1:08:02<14:36:50, 16.43s/it]                                                        {'loss': 0.4914, 'learning_rate': 9.9170707097186e-06, 'epoch': 0.52}
 52%|█████▏    | 3437/6640 [1:08:02<14:36:50, 16.43s/it] 52%|█████▏    | 3438/6640 [1:08:18<14:25:43, 16.22s/it]                                                        {'loss': 0.5371, 'learning_rate': 9.912192638065462e-06, 'epoch': 0.52}
 52%|█████▏    | 3438/6640 [1:08:18<14:25:43, 16.22s/it] 52%|█████▏    | 3439/6640 [1:08:34<14:27:27, 16.26s/it]                                                        {'loss': 0.5039, 'learning_rate': 9.907314587308121e-06, 'epoch': 0.52}
 52%|█████▏    | 3439/6640 [1:08:34<14:27:27, 16.26s/it] 52%|█████▏    | 3440/6640 [1:08:51<14:31:00, 16.33s/it]                                                        {'loss': 0.5416, 'learning_rate': 9.90243655860742e-06, 'epoch': 0.52}
 52%|█████▏    | 3440/6640 [1:08:51<14:31:00, 16.33s/it] 52%|█████▏    | 3441/6640 [1:09:08<14:39:19, 16.49s/it]                                                        {'loss': 0.5336, 'learning_rate': 9.897558553124202e-06, 'epoch': 0.52}
 52%|█████▏    | 3441/6640 [1:09:08<14:39:19, 16.49s/it] 52%|█████▏    | 3442/6640 [1:09:24<14:35:27, 16.43s/it]                                                        {'loss': 0.5231, 'learning_rate': 9.8926805720193e-06, 'epoch': 0.52}
 52%|█████▏    | 3442/6640 [1:09:24<14:35:27, 16.43s/it] 52%|█████▏    | 3443/6640 [1:09:40<14:37:14, 16.46s/it]                                                        {'loss': 0.5242, 'learning_rate': 9.887802616453543e-06, 'epoch': 0.52}
 52%|█████▏    | 3443/6640 [1:09:40<14:37:14, 16.46s/it] 52%|█████▏    | 3444/6640 [1:09:57<14:37:28, 16.47s/it]                                                        {'loss': 0.5248, 'learning_rate': 9.882924687587754e-06, 'epoch': 0.52}
 52%|█████▏    | 3444/6640 [1:09:57<14:37:28, 16.47s/it] 52%|█████▏    | 3445/6640 [1:10:13<14:33:21, 16.40s/it]                                                        {'loss': 0.5266, 'learning_rate': 9.878046786582745e-06, 'epoch': 0.52}
 52%|█████▏    | 3445/6640 [1:10:13<14:33:21, 16.40s/it] 52%|█████▏    | 3446/6640 [1:10:29<14:29:50, 16.34s/it]                                                        {'loss': 0.5156, 'learning_rate': 9.873168914599332e-06, 'epoch': 0.52}
 52%|█████▏    | 3446/6640 [1:10:29<14:29:50, 16.34s/it] 52%|█████▏    | 3447/6640 [1:10:45<14:20:17, 16.17s/it]                                                        {'loss': 0.5299, 'learning_rate': 9.868291072798317e-06, 'epoch': 0.52}
 52%|█████▏    | 3447/6640 [1:10:45<14:20:17, 16.17s/it] 52%|█████▏    | 3448/6640 [1:11:01<14:21:28, 16.19s/it]                                                        {'loss': 0.5477, 'learning_rate': 9.863413262340491e-06, 'epoch': 0.52}
 52%|█████▏    | 3448/6640 [1:11:01<14:21:28, 16.19s/it] 52%|█████▏    | 3449/6640 [1:11:17<14:19:26, 16.16s/it]                                                        {'loss': 0.5225, 'learning_rate': 9.858535484386646e-06, 'epoch': 0.52}
 52%|█████▏    | 3449/6640 [1:11:17<14:19:26, 16.16s/it]7 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
04 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
31  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...
6
 AutoResumeHook: Checking whether to suspend...
 52%|█████▏    | 3450/6640 [1:11:33<14:09:54, 15.99s/it]                                                        {'loss': 0.5259, 'learning_rate': 9.853657740097558e-06, 'epoch': 0.52}
 52%|█████▏    | 3450/6640 [1:11:33<14:09:54, 15.99s/it] 52%|█████▏    | 3451/6640 [1:11:49<14:14:29, 16.08s/it]                                                        {'loss': 0.5332, 'learning_rate': 9.848780030634002e-06, 'epoch': 0.52}
 52%|█████▏    | 3451/6640 [1:11:49<14:14:29, 16.08s/it] 52%|█████▏    | 3452/6640 [1:12:05<14:07:02, 15.94s/it]                                                        {'loss': 0.5339, 'learning_rate': 9.843902357156744e-06, 'epoch': 0.52}
 52%|█████▏    | 3452/6640 [1:12:05<14:07:02, 15.94s/it] 52%|█████▏    | 3453/6640 [1:12:21<14:05:53, 15.93s/it]                                                        {'loss': 0.5232, 'learning_rate': 9.839024720826538e-06, 'epoch': 0.52}
 52%|█████▏    | 3453/6640 [1:12:21<14:05:53, 15.93s/it] 52%|█████▏    | 3454/6640 [1:12:38<14:33:00, 16.44s/it]                                                        {'loss': 0.5172, 'learning_rate': 9.834147122804126e-06, 'epoch': 0.52}
 52%|█████▏    | 3454/6640 [1:12:38<14:33:00, 16.44s/it] 52%|█████▏    | 3455/6640 [1:12:55<14:32:11, 16.43s/it]                                                        {'loss': 0.5186, 'learning_rate': 9.829269564250254e-06, 'epoch': 0.52}
 52%|█████▏    | 3455/6640 [1:12:55<14:32:11, 16.43s/it] 52%|█████▏    | 3456/6640 [1:13:11<14:24:13, 16.29s/it]                                                        {'loss': 0.5101, 'learning_rate': 9.824392046325645e-06, 'epoch': 0.52}
 52%|█████▏    | 3456/6640 [1:13:11<14:24:13, 16.29s/it] 52%|█████▏    | 3457/6640 [1:13:27<14:15:31, 16.13s/it]                                                        {'loss': 0.5401, 'learning_rate': 9.819514570191016e-06, 'epoch': 0.52}
 52%|█████▏    | 3457/6640 [1:13:27<14:15:31, 16.13s/it] 52%|█████▏    | 3458/6640 [1:13:43<14:21:29, 16.24s/it]                                                        {'loss': 0.4929, 'learning_rate': 9.81463713700708e-06, 'epoch': 0.52}
 52%|█████▏    | 3458/6640 [1:13:43<14:21:29, 16.24s/it] 52%|█████▏    | 3459/6640 [1:13:58<14:02:28, 15.89s/it]                                                        {'loss': 0.5334, 'learning_rate': 9.809759747934527e-06, 'epoch': 0.52}
 52%|█████▏    | 3459/6640 [1:13:58<14:02:28, 15.89s/it] 52%|█████▏    | 3460/6640 [1:14:15<14:10:46, 16.05s/it]                                                        {'loss': 0.5351, 'learning_rate': 9.804882404134057e-06, 'epoch': 0.52}
 52%|█████▏    | 3460/6640 [1:14:15<14:10:46, 16.05s/it] 52%|█████▏    | 3461/6640 [1:14:31<14:23:47, 16.30s/it]                                                        {'loss': 0.5397, 'learning_rate': 9.80000510676634e-06, 'epoch': 0.52}
 52%|█████▏    | 3461/6640 [1:14:31<14:23:47, 16.30s/it] 52%|█████▏    | 3462/6640 [1:14:50<14:58:18, 16.96s/it]                                                        {'loss': 0.5248, 'learning_rate': 9.79512785699204e-06, 'epoch': 0.52}
 52%|█████▏    | 3462/6640 [1:14:50<14:58:18, 16.96s/it] 52%|█████▏    | 3463/6640 [1:15:07<14:59:22, 16.99s/it]                                                        {'loss': 0.5473, 'learning_rate': 9.790250655971813e-06, 'epoch': 0.52}
 52%|█████▏    | 3463/6640 [1:15:07<14:59:22, 16.99s/it] 52%|█████▏    | 3464/6640 [1:15:23<14:43:01, 16.68s/it]                                                        {'loss': 0.5246, 'learning_rate': 9.785373504866305e-06, 'epoch': 0.52}
 52%|█████▏    | 3464/6640 [1:15:23<14:43:01, 16.68s/it] 52%|█████▏    | 3465/6640 [1:15:39<14:36:35, 16.57s/it]                                                        {'loss': 0.5221, 'learning_rate': 9.780496404836146e-06, 'epoch': 0.52}
 52%|█████▏    | 3465/6640 [1:15:39<14:36:35, 16.57s/it] 52%|█████▏    | 3466/6640 [1:15:55<14:29:12, 16.43s/it]                                                        {'loss': 0.5226, 'learning_rate': 9.775619357041952e-06, 'epoch': 0.52}
 52%|█████▏    | 3466/6640 [1:15:55<14:29:12, 16.43s/it] 52%|█████▏    | 3467/6640 [1:16:13<14:41:03, 16.66s/it]                                                        {'loss': 0.523, 'learning_rate': 9.770742362644335e-06, 'epoch': 0.52}
 52%|█████▏    | 3467/6640 [1:16:13<14:41:03, 16.66s/it] 52%|█████▏    | 3468/6640 [1:16:29<14:29:16, 16.44s/it]                                                        {'loss': 0.5271, 'learning_rate': 9.765865422803878e-06, 'epoch': 0.52}
 52%|█████▏    | 3468/6640 [1:16:29<14:29:16, 16.44s/it] 52%|█████▏    | 3469/6640 [1:16:44<14:20:26, 16.28s/it]                                                        {'loss': 0.5231, 'learning_rate': 9.760988538681176e-06, 'epoch': 0.52}
 52%|█████▏    | 3469/6640 [1:16:44<14:20:26, 16.28s/it] 52%|█████▏    | 3470/6640 [1:17:00<14:14:55, 16.18s/it]                                                        {'loss': 0.5493, 'learning_rate': 9.75611171143679e-06, 'epoch': 0.52}
 52%|█████▏    | 3470/6640 [1:17:00<14:14:55, 16.18s/it] 52%|█████▏    | 3471/6640 [1:17:17<14:22:00, 16.32s/it]                                                        {'loss': 0.5082, 'learning_rate': 9.751234942231274e-06, 'epoch': 0.52}
 52%|█████▏    | 3471/6640 [1:17:17<14:22:00, 16.32s/it] 52%|█████▏    | 3472/6640 [1:17:33<14:15:51, 16.21s/it]                                                        {'loss': 0.5191, 'learning_rate': 9.746358232225162e-06, 'epoch': 0.52}
 52%|█████▏    | 3472/6640 [1:17:33<14:15:51, 16.21s/it] 52%|█████▏    | 3473/6640 [1:17:50<14:23:55, 16.37s/it]                                                        {'loss': 0.5247, 'learning_rate': 9.741481582578993e-06, 'epoch': 0.52}
 52%|█████▏    | 3473/6640 [1:17:50<14:23:55, 16.37s/it] 52%|█████▏    | 3474/6640 [1:18:05<14:10:34, 16.12s/it]                                                        {'loss': 0.539, 'learning_rate': 9.736604994453269e-06, 'epoch': 0.52}
 52%|█████▏    | 3474/6640 [1:18:05<14:10:34, 16.12s/it] 52%|█████▏    | 3475/6640 [1:18:22<14:25:45, 16.41s/it]                                                        {'loss': 0.5198, 'learning_rate': 9.731728469008493e-06, 'epoch': 0.52}
 52%|█████▏    | 3475/6640 [1:18:22<14:25:45, 16.41s/it] 52%|█████▏    | 3476/6640 [1:18:39<14:28:54, 16.48s/it]                                                        {'loss': 0.5229, 'learning_rate': 9.726852007405144e-06, 'epoch': 0.52}
 52%|█████▏    | 3476/6640 [1:18:39<14:28:54, 16.48s/it] 52%|█████▏    | 3477/6640 [1:18:55<14:19:10, 16.30s/it]                                                        {'loss': 0.5299, 'learning_rate': 9.721975610803686e-06, 'epoch': 0.52}
 52%|█████▏    | 3477/6640 [1:18:55<14:19:10, 16.30s/it] 52%|█████▏    | 3478/6640 [1:19:11<14:16:23, 16.25s/it]                                                        {'loss': 0.5504, 'learning_rate': 9.717099280364578e-06, 'epoch': 0.52}
 52%|█████▏    | 3478/6640 [1:19:11<14:16:23, 16.25s/it] 52%|█████▏    | 3479/6640 [1:19:27<14:14:07, 16.21s/it]                                                        {'loss': 0.5115, 'learning_rate': 9.712223017248252e-06, 'epoch': 0.52}
 52%|█████▏    | 3479/6640 [1:19:27<14:14:07, 16.21s/it] 52%|█████▏    | 3480/6640 [1:19:43<14:09:50, 16.14s/it]                                                        {'loss': 0.5303, 'learning_rate': 9.707346822615127e-06, 'epoch': 0.52}
 52%|█████▏    | 3480/6640 [1:19:43<14:09:50, 16.14s/it] 52%|█████▏    | 3481/6640 [1:20:00<14:24:28, 16.42s/it]                                                        {'loss': 0.5218, 'learning_rate': 9.702470697625604e-06, 'epoch': 0.52}
 52%|█████▏    | 3481/6640 [1:20:00<14:24:28, 16.42s/it] 52%|█████▏    | 3482/6640 [1:20:17<14:34:09, 16.61s/it]                                                        {'loss': 0.5235, 'learning_rate': 9.697594643440078e-06, 'epoch': 0.52}
 52%|█████▏    | 3482/6640 [1:20:17<14:34:09, 16.61s/it] 52%|█████▏    | 3483/6640 [1:20:33<14:18:53, 16.32s/it]                                                        {'loss': 0.5244, 'learning_rate': 9.692718661218912e-06, 'epoch': 0.52}
 52%|█████▏    | 3483/6640 [1:20:33<14:18:53, 16.32s/it] 52%|█████▏    | 3484/6640 [1:20:49<14:09:12, 16.14s/it]                                                        {'loss': 0.5342, 'learning_rate': 9.687842752122462e-06, 'epoch': 0.52}
 52%|█████▏    | 3484/6640 [1:20:49<14:09:12, 16.14s/it] 52%|█████▏    | 3485/6640 [1:21:05<14:09:18, 16.15s/it]                                                        {'loss': 0.5265, 'learning_rate': 9.682966917311065e-06, 'epoch': 0.52}
 52%|█████▏    | 3485/6640 [1:21:05<14:09:18, 16.15s/it] 52%|█████▎    | 3486/6640 [1:21:21<14:09:34, 16.16s/it]                                                        {'loss': 0.5367, 'learning_rate': 9.678091157945031e-06, 'epoch': 0.53}
 52%|█████▎    | 3486/6640 [1:21:21<14:09:34, 16.16s/it] 53%|█████▎    | 3487/6640 [1:21:37<14:02:01, 16.02s/it]                                                        {'loss': 0.5264, 'learning_rate': 9.67321547518467e-06, 'epoch': 0.53}
 53%|█████▎    | 3487/6640 [1:21:37<14:02:01, 16.02s/it] 53%|█████▎    | 3488/6640 [1:21:52<13:57:27, 15.94s/it]                                                        {'loss': 0.5312, 'learning_rate': 9.66833987019026e-06, 'epoch': 0.53}
 53%|█████▎    | 3488/6640 [1:21:52<13:57:27, 15.94s/it] 53%|█████▎    | 3489/6640 [1:22:09<14:01:28, 16.02s/it]                                                        {'loss': 0.5283, 'learning_rate': 9.663464344122064e-06, 'epoch': 0.53}
 53%|█████▎    | 3489/6640 [1:22:09<14:01:28, 16.02s/it] 53%|█████▎    | 3490/6640 [1:22:25<14:10:40, 16.20s/it]                                                        {'loss': 0.493, 'learning_rate': 9.658588898140322e-06, 'epoch': 0.53}
 53%|█████▎    | 3490/6640 [1:22:25<14:10:40, 16.20s/it] 53%|█████▎    | 3491/6640 [1:22:42<14:19:20, 16.37s/it]                                                        {'loss': 0.5458, 'learning_rate': 9.653713533405267e-06, 'epoch': 0.53}
 53%|█████▎    | 3491/6640 [1:22:42<14:19:20, 16.37s/it] 53%|█████▎    | 3492/6640 [1:22:59<14:23:40, 16.46s/it]                                                        {'loss': 0.5454, 'learning_rate': 9.648838251077098e-06, 'epoch': 0.53}
 53%|█████▎    | 3492/6640 [1:22:59<14:23:40, 16.46s/it] 53%|█████▎    | 3493/6640 [1:23:15<14:22:58, 16.45s/it]                                                        {'loss': 0.5244, 'learning_rate': 9.643963052316009e-06, 'epoch': 0.53}
 53%|█████▎    | 3493/6640 [1:23:15<14:22:58, 16.45s/it] 53%|█████▎    | 3494/6640 [1:23:32<14:23:33, 16.47s/it]                                                        {'loss': 0.5225, 'learning_rate': 9.639087938282162e-06, 'epoch': 0.53}
 53%|█████▎    | 3494/6640 [1:23:32<14:23:33, 16.47s/it] 53%|█████▎    | 3495/6640 [1:23:48<14:18:53, 16.39s/it]                                                        {'loss': 0.5306, 'learning_rate': 9.634212910135697e-06, 'epoch': 0.53}
 53%|█████▎    | 3495/6640 [1:23:48<14:18:53, 16.39s/it] 53%|█████▎    | 3496/6640 [1:24:04<14:14:17, 16.30s/it]                                                        {'loss': 0.5211, 'learning_rate': 9.629337969036753e-06, 'epoch': 0.53}
 53%|█████▎    | 3496/6640 [1:24:04<14:14:17, 16.30s/it] 53%|█████▎    | 3497/6640 [1:24:20<14:16:10, 16.34s/it]                                                        {'loss': 0.5042, 'learning_rate': 9.624463116145428e-06, 'epoch': 0.53}
 53%|█████▎    | 3497/6640 [1:24:20<14:16:10, 16.34s/it] 53%|█████▎    | 3498/6640 [1:24:37<14:22:31, 16.47s/it]                                                        {'loss': 0.5363, 'learning_rate': 9.619588352621805e-06, 'epoch': 0.53}
 53%|█████▎    | 3498/6640 [1:24:37<14:22:31, 16.47s/it] 53%|█████▎    | 3499/6640 [1:24:53<14:10:31, 16.25s/it]                                                        {'loss': 0.5405, 'learning_rate': 9.61471367962595e-06, 'epoch': 0.53}
 53%|█████▎    | 3499/6640 [1:24:53<14:10:31, 16.25s/it]07 AutoResumeHook: Checking whether to suspend...
 52  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...

1 AutoResumeHook: Checking whether to suspend...
 53%|█████▎    | 3500/6640 [1:25:09<14:04:23, 16.13s/it]4 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5359, 'learning_rate': 9.609839098317902e-06, 'epoch': 0.53}
 53%|█████▎    | 3500/6640 [1:25:09<14:04:23, 16.13s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3500/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3500/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3500/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 53%|█████▎    | 3501/6640 [1:26:58<38:31:38, 44.19s/it]                                                        {'loss': 0.5281, 'learning_rate': 9.604964609857685e-06, 'epoch': 0.53}
 53%|█████▎    | 3501/6640 [1:26:58<38:31:38, 44.19s/it] 53%|█████▎    | 3502/6640 [1:27:15<31:14:07, 35.83s/it]                                                        {'loss': 0.5386, 'learning_rate': 9.600090215405292e-06, 'epoch': 0.53}
 53%|█████▎    | 3502/6640 [1:27:15<31:14:07, 35.83s/it] 53%|█████▎    | 3503/6640 [1:27:31<26:13:42, 30.10s/it]                                                        {'loss': 0.5059, 'learning_rate': 9.5952159161207e-06, 'epoch': 0.53}
 53%|█████▎    | 3503/6640 [1:27:31<26:13:42, 30.10s/it] 53%|█████▎    | 3504/6640 [1:27:48<22:45:49, 26.13s/it]                                                        {'loss': 0.5213, 'learning_rate': 9.590341713163858e-06, 'epoch': 0.53}
 53%|█████▎    | 3504/6640 [1:27:48<22:45:49, 26.13s/it] 53%|█████▎    | 3505/6640 [1:28:06<20:27:47, 23.50s/it]                                                        {'loss': 0.5274, 'learning_rate': 9.585467607694702e-06, 'epoch': 0.53}
 53%|█████▎    | 3505/6640 [1:28:06<20:27:47, 23.50s/it] 53%|█████▎    | 3506/6640 [1:28:22<18:32:46, 21.30s/it]                                                        {'loss': 0.5297, 'learning_rate': 9.580593600873135e-06, 'epoch': 0.53}
 53%|█████▎    | 3506/6640 [1:28:22<18:32:46, 21.30s/it] 53%|█████▎    | 3507/6640 [1:28:38<17:14:11, 19.81s/it]                                                        {'loss': 0.5229, 'learning_rate': 9.575719693859037e-06, 'epoch': 0.53}
 53%|█████▎    | 3507/6640 [1:28:38<17:14:11, 19.81s/it] 53%|█████▎    | 3508/6640 [1:28:54<16:17:46, 18.73s/it]                                                        {'loss': 0.5169, 'learning_rate': 9.57084588781227e-06, 'epoch': 0.53}
 53%|█████▎    | 3508/6640 [1:28:54<16:17:46, 18.73s/it] 53%|█████▎    | 3509/6640 [1:29:11<15:45:09, 18.11s/it]                                                        {'loss': 0.5169, 'learning_rate': 9.565972183892669e-06, 'epoch': 0.53}
 53%|█████▎    | 3509/6640 [1:29:11<15:45:09, 18.11s/it] 53%|█████▎    | 3510/6640 [1:29:27<15:09:09, 17.43s/it]                                                        {'loss': 0.5281, 'learning_rate': 9.561098583260047e-06, 'epoch': 0.53}
 53%|█████▎    | 3510/6640 [1:29:27<15:09:09, 17.43s/it] 53%|█████▎    | 3511/6640 [1:29:43<14:56:17, 17.19s/it]                                                        {'loss': 0.5378, 'learning_rate': 9.55622508707419e-06, 'epoch': 0.53}
 53%|█████▎    | 3511/6640 [1:29:43<14:56:17, 17.19s/it] 53%|█████▎    | 3512/6640 [1:29:59<14:37:35, 16.83s/it]                                                        {'loss': 0.5441, 'learning_rate': 9.551351696494854e-06, 'epoch': 0.53}
 53%|█████▎    | 3512/6640 [1:29:59<14:37:35, 16.83s/it] 53%|█████▎    | 3513/6640 [1:30:15<14:19:53, 16.50s/it]                                                        {'loss': 0.5564, 'learning_rate': 9.546478412681776e-06, 'epoch': 0.53}
 53%|█████▎    | 3513/6640 [1:30:15<14:19:53, 16.50s/it] 53%|█████▎    | 3514/6640 [1:30:31<14:11:20, 16.34s/it]                                                        {'loss': 0.5273, 'learning_rate': 9.541605236794673e-06, 'epoch': 0.53}
 53%|█████▎    | 3514/6640 [1:30:31<14:11:20, 16.34s/it] 53%|█████▎    | 3515/6640 [1:30:48<14:21:22, 16.54s/it]                                                        {'loss': 0.5179, 'learning_rate': 9.536732169993225e-06, 'epoch': 0.53}
 53%|█████▎    | 3515/6640 [1:30:48<14:21:22, 16.54s/it] 53%|█████▎    | 3516/6640 [1:31:05<14:17:37, 16.47s/it]                                                        {'loss': 0.5376, 'learning_rate': 9.531859213437094e-06, 'epoch': 0.53}
 53%|█████▎    | 3516/6640 [1:31:05<14:17:37, 16.47s/it] 53%|█████▎    | 3517/6640 [1:31:22<14:28:59, 16.70s/it]                                                        {'loss': 0.5198, 'learning_rate': 9.52698636828591e-06, 'epoch': 0.53}
 53%|█████▎    | 3517/6640 [1:31:22<14:28:59, 16.70s/it] 53%|█████▎    | 3518/6640 [1:31:38<14:15:51, 16.45s/it]                                                        {'loss': 0.5314, 'learning_rate': 9.522113635699281e-06, 'epoch': 0.53}
 53%|█████▎    | 3518/6640 [1:31:38<14:15:51, 16.45s/it] 53%|█████▎    | 3519/6640 [1:31:54<14:10:03, 16.34s/it]                                                        {'loss': 0.5351, 'learning_rate': 9.517241016836789e-06, 'epoch': 0.53}
 53%|█████▎    | 3519/6640 [1:31:54<14:10:03, 16.34s/it] 53%|█████▎    | 3520/6640 [1:32:09<13:58:04, 16.12s/it]                                                        {'loss': 0.5402, 'learning_rate': 9.512368512857983e-06, 'epoch': 0.53}
 53%|█████▎    | 3520/6640 [1:32:09<13:58:04, 16.12s/it] 53%|█████▎    | 3521/6640 [1:32:26<14:03:15, 16.22s/it]                                                        {'loss': 0.5127, 'learning_rate': 9.507496124922392e-06, 'epoch': 0.53}
 53%|█████▎    | 3521/6640 [1:32:26<14:03:15, 16.22s/it] 53%|█████▎    | 3522/6640 [1:32:43<14:12:56, 16.41s/it]                                                        {'loss': 0.5555, 'learning_rate': 9.502623854189504e-06, 'epoch': 0.53}
 53%|█████▎    | 3522/6640 [1:32:43<14:12:56, 16.41s/it] 53%|█████▎    | 3523/6640 [1:32:59<14:17:56, 16.51s/it]                                                        {'loss': 0.5281, 'learning_rate': 9.497751701818801e-06, 'epoch': 0.53}
 53%|█████▎    | 3523/6640 [1:32:59<14:17:56, 16.51s/it] 53%|█████▎    | 3524/6640 [1:33:15<14:09:23, 16.36s/it]                                                        {'loss': 0.5211, 'learning_rate': 9.49287966896972e-06, 'epoch': 0.53}
 53%|█████▎    | 3524/6640 [1:33:15<14:09:23, 16.36s/it] 53%|█████▎    | 3525/6640 [1:33:32<14:07:02, 16.32s/it]                                                        {'loss': 0.5212, 'learning_rate': 9.488007756801672e-06, 'epoch': 0.53}
 53%|█████▎    | 3525/6640 [1:33:32<14:07:02, 16.32s/it] 53%|█████▎    | 3526/6640 [1:33:48<14:12:45, 16.43s/it]                                                        {'loss': 0.5362, 'learning_rate': 9.48313596647404e-06, 'epoch': 0.53}
 53%|█████▎    | 3526/6640 [1:33:48<14:12:45, 16.43s/it] 53%|█████▎    | 3527/6640 [1:34:04<14:09:15, 16.37s/it]                                                        {'loss': 0.5181, 'learning_rate': 9.478264299146186e-06, 'epoch': 0.53}
 53%|█████▎    | 3527/6640 [1:34:04<14:09:15, 16.37s/it] 53%|█████▎    | 3528/6640 [1:34:20<13:58:49, 16.17s/it]                                                        {'loss': 0.5268, 'learning_rate': 9.473392755977432e-06, 'epoch': 0.53}
 53%|█████▎    | 3528/6640 [1:34:20<13:58:49, 16.17s/it] 53%|█████▎    | 3529/6640 [1:34:36<14:00:31, 16.21s/it]                                                        {'loss': 0.529, 'learning_rate': 9.468521338127075e-06, 'epoch': 0.53}
 53%|█████▎    | 3529/6640 [1:34:37<14:00:31, 16.21s/it] 53%|█████▎    | 3530/6640 [1:34:52<13:55:00, 16.11s/it]                                                        {'loss': 0.5414, 'learning_rate': 9.463650046754383e-06, 'epoch': 0.53}
 53%|█████▎    | 3530/6640 [1:34:52<13:55:00, 16.11s/it] 53%|█████▎    | 3531/6640 [1:35:09<13:56:17, 16.14s/it]                                                        {'loss': 0.526, 'learning_rate': 9.458778883018586e-06, 'epoch': 0.53}
 53%|█████▎    | 3531/6640 [1:35:09<13:56:17, 16.14s/it] 53%|█████▎    | 3532/6640 [1:35:25<13:58:23, 16.19s/it]                                                        {'loss': 0.5195, 'learning_rate': 9.453907848078901e-06, 'epoch': 0.53}
 53%|█████▎    | 3532/6640 [1:35:25<13:58:23, 16.19s/it] 53%|█████▎    | 3533/6640 [1:35:41<13:58:58, 16.20s/it]                                                        {'loss': 0.5205, 'learning_rate': 9.449036943094497e-06, 'epoch': 0.53}
 53%|█████▎    | 3533/6640 [1:35:41<13:58:58, 16.20s/it] 53%|█████▎    | 3534/6640 [1:35:58<14:06:29, 16.35s/it]                                                        {'loss': 0.5049, 'learning_rate': 9.444166169224522e-06, 'epoch': 0.53}
 53%|█████▎    | 3534/6640 [1:35:58<14:06:29, 16.35s/it] 53%|█████▎    | 3535/6640 [1:36:14<14:04:20, 16.32s/it]                                                        {'loss': 0.5421, 'learning_rate': 9.439295527628083e-06, 'epoch': 0.53}
 53%|█████▎    | 3535/6640 [1:36:14<14:04:20, 16.32s/it] 53%|█████▎    | 3536/6640 [1:36:31<14:14:25, 16.52s/it]                                                        {'loss': 0.5294, 'learning_rate': 9.434425019464269e-06, 'epoch': 0.53}
 53%|█████▎    | 3536/6640 [1:36:31<14:14:25, 16.52s/it] 53%|█████▎    | 3537/6640 [1:36:47<14:03:35, 16.31s/it]                                                        {'loss': 0.516, 'learning_rate': 9.429554645892129e-06, 'epoch': 0.53}
 53%|█████▎    | 3537/6640 [1:36:47<14:03:35, 16.31s/it] 53%|█████▎    | 3538/6640 [1:37:04<14:16:04, 16.56s/it]                                                        {'loss': 0.5258, 'learning_rate': 9.424684408070681e-06, 'epoch': 0.53}
 53%|█████▎    | 3538/6640 [1:37:04<14:16:04, 16.56s/it] 53%|█████▎    | 3539/6640 [1:37:21<14:16:31, 16.57s/it]                                                        {'loss': 0.5127, 'learning_rate': 9.419814307158908e-06, 'epoch': 0.53}
 53%|█████▎    | 3539/6640 [1:37:21<14:16:31, 16.57s/it] 53%|█████▎    | 3540/6640 [1:37:36<14:02:56, 16.32s/it]                                                        {'loss': 0.5253, 'learning_rate': 9.414944344315765e-06, 'epoch': 0.53}
 53%|█████▎    | 3540/6640 [1:37:36<14:02:56, 16.32s/it] 53%|█████▎    | 3541/6640 [1:37:53<14:10:49, 16.47s/it]                                                        {'loss': 0.5316, 'learning_rate': 9.410074520700172e-06, 'epoch': 0.53}
 53%|█████▎    | 3541/6640 [1:37:53<14:10:49, 16.47s/it] 53%|█████▎    | 3542/6640 [1:38:09<13:59:38, 16.26s/it]                                                        {'loss': 0.5323, 'learning_rate': 9.40520483747102e-06, 'epoch': 0.53}
 53%|█████▎    | 3542/6640 [1:38:09<13:59:38, 16.26s/it] 53%|█████▎    | 3543/6640 [1:38:25<13:59:10, 16.26s/it]                                                        {'loss': 0.5298, 'learning_rate': 9.400335295787162e-06, 'epoch': 0.53}
 53%|█████▎    | 3543/6640 [1:38:25<13:59:10, 16.26s/it] 53%|█████▎    | 3544/6640 [1:38:43<14:17:33, 16.62s/it]                                                        {'loss': 0.516, 'learning_rate': 9.395465896807411e-06, 'epoch': 0.53}
 53%|█████▎    | 3544/6640 [1:38:43<14:17:33, 16.62s/it] 53%|█████▎    | 3545/6640 [1:38:59<14:08:52, 16.46s/it]                                                        {'loss': 0.5242, 'learning_rate': 9.390596641690563e-06, 'epoch': 0.53}
 53%|█████▎    | 3545/6640 [1:38:59<14:08:52, 16.46s/it] 53%|█████▎    | 3546/6640 [1:39:16<14:26:41, 16.81s/it]                                                        {'loss': 0.54, 'learning_rate': 9.385727531595367e-06, 'epoch': 0.53}
 53%|█████▎    | 3546/6640 [1:39:16<14:26:41, 16.81s/it] 53%|█████▎    | 3547/6640 [1:39:33<14:19:11, 16.67s/it]                                                        {'loss': 0.5067, 'learning_rate': 9.38085856768054e-06, 'epoch': 0.53}
 53%|█████▎    | 3547/6640 [1:39:33<14:19:11, 16.67s/it] 53%|█████▎    | 3548/6640 [1:39:49<14:12:38, 16.55s/it]                                                        {'loss': 0.5242, 'learning_rate': 9.37598975110476e-06, 'epoch': 0.53}
 53%|█████▎    | 3548/6640 [1:39:49<14:12:38, 16.55s/it] 53%|█████▎    | 3549/6640 [1:40:05<14:03:06, 16.37s/it]                                                        {'loss': 0.5315, 'learning_rate': 9.371121083026683e-06, 'epoch': 0.53}
 53%|█████▎    | 3549/6640 [1:40:05<14:03:06, 16.37s/it]2 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 53%|█████▎    | 3550/6640 [1:40:21<14:05:24, 16.42s/it]                                                        {'loss': 0.5351, 'learning_rate': 9.366252564604914e-06, 'epoch': 0.53}
 53%|█████▎    | 3550/6640 [1:40:21<14:05:24, 16.42s/it] 53%|█████▎    | 3551/6640 [1:40:38<14:03:24, 16.38s/it]                                                        {'loss': 0.5352, 'learning_rate': 9.361384196998037e-06, 'epoch': 0.53}
 53%|█████▎    | 3551/6640 [1:40:38<14:03:24, 16.38s/it] 53%|█████▎    | 3552/6640 [1:40:53<13:53:17, 16.19s/it]                                                        {'loss': 0.5347, 'learning_rate': 9.356515981364589e-06, 'epoch': 0.53}
 53%|█████▎    | 3552/6640 [1:40:53<13:53:17, 16.19s/it] 54%|█████▎    | 3553/6640 [1:41:10<13:53:08, 16.19s/it]                                                        {'loss': 0.5272, 'learning_rate': 9.35164791886307e-06, 'epoch': 0.54}
 54%|█████▎    | 3553/6640 [1:41:10<13:53:08, 16.19s/it] 54%|█████▎    | 3554/6640 [1:41:25<13:41:31, 15.97s/it]                                                        {'loss': 0.5233, 'learning_rate': 9.34678001065196e-06, 'epoch': 0.54}
 54%|█████▎    | 3554/6640 [1:41:25<13:41:31, 15.97s/it] 54%|█████▎    | 3555/6640 [1:41:42<13:56:28, 16.27s/it]                                                        {'loss': 0.53, 'learning_rate': 9.34191225788968e-06, 'epoch': 0.54}
 54%|█████▎    | 3555/6640 [1:41:42<13:56:28, 16.27s/it] 54%|█████▎    | 3556/6640 [1:41:59<14:00:55, 16.36s/it]                                                        {'loss': 0.5447, 'learning_rate': 9.337044661734632e-06, 'epoch': 0.54}
 54%|█████▎    | 3556/6640 [1:41:59<14:00:55, 16.36s/it] 54%|█████▎    | 3557/6640 [1:42:15<13:53:10, 16.22s/it]                                                        {'loss': 0.5292, 'learning_rate': 9.332177223345165e-06, 'epoch': 0.54}
 54%|█████▎    | 3557/6640 [1:42:15<13:53:10, 16.22s/it] 54%|█████▎    | 3558/6640 [1:42:32<14:05:02, 16.45s/it]                                                        {'loss': 0.5105, 'learning_rate': 9.327309943879604e-06, 'epoch': 0.54}
 54%|█████▎    | 3558/6640 [1:42:32<14:05:02, 16.45s/it] 54%|█████▎    | 3559/6640 [1:42:50<14:34:36, 17.03s/it]                                                        {'loss': 0.5275, 'learning_rate': 9.322442824496232e-06, 'epoch': 0.54}
 54%|█████▎    | 3559/6640 [1:42:50<14:34:36, 17.03s/it] 54%|█████▎    | 3560/6640 [1:43:07<14:28:38, 16.92s/it]                                                        {'loss': 0.5252, 'learning_rate': 9.317575866353293e-06, 'epoch': 0.54}
 54%|█████▎    | 3560/6640 [1:43:07<14:28:38, 16.92s/it] 54%|█████▎    | 3561/6640 [1:43:22<14:02:30, 16.42s/it]                                                        {'loss': 0.5008, 'learning_rate': 9.312709070608988e-06, 'epoch': 0.54}
 54%|█████▎    | 3561/6640 [1:43:22<14:02:30, 16.42s/it] 54%|█████▎    | 3562/6640 [1:43:38<13:55:06, 16.28s/it]                                                        {'loss': 0.531, 'learning_rate': 9.307842438421484e-06, 'epoch': 0.54}
 54%|█████▎    | 3562/6640 [1:43:38<13:55:06, 16.28s/it] 54%|█████▎    | 3563/6640 [1:43:54<13:50:37, 16.20s/it]                                                        {'loss': 0.5182, 'learning_rate': 9.302975970948916e-06, 'epoch': 0.54}
 54%|█████▎    | 3563/6640 [1:43:54<13:50:37, 16.20s/it] 54%|█████▎    | 3564/6640 [1:44:10<13:42:57, 16.05s/it]                                                        {'loss': 0.5255, 'learning_rate': 9.298109669349368e-06, 'epoch': 0.54}
 54%|█████▎    | 3564/6640 [1:44:10<13:42:57, 16.05s/it] 54%|█████▎    | 3565/6640 [1:44:26<13:47:09, 16.14s/it]                                                        {'loss': 0.5582, 'learning_rate': 9.293243534780887e-06, 'epoch': 0.54}
 54%|█████▎    | 3565/6640 [1:44:26<13:47:09, 16.14s/it] 54%|█████▎    | 3566/6640 [1:44:42<13:49:31, 16.19s/it]                                                        {'loss': 0.5041, 'learning_rate': 9.28837756840149e-06, 'epoch': 0.54}
 54%|█████▎    | 3566/6640 [1:44:42<13:49:31, 16.19s/it] 54%|█████▎    | 3567/6640 [1:44:59<13:55:05, 16.30s/it]                                                        {'loss': 0.5377, 'learning_rate': 9.283511771369132e-06, 'epoch': 0.54}
 54%|█████▎    | 3567/6640 [1:44:59<13:55:05, 16.30s/it] 54%|█████▎    | 3568/6640 [1:45:15<13:56:44, 16.34s/it]                                                        {'loss': 0.5218, 'learning_rate': 9.278646144841759e-06, 'epoch': 0.54}
 54%|█████▎    | 3568/6640 [1:45:15<13:56:44, 16.34s/it] 54%|█████▍    | 3569/6640 [1:45:32<13:58:22, 16.38s/it]                                                        {'loss': 0.5227, 'learning_rate': 9.273780689977251e-06, 'epoch': 0.54}
 54%|█████▍    | 3569/6640 [1:45:32<13:58:22, 16.38s/it] 54%|█████▍    | 3570/6640 [1:45:48<13:53:22, 16.29s/it]                                                        {'loss': 0.5148, 'learning_rate': 9.268915407933457e-06, 'epoch': 0.54}
 54%|█████▍    | 3570/6640 [1:45:48<13:53:22, 16.29s/it] 54%|█████▍    | 3571/6640 [1:46:05<14:07:05, 16.56s/it]                                                        {'loss': 0.5541, 'learning_rate': 9.26405029986818e-06, 'epoch': 0.54}
 54%|█████▍    | 3571/6640 [1:46:05<14:07:05, 16.56s/it] 54%|█████▍    | 3572/6640 [1:46:22<14:12:37, 16.67s/it]                                                        {'loss': 0.5247, 'learning_rate': 9.259185366939193e-06, 'epoch': 0.54}
 54%|█████▍    | 3572/6640 [1:46:22<14:12:37, 16.67s/it] 54%|█████▍    | 3573/6640 [1:46:38<14:06:35, 16.56s/it]                                                        {'loss': 0.5291, 'learning_rate': 9.254320610304213e-06, 'epoch': 0.54}
 54%|█████▍    | 3573/6640 [1:46:38<14:06:35, 16.56s/it] 54%|█████▍    | 3574/6640 [1:46:55<14:17:30, 16.78s/it]                                                        {'loss': 0.5149, 'learning_rate': 9.249456031120922e-06, 'epoch': 0.54}
 54%|█████▍    | 3574/6640 [1:46:55<14:17:30, 16.78s/it] 54%|█████▍    | 3575/6640 [1:47:12<14:09:37, 16.63s/it]                                                        {'loss': 0.5292, 'learning_rate': 9.244591630546964e-06, 'epoch': 0.54}
 54%|█████▍    | 3575/6640 [1:47:12<14:09:37, 16.63s/it] 54%|█████▍    | 3576/6640 [1:47:29<14:18:23, 16.81s/it]                                                        {'loss': 0.5332, 'learning_rate': 9.23972740973993e-06, 'epoch': 0.54}
 54%|█████▍    | 3576/6640 [1:47:29<14:18:23, 16.81s/it] 54%|█████▍    | 3577/6640 [1:47:46<14:14:16, 16.73s/it]                                                        {'loss': 0.5099, 'learning_rate': 9.23486336985738e-06, 'epoch': 0.54}
 54%|█████▍    | 3577/6640 [1:47:46<14:14:16, 16.73s/it] 54%|█████▍    | 3578/6640 [1:48:01<14:02:24, 16.51s/it]                                                        {'loss': 0.5102, 'learning_rate': 9.229999512056821e-06, 'epoch': 0.54}
 54%|█████▍    | 3578/6640 [1:48:01<14:02:24, 16.51s/it] 54%|█████▍    | 3579/6640 [1:48:18<13:56:50, 16.40s/it]                                                        {'loss': 0.5471, 'learning_rate': 9.225135837495722e-06, 'epoch': 0.54}
 54%|█████▍    | 3579/6640 [1:48:18<13:56:50, 16.40s/it] 54%|█████▍    | 3580/6640 [1:48:35<14:04:01, 16.55s/it]                                                        {'loss': 0.5046, 'learning_rate': 9.220272347331502e-06, 'epoch': 0.54}
 54%|█████▍    | 3580/6640 [1:48:35<14:04:01, 16.55s/it] 54%|█████▍    | 3581/6640 [1:48:51<14:09:04, 16.65s/it]                                                        {'loss': 0.5331, 'learning_rate': 9.215409042721553e-06, 'epoch': 0.54}
 54%|█████▍    | 3581/6640 [1:48:51<14:09:04, 16.65s/it] 54%|█████▍    | 3582/6640 [1:49:07<13:56:31, 16.41s/it]                                                        {'loss': 0.5292, 'learning_rate': 9.210545924823199e-06, 'epoch': 0.54}
 54%|█████▍    | 3582/6640 [1:49:07<13:56:31, 16.41s/it] 54%|█████▍    | 3583/6640 [1:49:24<14:05:48, 16.60s/it]                                                        {'loss': 0.523, 'learning_rate': 9.20568299479374e-06, 'epoch': 0.54}
 54%|█████▍    | 3583/6640 [1:49:24<14:05:48, 16.60s/it] 54%|█████▍    | 3584/6640 [1:49:41<14:05:04, 16.59s/it]                                                        {'loss': 0.511, 'learning_rate': 9.200820253790419e-06, 'epoch': 0.54}
 54%|█████▍    | 3584/6640 [1:49:41<14:05:04, 16.59s/it] 54%|█████▍    | 3585/6640 [1:49:57<14:04:04, 16.58s/it]                                                        {'loss': 0.5072, 'learning_rate': 9.195957702970434e-06, 'epoch': 0.54}
 54%|█████▍    | 3585/6640 [1:49:57<14:04:04, 16.58s/it] 54%|█████▍    | 3586/6640 [1:50:16<14:33:10, 17.15s/it]                                                        {'loss': 0.5163, 'learning_rate': 9.19109534349095e-06, 'epoch': 0.54}
 54%|█████▍    | 3586/6640 [1:50:16<14:33:10, 17.15s/it] 54%|█████▍    | 3587/6640 [1:50:32<14:21:33, 16.93s/it]                                                        {'loss': 0.5025, 'learning_rate': 9.186233176509075e-06, 'epoch': 0.54}
 54%|█████▍    | 3587/6640 [1:50:32<14:21:33, 16.93s/it] 54%|█████▍    | 3588/6640 [1:50:48<14:06:25, 16.64s/it]                                                        {'loss': 0.5213, 'learning_rate': 9.181371203181873e-06, 'epoch': 0.54}
 54%|█████▍    | 3588/6640 [1:50:48<14:06:25, 16.64s/it] 54%|█████▍    | 3589/6640 [1:51:05<14:03:09, 16.58s/it]                                                        {'loss': 0.5488, 'learning_rate': 9.176509424666359e-06, 'epoch': 0.54}
 54%|█████▍    | 3589/6640 [1:51:05<14:03:09, 16.58s/it] 54%|█████▍    | 3590/6640 [1:51:21<14:01:10, 16.55s/it]                                                        {'loss': 0.525, 'learning_rate': 9.171647842119515e-06, 'epoch': 0.54}
 54%|█████▍    | 3590/6640 [1:51:21<14:01:10, 16.55s/it] 54%|█████▍    | 3591/6640 [1:51:38<13:57:31, 16.48s/it]                                                        {'loss': 0.5521, 'learning_rate': 9.16678645669826e-06, 'epoch': 0.54}
 54%|█████▍    | 3591/6640 [1:51:38<13:57:31, 16.48s/it] 54%|█████▍    | 3592/6640 [1:51:54<13:53:56, 16.42s/it]                                                        {'loss': 0.5161, 'learning_rate': 9.16192526955948e-06, 'epoch': 0.54}
 54%|█████▍    | 3592/6640 [1:51:54<13:53:56, 16.42s/it] 54%|█████▍    | 3593/6640 [1:52:10<13:45:57, 16.26s/it]                                                        {'loss': 0.5154, 'learning_rate': 9.15706428186e-06, 'epoch': 0.54}
 54%|█████▍    | 3593/6640 [1:52:10<13:45:57, 16.26s/it] 54%|█████▍    | 3594/6640 [1:52:26<13:50:45, 16.36s/it]                                                        {'loss': 0.5214, 'learning_rate': 9.152203494756607e-06, 'epoch': 0.54}
 54%|█████▍    | 3594/6640 [1:52:26<13:50:45, 16.36s/it] 54%|█████▍    | 3595/6640 [1:52:42<13:41:37, 16.19s/it]                                                        {'loss': 0.5267, 'learning_rate': 9.14734290940604e-06, 'epoch': 0.54}
 54%|█████▍    | 3595/6640 [1:52:42<13:41:37, 16.19s/it] 54%|█████▍    | 3596/6640 [1:52:59<13:45:28, 16.27s/it]                                                        {'loss': 0.5215, 'learning_rate': 9.14248252696499e-06, 'epoch': 0.54}
 54%|█████▍    | 3596/6640 [1:52:59<13:45:28, 16.27s/it] 54%|█████▍    | 3597/6640 [1:53:14<13:39:12, 16.15s/it]                                                        {'loss': 0.5277, 'learning_rate': 9.137622348590091e-06, 'epoch': 0.54}
 54%|█████▍    | 3597/6640 [1:53:14<13:39:12, 16.15s/it] 54%|█████▍    | 3598/6640 [1:53:31<13:50:47, 16.39s/it]                                                        {'loss': 0.535, 'learning_rate': 9.132762375437938e-06, 'epoch': 0.54}
 54%|█████▍    | 3598/6640 [1:53:31<13:50:47, 16.39s/it] 54%|█████▍    | 3599/6640 [1:53:48<13:50:14, 16.38s/it]                                                        {'loss': 0.4919, 'learning_rate': 9.127902608665075e-06, 'epoch': 0.54}
 54%|█████▍    | 3599/6640 [1:53:48<13:50:14, 16.38s/it]7 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
06 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
 54%|█████▍    | 3600/6640 [1:54:04<13:50:16, 16.39s/it]                                                        {'loss': 0.4996, 'learning_rate': 9.123043049427996e-06, 'epoch': 0.54}
 54%|█████▍    | 3600/6640 [1:54:04<13:50:16, 16.39s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3600/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3600/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3600/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 54%|█████▍    | 3601/6640 [1:55:45<35:13:35, 41.73s/it]                                                        {'loss': 0.5044, 'learning_rate': 9.118183698883146e-06, 'epoch': 0.54}
 54%|█████▍    | 3601/6640 [1:55:45<35:13:35, 41.73s/it] 54%|█████▍    | 3602/6640 [1:56:02<28:49:49, 34.16s/it]                                                        {'loss': 0.5224, 'learning_rate': 9.113324558186922e-06, 'epoch': 0.54}
 54%|█████▍    | 3602/6640 [1:56:02<28:49:49, 34.16s/it] 54%|█████▍    | 3603/6640 [1:56:17<24:08:16, 28.61s/it]                                                        {'loss': 0.514, 'learning_rate': 9.10846562849566e-06, 'epoch': 0.54}
 54%|█████▍    | 3603/6640 [1:56:17<24:08:16, 28.61s/it] 54%|█████▍    | 3604/6640 [1:56:33<20:58:34, 24.87s/it]                                                        {'loss': 0.5167, 'learning_rate': 9.103606910965666e-06, 'epoch': 0.54}
 54%|█████▍    | 3604/6640 [1:56:33<20:58:34, 24.87s/it] 54%|█████▍    | 3605/6640 [1:56:50<18:49:32, 22.33s/it]                                                        {'loss': 0.5121, 'learning_rate': 9.098748406753181e-06, 'epoch': 0.54}
 54%|█████▍    | 3605/6640 [1:56:50<18:49:32, 22.33s/it] 54%|█████▍    | 3606/6640 [1:57:06<17:20:39, 20.58s/it]                                                        {'loss': 0.5253, 'learning_rate': 9.093890117014395e-06, 'epoch': 0.54}
 54%|█████▍    | 3606/6640 [1:57:06<17:20:39, 20.58s/it] 54%|█████▍    | 3607/6640 [1:57:22<16:12:04, 19.23s/it]                                                        {'loss': 0.5053, 'learning_rate': 9.089032042905454e-06, 'epoch': 0.54}
 54%|█████▍    | 3607/6640 [1:57:22<16:12:04, 19.23s/it] 54%|█████▍    | 3608/6640 [1:57:39<15:30:00, 18.40s/it]                                                        {'loss': 0.5477, 'learning_rate': 9.084174185582448e-06, 'epoch': 0.54}
 54%|█████▍    | 3608/6640 [1:57:39<15:30:00, 18.40s/it] 54%|█████▍    | 3609/6640 [1:57:54<14:45:34, 17.53s/it]                                                        {'loss': 0.5472, 'learning_rate': 9.07931654620142e-06, 'epoch': 0.54}
 54%|█████▍    | 3609/6640 [1:57:54<14:45:34, 17.53s/it] 54%|█████▍    | 3610/6640 [1:58:11<14:26:06, 17.15s/it]                                                        {'loss': 0.5514, 'learning_rate': 9.074459125918356e-06, 'epoch': 0.54}
 54%|█████▍    | 3610/6640 [1:58:11<14:26:06, 17.15s/it] 54%|█████▍    | 3611/6640 [1:58:27<14:13:12, 16.90s/it]                                                        {'loss': 0.5098, 'learning_rate': 9.069601925889189e-06, 'epoch': 0.54}
 54%|█████▍    | 3611/6640 [1:58:27<14:13:12, 16.90s/it] 54%|█████▍    | 3612/6640 [1:58:43<14:02:12, 16.69s/it]                                                        {'loss': 0.5261, 'learning_rate': 9.064744947269801e-06, 'epoch': 0.54}
 54%|█████▍    | 3612/6640 [1:58:43<14:02:12, 16.69s/it] 54%|█████▍    | 3613/6640 [1:59:01<14:16:52, 16.98s/it]                                                        {'loss': 0.5436, 'learning_rate': 9.05988819121603e-06, 'epoch': 0.54}
 54%|█████▍    | 3613/6640 [1:59:01<14:16:52, 16.98s/it] 54%|█████▍    | 3614/6640 [1:59:16<13:58:10, 16.62s/it]                                                        {'loss': 0.5236, 'learning_rate': 9.05503165888365e-06, 'epoch': 0.54}
 54%|█████▍    | 3614/6640 [1:59:16<13:58:10, 16.62s/it] 54%|█████▍    | 3615/6640 [1:59:33<13:53:36, 16.53s/it]                                                        {'loss': 0.5149, 'learning_rate': 9.050175351428381e-06, 'epoch': 0.54}
 54%|█████▍    | 3615/6640 [1:59:33<13:53:36, 16.53s/it] 54%|█████▍    | 3616/6640 [1:59:49<13:44:37, 16.36s/it]                                                        {'loss': 0.5178, 'learning_rate': 9.0453192700059e-06, 'epoch': 0.54}
 54%|█████▍    | 3616/6640 [1:59:49<13:44:37, 16.36s/it] 54%|█████▍    | 3617/6640 [2:00:05<13:40:56, 16.29s/it]                                                        {'loss': 0.5182, 'learning_rate': 9.04046341577182e-06, 'epoch': 0.54}
 54%|█████▍    | 3617/6640 [2:00:05<13:40:56, 16.29s/it] 54%|█████▍    | 3618/6640 [2:00:22<13:47:42, 16.43s/it]                                                        {'loss': 0.5191, 'learning_rate': 9.035607789881711e-06, 'epoch': 0.54}
 54%|█████▍    | 3618/6640 [2:00:22<13:47:42, 16.43s/it] 55%|█████▍    | 3619/6640 [2:00:38<13:51:07, 16.51s/it]                                                        {'loss': 0.5418, 'learning_rate': 9.030752393491074e-06, 'epoch': 0.55}
 55%|█████▍    | 3619/6640 [2:00:38<13:51:07, 16.51s/it] 55%|█████▍    | 3620/6640 [2:00:55<13:52:13, 16.53s/it]                                                        {'loss': 0.536, 'learning_rate': 9.025897227755367e-06, 'epoch': 0.55}
 55%|█████▍    | 3620/6640 [2:00:55<13:52:13, 16.53s/it] 55%|█████▍    | 3621/6640 [2:01:11<13:40:17, 16.30s/it]                                                        {'loss': 0.5549, 'learning_rate': 9.021042293829982e-06, 'epoch': 0.55}
 55%|█████▍    | 3621/6640 [2:01:11<13:40:17, 16.30s/it] 55%|█████▍    | 3622/6640 [2:01:27<13:41:52, 16.34s/it]                                                        {'loss': 0.4977, 'learning_rate': 9.016187592870276e-06, 'epoch': 0.55}
 55%|█████▍    | 3622/6640 [2:01:27<13:41:52, 16.34s/it] 55%|█████▍    | 3623/6640 [2:01:44<13:42:07, 16.35s/it]                                                        {'loss': 0.5188, 'learning_rate': 9.011333126031526e-06, 'epoch': 0.55}
 55%|█████▍    | 3623/6640 [2:01:44<13:42:07, 16.35s/it] 55%|█████▍    | 3624/6640 [2:02:00<13:40:33, 16.32s/it]                                                        {'loss': 0.5228, 'learning_rate': 9.006478894468973e-06, 'epoch': 0.55}
 55%|█████▍    | 3624/6640 [2:02:00<13:40:33, 16.32s/it] 55%|█████▍    | 3625/6640 [2:02:16<13:40:14, 16.32s/it]                                                        {'loss': 0.5262, 'learning_rate': 9.001624899337785e-06, 'epoch': 0.55}
 55%|█████▍    | 3625/6640 [2:02:16<13:40:14, 16.32s/it] 55%|█████▍    | 3626/6640 [2:02:32<13:38:05, 16.29s/it]                                                        {'loss': 0.514, 'learning_rate': 8.996771141793094e-06, 'epoch': 0.55}
 55%|█████▍    | 3626/6640 [2:02:32<13:38:05, 16.29s/it] 55%|█████▍    | 3627/6640 [2:02:49<13:37:47, 16.29s/it]                                                        {'loss': 0.5528, 'learning_rate': 8.991917622989957e-06, 'epoch': 0.55}
 55%|█████▍    | 3627/6640 [2:02:49<13:37:47, 16.29s/it] 55%|█████▍    | 3628/6640 [2:03:05<13:41:02, 16.36s/it]                                                        {'loss': 0.5342, 'learning_rate': 8.987064344083381e-06, 'epoch': 0.55}
 55%|█████▍    | 3628/6640 [2:03:05<13:41:02, 16.36s/it] 55%|█████▍    | 3629/6640 [2:03:22<13:45:08, 16.44s/it]                                                        {'loss': 0.5157, 'learning_rate': 8.98221130622832e-06, 'epoch': 0.55}
 55%|█████▍    | 3629/6640 [2:03:22<13:45:08, 16.44s/it] 55%|█████▍    | 3630/6640 [2:03:37<13:33:05, 16.21s/it]                                                        {'loss': 0.5014, 'learning_rate': 8.977358510579658e-06, 'epoch': 0.55}
 55%|█████▍    | 3630/6640 [2:03:37<13:33:05, 16.21s/it] 55%|█████▍    | 3631/6640 [2:03:53<13:20:25, 15.96s/it]                                                        {'loss': 0.5097, 'learning_rate': 8.972505958292242e-06, 'epoch': 0.55}
 55%|█████▍    | 3631/6640 [2:03:53<13:20:25, 15.96s/it] 55%|█████▍    | 3632/6640 [2:04:09<13:20:49, 15.97s/it]                                                        {'loss': 0.5161, 'learning_rate': 8.967653650520841e-06, 'epoch': 0.55}
 55%|█████▍    | 3632/6640 [2:04:09<13:20:49, 15.97s/it] 55%|█████▍    | 3633/6640 [2:04:25<13:24:43, 16.06s/it]                                                        {'loss': 0.5201, 'learning_rate': 8.96280158842018e-06, 'epoch': 0.55}
 55%|█████▍    | 3633/6640 [2:04:25<13:24:43, 16.06s/it] 55%|█████▍    | 3634/6640 [2:04:41<13:25:20, 16.07s/it]                                                        {'loss': 0.5209, 'learning_rate': 8.95794977314491e-06, 'epoch': 0.55}
 55%|█████▍    | 3634/6640 [2:04:41<13:25:20, 16.07s/it] 55%|█████▍    | 3635/6640 [2:04:58<13:31:38, 16.21s/it]                                                        {'loss': 0.5318, 'learning_rate': 8.953098205849647e-06, 'epoch': 0.55}
 55%|█████▍    | 3635/6640 [2:04:58<13:31:38, 16.21s/it] 55%|█████▍    | 3636/6640 [2:05:13<13:19:49, 15.98s/it]                                                        {'loss': 0.5139, 'learning_rate': 8.948246887688924e-06, 'epoch': 0.55}
 55%|█████▍    | 3636/6640 [2:05:13<13:19:49, 15.98s/it] 55%|█████▍    | 3637/6640 [2:05:29<13:18:48, 15.96s/it]                                                        {'loss': 0.5249, 'learning_rate': 8.943395819817226e-06, 'epoch': 0.55}
 55%|█████▍    | 3637/6640 [2:05:29<13:18:48, 15.96s/it] 55%|█████▍    | 3638/6640 [2:05:45<13:16:11, 15.91s/it]                                                        {'loss': 0.5227, 'learning_rate': 8.93854500338898e-06, 'epoch': 0.55}
 55%|█████▍    | 3638/6640 [2:05:45<13:16:11, 15.91s/it] 55%|█████▍    | 3639/6640 [2:06:00<13:11:43, 15.83s/it]                                                        {'loss': 0.5108, 'learning_rate': 8.933694439558542e-06, 'epoch': 0.55}
 55%|█████▍    | 3639/6640 [2:06:00<13:11:43, 15.83s/it] 55%|█████▍    | 3640/6640 [2:06:17<13:25:40, 16.11s/it]                                                        {'loss': 0.523, 'learning_rate': 8.928844129480228e-06, 'epoch': 0.55}
 55%|█████▍    | 3640/6640 [2:06:17<13:25:40, 16.11s/it] 55%|█████▍    | 3641/6640 [2:06:34<13:34:14, 16.29s/it]                                                        {'loss': 0.5224, 'learning_rate': 8.923994074308272e-06, 'epoch': 0.55}
 55%|█████▍    | 3641/6640 [2:06:34<13:34:14, 16.29s/it] 55%|█████▍    | 3642/6640 [2:06:50<13:23:20, 16.08s/it]                                                        {'loss': 0.5384, 'learning_rate': 8.919144275196864e-06, 'epoch': 0.55}
 55%|█████▍    | 3642/6640 [2:06:50<13:23:20, 16.08s/it] 55%|█████▍    | 3643/6640 [2:07:06<13:27:59, 16.18s/it]                                                        {'loss': 0.5358, 'learning_rate': 8.914294733300118e-06, 'epoch': 0.55}
 55%|█████▍    | 3643/6640 [2:07:06<13:27:59, 16.18s/it] 55%|█████▍    | 3644/6640 [2:07:24<13:54:04, 16.70s/it]                                                        {'loss': 0.537, 'learning_rate': 8.909445449772103e-06, 'epoch': 0.55}
 55%|█████▍    | 3644/6640 [2:07:24<13:54:04, 16.70s/it] 55%|█████▍    | 3645/6640 [2:07:41<13:52:56, 16.69s/it]                                                        {'loss': 0.5251, 'learning_rate': 8.904596425766817e-06, 'epoch': 0.55}
 55%|█████▍    | 3645/6640 [2:07:41<13:52:56, 16.69s/it] 55%|█████▍    | 3646/6640 [2:07:57<13:44:01, 16.51s/it]                                                        {'loss': 0.5191, 'learning_rate': 8.899747662438194e-06, 'epoch': 0.55}
 55%|█████▍    | 3646/6640 [2:07:57<13:44:01, 16.51s/it] 55%|█████▍    | 3647/6640 [2:08:13<13:37:49, 16.39s/it]                                                        {'loss': 0.5446, 'learning_rate': 8.89489916094011e-06, 'epoch': 0.55}
 55%|█████▍    | 3647/6640 [2:08:13<13:37:49, 16.39s/it] 55%|█████▍    | 3648/6640 [2:08:29<13:37:30, 16.39s/it]                                                        {'loss': 0.5372, 'learning_rate': 8.89005092242638e-06, 'epoch': 0.55}
 55%|█████▍    | 3648/6640 [2:08:29<13:37:30, 16.39s/it] 55%|█████▍    | 3649/6640 [2:08:45<13:26:19, 16.18s/it]                                                        {'loss': 0.5278, 'learning_rate': 8.885202948050754e-06, 'epoch': 0.55}
 55%|█████▍    | 3649/6640 [2:08:45<13:26:19, 16.18s/it]57 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
01 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 55%|█████▍    | 3650/6640 [2:09:01<13:26:34, 16.19s/it]                                                        {'loss': 0.5235, 'learning_rate': 8.880355238966923e-06, 'epoch': 0.55}
 55%|█████▍    | 3650/6640 [2:09:01<13:26:34, 16.19s/it] 55%|█████▍    | 3651/6640 [2:09:18<13:43:04, 16.52s/it]                                                        {'loss': 0.5554, 'learning_rate': 8.875507796328509e-06, 'epoch': 0.55}
 55%|█████▍    | 3651/6640 [2:09:18<13:43:04, 16.52s/it] 55%|█████▌    | 3652/6640 [2:09:35<13:45:27, 16.58s/it]                                                        {'loss': 0.5371, 'learning_rate': 8.870660621289067e-06, 'epoch': 0.55}
 55%|█████▌    | 3652/6640 [2:09:35<13:45:27, 16.58s/it] 55%|█████▌    | 3653/6640 [2:09:52<13:47:09, 16.62s/it]                                                        {'loss': 0.5345, 'learning_rate': 8.865813715002106e-06, 'epoch': 0.55}
 55%|█████▌    | 3653/6640 [2:09:52<13:47:09, 16.62s/it] 55%|█████▌    | 3654/6640 [2:10:08<13:40:39, 16.49s/it]                                                        {'loss': 0.5126, 'learning_rate': 8.860967078621056e-06, 'epoch': 0.55}
 55%|█████▌    | 3654/6640 [2:10:08<13:40:39, 16.49s/it] 55%|█████▌    | 3655/6640 [2:10:24<13:31:33, 16.31s/it]                                                        {'loss': 0.5284, 'learning_rate': 8.856120713299284e-06, 'epoch': 0.55}
 55%|█████▌    | 3655/6640 [2:10:24<13:31:33, 16.31s/it] 55%|█████▌    | 3656/6640 [2:10:40<13:32:39, 16.34s/it]                                                        {'loss': 0.538, 'learning_rate': 8.851274620190092e-06, 'epoch': 0.55}
 55%|█████▌    | 3656/6640 [2:10:40<13:32:39, 16.34s/it] 55%|█████▌    | 3657/6640 [2:10:58<13:59:17, 16.88s/it]                                                        {'loss': 0.5197, 'learning_rate': 8.846428800446725e-06, 'epoch': 0.55}
 55%|█████▌    | 3657/6640 [2:10:58<13:59:17, 16.88s/it] 55%|█████▌    | 3658/6640 [2:11:14<13:46:37, 16.63s/it]                                                        {'loss': 0.534, 'learning_rate': 8.841583255222359e-06, 'epoch': 0.55}
 55%|█████▌    | 3658/6640 [2:11:14<13:46:37, 16.63s/it] 55%|█████▌    | 3659/6640 [2:11:30<13:35:22, 16.41s/it]                                                        {'loss': 0.5304, 'learning_rate': 8.836737985670102e-06, 'epoch': 0.55}
 55%|█████▌    | 3659/6640 [2:11:30<13:35:22, 16.41s/it] 55%|█████▌    | 3660/6640 [2:11:46<13:27:46, 16.26s/it]                                                        {'loss': 0.5101, 'learning_rate': 8.831892992943e-06, 'epoch': 0.55}
 55%|█████▌    | 3660/6640 [2:11:46<13:27:46, 16.26s/it] 55%|█████▌    | 3661/6640 [2:12:03<13:32:12, 16.36s/it]                                                        {'loss': 0.5309, 'learning_rate': 8.827048278194023e-06, 'epoch': 0.55}
 55%|█████▌    | 3661/6640 [2:12:03<13:32:12, 16.36s/it] 55%|█████▌    | 3662/6640 [2:12:20<13:38:31, 16.49s/it]                                                        {'loss': 0.5476, 'learning_rate': 8.822203842576095e-06, 'epoch': 0.55}
 55%|█████▌    | 3662/6640 [2:12:20<13:38:31, 16.49s/it] 55%|█████▌    | 3663/6640 [2:12:36<13:39:17, 16.51s/it]                                                        {'loss': 0.5271, 'learning_rate': 8.817359687242055e-06, 'epoch': 0.55}
 55%|█████▌    | 3663/6640 [2:12:36<13:39:17, 16.51s/it] 55%|█████▌    | 3664/6640 [2:12:52<13:33:03, 16.39s/it]                                                        {'loss': 0.5318, 'learning_rate': 8.812515813344682e-06, 'epoch': 0.55}
 55%|█████▌    | 3664/6640 [2:12:52<13:33:03, 16.39s/it] 55%|█████▌    | 3665/6640 [2:13:09<13:31:52, 16.37s/it]                                                        {'loss': 0.5, 'learning_rate': 8.807672222036692e-06, 'epoch': 0.55}
 55%|█████▌    | 3665/6640 [2:13:09<13:31:52, 16.37s/it] 55%|█████▌    | 3666/6640 [2:13:24<13:22:32, 16.19s/it]                                                        {'loss': 0.5201, 'learning_rate': 8.802828914470722e-06, 'epoch': 0.55}
 55%|█████▌    | 3666/6640 [2:13:24<13:22:32, 16.19s/it] 55%|█████▌    | 3667/6640 [2:13:42<13:38:18, 16.51s/it]                                                        {'loss': 0.5184, 'learning_rate': 8.797985891799359e-06, 'epoch': 0.55}
 55%|█████▌    | 3667/6640 [2:13:42<13:38:18, 16.51s/it] 55%|█████▌    | 3668/6640 [2:13:58<13:34:58, 16.45s/it]                                                        {'loss': 0.5238, 'learning_rate': 8.793143155175108e-06, 'epoch': 0.55}
 55%|█████▌    | 3668/6640 [2:13:58<13:34:58, 16.45s/it] 55%|█████▌    | 3669/6640 [2:14:14<13:27:19, 16.30s/it]                                                        {'loss': 0.5182, 'learning_rate': 8.78830070575041e-06, 'epoch': 0.55}
 55%|█████▌    | 3669/6640 [2:14:14<13:27:19, 16.30s/it] 55%|█████▌    | 3670/6640 [2:14:30<13:24:47, 16.26s/it]                                                        {'loss': 0.5109, 'learning_rate': 8.783458544677633e-06, 'epoch': 0.55}
 55%|█████▌    | 3670/6640 [2:14:30<13:24:47, 16.26s/it] 55%|█████▌    | 3671/6640 [2:14:46<13:20:46, 16.18s/it]                                                        {'loss': 0.5043, 'learning_rate': 8.778616673109094e-06, 'epoch': 0.55}
 55%|█████▌    | 3671/6640 [2:14:46<13:20:46, 16.18s/it] 55%|█████▌    | 3672/6640 [2:15:03<13:30:04, 16.38s/it]                                                        {'loss': 0.5311, 'learning_rate': 8.773775092197018e-06, 'epoch': 0.55}
 55%|█████▌    | 3672/6640 [2:15:03<13:30:04, 16.38s/it] 55%|█████▌    | 3673/6640 [2:15:19<13:28:32, 16.35s/it]                                                        {'loss': 0.5124, 'learning_rate': 8.768933803093573e-06, 'epoch': 0.55}
 55%|█████▌    | 3673/6640 [2:15:19<13:28:32, 16.35s/it] 55%|█████▌    | 3674/6640 [2:15:36<13:29:54, 16.38s/it]                                                        {'loss': 0.5284, 'learning_rate': 8.76409280695086e-06, 'epoch': 0.55}
 55%|█████▌    | 3674/6640 [2:15:36<13:29:54, 16.38s/it] 55%|█████▌    | 3675/6640 [2:15:53<13:40:45, 16.61s/it]                                                        {'loss': 0.519, 'learning_rate': 8.7592521049209e-06, 'epoch': 0.55}
 55%|█████▌    | 3675/6640 [2:15:53<13:40:45, 16.61s/it] 55%|█████▌    | 3676/6640 [2:16:10<13:50:10, 16.81s/it]                                                        {'loss': 0.5286, 'learning_rate': 8.754411698155659e-06, 'epoch': 0.55}
 55%|█████▌    | 3676/6640 [2:16:10<13:50:10, 16.81s/it] 55%|█████▌    | 3677/6640 [2:16:26<13:30:16, 16.41s/it]                                                        {'loss': 0.5187, 'learning_rate': 8.749571587807017e-06, 'epoch': 0.55}
 55%|█████▌    | 3677/6640 [2:16:26<13:30:16, 16.41s/it] 55%|█████▌    | 3678/6640 [2:16:42<13:28:17, 16.37s/it]                                                        {'loss': 0.5166, 'learning_rate': 8.744731775026794e-06, 'epoch': 0.55}
 55%|█████▌    | 3678/6640 [2:16:42<13:28:17, 16.37s/it] 55%|█████▌    | 3679/6640 [2:16:58<13:29:28, 16.40s/it]                                                        {'loss': 0.5293, 'learning_rate': 8.73989226096673e-06, 'epoch': 0.55}
 55%|█████▌    | 3679/6640 [2:16:58<13:29:28, 16.40s/it] 55%|█████▌    | 3680/6640 [2:17:15<13:29:10, 16.40s/it]                                                        {'loss': 0.5332, 'learning_rate': 8.735053046778506e-06, 'epoch': 0.55}
 55%|█████▌    | 3680/6640 [2:17:15<13:29:10, 16.40s/it] 55%|█████▌    | 3681/6640 [2:17:31<13:26:30, 16.35s/it]                                                        {'loss': 0.5194, 'learning_rate': 8.730214133613725e-06, 'epoch': 0.55}
 55%|█████▌    | 3681/6640 [2:17:31<13:26:30, 16.35s/it] 55%|█████▌    | 3682/6640 [2:17:47<13:25:29, 16.34s/it]                                                        {'loss': 0.5307, 'learning_rate': 8.725375522623912e-06, 'epoch': 0.55}
 55%|█████▌    | 3682/6640 [2:17:47<13:25:29, 16.34s/it] 55%|█████▌    | 3683/6640 [2:18:03<13:18:50, 16.21s/it]                                                        {'loss': 0.5421, 'learning_rate': 8.720537214960533e-06, 'epoch': 0.55}
 55%|█████▌    | 3683/6640 [2:18:03<13:18:50, 16.21s/it] 55%|█████▌    | 3684/6640 [2:18:19<13:18:33, 16.21s/it]                                                        {'loss': 0.5139, 'learning_rate': 8.71569921177497e-06, 'epoch': 0.55}
 55%|█████▌    | 3684/6640 [2:18:19<13:18:33, 16.21s/it] 55%|█████▌    | 3685/6640 [2:18:35<13:14:44, 16.14s/it]                                                        {'loss': 0.507, 'learning_rate': 8.710861514218545e-06, 'epoch': 0.55}
 55%|█████▌    | 3685/6640 [2:18:35<13:14:44, 16.14s/it] 56%|█████▌    | 3686/6640 [2:18:51<13:14:53, 16.15s/it]                                                        {'loss': 0.5163, 'learning_rate': 8.706024123442497e-06, 'epoch': 0.56}
 56%|█████▌    | 3686/6640 [2:18:51<13:14:53, 16.15s/it] 56%|█████▌    | 3687/6640 [2:19:08<13:20:04, 16.26s/it]                                                        {'loss': 0.5222, 'learning_rate': 8.701187040597994e-06, 'epoch': 0.56}
 56%|█████▌    | 3687/6640 [2:19:08<13:20:04, 16.26s/it] 56%|█████▌    | 3688/6640 [2:19:24<13:19:59, 16.26s/it]                                                        {'loss': 0.5149, 'learning_rate': 8.69635026683613e-06, 'epoch': 0.56}
 56%|█████▌    | 3688/6640 [2:19:24<13:19:59, 16.26s/it] 56%|█████▌    | 3689/6640 [2:19:41<13:26:58, 16.41s/it]                                                        {'loss': 0.5405, 'learning_rate': 8.691513803307933e-06, 'epoch': 0.56}
 56%|█████▌    | 3689/6640 [2:19:41<13:26:58, 16.41s/it] 56%|█████▌    | 3690/6640 [2:19:57<13:26:37, 16.41s/it]                                                        {'loss': 0.5388, 'learning_rate': 8.686677651164345e-06, 'epoch': 0.56}
 56%|█████▌    | 3690/6640 [2:19:57<13:26:37, 16.41s/it] 56%|█████▌    | 3691/6640 [2:20:14<13:24:10, 16.36s/it]                                                        {'loss': 0.5243, 'learning_rate': 8.681841811556249e-06, 'epoch': 0.56}
 56%|█████▌    | 3691/6640 [2:20:14<13:24:10, 16.36s/it] 56%|█████▌    | 3692/6640 [2:20:30<13:28:12, 16.45s/it]                                                        {'loss': 0.5241, 'learning_rate': 8.677006285634438e-06, 'epoch': 0.56}
 56%|█████▌    | 3692/6640 [2:20:30<13:28:12, 16.45s/it] 56%|█████▌    | 3693/6640 [2:20:46<13:21:38, 16.32s/it]                                                        {'loss': 0.525, 'learning_rate': 8.672171074549637e-06, 'epoch': 0.56}
 56%|█████▌    | 3693/6640 [2:20:46<13:21:38, 16.32s/it] 56%|█████▌    | 3694/6640 [2:21:02<13:17:25, 16.24s/it]                                                        {'loss': 0.5467, 'learning_rate': 8.667336179452503e-06, 'epoch': 0.56}
 56%|█████▌    | 3694/6640 [2:21:02<13:17:25, 16.24s/it] 56%|█████▌    | 3695/6640 [2:21:20<13:31:18, 16.53s/it]                                                        {'loss': 0.5223, 'learning_rate': 8.662501601493607e-06, 'epoch': 0.56}
 56%|█████▌    | 3695/6640 [2:21:20<13:31:18, 16.53s/it] 56%|█████▌    | 3696/6640 [2:21:36<13:32:45, 16.56s/it]                                                        {'loss': 0.5163, 'learning_rate': 8.657667341823449e-06, 'epoch': 0.56}
 56%|█████▌    | 3696/6640 [2:21:36<13:32:45, 16.56s/it] 56%|█████▌    | 3697/6640 [2:21:53<13:29:47, 16.51s/it]                                                        {'loss': 0.5272, 'learning_rate': 8.65283340159245e-06, 'epoch': 0.56}
 56%|█████▌    | 3697/6640 [2:21:53<13:29:47, 16.51s/it] 56%|█████▌    | 3698/6640 [2:22:09<13:22:02, 16.36s/it]                                                        {'loss': 0.5059, 'learning_rate': 8.647999781950964e-06, 'epoch': 0.56}
 56%|█████▌    | 3698/6640 [2:22:09<13:22:02, 16.36s/it] 56%|█████▌    | 3699/6640 [2:22:24<13:08:39, 16.09s/it]                                                        {'loss': 0.5071, 'learning_rate': 8.64316648404926e-06, 'epoch': 0.56}
 56%|█████▌    | 3699/6640 [2:22:24<13:08:39, 16.09s/it]4 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
03 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 56%|█████▌    | 3700/6640 [2:22:40<13:12:28, 16.17s/it]6 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5226, 'learning_rate': 8.638333509037537e-06, 'epoch': 0.56}
 56%|█████▌    | 3700/6640 [2:22:40<13:12:28, 16.17s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3700/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3700/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3700/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 56%|█████▌    | 3701/6640 [2:24:27<35:22:37, 43.33s/it]                                                        {'loss': 0.5422, 'learning_rate': 8.633500858065907e-06, 'epoch': 0.56}
 56%|█████▌    | 3701/6640 [2:24:27<35:22:37, 43.33s/it] 56%|█████▌    | 3702/6640 [2:24:44<28:50:41, 35.34s/it]                                                        {'loss': 0.5359, 'learning_rate': 8.628668532284411e-06, 'epoch': 0.56}
 56%|█████▌    | 3702/6640 [2:24:44<28:50:41, 35.34s/it] 56%|█████▌    | 3703/6640 [2:25:00<24:12:16, 29.67s/it]                                                        {'loss': 0.5196, 'learning_rate': 8.623836532843022e-06, 'epoch': 0.56}
 56%|█████▌    | 3703/6640 [2:25:00<24:12:16, 29.67s/it] 56%|█████▌    | 3704/6640 [2:25:16<20:48:33, 25.52s/it]                                                        {'loss': 0.5426, 'learning_rate': 8.619004860891618e-06, 'epoch': 0.56}
 56%|█████▌    | 3704/6640 [2:25:16<20:48:33, 25.52s/it] 56%|█████▌    | 3705/6640 [2:25:33<18:38:24, 22.86s/it]                                                        {'loss': 0.5081, 'learning_rate': 8.61417351758001e-06, 'epoch': 0.56}
 56%|█████▌    | 3705/6640 [2:25:33<18:38:24, 22.86s/it] 56%|█████▌    | 3706/6640 [2:25:49<16:56:24, 20.79s/it]                                                        {'loss': 0.5023, 'learning_rate': 8.609342504057927e-06, 'epoch': 0.56}
 56%|█████▌    | 3706/6640 [2:25:49<16:56:24, 20.79s/it] 56%|█████▌    | 3707/6640 [2:26:06<16:01:15, 19.66s/it]                                                        {'loss': 0.5134, 'learning_rate': 8.604511821475021e-06, 'epoch': 0.56}
 56%|█████▌    | 3707/6640 [2:26:06<16:01:15, 19.66s/it] 56%|█████▌    | 3708/6640 [2:26:23<15:28:50, 19.01s/it]                                                        {'loss': 0.5084, 'learning_rate': 8.599681470980867e-06, 'epoch': 0.56}
 56%|█████▌    | 3708/6640 [2:26:23<15:28:50, 19.01s/it] 56%|█████▌    | 3709/6640 [2:26:39<14:40:55, 18.03s/it]                                                        {'loss': 0.5202, 'learning_rate': 8.594851453724959e-06, 'epoch': 0.56}
 56%|█████▌    | 3709/6640 [2:26:39<14:40:55, 18.03s/it] 56%|█████▌    | 3710/6640 [2:26:57<14:39:42, 18.01s/it]                                                        {'loss': 0.5448, 'learning_rate': 8.590021770856708e-06, 'epoch': 0.56}
 56%|█████▌    | 3710/6640 [2:26:57<14:39:42, 18.01s/it] 56%|█████▌    | 3711/6640 [2:27:13<14:15:57, 17.53s/it]                                                        {'loss': 0.5171, 'learning_rate': 8.585192423525447e-06, 'epoch': 0.56}
 56%|█████▌    | 3711/6640 [2:27:13<14:15:57, 17.53s/it] 56%|█████▌    | 3712/6640 [2:27:31<14:14:38, 17.51s/it]                                                        {'loss': 0.527, 'learning_rate': 8.580363412880439e-06, 'epoch': 0.56}
 56%|█████▌    | 3712/6640 [2:27:31<14:14:38, 17.51s/it] 56%|█████▌    | 3713/6640 [2:27:47<13:57:55, 17.18s/it]                                                        {'loss': 0.5201, 'learning_rate': 8.575534740070854e-06, 'epoch': 0.56}
 56%|█████▌    | 3713/6640 [2:27:47<13:57:55, 17.18s/it] 56%|█████▌    | 3714/6640 [2:28:03<13:42:11, 16.86s/it]                                                        {'loss': 0.5098, 'learning_rate': 8.570706406245787e-06, 'epoch': 0.56}
 56%|█████▌    | 3714/6640 [2:28:03<13:42:11, 16.86s/it] 56%|█████▌    | 3715/6640 [2:28:20<13:42:04, 16.86s/it]                                                        {'loss': 0.5017, 'learning_rate': 8.565878412554251e-06, 'epoch': 0.56}
 56%|█████▌    | 3715/6640 [2:28:20<13:42:04, 16.86s/it] 56%|█████▌    | 3716/6640 [2:28:37<13:35:37, 16.74s/it]                                                        {'loss': 0.5175, 'learning_rate': 8.56105076014518e-06, 'epoch': 0.56}
 56%|█████▌    | 3716/6640 [2:28:37<13:35:37, 16.74s/it] 56%|█████▌    | 3717/6640 [2:28:53<13:27:40, 16.58s/it]                                                        {'loss': 0.5164, 'learning_rate': 8.55622345016743e-06, 'epoch': 0.56}
 56%|█████▌    | 3717/6640 [2:28:53<13:27:40, 16.58s/it] 56%|█████▌    | 3718/6640 [2:29:09<13:24:02, 16.51s/it]                                                        {'loss': 0.5129, 'learning_rate': 8.551396483769766e-06, 'epoch': 0.56}
 56%|█████▌    | 3718/6640 [2:29:09<13:24:02, 16.51s/it] 56%|█████▌    | 3719/6640 [2:29:26<13:21:40, 16.47s/it]                                                        {'loss': 0.544, 'learning_rate': 8.546569862100876e-06, 'epoch': 0.56}
 56%|█████▌    | 3719/6640 [2:29:26<13:21:40, 16.47s/it] 56%|█████▌    | 3720/6640 [2:29:42<13:19:52, 16.44s/it]                                                        {'loss': 0.5329, 'learning_rate': 8.541743586309366e-06, 'epoch': 0.56}
 56%|█████▌    | 3720/6640 [2:29:42<13:19:52, 16.44s/it] 56%|█████▌    | 3721/6640 [2:29:58<13:15:39, 16.35s/it]                                                        {'loss': 0.5222, 'learning_rate': 8.536917657543767e-06, 'epoch': 0.56}
 56%|█████▌    | 3721/6640 [2:29:58<13:15:39, 16.35s/it] 56%|█████▌    | 3722/6640 [2:30:14<13:10:31, 16.25s/it]                                                        {'loss': 0.5306, 'learning_rate': 8.532092076952515e-06, 'epoch': 0.56}
 56%|█████▌    | 3722/6640 [2:30:14<13:10:31, 16.25s/it] 56%|█████▌    | 3723/6640 [2:30:30<13:06:03, 16.17s/it]                                                        {'loss': 0.512, 'learning_rate': 8.527266845683968e-06, 'epoch': 0.56}
 56%|█████▌    | 3723/6640 [2:30:30<13:06:03, 16.17s/it] 56%|█████▌    | 3724/6640 [2:30:47<13:15:07, 16.36s/it]                                                        {'loss': 0.5139, 'learning_rate': 8.522441964886403e-06, 'epoch': 0.56}
 56%|█████▌    | 3724/6640 [2:30:47<13:15:07, 16.36s/it] 56%|█████▌    | 3725/6640 [2:31:03<13:13:35, 16.33s/it]                                                        {'loss': 0.5133, 'learning_rate': 8.517617435708011e-06, 'epoch': 0.56}
 56%|█████▌    | 3725/6640 [2:31:03<13:13:35, 16.33s/it] 56%|█████▌    | 3726/6640 [2:31:19<13:04:44, 16.16s/it]                                                        {'loss': 0.5382, 'learning_rate': 8.512793259296907e-06, 'epoch': 0.56}
 56%|█████▌    | 3726/6640 [2:31:19<13:04:44, 16.16s/it] 56%|█████▌    | 3727/6640 [2:31:36<13:09:55, 16.27s/it]                                                        {'loss': 0.5191, 'learning_rate': 8.50796943680111e-06, 'epoch': 0.56}
 56%|█████▌    | 3727/6640 [2:31:36<13:09:55, 16.27s/it] 56%|█████▌    | 3728/6640 [2:31:52<13:15:52, 16.40s/it]                                                        {'loss': 0.5314, 'learning_rate': 8.503145969368562e-06, 'epoch': 0.56}
 56%|█████▌    | 3728/6640 [2:31:52<13:15:52, 16.40s/it] 56%|█████▌    | 3729/6640 [2:32:08<13:12:17, 16.33s/it]                                                        {'loss': 0.5285, 'learning_rate': 8.49832285814711e-06, 'epoch': 0.56}
 56%|█████▌    | 3729/6640 [2:32:08<13:12:17, 16.33s/it] 56%|█████▌    | 3730/6640 [2:32:25<13:11:47, 16.33s/it]                                                        {'loss': 0.5383, 'learning_rate': 8.493500104284539e-06, 'epoch': 0.56}
 56%|█████▌    | 3730/6640 [2:32:25<13:11:47, 16.33s/it] 56%|█████▌    | 3731/6640 [2:32:41<13:17:59, 16.46s/it]                                                        {'loss': 0.5331, 'learning_rate': 8.488677708928529e-06, 'epoch': 0.56}
 56%|█████▌    | 3731/6640 [2:32:41<13:17:59, 16.46s/it] 56%|█████▌    | 3732/6640 [2:32:57<13:07:46, 16.25s/it]                                                        {'loss': 0.531, 'learning_rate': 8.483855673226681e-06, 'epoch': 0.56}
 56%|█████▌    | 3732/6640 [2:32:57<13:07:46, 16.25s/it] 56%|█████▌    | 3733/6640 [2:33:13<13:05:35, 16.21s/it]                                                        {'loss': 0.5264, 'learning_rate': 8.479033998326504e-06, 'epoch': 0.56}
 56%|█████▌    | 3733/6640 [2:33:13<13:05:35, 16.21s/it] 56%|█████▌    | 3734/6640 [2:33:30<13:12:11, 16.36s/it]                                                        {'loss': 0.5365, 'learning_rate': 8.474212685375441e-06, 'epoch': 0.56}
 56%|█████▌    | 3734/6640 [2:33:30<13:12:11, 16.36s/it] 56%|█████▋    | 3735/6640 [2:33:46<13:03:19, 16.18s/it]                                                        {'loss': 0.4991, 'learning_rate': 8.469391735520824e-06, 'epoch': 0.56}
 56%|█████▋    | 3735/6640 [2:33:46<13:03:19, 16.18s/it] 56%|█████▋    | 3736/6640 [2:34:03<13:21:00, 16.55s/it]                                                        {'loss': 0.5219, 'learning_rate': 8.464571149909915e-06, 'epoch': 0.56}
 56%|█████▋    | 3736/6640 [2:34:03<13:21:00, 16.55s/it] 56%|█████▋    | 3737/6640 [2:34:19<13:15:01, 16.43s/it]                                                        {'loss': 0.5255, 'learning_rate': 8.459750929689881e-06, 'epoch': 0.56}
 56%|█████▋    | 3737/6640 [2:34:19<13:15:01, 16.43s/it] 56%|█████▋    | 3738/6640 [2:34:36<13:19:17, 16.53s/it]                                                        {'loss': 0.5085, 'learning_rate': 8.454931076007803e-06, 'epoch': 0.56}
 56%|█████▋    | 3738/6640 [2:34:36<13:19:17, 16.53s/it] 56%|█████▋    | 3739/6640 [2:34:52<13:14:12, 16.43s/it]                                                        {'loss': 0.5333, 'learning_rate': 8.450111590010682e-06, 'epoch': 0.56}
 56%|█████▋    | 3739/6640 [2:34:52<13:14:12, 16.43s/it] 56%|█████▋    | 3740/6640 [2:35:10<13:29:14, 16.74s/it]                                                        {'loss': 0.5379, 'learning_rate': 8.445292472845423e-06, 'epoch': 0.56}
 56%|█████▋    | 3740/6640 [2:35:10<13:29:14, 16.74s/it] 56%|█████▋    | 3741/6640 [2:35:25<13:12:50, 16.41s/it]                                                        {'loss': 0.5274, 'learning_rate': 8.440473725658851e-06, 'epoch': 0.56}
 56%|█████▋    | 3741/6640 [2:35:25<13:12:50, 16.41s/it] 56%|█████▋    | 3742/6640 [2:35:41<12:59:51, 16.15s/it]                                                        {'loss': 0.5343, 'learning_rate': 8.43565534959769e-06, 'epoch': 0.56}
 56%|█████▋    | 3742/6640 [2:35:41<12:59:51, 16.15s/it] 56%|█████▋    | 3743/6640 [2:35:57<12:54:15, 16.04s/it]                                                        {'loss': 0.507, 'learning_rate': 8.430837345808596e-06, 'epoch': 0.56}
 56%|█████▋    | 3743/6640 [2:35:57<12:54:15, 16.04s/it] 56%|█████▋    | 3744/6640 [2:36:13<12:56:45, 16.09s/it]                                                        {'loss': 0.5234, 'learning_rate': 8.426019715438116e-06, 'epoch': 0.56}
 56%|█████▋    | 3744/6640 [2:36:13<12:56:45, 16.09s/it] 56%|█████▋    | 3745/6640 [2:36:29<12:58:02, 16.13s/it]                                                        {'loss': 0.5514, 'learning_rate': 8.42120245963272e-06, 'epoch': 0.56}
 56%|█████▋    | 3745/6640 [2:36:29<12:58:02, 16.13s/it] 56%|█████▋    | 3746/6640 [2:36:46<13:08:13, 16.34s/it]                                                        {'loss': 0.51, 'learning_rate': 8.416385579538787e-06, 'epoch': 0.56}
 56%|█████▋    | 3746/6640 [2:36:46<13:08:13, 16.34s/it] 56%|█████▋    | 3747/6640 [2:37:02<13:01:12, 16.20s/it]                                                        {'loss': 0.5157, 'learning_rate': 8.411569076302598e-06, 'epoch': 0.56}
 56%|█████▋    | 3747/6640 [2:37:02<13:01:12, 16.20s/it] 56%|█████▋    | 3748/6640 [2:37:18<12:58:45, 16.16s/it]                                                        {'loss': 0.5236, 'learning_rate': 8.40675295107036e-06, 'epoch': 0.56}
 56%|█████▋    | 3748/6640 [2:37:18<12:58:45, 16.16s/it] 56%|█████▋    | 3749/6640 [2:37:35<13:04:39, 16.29s/it]                                                        {'loss': 0.5296, 'learning_rate': 8.401937204988175e-06, 'epoch': 0.56}
 56%|█████▋    | 3749/6640 [2:37:35<13:04:39, 16.29s/it]4 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...0
 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
 56%|█████▋    | 3750/6640 [2:37:51<13:06:57, 16.34s/it]6 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5308, 'learning_rate': 8.397121839202069e-06, 'epoch': 0.56}
 56%|█████▋    | 3750/6640 [2:37:51<13:06:57, 16.34s/it] 56%|█████▋    | 3751/6640 [2:38:07<13:00:36, 16.21s/it]                                                        {'loss': 0.5195, 'learning_rate': 8.392306854857962e-06, 'epoch': 0.56}
 56%|█████▋    | 3751/6640 [2:38:07<13:00:36, 16.21s/it] 57%|█████▋    | 3752/6640 [2:38:23<13:01:07, 16.23s/it]                                                        {'loss': 0.5221, 'learning_rate': 8.387492253101695e-06, 'epoch': 0.57}
 57%|█████▋    | 3752/6640 [2:38:23<13:01:07, 16.23s/it] 57%|█████▋    | 3753/6640 [2:38:40<13:10:53, 16.44s/it]                                                        {'loss': 0.5384, 'learning_rate': 8.382678035079017e-06, 'epoch': 0.57}
 57%|█████▋    | 3753/6640 [2:38:40<13:10:53, 16.44s/it] 57%|█████▋    | 3754/6640 [2:38:57<13:11:03, 16.45s/it]                                                        {'loss': 0.5135, 'learning_rate': 8.377864201935578e-06, 'epoch': 0.57}
 57%|█████▋    | 3754/6640 [2:38:57<13:11:03, 16.45s/it] 57%|█████▋    | 3755/6640 [2:39:15<13:34:28, 16.94s/it]                                                        {'loss': 0.5239, 'learning_rate': 8.373050754816942e-06, 'epoch': 0.57}
 57%|█████▋    | 3755/6640 [2:39:15<13:34:28, 16.94s/it] 57%|█████▋    | 3756/6640 [2:39:31<13:22:08, 16.69s/it]                                                        {'loss': 0.5047, 'learning_rate': 8.36823769486858e-06, 'epoch': 0.57}
 57%|█████▋    | 3756/6640 [2:39:31<13:22:08, 16.69s/it] 57%|█████▋    | 3757/6640 [2:39:46<13:04:38, 16.33s/it]                                                        {'loss': 0.5192, 'learning_rate': 8.36342502323587e-06, 'epoch': 0.57}
 57%|█████▋    | 3757/6640 [2:39:46<13:04:38, 16.33s/it] 57%|█████▋    | 3758/6640 [2:40:03<13:07:01, 16.38s/it]                                                        {'loss': 0.5212, 'learning_rate': 8.358612741064105e-06, 'epoch': 0.57}
 57%|█████▋    | 3758/6640 [2:40:03<13:07:01, 16.38s/it] 57%|█████▋    | 3759/6640 [2:40:20<13:12:54, 16.51s/it]                                                        {'loss': 0.528, 'learning_rate': 8.353800849498475e-06, 'epoch': 0.57}
 57%|█████▋    | 3759/6640 [2:40:20<13:12:54, 16.51s/it] 57%|█████▋    | 3760/6640 [2:40:37<13:27:04, 16.81s/it]                                                        {'loss': 0.5116, 'learning_rate': 8.348989349684077e-06, 'epoch': 0.57}
 57%|█████▋    | 3760/6640 [2:40:37<13:27:04, 16.81s/it] 57%|█████▋    | 3761/6640 [2:40:52<13:04:04, 16.34s/it]                                                        {'loss': 0.5242, 'learning_rate': 8.344178242765926e-06, 'epoch': 0.57}
 57%|█████▋    | 3761/6640 [2:40:52<13:04:04, 16.34s/it] 57%|█████▋    | 3762/6640 [2:41:08<12:55:22, 16.16s/it]                                                        {'loss': 0.5284, 'learning_rate': 8.339367529888934e-06, 'epoch': 0.57}
 57%|█████▋    | 3762/6640 [2:41:08<12:55:22, 16.16s/it] 57%|█████▋    | 3763/6640 [2:41:24<12:55:38, 16.18s/it]                                                        {'loss': 0.5441, 'learning_rate': 8.33455721219792e-06, 'epoch': 0.57}
 57%|█████▋    | 3763/6640 [2:41:24<12:55:38, 16.18s/it] 57%|█████▋    | 3764/6640 [2:41:41<12:59:47, 16.27s/it]                                                        {'loss': 0.5211, 'learning_rate': 8.32974729083761e-06, 'epoch': 0.57}
 57%|█████▋    | 3764/6640 [2:41:41<12:59:47, 16.27s/it] 57%|█████▋    | 3765/6640 [2:41:57<13:05:15, 16.39s/it]                                                        {'loss': 0.5171, 'learning_rate': 8.324937766952638e-06, 'epoch': 0.57}
 57%|█████▋    | 3765/6640 [2:41:57<13:05:15, 16.39s/it] 57%|█████▋    | 3766/6640 [2:42:14<13:08:00, 16.45s/it]                                                        {'loss': 0.5005, 'learning_rate': 8.32012864168754e-06, 'epoch': 0.57}
 57%|█████▋    | 3766/6640 [2:42:14<13:08:00, 16.45s/it] 57%|█████▋    | 3767/6640 [2:42:30<13:02:43, 16.35s/it]                                                        {'loss': 0.5169, 'learning_rate': 8.315319916186762e-06, 'epoch': 0.57}
 57%|█████▋    | 3767/6640 [2:42:30<13:02:43, 16.35s/it] 57%|█████▋    | 3768/6640 [2:42:46<13:00:31, 16.31s/it]                                                        {'loss': 0.512, 'learning_rate': 8.31051159159465e-06, 'epoch': 0.57}
 57%|█████▋    | 3768/6640 [2:42:46<13:00:31, 16.31s/it] 57%|█████▋    | 3769/6640 [2:43:02<12:57:29, 16.25s/it]                                                        {'loss': 0.52, 'learning_rate': 8.305703669055454e-06, 'epoch': 0.57}
 57%|█████▋    | 3769/6640 [2:43:02<12:57:29, 16.25s/it] 57%|█████▋    | 3770/6640 [2:43:19<12:55:58, 16.22s/it]                                                        {'loss': 0.5086, 'learning_rate': 8.300896149713334e-06, 'epoch': 0.57}
 57%|█████▋    | 3770/6640 [2:43:19<12:55:58, 16.22s/it] 57%|█████▋    | 3771/6640 [2:43:36<13:07:33, 16.47s/it]                                                        {'loss': 0.5419, 'learning_rate': 8.296089034712352e-06, 'epoch': 0.57}
 57%|█████▋    | 3771/6640 [2:43:36<13:07:33, 16.47s/it] 57%|█████▋    | 3772/6640 [2:43:52<13:03:31, 16.39s/it]                                                        {'loss': 0.5401, 'learning_rate': 8.291282325196464e-06, 'epoch': 0.57}
 57%|█████▋    | 3772/6640 [2:43:52<13:03:31, 16.39s/it] 57%|█████▋    | 3773/6640 [2:44:08<13:01:30, 16.36s/it]                                                        {'loss': 0.5084, 'learning_rate': 8.286476022309549e-06, 'epoch': 0.57}
 57%|█████▋    | 3773/6640 [2:44:08<13:01:30, 16.36s/it] 57%|█████▋    | 3774/6640 [2:44:24<12:56:52, 16.26s/it]                                                        {'loss': 0.5388, 'learning_rate': 8.281670127195365e-06, 'epoch': 0.57}
 57%|█████▋    | 3774/6640 [2:44:24<12:56:52, 16.26s/it] 57%|█████▋    | 3775/6640 [2:44:40<12:49:19, 16.11s/it]                                                        {'loss': 0.5424, 'learning_rate': 8.276864640997602e-06, 'epoch': 0.57}
 57%|█████▋    | 3775/6640 [2:44:40<12:49:19, 16.11s/it] 57%|█████▋    | 3776/6640 [2:44:57<13:00:37, 16.35s/it]                                                        {'loss': 0.4936, 'learning_rate': 8.272059564859826e-06, 'epoch': 0.57}
 57%|█████▋    | 3776/6640 [2:44:57<13:00:37, 16.35s/it] 57%|█████▋    | 3777/6640 [2:45:12<12:47:33, 16.09s/it]                                                        {'loss': 0.5457, 'learning_rate': 8.26725489992552e-06, 'epoch': 0.57}
 57%|█████▋    | 3777/6640 [2:45:12<12:47:33, 16.09s/it] 57%|█████▋    | 3778/6640 [2:45:29<12:49:51, 16.14s/it]                                                        {'loss': 0.5473, 'learning_rate': 8.262450647338058e-06, 'epoch': 0.57}
 57%|█████▋    | 3778/6640 [2:45:29<12:49:51, 16.14s/it] 57%|█████▋    | 3779/6640 [2:45:45<12:53:58, 16.23s/it]                                                        {'loss': 0.5176, 'learning_rate': 8.257646808240735e-06, 'epoch': 0.57}
 57%|█████▋    | 3779/6640 [2:45:45<12:53:58, 16.23s/it] 57%|█████▋    | 3780/6640 [2:46:01<12:55:29, 16.27s/it]                                                        {'loss': 0.5287, 'learning_rate': 8.252843383776731e-06, 'epoch': 0.57}
 57%|█████▋    | 3780/6640 [2:46:01<12:55:29, 16.27s/it] 57%|█████▋    | 3781/6640 [2:46:18<12:57:02, 16.31s/it]                                                        {'loss': 0.5187, 'learning_rate': 8.248040375089129e-06, 'epoch': 0.57}
 57%|█████▋    | 3781/6640 [2:46:18<12:57:02, 16.31s/it] 57%|█████▋    | 3782/6640 [2:46:34<12:48:09, 16.13s/it]                                                        {'loss': 0.5245, 'learning_rate': 8.243237783320922e-06, 'epoch': 0.57}
 57%|█████▋    | 3782/6640 [2:46:34<12:48:09, 16.13s/it] 57%|█████▋    | 3783/6640 [2:46:51<13:02:05, 16.42s/it]                                                        {'loss': 0.5254, 'learning_rate': 8.238435609614987e-06, 'epoch': 0.57}
 57%|█████▋    | 3783/6640 [2:46:51<13:02:05, 16.42s/it] 57%|█████▋    | 3784/6640 [2:47:06<12:53:22, 16.25s/it]                                                        {'loss': 0.5233, 'learning_rate': 8.233633855114127e-06, 'epoch': 0.57}
 57%|█████▋    | 3784/6640 [2:47:06<12:53:22, 16.25s/it] 57%|█████▋    | 3785/6640 [2:47:23<12:50:45, 16.20s/it]                                                        {'loss': 0.5143, 'learning_rate': 8.228832520961023e-06, 'epoch': 0.57}
 57%|█████▋    | 3785/6640 [2:47:23<12:50:45, 16.20s/it] 57%|█████▋    | 3786/6640 [2:47:39<12:48:18, 16.15s/it]                                                        {'loss': 0.537, 'learning_rate': 8.224031608298266e-06, 'epoch': 0.57}
 57%|█████▋    | 3786/6640 [2:47:39<12:48:18, 16.15s/it] 57%|█████▋    | 3787/6640 [2:47:55<12:57:48, 16.36s/it]                                                        {'loss': 0.4997, 'learning_rate': 8.219231118268336e-06, 'epoch': 0.57}
 57%|█████▋    | 3787/6640 [2:47:55<12:57:48, 16.36s/it] 57%|█████▋    | 3788/6640 [2:48:13<13:10:10, 16.62s/it]                                                        {'loss': 0.5211, 'learning_rate': 8.214431052013636e-06, 'epoch': 0.57}
 57%|█████▋    | 3788/6640 [2:48:13<13:10:10, 16.62s/it] 57%|█████▋    | 3789/6640 [2:48:29<13:07:50, 16.58s/it]                                                        {'loss': 0.5258, 'learning_rate': 8.209631410676442e-06, 'epoch': 0.57}
 57%|█████▋    | 3789/6640 [2:48:29<13:07:50, 16.58s/it] 57%|█████▋    | 3790/6640 [2:48:45<12:53:40, 16.29s/it]                                                        {'loss': 0.5408, 'learning_rate': 8.204832195398941e-06, 'epoch': 0.57}
 57%|█████▋    | 3790/6640 [2:48:45<12:53:40, 16.29s/it] 57%|█████▋    | 3791/6640 [2:49:03<13:16:23, 16.77s/it]                                                        {'loss': 0.5132, 'learning_rate': 8.200033407323223e-06, 'epoch': 0.57}
 57%|█████▋    | 3791/6640 [2:49:03<13:16:23, 16.77s/it] 57%|█████▋    | 3792/6640 [2:49:19<13:03:32, 16.51s/it]                                                        {'loss': 0.5376, 'learning_rate': 8.195235047591261e-06, 'epoch': 0.57}
 57%|█████▋    | 3792/6640 [2:49:19<13:03:32, 16.51s/it] 57%|█████▋    | 3793/6640 [2:49:35<12:58:53, 16.42s/it]                                                        {'loss': 0.5223, 'learning_rate': 8.190437117344948e-06, 'epoch': 0.57}
 57%|█████▋    | 3793/6640 [2:49:35<12:58:53, 16.42s/it] 57%|█████▋    | 3794/6640 [2:49:52<13:04:58, 16.55s/it]                                                        {'loss': 0.5273, 'learning_rate': 8.185639617726056e-06, 'epoch': 0.57}
 57%|█████▋    | 3794/6640 [2:49:52<13:04:58, 16.55s/it] 57%|█████▋    | 3795/6640 [2:50:09<13:11:37, 16.70s/it]                                                        {'loss': 0.5247, 'learning_rate': 8.18084254987626e-06, 'epoch': 0.57}
 57%|█████▋    | 3795/6640 [2:50:09<13:11:37, 16.70s/it] 57%|█████▋    | 3796/6640 [2:50:25<13:06:30, 16.59s/it]                                                        {'loss': 0.5278, 'learning_rate': 8.176045914937133e-06, 'epoch': 0.57}
 57%|█████▋    | 3796/6640 [2:50:25<13:06:30, 16.59s/it] 57%|█████▋    | 3797/6640 [2:50:42<13:09:52, 16.67s/it]                                                        {'loss': 0.5169, 'learning_rate': 8.171249714050153e-06, 'epoch': 0.57}
 57%|█████▋    | 3797/6640 [2:50:42<13:09:52, 16.67s/it] 57%|█████▋    | 3798/6640 [2:50:58<13:08:53, 16.66s/it]                                                        {'loss': 0.515, 'learning_rate': 8.166453948356679e-06, 'epoch': 0.57}
 57%|█████▋    | 3798/6640 [2:50:58<13:08:53, 16.66s/it] 57%|█████▋    | 3799/6640 [2:51:15<13:00:38, 16.49s/it]                                                        {'loss': 0.5035, 'learning_rate': 8.161658618997978e-06, 'epoch': 0.57}
 57%|█████▋    | 3799/6640 [2:51:15<13:00:38, 16.49s/it]74 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
50 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
 57%|█████▋    | 3800/6640 [2:51:32<13:08:59, 16.67s/it]6 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5408, 'learning_rate': 8.15686372711521e-06, 'epoch': 0.57}
 57%|█████▋    | 3800/6640 [2:51:32<13:08:59, 16.67s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3800/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3800/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3800/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 57%|█████▋    | 3801/6640 [2:53:14<33:20:25, 42.28s/it]                                                        {'loss': 0.4973, 'learning_rate': 8.152069273849426e-06, 'epoch': 0.57}
 57%|█████▋    | 3801/6640 [2:53:14<33:20:25, 42.28s/it] 57%|█████▋    | 3802/6640 [2:53:30<27:08:52, 34.44s/it]                                                        {'loss': 0.5126, 'learning_rate': 8.147275260341588e-06, 'epoch': 0.57}
 57%|█████▋    | 3802/6640 [2:53:30<27:08:52, 34.44s/it] 57%|█████▋    | 3803/6640 [2:53:46<22:55:11, 29.08s/it]                                                        {'loss': 0.5276, 'learning_rate': 8.142481687732532e-06, 'epoch': 0.57}
 57%|█████▋    | 3803/6640 [2:53:46<22:55:11, 29.08s/it] 57%|█████▋    | 3804/6640 [2:54:03<19:52:21, 25.23s/it]                                                        {'loss': 0.5348, 'learning_rate': 8.137688557163005e-06, 'epoch': 0.57}
 57%|█████▋    | 3804/6640 [2:54:03<19:52:21, 25.23s/it] 57%|█████▋    | 3805/6640 [2:54:19<17:44:45, 22.53s/it]                                                        {'loss': 0.5074, 'learning_rate': 8.132895869773638e-06, 'epoch': 0.57}
 57%|█████▋    | 3805/6640 [2:54:19<17:44:45, 22.53s/it] 57%|█████▋    | 3806/6640 [2:54:35<16:09:49, 20.53s/it]                                                        {'loss': 0.5327, 'learning_rate': 8.128103626704969e-06, 'epoch': 0.57}
 57%|█████▋    | 3806/6640 [2:54:35<16:09:49, 20.53s/it] 57%|█████▋    | 3807/6640 [2:54:51<15:04:58, 19.17s/it]                                                        {'loss': 0.5127, 'learning_rate': 8.12331182909742e-06, 'epoch': 0.57}
 57%|█████▋    | 3807/6640 [2:54:51<15:04:58, 19.17s/it] 57%|█████▋    | 3808/6640 [2:55:07<14:17:09, 18.16s/it]                                                        {'loss': 0.501, 'learning_rate': 8.118520478091311e-06, 'epoch': 0.57}
 57%|█████▋    | 3808/6640 [2:55:07<14:17:09, 18.16s/it] 57%|█████▋    | 3809/6640 [2:55:23<13:51:10, 17.62s/it]                                                        {'loss': 0.5403, 'learning_rate': 8.113729574826856e-06, 'epoch': 0.57}
 57%|█████▋    | 3809/6640 [2:55:23<13:51:10, 17.62s/it] 57%|█████▋    | 3810/6640 [2:55:39<13:25:00, 17.07s/it]                                                        {'loss': 0.5187, 'learning_rate': 8.108939120444154e-06, 'epoch': 0.57}
 57%|█████▋    | 3810/6640 [2:55:39<13:25:00, 17.07s/it] 57%|█████▋    | 3811/6640 [2:55:55<13:17:06, 16.91s/it]                                                        {'loss': 0.5116, 'learning_rate': 8.104149116083216e-06, 'epoch': 0.57}
 57%|█████▋    | 3811/6640 [2:55:55<13:17:06, 16.91s/it] 57%|█████▋    | 3812/6640 [2:56:12<13:09:27, 16.75s/it]                                                        {'loss': 0.5351, 'learning_rate': 8.099359562883931e-06, 'epoch': 0.57}
 57%|█████▋    | 3812/6640 [2:56:12<13:09:27, 16.75s/it] 57%|█████▋    | 3813/6640 [2:56:28<13:03:15, 16.62s/it]                                                        {'loss': 0.5301, 'learning_rate': 8.094570461986078e-06, 'epoch': 0.57}
 57%|█████▋    | 3813/6640 [2:56:28<13:03:15, 16.62s/it] 57%|█████▋    | 3814/6640 [2:56:43<12:47:52, 16.30s/it]                                                        {'loss': 0.5255, 'learning_rate': 8.089781814529338e-06, 'epoch': 0.57}
 57%|█████▋    | 3814/6640 [2:56:44<12:47:52, 16.30s/it] 57%|█████▋    | 3815/6640 [2:56:59<12:41:41, 16.18s/it]                                                        {'loss': 0.5391, 'learning_rate': 8.084993621653283e-06, 'epoch': 0.57}
 57%|█████▋    | 3815/6640 [2:56:59<12:41:41, 16.18s/it] 57%|█████▋    | 3816/6640 [2:57:15<12:38:13, 16.11s/it]                                                        {'loss': 0.5474, 'learning_rate': 8.080205884497375e-06, 'epoch': 0.57}
 57%|█████▋    | 3816/6640 [2:57:15<12:38:13, 16.11s/it] 57%|█████▋    | 3817/6640 [2:57:31<12:37:18, 16.10s/it]                                                        {'loss': 0.5124, 'learning_rate': 8.075418604200964e-06, 'epoch': 0.57}
 57%|█████▋    | 3817/6640 [2:57:31<12:37:18, 16.10s/it] 57%|█████▊    | 3818/6640 [2:57:47<12:30:19, 15.95s/it]                                                        {'loss': 0.5123, 'learning_rate': 8.070631781903298e-06, 'epoch': 0.57}
 57%|█████▊    | 3818/6640 [2:57:47<12:30:19, 15.95s/it] 58%|█████▊    | 3819/6640 [2:58:03<12:26:56, 15.89s/it]                                                        {'loss': 0.5352, 'learning_rate': 8.065845418743504e-06, 'epoch': 0.58}
 58%|█████▊    | 3819/6640 [2:58:03<12:26:56, 15.89s/it] 58%|█████▊    | 3820/6640 [2:58:20<12:39:37, 16.16s/it]                                                        {'loss': 0.534, 'learning_rate': 8.061059515860616e-06, 'epoch': 0.58}
 58%|█████▊    | 3820/6640 [2:58:20<12:39:37, 16.16s/it] 58%|█████▊    | 3821/6640 [2:58:35<12:36:13, 16.10s/it]                                                        {'loss': 0.5172, 'learning_rate': 8.05627407439355e-06, 'epoch': 0.58}
 58%|█████▊    | 3821/6640 [2:58:35<12:36:13, 16.10s/it] 58%|█████▊    | 3822/6640 [2:58:51<12:34:05, 16.06s/it]                                                        {'loss': 0.5478, 'learning_rate': 8.051489095481107e-06, 'epoch': 0.58}
 58%|█████▊    | 3822/6640 [2:58:51<12:34:05, 16.06s/it] 58%|█████▊    | 3823/6640 [2:59:08<12:36:05, 16.10s/it]                                                        {'loss': 0.5348, 'learning_rate': 8.046704580261989e-06, 'epoch': 0.58}
 58%|█████▊    | 3823/6640 [2:59:08<12:36:05, 16.10s/it] 58%|█████▊    | 3824/6640 [2:59:24<12:35:17, 16.09s/it]                                                        {'loss': 0.5163, 'learning_rate': 8.04192052987478e-06, 'epoch': 0.58}
 58%|█████▊    | 3824/6640 [2:59:24<12:35:17, 16.09s/it] 58%|█████▊    | 3825/6640 [2:59:40<12:38:00, 16.16s/it]                                                        {'loss': 0.5011, 'learning_rate': 8.037136945457959e-06, 'epoch': 0.58}
 58%|█████▊    | 3825/6640 [2:59:40<12:38:00, 16.16s/it] 58%|█████▊    | 3826/6640 [2:59:56<12:35:40, 16.11s/it]                                                        {'loss': 0.5184, 'learning_rate': 8.032353828149889e-06, 'epoch': 0.58}
 58%|█████▊    | 3826/6640 [2:59:56<12:35:40, 16.11s/it] 58%|█████▊    | 3827/6640 [3:00:12<12:35:15, 16.11s/it]                                                        {'loss': 0.5373, 'learning_rate': 8.027571179088816e-06, 'epoch': 0.58}
 58%|█████▊    | 3827/6640 [3:00:12<12:35:15, 16.11s/it] 58%|█████▊    | 3828/6640 [3:00:30<13:05:22, 16.76s/it]                                                        {'loss': 0.5219, 'learning_rate': 8.022788999412893e-06, 'epoch': 0.58}
 58%|█████▊    | 3828/6640 [3:00:30<13:05:22, 16.76s/it] 58%|█████▊    | 3829/6640 [3:00:46<12:50:26, 16.44s/it]                                                        {'loss': 0.5134, 'learning_rate': 8.018007290260148e-06, 'epoch': 0.58}
 58%|█████▊    | 3829/6640 [3:00:46<12:50:26, 16.44s/it] 58%|█████▊    | 3830/6640 [3:01:03<12:53:19, 16.51s/it]                                                        {'loss': 0.5072, 'learning_rate': 8.013226052768498e-06, 'epoch': 0.58}
 58%|█████▊    | 3830/6640 [3:01:03<12:53:19, 16.51s/it] 58%|█████▊    | 3831/6640 [3:01:20<12:56:01, 16.58s/it]                                                        {'loss': 0.5317, 'learning_rate': 8.008445288075745e-06, 'epoch': 0.58}
 58%|█████▊    | 3831/6640 [3:01:20<12:56:01, 16.58s/it] 58%|█████▊    | 3832/6640 [3:01:37<13:04:51, 16.77s/it]                                                        {'loss': 0.5118, 'learning_rate': 8.003664997319588e-06, 'epoch': 0.58}
 58%|█████▊    | 3832/6640 [3:01:37<13:04:51, 16.77s/it] 58%|█████▊    | 3833/6640 [3:01:52<12:49:13, 16.44s/it]                                                        {'loss': 0.518, 'learning_rate': 7.99888518163761e-06, 'epoch': 0.58}
 58%|█████▊    | 3833/6640 [3:01:52<12:49:13, 16.44s/it] 58%|█████▊    | 3834/6640 [3:02:09<12:48:20, 16.43s/it]                                                        {'loss': 0.5199, 'learning_rate': 7.994105842167274e-06, 'epoch': 0.58}
 58%|█████▊    | 3834/6640 [3:02:09<12:48:20, 16.43s/it] 58%|█████▊    | 3835/6640 [3:02:24<12:34:38, 16.14s/it]                                                        {'loss': 0.5385, 'learning_rate': 7.989326980045937e-06, 'epoch': 0.58}
 58%|█████▊    | 3835/6640 [3:02:24<12:34:38, 16.14s/it] 58%|█████▊    | 3836/6640 [3:02:41<12:38:18, 16.23s/it]                                                        {'loss': 0.5045, 'learning_rate': 7.984548596410836e-06, 'epoch': 0.58}
 58%|█████▊    | 3836/6640 [3:02:41<12:38:18, 16.23s/it] 58%|█████▊    | 3837/6640 [3:02:57<12:42:14, 16.32s/it]                                                        {'loss': 0.5217, 'learning_rate': 7.979770692399104e-06, 'epoch': 0.58}
 58%|█████▊    | 3837/6640 [3:02:57<12:42:14, 16.32s/it] 58%|█████▊    | 3838/6640 [3:03:14<12:42:59, 16.34s/it]                                                        {'loss': 0.5089, 'learning_rate': 7.974993269147753e-06, 'epoch': 0.58}
 58%|█████▊    | 3838/6640 [3:03:14<12:42:59, 16.34s/it] 58%|█████▊    | 3839/6640 [3:03:29<12:32:29, 16.12s/it]                                                        {'loss': 0.5253, 'learning_rate': 7.970216327793676e-06, 'epoch': 0.58}
 58%|█████▊    | 3839/6640 [3:03:29<12:32:29, 16.12s/it] 58%|█████▊    | 3840/6640 [3:03:45<12:29:48, 16.07s/it]                                                        {'loss': 0.5252, 'learning_rate': 7.965439869473664e-06, 'epoch': 0.58}
 58%|█████▊    | 3840/6640 [3:03:45<12:29:48, 16.07s/it] 58%|█████▊    | 3841/6640 [3:04:02<12:41:23, 16.32s/it]                                                        {'loss': 0.4927, 'learning_rate': 7.960663895324378e-06, 'epoch': 0.58}
 58%|█████▊    | 3841/6640 [3:04:02<12:41:23, 16.32s/it] 58%|█████▊    | 3842/6640 [3:04:18<12:33:25, 16.16s/it]                                                        {'loss': 0.5011, 'learning_rate': 7.955888406482382e-06, 'epoch': 0.58}
 58%|█████▊    | 3842/6640 [3:04:18<12:33:25, 16.16s/it] 58%|█████▊    | 3843/6640 [3:04:35<12:40:14, 16.31s/it]                                                        {'loss': 0.5357, 'learning_rate': 7.951113404084108e-06, 'epoch': 0.58}
 58%|█████▊    | 3843/6640 [3:04:35<12:40:14, 16.31s/it] 58%|█████▊    | 3844/6640 [3:04:51<12:38:46, 16.28s/it]                                                        {'loss': 0.546, 'learning_rate': 7.94633888926588e-06, 'epoch': 0.58}
 58%|█████▊    | 3844/6640 [3:04:51<12:38:46, 16.28s/it] 58%|█████▊    | 3845/6640 [3:05:08<12:52:13, 16.58s/it]                                                        {'loss': 0.5394, 'learning_rate': 7.941564863163899e-06, 'epoch': 0.58}
 58%|█████▊    | 3845/6640 [3:05:08<12:52:13, 16.58s/it] 58%|█████▊    | 3846/6640 [3:05:24<12:40:11, 16.32s/it]                                                        {'loss': 0.5193, 'learning_rate': 7.936791326914262e-06, 'epoch': 0.58}
 58%|█████▊    | 3846/6640 [3:05:24<12:40:11, 16.32s/it] 58%|█████▊    | 3847/6640 [3:05:41<12:48:50, 16.52s/it]                                                        {'loss': 0.5046, 'learning_rate': 7.932018281652943e-06, 'epoch': 0.58}
 58%|█████▊    | 3847/6640 [3:05:41<12:48:50, 16.52s/it] 58%|█████▊    | 3848/6640 [3:05:58<12:56:23, 16.68s/it]                                                        {'loss': 0.5478, 'learning_rate': 7.927245728515793e-06, 'epoch': 0.58}
 58%|█████▊    | 3848/6640 [3:05:58<12:56:23, 16.68s/it] 58%|█████▊    | 3849/6640 [3:06:14<12:55:57, 16.68s/it]                                                        {'loss': 0.5139, 'learning_rate': 7.922473668638558e-06, 'epoch': 0.58}
 58%|█████▊    | 3849/6640 [3:06:14<12:55:57, 16.68s/it]1 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
 58%|█████▊    | 3850/6640 [3:06:30<12:45:42, 16.47s/it]5 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
76 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.513, 'learning_rate': 7.91770210315685e-06, 'epoch': 0.58}
 58%|█████▊    | 3850/6640 [3:06:30<12:45:42, 16.47s/it] 58%|█████▊    | 3851/6640 [3:06:50<13:24:44, 17.31s/it]                                                        {'loss': 0.5411, 'learning_rate': 7.912931033206187e-06, 'epoch': 0.58}
 58%|█████▊    | 3851/6640 [3:06:50<13:24:44, 17.31s/it] 58%|█████▊    | 3852/6640 [3:07:07<13:24:06, 17.31s/it]                                                        {'loss': 0.5271, 'learning_rate': 7.908160459921949e-06, 'epoch': 0.58}
 58%|█████▊    | 3852/6640 [3:07:07<13:24:06, 17.31s/it] 58%|█████▊    | 3853/6640 [3:07:23<13:06:02, 16.92s/it]                                                        {'loss': 0.5152, 'learning_rate': 7.903390384439404e-06, 'epoch': 0.58}
 58%|█████▊    | 3853/6640 [3:07:23<13:06:02, 16.92s/it] 58%|█████▊    | 3854/6640 [3:07:40<13:06:02, 16.93s/it]                                                        {'loss': 0.5136, 'learning_rate': 7.898620807893698e-06, 'epoch': 0.58}
 58%|█████▊    | 3854/6640 [3:07:40<13:06:02, 16.93s/it] 58%|█████▊    | 3855/6640 [3:07:57<13:00:03, 16.81s/it]                                                        {'loss': 0.5169, 'learning_rate': 7.893851731419872e-06, 'epoch': 0.58}
 58%|█████▊    | 3855/6640 [3:07:57<13:00:03, 16.81s/it] 58%|█████▊    | 3856/6640 [3:08:14<13:05:14, 16.92s/it]                                                        {'loss': 0.5186, 'learning_rate': 7.889083156152832e-06, 'epoch': 0.58}
 58%|█████▊    | 3856/6640 [3:08:14<13:05:14, 16.92s/it] 58%|█████▊    | 3857/6640 [3:08:30<12:55:20, 16.72s/it]                                                        {'loss': 0.5221, 'learning_rate': 7.884315083227373e-06, 'epoch': 0.58}
 58%|█████▊    | 3857/6640 [3:08:30<12:55:20, 16.72s/it] 58%|█████▊    | 3858/6640 [3:08:46<12:42:57, 16.45s/it]                                                        {'loss': 0.5433, 'learning_rate': 7.879547513778168e-06, 'epoch': 0.58}
 58%|█████▊    | 3858/6640 [3:08:46<12:42:57, 16.45s/it] 58%|█████▊    | 3859/6640 [3:09:02<12:45:43, 16.52s/it]                                                        {'loss': 0.5048, 'learning_rate': 7.874780448939764e-06, 'epoch': 0.58}
 58%|█████▊    | 3859/6640 [3:09:02<12:45:43, 16.52s/it] 58%|█████▊    | 3860/6640 [3:09:18<12:35:35, 16.31s/it]                                                        {'loss': 0.5311, 'learning_rate': 7.870013889846608e-06, 'epoch': 0.58}
 58%|█████▊    | 3860/6640 [3:09:18<12:35:35, 16.31s/it] 58%|█████▊    | 3861/6640 [3:09:35<12:38:03, 16.37s/it]                                                        {'loss': 0.5485, 'learning_rate': 7.865247837633005e-06, 'epoch': 0.58}
 58%|█████▊    | 3861/6640 [3:09:35<12:38:03, 16.37s/it] 58%|█████▊    | 3862/6640 [3:09:51<12:34:52, 16.30s/it]                                                        {'loss': 0.5342, 'learning_rate': 7.860482293433148e-06, 'epoch': 0.58}
 58%|█████▊    | 3862/6640 [3:09:51<12:34:52, 16.30s/it] 58%|█████▊    | 3863/6640 [3:10:07<12:30:35, 16.22s/it]                                                        {'loss': 0.5155, 'learning_rate': 7.855717258381105e-06, 'epoch': 0.58}
 58%|█████▊    | 3863/6640 [3:10:07<12:30:35, 16.22s/it] 58%|█████▊    | 3864/6640 [3:10:23<12:27:35, 16.16s/it]                                                        {'loss': 0.5025, 'learning_rate': 7.850952733610836e-06, 'epoch': 0.58}
 58%|█████▊    | 3864/6640 [3:10:23<12:27:35, 16.16s/it] 58%|█████▊    | 3865/6640 [3:10:40<12:35:27, 16.33s/it]                                                        {'loss': 0.5162, 'learning_rate': 7.846188720256162e-06, 'epoch': 0.58}
 58%|█████▊    | 3865/6640 [3:10:40<12:35:27, 16.33s/it] 58%|█████▊    | 3866/6640 [3:10:57<12:45:18, 16.55s/it]                                                        {'loss': 0.5236, 'learning_rate': 7.841425219450796e-06, 'epoch': 0.58}
 58%|█████▊    | 3866/6640 [3:10:57<12:45:18, 16.55s/it] 58%|█████▊    | 3867/6640 [3:11:13<12:35:27, 16.35s/it]                                                        {'loss': 0.5117, 'learning_rate': 7.836662232328319e-06, 'epoch': 0.58}
 58%|█████▊    | 3867/6640 [3:11:13<12:35:27, 16.35s/it] 58%|█████▊    | 3868/6640 [3:11:29<12:31:41, 16.27s/it]                                                        {'loss': 0.521, 'learning_rate': 7.831899760022192e-06, 'epoch': 0.58}
 58%|█████▊    | 3868/6640 [3:11:29<12:31:41, 16.27s/it] 58%|█████▊    | 3869/6640 [3:11:45<12:31:15, 16.27s/it]                                                        {'loss': 0.5379, 'learning_rate': 7.827137803665765e-06, 'epoch': 0.58}
 58%|█████▊    | 3869/6640 [3:11:45<12:31:15, 16.27s/it] 58%|█████▊    | 3870/6640 [3:12:01<12:33:34, 16.32s/it]                                                        {'loss': 0.5189, 'learning_rate': 7.822376364392248e-06, 'epoch': 0.58}
 58%|█████▊    | 3870/6640 [3:12:01<12:33:34, 16.32s/it] 58%|█████▊    | 3871/6640 [3:12:18<12:36:06, 16.38s/it]                                                        {'loss': 0.5179, 'learning_rate': 7.817615443334741e-06, 'epoch': 0.58}
 58%|█████▊    | 3871/6640 [3:12:18<12:36:06, 16.38s/it] 58%|█████▊    | 3872/6640 [3:12:35<12:51:13, 16.72s/it]                                                        {'loss': 0.5252, 'learning_rate': 7.812855041626206e-06, 'epoch': 0.58}
 58%|█████▊    | 3872/6640 [3:12:35<12:51:13, 16.72s/it] 58%|█████▊    | 3873/6640 [3:12:52<12:51:10, 16.72s/it]                                                        {'loss': 0.5165, 'learning_rate': 7.808095160399502e-06, 'epoch': 0.58}
 58%|█████▊    | 3873/6640 [3:12:52<12:51:10, 16.72s/it] 58%|█████▊    | 3874/6640 [3:13:10<13:01:28, 16.95s/it]                                                        {'loss': 0.522, 'learning_rate': 7.803335800787348e-06, 'epoch': 0.58}
 58%|█████▊    | 3874/6640 [3:13:10<13:01:28, 16.95s/it] 58%|█████▊    | 3875/6640 [3:13:26<12:48:46, 16.68s/it]                                                        {'loss': 0.5258, 'learning_rate': 7.798576963922347e-06, 'epoch': 0.58}
 58%|█████▊    | 3875/6640 [3:13:26<12:48:46, 16.68s/it] 58%|█████▊    | 3876/6640 [3:13:41<12:34:25, 16.38s/it]                                                        {'loss': 0.5305, 'learning_rate': 7.793818650936969e-06, 'epoch': 0.58}
 58%|█████▊    | 3876/6640 [3:13:41<12:34:25, 16.38s/it] 58%|█████▊    | 3877/6640 [3:13:58<12:36:20, 16.42s/it]                                                        {'loss': 0.5095, 'learning_rate': 7.789060862963564e-06, 'epoch': 0.58}
 58%|█████▊    | 3877/6640 [3:13:58<12:36:20, 16.42s/it] 58%|█████▊    | 3878/6640 [3:14:15<12:39:00, 16.49s/it]                                                        {'loss': 0.5332, 'learning_rate': 7.784303601134369e-06, 'epoch': 0.58}
 58%|█████▊    | 3878/6640 [3:14:15<12:39:00, 16.49s/it] 58%|█████▊    | 3879/6640 [3:14:31<12:40:53, 16.54s/it]                                                        {'loss': 0.5277, 'learning_rate': 7.779546866581475e-06, 'epoch': 0.58}
 58%|█████▊    | 3879/6640 [3:14:31<12:40:53, 16.54s/it] 58%|█████▊    | 3880/6640 [3:14:48<12:46:20, 16.66s/it]                                                        {'loss': 0.5091, 'learning_rate': 7.774790660436857e-06, 'epoch': 0.58}
 58%|█████▊    | 3880/6640 [3:14:48<12:46:20, 16.66s/it] 58%|█████▊    | 3881/6640 [3:15:05<12:53:05, 16.81s/it]                                                        {'loss': 0.5087, 'learning_rate': 7.770034983832368e-06, 'epoch': 0.58}
 58%|█████▊    | 3881/6640 [3:15:05<12:53:05, 16.81s/it] 58%|█████▊    | 3882/6640 [3:15:22<12:48:33, 16.72s/it]                                                        {'loss': 0.5055, 'learning_rate': 7.76527983789973e-06, 'epoch': 0.58}
 58%|█████▊    | 3882/6640 [3:15:22<12:48:33, 16.72s/it] 58%|█████▊    | 3883/6640 [3:15:38<12:43:16, 16.61s/it]                                                        {'loss': 0.5223, 'learning_rate': 7.760525223770544e-06, 'epoch': 0.58}
 58%|█████▊    | 3883/6640 [3:15:38<12:43:16, 16.61s/it] 58%|█████▊    | 3884/6640 [3:15:54<12:35:56, 16.46s/it]                                                        {'loss': 0.5447, 'learning_rate': 7.755771142576276e-06, 'epoch': 0.58}
 58%|█████▊    | 3884/6640 [3:15:54<12:35:56, 16.46s/it] 59%|█████▊    | 3885/6640 [3:16:10<12:25:26, 16.23s/it]                                                        {'loss': 0.5293, 'learning_rate': 7.75101759544827e-06, 'epoch': 0.59}
 59%|█████▊    | 3885/6640 [3:16:10<12:25:26, 16.23s/it] 59%|█████▊    | 3886/6640 [3:16:27<12:33:38, 16.42s/it]                                                        {'loss': 0.5036, 'learning_rate': 7.746264583517744e-06, 'epoch': 0.59}
 59%|█████▊    | 3886/6640 [3:16:27<12:33:38, 16.42s/it] 59%|█████▊    | 3887/6640 [3:16:43<12:31:21, 16.38s/it]                                                        {'loss': 0.5455, 'learning_rate': 7.741512107915787e-06, 'epoch': 0.59}
 59%|█████▊    | 3887/6640 [3:16:43<12:31:21, 16.38s/it] 59%|█████▊    | 3888/6640 [3:16:59<12:23:46, 16.22s/it]                                                        {'loss': 0.5135, 'learning_rate': 7.736760169773362e-06, 'epoch': 0.59}
 59%|█████▊    | 3888/6640 [3:16:59<12:23:46, 16.22s/it] 59%|█████▊    | 3889/6640 [3:17:15<12:21:28, 16.17s/it]                                                        {'loss': 0.5175, 'learning_rate': 7.732008770221301e-06, 'epoch': 0.59}
 59%|█████▊    | 3889/6640 [3:17:15<12:21:28, 16.17s/it] 59%|█████▊    | 3890/6640 [3:17:31<12:21:40, 16.18s/it]                                                        {'loss': 0.5064, 'learning_rate': 7.727257910390309e-06, 'epoch': 0.59}
 59%|█████▊    | 3890/6640 [3:17:31<12:21:40, 16.18s/it] 59%|█████▊    | 3891/6640 [3:17:48<12:31:46, 16.41s/it]                                                        {'loss': 0.5409, 'learning_rate': 7.722507591410965e-06, 'epoch': 0.59}
 59%|█████▊    | 3891/6640 [3:17:48<12:31:46, 16.41s/it] 59%|█████▊    | 3892/6640 [3:18:04<12:29:10, 16.36s/it]                                                        {'loss': 0.5086, 'learning_rate': 7.717757814413719e-06, 'epoch': 0.59}
 59%|█████▊    | 3892/6640 [3:18:04<12:29:10, 16.36s/it] 59%|█████▊    | 3893/6640 [3:18:21<12:30:46, 16.40s/it]                                                        {'loss': 0.4999, 'learning_rate': 7.713008580528886e-06, 'epoch': 0.59}
 59%|█████▊    | 3893/6640 [3:18:21<12:30:46, 16.40s/it] 59%|█████▊    | 3894/6640 [3:18:37<12:22:37, 16.23s/it]                                                        {'loss': 0.5208, 'learning_rate': 7.708259890886662e-06, 'epoch': 0.59}
 59%|█████▊    | 3894/6640 [3:18:37<12:22:37, 16.23s/it] 59%|█████▊    | 3895/6640 [3:18:53<12:19:54, 16.17s/it]                                                        {'loss': 0.5301, 'learning_rate': 7.703511746617098e-06, 'epoch': 0.59}
 59%|█████▊    | 3895/6640 [3:18:53<12:19:54, 16.17s/it] 59%|█████▊    | 3896/6640 [3:19:09<12:21:32, 16.21s/it]                                                        {'loss': 0.5228, 'learning_rate': 7.698764148850138e-06, 'epoch': 0.59}
 59%|█████▊    | 3896/6640 [3:19:09<12:21:32, 16.21s/it] 59%|█████▊    | 3897/6640 [3:19:25<12:20:19, 16.19s/it]                                                        {'loss': 0.5209, 'learning_rate': 7.694017098715572e-06, 'epoch': 0.59}
 59%|█████▊    | 3897/6640 [3:19:25<12:20:19, 16.19s/it] 59%|█████▊    | 3898/6640 [3:19:42<12:30:54, 16.43s/it]                                                        {'loss': 0.5298, 'learning_rate': 7.689270597343076e-06, 'epoch': 0.59}
 59%|█████▊    | 3898/6640 [3:19:42<12:30:54, 16.43s/it] 59%|█████▊    | 3899/6640 [3:19:58<12:26:16, 16.34s/it]                                                        {'loss': 0.5191, 'learning_rate': 7.684524645862188e-06, 'epoch': 0.59}
 59%|█████▊    | 3899/6640 [3:19:58<12:26:16, 16.34s/it]0 1 AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

2 AutoResumeHook: Checking whether to suspend...
 59%|█████▊    | 3900/6640 [3:20:14<12:20:09, 16.21s/it]4 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5265, 'learning_rate': 7.679779245402321e-06, 'epoch': 0.59}
 59%|█████▊    | 3900/6640 [3:20:14<12:20:09, 16.21s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3900/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3900/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-3900/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 59%|█████▉    | 3901/6640 [3:21:55<31:37:15, 41.56s/it]                                                        {'loss': 0.4981, 'learning_rate': 7.675034397092749e-06, 'epoch': 0.59}
 59%|█████▉    | 3901/6640 [3:21:55<31:37:15, 41.56s/it] 59%|█████▉    | 3902/6640 [3:22:11<25:47:59, 33.92s/it]                                                        {'loss': 0.52, 'learning_rate': 7.670290102062621e-06, 'epoch': 0.59}
 59%|█████▉    | 3902/6640 [3:22:11<25:47:59, 33.92s/it] 59%|█████▉    | 3903/6640 [3:22:28<21:53:23, 28.79s/it]                                                        {'loss': 0.522, 'learning_rate': 7.66554636144095e-06, 'epoch': 0.59}
 59%|█████▉    | 3903/6640 [3:22:28<21:53:23, 28.79s/it] 59%|█████▉    | 3904/6640 [3:22:44<18:55:54, 24.91s/it]                                                        {'loss': 0.5362, 'learning_rate': 7.660803176356614e-06, 'epoch': 0.59}
 59%|█████▉    | 3904/6640 [3:22:44<18:55:54, 24.91s/it] 59%|█████▉    | 3905/6640 [3:23:01<17:03:47, 22.46s/it]                                                        {'loss': 0.5119, 'learning_rate': 7.656060547938375e-06, 'epoch': 0.59}
 59%|█████▉    | 3905/6640 [3:23:01<17:03:47, 22.46s/it] 59%|█████▉    | 3906/6640 [3:23:16<15:33:33, 20.49s/it]                                                        {'loss': 0.5153, 'learning_rate': 7.651318477314845e-06, 'epoch': 0.59}
 59%|█████▉    | 3906/6640 [3:23:16<15:33:33, 20.49s/it] 59%|█████▉    | 3907/6640 [3:23:32<14:29:27, 19.09s/it]                                                        {'loss': 0.5251, 'learning_rate': 7.646576965614509e-06, 'epoch': 0.59}
 59%|█████▉    | 3907/6640 [3:23:32<14:29:27, 19.09s/it] 59%|█████▉    | 3908/6640 [3:23:48<13:50:24, 18.24s/it]                                                        {'loss': 0.5375, 'learning_rate': 7.641836013965719e-06, 'epoch': 0.59}
 59%|█████▉    | 3908/6640 [3:23:48<13:50:24, 18.24s/it] 59%|█████▉    | 3909/6640 [3:24:05<13:25:32, 17.70s/it]                                                        {'loss': 0.5231, 'learning_rate': 7.6370956234967e-06, 'epoch': 0.59}
 59%|█████▉    | 3909/6640 [3:24:05<13:25:32, 17.70s/it] 59%|█████▉    | 3910/6640 [3:24:21<13:02:08, 17.19s/it]                                                        {'loss': 0.4866, 'learning_rate': 7.632355795335533e-06, 'epoch': 0.59}
 59%|█████▉    | 3910/6640 [3:24:21<13:02:08, 17.19s/it] 59%|█████▉    | 3911/6640 [3:24:38<12:59:50, 17.15s/it]                                                        {'loss': 0.5113, 'learning_rate': 7.627616530610172e-06, 'epoch': 0.59}
 59%|█████▉    | 3911/6640 [3:24:38<12:59:50, 17.15s/it] 59%|█████▉    | 3912/6640 [3:24:54<12:42:55, 16.78s/it]                                                        {'loss': 0.5178, 'learning_rate': 7.622877830448434e-06, 'epoch': 0.59}
 59%|█████▉    | 3912/6640 [3:24:54<12:42:55, 16.78s/it] 59%|█████▉    | 3913/6640 [3:25:10<12:32:01, 16.55s/it]                                                        {'loss': 0.5335, 'learning_rate': 7.6181396959779974e-06, 'epoch': 0.59}
 59%|█████▉    | 3913/6640 [3:25:10<12:32:01, 16.55s/it] 59%|█████▉    | 3914/6640 [3:25:26<12:29:01, 16.49s/it]                                                        {'loss': 0.5073, 'learning_rate': 7.613402128326422e-06, 'epoch': 0.59}
 59%|█████▉    | 3914/6640 [3:25:26<12:29:01, 16.49s/it] 59%|█████▉    | 3915/6640 [3:25:43<12:26:53, 16.45s/it]                                                        {'loss': 0.5219, 'learning_rate': 7.608665128621111e-06, 'epoch': 0.59}
 59%|█████▉    | 3915/6640 [3:25:43<12:26:53, 16.45s/it] 59%|█████▉    | 3916/6640 [3:25:59<12:20:28, 16.31s/it]                                                        {'loss': 0.5305, 'learning_rate': 7.603928697989353e-06, 'epoch': 0.59}
 59%|█████▉    | 3916/6640 [3:25:59<12:20:28, 16.31s/it] 59%|█████▉    | 3917/6640 [3:26:15<12:22:24, 16.36s/it]                                                        {'loss': 0.5403, 'learning_rate': 7.5991928375582805e-06, 'epoch': 0.59}
 59%|█████▉    | 3917/6640 [3:26:15<12:22:24, 16.36s/it] 59%|█████▉    | 3918/6640 [3:26:32<12:29:27, 16.52s/it]                                                        {'loss': 0.5415, 'learning_rate': 7.594457548454911e-06, 'epoch': 0.59}
 59%|█████▉    | 3918/6640 [3:26:32<12:29:27, 16.52s/it] 59%|█████▉    | 3919/6640 [3:26:48<12:20:54, 16.34s/it]                                                        {'loss': 0.5099, 'learning_rate': 7.589722831806113e-06, 'epoch': 0.59}
 59%|█████▉    | 3919/6640 [3:26:48<12:20:54, 16.34s/it] 59%|█████▉    | 3920/6640 [3:27:05<12:31:34, 16.58s/it]                                                        {'loss': 0.5118, 'learning_rate': 7.584988688738622e-06, 'epoch': 0.59}
 59%|█████▉    | 3920/6640 [3:27:05<12:31:34, 16.58s/it] 59%|█████▉    | 3921/6640 [3:27:21<12:29:47, 16.55s/it]                                                        {'loss': 0.5273, 'learning_rate': 7.5802551203790344e-06, 'epoch': 0.59}
 59%|█████▉    | 3921/6640 [3:27:21<12:29:47, 16.55s/it] 59%|█████▉    | 3922/6640 [3:27:38<12:27:07, 16.49s/it]                                                        {'loss': 0.5161, 'learning_rate': 7.5755221278538135e-06, 'epoch': 0.59}
 59%|█████▉    | 3922/6640 [3:27:38<12:27:07, 16.49s/it] 59%|█████▉    | 3923/6640 [3:27:54<12:25:26, 16.46s/it]                                                        {'loss': 0.5212, 'learning_rate': 7.570789712289287e-06, 'epoch': 0.59}
 59%|█████▉    | 3923/6640 [3:27:54<12:25:26, 16.46s/it] 59%|█████▉    | 3924/6640 [3:28:11<12:26:16, 16.49s/it]                                                        {'loss': 0.5287, 'learning_rate': 7.566057874811643e-06, 'epoch': 0.59}
 59%|█████▉    | 3924/6640 [3:28:11<12:26:16, 16.49s/it]WARNING: tokenization mismatch: 1 vs. 789. [[{'from': 'human', 'value': 'ASSISTANT: You are a forward-thinking HR consultancy with the following knowledge and traits.\n\nKNOWLEDGE: HR management, employee satisfaction, talent retention, team building, workplace culture.\n\nTRAITS: Innovation, empathy, solution orientation, creativity, understanding, teamwork.\n\nTASK: Use your knowledge to create an internal strategy document. We are an HR consultancy looking to develop 10 creative ways to improve employee satisfaction. Focus on ideas that are innovative and engaging, and cater to the needs of HR managers and company leaders.\n\nOUTPUT: A table in German containing 10 creative strategies to improve employee satisfaction, including a brief description for each.'}, {'from': 'gpt', 'value': '| Nr. | Strategie | Beschreibung |\n| --- | --- | --- |\n| 1. | "Wertschätzungswand" | Eine Wand im Büro, auf der Mitarbeiter anonym ihre Kollegen für ihre Leistungen und Beiträge loben und anerkennen können. |\n| 2. | Flexible Arbeitsmodelle | Einführung von flexiblen Arbeitszeiten und Homeoffice-Optionen, um Work-Life-Balance zu verbessern und individuelle Bedürfnisse zu berücksichtigen. |\n| 3. | Mitarbeiter-Workshops für persönliche Entwicklung | Organisieren von internen Workshops und Schulungen, um persönliche und berufliche Fähigkeiten der Mitarbeiter zu fördern. |\n| 4. | Team-Building-Aktivitäten außerhalb des Arbeitsplatzes | Regelmäßige Veranstaltungen wie Escape Rooms, Sportevents oder Kochkurse, um den Zusammenhalt und die Kommunikation im Team zu stärken. |\n| 5. | Gesundheits- und Wellness-Programme | Einführung von Fitness- und Entspannungskursen wie Yoga, Meditation oder Massagen, um das Wohlbefinden der Mitarbeiter zu fördern. |\n| 6. | Feedback-Kultur und transparente Kommunikation | Etablierung einer offenen Feedback-Kultur und transparenter Kommunikation, um die Mitarbeiter in Entscheidungsprozesse einzubinden. |\n| 7. | Mitarbeiter-Mentoring-Programm | Einführung eines Mentoring-Programms, bei dem erfahrene Mitarbeiter ihr Wissen und ihre Erfahrungen mit jüngeren Kollegen teilen. |\n| 8. | "Innovationstage" | Einrichtung von speziellen Tagen, an denen Mitarbeiter an eigenen Projekten arbeiten oder innovative Ideen für das Unternehmen entwickeln können. |\n| 9. | Individuelle Karriereentwicklungspläne | Erstellung von personalisierten Karriereplänen in Zusammenarbeit mit den Mitarbeitern, um ihre berufliche Entwicklung zu unterstützen. |\n| 10. | Gemeinschaftliche soziale Verantwortung (CSR) Initiativen | Organisation von Freiwilligenprojekten und CSR-Aktivitäten, um den Mitarbeitern die Möglichkeit zu geben, sozialen Einfluss zu nehmen. |'}]] (ignored)
 59%|█████▉    | 3925/6640 [3:28:27<12:17:12, 16.29s/it]                                                        {'loss': 0.5543, 'learning_rate': 7.561326616546932e-06, 'epoch': 0.59}
 59%|█████▉    | 3925/6640 [3:28:27<12:17:12, 16.29s/it] 59%|█████▉    | 3926/6640 [3:28:43<12:21:14, 16.39s/it]                                                        {'loss': 0.5285, 'learning_rate': 7.556595938621058e-06, 'epoch': 0.59}
 59%|█████▉    | 3926/6640 [3:28:43<12:21:14, 16.39s/it] 59%|█████▉    | 3927/6640 [3:28:59<12:12:59, 16.21s/it]                                                        {'loss': 0.5238, 'learning_rate': 7.551865842159809e-06, 'epoch': 0.59}
 59%|█████▉    | 3927/6640 [3:28:59<12:12:59, 16.21s/it] 59%|█████▉    | 3928/6640 [3:29:16<12:21:44, 16.41s/it]                                                        {'loss': 0.5402, 'learning_rate': 7.547136328288814e-06, 'epoch': 0.59}
 59%|█████▉    | 3928/6640 [3:29:16<12:21:44, 16.41s/it] 59%|█████▉    | 3929/6640 [3:29:32<12:15:42, 16.28s/it]                                                        {'loss': 0.5319, 'learning_rate': 7.542407398133571e-06, 'epoch': 0.59}
 59%|█████▉    | 3929/6640 [3:29:32<12:15:42, 16.28s/it] 59%|█████▉    | 3930/6640 [3:29:47<12:04:57, 16.05s/it]                                                        {'loss': 0.5271, 'learning_rate': 7.5376790528194354e-06, 'epoch': 0.59}
 59%|█████▉    | 3930/6640 [3:29:47<12:04:57, 16.05s/it] 59%|█████▉    | 3931/6640 [3:30:03<12:03:58, 16.03s/it]                                                        {'loss': 0.5094, 'learning_rate': 7.532951293471631e-06, 'epoch': 0.59}
 59%|█████▉    | 3931/6640 [3:30:03<12:03:58, 16.03s/it] 59%|█████▉    | 3932/6640 [3:30:19<12:04:31, 16.05s/it]                                                        {'loss': 0.5188, 'learning_rate': 7.528224121215235e-06, 'epoch': 0.59}
 59%|█████▉    | 3932/6640 [3:30:19<12:04:31, 16.05s/it] 59%|█████▉    | 3933/6640 [3:30:36<12:10:47, 16.20s/it]                                                        {'loss': 0.5259, 'learning_rate': 7.523497537175192e-06, 'epoch': 0.59}
 59%|█████▉    | 3933/6640 [3:30:36<12:10:47, 16.20s/it] 59%|█████▉    | 3934/6640 [3:30:52<12:06:05, 16.10s/it]                                                        {'loss': 0.5334, 'learning_rate': 7.518771542476299e-06, 'epoch': 0.59}
 59%|█████▉    | 3934/6640 [3:30:52<12:06:05, 16.10s/it] 59%|█████▉    | 3935/6640 [3:31:08<12:10:50, 16.21s/it]                                                        {'loss': 0.5145, 'learning_rate': 7.514046138243211e-06, 'epoch': 0.59}
 59%|█████▉    | 3935/6640 [3:31:08<12:10:50, 16.21s/it] 59%|█████▉    | 3936/6640 [3:31:26<12:29:13, 16.62s/it]                                                        {'loss': 0.5315, 'learning_rate': 7.509321325600457e-06, 'epoch': 0.59}
 59%|█████▉    | 3936/6640 [3:31:26<12:29:13, 16.62s/it] 59%|█████▉    | 3937/6640 [3:31:42<12:16:22, 16.35s/it]                                                        {'loss': 0.5253, 'learning_rate': 7.504597105672411e-06, 'epoch': 0.59}
 59%|█████▉    | 3937/6640 [3:31:42<12:16:22, 16.35s/it] 59%|█████▉    | 3938/6640 [3:31:58<12:20:32, 16.44s/it]                                                        {'loss': 0.5222, 'learning_rate': 7.499873479583312e-06, 'epoch': 0.59}
 59%|█████▉    | 3938/6640 [3:31:58<12:20:32, 16.44s/it] 59%|█████▉    | 3939/6640 [3:32:15<12:26:34, 16.58s/it]                                                        {'loss': 0.5254, 'learning_rate': 7.495150448457251e-06, 'epoch': 0.59}
 59%|█████▉    | 3939/6640 [3:32:15<12:26:34, 16.58s/it] 59%|█████▉    | 3940/6640 [3:32:31<12:19:43, 16.44s/it]                                                        {'loss': 0.5265, 'learning_rate': 7.490428013418187e-06, 'epoch': 0.59}
 59%|█████▉    | 3940/6640 [3:32:31<12:19:43, 16.44s/it] 59%|█████▉    | 3941/6640 [3:32:48<12:19:47, 16.45s/it]                                                        {'loss': 0.5404, 'learning_rate': 7.485706175589934e-06, 'epoch': 0.59}
 59%|█████▉    | 3941/6640 [3:32:48<12:19:47, 16.45s/it] 59%|█████▉    | 3942/6640 [3:33:04<12:14:34, 16.34s/it]                                                        {'loss': 0.5186, 'learning_rate': 7.480984936096163e-06, 'epoch': 0.59}
 59%|█████▉    | 3942/6640 [3:33:04<12:14:34, 16.34s/it] 59%|█████▉    | 3943/6640 [3:33:20<12:11:44, 16.28s/it]                                                        {'loss': 0.5189, 'learning_rate': 7.4762642960604e-06, 'epoch': 0.59}
 59%|█████▉    | 3943/6640 [3:33:20<12:11:44, 16.28s/it] 59%|█████▉    | 3944/6640 [3:33:37<12:24:53, 16.58s/it]                                                        {'loss': 0.5084, 'learning_rate': 7.471544256606027e-06, 'epoch': 0.59}
 59%|█████▉    | 3944/6640 [3:33:37<12:24:53, 16.58s/it] 59%|█████▉    | 3945/6640 [3:33:54<12:21:33, 16.51s/it]                                                        {'loss': 0.5017, 'learning_rate': 7.466824818856296e-06, 'epoch': 0.59}
 59%|█████▉    | 3945/6640 [3:33:54<12:21:33, 16.51s/it] 59%|█████▉    | 3946/6640 [3:34:09<12:11:14, 16.29s/it]                                                        {'loss': 0.5234, 'learning_rate': 7.462105983934302e-06, 'epoch': 0.59}
 59%|█████▉    | 3946/6640 [3:34:09<12:11:14, 16.29s/it] 59%|█████▉    | 3947/6640 [3:34:26<12:20:37, 16.50s/it]                                                        {'loss': 0.5136, 'learning_rate': 7.457387752962999e-06, 'epoch': 0.59}
 59%|█████▉    | 3947/6640 [3:34:26<12:20:37, 16.50s/it] 59%|█████▉    | 3948/6640 [3:34:42<12:07:51, 16.22s/it]                                                        {'loss': 0.5161, 'learning_rate': 7.4526701270652025e-06, 'epoch': 0.59}
 59%|█████▉    | 3948/6640 [3:34:42<12:07:51, 16.22s/it] 59%|█████▉    | 3949/6640 [3:34:59<12:12:55, 16.34s/it]                                                        {'loss': 0.5393, 'learning_rate': 7.447953107363574e-06, 'epoch': 0.59}
 59%|█████▉    | 3949/6640 [3:34:59<12:12:55, 16.34s/it]4 AutoResumeHook: Checking whether to suspend...2
 AutoResumeHook: Checking whether to suspend...
05 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 59%|█████▉    | 3950/6640 [3:35:15<12:13:12, 16.35s/it]7 AutoResumeHook: Checking whether to suspend...
3 6AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5335, 'learning_rate': 7.443236694980649e-06, 'epoch': 0.59}
 59%|█████▉    | 3950/6640 [3:35:15<12:13:12, 16.35s/it] 60%|█████▉    | 3951/6640 [3:35:31<12:03:19, 16.14s/it]                                                        {'loss': 0.5197, 'learning_rate': 7.438520891038801e-06, 'epoch': 0.6}
 60%|█████▉    | 3951/6640 [3:35:31<12:03:19, 16.14s/it] 60%|█████▉    | 3952/6640 [3:35:48<12:14:41, 16.40s/it]                                                        {'loss': 0.5249, 'learning_rate': 7.433805696660267e-06, 'epoch': 0.6}
 60%|█████▉    | 3952/6640 [3:35:48<12:14:41, 16.40s/it] 60%|█████▉    | 3953/6640 [3:36:04<12:17:24, 16.47s/it]                                                        {'loss': 0.5443, 'learning_rate': 7.429091112967128e-06, 'epoch': 0.6}
 60%|█████▉    | 3953/6640 [3:36:04<12:17:24, 16.47s/it] 60%|█████▉    | 3954/6640 [3:36:20<12:10:43, 16.32s/it]                                                        {'loss': 0.5414, 'learning_rate': 7.424377141081343e-06, 'epoch': 0.6}
 60%|█████▉    | 3954/6640 [3:36:20<12:10:43, 16.32s/it] 60%|█████▉    | 3955/6640 [3:36:37<12:22:11, 16.59s/it]                                                        {'loss': 0.5203, 'learning_rate': 7.4196637821247e-06, 'epoch': 0.6}
 60%|█████▉    | 3955/6640 [3:36:37<12:22:11, 16.59s/it] 60%|█████▉    | 3956/6640 [3:36:53<12:10:47, 16.34s/it]                                                        {'loss': 0.525, 'learning_rate': 7.414951037218854e-06, 'epoch': 0.6}
 60%|█████▉    | 3956/6640 [3:36:53<12:10:47, 16.34s/it] 60%|█████▉    | 3957/6640 [3:37:09<12:06:11, 16.24s/it]                                                        {'loss': 0.5207, 'learning_rate': 7.4102389074853164e-06, 'epoch': 0.6}
 60%|█████▉    | 3957/6640 [3:37:09<12:06:11, 16.24s/it] 60%|█████▉    | 3958/6640 [3:37:25<12:04:14, 16.20s/it]                                                        {'loss': 0.5177, 'learning_rate': 7.40552739404544e-06, 'epoch': 0.6}
 60%|█████▉    | 3958/6640 [3:37:25<12:04:14, 16.20s/it] 60%|█████▉    | 3959/6640 [3:37:41<11:55:45, 16.02s/it]                                                        {'loss': 0.5287, 'learning_rate': 7.4008164980204455e-06, 'epoch': 0.6}
 60%|█████▉    | 3959/6640 [3:37:41<11:55:45, 16.02s/it] 60%|█████▉    | 3960/6640 [3:37:59<12:17:57, 16.52s/it]                                                        {'loss': 0.5324, 'learning_rate': 7.396106220531398e-06, 'epoch': 0.6}
 60%|█████▉    | 3960/6640 [3:37:59<12:17:57, 16.52s/it] 60%|█████▉    | 3961/6640 [3:38:15<12:10:00, 16.35s/it]                                                        {'loss': 0.5101, 'learning_rate': 7.391396562699218e-06, 'epoch': 0.6}
 60%|█████▉    | 3961/6640 [3:38:15<12:10:00, 16.35s/it] 60%|█████▉    | 3962/6640 [3:38:31<12:13:54, 16.44s/it]                                                        {'loss': 0.4985, 'learning_rate': 7.38668752564467e-06, 'epoch': 0.6}
 60%|█████▉    | 3962/6640 [3:38:31<12:13:54, 16.44s/it] 60%|█████▉    | 3963/6640 [3:38:49<12:27:56, 16.76s/it]                                                        {'loss': 0.5385, 'learning_rate': 7.381979110488391e-06, 'epoch': 0.6}
 60%|█████▉    | 3963/6640 [3:38:49<12:27:56, 16.76s/it] 60%|█████▉    | 3964/6640 [3:39:06<12:36:44, 16.97s/it]                                                        {'loss': 0.5358, 'learning_rate': 7.377271318350847e-06, 'epoch': 0.6}
 60%|█████▉    | 3964/6640 [3:39:06<12:36:44, 16.97s/it] 60%|█████▉    | 3965/6640 [3:39:23<12:35:02, 16.94s/it]                                                        {'loss': 0.5086, 'learning_rate': 7.372564150352373e-06, 'epoch': 0.6}
 60%|█████▉    | 3965/6640 [3:39:23<12:35:02, 16.94s/it] 60%|█████▉    | 3966/6640 [3:39:39<12:26:01, 16.74s/it]                                                        {'loss': 0.517, 'learning_rate': 7.367857607613147e-06, 'epoch': 0.6}
 60%|█████▉    | 3966/6640 [3:39:39<12:26:01, 16.74s/it] 60%|█████▉    | 3967/6640 [3:39:55<12:15:08, 16.50s/it]                                                        {'loss': 0.5281, 'learning_rate': 7.3631516912531945e-06, 'epoch': 0.6}
 60%|█████▉    | 3967/6640 [3:39:55<12:15:08, 16.50s/it] 60%|█████▉    | 3968/6640 [3:40:11<12:10:07, 16.40s/it]                                                        {'loss': 0.52, 'learning_rate': 7.358446402392405e-06, 'epoch': 0.6}
 60%|█████▉    | 3968/6640 [3:40:11<12:10:07, 16.40s/it] 60%|█████▉    | 3969/6640 [3:40:28<12:08:45, 16.37s/it]                                                        {'loss': 0.5243, 'learning_rate': 7.353741742150509e-06, 'epoch': 0.6}
 60%|█████▉    | 3969/6640 [3:40:28<12:08:45, 16.37s/it] 60%|█████▉    | 3970/6640 [3:40:44<12:12:06, 16.45s/it]                                                        {'loss': 0.5299, 'learning_rate': 7.349037711647089e-06, 'epoch': 0.6}
 60%|█████▉    | 3970/6640 [3:40:44<12:12:06, 16.45s/it] 60%|█████▉    | 3971/6640 [3:41:01<12:10:37, 16.42s/it]                                                        {'loss': 0.5097, 'learning_rate': 7.3443343120015705e-06, 'epoch': 0.6}
 60%|█████▉    | 3971/6640 [3:41:01<12:10:37, 16.42s/it] 60%|█████▉    | 3972/6640 [3:41:17<12:09:19, 16.40s/it]                                                        {'loss': 0.5279, 'learning_rate': 7.33963154433325e-06, 'epoch': 0.6}
 60%|█████▉    | 3972/6640 [3:41:17<12:09:19, 16.40s/it] 60%|█████▉    | 3973/6640 [3:41:34<12:09:31, 16.41s/it]                                                        {'loss': 0.5281, 'learning_rate': 7.3349294097612515e-06, 'epoch': 0.6}
 60%|█████▉    | 3973/6640 [3:41:34<12:09:31, 16.41s/it] 60%|█████▉    | 3974/6640 [3:41:51<12:23:10, 16.73s/it]                                                        {'loss': 0.5337, 'learning_rate': 7.330227909404559e-06, 'epoch': 0.6}
 60%|█████▉    | 3974/6640 [3:41:51<12:23:10, 16.73s/it] 60%|█████▉    | 3975/6640 [3:42:07<12:12:33, 16.49s/it]                                                        {'loss': 0.5099, 'learning_rate': 7.325527044382004e-06, 'epoch': 0.6}
 60%|█████▉    | 3975/6640 [3:42:07<12:12:33, 16.49s/it] 60%|█████▉    | 3976/6640 [3:42:25<12:27:27, 16.83s/it]                                                        {'loss': 0.5377, 'learning_rate': 7.320826815812262e-06, 'epoch': 0.6}
 60%|█████▉    | 3976/6640 [3:42:25<12:27:27, 16.83s/it] 60%|█████▉    | 3977/6640 [3:42:42<12:34:08, 16.99s/it]                                                        {'loss': 0.5246, 'learning_rate': 7.316127224813868e-06, 'epoch': 0.6}
 60%|█████▉    | 3977/6640 [3:42:42<12:34:08, 16.99s/it] 60%|█████▉    | 3978/6640 [3:42:58<12:21:14, 16.71s/it]                                                        {'loss': 0.5335, 'learning_rate': 7.311428272505197e-06, 'epoch': 0.6}
 60%|█████▉    | 3978/6640 [3:42:58<12:21:14, 16.71s/it] 60%|█████▉    | 3979/6640 [3:43:14<12:08:54, 16.44s/it]                                                        {'loss': 0.5212, 'learning_rate': 7.306729960004471e-06, 'epoch': 0.6}
 60%|█████▉    | 3979/6640 [3:43:14<12:08:54, 16.44s/it] 60%|█████▉    | 3980/6640 [3:43:30<12:04:31, 16.34s/it]                                                        {'loss': 0.5087, 'learning_rate': 7.3020322884297565e-06, 'epoch': 0.6}
 60%|█████▉    | 3980/6640 [3:43:30<12:04:31, 16.34s/it] 60%|█████▉    | 3981/6640 [3:43:47<12:12:42, 16.53s/it]                                                        {'loss': 0.5028, 'learning_rate': 7.297335258898988e-06, 'epoch': 0.6}
 60%|█████▉    | 3981/6640 [3:43:47<12:12:42, 16.53s/it] 60%|█████▉    | 3982/6640 [3:44:03<12:06:26, 16.40s/it]                                                        {'loss': 0.537, 'learning_rate': 7.292638872529921e-06, 'epoch': 0.6}
 60%|█████▉    | 3982/6640 [3:44:03<12:06:26, 16.40s/it] 60%|█████▉    | 3983/6640 [3:44:19<11:57:24, 16.20s/it]                                                        {'loss': 0.5157, 'learning_rate': 7.287943130440176e-06, 'epoch': 0.6}
 60%|█████▉    | 3983/6640 [3:44:19<11:57:24, 16.20s/it] 60%|██████    | 3984/6640 [3:44:34<11:48:20, 16.00s/it]                                                        {'loss': 0.5166, 'learning_rate': 7.28324803374721e-06, 'epoch': 0.6}
 60%|██████    | 3984/6640 [3:44:34<11:48:20, 16.00s/it] 60%|██████    | 3985/6640 [3:44:50<11:45:46, 15.95s/it]                                                        {'loss': 0.5256, 'learning_rate': 7.278553583568326e-06, 'epoch': 0.6}
 60%|██████    | 3985/6640 [3:44:50<11:45:46, 15.95s/it] 60%|██████    | 3986/6640 [3:45:06<11:50:32, 16.06s/it]                                                        {'loss': 0.5336, 'learning_rate': 7.273859781020687e-06, 'epoch': 0.6}
 60%|██████    | 3986/6640 [3:45:06<11:50:32, 16.06s/it] 60%|██████    | 3987/6640 [3:45:23<11:58:39, 16.25s/it]                                                        {'loss': 0.5132, 'learning_rate': 7.269166627221288e-06, 'epoch': 0.6}
 60%|██████    | 3987/6640 [3:45:23<11:58:39, 16.25s/it] 60%|██████    | 3988/6640 [3:45:39<11:51:01, 16.09s/it]                                                        {'loss': 0.5203, 'learning_rate': 7.26447412328697e-06, 'epoch': 0.6}
 60%|██████    | 3988/6640 [3:45:39<11:51:01, 16.09s/it] 60%|██████    | 3989/6640 [3:45:57<12:20:22, 16.76s/it]                                                        {'loss': 0.5239, 'learning_rate': 7.259782270334425e-06, 'epoch': 0.6}
 60%|██████    | 3989/6640 [3:45:57<12:20:22, 16.76s/it] 60%|██████    | 3990/6640 [3:46:14<12:22:56, 16.82s/it]                                                        {'loss': 0.5298, 'learning_rate': 7.2550910694801905e-06, 'epoch': 0.6}
 60%|██████    | 3990/6640 [3:46:14<12:22:56, 16.82s/it] 60%|██████    | 3991/6640 [3:46:30<12:17:30, 16.70s/it]                                                        {'loss': 0.5369, 'learning_rate': 7.250400521840646e-06, 'epoch': 0.6}
 60%|██████    | 3991/6640 [3:46:30<12:17:30, 16.70s/it] 60%|██████    | 3992/6640 [3:46:47<12:09:49, 16.54s/it]                                                        {'loss': 0.5397, 'learning_rate': 7.2457106285320146e-06, 'epoch': 0.6}
 60%|██████    | 3992/6640 [3:46:47<12:09:49, 16.54s/it] 60%|██████    | 3993/6640 [3:47:03<12:01:55, 16.36s/it]                                                        {'loss': 0.5222, 'learning_rate': 7.241021390670366e-06, 'epoch': 0.6}
 60%|██████    | 3993/6640 [3:47:03<12:01:55, 16.36s/it] 60%|██████    | 3994/6640 [3:47:19<12:03:34, 16.41s/it]                                                        {'loss': 0.5153, 'learning_rate': 7.236332809371609e-06, 'epoch': 0.6}
 60%|██████    | 3994/6640 [3:47:19<12:03:34, 16.41s/it] 60%|██████    | 3995/6640 [3:47:36<12:05:19, 16.45s/it]                                                        {'loss': 0.538, 'learning_rate': 7.2316448857515076e-06, 'epoch': 0.6}
 60%|██████    | 3995/6640 [3:47:36<12:05:19, 16.45s/it] 60%|██████    | 3996/6640 [3:47:52<11:59:22, 16.32s/it]                                                        {'loss': 0.52, 'learning_rate': 7.2269576209256575e-06, 'epoch': 0.6}
 60%|██████    | 3996/6640 [3:47:52<11:59:22, 16.32s/it] 60%|██████    | 3997/6640 [3:48:08<11:59:46, 16.34s/it]                                                        {'loss': 0.5068, 'learning_rate': 7.2222710160095e-06, 'epoch': 0.6}
 60%|██████    | 3997/6640 [3:48:08<11:59:46, 16.34s/it] 60%|██████    | 3998/6640 [3:48:24<11:52:14, 16.18s/it]                                                        {'loss': 0.5014, 'learning_rate': 7.217585072118325e-06, 'epoch': 0.6}
 60%|██████    | 3998/6640 [3:48:24<11:52:14, 16.18s/it] 60%|██████    | 3999/6640 [3:48:42<12:14:12, 16.68s/it]                                                        {'loss': 0.5207, 'learning_rate': 7.2128997903672585e-06, 'epoch': 0.6}
 60%|██████    | 3999/6640 [3:48:42<12:14:12, 16.68s/it]2 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
 60%|██████    | 4000/6640 [3:48:58<12:14:54, 16.70s/it]3 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5437, 'learning_rate': 7.208215171871277e-06, 'epoch': 0.6}
 60%|██████    | 4000/6640 [3:48:58<12:14:54, 16.70s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4000/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4000/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4000/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 60%|██████    | 4001/6640 [3:50:47<32:28:40, 44.30s/it]                                                        {'loss': 0.5332, 'learning_rate': 7.20353121774519e-06, 'epoch': 0.6}
 60%|██████    | 4001/6640 [3:50:47<32:28:40, 44.30s/it] 60%|██████    | 4002/6640 [3:51:04<26:23:15, 36.01s/it]                                                        {'loss': 0.5313, 'learning_rate': 7.198847929103653e-06, 'epoch': 0.6}
 60%|██████    | 4002/6640 [3:51:04<26:23:15, 36.01s/it] 60%|██████    | 4003/6640 [3:51:20<22:05:53, 30.17s/it]                                                        {'loss': 0.5169, 'learning_rate': 7.194165307061159e-06, 'epoch': 0.6}
 60%|██████    | 4003/6640 [3:51:20<22:05:53, 30.17s/it] 60%|██████    | 4004/6640 [3:51:36<18:57:56, 25.90s/it]                                                        {'loss': 0.5101, 'learning_rate': 7.189483352732056e-06, 'epoch': 0.6}
 60%|██████    | 4004/6640 [3:51:36<18:57:56, 25.90s/it] 60%|██████    | 4005/6640 [3:51:53<16:51:09, 23.02s/it]                                                        {'loss': 0.509, 'learning_rate': 7.184802067230518e-06, 'epoch': 0.6}
 60%|██████    | 4005/6640 [3:51:53<16:51:09, 23.02s/it] 60%|██████    | 4006/6640 [3:52:08<15:14:31, 20.83s/it]                                                        {'loss': 0.5416, 'learning_rate': 7.1801214516705656e-06, 'epoch': 0.6}
 60%|██████    | 4006/6640 [3:52:08<15:14:31, 20.83s/it] 60%|██████    | 4007/6640 [3:52:25<14:20:51, 19.62s/it]                                                        {'loss': 0.5173, 'learning_rate': 7.175441507166056e-06, 'epoch': 0.6}
 60%|██████    | 4007/6640 [3:52:25<14:20:51, 19.62s/it] 60%|██████    | 4008/6640 [3:52:41<13:29:40, 18.46s/it]                                                        {'loss': 0.5134, 'learning_rate': 7.1707622348307e-06, 'epoch': 0.6}
 60%|██████    | 4008/6640 [3:52:41<13:29:40, 18.46s/it] 60%|██████    | 4009/6640 [3:52:57<13:00:04, 17.79s/it]                                                        {'loss': 0.5142, 'learning_rate': 7.166083635778033e-06, 'epoch': 0.6}
 60%|██████    | 4009/6640 [3:52:57<13:00:04, 17.79s/it] 60%|██████    | 4010/6640 [3:53:13<12:34:51, 17.22s/it]                                                        {'loss': 0.5054, 'learning_rate': 7.161405711121436e-06, 'epoch': 0.6}
 60%|██████    | 4010/6640 [3:53:13<12:34:51, 17.22s/it] 60%|██████    | 4011/6640 [3:53:29<12:20:32, 16.90s/it]                                                        {'loss': 0.5215, 'learning_rate': 7.15672846197413e-06, 'epoch': 0.6}
 60%|██████    | 4011/6640 [3:53:29<12:20:32, 16.90s/it] 60%|██████    | 4012/6640 [3:53:45<12:03:08, 16.51s/it]                                                        {'loss': 0.5079, 'learning_rate': 7.15205188944917e-06, 'epoch': 0.6}
 60%|██████    | 4012/6640 [3:53:45<12:03:08, 16.51s/it] 60%|██████    | 4013/6640 [3:54:00<11:52:21, 16.27s/it]                                                        {'loss': 0.5342, 'learning_rate': 7.147375994659465e-06, 'epoch': 0.6}
 60%|██████    | 4013/6640 [3:54:00<11:52:21, 16.27s/it] 60%|██████    | 4014/6640 [3:54:17<11:56:31, 16.37s/it]                                                        {'loss': 0.5151, 'learning_rate': 7.142700778717744e-06, 'epoch': 0.6}
 60%|██████    | 4014/6640 [3:54:17<11:56:31, 16.37s/it] 60%|██████    | 4015/6640 [3:54:34<11:57:16, 16.39s/it]                                                        {'loss': 0.5209, 'learning_rate': 7.1380262427365885e-06, 'epoch': 0.6}
 60%|██████    | 4015/6640 [3:54:34<11:57:16, 16.39s/it] 60%|██████    | 4016/6640 [3:54:50<11:54:53, 16.35s/it]                                                        {'loss': 0.5343, 'learning_rate': 7.133352387828407e-06, 'epoch': 0.6}
 60%|██████    | 4016/6640 [3:54:50<11:54:53, 16.35s/it] 60%|██████    | 4017/6640 [3:55:06<11:54:09, 16.34s/it]                                                        {'loss': 0.5414, 'learning_rate': 7.128679215105459e-06, 'epoch': 0.6}
 60%|██████    | 4017/6640 [3:55:06<11:54:09, 16.34s/it] 61%|██████    | 4018/6640 [3:55:22<11:49:29, 16.24s/it]                                                        {'loss': 0.4918, 'learning_rate': 7.124006725679828e-06, 'epoch': 0.61}
 61%|██████    | 4018/6640 [3:55:22<11:49:29, 16.24s/it] 61%|██████    | 4019/6640 [3:55:38<11:45:37, 16.15s/it]                                                        {'loss': 0.5157, 'learning_rate': 7.1193349206634455e-06, 'epoch': 0.61}
 61%|██████    | 4019/6640 [3:55:38<11:45:37, 16.15s/it] 61%|██████    | 4020/6640 [3:55:54<11:39:48, 16.03s/it]                                                        {'loss': 0.5175, 'learning_rate': 7.114663801168073e-06, 'epoch': 0.61}
 61%|██████    | 4020/6640 [3:55:54<11:39:48, 16.03s/it] 61%|██████    | 4021/6640 [3:56:10<11:41:40, 16.07s/it]                                                        {'loss': 0.526, 'learning_rate': 7.109993368305308e-06, 'epoch': 0.61}
 61%|██████    | 4021/6640 [3:56:10<11:41:40, 16.07s/it] 61%|██████    | 4022/6640 [3:56:27<11:48:43, 16.24s/it]                                                        {'loss': 0.5332, 'learning_rate': 7.105323623186595e-06, 'epoch': 0.61}
 61%|██████    | 4022/6640 [3:56:27<11:48:43, 16.24s/it] 61%|██████    | 4023/6640 [3:56:44<11:59:06, 16.49s/it]                                                        {'loss': 0.5424, 'learning_rate': 7.100654566923205e-06, 'epoch': 0.61}
 61%|██████    | 4023/6640 [3:56:44<11:59:06, 16.49s/it] 61%|██████    | 4024/6640 [3:57:00<11:53:14, 16.36s/it]                                                        {'loss': 0.5189, 'learning_rate': 7.095986200626251e-06, 'epoch': 0.61}
 61%|██████    | 4024/6640 [3:57:00<11:53:14, 16.36s/it]May 28 14:13:44.115465 4020963 slurmstepd   0x155550ab8700: error: *** STEP 8289522.0 ON batch-block1-0105 CANCELLED AT 2025-05-28T14:13:44 DUE TO TIME LIMIT ***
srun: Job step aborted: Waiting up to 122 seconds for job step to finish.
srun: error: batch-block1-0105: task 0: Terminated
srun: Terminating StepId=8289522.0
srun: job 8293604 queued and waiting for resources
srun: job 8293604 has been allocated resources
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
MASTER_ADDR=batch-block1-0033
JobID: 8293604 | Full list: batch-block1-0033 
NETWORK=Efficient-Large-Model/VILA1.5-13b
WARNING:torch.distributed.run:
*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
*****************************************
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
[2025-05-28 14:15:40,502] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 14:15:40,502] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 14:15:40,502] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 14:15:40,502] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 14:15:40,502] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 14:15:40,502] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 14:15:40,502] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 14:15:40,503] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 14:15:41,848] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 14:15:41,848] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 14:15:41,848] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 14:15:41,848] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 14:15:41,848] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 14:15:41,848] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 14:15:41,848] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 14:15:41,848] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 14:15:41,848] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 14:15:41,848] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 14:15:41,848] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 14:15:41,848] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 14:15:41,848] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 14:15:41,848] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 14:15:41,848] [INFO] [comm.py:625:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
[2025-05-28 14:15:41,848] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 14:15:41,848] [INFO] [comm.py:594:init_distributed] cdb=None
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-05-28 14:15:52,259] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.02B parameters
Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.63s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.63s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.63s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.64s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.64s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.64s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.66s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.24s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.24s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.24s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.24s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.24s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.25s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:08,  2.25s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:06<00:33,  6.71s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.05s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.06s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.06s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.06s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.06s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.07s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.09s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:12<00:24,  6.25s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:09,  4.61s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:09,  4.61s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:09,  4.61s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:09,  4.61s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:09,  4.62s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:16<00:09,  4.61s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:16<00:09,  4.65s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:18<00:17,  5.96s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:21<00:04,  4.77s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:21<00:04,  4.77s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:21<00:04,  4.77s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:21<00:04,  4.77s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:21<00:04,  4.77s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:21<00:04,  4.77s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:21<00:04,  4.79s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.48s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.66s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.48s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.67s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.48s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.67s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.48s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.67s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.48s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.67s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.48s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.67s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.47s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.67s/it]
Loading checkpoint shards:  67%|██████▋   | 4/6 [00:23<00:11,  5.64s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:28<00:05,  5.52s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:29<00:00,  4.05s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:29<00:00,  4.98s/it]
[2025-05-28 14:16:22,471] [WARNING] [partition_parameters.py:836:_post_init_method] param `probe` in SiglipMultiheadAttentionPoolingHead not on GPU so was not broadcasted from rank 0
[2025-05-28 14:16:22,472] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.44B parameters
[2025-05-28 14:16:24,381] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.49B parameters
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask'][Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']

[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[dist-0-of-8] LlavaLlamaModel(
  (llm): LlamaForCausalLM(
    (model): LlamaModel(
      (embed_tokens): Embedding(32000, 5120, padding_idx=0)
      (layers): ModuleList(
        (0-39): 40 x LlamaDecoderLayer(
          (self_attn): LlamaFlashAttention2(
            (q_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (k_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (v_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (o_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (rotary_emb): LlamaRotaryEmbedding()
          )
          (mlp): LlamaMLP(
            (gate_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (up_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (down_proj): Linear(in_features=13824, out_features=5120, bias=False)
            (act_fn): SiLU()
          )
          (input_layernorm): LlamaRMSNorm()
          (post_attention_layernorm): LlamaRMSNorm()
        )
      )
      (norm): LlamaRMSNorm()
    )
    (lm_head): Linear(in_features=5120, out_features=32000, bias=False)
  )
  (vision_tower): SiglipVisionTower(
    (vision_tower): SiglipVisionModel(
      (vision_model): SiglipVisionTransformer(
        (embeddings): SiglipVisionEmbeddings(
          (patch_embedding): Conv2d(3, 1152, kernel_size=(14, 14), stride=(14, 14), padding=valid)
          (position_embedding): Embedding(729, 1152)
        )
        (encoder): SiglipEncoder(
          (layers): ModuleList(
            (0-26): 27 x SiglipEncoderLayer(
              (self_attn): SiglipAttention(
                (k_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (v_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (q_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (out_proj): Linear(in_features=1152, out_features=1152, bias=True)
              )
              (layer_norm1): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
              (mlp): SiglipMLP(
                (activation_fn): PytorchGELUTanh()
                (fc1): Linear(in_features=1152, out_features=4304, bias=True)
                (fc2): Linear(in_features=4304, out_features=1152, bias=True)
              )
              (layer_norm2): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
            )
          )
        )
        (post_layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
        (head): SiglipMultiheadAttentionPoolingHead(
          (attention): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=1152, out_features=1152, bias=True)
          )
          (layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
          (mlp): SiglipMLP(
            (activation_fn): PytorchGELUTanh()
            (fc1): Linear(in_features=1152, out_features=4304, bias=True)
            (fc2): Linear(in_features=4304, out_features=1152, bias=True)
          )
        )
      )
    )
  )
  (mm_projector): MultimodalProjector(
    (layers): Sequential(
      (0): DownSampleBlock()
      (1): LayerNorm((4608,), eps=1e-05, elementwise_affine=True)
      (2): Linear(in_features=4608, out_features=5120, bias=True)
      (3): GELU(approximate='none')
      (4): Linear(in_features=5120, out_features=5120, bias=True)
    )
  )
)
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[dist-0-of-8] Tunable parameters:
language model True
[dist-0-of-8] vision tower True
[dist-0-of-8] mm projector True
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.234355926513672
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2337231636047363
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.234659194946289
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2355504035949707
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.234384059906006
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.236111640930176
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2342638969421387
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2336525917053223
Parameter Offload: Total persistent parameters: 847296 in 365 params
wandb: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
wandb: Tracking run with wandb version 0.18.7
wandb: Run data is saved locally in /lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/wandb/run-20250528_141810-nbp9zjo2
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run vila_13b_path_mask
wandb: ⭐️ View project at https://wandb.ai/memmelma/VILA
wandb: 🚀 View run at https://wandb.ai/memmelma/VILA/runs/nbp9zjo2
  0%|          | 0/6640 [00:00<?, ?it/s]Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
 60%|██████    | 4001/6640 [00:32<00:21, 123.81it/s]                                                    {'loss': 0.5332, 'learning_rate': 7.20353121774519e-06, 'epoch': 0.6}
 60%|██████    | 4001/6640 [00:32<00:21, 123.81it/s]                                                    {'loss': 0.5312, 'learning_rate': 7.198847929103653e-06, 'epoch': 0.6}
 60%|██████    | 4002/6640 [00:49<00:21, 123.81it/s] 60%|██████    | 4002/6640 [00:50<00:21, 123.81it/s] 60%|██████    | 4003/6640 [01:05<00:52, 49.97it/s]                                                    {'loss': 0.5169, 'learning_rate': 7.194165307061159e-06, 'epoch': 0.6}
 60%|██████    | 4003/6640 [01:05<00:52, 49.97it/s] 60%|██████    | 4004/6640 [01:21<01:14, 35.47it/s]                                                   {'loss': 0.51, 'learning_rate': 7.189483352732056e-06, 'epoch': 0.6}
 60%|██████    | 4004/6640 [01:21<01:14, 35.47it/s] 60%|██████    | 4005/6640 [01:38<01:45, 24.89it/s]                                                   {'loss': 0.5091, 'learning_rate': 7.184802067230518e-06, 'epoch': 0.6}
 60%|██████    | 4005/6640 [01:38<01:45, 24.89it/s] 60%|██████    | 4006/6640 [01:54<02:29, 17.66it/s]                                                   {'loss': 0.5414, 'learning_rate': 7.1801214516705656e-06, 'epoch': 0.6}
 60%|██████    | 4006/6640 [01:54<02:29, 17.66it/s] 60%|██████    | 4007/6640 [02:11<03:34, 12.25it/s]                                                   {'loss': 0.517, 'learning_rate': 7.175441507166056e-06, 'epoch': 0.6}
 60%|██████    | 4007/6640 [02:11<03:34, 12.25it/s] 60%|██████    | 4008/6640 [02:27<05:03,  8.68it/s]                                                   {'loss': 0.5137, 'learning_rate': 7.1707622348307e-06, 'epoch': 0.6}
 60%|██████    | 4008/6640 [02:27<05:03,  8.68it/s] 60%|██████    | 4009/6640 [02:43<07:11,  6.10it/s]                                                   {'loss': 0.5141, 'learning_rate': 7.166083635778033e-06, 'epoch': 0.6}
 60%|██████    | 4009/6640 [02:43<07:11,  6.10it/s] 60%|██████    | 4010/6640 [02:59<10:10,  4.31it/s]                                                   {'loss': 0.5055, 'learning_rate': 7.161405711121436e-06, 'epoch': 0.6}
 60%|██████    | 4010/6640 [02:59<10:10,  4.31it/s] 60%|██████    | 4011/6640 [03:15<14:26,  3.03it/s]                                                   {'loss': 0.5215, 'learning_rate': 7.15672846197413e-06, 'epoch': 0.6}
 60%|██████    | 4011/6640 [03:15<14:26,  3.03it/s] 60%|██████    | 4012/6640 [03:31<20:14,  2.16it/s]                                                   {'loss': 0.508, 'learning_rate': 7.15205188944917e-06, 'epoch': 0.6}
 60%|██████    | 4012/6640 [03:31<20:14,  2.16it/s] 60%|██████    | 4013/6640 [03:47<28:27,  1.54it/s]                                                   {'loss': 0.5343, 'learning_rate': 7.147375994659465e-06, 'epoch': 0.6}
 60%|██████    | 4013/6640 [03:47<28:27,  1.54it/s] 60%|██████    | 4014/6640 [04:04<40:29,  1.08it/s]                                                   {'loss': 0.515, 'learning_rate': 7.142700778717744e-06, 'epoch': 0.6}
 60%|██████    | 4014/6640 [04:04<40:29,  1.08it/s] 60%|██████    | 4015/6640 [04:21<56:54,  1.30s/it]                                                   {'loss': 0.521, 'learning_rate': 7.1380262427365885e-06, 'epoch': 0.6}
 60%|██████    | 4015/6640 [04:21<56:54,  1.30s/it] 60%|██████    | 4016/6640 [04:37<1:18:29,  1.79s/it]                                                     {'loss': 0.5342, 'learning_rate': 7.133352387828407e-06, 'epoch': 0.6}
 60%|██████    | 4016/6640 [04:37<1:18:29,  1.79s/it] 60%|██████    | 4017/6640 [04:54<1:47:26,  2.46s/it]                                                     {'loss': 0.5411, 'learning_rate': 7.128679215105459e-06, 'epoch': 0.6}
 60%|██████    | 4017/6640 [04:54<1:47:26,  2.46s/it] 61%|██████    | 4018/6640 [05:10<2:23:09,  3.28s/it]                                                     {'loss': 0.4921, 'learning_rate': 7.124006725679828e-06, 'epoch': 0.61}
 61%|██████    | 4018/6640 [05:10<2:23:09,  3.28s/it] 61%|██████    | 4019/6640 [05:26<3:07:53,  4.30s/it]                                                     {'loss': 0.5158, 'learning_rate': 7.1193349206634455e-06, 'epoch': 0.61}
 61%|██████    | 4019/6640 [05:26<3:07:53,  4.30s/it] 61%|██████    | 4020/6640 [05:42<3:59:27,  5.48s/it]                                                     {'loss': 0.5174, 'learning_rate': 7.114663801168073e-06, 'epoch': 0.61}
 61%|██████    | 4020/6640 [05:42<3:59:27,  5.48s/it] 61%|██████    | 4021/6640 [05:58<4:58:55,  6.85s/it]                                                     {'loss': 0.5258, 'learning_rate': 7.109993368305308e-06, 'epoch': 0.61}
 61%|██████    | 4021/6640 [05:58<4:58:55,  6.85s/it] 61%|██████    | 4022/6640 [06:15<6:05:54,  8.39s/it]                                                     {'loss': 0.5333, 'learning_rate': 7.105323623186595e-06, 'epoch': 0.61}
 61%|██████    | 4022/6640 [06:15<6:05:54,  8.39s/it] 61%|██████    | 4023/6640 [06:32<7:15:29,  9.98s/it]                                                     {'loss': 0.5423, 'learning_rate': 7.100654566923205e-06, 'epoch': 0.61}
 61%|██████    | 4023/6640 [06:32<7:15:29,  9.98s/it] 61%|██████    | 4024/6640 [06:48<8:11:09, 11.27s/it]                                                     {'loss': 0.5189, 'learning_rate': 7.095986200626251e-06, 'epoch': 0.61}
 61%|██████    | 4024/6640 [06:48<8:11:09, 11.27s/it] 61%|██████    | 4025/6640 [07:04<8:57:03, 12.32s/it]                                                     {'loss': 0.5149, 'learning_rate': 7.091318525406671e-06, 'epoch': 0.61}
 61%|██████    | 4025/6640 [07:04<8:57:03, 12.32s/it] 61%|██████    | 4026/6640 [07:20<9:33:59, 13.17s/it]                                                     {'loss': 0.5147, 'learning_rate': 7.086651542375256e-06, 'epoch': 0.61}
 61%|██████    | 4026/6640 [07:20<9:33:59, 13.17s/it] 61%|██████    | 4027/6640 [07:37<10:10:49, 14.03s/it]                                                      {'loss': 0.5199, 'learning_rate': 7.081985252642621e-06, 'epoch': 0.61}
 61%|██████    | 4027/6640 [07:37<10:10:49, 14.03s/it] 61%|██████    | 4028/6640 [07:53<10:42:44, 14.76s/it]                                                      {'loss': 0.5284, 'learning_rate': 7.0773196573192124e-06, 'epoch': 0.61}
 61%|██████    | 4028/6640 [07:53<10:42:44, 14.76s/it] 61%|██████    | 4029/6640 [08:09<10:56:15, 15.08s/it]                                                      {'loss': 0.5036, 'learning_rate': 7.072654757515321e-06, 'epoch': 0.61}
 61%|██████    | 4029/6640 [08:09<10:56:15, 15.08s/it] 61%|██████    | 4030/6640 [08:26<11:12:56, 15.47s/it]                                                      {'loss': 0.5368, 'learning_rate': 7.067990554341064e-06, 'epoch': 0.61}
 61%|██████    | 4030/6640 [08:26<11:12:56, 15.47s/it] 61%|██████    | 4031/6640 [08:42<11:21:27, 15.67s/it]                                                      {'loss': 0.5168, 'learning_rate': 7.063327048906401e-06, 'epoch': 0.61}
 61%|██████    | 4031/6640 [08:42<11:21:27, 15.67s/it] 61%|██████    | 4032/6640 [08:59<11:42:55, 16.17s/it]                                                      {'loss': 0.5124, 'learning_rate': 7.058664242321121e-06, 'epoch': 0.61}
 61%|██████    | 4032/6640 [08:59<11:42:55, 16.17s/it] 61%|██████    | 4033/6640 [09:16<11:48:36, 16.31s/it]                                                      {'loss': 0.5138, 'learning_rate': 7.054002135694844e-06, 'epoch': 0.61}
 61%|██████    | 4033/6640 [09:16<11:48:36, 16.31s/it] 61%|██████    | 4034/6640 [09:33<11:57:04, 16.51s/it]                                                      {'loss': 0.5303, 'learning_rate': 7.049340730137024e-06, 'epoch': 0.61}
 61%|██████    | 4034/6640 [09:33<11:57:04, 16.51s/it] 61%|██████    | 4035/6640 [09:49<11:55:21, 16.48s/it]                                                      {'loss': 0.5259, 'learning_rate': 7.04468002675696e-06, 'epoch': 0.61}
 61%|██████    | 4035/6640 [09:49<11:55:21, 16.48s/it] 61%|██████    | 4036/6640 [10:06<11:59:15, 16.57s/it]                                                      {'loss': 0.5336, 'learning_rate': 7.040020026663767e-06, 'epoch': 0.61}
 61%|██████    | 4036/6640 [10:06<11:59:15, 16.57s/it] 61%|██████    | 4037/6640 [10:23<11:59:41, 16.59s/it]                                                      {'loss': 0.5133, 'learning_rate': 7.035360730966403e-06, 'epoch': 0.61}
 61%|██████    | 4037/6640 [10:23<11:59:41, 16.59s/it] 61%|██████    | 4038/6640 [10:40<12:03:08, 16.67s/it]                                                      {'loss': 0.5324, 'learning_rate': 7.030702140773651e-06, 'epoch': 0.61}
 61%|██████    | 4038/6640 [10:40<12:03:08, 16.67s/it] 61%|██████    | 4039/6640 [10:56<11:53:56, 16.47s/it]                                                      {'loss': 0.5376, 'learning_rate': 7.026044257194133e-06, 'epoch': 0.61}
 61%|██████    | 4039/6640 [10:56<11:53:56, 16.47s/it] 61%|██████    | 4040/6640 [11:11<11:43:44, 16.24s/it]                                                      {'loss': 0.5256, 'learning_rate': 7.021387081336302e-06, 'epoch': 0.61}
 61%|██████    | 4040/6640 [11:11<11:43:44, 16.24s/it] 61%|██████    | 4041/6640 [11:29<12:05:09, 16.74s/it]                                                      {'loss': 0.5272, 'learning_rate': 7.01673061430844e-06, 'epoch': 0.61}
 61%|██████    | 4041/6640 [11:29<12:05:09, 16.74s/it] 61%|██████    | 4042/6640 [11:46<11:59:33, 16.62s/it]                                                      {'loss': 0.5267, 'learning_rate': 7.012074857218662e-06, 'epoch': 0.61}
 61%|██████    | 4042/6640 [11:46<11:59:33, 16.62s/it] 61%|██████    | 4043/6640 [12:02<11:57:08, 16.57s/it]                                                      {'loss': 0.5147, 'learning_rate': 7.007419811174907e-06, 'epoch': 0.61}
 61%|██████    | 4043/6640 [12:02<11:57:08, 16.57s/it] 61%|██████    | 4044/6640 [12:19<12:01:10, 16.67s/it]                                                      {'loss': 0.5309, 'learning_rate': 7.0027654772849615e-06, 'epoch': 0.61}
 61%|██████    | 4044/6640 [12:19<12:01:10, 16.67s/it] 61%|██████    | 4045/6640 [12:37<12:14:09, 16.97s/it]                                                      {'loss': 0.5179, 'learning_rate': 6.998111856656427e-06, 'epoch': 0.61}
 61%|██████    | 4045/6640 [12:37<12:14:09, 16.97s/it] 61%|██████    | 4046/6640 [12:53<12:07:47, 16.83s/it]                                                      {'loss': 0.512, 'learning_rate': 6.993458950396738e-06, 'epoch': 0.61}
 61%|██████    | 4046/6640 [12:53<12:07:47, 16.83s/it] 61%|██████    | 4047/6640 [13:10<12:02:06, 16.71s/it]                                                      {'loss': 0.5291, 'learning_rate': 6.988806759613165e-06, 'epoch': 0.61}
 61%|██████    | 4047/6640 [13:10<12:02:06, 16.71s/it] 61%|██████    | 4048/6640 [13:26<11:56:39, 16.59s/it]                                                      {'loss': 0.5041, 'learning_rate': 6.984155285412799e-06, 'epoch': 0.61}
 61%|██████    | 4048/6640 [13:26<11:56:39, 16.59s/it] 61%|██████    | 4049/6640 [13:43<12:04:01, 16.77s/it]                                                      {'loss': 0.5323, 'learning_rate': 6.979504528902576e-06, 'epoch': 0.61}
 61%|██████    | 4049/6640 [13:43<12:04:01, 16.77s/it]4 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...7
 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 61%|██████    | 4050/6640 [14:00<11:59:12, 16.66s/it]                                                      {'loss': 0.5225, 'learning_rate': 6.974854491189243e-06, 'epoch': 0.61}
 61%|██████    | 4050/6640 [14:00<11:59:12, 16.66s/it] 61%|██████    | 4051/6640 [14:16<11:59:52, 16.68s/it]                                                      {'loss': 0.5105, 'learning_rate': 6.970205173379389e-06, 'epoch': 0.61}
 61%|██████    | 4051/6640 [14:16<11:59:52, 16.68s/it] 61%|██████    | 4052/6640 [14:32<11:53:41, 16.55s/it]                                                      {'loss': 0.5058, 'learning_rate': 6.9655565765794195e-06, 'epoch': 0.61}
 61%|██████    | 4052/6640 [14:32<11:53:41, 16.55s/it] 61%|██████    | 4053/6640 [14:49<11:49:44, 16.46s/it]                                                      {'loss': 0.5337, 'learning_rate': 6.9609087018955855e-06, 'epoch': 0.61}
 61%|██████    | 4053/6640 [14:49<11:49:44, 16.46s/it] 61%|██████    | 4054/6640 [15:05<11:52:38, 16.53s/it]                                                      {'loss': 0.5322, 'learning_rate': 6.956261550433951e-06, 'epoch': 0.61}
 61%|██████    | 4054/6640 [15:05<11:52:38, 16.53s/it] 61%|██████    | 4055/6640 [15:22<11:47:40, 16.43s/it]                                                      {'loss': 0.5264, 'learning_rate': 6.951615123300415e-06, 'epoch': 0.61}
 61%|██████    | 4055/6640 [15:22<11:47:40, 16.43s/it] 61%|██████    | 4056/6640 [15:39<11:57:53, 16.67s/it]                                                      {'loss': 0.5344, 'learning_rate': 6.946969421600702e-06, 'epoch': 0.61}
 61%|██████    | 4056/6640 [15:39<11:57:53, 16.67s/it] 61%|██████    | 4057/6640 [15:55<11:46:53, 16.42s/it]                                                      {'loss': 0.5135, 'learning_rate': 6.94232444644036e-06, 'epoch': 0.61}
 61%|██████    | 4057/6640 [15:55<11:46:53, 16.42s/it] 61%|██████    | 4058/6640 [16:12<11:57:01, 16.66s/it]                                                      {'loss': 0.5112, 'learning_rate': 6.937680198924779e-06, 'epoch': 0.61}
 61%|██████    | 4058/6640 [16:12<11:57:01, 16.66s/it] 61%|██████    | 4059/6640 [16:28<11:52:55, 16.57s/it]                                                      {'loss': 0.5334, 'learning_rate': 6.933036680159158e-06, 'epoch': 0.61}
 61%|██████    | 4059/6640 [16:28<11:52:55, 16.57s/it] 61%|██████    | 4060/6640 [16:44<11:42:25, 16.34s/it]                                                      {'loss': 0.4963, 'learning_rate': 6.928393891248529e-06, 'epoch': 0.61}
 61%|██████    | 4060/6640 [16:44<11:42:25, 16.34s/it] 61%|██████    | 4061/6640 [17:01<11:44:27, 16.39s/it]                                                      {'loss': 0.5188, 'learning_rate': 6.923751833297751e-06, 'epoch': 0.61}
 61%|██████    | 4061/6640 [17:01<11:44:27, 16.39s/it] 61%|██████    | 4062/6640 [17:17<11:45:09, 16.41s/it]                                                      {'loss': 0.5051, 'learning_rate': 6.919110507411515e-06, 'epoch': 0.61}
 61%|██████    | 4062/6640 [17:17<11:45:09, 16.41s/it] 61%|██████    | 4063/6640 [17:34<11:47:45, 16.48s/it]                                                      {'loss': 0.5149, 'learning_rate': 6.9144699146943285e-06, 'epoch': 0.61}
 61%|██████    | 4063/6640 [17:34<11:47:45, 16.48s/it] 61%|██████    | 4064/6640 [17:50<11:49:30, 16.53s/it]                                                      {'loss': 0.5165, 'learning_rate': 6.909830056250527e-06, 'epoch': 0.61}
 61%|██████    | 4064/6640 [17:50<11:49:30, 16.53s/it] 61%|██████    | 4065/6640 [18:07<11:45:32, 16.44s/it]                                                      {'loss': 0.5398, 'learning_rate': 6.905190933184275e-06, 'epoch': 0.61}
 61%|██████    | 4065/6640 [18:07<11:45:32, 16.44s/it] 61%|██████    | 4066/6640 [18:23<11:47:06, 16.48s/it]                                                      {'loss': 0.5188, 'learning_rate': 6.900552546599553e-06, 'epoch': 0.61}
 61%|██████    | 4066/6640 [18:23<11:47:06, 16.48s/it] 61%|██████▏   | 4067/6640 [18:41<12:03:57, 16.88s/it]                                                      {'loss': 0.5487, 'learning_rate': 6.895914897600182e-06, 'epoch': 0.61}
 61%|██████▏   | 4067/6640 [18:41<12:03:57, 16.88s/it] 61%|██████▏   | 4068/6640 [18:58<12:03:23, 16.88s/it]                                                      {'loss': 0.5191, 'learning_rate': 6.891277987289794e-06, 'epoch': 0.61}
 61%|██████▏   | 4068/6640 [18:58<12:03:23, 16.88s/it] 61%|██████▏   | 4069/6640 [19:14<11:56:30, 16.72s/it]                                                      {'loss': 0.5302, 'learning_rate': 6.886641816771848e-06, 'epoch': 0.61}
 61%|██████▏   | 4069/6640 [19:14<11:56:30, 16.72s/it] 61%|██████▏   | 4070/6640 [19:30<11:49:28, 16.56s/it]                                                      {'loss': 0.5211, 'learning_rate': 6.882006387149625e-06, 'epoch': 0.61}
 61%|██████▏   | 4070/6640 [19:30<11:49:28, 16.56s/it] 61%|██████▏   | 4071/6640 [19:47<11:45:15, 16.47s/it]                                                      {'loss': 0.5184, 'learning_rate': 6.877371699526241e-06, 'epoch': 0.61}
 61%|██████▏   | 4071/6640 [19:47<11:45:15, 16.47s/it] 61%|██████▏   | 4072/6640 [20:03<11:48:31, 16.55s/it]                                                      {'loss': 0.5008, 'learning_rate': 6.872737755004619e-06, 'epoch': 0.61}
 61%|██████▏   | 4072/6640 [20:03<11:48:31, 16.55s/it] 61%|██████▏   | 4073/6640 [20:19<11:39:21, 16.35s/it]                                                      {'loss': 0.5314, 'learning_rate': 6.868104554687523e-06, 'epoch': 0.61}
 61%|██████▏   | 4073/6640 [20:19<11:39:21, 16.35s/it] 61%|██████▏   | 4074/6640 [20:36<11:43:35, 16.45s/it]                                                      {'loss': 0.5143, 'learning_rate': 6.863472099677523e-06, 'epoch': 0.61}
 61%|██████▏   | 4074/6640 [20:36<11:43:35, 16.45s/it] 61%|██████▏   | 4075/6640 [20:52<11:44:09, 16.47s/it]                                                      {'loss': 0.5144, 'learning_rate': 6.858840391077017e-06, 'epoch': 0.61}
 61%|██████▏   | 4075/6640 [20:52<11:44:09, 16.47s/it] 61%|██████▏   | 4076/6640 [21:09<11:44:10, 16.48s/it]                                                      {'loss': 0.5264, 'learning_rate': 6.854209429988236e-06, 'epoch': 0.61}
 61%|██████▏   | 4076/6640 [21:09<11:44:10, 16.48s/it] 61%|██████▏   | 4077/6640 [21:25<11:42:48, 16.45s/it]                                                      {'loss': 0.5278, 'learning_rate': 6.849579217513218e-06, 'epoch': 0.61}
 61%|██████▏   | 4077/6640 [21:25<11:42:48, 16.45s/it] 61%|██████▏   | 4078/6640 [21:42<11:41:08, 16.42s/it]                                                      {'loss': 0.5127, 'learning_rate': 6.844949754753833e-06, 'epoch': 0.61}
 61%|██████▏   | 4078/6640 [21:42<11:41:08, 16.42s/it] 61%|██████▏   | 4079/6640 [21:58<11:40:22, 16.41s/it]                                                      {'loss': 0.5258, 'learning_rate': 6.840321042811764e-06, 'epoch': 0.61}
 61%|██████▏   | 4079/6640 [21:58<11:40:22, 16.41s/it] 61%|██████▏   | 4080/6640 [22:15<11:47:34, 16.58s/it]                                                      {'loss': 0.5077, 'learning_rate': 6.8356930827885256e-06, 'epoch': 0.61}
 61%|██████▏   | 4080/6640 [22:15<11:47:34, 16.58s/it] 61%|██████▏   | 4081/6640 [22:31<11:41:18, 16.44s/it]                                                      {'loss': 0.5109, 'learning_rate': 6.831065875785446e-06, 'epoch': 0.61}
 61%|██████▏   | 4081/6640 [22:31<11:41:18, 16.44s/it] 61%|██████▏   | 4082/6640 [22:47<11:39:27, 16.41s/it]                                                      {'loss': 0.5298, 'learning_rate': 6.826439422903677e-06, 'epoch': 0.61}
 61%|██████▏   | 4082/6640 [22:47<11:39:27, 16.41s/it] 61%|██████▏   | 4083/6640 [23:04<11:38:39, 16.39s/it]                                                      {'loss': 0.531, 'learning_rate': 6.821813725244189e-06, 'epoch': 0.61}
 61%|██████▏   | 4083/6640 [23:04<11:38:39, 16.39s/it] 62%|██████▏   | 4084/6640 [23:21<11:52:40, 16.73s/it]                                                      {'loss': 0.537, 'learning_rate': 6.817188783907771e-06, 'epoch': 0.62}
 62%|██████▏   | 4084/6640 [23:21<11:52:40, 16.73s/it] 62%|██████▏   | 4085/6640 [23:37<11:40:47, 16.46s/it]                                                      {'loss': 0.5057, 'learning_rate': 6.812564599995042e-06, 'epoch': 0.62}
 62%|██████▏   | 4085/6640 [23:37<11:40:47, 16.46s/it] 62%|██████▏   | 4086/6640 [23:54<11:44:12, 16.54s/it]                                                      {'loss': 0.5361, 'learning_rate': 6.807941174606432e-06, 'epoch': 0.62}
 62%|██████▏   | 4086/6640 [23:54<11:44:12, 16.54s/it] 62%|██████▏   | 4087/6640 [24:11<11:45:24, 16.58s/it]                                                      {'loss': 0.5194, 'learning_rate': 6.8033185088421874e-06, 'epoch': 0.62}
 62%|██████▏   | 4087/6640 [24:11<11:45:24, 16.58s/it] 62%|██████▏   | 4088/6640 [24:27<11:37:37, 16.40s/it]                                                      {'loss': 0.5183, 'learning_rate': 6.798696603802382e-06, 'epoch': 0.62}
 62%|██████▏   | 4088/6640 [24:27<11:37:37, 16.40s/it] 62%|██████▏   | 4089/6640 [24:43<11:34:21, 16.33s/it]                                                      {'loss': 0.5042, 'learning_rate': 6.7940754605869034e-06, 'epoch': 0.62}
 62%|██████▏   | 4089/6640 [24:43<11:34:21, 16.33s/it] 62%|██████▏   | 4090/6640 [25:00<11:42:51, 16.54s/it]                                                      {'loss': 0.5162, 'learning_rate': 6.789455080295464e-06, 'epoch': 0.62}
 62%|██████▏   | 4090/6640 [25:00<11:42:51, 16.54s/it] 62%|██████▏   | 4091/6640 [25:16<11:41:42, 16.52s/it]                                                      {'loss': 0.5289, 'learning_rate': 6.7848354640275884e-06, 'epoch': 0.62}
 62%|██████▏   | 4091/6640 [25:16<11:41:42, 16.52s/it] 62%|██████▏   | 4092/6640 [25:32<11:35:06, 16.37s/it]                                                      {'loss': 0.524, 'learning_rate': 6.78021661288262e-06, 'epoch': 0.62}
 62%|██████▏   | 4092/6640 [25:32<11:35:06, 16.37s/it] 62%|██████▏   | 4093/6640 [25:49<11:45:44, 16.63s/it]                                                      {'loss': 0.5333, 'learning_rate': 6.775598527959717e-06, 'epoch': 0.62}
 62%|██████▏   | 4093/6640 [25:49<11:45:44, 16.63s/it] 62%|██████▏   | 4094/6640 [26:06<11:39:13, 16.48s/it]                                                      {'loss': 0.5001, 'learning_rate': 6.77098121035787e-06, 'epoch': 0.62}
 62%|██████▏   | 4094/6640 [26:06<11:39:13, 16.48s/it] 62%|██████▏   | 4095/6640 [26:23<11:44:02, 16.60s/it]                                                      {'loss': 0.5491, 'learning_rate': 6.766364661175872e-06, 'epoch': 0.62}
 62%|██████▏   | 4095/6640 [26:23<11:44:02, 16.60s/it] 62%|██████▏   | 4096/6640 [26:39<11:40:44, 16.53s/it]                                                      {'loss': 0.5168, 'learning_rate': 6.7617488815123336e-06, 'epoch': 0.62}
 62%|██████▏   | 4096/6640 [26:39<11:40:44, 16.53s/it] 62%|██████▏   | 4097/6640 [26:55<11:34:14, 16.38s/it]                                                      {'loss': 0.5192, 'learning_rate': 6.757133872465691e-06, 'epoch': 0.62}
 62%|██████▏   | 4097/6640 [26:55<11:34:14, 16.38s/it] 62%|██████▏   | 4098/6640 [27:11<11:35:47, 16.42s/it]                                                      {'loss': 0.5123, 'learning_rate': 6.7525196351341915e-06, 'epoch': 0.62}
 62%|██████▏   | 4098/6640 [27:11<11:35:47, 16.42s/it] 62%|██████▏   | 4099/6640 [27:28<11:31:45, 16.33s/it]                                                      {'loss': 0.5308, 'learning_rate': 6.7479061706159034e-06, 'epoch': 0.62}
 62%|██████▏   | 4099/6640 [27:28<11:31:45, 16.33s/it]34 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
 62%|██████▏   | 4100/6640 [27:44<11:34:15, 16.40s/it]5 AutoResumeHook: Checking whether to suspend...
                                                      {'loss': 0.5221, 'learning_rate': 6.743293480008703e-06, 'epoch': 0.62}
 62%|██████▏   | 4100/6640 [27:44<11:34:15, 16.40s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4100/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4100/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4100/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 62%|██████▏   | 4101/6640 [29:30<30:35:20, 43.37s/it]                                                      {'loss': 0.5276, 'learning_rate': 6.7386815644102875e-06, 'epoch': 0.62}
 62%|██████▏   | 4101/6640 [29:30<30:35:20, 43.37s/it] 62%|██████▏   | 4102/6640 [29:47<24:56:15, 35.37s/it]                                                      {'loss': 0.5234, 'learning_rate': 6.734070424918167e-06, 'epoch': 0.62}
 62%|██████▏   | 4102/6640 [29:47<24:56:15, 35.37s/it] 62%|██████▏   | 4103/6640 [30:03<20:49:07, 29.54s/it]                                                      {'loss': 0.52, 'learning_rate': 6.729460062629673e-06, 'epoch': 0.62}
 62%|██████▏   | 4103/6640 [30:03<20:49:07, 29.54s/it] 62%|██████▏   | 4104/6640 [30:19<18:01:49, 25.60s/it]                                                      {'loss': 0.532, 'learning_rate': 6.72485047864195e-06, 'epoch': 0.62}
 62%|██████▏   | 4104/6640 [30:19<18:01:49, 25.60s/it] 62%|██████▏   | 4105/6640 [30:36<16:02:03, 22.77s/it]                                                      {'loss': 0.5422, 'learning_rate': 6.720241674051948e-06, 'epoch': 0.62}
 62%|██████▏   | 4105/6640 [30:36<16:02:03, 22.77s/it] 62%|██████▏   | 4106/6640 [30:52<14:39:38, 20.83s/it]                                                      {'loss': 0.5136, 'learning_rate': 6.715633649956444e-06, 'epoch': 0.62}
 62%|██████▏   | 4106/6640 [30:52<14:39:38, 20.83s/it] 62%|██████▏   | 4107/6640 [31:09<13:51:23, 19.69s/it]                                                      {'loss': 0.5239, 'learning_rate': 6.711026407452023e-06, 'epoch': 0.62}
 62%|██████▏   | 4107/6640 [31:09<13:51:23, 19.69s/it] 62%|██████▏   | 4108/6640 [31:25<13:05:16, 18.61s/it]                                                      {'loss': 0.5519, 'learning_rate': 6.706419947635087e-06, 'epoch': 0.62}
 62%|██████▏   | 4108/6640 [31:25<13:05:16, 18.61s/it] 62%|██████▏   | 4109/6640 [31:42<12:41:59, 18.06s/it]                                                      {'loss': 0.5205, 'learning_rate': 6.701814271601847e-06, 'epoch': 0.62}
 62%|██████▏   | 4109/6640 [31:42<12:41:59, 18.06s/it] 62%|██████▏   | 4110/6640 [31:58<12:22:11, 17.60s/it]                                                      {'loss': 0.5284, 'learning_rate': 6.697209380448333e-06, 'epoch': 0.62}
 62%|██████▏   | 4110/6640 [31:58<12:22:11, 17.60s/it] 62%|██████▏   | 4111/6640 [32:15<12:04:59, 17.20s/it]                                                      {'loss': 0.5103, 'learning_rate': 6.692605275270379e-06, 'epoch': 0.62}
 62%|██████▏   | 4111/6640 [32:15<12:04:59, 17.20s/it] 62%|██████▏   | 4112/6640 [32:31<11:59:44, 17.08s/it]                                                      {'loss': 0.5283, 'learning_rate': 6.688001957163647e-06, 'epoch': 0.62}
 62%|██████▏   | 4112/6640 [32:31<11:59:44, 17.08s/it] 62%|██████▏   | 4113/6640 [32:47<11:39:40, 16.61s/it]                                                      {'loss': 0.519, 'learning_rate': 6.683399427223598e-06, 'epoch': 0.62}
 62%|██████▏   | 4113/6640 [32:47<11:39:40, 16.61s/it] 62%|██████▏   | 4114/6640 [33:03<11:32:34, 16.45s/it]                                                      {'loss': 0.5242, 'learning_rate': 6.6787976865455136e-06, 'epoch': 0.62}
 62%|██████▏   | 4114/6640 [33:03<11:32:34, 16.45s/it] 62%|██████▏   | 4115/6640 [33:19<11:27:47, 16.34s/it]                                                      {'loss': 0.5084, 'learning_rate': 6.674196736224481e-06, 'epoch': 0.62}
 62%|██████▏   | 4115/6640 [33:19<11:27:47, 16.34s/it] 62%|██████▏   | 4116/6640 [33:35<11:25:13, 16.29s/it]                                                      {'loss': 0.529, 'learning_rate': 6.6695965773554085e-06, 'epoch': 0.62}
 62%|██████▏   | 4116/6640 [33:35<11:25:13, 16.29s/it] 62%|██████▏   | 4117/6640 [33:51<11:19:17, 16.15s/it]                                                      {'loss': 0.518, 'learning_rate': 6.664997211033006e-06, 'epoch': 0.62}
 62%|██████▏   | 4117/6640 [33:51<11:19:17, 16.15s/it] 62%|██████▏   | 4118/6640 [34:08<11:32:42, 16.48s/it]                                                      {'loss': 0.5119, 'learning_rate': 6.660398638351802e-06, 'epoch': 0.62}
 62%|██████▏   | 4118/6640 [34:08<11:32:42, 16.48s/it] 62%|██████▏   | 4119/6640 [34:25<11:28:52, 16.40s/it]                                                      {'loss': 0.5211, 'learning_rate': 6.655800860406132e-06, 'epoch': 0.62}
 62%|██████▏   | 4119/6640 [34:25<11:28:52, 16.40s/it] 62%|██████▏   | 4120/6640 [34:41<11:32:04, 16.48s/it]                                                      {'loss': 0.5173, 'learning_rate': 6.651203878290139e-06, 'epoch': 0.62}
 62%|██████▏   | 4120/6640 [34:41<11:32:04, 16.48s/it] 62%|██████▏   | 4121/6640 [34:58<11:37:28, 16.61s/it]                                                      {'loss': 0.5236, 'learning_rate': 6.646607693097791e-06, 'epoch': 0.62}
 62%|██████▏   | 4121/6640 [34:58<11:37:28, 16.61s/it] 62%|██████▏   | 4122/6640 [35:14<11:30:08, 16.45s/it]                                                      {'loss': 0.5147, 'learning_rate': 6.642012305922849e-06, 'epoch': 0.62}
 62%|██████▏   | 4122/6640 [35:14<11:30:08, 16.45s/it] 62%|██████▏   | 4123/6640 [35:30<11:28:00, 16.40s/it]                                                      {'loss': 0.5086, 'learning_rate': 6.637417717858898e-06, 'epoch': 0.62}
 62%|██████▏   | 4123/6640 [35:31<11:28:00, 16.40s/it] 62%|██████▏   | 4124/6640 [35:47<11:27:26, 16.39s/it]                                                      {'loss': 0.5146, 'learning_rate': 6.6328239299993194e-06, 'epoch': 0.62}
 62%|██████▏   | 4124/6640 [35:47<11:27:26, 16.39s/it] 62%|██████▏   | 4125/6640 [36:02<11:12:25, 16.04s/it]                                                      {'loss': 0.5185, 'learning_rate': 6.628230943437319e-06, 'epoch': 0.62}
 62%|██████▏   | 4125/6640 [36:02<11:12:25, 16.04s/it] 62%|██████▏   | 4126/6640 [36:19<11:19:47, 16.22s/it]                                                      {'loss': 0.5101, 'learning_rate': 6.623638759265902e-06, 'epoch': 0.62}
 62%|██████▏   | 4126/6640 [36:19<11:19:47, 16.22s/it] 62%|██████▏   | 4127/6640 [36:35<11:26:06, 16.38s/it]                                                      {'loss': 0.527, 'learning_rate': 6.619047378577883e-06, 'epoch': 0.62}
 62%|██████▏   | 4127/6640 [36:35<11:26:06, 16.38s/it] 62%|██████▏   | 4128/6640 [36:53<11:36:28, 16.64s/it]                                                      {'loss': 0.516, 'learning_rate': 6.61445680246589e-06, 'epoch': 0.62}
 62%|██████▏   | 4128/6640 [36:53<11:36:28, 16.64s/it] 62%|██████▏   | 4129/6640 [37:10<11:49:54, 16.96s/it]                                                      {'loss': 0.5297, 'learning_rate': 6.6098670320223505e-06, 'epoch': 0.62}
 62%|██████▏   | 4129/6640 [37:10<11:49:54, 16.96s/it] 62%|██████▏   | 4130/6640 [37:27<11:49:13, 16.95s/it]                                                      {'loss': 0.517, 'learning_rate': 6.605278068339516e-06, 'epoch': 0.62}
 62%|██████▏   | 4130/6640 [37:27<11:49:13, 16.95s/it] 62%|██████▏   | 4131/6640 [37:43<11:38:27, 16.70s/it]                                                      {'loss': 0.513, 'learning_rate': 6.600689912509429e-06, 'epoch': 0.62}
 62%|██████▏   | 4131/6640 [37:44<11:38:27, 16.70s/it] 62%|██████▏   | 4132/6640 [38:00<11:35:53, 16.65s/it]                                                      {'loss': 0.5054, 'learning_rate': 6.596102565623954e-06, 'epoch': 0.62}
 62%|██████▏   | 4132/6640 [38:00<11:35:53, 16.65s/it] 62%|██████▏   | 4133/6640 [38:17<11:40:22, 16.76s/it]                                                      {'loss': 0.5594, 'learning_rate': 6.59151602877475e-06, 'epoch': 0.62}
 62%|██████▏   | 4133/6640 [38:17<11:40:22, 16.76s/it] 62%|██████▏   | 4134/6640 [38:34<11:37:14, 16.69s/it]                                                      {'loss': 0.5262, 'learning_rate': 6.586930303053297e-06, 'epoch': 0.62}
 62%|██████▏   | 4134/6640 [38:34<11:37:14, 16.69s/it] 62%|██████▏   | 4135/6640 [38:51<11:44:19, 16.87s/it]                                                      {'loss': 0.4987, 'learning_rate': 6.58234538955087e-06, 'epoch': 0.62}
 62%|██████▏   | 4135/6640 [38:51<11:44:19, 16.87s/it] 62%|██████▏   | 4136/6640 [39:07<11:33:51, 16.63s/it]                                                      {'loss': 0.5182, 'learning_rate': 6.577761289358559e-06, 'epoch': 0.62}
 62%|██████▏   | 4136/6640 [39:07<11:33:51, 16.63s/it] 62%|██████▏   | 4137/6640 [39:23<11:25:29, 16.43s/it]                                                      {'loss': 0.5216, 'learning_rate': 6.573178003567249e-06, 'epoch': 0.62}
 62%|██████▏   | 4137/6640 [39:23<11:25:29, 16.43s/it] 62%|██████▏   | 4138/6640 [39:40<11:31:52, 16.59s/it]                                                      {'loss': 0.5088, 'learning_rate': 6.568595533267645e-06, 'epoch': 0.62}
 62%|██████▏   | 4138/6640 [39:40<11:31:52, 16.59s/it] 62%|██████▏   | 4139/6640 [39:56<11:25:46, 16.45s/it]                                                      {'loss': 0.5242, 'learning_rate': 6.564013879550253e-06, 'epoch': 0.62}
 62%|██████▏   | 4139/6640 [39:56<11:25:46, 16.45s/it] 62%|██████▏   | 4140/6640 [40:12<11:21:28, 16.36s/it]                                                      {'loss': 0.5305, 'learning_rate': 6.559433043505383e-06, 'epoch': 0.62}
 62%|██████▏   | 4140/6640 [40:12<11:21:28, 16.36s/it] 62%|██████▏   | 4141/6640 [40:29<11:24:03, 16.42s/it]                                                      {'loss': 0.5147, 'learning_rate': 6.554853026223149e-06, 'epoch': 0.62}
 62%|██████▏   | 4141/6640 [40:29<11:24:03, 16.42s/it] 62%|██████▏   | 4142/6640 [40:45<11:21:15, 16.36s/it]                                                      {'loss': 0.5209, 'learning_rate': 6.55027382879347e-06, 'epoch': 0.62}
 62%|██████▏   | 4142/6640 [40:45<11:21:15, 16.36s/it] 62%|██████▏   | 4143/6640 [41:02<11:31:06, 16.61s/it]                                                      {'loss': 0.5017, 'learning_rate': 6.54569545230608e-06, 'epoch': 0.62}
 62%|██████▏   | 4143/6640 [41:02<11:31:06, 16.61s/it] 62%|██████▏   | 4144/6640 [41:19<11:29:50, 16.58s/it]                                                      {'loss': 0.5209, 'learning_rate': 6.541117897850504e-06, 'epoch': 0.62}
 62%|██████▏   | 4144/6640 [41:19<11:29:50, 16.58s/it] 62%|██████▏   | 4145/6640 [41:35<11:22:33, 16.41s/it]                                                      {'loss': 0.5176, 'learning_rate': 6.536541166516079e-06, 'epoch': 0.62}
 62%|██████▏   | 4145/6640 [41:35<11:22:33, 16.41s/it] 62%|██████▏   | 4146/6640 [41:51<11:26:03, 16.50s/it]                                                      {'loss': 0.5351, 'learning_rate': 6.531965259391942e-06, 'epoch': 0.62}
 62%|██████▏   | 4146/6640 [41:51<11:26:03, 16.50s/it] 62%|██████▏   | 4147/6640 [42:09<11:33:59, 16.70s/it]                                                      {'loss': 0.5225, 'learning_rate': 6.5273901775670375e-06, 'epoch': 0.62}
 62%|██████▏   | 4147/6640 [42:09<11:33:59, 16.70s/it] 62%|██████▏   | 4148/6640 [42:24<11:17:19, 16.31s/it]                                                      {'loss': 0.5235, 'learning_rate': 6.522815922130112e-06, 'epoch': 0.62}
 62%|██████▏   | 4148/6640 [42:24<11:17:19, 16.31s/it] 62%|██████▏   | 4149/6640 [42:40<11:16:37, 16.30s/it]                                                      {'loss': 0.5348, 'learning_rate': 6.51824249416972e-06, 'epoch': 0.62}
 62%|██████▏   | 4149/6640 [42:40<11:16:37, 16.30s/it]34  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

2 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
50 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 62%|██████▎   | 4150/6640 [42:57<11:25:41, 16.52s/it]7 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
                                                      {'loss': 0.516, 'learning_rate': 6.513669894774209e-06, 'epoch': 0.62}
 62%|██████▎   | 4150/6640 [42:57<11:25:41, 16.52s/it] 63%|██████▎   | 4151/6640 [43:15<11:35:05, 16.76s/it]                                                      {'loss': 0.5147, 'learning_rate': 6.509098125031732e-06, 'epoch': 0.63}
 63%|██████▎   | 4151/6640 [43:15<11:35:05, 16.76s/it] 63%|██████▎   | 4152/6640 [43:31<11:34:10, 16.74s/it]                                                      {'loss': 0.5111, 'learning_rate': 6.504527186030258e-06, 'epoch': 0.63}
 63%|██████▎   | 4152/6640 [43:31<11:34:10, 16.74s/it] 63%|██████▎   | 4153/6640 [43:47<11:26:38, 16.57s/it]                                                      {'loss': 0.5163, 'learning_rate': 6.499957078857542e-06, 'epoch': 0.63}
 63%|██████▎   | 4153/6640 [43:47<11:26:38, 16.57s/it] 63%|██████▎   | 4154/6640 [44:04<11:24:16, 16.52s/it]                                                      {'loss': 0.523, 'learning_rate': 6.4953878046011434e-06, 'epoch': 0.63}
 63%|██████▎   | 4154/6640 [44:04<11:24:16, 16.52s/it] 63%|██████▎   | 4155/6640 [44:20<11:20:21, 16.43s/it]                                                      {'loss': 0.5186, 'learning_rate': 6.490819364348434e-06, 'epoch': 0.63}
 63%|██████▎   | 4155/6640 [44:20<11:20:21, 16.43s/it] 63%|██████▎   | 4156/6640 [44:36<11:11:09, 16.21s/it]                                                      {'loss': 0.5233, 'learning_rate': 6.486251759186573e-06, 'epoch': 0.63}
 63%|██████▎   | 4156/6640 [44:36<11:11:09, 16.21s/it] 63%|██████▎   | 4157/6640 [44:53<11:19:12, 16.41s/it]                                                      {'loss': 0.4998, 'learning_rate': 6.481684990202535e-06, 'epoch': 0.63}
 63%|██████▎   | 4157/6640 [44:53<11:19:12, 16.41s/it] 63%|██████▎   | 4158/6640 [45:09<11:17:16, 16.37s/it]                                                      {'loss': 0.5119, 'learning_rate': 6.477119058483084e-06, 'epoch': 0.63}
 63%|██████▎   | 4158/6640 [45:09<11:17:16, 16.37s/it] 63%|██████▎   | 4159/6640 [45:25<11:15:24, 16.33s/it]                                                      {'loss': 0.5287, 'learning_rate': 6.472553965114791e-06, 'epoch': 0.63}
 63%|██████▎   | 4159/6640 [45:25<11:15:24, 16.33s/it] 63%|██████▎   | 4160/6640 [45:42<11:24:20, 16.56s/it]                                                      {'loss': 0.5145, 'learning_rate': 6.467989711184021e-06, 'epoch': 0.63}
 63%|██████▎   | 4160/6640 [45:42<11:24:20, 16.56s/it] 63%|██████▎   | 4161/6640 [45:59<11:26:43, 16.62s/it]                                                      {'loss': 0.5544, 'learning_rate': 6.463426297776951e-06, 'epoch': 0.63}
 63%|██████▎   | 4161/6640 [45:59<11:26:43, 16.62s/it] 63%|██████▎   | 4162/6640 [46:15<11:18:15, 16.42s/it]                                                      {'loss': 0.5376, 'learning_rate': 6.458863725979549e-06, 'epoch': 0.63}
 63%|██████▎   | 4162/6640 [46:15<11:18:15, 16.42s/it] 63%|██████▎   | 4163/6640 [46:31<11:08:49, 16.20s/it]                                                      {'loss': 0.504, 'learning_rate': 6.454301996877582e-06, 'epoch': 0.63}
 63%|██████▎   | 4163/6640 [46:31<11:08:49, 16.20s/it] 63%|██████▎   | 4164/6640 [46:47<11:12:47, 16.30s/it]                                                      {'loss': 0.5229, 'learning_rate': 6.449741111556622e-06, 'epoch': 0.63}
 63%|██████▎   | 4164/6640 [46:47<11:12:47, 16.30s/it] 63%|██████▎   | 4165/6640 [47:03<11:10:49, 16.26s/it]                                                      {'loss': 0.507, 'learning_rate': 6.445181071102034e-06, 'epoch': 0.63}
 63%|██████▎   | 4165/6640 [47:03<11:10:49, 16.26s/it] 63%|██████▎   | 4166/6640 [47:21<11:22:34, 16.55s/it]                                                      {'loss': 0.5276, 'learning_rate': 6.4406218765989895e-06, 'epoch': 0.63}
 63%|██████▎   | 4166/6640 [47:21<11:22:34, 16.55s/it] 63%|██████▎   | 4167/6640 [47:37<11:14:56, 16.38s/it]                                                      {'loss': 0.5127, 'learning_rate': 6.4360635291324525e-06, 'epoch': 0.63}
 63%|██████▎   | 4167/6640 [47:37<11:14:56, 16.38s/it] 63%|██████▎   | 4168/6640 [47:52<11:07:34, 16.20s/it]                                                      {'loss': 0.5151, 'learning_rate': 6.431506029787189e-06, 'epoch': 0.63}
 63%|██████▎   | 4168/6640 [47:52<11:07:34, 16.20s/it] 63%|██████▎   | 4169/6640 [48:09<11:10:19, 16.28s/it]                                                      {'loss': 0.5148, 'learning_rate': 6.426949379647755e-06, 'epoch': 0.63}
 63%|██████▎   | 4169/6640 [48:09<11:10:19, 16.28s/it] 63%|██████▎   | 4170/6640 [48:25<11:13:25, 16.36s/it]                                                      {'loss': 0.5311, 'learning_rate': 6.422393579798519e-06, 'epoch': 0.63}
 63%|██████▎   | 4170/6640 [48:25<11:13:25, 16.36s/it] 63%|██████▎   | 4171/6640 [48:42<11:18:49, 16.50s/it]                                                      {'loss': 0.496, 'learning_rate': 6.417838631323636e-06, 'epoch': 0.63}
 63%|██████▎   | 4171/6640 [48:42<11:18:49, 16.50s/it] 63%|██████▎   | 4172/6640 [49:00<11:35:16, 16.90s/it]                                                      {'loss': 0.5193, 'learning_rate': 6.413284535307062e-06, 'epoch': 0.63}
 63%|██████▎   | 4172/6640 [49:00<11:35:16, 16.90s/it] 63%|██████▎   | 4173/6640 [49:17<11:38:05, 16.98s/it]                                                      {'loss': 0.5322, 'learning_rate': 6.408731292832549e-06, 'epoch': 0.63}
 63%|██████▎   | 4173/6640 [49:17<11:38:05, 16.98s/it] 63%|██████▎   | 4174/6640 [49:34<11:34:15, 16.89s/it]                                                      {'loss': 0.5376, 'learning_rate': 6.404178904983644e-06, 'epoch': 0.63}
 63%|██████▎   | 4174/6640 [49:34<11:34:15, 16.89s/it] 63%|██████▎   | 4175/6640 [49:51<11:32:17, 16.85s/it]                                                      {'loss': 0.5264, 'learning_rate': 6.399627372843699e-06, 'epoch': 0.63}
 63%|██████▎   | 4175/6640 [49:51<11:32:17, 16.85s/it] 63%|██████▎   | 4176/6640 [50:06<11:18:04, 16.51s/it]                                                      {'loss': 0.5223, 'learning_rate': 6.395076697495854e-06, 'epoch': 0.63}
 63%|██████▎   | 4176/6640 [50:06<11:18:04, 16.51s/it] 63%|██████▎   | 4177/6640 [50:23<11:17:36, 16.51s/it]                                                      {'loss': 0.522, 'learning_rate': 6.390526880023049e-06, 'epoch': 0.63}
 63%|██████▎   | 4177/6640 [50:23<11:17:36, 16.51s/it] 63%|██████▎   | 4178/6640 [50:39<11:14:27, 16.44s/it]                                                      {'loss': 0.5257, 'learning_rate': 6.385977921508011e-06, 'epoch': 0.63}
 63%|██████▎   | 4178/6640 [50:39<11:14:27, 16.44s/it] 63%|██████▎   | 4179/6640 [50:55<11:09:54, 16.33s/it]                                                      {'loss': 0.5117, 'learning_rate': 6.381429823033281e-06, 'epoch': 0.63}
 63%|██████▎   | 4179/6640 [50:55<11:09:54, 16.33s/it] 63%|██████▎   | 4180/6640 [51:12<11:09:56, 16.34s/it]                                                      {'loss': 0.5322, 'learning_rate': 6.376882585681174e-06, 'epoch': 0.63}
 63%|██████▎   | 4180/6640 [51:12<11:09:56, 16.34s/it] 63%|██████▎   | 4181/6640 [51:27<11:00:29, 16.12s/it]                                                      {'loss': 0.5038, 'learning_rate': 6.372336210533821e-06, 'epoch': 0.63}
 63%|██████▎   | 4181/6640 [51:27<11:00:29, 16.12s/it] 63%|██████▎   | 4182/6640 [51:45<11:21:47, 16.64s/it]                                                      {'loss': 0.5104, 'learning_rate': 6.367790698673132e-06, 'epoch': 0.63}
 63%|██████▎   | 4182/6640 [51:45<11:21:47, 16.64s/it] 63%|██████▎   | 4183/6640 [52:02<11:24:04, 16.70s/it]                                                      {'loss': 0.5381, 'learning_rate': 6.363246051180812e-06, 'epoch': 0.63}
 63%|██████▎   | 4183/6640 [52:02<11:24:04, 16.70s/it] 63%|██████▎   | 4184/6640 [52:17<11:09:25, 16.35s/it]                                                      {'loss': 0.5173, 'learning_rate': 6.358702269138375e-06, 'epoch': 0.63}
 63%|██████▎   | 4184/6640 [52:17<11:09:25, 16.35s/it] 63%|██████▎   | 4185/6640 [52:34<11:07:04, 16.30s/it]                                                      {'loss': 0.5105, 'learning_rate': 6.354159353627114e-06, 'epoch': 0.63}
 63%|██████▎   | 4185/6640 [52:34<11:07:04, 16.30s/it] 63%|██████▎   | 4186/6640 [52:50<11:06:38, 16.30s/it]                                                      {'loss': 0.5216, 'learning_rate': 6.349617305728121e-06, 'epoch': 0.63}
 63%|██████▎   | 4186/6640 [52:50<11:06:38, 16.30s/it] 63%|██████▎   | 4187/6640 [53:06<11:09:29, 16.38s/it]                                                      {'loss': 0.5158, 'learning_rate': 6.3450761265222784e-06, 'epoch': 0.63}
 63%|██████▎   | 4187/6640 [53:06<11:09:29, 16.38s/it] 63%|██████▎   | 4188/6640 [53:23<11:11:39, 16.44s/it]                                                      {'loss': 0.5041, 'learning_rate': 6.340535817090272e-06, 'epoch': 0.63}
 63%|██████▎   | 4188/6640 [53:23<11:11:39, 16.44s/it] 63%|██████▎   | 4189/6640 [53:39<11:03:47, 16.25s/it]                                                      {'loss': 0.5227, 'learning_rate': 6.335996378512568e-06, 'epoch': 0.63}
 63%|██████▎   | 4189/6640 [53:39<11:03:47, 16.25s/it] 63%|██████▎   | 4190/6640 [53:55<11:04:21, 16.27s/it]                                                      {'loss': 0.5273, 'learning_rate': 6.331457811869437e-06, 'epoch': 0.63}
 63%|██████▎   | 4190/6640 [53:55<11:04:21, 16.27s/it] 63%|██████▎   | 4191/6640 [54:12<11:07:01, 16.34s/it]                                                      {'loss': 0.5286, 'learning_rate': 6.326920118240932e-06, 'epoch': 0.63}
 63%|██████▎   | 4191/6640 [54:12<11:07:01, 16.34s/it] 63%|██████▎   | 4192/6640 [54:29<11:24:01, 16.77s/it]                                                      {'loss': 0.5512, 'learning_rate': 6.3223832987068964e-06, 'epoch': 0.63}
 63%|██████▎   | 4192/6640 [54:29<11:24:01, 16.77s/it] 63%|██████▎   | 4193/6640 [54:46<11:18:05, 16.63s/it]                                                      {'loss': 0.497, 'learning_rate': 6.317847354346984e-06, 'epoch': 0.63}
 63%|██████▎   | 4193/6640 [54:46<11:18:05, 16.63s/it] 63%|██████▎   | 4194/6640 [55:02<11:10:47, 16.45s/it]                                                      {'loss': 0.5141, 'learning_rate': 6.31331228624062e-06, 'epoch': 0.63}
 63%|██████▎   | 4194/6640 [55:02<11:10:47, 16.45s/it] 63%|██████▎   | 4195/6640 [55:17<10:55:37, 16.09s/it]                                                      {'loss': 0.4983, 'learning_rate': 6.3087780954670306e-06, 'epoch': 0.63}
 63%|██████▎   | 4195/6640 [55:17<10:55:37, 16.09s/it] 63%|██████▎   | 4196/6640 [55:33<10:56:56, 16.13s/it]                                                      {'loss': 0.5137, 'learning_rate': 6.304244783105231e-06, 'epoch': 0.63}
 63%|██████▎   | 4196/6640 [55:33<10:56:56, 16.13s/it] 63%|██████▎   | 4197/6640 [55:49<10:57:58, 16.16s/it]                                                      {'loss': 0.4976, 'learning_rate': 6.2997123502340286e-06, 'epoch': 0.63}
 63%|██████▎   | 4197/6640 [55:49<10:57:58, 16.16s/it] 63%|██████▎   | 4198/6640 [56:06<11:05:41, 16.36s/it]                                                      {'loss': 0.5202, 'learning_rate': 6.2951807979320225e-06, 'epoch': 0.63}
 63%|██████▎   | 4198/6640 [56:06<11:05:41, 16.36s/it] 63%|██████▎   | 4199/6640 [56:23<11:07:51, 16.42s/it]                                                      {'loss': 0.5161, 'learning_rate': 6.290650127277599e-06, 'epoch': 0.63}
 63%|██████▎   | 4199/6640 [56:23<11:07:51, 16.42s/it]4 AutoResumeHook: Checking whether to suspend...
03 AutoResumeHook: Checking whether to suspend...
 2 AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
 63%|██████▎   | 4200/6640 [56:39<11:09:48, 16.47s/it]1 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
                                                      {'loss': 0.4986, 'learning_rate': 6.286120339348935e-06, 'epoch': 0.63}
 63%|██████▎   | 4200/6640 [56:39<11:09:48, 16.47s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4200/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4200/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4200/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 63%|██████▎   | 4201/6640 [58:22<28:39:48, 42.31s/it]                                                      {'loss': 0.5375, 'learning_rate': 6.281591435223997e-06, 'epoch': 0.63}
 63%|██████▎   | 4201/6640 [58:22<28:39:48, 42.31s/it] 63%|██████▎   | 4202/6640 [58:39<23:27:04, 34.63s/it]                                                      {'loss': 0.5352, 'learning_rate': 6.277063415980549e-06, 'epoch': 0.63}
 63%|██████▎   | 4202/6640 [58:39<23:27:04, 34.63s/it] 63%|██████▎   | 4203/6640 [58:55<19:43:15, 29.13s/it]                                                      {'loss': 0.5207, 'learning_rate': 6.2725362826961355e-06, 'epoch': 0.63}
 63%|██████▎   | 4203/6640 [58:55<19:43:15, 29.13s/it] 63%|██████▎   | 4204/6640 [59:12<17:20:41, 25.63s/it]                                                      {'loss': 0.5193, 'learning_rate': 6.2680100364480876e-06, 'epoch': 0.63}
 63%|██████▎   | 4204/6640 [59:12<17:20:41, 25.63s/it] 63%|██████▎   | 4205/6640 [59:29<15:27:28, 22.85s/it]                                                      {'loss': 0.5203, 'learning_rate': 6.263484678313536e-06, 'epoch': 0.63}
 63%|██████▎   | 4205/6640 [59:29<15:27:28, 22.85s/it] 63%|██████▎   | 4206/6640 [59:46<14:16:14, 21.11s/it]                                                      {'loss': 0.5071, 'learning_rate': 6.258960209369392e-06, 'epoch': 0.63}
 63%|██████▎   | 4206/6640 [59:46<14:16:14, 21.11s/it] 63%|██████▎   | 4207/6640 [1:00:02<13:14:37, 19.60s/it]                                                        {'loss': 0.5223, 'learning_rate': 6.254436630692361e-06, 'epoch': 0.63}
 63%|██████▎   | 4207/6640 [1:00:02<13:14:37, 19.60s/it] 63%|██████▎   | 4208/6640 [1:00:21<13:07:50, 19.44s/it]                                                        {'loss': 0.4926, 'learning_rate': 6.2499139433589314e-06, 'epoch': 0.63}
 63%|██████▎   | 4208/6640 [1:00:21<13:07:50, 19.44s/it] 63%|██████▎   | 4209/6640 [1:00:38<12:37:15, 18.69s/it]                                                        {'loss': 0.5419, 'learning_rate': 6.245392148445382e-06, 'epoch': 0.63}
 63%|██████▎   | 4209/6640 [1:00:38<12:37:15, 18.69s/it] 63%|██████▎   | 4210/6640 [1:00:54<12:01:37, 17.82s/it]                                                        {'loss': 0.5267, 'learning_rate': 6.240871247027774e-06, 'epoch': 0.63}
 63%|██████▎   | 4210/6640 [1:00:54<12:01:37, 17.82s/it] 63%|██████▎   | 4211/6640 [1:01:10<11:45:06, 17.42s/it]                                                        {'loss': 0.5204, 'learning_rate': 6.236351240181967e-06, 'epoch': 0.63}
 63%|██████▎   | 4211/6640 [1:01:10<11:45:06, 17.42s/it] 63%|██████▎   | 4212/6640 [1:01:28<11:49:13, 17.53s/it]                                                        {'loss': 0.5018, 'learning_rate': 6.231832128983599e-06, 'epoch': 0.63}
 63%|██████▎   | 4212/6640 [1:01:28<11:49:13, 17.53s/it] 63%|██████▎   | 4213/6640 [1:01:46<11:55:59, 17.70s/it]                                                        {'loss': 0.5324, 'learning_rate': 6.227313914508098e-06, 'epoch': 0.63}
 63%|██████▎   | 4213/6640 [1:01:46<11:55:59, 17.70s/it] 63%|██████▎   | 4214/6640 [1:02:03<11:47:50, 17.51s/it]                                                        {'loss': 0.5009, 'learning_rate': 6.222796597830674e-06, 'epoch': 0.63}
 63%|██████▎   | 4214/6640 [1:02:03<11:47:50, 17.51s/it] 63%|██████▎   | 4215/6640 [1:02:19<11:30:49, 17.09s/it]                                                        {'loss': 0.5311, 'learning_rate': 6.2182801800263325e-06, 'epoch': 0.63}
 63%|██████▎   | 4215/6640 [1:02:19<11:30:49, 17.09s/it] 63%|██████▎   | 4216/6640 [1:02:35<11:09:34, 16.57s/it]                                                        {'loss': 0.5358, 'learning_rate': 6.2137646621698585e-06, 'epoch': 0.63}
 63%|██████▎   | 4216/6640 [1:02:35<11:09:34, 16.57s/it] 64%|██████▎   | 4217/6640 [1:02:51<11:02:29, 16.41s/it]                                                        {'loss': 0.5143, 'learning_rate': 6.209250045335824e-06, 'epoch': 0.64}
 64%|██████▎   | 4217/6640 [1:02:51<11:02:29, 16.41s/it] 64%|██████▎   | 4218/6640 [1:03:07<11:03:37, 16.44s/it]                                                        {'loss': 0.5064, 'learning_rate': 6.204736330598585e-06, 'epoch': 0.64}
 64%|██████▎   | 4218/6640 [1:03:07<11:03:37, 16.44s/it] 64%|██████▎   | 4219/6640 [1:03:23<10:55:01, 16.23s/it]                                                        {'loss': 0.5013, 'learning_rate': 6.200223519032283e-06, 'epoch': 0.64}
 64%|██████▎   | 4219/6640 [1:03:23<10:55:01, 16.23s/it] 64%|██████▎   | 4220/6640 [1:03:40<11:01:02, 16.39s/it]                                                        {'loss': 0.5273, 'learning_rate': 6.195711611710851e-06, 'epoch': 0.64}
 64%|██████▎   | 4220/6640 [1:03:40<11:01:02, 16.39s/it] 64%|██████▎   | 4221/6640 [1:03:56<11:03:51, 16.47s/it]                                                        {'loss': 0.5135, 'learning_rate': 6.191200609707997e-06, 'epoch': 0.64}
 64%|██████▎   | 4221/6640 [1:03:56<11:03:51, 16.47s/it] 64%|██████▎   | 4222/6640 [1:04:13<11:06:28, 16.54s/it]                                                        {'loss': 0.5108, 'learning_rate': 6.186690514097223e-06, 'epoch': 0.64}
 64%|██████▎   | 4222/6640 [1:04:13<11:06:28, 16.54s/it] 64%|██████▎   | 4223/6640 [1:04:29<11:00:45, 16.40s/it]                                                        {'loss': 0.5176, 'learning_rate': 6.182181325951806e-06, 'epoch': 0.64}
 64%|██████▎   | 4223/6640 [1:04:29<11:00:45, 16.40s/it] 64%|██████▎   | 4224/6640 [1:04:46<11:00:43, 16.41s/it]                                                        {'loss': 0.5376, 'learning_rate': 6.177673046344816e-06, 'epoch': 0.64}
 64%|██████▎   | 4224/6640 [1:04:46<11:00:43, 16.41s/it] 64%|██████▎   | 4225/6640 [1:05:02<10:57:37, 16.34s/it]                                                        {'loss': 0.5055, 'learning_rate': 6.173165676349103e-06, 'epoch': 0.64}
 64%|██████▎   | 4225/6640 [1:05:02<10:57:37, 16.34s/it] 64%|██████▎   | 4226/6640 [1:05:18<10:59:28, 16.39s/it]                                                        {'loss': 0.5126, 'learning_rate': 6.168659217037298e-06, 'epoch': 0.64}
 64%|██████▎   | 4226/6640 [1:05:18<10:59:28, 16.39s/it] 64%|██████▎   | 4227/6640 [1:05:34<10:54:02, 16.26s/it]                                                        {'loss': 0.5275, 'learning_rate': 6.164153669481818e-06, 'epoch': 0.64}
 64%|██████▎   | 4227/6640 [1:05:34<10:54:02, 16.26s/it] 64%|██████▎   | 4228/6640 [1:05:50<10:47:41, 16.11s/it]                                                        {'loss': 0.521, 'learning_rate': 6.159649034754858e-06, 'epoch': 0.64}
 64%|██████▎   | 4228/6640 [1:05:50<10:47:41, 16.11s/it] 64%|██████▎   | 4229/6640 [1:06:08<11:08:29, 16.64s/it]                                                        {'loss': 0.5138, 'learning_rate': 6.155145313928407e-06, 'epoch': 0.64}
 64%|██████▎   | 4229/6640 [1:06:08<11:08:29, 16.64s/it] 64%|██████▎   | 4230/6640 [1:06:25<11:09:18, 16.66s/it]                                                        {'loss': 0.5345, 'learning_rate': 6.150642508074225e-06, 'epoch': 0.64}
 64%|██████▎   | 4230/6640 [1:06:25<11:09:18, 16.66s/it] 64%|██████▎   | 4231/6640 [1:06:42<11:13:21, 16.77s/it]                                                        {'loss': 0.4992, 'learning_rate': 6.1461406182638635e-06, 'epoch': 0.64}
 64%|██████▎   | 4231/6640 [1:06:42<11:13:21, 16.77s/it] 64%|██████▎   | 4232/6640 [1:06:58<11:07:38, 16.64s/it]                                                        {'loss': 0.5366, 'learning_rate': 6.141639645568646e-06, 'epoch': 0.64}
 64%|██████▎   | 4232/6640 [1:06:58<11:07:38, 16.64s/it] 64%|██████▍   | 4233/6640 [1:07:14<10:59:30, 16.44s/it]                                                        {'loss': 0.521, 'learning_rate': 6.137139591059689e-06, 'epoch': 0.64}
 64%|██████▍   | 4233/6640 [1:07:14<10:59:30, 16.44s/it] 64%|██████▍   | 4234/6640 [1:07:30<10:52:10, 16.26s/it]                                                        {'loss': 0.5059, 'learning_rate': 6.1326404558078825e-06, 'epoch': 0.64}
 64%|██████▍   | 4234/6640 [1:07:30<10:52:10, 16.26s/it] 64%|██████▍   | 4235/6640 [1:07:46<10:54:58, 16.34s/it]                                                        {'loss': 0.489, 'learning_rate': 6.128142240883899e-06, 'epoch': 0.64}
 64%|██████▍   | 4235/6640 [1:07:46<10:54:58, 16.34s/it] 64%|██████▍   | 4236/6640 [1:08:02<10:48:06, 16.18s/it]                                                        {'loss': 0.5241, 'learning_rate': 6.123644947358191e-06, 'epoch': 0.64}
 64%|██████▍   | 4236/6640 [1:08:02<10:48:06, 16.18s/it] 64%|██████▍   | 4237/6640 [1:08:18<10:48:43, 16.20s/it]                                                        {'loss': 0.5108, 'learning_rate': 6.119148576300997e-06, 'epoch': 0.64}
 64%|██████▍   | 4237/6640 [1:08:18<10:48:43, 16.20s/it] 64%|██████▍   | 4238/6640 [1:08:37<11:22:03, 17.04s/it]                                                        {'loss': 0.4902, 'learning_rate': 6.114653128782333e-06, 'epoch': 0.64}
 64%|██████▍   | 4238/6640 [1:08:37<11:22:03, 17.04s/it] 64%|██████▍   | 4239/6640 [1:08:54<11:21:38, 17.03s/it]                                                        {'loss': 0.5355, 'learning_rate': 6.110158605871994e-06, 'epoch': 0.64}
 64%|██████▍   | 4239/6640 [1:08:54<11:21:38, 17.03s/it] 64%|██████▍   | 4240/6640 [1:09:10<11:05:40, 16.64s/it]                                                        {'loss': 0.5086, 'learning_rate': 6.105665008639557e-06, 'epoch': 0.64}
 64%|██████▍   | 4240/6640 [1:09:10<11:05:40, 16.64s/it] 64%|██████▍   | 4241/6640 [1:09:26<10:54:28, 16.37s/it]                                                        {'loss': 0.5106, 'learning_rate': 6.101172338154372e-06, 'epoch': 0.64}
 64%|██████▍   | 4241/6640 [1:09:26<10:54:28, 16.37s/it] 64%|██████▍   | 4242/6640 [1:09:42<10:55:40, 16.41s/it]                                                        {'loss': 0.512, 'learning_rate': 6.096680595485582e-06, 'epoch': 0.64}
 64%|██████▍   | 4242/6640 [1:09:42<10:55:40, 16.41s/it] 64%|██████▍   | 4243/6640 [1:09:58<10:48:31, 16.23s/it]                                                        {'loss': 0.5103, 'learning_rate': 6.092189781702098e-06, 'epoch': 0.64}
 64%|██████▍   | 4243/6640 [1:09:58<10:48:31, 16.23s/it] 64%|██████▍   | 4244/6640 [1:10:14<10:48:15, 16.23s/it]                                                        {'loss': 0.4981, 'learning_rate': 6.087699897872612e-06, 'epoch': 0.64}
 64%|██████▍   | 4244/6640 [1:10:14<10:48:15, 16.23s/it] 64%|██████▍   | 4245/6640 [1:10:30<10:46:42, 16.20s/it]                                                        {'loss': 0.5281, 'learning_rate': 6.083210945065595e-06, 'epoch': 0.64}
 64%|██████▍   | 4245/6640 [1:10:30<10:46:42, 16.20s/it] 64%|██████▍   | 4246/6640 [1:10:47<10:55:35, 16.43s/it]                                                        {'loss': 0.5174, 'learning_rate': 6.0787229243493e-06, 'epoch': 0.64}
 64%|██████▍   | 4246/6640 [1:10:47<10:55:35, 16.43s/it] 64%|██████▍   | 4247/6640 [1:11:03<10:48:57, 16.27s/it]                                                        {'loss': 0.5083, 'learning_rate': 6.074235836791753e-06, 'epoch': 0.64}
 64%|██████▍   | 4247/6640 [1:11:03<10:48:57, 16.27s/it] 64%|██████▍   | 4248/6640 [1:11:19<10:46:57, 16.23s/it]                                                        {'loss': 0.5151, 'learning_rate': 6.069749683460765e-06, 'epoch': 0.64}
 64%|██████▍   | 4248/6640 [1:11:19<10:46:57, 16.23s/it] 64%|██████▍   | 4249/6640 [1:11:35<10:44:24, 16.17s/it]                                                        {'loss': 0.5199, 'learning_rate': 6.065264465423917e-06, 'epoch': 0.64}
 64%|██████▍   | 4249/6640 [1:11:35<10:44:24, 16.17s/it]1 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
 64%|██████▍   | 4250/6640 [1:11:51<10:41:23, 16.10s/it]6 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.5295, 'learning_rate': 6.0607801837485665e-06, 'epoch': 0.64}
 64%|██████▍   | 4250/6640 [1:11:51<10:41:23, 16.10s/it] 64%|██████▍   | 4251/6640 [1:12:08<10:47:24, 16.26s/it]                                                        {'loss': 0.5147, 'learning_rate': 6.05629683950186e-06, 'epoch': 0.64}
 64%|██████▍   | 4251/6640 [1:12:08<10:47:24, 16.26s/it] 64%|██████▍   | 4252/6640 [1:12:25<10:50:17, 16.34s/it]                                                        {'loss': 0.5226, 'learning_rate': 6.051814433750711e-06, 'epoch': 0.64}
 64%|██████▍   | 4252/6640 [1:12:25<10:50:17, 16.34s/it] 64%|██████▍   | 4253/6640 [1:12:40<10:40:24, 16.10s/it]                                                        {'loss': 0.5364, 'learning_rate': 6.047332967561809e-06, 'epoch': 0.64}
 64%|██████▍   | 4253/6640 [1:12:40<10:40:24, 16.10s/it] 64%|██████▍   | 4254/6640 [1:12:58<10:59:52, 16.59s/it]                                                        {'loss': 0.5457, 'learning_rate': 6.042852442001624e-06, 'epoch': 0.64}
 64%|██████▍   | 4254/6640 [1:12:58<10:59:52, 16.59s/it] 64%|██████▍   | 4255/6640 [1:13:15<11:02:51, 16.68s/it]                                                        {'loss': 0.522, 'learning_rate': 6.038372858136401e-06, 'epoch': 0.64}
 64%|██████▍   | 4255/6640 [1:13:15<11:02:51, 16.68s/it] 64%|██████▍   | 4256/6640 [1:13:31<10:56:10, 16.51s/it]                                                        {'loss': 0.5335, 'learning_rate': 6.033894217032159e-06, 'epoch': 0.64}
 64%|██████▍   | 4256/6640 [1:13:31<10:56:10, 16.51s/it] 64%|██████▍   | 4257/6640 [1:13:47<10:47:28, 16.30s/it]                                                        {'loss': 0.5149, 'learning_rate': 6.029416519754699e-06, 'epoch': 0.64}
 64%|██████▍   | 4257/6640 [1:13:47<10:47:28, 16.30s/it] 64%|██████▍   | 4258/6640 [1:14:03<10:46:56, 16.30s/it]                                                        {'loss': 0.5107, 'learning_rate': 6.024939767369591e-06, 'epoch': 0.64}
 64%|██████▍   | 4258/6640 [1:14:03<10:46:56, 16.30s/it] 64%|██████▍   | 4259/6640 [1:14:20<10:53:33, 16.47s/it]                                                        {'loss': 0.5223, 'learning_rate': 6.020463960942177e-06, 'epoch': 0.64}
 64%|██████▍   | 4259/6640 [1:14:20<10:53:33, 16.47s/it] 64%|██████▍   | 4260/6640 [1:14:36<10:51:58, 16.44s/it]                                                        {'loss': 0.5171, 'learning_rate': 6.015989101537586e-06, 'epoch': 0.64}
 64%|██████▍   | 4260/6640 [1:14:36<10:51:58, 16.44s/it] 64%|██████▍   | 4261/6640 [1:14:53<10:54:47, 16.51s/it]                                                        {'loss': 0.5185, 'learning_rate': 6.011515190220712e-06, 'epoch': 0.64}
 64%|██████▍   | 4261/6640 [1:14:53<10:54:47, 16.51s/it] 64%|██████▍   | 4262/6640 [1:15:09<10:54:56, 16.52s/it]                                                        {'loss': 0.5167, 'learning_rate': 6.007042228056223e-06, 'epoch': 0.64}
 64%|██████▍   | 4262/6640 [1:15:09<10:54:56, 16.52s/it] 64%|██████▍   | 4263/6640 [1:15:27<11:01:25, 16.70s/it]                                                        {'loss': 0.5222, 'learning_rate': 6.00257021610857e-06, 'epoch': 0.64}
 64%|██████▍   | 4263/6640 [1:15:27<11:01:25, 16.70s/it] 64%|██████▍   | 4264/6640 [1:15:44<11:13:53, 17.02s/it]                                                        {'loss': 0.5287, 'learning_rate': 5.998099155441962e-06, 'epoch': 0.64}
 64%|██████▍   | 4264/6640 [1:15:44<11:13:53, 17.02s/it] 64%|██████▍   | 4265/6640 [1:16:01<11:12:43, 17.00s/it]                                                        {'loss': 0.5276, 'learning_rate': 5.993629047120403e-06, 'epoch': 0.64}
 64%|██████▍   | 4265/6640 [1:16:01<11:12:43, 17.00s/it] 64%|██████▍   | 4266/6640 [1:16:19<11:15:57, 17.08s/it]                                                        {'loss': 0.5403, 'learning_rate': 5.9891598922076535e-06, 'epoch': 0.64}
 64%|██████▍   | 4266/6640 [1:16:19<11:15:57, 17.08s/it] 64%|██████▍   | 4267/6640 [1:16:35<11:03:52, 16.79s/it]                                                        {'loss': 0.5098, 'learning_rate': 5.984691691767252e-06, 'epoch': 0.64}
 64%|██████▍   | 4267/6640 [1:16:35<11:03:52, 16.79s/it] 64%|██████▍   | 4268/6640 [1:16:51<10:53:52, 16.54s/it]                                                        {'loss': 0.5254, 'learning_rate': 5.980224446862507e-06, 'epoch': 0.64}
 64%|██████▍   | 4268/6640 [1:16:51<10:53:52, 16.54s/it] 64%|██████▍   | 4269/6640 [1:17:07<10:56:10, 16.61s/it]                                                        {'loss': 0.5175, 'learning_rate': 5.9757581585565105e-06, 'epoch': 0.64}
 64%|██████▍   | 4269/6640 [1:17:07<10:56:10, 16.61s/it] 64%|██████▍   | 4270/6640 [1:17:24<10:53:53, 16.55s/it]                                                        {'loss': 0.517, 'learning_rate': 5.971292827912117e-06, 'epoch': 0.64}
 64%|██████▍   | 4270/6640 [1:17:24<10:53:53, 16.55s/it] 64%|██████▍   | 4271/6640 [1:17:41<11:00:28, 16.73s/it]                                                        {'loss': 0.5212, 'learning_rate': 5.966828455991951e-06, 'epoch': 0.64}
 64%|██████▍   | 4271/6640 [1:17:41<11:00:28, 16.73s/it] 64%|██████▍   | 4272/6640 [1:17:59<11:14:15, 17.08s/it]                                                        {'loss': 0.5235, 'learning_rate': 5.962365043858418e-06, 'epoch': 0.64}
 64%|██████▍   | 4272/6640 [1:17:59<11:14:15, 17.08s/it] 64%|██████▍   | 4273/6640 [1:18:17<11:21:21, 17.27s/it]                                                        {'loss': 0.5157, 'learning_rate': 5.9579025925736855e-06, 'epoch': 0.64}
 64%|██████▍   | 4273/6640 [1:18:17<11:21:21, 17.27s/it] 64%|██████▍   | 4274/6640 [1:18:34<11:23:00, 17.32s/it]                                                        {'loss': 0.5173, 'learning_rate': 5.953441103199704e-06, 'epoch': 0.64}
 64%|██████▍   | 4274/6640 [1:18:34<11:23:00, 17.32s/it] 64%|██████▍   | 4275/6640 [1:18:50<11:10:22, 17.01s/it]                                                        {'loss': 0.5169, 'learning_rate': 5.9489805767981845e-06, 'epoch': 0.64}
 64%|██████▍   | 4275/6640 [1:18:50<11:10:22, 17.01s/it] 64%|██████▍   | 4276/6640 [1:19:07<11:06:05, 16.91s/it]                                                        {'loss': 0.5264, 'learning_rate': 5.9445210144306136e-06, 'epoch': 0.64}
 64%|██████▍   | 4276/6640 [1:19:07<11:06:05, 16.91s/it] 64%|██████▍   | 4277/6640 [1:19:23<10:56:58, 16.68s/it]                                                        {'loss': 0.5278, 'learning_rate': 5.9400624171582415e-06, 'epoch': 0.64}
 64%|██████▍   | 4277/6640 [1:19:23<10:56:58, 16.68s/it] 64%|██████▍   | 4278/6640 [1:19:39<10:51:41, 16.55s/it]                                                        {'loss': 0.5136, 'learning_rate': 5.935604786042104e-06, 'epoch': 0.64}
 64%|██████▍   | 4278/6640 [1:19:39<10:51:41, 16.55s/it] 64%|██████▍   | 4279/6640 [1:19:55<10:42:56, 16.34s/it]                                                        {'loss': 0.5123, 'learning_rate': 5.9311481221429916e-06, 'epoch': 0.64}
 64%|██████▍   | 4279/6640 [1:19:55<10:42:56, 16.34s/it] 64%|██████▍   | 4280/6640 [1:20:12<10:47:02, 16.45s/it]                                                        {'loss': 0.5266, 'learning_rate': 5.926692426521474e-06, 'epoch': 0.64}
 64%|██████▍   | 4280/6640 [1:20:12<10:47:02, 16.45s/it] 64%|██████▍   | 4281/6640 [1:20:28<10:45:05, 16.41s/it]                                                        {'loss': 0.5352, 'learning_rate': 5.922237700237887e-06, 'epoch': 0.64}
 64%|██████▍   | 4281/6640 [1:20:28<10:45:05, 16.41s/it] 64%|██████▍   | 4282/6640 [1:20:46<11:01:29, 16.83s/it]                                                        {'loss': 0.5362, 'learning_rate': 5.917783944352332e-06, 'epoch': 0.64}
 64%|██████▍   | 4282/6640 [1:20:46<11:01:29, 16.83s/it] 65%|██████▍   | 4283/6640 [1:21:03<11:01:34, 16.84s/it]                                                        {'loss': 0.5191, 'learning_rate': 5.913331159924689e-06, 'epoch': 0.65}
 65%|██████▍   | 4283/6640 [1:21:03<11:01:34, 16.84s/it] 65%|██████▍   | 4284/6640 [1:21:19<10:56:04, 16.71s/it]                                                        {'loss': 0.5289, 'learning_rate': 5.9088793480146e-06, 'epoch': 0.65}
 65%|██████▍   | 4284/6640 [1:21:19<10:56:04, 16.71s/it] 65%|██████▍   | 4285/6640 [1:21:36<10:52:20, 16.62s/it]                                                        {'loss': 0.5354, 'learning_rate': 5.904428509681473e-06, 'epoch': 0.65}
 65%|██████▍   | 4285/6640 [1:21:36<10:52:20, 16.62s/it] 65%|██████▍   | 4286/6640 [1:21:53<10:58:31, 16.78s/it]                                                        {'loss': 0.5263, 'learning_rate': 5.899978645984488e-06, 'epoch': 0.65}
 65%|██████▍   | 4286/6640 [1:21:53<10:58:31, 16.78s/it] 65%|██████▍   | 4287/6640 [1:22:09<10:50:25, 16.59s/it]                                                        {'loss': 0.5195, 'learning_rate': 5.8955297579826005e-06, 'epoch': 0.65}
 65%|██████▍   | 4287/6640 [1:22:09<10:50:25, 16.59s/it] 65%|██████▍   | 4288/6640 [1:22:26<11:00:55, 16.86s/it]                                                        {'loss': 0.534, 'learning_rate': 5.891081846734519e-06, 'epoch': 0.65}
 65%|██████▍   | 4288/6640 [1:22:26<11:00:55, 16.86s/it] 65%|██████▍   | 4289/6640 [1:22:43<10:53:16, 16.67s/it]                                                        {'loss': 0.5137, 'learning_rate': 5.886634913298732e-06, 'epoch': 0.65}
 65%|██████▍   | 4289/6640 [1:22:43<10:53:16, 16.67s/it] 65%|██████▍   | 4290/6640 [1:23:00<10:58:12, 16.81s/it]                                                        {'loss': 0.552, 'learning_rate': 5.882188958733488e-06, 'epoch': 0.65}
 65%|██████▍   | 4290/6640 [1:23:00<10:58:12, 16.81s/it] 65%|██████▍   | 4291/6640 [1:23:16<10:52:24, 16.66s/it]                                                        {'loss': 0.5057, 'learning_rate': 5.8777439840968e-06, 'epoch': 0.65}
 65%|██████▍   | 4291/6640 [1:23:16<10:52:24, 16.66s/it] 65%|██████▍   | 4292/6640 [1:23:33<10:51:40, 16.65s/it]                                                        {'loss': 0.5207, 'learning_rate': 5.873299990446463e-06, 'epoch': 0.65}
 65%|██████▍   | 4292/6640 [1:23:33<10:51:40, 16.65s/it] 65%|██████▍   | 4293/6640 [1:23:49<10:46:53, 16.54s/it]                                                        {'loss': 0.5375, 'learning_rate': 5.868856978840023e-06, 'epoch': 0.65}
 65%|██████▍   | 4293/6640 [1:23:49<10:46:53, 16.54s/it] 65%|██████▍   | 4294/6640 [1:24:06<10:56:42, 16.80s/it]                                                        {'loss': 0.5344, 'learning_rate': 5.864414950334796e-06, 'epoch': 0.65}
 65%|██████▍   | 4294/6640 [1:24:06<10:56:42, 16.80s/it] 65%|██████▍   | 4295/6640 [1:24:24<11:00:35, 16.90s/it]                                                        {'loss': 0.5177, 'learning_rate': 5.859973905987866e-06, 'epoch': 0.65}
 65%|██████▍   | 4295/6640 [1:24:24<11:00:35, 16.90s/it] 65%|██████▍   | 4296/6640 [1:24:40<10:49:07, 16.62s/it]                                                        {'loss': 0.5065, 'learning_rate': 5.8555338468560855e-06, 'epoch': 0.65}
 65%|██████▍   | 4296/6640 [1:24:40<10:49:07, 16.62s/it] 65%|██████▍   | 4297/6640 [1:24:57<10:55:35, 16.79s/it]                                                        {'loss': 0.5239, 'learning_rate': 5.851094773996067e-06, 'epoch': 0.65}
 65%|██████▍   | 4297/6640 [1:24:57<10:55:35, 16.79s/it] 65%|██████▍   | 4298/6640 [1:25:13<10:53:58, 16.75s/it]                                                        {'loss': 0.5273, 'learning_rate': 5.846656688464192e-06, 'epoch': 0.65}
 65%|██████▍   | 4298/6640 [1:25:13<10:53:58, 16.75s/it] 65%|██████▍   | 4299/6640 [1:25:30<10:50:28, 16.67s/it]                                                        {'loss': 0.5263, 'learning_rate': 5.842219591316606e-06, 'epoch': 0.65}
 65%|██████▍   | 4299/6640 [1:25:30<10:50:28, 16.67s/it]4 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 65%|██████▍   | 4300/6640 [1:25:47<10:50:56, 16.69s/it]                                                        {'loss': 0.5223, 'learning_rate': 5.837783483609214e-06, 'epoch': 0.65}
 65%|██████▍   | 4300/6640 [1:25:47<10:50:56, 16.69s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4300/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4300/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4300/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 65%|██████▍   | 4301/6640 [1:27:29<27:28:44, 42.29s/it]                                                        {'loss': 0.5244, 'learning_rate': 5.833348366397697e-06, 'epoch': 0.65}
 65%|██████▍   | 4301/6640 [1:27:29<27:28:44, 42.29s/it] 65%|██████▍   | 4302/6640 [1:27:45<22:19:04, 34.36s/it]                                                        {'loss': 0.5322, 'learning_rate': 5.828914240737496e-06, 'epoch': 0.65}
 65%|██████▍   | 4302/6640 [1:27:45<22:19:04, 34.36s/it] 65%|██████▍   | 4303/6640 [1:28:01<18:54:05, 29.12s/it]                                                        {'loss': 0.5175, 'learning_rate': 5.8244811076838055e-06, 'epoch': 0.65}
 65%|██████▍   | 4303/6640 [1:28:01<18:54:05, 29.12s/it] 65%|██████▍   | 4304/6640 [1:28:18<16:22:40, 25.24s/it]                                                        {'loss': 0.5312, 'learning_rate': 5.820048968291596e-06, 'epoch': 0.65}
 65%|██████▍   | 4304/6640 [1:28:18<16:22:40, 25.24s/it] 65%|██████▍   | 4305/6640 [1:28:34<14:41:01, 22.64s/it]                                                        {'loss': 0.5169, 'learning_rate': 5.815617823615599e-06, 'epoch': 0.65}
 65%|██████▍   | 4305/6640 [1:28:34<14:41:01, 22.64s/it] 65%|██████▍   | 4306/6640 [1:28:50<13:23:36, 20.66s/it]                                                        {'loss': 0.5299, 'learning_rate': 5.811187674710311e-06, 'epoch': 0.65}
 65%|██████▍   | 4306/6640 [1:28:50<13:23:36, 20.66s/it] 65%|██████▍   | 4307/6640 [1:29:07<12:32:52, 19.36s/it]                                                        {'loss': 0.4991, 'learning_rate': 5.806758522629981e-06, 'epoch': 0.65}
 65%|██████▍   | 4307/6640 [1:29:07<12:32:52, 19.36s/it] 65%|██████▍   | 4308/6640 [1:29:23<12:00:26, 18.54s/it]                                                        {'loss': 0.5017, 'learning_rate': 5.802330368428633e-06, 'epoch': 0.65}
 65%|██████▍   | 4308/6640 [1:29:23<12:00:26, 18.54s/it] 65%|██████▍   | 4309/6640 [1:29:39<11:30:55, 17.78s/it]                                                        {'loss': 0.5144, 'learning_rate': 5.797903213160047e-06, 'epoch': 0.65}
 65%|██████▍   | 4309/6640 [1:29:39<11:30:55, 17.78s/it] 65%|██████▍   | 4310/6640 [1:29:55<11:10:08, 17.26s/it]                                                        {'loss': 0.5258, 'learning_rate': 5.79347705787777e-06, 'epoch': 0.65}
 65%|██████▍   | 4310/6640 [1:29:55<11:10:08, 17.26s/it] 65%|██████▍   | 4311/6640 [1:30:13<11:14:56, 17.39s/it]                                                        {'loss': 0.5146, 'learning_rate': 5.789051903635109e-06, 'epoch': 0.65}
 65%|██████▍   | 4311/6640 [1:30:13<11:14:56, 17.39s/it] 65%|██████▍   | 4312/6640 [1:30:29<11:01:38, 17.05s/it]                                                        {'loss': 0.5357, 'learning_rate': 5.7846277514851255e-06, 'epoch': 0.65}
 65%|██████▍   | 4312/6640 [1:30:29<11:01:38, 17.05s/it]/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/model/llava_arch.py:397: UserWarning: Inputs truncated!
  warnings.warn("Inputs truncated!")
 65%|██████▍   | 4313/6640 [1:30:46<11:02:16, 17.08s/it]                                                        {'loss': 0.5379, 'learning_rate': 5.7802046024806545e-06, 'epoch': 0.65}
 65%|██████▍   | 4313/6640 [1:30:46<11:02:16, 17.08s/it] 65%|██████▍   | 4314/6640 [1:31:03<10:54:01, 16.87s/it]                                                        {'loss': 0.5276, 'learning_rate': 5.775782457674285e-06, 'epoch': 0.65}
 65%|██████▍   | 4314/6640 [1:31:03<10:54:01, 16.87s/it] 65%|██████▍   | 4315/6640 [1:31:19<10:52:49, 16.85s/it]                                                        {'loss': 0.4985, 'learning_rate': 5.771361318118374e-06, 'epoch': 0.65}
 65%|██████▍   | 4315/6640 [1:31:19<10:52:49, 16.85s/it] 65%|██████▌   | 4316/6640 [1:31:35<10:40:57, 16.55s/it]                                                        {'loss': 0.4931, 'learning_rate': 5.766941184865024e-06, 'epoch': 0.65}
 65%|██████▌   | 4316/6640 [1:31:35<10:40:57, 16.55s/it] 65%|██████▌   | 4317/6640 [1:31:53<10:54:39, 16.91s/it]                                                        {'loss': 0.5217, 'learning_rate': 5.7625220589661136e-06, 'epoch': 0.65}
 65%|██████▌   | 4317/6640 [1:31:53<10:54:39, 16.91s/it] 65%|██████▌   | 4318/6640 [1:32:11<11:05:20, 17.19s/it]                                                        {'loss': 0.5048, 'learning_rate': 5.758103941473276e-06, 'epoch': 0.65}
 65%|██████▌   | 4318/6640 [1:32:11<11:05:20, 17.19s/it] 65%|██████▌   | 4319/6640 [1:32:28<11:07:50, 17.26s/it]                                                        {'loss': 0.5164, 'learning_rate': 5.7536868334379055e-06, 'epoch': 0.65}
 65%|██████▌   | 4319/6640 [1:32:28<11:07:50, 17.26s/it] 65%|██████▌   | 4320/6640 [1:32:48<11:35:56, 18.00s/it]                                                        {'loss': 0.5286, 'learning_rate': 5.749270735911159e-06, 'epoch': 0.65}
 65%|██████▌   | 4320/6640 [1:32:48<11:35:56, 18.00s/it] 65%|██████▌   | 4321/6640 [1:33:05<11:21:29, 17.63s/it]                                                        {'loss': 0.5184, 'learning_rate': 5.744855649943941e-06, 'epoch': 0.65}
 65%|██████▌   | 4321/6640 [1:33:05<11:21:29, 17.63s/it] 65%|██████▌   | 4322/6640 [1:33:21<11:05:10, 17.22s/it]                                                        {'loss': 0.51, 'learning_rate': 5.740441576586926e-06, 'epoch': 0.65}
 65%|██████▌   | 4322/6640 [1:33:21<11:05:10, 17.22s/it] 65%|██████▌   | 4323/6640 [1:33:37<10:53:46, 16.93s/it]                                                        {'loss': 0.528, 'learning_rate': 5.736028516890548e-06, 'epoch': 0.65}
 65%|██████▌   | 4323/6640 [1:33:37<10:53:46, 16.93s/it] 65%|██████▌   | 4324/6640 [1:33:54<10:46:26, 16.75s/it]                                                        {'loss': 0.5017, 'learning_rate': 5.731616471904998e-06, 'epoch': 0.65}
 65%|██████▌   | 4324/6640 [1:33:54<10:46:26, 16.75s/it] 65%|██████▌   | 4325/6640 [1:34:10<10:37:40, 16.53s/it]                                                        {'loss': 0.5115, 'learning_rate': 5.727205442680218e-06, 'epoch': 0.65}
 65%|██████▌   | 4325/6640 [1:34:10<10:37:40, 16.53s/it] 65%|██████▌   | 4326/6640 [1:34:26<10:39:34, 16.58s/it]                                                        {'loss': 0.5139, 'learning_rate': 5.722795430265919e-06, 'epoch': 0.65}
 65%|██████▌   | 4326/6640 [1:34:26<10:39:34, 16.58s/it] 65%|██████▌   | 4327/6640 [1:34:44<10:51:37, 16.90s/it]                                                        {'loss': 0.5072, 'learning_rate': 5.718386435711563e-06, 'epoch': 0.65}
 65%|██████▌   | 4327/6640 [1:34:44<10:51:37, 16.90s/it] 65%|██████▌   | 4328/6640 [1:35:01<10:50:52, 16.89s/it]                                                        {'loss': 0.5319, 'learning_rate': 5.713978460066376e-06, 'epoch': 0.65}
 65%|██████▌   | 4328/6640 [1:35:01<10:50:52, 16.89s/it] 65%|██████▌   | 4329/6640 [1:35:19<11:03:41, 17.23s/it]                                                        {'loss': 0.5087, 'learning_rate': 5.709571504379339e-06, 'epoch': 0.65}
 65%|██████▌   | 4329/6640 [1:35:19<11:03:41, 17.23s/it] 65%|██████▌   | 4330/6640 [1:35:35<10:49:20, 16.87s/it]                                                        {'loss': 0.51, 'learning_rate': 5.7051655696991825e-06, 'epoch': 0.65}
 65%|██████▌   | 4330/6640 [1:35:35<10:49:20, 16.87s/it] 65%|██████▌   | 4331/6640 [1:35:52<10:50:54, 16.91s/it]                                                        {'loss': 0.5203, 'learning_rate': 5.7007606570744055e-06, 'epoch': 0.65}
 65%|██████▌   | 4331/6640 [1:35:52<10:50:54, 16.91s/it] 65%|██████▌   | 4332/6640 [1:36:08<10:42:26, 16.70s/it]                                                        {'loss': 0.5087, 'learning_rate': 5.696356767553257e-06, 'epoch': 0.65}
 65%|██████▌   | 4332/6640 [1:36:08<10:42:26, 16.70s/it] 65%|██████▌   | 4333/6640 [1:36:25<10:44:22, 16.76s/it]                                                        {'loss': 0.5223, 'learning_rate': 5.6919539021837474e-06, 'epoch': 0.65}
 65%|██████▌   | 4333/6640 [1:36:25<10:44:22, 16.76s/it] 65%|██████▌   | 4334/6640 [1:36:43<10:52:58, 16.99s/it]                                                        {'loss': 0.5324, 'learning_rate': 5.687552062013643e-06, 'epoch': 0.65}
 65%|██████▌   | 4334/6640 [1:36:43<10:52:58, 16.99s/it] 65%|██████▌   | 4335/6640 [1:36:59<10:50:02, 16.92s/it]                                                        {'loss': 0.5123, 'learning_rate': 5.683151248090455e-06, 'epoch': 0.65}
 65%|██████▌   | 4335/6640 [1:36:59<10:50:02, 16.92s/it] 65%|██████▌   | 4336/6640 [1:37:16<10:42:34, 16.73s/it]                                                        {'loss': 0.5115, 'learning_rate': 5.6787514614614624e-06, 'epoch': 0.65}
 65%|██████▌   | 4336/6640 [1:37:16<10:42:34, 16.73s/it] 65%|██████▌   | 4337/6640 [1:37:33<10:49:11, 16.91s/it]                                                        {'loss': 0.5343, 'learning_rate': 5.6743527031737e-06, 'epoch': 0.65}
 65%|██████▌   | 4337/6640 [1:37:33<10:49:11, 16.91s/it] 65%|██████▌   | 4338/6640 [1:37:49<10:40:16, 16.69s/it]                                                        {'loss': 0.5174, 'learning_rate': 5.6699549742739545e-06, 'epoch': 0.65}
 65%|██████▌   | 4338/6640 [1:37:49<10:40:16, 16.69s/it] 65%|██████▌   | 4339/6640 [1:38:06<10:45:33, 16.83s/it]                                                        {'loss': 0.5103, 'learning_rate': 5.665558275808761e-06, 'epoch': 0.65}
 65%|██████▌   | 4339/6640 [1:38:06<10:45:33, 16.83s/it] 65%|██████▌   | 4340/6640 [1:38:22<10:37:08, 16.62s/it]                                                        {'loss': 0.5172, 'learning_rate': 5.66116260882442e-06, 'epoch': 0.65}
 65%|██████▌   | 4340/6640 [1:38:22<10:37:08, 16.62s/it] 65%|██████▌   | 4341/6640 [1:38:39<10:39:09, 16.68s/it]                                                        {'loss': 0.512, 'learning_rate': 5.656767974366981e-06, 'epoch': 0.65}
 65%|██████▌   | 4341/6640 [1:38:39<10:39:09, 16.68s/it] 65%|██████▌   | 4342/6640 [1:38:55<10:30:13, 16.45s/it]                                                        {'loss': 0.533, 'learning_rate': 5.652374373482253e-06, 'epoch': 0.65}
 65%|██████▌   | 4342/6640 [1:38:55<10:30:13, 16.45s/it] 65%|██████▌   | 4343/6640 [1:39:12<10:31:49, 16.50s/it]                                                        {'loss': 0.5123, 'learning_rate': 5.647981807215792e-06, 'epoch': 0.65}
 65%|██████▌   | 4343/6640 [1:39:12<10:31:49, 16.50s/it] 65%|██████▌   | 4344/6640 [1:39:28<10:28:13, 16.42s/it]                                                        {'loss': 0.5458, 'learning_rate': 5.643590276612909e-06, 'epoch': 0.65}
 65%|██████▌   | 4344/6640 [1:39:28<10:28:13, 16.42s/it] 65%|██████▌   | 4345/6640 [1:39:44<10:27:53, 16.42s/it]                                                        {'loss': 0.523, 'learning_rate': 5.639199782718674e-06, 'epoch': 0.65}
 65%|██████▌   | 4345/6640 [1:39:44<10:27:53, 16.42s/it] 65%|██████▌   | 4346/6640 [1:40:01<10:31:17, 16.51s/it]                                                        {'loss': 0.5204, 'learning_rate': 5.6348103265779045e-06, 'epoch': 0.65}
 65%|██████▌   | 4346/6640 [1:40:01<10:31:17, 16.51s/it] 65%|██████▌   | 4347/6640 [1:40:18<10:33:10, 16.57s/it]                                                        {'loss': 0.5254, 'learning_rate': 5.630421909235177e-06, 'epoch': 0.65}
 65%|██████▌   | 4347/6640 [1:40:18<10:33:10, 16.57s/it] 65%|██████▌   | 4348/6640 [1:40:35<10:36:17, 16.66s/it]                                                        {'loss': 0.522, 'learning_rate': 5.626034531734812e-06, 'epoch': 0.65}
 65%|██████▌   | 4348/6640 [1:40:35<10:36:17, 16.66s/it] 65%|██████▌   | 4349/6640 [1:40:51<10:31:38, 16.54s/it]                                                        {'loss': 0.5041, 'learning_rate': 5.621648195120888e-06, 'epoch': 0.65}
 65%|██████▌   | 4349/6640 [1:40:51<10:31:38, 16.54s/it]4 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
07  AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
 66%|██████▌   | 4350/6640 [1:41:07<10:24:56, 16.37s/it]6 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
                                                        {'loss': 0.518, 'learning_rate': 5.617262900437239e-06, 'epoch': 0.66}
 66%|██████▌   | 4350/6640 [1:41:07<10:24:56, 16.37s/it] 66%|██████▌   | 4351/6640 [1:41:24<10:31:37, 16.56s/it]                                                        {'loss': 0.5062, 'learning_rate': 5.612878648727444e-06, 'epoch': 0.66}
 66%|██████▌   | 4351/6640 [1:41:24<10:31:37, 16.56s/it] 66%|██████▌   | 4352/6640 [1:41:41<10:30:42, 16.54s/it]                                                        {'loss': 0.5407, 'learning_rate': 5.608495441034846e-06, 'epoch': 0.66}
 66%|██████▌   | 4352/6640 [1:41:41<10:30:42, 16.54s/it] 66%|██████▌   | 4353/6640 [1:41:57<10:27:54, 16.47s/it]                                                        {'loss': 0.5162, 'learning_rate': 5.604113278402519e-06, 'epoch': 0.66}
 66%|██████▌   | 4353/6640 [1:41:57<10:27:54, 16.47s/it] 66%|██████▌   | 4354/6640 [1:42:14<10:30:17, 16.54s/it]                                                        {'loss': 0.5243, 'learning_rate': 5.599732161873304e-06, 'epoch': 0.66}
 66%|██████▌   | 4354/6640 [1:42:14<10:30:17, 16.54s/it] 66%|██████▌   | 4355/6640 [1:42:30<10:26:17, 16.45s/it]                                                        {'loss': 0.514, 'learning_rate': 5.595352092489791e-06, 'epoch': 0.66}
 66%|██████▌   | 4355/6640 [1:42:30<10:26:17, 16.45s/it] 66%|██████▌   | 4356/6640 [1:42:45<10:17:13, 16.21s/it]                                                        {'loss': 0.5185, 'learning_rate': 5.5909730712943225e-06, 'epoch': 0.66}
 66%|██████▌   | 4356/6640 [1:42:45<10:17:13, 16.21s/it] 66%|██████▌   | 4357/6640 [1:43:03<10:33:08, 16.64s/it]                                                        {'loss': 0.4992, 'learning_rate': 5.58659509932898e-06, 'epoch': 0.66}
 66%|██████▌   | 4357/6640 [1:43:03<10:33:08, 16.64s/it] 66%|██████▌   | 4358/6640 [1:43:20<10:35:19, 16.70s/it]                                                        {'loss': 0.5045, 'learning_rate': 5.582218177635607e-06, 'epoch': 0.66}
 66%|██████▌   | 4358/6640 [1:43:20<10:35:19, 16.70s/it] 66%|██████▌   | 4359/6640 [1:43:36<10:29:21, 16.55s/it]                                                        {'loss': 0.5118, 'learning_rate': 5.577842307255794e-06, 'epoch': 0.66}
 66%|██████▌   | 4359/6640 [1:43:36<10:29:21, 16.55s/it] 66%|██████▌   | 4360/6640 [1:43:52<10:25:53, 16.47s/it]                                                        {'loss': 0.5306, 'learning_rate': 5.573467489230879e-06, 'epoch': 0.66}
 66%|██████▌   | 4360/6640 [1:43:52<10:25:53, 16.47s/it] 66%|██████▌   | 4361/6640 [1:44:09<10:24:07, 16.43s/it]                                                        {'loss': 0.5365, 'learning_rate': 5.5690937246019595e-06, 'epoch': 0.66}
 66%|██████▌   | 4361/6640 [1:44:09<10:24:07, 16.43s/it] 66%|██████▌   | 4362/6640 [1:44:25<10:20:26, 16.34s/it]                                                        {'loss': 0.5191, 'learning_rate': 5.564721014409862e-06, 'epoch': 0.66}
 66%|██████▌   | 4362/6640 [1:44:25<10:20:26, 16.34s/it] 66%|██████▌   | 4363/6640 [1:44:42<10:29:55, 16.60s/it]                                                        {'loss': 0.5317, 'learning_rate': 5.560349359695181e-06, 'epoch': 0.66}
 66%|██████▌   | 4363/6640 [1:44:42<10:29:55, 16.60s/it] 66%|██████▌   | 4364/6640 [1:44:59<10:29:03, 16.58s/it]                                                        {'loss': 0.5146, 'learning_rate': 5.55597876149825e-06, 'epoch': 0.66}
 66%|██████▌   | 4364/6640 [1:44:59<10:29:03, 16.58s/it] 66%|██████▌   | 4365/6640 [1:45:16<10:40:42, 16.90s/it]                                                        {'loss': 0.5014, 'learning_rate': 5.55160922085916e-06, 'epoch': 0.66}
 66%|██████▌   | 4365/6640 [1:45:16<10:40:42, 16.90s/it] 66%|██████▌   | 4366/6640 [1:45:33<10:35:19, 16.76s/it]                                                        {'loss': 0.5432, 'learning_rate': 5.5472407388177385e-06, 'epoch': 0.66}
 66%|██████▌   | 4366/6640 [1:45:33<10:35:19, 16.76s/it] 66%|██████▌   | 4367/6640 [1:45:49<10:34:35, 16.75s/it]                                                        {'loss': 0.5091, 'learning_rate': 5.5428733164135665e-06, 'epoch': 0.66}
 66%|██████▌   | 4367/6640 [1:45:49<10:34:35, 16.75s/it] 66%|██████▌   | 4368/6640 [1:46:06<10:30:12, 16.64s/it]                                                        {'loss': 0.5162, 'learning_rate': 5.538506954685977e-06, 'epoch': 0.66}
 66%|██████▌   | 4368/6640 [1:46:06<10:30:12, 16.64s/it] 66%|██████▌   | 4369/6640 [1:46:22<10:27:04, 16.57s/it]                                                        {'loss': 0.5346, 'learning_rate': 5.534141654674046e-06, 'epoch': 0.66}
 66%|██████▌   | 4369/6640 [1:46:22<10:27:04, 16.57s/it] 66%|██████▌   | 4370/6640 [1:46:38<10:23:07, 16.47s/it]                                                        {'loss': 0.5094, 'learning_rate': 5.529777417416599e-06, 'epoch': 0.66}
 66%|██████▌   | 4370/6640 [1:46:38<10:23:07, 16.47s/it] 66%|██████▌   | 4371/6640 [1:46:55<10:22:39, 16.47s/it]                                                        {'loss': 0.5066, 'learning_rate': 5.525414243952205e-06, 'epoch': 0.66}
 66%|██████▌   | 4371/6640 [1:46:55<10:22:39, 16.47s/it] 66%|██████▌   | 4372/6640 [1:47:11<10:14:05, 16.25s/it]                                                        {'loss': 0.5208, 'learning_rate': 5.521052135319182e-06, 'epoch': 0.66}
 66%|██████▌   | 4372/6640 [1:47:11<10:14:05, 16.25s/it] 66%|██████▌   | 4373/6640 [1:47:26<10:06:26, 16.05s/it]                                                        {'loss': 0.5279, 'learning_rate': 5.516691092555595e-06, 'epoch': 0.66}
 66%|██████▌   | 4373/6640 [1:47:26<10:06:26, 16.05s/it] 66%|██████▌   | 4374/6640 [1:47:43<10:13:39, 16.25s/it]                                                        {'loss': 0.5235, 'learning_rate': 5.512331116699257e-06, 'epoch': 0.66}
 66%|██████▌   | 4374/6640 [1:47:43<10:13:39, 16.25s/it] 66%|██████▌   | 4375/6640 [1:48:01<10:29:36, 16.68s/it]                                                        {'loss': 0.5177, 'learning_rate': 5.507972208787728e-06, 'epoch': 0.66}
 66%|██████▌   | 4375/6640 [1:48:01<10:29:36, 16.68s/it] 66%|██████▌   | 4376/6640 [1:48:18<10:33:16, 16.78s/it]                                                        {'loss': 0.52, 'learning_rate': 5.503614369858301e-06, 'epoch': 0.66}
 66%|██████▌   | 4376/6640 [1:48:18<10:33:16, 16.78s/it] 66%|██████▌   | 4377/6640 [1:48:35<10:34:42, 16.83s/it]                                                        {'loss': 0.5313, 'learning_rate': 5.499257600948038e-06, 'epoch': 0.66}
 66%|██████▌   | 4377/6640 [1:48:35<10:34:42, 16.83s/it] 66%|██████▌   | 4378/6640 [1:48:50<10:24:00, 16.55s/it]                                                        {'loss': 0.523, 'learning_rate': 5.494901903093724e-06, 'epoch': 0.66}
 66%|██████▌   | 4378/6640 [1:48:50<10:24:00, 16.55s/it] 66%|██████▌   | 4379/6640 [1:49:08<10:34:31, 16.84s/it]                                                        {'loss': 0.5112, 'learning_rate': 5.490547277331904e-06, 'epoch': 0.66}
 66%|██████▌   | 4379/6640 [1:49:08<10:34:31, 16.84s/it] 66%|██████▌   | 4380/6640 [1:49:25<10:34:25, 16.84s/it]                                                        {'loss': 0.4992, 'learning_rate': 5.486193724698854e-06, 'epoch': 0.66}
 66%|██████▌   | 4380/6640 [1:49:25<10:34:25, 16.84s/it] 66%|██████▌   | 4381/6640 [1:49:41<10:28:20, 16.69s/it]                                                        {'loss': 0.5009, 'learning_rate': 5.481841246230608e-06, 'epoch': 0.66}
 66%|██████▌   | 4381/6640 [1:49:41<10:28:20, 16.69s/it] 66%|██████▌   | 4382/6640 [1:49:58<10:28:01, 16.69s/it]                                                        {'loss': 0.5199, 'learning_rate': 5.477489842962937e-06, 'epoch': 0.66}
 66%|██████▌   | 4382/6640 [1:49:58<10:28:01, 16.69s/it] 66%|██████▌   | 4383/6640 [1:50:15<10:30:05, 16.75s/it]                                                        {'loss': 0.511, 'learning_rate': 5.473139515931362e-06, 'epoch': 0.66}
 66%|██████▌   | 4383/6640 [1:50:15<10:30:05, 16.75s/it] 66%|██████▌   | 4384/6640 [1:50:31<10:21:44, 16.54s/it]                                                        {'loss': 0.5198, 'learning_rate': 5.4687902661711465e-06, 'epoch': 0.66}
 66%|██████▌   | 4384/6640 [1:50:31<10:21:44, 16.54s/it] 66%|██████▌   | 4385/6640 [1:50:47<10:15:42, 16.38s/it]                                                        {'loss': 0.5331, 'learning_rate': 5.464442094717281e-06, 'epoch': 0.66}
 66%|██████▌   | 4385/6640 [1:50:47<10:15:42, 16.38s/it] 66%|██████▌   | 4386/6640 [1:51:04<10:25:34, 16.65s/it]                                                        {'loss': 0.5306, 'learning_rate': 5.460095002604533e-06, 'epoch': 0.66}
 66%|██████▌   | 4386/6640 [1:51:04<10:25:34, 16.65s/it] 66%|██████▌   | 4387/6640 [1:51:20<10:19:37, 16.50s/it]                                                        {'loss': 0.5187, 'learning_rate': 5.45574899086738e-06, 'epoch': 0.66}
 66%|██████▌   | 4387/6640 [1:51:20<10:19:37, 16.50s/it] 66%|██████▌   | 4388/6640 [1:51:37<10:22:52, 16.60s/it]                                                        {'loss': 0.5107, 'learning_rate': 5.451404060540064e-06, 'epoch': 0.66}
 66%|██████▌   | 4388/6640 [1:51:37<10:22:52, 16.60s/it] 66%|██████▌   | 4389/6640 [1:51:54<10:30:35, 16.81s/it]                                                        {'loss': 0.5101, 'learning_rate': 5.447060212656554e-06, 'epoch': 0.66}
 66%|██████▌   | 4389/6640 [1:51:54<10:30:35, 16.81s/it] 66%|██████▌   | 4390/6640 [1:52:10<10:20:31, 16.55s/it]                                                        {'loss': 0.5319, 'learning_rate': 5.442717448250574e-06, 'epoch': 0.66}
 66%|██████▌   | 4390/6640 [1:52:10<10:20:31, 16.55s/it] 66%|██████▌   | 4391/6640 [1:52:27<10:18:56, 16.51s/it]                                                        {'loss': 0.5236, 'learning_rate': 5.438375768355586e-06, 'epoch': 0.66}
 66%|██████▌   | 4391/6640 [1:52:27<10:18:56, 16.51s/it] 66%|██████▌   | 4392/6640 [1:52:43<10:18:03, 16.50s/it]                                                        {'loss': 0.5294, 'learning_rate': 5.4340351740047915e-06, 'epoch': 0.66}
 66%|██████▌   | 4392/6640 [1:52:43<10:18:03, 16.50s/it] 66%|██████▌   | 4393/6640 [1:53:00<10:26:04, 16.72s/it]                                                        {'loss': 0.4994, 'learning_rate': 5.429695666231141e-06, 'epoch': 0.66}
 66%|██████▌   | 4393/6640 [1:53:00<10:26:04, 16.72s/it] 66%|██████▌   | 4394/6640 [1:53:17<10:24:59, 16.70s/it]                                                        {'loss': 0.5394, 'learning_rate': 5.425357246067307e-06, 'epoch': 0.66}
 66%|██████▌   | 4394/6640 [1:53:17<10:24:59, 16.70s/it] 66%|██████▌   | 4395/6640 [1:53:34<10:29:33, 16.83s/it]                                                        {'loss': 0.5143, 'learning_rate': 5.421019914545735e-06, 'epoch': 0.66}
 66%|██████▌   | 4395/6640 [1:53:34<10:29:33, 16.83s/it] 66%|██████▌   | 4396/6640 [1:53:50<10:21:38, 16.62s/it]                                                        {'loss': 0.5351, 'learning_rate': 5.416683672698581e-06, 'epoch': 0.66}
 66%|██████▌   | 4396/6640 [1:53:50<10:21:38, 16.62s/it] 66%|██████▌   | 4397/6640 [1:54:07<10:24:19, 16.70s/it]                                                        {'loss': 0.5061, 'learning_rate': 5.412348521557762e-06, 'epoch': 0.66}
 66%|██████▌   | 4397/6640 [1:54:07<10:24:19, 16.70s/it] 66%|██████▌   | 4398/6640 [1:54:23<10:18:11, 16.54s/it]                                                        {'loss': 0.503, 'learning_rate': 5.4080144621549205e-06, 'epoch': 0.66}
 66%|██████▌   | 4398/6640 [1:54:23<10:18:11, 16.54s/it] 66%|██████▋   | 4399/6640 [1:54:39<10:12:18, 16.39s/it]                                                        {'loss': 0.528, 'learning_rate': 5.40368149552145e-06, 'epoch': 0.66}
 66%|██████▋   | 4399/6640 [1:54:39<10:12:18, 16.39s/it]3 AutoResumeHook: Checking whether to suspend...
1 4AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
2 0AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
 66%|██████▋   | 4400/6640 [1:54:56<10:14:55, 16.47s/it]                                                        {'loss': 0.522, 'learning_rate': 5.399349622688479e-06, 'epoch': 0.66}
 66%|██████▋   | 4400/6640 [1:54:56<10:14:55, 16.47s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4400/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4400/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4400/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 66%|██████▋   | 4401/6640 [1:56:39<26:22:44, 42.41s/it]                                                        {'loss': 0.5219, 'learning_rate': 5.395018844686879e-06, 'epoch': 0.66}
 66%|██████▋   | 4401/6640 [1:56:39<26:22:44, 42.41s/it] 66%|██████▋   | 4402/6640 [1:56:55<21:28:03, 34.53s/it]                                                        {'loss': 0.5335, 'learning_rate': 5.390689162547262e-06, 'epoch': 0.66}
 66%|██████▋   | 4402/6640 [1:56:55<21:28:03, 34.53s/it] 66%|██████▋   | 4403/6640 [1:57:12<18:10:10, 29.24s/it]                                                        {'loss': 0.5311, 'learning_rate': 5.386360577299965e-06, 'epoch': 0.66}
 66%|██████▋   | 4403/6640 [1:57:12<18:10:10, 29.24s/it] 66%|██████▋   | 4404/6640 [1:57:28<15:45:55, 25.38s/it]                                                        {'loss': 0.5246, 'learning_rate': 5.3820330899750895e-06, 'epoch': 0.66}
 66%|██████▋   | 4404/6640 [1:57:28<15:45:55, 25.38s/it] 66%|██████▋   | 4405/6640 [1:57:45<14:09:30, 22.81s/it]                                                        {'loss': 0.5314, 'learning_rate': 5.3777067016024495e-06, 'epoch': 0.66}
 66%|██████▋   | 4405/6640 [1:57:45<14:09:30, 22.81s/it] 66%|██████▋   | 4406/6640 [1:58:02<12:57:31, 20.88s/it]                                                        {'loss': 0.509, 'learning_rate': 5.3733814132116205e-06, 'epoch': 0.66}
 66%|██████▋   | 4406/6640 [1:58:02<12:57:31, 20.88s/it] 66%|██████▋   | 4407/6640 [1:58:18<12:02:05, 19.40s/it]                                                        {'loss': 0.5195, 'learning_rate': 5.369057225831893e-06, 'epoch': 0.66}
 66%|██████▋   | 4407/6640 [1:58:18<12:02:05, 19.40s/it] 66%|██████▋   | 4408/6640 [1:58:34<11:28:38, 18.51s/it]                                                        {'loss': 0.5062, 'learning_rate': 5.364734140492314e-06, 'epoch': 0.66}
 66%|██████▋   | 4408/6640 [1:58:34<11:28:38, 18.51s/it] 66%|██████▋   | 4409/6640 [1:58:51<11:05:49, 17.91s/it]                                                        {'loss': 0.5178, 'learning_rate': 5.360412158221661e-06, 'epoch': 0.66}
 66%|██████▋   | 4409/6640 [1:58:51<11:05:49, 17.91s/it] 66%|██████▋   | 4410/6640 [1:59:07<10:51:40, 17.53s/it]                                                        {'loss': 0.4998, 'learning_rate': 5.35609128004845e-06, 'epoch': 0.66}
 66%|██████▋   | 4410/6640 [1:59:07<10:51:40, 17.53s/it] 66%|██████▋   | 4411/6640 [1:59:25<10:50:29, 17.51s/it]                                                        {'loss': 0.5047, 'learning_rate': 5.351771507000938e-06, 'epoch': 0.66}
 66%|██████▋   | 4411/6640 [1:59:25<10:50:29, 17.51s/it] 66%|██████▋   | 4412/6640 [1:59:41<10:35:27, 17.11s/it]                                                        {'loss': 0.5229, 'learning_rate': 5.347452840107103e-06, 'epoch': 0.66}
 66%|██████▋   | 4412/6640 [1:59:41<10:35:27, 17.11s/it] 66%|██████▋   | 4413/6640 [1:59:57<10:29:54, 16.97s/it]                                                        {'loss': 0.498, 'learning_rate': 5.343135280394689e-06, 'epoch': 0.66}
 66%|██████▋   | 4413/6640 [1:59:57<10:29:54, 16.97s/it] 66%|██████▋   | 4414/6640 [2:00:14<10:21:00, 16.74s/it]                                                        {'loss': 0.5079, 'learning_rate': 5.338818828891148e-06, 'epoch': 0.66}
 66%|██████▋   | 4414/6640 [2:00:14<10:21:00, 16.74s/it] 66%|██████▋   | 4415/6640 [2:00:30<10:17:12, 16.64s/it]                                                        {'loss': 0.5223, 'learning_rate': 5.33450348662368e-06, 'epoch': 0.66}
 66%|██████▋   | 4415/6640 [2:00:30<10:17:12, 16.64s/it] 67%|██████▋   | 4416/6640 [2:00:47<10:18:54, 16.70s/it]                                                        {'loss': 0.5066, 'learning_rate': 5.330189254619227e-06, 'epoch': 0.67}
 67%|██████▋   | 4416/6640 [2:00:47<10:18:54, 16.70s/it] 67%|██████▋   | 4417/6640 [2:01:04<10:20:42, 16.75s/it]                                                        {'loss': 0.5243, 'learning_rate': 5.325876133904448e-06, 'epoch': 0.67}
 67%|██████▋   | 4417/6640 [2:01:04<10:20:42, 16.75s/it] 67%|██████▋   | 4418/6640 [2:01:21<10:28:29, 16.97s/it]                                                        {'loss': 0.5047, 'learning_rate': 5.321564125505768e-06, 'epoch': 0.67}
 67%|██████▋   | 4418/6640 [2:01:21<10:28:29, 16.97s/it] 67%|██████▋   | 4419/6640 [2:01:38<10:20:18, 16.76s/it]                                                        {'loss': 0.5138, 'learning_rate': 5.317253230449315e-06, 'epoch': 0.67}
 67%|██████▋   | 4419/6640 [2:01:38<10:20:18, 16.76s/it] 67%|██████▋   | 4420/6640 [2:01:54<10:19:39, 16.75s/it]                                                        {'loss': 0.5235, 'learning_rate': 5.312943449760975e-06, 'epoch': 0.67}
 67%|██████▋   | 4420/6640 [2:01:54<10:19:39, 16.75s/it] 67%|██████▋   | 4421/6640 [2:02:10<10:13:42, 16.59s/it]                                                        {'loss': 0.501, 'learning_rate': 5.308634784466349e-06, 'epoch': 0.67}
 67%|██████▋   | 4421/6640 [2:02:10<10:13:42, 16.59s/it] 67%|██████▋   | 4422/6640 [2:02:27<10:13:45, 16.60s/it]                                                        {'loss': 0.5175, 'learning_rate': 5.304327235590798e-06, 'epoch': 0.67}
 67%|██████▋   | 4422/6640 [2:02:27<10:13:45, 16.60s/it] 67%|██████▋   | 4423/6640 [2:02:43<10:03:16, 16.33s/it]                                                        {'loss': 0.5218, 'learning_rate': 5.300020804159393e-06, 'epoch': 0.67}
 67%|██████▋   | 4423/6640 [2:02:43<10:03:16, 16.33s/it] 67%|██████▋   | 4424/6640 [2:03:00<10:11:50, 16.57s/it]                                                        {'loss': 0.5191, 'learning_rate': 5.295715491196951e-06, 'epoch': 0.67}
 67%|██████▋   | 4424/6640 [2:03:00<10:11:50, 16.57s/it] 67%|██████▋   | 4425/6640 [2:03:16<10:09:27, 16.51s/it]                                                        {'loss': 0.5149, 'learning_rate': 5.291411297728027e-06, 'epoch': 0.67}
 67%|██████▋   | 4425/6640 [2:03:16<10:09:27, 16.51s/it] 67%|██████▋   | 4426/6640 [2:03:33<10:09:07, 16.51s/it]                                                        {'loss': 0.5046, 'learning_rate': 5.287108224776891e-06, 'epoch': 0.67}
 67%|██████▋   | 4426/6640 [2:03:33<10:09:07, 16.51s/it] 67%|██████▋   | 4427/6640 [2:03:49<10:04:32, 16.39s/it]                                                        {'loss': 0.4994, 'learning_rate': 5.282806273367576e-06, 'epoch': 0.67}
 67%|██████▋   | 4427/6640 [2:03:49<10:04:32, 16.39s/it] 67%|██████▋   | 4428/6640 [2:04:05<10:03:16, 16.36s/it]                                                        {'loss': 0.5313, 'learning_rate': 5.2785054445238156e-06, 'epoch': 0.67}
 67%|██████▋   | 4428/6640 [2:04:05<10:03:16, 16.36s/it] 67%|██████▋   | 4429/6640 [2:04:21<9:56:30, 16.19s/it]                                                        {'loss': 0.5378, 'learning_rate': 5.274205739269102e-06, 'epoch': 0.67}
 67%|██████▋   | 4429/6640 [2:04:21<9:56:30, 16.19s/it] 67%|██████▋   | 4430/6640 [2:04:39<10:19:06, 16.81s/it]                                                        {'loss': 0.5333, 'learning_rate': 5.269907158626639e-06, 'epoch': 0.67}
 67%|██████▋   | 4430/6640 [2:04:39<10:19:06, 16.81s/it] 67%|██████▋   | 4431/6640 [2:04:55<10:10:59, 16.60s/it]                                                        {'loss': 0.5172, 'learning_rate': 5.265609703619388e-06, 'epoch': 0.67}
 67%|██████▋   | 4431/6640 [2:04:55<10:10:59, 16.60s/it] 67%|██████▋   | 4432/6640 [2:05:12<10:13:47, 16.68s/it]                                                        {'loss': 0.5008, 'learning_rate': 5.2613133752700145e-06, 'epoch': 0.67}
 67%|██████▋   | 4432/6640 [2:05:12<10:13:47, 16.68s/it] 67%|██████▋   | 4433/6640 [2:05:29<10:09:41, 16.58s/it]                                                        {'loss': 0.5169, 'learning_rate': 5.257018174600937e-06, 'epoch': 0.67}
 67%|██████▋   | 4433/6640 [2:05:29<10:09:41, 16.58s/it] 67%|██████▋   | 4434/6640 [2:05:45<10:10:56, 16.62s/it]                                                        {'loss': 0.4954, 'learning_rate': 5.2527241026342965e-06, 'epoch': 0.67}
 67%|██████▋   | 4434/6640 [2:05:45<10:10:56, 16.62s/it] 67%|██████▋   | 4435/6640 [2:06:02<10:15:39, 16.75s/it]                                                        {'loss': 0.5152, 'learning_rate': 5.248431160391963e-06, 'epoch': 0.67}
 67%|██████▋   | 4435/6640 [2:06:02<10:15:39, 16.75s/it] 67%|██████▋   | 4436/6640 [2:06:19<10:09:22, 16.59s/it]                                                        {'loss': 0.5315, 'learning_rate': 5.24413934889555e-06, 'epoch': 0.67}
 67%|██████▋   | 4436/6640 [2:06:19<10:09:22, 16.59s/it] 67%|██████▋   | 4437/6640 [2:06:37<10:24:50, 17.02s/it]                                                        {'loss': 0.5173, 'learning_rate': 5.239848669166385e-06, 'epoch': 0.67}
 67%|██████▋   | 4437/6640 [2:06:37<10:24:50, 17.02s/it] 67%|██████▋   | 4438/6640 [2:06:53<10:14:29, 16.74s/it]                                                        {'loss': 0.5052, 'learning_rate': 5.235559122225542e-06, 'epoch': 0.67}
 67%|██████▋   | 4438/6640 [2:06:53<10:14:29, 16.74s/it] 67%|██████▋   | 4439/6640 [2:07:09<10:10:18, 16.64s/it]                                                        {'loss': 0.5405, 'learning_rate': 5.231270709093808e-06, 'epoch': 0.67}
 67%|██████▋   | 4439/6640 [2:07:09<10:10:18, 16.64s/it] 67%|██████▋   | 4440/6640 [2:07:25<10:07:32, 16.57s/it]                                                        {'loss': 0.5135, 'learning_rate': 5.226983430791722e-06, 'epoch': 0.67}
 67%|██████▋   | 4440/6640 [2:07:25<10:07:32, 16.57s/it] 67%|██████▋   | 4441/6640 [2:07:42<10:01:25, 16.41s/it]                                                        {'loss': 0.5163, 'learning_rate': 5.2226972883395335e-06, 'epoch': 0.67}
 67%|██████▋   | 4441/6640 [2:07:42<10:01:25, 16.41s/it] 67%|██████▋   | 4442/6640 [2:07:58<10:04:15, 16.49s/it]                                                        {'loss': 0.5134, 'learning_rate': 5.2184122827572315e-06, 'epoch': 0.67}
 67%|██████▋   | 4442/6640 [2:07:58<10:04:15, 16.49s/it] 67%|██████▋   | 4443/6640 [2:08:15<10:09:30, 16.65s/it]                                                        {'loss': 0.5183, 'learning_rate': 5.214128415064536e-06, 'epoch': 0.67}
 67%|██████▋   | 4443/6640 [2:08:15<10:09:30, 16.65s/it] 67%|██████▋   | 4444/6640 [2:08:31<10:04:06, 16.51s/it]                                                        {'loss': 0.4948, 'learning_rate': 5.209845686280881e-06, 'epoch': 0.67}
 67%|██████▋   | 4444/6640 [2:08:31<10:04:06, 16.51s/it] 67%|██████▋   | 4445/6640 [2:08:48<10:09:44, 16.67s/it]                                                        {'loss': 0.5215, 'learning_rate': 5.205564097425458e-06, 'epoch': 0.67}
 67%|██████▋   | 4445/6640 [2:08:48<10:09:44, 16.67s/it] 67%|██████▋   | 4446/6640 [2:09:05<10:08:05, 16.63s/it]                                                        {'loss': 0.5139, 'learning_rate': 5.201283649517157e-06, 'epoch': 0.67}
 67%|██████▋   | 4446/6640 [2:09:05<10:08:05, 16.63s/it] 67%|██████▋   | 4447/6640 [2:09:22<10:13:00, 16.77s/it]                                                        {'loss': 0.5383, 'learning_rate': 5.197004343574618e-06, 'epoch': 0.67}
 67%|██████▋   | 4447/6640 [2:09:22<10:13:00, 16.77s/it] 67%|██████▋   | 4448/6640 [2:09:38<10:05:58, 16.59s/it]                                                        {'loss': 0.5069, 'learning_rate': 5.192726180616191e-06, 'epoch': 0.67}
 67%|██████▋   | 4448/6640 [2:09:38<10:05:58, 16.59s/it] 67%|██████▋   | 4449/6640 [2:09:54<10:01:17, 16.47s/it]                                                        {'loss': 0.528, 'learning_rate': 5.188449161659978e-06, 'epoch': 0.67}
 67%|██████▋   | 4449/6640 [2:09:54<10:01:17, 16.47s/it]4 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
67 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
05  AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
 67%|██████▋   | 4450/6640 [2:10:10<9:56:32, 16.34s/it]                                                        {'loss': 0.5024, 'learning_rate': 5.184173287723782e-06, 'epoch': 0.67}
 67%|██████▋   | 4450/6640 [2:10:10<9:56:32, 16.34s/it] 67%|██████▋   | 4451/6640 [2:10:27<9:58:32, 16.41s/it]                                                       {'loss': 0.5258, 'learning_rate': 5.179898559825151e-06, 'epoch': 0.67}
 67%|██████▋   | 4451/6640 [2:10:27<9:58:32, 16.41s/it] 67%|██████▋   | 4452/6640 [2:10:46<10:27:19, 17.20s/it]                                                        {'loss': 0.5037, 'learning_rate': 5.17562497898136e-06, 'epoch': 0.67}
 67%|██████▋   | 4452/6640 [2:10:46<10:27:19, 17.20s/it] 67%|██████▋   | 4453/6640 [2:11:03<10:21:07, 17.04s/it]                                                        {'loss': 0.5108, 'learning_rate': 5.1713525462093965e-06, 'epoch': 0.67}
 67%|██████▋   | 4453/6640 [2:11:03<10:21:07, 17.04s/it] 67%|██████▋   | 4454/6640 [2:11:19<10:10:18, 16.75s/it]                                                        {'loss': 0.5192, 'learning_rate': 5.167081262525997e-06, 'epoch': 0.67}
 67%|██████▋   | 4454/6640 [2:11:19<10:10:18, 16.75s/it] 67%|██████▋   | 4455/6640 [2:11:36<10:12:40, 16.82s/it]                                                        {'loss': 0.4876, 'learning_rate': 5.1628111289476025e-06, 'epoch': 0.67}
 67%|██████▋   | 4455/6640 [2:11:36<10:12:40, 16.82s/it] 67%|██████▋   | 4456/6640 [2:11:52<10:09:51, 16.75s/it]                                                        {'loss': 0.5141, 'learning_rate': 5.1585421464904e-06, 'epoch': 0.67}
 67%|██████▋   | 4456/6640 [2:11:52<10:09:51, 16.75s/it] 67%|██████▋   | 4457/6640 [2:12:09<10:07:33, 16.70s/it]                                                        {'loss': 0.5156, 'learning_rate': 5.154274316170277e-06, 'epoch': 0.67}
 67%|██████▋   | 4457/6640 [2:12:09<10:07:33, 16.70s/it] 67%|██████▋   | 4458/6640 [2:12:25<10:00:01, 16.50s/it]                                                        {'loss': 0.5156, 'learning_rate': 5.150007639002881e-06, 'epoch': 0.67}
 67%|██████▋   | 4458/6640 [2:12:25<10:00:01, 16.50s/it] 67%|██████▋   | 4459/6640 [2:12:42<10:01:51, 16.56s/it]                                                        {'loss': 0.5209, 'learning_rate': 5.145742116003554e-06, 'epoch': 0.67}
 67%|██████▋   | 4459/6640 [2:12:42<10:01:51, 16.56s/it] 67%|██████▋   | 4460/6640 [2:12:58<9:56:48, 16.43s/it]                                                        {'loss': 0.5413, 'learning_rate': 5.14147774818738e-06, 'epoch': 0.67}
 67%|██████▋   | 4460/6640 [2:12:58<9:56:48, 16.43s/it] 67%|██████▋   | 4461/6640 [2:13:14<9:53:20, 16.34s/it]                                                       {'loss': 0.5267, 'learning_rate': 5.13721453656917e-06, 'epoch': 0.67}
 67%|██████▋   | 4461/6640 [2:13:14<9:53:20, 16.34s/it] 67%|██████▋   | 4462/6640 [2:13:30<9:53:01, 16.34s/it]                                                       {'loss': 0.5282, 'learning_rate': 5.132952482163439e-06, 'epoch': 0.67}
 67%|██████▋   | 4462/6640 [2:13:30<9:53:01, 16.34s/it] 67%|██████▋   | 4463/6640 [2:13:47<9:56:36, 16.44s/it]                                                       {'loss': 0.5197, 'learning_rate': 5.12869158598446e-06, 'epoch': 0.67}
 67%|██████▋   | 4463/6640 [2:13:47<9:56:36, 16.44s/it] 67%|██████▋   | 4464/6640 [2:14:05<10:10:30, 16.83s/it]                                                        {'loss': 0.501, 'learning_rate': 5.124431849046197e-06, 'epoch': 0.67}
 67%|██████▋   | 4464/6640 [2:14:05<10:10:30, 16.83s/it] 67%|██████▋   | 4465/6640 [2:14:22<10:18:33, 17.06s/it]                                                        {'loss': 0.5177, 'learning_rate': 5.120173272362361e-06, 'epoch': 0.67}
 67%|██████▋   | 4465/6640 [2:14:22<10:18:33, 17.06s/it] 67%|██████▋   | 4466/6640 [2:14:38<10:06:19, 16.73s/it]                                                        {'loss': 0.5243, 'learning_rate': 5.115915856946376e-06, 'epoch': 0.67}
 67%|██████▋   | 4466/6640 [2:14:38<10:06:19, 16.73s/it] 67%|██████▋   | 4467/6640 [2:14:55<10:05:08, 16.71s/it]                                                        {'loss': 0.5337, 'learning_rate': 5.1116596038113955e-06, 'epoch': 0.67}
 67%|██████▋   | 4467/6640 [2:14:55<10:05:08, 16.71s/it] 67%|██████▋   | 4468/6640 [2:15:11<9:58:04, 16.52s/it]                                                        {'loss': 0.5156, 'learning_rate': 5.107404513970295e-06, 'epoch': 0.67}
 67%|██████▋   | 4468/6640 [2:15:11<9:58:04, 16.52s/it] 67%|██████▋   | 4469/6640 [2:15:28<10:06:51, 16.77s/it]                                                        {'loss': 0.5196, 'learning_rate': 5.103150588435663e-06, 'epoch': 0.67}
 67%|██████▋   | 4469/6640 [2:15:28<10:06:51, 16.77s/it] 67%|██████▋   | 4470/6640 [2:15:45<10:07:23, 16.79s/it]                                                        {'loss': 0.5373, 'learning_rate': 5.098897828219831e-06, 'epoch': 0.67}
 67%|██████▋   | 4470/6640 [2:15:45<10:07:23, 16.79s/it] 67%|██████▋   | 4471/6640 [2:16:01<9:58:11, 16.55s/it]                                                        {'loss': 0.5125, 'learning_rate': 5.094646234334828e-06, 'epoch': 0.67}
 67%|██████▋   | 4471/6640 [2:16:01<9:58:11, 16.55s/it] 67%|██████▋   | 4472/6640 [2:16:19<10:06:44, 16.79s/it]                                                        {'loss': 0.5067, 'learning_rate': 5.090395807792437e-06, 'epoch': 0.67}
 67%|██████▋   | 4472/6640 [2:16:19<10:06:44, 16.79s/it] 67%|██████▋   | 4473/6640 [2:16:36<10:12:40, 16.96s/it]                                                        {'loss': 0.5091, 'learning_rate': 5.08614654960413e-06, 'epoch': 0.67}
 67%|██████▋   | 4473/6640 [2:16:36<10:12:40, 16.96s/it] 67%|██████▋   | 4474/6640 [2:16:53<10:11:59, 16.95s/it]                                                        {'loss': 0.5182, 'learning_rate': 5.0818984607811206e-06, 'epoch': 0.67}
 67%|██████▋   | 4474/6640 [2:16:53<10:11:59, 16.95s/it] 67%|██████▋   | 4475/6640 [2:17:09<10:08:21, 16.86s/it]                                                        {'loss': 0.529, 'learning_rate': 5.0776515423343445e-06, 'epoch': 0.67}
 67%|██████▋   | 4475/6640 [2:17:10<10:08:21, 16.86s/it] 67%|██████▋   | 4476/6640 [2:17:26<10:04:27, 16.76s/it]                                                        {'loss': 0.5222, 'learning_rate': 5.073405795274451e-06, 'epoch': 0.67}
 67%|██████▋   | 4476/6640 [2:17:26<10:04:27, 16.76s/it] 67%|██████▋   | 4477/6640 [2:17:42<9:56:19, 16.54s/it]                                                        {'loss': 0.5374, 'learning_rate': 5.069161220611818e-06, 'epoch': 0.67}
 67%|██████▋   | 4477/6640 [2:17:42<9:56:19, 16.54s/it] 67%|██████▋   | 4478/6640 [2:18:00<10:06:44, 16.84s/it]                                                        {'loss': 0.5222, 'learning_rate': 5.064917819356532e-06, 'epoch': 0.67}
 67%|██████▋   | 4478/6640 [2:18:00<10:06:44, 16.84s/it] 67%|██████▋   | 4479/6640 [2:18:16<10:04:41, 16.79s/it]                                                        {'loss': 0.5378, 'learning_rate': 5.060675592518419e-06, 'epoch': 0.67}
 67%|██████▋   | 4479/6640 [2:18:16<10:04:41, 16.79s/it] 67%|██████▋   | 4480/6640 [2:18:33<10:03:38, 16.77s/it]                                                        {'loss': 0.5195, 'learning_rate': 5.0564345411070025e-06, 'epoch': 0.67}
 67%|██████▋   | 4480/6640 [2:18:33<10:03:38, 16.77s/it] 67%|██████▋   | 4481/6640 [2:18:50<10:07:30, 16.88s/it]                                                        {'loss': 0.5256, 'learning_rate': 5.052194666131553e-06, 'epoch': 0.67}
 67%|██████▋   | 4481/6640 [2:18:50<10:07:30, 16.88s/it] 68%|██████▊   | 4482/6640 [2:19:06<9:57:36, 16.62s/it]                                                        {'loss': 0.5258, 'learning_rate': 5.047955968601037e-06, 'epoch': 0.68}
 68%|██████▊   | 4482/6640 [2:19:06<9:57:36, 16.62s/it] 68%|██████▊   | 4483/6640 [2:19:23<10:03:29, 16.79s/it]                                                        {'loss': 0.5188, 'learning_rate': 5.043718449524153e-06, 'epoch': 0.68}
 68%|██████▊   | 4483/6640 [2:19:23<10:03:29, 16.79s/it] 68%|██████▊   | 4484/6640 [2:19:39<9:54:26, 16.54s/it]                                                        {'loss': 0.5123, 'learning_rate': 5.0394821099093195e-06, 'epoch': 0.68}
 68%|██████▊   | 4484/6640 [2:19:39<9:54:26, 16.54s/it] 68%|██████▊   | 4485/6640 [2:19:55<9:48:04, 16.37s/it]                                                       {'loss': 0.5024, 'learning_rate': 5.03524695076467e-06, 'epoch': 0.68}
 68%|██████▊   | 4485/6640 [2:19:55<9:48:04, 16.37s/it] 68%|██████▊   | 4486/6640 [2:20:12<9:56:55, 16.63s/it]                                                       {'loss': 0.5182, 'learning_rate': 5.031012973098062e-06, 'epoch': 0.68}
 68%|██████▊   | 4486/6640 [2:20:12<9:56:55, 16.63s/it] 68%|██████▊   | 4487/6640 [2:20:29<9:50:16, 16.45s/it]                                                       {'loss': 0.4907, 'learning_rate': 5.026780177917061e-06, 'epoch': 0.68}
 68%|██████▊   | 4487/6640 [2:20:29<9:50:16, 16.45s/it] 68%|██████▊   | 4488/6640 [2:20:45<9:48:56, 16.42s/it]                                                       {'loss': 0.5167, 'learning_rate': 5.022548566228968e-06, 'epoch': 0.68}
 68%|██████▊   | 4488/6640 [2:20:45<9:48:56, 16.42s/it] 68%|██████▊   | 4489/6640 [2:21:02<9:55:28, 16.61s/it]                                                       {'loss': 0.509, 'learning_rate': 5.018318139040781e-06, 'epoch': 0.68}
 68%|██████▊   | 4489/6640 [2:21:02<9:55:28, 16.61s/it] 68%|██████▊   | 4490/6640 [2:21:18<9:49:15, 16.44s/it]                                                       {'loss': 0.5188, 'learning_rate': 5.014088897359242e-06, 'epoch': 0.68}
 68%|██████▊   | 4490/6640 [2:21:18<9:49:15, 16.44s/it] 68%|██████▊   | 4491/6640 [2:21:35<9:53:49, 16.58s/it]                                                       {'loss': 0.5295, 'learning_rate': 5.009860842190787e-06, 'epoch': 0.68}
 68%|██████▊   | 4491/6640 [2:21:35<9:53:49, 16.58s/it] 68%|██████▊   | 4492/6640 [2:21:51<9:51:53, 16.53s/it]                                                       {'loss': 0.5052, 'learning_rate': 5.005633974541584e-06, 'epoch': 0.68}
 68%|██████▊   | 4492/6640 [2:21:51<9:51:53, 16.53s/it] 68%|██████▊   | 4493/6640 [2:22:08<9:54:31, 16.61s/it]                                                       {'loss': 0.5157, 'learning_rate': 5.001408295417512e-06, 'epoch': 0.68}
 68%|██████▊   | 4493/6640 [2:22:08<9:54:31, 16.61s/it] 68%|██████▊   | 4494/6640 [2:22:26<10:02:48, 16.85s/it]                                                        {'loss': 0.5106, 'learning_rate': 4.997183805824171e-06, 'epoch': 0.68}
 68%|██████▊   | 4494/6640 [2:22:26<10:02:48, 16.85s/it] 68%|██████▊   | 4495/6640 [2:22:42<9:54:14, 16.62s/it]                                                        {'loss': 0.5308, 'learning_rate': 4.992960506766881e-06, 'epoch': 0.68}
 68%|██████▊   | 4495/6640 [2:22:42<9:54:14, 16.62s/it] 68%|██████▊   | 4496/6640 [2:22:58<9:49:35, 16.50s/it]                                                       {'loss': 0.5134, 'learning_rate': 4.9887383992506636e-06, 'epoch': 0.68}
 68%|██████▊   | 4496/6640 [2:22:58<9:49:35, 16.50s/it] 68%|██████▊   | 4497/6640 [2:23:15<9:51:50, 16.57s/it]                                                       {'loss': 0.5133, 'learning_rate': 4.984517484280275e-06, 'epoch': 0.68}
 68%|██████▊   | 4497/6640 [2:23:15<9:51:50, 16.57s/it] 68%|██████▊   | 4498/6640 [2:23:30<9:43:54, 16.36s/it]                                                       {'loss': 0.5072, 'learning_rate': 4.980297762860171e-06, 'epoch': 0.68}
 68%|██████▊   | 4498/6640 [2:23:30<9:43:54, 16.36s/it] 68%|██████▊   | 4499/6640 [2:23:47<9:43:42, 16.36s/it]                                                       {'loss': 0.5204, 'learning_rate': 4.976079235994545e-06, 'epoch': 0.68}
 68%|██████▊   | 4499/6640 [2:23:47<9:43:42, 16.36s/it]4 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
07 6AutoResumeHook: Checking whether to suspend...  
AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
 68%|██████▊   | 4500/6640 [2:24:04<9:51:50, 16.59s/it]                                                       {'loss': 0.5362, 'learning_rate': 4.971861904687283e-06, 'epoch': 0.68}
 68%|██████▊   | 4500/6640 [2:24:04<9:51:50, 16.59s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4500/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4500/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4500/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 68%|██████▊   | 4501/6640 [2:25:56<26:48:51, 45.13s/it]                                                        {'loss': 0.5057, 'learning_rate': 4.967645769942e-06, 'epoch': 0.68}
 68%|██████▊   | 4501/6640 [2:25:56<26:48:51, 45.13s/it] 68%|██████▊   | 4502/6640 [2:26:12<21:43:55, 36.59s/it]                                                        {'loss': 0.5388, 'learning_rate': 4.963430832762023e-06, 'epoch': 0.68}
 68%|██████▊   | 4502/6640 [2:26:12<21:43:55, 36.59s/it] 68%|██████▊   | 4503/6640 [2:26:29<18:11:23, 30.64s/it]                                                        {'loss': 0.526, 'learning_rate': 4.959217094150393e-06, 'epoch': 0.68}
 68%|██████▊   | 4503/6640 [2:26:29<18:11:23, 30.64s/it] 68%|██████▊   | 4504/6640 [2:26:45<15:31:05, 26.15s/it]                                                        {'loss': 0.5038, 'learning_rate': 4.955004555109872e-06, 'epoch': 0.68}
 68%|██████▊   | 4504/6640 [2:26:45<15:31:05, 26.15s/it] 68%|██████▊   | 4505/6640 [2:27:01<13:44:57, 23.18s/it]                                                        {'loss': 0.499, 'learning_rate': 4.950793216642923e-06, 'epoch': 0.68}
 68%|██████▊   | 4505/6640 [2:27:01<13:44:57, 23.18s/it] 68%|██████▊   | 4506/6640 [2:27:17<12:33:00, 21.17s/it]                                                        {'loss': 0.5067, 'learning_rate': 4.946583079751735e-06, 'epoch': 0.68}
 68%|██████▊   | 4506/6640 [2:27:17<12:33:00, 21.17s/it] 68%|██████▊   | 4507/6640 [2:27:35<11:49:24, 19.96s/it]                                                        {'loss': 0.5177, 'learning_rate': 4.942374145438209e-06, 'epoch': 0.68}
 68%|██████▊   | 4507/6640 [2:27:35<11:49:24, 19.96s/it] 68%|██████▊   | 4508/6640 [2:27:50<11:05:34, 18.73s/it]                                                        {'loss': 0.5083, 'learning_rate': 4.938166414703958e-06, 'epoch': 0.68}
 68%|██████▊   | 4508/6640 [2:27:50<11:05:34, 18.73s/it] 68%|██████▊   | 4509/6640 [2:28:07<10:43:00, 18.10s/it]                                                        {'loss': 0.5189, 'learning_rate': 4.933959888550311e-06, 'epoch': 0.68}
 68%|██████▊   | 4509/6640 [2:28:07<10:43:00, 18.10s/it] 68%|██████▊   | 4510/6640 [2:28:23<10:22:43, 17.54s/it]                                                        {'loss': 0.5178, 'learning_rate': 4.929754567978303e-06, 'epoch': 0.68}
 68%|██████▊   | 4510/6640 [2:28:23<10:22:43, 17.54s/it] 68%|██████▊   | 4511/6640 [2:28:41<10:23:35, 17.57s/it]                                                        {'loss': 0.5183, 'learning_rate': 4.92555045398869e-06, 'epoch': 0.68}
 68%|██████▊   | 4511/6640 [2:28:41<10:23:35, 17.57s/it] 68%|██████▊   | 4512/6640 [2:28:57<10:11:47, 17.25s/it]                                                        {'loss': 0.4994, 'learning_rate': 4.921347547581939e-06, 'epoch': 0.68}
 68%|██████▊   | 4512/6640 [2:28:57<10:11:47, 17.25s/it] 68%|██████▊   | 4513/6640 [2:29:14<9:59:36, 16.91s/it]                                                        {'loss': 0.5106, 'learning_rate': 4.917145849758234e-06, 'epoch': 0.68}
 68%|██████▊   | 4513/6640 [2:29:14<9:59:36, 16.91s/it] 68%|██████▊   | 4514/6640 [2:29:29<9:46:44, 16.56s/it]                                                       {'loss': 0.5028, 'learning_rate': 4.912945361517456e-06, 'epoch': 0.68}
 68%|██████▊   | 4514/6640 [2:29:29<9:46:44, 16.56s/it] 68%|██████▊   | 4515/6640 [2:29:46<9:47:46, 16.60s/it]                                                       {'loss': 0.5191, 'learning_rate': 4.908746083859214e-06, 'epoch': 0.68}
 68%|██████▊   | 4515/6640 [2:29:46<9:47:46, 16.60s/it] 68%|██████▊   | 4516/6640 [2:30:04<9:59:14, 16.93s/it]                                                       {'loss': 0.5036, 'learning_rate': 4.904548017782823e-06, 'epoch': 0.68}
 68%|██████▊   | 4516/6640 [2:30:04<9:59:14, 16.93s/it] 68%|██████▊   | 4517/6640 [2:30:20<9:52:05, 16.73s/it]                                                       {'loss': 0.5206, 'learning_rate': 4.90035116428731e-06, 'epoch': 0.68}
 68%|██████▊   | 4517/6640 [2:30:20<9:52:05, 16.73s/it] 68%|██████▊   | 4518/6640 [2:30:36<9:47:46, 16.62s/it]                                                       {'loss': 0.5137, 'learning_rate': 4.896155524371419e-06, 'epoch': 0.68}
 68%|██████▊   | 4518/6640 [2:30:36<9:47:46, 16.62s/it] 68%|██████▊   | 4519/6640 [2:30:52<9:41:37, 16.45s/it]                                                       {'loss': 0.5206, 'learning_rate': 4.891961099033589e-06, 'epoch': 0.68}
 68%|██████▊   | 4519/6640 [2:30:52<9:41:37, 16.45s/it] 68%|██████▊   | 4520/6640 [2:31:09<9:38:53, 16.38s/it]                                                       {'loss': 0.5294, 'learning_rate': 4.887767889271987e-06, 'epoch': 0.68}
 68%|██████▊   | 4520/6640 [2:31:09<9:38:53, 16.38s/it] 68%|██████▊   | 4521/6640 [2:31:25<9:42:28, 16.49s/it]                                                       {'loss': 0.4938, 'learning_rate': 4.883575896084484e-06, 'epoch': 0.68}
 68%|██████▊   | 4521/6640 [2:31:25<9:42:28, 16.49s/it] 68%|██████▊   | 4522/6640 [2:31:42<9:41:36, 16.48s/it]                                                       {'loss': 0.5162, 'learning_rate': 4.879385120468665e-06, 'epoch': 0.68}
 68%|██████▊   | 4522/6640 [2:31:42<9:41:36, 16.48s/it] 68%|██████▊   | 4523/6640 [2:31:59<9:46:30, 16.62s/it]                                                       {'loss': 0.5343, 'learning_rate': 4.875195563421815e-06, 'epoch': 0.68}
 68%|██████▊   | 4523/6640 [2:31:59<9:46:30, 16.62s/it] 68%|██████▊   | 4524/6640 [2:32:15<9:40:32, 16.46s/it]                                                       {'loss': 0.4868, 'learning_rate': 4.87100722594094e-06, 'epoch': 0.68}
 68%|██████▊   | 4524/6640 [2:32:15<9:40:32, 16.46s/it] 68%|██████▊   | 4525/6640 [2:32:31<9:39:54, 16.45s/it]                                                       {'loss': 0.5295, 'learning_rate': 4.866820109022752e-06, 'epoch': 0.68}
 68%|██████▊   | 4525/6640 [2:32:31<9:39:54, 16.45s/it] 68%|██████▊   | 4526/6640 [2:32:49<9:50:16, 16.75s/it]                                                       {'loss': 0.5043, 'learning_rate': 4.862634213663672e-06, 'epoch': 0.68}
 68%|██████▊   | 4526/6640 [2:32:49<9:50:16, 16.75s/it] 68%|██████▊   | 4527/6640 [2:33:05<9:42:41, 16.55s/it]                                                       {'loss': 0.5119, 'learning_rate': 4.8584495408598355e-06, 'epoch': 0.68}
 68%|██████▊   | 4527/6640 [2:33:05<9:42:41, 16.55s/it] 68%|██████▊   | 4528/6640 [2:33:22<9:49:18, 16.74s/it]                                                       {'loss': 0.5183, 'learning_rate': 4.854266091607074e-06, 'epoch': 0.68}
 68%|██████▊   | 4528/6640 [2:33:22<9:49:18, 16.74s/it] 68%|██████▊   | 4529/6640 [2:33:40<9:58:50, 17.02s/it]                                                       {'loss': 0.5103, 'learning_rate': 4.85008386690094e-06, 'epoch': 0.68}
 68%|██████▊   | 4529/6640 [2:33:40<9:58:50, 17.02s/it] 68%|██████▊   | 4530/6640 [2:33:56<9:50:33, 16.79s/it]                                                       {'loss': 0.5276, 'learning_rate': 4.845902867736692e-06, 'epoch': 0.68}
 68%|██████▊   | 4530/6640 [2:33:56<9:50:33, 16.79s/it] 68%|██████▊   | 4531/6640 [2:34:12<9:41:58, 16.56s/it]                                                       {'loss': 0.525, 'learning_rate': 4.841723095109297e-06, 'epoch': 0.68}
 68%|██████▊   | 4531/6640 [2:34:12<9:41:58, 16.56s/it] 68%|██████▊   | 4532/6640 [2:34:29<9:51:28, 16.84s/it]                                                       {'loss': 0.5165, 'learning_rate': 4.8375445500134245e-06, 'epoch': 0.68}
 68%|██████▊   | 4532/6640 [2:34:29<9:51:28, 16.84s/it] 68%|██████▊   | 4533/6640 [2:34:46<9:46:43, 16.71s/it]                                                       {'loss': 0.5065, 'learning_rate': 4.833367233443457e-06, 'epoch': 0.68}
 68%|██████▊   | 4533/6640 [2:34:46<9:46:43, 16.71s/it] 68%|██████▊   | 4534/6640 [2:35:02<9:41:28, 16.57s/it]                                                       {'loss': 0.5202, 'learning_rate': 4.829191146393485e-06, 'epoch': 0.68}
 68%|██████▊   | 4534/6640 [2:35:02<9:41:28, 16.57s/it] 68%|██████▊   | 4535/6640 [2:35:18<9:38:08, 16.48s/it]                                                       {'loss': 0.5109, 'learning_rate': 4.8250162898573046e-06, 'epoch': 0.68}
 68%|██████▊   | 4535/6640 [2:35:18<9:38:08, 16.48s/it] 68%|██████▊   | 4536/6640 [2:35:35<9:34:50, 16.39s/it]                                                       {'loss': 0.5091, 'learning_rate': 4.820842664828425e-06, 'epoch': 0.68}
 68%|██████▊   | 4536/6640 [2:35:35<9:34:50, 16.39s/it] 68%|██████▊   | 4537/6640 [2:35:51<9:33:16, 16.36s/it]                                                       {'loss': 0.5072, 'learning_rate': 4.8166702723000484e-06, 'epoch': 0.68}
 68%|██████▊   | 4537/6640 [2:35:51<9:33:16, 16.36s/it] 68%|██████▊   | 4538/6640 [2:36:07<9:30:07, 16.27s/it]                                                       {'loss': 0.5121, 'learning_rate': 4.812499113265095e-06, 'epoch': 0.68}
 68%|██████▊   | 4538/6640 [2:36:07<9:30:07, 16.27s/it] 68%|██████▊   | 4539/6640 [2:36:25<9:45:50, 16.73s/it]                                                       {'loss': 0.5422, 'learning_rate': 4.80832918871619e-06, 'epoch': 0.68}
 68%|██████▊   | 4539/6640 [2:36:25<9:45:50, 16.73s/it] 68%|██████▊   | 4540/6640 [2:36:41<9:43:39, 16.68s/it]                                                       {'loss': 0.5339, 'learning_rate': 4.804160499645667e-06, 'epoch': 0.68}
 68%|██████▊   | 4540/6640 [2:36:41<9:43:39, 16.68s/it] 68%|██████▊   | 4541/6640 [2:36:57<9:33:08, 16.38s/it]                                                       {'loss': 0.5117, 'learning_rate': 4.799993047045556e-06, 'epoch': 0.68}
 68%|██████▊   | 4541/6640 [2:36:57<9:33:08, 16.38s/it] 68%|██████▊   | 4542/6640 [2:37:14<9:37:57, 16.53s/it]                                                       {'loss': 0.5105, 'learning_rate': 4.7958268319075995e-06, 'epoch': 0.68}
 68%|██████▊   | 4542/6640 [2:37:14<9:37:57, 16.53s/it] 68%|██████▊   | 4543/6640 [2:37:31<9:45:46, 16.76s/it]                                                       {'loss': 0.5052, 'learning_rate': 4.791661855223249e-06, 'epoch': 0.68}
 68%|██████▊   | 4543/6640 [2:37:31<9:45:46, 16.76s/it] 68%|██████▊   | 4544/6640 [2:37:48<9:46:31, 16.79s/it]                                                       {'loss': 0.5279, 'learning_rate': 4.787498117983654e-06, 'epoch': 0.68}
 68%|██████▊   | 4544/6640 [2:37:48<9:46:31, 16.79s/it] 68%|██████▊   | 4545/6640 [2:38:05<9:50:22, 16.91s/it]                                                       {'loss': 0.5238, 'learning_rate': 4.783335621179675e-06, 'epoch': 0.68}
 68%|██████▊   | 4545/6640 [2:38:05<9:50:22, 16.91s/it] 68%|██████▊   | 4546/6640 [2:38:22<9:46:43, 16.81s/it]                                                       {'loss': 0.537, 'learning_rate': 4.779174365801872e-06, 'epoch': 0.68}
 68%|██████▊   | 4546/6640 [2:38:22<9:46:43, 16.81s/it] 68%|██████▊   | 4547/6640 [2:38:38<9:41:20, 16.67s/it]                                                       {'loss': 0.5303, 'learning_rate': 4.775014352840512e-06, 'epoch': 0.68}
 68%|██████▊   | 4547/6640 [2:38:38<9:41:20, 16.67s/it] 68%|██████▊   | 4548/6640 [2:38:55<9:48:13, 16.87s/it]                                                       {'loss': 0.5237, 'learning_rate': 4.7708555832855685e-06, 'epoch': 0.68}
 68%|██████▊   | 4548/6640 [2:38:55<9:48:13, 16.87s/it] 69%|██████▊   | 4549/6640 [2:39:11<9:38:15, 16.59s/it]                                                       {'loss': 0.5237, 'learning_rate': 4.766698058126715e-06, 'epoch': 0.69}
 69%|██████▊   | 4549/6640 [2:39:11<9:38:15, 16.59s/it]4 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
 69%|██████▊   | 4550/6640 [2:39:28<9:40:23, 16.66s/it]                                                       {'loss': 0.5312, 'learning_rate': 4.762541778353337e-06, 'epoch': 0.69}
 69%|██████▊   | 4550/6640 [2:39:28<9:40:23, 16.66s/it] 69%|██████▊   | 4551/6640 [2:39:45<9:39:59, 16.66s/it]                                                       {'loss': 0.5269, 'learning_rate': 4.758386744954507e-06, 'epoch': 0.69}
 69%|██████▊   | 4551/6640 [2:39:45<9:39:59, 16.66s/it] 69%|██████▊   | 4552/6640 [2:40:02<9:44:08, 16.79s/it]                                                       {'loss': 0.5074, 'learning_rate': 4.754232958919019e-06, 'epoch': 0.69}
 69%|██████▊   | 4552/6640 [2:40:02<9:44:08, 16.79s/it] 69%|██████▊   | 4553/6640 [2:40:19<9:48:26, 16.92s/it]                                                       {'loss': 0.5264, 'learning_rate': 4.7500804212353605e-06, 'epoch': 0.69}
 69%|██████▊   | 4553/6640 [2:40:19<9:48:26, 16.92s/it] 69%|██████▊   | 4554/6640 [2:40:36<9:44:19, 16.81s/it]                                                       {'loss': 0.5194, 'learning_rate': 4.7459291328917275e-06, 'epoch': 0.69}
 69%|██████▊   | 4554/6640 [2:40:36<9:44:19, 16.81s/it] 69%|██████▊   | 4555/6640 [2:40:53<9:47:05, 16.89s/it]                                                       {'loss': 0.5031, 'learning_rate': 4.741779094876009e-06, 'epoch': 0.69}
 69%|██████▊   | 4555/6640 [2:40:53<9:47:05, 16.89s/it] 69%|██████▊   | 4556/6640 [2:41:09<9:42:27, 16.77s/it]                                                       {'loss': 0.5266, 'learning_rate': 4.7376303081758055e-06, 'epoch': 0.69}
 69%|██████▊   | 4556/6640 [2:41:09<9:42:27, 16.77s/it] 69%|██████▊   | 4557/6640 [2:41:26<9:40:14, 16.71s/it]                                                       {'loss': 0.5178, 'learning_rate': 4.733482773778417e-06, 'epoch': 0.69}
 69%|██████▊   | 4557/6640 [2:41:26<9:40:14, 16.71s/it] 69%|██████▊   | 4558/6640 [2:41:42<9:35:17, 16.58s/it]                                                       {'loss': 0.5033, 'learning_rate': 4.729336492670846e-06, 'epoch': 0.69}
 69%|██████▊   | 4558/6640 [2:41:42<9:35:17, 16.58s/it] 69%|██████▊   | 4559/6640 [2:41:59<9:34:36, 16.57s/it]                                                       {'loss': 0.5348, 'learning_rate': 4.7251914658398e-06, 'epoch': 0.69}
 69%|██████▊   | 4559/6640 [2:41:59<9:34:36, 16.57s/it] 69%|██████▊   | 4560/6640 [2:42:14<9:23:49, 16.26s/it]                                                       {'loss': 0.5356, 'learning_rate': 4.721047694271676e-06, 'epoch': 0.69}
 69%|██████▊   | 4560/6640 [2:42:14<9:23:49, 16.26s/it] 69%|██████▊   | 4561/6640 [2:42:31<9:28:04, 16.39s/it]                                                       {'loss': 0.5007, 'learning_rate': 4.7169051789525856e-06, 'epoch': 0.69}
 69%|██████▊   | 4561/6640 [2:42:31<9:28:04, 16.39s/it] 69%|██████▊   | 4562/6640 [2:42:47<9:28:01, 16.40s/it]                                                       {'loss': 0.5046, 'learning_rate': 4.712763920868334e-06, 'epoch': 0.69}
 69%|██████▊   | 4562/6640 [2:42:47<9:28:01, 16.40s/it] 69%|██████▊   | 4563/6640 [2:43:04<9:35:22, 16.62s/it]                                                       {'loss': 0.54, 'learning_rate': 4.708623921004435e-06, 'epoch': 0.69}
 69%|██████▊   | 4563/6640 [2:43:04<9:35:22, 16.62s/it] 69%|██████▊   | 4564/6640 [2:43:20<9:28:05, 16.42s/it]                                                       {'loss': 0.5087, 'learning_rate': 4.704485180346089e-06, 'epoch': 0.69}
 69%|██████▊   | 4564/6640 [2:43:20<9:28:05, 16.42s/it] 69%|██████▉   | 4565/6640 [2:43:37<9:29:20, 16.46s/it]                                                       {'loss': 0.5215, 'learning_rate': 4.700347699878211e-06, 'epoch': 0.69}
 69%|██████▉   | 4565/6640 [2:43:37<9:29:20, 16.46s/it] 69%|██████▉   | 4566/6640 [2:43:54<9:37:45, 16.71s/it]                                                       {'loss': 0.5447, 'learning_rate': 4.6962114805854075e-06, 'epoch': 0.69}
 69%|██████▉   | 4566/6640 [2:43:54<9:37:45, 16.71s/it] 69%|██████▉   | 4567/6640 [2:44:11<9:33:34, 16.60s/it]                                                       {'loss': 0.5138, 'learning_rate': 4.6920765234519895e-06, 'epoch': 0.69}
 69%|██████▉   | 4567/6640 [2:44:11<9:33:34, 16.60s/it] 69%|██████▉   | 4568/6640 [2:44:27<9:27:39, 16.44s/it]                                                       {'loss': 0.5304, 'learning_rate': 4.687942829461969e-06, 'epoch': 0.69}
 69%|██████▉   | 4568/6640 [2:44:27<9:27:39, 16.44s/it] 69%|██████▉   | 4569/6640 [2:44:43<9:28:11, 16.46s/it]                                                       {'loss': 0.4886, 'learning_rate': 4.683810399599047e-06, 'epoch': 0.69}
 69%|██████▉   | 4569/6640 [2:44:43<9:28:11, 16.46s/it] 69%|██████▉   | 4570/6640 [2:44:59<9:25:24, 16.39s/it]                                                       {'loss': 0.5148, 'learning_rate': 4.679679234846636e-06, 'epoch': 0.69}
 69%|██████▉   | 4570/6640 [2:44:59<9:25:24, 16.39s/it] 69%|██████▉   | 4571/6640 [2:45:15<9:19:59, 16.24s/it]                                                       {'loss': 0.5271, 'learning_rate': 4.67554933618784e-06, 'epoch': 0.69}
 69%|██████▉   | 4571/6640 [2:45:15<9:19:59, 16.24s/it] 69%|██████▉   | 4572/6640 [2:45:32<9:19:52, 16.24s/it]                                                       {'loss': 0.5219, 'learning_rate': 4.67142070460547e-06, 'epoch': 0.69}
 69%|██████▉   | 4572/6640 [2:45:32<9:19:52, 16.24s/it] 69%|██████▉   | 4573/6640 [2:45:48<9:19:22, 16.24s/it]                                                       {'loss': 0.5205, 'learning_rate': 4.667293341082019e-06, 'epoch': 0.69}
 69%|██████▉   | 4573/6640 [2:45:48<9:19:22, 16.24s/it] 69%|██████▉   | 4574/6640 [2:46:05<9:24:44, 16.40s/it]                                                       {'loss': 0.5177, 'learning_rate': 4.663167246599696e-06, 'epoch': 0.69}
 69%|██████▉   | 4574/6640 [2:46:05<9:24:44, 16.40s/it] 69%|██████▉   | 4575/6640 [2:46:21<9:23:02, 16.36s/it]                                                       {'loss': 0.5114, 'learning_rate': 4.659042422140399e-06, 'epoch': 0.69}
 69%|██████▉   | 4575/6640 [2:46:21<9:23:02, 16.36s/it] 69%|██████▉   | 4576/6640 [2:46:37<9:25:15, 16.43s/it]                                                       {'loss': 0.5252, 'learning_rate': 4.654918868685726e-06, 'epoch': 0.69}
 69%|██████▉   | 4576/6640 [2:46:37<9:25:15, 16.43s/it] 69%|██████▉   | 4577/6640 [2:46:54<9:26:39, 16.48s/it]                                                       {'loss': 0.5151, 'learning_rate': 4.650796587216976e-06, 'epoch': 0.69}
 69%|██████▉   | 4577/6640 [2:46:54<9:26:39, 16.48s/it] 69%|██████▉   | 4578/6640 [2:47:10<9:24:01, 16.41s/it]                                                       {'loss': 0.5211, 'learning_rate': 4.646675578715133e-06, 'epoch': 0.69}
 69%|██████▉   | 4578/6640 [2:47:10<9:24:01, 16.41s/it] 69%|██████▉   | 4579/6640 [2:47:27<9:24:30, 16.43s/it]                                                       {'loss': 0.5141, 'learning_rate': 4.642555844160892e-06, 'epoch': 0.69}
 69%|██████▉   | 4579/6640 [2:47:27<9:24:30, 16.43s/it] 69%|██████▉   | 4580/6640 [2:47:43<9:20:07, 16.31s/it]                                                       {'loss': 0.5013, 'learning_rate': 4.6384373845346375e-06, 'epoch': 0.69}
 69%|██████▉   | 4580/6640 [2:47:43<9:20:07, 16.31s/it] 69%|██████▉   | 4581/6640 [2:48:00<9:32:19, 16.68s/it]                                                       {'loss': 0.515, 'learning_rate': 4.634320200816457e-06, 'epoch': 0.69}
 69%|██████▉   | 4581/6640 [2:48:00<9:32:19, 16.68s/it] 69%|██████▉   | 4582/6640 [2:48:17<9:27:19, 16.54s/it]                                                       {'loss': 0.5207, 'learning_rate': 4.630204293986122e-06, 'epoch': 0.69}
 69%|██████▉   | 4582/6640 [2:48:17<9:27:19, 16.54s/it] 69%|██████▉   | 4583/6640 [2:48:33<9:27:11, 16.54s/it]                                                       {'loss': 0.5233, 'learning_rate': 4.626089665023113e-06, 'epoch': 0.69}
 69%|██████▉   | 4583/6640 [2:48:33<9:27:11, 16.54s/it] 69%|██████▉   | 4584/6640 [2:48:50<9:34:27, 16.76s/it]                                                       {'loss': 0.5166, 'learning_rate': 4.621976314906597e-06, 'epoch': 0.69}
 69%|██████▉   | 4584/6640 [2:48:50<9:34:27, 16.76s/it] 69%|██████▉   | 4585/6640 [2:49:07<9:29:26, 16.63s/it]                                                       {'loss': 0.5088, 'learning_rate': 4.617864244615448e-06, 'epoch': 0.69}
 69%|██████▉   | 4585/6640 [2:49:07<9:29:26, 16.63s/it] 69%|██████▉   | 4586/6640 [2:49:24<9:31:10, 16.68s/it]                                                       {'loss': 0.4914, 'learning_rate': 4.6137534551282256e-06, 'epoch': 0.69}
 69%|██████▉   | 4586/6640 [2:49:24<9:31:10, 16.68s/it] 69%|██████▉   | 4587/6640 [2:49:40<9:30:37, 16.68s/it]                                                       {'loss': 0.5383, 'learning_rate': 4.609643947423184e-06, 'epoch': 0.69}
 69%|██████▉   | 4587/6640 [2:49:40<9:30:37, 16.68s/it] 69%|██████▉   | 4588/6640 [2:49:57<9:28:12, 16.61s/it]                                                       {'loss': 0.5171, 'learning_rate': 4.605535722478277e-06, 'epoch': 0.69}
 69%|██████▉   | 4588/6640 [2:49:57<9:28:12, 16.61s/it] 69%|██████▉   | 4589/6640 [2:50:13<9:20:32, 16.40s/it]                                                       {'loss': 0.5246, 'learning_rate': 4.601428781271154e-06, 'epoch': 0.69}
 69%|██████▉   | 4589/6640 [2:50:13<9:20:32, 16.40s/it] 69%|██████▉   | 4590/6640 [2:50:29<9:19:47, 16.38s/it]                                                       {'loss': 0.5115, 'learning_rate': 4.597323124779155e-06, 'epoch': 0.69}
 69%|██████▉   | 4590/6640 [2:50:29<9:19:47, 16.38s/it] 69%|██████▉   | 4591/6640 [2:50:46<9:25:58, 16.57s/it]                                                       {'loss': 0.496, 'learning_rate': 4.593218753979322e-06, 'epoch': 0.69}
 69%|██████▉   | 4591/6640 [2:50:46<9:25:58, 16.57s/it] 69%|██████▉   | 4592/6640 [2:51:02<9:25:59, 16.58s/it]                                                       {'loss': 0.5477, 'learning_rate': 4.589115669848372e-06, 'epoch': 0.69}
 69%|██████▉   | 4592/6640 [2:51:02<9:25:59, 16.58s/it] 69%|██████▉   | 4593/6640 [2:51:19<9:24:54, 16.56s/it]                                                       {'loss': 0.4948, 'learning_rate': 4.5850138733627435e-06, 'epoch': 0.69}
 69%|██████▉   | 4593/6640 [2:51:19<9:24:54, 16.56s/it] 69%|██████▉   | 4594/6640 [2:51:35<9:20:23, 16.43s/it]                                                       {'loss': 0.5092, 'learning_rate': 4.580913365498545e-06, 'epoch': 0.69}
 69%|██████▉   | 4594/6640 [2:51:35<9:20:23, 16.43s/it] 69%|██████▉   | 4595/6640 [2:51:52<9:21:34, 16.48s/it]                                                       {'loss': 0.5213, 'learning_rate': 4.576814147231594e-06, 'epoch': 0.69}
 69%|██████▉   | 4595/6640 [2:51:52<9:21:34, 16.48s/it] 69%|██████▉   | 4596/6640 [2:52:08<9:19:42, 16.43s/it]                                                       {'loss': 0.5262, 'learning_rate': 4.572716219537386e-06, 'epoch': 0.69}
 69%|██████▉   | 4596/6640 [2:52:08<9:19:42, 16.43s/it] 69%|██████▉   | 4597/6640 [2:52:24<9:13:02, 16.24s/it]                                                       {'loss': 0.5031, 'learning_rate': 4.568619583391123e-06, 'epoch': 0.69}
 69%|██████▉   | 4597/6640 [2:52:24<9:13:02, 16.24s/it] 69%|██████▉   | 4598/6640 [2:52:41<9:24:01, 16.57s/it]                                                       {'loss': 0.5186, 'learning_rate': 4.564524239767693e-06, 'epoch': 0.69}
 69%|██████▉   | 4598/6640 [2:52:41<9:24:01, 16.57s/it] 69%|██████▉   | 4599/6640 [2:52:58<9:27:57, 16.70s/it]                                                       {'loss': 0.501, 'learning_rate': 4.560430189641679e-06, 'epoch': 0.69}
 69%|██████▉   | 4599/6640 [2:52:58<9:27:57, 16.70s/it]4 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
10 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 69%|██████▉   | 4600/6640 [2:53:16<9:34:22, 16.89s/it]5 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5198, 'learning_rate': 4.556337433987359e-06, 'epoch': 0.69}
 69%|██████▉   | 4600/6640 [2:53:16<9:34:22, 16.89s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4600/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4600/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4600/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 69%|██████▉   | 4601/6640 [2:55:02<24:48:12, 43.79s/it]                                                        {'loss': 0.496, 'learning_rate': 4.552245973778686e-06, 'epoch': 0.69}
 69%|██████▉   | 4601/6640 [2:55:02<24:48:12, 43.79s/it] 69%|██████▉   | 4602/6640 [2:55:17<19:58:04, 35.27s/it]                                                        {'loss': 0.5349, 'learning_rate': 4.548155809989336e-06, 'epoch': 0.69}
 69%|██████▉   | 4602/6640 [2:55:17<19:58:04, 35.27s/it] 69%|██████▉   | 4603/6640 [2:55:34<16:45:16, 29.61s/it]                                                        {'loss': 0.5303, 'learning_rate': 4.544066943592645e-06, 'epoch': 0.69}
 69%|██████▉   | 4603/6640 [2:55:34<16:45:16, 29.61s/it] 69%|██████▉   | 4604/6640 [2:55:50<14:24:22, 25.47s/it]                                                        {'loss': 0.5014, 'learning_rate': 4.539979375561659e-06, 'epoch': 0.69}
 69%|██████▉   | 4604/6640 [2:55:50<14:24:22, 25.47s/it] 69%|██████▉   | 4605/6640 [2:56:06<12:46:17, 22.59s/it]                                                        {'loss': 0.5188, 'learning_rate': 4.535893106869107e-06, 'epoch': 0.69}
 69%|██████▉   | 4605/6640 [2:56:06<12:46:17, 22.59s/it] 69%|██████▉   | 4606/6640 [2:56:22<11:38:34, 20.61s/it]                                                        {'loss': 0.5145, 'learning_rate': 4.53180813848741e-06, 'epoch': 0.69}
 69%|██████▉   | 4606/6640 [2:56:22<11:38:34, 20.61s/it] 69%|██████▉   | 4607/6640 [2:56:38<10:54:40, 19.32s/it]                                                        {'loss': 0.5133, 'learning_rate': 4.527724471388685e-06, 'epoch': 0.69}
 69%|██████▉   | 4607/6640 [2:56:38<10:54:40, 19.32s/it] 69%|██████▉   | 4608/6640 [2:56:54<10:20:10, 18.31s/it]                                                        {'loss': 0.5173, 'learning_rate': 4.523642106544732e-06, 'epoch': 0.69}
 69%|██████▉   | 4608/6640 [2:56:54<10:20:10, 18.31s/it] 69%|██████▉   | 4609/6640 [2:57:10<9:56:46, 17.63s/it]                                                        {'loss': 0.5328, 'learning_rate': 4.519561044927051e-06, 'epoch': 0.69}
 69%|██████▉   | 4609/6640 [2:57:10<9:56:46, 17.63s/it] 69%|██████▉   | 4610/6640 [2:57:27<9:46:49, 17.34s/it]                                                       {'loss': 0.5204, 'learning_rate': 4.515481287506811e-06, 'epoch': 0.69}
 69%|██████▉   | 4610/6640 [2:57:27<9:46:49, 17.34s/it] 69%|██████▉   | 4611/6640 [2:57:43<9:38:09, 17.10s/it]                                                       {'loss': 0.5158, 'learning_rate': 4.511402835254902e-06, 'epoch': 0.69}
 69%|██████▉   | 4611/6640 [2:57:43<9:38:09, 17.10s/it] 69%|██████▉   | 4612/6640 [2:58:00<9:32:47, 16.95s/it]                                                       {'loss': 0.5205, 'learning_rate': 4.507325689141874e-06, 'epoch': 0.69}
 69%|██████▉   | 4612/6640 [2:58:00<9:32:47, 16.95s/it] 69%|██████▉   | 4613/6640 [2:58:17<9:37:23, 17.09s/it]                                                       {'loss': 0.4902, 'learning_rate': 4.5032498501379865e-06, 'epoch': 0.69}
 69%|██████▉   | 4613/6640 [2:58:17<9:37:23, 17.09s/it] 69%|██████▉   | 4614/6640 [2:58:35<9:43:50, 17.29s/it]                                                       {'loss': 0.5347, 'learning_rate': 4.499175319213172e-06, 'epoch': 0.69}
 69%|██████▉   | 4614/6640 [2:58:35<9:43:50, 17.29s/it] 70%|██████▉   | 4615/6640 [2:58:51<9:28:16, 16.84s/it]                                                       {'loss': 0.5157, 'learning_rate': 4.495102097337062e-06, 'epoch': 0.7}
 70%|██████▉   | 4615/6640 [2:58:51<9:28:16, 16.84s/it] 70%|██████▉   | 4616/6640 [2:59:08<9:31:00, 16.93s/it]                                                       {'loss': 0.5236, 'learning_rate': 4.491030185478976e-06, 'epoch': 0.7}
 70%|██████▉   | 4616/6640 [2:59:08<9:31:00, 16.93s/it] 70%|██████▉   | 4617/6640 [2:59:26<9:43:52, 17.32s/it]                                                       {'loss': 0.5128, 'learning_rate': 4.486959584607919e-06, 'epoch': 0.7}
 70%|██████▉   | 4617/6640 [2:59:26<9:43:52, 17.32s/it] 70%|██████▉   | 4618/6640 [2:59:42<9:27:58, 16.85s/it]                                                       {'loss': 0.5374, 'learning_rate': 4.482890295692589e-06, 'epoch': 0.7}
 70%|██████▉   | 4618/6640 [2:59:42<9:27:58, 16.85s/it] 70%|██████▉   | 4619/6640 [3:00:00<9:38:31, 17.18s/it]                                                       {'loss': 0.5045, 'learning_rate': 4.4788223197013555e-06, 'epoch': 0.7}
 70%|██████▉   | 4619/6640 [3:00:00<9:38:31, 17.18s/it] 70%|██████▉   | 4620/6640 [3:00:16<9:29:54, 16.93s/it]                                                       {'loss': 0.5331, 'learning_rate': 4.474755657602303e-06, 'epoch': 0.7}
 70%|██████▉   | 4620/6640 [3:00:16<9:29:54, 16.93s/it] 70%|██████▉   | 4621/6640 [3:00:33<9:34:50, 17.08s/it]                                                       {'loss': 0.5018, 'learning_rate': 4.470690310363177e-06, 'epoch': 0.7}
 70%|██████▉   | 4621/6640 [3:00:33<9:34:50, 17.08s/it] 70%|██████▉   | 4622/6640 [3:00:50<9:28:39, 16.91s/it]                                                       {'loss': 0.4914, 'learning_rate': 4.466626278951429e-06, 'epoch': 0.7}
 70%|██████▉   | 4622/6640 [3:00:50<9:28:39, 16.91s/it] 70%|██████▉   | 4623/6640 [3:01:06<9:22:40, 16.74s/it]                                                       {'loss': 0.5447, 'learning_rate': 4.4625635643341806e-06, 'epoch': 0.7}
 70%|██████▉   | 4623/6640 [3:01:06<9:22:40, 16.74s/it] 70%|██████▉   | 4624/6640 [3:01:23<9:24:06, 16.79s/it]                                                       {'loss': 0.5275, 'learning_rate': 4.458502167478254e-06, 'epoch': 0.7}
 70%|██████▉   | 4624/6640 [3:01:23<9:24:06, 16.79s/it] 70%|██████▉   | 4625/6640 [3:01:40<9:24:13, 16.80s/it]                                                       {'loss': 0.5237, 'learning_rate': 4.454442089350151e-06, 'epoch': 0.7}
 70%|██████▉   | 4625/6640 [3:01:40<9:24:13, 16.80s/it] 70%|██████▉   | 4626/6640 [3:01:57<9:21:55, 16.74s/it]                                                       {'loss': 0.5295, 'learning_rate': 4.4503833309160645e-06, 'epoch': 0.7}
 70%|██████▉   | 4626/6640 [3:01:57<9:21:55, 16.74s/it] 70%|██████▉   | 4627/6640 [3:02:13<9:20:20, 16.70s/it]                                                       {'loss': 0.5124, 'learning_rate': 4.44632589314187e-06, 'epoch': 0.7}
 70%|██████▉   | 4627/6640 [3:02:13<9:20:20, 16.70s/it] 70%|██████▉   | 4628/6640 [3:02:29<9:13:29, 16.51s/it]                                                       {'loss': 0.5152, 'learning_rate': 4.442269776993121e-06, 'epoch': 0.7}
 70%|██████▉   | 4628/6640 [3:02:29<9:13:29, 16.51s/it] 70%|██████▉   | 4629/6640 [3:02:46<9:19:07, 16.68s/it]                                                       {'loss': 0.5328, 'learning_rate': 4.438214983435076e-06, 'epoch': 0.7}
 70%|██████▉   | 4629/6640 [3:02:46<9:19:07, 16.68s/it] 70%|██████▉   | 4630/6640 [3:03:03<9:22:15, 16.78s/it]                                                       {'loss': 0.5206, 'learning_rate': 4.434161513432659e-06, 'epoch': 0.7}
 70%|██████▉   | 4630/6640 [3:03:03<9:22:15, 16.78s/it] 70%|██████▉   | 4631/6640 [3:03:20<9:19:25, 16.71s/it]                                                       {'loss': 0.4991, 'learning_rate': 4.430109367950488e-06, 'epoch': 0.7}
 70%|██████▉   | 4631/6640 [3:03:20<9:19:25, 16.71s/it] 70%|██████▉   | 4632/6640 [3:03:37<9:19:37, 16.72s/it]                                                       {'loss': 0.5202, 'learning_rate': 4.4260585479528675e-06, 'epoch': 0.7}
 70%|██████▉   | 4632/6640 [3:03:37<9:19:37, 16.72s/it] 70%|██████▉   | 4633/6640 [3:03:54<9:27:23, 16.96s/it]                                                       {'loss': 0.5017, 'learning_rate': 4.422009054403782e-06, 'epoch': 0.7}
 70%|██████▉   | 4633/6640 [3:03:54<9:27:23, 16.96s/it] 70%|██████▉   | 4634/6640 [3:04:10<9:17:17, 16.67s/it]                                                       {'loss': 0.5029, 'learning_rate': 4.417960888266908e-06, 'epoch': 0.7}
 70%|██████▉   | 4634/6640 [3:04:10<9:17:17, 16.67s/it] 70%|██████▉   | 4635/6640 [3:04:26<9:12:46, 16.54s/it]                                                       {'loss': 0.5233, 'learning_rate': 4.413914050505591e-06, 'epoch': 0.7}
 70%|██████▉   | 4635/6640 [3:04:26<9:12:46, 16.54s/it] 70%|██████▉   | 4636/6640 [3:04:43<9:10:00, 16.47s/it]                                                       {'loss': 0.5174, 'learning_rate': 4.409868542082878e-06, 'epoch': 0.7}
 70%|██████▉   | 4636/6640 [3:04:43<9:10:00, 16.47s/it] 70%|██████▉   | 4637/6640 [3:04:59<9:04:15, 16.30s/it]                                                       {'loss': 0.5197, 'learning_rate': 4.4058243639614804e-06, 'epoch': 0.7}
 70%|██████▉   | 4637/6640 [3:04:59<9:04:15, 16.30s/it] 70%|██████▉   | 4638/6640 [3:05:16<9:09:33, 16.47s/it]                                                       {'loss': 0.5139, 'learning_rate': 4.401781517103819e-06, 'epoch': 0.7}
 70%|██████▉   | 4638/6640 [3:05:16<9:09:33, 16.47s/it] 70%|██████▉   | 4639/6640 [3:05:32<9:12:08, 16.56s/it]                                                       {'loss': 0.5325, 'learning_rate': 4.397740002471973e-06, 'epoch': 0.7}
 70%|██████▉   | 4639/6640 [3:05:32<9:12:08, 16.56s/it] 70%|██████▉   | 4640/6640 [3:05:50<9:19:01, 16.77s/it]                                                       {'loss': 0.5078, 'learning_rate': 4.393699821027716e-06, 'epoch': 0.7}
 70%|██████▉   | 4640/6640 [3:05:50<9:19:01, 16.77s/it] 70%|██████▉   | 4641/6640 [3:06:06<9:19:43, 16.80s/it]                                                       {'loss': 0.5159, 'learning_rate': 4.389660973732503e-06, 'epoch': 0.7}
 70%|██████▉   | 4641/6640 [3:06:06<9:19:43, 16.80s/it] 70%|██████▉   | 4642/6640 [3:06:23<9:15:47, 16.69s/it]                                                       {'loss': 0.5276, 'learning_rate': 4.385623461547473e-06, 'epoch': 0.7}
 70%|██████▉   | 4642/6640 [3:06:23<9:15:47, 16.69s/it] 70%|██████▉   | 4643/6640 [3:06:39<9:07:38, 16.45s/it]                                                       {'loss': 0.5149, 'learning_rate': 4.38158728543345e-06, 'epoch': 0.7}
 70%|██████▉   | 4643/6640 [3:06:39<9:07:38, 16.45s/it] 70%|██████▉   | 4644/6640 [3:06:55<9:05:24, 16.39s/it]                                                       {'loss': 0.5291, 'learning_rate': 4.377552446350925e-06, 'epoch': 0.7}
 70%|██████▉   | 4644/6640 [3:06:55<9:05:24, 16.39s/it] 70%|██████▉   | 4645/6640 [3:07:10<8:55:50, 16.12s/it]                                                       {'loss': 0.5234, 'learning_rate': 4.37351894526009e-06, 'epoch': 0.7}
 70%|██████▉   | 4645/6640 [3:07:10<8:55:50, 16.12s/it] 70%|██████▉   | 4646/6640 [3:07:27<9:03:10, 16.34s/it]                                                       {'loss': 0.5115, 'learning_rate': 4.3694867831208e-06, 'epoch': 0.7}
 70%|██████▉   | 4646/6640 [3:07:27<9:03:10, 16.34s/it] 70%|██████▉   | 4647/6640 [3:07:43<8:59:24, 16.24s/it]                                                       {'loss': 0.5373, 'learning_rate': 4.365455960892615e-06, 'epoch': 0.7}
 70%|██████▉   | 4647/6640 [3:07:43<8:59:24, 16.24s/it] 70%|███████   | 4648/6640 [3:08:01<9:08:37, 16.53s/it]                                                       {'loss': 0.5102, 'learning_rate': 4.3614264795347525e-06, 'epoch': 0.7}
 70%|███████   | 4648/6640 [3:08:01<9:08:37, 16.53s/it] 70%|███████   | 4649/6640 [3:08:17<9:11:33, 16.62s/it]                                                       {'loss': 0.5182, 'learning_rate': 4.357398340006125e-06, 'epoch': 0.7}
 70%|███████   | 4649/6640 [3:08:17<9:11:33, 16.62s/it]4 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...3
 AutoResumeHook: Checking whether to suspend...
02  AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
 70%|███████   | 4650/6640 [3:08:34<9:09:37, 16.57s/it]6 5AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5051, 'learning_rate': 4.35337154326532e-06, 'epoch': 0.7}
 70%|███████   | 4650/6640 [3:08:34<9:09:37, 16.57s/it] 70%|███████   | 4651/6640 [3:08:50<9:07:17, 16.51s/it]                                                       {'loss': 0.5194, 'learning_rate': 4.349346090270608e-06, 'epoch': 0.7}
 70%|███████   | 4651/6640 [3:08:50<9:07:17, 16.51s/it] 70%|███████   | 4652/6640 [3:09:08<9:19:49, 16.90s/it]                                                       {'loss': 0.498, 'learning_rate': 4.345321981979942e-06, 'epoch': 0.7}
 70%|███████   | 4652/6640 [3:09:08<9:19:49, 16.90s/it] 70%|███████   | 4653/6640 [3:09:25<9:17:09, 16.82s/it]                                                       {'loss': 0.5202, 'learning_rate': 4.341299219350946e-06, 'epoch': 0.7}
 70%|███████   | 4653/6640 [3:09:25<9:17:09, 16.82s/it] 70%|███████   | 4654/6640 [3:09:41<9:14:06, 16.74s/it]                                                       {'loss': 0.5218, 'learning_rate': 4.337277803340936e-06, 'epoch': 0.7}
 70%|███████   | 4654/6640 [3:09:41<9:14:06, 16.74s/it] 70%|███████   | 4655/6640 [3:09:58<9:14:35, 16.76s/it]                                                       {'loss': 0.4965, 'learning_rate': 4.333257734906889e-06, 'epoch': 0.7}
 70%|███████   | 4655/6640 [3:09:58<9:14:35, 16.76s/it] 70%|███████   | 4656/6640 [3:10:14<9:11:02, 16.66s/it]                                                       {'loss': 0.5053, 'learning_rate': 4.329239015005489e-06, 'epoch': 0.7}
 70%|███████   | 4656/6640 [3:10:14<9:11:02, 16.66s/it] 70%|███████   | 4657/6640 [3:10:31<9:09:04, 16.61s/it]                                                       {'loss': 0.5244, 'learning_rate': 4.325221644593075e-06, 'epoch': 0.7}
 70%|███████   | 4657/6640 [3:10:31<9:09:04, 16.61s/it] 70%|███████   | 4658/6640 [3:10:48<9:16:27, 16.85s/it]                                                       {'loss': 0.5184, 'learning_rate': 4.321205624625673e-06, 'epoch': 0.7}
 70%|███████   | 4658/6640 [3:10:48<9:16:27, 16.85s/it] 70%|███████   | 4659/6640 [3:11:04<9:05:25, 16.52s/it]                                                       {'loss': 0.5151, 'learning_rate': 4.31719095605899e-06, 'epoch': 0.7}
 70%|███████   | 4659/6640 [3:11:04<9:05:25, 16.52s/it] 70%|███████   | 4660/6640 [3:11:20<9:02:09, 16.43s/it]                                                       {'loss': 0.5113, 'learning_rate': 4.313177639848408e-06, 'epoch': 0.7}
 70%|███████   | 4660/6640 [3:11:20<9:02:09, 16.43s/it] 70%|███████   | 4661/6640 [3:11:37<9:00:17, 16.38s/it]                                                       {'loss': 0.5373, 'learning_rate': 4.309165676948995e-06, 'epoch': 0.7}
 70%|███████   | 4661/6640 [3:11:37<9:00:17, 16.38s/it] 70%|███████   | 4662/6640 [3:11:53<9:00:14, 16.39s/it]                                                       {'loss': 0.5181, 'learning_rate': 4.305155068315481e-06, 'epoch': 0.7}
 70%|███████   | 4662/6640 [3:11:53<9:00:14, 16.39s/it] 70%|███████   | 4663/6640 [3:12:09<8:59:44, 16.38s/it]                                                       {'loss': 0.5249, 'learning_rate': 4.3011458149022914e-06, 'epoch': 0.7}
 70%|███████   | 4663/6640 [3:12:09<8:59:44, 16.38s/it] 70%|███████   | 4664/6640 [3:12:26<8:59:03, 16.37s/it]                                                       {'loss': 0.5039, 'learning_rate': 4.29713791766351e-06, 'epoch': 0.7}
 70%|███████   | 4664/6640 [3:12:26<8:59:03, 16.37s/it] 70%|███████   | 4665/6640 [3:12:42<8:59:36, 16.39s/it]                                                       {'loss': 0.5213, 'learning_rate': 4.293131377552923e-06, 'epoch': 0.7}
 70%|███████   | 4665/6640 [3:12:42<8:59:36, 16.39s/it] 70%|███████   | 4666/6640 [3:12:58<8:56:50, 16.32s/it]                                                       {'loss': 0.5136, 'learning_rate': 4.289126195523968e-06, 'epoch': 0.7}
 70%|███████   | 4666/6640 [3:12:58<8:56:50, 16.32s/it] 70%|███████   | 4667/6640 [3:13:15<8:58:31, 16.38s/it]                                                       {'loss': 0.5179, 'learning_rate': 4.285122372529776e-06, 'epoch': 0.7}
 70%|███████   | 4667/6640 [3:13:15<8:58:31, 16.38s/it] 70%|███████   | 4668/6640 [3:13:32<9:04:25, 16.56s/it]                                                       {'loss': 0.5211, 'learning_rate': 4.281119909523149e-06, 'epoch': 0.7}
 70%|███████   | 4668/6640 [3:13:32<9:04:25, 16.56s/it] 70%|███████   | 4669/6640 [3:13:49<9:06:19, 16.63s/it]                                                       {'loss': 0.5079, 'learning_rate': 4.277118807456565e-06, 'epoch': 0.7}
 70%|███████   | 4669/6640 [3:13:49<9:06:19, 16.63s/it] 70%|███████   | 4670/6640 [3:14:05<9:03:51, 16.56s/it]                                                       {'loss': 0.5173, 'learning_rate': 4.273119067282184e-06, 'epoch': 0.7}
 70%|███████   | 4670/6640 [3:14:05<9:03:51, 16.56s/it] 70%|███████   | 4671/6640 [3:14:21<9:01:34, 16.50s/it]                                                       {'loss': 0.5152, 'learning_rate': 4.269120689951828e-06, 'epoch': 0.7}
 70%|███████   | 4671/6640 [3:14:21<9:01:34, 16.50s/it] 70%|███████   | 4672/6640 [3:14:39<9:10:57, 16.80s/it]                                                       {'loss': 0.516, 'learning_rate': 4.265123676417008e-06, 'epoch': 0.7}
 70%|███████   | 4672/6640 [3:14:39<9:10:57, 16.80s/it] 70%|███████   | 4673/6640 [3:14:55<9:07:25, 16.70s/it]                                                       {'loss': 0.5017, 'learning_rate': 4.261128027628906e-06, 'epoch': 0.7}
 70%|███████   | 4673/6640 [3:14:55<9:07:25, 16.70s/it] 70%|███████   | 4674/6640 [3:15:11<8:59:22, 16.46s/it]                                                       {'loss': 0.5151, 'learning_rate': 4.25713374453838e-06, 'epoch': 0.7}
 70%|███████   | 4674/6640 [3:15:11<8:59:22, 16.46s/it] 70%|███████   | 4675/6640 [3:15:28<9:03:18, 16.59s/it]                                                       {'loss': 0.5027, 'learning_rate': 4.253140828095964e-06, 'epoch': 0.7}
 70%|███████   | 4675/6640 [3:15:28<9:03:18, 16.59s/it] 70%|███████   | 4676/6640 [3:15:45<9:08:52, 16.77s/it]                                                       {'loss': 0.5186, 'learning_rate': 4.249149279251859e-06, 'epoch': 0.7}
 70%|███████   | 4676/6640 [3:15:45<9:08:52, 16.77s/it] 70%|███████   | 4677/6640 [3:16:01<9:01:07, 16.54s/it]                                                       {'loss': 0.5239, 'learning_rate': 4.24515909895595e-06, 'epoch': 0.7}
 70%|███████   | 4677/6640 [3:16:01<9:01:07, 16.54s/it] 70%|███████   | 4678/6640 [3:16:18<9:04:39, 16.66s/it]                                                       {'loss': 0.5287, 'learning_rate': 4.241170288157792e-06, 'epoch': 0.7}
 70%|███████   | 4678/6640 [3:16:18<9:04:39, 16.66s/it] 70%|███████   | 4679/6640 [3:16:35<9:04:40, 16.67s/it]                                                       {'loss': 0.5138, 'learning_rate': 4.23718284780662e-06, 'epoch': 0.7}
 70%|███████   | 4679/6640 [3:16:35<9:04:40, 16.67s/it] 70%|███████   | 4680/6640 [3:16:51<8:59:24, 16.51s/it]                                                       {'loss': 0.5203, 'learning_rate': 4.2331967788513295e-06, 'epoch': 0.7}
 70%|███████   | 4680/6640 [3:16:51<8:59:24, 16.51s/it] 70%|███████   | 4681/6640 [3:17:07<8:56:10, 16.42s/it]                                                       {'loss': 0.4852, 'learning_rate': 4.229212082240503e-06, 'epoch': 0.7}
 70%|███████   | 4681/6640 [3:17:07<8:56:10, 16.42s/it] 71%|███████   | 4682/6640 [3:17:24<8:56:25, 16.44s/it]                                                       {'loss': 0.5153, 'learning_rate': 4.225228758922389e-06, 'epoch': 0.71}
 71%|███████   | 4682/6640 [3:17:24<8:56:25, 16.44s/it] 71%|███████   | 4683/6640 [3:17:40<8:54:34, 16.39s/it]                                                       {'loss': 0.5087, 'learning_rate': 4.221246809844915e-06, 'epoch': 0.71}
 71%|███████   | 4683/6640 [3:17:40<8:54:34, 16.39s/it] 71%|███████   | 4684/6640 [3:17:56<8:52:31, 16.33s/it]                                                       {'loss': 0.5232, 'learning_rate': 4.217266235955678e-06, 'epoch': 0.71}
 71%|███████   | 4684/6640 [3:17:56<8:52:31, 16.33s/it] 71%|███████   | 4685/6640 [3:18:12<8:42:23, 16.03s/it]                                                       {'loss': 0.5213, 'learning_rate': 4.213287038201943e-06, 'epoch': 0.71}
 71%|███████   | 4685/6640 [3:18:12<8:42:23, 16.03s/it] 71%|███████   | 4686/6640 [3:18:28<8:44:24, 16.10s/it]                                                       {'loss': 0.4932, 'learning_rate': 4.209309217530656e-06, 'epoch': 0.71}
 71%|███████   | 4686/6640 [3:18:28<8:44:24, 16.10s/it] 71%|███████   | 4687/6640 [3:18:44<8:44:11, 16.10s/it]                                                       {'loss': 0.5229, 'learning_rate': 4.20533277488843e-06, 'epoch': 0.71}
 71%|███████   | 4687/6640 [3:18:44<8:44:11, 16.10s/it] 71%|███████   | 4688/6640 [3:19:00<8:47:18, 16.21s/it]                                                       {'loss': 0.5214, 'learning_rate': 4.2013577112215564e-06, 'epoch': 0.71}
 71%|███████   | 4688/6640 [3:19:00<8:47:18, 16.21s/it] 71%|███████   | 4689/6640 [3:19:17<8:54:09, 16.43s/it]                                                       {'loss': 0.4982, 'learning_rate': 4.1973840274759855e-06, 'epoch': 0.71}
 71%|███████   | 4689/6640 [3:19:17<8:54:09, 16.43s/it] 71%|███████   | 4690/6640 [3:19:34<8:58:35, 16.57s/it]                                                       {'loss': 0.5123, 'learning_rate': 4.193411724597352e-06, 'epoch': 0.71}
 71%|███████   | 4690/6640 [3:19:34<8:58:35, 16.57s/it] 71%|███████   | 4691/6640 [3:19:51<8:56:28, 16.52s/it]                                                       {'loss': 0.5041, 'learning_rate': 4.1894408035309575e-06, 'epoch': 0.71}
 71%|███████   | 4691/6640 [3:19:51<8:56:28, 16.52s/it] 71%|███████   | 4692/6640 [3:20:08<9:01:22, 16.67s/it]                                                       {'loss': 0.5176, 'learning_rate': 4.185471265221775e-06, 'epoch': 0.71}
 71%|███████   | 4692/6640 [3:20:08<9:01:22, 16.67s/it] 71%|███████   | 4693/6640 [3:20:24<8:59:04, 16.61s/it]                                                       {'loss': 0.5226, 'learning_rate': 4.18150311061445e-06, 'epoch': 0.71}
 71%|███████   | 4693/6640 [3:20:24<8:59:04, 16.61s/it] 71%|███████   | 4694/6640 [3:20:41<9:00:11, 16.66s/it]                                                       {'loss': 0.5097, 'learning_rate': 4.177536340653291e-06, 'epoch': 0.71}
 71%|███████   | 4694/6640 [3:20:41<9:00:11, 16.66s/it] 71%|███████   | 4695/6640 [3:20:57<8:52:53, 16.44s/it]                                                       {'loss': 0.5221, 'learning_rate': 4.173570956282286e-06, 'epoch': 0.71}
 71%|███████   | 4695/6640 [3:20:57<8:52:53, 16.44s/it] 71%|███████   | 4696/6640 [3:21:14<8:57:38, 16.59s/it]                                                       {'loss': 0.5197, 'learning_rate': 4.16960695844509e-06, 'epoch': 0.71}
 71%|███████   | 4696/6640 [3:21:14<8:57:38, 16.59s/it] 71%|███████   | 4697/6640 [3:21:30<8:54:19, 16.50s/it]                                                       {'loss': 0.5121, 'learning_rate': 4.165644348085033e-06, 'epoch': 0.71}
 71%|███████   | 4697/6640 [3:21:30<8:54:19, 16.50s/it] 71%|███████   | 4698/6640 [3:21:47<8:57:59, 16.62s/it]                                                       {'loss': 0.4934, 'learning_rate': 4.161683126145102e-06, 'epoch': 0.71}
 71%|███████   | 4698/6640 [3:21:47<8:57:59, 16.62s/it] 71%|███████   | 4699/6640 [3:22:03<8:53:58, 16.51s/it]                                                       {'loss': 0.5183, 'learning_rate': 4.157723293567963e-06, 'epoch': 0.71}
 71%|███████   | 4699/6640 [3:22:03<8:53:58, 16.51s/it]4 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 71%|███████   | 4700/6640 [3:22:19<8:50:46, 16.42s/it]                                                       {'loss': 0.5227, 'learning_rate': 4.153764851295954e-06, 'epoch': 0.71}
 71%|███████   | 4700/6640 [3:22:19<8:50:46, 16.42s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4700/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4700/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4700/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 71%|███████   | 4701/6640 [3:24:04<23:03:37, 42.81s/it]                                                        {'loss': 0.5413, 'learning_rate': 4.149807800271075e-06, 'epoch': 0.71}
 71%|███████   | 4701/6640 [3:24:04<23:03:37, 42.81s/it] 71%|███████   | 4702/6640 [3:24:20<18:45:03, 34.83s/it]                                                        {'loss': 0.5248, 'learning_rate': 4.1458521414350026e-06, 'epoch': 0.71}
 71%|███████   | 4702/6640 [3:24:20<18:45:03, 34.83s/it] 71%|███████   | 4703/6640 [3:24:36<15:43:02, 29.21s/it]                                                        {'loss': 0.5206, 'learning_rate': 4.141897875729069e-06, 'epoch': 0.71}
 71%|███████   | 4703/6640 [3:24:36<15:43:02, 29.21s/it] 71%|███████   | 4704/6640 [3:24:52<13:38:12, 25.36s/it]                                                        {'loss': 0.5193, 'learning_rate': 4.13794500409429e-06, 'epoch': 0.71}
 71%|███████   | 4704/6640 [3:24:52<13:38:12, 25.36s/it] 71%|███████   | 4705/6640 [3:25:09<12:11:55, 22.70s/it]                                                        {'loss': 0.5164, 'learning_rate': 4.1339935274713404e-06, 'epoch': 0.71}
 71%|███████   | 4705/6640 [3:25:09<12:11:55, 22.70s/it] 71%|███████   | 4706/6640 [3:25:26<11:18:27, 21.05s/it]                                                        {'loss': 0.5115, 'learning_rate': 4.13004344680057e-06, 'epoch': 0.71}
 71%|███████   | 4706/6640 [3:25:26<11:18:27, 21.05s/it] 71%|███████   | 4707/6640 [3:25:42<10:26:52, 19.46s/it]                                                        {'loss': 0.5227, 'learning_rate': 4.126094763021985e-06, 'epoch': 0.71}
 71%|███████   | 4707/6640 [3:25:42<10:26:52, 19.46s/it] 71%|███████   | 4708/6640 [3:25:58<9:52:23, 18.40s/it]                                                        {'loss': 0.5196, 'learning_rate': 4.12214747707527e-06, 'epoch': 0.71}
 71%|███████   | 4708/6640 [3:25:58<9:52:23, 18.40s/it] 71%|███████   | 4709/6640 [3:26:14<9:28:39, 17.67s/it]                                                       {'loss': 0.5219, 'learning_rate': 4.118201589899772e-06, 'epoch': 0.71}
 71%|███████   | 4709/6640 [3:26:14<9:28:39, 17.67s/it] 71%|███████   | 4710/6640 [3:26:30<9:14:07, 17.23s/it]                                                       {'loss': 0.5126, 'learning_rate': 4.114257102434508e-06, 'epoch': 0.71}
 71%|███████   | 4710/6640 [3:26:30<9:14:07, 17.23s/it] 71%|███████   | 4711/6640 [3:26:46<9:06:32, 17.00s/it]                                                       {'loss': 0.5188, 'learning_rate': 4.110314015618162e-06, 'epoch': 0.71}
 71%|███████   | 4711/6640 [3:26:46<9:06:32, 17.00s/it] 71%|███████   | 4712/6640 [3:27:02<8:56:15, 16.69s/it]                                                       {'loss': 0.5309, 'learning_rate': 4.1063723303890765e-06, 'epoch': 0.71}
 71%|███████   | 4712/6640 [3:27:02<8:56:15, 16.69s/it] 71%|███████   | 4713/6640 [3:27:19<8:59:17, 16.79s/it]                                                       {'loss': 0.517, 'learning_rate': 4.102432047685271e-06, 'epoch': 0.71}
 71%|███████   | 4713/6640 [3:27:19<8:59:17, 16.79s/it] 71%|███████   | 4714/6640 [3:27:36<8:56:12, 16.70s/it]                                                       {'loss': 0.5368, 'learning_rate': 4.098493168444426e-06, 'epoch': 0.71}
 71%|███████   | 4714/6640 [3:27:36<8:56:12, 16.70s/it] 71%|███████   | 4715/6640 [3:27:53<8:57:54, 16.77s/it]                                                       {'loss': 0.5363, 'learning_rate': 4.094555693603891e-06, 'epoch': 0.71}
 71%|███████   | 4715/6640 [3:27:53<8:57:54, 16.77s/it] 71%|███████   | 4716/6640 [3:28:09<8:52:43, 16.61s/it]                                                       {'loss': 0.5176, 'learning_rate': 4.090619624100681e-06, 'epoch': 0.71}
 71%|███████   | 4716/6640 [3:28:09<8:52:43, 16.61s/it] 71%|███████   | 4717/6640 [3:28:26<8:57:09, 16.76s/it]                                                       {'loss': 0.5027, 'learning_rate': 4.086684960871469e-06, 'epoch': 0.71}
 71%|███████   | 4717/6640 [3:28:26<8:57:09, 16.76s/it] 71%|███████   | 4718/6640 [3:28:43<8:56:24, 16.75s/it]                                                       {'loss': 0.5099, 'learning_rate': 4.082751704852601e-06, 'epoch': 0.71}
 71%|███████   | 4718/6640 [3:28:43<8:56:24, 16.75s/it] 71%|███████   | 4719/6640 [3:29:01<9:05:29, 17.04s/it]                                                       {'loss': 0.5131, 'learning_rate': 4.078819856980088e-06, 'epoch': 0.71}
 71%|███████   | 4719/6640 [3:29:01<9:05:29, 17.04s/it] 71%|███████   | 4720/6640 [3:29:19<9:12:48, 17.28s/it]                                                       {'loss': 0.5065, 'learning_rate': 4.074889418189608e-06, 'epoch': 0.71}
 71%|███████   | 4720/6640 [3:29:19<9:12:48, 17.28s/it] 71%|███████   | 4721/6640 [3:29:34<8:58:22, 16.83s/it]                                                       {'loss': 0.4984, 'learning_rate': 4.070960389416493e-06, 'epoch': 0.71}
 71%|███████   | 4721/6640 [3:29:34<8:58:22, 16.83s/it] 71%|███████   | 4722/6640 [3:29:50<8:48:15, 16.53s/it]                                                       {'loss': 0.5078, 'learning_rate': 4.067032771595749e-06, 'epoch': 0.71}
 71%|███████   | 4722/6640 [3:29:50<8:48:15, 16.53s/it] 71%|███████   | 4723/6640 [3:30:07<8:48:45, 16.55s/it]                                                       {'loss': 0.5523, 'learning_rate': 4.063106565662044e-06, 'epoch': 0.71}
 71%|███████   | 4723/6640 [3:30:07<8:48:45, 16.55s/it] 71%|███████   | 4724/6640 [3:30:24<8:55:50, 16.78s/it]                                                       {'loss': 0.5139, 'learning_rate': 4.05918177254971e-06, 'epoch': 0.71}
 71%|███████   | 4724/6640 [3:30:24<8:55:50, 16.78s/it] 71%|███████   | 4725/6640 [3:30:41<8:56:28, 16.81s/it]                                                       {'loss': 0.5092, 'learning_rate': 4.055258393192746e-06, 'epoch': 0.71}
 71%|███████   | 4725/6640 [3:30:41<8:56:28, 16.81s/it] 71%|███████   | 4726/6640 [3:30:58<8:59:30, 16.91s/it]                                                       {'loss': 0.4926, 'learning_rate': 4.051336428524804e-06, 'epoch': 0.71}
 71%|███████   | 4726/6640 [3:30:58<8:59:30, 16.91s/it] 71%|███████   | 4727/6640 [3:31:15<8:59:43, 16.93s/it]                                                       {'loss': 0.5146, 'learning_rate': 4.04741587947921e-06, 'epoch': 0.71}
 71%|███████   | 4727/6640 [3:31:15<8:59:43, 16.93s/it] 71%|███████   | 4728/6640 [3:31:32<8:56:52, 16.85s/it]                                                       {'loss': 0.5219, 'learning_rate': 4.043496746988948e-06, 'epoch': 0.71}
 71%|███████   | 4728/6640 [3:31:32<8:56:52, 16.85s/it] 71%|███████   | 4729/6640 [3:31:48<8:52:05, 16.71s/it]                                                       {'loss': 0.5134, 'learning_rate': 4.039579031986672e-06, 'epoch': 0.71}
 71%|███████   | 4729/6640 [3:31:48<8:52:05, 16.71s/it] 71%|███████   | 4730/6640 [3:32:04<8:44:15, 16.47s/it]                                                       {'loss': 0.506, 'learning_rate': 4.0356627354046854e-06, 'epoch': 0.71}
 71%|███████   | 4730/6640 [3:32:04<8:44:15, 16.47s/it] 71%|███████▏  | 4731/6640 [3:32:19<8:34:29, 16.17s/it]                                                       {'loss': 0.5239, 'learning_rate': 4.0317478581749644e-06, 'epoch': 0.71}
 71%|███████▏  | 4731/6640 [3:32:19<8:34:29, 16.17s/it] 71%|███████▏  | 4732/6640 [3:32:36<8:34:36, 16.18s/it]                                                       {'loss': 0.5052, 'learning_rate': 4.027834401229146e-06, 'epoch': 0.71}
 71%|███████▏  | 4732/6640 [3:32:36<8:34:36, 16.18s/it] 71%|███████▏  | 4733/6640 [3:32:52<8:31:06, 16.08s/it]                                                       {'loss': 0.511, 'learning_rate': 4.0239223654985274e-06, 'epoch': 0.71}
 71%|███████▏  | 4733/6640 [3:32:52<8:31:06, 16.08s/it] 71%|███████▏  | 4734/6640 [3:33:08<8:38:08, 16.31s/it]                                                       {'loss': 0.5193, 'learning_rate': 4.02001175191407e-06, 'epoch': 0.71}
 71%|███████▏  | 4734/6640 [3:33:08<8:38:08, 16.31s/it] 71%|███████▏  | 4735/6640 [3:33:25<8:42:21, 16.45s/it]                                                       {'loss': 0.5046, 'learning_rate': 4.016102561406392e-06, 'epoch': 0.71}
 71%|███████▏  | 4735/6640 [3:33:25<8:42:21, 16.45s/it] 71%|███████▏  | 4736/6640 [3:33:42<8:41:15, 16.43s/it]                                                       {'loss': 0.5081, 'learning_rate': 4.0121947949057745e-06, 'epoch': 0.71}
 71%|███████▏  | 4736/6640 [3:33:42<8:41:15, 16.43s/it] 71%|███████▏  | 4737/6640 [3:33:58<8:46:00, 16.58s/it]                                                       {'loss': 0.5234, 'learning_rate': 4.0082884533421655e-06, 'epoch': 0.71}
 71%|███████▏  | 4737/6640 [3:33:58<8:46:00, 16.58s/it] 71%|███████▏  | 4738/6640 [3:34:14<8:36:39, 16.30s/it]                                                       {'loss': 0.5001, 'learning_rate': 4.00438353764517e-06, 'epoch': 0.71}
 71%|███████▏  | 4738/6640 [3:34:14<8:36:39, 16.30s/it] 71%|███████▏  | 4739/6640 [3:34:30<8:36:57, 16.32s/it]                                                       {'loss': 0.5309, 'learning_rate': 4.000480048744048e-06, 'epoch': 0.71}
 71%|███████▏  | 4739/6640 [3:34:30<8:36:57, 16.32s/it] 71%|███████▏  | 4740/6640 [3:34:48<8:45:56, 16.61s/it]                                                       {'loss': 0.5245, 'learning_rate': 3.996577987567727e-06, 'epoch': 0.71}
 71%|███████▏  | 4740/6640 [3:34:48<8:45:56, 16.61s/it] 71%|███████▏  | 4741/6640 [3:35:05<8:48:26, 16.70s/it]                                                       {'loss': 0.5253, 'learning_rate': 3.992677355044794e-06, 'epoch': 0.71}
 71%|███████▏  | 4741/6640 [3:35:05<8:48:26, 16.70s/it] 71%|███████▏  | 4742/6640 [3:35:21<8:49:19, 16.73s/it]                                                       {'loss': 0.5366, 'learning_rate': 3.988778152103494e-06, 'epoch': 0.71}
 71%|███████▏  | 4742/6640 [3:35:21<8:49:19, 16.73s/it] 71%|███████▏  | 4743/6640 [3:35:38<8:44:02, 16.58s/it]                                                       {'loss': 0.4959, 'learning_rate': 3.9848803796717385e-06, 'epoch': 0.71}
 71%|███████▏  | 4743/6640 [3:35:38<8:44:02, 16.58s/it] 71%|███████▏  | 4744/6640 [3:35:55<8:46:21, 16.66s/it]                                                       {'loss': 0.5249, 'learning_rate': 3.980984038677083e-06, 'epoch': 0.71}
 71%|███████▏  | 4744/6640 [3:35:55<8:46:21, 16.66s/it] 71%|███████▏  | 4745/6640 [3:36:11<8:44:20, 16.60s/it]                                                       {'loss': 0.5158, 'learning_rate': 3.977089130046756e-06, 'epoch': 0.71}
 71%|███████▏  | 4745/6640 [3:36:11<8:44:20, 16.60s/it] 71%|███████▏  | 4746/6640 [3:36:27<8:39:48, 16.47s/it]                                                       {'loss': 0.5016, 'learning_rate': 3.973195654707642e-06, 'epoch': 0.71}
 71%|███████▏  | 4746/6640 [3:36:27<8:39:48, 16.47s/it] 71%|███████▏  | 4747/6640 [3:36:44<8:40:10, 16.49s/it]                                                       {'loss': 0.5064, 'learning_rate': 3.969303613586288e-06, 'epoch': 0.71}
 71%|███████▏  | 4747/6640 [3:36:44<8:40:10, 16.49s/it] 72%|███████▏  | 4748/6640 [3:37:00<8:35:35, 16.35s/it]                                                       {'loss': 0.5255, 'learning_rate': 3.965413007608888e-06, 'epoch': 0.72}
 72%|███████▏  | 4748/6640 [3:37:00<8:35:35, 16.35s/it] 72%|███████▏  | 4749/6640 [3:37:16<8:39:01, 16.47s/it]                                                       {'loss': 0.5117, 'learning_rate': 3.961523837701304e-06, 'epoch': 0.72}
 72%|███████▏  | 4749/6640 [3:37:16<8:39:01, 16.47s/it]3 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
07 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...2 AutoResumeHook: Checking whether to suspend...

 72%|███████▏  | 4750/6640 [3:37:32<8:34:24, 16.33s/it]                                                       {'loss': 0.51, 'learning_rate': 3.957636104789056e-06, 'epoch': 0.72}
 72%|███████▏  | 4750/6640 [3:37:32<8:34:24, 16.33s/it] 72%|███████▏  | 4751/6640 [3:37:49<8:35:26, 16.37s/it]                                                       {'loss': 0.5196, 'learning_rate': 3.9537498097973186e-06, 'epoch': 0.72}
 72%|███████▏  | 4751/6640 [3:37:49<8:35:26, 16.37s/it] 72%|███████▏  | 4752/6640 [3:38:05<8:33:06, 16.31s/it]                                                       {'loss': 0.4986, 'learning_rate': 3.949864953650929e-06, 'epoch': 0.72}
 72%|███████▏  | 4752/6640 [3:38:05<8:33:06, 16.31s/it] 72%|███████▏  | 4753/6640 [3:38:22<8:35:42, 16.40s/it]                                                       {'loss': 0.5266, 'learning_rate': 3.945981537274373e-06, 'epoch': 0.72}
 72%|███████▏  | 4753/6640 [3:38:22<8:35:42, 16.40s/it] 72%|███████▏  | 4754/6640 [3:38:38<8:35:22, 16.40s/it]                                                       {'loss': 0.5081, 'learning_rate': 3.942099561591802e-06, 'epoch': 0.72}
 72%|███████▏  | 4754/6640 [3:38:38<8:35:22, 16.40s/it] 72%|███████▏  | 4755/6640 [3:38:55<8:37:50, 16.48s/it]                                                       {'loss': 0.5257, 'learning_rate': 3.938219027527023e-06, 'epoch': 0.72}
 72%|███████▏  | 4755/6640 [3:38:55<8:37:50, 16.48s/it] 72%|███████▏  | 4756/6640 [3:39:11<8:36:03, 16.44s/it]                                                       {'loss': 0.5331, 'learning_rate': 3.9343399360035e-06, 'epoch': 0.72}
 72%|███████▏  | 4756/6640 [3:39:11<8:36:03, 16.44s/it] 72%|███████▏  | 4757/6640 [3:39:27<8:32:55, 16.34s/it]                                                       {'loss': 0.4943, 'learning_rate': 3.930462287944354e-06, 'epoch': 0.72}
 72%|███████▏  | 4757/6640 [3:39:27<8:32:55, 16.34s/it] 72%|███████▏  | 4758/6640 [3:39:44<8:35:24, 16.43s/it]                                                       {'loss': 0.5122, 'learning_rate': 3.9265860842723505e-06, 'epoch': 0.72}
 72%|███████▏  | 4758/6640 [3:39:44<8:35:24, 16.43s/it] 72%|███████▏  | 4759/6640 [3:39:59<8:26:54, 16.17s/it]                                                       {'loss': 0.4975, 'learning_rate': 3.922711325909938e-06, 'epoch': 0.72}
 72%|███████▏  | 4759/6640 [3:39:59<8:26:54, 16.17s/it] 72%|███████▏  | 4760/6640 [3:40:16<8:28:24, 16.23s/it]                                                       {'loss': 0.518, 'learning_rate': 3.9188380137791934e-06, 'epoch': 0.72}
 72%|███████▏  | 4760/6640 [3:40:16<8:28:24, 16.23s/it] 72%|███████▏  | 4761/6640 [3:40:33<8:39:04, 16.58s/it]                                                       {'loss': 0.5229, 'learning_rate': 3.9149661488018685e-06, 'epoch': 0.72}
 72%|███████▏  | 4761/6640 [3:40:33<8:39:04, 16.58s/it] 72%|███████▏  | 4762/6640 [3:40:49<8:36:27, 16.50s/it]                                                       {'loss': 0.5112, 'learning_rate': 3.911095731899356e-06, 'epoch': 0.72}
 72%|███████▏  | 4762/6640 [3:40:49<8:36:27, 16.50s/it] 72%|███████▏  | 4763/6640 [3:41:06<8:37:37, 16.55s/it]                                                       {'loss': 0.5159, 'learning_rate': 3.907226763992714e-06, 'epoch': 0.72}
 72%|███████▏  | 4763/6640 [3:41:06<8:37:37, 16.55s/it] 72%|███████▏  | 4764/6640 [3:41:23<8:39:10, 16.60s/it]                                                       {'loss': 0.5066, 'learning_rate': 3.903359246002655e-06, 'epoch': 0.72}
 72%|███████▏  | 4764/6640 [3:41:23<8:39:10, 16.60s/it] 72%|███████▏  | 4765/6640 [3:41:39<8:38:09, 16.58s/it]                                                       {'loss': 0.5239, 'learning_rate': 3.899493178849544e-06, 'epoch': 0.72}
 72%|███████▏  | 4765/6640 [3:41:39<8:38:09, 16.58s/it] 72%|███████▏  | 4766/6640 [3:41:56<8:36:36, 16.54s/it]                                                       {'loss': 0.5187, 'learning_rate': 3.895628563453403e-06, 'epoch': 0.72}
 72%|███████▏  | 4766/6640 [3:41:56<8:36:36, 16.54s/it] 72%|███████▏  | 4767/6640 [3:42:15<8:56:12, 17.18s/it]                                                       {'loss': 0.5322, 'learning_rate': 3.891765400733898e-06, 'epoch': 0.72}
 72%|███████▏  | 4767/6640 [3:42:15<8:56:12, 17.18s/it] 72%|███████▏  | 4768/6640 [3:42:31<8:48:57, 16.95s/it]                                                       {'loss': 0.5059, 'learning_rate': 3.887903691610371e-06, 'epoch': 0.72}
 72%|███████▏  | 4768/6640 [3:42:31<8:48:57, 16.95s/it] 72%|███████▏  | 4769/6640 [3:42:47<8:40:34, 16.69s/it]                                                       {'loss': 0.526, 'learning_rate': 3.884043437001795e-06, 'epoch': 0.72}
 72%|███████▏  | 4769/6640 [3:42:47<8:40:34, 16.69s/it] 72%|███████▏  | 4770/6640 [3:43:03<8:36:40, 16.58s/it]                                                       {'loss': 0.5246, 'learning_rate': 3.880184637826816e-06, 'epoch': 0.72}
 72%|███████▏  | 4770/6640 [3:43:03<8:36:40, 16.58s/it] 72%|███████▏  | 4771/6640 [3:43:21<8:43:56, 16.82s/it]                                                       {'loss': 0.5321, 'learning_rate': 3.876327295003716e-06, 'epoch': 0.72}
 72%|███████▏  | 4771/6640 [3:43:21<8:43:56, 16.82s/it] 72%|███████▏  | 4772/6640 [3:43:37<8:37:14, 16.61s/it]                                                       {'loss': 0.5083, 'learning_rate': 3.872471409450441e-06, 'epoch': 0.72}
 72%|███████▏  | 4772/6640 [3:43:37<8:37:14, 16.61s/it] 72%|███████▏  | 4773/6640 [3:43:53<8:31:55, 16.45s/it]                                                       {'loss': 0.4932, 'learning_rate': 3.868616982084591e-06, 'epoch': 0.72}
 72%|███████▏  | 4773/6640 [3:43:53<8:31:55, 16.45s/it] 72%|███████▏  | 4774/6640 [3:44:10<8:37:43, 16.65s/it]                                                       {'loss': 0.5125, 'learning_rate': 3.864764013823415e-06, 'epoch': 0.72}
 72%|███████▏  | 4774/6640 [3:44:10<8:37:43, 16.65s/it] 72%|███████▏  | 4775/6640 [3:44:26<8:33:35, 16.52s/it]                                                       {'loss': 0.516, 'learning_rate': 3.860912505583819e-06, 'epoch': 0.72}
 72%|███████▏  | 4775/6640 [3:44:26<8:33:35, 16.52s/it] 72%|███████▏  | 4776/6640 [3:44:43<8:38:11, 16.68s/it]                                                       {'loss': 0.5266, 'learning_rate': 3.85706245828235e-06, 'epoch': 0.72}
 72%|███████▏  | 4776/6640 [3:44:43<8:38:11, 16.68s/it] 72%|███████▏  | 4777/6640 [3:44:59<8:30:17, 16.43s/it]                                                       {'loss': 0.535, 'learning_rate': 3.853213872835229e-06, 'epoch': 0.72}
 72%|███████▏  | 4777/6640 [3:44:59<8:30:17, 16.43s/it] 72%|███████▏  | 4778/6640 [3:45:15<8:28:04, 16.37s/it]                                                       {'loss': 0.5275, 'learning_rate': 3.849366750158305e-06, 'epoch': 0.72}
 72%|███████▏  | 4778/6640 [3:45:15<8:28:04, 16.37s/it] 72%|███████▏  | 4779/6640 [3:45:31<8:22:16, 16.19s/it]                                                       {'loss': 0.5157, 'learning_rate': 3.845521091167098e-06, 'epoch': 0.72}
 72%|███████▏  | 4779/6640 [3:45:31<8:22:16, 16.19s/it] 72%|███████▏  | 4780/6640 [3:45:48<8:29:55, 16.45s/it]                                                       {'loss': 0.5099, 'learning_rate': 3.841676896776764e-06, 'epoch': 0.72}
 72%|███████▏  | 4780/6640 [3:45:48<8:29:55, 16.45s/it] 72%|███████▏  | 4781/6640 [3:46:04<8:25:33, 16.32s/it]                                                       {'loss': 0.527, 'learning_rate': 3.837834167902121e-06, 'epoch': 0.72}
 72%|███████▏  | 4781/6640 [3:46:04<8:25:33, 16.32s/it] 72%|███████▏  | 4782/6640 [3:46:21<8:30:48, 16.50s/it]                                                       {'loss': 0.5119, 'learning_rate': 3.8339929054576375e-06, 'epoch': 0.72}
 72%|███████▏  | 4782/6640 [3:46:21<8:30:48, 16.50s/it] 72%|███████▏  | 4783/6640 [3:46:38<8:36:53, 16.70s/it]                                                       {'loss': 0.5041, 'learning_rate': 3.83015311035743e-06, 'epoch': 0.72}
 72%|███████▏  | 4783/6640 [3:46:38<8:36:53, 16.70s/it] 72%|███████▏  | 4784/6640 [3:46:55<8:37:51, 16.74s/it]                                                       {'loss': 0.5023, 'learning_rate': 3.826314783515269e-06, 'epoch': 0.72}
 72%|███████▏  | 4784/6640 [3:46:55<8:37:51, 16.74s/it] 72%|███████▏  | 4785/6640 [3:47:11<8:32:13, 16.57s/it]                                                       {'loss': 0.5054, 'learning_rate': 3.822477925844564e-06, 'epoch': 0.72}
 72%|███████▏  | 4785/6640 [3:47:11<8:32:13, 16.57s/it] 72%|███████▏  | 4786/6640 [3:47:28<8:31:05, 16.54s/it]                                                       {'loss': 0.5127, 'learning_rate': 3.818642538258398e-06, 'epoch': 0.72}
 72%|███████▏  | 4786/6640 [3:47:28<8:31:05, 16.54s/it] 72%|███████▏  | 4787/6640 [3:47:45<8:32:23, 16.59s/it]                                                       {'loss': 0.4986, 'learning_rate': 3.814808621669479e-06, 'epoch': 0.72}
 72%|███████▏  | 4787/6640 [3:47:45<8:32:23, 16.59s/it] 72%|███████▏  | 4788/6640 [3:48:00<8:25:43, 16.38s/it]                                                       {'loss': 0.5132, 'learning_rate': 3.8109761769901845e-06, 'epoch': 0.72}
 72%|███████▏  | 4788/6640 [3:48:00<8:25:43, 16.38s/it] 72%|███████▏  | 4789/6640 [3:48:16<8:21:42, 16.26s/it]                                                       {'loss': 0.5102, 'learning_rate': 3.8071452051325263e-06, 'epoch': 0.72}
 72%|███████▏  | 4789/6640 [3:48:16<8:21:42, 16.26s/it] 72%|███████▏  | 4790/6640 [3:48:33<8:22:57, 16.31s/it]                                                       {'loss': 0.5344, 'learning_rate': 3.803315707008176e-06, 'epoch': 0.72}
 72%|███████▏  | 4790/6640 [3:48:33<8:22:57, 16.31s/it] 72%|███████▏  | 4791/6640 [3:48:49<8:24:16, 16.36s/it]                                                       {'loss': 0.5075, 'learning_rate': 3.7994876835284513e-06, 'epoch': 0.72}
 72%|███████▏  | 4791/6640 [3:48:49<8:24:16, 16.36s/it] 72%|███████▏  | 4792/6640 [3:49:06<8:24:01, 16.36s/it]                                                       {'loss': 0.5052, 'learning_rate': 3.7956611356043196e-06, 'epoch': 0.72}
 72%|███████▏  | 4792/6640 [3:49:06<8:24:01, 16.36s/it] 72%|███████▏  | 4793/6640 [3:49:22<8:23:04, 16.34s/it]                                                       {'loss': 0.5209, 'learning_rate': 3.7918360641464e-06, 'epoch': 0.72}
 72%|███████▏  | 4793/6640 [3:49:22<8:23:04, 16.34s/it] 72%|███████▏  | 4794/6640 [3:49:38<8:20:51, 16.28s/it]                                                       {'loss': 0.4988, 'learning_rate': 3.788012470064947e-06, 'epoch': 0.72}
 72%|███████▏  | 4794/6640 [3:49:38<8:20:51, 16.28s/it] 72%|███████▏  | 4795/6640 [3:49:55<8:30:36, 16.60s/it]                                                       {'loss': 0.5044, 'learning_rate': 3.7841903542698855e-06, 'epoch': 0.72}
 72%|███████▏  | 4795/6640 [3:49:55<8:30:36, 16.60s/it] 72%|███████▏  | 4796/6640 [3:50:13<8:35:49, 16.78s/it]                                                       {'loss': 0.5286, 'learning_rate': 3.7803697176707688e-06, 'epoch': 0.72}
 72%|███████▏  | 4796/6640 [3:50:13<8:35:49, 16.78s/it] 72%|███████▏  | 4797/6640 [3:50:29<8:33:14, 16.71s/it]                                                       {'loss': 0.5346, 'learning_rate': 3.7765505611768072e-06, 'epoch': 0.72}
 72%|███████▏  | 4797/6640 [3:50:29<8:33:14, 16.71s/it] 72%|███████▏  | 4798/6640 [3:50:45<8:26:48, 16.51s/it]                                                       {'loss': 0.5075, 'learning_rate': 3.7727328856968613e-06, 'epoch': 0.72}
 72%|███████▏  | 4798/6640 [3:50:45<8:26:48, 16.51s/it] 72%|███████▏  | 4799/6640 [3:51:02<8:33:03, 16.72s/it]                                                       {'loss': 0.5134, 'learning_rate': 3.768916692139426e-06, 'epoch': 0.72}
 72%|███████▏  | 4799/6640 [3:51:02<8:33:03, 16.72s/it]4 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
02 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 72%|███████▏  | 4800/6640 [3:51:19<8:30:27, 16.65s/it]                                                       {'loss': 0.5231, 'learning_rate': 3.7651019814126656e-06, 'epoch': 0.72}
 72%|███████▏  | 4800/6640 [3:51:19<8:30:27, 16.65s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4800/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4800/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4800/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 72%|███████▏  | 4801/6640 [3:53:01<21:31:48, 42.15s/it]                                                        {'loss': 0.5372, 'learning_rate': 3.7612887544243694e-06, 'epoch': 0.72}
 72%|███████▏  | 4801/6640 [3:53:01<21:31:48, 42.15s/it] 72%|███████▏  | 4802/6640 [3:53:17<17:36:02, 34.47s/it]                                                        {'loss': 0.5407, 'learning_rate': 3.7574770120819903e-06, 'epoch': 0.72}
 72%|███████▏  | 4802/6640 [3:53:17<17:36:02, 34.47s/it] 72%|███████▏  | 4803/6640 [3:53:33<14:42:27, 28.82s/it]                                                        {'loss': 0.508, 'learning_rate': 3.75366675529261e-06, 'epoch': 0.72}
 72%|███████▏  | 4803/6640 [3:53:33<14:42:27, 28.82s/it] 72%|███████▏  | 4804/6640 [3:53:50<12:57:32, 25.41s/it]                                                        {'loss': 0.5108, 'learning_rate': 3.7498579849629803e-06, 'epoch': 0.72}
 72%|███████▏  | 4804/6640 [3:53:50<12:57:32, 25.41s/it] 72%|███████▏  | 4805/6640 [3:54:08<11:49:09, 23.19s/it]                                                        {'loss': 0.497, 'learning_rate': 3.7460507019994775e-06, 'epoch': 0.72}
 72%|███████▏  | 4805/6640 [3:54:08<11:49:09, 23.19s/it] 72%|███████▏  | 4806/6640 [3:54:24<10:44:41, 21.09s/it]                                                        {'loss': 0.5045, 'learning_rate': 3.7422449073081356e-06, 'epoch': 0.72}
 72%|███████▏  | 4806/6640 [3:54:24<10:44:41, 21.09s/it] 72%|███████▏  | 4807/6640 [3:54:42<10:13:55, 20.10s/it]                                                        {'loss': 0.5134, 'learning_rate': 3.738440601794635e-06, 'epoch': 0.72}
 72%|███████▏  | 4807/6640 [3:54:42<10:13:55, 20.10s/it] 72%|███████▏  | 4808/6640 [3:54:58<9:35:38, 18.85s/it]                                                        {'loss': 0.5203, 'learning_rate': 3.734637786364288e-06, 'epoch': 0.72}
 72%|███████▏  | 4808/6640 [3:54:58<9:35:38, 18.85s/it] 72%|███████▏  | 4809/6640 [3:55:14<9:05:21, 17.87s/it]                                                       {'loss': 0.5073, 'learning_rate': 3.730836461922076e-06, 'epoch': 0.72}
 72%|███████▏  | 4809/6640 [3:55:14<9:05:21, 17.87s/it] 72%|███████▏  | 4810/6640 [3:55:30<8:50:27, 17.39s/it]                                                       {'loss': 0.5248, 'learning_rate': 3.7270366293726033e-06, 'epoch': 0.72}
 72%|███████▏  | 4810/6640 [3:55:30<8:50:27, 17.39s/it] 72%|███████▏  | 4811/6640 [3:55:46<8:40:15, 17.07s/it]                                                       {'loss': 0.5026, 'learning_rate': 3.7232382896201336e-06, 'epoch': 0.72}
 72%|███████▏  | 4811/6640 [3:55:46<8:40:15, 17.07s/it] 72%|███████▏  | 4812/6640 [3:56:04<8:41:20, 17.11s/it]                                                       {'loss': 0.5189, 'learning_rate': 3.71944144356856e-06, 'epoch': 0.72}
 72%|███████▏  | 4812/6640 [3:56:04<8:41:20, 17.11s/it] 72%|███████▏  | 4813/6640 [3:56:20<8:34:29, 16.90s/it]                                                       {'loss': 0.5193, 'learning_rate': 3.715646092121444e-06, 'epoch': 0.72}
 72%|███████▏  | 4813/6640 [3:56:20<8:34:29, 16.90s/it] 72%|███████▎  | 4814/6640 [3:56:37<8:31:31, 16.81s/it]                                                       {'loss': 0.5035, 'learning_rate': 3.7118522361819676e-06, 'epoch': 0.72}
 72%|███████▎  | 4814/6640 [3:56:37<8:31:31, 16.81s/it] 73%|███████▎  | 4815/6640 [3:56:52<8:21:38, 16.49s/it]                                                       {'loss': 0.4895, 'learning_rate': 3.7080598766529686e-06, 'epoch': 0.73}
 73%|███████▎  | 4815/6640 [3:56:52<8:21:38, 16.49s/it]May 28 18:15:10.222938 518886 slurmstepd   0x155550ab8700: error: *** STEP 8293604.0 ON batch-block1-0033 CANCELLED AT 2025-05-28T18:15:10 DUE TO TIME LIMIT ***
srun: Job step aborted: Waiting up to 122 seconds for job step to finish.
srun: error: batch-block1-0033: task 0: Terminated
srun: Terminating StepId=8293604.0
srun: job 8296786 queued and waiting for resources
srun: job 8296786 has been allocated resources
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
MASTER_ADDR=batch-block1-2107
JobID: 8296786 | Full list: batch-block1-2107 
NETWORK=Efficient-Large-Model/VILA1.5-13b
WARNING:torch.distributed.run:
*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
*****************************************
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
[2025-05-28 18:17:14,353] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 18:17:14,353] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 18:17:14,353] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 18:17:14,353] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 18:17:14,353] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 18:17:14,353] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 18:17:14,353] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 18:17:14,353] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 18:17:15,932] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 18:17:15,932] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 18:17:15,932] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 18:17:15,932] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 18:17:15,932] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 18:17:15,932] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 18:17:15,932] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 18:17:15,932] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 18:17:15,932] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 18:17:15,932] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 18:17:15,932] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 18:17:15,932] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 18:17:15,932] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 18:17:15,932] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 18:17:15,932] [INFO] [comm.py:625:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
[2025-05-28 18:17:15,932] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 18:17:15,932] [INFO] [comm.py:594:init_distributed] cdb=None
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-05-28 18:17:24,568] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.02B parameters
Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.61s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.62s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.63s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.63s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.65s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.66s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:08,  1.69s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:10,  2.63s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:10,  2.63s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:10,  2.63s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:10,  2.64s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:10,  2.64s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:10,  2.64s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:10,  2.66s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:06<00:34,  6.99s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:11,  3.92s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:11,  3.92s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:11,  3.93s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:11,  3.93s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:11,  3.95s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:11,  3.95s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:11,  3.94s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:12<00:24,  6.14s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.25s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.25s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.25s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.25s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.26s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.25s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.28s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:17<00:17,  5.73s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.76s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.76s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.76s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.76s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.77s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.77s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.79s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.70s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.75s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.70s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.75s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.70s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.75s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.70s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.75s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.71s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.76s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.71s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.76s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.73s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:22<00:00,  3.77s/it]
Loading checkpoint shards:  67%|██████▋   | 4/6 [00:23<00:11,  5.83s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:28<00:05,  5.58s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:30<00:00,  4.24s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:30<00:00,  5.09s/it]
[2025-05-28 18:17:55,406] [WARNING] [partition_parameters.py:836:_post_init_method] param `probe` in SiglipMultiheadAttentionPoolingHead not on GPU so was not broadcasted from rank 0
[2025-05-28 18:17:55,408] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.44B parameters
[2025-05-28 18:17:56,763] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.49B parameters
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[dist-0-of-8] LlavaLlamaModel(
  (llm): LlamaForCausalLM(
    (model): LlamaModel(
      (embed_tokens): Embedding(32000, 5120, padding_idx=0)
      (layers): ModuleList(
        (0-39): 40 x LlamaDecoderLayer(
          (self_attn): LlamaFlashAttention2(
            (q_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (k_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (v_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (o_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (rotary_emb): LlamaRotaryEmbedding()
          )
          (mlp): LlamaMLP(
            (gate_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (up_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (down_proj): Linear(in_features=13824, out_features=5120, bias=False)
            (act_fn): SiLU()
          )
          (input_layernorm): LlamaRMSNorm()
          (post_attention_layernorm): LlamaRMSNorm()
        )
      )
      (norm): LlamaRMSNorm()
    )
    (lm_head): Linear(in_features=5120, out_features=32000, bias=False)
  )
  (vision_tower): SiglipVisionTower(
    (vision_tower): SiglipVisionModel(
      (vision_model): SiglipVisionTransformer(
        (embeddings): SiglipVisionEmbeddings(
          (patch_embedding): Conv2d(3, 1152, kernel_size=(14, 14), stride=(14, 14), padding=valid)
          (position_embedding): Embedding(729, 1152)
        )
        (encoder): SiglipEncoder(
          (layers): ModuleList(
            (0-26): 27 x SiglipEncoderLayer(
              (self_attn): SiglipAttention(
                (k_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (v_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (q_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (out_proj): Linear(in_features=1152, out_features=1152, bias=True)
              )
              (layer_norm1): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
              (mlp): SiglipMLP(
                (activation_fn): PytorchGELUTanh()
                (fc1): Linear(in_features=1152, out_features=4304, bias=True)
                (fc2): Linear(in_features=4304, out_features=1152, bias=True)
              )
              (layer_norm2): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
            )
          )
        )
        (post_layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
        (head): SiglipMultiheadAttentionPoolingHead(
          (attention): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=1152, out_features=1152, bias=True)
          )
          (layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
          (mlp): SiglipMLP(
            (activation_fn): PytorchGELUTanh()
            (fc1): Linear(in_features=1152, out_features=4304, bias=True)
            (fc2): Linear(in_features=4304, out_features=1152, bias=True)
          )
        )
      )
    )
  )
  (mm_projector): MultimodalProjector(
    (layers): Sequential(
      (0): DownSampleBlock()
      (1): LayerNorm((4608,), eps=1e-05, elementwise_affine=True)
      (2): Linear(in_features=4608, out_features=5120, bias=True)
      (3): GELU(approximate='none')
      (4): Linear(in_features=5120, out_features=5120, bias=True)
    )
  )
)
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[dist-0-of-8] Tunable parameters:
language model True
[dist-0-of-8] vision tower True
[dist-0-of-8] mm projector True
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode

WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2339963912963867
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2345433235168457
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.230419635772705
length of dataloader: 13280 1700195
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2347254753112793
[GPU memory] before trainer 3.2346744537353516
length of dataloader: 13280 1700195
[GPU memory] before trainerlength of dataloader:  3.23353004455566413280
 1700195
[GPU memory] before trainer 3.2353010177612305
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2340526580810547
Parameter Offload: Total persistent parameters: 847296 in 365 params
wandb: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
wandb: Tracking run with wandb version 0.18.7
wandb: Run data is saved locally in /lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/wandb/run-20250528_181939-pao3360v
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run vila_13b_path_mask
wandb: ⭐️ View project at https://wandb.ai/memmelma/VILA
wandb: 🚀 View run at https://wandb.ai/memmelma/VILA/runs/pao3360v
  0%|          | 0/6640 [00:00<?, ?it/s]Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
 72%|███████▏  | 4801/6640 [00:30<00:11, 158.11it/s]                                                    {'loss': 0.5372, 'learning_rate': 3.7612887544243694e-06, 'epoch': 0.72}
 72%|███████▏  | 4801/6640 [00:30<00:11, 158.11it/s] 72%|███████▏  | 4801/6640 [00:41<00:11, 158.11it/s] 72%|███████▏  | 4802/6640 [00:47<00:20, 88.44it/s]                                                    {'loss': 0.541, 'learning_rate': 3.7574770120819903e-06, 'epoch': 0.72}
 72%|███████▏  | 4802/6640 [00:47<00:20, 88.44it/s] 72%|███████▏  | 4803/6640 [01:02<00:32, 55.98it/s]                                                   {'loss': 0.508, 'learning_rate': 3.75366675529261e-06, 'epoch': 0.72}
 72%|███████▏  | 4803/6640 [01:02<00:32, 55.98it/s] 72%|███████▏  | 4804/6640 [01:19<00:52, 35.22it/s]                                                   {'loss': 0.5108, 'learning_rate': 3.7498579849629803e-06, 'epoch': 0.72}
 72%|███████▏  | 4804/6640 [01:19<00:52, 35.22it/s] 72%|███████▏  | 4805/6640 [01:37<01:20, 22.82it/s]                                                   {'loss': 0.4968, 'learning_rate': 3.7460507019994775e-06, 'epoch': 0.72}
 72%|███████▏  | 4805/6640 [01:37<01:20, 22.82it/s] 72%|███████▏  | 4806/6640 [01:53<01:56, 15.73it/s]                                                   {'loss': 0.5047, 'learning_rate': 3.7422449073081356e-06, 'epoch': 0.72}
 72%|███████▏  | 4806/6640 [01:53<01:56, 15.73it/s] 72%|███████▏  | 4807/6640 [02:11<02:53, 10.58it/s]                                                   {'loss': 0.5135, 'learning_rate': 3.738440601794635e-06, 'epoch': 0.72}
 72%|███████▏  | 4807/6640 [02:11<02:53, 10.58it/s] 72%|███████▏  | 4808/6640 [02:27<04:05,  7.46it/s]                                                   {'loss': 0.5204, 'learning_rate': 3.734637786364288e-06, 'epoch': 0.72}
 72%|███████▏  | 4808/6640 [02:27<04:05,  7.46it/s] 72%|███████▏  | 4809/6640 [02:42<05:45,  5.30it/s]                                                   {'loss': 0.507, 'learning_rate': 3.730836461922076e-06, 'epoch': 0.72}
 72%|███████▏  | 4809/6640 [02:42<05:45,  5.30it/s] 72%|███████▏  | 4810/6640 [02:58<08:14,  3.70it/s]                                                   {'loss': 0.5247, 'learning_rate': 3.7270366293726033e-06, 'epoch': 0.72}
 72%|███████▏  | 4810/6640 [02:58<08:14,  3.70it/s] 72%|███████▏  | 4811/6640 [03:15<11:42,  2.60it/s]                                                   {'loss': 0.5025, 'learning_rate': 3.7232382896201336e-06, 'epoch': 0.72}
 72%|███████▏  | 4811/6640 [03:15<11:42,  2.60it/s] 72%|███████▏  | 4812/6640 [03:32<16:53,  1.80it/s]                                                   {'loss': 0.5188, 'learning_rate': 3.71944144356856e-06, 'epoch': 0.72}
 72%|███████▏  | 4812/6640 [03:32<16:53,  1.80it/s] 72%|███████▏  | 4813/6640 [03:48<23:44,  1.28it/s]                                                   {'loss': 0.5193, 'learning_rate': 3.715646092121444e-06, 'epoch': 0.72}
 72%|███████▏  | 4813/6640 [03:48<23:44,  1.28it/s] 72%|███████▎  | 4814/6640 [04:04<33:17,  1.09s/it]                                                   {'loss': 0.5034, 'learning_rate': 3.7118522361819676e-06, 'epoch': 0.72}
 72%|███████▎  | 4814/6640 [04:04<33:17,  1.09s/it] 73%|███████▎  | 4815/6640 [04:20<45:36,  1.50s/it]                                                   {'loss': 0.4897, 'learning_rate': 3.7080598766529686e-06, 'epoch': 0.73}
 73%|███████▎  | 4815/6640 [04:20<45:36,  1.50s/it] 73%|███████▎  | 4816/6640 [04:36<1:02:14,  2.05s/it]                                                     {'loss': 0.5194, 'learning_rate': 3.704269014436932e-06, 'epoch': 0.73}
 73%|███████▎  | 4816/6640 [04:36<1:02:14,  2.05s/it] 73%|███████▎  | 4817/6640 [04:52<1:24:04,  2.77s/it]                                                     {'loss': 0.5195, 'learning_rate': 3.7004796504359696e-06, 'epoch': 0.73}
 73%|███████▎  | 4817/6640 [04:52<1:24:04,  2.77s/it] 73%|███████▎  | 4818/6640 [05:09<1:54:48,  3.78s/it]                                                     {'loss': 0.541, 'learning_rate': 3.6966917855518626e-06, 'epoch': 0.73}
 73%|███████▎  | 4818/6640 [05:09<1:54:48,  3.78s/it] 73%|███████▎  | 4819/6640 [05:27<2:31:49,  5.00s/it]                                                     {'loss': 0.5086, 'learning_rate': 3.6929054206860116e-06, 'epoch': 0.73}
 73%|███████▎  | 4819/6640 [05:27<2:31:49,  5.00s/it] 73%|███████▎  | 4820/6640 [05:44<3:14:51,  6.42s/it]                                                     {'loss': 0.5281, 'learning_rate': 3.689120556739475e-06, 'epoch': 0.73}
 73%|███████▎  | 4820/6640 [05:44<3:14:51,  6.42s/it] 73%|███████▎  | 4821/6640 [06:00<3:56:06,  7.79s/it]                                                     {'loss': 0.5239, 'learning_rate': 3.685337194612941e-06, 'epoch': 0.73}
 73%|███████▎  | 4821/6640 [06:00<3:56:06,  7.79s/it] 73%|███████▎  | 4822/6640 [06:17<4:40:07,  9.24s/it]                                                     {'loss': 0.5225, 'learning_rate': 3.6815553352067602e-06, 'epoch': 0.73}
 73%|███████▎  | 4822/6640 [06:17<4:40:07,  9.24s/it] 73%|███████▎  | 4823/6640 [06:33<5:18:53, 10.53s/it]                                                     {'loss': 0.5113, 'learning_rate': 3.677774979420904e-06, 'epoch': 0.73}
 73%|███████▎  | 4823/6640 [06:33<5:18:53, 10.53s/it] 73%|███████▎  | 4824/6640 [06:49<5:55:51, 11.76s/it]                                                     {'loss': 0.5232, 'learning_rate': 3.6739961281549997e-06, 'epoch': 0.73}
 73%|███████▎  | 4824/6640 [06:49<5:55:51, 11.76s/it] 73%|███████▎  | 4825/6640 [07:05<6:28:07, 12.83s/it]                                                     {'loss': 0.534, 'learning_rate': 3.6702187823083147e-06, 'epoch': 0.73}
 73%|███████▎  | 4825/6640 [07:05<6:28:07, 12.83s/it] 73%|███████▎  | 4826/6640 [07:21<6:52:27, 13.64s/it]                                                     {'loss': 0.4948, 'learning_rate': 3.6664429427797466e-06, 'epoch': 0.73}
 73%|███████▎  | 4826/6640 [07:21<6:52:27, 13.64s/it] 73%|███████▎  | 4827/6640 [07:37<7:11:20, 14.28s/it]                                                     {'loss': 0.5151, 'learning_rate': 3.6626686104678565e-06, 'epoch': 0.73}
 73%|███████▎  | 4827/6640 [07:37<7:11:20, 14.28s/it] 73%|███████▎  | 4828/6640 [07:54<7:27:58, 14.83s/it]                                                     {'loss': 0.5286, 'learning_rate': 3.6588957862708252e-06, 'epoch': 0.73}
 73%|███████▎  | 4828/6640 [07:54<7:27:58, 14.83s/it] 73%|███████▎  | 4829/6640 [08:11<7:51:40, 15.63s/it]                                                     {'loss': 0.5025, 'learning_rate': 3.655124471086491e-06, 'epoch': 0.73}
 73%|███████▎  | 4829/6640 [08:11<7:51:40, 15.63s/it] 73%|███████▎  | 4830/6640 [08:29<8:09:00, 16.21s/it]                                                     {'loss': 0.5062, 'learning_rate': 3.651354665812313e-06, 'epoch': 0.73}
 73%|███████▎  | 4830/6640 [08:29<8:09:00, 16.21s/it] 73%|███████▎  | 4831/6640 [08:46<8:11:25, 16.30s/it]                                                     {'loss': 0.5091, 'learning_rate': 3.6475863713454207e-06, 'epoch': 0.73}
 73%|███████▎  | 4831/6640 [08:46<8:11:25, 16.30s/it] 73%|███████▎  | 4832/6640 [09:02<8:11:43, 16.32s/it]                                                     {'loss': 0.5006, 'learning_rate': 3.6438195885825533e-06, 'epoch': 0.73}
 73%|███████▎  | 4832/6640 [09:02<8:11:43, 16.32s/it] 73%|███████▎  | 4833/6640 [09:18<8:06:55, 16.17s/it]                                                     {'loss': 0.5274, 'learning_rate': 3.6400543184201107e-06, 'epoch': 0.73}
 73%|███████▎  | 4833/6640 [09:18<8:06:55, 16.17s/it] 73%|███████▎  | 4834/6640 [09:35<8:20:03, 16.61s/it]                                                     {'loss': 0.5179, 'learning_rate': 3.6362905617541276e-06, 'epoch': 0.73}
 73%|███████▎  | 4834/6640 [09:35<8:20:03, 16.61s/it] 73%|███████▎  | 4835/6640 [09:52<8:17:48, 16.55s/it]                                                     {'loss': 0.5166, 'learning_rate': 3.6325283194802675e-06, 'epoch': 0.73}
 73%|███████▎  | 4835/6640 [09:52<8:17:48, 16.55s/it] 73%|███████▎  | 4836/6640 [10:08<8:15:20, 16.48s/it]                                                     {'loss': 0.5022, 'learning_rate': 3.628767592493857e-06, 'epoch': 0.73}
 73%|███████▎  | 4836/6640 [10:08<8:15:20, 16.48s/it] 73%|███████▎  | 4837/6640 [10:25<8:17:00, 16.54s/it]                                                     {'loss': 0.5221, 'learning_rate': 3.6250083816898374e-06, 'epoch': 0.73}
 73%|███████▎  | 4837/6640 [10:25<8:17:00, 16.54s/it] 73%|███████▎  | 4838/6640 [10:41<8:14:14, 16.46s/it]                                                     {'loss': 0.5127, 'learning_rate': 3.6212506879628074e-06, 'epoch': 0.73}
 73%|███████▎  | 4838/6640 [10:41<8:14:14, 16.46s/it] 73%|███████▎  | 4839/6640 [10:57<8:08:55, 16.29s/it]                                                     {'loss': 0.508, 'learning_rate': 3.617494512206986e-06, 'epoch': 0.73}
 73%|███████▎  | 4839/6640 [10:57<8:08:55, 16.29s/it] 73%|███████▎  | 4840/6640 [11:14<8:12:58, 16.43s/it]                                                     {'loss': 0.5201, 'learning_rate': 3.613739855316257e-06, 'epoch': 0.73}
 73%|███████▎  | 4840/6640 [11:14<8:12:58, 16.43s/it] 73%|███████▎  | 4841/6640 [11:30<8:11:44, 16.40s/it]                                                     {'loss': 0.517, 'learning_rate': 3.6099867181841188e-06, 'epoch': 0.73}
 73%|███████▎  | 4841/6640 [11:30<8:11:44, 16.40s/it] 73%|███████▎  | 4842/6640 [11:48<8:24:50, 16.85s/it]                                                     {'loss': 0.5089, 'learning_rate': 3.606235101703719e-06, 'epoch': 0.73}
 73%|███████▎  | 4842/6640 [11:48<8:24:50, 16.85s/it] 73%|███████▎  | 4843/6640 [12:05<8:25:09, 16.87s/it]                                                     {'loss': 0.5195, 'learning_rate': 3.6024850067678454e-06, 'epoch': 0.73}
 73%|███████▎  | 4843/6640 [12:05<8:25:09, 16.87s/it] 73%|███████▎  | 4844/6640 [12:20<8:13:31, 16.49s/it]                                                     {'loss': 0.5139, 'learning_rate': 3.598736434268909e-06, 'epoch': 0.73}
 73%|███████▎  | 4844/6640 [12:20<8:13:31, 16.49s/it] 73%|███████▎  | 4845/6640 [12:39<8:33:54, 17.18s/it]                                                     {'loss': 0.5179, 'learning_rate': 3.594989385098985e-06, 'epoch': 0.73}
 73%|███████▎  | 4845/6640 [12:39<8:33:54, 17.18s/it] 73%|███████▎  | 4846/6640 [12:55<8:22:40, 16.81s/it]                                                     {'loss': 0.5117, 'learning_rate': 3.591243860149759e-06, 'epoch': 0.73}
 73%|███████▎  | 4846/6640 [12:55<8:22:40, 16.81s/it] 73%|███████▎  | 4847/6640 [13:12<8:18:38, 16.69s/it]                                                     {'loss': 0.5146, 'learning_rate': 3.58749986031257e-06, 'epoch': 0.73}
 73%|███████▎  | 4847/6640 [13:12<8:18:38, 16.69s/it] 73%|███████▎  | 4848/6640 [13:29<8:26:12, 16.95s/it]                                                     {'loss': 0.5159, 'learning_rate': 3.583757386478389e-06, 'epoch': 0.73}
 73%|███████▎  | 4848/6640 [13:29<8:26:12, 16.95s/it] 73%|███████▎  | 4849/6640 [13:45<8:16:20, 16.63s/it]                                                     {'loss': 0.5214, 'learning_rate': 3.580016439537823e-06, 'epoch': 0.73}
 73%|███████▎  | 4849/6640 [13:45<8:16:20, 16.63s/it]6 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 73%|███████▎  | 4850/6640 [14:01<8:13:58, 16.56s/it]                                                     {'loss': 0.499, 'learning_rate': 3.5762770203811225e-06, 'epoch': 0.73}
 73%|███████▎  | 4850/6640 [14:01<8:13:58, 16.56s/it] 73%|███████▎  | 4851/6640 [14:18<8:14:40, 16.59s/it]                                                     {'loss': 0.5216, 'learning_rate': 3.5725391298981616e-06, 'epoch': 0.73}
 73%|███████▎  | 4851/6640 [14:18<8:14:40, 16.59s/it] 73%|███████▎  | 4852/6640 [14:35<8:14:27, 16.59s/it]                                                     {'loss': 0.5151, 'learning_rate': 3.568802768978463e-06, 'epoch': 0.73}
 73%|███████▎  | 4852/6640 [14:35<8:14:27, 16.59s/it] 73%|███████▎  | 4853/6640 [14:52<8:20:27, 16.80s/it]                                                     {'loss': 0.5098, 'learning_rate': 3.565067938511173e-06, 'epoch': 0.73}
 73%|███████▎  | 4853/6640 [14:52<8:20:27, 16.80s/it] 73%|███████▎  | 4854/6640 [15:09<8:17:45, 16.72s/it]                                                     {'loss': 0.5075, 'learning_rate': 3.5613346393850934e-06, 'epoch': 0.73}
 73%|███████▎  | 4854/6640 [15:09<8:17:45, 16.72s/it] 73%|███████▎  | 4855/6640 [15:26<8:22:14, 16.88s/it]                                                     {'loss': 0.5225, 'learning_rate': 3.557602872488638e-06, 'epoch': 0.73}
 73%|███████▎  | 4855/6640 [15:26<8:22:14, 16.88s/it] 73%|███████▎  | 4856/6640 [15:42<8:17:24, 16.73s/it]                                                     {'loss': 0.4848, 'learning_rate': 3.553872638709871e-06, 'epoch': 0.73}
 73%|███████▎  | 4856/6640 [15:42<8:17:24, 16.73s/it] 73%|███████▎  | 4857/6640 [15:58<8:11:02, 16.52s/it]                                                     {'loss': 0.52, 'learning_rate': 3.55014393893649e-06, 'epoch': 0.73}
 73%|███████▎  | 4857/6640 [15:58<8:11:02, 16.52s/it] 73%|███████▎  | 4858/6640 [16:14<8:00:59, 16.20s/it]                                                     {'loss': 0.5206, 'learning_rate': 3.546416774055823e-06, 'epoch': 0.73}
 73%|███████▎  | 4858/6640 [16:14<8:00:59, 16.20s/it] 73%|███████▎  | 4859/6640 [16:30<8:05:18, 16.35s/it]                                                     {'loss': 0.5263, 'learning_rate': 3.5426911449548395e-06, 'epoch': 0.73}
 73%|███████▎  | 4859/6640 [16:30<8:05:18, 16.35s/it] 73%|███████▎  | 4860/6640 [16:47<8:06:26, 16.40s/it]                                                     {'loss': 0.5035, 'learning_rate': 3.5389670525201335e-06, 'epoch': 0.73}
 73%|███████▎  | 4860/6640 [16:47<8:06:26, 16.40s/it] 73%|███████▎  | 4861/6640 [17:03<8:06:36, 16.41s/it]                                                     {'loss': 0.5177, 'learning_rate': 3.535244497637944e-06, 'epoch': 0.73}
 73%|███████▎  | 4861/6640 [17:03<8:06:36, 16.41s/it] 73%|███████▎  | 4862/6640 [17:20<8:09:53, 16.53s/it]                                                     {'loss': 0.5198, 'learning_rate': 3.53152348119413e-06, 'epoch': 0.73}
 73%|███████▎  | 4862/6640 [17:20<8:09:53, 16.53s/it] 73%|███████▎  | 4863/6640 [17:36<8:04:33, 16.36s/it]                                                     {'loss': 0.515, 'learning_rate': 3.5278040040742078e-06, 'epoch': 0.73}
 73%|███████▎  | 4863/6640 [17:36<8:04:33, 16.36s/it] 73%|███████▎  | 4864/6640 [17:52<8:03:14, 16.33s/it]                                                     {'loss': 0.5076, 'learning_rate': 3.5240860671633027e-06, 'epoch': 0.73}
 73%|███████▎  | 4864/6640 [17:52<8:03:14, 16.33s/it] 73%|███████▎  | 4865/6640 [18:10<8:13:23, 16.68s/it]                                                     {'loss': 0.5123, 'learning_rate': 3.5203696713461866e-06, 'epoch': 0.73}
 73%|███████▎  | 4865/6640 [18:10<8:13:23, 16.68s/it] 73%|███████▎  | 4866/6640 [18:27<8:16:30, 16.79s/it]                                                     {'loss': 0.5171, 'learning_rate': 3.5166548175072622e-06, 'epoch': 0.73}
 73%|███████▎  | 4866/6640 [18:27<8:16:30, 16.79s/it] 73%|███████▎  | 4867/6640 [18:43<8:13:24, 16.70s/it]                                                     {'loss': 0.5008, 'learning_rate': 3.512941506530566e-06, 'epoch': 0.73}
 73%|███████▎  | 4867/6640 [18:43<8:13:24, 16.70s/it] 73%|███████▎  | 4868/6640 [19:01<8:18:03, 16.86s/it]                                                     {'loss': 0.5187, 'learning_rate': 3.5092297392997686e-06, 'epoch': 0.73}
 73%|███████▎  | 4868/6640 [19:01<8:18:03, 16.86s/it] 73%|███████▎  | 4869/6640 [19:17<8:11:49, 16.66s/it]                                                     {'loss': 0.5176, 'learning_rate': 3.505519516698165e-06, 'epoch': 0.73}
 73%|███████▎  | 4869/6640 [19:17<8:11:49, 16.66s/it] 73%|███████▎  | 4870/6640 [19:33<8:05:27, 16.46s/it]                                                     {'loss': 0.5049, 'learning_rate': 3.5018108396086945e-06, 'epoch': 0.73}
 73%|███████▎  | 4870/6640 [19:33<8:05:27, 16.46s/it] 73%|███████▎  | 4871/6640 [19:49<8:06:00, 16.48s/it]                                                     {'loss': 0.5213, 'learning_rate': 3.4981037089139137e-06, 'epoch': 0.73}
 73%|███████▎  | 4871/6640 [19:49<8:06:00, 16.48s/it] 73%|███████▎  | 4872/6640 [20:06<8:04:02, 16.43s/it]                                                     {'loss': 0.519, 'learning_rate': 3.4943981254960325e-06, 'epoch': 0.73}
 73%|███████▎  | 4872/6640 [20:06<8:04:02, 16.43s/it] 73%|███████▎  | 4873/6640 [20:23<8:10:27, 16.65s/it]                                                     {'loss': 0.5182, 'learning_rate': 3.4906940902368726e-06, 'epoch': 0.73}
 73%|███████▎  | 4873/6640 [20:23<8:10:27, 16.65s/it] 73%|███████▎  | 4874/6640 [20:39<8:02:33, 16.40s/it]                                                     {'loss': 0.527, 'learning_rate': 3.486991604017895e-06, 'epoch': 0.73}
 73%|███████▎  | 4874/6640 [20:39<8:02:33, 16.40s/it] 73%|███████▎  | 4875/6640 [20:55<8:00:35, 16.34s/it]                                                     {'loss': 0.5167, 'learning_rate': 3.483290667720196e-06, 'epoch': 0.73}
 73%|███████▎  | 4875/6640 [20:55<8:00:35, 16.34s/it] 73%|███████▎  | 4876/6640 [21:11<8:02:37, 16.42s/it]                                                     {'loss': 0.5072, 'learning_rate': 3.479591282224496e-06, 'epoch': 0.73}
 73%|███████▎  | 4876/6640 [21:11<8:02:37, 16.42s/it] 73%|███████▎  | 4877/6640 [21:27<7:55:53, 16.20s/it]                                                     {'loss': 0.5104, 'learning_rate': 3.475893448411154e-06, 'epoch': 0.73}
 73%|███████▎  | 4877/6640 [21:27<7:55:53, 16.20s/it] 73%|███████▎  | 4878/6640 [21:43<7:57:02, 16.24s/it]                                                     {'loss': 0.5299, 'learning_rate': 3.4721971671601485e-06, 'epoch': 0.73}
 73%|███████▎  | 4878/6640 [21:43<7:57:02, 16.24s/it] 73%|███████▎  | 4879/6640 [21:59<7:52:27, 16.10s/it]                                                     {'loss': 0.4988, 'learning_rate': 3.4685024393511015e-06, 'epoch': 0.73}
 73%|███████▎  | 4879/6640 [21:59<7:52:27, 16.10s/it] 73%|███████▎  | 4880/6640 [22:16<7:55:23, 16.21s/it]                                                     {'loss': 0.5155, 'learning_rate': 3.4648092658632506e-06, 'epoch': 0.73}
 73%|███████▎  | 4880/6640 [22:16<7:55:23, 16.21s/it] 74%|███████▎  | 4881/6640 [22:32<7:56:21, 16.25s/it]                                                     {'loss': 0.5196, 'learning_rate': 3.461117647575484e-06, 'epoch': 0.74}
 74%|███████▎  | 4881/6640 [22:32<7:56:21, 16.25s/it] 74%|███████▎  | 4882/6640 [22:49<8:00:30, 16.40s/it]                                                     {'loss': 0.5225, 'learning_rate': 3.4574275853662974e-06, 'epoch': 0.74}
 74%|███████▎  | 4882/6640 [22:49<8:00:30, 16.40s/it] 74%|███████▎  | 4883/6640 [23:06<8:08:34, 16.68s/it]                                                     {'loss': 0.5104, 'learning_rate': 3.4537390801138306e-06, 'epoch': 0.74}
 74%|███████▎  | 4883/6640 [23:06<8:08:34, 16.68s/it] 74%|███████▎  | 4884/6640 [23:23<8:06:21, 16.62s/it]                                                     {'loss': 0.5372, 'learning_rate': 3.4500521326958492e-06, 'epoch': 0.74}
 74%|███████▎  | 4884/6640 [23:23<8:06:21, 16.62s/it] 74%|███████▎  | 4885/6640 [23:39<8:05:17, 16.59s/it]                                                     {'loss': 0.518, 'learning_rate': 3.4463667439897486e-06, 'epoch': 0.74}
 74%|███████▎  | 4885/6640 [23:39<8:05:17, 16.59s/it] 74%|███████▎  | 4886/6640 [23:56<8:08:46, 16.72s/it]                                                     {'loss': 0.5044, 'learning_rate': 3.4426829148725538e-06, 'epoch': 0.74}
 74%|███████▎  | 4886/6640 [23:56<8:08:46, 16.72s/it] 74%|███████▎  | 4887/6640 [24:13<8:12:37, 16.86s/it]                                                     {'loss': 0.5232, 'learning_rate': 3.4390006462209113e-06, 'epoch': 0.74}
 74%|███████▎  | 4887/6640 [24:13<8:12:37, 16.86s/it] 74%|███████▎  | 4888/6640 [24:30<8:06:59, 16.68s/it]                                                     {'loss': 0.5254, 'learning_rate': 3.435319938911107e-06, 'epoch': 0.74}
 74%|███████▎  | 4888/6640 [24:30<8:06:59, 16.68s/it] 74%|███████▎  | 4889/6640 [24:46<8:07:02, 16.69s/it]                                                     {'loss': 0.4894, 'learning_rate': 3.4316407938190486e-06, 'epoch': 0.74}
 74%|███████▎  | 4889/6640 [24:46<8:07:02, 16.69s/it] 74%|███████▎  | 4890/6640 [25:03<8:10:10, 16.81s/it]                                                     {'loss': 0.5157, 'learning_rate': 3.4279632118202744e-06, 'epoch': 0.74}
 74%|███████▎  | 4890/6640 [25:03<8:10:10, 16.81s/it] 74%|███████▎  | 4891/6640 [25:20<8:06:04, 16.68s/it]                                                     {'loss': 0.522, 'learning_rate': 3.4242871937899548e-06, 'epoch': 0.74}
 74%|███████▎  | 4891/6640 [25:20<8:06:04, 16.68s/it] 74%|███████▎  | 4892/6640 [25:36<8:02:48, 16.57s/it]                                                     {'loss': 0.5215, 'learning_rate': 3.4206127406028744e-06, 'epoch': 0.74}
 74%|███████▎  | 4892/6640 [25:36<8:02:48, 16.57s/it] 74%|███████▎  | 4893/6640 [25:53<8:01:38, 16.54s/it]                                                     {'loss': 0.518, 'learning_rate': 3.416939853133461e-06, 'epoch': 0.74}
 74%|███████▎  | 4893/6640 [25:53<8:01:38, 16.54s/it] 74%|███████▎  | 4894/6640 [26:10<8:06:31, 16.72s/it]                                                     {'loss': 0.5232, 'learning_rate': 3.41326853225576e-06, 'epoch': 0.74}
 74%|███████▎  | 4894/6640 [26:10<8:06:31, 16.72s/it] 74%|███████▎  | 4895/6640 [26:27<8:09:20, 16.83s/it]                                                     {'loss': 0.5212, 'learning_rate': 3.4095987788434538e-06, 'epoch': 0.74}
 74%|███████▎  | 4895/6640 [26:27<8:09:20, 16.83s/it] 74%|███████▎  | 4896/6640 [26:45<8:23:43, 17.33s/it]                                                     {'loss': 0.4947, 'learning_rate': 3.4059305937698363e-06, 'epoch': 0.74}
 74%|███████▎  | 4896/6640 [26:45<8:23:43, 17.33s/it] 74%|███████▍  | 4897/6640 [27:02<8:15:28, 17.06s/it]                                                     {'loss': 0.4907, 'learning_rate': 3.4022639779078403e-06, 'epoch': 0.74}
 74%|███████▍  | 4897/6640 [27:02<8:15:28, 17.06s/it] 74%|███████▍  | 4898/6640 [27:18<8:08:38, 16.83s/it]                                                     {'loss': 0.5265, 'learning_rate': 3.398598932130024e-06, 'epoch': 0.74}
 74%|███████▍  | 4898/6640 [27:18<8:08:38, 16.83s/it] 74%|███████▍  | 4899/6640 [27:34<8:05:24, 16.73s/it]                                                     {'loss': 0.5054, 'learning_rate': 3.394935457308569e-06, 'epoch': 0.74}
 74%|███████▍  | 4899/6640 [27:34<8:05:24, 16.73s/it]4 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 74%|███████▍  | 4900/6640 [27:53<8:19:30, 17.22s/it]6 AutoResumeHook: Checking whether to suspend...
                                                     {'loss': 0.5235, 'learning_rate': 3.3912735543152864e-06, 'epoch': 0.74}
 74%|███████▍  | 4900/6640 [27:53<8:19:30, 17.22s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4900/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4900/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-4900/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 74%|███████▍  | 4901/6640 [29:39<21:15:09, 44.00s/it]                                                      {'loss': 0.5191, 'learning_rate': 3.3876132240216066e-06, 'epoch': 0.74}
 74%|███████▍  | 4901/6640 [29:39<21:15:09, 44.00s/it] 74%|███████▍  | 4902/6640 [29:56<17:13:56, 35.69s/it]                                                      {'loss': 0.5401, 'learning_rate': 3.3839544672985904e-06, 'epoch': 0.74}
 74%|███████▍  | 4902/6640 [29:56<17:13:56, 35.69s/it] 74%|███████▍  | 4903/6640 [30:13<14:35:29, 30.24s/it]                                                      {'loss': 0.5029, 'learning_rate': 3.380297285016925e-06, 'epoch': 0.74}
 74%|███████▍  | 4903/6640 [30:13<14:35:29, 30.24s/it] 74%|███████▍  | 4904/6640 [30:29<12:34:01, 26.06s/it]                                                      {'loss': 0.5306, 'learning_rate': 3.376641678046926e-06, 'epoch': 0.74}
 74%|███████▍  | 4904/6640 [30:29<12:34:01, 26.06s/it] 74%|███████▍  | 4905/6640 [30:46<11:10:11, 23.18s/it]                                                      {'loss': 0.4873, 'learning_rate': 3.372987647258521e-06, 'epoch': 0.74}
 74%|███████▍  | 4905/6640 [30:46<11:10:11, 23.18s/it] 74%|███████▍  | 4906/6640 [31:03<10:13:46, 21.24s/it]                                                      {'loss': 0.5047, 'learning_rate': 3.369335193521277e-06, 'epoch': 0.74}
 74%|███████▍  | 4906/6640 [31:03<10:13:46, 21.24s/it] 74%|███████▍  | 4907/6640 [31:20<9:37:28, 19.99s/it]                                                      {'loss': 0.5154, 'learning_rate': 3.3656843177043786e-06, 'epoch': 0.74}
 74%|███████▍  | 4907/6640 [31:20<9:37:28, 19.99s/it] 74%|███████▍  | 4908/6640 [31:36<9:02:33, 18.80s/it]                                                     {'loss': 0.5145, 'learning_rate': 3.362035020676637e-06, 'epoch': 0.74}
 74%|███████▍  | 4908/6640 [31:36<9:02:33, 18.80s/it] 74%|███████▍  | 4909/6640 [31:52<8:44:29, 18.18s/it]                                                     {'loss': 0.5076, 'learning_rate': 3.3583873033064897e-06, 'epoch': 0.74}
 74%|███████▍  | 4909/6640 [31:52<8:44:29, 18.18s/it] 74%|███████▍  | 4910/6640 [32:09<8:27:18, 17.59s/it]                                                     {'loss': 0.5346, 'learning_rate': 3.354741166461989e-06, 'epoch': 0.74}
 74%|███████▍  | 4910/6640 [32:09<8:27:18, 17.59s/it] 74%|███████▍  | 4911/6640 [32:25<8:14:50, 17.17s/it]                                                     {'loss': 0.4989, 'learning_rate': 3.3510966110108213e-06, 'epoch': 0.74}
 74%|███████▍  | 4911/6640 [32:25<8:14:50, 17.17s/it] 74%|███████▍  | 4912/6640 [32:43<8:20:41, 17.39s/it]                                                     {'loss': 0.5127, 'learning_rate': 3.3474536378202925e-06, 'epoch': 0.74}
 74%|███████▍  | 4912/6640 [32:43<8:20:41, 17.39s/it] 74%|███████▍  | 4913/6640 [32:59<8:11:01, 17.06s/it]                                                     {'loss': 0.518, 'learning_rate': 3.3438122477573365e-06, 'epoch': 0.74}
 74%|███████▍  | 4913/6640 [32:59<8:11:01, 17.06s/it] 74%|███████▍  | 4914/6640 [33:17<8:16:22, 17.26s/it]                                                     {'loss': 0.5253, 'learning_rate': 3.3401724416884994e-06, 'epoch': 0.74}
 74%|███████▍  | 4914/6640 [33:17<8:16:22, 17.26s/it] 74%|███████▍  | 4915/6640 [33:34<8:14:37, 17.20s/it]                                                     {'loss': 0.5326, 'learning_rate': 3.3365342204799613e-06, 'epoch': 0.74}
 74%|███████▍  | 4915/6640 [33:34<8:14:37, 17.20s/it] 74%|███████▍  | 4916/6640 [33:50<8:05:12, 16.89s/it]                                                     {'loss': 0.5025, 'learning_rate': 3.332897584997521e-06, 'epoch': 0.74}
 74%|███████▍  | 4916/6640 [33:50<8:05:12, 16.89s/it] 74%|███████▍  | 4917/6640 [34:07<8:03:50, 16.85s/it]                                                     {'loss': 0.5095, 'learning_rate': 3.3292625361065988e-06, 'epoch': 0.74}
 74%|███████▍  | 4917/6640 [34:07<8:03:50, 16.85s/it] 74%|███████▍  | 4918/6640 [34:23<8:01:12, 16.77s/it]                                                     {'loss': 0.5335, 'learning_rate': 3.325629074672244e-06, 'epoch': 0.74}
 74%|███████▍  | 4918/6640 [34:23<8:01:12, 16.77s/it] 74%|███████▍  | 4919/6640 [34:40<7:57:48, 16.66s/it]                                                     {'loss': 0.5026, 'learning_rate': 3.321997201559115e-06, 'epoch': 0.74}
 74%|███████▍  | 4919/6640 [34:40<7:57:48, 16.66s/it] 74%|███████▍  | 4920/6640 [34:56<7:56:51, 16.63s/it]                                                     {'loss': 0.5045, 'learning_rate': 3.3183669176315046e-06, 'epoch': 0.74}
 74%|███████▍  | 4920/6640 [34:56<7:56:51, 16.63s/it] 74%|███████▍  | 4921/6640 [35:13<7:53:33, 16.53s/it]                                                     {'loss': 0.5209, 'learning_rate': 3.314738223753323e-06, 'epoch': 0.74}
 74%|███████▍  | 4921/6640 [35:13<7:53:33, 16.53s/it] 74%|███████▍  | 4922/6640 [35:29<7:50:24, 16.43s/it]                                                     {'loss': 0.5434, 'learning_rate': 3.311111120788104e-06, 'epoch': 0.74}
 74%|███████▍  | 4922/6640 [35:29<7:50:24, 16.43s/it] 74%|███████▍  | 4923/6640 [35:46<7:58:08, 16.71s/it]                                                     {'loss': 0.5077, 'learning_rate': 3.307485609598995e-06, 'epoch': 0.74}
 74%|███████▍  | 4923/6640 [35:46<7:58:08, 16.71s/it] 74%|███████▍  | 4924/6640 [36:02<7:54:15, 16.58s/it]                                                     {'loss': 0.5278, 'learning_rate': 3.303861691048774e-06, 'epoch': 0.74}
 74%|███████▍  | 4924/6640 [36:02<7:54:15, 16.58s/it] 74%|███████▍  | 4925/6640 [36:19<7:54:42, 16.61s/it]                                                     {'loss': 0.5247, 'learning_rate': 3.3002393659998357e-06, 'epoch': 0.74}
 74%|███████▍  | 4925/6640 [36:19<7:54:42, 16.61s/it] 74%|███████▍  | 4926/6640 [36:35<7:50:19, 16.46s/it]                                                     {'loss': 0.5038, 'learning_rate': 3.296618635314197e-06, 'epoch': 0.74}
 74%|███████▍  | 4926/6640 [36:35<7:50:19, 16.46s/it] 74%|███████▍  | 4927/6640 [36:52<7:55:47, 16.67s/it]                                                     {'loss': 0.5177, 'learning_rate': 3.2929994998534976e-06, 'epoch': 0.74}
 74%|███████▍  | 4927/6640 [36:52<7:55:47, 16.67s/it] 74%|███████▍  | 4928/6640 [37:08<7:49:01, 16.44s/it]                                                     {'loss': 0.5101, 'learning_rate': 3.289381960478988e-06, 'epoch': 0.74}
 74%|███████▍  | 4928/6640 [37:08<7:49:01, 16.44s/it] 74%|███████▍  | 4929/6640 [37:24<7:46:26, 16.36s/it]                                                     {'loss': 0.5282, 'learning_rate': 3.2857660180515484e-06, 'epoch': 0.74}
 74%|███████▍  | 4929/6640 [37:24<7:46:26, 16.36s/it] 74%|███████▍  | 4930/6640 [37:42<7:52:31, 16.58s/it]                                                     {'loss': 0.524, 'learning_rate': 3.2821516734316772e-06, 'epoch': 0.74}
 74%|███████▍  | 4930/6640 [37:42<7:52:31, 16.58s/it] 74%|███████▍  | 4931/6640 [37:58<7:47:27, 16.41s/it]                                                     {'loss': 0.511, 'learning_rate': 3.278538927479491e-06, 'epoch': 0.74}
 74%|███████▍  | 4931/6640 [37:58<7:47:27, 16.41s/it] 74%|███████▍  | 4932/6640 [38:14<7:47:26, 16.42s/it]                                                     {'loss': 0.5088, 'learning_rate': 3.2749277810547286e-06, 'epoch': 0.74}
 74%|███████▍  | 4932/6640 [38:14<7:47:26, 16.42s/it] 74%|███████▍  | 4933/6640 [38:30<7:39:27, 16.15s/it]                                                     {'loss': 0.5036, 'learning_rate': 3.2713182350167417e-06, 'epoch': 0.74}
 74%|███████▍  | 4933/6640 [38:30<7:39:27, 16.15s/it] 74%|███████▍  | 4934/6640 [38:46<7:38:32, 16.13s/it]                                                     {'loss': 0.5238, 'learning_rate': 3.2677102902245073e-06, 'epoch': 0.74}
 74%|███████▍  | 4934/6640 [38:46<7:38:32, 16.13s/it] 74%|███████▍  | 4935/6640 [39:03<7:51:49, 16.60s/it]                                                     {'loss': 0.5111, 'learning_rate': 3.264103947536619e-06, 'epoch': 0.74}
 74%|███████▍  | 4935/6640 [39:03<7:51:49, 16.60s/it] 74%|███████▍  | 4936/6640 [39:19<7:46:51, 16.44s/it]                                                     {'loss': 0.5206, 'learning_rate': 3.260499207811293e-06, 'epoch': 0.74}
 74%|███████▍  | 4936/6640 [39:19<7:46:51, 16.44s/it] 74%|███████▍  | 4937/6640 [39:36<7:44:37, 16.37s/it]                                                     {'loss': 0.5181, 'learning_rate': 3.256896071906355e-06, 'epoch': 0.74}
 74%|███████▍  | 4937/6640 [39:36<7:44:37, 16.37s/it] 74%|███████▍  | 4938/6640 [39:52<7:41:46, 16.28s/it]                                                     {'loss': 0.5229, 'learning_rate': 3.2532945406792573e-06, 'epoch': 0.74}
 74%|███████▍  | 4938/6640 [39:52<7:41:46, 16.28s/it] 74%|███████▍  | 4939/6640 [40:08<7:46:21, 16.45s/it]                                                     {'loss': 0.4995, 'learning_rate': 3.249694614987068e-06, 'epoch': 0.74}
 74%|███████▍  | 4939/6640 [40:08<7:46:21, 16.45s/it] 74%|███████▍  | 4940/6640 [40:25<7:48:02, 16.52s/it]                                                     {'loss': 0.5264, 'learning_rate': 3.2460962956864727e-06, 'epoch': 0.74}
 74%|███████▍  | 4940/6640 [40:25<7:48:02, 16.52s/it] 74%|███████▍  | 4941/6640 [40:42<7:47:16, 16.50s/it]                                                     {'loss': 0.4954, 'learning_rate': 3.242499583633779e-06, 'epoch': 0.74}
 74%|███████▍  | 4941/6640 [40:42<7:47:16, 16.50s/it] 74%|███████▍  | 4942/6640 [40:58<7:43:07, 16.36s/it]                                                     {'loss': 0.4956, 'learning_rate': 3.2389044796849e-06, 'epoch': 0.74}
 74%|███████▍  | 4942/6640 [40:58<7:43:07, 16.36s/it] 74%|███████▍  | 4943/6640 [41:14<7:45:57, 16.47s/it]                                                     {'loss': 0.5239, 'learning_rate': 3.235310984695378e-06, 'epoch': 0.74}
 74%|███████▍  | 4943/6640 [41:14<7:45:57, 16.47s/it] 74%|███████▍  | 4944/6640 [41:31<7:42:51, 16.37s/it]                                                     {'loss': 0.5193, 'learning_rate': 3.2317190995203673e-06, 'epoch': 0.74}
 74%|███████▍  | 4944/6640 [41:31<7:42:51, 16.37s/it] 74%|███████▍  | 4945/6640 [41:47<7:44:45, 16.45s/it]                                                     {'loss': 0.524, 'learning_rate': 3.2281288250146447e-06, 'epoch': 0.74}
 74%|███████▍  | 4945/6640 [41:47<7:44:45, 16.45s/it] 74%|███████▍  | 4946/6640 [42:04<7:48:49, 16.61s/it]                                                     {'loss': 0.4908, 'learning_rate': 3.2245401620325934e-06, 'epoch': 0.74}
 74%|███████▍  | 4946/6640 [42:04<7:48:49, 16.61s/it] 75%|███████▍  | 4947/6640 [42:21<7:46:49, 16.54s/it]                                                     {'loss': 0.5023, 'learning_rate': 3.22095311142822e-06, 'epoch': 0.75}
 75%|███████▍  | 4947/6640 [42:21<7:46:49, 16.54s/it] 75%|███████▍  | 4948/6640 [42:37<7:43:38, 16.44s/it]                                                     {'loss': 0.5046, 'learning_rate': 3.2173676740551484e-06, 'epoch': 0.75}
 75%|███████▍  | 4948/6640 [42:37<7:43:38, 16.44s/it] 75%|███████▍  | 4949/6640 [42:54<7:46:06, 16.54s/it]                                                     {'loss': 0.5178, 'learning_rate': 3.213783850766614e-06, 'epoch': 0.75}
 75%|███████▍  | 4949/6640 [42:54<7:46:06, 16.54s/it]1 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
62 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 75%|███████▍  | 4950/6640 [43:10<7:44:02, 16.47s/it]                                                     {'loss': 0.4943, 'learning_rate': 3.210201642415477e-06, 'epoch': 0.75}
 75%|███████▍  | 4950/6640 [43:10<7:44:02, 16.47s/it] 75%|███████▍  | 4951/6640 [43:26<7:40:59, 16.38s/it]                                                     {'loss': 0.5146, 'learning_rate': 3.2066210498541984e-06, 'epoch': 0.75}
 75%|███████▍  | 4951/6640 [43:26<7:40:59, 16.38s/it] 75%|███████▍  | 4952/6640 [43:42<7:38:50, 16.31s/it]                                                     {'loss': 0.513, 'learning_rate': 3.2030420739348666e-06, 'epoch': 0.75}
 75%|███████▍  | 4952/6640 [43:42<7:38:50, 16.31s/it] 75%|███████▍  | 4953/6640 [43:59<7:39:22, 16.34s/it]                                                     {'loss': 0.5001, 'learning_rate': 3.199464715509183e-06, 'epoch': 0.75}
 75%|███████▍  | 4953/6640 [43:59<7:39:22, 16.34s/it] 75%|███████▍  | 4954/6640 [44:15<7:42:47, 16.47s/it]                                                     {'loss': 0.4926, 'learning_rate': 3.1958889754284637e-06, 'epoch': 0.75}
 75%|███████▍  | 4954/6640 [44:15<7:42:47, 16.47s/it] 75%|███████▍  | 4955/6640 [44:32<7:40:39, 16.40s/it]                                                     {'loss': 0.5165, 'learning_rate': 3.1923148545436357e-06, 'epoch': 0.75}
 75%|███████▍  | 4955/6640 [44:32<7:40:39, 16.40s/it] 75%|███████▍  | 4956/6640 [44:48<7:44:25, 16.55s/it]                                                     {'loss': 0.5272, 'learning_rate': 3.188742353705244e-06, 'epoch': 0.75}
 75%|███████▍  | 4956/6640 [44:48<7:44:25, 16.55s/it] 75%|███████▍  | 4957/6640 [45:06<7:51:14, 16.80s/it]                                                     {'loss': 0.5307, 'learning_rate': 3.1851714737634496e-06, 'epoch': 0.75}
 75%|███████▍  | 4957/6640 [45:06<7:51:14, 16.80s/it] 75%|███████▍  | 4958/6640 [45:21<7:40:33, 16.43s/it]                                                     {'loss': 0.513, 'learning_rate': 3.181602215568027e-06, 'epoch': 0.75}
 75%|███████▍  | 4958/6640 [45:21<7:40:33, 16.43s/it] 75%|███████▍  | 4959/6640 [45:39<7:46:32, 16.65s/it]                                                     {'loss': 0.5159, 'learning_rate': 3.1780345799683654e-06, 'epoch': 0.75}
 75%|███████▍  | 4959/6640 [45:39<7:46:32, 16.65s/it] 75%|███████▍  | 4960/6640 [45:55<7:42:38, 16.52s/it]                                                     {'loss': 0.5191, 'learning_rate': 3.174468567813461e-06, 'epoch': 0.75}
 75%|███████▍  | 4960/6640 [45:55<7:42:38, 16.52s/it] 75%|███████▍  | 4961/6640 [46:11<7:37:26, 16.35s/it]                                                     {'loss': 0.5119, 'learning_rate': 3.1709041799519312e-06, 'epoch': 0.75}
 75%|███████▍  | 4961/6640 [46:11<7:37:26, 16.35s/it] 75%|███████▍  | 4962/6640 [46:27<7:33:14, 16.21s/it]                                                     {'loss': 0.5021, 'learning_rate': 3.167341417232006e-06, 'epoch': 0.75}
 75%|███████▍  | 4962/6640 [46:27<7:33:14, 16.21s/it] 75%|███████▍  | 4963/6640 [46:43<7:36:56, 16.35s/it]                                                     {'loss': 0.5124, 'learning_rate': 3.1637802805015296e-06, 'epoch': 0.75}
 75%|███████▍  | 4963/6640 [46:43<7:36:56, 16.35s/it] 75%|███████▍  | 4964/6640 [47:00<7:42:27, 16.56s/it]                                                     {'loss': 0.4979, 'learning_rate': 3.1602207706079503e-06, 'epoch': 0.75}
 75%|███████▍  | 4964/6640 [47:00<7:42:27, 16.56s/it] 75%|███████▍  | 4965/6640 [47:17<7:40:44, 16.50s/it]                                                     {'loss': 0.5132, 'learning_rate': 3.1566628883983395e-06, 'epoch': 0.75}
 75%|███████▍  | 4965/6640 [47:17<7:40:44, 16.50s/it] 75%|███████▍  | 4966/6640 [47:33<7:36:19, 16.36s/it]                                                     {'loss': 0.485, 'learning_rate': 3.1531066347193796e-06, 'epoch': 0.75}
 75%|███████▍  | 4966/6640 [47:33<7:36:19, 16.36s/it] 75%|███████▍  | 4967/6640 [47:49<7:36:33, 16.37s/it]                                                     {'loss': 0.5163, 'learning_rate': 3.1495520104173603e-06, 'epoch': 0.75}
 75%|███████▍  | 4967/6640 [47:49<7:36:33, 16.37s/it] 75%|███████▍  | 4968/6640 [48:06<7:43:24, 16.63s/it]                                                     {'loss': 0.522, 'learning_rate': 3.1459990163381926e-06, 'epoch': 0.75}
 75%|███████▍  | 4968/6640 [48:06<7:43:24, 16.63s/it] 75%|███████▍  | 4969/6640 [48:24<7:49:01, 16.84s/it]                                                     {'loss': 0.5233, 'learning_rate': 3.1424476533273864e-06, 'epoch': 0.75}
 75%|███████▍  | 4969/6640 [48:24<7:49:01, 16.84s/it] 75%|███████▍  | 4970/6640 [48:40<7:45:08, 16.71s/it]                                                     {'loss': 0.5134, 'learning_rate': 3.138897922230074e-06, 'epoch': 0.75}
 75%|███████▍  | 4970/6640 [48:40<7:45:08, 16.71s/it] 75%|███████▍  | 4971/6640 [48:56<7:37:52, 16.46s/it]                                                     {'loss': 0.5068, 'learning_rate': 3.135349823890995e-06, 'epoch': 0.75}
 75%|███████▍  | 4971/6640 [48:56<7:37:52, 16.46s/it] 75%|███████▍  | 4972/6640 [49:12<7:36:56, 16.44s/it]                                                     {'loss': 0.5026, 'learning_rate': 3.131803359154505e-06, 'epoch': 0.75}
 75%|███████▍  | 4972/6640 [49:12<7:36:56, 16.44s/it] 75%|███████▍  | 4973/6640 [49:29<7:37:33, 16.47s/it]                                                     {'loss': 0.5071, 'learning_rate': 3.1282585288645675e-06, 'epoch': 0.75}
 75%|███████▍  | 4973/6640 [49:29<7:37:33, 16.47s/it] 75%|███████▍  | 4974/6640 [49:45<7:35:50, 16.42s/it]                                                     {'loss': 0.5131, 'learning_rate': 3.1247153338647486e-06, 'epoch': 0.75}
 75%|███████▍  | 4974/6640 [49:45<7:35:50, 16.42s/it] 75%|███████▍  | 4975/6640 [50:02<7:39:26, 16.56s/it]                                                     {'loss': 0.5024, 'learning_rate': 3.121173774998245e-06, 'epoch': 0.75}
 75%|███████▍  | 4975/6640 [50:02<7:39:26, 16.56s/it] 75%|███████▍  | 4976/6640 [50:18<7:37:42, 16.50s/it]                                                     {'loss': 0.5278, 'learning_rate': 3.1176338531078467e-06, 'epoch': 0.75}
 75%|███████▍  | 4976/6640 [50:18<7:37:42, 16.50s/it] 75%|███████▍  | 4977/6640 [50:34<7:31:26, 16.29s/it]                                                     {'loss': 0.5161, 'learning_rate': 3.114095569035962e-06, 'epoch': 0.75}
 75%|███████▍  | 4977/6640 [50:34<7:31:26, 16.29s/it] 75%|███████▍  | 4978/6640 [50:51<7:32:06, 16.32s/it]                                                     {'loss': 0.5291, 'learning_rate': 3.1105589236246047e-06, 'epoch': 0.75}
 75%|███████▍  | 4978/6640 [50:51<7:32:06, 16.32s/it] 75%|███████▍  | 4979/6640 [51:06<7:26:47, 16.14s/it]                                                     {'loss': 0.5229, 'learning_rate': 3.107023917715404e-06, 'epoch': 0.75}
 75%|███████▍  | 4979/6640 [51:06<7:26:47, 16.14s/it] 75%|███████▌  | 4980/6640 [51:22<7:25:52, 16.12s/it]                                                     {'loss': 0.5003, 'learning_rate': 3.103490552149595e-06, 'epoch': 0.75}
 75%|███████▌  | 4980/6640 [51:22<7:25:52, 16.12s/it] 75%|███████▌  | 4981/6640 [51:38<7:25:06, 16.10s/it]                                                     {'loss': 0.4988, 'learning_rate': 3.099958827768025e-06, 'epoch': 0.75}
 75%|███████▌  | 4981/6640 [51:38<7:25:06, 16.10s/it] 75%|███████▌  | 4982/6640 [51:54<7:23:35, 16.05s/it]                                                     {'loss': 0.5092, 'learning_rate': 3.096428745411153e-06, 'epoch': 0.75}
 75%|███████▌  | 4982/6640 [51:54<7:23:35, 16.05s/it] 75%|███████▌  | 4983/6640 [52:11<7:30:24, 16.31s/it]                                                     {'loss': 0.5283, 'learning_rate': 3.092900305919033e-06, 'epoch': 0.75}
 75%|███████▌  | 4983/6640 [52:11<7:30:24, 16.31s/it] 75%|███████▌  | 4984/6640 [52:27<7:24:19, 16.10s/it]                                                     {'loss': 0.5151, 'learning_rate': 3.089373510131354e-06, 'epoch': 0.75}
 75%|███████▌  | 4984/6640 [52:27<7:24:19, 16.10s/it] 75%|███████▌  | 4985/6640 [52:44<7:28:21, 16.25s/it]                                                     {'loss': 0.5097, 'learning_rate': 3.0858483588873878e-06, 'epoch': 0.75}
 75%|███████▌  | 4985/6640 [52:44<7:28:21, 16.25s/it] 75%|███████▌  | 4986/6640 [53:00<7:28:29, 16.27s/it]                                                     {'loss': 0.5393, 'learning_rate': 3.082324853026032e-06, 'epoch': 0.75}
 75%|███████▌  | 4986/6640 [53:00<7:28:29, 16.27s/it] 75%|███████▌  | 4987/6640 [53:17<7:34:42, 16.50s/it]                                                     {'loss': 0.5203, 'learning_rate': 3.078802993385781e-06, 'epoch': 0.75}
 75%|███████▌  | 4987/6640 [53:17<7:34:42, 16.50s/it] 75%|███████▌  | 4988/6640 [53:35<7:47:37, 16.98s/it]                                                     {'loss': 0.5287, 'learning_rate': 3.0752827808047446e-06, 'epoch': 0.75}
 75%|███████▌  | 4988/6640 [53:35<7:47:37, 16.98s/it] 75%|███████▌  | 4989/6640 [53:51<7:41:28, 16.77s/it]                                                     {'loss': 0.5408, 'learning_rate': 3.0717642161206405e-06, 'epoch': 0.75}
 75%|███████▌  | 4989/6640 [53:51<7:41:28, 16.77s/it] 75%|███████▌  | 4990/6640 [54:08<7:42:58, 16.84s/it]                                                     {'loss': 0.5147, 'learning_rate': 3.0682473001707925e-06, 'epoch': 0.75}
 75%|███████▌  | 4990/6640 [54:08<7:42:58, 16.84s/it] 75%|███████▌  | 4991/6640 [54:25<7:40:21, 16.75s/it]                                                     {'loss': 0.5319, 'learning_rate': 3.0647320337921347e-06, 'epoch': 0.75}
 75%|███████▌  | 4991/6640 [54:25<7:40:21, 16.75s/it] 75%|███████▌  | 4992/6640 [54:41<7:36:44, 16.63s/it]                                                     {'loss': 0.5125, 'learning_rate': 3.061218417821197e-06, 'epoch': 0.75}
 75%|███████▌  | 4992/6640 [54:41<7:36:44, 16.63s/it] 75%|███████▌  | 4993/6640 [54:57<7:32:54, 16.50s/it]                                                     {'loss': 0.4954, 'learning_rate': 3.057706453094138e-06, 'epoch': 0.75}
 75%|███████▌  | 4993/6640 [54:57<7:32:54, 16.50s/it] 75%|███████▌  | 4994/6640 [55:14<7:31:26, 16.46s/it]                                                     {'loss': 0.5029, 'learning_rate': 3.0541961404467026e-06, 'epoch': 0.75}
 75%|███████▌  | 4994/6640 [55:14<7:31:26, 16.46s/it] 75%|███████▌  | 4995/6640 [55:30<7:29:16, 16.39s/it]                                                     {'loss': 0.5275, 'learning_rate': 3.050687480714256e-06, 'epoch': 0.75}
 75%|███████▌  | 4995/6640 [55:30<7:29:16, 16.39s/it] 75%|███████▌  | 4996/6640 [55:46<7:28:34, 16.37s/it]                                                     {'loss': 0.501, 'learning_rate': 3.0471804747317614e-06, 'epoch': 0.75}
 75%|███████▌  | 4996/6640 [55:46<7:28:34, 16.37s/it] 75%|███████▌  | 4997/6640 [56:03<7:27:00, 16.32s/it]                                                     {'loss': 0.5074, 'learning_rate': 3.0436751233337914e-06, 'epoch': 0.75}
 75%|███████▌  | 4997/6640 [56:03<7:27:00, 16.32s/it] 75%|███████▌  | 4998/6640 [56:19<7:26:49, 16.33s/it]                                                     {'loss': 0.5053, 'learning_rate': 3.040171427354529e-06, 'epoch': 0.75}
 75%|███████▌  | 4998/6640 [56:19<7:26:49, 16.33s/it] 75%|███████▌  | 4999/6640 [56:35<7:28:15, 16.39s/it]                                                     {'loss': 0.5087, 'learning_rate': 3.0366693876277587e-06, 'epoch': 0.75}
 75%|███████▌  | 4999/6640 [56:35<7:28:15, 16.39s/it]1 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 75%|███████▌  | 5000/6640 [56:51<7:22:21, 16.18s/it]5 AutoResumeHook: Checking whether to suspend...
                                                     {'loss': 0.5323, 'learning_rate': 3.0331690049868733e-06, 'epoch': 0.75}
 75%|███████▌  | 5000/6640 [56:51<7:22:21, 16.18s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5000/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5000/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5000/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 75%|███████▌  | 5001/6640 [58:40<19:59:15, 43.90s/it]                                                      {'loss': 0.5243, 'learning_rate': 3.0296702802648636e-06, 'epoch': 0.75}
 75%|███████▌  | 5001/6640 [58:40<19:59:15, 43.90s/it] 75%|███████▌  | 5002/6640 [58:56<16:10:02, 35.53s/it]                                                      {'loss': 0.5122, 'learning_rate': 3.0261732142943435e-06, 'epoch': 0.75}
 75%|███████▌  | 5002/6640 [58:56<16:10:02, 35.53s/it] 75%|███████▌  | 5003/6640 [59:12<13:31:05, 29.73s/it]                                                      {'loss': 0.5291, 'learning_rate': 3.0226778079075115e-06, 'epoch': 0.75}
 75%|███████▌  | 5003/6640 [59:12<13:31:05, 29.73s/it] 75%|███████▌  | 5004/6640 [59:28<11:39:54, 25.67s/it]                                                      {'loss': 0.4964, 'learning_rate': 3.0191840619361856e-06, 'epoch': 0.75}
 75%|███████▌  | 5004/6640 [59:28<11:39:54, 25.67s/it] 75%|███████▌  | 5005/6640 [59:44<10:18:48, 22.71s/it]                                                      {'loss': 0.5115, 'learning_rate': 3.0156919772117788e-06, 'epoch': 0.75}
 75%|███████▌  | 5005/6640 [59:44<10:18:48, 22.71s/it] 75%|███████▌  | 5006/6640 [1:00:01<9:34:39, 21.10s/it]                                                       {'loss': 0.5036, 'learning_rate': 3.012201554565317e-06, 'epoch': 0.75}
 75%|███████▌  | 5006/6640 [1:00:01<9:34:39, 21.10s/it] 75%|███████▌  | 5007/6640 [1:00:18<9:01:27, 19.89s/it]                                                       {'loss': 0.511, 'learning_rate': 3.0087127948274264e-06, 'epoch': 0.75}
 75%|███████▌  | 5007/6640 [1:00:18<9:01:27, 19.89s/it] 75%|███████▌  | 5008/6640 [1:00:34<8:26:14, 18.61s/it]                                                       {'loss': 0.5306, 'learning_rate': 3.005225698828338e-06, 'epoch': 0.75}
 75%|███████▌  | 5008/6640 [1:00:34<8:26:14, 18.61s/it] 75%|███████▌  | 5009/6640 [1:00:50<8:06:30, 17.90s/it]                                                       {'loss': 0.5177, 'learning_rate': 3.00174026739789e-06, 'epoch': 0.75}
 75%|███████▌  | 5009/6640 [1:00:50<8:06:30, 17.90s/it] 75%|███████▌  | 5010/6640 [1:01:06<7:50:36, 17.32s/it]                                                       {'loss': 0.5278, 'learning_rate': 2.998256501365514e-06, 'epoch': 0.75}
 75%|███████▌  | 5010/6640 [1:01:06<7:50:36, 17.32s/it] 75%|███████▌  | 5011/6640 [1:01:23<7:46:36, 17.19s/it]                                                       {'loss': 0.5106, 'learning_rate': 2.994774401560263e-06, 'epoch': 0.75}
 75%|███████▌  | 5011/6640 [1:01:23<7:46:36, 17.19s/it] 75%|███████▌  | 5012/6640 [1:01:39<7:39:20, 16.93s/it]                                                       {'loss': 0.5178, 'learning_rate': 2.9912939688107755e-06, 'epoch': 0.75}
 75%|███████▌  | 5012/6640 [1:01:39<7:39:20, 16.93s/it] 75%|███████▌  | 5013/6640 [1:01:55<7:30:04, 16.60s/it]                                                       {'loss': 0.5147, 'learning_rate': 2.9878152039453046e-06, 'epoch': 0.75}
 75%|███████▌  | 5013/6640 [1:01:55<7:30:04, 16.60s/it] 76%|███████▌  | 5014/6640 [1:02:13<7:36:12, 16.83s/it]                                                       {'loss': 0.5, 'learning_rate': 2.9843381077917046e-06, 'epoch': 0.76}
 76%|███████▌  | 5014/6640 [1:02:13<7:36:12, 16.83s/it] 76%|███████▌  | 5015/6640 [1:02:29<7:33:51, 16.76s/it]                                                       {'loss': 0.5186, 'learning_rate': 2.9808626811774222e-06, 'epoch': 0.76}
 76%|███████▌  | 5015/6640 [1:02:29<7:33:51, 16.76s/it] 76%|███████▌  | 5016/6640 [1:02:46<7:37:30, 16.90s/it]                                                       {'loss': 0.514, 'learning_rate': 2.9773889249295294e-06, 'epoch': 0.76}
 76%|███████▌  | 5016/6640 [1:02:46<7:37:30, 16.90s/it] 76%|███████▌  | 5017/6640 [1:03:03<7:39:21, 16.98s/it]                                                       {'loss': 0.4712, 'learning_rate': 2.9739168398746765e-06, 'epoch': 0.76}
 76%|███████▌  | 5017/6640 [1:03:04<7:39:21, 16.98s/it] 76%|███████▌  | 5018/6640 [1:03:20<7:34:52, 16.83s/it]                                                       {'loss': 0.5271, 'learning_rate': 2.970446426839133e-06, 'epoch': 0.76}
 76%|███████▌  | 5018/6640 [1:03:20<7:34:52, 16.83s/it] 76%|███████▌  | 5019/6640 [1:03:37<7:33:02, 16.77s/it]                                                       {'loss': 0.5118, 'learning_rate': 2.9669776866487543e-06, 'epoch': 0.76}
 76%|███████▌  | 5019/6640 [1:03:37<7:33:02, 16.77s/it] 76%|███████▌  | 5020/6640 [1:03:53<7:32:13, 16.75s/it]                                                       {'loss': 0.5293, 'learning_rate': 2.963510620129021e-06, 'epoch': 0.76}
 76%|███████▌  | 5020/6640 [1:03:53<7:32:13, 16.75s/it] 76%|███████▌  | 5021/6640 [1:04:09<7:22:53, 16.41s/it]                                                       {'loss': 0.5125, 'learning_rate': 2.960045228104992e-06, 'epoch': 0.76}
 76%|███████▌  | 5021/6640 [1:04:09<7:22:53, 16.41s/it] 76%|███████▌  | 5022/6640 [1:04:25<7:22:18, 16.40s/it]                                                       {'loss': 0.5118, 'learning_rate': 2.956581511401341e-06, 'epoch': 0.76}
 76%|███████▌  | 5022/6640 [1:04:25<7:22:18, 16.40s/it] 76%|███████▌  | 5023/6640 [1:04:42<7:26:32, 16.57s/it]                                                       {'loss': 0.535, 'learning_rate': 2.9531194708423428e-06, 'epoch': 0.76}
 76%|███████▌  | 5023/6640 [1:04:42<7:26:32, 16.57s/it] 76%|███████▌  | 5024/6640 [1:04:58<7:21:12, 16.38s/it]                                                       {'loss': 0.5038, 'learning_rate': 2.94965910725186e-06, 'epoch': 0.76}
 76%|███████▌  | 5024/6640 [1:04:58<7:21:12, 16.38s/it] 76%|███████▌  | 5025/6640 [1:05:14<7:15:07, 16.17s/it]                                                       {'loss': 0.4976, 'learning_rate': 2.9462004214533803e-06, 'epoch': 0.76}
 76%|███████▌  | 5025/6640 [1:05:14<7:15:07, 16.17s/it] 76%|███████▌  | 5026/6640 [1:05:30<7:17:22, 16.26s/it]                                                       {'loss': 0.5211, 'learning_rate': 2.9427434142699676e-06, 'epoch': 0.76}
 76%|███████▌  | 5026/6640 [1:05:30<7:17:22, 16.26s/it] 76%|███████▌  | 5027/6640 [1:05:45<7:07:05, 15.89s/it]                                                       {'loss': 0.4912, 'learning_rate': 2.939288086524302e-06, 'epoch': 0.76}
 76%|███████▌  | 5027/6640 [1:05:45<7:07:05, 15.89s/it] 76%|███████▌  | 5028/6640 [1:06:01<7:06:24, 15.87s/it]                                                       {'loss': 0.5118, 'learning_rate': 2.9358344390386527e-06, 'epoch': 0.76}
 76%|███████▌  | 5028/6640 [1:06:01<7:06:24, 15.87s/it] 76%|███████▌  | 5029/6640 [1:06:17<7:05:45, 15.86s/it]                                                       {'loss': 0.5262, 'learning_rate': 2.932382472634905e-06, 'epoch': 0.76}
 76%|███████▌  | 5029/6640 [1:06:17<7:05:45, 15.86s/it] 76%|███████▌  | 5030/6640 [1:06:33<7:06:14, 15.88s/it]                                                       {'loss': 0.5189, 'learning_rate': 2.9289321881345257e-06, 'epoch': 0.76}
 76%|███████▌  | 5030/6640 [1:06:33<7:06:14, 15.88s/it] 76%|███████▌  | 5031/6640 [1:06:50<7:15:26, 16.24s/it]                                                       {'loss': 0.5143, 'learning_rate': 2.925483586358593e-06, 'epoch': 0.76}
 76%|███████▌  | 5031/6640 [1:06:50<7:15:26, 16.24s/it] 76%|███████▌  | 5032/6640 [1:07:07<7:20:29, 16.44s/it]                                                       {'loss': 0.526, 'learning_rate': 2.9220366681277857e-06, 'epoch': 0.76}
 76%|███████▌  | 5032/6640 [1:07:07<7:20:29, 16.44s/it] 76%|███████▌  | 5033/6640 [1:07:24<7:25:25, 16.63s/it]                                                       {'loss': 0.5137, 'learning_rate': 2.9185914342623667e-06, 'epoch': 0.76}
 76%|███████▌  | 5033/6640 [1:07:24<7:25:25, 16.63s/it] 76%|███████▌  | 5034/6640 [1:07:41<7:24:55, 16.62s/it]                                                       {'loss': 0.5084, 'learning_rate': 2.9151478855822223e-06, 'epoch': 0.76}
 76%|███████▌  | 5034/6640 [1:07:41<7:24:55, 16.62s/it] 76%|███████▌  | 5035/6640 [1:07:56<7:17:07, 16.34s/it]                                                       {'loss': 0.5298, 'learning_rate': 2.911706022906816e-06, 'epoch': 0.76}
 76%|███████▌  | 5035/6640 [1:07:56<7:17:07, 16.34s/it] 76%|███████▌  | 5036/6640 [1:08:13<7:18:53, 16.42s/it]                                                       {'loss': 0.5035, 'learning_rate': 2.908265847055226e-06, 'epoch': 0.76}
 76%|███████▌  | 5036/6640 [1:08:13<7:18:53, 16.42s/it] 76%|███████▌  | 5037/6640 [1:08:29<7:19:08, 16.44s/it]                                                       {'loss': 0.5192, 'learning_rate': 2.9048273588461097e-06, 'epoch': 0.76}
 76%|███████▌  | 5037/6640 [1:08:29<7:19:08, 16.44s/it] 76%|███████▌  | 5038/6640 [1:08:46<7:19:58, 16.48s/it]                                                       {'loss': 0.5313, 'learning_rate': 2.9013905590977498e-06, 'epoch': 0.76}
 76%|███████▌  | 5038/6640 [1:08:46<7:19:58, 16.48s/it] 76%|███████▌  | 5039/6640 [1:09:03<7:22:41, 16.59s/it]                                                       {'loss': 0.5179, 'learning_rate': 2.8979554486280014e-06, 'epoch': 0.76}
 76%|███████▌  | 5039/6640 [1:09:03<7:22:41, 16.59s/it] 76%|███████▌  | 5040/6640 [1:09:20<7:24:35, 16.67s/it]                                                       {'loss': 0.5226, 'learning_rate': 2.894522028254334e-06, 'epoch': 0.76}
 76%|███████▌  | 5040/6640 [1:09:20<7:24:35, 16.67s/it] 76%|███████▌  | 5041/6640 [1:09:36<7:18:05, 16.44s/it]                                                       {'loss': 0.5191, 'learning_rate': 2.8910902987938104e-06, 'epoch': 0.76}
 76%|███████▌  | 5041/6640 [1:09:36<7:18:05, 16.44s/it] 76%|███████▌  | 5042/6640 [1:09:52<7:14:25, 16.31s/it]                                                       {'loss': 0.4957, 'learning_rate': 2.887660261063082e-06, 'epoch': 0.76}
 76%|███████▌  | 5042/6640 [1:09:52<7:14:25, 16.31s/it] 76%|███████▌  | 5043/6640 [1:10:07<7:09:33, 16.14s/it]                                                       {'loss': 0.5148, 'learning_rate': 2.884231915878418e-06, 'epoch': 0.76}
 76%|███████▌  | 5043/6640 [1:10:07<7:09:33, 16.14s/it] 76%|███████▌  | 5044/6640 [1:10:26<7:27:57, 16.84s/it]                                                       {'loss': 0.52, 'learning_rate': 2.8808052640556637e-06, 'epoch': 0.76}
 76%|███████▌  | 5044/6640 [1:10:26<7:27:57, 16.84s/it] 76%|███████▌  | 5045/6640 [1:10:41<7:18:07, 16.48s/it]                                                       {'loss': 0.5008, 'learning_rate': 2.8773803064102758e-06, 'epoch': 0.76}
 76%|███████▌  | 5045/6640 [1:10:41<7:18:07, 16.48s/it] 76%|███████▌  | 5046/6640 [1:10:59<7:22:32, 16.66s/it]                                                       {'loss': 0.5161, 'learning_rate': 2.873957043757293e-06, 'epoch': 0.76}
 76%|███████▌  | 5046/6640 [1:10:59<7:22:32, 16.66s/it] 76%|███████▌  | 5047/6640 [1:11:15<7:16:57, 16.46s/it]                                                       {'loss': 0.5095, 'learning_rate': 2.8705354769113734e-06, 'epoch': 0.76}
 76%|███████▌  | 5047/6640 [1:11:15<7:16:57, 16.46s/it] 76%|███████▌  | 5048/6640 [1:11:30<7:11:52, 16.28s/it]                                                       {'loss': 0.4985, 'learning_rate': 2.867115606686747e-06, 'epoch': 0.76}
 76%|███████▌  | 5048/6640 [1:11:30<7:11:52, 16.28s/it] 76%|███████▌  | 5049/6640 [1:11:47<7:12:32, 16.31s/it]                                                       {'loss': 0.5223, 'learning_rate': 2.8636974338972558e-06, 'epoch': 0.76}
 76%|███████▌  | 5049/6640 [1:11:47<7:12:32, 16.31s/it]7 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
4 6AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 76%|███████▌  | 5050/6640 [1:12:04<7:16:29, 16.47s/it]                                                       {'loss': 0.5295, 'learning_rate': 2.860280959356336e-06, 'epoch': 0.76}
 76%|███████▌  | 5050/6640 [1:12:04<7:16:29, 16.47s/it] 76%|███████▌  | 5051/6640 [1:12:21<7:24:19, 16.78s/it]                                                       {'loss': 0.5081, 'learning_rate': 2.8568661838770073e-06, 'epoch': 0.76}
 76%|███████▌  | 5051/6640 [1:12:21<7:24:19, 16.78s/it] 76%|███████▌  | 5052/6640 [1:12:38<7:21:59, 16.70s/it]                                                       {'loss': 0.5102, 'learning_rate': 2.8534531082719073e-06, 'epoch': 0.76}
 76%|███████▌  | 5052/6640 [1:12:38<7:21:59, 16.70s/it] 76%|███████▌  | 5053/6640 [1:12:55<7:24:28, 16.80s/it]                                                       {'loss': 0.527, 'learning_rate': 2.850041733353247e-06, 'epoch': 0.76}
 76%|███████▌  | 5053/6640 [1:12:55<7:24:28, 16.80s/it] 76%|███████▌  | 5054/6640 [1:13:11<7:24:14, 16.81s/it]                                                       {'loss': 0.5043, 'learning_rate': 2.8466320599328458e-06, 'epoch': 0.76}
 76%|███████▌  | 5054/6640 [1:13:11<7:24:14, 16.81s/it] 76%|███████▌  | 5055/6640 [1:13:28<7:20:24, 16.67s/it]                                                       {'loss': 0.5375, 'learning_rate': 2.843224088822113e-06, 'epoch': 0.76}
 76%|███████▌  | 5055/6640 [1:13:28<7:20:24, 16.67s/it] 76%|███████▌  | 5056/6640 [1:13:45<7:21:39, 16.73s/it]                                                       {'loss': 0.5102, 'learning_rate': 2.839817820832056e-06, 'epoch': 0.76}
 76%|███████▌  | 5056/6640 [1:13:45<7:21:39, 16.73s/it] 76%|███████▌  | 5057/6640 [1:14:01<7:15:18, 16.50s/it]                                                       {'loss': 0.511, 'learning_rate': 2.836413256773277e-06, 'epoch': 0.76}
 76%|███████▌  | 5057/6640 [1:14:01<7:15:18, 16.50s/it] 76%|███████▌  | 5058/6640 [1:14:18<7:19:05, 16.65s/it]                                                       {'loss': 0.5125, 'learning_rate': 2.8330103974559665e-06, 'epoch': 0.76}
 76%|███████▌  | 5058/6640 [1:14:18<7:19:05, 16.65s/it] 76%|███████▌  | 5059/6640 [1:14:34<7:16:38, 16.57s/it]                                                       {'loss': 0.529, 'learning_rate': 2.8296092436899182e-06, 'epoch': 0.76}
 76%|███████▌  | 5059/6640 [1:14:34<7:16:38, 16.57s/it] 76%|███████▌  | 5060/6640 [1:14:50<7:09:53, 16.33s/it]                                                       {'loss': 0.5012, 'learning_rate': 2.8262097962845058e-06, 'epoch': 0.76}
 76%|███████▌  | 5060/6640 [1:14:50<7:09:53, 16.33s/it] 76%|███████▌  | 5061/6640 [1:15:06<7:11:04, 16.38s/it]                                                       {'loss': 0.5051, 'learning_rate': 2.8228120560487205e-06, 'epoch': 0.76}
 76%|███████▌  | 5061/6640 [1:15:06<7:11:04, 16.38s/it] 76%|███████▌  | 5062/6640 [1:15:22<7:06:22, 16.21s/it]                                                       {'loss': 0.5107, 'learning_rate': 2.819416023791124e-06, 'epoch': 0.76}
 76%|███████▌  | 5062/6640 [1:15:22<7:06:22, 16.21s/it] 76%|███████▋  | 5063/6640 [1:15:38<7:07:04, 16.25s/it]                                                       {'loss': 0.5063, 'learning_rate': 2.816021700319882e-06, 'epoch': 0.76}
 76%|███████▋  | 5063/6640 [1:15:38<7:07:04, 16.25s/it] 76%|███████▋  | 5064/6640 [1:15:54<7:04:39, 16.17s/it]                                                       {'loss': 0.5218, 'learning_rate': 2.812629086442754e-06, 'epoch': 0.76}
 76%|███████▋  | 5064/6640 [1:15:54<7:04:39, 16.17s/it] 76%|███████▋  | 5065/6640 [1:16:11<7:06:21, 16.24s/it]                                                       {'loss': 0.5323, 'learning_rate': 2.809238182967092e-06, 'epoch': 0.76}
 76%|███████▋  | 5065/6640 [1:16:11<7:06:21, 16.24s/it] 76%|███████▋  | 5066/6640 [1:16:28<7:16:04, 16.62s/it]                                                       {'loss': 0.5002, 'learning_rate': 2.805848990699841e-06, 'epoch': 0.76}
 76%|███████▋  | 5066/6640 [1:16:28<7:16:04, 16.62s/it] 76%|███████▋  | 5067/6640 [1:16:44<7:10:29, 16.42s/it]                                                       {'loss': 0.5146, 'learning_rate': 2.802461510447534e-06, 'epoch': 0.76}
 76%|███████▋  | 5067/6640 [1:16:44<7:10:29, 16.42s/it] 76%|███████▋  | 5068/6640 [1:17:00<7:08:20, 16.35s/it]                                                       {'loss': 0.5052, 'learning_rate': 2.799075743016304e-06, 'epoch': 0.76}
 76%|███████▋  | 5068/6640 [1:17:00<7:08:20, 16.35s/it] 76%|███████▋  | 5069/6640 [1:17:17<7:08:07, 16.35s/it]                                                       {'loss': 0.5088, 'learning_rate': 2.7956916892118645e-06, 'epoch': 0.76}
 76%|███████▋  | 5069/6640 [1:17:17<7:08:07, 16.35s/it] 76%|███████▋  | 5070/6640 [1:17:33<7:05:00, 16.24s/it]                                                       {'loss': 0.518, 'learning_rate': 2.7923093498395438e-06, 'epoch': 0.76}
 76%|███████▋  | 5070/6640 [1:17:33<7:05:00, 16.24s/it] 76%|███████▋  | 5071/6640 [1:17:49<7:05:56, 16.29s/it]                                                       {'loss': 0.5106, 'learning_rate': 2.7889287257042363e-06, 'epoch': 0.76}
 76%|███████▋  | 5071/6640 [1:17:49<7:05:56, 16.29s/it] 76%|███████▋  | 5072/6640 [1:18:05<7:03:54, 16.22s/it]                                                       {'loss': 0.517, 'learning_rate': 2.7855498176104435e-06, 'epoch': 0.76}
 76%|███████▋  | 5072/6640 [1:18:05<7:03:54, 16.22s/it] 76%|███████▋  | 5073/6640 [1:18:22<7:11:16, 16.51s/it]                                                       {'loss': 0.5273, 'learning_rate': 2.782172626362255e-06, 'epoch': 0.76}
 76%|███████▋  | 5073/6640 [1:18:22<7:11:16, 16.51s/it] 76%|███████▋  | 5074/6640 [1:18:39<7:11:56, 16.55s/it]                                                       {'loss': 0.5172, 'learning_rate': 2.7787971527633527e-06, 'epoch': 0.76}
 76%|███████▋  | 5074/6640 [1:18:39<7:11:56, 16.55s/it] 76%|███████▋  | 5075/6640 [1:18:55<7:09:02, 16.45s/it]                                                       {'loss': 0.501, 'learning_rate': 2.77542339761701e-06, 'epoch': 0.76}
 76%|███████▋  | 5075/6640 [1:18:55<7:09:02, 16.45s/it] 76%|███████▋  | 5076/6640 [1:19:11<7:02:04, 16.19s/it]                                                       {'loss': 0.5149, 'learning_rate': 2.7720513617260857e-06, 'epoch': 0.76}
 76%|███████▋  | 5076/6640 [1:19:11<7:02:04, 16.19s/it] 76%|███████▋  | 5077/6640 [1:19:27<7:01:25, 16.18s/it]                                                       {'loss': 0.5124, 'learning_rate': 2.768681045893039e-06, 'epoch': 0.76}
 76%|███████▋  | 5077/6640 [1:19:27<7:01:25, 16.18s/it] 76%|███████▋  | 5078/6640 [1:19:44<7:05:58, 16.36s/it]                                                       {'loss': 0.4977, 'learning_rate': 2.765312450919906e-06, 'epoch': 0.76}
 76%|███████▋  | 5078/6640 [1:19:44<7:05:58, 16.36s/it] 76%|███████▋  | 5079/6640 [1:20:00<7:04:38, 16.32s/it]                                                       {'loss': 0.5258, 'learning_rate': 2.761945577608334e-06, 'epoch': 0.76}
 76%|███████▋  | 5079/6640 [1:20:00<7:04:38, 16.32s/it] 77%|███████▋  | 5080/6640 [1:20:17<7:09:50, 16.53s/it]                                                       {'loss': 0.5165, 'learning_rate': 2.7585804267595383e-06, 'epoch': 0.77}
 77%|███████▋  | 5080/6640 [1:20:17<7:09:50, 16.53s/it] 77%|███████▋  | 5081/6640 [1:20:34<7:10:04, 16.55s/it]                                                       {'loss': 0.504, 'learning_rate': 2.7552169991743395e-06, 'epoch': 0.77}
 77%|███████▋  | 5081/6640 [1:20:34<7:10:04, 16.55s/it] 77%|███████▋  | 5082/6640 [1:20:50<7:08:28, 16.50s/it]                                                       {'loss': 0.5089, 'learning_rate': 2.7518552956531408e-06, 'epoch': 0.77}
 77%|███████▋  | 5082/6640 [1:20:50<7:08:28, 16.50s/it] 77%|███████▋  | 5083/6640 [1:21:06<7:06:44, 16.44s/it]                                                       {'loss': 0.503, 'learning_rate': 2.7484953169959405e-06, 'epoch': 0.77}
 77%|███████▋  | 5083/6640 [1:21:06<7:06:44, 16.44s/it] 77%|███████▋  | 5084/6640 [1:21:23<7:04:12, 16.36s/it]                                                       {'loss': 0.5209, 'learning_rate': 2.7451370640023234e-06, 'epoch': 0.77}
 77%|███████▋  | 5084/6640 [1:21:23<7:04:12, 16.36s/it] 77%|███████▋  | 5085/6640 [1:21:39<7:05:48, 16.43s/it]                                                       {'loss': 0.5214, 'learning_rate': 2.74178053747146e-06, 'epoch': 0.77}
 77%|███████▋  | 5085/6640 [1:21:39<7:05:48, 16.43s/it] 77%|███████▋  | 5086/6640 [1:21:55<7:03:32, 16.35s/it]                                                       {'loss': 0.4924, 'learning_rate': 2.7384257382021185e-06, 'epoch': 0.77}
 77%|███████▋  | 5086/6640 [1:21:55<7:03:32, 16.35s/it] 77%|███████▋  | 5087/6640 [1:22:11<6:59:05, 16.19s/it]                                                       {'loss': 0.5257, 'learning_rate': 2.7350726669926418e-06, 'epoch': 0.77}
 77%|███████▋  | 5087/6640 [1:22:11<6:59:05, 16.19s/it] 77%|███████▋  | 5088/6640 [1:22:27<6:58:23, 16.17s/it]                                                       {'loss': 0.5273, 'learning_rate': 2.7317213246409823e-06, 'epoch': 0.77}
 77%|███████▋  | 5088/6640 [1:22:27<6:58:23, 16.17s/it] 77%|███████▋  | 5089/6640 [1:22:43<6:56:34, 16.12s/it]                                                       {'loss': 0.5142, 'learning_rate': 2.728371711944663e-06, 'epoch': 0.77}
 77%|███████▋  | 5089/6640 [1:22:43<6:56:34, 16.12s/it] 77%|███████▋  | 5090/6640 [1:23:00<6:57:31, 16.16s/it]                                                       {'loss': 0.5224, 'learning_rate': 2.7250238297008026e-06, 'epoch': 0.77}
 77%|███████▋  | 5090/6640 [1:23:00<6:57:31, 16.16s/it] 77%|███████▋  | 5091/6640 [1:23:16<6:57:12, 16.16s/it]                                                       {'loss': 0.5126, 'learning_rate': 2.7216776787061085e-06, 'epoch': 0.77}
 77%|███████▋  | 5091/6640 [1:23:16<6:57:12, 16.16s/it] 77%|███████▋  | 5092/6640 [1:23:33<7:02:05, 16.36s/it]                                                       {'loss': 0.5132, 'learning_rate': 2.7183332597568747e-06, 'epoch': 0.77}
 77%|███████▋  | 5092/6640 [1:23:33<7:02:05, 16.36s/it] 77%|███████▋  | 5093/6640 [1:23:48<6:58:25, 16.23s/it]                                                       {'loss': 0.5089, 'learning_rate': 2.7149905736489846e-06, 'epoch': 0.77}
 77%|███████▋  | 5093/6640 [1:23:48<6:58:25, 16.23s/it] 77%|███████▋  | 5094/6640 [1:24:05<6:59:14, 16.27s/it]                                                       {'loss': 0.4898, 'learning_rate': 2.7116496211779044e-06, 'epoch': 0.77}
 77%|███████▋  | 5094/6640 [1:24:05<6:59:14, 16.27s/it] 77%|███████▋  | 5095/6640 [1:24:21<7:00:49, 16.34s/it]                                                       {'loss': 0.5148, 'learning_rate': 2.708310403138692e-06, 'epoch': 0.77}
 77%|███████▋  | 5095/6640 [1:24:21<7:00:49, 16.34s/it] 77%|███████▋  | 5096/6640 [1:24:38<7:04:20, 16.49s/it]                                                       {'loss': 0.4953, 'learning_rate': 2.7049729203259933e-06, 'epoch': 0.77}
 77%|███████▋  | 5096/6640 [1:24:38<7:04:20, 16.49s/it] 77%|███████▋  | 5097/6640 [1:24:54<6:58:11, 16.26s/it]                                                       {'loss': 0.5159, 'learning_rate': 2.7016371735340383e-06, 'epoch': 0.77}
 77%|███████▋  | 5097/6640 [1:24:54<6:58:11, 16.26s/it] 77%|███████▋  | 5098/6640 [1:25:10<6:55:27, 16.17s/it]                                                       {'loss': 0.5186, 'learning_rate': 2.698303163556649e-06, 'epoch': 0.77}
 77%|███████▋  | 5098/6640 [1:25:10<6:55:27, 16.17s/it] 77%|███████▋  | 5099/6640 [1:25:27<7:04:44, 16.54s/it]                                                       {'loss': 0.5179, 'learning_rate': 2.694970891187225e-06, 'epoch': 0.77}
 77%|███████▋  | 5099/6640 [1:25:27<7:04:44, 16.54s/it]5 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 77%|███████▋  | 5100/6640 [1:25:45<7:11:55, 16.83s/it]                                                       {'loss': 0.5151, 'learning_rate': 2.691640357218759e-06, 'epoch': 0.77}
 77%|███████▋  | 5100/6640 [1:25:45<7:11:55, 16.83s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5100/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5100/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5100/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 77%|███████▋  | 5101/6640 [1:27:28<18:16:54, 42.76s/it]                                                        {'loss': 0.5152, 'learning_rate': 2.6883115624438304e-06, 'epoch': 0.77}
 77%|███████▋  | 5101/6640 [1:27:28<18:16:54, 42.76s/it] 77%|███████▋  | 5102/6640 [1:27:45<14:54:33, 34.90s/it]                                                        {'loss': 0.5078, 'learning_rate': 2.6849845076546056e-06, 'epoch': 0.77}
 77%|███████▋  | 5102/6640 [1:27:45<14:54:33, 34.90s/it] 77%|███████▋  | 5103/6640 [1:28:01<12:32:24, 29.37s/it]                                                        {'loss': 0.5068, 'learning_rate': 2.681659193642827e-06, 'epoch': 0.77}
 77%|███████▋  | 5103/6640 [1:28:01<12:32:24, 29.37s/it] 77%|███████▋  | 5104/6640 [1:28:18<10:57:27, 25.68s/it]                                                        {'loss': 0.5255, 'learning_rate': 2.6783356211998356e-06, 'epoch': 0.77}
 77%|███████▋  | 5104/6640 [1:28:18<10:57:27, 25.68s/it] 77%|███████▋  | 5105/6640 [1:28:35<9:47:28, 22.96s/it]                                                        {'loss': 0.5252, 'learning_rate': 2.675013791116551e-06, 'epoch': 0.77}
 77%|███████▋  | 5105/6640 [1:28:35<9:47:28, 22.96s/it] 77%|███████▋  | 5106/6640 [1:28:52<9:01:58, 21.20s/it]                                                       {'loss': 0.5158, 'learning_rate': 2.671693704183479e-06, 'epoch': 0.77}
 77%|███████▋  | 5106/6640 [1:28:52<9:01:58, 21.20s/it] 77%|███████▋  | 5107/6640 [1:29:08<8:24:02, 19.73s/it]                                                       {'loss': 0.5014, 'learning_rate': 2.668375361190716e-06, 'epoch': 0.77}
 77%|███████▋  | 5107/6640 [1:29:08<8:24:02, 19.73s/it] 77%|███████▋  | 5108/6640 [1:29:24<7:54:05, 18.57s/it]                                                       {'loss': 0.5209, 'learning_rate': 2.66505876292793e-06, 'epoch': 0.77}
 77%|███████▋  | 5108/6640 [1:29:24<7:54:05, 18.57s/it] 77%|███████▋  | 5109/6640 [1:29:41<7:39:55, 18.02s/it]                                                       {'loss': 0.5294, 'learning_rate': 2.661743910184389e-06, 'epoch': 0.77}
 77%|███████▋  | 5109/6640 [1:29:41<7:39:55, 18.02s/it] 77%|███████▋  | 5110/6640 [1:29:57<7:24:17, 17.42s/it]                                                       {'loss': 0.4902, 'learning_rate': 2.658430803748936e-06, 'epoch': 0.77}
 77%|███████▋  | 5110/6640 [1:29:57<7:24:17, 17.42s/it] 77%|███████▋  | 5111/6640 [1:30:14<7:21:32, 17.33s/it]                                                       {'loss': 0.512, 'learning_rate': 2.655119444410006e-06, 'epoch': 0.77}
 77%|███████▋  | 5111/6640 [1:30:14<7:21:32, 17.33s/it] 77%|███████▋  | 5112/6640 [1:30:31<7:17:31, 17.18s/it]                                                       {'loss': 0.5211, 'learning_rate': 2.6518098329556076e-06, 'epoch': 0.77}
 77%|███████▋  | 5112/6640 [1:30:31<7:17:31, 17.18s/it] 77%|███████▋  | 5113/6640 [1:30:47<7:12:13, 16.98s/it]                                                       {'loss': 0.505, 'learning_rate': 2.6485019701733418e-06, 'epoch': 0.77}
 77%|███████▋  | 5113/6640 [1:30:47<7:12:13, 16.98s/it] 77%|███████▋  | 5114/6640 [1:31:04<7:07:01, 16.79s/it]                                                       {'loss': 0.4952, 'learning_rate': 2.645195856850391e-06, 'epoch': 0.77}
 77%|███████▋  | 5114/6640 [1:31:04<7:07:01, 16.79s/it] 77%|███████▋  | 5115/6640 [1:31:19<6:59:42, 16.51s/it]                                                       {'loss': 0.507, 'learning_rate': 2.6418914937735228e-06, 'epoch': 0.77}
 77%|███████▋  | 5115/6640 [1:31:19<6:59:42, 16.51s/it] 77%|███████▋  | 5116/6640 [1:31:35<6:56:01, 16.38s/it]                                                       {'loss': 0.5321, 'learning_rate': 2.6385888817290885e-06, 'epoch': 0.77}
 77%|███████▋  | 5116/6640 [1:31:35<6:56:01, 16.38s/it] 77%|███████▋  | 5117/6640 [1:31:51<6:50:21, 16.17s/it]                                                       {'loss': 0.5206, 'learning_rate': 2.6352880215030165e-06, 'epoch': 0.77}
 77%|███████▋  | 5117/6640 [1:31:51<6:50:21, 16.17s/it] 77%|███████▋  | 5118/6640 [1:32:07<6:50:01, 16.16s/it]                                                       {'loss': 0.51, 'learning_rate': 2.631988913880825e-06, 'epoch': 0.77}
 77%|███████▋  | 5118/6640 [1:32:07<6:50:01, 16.16s/it] 77%|███████▋  | 5119/6640 [1:32:24<6:50:21, 16.19s/it]                                                       {'loss': 0.5111, 'learning_rate': 2.6286915596476138e-06, 'epoch': 0.77}
 77%|███████▋  | 5119/6640 [1:32:24<6:50:21, 16.19s/it] 77%|███████▋  | 5120/6640 [1:32:40<6:51:08, 16.23s/it]                                                       {'loss': 0.5265, 'learning_rate': 2.625395959588067e-06, 'epoch': 0.77}
 77%|███████▋  | 5120/6640 [1:32:40<6:51:08, 16.23s/it] 77%|███████▋  | 5121/6640 [1:32:56<6:53:42, 16.34s/it]                                                       {'loss': 0.5043, 'learning_rate': 2.6221021144864444e-06, 'epoch': 0.77}
 77%|███████▋  | 5121/6640 [1:32:56<6:53:42, 16.34s/it] 77%|███████▋  | 5122/6640 [1:33:13<6:53:58, 16.36s/it]                                                       {'loss': 0.5054, 'learning_rate': 2.6188100251265947e-06, 'epoch': 0.77}
 77%|███████▋  | 5122/6640 [1:33:13<6:53:58, 16.36s/it] 77%|███████▋  | 5123/6640 [1:33:29<6:52:09, 16.30s/it]                                                       {'loss': 0.5207, 'learning_rate': 2.615519692291947e-06, 'epoch': 0.77}
 77%|███████▋  | 5123/6640 [1:33:29<6:52:09, 16.30s/it] 77%|███████▋  | 5124/6640 [1:33:46<6:58:00, 16.54s/it]                                                       {'loss': 0.4988, 'learning_rate': 2.612231116765511e-06, 'epoch': 0.77}
 77%|███████▋  | 5124/6640 [1:33:46<6:58:00, 16.54s/it] 77%|███████▋  | 5125/6640 [1:34:03<6:57:46, 16.55s/it]                                                       {'loss': 0.5194, 'learning_rate': 2.6089442993298854e-06, 'epoch': 0.77}
 77%|███████▋  | 5125/6640 [1:34:03<6:57:46, 16.55s/it] 77%|███████▋  | 5126/6640 [1:34:19<6:58:10, 16.57s/it]                                                       {'loss': 0.5158, 'learning_rate': 2.6056592407672355e-06, 'epoch': 0.77}
 77%|███████▋  | 5126/6640 [1:34:19<6:58:10, 16.57s/it] 77%|███████▋  | 5127/6640 [1:34:35<6:54:09, 16.42s/it]                                                       {'loss': 0.5312, 'learning_rate': 2.602375941859322e-06, 'epoch': 0.77}
 77%|███████▋  | 5127/6640 [1:34:35<6:54:09, 16.42s/it] 77%|███████▋  | 5128/6640 [1:34:52<6:52:14, 16.36s/it]                                                       {'loss': 0.5532, 'learning_rate': 2.599094403387481e-06, 'epoch': 0.77}
 77%|███████▋  | 5128/6640 [1:34:52<6:52:14, 16.36s/it] 77%|███████▋  | 5129/6640 [1:35:08<6:53:16, 16.41s/it]                                                       {'loss': 0.515, 'learning_rate': 2.5958146261326345e-06, 'epoch': 0.77}
 77%|███████▋  | 5129/6640 [1:35:08<6:53:16, 16.41s/it] 77%|███████▋  | 5130/6640 [1:35:24<6:45:49, 16.13s/it]                                                       {'loss': 0.5122, 'learning_rate': 2.592536610875275e-06, 'epoch': 0.77}
 77%|███████▋  | 5130/6640 [1:35:24<6:45:49, 16.13s/it] 77%|███████▋  | 5131/6640 [1:35:41<6:53:13, 16.43s/it]                                                       {'loss': 0.5279, 'learning_rate': 2.5892603583954847e-06, 'epoch': 0.77}
 77%|███████▋  | 5131/6640 [1:35:41<6:53:13, 16.43s/it] 77%|███████▋  | 5132/6640 [1:35:58<7:02:25, 16.81s/it]                                                       {'loss': 0.5117, 'learning_rate': 2.5859858694729245e-06, 'epoch': 0.77}
 77%|███████▋  | 5132/6640 [1:35:58<7:02:25, 16.81s/it] 77%|███████▋  | 5133/6640 [1:36:15<6:58:19, 16.66s/it]                                                       {'loss': 0.5182, 'learning_rate': 2.582713144886836e-06, 'epoch': 0.77}
 77%|███████▋  | 5133/6640 [1:36:15<6:58:19, 16.66s/it] 77%|███████▋  | 5134/6640 [1:36:30<6:50:43, 16.36s/it]                                                       {'loss': 0.5041, 'learning_rate': 2.57944218541604e-06, 'epoch': 0.77}
 77%|███████▋  | 5134/6640 [1:36:30<6:50:43, 16.36s/it] 77%|███████▋  | 5135/6640 [1:36:47<6:53:27, 16.48s/it]                                                       {'loss': 0.499, 'learning_rate': 2.576172991838933e-06, 'epoch': 0.77}
 77%|███████▋  | 5135/6640 [1:36:47<6:53:27, 16.48s/it] 77%|███████▋  | 5136/6640 [1:37:03<6:50:09, 16.36s/it]                                                       {'loss': 0.493, 'learning_rate': 2.5729055649334987e-06, 'epoch': 0.77}
 77%|███████▋  | 5136/6640 [1:37:03<6:50:09, 16.36s/it] 77%|███████▋  | 5137/6640 [1:37:20<6:54:09, 16.53s/it]                                                       {'loss': 0.5166, 'learning_rate': 2.569639905477297e-06, 'epoch': 0.77}
 77%|███████▋  | 5137/6640 [1:37:20<6:54:09, 16.53s/it] 77%|███████▋  | 5138/6640 [1:37:36<6:47:47, 16.29s/it]                                                       {'loss': 0.518, 'learning_rate': 2.566376014247466e-06, 'epoch': 0.77}
 77%|███████▋  | 5138/6640 [1:37:36<6:47:47, 16.29s/it] 77%|███████▋  | 5139/6640 [1:37:52<6:43:48, 16.14s/it]                                                       {'loss': 0.5146, 'learning_rate': 2.563113892020728e-06, 'epoch': 0.77}
 77%|███████▋  | 5139/6640 [1:37:52<6:43:48, 16.14s/it] 77%|███████▋  | 5140/6640 [1:38:08<6:43:18, 16.13s/it]                                                       {'loss': 0.5, 'learning_rate': 2.5598535395733735e-06, 'epoch': 0.77}
 77%|███████▋  | 5140/6640 [1:38:08<6:43:18, 16.13s/it] 77%|███████▋  | 5141/6640 [1:38:24<6:44:02, 16.17s/it]                                                       {'loss': 0.5039, 'learning_rate': 2.5565949576812843e-06, 'epoch': 0.77}
 77%|███████▋  | 5141/6640 [1:38:24<6:44:02, 16.17s/it] 77%|███████▋  | 5142/6640 [1:38:41<6:46:48, 16.29s/it]                                                       {'loss': 0.5151, 'learning_rate': 2.5533381471199138e-06, 'epoch': 0.77}
 77%|███████▋  | 5142/6640 [1:38:41<6:46:48, 16.29s/it] 77%|███████▋  | 5143/6640 [1:38:57<6:43:38, 16.18s/it]                                                       {'loss': 0.5277, 'learning_rate': 2.5500831086642975e-06, 'epoch': 0.77}
 77%|███████▋  | 5143/6640 [1:38:57<6:43:38, 16.18s/it] 77%|███████▋  | 5144/6640 [1:39:13<6:46:52, 16.32s/it]                                                       {'loss': 0.5035, 'learning_rate': 2.5468298430890438e-06, 'epoch': 0.77}
 77%|███████▋  | 5144/6640 [1:39:13<6:46:52, 16.32s/it] 77%|███████▋  | 5145/6640 [1:39:30<6:51:25, 16.51s/it]                                                       {'loss': 0.5235, 'learning_rate': 2.5435783511683444e-06, 'epoch': 0.77}
 77%|███████▋  | 5145/6640 [1:39:30<6:51:25, 16.51s/it] 78%|███████▊  | 5146/6640 [1:39:47<6:50:51, 16.50s/it]                                                       {'loss': 0.5141, 'learning_rate': 2.540328633675967e-06, 'epoch': 0.78}
 78%|███████▊  | 5146/6640 [1:39:47<6:50:51, 16.50s/it] 78%|███████▊  | 5147/6640 [1:40:04<6:55:26, 16.70s/it]                                                       {'loss': 0.5142, 'learning_rate': 2.5370806913852574e-06, 'epoch': 0.78}
 78%|███████▊  | 5147/6640 [1:40:04<6:55:26, 16.70s/it] 78%|███████▊  | 5148/6640 [1:40:20<6:50:22, 16.50s/it]                                                       {'loss': 0.5368, 'learning_rate': 2.533834525069142e-06, 'epoch': 0.78}
 78%|███████▊  | 5148/6640 [1:40:20<6:50:22, 16.50s/it] 78%|███████▊  | 5149/6640 [1:40:36<6:43:45, 16.25s/it]                                                       {'loss': 0.5084, 'learning_rate': 2.5305901355001152e-06, 'epoch': 0.78}
 78%|███████▊  | 5149/6640 [1:40:36<6:43:45, 16.25s/it]75  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

1 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
03 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...2 
AutoResumeHook: Checking whether to suspend...
 78%|███████▊  | 5150/6640 [1:40:52<6:46:16, 16.36s/it]                                                       {'loss': 0.5127, 'learning_rate': 2.5273475234502565e-06, 'epoch': 0.78}
 78%|███████▊  | 5150/6640 [1:40:52<6:46:16, 16.36s/it] 78%|███████▊  | 5151/6640 [1:41:09<6:51:54, 16.60s/it]                                                       {'loss': 0.509, 'learning_rate': 2.5241066896912226e-06, 'epoch': 0.78}
 78%|███████▊  | 5151/6640 [1:41:09<6:51:54, 16.60s/it] 78%|███████▊  | 5152/6640 [1:41:26<6:51:10, 16.58s/it]                                                       {'loss': 0.5001, 'learning_rate': 2.5208676349942464e-06, 'epoch': 0.78}
 78%|███████▊  | 5152/6640 [1:41:26<6:51:10, 16.58s/it] 78%|███████▊  | 5153/6640 [1:41:42<6:49:29, 16.52s/it]                                                       {'loss': 0.5175, 'learning_rate': 2.51763036013013e-06, 'epoch': 0.78}
 78%|███████▊  | 5153/6640 [1:41:42<6:49:29, 16.52s/it] 78%|███████▊  | 5154/6640 [1:41:58<6:46:50, 16.43s/it]                                                       {'loss': 0.496, 'learning_rate': 2.514394865869263e-06, 'epoch': 0.78}
 78%|███████▊  | 5154/6640 [1:41:58<6:46:50, 16.43s/it] 78%|███████▊  | 5155/6640 [1:42:15<6:47:58, 16.48s/it]                                                       {'loss': 0.5026, 'learning_rate': 2.511161152981604e-06, 'epoch': 0.78}
 78%|███████▊  | 5155/6640 [1:42:15<6:47:58, 16.48s/it] 78%|███████▊  | 5156/6640 [1:42:33<6:57:23, 16.88s/it]                                                       {'loss': 0.5272, 'learning_rate': 2.5079292222366903e-06, 'epoch': 0.78}
 78%|███████▊  | 5156/6640 [1:42:33<6:57:23, 16.88s/it] 78%|███████▊  | 5157/6640 [1:42:50<6:55:40, 16.82s/it]                                                       {'loss': 0.5284, 'learning_rate': 2.504699074403638e-06, 'epoch': 0.78}
 78%|███████▊  | 5157/6640 [1:42:50<6:55:40, 16.82s/it] 78%|███████▊  | 5158/6640 [1:43:05<6:48:52, 16.55s/it]                                                       {'loss': 0.5125, 'learning_rate': 2.5014707102511304e-06, 'epoch': 0.78}
 78%|███████▊  | 5158/6640 [1:43:05<6:48:52, 16.55s/it] 78%|███████▊  | 5159/6640 [1:43:22<6:49:06, 16.57s/it]                                                       {'loss': 0.5219, 'learning_rate': 2.498244130547434e-06, 'epoch': 0.78}
 78%|███████▊  | 5159/6640 [1:43:22<6:49:06, 16.57s/it] 78%|███████▊  | 5160/6640 [1:43:40<7:01:58, 17.11s/it]                                                       {'loss': 0.5059, 'learning_rate': 2.4950193360603868e-06, 'epoch': 0.78}
 78%|███████▊  | 5160/6640 [1:43:40<7:01:58, 17.11s/it] 78%|███████▊  | 5161/6640 [1:43:59<7:08:49, 17.40s/it]                                                       {'loss': 0.5183, 'learning_rate': 2.4917963275574086e-06, 'epoch': 0.78}
 78%|███████▊  | 5161/6640 [1:43:59<7:08:49, 17.40s/it] 78%|███████▊  | 5162/6640 [1:44:16<7:06:09, 17.30s/it]                                                       {'loss': 0.5105, 'learning_rate': 2.4885751058054817e-06, 'epoch': 0.78}
 78%|███████▊  | 5162/6640 [1:44:16<7:06:09, 17.30s/it] 78%|███████▊  | 5163/6640 [1:44:32<6:58:46, 17.01s/it]                                                       {'loss': 0.5158, 'learning_rate': 2.485355671571175e-06, 'epoch': 0.78}
 78%|███████▊  | 5163/6640 [1:44:32<6:58:46, 17.01s/it] 78%|███████▊  | 5164/6640 [1:44:48<6:50:57, 16.71s/it]                                                       {'loss': 0.5182, 'learning_rate': 2.482138025620625e-06, 'epoch': 0.78}
 78%|███████▊  | 5164/6640 [1:44:48<6:50:57, 16.71s/it] 78%|███████▊  | 5165/6640 [1:45:05<6:52:20, 16.77s/it]                                                       {'loss': 0.5087, 'learning_rate': 2.4789221687195473e-06, 'epoch': 0.78}
 78%|███████▊  | 5165/6640 [1:45:05<6:52:20, 16.77s/it] 78%|███████▊  | 5166/6640 [1:45:21<6:46:40, 16.55s/it]                                                       {'loss': 0.5015, 'learning_rate': 2.475708101633232e-06, 'epoch': 0.78}
 78%|███████▊  | 5166/6640 [1:45:21<6:46:40, 16.55s/it] 78%|███████▊  | 5167/6640 [1:45:38<6:47:44, 16.61s/it]                                                       {'loss': 0.5098, 'learning_rate': 2.4724958251265328e-06, 'epoch': 0.78}
 78%|███████▊  | 5167/6640 [1:45:38<6:47:44, 16.61s/it] 78%|███████▊  | 5168/6640 [1:45:54<6:46:32, 16.57s/it]                                                       {'loss': 0.5128, 'learning_rate': 2.469285339963892e-06, 'epoch': 0.78}
 78%|███████▊  | 5168/6640 [1:45:54<6:46:32, 16.57s/it] 78%|███████▊  | 5169/6640 [1:46:10<6:43:27, 16.46s/it]                                                       {'loss': 0.4825, 'learning_rate': 2.4660766469093155e-06, 'epoch': 0.78}
 78%|███████▊  | 5169/6640 [1:46:10<6:43:27, 16.46s/it] 78%|███████▊  | 5170/6640 [1:46:26<6:36:17, 16.18s/it]                                                       {'loss': 0.5148, 'learning_rate': 2.4628697467263916e-06, 'epoch': 0.78}
 78%|███████▊  | 5170/6640 [1:46:26<6:36:17, 16.18s/it] 78%|███████▊  | 5171/6640 [1:46:43<6:39:51, 16.33s/it]                                                       {'loss': 0.5243, 'learning_rate': 2.4596646401782687e-06, 'epoch': 0.78}
 78%|███████▊  | 5171/6640 [1:46:43<6:39:51, 16.33s/it] 78%|███████▊  | 5172/6640 [1:47:00<6:48:37, 16.70s/it]                                                       {'loss': 0.5235, 'learning_rate': 2.4564613280276806e-06, 'epoch': 0.78}
 78%|███████▊  | 5172/6640 [1:47:00<6:48:37, 16.70s/it] 78%|███████▊  | 5173/6640 [1:47:17<6:47:48, 16.68s/it]                                                       {'loss': 0.5021, 'learning_rate': 2.45325981103693e-06, 'epoch': 0.78}
 78%|███████▊  | 5173/6640 [1:47:17<6:47:48, 16.68s/it] 78%|███████▊  | 5174/6640 [1:47:34<6:54:01, 16.94s/it]                                                       {'loss': 0.5105, 'learning_rate': 2.4500600899678893e-06, 'epoch': 0.78}
 78%|███████▊  | 5174/6640 [1:47:34<6:54:01, 16.94s/it] 78%|███████▊  | 5175/6640 [1:47:51<6:50:45, 16.82s/it]                                                       {'loss': 0.5213, 'learning_rate': 2.4468621655820125e-06, 'epoch': 0.78}
 78%|███████▊  | 5175/6640 [1:47:51<6:50:45, 16.82s/it] 78%|███████▊  | 5176/6640 [1:48:07<6:44:39, 16.58s/it]                                                       {'loss': 0.5098, 'learning_rate': 2.4436660386403123e-06, 'epoch': 0.78}
 78%|███████▊  | 5176/6640 [1:48:07<6:44:39, 16.58s/it] 78%|███████▊  | 5177/6640 [1:48:23<6:43:25, 16.55s/it]                                                       {'loss': 0.5095, 'learning_rate': 2.4404717099033847e-06, 'epoch': 0.78}
 78%|███████▊  | 5177/6640 [1:48:23<6:43:25, 16.55s/it] 78%|███████▊  | 5178/6640 [1:48:40<6:42:01, 16.50s/it]                                                       {'loss': 0.5182, 'learning_rate': 2.4372791801313932e-06, 'epoch': 0.78}
 78%|███████▊  | 5178/6640 [1:48:40<6:42:01, 16.50s/it] 78%|███████▊  | 5179/6640 [1:48:56<6:42:18, 16.52s/it]                                                       {'loss': 0.5171, 'learning_rate': 2.4340884500840756e-06, 'epoch': 0.78}
 78%|███████▊  | 5179/6640 [1:48:56<6:42:18, 16.52s/it] 78%|███████▊  | 5180/6640 [1:49:13<6:41:07, 16.48s/it]                                                       {'loss': 0.5078, 'learning_rate': 2.430899520520741e-06, 'epoch': 0.78}
 78%|███████▊  | 5180/6640 [1:49:13<6:41:07, 16.48s/it] 78%|███████▊  | 5181/6640 [1:49:29<6:38:28, 16.39s/it]                                                       {'loss': 0.5009, 'learning_rate': 2.4277123922002633e-06, 'epoch': 0.78}
 78%|███████▊  | 5181/6640 [1:49:29<6:38:28, 16.39s/it] 78%|███████▊  | 5182/6640 [1:49:45<6:38:37, 16.40s/it]                                                       {'loss': 0.5127, 'learning_rate': 2.424527065881103e-06, 'epoch': 0.78}
 78%|███████▊  | 5182/6640 [1:49:45<6:38:37, 16.40s/it] 78%|███████▊  | 5183/6640 [1:50:02<6:37:21, 16.36s/it]                                                       {'loss': 0.5075, 'learning_rate': 2.4213435423212726e-06, 'epoch': 0.78}
 78%|███████▊  | 5183/6640 [1:50:02<6:37:21, 16.36s/it] 78%|███████▊  | 5184/6640 [1:50:19<6:42:45, 16.60s/it]                                                       {'loss': 0.5121, 'learning_rate': 2.418161822278374e-06, 'epoch': 0.78}
 78%|███████▊  | 5184/6640 [1:50:19<6:42:45, 16.60s/it] 78%|███████▊  | 5185/6640 [1:50:35<6:40:45, 16.53s/it]                                                       {'loss': 0.5106, 'learning_rate': 2.414981906509565e-06, 'epoch': 0.78}
 78%|███████▊  | 5185/6640 [1:50:35<6:40:45, 16.53s/it] 78%|███████▊  | 5186/6640 [1:50:51<6:38:27, 16.44s/it]                                                       {'loss': 0.5122, 'learning_rate': 2.411803795771581e-06, 'epoch': 0.78}
 78%|███████▊  | 5186/6640 [1:50:51<6:38:27, 16.44s/it] 78%|███████▊  | 5187/6640 [1:51:07<6:35:37, 16.34s/it]                                                       {'loss': 0.5208, 'learning_rate': 2.4086274908207284e-06, 'epoch': 0.78}
 78%|███████▊  | 5187/6640 [1:51:07<6:35:37, 16.34s/it] 78%|███████▊  | 5188/6640 [1:51:23<6:33:48, 16.27s/it]                                                       {'loss': 0.4887, 'learning_rate': 2.4054529924128822e-06, 'epoch': 0.78}
 78%|███████▊  | 5188/6640 [1:51:23<6:33:48, 16.27s/it] 78%|███████▊  | 5189/6640 [1:51:39<6:30:51, 16.16s/it]                                                       {'loss': 0.5121, 'learning_rate': 2.4022803013034913e-06, 'epoch': 0.78}
 78%|███████▊  | 5189/6640 [1:51:39<6:30:51, 16.16s/it] 78%|███████▊  | 5190/6640 [1:51:55<6:29:12, 16.11s/it]                                                       {'loss': 0.5066, 'learning_rate': 2.399109418247563e-06, 'epoch': 0.78}
 78%|███████▊  | 5190/6640 [1:51:55<6:29:12, 16.11s/it] 78%|███████▊  | 5191/6640 [1:52:12<6:30:48, 16.18s/it]                                                       {'loss': 0.5141, 'learning_rate': 2.395940343999691e-06, 'epoch': 0.78}
 78%|███████▊  | 5191/6640 [1:52:12<6:30:48, 16.18s/it] 78%|███████▊  | 5192/6640 [1:52:28<6:32:55, 16.28s/it]                                                       {'loss': 0.5304, 'learning_rate': 2.392773079314025e-06, 'epoch': 0.78}
 78%|███████▊  | 5192/6640 [1:52:28<6:32:55, 16.28s/it] 78%|███████▊  | 5193/6640 [1:52:44<6:31:10, 16.22s/it]                                                       {'loss': 0.5304, 'learning_rate': 2.3896076249442923e-06, 'epoch': 0.78}
 78%|███████▊  | 5193/6640 [1:52:44<6:31:10, 16.22s/it] 78%|███████▊  | 5194/6640 [1:53:01<6:30:42, 16.21s/it]                                                       {'loss': 0.5186, 'learning_rate': 2.3864439816437822e-06, 'epoch': 0.78}
 78%|███████▊  | 5194/6640 [1:53:01<6:30:42, 16.21s/it] 78%|███████▊  | 5195/6640 [1:53:17<6:30:07, 16.20s/it]                                                       {'loss': 0.5246, 'learning_rate': 2.383282150165358e-06, 'epoch': 0.78}
 78%|███████▊  | 5195/6640 [1:53:17<6:30:07, 16.20s/it] 78%|███████▊  | 5196/6640 [1:53:33<6:27:51, 16.12s/it]                                                       {'loss': 0.5296, 'learning_rate': 2.3801221312614518e-06, 'epoch': 0.78}
 78%|███████▊  | 5196/6640 [1:53:33<6:27:51, 16.12s/it] 78%|███████▊  | 5197/6640 [1:53:49<6:26:42, 16.08s/it]                                                       {'loss': 0.5234, 'learning_rate': 2.3769639256840636e-06, 'epoch': 0.78}
 78%|███████▊  | 5197/6640 [1:53:49<6:26:42, 16.08s/it] 78%|███████▊  | 5198/6640 [1:54:06<6:33:14, 16.36s/it]                                                       {'loss': 0.5075, 'learning_rate': 2.3738075341847634e-06, 'epoch': 0.78}
 78%|███████▊  | 5198/6640 [1:54:06<6:33:14, 16.36s/it] 78%|███████▊  | 5199/6640 [1:54:22<6:29:52, 16.23s/it]                                                       {'loss': 0.5148, 'learning_rate': 2.3706529575146796e-06, 'epoch': 0.78}
 78%|███████▊  | 5199/6640 [1:54:22<6:29:52, 16.23s/it]17 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
26 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...5
4 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
03 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 78%|███████▊  | 5200/6640 [1:54:38<6:30:20, 16.26s/it]                                                       {'loss': 0.501, 'learning_rate': 2.367500196424529e-06, 'epoch': 0.78}
 78%|███████▊  | 5200/6640 [1:54:38<6:30:20, 16.26s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5200/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5200/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5200/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 78%|███████▊  | 5201/6640 [1:56:34<18:29:37, 46.27s/it]                                                        {'loss': 0.4687, 'learning_rate': 2.364349251664575e-06, 'epoch': 0.78}
 78%|███████▊  | 5201/6640 [1:56:34<18:29:37, 46.27s/it] 78%|███████▊  | 5202/6640 [1:56:51<14:54:02, 37.30s/it]                                                        {'loss': 0.513, 'learning_rate': 2.361200123984664e-06, 'epoch': 0.78}
 78%|███████▊  | 5202/6640 [1:56:51<14:54:02, 37.30s/it] 78%|███████▊  | 5203/6640 [1:57:07<12:20:36, 30.92s/it]                                                        {'loss': 0.5259, 'learning_rate': 2.3580528141341963e-06, 'epoch': 0.78}
 78%|███████▊  | 5203/6640 [1:57:07<12:20:36, 30.92s/it] 78%|███████▊  | 5204/6640 [1:57:23<10:32:34, 26.43s/it]                                                        {'loss': 0.4927, 'learning_rate': 2.3549073228621523e-06, 'epoch': 0.78}
 78%|███████▊  | 5204/6640 [1:57:23<10:32:34, 26.43s/it] 78%|███████▊  | 5205/6640 [1:57:41<9:35:20, 24.06s/it]                                                        {'loss': 0.4945, 'learning_rate': 2.351763650917074e-06, 'epoch': 0.78}
 78%|███████▊  | 5205/6640 [1:57:41<9:35:20, 24.06s/it] 78%|███████▊  | 5206/6640 [1:57:57<8:35:15, 21.56s/it]                                                       {'loss': 0.5219, 'learning_rate': 2.3486217990470707e-06, 'epoch': 0.78}
 78%|███████▊  | 5206/6640 [1:57:57<8:35:15, 21.56s/it] 78%|███████▊  | 5207/6640 [1:58:13<7:56:34, 19.95s/it]                                                       {'loss': 0.5195, 'learning_rate': 2.345481767999822e-06, 'epoch': 0.78}
 78%|███████▊  | 5207/6640 [1:58:13<7:56:34, 19.95s/it] 78%|███████▊  | 5208/6640 [1:58:29<7:28:14, 18.78s/it]                                                       {'loss': 0.5283, 'learning_rate': 2.342343558522562e-06, 'epoch': 0.78}
 78%|███████▊  | 5208/6640 [1:58:29<7:28:14, 18.78s/it] 78%|███████▊  | 5209/6640 [1:58:46<7:11:27, 18.09s/it]                                                       {'loss': 0.5359, 'learning_rate': 2.3392071713621124e-06, 'epoch': 0.78}
 78%|███████▊  | 5209/6640 [1:58:46<7:11:27, 18.09s/it] 78%|███████▊  | 5210/6640 [1:59:03<7:03:48, 17.78s/it]                                                       {'loss': 0.5215, 'learning_rate': 2.33607260726484e-06, 'epoch': 0.78}
 78%|███████▊  | 5210/6640 [1:59:03<7:03:48, 17.78s/it] 78%|███████▊  | 5211/6640 [1:59:19<6:54:10, 17.39s/it]                                                       {'loss': 0.521, 'learning_rate': 2.3329398669766935e-06, 'epoch': 0.78}
 78%|███████▊  | 5211/6640 [1:59:19<6:54:10, 17.39s/it] 78%|███████▊  | 5212/6640 [1:59:36<6:47:56, 17.14s/it]                                                       {'loss': 0.5308, 'learning_rate': 2.3298089512431744e-06, 'epoch': 0.78}
 78%|███████▊  | 5212/6640 [1:59:36<6:47:56, 17.14s/it] 79%|███████▊  | 5213/6640 [1:59:53<6:47:06, 17.12s/it]                                                       {'loss': 0.5141, 'learning_rate': 2.3266798608093598e-06, 'epoch': 0.79}
 79%|███████▊  | 5213/6640 [1:59:53<6:47:06, 17.12s/it] 79%|███████▊  | 5214/6640 [2:00:09<6:43:26, 16.98s/it]                                                       {'loss': 0.5139, 'learning_rate': 2.323552596419889e-06, 'epoch': 0.79}
 79%|███████▊  | 5214/6640 [2:00:09<6:43:26, 16.98s/it] 79%|███████▊  | 5215/6640 [2:00:26<6:42:22, 16.94s/it]                                                       {'loss': 0.4993, 'learning_rate': 2.3204271588189685e-06, 'epoch': 0.79}
 79%|███████▊  | 5215/6640 [2:00:26<6:42:22, 16.94s/it] 79%|███████▊  | 5216/6640 [2:00:43<6:40:45, 16.89s/it]                                                       {'loss': 0.513, 'learning_rate': 2.3173035487503704e-06, 'epoch': 0.79}
 79%|███████▊  | 5216/6640 [2:00:43<6:40:45, 16.89s/it] 79%|███████▊  | 5217/6640 [2:00:59<6:37:55, 16.78s/it]                                                       {'loss': 0.5315, 'learning_rate': 2.3141817669574208e-06, 'epoch': 0.79}
 79%|███████▊  | 5217/6640 [2:00:59<6:37:55, 16.78s/it] 79%|███████▊  | 5218/6640 [2:01:16<6:33:30, 16.60s/it]                                                       {'loss': 0.5002, 'learning_rate': 2.311061814183033e-06, 'epoch': 0.79}
 79%|███████▊  | 5218/6640 [2:01:16<6:33:30, 16.60s/it] 79%|███████▊  | 5219/6640 [2:01:32<6:33:45, 16.63s/it]                                                       {'loss': 0.5024, 'learning_rate': 2.3079436911696617e-06, 'epoch': 0.79}
 79%|███████▊  | 5219/6640 [2:01:32<6:33:45, 16.63s/it] 79%|███████▊  | 5220/6640 [2:01:48<6:29:05, 16.44s/it]                                                       {'loss': 0.5098, 'learning_rate': 2.304827398659342e-06, 'epoch': 0.79}
 79%|███████▊  | 5220/6640 [2:01:48<6:29:05, 16.44s/it] 79%|███████▊  | 5221/6640 [2:02:06<6:34:53, 16.70s/it]                                                       {'loss': 0.5233, 'learning_rate': 2.3017129373936676e-06, 'epoch': 0.79}
 79%|███████▊  | 5221/6640 [2:02:06<6:34:53, 16.70s/it] 79%|███████▊  | 5222/6640 [2:02:23<6:37:43, 16.83s/it]                                                       {'loss': 0.4974, 'learning_rate': 2.2986003081137897e-06, 'epoch': 0.79}
 79%|███████▊  | 5222/6640 [2:02:23<6:37:43, 16.83s/it] 79%|███████▊  | 5223/6640 [2:02:38<6:29:09, 16.48s/it]                                                       {'loss': 0.5178, 'learning_rate': 2.2954895115604424e-06, 'epoch': 0.79}
 79%|███████▊  | 5223/6640 [2:02:38<6:29:09, 16.48s/it] 79%|███████▊  | 5224/6640 [2:02:55<6:27:16, 16.41s/it]                                                       {'loss': 0.5024, 'learning_rate': 2.2923805484739035e-06, 'epoch': 0.79}
 79%|███████▊  | 5224/6640 [2:02:55<6:27:16, 16.41s/it] 79%|███████▊  | 5225/6640 [2:03:11<6:27:50, 16.45s/it]                                                       {'loss': 0.5115, 'learning_rate': 2.289273419594027e-06, 'epoch': 0.79}
 79%|███████▊  | 5225/6640 [2:03:11<6:27:50, 16.45s/it] 79%|███████▊  | 5226/6640 [2:03:28<6:29:01, 16.51s/it]                                                       {'loss': 0.5134, 'learning_rate': 2.2861681256602187e-06, 'epoch': 0.79}
 79%|███████▊  | 5226/6640 [2:03:28<6:29:01, 16.51s/it] 79%|███████▊  | 5227/6640 [2:03:45<6:35:11, 16.78s/it]                                                       {'loss': 0.5172, 'learning_rate': 2.2830646674114675e-06, 'epoch': 0.79}
 79%|███████▊  | 5227/6640 [2:03:45<6:35:11, 16.78s/it] 79%|███████▊  | 5228/6640 [2:04:01<6:28:28, 16.51s/it]                                                       {'loss': 0.5183, 'learning_rate': 2.279963045586302e-06, 'epoch': 0.79}
 79%|███████▊  | 5228/6640 [2:04:01<6:28:28, 16.51s/it] 79%|███████▉  | 5229/6640 [2:04:18<6:29:31, 16.56s/it]                                                       {'loss': 0.5021, 'learning_rate': 2.2768632609228313e-06, 'epoch': 0.79}
 79%|███████▉  | 5229/6640 [2:04:18<6:29:31, 16.56s/it] 79%|███████▉  | 5230/6640 [2:04:35<6:31:19, 16.65s/it]                                                       {'loss': 0.4984, 'learning_rate': 2.2737653141587203e-06, 'epoch': 0.79}
 79%|███████▉  | 5230/6640 [2:04:35<6:31:19, 16.65s/it] 79%|███████▉  | 5231/6640 [2:04:51<6:27:09, 16.49s/it]                                                       {'loss': 0.5393, 'learning_rate': 2.270669206031192e-06, 'epoch': 0.79}
 79%|███████▉  | 5231/6640 [2:04:51<6:27:09, 16.49s/it] 79%|███████▉  | 5232/6640 [2:05:08<6:28:40, 16.56s/it]                                                       {'loss': 0.5174, 'learning_rate': 2.267574937277046e-06, 'epoch': 0.79}
 79%|███████▉  | 5232/6640 [2:05:08<6:28:40, 16.56s/it] 79%|███████▉  | 5233/6640 [2:05:23<6:23:35, 16.36s/it]                                                       {'loss': 0.5029, 'learning_rate': 2.264482508632627e-06, 'epoch': 0.79}
 79%|███████▉  | 5233/6640 [2:05:23<6:23:35, 16.36s/it] 79%|███████▉  | 5234/6640 [2:05:40<6:24:17, 16.40s/it]                                                       {'loss': 0.5181, 'learning_rate': 2.2613919208338573e-06, 'epoch': 0.79}
 79%|███████▉  | 5234/6640 [2:05:40<6:24:17, 16.40s/it] 79%|███████▉  | 5235/6640 [2:05:57<6:25:31, 16.46s/it]                                                       {'loss': 0.5054, 'learning_rate': 2.258303174616204e-06, 'epoch': 0.79}
 79%|███████▉  | 5235/6640 [2:05:57<6:25:31, 16.46s/it] 79%|███████▉  | 5236/6640 [2:06:13<6:24:59, 16.45s/it]                                                       {'loss': 0.5053, 'learning_rate': 2.2552162707147183e-06, 'epoch': 0.79}
 79%|███████▉  | 5236/6640 [2:06:13<6:24:59, 16.45s/it] 79%|███████▉  | 5237/6640 [2:06:29<6:23:22, 16.40s/it]                                                       {'loss': 0.5009, 'learning_rate': 2.2521312098639914e-06, 'epoch': 0.79}
 79%|███████▉  | 5237/6640 [2:06:29<6:23:22, 16.40s/it] 79%|███████▉  | 5238/6640 [2:06:46<6:27:14, 16.57s/it]                                                       {'loss': 0.4926, 'learning_rate': 2.2490479927981867e-06, 'epoch': 0.79}
 79%|███████▉  | 5238/6640 [2:06:46<6:27:14, 16.57s/it] 79%|███████▉  | 5239/6640 [2:07:02<6:23:42, 16.43s/it]                                                       {'loss': 0.5087, 'learning_rate': 2.245966620251031e-06, 'epoch': 0.79}
 79%|███████▉  | 5239/6640 [2:07:02<6:23:42, 16.43s/it] 79%|███████▉  | 5240/6640 [2:07:19<6:23:59, 16.46s/it]                                                       {'loss': 0.5347, 'learning_rate': 2.2428870929558012e-06, 'epoch': 0.79}
 79%|███████▉  | 5240/6640 [2:07:19<6:23:59, 16.46s/it] 79%|███████▉  | 5241/6640 [2:07:36<6:28:00, 16.64s/it]                                                       {'loss': 0.5033, 'learning_rate': 2.2398094116453507e-06, 'epoch': 0.79}
 79%|███████▉  | 5241/6640 [2:07:36<6:28:00, 16.64s/it] 79%|███████▉  | 5242/6640 [2:07:52<6:27:06, 16.61s/it]                                                       {'loss': 0.4997, 'learning_rate': 2.2367335770520792e-06, 'epoch': 0.79}
 79%|███████▉  | 5242/6640 [2:07:52<6:27:06, 16.61s/it] 79%|███████▉  | 5243/6640 [2:08:09<6:25:08, 16.54s/it]                                                       {'loss': 0.5315, 'learning_rate': 2.2336595899079572e-06, 'epoch': 0.79}
 79%|███████▉  | 5243/6640 [2:08:09<6:25:08, 16.54s/it] 79%|███████▉  | 5244/6640 [2:08:25<6:25:14, 16.56s/it]                                                       {'loss': 0.5015, 'learning_rate': 2.2305874509445026e-06, 'epoch': 0.79}
 79%|███████▉  | 5244/6640 [2:08:25<6:25:14, 16.56s/it] 79%|███████▉  | 5245/6640 [2:08:42<6:24:38, 16.54s/it]                                                       {'loss': 0.5004, 'learning_rate': 2.2275171608928124e-06, 'epoch': 0.79}
 79%|███████▉  | 5245/6640 [2:08:42<6:24:38, 16.54s/it] 79%|███████▉  | 5246/6640 [2:08:58<6:22:37, 16.47s/it]                                                       {'loss': 0.5048, 'learning_rate': 2.2244487204835274e-06, 'epoch': 0.79}
 79%|███████▉  | 5246/6640 [2:08:58<6:22:37, 16.47s/it] 79%|███████▉  | 5247/6640 [2:09:15<6:26:04, 16.63s/it]                                                       {'loss': 0.5237, 'learning_rate': 2.2213821304468554e-06, 'epoch': 0.79}
 79%|███████▉  | 5247/6640 [2:09:15<6:26:04, 16.63s/it] 79%|███████▉  | 5248/6640 [2:09:33<6:34:47, 17.02s/it]                                                       {'loss': 0.5055, 'learning_rate': 2.2183173915125656e-06, 'epoch': 0.79}
 79%|███████▉  | 5248/6640 [2:09:33<6:34:47, 17.02s/it] 79%|███████▉  | 5249/6640 [2:09:51<6:39:02, 17.21s/it]                                                       {'loss': 0.5122, 'learning_rate': 2.215254504409975e-06, 'epoch': 0.79}
 79%|███████▉  | 5249/6640 [2:09:51<6:39:02, 17.21s/it]5 AutoResumeHook: Checking whether to suspend...
20 7AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
 79%|███████▉  | 5250/6640 [2:10:07<6:29:31, 16.81s/it]1 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5338, 'learning_rate': 2.2121934698679793e-06, 'epoch': 0.79}
 79%|███████▉  | 5250/6640 [2:10:07<6:29:31, 16.81s/it] 79%|███████▉  | 5251/6640 [2:10:24<6:29:21, 16.82s/it]                                                       {'loss': 0.4991, 'learning_rate': 2.209134288615016e-06, 'epoch': 0.79}
 79%|███████▉  | 5251/6640 [2:10:24<6:29:21, 16.82s/it] 79%|███████▉  | 5252/6640 [2:10:40<6:24:15, 16.61s/it]                                                       {'loss': 0.517, 'learning_rate': 2.206076961379091e-06, 'epoch': 0.79}
 79%|███████▉  | 5252/6640 [2:10:40<6:24:15, 16.61s/it] 79%|███████▉  | 5253/6640 [2:10:56<6:22:01, 16.53s/it]                                                       {'loss': 0.5134, 'learning_rate': 2.20302148888776e-06, 'epoch': 0.79}
 79%|███████▉  | 5253/6640 [2:10:56<6:22:01, 16.53s/it] 79%|███████▉  | 5254/6640 [2:11:12<6:21:29, 16.51s/it]                                                       {'loss': 0.5032, 'learning_rate': 2.199967871868154e-06, 'epoch': 0.79}
 79%|███████▉  | 5254/6640 [2:11:12<6:21:29, 16.51s/it] 79%|███████▉  | 5255/6640 [2:11:29<6:21:33, 16.53s/it]                                                       {'loss': 0.4856, 'learning_rate': 2.196916111046944e-06, 'epoch': 0.79}
 79%|███████▉  | 5255/6640 [2:11:29<6:21:33, 16.53s/it] 79%|███████▉  | 5256/6640 [2:11:45<6:18:06, 16.39s/it]                                                       {'loss': 0.5201, 'learning_rate': 2.1938662071503693e-06, 'epoch': 0.79}
 79%|███████▉  | 5256/6640 [2:11:45<6:18:06, 16.39s/it] 79%|███████▉  | 5257/6640 [2:12:01<6:13:35, 16.21s/it]                                                       {'loss': 0.5035, 'learning_rate': 2.1908181609042277e-06, 'epoch': 0.79}
 79%|███████▉  | 5257/6640 [2:12:01<6:13:35, 16.21s/it] 79%|███████▉  | 5258/6640 [2:12:18<6:20:46, 16.53s/it]                                                       {'loss': 0.5267, 'learning_rate': 2.187771973033865e-06, 'epoch': 0.79}
 79%|███████▉  | 5258/6640 [2:12:18<6:20:46, 16.53s/it] 79%|███████▉  | 5259/6640 [2:12:34<6:17:14, 16.39s/it]                                                       {'loss': 0.5025, 'learning_rate': 2.184727644264204e-06, 'epoch': 0.79}
 79%|███████▉  | 5259/6640 [2:12:34<6:17:14, 16.39s/it] 79%|███████▉  | 5260/6640 [2:12:50<6:15:15, 16.32s/it]                                                       {'loss': 0.482, 'learning_rate': 2.1816851753197023e-06, 'epoch': 0.79}
 79%|███████▉  | 5260/6640 [2:12:50<6:15:15, 16.32s/it] 79%|███████▉  | 5261/6640 [2:13:07<6:14:59, 16.32s/it]                                                       {'loss': 0.4988, 'learning_rate': 2.178644566924394e-06, 'epoch': 0.79}
 79%|███████▉  | 5261/6640 [2:13:07<6:14:59, 16.32s/it] 79%|███████▉  | 5262/6640 [2:13:24<6:21:33, 16.61s/it]                                                       {'loss': 0.526, 'learning_rate': 2.1756058198018526e-06, 'epoch': 0.79}
 79%|███████▉  | 5262/6640 [2:13:24<6:21:33, 16.61s/it] 79%|███████▉  | 5263/6640 [2:13:41<6:22:18, 16.66s/it]                                                       {'loss': 0.4911, 'learning_rate': 2.17256893467523e-06, 'epoch': 0.79}
 79%|███████▉  | 5263/6640 [2:13:41<6:22:18, 16.66s/it] 79%|███████▉  | 5264/6640 [2:13:56<6:15:14, 16.36s/it]                                                       {'loss': 0.5209, 'learning_rate': 2.1695339122672155e-06, 'epoch': 0.79}
 79%|███████▉  | 5264/6640 [2:13:56<6:15:14, 16.36s/it] 79%|███████▉  | 5265/6640 [2:14:13<6:16:02, 16.41s/it]                                                       {'loss': 0.5088, 'learning_rate': 2.166500753300065e-06, 'epoch': 0.79}
 79%|███████▉  | 5265/6640 [2:14:13<6:16:02, 16.41s/it] 79%|███████▉  | 5266/6640 [2:14:29<6:15:10, 16.38s/it]                                                       {'loss': 0.4878, 'learning_rate': 2.163469458495592e-06, 'epoch': 0.79}
 79%|███████▉  | 5266/6640 [2:14:29<6:15:10, 16.38s/it] 79%|███████▉  | 5267/6640 [2:14:45<6:10:51, 16.21s/it]                                                       {'loss': 0.4926, 'learning_rate': 2.160440028575155e-06, 'epoch': 0.79}
 79%|███████▉  | 5267/6640 [2:14:45<6:10:51, 16.21s/it] 79%|███████▉  | 5268/6640 [2:15:02<6:13:15, 16.32s/it]                                                       {'loss': 0.5197, 'learning_rate': 2.1574124642596882e-06, 'epoch': 0.79}
 79%|███████▉  | 5268/6640 [2:15:02<6:13:15, 16.32s/it] 79%|███████▉  | 5269/6640 [2:15:18<6:14:00, 16.37s/it]                                                       {'loss': 0.5081, 'learning_rate': 2.154386766269663e-06, 'epoch': 0.79}
 79%|███████▉  | 5269/6640 [2:15:18<6:14:00, 16.37s/it] 79%|███████▉  | 5270/6640 [2:15:34<6:08:59, 16.16s/it]                                                       {'loss': 0.5047, 'learning_rate': 2.151362935325115e-06, 'epoch': 0.79}
 79%|███████▉  | 5270/6640 [2:15:34<6:08:59, 16.16s/it] 79%|███████▉  | 5271/6640 [2:15:50<6:08:55, 16.17s/it]                                                       {'loss': 0.5057, 'learning_rate': 2.1483409721456374e-06, 'epoch': 0.79}
 79%|███████▉  | 5271/6640 [2:15:50<6:08:55, 16.17s/it] 79%|███████▉  | 5272/6640 [2:16:07<6:13:09, 16.37s/it]                                                       {'loss': 0.5222, 'learning_rate': 2.1453208774503753e-06, 'epoch': 0.79}
 79%|███████▉  | 5272/6640 [2:16:07<6:13:09, 16.37s/it] 79%|███████▉  | 5273/6640 [2:16:22<6:08:02, 16.15s/it]                                                       {'loss': 0.5144, 'learning_rate': 2.1423026519580326e-06, 'epoch': 0.79}
 79%|███████▉  | 5273/6640 [2:16:22<6:08:02, 16.15s/it] 79%|███████▉  | 5274/6640 [2:16:39<6:09:26, 16.23s/it]                                                       {'loss': 0.5218, 'learning_rate': 2.139286296386861e-06, 'epoch': 0.79}
 79%|███████▉  | 5274/6640 [2:16:39<6:09:26, 16.23s/it] 79%|███████▉  | 5275/6640 [2:16:55<6:08:51, 16.21s/it]                                                       {'loss': 0.5213, 'learning_rate': 2.1362718114546777e-06, 'epoch': 0.79}
 79%|███████▉  | 5275/6640 [2:16:55<6:08:51, 16.21s/it] 79%|███████▉  | 5276/6640 [2:17:11<6:08:40, 16.22s/it]                                                       {'loss': 0.517, 'learning_rate': 2.133259197878841e-06, 'epoch': 0.79}
 79%|███████▉  | 5276/6640 [2:17:11<6:08:40, 16.22s/it] 79%|███████▉  | 5277/6640 [2:17:28<6:10:59, 16.33s/it]                                                       {'loss': 0.5109, 'learning_rate': 2.1302484563762825e-06, 'epoch': 0.79}
 79%|███████▉  | 5277/6640 [2:17:28<6:10:59, 16.33s/it] 79%|███████▉  | 5278/6640 [2:17:44<6:10:06, 16.30s/it]                                                       {'loss': 0.5133, 'learning_rate': 2.127239587663471e-06, 'epoch': 0.79}
 79%|███████▉  | 5278/6640 [2:17:44<6:10:06, 16.30s/it] 80%|███████▉  | 5279/6640 [2:18:00<6:04:44, 16.08s/it]                                                       {'loss': 0.5332, 'learning_rate': 2.1242325924564377e-06, 'epoch': 0.8}
 80%|███████▉  | 5279/6640 [2:18:00<6:04:44, 16.08s/it] 80%|███████▉  | 5280/6640 [2:18:16<6:07:43, 16.22s/it]                                                       {'loss': 0.5084, 'learning_rate': 2.121227471470768e-06, 'epoch': 0.8}
 80%|███████▉  | 5280/6640 [2:18:16<6:07:43, 16.22s/it] 80%|███████▉  | 5281/6640 [2:18:33<6:08:06, 16.25s/it]                                                       {'loss': 0.5306, 'learning_rate': 2.118224225421599e-06, 'epoch': 0.8}
 80%|███████▉  | 5281/6640 [2:18:33<6:08:06, 16.25s/it] 80%|███████▉  | 5282/6640 [2:18:49<6:07:16, 16.23s/it]                                                       {'loss': 0.5035, 'learning_rate': 2.1152228550236264e-06, 'epoch': 0.8}
 80%|███████▉  | 5282/6640 [2:18:49<6:07:16, 16.23s/it] 80%|███████▉  | 5283/6640 [2:19:05<6:06:41, 16.21s/it]                                                       {'loss': 0.5181, 'learning_rate': 2.1122233609910903e-06, 'epoch': 0.8}
 80%|███████▉  | 5283/6640 [2:19:05<6:06:41, 16.21s/it] 80%|███████▉  | 5284/6640 [2:19:21<6:07:28, 16.26s/it]                                                       {'loss': 0.5059, 'learning_rate': 2.109225744037795e-06, 'epoch': 0.8}
 80%|███████▉  | 5284/6640 [2:19:21<6:07:28, 16.26s/it] 80%|███████▉  | 5285/6640 [2:19:38<6:09:45, 16.37s/it]                                                       {'loss': 0.5282, 'learning_rate': 2.1062300048770847e-06, 'epoch': 0.8}
 80%|███████▉  | 5285/6640 [2:19:38<6:09:45, 16.37s/it] 80%|███████▉  | 5286/6640 [2:19:55<6:13:38, 16.56s/it]                                                       {'loss': 0.5244, 'learning_rate': 2.103236144221875e-06, 'epoch': 0.8}
 80%|███████▉  | 5286/6640 [2:19:55<6:13:38, 16.56s/it] 80%|███████▉  | 5287/6640 [2:20:11<6:08:56, 16.36s/it]                                                       {'loss': 0.5432, 'learning_rate': 2.100244162784618e-06, 'epoch': 0.8}
 80%|███████▉  | 5287/6640 [2:20:11<6:08:56, 16.36s/it] 80%|███████▉  | 5288/6640 [2:20:27<6:09:32, 16.40s/it]                                                       {'loss': 0.5275, 'learning_rate': 2.097254061277326e-06, 'epoch': 0.8}
 80%|███████▉  | 5288/6640 [2:20:27<6:09:32, 16.40s/it] 80%|███████▉  | 5289/6640 [2:20:44<6:11:18, 16.49s/it]                                                       {'loss': 0.5247, 'learning_rate': 2.0942658404115646e-06, 'epoch': 0.8}
 80%|███████▉  | 5289/6640 [2:20:44<6:11:18, 16.49s/it] 80%|███████▉  | 5290/6640 [2:21:00<6:06:55, 16.31s/it]                                                       {'loss': 0.5135, 'learning_rate': 2.09127950089845e-06, 'epoch': 0.8}
 80%|███████▉  | 5290/6640 [2:21:00<6:06:55, 16.31s/it] 80%|███████▉  | 5291/6640 [2:21:16<6:08:05, 16.37s/it]                                                       {'loss': 0.5137, 'learning_rate': 2.0882950434486516e-06, 'epoch': 0.8}
 80%|███████▉  | 5291/6640 [2:21:16<6:08:05, 16.37s/it] 80%|███████▉  | 5292/6640 [2:21:32<6:01:58, 16.11s/it]                                                       {'loss': 0.5006, 'learning_rate': 2.085312468772387e-06, 'epoch': 0.8}
 80%|███████▉  | 5292/6640 [2:21:32<6:01:58, 16.11s/it] 80%|███████▉  | 5293/6640 [2:21:49<6:10:13, 16.49s/it]                                                       {'loss': 0.5163, 'learning_rate': 2.082331777579434e-06, 'epoch': 0.8}
 80%|███████▉  | 5293/6640 [2:21:49<6:10:13, 16.49s/it] 80%|███████▉  | 5294/6640 [2:22:06<6:08:31, 16.43s/it]                                                       {'loss': 0.5281, 'learning_rate': 2.079352970579107e-06, 'epoch': 0.8}
 80%|███████▉  | 5294/6640 [2:22:06<6:08:31, 16.43s/it] 80%|███████▉  | 5295/6640 [2:22:22<6:07:15, 16.38s/it]                                                       {'loss': 0.5136, 'learning_rate': 2.0763760484802966e-06, 'epoch': 0.8}
 80%|███████▉  | 5295/6640 [2:22:22<6:07:15, 16.38s/it] 80%|███████▉  | 5296/6640 [2:22:38<6:07:54, 16.42s/it]                                                       {'loss': 0.5258, 'learning_rate': 2.0734010119914193e-06, 'epoch': 0.8}
 80%|███████▉  | 5296/6640 [2:22:38<6:07:54, 16.42s/it] 80%|███████▉  | 5297/6640 [2:22:55<6:07:46, 16.43s/it]                                                       {'loss': 0.4932, 'learning_rate': 2.0704278618204576e-06, 'epoch': 0.8}
 80%|███████▉  | 5297/6640 [2:22:55<6:07:46, 16.43s/it] 80%|███████▉  | 5298/6640 [2:23:12<6:09:21, 16.51s/it]                                                       {'loss': 0.5126, 'learning_rate': 2.067456598674941e-06, 'epoch': 0.8}
 80%|███████▉  | 5298/6640 [2:23:12<6:09:21, 16.51s/it] 80%|███████▉  | 5299/6640 [2:23:28<6:05:37, 16.36s/it]                                                       {'loss': 0.5097, 'learning_rate': 2.0644872232619515e-06, 'epoch': 0.8}
 80%|███████▉  | 5299/6640 [2:23:28<6:05:37, 16.36s/it]04 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
5 3 80%|███████▉  | 5300/6640 [2:23:44<6:07:32, 16.46s/it]AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5232, 'learning_rate': 2.0615197362881234e-06, 'epoch': 0.8}
 80%|███████▉  | 5300/6640 [2:23:44<6:07:32, 16.46s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5300/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5300/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5300/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 80%|███████▉  | 5301/6640 [2:25:30<16:02:21, 43.12s/it]                                                        {'loss': 0.4937, 'learning_rate': 2.0585541384596318e-06, 'epoch': 0.8}
 80%|███████▉  | 5301/6640 [2:25:30<16:02:21, 43.12s/it] 80%|███████▉  | 5302/6640 [2:25:45<12:57:29, 34.87s/it]                                                        {'loss': 0.5417, 'learning_rate': 2.055590430482217e-06, 'epoch': 0.8}
 80%|███████▉  | 5302/6640 [2:25:45<12:57:29, 34.87s/it] 80%|███████▉  | 5303/6640 [2:26:03<11:04:06, 29.80s/it]                                                        {'loss': 0.4905, 'learning_rate': 2.052628613061154e-06, 'epoch': 0.8}
 80%|███████▉  | 5303/6640 [2:26:03<11:04:06, 29.80s/it] 80%|███████▉  | 5304/6640 [2:26:20<9:35:39, 25.85s/it]                                                        {'loss': 0.5012, 'learning_rate': 2.049668686901285e-06, 'epoch': 0.8}
 80%|███████▉  | 5304/6640 [2:26:20<9:35:39, 25.85s/it] 80%|███████▉  | 5305/6640 [2:26:37<8:35:08, 23.15s/it]                                                       {'loss': 0.5178, 'learning_rate': 2.046710652706985e-06, 'epoch': 0.8}
 80%|███████▉  | 5305/6640 [2:26:37<8:35:08, 23.15s/it] 80%|███████▉  | 5306/6640 [2:26:54<7:53:09, 21.28s/it]                                                       {'loss': 0.5239, 'learning_rate': 2.043754511182191e-06, 'epoch': 0.8}
 80%|███████▉  | 5306/6640 [2:26:54<7:53:09, 21.28s/it] 80%|███████▉  | 5307/6640 [2:27:12<7:33:22, 20.41s/it]                                                       {'loss': 0.5135, 'learning_rate': 2.0408002630303837e-06, 'epoch': 0.8}
 80%|███████▉  | 5307/6640 [2:27:12<7:33:22, 20.41s/it] 80%|███████▉  | 5308/6640 [2:27:28<7:06:21, 19.21s/it]                                                       {'loss': 0.5099, 'learning_rate': 2.0378479089545967e-06, 'epoch': 0.8}
 80%|███████▉  | 5308/6640 [2:27:28<7:06:21, 19.21s/it] 80%|███████▉  | 5309/6640 [2:27:45<6:48:20, 18.41s/it]                                                       {'loss': 0.5233, 'learning_rate': 2.0348974496574112e-06, 'epoch': 0.8}
 80%|███████▉  | 5309/6640 [2:27:45<6:48:20, 18.41s/it] 80%|███████▉  | 5310/6640 [2:28:01<6:33:37, 17.76s/it]                                                       {'loss': 0.514, 'learning_rate': 2.0319488858409552e-06, 'epoch': 0.8}
 80%|███████▉  | 5310/6640 [2:28:01<6:33:37, 17.76s/it] 80%|███████▉  | 5311/6640 [2:28:17<6:24:17, 17.35s/it]                                                       {'loss': 0.5297, 'learning_rate': 2.029002218206908e-06, 'epoch': 0.8}
 80%|███████▉  | 5311/6640 [2:28:18<6:24:17, 17.35s/it] 80%|████████  | 5312/6640 [2:28:33<6:12:06, 16.81s/it]                                                       {'loss': 0.5021, 'learning_rate': 2.0260574474564985e-06, 'epoch': 0.8}
 80%|████████  | 5312/6640 [2:28:33<6:12:06, 16.81s/it] 80%|████████  | 5313/6640 [2:28:49<6:06:16, 16.56s/it]                                                       {'loss': 0.5252, 'learning_rate': 2.0231145742905034e-06, 'epoch': 0.8}
 80%|████████  | 5313/6640 [2:28:49<6:06:16, 16.56s/it] 80%|████████  | 5314/6640 [2:29:05<5:59:30, 16.27s/it]                                                       {'loss': 0.5064, 'learning_rate': 2.0201735994092497e-06, 'epoch': 0.8}
 80%|████████  | 5314/6640 [2:29:05<5:59:30, 16.27s/it] 80%|████████  | 5315/6640 [2:29:21<6:02:26, 16.41s/it]                                                       {'loss': 0.5075, 'learning_rate': 2.0172345235126043e-06, 'epoch': 0.8}
 80%|████████  | 5315/6640 [2:29:21<6:02:26, 16.41s/it] 80%|████████  | 5316/6640 [2:29:37<5:57:37, 16.21s/it]                                                       {'loss': 0.5116, 'learning_rate': 2.0142973472999925e-06, 'epoch': 0.8}
 80%|████████  | 5316/6640 [2:29:37<5:57:37, 16.21s/it] 80%|████████  | 5317/6640 [2:29:54<6:01:51, 16.41s/it]                                                       {'loss': 0.5206, 'learning_rate': 2.011362071470384e-06, 'epoch': 0.8}
 80%|████████  | 5317/6640 [2:29:54<6:01:51, 16.41s/it] 80%|████████  | 5318/6640 [2:30:10<6:00:09, 16.35s/it]                                                       {'loss': 0.5105, 'learning_rate': 2.0084286967222964e-06, 'epoch': 0.8}
 80%|████████  | 5318/6640 [2:30:10<6:00:09, 16.35s/it] 80%|████████  | 5319/6640 [2:30:27<6:02:29, 16.46s/it]                                                       {'loss': 0.509, 'learning_rate': 2.0054972237537893e-06, 'epoch': 0.8}
 80%|████████  | 5319/6640 [2:30:27<6:02:29, 16.46s/it] 80%|████████  | 5320/6640 [2:30:44<6:04:27, 16.57s/it]                                                       {'loss': 0.4986, 'learning_rate': 2.0025676532624794e-06, 'epoch': 0.8}
 80%|████████  | 5320/6640 [2:30:44<6:04:27, 16.57s/it] 80%|████████  | 5321/6640 [2:31:00<6:03:41, 16.54s/it]                                                       {'loss': 0.5081, 'learning_rate': 1.999639985945523e-06, 'epoch': 0.8}
 80%|████████  | 5321/6640 [2:31:00<6:03:41, 16.54s/it] 80%|████████  | 5322/6640 [2:31:17<6:08:03, 16.76s/it]                                                       {'loss': 0.5076, 'learning_rate': 1.9967142224996283e-06, 'epoch': 0.8}
 80%|████████  | 5322/6640 [2:31:17<6:08:03, 16.76s/it] 80%|████████  | 5323/6640 [2:31:34<6:05:55, 16.67s/it]                                                       {'loss': 0.4952, 'learning_rate': 1.99379036362105e-06, 'epoch': 0.8}
 80%|████████  | 5323/6640 [2:31:34<6:05:55, 16.67s/it] 80%|████████  | 5324/6640 [2:31:51<6:07:05, 16.74s/it]                                                       {'loss': 0.5302, 'learning_rate': 1.9908684100055843e-06, 'epoch': 0.8}
 80%|████████  | 5324/6640 [2:31:51<6:07:05, 16.74s/it] 80%|████████  | 5325/6640 [2:32:07<6:03:05, 16.57s/it]                                                       {'loss': 0.4997, 'learning_rate': 1.9879483623485786e-06, 'epoch': 0.8}
 80%|████████  | 5325/6640 [2:32:07<6:03:05, 16.57s/it] 80%|████████  | 5326/6640 [2:32:23<6:02:13, 16.54s/it]                                                       {'loss': 0.5345, 'learning_rate': 1.985030221344927e-06, 'epoch': 0.8}
 80%|████████  | 5326/6640 [2:32:23<6:02:13, 16.54s/it] 80%|████████  | 5327/6640 [2:32:40<6:03:29, 16.61s/it]                                                       {'loss': 0.5308, 'learning_rate': 1.9821139876890707e-06, 'epoch': 0.8}
 80%|████████  | 5327/6640 [2:32:40<6:03:29, 16.61s/it] 80%|████████  | 5328/6640 [2:32:57<6:03:09, 16.61s/it]                                                       {'loss': 0.5191, 'learning_rate': 1.979199662074991e-06, 'epoch': 0.8}
 80%|████████  | 5328/6640 [2:32:57<6:03:09, 16.61s/it] 80%|████████  | 5329/6640 [2:33:14<6:05:23, 16.72s/it]                                                       {'loss': 0.5279, 'learning_rate': 1.9762872451962214e-06, 'epoch': 0.8}
 80%|████████  | 5329/6640 [2:33:14<6:05:23, 16.72s/it] 80%|████████  | 5330/6640 [2:33:30<6:01:40, 16.57s/it]                                                       {'loss': 0.5176, 'learning_rate': 1.9733767377458377e-06, 'epoch': 0.8}
 80%|████████  | 5330/6640 [2:33:30<6:01:40, 16.57s/it] 80%|████████  | 5331/6640 [2:33:46<5:58:49, 16.45s/it]                                                       {'loss': 0.5257, 'learning_rate': 1.9704681404164637e-06, 'epoch': 0.8}
 80%|████████  | 5331/6640 [2:33:46<5:58:49, 16.45s/it] 80%|████████  | 5332/6640 [2:34:02<5:56:56, 16.37s/it]                                                       {'loss': 0.5154, 'learning_rate': 1.967561453900271e-06, 'epoch': 0.8}
 80%|████████  | 5332/6640 [2:34:02<5:56:56, 16.37s/it] 80%|████████  | 5333/6640 [2:34:18<5:54:47, 16.29s/it]                                                       {'loss': 0.517, 'learning_rate': 1.9646566788889664e-06, 'epoch': 0.8}
 80%|████████  | 5333/6640 [2:34:18<5:54:47, 16.29s/it] 80%|████████  | 5334/6640 [2:34:35<5:57:02, 16.40s/it]                                                       {'loss': 0.517, 'learning_rate': 1.9617538160738115e-06, 'epoch': 0.8}
 80%|████████  | 5334/6640 [2:34:35<5:57:02, 16.40s/it] 80%|████████  | 5335/6640 [2:34:52<5:59:15, 16.52s/it]                                                       {'loss': 0.5029, 'learning_rate': 1.9588528661456087e-06, 'epoch': 0.8}
 80%|████████  | 5335/6640 [2:34:52<5:59:15, 16.52s/it]WARNING: tokenization mismatch: 1 vs. 70. [[{'from': 'human', 'value': '<image>\nWould this person be more likely to be a type a or b person?\nAnswer the question using a single word or phrase.'}, {'from': 'gpt', 'value': ''}]] (ignored)
 80%|████████  | 5336/6640 [2:35:08<5:57:45, 16.46s/it]                                                       {'loss': 0.5179, 'learning_rate': 1.955953829794711e-06, 'epoch': 0.8}
 80%|████████  | 5336/6640 [2:35:08<5:57:45, 16.46s/it] 80%|████████  | 5337/6640 [2:35:25<6:01:24, 16.64s/it]                                                       {'loss': 0.4977, 'learning_rate': 1.953056707711005e-06, 'epoch': 0.8}
 80%|████████  | 5337/6640 [2:35:25<6:01:24, 16.64s/it] 80%|████████  | 5338/6640 [2:35:42<6:03:06, 16.73s/it]                                                       {'loss': 0.4984, 'learning_rate': 1.95016150058393e-06, 'epoch': 0.8}
 80%|████████  | 5338/6640 [2:35:42<6:03:06, 16.73s/it] 80%|████████  | 5339/6640 [2:35:58<5:58:45, 16.55s/it]                                                       {'loss': 0.5054, 'learning_rate': 1.9472682091024696e-06, 'epoch': 0.8}
 80%|████████  | 5339/6640 [2:35:58<5:58:45, 16.55s/it] 80%|████████  | 5340/6640 [2:36:15<5:59:32, 16.59s/it]                                                       {'loss': 0.5115, 'learning_rate': 1.944376833955147e-06, 'epoch': 0.8}
 80%|████████  | 5340/6640 [2:36:15<5:59:32, 16.59s/it] 80%|████████  | 5341/6640 [2:36:31<5:57:17, 16.50s/it]                                                       {'loss': 0.4995, 'learning_rate': 1.941487375830037e-06, 'epoch': 0.8}
 80%|████████  | 5341/6640 [2:36:31<5:57:17, 16.50s/it] 80%|████████  | 5342/6640 [2:36:48<5:57:48, 16.54s/it]                                                       {'loss': 0.512, 'learning_rate': 1.938599835414745e-06, 'epoch': 0.8}
 80%|████████  | 5342/6640 [2:36:48<5:57:48, 16.54s/it] 80%|████████  | 5343/6640 [2:37:04<5:57:03, 16.52s/it]                                                       {'loss': 0.5187, 'learning_rate': 1.9357142133964336e-06, 'epoch': 0.8}
 80%|████████  | 5343/6640 [2:37:04<5:57:03, 16.52s/it] 80%|████████  | 5344/6640 [2:37:22<6:05:06, 16.90s/it]                                                       {'loss': 0.4909, 'learning_rate': 1.932830510461802e-06, 'epoch': 0.8}
 80%|████████  | 5344/6640 [2:37:22<6:05:06, 16.90s/it] 80%|████████  | 5345/6640 [2:37:38<5:58:51, 16.63s/it]                                                       {'loss': 0.514, 'learning_rate': 1.929948727297096e-06, 'epoch': 0.8}
 80%|████████  | 5345/6640 [2:37:38<5:58:51, 16.63s/it] 81%|████████  | 5346/6640 [2:37:55<5:58:02, 16.60s/it]                                                       {'loss': 0.5018, 'learning_rate': 1.9270688645881e-06, 'epoch': 0.81}
 81%|████████  | 5346/6640 [2:37:55<5:58:02, 16.60s/it] 81%|████████  | 5347/6640 [2:38:11<5:56:32, 16.54s/it]                                                       {'loss': 0.5213, 'learning_rate': 1.924190923020144e-06, 'epoch': 0.81}
 81%|████████  | 5347/6640 [2:38:11<5:56:32, 16.54s/it] 81%|████████  | 5348/6640 [2:38:28<5:57:37, 16.61s/it]                                                       {'loss': 0.5285, 'learning_rate': 1.921314903278102e-06, 'epoch': 0.81}
 81%|████████  | 5348/6640 [2:38:28<5:57:37, 16.61s/it] 81%|████████  | 5349/6640 [2:38:44<5:52:42, 16.39s/it]                                                       {'loss': 0.5083, 'learning_rate': 1.918440806046391e-06, 'epoch': 0.81}
 81%|████████  | 5349/6640 [2:38:44<5:52:42, 16.39s/it]4 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
06 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
 81%|████████  | 5350/6640 [2:39:00<5:53:00, 16.42s/it]2 AutoResumeHook: Checking whether to suspend...1
 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.4943, 'learning_rate': 1.9155686320089684e-06, 'epoch': 0.81}
 81%|████████  | 5350/6640 [2:39:00<5:53:00, 16.42s/it] 81%|████████  | 5351/6640 [2:39:16<5:50:03, 16.29s/it]                                                       {'loss': 0.5015, 'learning_rate': 1.912698381849333e-06, 'epoch': 0.81}
 81%|████████  | 5351/6640 [2:39:16<5:50:03, 16.29s/it] 81%|████████  | 5352/6640 [2:39:32<5:47:14, 16.18s/it]                                                       {'loss': 0.5126, 'learning_rate': 1.9098300562505266e-06, 'epoch': 0.81}
 81%|████████  | 5352/6640 [2:39:32<5:47:14, 16.18s/it] 81%|████████  | 5353/6640 [2:39:48<5:46:04, 16.13s/it]                                                       {'loss': 0.5051, 'learning_rate': 1.9069636558951354e-06, 'epoch': 0.81}
 81%|████████  | 5353/6640 [2:39:48<5:46:04, 16.13s/it] 81%|████████  | 5354/6640 [2:40:04<5:44:41, 16.08s/it]                                                       {'loss': 0.5198, 'learning_rate': 1.9040991814652864e-06, 'epoch': 0.81}
 81%|████████  | 5354/6640 [2:40:04<5:44:41, 16.08s/it] 81%|████████  | 5355/6640 [2:40:21<5:47:58, 16.25s/it]                                                       {'loss': 0.5235, 'learning_rate': 1.901236633642649e-06, 'epoch': 0.81}
 81%|████████  | 5355/6640 [2:40:21<5:47:58, 16.25s/it] 81%|████████  | 5356/6640 [2:40:37<5:47:00, 16.22s/it]                                                       {'loss': 0.4959, 'learning_rate': 1.8983760131084283e-06, 'epoch': 0.81}
 81%|████████  | 5356/6640 [2:40:37<5:47:00, 16.22s/it] 81%|████████  | 5357/6640 [2:40:54<5:51:09, 16.42s/it]                                                       {'loss': 0.4919, 'learning_rate': 1.8955173205433774e-06, 'epoch': 0.81}
 81%|████████  | 5357/6640 [2:40:54<5:51:09, 16.42s/it] 81%|████████  | 5358/6640 [2:41:10<5:50:43, 16.41s/it]                                                       {'loss': 0.504, 'learning_rate': 1.892660556627789e-06, 'epoch': 0.81}
 81%|████████  | 5358/6640 [2:41:10<5:50:43, 16.41s/it] 81%|████████  | 5359/6640 [2:41:26<5:47:41, 16.28s/it]                                                       {'loss': 0.5288, 'learning_rate': 1.889805722041499e-06, 'epoch': 0.81}
 81%|████████  | 5359/6640 [2:41:26<5:47:41, 16.28s/it] 81%|████████  | 5360/6640 [2:41:43<5:48:39, 16.34s/it]                                                       {'loss': 0.5107, 'learning_rate': 1.8869528174638752e-06, 'epoch': 0.81}
 81%|████████  | 5360/6640 [2:41:43<5:48:39, 16.34s/it] 81%|████████  | 5361/6640 [2:41:59<5:49:31, 16.40s/it]                                                       {'loss': 0.5216, 'learning_rate': 1.8841018435738357e-06, 'epoch': 0.81}
 81%|████████  | 5361/6640 [2:41:59<5:49:31, 16.40s/it] 81%|████████  | 5362/6640 [2:42:15<5:47:14, 16.30s/it]                                                       {'loss': 0.5253, 'learning_rate': 1.8812528010498355e-06, 'epoch': 0.81}
 81%|████████  | 5362/6640 [2:42:15<5:47:14, 16.30s/it] 81%|████████  | 5363/6640 [2:42:33<5:53:06, 16.59s/it]                                                       {'loss': 0.5142, 'learning_rate': 1.878405690569871e-06, 'epoch': 0.81}
 81%|████████  | 5363/6640 [2:42:33<5:53:06, 16.59s/it] 81%|████████  | 5364/6640 [2:42:49<5:48:08, 16.37s/it]                                                       {'loss': 0.4968, 'learning_rate': 1.8755605128114796e-06, 'epoch': 0.81}
 81%|████████  | 5364/6640 [2:42:49<5:48:08, 16.37s/it] 81%|████████  | 5365/6640 [2:43:04<5:43:56, 16.19s/it]                                                       {'loss': 0.5, 'learning_rate': 1.8727172684517325e-06, 'epoch': 0.81}
 81%|████████  | 5365/6640 [2:43:04<5:43:56, 16.19s/it] 81%|████████  | 5366/6640 [2:43:21<5:48:26, 16.41s/it]                                                       {'loss': 0.5044, 'learning_rate': 1.8698759581672487e-06, 'epoch': 0.81}
 81%|████████  | 5366/6640 [2:43:21<5:48:26, 16.41s/it] 81%|████████  | 5367/6640 [2:43:37<5:44:00, 16.21s/it]                                                       {'loss': 0.4973, 'learning_rate': 1.8670365826341842e-06, 'epoch': 0.81}
 81%|████████  | 5367/6640 [2:43:37<5:44:00, 16.21s/it] 81%|████████  | 5368/6640 [2:43:53<5:43:11, 16.19s/it]                                                       {'loss': 0.5292, 'learning_rate': 1.8641991425282347e-06, 'epoch': 0.81}
 81%|████████  | 5368/6640 [2:43:53<5:43:11, 16.19s/it] 81%|████████  | 5369/6640 [2:44:11<5:54:27, 16.73s/it]                                                       {'loss': 0.4997, 'learning_rate': 1.8613636385246326e-06, 'epoch': 0.81}
 81%|████████  | 5369/6640 [2:44:11<5:54:27, 16.73s/it] 81%|████████  | 5370/6640 [2:44:27<5:50:36, 16.56s/it]                                                       {'loss': 0.534, 'learning_rate': 1.8585300712981514e-06, 'epoch': 0.81}
 81%|████████  | 5370/6640 [2:44:27<5:50:36, 16.56s/it] 81%|████████  | 5371/6640 [2:44:44<5:50:37, 16.58s/it]                                                       {'loss': 0.5092, 'learning_rate': 1.855698441523106e-06, 'epoch': 0.81}
 81%|████████  | 5371/6640 [2:44:44<5:50:37, 16.58s/it] 81%|████████  | 5372/6640 [2:45:00<5:48:22, 16.48s/it]                                                       {'loss': 0.5177, 'learning_rate': 1.8528687498733478e-06, 'epoch': 0.81}
 81%|████████  | 5372/6640 [2:45:00<5:48:22, 16.48s/it] 81%|████████  | 5373/6640 [2:45:17<5:51:46, 16.66s/it]                                                       {'loss': 0.5304, 'learning_rate': 1.85004099702227e-06, 'epoch': 0.81}
 81%|████████  | 5373/6640 [2:45:17<5:51:46, 16.66s/it] 81%|████████  | 5374/6640 [2:45:34<5:54:32, 16.80s/it]                                                       {'loss': 0.5202, 'learning_rate': 1.8472151836427976e-06, 'epoch': 0.81}
 81%|████████  | 5374/6640 [2:45:34<5:54:32, 16.80s/it] 81%|████████  | 5375/6640 [2:45:51<5:51:26, 16.67s/it]                                                       {'loss': 0.5258, 'learning_rate': 1.8443913104073984e-06, 'epoch': 0.81}
 81%|████████  | 5375/6640 [2:45:51<5:51:26, 16.67s/it] 81%|████████  | 5376/6640 [2:46:07<5:46:44, 16.46s/it]                                                       {'loss': 0.5188, 'learning_rate': 1.8415693779880816e-06, 'epoch': 0.81}
 81%|████████  | 5376/6640 [2:46:07<5:46:44, 16.46s/it] 81%|████████  | 5377/6640 [2:46:23<5:47:02, 16.49s/it]                                                       {'loss': 0.5087, 'learning_rate': 1.8387493870563933e-06, 'epoch': 0.81}
 81%|████████  | 5377/6640 [2:46:23<5:47:02, 16.49s/it] 81%|████████  | 5378/6640 [2:46:40<5:47:47, 16.54s/it]                                                       {'loss': 0.533, 'learning_rate': 1.8359313382834088e-06, 'epoch': 0.81}
 81%|████████  | 5378/6640 [2:46:40<5:47:47, 16.54s/it] 81%|████████  | 5379/6640 [2:46:58<5:55:20, 16.91s/it]                                                       {'loss': 0.5258, 'learning_rate': 1.8331152323397515e-06, 'epoch': 0.81}
 81%|████████  | 5379/6640 [2:46:58<5:55:20, 16.91s/it] 81%|████████  | 5380/6640 [2:47:15<5:56:46, 16.99s/it]                                                       {'loss': 0.4973, 'learning_rate': 1.8303010698955803e-06, 'epoch': 0.81}
 81%|████████  | 5380/6640 [2:47:15<5:56:46, 16.99s/it] 81%|████████  | 5381/6640 [2:47:32<5:55:02, 16.92s/it]                                                       {'loss': 0.495, 'learning_rate': 1.827488851620589e-06, 'epoch': 0.81}
 81%|████████  | 5381/6640 [2:47:32<5:55:02, 16.92s/it] 81%|████████  | 5382/6640 [2:47:47<5:45:58, 16.50s/it]                                                       {'loss': 0.5107, 'learning_rate': 1.8246785781840138e-06, 'epoch': 0.81}
 81%|████████  | 5382/6640 [2:47:47<5:45:58, 16.50s/it] 81%|████████  | 5383/6640 [2:48:03<5:42:19, 16.34s/it]                                                       {'loss': 0.5148, 'learning_rate': 1.821870250254617e-06, 'epoch': 0.81}
 81%|████████  | 5383/6640 [2:48:03<5:42:19, 16.34s/it] 81%|████████  | 5384/6640 [2:48:18<5:35:42, 16.04s/it]                                                       {'loss': 0.4884, 'learning_rate': 1.8190638685007111e-06, 'epoch': 0.81}
 81%|████████  | 5384/6640 [2:48:18<5:35:42, 16.04s/it] 81%|████████  | 5385/6640 [2:48:35<5:37:56, 16.16s/it]                                                       {'loss': 0.506, 'learning_rate': 1.8162594335901363e-06, 'epoch': 0.81}
 81%|████████  | 5385/6640 [2:48:35<5:37:56, 16.16s/it] 81%|████████  | 5386/6640 [2:48:51<5:36:42, 16.11s/it]                                                       {'loss': 0.4977, 'learning_rate': 1.8134569461902785e-06, 'epoch': 0.81}
 81%|████████  | 5386/6640 [2:48:51<5:36:42, 16.11s/it] 81%|████████  | 5387/6640 [2:49:07<5:35:34, 16.07s/it]                                                       {'loss': 0.5402, 'learning_rate': 1.8106564069680476e-06, 'epoch': 0.81}
 81%|████████  | 5387/6640 [2:49:07<5:35:34, 16.07s/it] 81%|████████  | 5388/6640 [2:49:23<5:36:23, 16.12s/it]                                                       {'loss': 0.5355, 'learning_rate': 1.8078578165898997e-06, 'epoch': 0.81}
 81%|████████  | 5388/6640 [2:49:23<5:36:23, 16.12s/it] 81%|████████  | 5389/6640 [2:49:40<5:40:44, 16.34s/it]                                                       {'loss': 0.5233, 'learning_rate': 1.8050611757218251e-06, 'epoch': 0.81}
 81%|████████  | 5389/6640 [2:49:40<5:40:44, 16.34s/it] 81%|████████  | 5390/6640 [2:49:58<5:49:07, 16.76s/it]                                                       {'loss': 0.5141, 'learning_rate': 1.802266485029347e-06, 'epoch': 0.81}
 81%|████████  | 5390/6640 [2:49:58<5:49:07, 16.76s/it] 81%|████████  | 5391/6640 [2:50:14<5:48:08, 16.72s/it]                                                       {'loss': 0.5075, 'learning_rate': 1.7994737451775324e-06, 'epoch': 0.81}
 81%|████████  | 5391/6640 [2:50:14<5:48:08, 16.72s/it] 81%|████████  | 5392/6640 [2:50:30<5:41:40, 16.43s/it]                                                       {'loss': 0.5107, 'learning_rate': 1.7966829568309708e-06, 'epoch': 0.81}
 81%|████████  | 5392/6640 [2:50:30<5:41:40, 16.43s/it] 81%|████████  | 5393/6640 [2:50:47<5:42:06, 16.46s/it]                                                       {'loss': 0.501, 'learning_rate': 1.7938941206537997e-06, 'epoch': 0.81}
 81%|████████  | 5393/6640 [2:50:47<5:42:06, 16.46s/it] 81%|████████  | 5394/6640 [2:51:03<5:40:16, 16.39s/it]                                                       {'loss': 0.5285, 'learning_rate': 1.791107237309685e-06, 'epoch': 0.81}
 81%|████████  | 5394/6640 [2:51:03<5:40:16, 16.39s/it] 81%|████████▏ | 5395/6640 [2:51:19<5:39:20, 16.35s/it]                                                       {'loss': 0.5124, 'learning_rate': 1.7883223074618316e-06, 'epoch': 0.81}
 81%|████████▏ | 5395/6640 [2:51:19<5:39:20, 16.35s/it] 81%|████████▏ | 5396/6640 [2:51:35<5:39:21, 16.37s/it]                                                       {'loss': 0.5189, 'learning_rate': 1.7855393317729808e-06, 'epoch': 0.81}
 81%|████████▏ | 5396/6640 [2:51:35<5:39:21, 16.37s/it] 81%|████████▏ | 5397/6640 [2:51:52<5:37:40, 16.30s/it]                                                       {'loss': 0.5087, 'learning_rate': 1.782758310905398e-06, 'epoch': 0.81}
 81%|████████▏ | 5397/6640 [2:51:52<5:37:40, 16.30s/it] 81%|████████▏ | 5398/6640 [2:52:08<5:36:10, 16.24s/it]                                                       {'loss': 0.5053, 'learning_rate': 1.7799792455209019e-06, 'epoch': 0.81}
 81%|████████▏ | 5398/6640 [2:52:08<5:36:10, 16.24s/it] 81%|████████▏ | 5399/6640 [2:52:24<5:34:14, 16.16s/it]                                                       {'loss': 0.5203, 'learning_rate': 1.7772021362808279e-06, 'epoch': 0.81}
 81%|████████▏ | 5399/6640 [2:52:24<5:34:14, 16.16s/it]4 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
01 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
 81%|████████▏ | 5400/6640 [2:52:41<5:42:55, 16.59s/it]                                                       {'loss': 0.525, 'learning_rate': 1.774426983846058e-06, 'epoch': 0.81}
 81%|████████▏ | 5400/6640 [2:52:41<5:42:55, 16.59s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5400/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5400/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5400/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 81%|████████▏ | 5401/6640 [2:54:23<14:32:11, 42.24s/it]                                                        {'loss': 0.5107, 'learning_rate': 1.771653788876999e-06, 'epoch': 0.81}
 81%|████████▏ | 5401/6640 [2:54:23<14:32:11, 42.24s/it] 81%|████████▏ | 5402/6640 [2:54:41<11:59:06, 34.85s/it]                                                        {'loss': 0.5222, 'learning_rate': 1.7688825520336017e-06, 'epoch': 0.81}
 81%|████████▏ | 5402/6640 [2:54:41<11:59:06, 34.85s/it] 81%|████████▏ | 5403/6640 [2:54:57<10:02:16, 29.21s/it]                                                        {'loss': 0.5194, 'learning_rate': 1.7661132739753429e-06, 'epoch': 0.81}
 81%|████████▏ | 5403/6640 [2:54:57<10:02:16, 29.21s/it] 81%|████████▏ | 5404/6640 [2:55:13<8:39:38, 25.23s/it]                                                        {'loss': 0.5301, 'learning_rate': 1.7633459553612387e-06, 'epoch': 0.81}
 81%|████████▏ | 5404/6640 [2:55:13<8:39:38, 25.23s/it] 81%|████████▏ | 5405/6640 [2:55:29<7:44:48, 22.58s/it]                                                       {'loss': 0.5067, 'learning_rate': 1.760580596849838e-06, 'epoch': 0.81}
 81%|████████▏ | 5405/6640 [2:55:29<7:44:48, 22.58s/it] 81%|████████▏ | 5406/6640 [2:55:45<7:02:42, 20.55s/it]                                                       {'loss': 0.5234, 'learning_rate': 1.7578171990992144e-06, 'epoch': 0.81}
 81%|████████▏ | 5406/6640 [2:55:45<7:02:42, 20.55s/it] 81%|████████▏ | 5407/6640 [2:56:02<6:36:34, 19.30s/it]                                                       {'loss': 0.5168, 'learning_rate': 1.7550557627669928e-06, 'epoch': 0.81}
 81%|████████▏ | 5407/6640 [2:56:02<6:36:34, 19.30s/it] 81%|████████▏ | 5408/6640 [2:56:18<6:19:15, 18.47s/it]                                                       {'loss': 0.5125, 'learning_rate': 1.7522962885103145e-06, 'epoch': 0.81}
 81%|████████▏ | 5408/6640 [2:56:18<6:19:15, 18.47s/it] 81%|████████▏ | 5409/6640 [2:56:34<6:04:32, 17.77s/it]                                                       {'loss': 0.512, 'learning_rate': 1.749538776985864e-06, 'epoch': 0.81}
 81%|████████▏ | 5409/6640 [2:56:34<6:04:32, 17.77s/it] 81%|████████▏ | 5410/6640 [2:56:51<6:01:02, 17.61s/it]                                                       {'loss': 0.5318, 'learning_rate': 1.746783228849851e-06, 'epoch': 0.81}
 81%|████████▏ | 5410/6640 [2:56:51<6:01:02, 17.61s/it] 81%|████████▏ | 5411/6640 [2:57:08<5:54:45, 17.32s/it]                                                       {'loss': 0.5115, 'learning_rate': 1.744029644758023e-06, 'epoch': 0.81}
 81%|████████▏ | 5411/6640 [2:57:08<5:54:45, 17.32s/it] 82%|████████▏ | 5412/6640 [2:57:25<5:49:29, 17.08s/it]                                                       {'loss': 0.5089, 'learning_rate': 1.7412780253656603e-06, 'epoch': 0.82}
 82%|████████▏ | 5412/6640 [2:57:25<5:49:29, 17.08s/it] 82%|████████▏ | 5413/6640 [2:57:40<5:40:48, 16.67s/it]                                                       {'loss': 0.5, 'learning_rate': 1.7385283713275746e-06, 'epoch': 0.82}
 82%|████████▏ | 5413/6640 [2:57:40<5:40:48, 16.67s/it] 82%|████████▏ | 5414/6640 [2:57:56<5:35:29, 16.42s/it]                                                       {'loss': 0.5235, 'learning_rate': 1.7357806832981127e-06, 'epoch': 0.82}
 82%|████████▏ | 5414/6640 [2:57:56<5:35:29, 16.42s/it] 82%|████████▏ | 5415/6640 [2:58:13<5:35:15, 16.42s/it]                                                       {'loss': 0.5179, 'learning_rate': 1.7330349619311415e-06, 'epoch': 0.82}
 82%|████████▏ | 5415/6640 [2:58:13<5:35:15, 16.42s/it] 82%|████████▏ | 5416/6640 [2:58:29<5:33:30, 16.35s/it]                                                       {'loss': 0.5072, 'learning_rate': 1.7302912078800805e-06, 'epoch': 0.82}
 82%|████████▏ | 5416/6640 [2:58:29<5:33:30, 16.35s/it] 82%|████████▏ | 5417/6640 [2:58:45<5:31:32, 16.27s/it]                                                       {'loss': 0.4983, 'learning_rate': 1.7275494217978616e-06, 'epoch': 0.82}
 82%|████████▏ | 5417/6640 [2:58:45<5:31:32, 16.27s/it] 82%|████████▏ | 5418/6640 [2:59:01<5:29:33, 16.18s/it]                                                       {'loss': 0.501, 'learning_rate': 1.724809604336961e-06, 'epoch': 0.82}
 82%|████████▏ | 5418/6640 [2:59:01<5:29:33, 16.18s/it] 82%|████████▏ | 5419/6640 [2:59:17<5:27:49, 16.11s/it]                                                       {'loss': 0.4958, 'learning_rate': 1.7220717561493773e-06, 'epoch': 0.82}
 82%|████████▏ | 5419/6640 [2:59:17<5:27:49, 16.11s/it] 82%|████████▏ | 5420/6640 [2:59:35<5:38:35, 16.65s/it]                                                       {'loss': 0.5059, 'learning_rate': 1.7193358778866464e-06, 'epoch': 0.82}
 82%|████████▏ | 5420/6640 [2:59:35<5:38:35, 16.65s/it] 82%|████████▏ | 5421/6640 [2:59:52<5:42:24, 16.85s/it]                                                       {'loss': 0.5161, 'learning_rate': 1.716601970199836e-06, 'epoch': 0.82}
 82%|████████▏ | 5421/6640 [2:59:52<5:42:24, 16.85s/it] 82%|████████▏ | 5422/6640 [3:00:08<5:39:45, 16.74s/it]                                                       {'loss': 0.5143, 'learning_rate': 1.713870033739541e-06, 'epoch': 0.82}
 82%|████████▏ | 5422/6640 [3:00:08<5:39:45, 16.74s/it] 82%|████████▏ | 5423/6640 [3:00:25<5:35:47, 16.55s/it]                                                       {'loss': 0.5093, 'learning_rate': 1.7111400691558911e-06, 'epoch': 0.82}
 82%|████████▏ | 5423/6640 [3:00:25<5:35:47, 16.55s/it] 82%|████████▏ | 5424/6640 [3:00:40<5:31:27, 16.35s/it]                                                       {'loss': 0.5128, 'learning_rate': 1.708412077098539e-06, 'epoch': 0.82}
 82%|████████▏ | 5424/6640 [3:00:40<5:31:27, 16.35s/it] 82%|████████▏ | 5425/6640 [3:00:57<5:30:55, 16.34s/it]                                                       {'loss': 0.5245, 'learning_rate': 1.7056860582166823e-06, 'epoch': 0.82}
 82%|████████▏ | 5425/6640 [3:00:57<5:30:55, 16.34s/it] 82%|████████▏ | 5426/6640 [3:01:13<5:28:06, 16.22s/it]                                                       {'loss': 0.523, 'learning_rate': 1.702962013159033e-06, 'epoch': 0.82}
 82%|████████▏ | 5426/6640 [3:01:13<5:28:06, 16.22s/it] 82%|████████▏ | 5427/6640 [3:01:28<5:23:29, 16.00s/it]                                                       {'loss': 0.5062, 'learning_rate': 1.7002399425738459e-06, 'epoch': 0.82}
 82%|████████▏ | 5427/6640 [3:01:28<5:23:29, 16.00s/it] 82%|████████▏ | 5428/6640 [3:01:44<5:23:16, 16.00s/it]                                                       {'loss': 0.5211, 'learning_rate': 1.6975198471088973e-06, 'epoch': 0.82}
 82%|████████▏ | 5428/6640 [3:01:44<5:23:16, 16.00s/it] 82%|████████▏ | 5429/6640 [3:02:00<5:24:09, 16.06s/it]                                                       {'loss': 0.5289, 'learning_rate': 1.6948017274114959e-06, 'epoch': 0.82}
 82%|████████▏ | 5429/6640 [3:02:00<5:24:09, 16.06s/it] 82%|████████▏ | 5430/6640 [3:02:17<5:27:25, 16.24s/it]                                                       {'loss': 0.5263, 'learning_rate': 1.6920855841284844e-06, 'epoch': 0.82}
 82%|████████▏ | 5430/6640 [3:02:17<5:27:25, 16.24s/it] 82%|████████▏ | 5431/6640 [3:02:33<5:24:02, 16.08s/it]                                                       {'loss': 0.5046, 'learning_rate': 1.6893714179062315e-06, 'epoch': 0.82}
 82%|████████▏ | 5431/6640 [3:02:33<5:24:02, 16.08s/it] 82%|████████▏ | 5432/6640 [3:02:49<5:23:19, 16.06s/it]                                                       {'loss': 0.4939, 'learning_rate': 1.6866592293906369e-06, 'epoch': 0.82}
 82%|████████▏ | 5432/6640 [3:02:49<5:23:19, 16.06s/it] 82%|████████▏ | 5433/6640 [3:03:06<5:30:53, 16.45s/it]                                                       {'loss': 0.4983, 'learning_rate': 1.6839490192271225e-06, 'epoch': 0.82}
 82%|████████▏ | 5433/6640 [3:03:06<5:30:53, 16.45s/it] 82%|████████▏ | 5434/6640 [3:03:23<5:33:03, 16.57s/it]                                                       {'loss': 0.504, 'learning_rate': 1.6812407880606563e-06, 'epoch': 0.82}
 82%|████████▏ | 5434/6640 [3:03:23<5:33:03, 16.57s/it] 82%|████████▏ | 5435/6640 [3:03:39<5:31:12, 16.49s/it]                                                       {'loss': 0.4839, 'learning_rate': 1.6785345365357153e-06, 'epoch': 0.82}
 82%|████████▏ | 5435/6640 [3:03:39<5:31:12, 16.49s/it] 82%|████████▏ | 5436/6640 [3:03:56<5:31:27, 16.52s/it]                                                       {'loss': 0.5269, 'learning_rate': 1.6758302652963176e-06, 'epoch': 0.82}
 82%|████████▏ | 5436/6640 [3:03:56<5:31:27, 16.52s/it] 82%|████████▏ | 5437/6640 [3:04:12<5:27:51, 16.35s/it]                                                       {'loss': 0.5379, 'learning_rate': 1.6731279749860086e-06, 'epoch': 0.82}
 82%|████████▏ | 5437/6640 [3:04:12<5:27:51, 16.35s/it] 82%|████████▏ | 5438/6640 [3:04:27<5:23:16, 16.14s/it]                                                       {'loss': 0.5041, 'learning_rate': 1.6704276662478602e-06, 'epoch': 0.82}
 82%|████████▏ | 5438/6640 [3:04:27<5:23:16, 16.14s/it] 82%|████████▏ | 5439/6640 [3:04:44<5:23:23, 16.16s/it]                                                       {'loss': 0.5087, 'learning_rate': 1.6677293397244753e-06, 'epoch': 0.82}
 82%|████████▏ | 5439/6640 [3:04:44<5:23:23, 16.16s/it] 82%|████████▏ | 5440/6640 [3:05:01<5:31:16, 16.56s/it]                                                       {'loss': 0.5175, 'learning_rate': 1.6650329960579792e-06, 'epoch': 0.82}
 82%|████████▏ | 5440/6640 [3:05:01<5:31:16, 16.56s/it] 82%|████████▏ | 5441/6640 [3:05:17<5:24:21, 16.23s/it]                                                       {'loss': 0.493, 'learning_rate': 1.6623386358900339e-06, 'epoch': 0.82}
 82%|████████▏ | 5441/6640 [3:05:17<5:24:21, 16.23s/it] 82%|████████▏ | 5442/6640 [3:05:33<5:25:56, 16.32s/it]                                                       {'loss': 0.5451, 'learning_rate': 1.6596462598618179e-06, 'epoch': 0.82}
 82%|████████▏ | 5442/6640 [3:05:33<5:25:56, 16.32s/it] 82%|████████▏ | 5443/6640 [3:05:49<5:25:19, 16.31s/it]                                                       {'loss': 0.516, 'learning_rate': 1.656955868614053e-06, 'epoch': 0.82}
 82%|████████▏ | 5443/6640 [3:05:49<5:25:19, 16.31s/it] 82%|████████▏ | 5444/6640 [3:06:06<5:23:24, 16.22s/it]                                                       {'loss': 0.5214, 'learning_rate': 1.6542674627869738e-06, 'epoch': 0.82}
 82%|████████▏ | 5444/6640 [3:06:06<5:23:24, 16.22s/it] 82%|████████▏ | 5445/6640 [3:06:22<5:23:32, 16.24s/it]                                                       {'loss': 0.5153, 'learning_rate': 1.6515810430203516e-06, 'epoch': 0.82}
 82%|████████▏ | 5445/6640 [3:06:22<5:23:32, 16.24s/it] 82%|████████▏ | 5446/6640 [3:06:38<5:20:35, 16.11s/it]                                                       {'loss': 0.5314, 'learning_rate': 1.648896609953481e-06, 'epoch': 0.82}
 82%|████████▏ | 5446/6640 [3:06:38<5:20:35, 16.11s/it] 82%|████████▏ | 5447/6640 [3:06:54<5:21:55, 16.19s/it]                                                       {'loss': 0.5132, 'learning_rate': 1.6462141642251862e-06, 'epoch': 0.82}
 82%|████████▏ | 5447/6640 [3:06:54<5:21:55, 16.19s/it] 82%|████████▏ | 5448/6640 [3:07:10<5:19:11, 16.07s/it]                                                       {'loss': 0.5056, 'learning_rate': 1.643533706473819e-06, 'epoch': 0.82}
 82%|████████▏ | 5448/6640 [3:07:10<5:19:11, 16.07s/it] 82%|████████▏ | 5449/6640 [3:07:25<5:15:36, 15.90s/it]                                                       {'loss': 0.5167, 'learning_rate': 1.640855237337252e-06, 'epoch': 0.82}
 82%|████████▏ | 5449/6640 [3:07:25<5:15:36, 15.90s/it]6 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...4
 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 82%|████████▏ | 5450/6640 [3:07:42<5:21:24, 16.21s/it]                                                       {'loss': 0.5092, 'learning_rate': 1.638178757452894e-06, 'epoch': 0.82}
 82%|████████▏ | 5450/6640 [3:07:42<5:21:24, 16.21s/it] 82%|████████▏ | 5451/6640 [3:07:59<5:26:59, 16.50s/it]                                                       {'loss': 0.5095, 'learning_rate': 1.6355042674576671e-06, 'epoch': 0.82}
 82%|████████▏ | 5451/6640 [3:07:59<5:26:59, 16.50s/it] 82%|████████▏ | 5452/6640 [3:08:16<5:27:37, 16.55s/it]                                                       {'loss': 0.5124, 'learning_rate': 1.632831767988039e-06, 'epoch': 0.82}
 82%|████████▏ | 5452/6640 [3:08:16<5:27:37, 16.55s/it] 82%|████████▏ | 5453/6640 [3:08:33<5:27:51, 16.57s/it]                                                       {'loss': 0.4922, 'learning_rate': 1.6301612596799854e-06, 'epoch': 0.82}
 82%|████████▏ | 5453/6640 [3:08:33<5:27:51, 16.57s/it] 82%|████████▏ | 5454/6640 [3:08:49<5:25:10, 16.45s/it]                                                       {'loss': 0.5065, 'learning_rate': 1.627492743169018e-06, 'epoch': 0.82}
 82%|████████▏ | 5454/6640 [3:08:49<5:25:10, 16.45s/it] 82%|████████▏ | 5455/6640 [3:09:05<5:21:23, 16.27s/it]                                                       {'loss': 0.4938, 'learning_rate': 1.624826219090172e-06, 'epoch': 0.82}
 82%|████████▏ | 5455/6640 [3:09:05<5:21:23, 16.27s/it] 82%|████████▏ | 5456/6640 [3:09:21<5:19:35, 16.20s/it]                                                       {'loss': 0.5161, 'learning_rate': 1.6221616880780078e-06, 'epoch': 0.82}
 82%|████████▏ | 5456/6640 [3:09:21<5:19:35, 16.20s/it] 82%|████████▏ | 5457/6640 [3:09:37<5:20:53, 16.27s/it]                                                       {'loss': 0.5106, 'learning_rate': 1.6194991507666159e-06, 'epoch': 0.82}
 82%|████████▏ | 5457/6640 [3:09:37<5:20:53, 16.27s/it] 82%|████████▏ | 5458/6640 [3:09:54<5:21:59, 16.34s/it]                                                       {'loss': 0.5034, 'learning_rate': 1.6168386077896036e-06, 'epoch': 0.82}
 82%|████████▏ | 5458/6640 [3:09:54<5:21:59, 16.34s/it] 82%|████████▏ | 5459/6640 [3:10:10<5:21:20, 16.33s/it]                                                       {'loss': 0.5282, 'learning_rate': 1.6141800597801139e-06, 'epoch': 0.82}
 82%|████████▏ | 5459/6640 [3:10:10<5:21:20, 16.33s/it] 82%|████████▏ | 5460/6640 [3:10:26<5:22:27, 16.40s/it]                                                       {'loss': 0.5082, 'learning_rate': 1.6115235073708024e-06, 'epoch': 0.82}
 82%|████████▏ | 5460/6640 [3:10:27<5:22:27, 16.40s/it] 82%|████████▏ | 5461/6640 [3:10:43<5:20:44, 16.32s/it]                                                       {'loss': 0.5126, 'learning_rate': 1.608868951193867e-06, 'epoch': 0.82}
 82%|████████▏ | 5461/6640 [3:10:43<5:20:44, 16.32s/it] 82%|████████▏ | 5462/6640 [3:11:00<5:24:29, 16.53s/it]                                                       {'loss': 0.5137, 'learning_rate': 1.6062163918810136e-06, 'epoch': 0.82}
 82%|████████▏ | 5462/6640 [3:11:00<5:24:29, 16.53s/it] 82%|████████▏ | 5463/6640 [3:11:17<5:26:44, 16.66s/it]                                                       {'loss': 0.5233, 'learning_rate': 1.6035658300634816e-06, 'epoch': 0.82}
 82%|████████▏ | 5463/6640 [3:11:17<5:26:44, 16.66s/it] 82%|████████▏ | 5464/6640 [3:11:33<5:23:59, 16.53s/it]                                                       {'loss': 0.5025, 'learning_rate': 1.6009172663720352e-06, 'epoch': 0.82}
 82%|████████▏ | 5464/6640 [3:11:33<5:23:59, 16.53s/it] 82%|████████▏ | 5465/6640 [3:11:49<5:23:28, 16.52s/it]                                                       {'loss': 0.5132, 'learning_rate': 1.5982707014369603e-06, 'epoch': 0.82}
 82%|████████▏ | 5465/6640 [3:11:49<5:23:28, 16.52s/it] 82%|████████▏ | 5466/6640 [3:12:07<5:27:40, 16.75s/it]                                                       {'loss': 0.5164, 'learning_rate': 1.595626135888071e-06, 'epoch': 0.82}
 82%|████████▏ | 5466/6640 [3:12:07<5:27:40, 16.75s/it] 82%|████████▏ | 5467/6640 [3:12:22<5:20:44, 16.41s/it]                                                       {'loss': 0.5088, 'learning_rate': 1.5929835703546992e-06, 'epoch': 0.82}
 82%|████████▏ | 5467/6640 [3:12:22<5:20:44, 16.41s/it] 82%|████████▏ | 5468/6640 [3:12:39<5:22:37, 16.52s/it]                                                       {'loss': 0.5226, 'learning_rate': 1.5903430054657077e-06, 'epoch': 0.82}
 82%|████████▏ | 5468/6640 [3:12:39<5:22:37, 16.52s/it] 82%|████████▏ | 5469/6640 [3:12:56<5:24:12, 16.61s/it]                                                       {'loss': 0.4909, 'learning_rate': 1.5877044418494747e-06, 'epoch': 0.82}
 82%|████████▏ | 5469/6640 [3:12:56<5:24:12, 16.61s/it] 82%|████████▏ | 5470/6640 [3:13:12<5:19:39, 16.39s/it]                                                       {'loss': 0.5008, 'learning_rate': 1.585067880133916e-06, 'epoch': 0.82}
 82%|████████▏ | 5470/6640 [3:13:12<5:19:39, 16.39s/it] 82%|████████▏ | 5471/6640 [3:13:29<5:23:00, 16.58s/it]                                                       {'loss': 0.5014, 'learning_rate': 1.582433320946456e-06, 'epoch': 0.82}
 82%|████████▏ | 5471/6640 [3:13:29<5:23:00, 16.58s/it] 82%|████████▏ | 5472/6640 [3:13:46<5:28:05, 16.85s/it]                                                       {'loss': 0.5257, 'learning_rate': 1.57980076491405e-06, 'epoch': 0.82}
 82%|████████▏ | 5472/6640 [3:13:46<5:28:05, 16.85s/it] 82%|████████▏ | 5473/6640 [3:14:03<5:25:21, 16.73s/it]                                                       {'loss': 0.5192, 'learning_rate': 1.5771702126631784e-06, 'epoch': 0.82}
 82%|████████▏ | 5473/6640 [3:14:03<5:25:21, 16.73s/it] 82%|████████▏ | 5474/6640 [3:14:19<5:23:37, 16.65s/it]                                                       {'loss': 0.5135, 'learning_rate': 1.5745416648198386e-06, 'epoch': 0.82}
 82%|████████▏ | 5474/6640 [3:14:19<5:23:37, 16.65s/it] 82%|████████▏ | 5475/6640 [3:14:36<5:23:20, 16.65s/it]                                                       {'loss': 0.5226, 'learning_rate': 1.5719151220095596e-06, 'epoch': 0.82}
 82%|████████▏ | 5475/6640 [3:14:36<5:23:20, 16.65s/it] 82%|████████▏ | 5476/6640 [3:14:53<5:24:35, 16.73s/it]                                                       {'loss': 0.5002, 'learning_rate': 1.5692905848573836e-06, 'epoch': 0.82}
 82%|████████▏ | 5476/6640 [3:14:53<5:24:35, 16.73s/it] 82%|████████▏ | 5477/6640 [3:15:09<5:21:06, 16.57s/it]                                                       {'loss': 0.5352, 'learning_rate': 1.5666680539878797e-06, 'epoch': 0.82}
 82%|████████▏ | 5477/6640 [3:15:09<5:21:06, 16.57s/it] 82%|████████▎ | 5478/6640 [3:15:25<5:20:52, 16.57s/it]                                                       {'loss': 0.5131, 'learning_rate': 1.5640475300251423e-06, 'epoch': 0.82}
 82%|████████▎ | 5478/6640 [3:15:25<5:20:52, 16.57s/it] 83%|████████▎ | 5479/6640 [3:15:42<5:21:24, 16.61s/it]                                                       {'loss': 0.5026, 'learning_rate': 1.5614290135927857e-06, 'epoch': 0.83}
 83%|████████▎ | 5479/6640 [3:15:42<5:21:24, 16.61s/it] 83%|████████▎ | 5480/6640 [3:15:59<5:21:21, 16.62s/it]                                                       {'loss': 0.5061, 'learning_rate': 1.558812505313947e-06, 'epoch': 0.83}
 83%|████████▎ | 5480/6640 [3:15:59<5:21:21, 16.62s/it] 83%|████████▎ | 5481/6640 [3:16:15<5:21:05, 16.62s/it]                                                       {'loss': 0.5001, 'learning_rate': 1.5561980058112825e-06, 'epoch': 0.83}
 83%|████████▎ | 5481/6640 [3:16:15<5:21:05, 16.62s/it] 83%|████████▎ | 5482/6640 [3:16:32<5:20:37, 16.61s/it]                                                       {'loss': 0.4972, 'learning_rate': 1.5535855157069734e-06, 'epoch': 0.83}
 83%|████████▎ | 5482/6640 [3:16:32<5:20:37, 16.61s/it] 83%|████████▎ | 5483/6640 [3:16:48<5:15:59, 16.39s/it]                                                       {'loss': 0.5159, 'learning_rate': 1.5509750356227249e-06, 'epoch': 0.83}
 83%|████████▎ | 5483/6640 [3:16:48<5:15:59, 16.39s/it] 83%|████████▎ | 5484/6640 [3:17:04<5:16:13, 16.41s/it]                                                       {'loss': 0.513, 'learning_rate': 1.5483665661797598e-06, 'epoch': 0.83}
 83%|████████▎ | 5484/6640 [3:17:04<5:16:13, 16.41s/it] 83%|████████▎ | 5485/6640 [3:17:20<5:13:07, 16.27s/it]                                                       {'loss': 0.4897, 'learning_rate': 1.5457601079988226e-06, 'epoch': 0.83}
 83%|████████▎ | 5485/6640 [3:17:20<5:13:07, 16.27s/it] 83%|████████▎ | 5486/6640 [3:17:36<5:11:46, 16.21s/it]                                                       {'loss': 0.5073, 'learning_rate': 1.5431556617001808e-06, 'epoch': 0.83}
 83%|████████▎ | 5486/6640 [3:17:36<5:11:46, 16.21s/it] 83%|████████▎ | 5487/6640 [3:17:52<5:09:01, 16.08s/it]                                                       {'loss': 0.5248, 'learning_rate': 1.540553227903624e-06, 'epoch': 0.83}
 83%|████████▎ | 5487/6640 [3:17:52<5:09:01, 16.08s/it] 83%|████████▎ | 5488/6640 [3:18:09<5:10:29, 16.17s/it]                                                       {'loss': 0.5126, 'learning_rate': 1.53795280722846e-06, 'epoch': 0.83}
 83%|████████▎ | 5488/6640 [3:18:09<5:10:29, 16.17s/it] 83%|████████▎ | 5489/6640 [3:18:25<5:12:16, 16.28s/it]                                                       {'loss': 0.5165, 'learning_rate': 1.5353544002935229e-06, 'epoch': 0.83}
 83%|████████▎ | 5489/6640 [3:18:25<5:12:16, 16.28s/it] 83%|████████▎ | 5490/6640 [3:18:41<5:12:17, 16.29s/it]                                                       {'loss': 0.4936, 'learning_rate': 1.5327580077171589e-06, 'epoch': 0.83}
 83%|████████▎ | 5490/6640 [3:18:41<5:12:17, 16.29s/it] 83%|████████▎ | 5491/6640 [3:18:58<5:12:35, 16.32s/it]                                                       {'loss': 0.4918, 'learning_rate': 1.5301636301172418e-06, 'epoch': 0.83}
 83%|████████▎ | 5491/6640 [3:18:58<5:12:35, 16.32s/it] 83%|████████▎ | 5492/6640 [3:19:14<5:12:58, 16.36s/it]                                                       {'loss': 0.5104, 'learning_rate': 1.5275712681111643e-06, 'epoch': 0.83}
 83%|████████▎ | 5492/6640 [3:19:14<5:12:58, 16.36s/it] 83%|████████▎ | 5493/6640 [3:19:30<5:12:00, 16.32s/it]                                                       {'loss': 0.5209, 'learning_rate': 1.5249809223158406e-06, 'epoch': 0.83}
 83%|████████▎ | 5493/6640 [3:19:30<5:12:00, 16.32s/it] 83%|████████▎ | 5494/6640 [3:19:47<5:13:43, 16.43s/it]                                                       {'loss': 0.5278, 'learning_rate': 1.5223925933477002e-06, 'epoch': 0.83}
 83%|████████▎ | 5494/6640 [3:19:47<5:13:43, 16.43s/it] 83%|████████▎ | 5495/6640 [3:20:03<5:11:29, 16.32s/it]                                                       {'loss': 0.5076, 'learning_rate': 1.5198062818226967e-06, 'epoch': 0.83}
 83%|████████▎ | 5495/6640 [3:20:03<5:11:29, 16.32s/it] 83%|████████▎ | 5496/6640 [3:20:20<5:11:03, 16.31s/it]                                                       {'loss': 0.5086, 'learning_rate': 1.5172219883563033e-06, 'epoch': 0.83}
 83%|████████▎ | 5496/6640 [3:20:20<5:11:03, 16.31s/it] 83%|████████▎ | 5497/6640 [3:20:37<5:18:50, 16.74s/it]                                                       {'loss': 0.4917, 'learning_rate': 1.514639713563514e-06, 'epoch': 0.83}
 83%|████████▎ | 5497/6640 [3:20:37<5:18:50, 16.74s/it] 83%|████████▎ | 5498/6640 [3:20:53<5:14:25, 16.52s/it]                                                       {'loss': 0.5207, 'learning_rate': 1.512059458058841e-06, 'epoch': 0.83}
 83%|████████▎ | 5498/6640 [3:20:53<5:14:25, 16.52s/it] 83%|████████▎ | 5499/6640 [3:21:10<5:16:27, 16.64s/it]                                                       {'loss': 0.5045, 'learning_rate': 1.5094812224563117e-06, 'epoch': 0.83}
 83%|████████▎ | 5499/6640 [3:21:10<5:16:27, 16.64s/it]5 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...6
4 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
03 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 83%|████████▎ | 5500/6640 [3:21:27<5:17:03, 16.69s/it]                                                       {'loss': 0.5128, 'learning_rate': 1.5069050073694813e-06, 'epoch': 0.83}
 83%|████████▎ | 5500/6640 [3:21:27<5:17:03, 16.69s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5500/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5500/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5500/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 83%|████████▎ | 5501/6640 [3:23:14<13:52:32, 43.86s/it]                                                        {'loss': 0.5102, 'learning_rate': 1.5043308134114177e-06, 'epoch': 0.83}
 83%|████████▎ | 5501/6640 [3:23:14<13:52:32, 43.86s/it] 83%|████████▎ | 5502/6640 [3:23:30<11:13:40, 35.52s/it]                                                        {'loss': 0.5127, 'learning_rate': 1.5017586411947138e-06, 'epoch': 0.83}
 83%|████████▎ | 5502/6640 [3:23:30<11:13:40, 35.52s/it] 83%|████████▎ | 5503/6640 [3:23:47<9:25:24, 29.84s/it]                                                        {'loss': 0.5077, 'learning_rate': 1.4991884913314714e-06, 'epoch': 0.83}
 83%|████████▎ | 5503/6640 [3:23:47<9:25:24, 29.84s/it] 83%|████████▎ | 5504/6640 [3:24:04<8:13:52, 26.09s/it]                                                       {'loss': 0.5195, 'learning_rate': 1.496620364433321e-06, 'epoch': 0.83}
 83%|████████▎ | 5504/6640 [3:24:04<8:13:52, 26.09s/it] 83%|████████▎ | 5505/6640 [3:24:20<7:15:43, 23.03s/it]                                                       {'loss': 0.5261, 'learning_rate': 1.4940542611114073e-06, 'epoch': 0.83}
 83%|████████▎ | 5505/6640 [3:24:20<7:15:43, 23.03s/it] 83%|████████▎ | 5506/6640 [3:24:37<6:38:20, 21.08s/it]                                                       {'loss': 0.5101, 'learning_rate': 1.4914901819763938e-06, 'epoch': 0.83}
 83%|████████▎ | 5506/6640 [3:24:37<6:38:20, 21.08s/it] 83%|████████▎ | 5507/6640 [3:24:53<6:10:55, 19.64s/it]                                                       {'loss': 0.5136, 'learning_rate': 1.4889281276384648e-06, 'epoch': 0.83}
 83%|████████▎ | 5507/6640 [3:24:53<6:10:55, 19.64s/it] 83%|████████▎ | 5508/6640 [3:25:10<5:54:00, 18.76s/it]                                                       {'loss': 0.5229, 'learning_rate': 1.486368098707317e-06, 'epoch': 0.83}
 83%|████████▎ | 5508/6640 [3:25:10<5:54:00, 18.76s/it] 83%|████████▎ | 5509/6640 [3:25:25<5:37:13, 17.89s/it]                                                       {'loss': 0.4981, 'learning_rate': 1.4838100957921697e-06, 'epoch': 0.83}
 83%|████████▎ | 5509/6640 [3:25:25<5:37:13, 17.89s/it] 83%|████████▎ | 5510/6640 [3:25:42<5:28:12, 17.43s/it]                                                       {'loss': 0.4969, 'learning_rate': 1.4812541195017593e-06, 'epoch': 0.83}
 83%|████████▎ | 5510/6640 [3:25:42<5:28:12, 17.43s/it] 83%|████████▎ | 5511/6640 [3:25:58<5:21:43, 17.10s/it]                                                       {'loss': 0.4988, 'learning_rate': 1.4787001704443426e-06, 'epoch': 0.83}
 83%|████████▎ | 5511/6640 [3:25:58<5:21:43, 17.10s/it] 83%|████████▎ | 5512/6640 [3:26:14<5:13:27, 16.67s/it]                                                       {'loss': 0.5286, 'learning_rate': 1.4761482492276847e-06, 'epoch': 0.83}
 83%|████████▎ | 5512/6640 [3:26:14<5:13:27, 16.67s/it] 83%|████████▎ | 5513/6640 [3:26:30<5:11:58, 16.61s/it]                                                       {'loss': 0.5389, 'learning_rate': 1.4735983564590784e-06, 'epoch': 0.83}
 83%|████████▎ | 5513/6640 [3:26:30<5:11:58, 16.61s/it] 83%|████████▎ | 5514/6640 [3:26:47<5:10:07, 16.53s/it]                                                       {'loss': 0.5236, 'learning_rate': 1.4710504927453295e-06, 'epoch': 0.83}
 83%|████████▎ | 5514/6640 [3:26:47<5:10:07, 16.53s/it] 83%|████████▎ | 5515/6640 [3:27:02<5:04:05, 16.22s/it]                                                       {'loss': 0.5032, 'learning_rate': 1.4685046586927598e-06, 'epoch': 0.83}
 83%|████████▎ | 5515/6640 [3:27:02<5:04:05, 16.22s/it] 83%|████████▎ | 5516/6640 [3:27:18<5:00:27, 16.04s/it]                                                       {'loss': 0.5046, 'learning_rate': 1.4659608549072135e-06, 'epoch': 0.83}
 83%|████████▎ | 5516/6640 [3:27:18<5:00:27, 16.04s/it] 83%|████████▎ | 5517/6640 [3:27:34<4:59:56, 16.03s/it]                                                       {'loss': 0.5226, 'learning_rate': 1.463419081994042e-06, 'epoch': 0.83}
 83%|████████▎ | 5517/6640 [3:27:34<4:59:56, 16.03s/it] 83%|████████▎ | 5518/6640 [3:27:50<5:01:48, 16.14s/it]                                                       {'loss': 0.5109, 'learning_rate': 1.4608793405581224e-06, 'epoch': 0.83}
 83%|████████▎ | 5518/6640 [3:27:50<5:01:48, 16.14s/it] 83%|████████▎ | 5519/6640 [3:28:06<5:01:07, 16.12s/it]                                                       {'loss': 0.5272, 'learning_rate': 1.4583416312038434e-06, 'epoch': 0.83}
 83%|████████▎ | 5519/6640 [3:28:06<5:01:07, 16.12s/it] 83%|████████▎ | 5520/6640 [3:28:22<4:58:56, 16.01s/it]                                                       {'loss': 0.5047, 'learning_rate': 1.4558059545351144e-06, 'epoch': 0.83}
 83%|████████▎ | 5520/6640 [3:28:22<4:58:56, 16.01s/it] 83%|████████▎ | 5521/6640 [3:28:39<5:01:48, 16.18s/it]                                                       {'loss': 0.521, 'learning_rate': 1.453272311155357e-06, 'epoch': 0.83}
 83%|████████▎ | 5521/6640 [3:28:39<5:01:48, 16.18s/it] 83%|████████▎ | 5522/6640 [3:28:55<5:03:31, 16.29s/it]                                                       {'loss': 0.5124, 'learning_rate': 1.450740701667509e-06, 'epoch': 0.83}
 83%|████████▎ | 5522/6640 [3:28:55<5:03:31, 16.29s/it] 83%|████████▎ | 5523/6640 [3:29:12<5:04:23, 16.35s/it]                                                       {'loss': 0.5024, 'learning_rate': 1.4482111266740274e-06, 'epoch': 0.83}
 83%|████████▎ | 5523/6640 [3:29:12<5:04:23, 16.35s/it] 83%|████████▎ | 5524/6640 [3:29:28<5:02:10, 16.25s/it]                                                       {'loss': 0.5265, 'learning_rate': 1.4456835867768814e-06, 'epoch': 0.83}
 83%|████████▎ | 5524/6640 [3:29:28<5:02:10, 16.25s/it] 83%|████████▎ | 5525/6640 [3:29:44<5:01:06, 16.20s/it]                                                       {'loss': 0.4857, 'learning_rate': 1.4431580825775604e-06, 'epoch': 0.83}
 83%|████████▎ | 5525/6640 [3:29:44<5:01:06, 16.20s/it] 83%|████████▎ | 5526/6640 [3:30:00<5:02:30, 16.29s/it]                                                       {'loss': 0.5038, 'learning_rate': 1.4406346146770633e-06, 'epoch': 0.83}
 83%|████████▎ | 5526/6640 [3:30:00<5:02:30, 16.29s/it] 83%|████████▎ | 5527/6640 [3:30:16<5:01:30, 16.25s/it]                                                       {'loss': 0.5005, 'learning_rate': 1.43811318367591e-06, 'epoch': 0.83}
 83%|████████▎ | 5527/6640 [3:30:16<5:01:30, 16.25s/it] 83%|████████▎ | 5528/6640 [3:30:33<5:01:38, 16.28s/it]                                                       {'loss': 0.5098, 'learning_rate': 1.4355937901741324e-06, 'epoch': 0.83}
 83%|████████▎ | 5528/6640 [3:30:33<5:01:38, 16.28s/it] 83%|████████▎ | 5529/6640 [3:30:49<5:03:20, 16.38s/it]                                                       {'loss': 0.51, 'learning_rate': 1.433076434771279e-06, 'epoch': 0.83}
 83%|████████▎ | 5529/6640 [3:30:49<5:03:20, 16.38s/it] 83%|████████▎ | 5530/6640 [3:31:06<5:02:32, 16.35s/it]                                                       {'loss': 0.4993, 'learning_rate': 1.4305611180664157e-06, 'epoch': 0.83}
 83%|████████▎ | 5530/6640 [3:31:06<5:02:32, 16.35s/it] 83%|████████▎ | 5531/6640 [3:31:22<5:00:52, 16.28s/it]                                                       {'loss': 0.507, 'learning_rate': 1.4280478406581156e-06, 'epoch': 0.83}
 83%|████████▎ | 5531/6640 [3:31:22<5:00:52, 16.28s/it] 83%|████████▎ | 5532/6640 [3:31:38<5:00:22, 16.27s/it]                                                       {'loss': 0.518, 'learning_rate': 1.4255366031444717e-06, 'epoch': 0.83}
 83%|████████▎ | 5532/6640 [3:31:38<5:00:22, 16.27s/it] 83%|████████▎ | 5533/6640 [3:31:54<4:59:53, 16.25s/it]                                                       {'loss': 0.5111, 'learning_rate': 1.4230274061230943e-06, 'epoch': 0.83}
 83%|████████▎ | 5533/6640 [3:31:54<4:59:53, 16.25s/it] 83%|████████▎ | 5534/6640 [3:32:11<5:03:25, 16.46s/it]                                                       {'loss': 0.5088, 'learning_rate': 1.4205202501911052e-06, 'epoch': 0.83}
 83%|████████▎ | 5534/6640 [3:32:11<5:03:25, 16.46s/it] 83%|████████▎ | 5535/6640 [3:32:28<5:05:29, 16.59s/it]                                                       {'loss': 0.5042, 'learning_rate': 1.4180151359451367e-06, 'epoch': 0.83}
 83%|████████▎ | 5535/6640 [3:32:28<5:05:29, 16.59s/it] 83%|████████▎ | 5536/6640 [3:32:44<5:03:37, 16.50s/it]                                                       {'loss': 0.5072, 'learning_rate': 1.4155120639813392e-06, 'epoch': 0.83}
 83%|████████▎ | 5536/6640 [3:32:44<5:03:37, 16.50s/it] 83%|████████▎ | 5537/6640 [3:33:00<5:01:00, 16.37s/it]                                                       {'loss': 0.5165, 'learning_rate': 1.4130110348953795e-06, 'epoch': 0.83}
 83%|████████▎ | 5537/6640 [3:33:00<5:01:00, 16.37s/it] 83%|████████▎ | 5538/6640 [3:33:16<4:58:47, 16.27s/it]                                                       {'loss': 0.5011, 'learning_rate': 1.410512049282433e-06, 'epoch': 0.83}
 83%|████████▎ | 5538/6640 [3:33:16<4:58:47, 16.27s/it] 83%|████████▎ | 5539/6640 [3:33:32<4:57:15, 16.20s/it]                                                       {'loss': 0.517, 'learning_rate': 1.408015107737195e-06, 'epoch': 0.83}
 83%|████████▎ | 5539/6640 [3:33:32<4:57:15, 16.20s/it] 83%|████████▎ | 5540/6640 [3:33:49<4:58:28, 16.28s/it]                                                       {'loss': 0.5287, 'learning_rate': 1.4055202108538657e-06, 'epoch': 0.83}
 83%|████████▎ | 5540/6640 [3:33:49<4:58:28, 16.28s/it] 83%|████████▎ | 5541/6640 [3:34:05<4:54:32, 16.08s/it]                                                       {'loss': 0.5394, 'learning_rate': 1.4030273592261656e-06, 'epoch': 0.83}
 83%|████████▎ | 5541/6640 [3:34:05<4:54:32, 16.08s/it] 83%|████████▎ | 5542/6640 [3:34:21<4:58:34, 16.32s/it]                                                       {'loss': 0.5188, 'learning_rate': 1.400536553447327e-06, 'epoch': 0.83}
 83%|████████▎ | 5542/6640 [3:34:21<4:58:34, 16.32s/it] 83%|████████▎ | 5543/6640 [3:34:38<5:00:23, 16.43s/it]                                                       {'loss': 0.5045, 'learning_rate': 1.3980477941100956e-06, 'epoch': 0.83}
 83%|████████▎ | 5543/6640 [3:34:38<5:00:23, 16.43s/it] 83%|████████▎ | 5544/6640 [3:34:54<4:58:59, 16.37s/it]                                                       {'loss': 0.5115, 'learning_rate': 1.3955610818067267e-06, 'epoch': 0.83}
 83%|████████▎ | 5544/6640 [3:34:54<4:58:59, 16.37s/it] 84%|████████▎ | 5545/6640 [3:35:11<5:00:13, 16.45s/it]                                                       {'loss': 0.5237, 'learning_rate': 1.3930764171289935e-06, 'epoch': 0.84}
 84%|████████▎ | 5545/6640 [3:35:11<5:00:13, 16.45s/it] 84%|████████▎ | 5546/6640 [3:35:28<5:02:05, 16.57s/it]                                                       {'loss': 0.4916, 'learning_rate': 1.3905938006681773e-06, 'epoch': 0.84}
 84%|████████▎ | 5546/6640 [3:35:28<5:02:05, 16.57s/it] 84%|████████▎ | 5547/6640 [3:35:44<5:01:41, 16.56s/it]                                                       {'loss': 0.5041, 'learning_rate': 1.3881132330150771e-06, 'epoch': 0.84}
 84%|████████▎ | 5547/6640 [3:35:44<5:01:41, 16.56s/it] 84%|████████▎ | 5548/6640 [3:36:00<4:57:42, 16.36s/it]                                                       {'loss': 0.5182, 'learning_rate': 1.3856347147600014e-06, 'epoch': 0.84}
 84%|████████▎ | 5548/6640 [3:36:00<4:57:42, 16.36s/it] 84%|████████▎ | 5549/6640 [3:36:16<4:54:15, 16.18s/it]                                                       {'loss': 0.4927, 'learning_rate': 1.3831582464927685e-06, 'epoch': 0.84}
 84%|████████▎ | 5549/6640 [3:36:16<4:54:15, 16.18s/it]7 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
30 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...4 AutoResumeHook: Checking whether to suspend...

 84%|████████▎ | 5550/6640 [3:36:32<4:54:53, 16.23s/it]6 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5106, 'learning_rate': 1.3806838288027113e-06, 'epoch': 0.84}
 84%|████████▎ | 5550/6640 [3:36:32<4:54:53, 16.23s/it] 84%|████████▎ | 5551/6640 [3:36:49<4:55:53, 16.30s/it]                                                       {'loss': 0.5258, 'learning_rate': 1.3782114622786769e-06, 'epoch': 0.84}
 84%|████████▎ | 5551/6640 [3:36:49<4:55:53, 16.30s/it] 84%|████████▎ | 5552/6640 [3:37:05<4:53:45, 16.20s/it]                                                       {'loss': 0.488, 'learning_rate': 1.3757411475090233e-06, 'epoch': 0.84}
 84%|████████▎ | 5552/6640 [3:37:05<4:53:45, 16.20s/it] 84%|████████▎ | 5553/6640 [3:37:21<4:56:04, 16.34s/it]                                                       {'loss': 0.5226, 'learning_rate': 1.3732728850816146e-06, 'epoch': 0.84}
 84%|████████▎ | 5553/6640 [3:37:21<4:56:04, 16.34s/it] 84%|████████▎ | 5554/6640 [3:37:38<4:54:58, 16.30s/it]                                                       {'loss': 0.5286, 'learning_rate': 1.3708066755838344e-06, 'epoch': 0.84}
 84%|████████▎ | 5554/6640 [3:37:38<4:54:58, 16.30s/it] 84%|████████▎ | 5555/6640 [3:37:54<4:55:30, 16.34s/it]                                                       {'loss': 0.511, 'learning_rate': 1.3683425196025734e-06, 'epoch': 0.84}
 84%|████████▎ | 5555/6640 [3:37:54<4:55:30, 16.34s/it] 84%|████████▎ | 5556/6640 [3:38:10<4:55:11, 16.34s/it]                                                       {'loss': 0.5297, 'learning_rate': 1.3658804177242347e-06, 'epoch': 0.84}
 84%|████████▎ | 5556/6640 [3:38:10<4:55:11, 16.34s/it] 84%|████████▎ | 5557/6640 [3:38:27<4:55:57, 16.40s/it]                                                       {'loss': 0.5107, 'learning_rate': 1.3634203705347348e-06, 'epoch': 0.84}
 84%|████████▎ | 5557/6640 [3:38:27<4:55:57, 16.40s/it] 84%|████████▎ | 5558/6640 [3:38:43<4:54:44, 16.34s/it]                                                       {'loss': 0.5146, 'learning_rate': 1.3609623786194958e-06, 'epoch': 0.84}
 84%|████████▎ | 5558/6640 [3:38:43<4:54:44, 16.34s/it] 84%|████████▎ | 5559/6640 [3:38:59<4:54:12, 16.33s/it]                                                       {'loss': 0.5324, 'learning_rate': 1.3585064425634542e-06, 'epoch': 0.84}
 84%|████████▎ | 5559/6640 [3:38:59<4:54:12, 16.33s/it] 84%|████████▎ | 5560/6640 [3:39:15<4:48:32, 16.03s/it]                                                       {'loss': 0.4863, 'learning_rate': 1.3560525629510567e-06, 'epoch': 0.84}
 84%|████████▎ | 5560/6640 [3:39:15<4:48:32, 16.03s/it] 84%|████████▍ | 5561/6640 [3:39:31<4:50:06, 16.13s/it]                                                       {'loss': 0.4995, 'learning_rate': 1.3536007403662632e-06, 'epoch': 0.84}
 84%|████████▍ | 5561/6640 [3:39:31<4:50:06, 16.13s/it] 84%|████████▍ | 5562/6640 [3:39:47<4:50:27, 16.17s/it]                                                       {'loss': 0.4995, 'learning_rate': 1.3511509753925422e-06, 'epoch': 0.84}
 84%|████████▍ | 5562/6640 [3:39:47<4:50:27, 16.17s/it] 84%|████████▍ | 5563/6640 [3:40:04<4:52:07, 16.27s/it]                                                       {'loss': 0.5201, 'learning_rate': 1.3487032686128653e-06, 'epoch': 0.84}
 84%|████████▍ | 5563/6640 [3:40:04<4:52:07, 16.27s/it] 84%|████████▍ | 5564/6640 [3:40:20<4:52:27, 16.31s/it]                                                       {'loss': 0.5237, 'learning_rate': 1.34625762060973e-06, 'epoch': 0.84}
 84%|████████▍ | 5564/6640 [3:40:20<4:52:27, 16.31s/it] 84%|████████▍ | 5565/6640 [3:40:37<4:53:54, 16.40s/it]                                                       {'loss': 0.4966, 'learning_rate': 1.3438140319651283e-06, 'epoch': 0.84}
 84%|████████▍ | 5565/6640 [3:40:37<4:53:54, 16.40s/it] 84%|████████▍ | 5566/6640 [3:40:54<4:56:23, 16.56s/it]                                                       {'loss': 0.5286, 'learning_rate': 1.341372503260574e-06, 'epoch': 0.84}
 84%|████████▍ | 5566/6640 [3:40:54<4:56:23, 16.56s/it] 84%|████████▍ | 5567/6640 [3:41:10<4:55:34, 16.53s/it]                                                       {'loss': 0.5162, 'learning_rate': 1.33893303507708e-06, 'epoch': 0.84}
 84%|████████▍ | 5567/6640 [3:41:10<4:55:34, 16.53s/it] 84%|████████▍ | 5568/6640 [3:41:26<4:52:51, 16.39s/it]                                                       {'loss': 0.5173, 'learning_rate': 1.3364956279951768e-06, 'epoch': 0.84}
 84%|████████▍ | 5568/6640 [3:41:26<4:52:51, 16.39s/it] 84%|████████▍ | 5569/6640 [3:41:43<4:54:23, 16.49s/it]                                                       {'loss': 0.509, 'learning_rate': 1.3340602825949024e-06, 'epoch': 0.84}
 84%|████████▍ | 5569/6640 [3:41:43<4:54:23, 16.49s/it] 84%|████████▍ | 5570/6640 [3:42:00<4:56:43, 16.64s/it]                                                       {'loss': 0.5049, 'learning_rate': 1.331626999455804e-06, 'epoch': 0.84}
 84%|████████▍ | 5570/6640 [3:42:00<4:56:43, 16.64s/it] 84%|████████▍ | 5571/6640 [3:42:17<4:57:43, 16.71s/it]                                                       {'loss': 0.5022, 'learning_rate': 1.3291957791569376e-06, 'epoch': 0.84}
 84%|████████▍ | 5571/6640 [3:42:17<4:57:43, 16.71s/it] 84%|████████▍ | 5572/6640 [3:42:34<4:59:20, 16.82s/it]                                                       {'loss': 0.5285, 'learning_rate': 1.3267666222768637e-06, 'epoch': 0.84}
 84%|████████▍ | 5572/6640 [3:42:34<4:59:20, 16.82s/it] 84%|████████▍ | 5573/6640 [3:42:50<4:55:05, 16.59s/it]                                                       {'loss': 0.5079, 'learning_rate': 1.3243395293936657e-06, 'epoch': 0.84}
 84%|████████▍ | 5573/6640 [3:42:50<4:55:05, 16.59s/it] 84%|████████▍ | 5574/6640 [3:43:07<4:55:11, 16.62s/it]                                                       {'loss': 0.5202, 'learning_rate': 1.3219145010849188e-06, 'epoch': 0.84}
 84%|████████▍ | 5574/6640 [3:43:07<4:55:11, 16.62s/it] 84%|████████▍ | 5575/6640 [3:43:23<4:50:12, 16.35s/it]                                                       {'loss': 0.5276, 'learning_rate': 1.3194915379277195e-06, 'epoch': 0.84}
 84%|████████▍ | 5575/6640 [3:43:23<4:50:12, 16.35s/it] 84%|████████▍ | 5576/6640 [3:43:39<4:50:53, 16.40s/it]                                                       {'loss': 0.5008, 'learning_rate': 1.3170706404986645e-06, 'epoch': 0.84}
 84%|████████▍ | 5576/6640 [3:43:39<4:50:53, 16.40s/it] 84%|████████▍ | 5577/6640 [3:43:55<4:49:44, 16.35s/it]                                                       {'loss': 0.4968, 'learning_rate': 1.3146518093738624e-06, 'epoch': 0.84}
 84%|████████▍ | 5577/6640 [3:43:55<4:49:44, 16.35s/it] 84%|████████▍ | 5578/6640 [3:44:12<4:53:06, 16.56s/it]                                                       {'loss': 0.5083, 'learning_rate': 1.3122350451289323e-06, 'epoch': 0.84}
 84%|████████▍ | 5578/6640 [3:44:12<4:53:06, 16.56s/it] 84%|████████▍ | 5579/6640 [3:44:28<4:49:29, 16.37s/it]                                                       {'loss': 0.5191, 'learning_rate': 1.309820348338998e-06, 'epoch': 0.84}
 84%|████████▍ | 5579/6640 [3:44:28<4:49:29, 16.37s/it] 84%|████████▍ | 5580/6640 [3:44:44<4:48:01, 16.30s/it]                                                       {'loss': 0.5093, 'learning_rate': 1.307407719578696e-06, 'epoch': 0.84}
 84%|████████▍ | 5580/6640 [3:44:44<4:48:01, 16.30s/it] 84%|████████▍ | 5581/6640 [3:45:00<4:46:19, 16.22s/it]                                                       {'loss': 0.4988, 'learning_rate': 1.30499715942216e-06, 'epoch': 0.84}
 84%|████████▍ | 5581/6640 [3:45:00<4:46:19, 16.22s/it] 84%|████████▍ | 5582/6640 [3:45:17<4:45:47, 16.21s/it]                                                       {'loss': 0.5047, 'learning_rate': 1.3025886684430467e-06, 'epoch': 0.84}
 84%|████████▍ | 5582/6640 [3:45:17<4:45:47, 16.21s/it] 84%|████████▍ | 5583/6640 [3:45:33<4:44:49, 16.17s/it]                                                       {'loss': 0.5087, 'learning_rate': 1.3001822472145066e-06, 'epoch': 0.84}
 84%|████████▍ | 5583/6640 [3:45:33<4:44:49, 16.17s/it] 84%|████████▍ | 5584/6640 [3:45:49<4:45:55, 16.25s/it]                                                       {'loss': 0.5171, 'learning_rate': 1.297777896309207e-06, 'epoch': 0.84}
 84%|████████▍ | 5584/6640 [3:45:49<4:45:55, 16.25s/it] 84%|████████▍ | 5585/6640 [3:46:05<4:43:45, 16.14s/it]                                                       {'loss': 0.5112, 'learning_rate': 1.2953756162993158e-06, 'epoch': 0.84}
 84%|████████▍ | 5585/6640 [3:46:05<4:43:45, 16.14s/it] 84%|████████▍ | 5586/6640 [3:46:22<4:46:00, 16.28s/it]                                                       {'loss': 0.5338, 'learning_rate': 1.2929754077565126e-06, 'epoch': 0.84}
 84%|████████▍ | 5586/6640 [3:46:22<4:46:00, 16.28s/it] 84%|████████▍ | 5587/6640 [3:46:38<4:43:58, 16.18s/it]                                                       {'loss': 0.5004, 'learning_rate': 1.2905772712519826e-06, 'epoch': 0.84}
 84%|████████▍ | 5587/6640 [3:46:38<4:43:58, 16.18s/it] 84%|████████▍ | 5588/6640 [3:46:54<4:44:23, 16.22s/it]                                                       {'loss': 0.4971, 'learning_rate': 1.288181207356417e-06, 'epoch': 0.84}
 84%|████████▍ | 5588/6640 [3:46:54<4:44:23, 16.22s/it] 84%|████████▍ | 5589/6640 [3:47:11<4:46:31, 16.36s/it]                                                       {'loss': 0.5306, 'learning_rate': 1.2857872166400198e-06, 'epoch': 0.84}
 84%|████████▍ | 5589/6640 [3:47:11<4:46:31, 16.36s/it] 84%|████████▍ | 5590/6640 [3:47:28<4:50:27, 16.60s/it]                                                       {'loss': 0.5159, 'learning_rate': 1.2833952996724864e-06, 'epoch': 0.84}
 84%|████████▍ | 5590/6640 [3:47:28<4:50:27, 16.60s/it] 84%|████████▍ | 5591/6640 [3:47:44<4:50:24, 16.61s/it]                                                       {'loss': 0.5044, 'learning_rate': 1.28100545702304e-06, 'epoch': 0.84}
 84%|████████▍ | 5591/6640 [3:47:44<4:50:24, 16.61s/it] 84%|████████▍ | 5592/6640 [3:48:01<4:49:33, 16.58s/it]                                                       {'loss': 0.5089, 'learning_rate': 1.278617689260393e-06, 'epoch': 0.84}
 84%|████████▍ | 5592/6640 [3:48:01<4:49:33, 16.58s/it] 84%|████████▍ | 5593/6640 [3:48:17<4:47:16, 16.46s/it]                                                       {'loss': 0.5118, 'learning_rate': 1.2762319969527725e-06, 'epoch': 0.84}
 84%|████████▍ | 5593/6640 [3:48:17<4:47:16, 16.46s/it] 84%|████████▍ | 5594/6640 [3:48:34<4:47:29, 16.49s/it]                                                       {'loss': 0.5094, 'learning_rate': 1.2738483806679057e-06, 'epoch': 0.84}
 84%|████████▍ | 5594/6640 [3:48:34<4:47:29, 16.49s/it] 84%|████████▍ | 5595/6640 [3:48:50<4:44:28, 16.33s/it]                                                       {'loss': 0.5119, 'learning_rate': 1.2714668409730312e-06, 'epoch': 0.84}
 84%|████████▍ | 5595/6640 [3:48:50<4:44:28, 16.33s/it] 84%|████████▍ | 5596/6640 [3:49:06<4:45:24, 16.40s/it]                                                       {'loss': 0.5188, 'learning_rate': 1.2690873784348923e-06, 'epoch': 0.84}
 84%|████████▍ | 5596/6640 [3:49:06<4:45:24, 16.40s/it] 84%|████████▍ | 5597/6640 [3:49:23<4:45:03, 16.40s/it]                                                       {'loss': 0.5162, 'learning_rate': 1.266709993619737e-06, 'epoch': 0.84}
 84%|████████▍ | 5597/6640 [3:49:23<4:45:03, 16.40s/it] 84%|████████▍ | 5598/6640 [3:49:39<4:44:10, 16.36s/it]                                                       {'loss': 0.5133, 'learning_rate': 1.2643346870933204e-06, 'epoch': 0.84}
 84%|████████▍ | 5598/6640 [3:49:39<4:44:10, 16.36s/it] 84%|████████▍ | 5599/6640 [3:49:54<4:40:27, 16.16s/it]                                                       {'loss': 0.5082, 'learning_rate': 1.2619614594208972e-06, 'epoch': 0.84}
 84%|████████▍ | 5599/6640 [3:49:54<4:40:27, 16.16s/it]1 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
 84%|████████▍ | 5600/6640 [3:50:11<4:42:42, 16.31s/it]6 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5053, 'learning_rate': 1.259590311167238e-06, 'epoch': 0.84}
 84%|████████▍ | 5600/6640 [3:50:11<4:42:42, 16.31s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5600/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5600/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5600/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 84%|████████▍ | 5601/6640 [3:52:02<12:53:25, 44.66s/it]                                                        {'loss': 0.5196, 'learning_rate': 1.2572212428966079e-06, 'epoch': 0.84}
 84%|████████▍ | 5601/6640 [3:52:02<12:53:25, 44.66s/it] 84%|████████▍ | 5602/6640 [3:52:18<10:24:47, 36.12s/it]                                                        {'loss': 0.5116, 'learning_rate': 1.2548542551727837e-06, 'epoch': 0.84}
 84%|████████▍ | 5602/6640 [3:52:18<10:24:47, 36.12s/it] 84%|████████▍ | 5603/6640 [3:52:35<8:42:10, 30.21s/it]                                                        {'loss': 0.5239, 'learning_rate': 1.2524893485590462e-06, 'epoch': 0.84}
 84%|████████▍ | 5603/6640 [3:52:35<8:42:10, 30.21s/it] 84%|████████▍ | 5604/6640 [3:52:52<7:36:56, 26.46s/it]                                                       {'loss': 0.5054, 'learning_rate': 1.2501265236181736e-06, 'epoch': 0.84}
 84%|████████▍ | 5604/6640 [3:52:52<7:36:56, 26.46s/it] 84%|████████▍ | 5605/6640 [3:53:09<6:44:51, 23.47s/it]                                                       {'loss': 0.5099, 'learning_rate': 1.2477657809124632e-06, 'epoch': 0.84}
 84%|████████▍ | 5605/6640 [3:53:09<6:44:51, 23.47s/it] 84%|████████▍ | 5606/6640 [3:53:25<6:07:54, 21.35s/it]                                                       {'loss': 0.5149, 'learning_rate': 1.2454071210037033e-06, 'epoch': 0.84}
 84%|████████▍ | 5606/6640 [3:53:25<6:07:54, 21.35s/it] 84%|████████▍ | 5607/6640 [3:53:41<5:39:48, 19.74s/it]                                                       {'loss': 0.5343, 'learning_rate': 1.2430505444531937e-06, 'epoch': 0.84}
 84%|████████▍ | 5607/6640 [3:53:41<5:39:48, 19.74s/it] 84%|████████▍ | 5608/6640 [3:53:58<5:22:54, 18.77s/it]                                                       {'loss': 0.5037, 'learning_rate': 1.2406960518217325e-06, 'epoch': 0.84}
 84%|████████▍ | 5608/6640 [3:53:58<5:22:54, 18.77s/it] 84%|████████▍ | 5609/6640 [3:54:14<5:11:25, 18.12s/it]                                                       {'loss': 0.5161, 'learning_rate': 1.2383436436696328e-06, 'epoch': 0.84}
 84%|████████▍ | 5609/6640 [3:54:14<5:11:25, 18.12s/it] 84%|████████▍ | 5610/6640 [3:54:31<5:03:51, 17.70s/it]                                                       {'loss': 0.5103, 'learning_rate': 1.2359933205566987e-06, 'epoch': 0.84}
 84%|████████▍ | 5610/6640 [3:54:31<5:03:51, 17.70s/it] 85%|████████▍ | 5611/6640 [3:54:48<4:58:47, 17.42s/it]                                                       {'loss': 0.5244, 'learning_rate': 1.2336450830422452e-06, 'epoch': 0.85}
 85%|████████▍ | 5611/6640 [3:54:48<4:58:47, 17.42s/it] 85%|████████▍ | 5612/6640 [3:55:04<4:53:33, 17.13s/it]                                                       {'loss': 0.5331, 'learning_rate': 1.2312989316850932e-06, 'epoch': 0.85}
 85%|████████▍ | 5612/6640 [3:55:04<4:53:33, 17.13s/it] 85%|████████▍ | 5613/6640 [3:55:20<4:48:20, 16.85s/it]                                                       {'loss': 0.502, 'learning_rate': 1.2289548670435568e-06, 'epoch': 0.85}
 85%|████████▍ | 5613/6640 [3:55:20<4:48:20, 16.85s/it] 85%|████████▍ | 5614/6640 [3:55:36<4:41:19, 16.45s/it]                                                       {'loss': 0.529, 'learning_rate': 1.2266128896754703e-06, 'epoch': 0.85}
 85%|████████▍ | 5614/6640 [3:55:36<4:41:19, 16.45s/it] 85%|████████▍ | 5615/6640 [3:55:53<4:45:03, 16.69s/it]                                                       {'loss': 0.519, 'learning_rate': 1.2242730001381532e-06, 'epoch': 0.85}
 85%|████████▍ | 5615/6640 [3:55:53<4:45:03, 16.69s/it] 85%|████████▍ | 5616/6640 [3:56:11<4:50:13, 17.01s/it]                                                       {'loss': 0.523, 'learning_rate': 1.221935198988441e-06, 'epoch': 0.85}
 85%|████████▍ | 5616/6640 [3:56:11<4:50:13, 17.01s/it] 85%|████████▍ | 5617/6640 [3:56:28<4:48:47, 16.94s/it]                                                       {'loss': 0.4875, 'learning_rate': 1.2195994867826622e-06, 'epoch': 0.85}
 85%|████████▍ | 5617/6640 [3:56:28<4:48:47, 16.94s/it] 85%|████████▍ | 5618/6640 [3:56:44<4:43:27, 16.64s/it]                                                       {'loss': 0.5005, 'learning_rate': 1.2172658640766622e-06, 'epoch': 0.85}
 85%|████████▍ | 5618/6640 [3:56:44<4:43:27, 16.64s/it]May 28 22:16:36.587682 1503970 slurmstepd   0x155550a06700: error: *** STEP 8296786.0 ON batch-block1-2107 CANCELLED AT 2025-05-28T22:16:36 DUE TO TIME LIMIT ***
srun: Job step aborted: Waiting up to 122 seconds for job step to finish.
srun: error: batch-block1-2107: task 0: Terminated
srun: Terminating StepId=8296786.0
srun: job 8299338 queued and waiting for resources
srun: job 8299338 has been allocated resources
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
MASTER_ADDR=batch-block1-2107
JobID: 8299338 | Full list: batch-block1-2107 
NETWORK=Efficient-Large-Model/VILA1.5-13b
WARNING:torch.distributed.run:
*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
*****************************************
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
[2025-05-28 22:18:38,802] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 22:18:38,802] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 22:18:38,802] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 22:18:38,802] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 22:18:38,802] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 22:18:38,802] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 22:18:38,802] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 22:18:38,802] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-05-28 22:18:39,708] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 22:18:39,708] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 22:18:39,708] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 22:18:39,708] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 22:18:39,708] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 22:18:39,708] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 22:18:39,708] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 22:18:39,708] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 22:18:39,708] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 22:18:39,708] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 22:18:39,708] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 22:18:39,709] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 22:18:39,708] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 22:18:39,708] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-05-28 22:18:39,709] [INFO] [comm.py:625:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
[2025-05-28 22:18:39,709] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-05-28 22:18:39,709] [INFO] [comm.py:594:init_distributed] cdb=None
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-05-28 22:18:47,167] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.02B parameters
Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:01,  2.77it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:01,  2.79it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:01,  2.74it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.37it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.32it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.40it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.30it/s]Loading checkpoint shards:  33%|███▎      | 2/6 [00:01<00:03,  1.24it/s]Loading checkpoint shards:  33%|███▎      | 2/6 [00:01<00:03,  1.25it/s]Loading checkpoint shards:  33%|███▎      | 2/6 [00:01<00:03,  1.23it/s]Loading checkpoint shards:  33%|███▎      | 2/6 [00:01<00:03,  1.19it/s]Loading checkpoint shards:  33%|███▎      | 2/6 [00:01<00:03,  1.19it/s]Loading checkpoint shards:  33%|███▎      | 2/6 [00:01<00:03,  1.18it/s]Loading checkpoint shards:  33%|███▎      | 2/6 [00:01<00:03,  1.19it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:02<00:11,  2.24s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:03<00:04,  1.57s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:03<00:04,  1.57s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:03<00:04,  1.58s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:04<00:04,  1.59s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:04<00:04,  1.60s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:04<00:04,  1.59s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:04<00:04,  1.60s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:04<00:09,  2.43s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:06<00:03,  1.89s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:06<00:03,  1.89s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:06<00:03,  1.90s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:06<00:03,  1.90s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:06<00:03,  1.91s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:06<00:03,  1.90s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:06<00:03,  1.91s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:07<00:07,  2.41s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:08<00:02,  2.08s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:08<00:02,  2.08s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:08<00:02,  2.08s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:08<00:02,  2.08s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:08<00:02,  2.08s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:08<00:02,  2.08s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:08<00:02,  2.09s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:09<00:00,  1.50s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:09<00:00,  1.52s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:09<00:00,  1.49s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:09<00:00,  1.52s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:09<00:00,  1.50s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:09<00:00,  1.52s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:09<00:00,  1.49s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:09<00:00,  1.53s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:09<00:00,  1.50s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:09<00:00,  1.53s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:09<00:00,  1.50s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:09<00:00,  1.54s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:09<00:00,  1.50s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:09<00:00,  1.54s/it]
Loading checkpoint shards:  67%|██████▋   | 4/6 [00:09<00:04,  2.40s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:12<00:02,  2.54s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:13<00:00,  2.06s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:13<00:00,  2.25s/it]
[2025-05-28 22:19:01,156] [WARNING] [partition_parameters.py:836:_post_init_method] param `probe` in SiglipMultiheadAttentionPoolingHead not on GPU so was not broadcasted from rank 0
[2025-05-28 22:19:01,157] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.44B parameters
[2025-05-28 22:19:01,628] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.49B parameters
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[dist-0-of-8] LlavaLlamaModel(
  (llm): LlamaForCausalLM(
    (model): LlamaModel(
      (embed_tokens): Embedding(32000, 5120, padding_idx=0)
      (layers): ModuleList(
        (0-39): 40 x LlamaDecoderLayer(
          (self_attn): LlamaFlashAttention2(
            (q_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (k_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (v_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (o_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (rotary_emb): LlamaRotaryEmbedding()
          )
          (mlp): LlamaMLP(
            (gate_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (up_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (down_proj): Linear(in_features=13824, out_features=5120, bias=False)
            (act_fn): SiLU()
          )
          (input_layernorm): LlamaRMSNorm()
          (post_attention_layernorm): LlamaRMSNorm()
        )
      )
      (norm): LlamaRMSNorm()
    )
    (lm_head): Linear(in_features=5120, out_features=32000, bias=False)
  )
  (vision_tower): SiglipVisionTower(
    (vision_tower): SiglipVisionModel(
      (vision_model): SiglipVisionTransformer(
        (embeddings): SiglipVisionEmbeddings(
          (patch_embedding): Conv2d(3, 1152, kernel_size=(14, 14), stride=(14, 14), padding=valid)
          (position_embedding): Embedding(729, 1152)
        )
        (encoder): SiglipEncoder(
          (layers): ModuleList(
            (0-26): 27 x SiglipEncoderLayer(
              (self_attn): SiglipAttention(
                (k_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (v_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (q_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (out_proj): Linear(in_features=1152, out_features=1152, bias=True)
              )
              (layer_norm1): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
              (mlp): SiglipMLP(
                (activation_fn): PytorchGELUTanh()
                (fc1): Linear(in_features=1152, out_features=4304, bias=True)
                (fc2): Linear(in_features=4304, out_features=1152, bias=True)
              )
              (layer_norm2): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
            )
          )
        )
        (post_layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
        (head): SiglipMultiheadAttentionPoolingHead(
          (attention): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=1152, out_features=1152, bias=True)
          )
          (layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
          (mlp): SiglipMLP(
            (activation_fn): PytorchGELUTanh()
            (fc1): Linear(in_features=1152, out_features=4304, bias=True)
            (fc2): Linear(in_features=4304, out_features=1152, bias=True)
          )
        )
      )
    )
  )
  (mm_projector): MultimodalProjector(
    (layers): Sequential(
      (0): DownSampleBlock()
      (1): LayerNorm((4608,), eps=1e-05, elementwise_affine=True)
      (2): Linear(in_features=4608, out_features=5120, bias=True)
      (3): GELU(approximate='none')
      (4): Linear(in_features=5120, out_features=5120, bias=True)
    )
  )
)
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[dist-0-of-8] Tunable parameters:
language model True
[dist-0-of-8] vision tower True
[dist-0-of-8] mm projector True
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.234361171722412
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2339401245117188
length of dataloader: length of dataloader:13280  132801700195 
1700195
[GPU memory] before trainer [GPU memory] before trainer 3.233582019805908
3.231245994567871
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2356462478637695
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.234127998352051
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2355098724365234
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2339844703674316
Parameter Offload: Total persistent parameters: 847296 in 365 params
wandb: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
wandb: Tracking run with wandb version 0.18.7
wandb: Run data is saved locally in /lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/wandb/run-20250528_221953-0q1oguw1
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run vila_13b_path_mask
wandb: ⭐️ View project at https://wandb.ai/memmelma/VILA
wandb: 🚀 View run at https://wandb.ai/memmelma/VILA/runs/0q1oguw1
  0%|          | 0/6640 [00:00<?, ?it/s]Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
 84%|████████▍ | 5601/6640 [00:30<00:05, 182.45it/s]                                                    {'loss': 0.5196, 'learning_rate': 1.2572212428966079e-06, 'epoch': 0.84}
 84%|████████▍ | 5601/6640 [00:30<00:05, 182.45it/s] 84%|████████▍ | 5601/6640 [00:40<00:05, 182.45it/s] 84%|████████▍ | 5602/6640 [00:46<00:09, 104.30it/s]                                                    {'loss': 0.5117, 'learning_rate': 1.2548542551727837e-06, 'epoch': 0.84}
 84%|████████▍ | 5602/6640 [00:46<00:09, 104.30it/s] 84%|████████▍ | 5603/6640 [01:03<00:16, 64.21it/s]                                                    {'loss': 0.5238, 'learning_rate': 1.2524893485590462e-06, 'epoch': 0.84}
 84%|████████▍ | 5603/6640 [01:03<00:16, 64.21it/s] 84%|████████▍ | 5604/6640 [01:20<00:25, 40.36it/s]                                                   {'loss': 0.5055, 'learning_rate': 1.2501265236181736e-06, 'epoch': 0.84}
 84%|████████▍ | 5604/6640 [01:20<00:25, 40.36it/s] 84%|████████▍ | 5605/6640 [01:37<00:38, 27.04it/s]                                                   {'loss': 0.5098, 'learning_rate': 1.2477657809124632e-06, 'epoch': 0.84}
 84%|████████▍ | 5605/6640 [01:37<00:38, 27.04it/s] 84%|████████▍ | 5606/6640 [01:53<00:56, 18.42it/s]                                                   {'loss': 0.5148, 'learning_rate': 1.2454071210037033e-06, 'epoch': 0.84}
 84%|████████▍ | 5606/6640 [01:53<00:56, 18.42it/s] 84%|████████▍ | 5607/6640 [02:09<01:20, 12.76it/s]                                                   {'loss': 0.5342, 'learning_rate': 1.2430505444531937e-06, 'epoch': 0.84}
 84%|████████▍ | 5607/6640 [02:09<01:20, 12.76it/s] 84%|████████▍ | 5608/6640 [02:26<01:57,  8.79it/s]                                                   {'loss': 0.5039, 'learning_rate': 1.2406960518217325e-06, 'epoch': 0.84}
 84%|████████▍ | 5608/6640 [02:26<01:57,  8.79it/s] 84%|████████▍ | 5609/6640 [02:42<02:49,  6.08it/s]                                                   {'loss': 0.5161, 'learning_rate': 1.2383436436696328e-06, 'epoch': 0.84}
 84%|████████▍ | 5609/6640 [02:42<02:49,  6.08it/s] 84%|████████▍ | 5610/6640 [02:59<04:03,  4.23it/s]                                                   {'loss': 0.5101, 'learning_rate': 1.2359933205566987e-06, 'epoch': 0.84}
 84%|████████▍ | 5610/6640 [02:59<04:03,  4.23it/s] 85%|████████▍ | 5611/6640 [03:16<05:48,  2.95it/s]                                                   {'loss': 0.5244, 'learning_rate': 1.2336450830422452e-06, 'epoch': 0.85}
 85%|████████▍ | 5611/6640 [03:16<05:48,  2.95it/s] 85%|████████▍ | 5612/6640 [03:32<08:13,  2.08it/s]                                                   {'loss': 0.5332, 'learning_rate': 1.2312989316850932e-06, 'epoch': 0.85}
 85%|████████▍ | 5612/6640 [03:32<08:13,  2.08it/s] 85%|████████▍ | 5613/6640 [03:48<11:32,  1.48it/s]                                                   {'loss': 0.5022, 'learning_rate': 1.2289548670435568e-06, 'epoch': 0.85}
 85%|████████▍ | 5613/6640 [03:48<11:32,  1.48it/s] 85%|████████▍ | 5614/6640 [04:04<15:56,  1.07it/s]                                                   {'loss': 0.5289, 'learning_rate': 1.2266128896754703e-06, 'epoch': 0.85}
 85%|████████▍ | 5614/6640 [04:04<15:56,  1.07it/s] 85%|████████▍ | 5615/6640 [04:21<22:39,  1.33s/it]                                                   {'loss': 0.5189, 'learning_rate': 1.2242730001381532e-06, 'epoch': 0.85}
 85%|████████▍ | 5615/6640 [04:21<22:39,  1.33s/it] 85%|████████▍ | 5616/6640 [04:39<32:01,  1.88s/it]                                                   {'loss': 0.523, 'learning_rate': 1.221935198988441e-06, 'epoch': 0.85}
 85%|████████▍ | 5616/6640 [04:39<32:01,  1.88s/it] 85%|████████▍ | 5617/6640 [04:56<43:34,  2.56s/it]                                                   {'loss': 0.4875, 'learning_rate': 1.2195994867826622e-06, 'epoch': 0.85}
 85%|████████▍ | 5617/6640 [04:56<43:34,  2.56s/it] 85%|████████▍ | 5618/6640 [05:12<57:27,  3.37s/it]                                                   {'loss': 0.5003, 'learning_rate': 1.2172658640766622e-06, 'epoch': 0.85}
 85%|████████▍ | 5618/6640 [05:12<57:27,  3.37s/it] 85%|████████▍ | 5619/6640 [05:28<1:14:47,  4.40s/it]                                                     {'loss': 0.5174, 'learning_rate': 1.2149343314257733e-06, 'epoch': 0.85}
 85%|████████▍ | 5619/6640 [05:28<1:14:47,  4.40s/it] 85%|████████▍ | 5620/6640 [05:44<1:34:29,  5.56s/it]                                                     {'loss': 0.5148, 'learning_rate': 1.2126048893848396e-06, 'epoch': 0.85}
 85%|████████▍ | 5620/6640 [05:44<1:34:29,  5.56s/it] 85%|████████▍ | 5621/6640 [06:00<1:57:08,  6.90s/it]                                                     {'loss': 0.5146, 'learning_rate': 1.21027753850821e-06, 'epoch': 0.85}
 85%|████████▍ | 5621/6640 [06:00<1:57:08,  6.90s/it] 85%|████████▍ | 5622/6640 [06:16<2:22:51,  8.42s/it]                                                     {'loss': 0.5026, 'learning_rate': 1.2079522793497233e-06, 'epoch': 0.85}
 85%|████████▍ | 5622/6640 [06:16<2:22:51,  8.42s/it] 85%|████████▍ | 5623/6640 [06:32<2:46:18,  9.81s/it]                                                     {'loss': 0.496, 'learning_rate': 1.2056291124627374e-06, 'epoch': 0.85}
 85%|████████▍ | 5623/6640 [06:32<2:46:18,  9.81s/it] 85%|████████▍ | 5624/6640 [06:49<3:10:00, 11.22s/it]                                                     {'loss': 0.5204, 'learning_rate': 1.2033080384000983e-06, 'epoch': 0.85}
 85%|████████▍ | 5624/6640 [06:49<3:10:00, 11.22s/it] 85%|████████▍ | 5625/6640 [07:06<3:30:41, 12.45s/it]                                                     {'loss': 0.5014, 'learning_rate': 1.2009890577141625e-06, 'epoch': 0.85}
 85%|████████▍ | 5625/6640 [07:06<3:30:41, 12.45s/it] 85%|████████▍ | 5626/6640 [07:21<3:43:16, 13.21s/it]                                                     {'loss': 0.5012, 'learning_rate': 1.1986721709567795e-06, 'epoch': 0.85}
 85%|████████▍ | 5626/6640 [07:21<3:43:16, 13.21s/it] 85%|████████▍ | 5627/6640 [07:38<3:58:38, 14.13s/it]                                                     {'loss': 0.5033, 'learning_rate': 1.1963573786793148e-06, 'epoch': 0.85}
 85%|████████▍ | 5627/6640 [07:38<3:58:38, 14.13s/it] 85%|████████▍ | 5628/6640 [07:54<4:08:59, 14.76s/it]                                                     {'loss': 0.5011, 'learning_rate': 1.19404468143262e-06, 'epoch': 0.85}
 85%|████████▍ | 5628/6640 [07:54<4:08:59, 14.76s/it] 85%|████████▍ | 5629/6640 [08:12<4:23:09, 15.62s/it]                                                     {'loss': 0.5163, 'learning_rate': 1.1917340797670584e-06, 'epoch': 0.85}
 85%|████████▍ | 5629/6640 [08:12<4:23:09, 15.62s/it] 85%|████████▍ | 5630/6640 [08:28<4:25:02, 15.74s/it]                                                     {'loss': 0.5227, 'learning_rate': 1.189425574232491e-06, 'epoch': 0.85}
 85%|████████▍ | 5630/6640 [08:28<4:25:02, 15.74s/it] 85%|████████▍ | 5631/6640 [08:45<4:27:30, 15.91s/it]                                                     {'loss': 0.5126, 'learning_rate': 1.1871191653782764e-06, 'epoch': 0.85}
 85%|████████▍ | 5631/6640 [08:45<4:27:30, 15.91s/it] 85%|████████▍ | 5632/6640 [09:01<4:30:06, 16.08s/it]                                                     {'loss': 0.526, 'learning_rate': 1.1848148537532845e-06, 'epoch': 0.85}
 85%|████████▍ | 5632/6640 [09:01<4:30:06, 16.08s/it] 85%|████████▍ | 5633/6640 [09:17<4:30:15, 16.10s/it]                                                     {'loss': 0.5087, 'learning_rate': 1.182512639905874e-06, 'epoch': 0.85}
 85%|████████▍ | 5633/6640 [09:17<4:30:15, 16.10s/it] 85%|████████▍ | 5634/6640 [09:35<4:36:08, 16.47s/it]                                                     {'loss': 0.5104, 'learning_rate': 1.1802125243839146e-06, 'epoch': 0.85}
 85%|████████▍ | 5634/6640 [09:35<4:36:08, 16.47s/it] 85%|████████▍ | 5635/6640 [09:51<4:37:10, 16.55s/it]                                                     {'loss': 0.4972, 'learning_rate': 1.1779145077347653e-06, 'epoch': 0.85}
 85%|████████▍ | 5635/6640 [09:51<4:37:10, 16.55s/it] 85%|████████▍ | 5636/6640 [10:07<4:34:39, 16.41s/it]                                                     {'loss': 0.5133, 'learning_rate': 1.1756185905053019e-06, 'epoch': 0.85}
 85%|████████▍ | 5636/6640 [10:07<4:34:39, 16.41s/it] 85%|████████▍ | 5637/6640 [10:25<4:39:05, 16.70s/it]                                                     {'loss': 0.516, 'learning_rate': 1.1733247732418828e-06, 'epoch': 0.85}
 85%|████████▍ | 5637/6640 [10:25<4:39:05, 16.70s/it] 85%|████████▍ | 5638/6640 [10:41<4:35:07, 16.47s/it]                                                     {'loss': 0.4991, 'learning_rate': 1.1710330564903782e-06, 'epoch': 0.85}
 85%|████████▍ | 5638/6640 [10:41<4:35:07, 16.47s/it] 85%|████████▍ | 5639/6640 [10:56<4:30:28, 16.21s/it]                                                     {'loss': 0.5158, 'learning_rate': 1.1687434407961584e-06, 'epoch': 0.85}
 85%|████████▍ | 5639/6640 [10:56<4:30:28, 16.21s/it] 85%|████████▍ | 5640/6640 [11:13<4:30:42, 16.24s/it]                                                     {'loss': 0.5222, 'learning_rate': 1.1664559267040821e-06, 'epoch': 0.85}
 85%|████████▍ | 5640/6640 [11:13<4:30:42, 16.24s/it] 85%|████████▍ | 5641/6640 [11:29<4:28:15, 16.11s/it]                                                     {'loss': 0.4936, 'learning_rate': 1.1641705147585258e-06, 'epoch': 0.85}
 85%|████████▍ | 5641/6640 [11:29<4:28:15, 16.11s/it] 85%|████████▍ | 5642/6640 [11:45<4:29:35, 16.21s/it]                                                     {'loss': 0.5141, 'learning_rate': 1.1618872055033503e-06, 'epoch': 0.85}
 85%|████████▍ | 5642/6640 [11:45<4:29:35, 16.21s/it] 85%|████████▍ | 5643/6640 [12:02<4:31:08, 16.32s/it]                                                     {'loss': 0.517, 'learning_rate': 1.1596059994819253e-06, 'epoch': 0.85}
 85%|████████▍ | 5643/6640 [12:02<4:31:08, 16.32s/it] 85%|████████▌ | 5644/6640 [12:17<4:28:13, 16.16s/it]                                                     {'loss': 0.5231, 'learning_rate': 1.157326897237111e-06, 'epoch': 0.85}
 85%|████████▌ | 5644/6640 [12:17<4:28:13, 16.16s/it] 85%|████████▌ | 5645/6640 [12:33<4:26:36, 16.08s/it]                                                     {'loss': 0.5259, 'learning_rate': 1.1550498993112812e-06, 'epoch': 0.85}
 85%|████████▌ | 5645/6640 [12:33<4:26:36, 16.08s/it] 85%|████████▌ | 5646/6640 [12:49<4:26:37, 16.09s/it]                                                     {'loss': 0.5092, 'learning_rate': 1.1527750062462928e-06, 'epoch': 0.85}
 85%|████████▌ | 5646/6640 [12:49<4:26:37, 16.09s/it] 85%|████████▌ | 5647/6640 [13:05<4:24:46, 16.00s/it]                                                     {'loss': 0.5097, 'learning_rate': 1.1505022185835124e-06, 'epoch': 0.85}
 85%|████████▌ | 5647/6640 [13:05<4:24:46, 16.00s/it] 85%|████████▌ | 5648/6640 [13:21<4:23:52, 15.96s/it]                                                     {'loss': 0.5002, 'learning_rate': 1.1482315368638041e-06, 'epoch': 0.85}
 85%|████████▌ | 5648/6640 [13:21<4:23:52, 15.96s/it] 85%|████████▌ | 5649/6640 [13:39<4:34:18, 16.61s/it]                                                     {'loss': 0.5015, 'learning_rate': 1.1459629616275236e-06, 'epoch': 0.85}
 85%|████████▌ | 5649/6640 [13:39<4:34:18, 16.61s/it]6 AutoResumeHook: Checking whether to suspend...
50 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
 85%|████████▌ | 5650/6640 [13:56<4:34:34, 16.64s/it]7 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
                                                     {'loss': 0.5011, 'learning_rate': 1.143696493414539e-06, 'epoch': 0.85}
 85%|████████▌ | 5650/6640 [13:56<4:34:34, 16.64s/it] 85%|████████▌ | 5651/6640 [14:12<4:32:09, 16.51s/it]                                                     {'loss': 0.5145, 'learning_rate': 1.1414321327642019e-06, 'epoch': 0.85}
 85%|████████▌ | 5651/6640 [14:12<4:32:09, 16.51s/it] 85%|████████▌ | 5652/6640 [14:27<4:26:25, 16.18s/it]                                                     {'loss': 0.5235, 'learning_rate': 1.1391698802153728e-06, 'epoch': 0.85}
 85%|████████▌ | 5652/6640 [14:27<4:26:25, 16.18s/it] 85%|████████▌ | 5653/6640 [14:44<4:27:00, 16.23s/it]                                                     {'loss': 0.4971, 'learning_rate': 1.1369097363064064e-06, 'epoch': 0.85}
 85%|████████▌ | 5653/6640 [14:44<4:27:00, 16.23s/it] 85%|████████▌ | 5654/6640 [15:01<4:31:36, 16.53s/it]                                                     {'loss': 0.5175, 'learning_rate': 1.134651701575157e-06, 'epoch': 0.85}
 85%|████████▌ | 5654/6640 [15:01<4:31:36, 16.53s/it] 85%|████████▌ | 5655/6640 [15:17<4:28:27, 16.35s/it]                                                     {'loss': 0.5114, 'learning_rate': 1.1323957765589766e-06, 'epoch': 0.85}
 85%|████████▌ | 5655/6640 [15:17<4:28:27, 16.35s/it] 85%|████████▌ | 5656/6640 [15:33<4:28:57, 16.40s/it]                                                     {'loss': 0.51, 'learning_rate': 1.1301419617947118e-06, 'epoch': 0.85}
 85%|████████▌ | 5656/6640 [15:33<4:28:57, 16.40s/it] 85%|████████▌ | 5657/6640 [15:50<4:31:44, 16.59s/it]                                                     {'loss': 0.523, 'learning_rate': 1.1278902578187157e-06, 'epoch': 0.85}
 85%|████████▌ | 5657/6640 [15:50<4:31:44, 16.59s/it] 85%|████████▌ | 5658/6640 [16:07<4:31:53, 16.61s/it]                                                     {'loss': 0.5134, 'learning_rate': 1.125640665166825e-06, 'epoch': 0.85}
 85%|████████▌ | 5658/6640 [16:07<4:31:53, 16.61s/it] 85%|████████▌ | 5659/6640 [16:23<4:30:02, 16.52s/it]                                                     {'loss': 0.5064, 'learning_rate': 1.1233931843743906e-06, 'epoch': 0.85}
 85%|████████▌ | 5659/6640 [16:23<4:30:02, 16.52s/it] 85%|████████▌ | 5660/6640 [16:40<4:28:16, 16.43s/it]                                                     {'loss': 0.5036, 'learning_rate': 1.121147815976248e-06, 'epoch': 0.85}
 85%|████████▌ | 5660/6640 [16:40<4:28:16, 16.43s/it] 85%|████████▌ | 5661/6640 [16:56<4:28:51, 16.48s/it]                                                     {'loss': 0.4989, 'learning_rate': 1.1189045605067362e-06, 'epoch': 0.85}
 85%|████████▌ | 5661/6640 [16:56<4:28:51, 16.48s/it] 85%|████████▌ | 5662/6640 [17:13<4:28:37, 16.48s/it]                                                     {'loss': 0.4946, 'learning_rate': 1.1166634184996894e-06, 'epoch': 0.85}
 85%|████████▌ | 5662/6640 [17:13<4:28:37, 16.48s/it] 85%|████████▌ | 5663/6640 [17:31<4:38:10, 17.08s/it]                                                     {'loss': 0.5094, 'learning_rate': 1.1144243904884399e-06, 'epoch': 0.85}
 85%|████████▌ | 5663/6640 [17:31<4:38:10, 17.08s/it] 85%|████████▌ | 5664/6640 [17:47<4:32:57, 16.78s/it]                                                     {'loss': 0.5005, 'learning_rate': 1.1121874770058171e-06, 'epoch': 0.85}
 85%|████████▌ | 5664/6640 [17:47<4:32:57, 16.78s/it] 85%|████████▌ | 5665/6640 [18:03<4:26:15, 16.38s/it]                                                     {'loss': 0.5103, 'learning_rate': 1.109952678584144e-06, 'epoch': 0.85}
 85%|████████▌ | 5665/6640 [18:03<4:26:15, 16.38s/it] 85%|████████▌ | 5666/6640 [18:19<4:27:03, 16.45s/it]                                                     {'loss': 0.5143, 'learning_rate': 1.1077199957552453e-06, 'epoch': 0.85}
 85%|████████▌ | 5666/6640 [18:19<4:27:03, 16.45s/it] 85%|████████▌ | 5667/6640 [18:36<4:27:02, 16.47s/it]                                                     {'loss': 0.5112, 'learning_rate': 1.1054894290504348e-06, 'epoch': 0.85}
 85%|████████▌ | 5667/6640 [18:36<4:27:02, 16.47s/it] 85%|████████▌ | 5668/6640 [18:52<4:25:54, 16.41s/it]                                                     {'loss': 0.5139, 'learning_rate': 1.1032609790005344e-06, 'epoch': 0.85}
 85%|████████▌ | 5668/6640 [18:52<4:25:54, 16.41s/it] 85%|████████▌ | 5669/6640 [19:08<4:24:52, 16.37s/it]                                                     {'loss': 0.513, 'learning_rate': 1.1010346461358501e-06, 'epoch': 0.85}
 85%|████████▌ | 5669/6640 [19:08<4:24:52, 16.37s/it] 85%|████████▌ | 5670/6640 [19:25<4:25:15, 16.41s/it]                                                     {'loss': 0.5268, 'learning_rate': 1.0988104309861913e-06, 'epoch': 0.85}
 85%|████████▌ | 5670/6640 [19:25<4:25:15, 16.41s/it] 85%|████████▌ | 5671/6640 [19:41<4:22:36, 16.26s/it]                                                     {'loss': 0.4997, 'learning_rate': 1.0965883340808614e-06, 'epoch': 0.85}
 85%|████████▌ | 5671/6640 [19:41<4:22:36, 16.26s/it] 85%|████████▌ | 5672/6640 [19:58<4:26:26, 16.51s/it]                                                     {'loss': 0.5026, 'learning_rate': 1.0943683559486607e-06, 'epoch': 0.85}
 85%|████████▌ | 5672/6640 [19:58<4:26:26, 16.51s/it] 85%|████████▌ | 5673/6640 [20:14<4:23:24, 16.34s/it]                                                     {'loss': 0.5205, 'learning_rate': 1.0921504971178854e-06, 'epoch': 0.85}
 85%|████████▌ | 5673/6640 [20:14<4:23:24, 16.34s/it] 85%|████████▌ | 5674/6640 [20:29<4:18:35, 16.06s/it]                                                     {'loss': 0.511, 'learning_rate': 1.0899347581163222e-06, 'epoch': 0.85}
 85%|████████▌ | 5674/6640 [20:29<4:18:35, 16.06s/it] 85%|████████▌ | 5675/6640 [20:45<4:18:38, 16.08s/it]                                                     {'loss': 0.5194, 'learning_rate': 1.0877211394712617e-06, 'epoch': 0.85}
 85%|████████▌ | 5675/6640 [20:45<4:18:38, 16.08s/it] 85%|████████▌ | 5676/6640 [21:03<4:24:18, 16.45s/it]                                                     {'loss': 0.5076, 'learning_rate': 1.0855096417094813e-06, 'epoch': 0.85}
 85%|████████▌ | 5676/6640 [21:03<4:24:18, 16.45s/it] 85%|████████▌ | 5677/6640 [21:19<4:22:33, 16.36s/it]                                                     {'loss': 0.4894, 'learning_rate': 1.0833002653572633e-06, 'epoch': 0.85}
 85%|████████▌ | 5677/6640 [21:19<4:22:33, 16.36s/it] 86%|████████▌ | 5678/6640 [21:36<4:26:35, 16.63s/it]                                                     {'loss': 0.5017, 'learning_rate': 1.0810930109403772e-06, 'epoch': 0.86}
 86%|████████▌ | 5678/6640 [21:36<4:26:35, 16.63s/it] 86%|████████▌ | 5679/6640 [21:53<4:26:44, 16.65s/it]                                                     {'loss': 0.5119, 'learning_rate': 1.0788878789840895e-06, 'epoch': 0.86}
 86%|████████▌ | 5679/6640 [21:53<4:26:44, 16.65s/it] 86%|████████▌ | 5680/6640 [22:10<4:27:17, 16.71s/it]                                                     {'loss': 0.5016, 'learning_rate': 1.076684870013165e-06, 'epoch': 0.86}
 86%|████████▌ | 5680/6640 [22:10<4:27:17, 16.71s/it] 86%|████████▌ | 5681/6640 [22:25<4:22:23, 16.42s/it]                                                     {'loss': 0.5253, 'learning_rate': 1.0744839845518585e-06, 'epoch': 0.86}
 86%|████████▌ | 5681/6640 [22:25<4:22:23, 16.42s/it] 86%|████████▌ | 5682/6640 [22:42<4:22:37, 16.45s/it]                                                     {'loss': 0.5191, 'learning_rate': 1.0722852231239245e-06, 'epoch': 0.86}
 86%|████████▌ | 5682/6640 [22:42<4:22:37, 16.45s/it] 86%|████████▌ | 5683/6640 [23:00<4:30:54, 16.98s/it]                                                     {'loss': 0.5115, 'learning_rate': 1.0700885862526066e-06, 'epoch': 0.86}
 86%|████████▌ | 5683/6640 [23:00<4:30:54, 16.98s/it] 86%|████████▌ | 5684/6640 [23:18<4:32:30, 17.10s/it]                                                     {'loss': 0.5074, 'learning_rate': 1.0678940744606469e-06, 'epoch': 0.86}
 86%|████████▌ | 5684/6640 [23:18<4:32:30, 17.10s/it] 86%|████████▌ | 5685/6640 [23:34<4:27:26, 16.80s/it]                                                     {'loss': 0.4806, 'learning_rate': 1.0657016882702764e-06, 'epoch': 0.86}
 86%|████████▌ | 5685/6640 [23:34<4:27:26, 16.80s/it] 86%|████████▌ | 5686/6640 [23:50<4:22:33, 16.51s/it]                                                     {'loss': 0.5174, 'learning_rate': 1.063511428203231e-06, 'epoch': 0.86}
 86%|████████▌ | 5686/6640 [23:50<4:22:33, 16.51s/it] 86%|████████▌ | 5687/6640 [24:06<4:22:30, 16.53s/it]                                                     {'loss': 0.521, 'learning_rate': 1.0613232947807294e-06, 'epoch': 0.86}
 86%|████████▌ | 5687/6640 [24:06<4:22:30, 16.53s/it] 86%|████████▌ | 5688/6640 [24:22<4:17:48, 16.25s/it]                                                     {'loss': 0.5024, 'learning_rate': 1.0591372885234885e-06, 'epoch': 0.86}
 86%|████████▌ | 5688/6640 [24:22<4:17:48, 16.25s/it] 86%|████████▌ | 5689/6640 [24:38<4:15:48, 16.14s/it]                                                     {'loss': 0.4976, 'learning_rate': 1.056953409951721e-06, 'epoch': 0.86}
 86%|████████▌ | 5689/6640 [24:38<4:15:48, 16.14s/it] 86%|████████▌ | 5690/6640 [24:53<4:13:39, 16.02s/it]                                                     {'loss': 0.5228, 'learning_rate': 1.0547716595851298e-06, 'epoch': 0.86}
 86%|████████▌ | 5690/6640 [24:53<4:13:39, 16.02s/it] 86%|████████▌ | 5691/6640 [25:12<4:23:47, 16.68s/it]                                                     {'loss': 0.4914, 'learning_rate': 1.0525920379429155e-06, 'epoch': 0.86}
 86%|████████▌ | 5691/6640 [25:12<4:23:47, 16.68s/it] 86%|████████▌ | 5692/6640 [25:27<4:19:55, 16.45s/it]                                                     {'loss': 0.5137, 'learning_rate': 1.0504145455437664e-06, 'epoch': 0.86}
 86%|████████▌ | 5692/6640 [25:27<4:19:55, 16.45s/it] 86%|████████▌ | 5693/6640 [25:44<4:19:00, 16.41s/it]                                                     {'loss': 0.516, 'learning_rate': 1.0482391829058691e-06, 'epoch': 0.86}
 86%|████████▌ | 5693/6640 [25:44<4:19:00, 16.41s/it] 86%|████████▌ | 5694/6640 [26:00<4:20:08, 16.50s/it]                                                     {'loss': 0.517, 'learning_rate': 1.0460659505469006e-06, 'epoch': 0.86}
 86%|████████▌ | 5694/6640 [26:00<4:20:08, 16.50s/it] 86%|████████▌ | 5695/6640 [26:18<4:24:01, 16.76s/it]                                                     {'loss': 0.5063, 'learning_rate': 1.0438948489840327e-06, 'epoch': 0.86}
 86%|████████▌ | 5695/6640 [26:18<4:24:01, 16.76s/it] 86%|████████▌ | 5696/6640 [26:35<4:25:42, 16.89s/it]                                                     {'loss': 0.4934, 'learning_rate': 1.0417258787339314e-06, 'epoch': 0.86}
 86%|████████▌ | 5696/6640 [26:35<4:25:42, 16.89s/it] 86%|████████▌ | 5697/6640 [26:51<4:19:34, 16.52s/it]                                                     {'loss': 0.511, 'learning_rate': 1.0395590403127487e-06, 'epoch': 0.86}
 86%|████████▌ | 5697/6640 [26:51<4:19:34, 16.52s/it] 86%|████████▌ | 5698/6640 [27:06<4:13:57, 16.18s/it]                                                     {'loss': 0.5095, 'learning_rate': 1.037394334236137e-06, 'epoch': 0.86}
 86%|████████▌ | 5698/6640 [27:06<4:13:57, 16.18s/it] 86%|████████▌ | 5699/6640 [27:23<4:15:14, 16.27s/it]                                                     {'loss': 0.4988, 'learning_rate': 1.0352317610192376e-06, 'epoch': 0.86}
 86%|████████▌ | 5699/6640 [27:23<4:15:14, 16.27s/it]6 AutoResumeHook: Checking whether to suspend...
05 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
 86%|████████▌ | 5700/6640 [27:39<4:16:11, 16.35s/it]7 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
                                                     {'loss': 0.5098, 'learning_rate': 1.0330713211766864e-06, 'epoch': 0.86}
 86%|████████▌ | 5700/6640 [27:39<4:16:11, 16.35s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5700/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5700/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5700/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 86%|████████▌ | 5701/6640 [29:22<11:01:10, 42.25s/it]                                                      {'loss': 0.4806, 'learning_rate': 1.0309130152226077e-06, 'epoch': 0.86}
 86%|████████▌ | 5701/6640 [29:22<11:01:10, 42.25s/it] 86%|████████▌ | 5702/6640 [29:38<8:56:40, 34.33s/it]                                                      {'loss': 0.4996, 'learning_rate': 1.0287568436706208e-06, 'epoch': 0.86}
 86%|████████▌ | 5702/6640 [29:38<8:56:40, 34.33s/it] 86%|████████▌ | 5703/6640 [29:54<7:31:21, 28.90s/it]                                                     {'loss': 0.492, 'learning_rate': 1.0266028070338374e-06, 'epoch': 0.86}
 86%|████████▌ | 5703/6640 [29:54<7:31:21, 28.90s/it] 86%|████████▌ | 5704/6640 [30:10<6:33:27, 25.22s/it]                                                     {'loss': 0.4911, 'learning_rate': 1.0244509058248608e-06, 'epoch': 0.86}
 86%|████████▌ | 5704/6640 [30:10<6:33:27, 25.22s/it] 86%|████████▌ | 5705/6640 [30:26<5:49:27, 22.43s/it]                                                     {'loss': 0.5138, 'learning_rate': 1.022301140555787e-06, 'epoch': 0.86}
 86%|████████▌ | 5705/6640 [30:26<5:49:27, 22.43s/it] 86%|████████▌ | 5706/6640 [30:44<5:24:38, 20.85s/it]                                                     {'loss': 0.5052, 'learning_rate': 1.0201535117382e-06, 'epoch': 0.86}
 86%|████████▌ | 5706/6640 [30:44<5:24:38, 20.85s/it] 86%|████████▌ | 5707/6640 [31:00<5:02:14, 19.44s/it]                                                     {'loss': 0.5237, 'learning_rate': 1.0180080198831778e-06, 'epoch': 0.86}
 86%|████████▌ | 5707/6640 [31:00<5:02:14, 19.44s/it] 86%|████████▌ | 5708/6640 [31:18<4:54:32, 18.96s/it]                                                     {'loss': 0.5344, 'learning_rate': 1.0158646655012905e-06, 'epoch': 0.86}
 86%|████████▌ | 5708/6640 [31:18<4:54:32, 18.96s/it] 86%|████████▌ | 5709/6640 [31:34<4:40:37, 18.09s/it]                                                     {'loss': 0.535, 'learning_rate': 1.0137234491026015e-06, 'epoch': 0.86}
 86%|████████▌ | 5709/6640 [31:34<4:40:37, 18.09s/it] 86%|████████▌ | 5710/6640 [31:51<4:35:30, 17.78s/it]                                                     {'loss': 0.5165, 'learning_rate': 1.0115843711966577e-06, 'epoch': 0.86}
 86%|████████▌ | 5710/6640 [31:51<4:35:30, 17.78s/it] 86%|████████▌ | 5711/6640 [32:08<4:34:04, 17.70s/it]                                                     {'loss': 0.5199, 'learning_rate': 1.0094474322925062e-06, 'epoch': 0.86}
 86%|████████▌ | 5711/6640 [32:08<4:34:04, 17.70s/it] 86%|████████▌ | 5712/6640 [32:25<4:27:47, 17.31s/it]                                                     {'loss': 0.5127, 'learning_rate': 1.0073126328986805e-06, 'epoch': 0.86}
 86%|████████▌ | 5712/6640 [32:25<4:27:47, 17.31s/it] 86%|████████▌ | 5713/6640 [32:42<4:29:21, 17.43s/it]                                                     {'loss': 0.512, 'learning_rate': 1.0051799735232038e-06, 'epoch': 0.86}
 86%|████████▌ | 5713/6640 [32:42<4:29:21, 17.43s/it] 86%|████████▌ | 5714/6640 [32:58<4:23:03, 17.04s/it]                                                     {'loss': 0.52, 'learning_rate': 1.0030494546735958e-06, 'epoch': 0.86}
 86%|████████▌ | 5714/6640 [32:58<4:23:03, 17.04s/it] 86%|████████▌ | 5715/6640 [33:15<4:22:01, 17.00s/it]                                                     {'loss': 0.495, 'learning_rate': 1.000921076856859e-06, 'epoch': 0.86}
 86%|████████▌ | 5715/6640 [33:15<4:22:01, 17.00s/it] 86%|████████▌ | 5716/6640 [33:31<4:16:54, 16.68s/it]                                                     {'loss': 0.4957, 'learning_rate': 9.987948405794912e-07, 'epoch': 0.86}
 86%|████████▌ | 5716/6640 [33:31<4:16:54, 16.68s/it] 86%|████████▌ | 5717/6640 [33:47<4:14:18, 16.53s/it]                                                     {'loss': 0.5294, 'learning_rate': 9.966707463474789e-07, 'epoch': 0.86}
 86%|████████▌ | 5717/6640 [33:47<4:14:18, 16.53s/it] 86%|████████▌ | 5718/6640 [34:04<4:13:36, 16.50s/it]                                                     {'loss': 0.5011, 'learning_rate': 9.945487946663036e-07, 'epoch': 0.86}
 86%|████████▌ | 5718/6640 [34:04<4:13:36, 16.50s/it] 86%|████████▌ | 5719/6640 [34:20<4:11:30, 16.39s/it]                                                     {'loss': 0.5232, 'learning_rate': 9.924289860409264e-07, 'epoch': 0.86}
 86%|████████▌ | 5719/6640 [34:20<4:11:30, 16.39s/it] 86%|████████▌ | 5720/6640 [34:37<4:12:24, 16.46s/it]                                                     {'loss': 0.5321, 'learning_rate': 9.903113209758098e-07, 'epoch': 0.86}
 86%|████████▌ | 5720/6640 [34:37<4:12:24, 16.46s/it] 86%|████████▌ | 5721/6640 [34:53<4:13:57, 16.58s/it]                                                     {'loss': 0.5038, 'learning_rate': 9.88195799974898e-07, 'epoch': 0.86}
 86%|████████▌ | 5721/6640 [34:53<4:13:57, 16.58s/it] 86%|████████▌ | 5722/6640 [35:10<4:13:31, 16.57s/it]                                                     {'loss': 0.5111, 'learning_rate': 9.86082423541631e-07, 'epoch': 0.86}
 86%|████████▌ | 5722/6640 [35:10<4:13:31, 16.57s/it] 86%|████████▌ | 5723/6640 [35:26<4:10:23, 16.38s/it]                                                     {'loss': 0.5253, 'learning_rate': 9.839711921789363e-07, 'epoch': 0.86}
 86%|████████▌ | 5723/6640 [35:26<4:10:23, 16.38s/it] 86%|████████▌ | 5724/6640 [35:42<4:08:09, 16.25s/it]                                                     {'loss': 0.5068, 'learning_rate': 9.818621063892276e-07, 'epoch': 0.86}
 86%|████████▌ | 5724/6640 [35:42<4:08:09, 16.25s/it] 86%|████████▌ | 5725/6640 [35:58<4:07:23, 16.22s/it]                                                     {'loss': 0.5101, 'learning_rate': 9.79755166674411e-07, 'epoch': 0.86}
 86%|████████▌ | 5725/6640 [35:58<4:07:23, 16.22s/it] 86%|████████▌ | 5726/6640 [36:15<4:12:24, 16.57s/it]                                                     {'loss': 0.5264, 'learning_rate': 9.776503735358833e-07, 'epoch': 0.86}
 86%|████████▌ | 5726/6640 [36:15<4:12:24, 16.57s/it] 86%|████████▋ | 5727/6640 [36:32<4:10:41, 16.47s/it]                                                     {'loss': 0.5058, 'learning_rate': 9.755477274745284e-07, 'epoch': 0.86}
 86%|████████▋ | 5727/6640 [36:32<4:10:41, 16.47s/it] 86%|████████▋ | 5728/6640 [36:49<4:13:54, 16.70s/it]                                                     {'loss': 0.5004, 'learning_rate': 9.734472289907182e-07, 'epoch': 0.86}
 86%|████████▋ | 5728/6640 [36:49<4:13:54, 16.70s/it] 86%|████████▋ | 5729/6640 [37:05<4:11:21, 16.56s/it]                                                     {'loss': 0.5057, 'learning_rate': 9.713488785843161e-07, 'epoch': 0.86}
 86%|████████▋ | 5729/6640 [37:05<4:11:21, 16.56s/it] 86%|████████▋ | 5730/6640 [37:21<4:09:18, 16.44s/it]                                                     {'loss': 0.492, 'learning_rate': 9.692526767546727e-07, 'epoch': 0.86}
 86%|████████▋ | 5730/6640 [37:21<4:09:18, 16.44s/it] 86%|████████▋ | 5731/6640 [37:37<4:06:47, 16.29s/it]                                                     {'loss': 0.5206, 'learning_rate': 9.671586240006292e-07, 'epoch': 0.86}
 86%|████████▋ | 5731/6640 [37:37<4:06:47, 16.29s/it] 86%|████████▋ | 5732/6640 [37:53<4:05:04, 16.19s/it]                                                     {'loss': 0.5157, 'learning_rate': 9.650667208205145e-07, 'epoch': 0.86}
 86%|████████▋ | 5732/6640 [37:53<4:05:04, 16.19s/it] 86%|████████▋ | 5733/6640 [38:09<4:05:03, 16.21s/it]                                                     {'loss': 0.5094, 'learning_rate': 9.629769677121414e-07, 'epoch': 0.86}
 86%|████████▋ | 5733/6640 [38:09<4:05:03, 16.21s/it] 86%|████████▋ | 5734/6640 [38:27<4:08:31, 16.46s/it]                                                     {'loss': 0.5129, 'learning_rate': 9.608893651728179e-07, 'epoch': 0.86}
 86%|████████▋ | 5734/6640 [38:27<4:08:31, 16.46s/it] 86%|████████▋ | 5735/6640 [38:43<4:07:14, 16.39s/it]                                                     {'loss': 0.5053, 'learning_rate': 9.588039136993366e-07, 'epoch': 0.86}
 86%|████████▋ | 5735/6640 [38:43<4:07:14, 16.39s/it] 86%|████████▋ | 5736/6640 [38:58<4:03:42, 16.18s/it]                                                     {'loss': 0.5165, 'learning_rate': 9.567206137879804e-07, 'epoch': 0.86}
 86%|████████▋ | 5736/6640 [38:58<4:03:42, 16.18s/it] 86%|████████▋ | 5737/6640 [39:15<4:04:00, 16.21s/it]                                                     {'loss': 0.5039, 'learning_rate': 9.546394659345192e-07, 'epoch': 0.86}
 86%|████████▋ | 5737/6640 [39:15<4:04:00, 16.21s/it] 86%|████████▋ | 5738/6640 [39:32<4:06:46, 16.42s/it]                                                     {'loss': 0.501, 'learning_rate': 9.525604706342073e-07, 'epoch': 0.86}
 86%|████████▋ | 5738/6640 [39:32<4:06:46, 16.42s/it] 86%|████████▋ | 5739/6640 [39:48<4:05:44, 16.36s/it]                                                     {'loss': 0.5082, 'learning_rate': 9.50483628381792e-07, 'epoch': 0.86}
 86%|████████▋ | 5739/6640 [39:48<4:05:44, 16.36s/it] 86%|████████▋ | 5740/6640 [40:04<4:04:04, 16.27s/it]                                                     {'loss': 0.4883, 'learning_rate': 9.484089396715057e-07, 'epoch': 0.86}
 86%|████████▋ | 5740/6640 [40:04<4:04:04, 16.27s/it] 86%|████████▋ | 5741/6640 [40:20<4:01:55, 16.15s/it]                                                     {'loss': 0.5086, 'learning_rate': 9.463364049970691e-07, 'epoch': 0.86}
 86%|████████▋ | 5741/6640 [40:20<4:01:55, 16.15s/it] 86%|████████▋ | 5742/6640 [40:36<4:03:41, 16.28s/it]                                                     {'loss': 0.498, 'learning_rate': 9.442660248516889e-07, 'epoch': 0.86}
 86%|████████▋ | 5742/6640 [40:36<4:03:41, 16.28s/it] 86%|████████▋ | 5743/6640 [40:53<4:04:24, 16.35s/it]                                                     {'loss': 0.5266, 'learning_rate': 9.421977997280596e-07, 'epoch': 0.86}
 86%|████████▋ | 5743/6640 [40:53<4:04:24, 16.35s/it] 87%|████████▋ | 5744/6640 [41:09<4:04:12, 16.35s/it]                                                     {'loss': 0.5121, 'learning_rate': 9.401317301183655e-07, 'epoch': 0.87}
 87%|████████▋ | 5744/6640 [41:09<4:04:12, 16.35s/it] 87%|████████▋ | 5745/6640 [41:26<4:05:21, 16.45s/it]                                                     {'loss': 0.495, 'learning_rate': 9.380678165142732e-07, 'epoch': 0.87}
 87%|████████▋ | 5745/6640 [41:26<4:05:21, 16.45s/it] 87%|████████▋ | 5746/6640 [41:42<4:03:28, 16.34s/it]                                                     {'loss': 0.5164, 'learning_rate': 9.36006059406942e-07, 'epoch': 0.87}
 87%|████████▋ | 5746/6640 [41:42<4:03:28, 16.34s/it] 87%|████████▋ | 5747/6640 [41:58<4:02:30, 16.29s/it]                                                     {'loss': 0.5265, 'learning_rate': 9.339464592870107e-07, 'epoch': 0.87}
 87%|████████▋ | 5747/6640 [41:58<4:02:30, 16.29s/it] 87%|████████▋ | 5748/6640 [42:15<4:03:06, 16.35s/it]                                                     {'loss': 0.513, 'learning_rate': 9.318890166446115e-07, 'epoch': 0.87}
 87%|████████▋ | 5748/6640 [42:15<4:03:06, 16.35s/it] 87%|████████▋ | 5749/6640 [42:31<4:02:13, 16.31s/it]                                                     {'loss': 0.5173, 'learning_rate': 9.298337319693596e-07, 'epoch': 0.87}
 87%|████████▋ | 5749/6640 [42:31<4:02:13, 16.31s/it]53 AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
07 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
 87%|████████▋ | 5750/6640 [42:48<4:05:14, 16.53s/it]2 AutoResumeHook: Checking whether to suspend...
                                                     {'loss': 0.5225, 'learning_rate': 9.277806057503592e-07, 'epoch': 0.87}
 87%|████████▋ | 5750/6640 [42:48<4:05:14, 16.53s/it] 87%|████████▋ | 5751/6640 [43:04<4:01:26, 16.30s/it]                                                     {'loss': 0.4973, 'learning_rate': 9.257296384761971e-07, 'epoch': 0.87}
 87%|████████▋ | 5751/6640 [43:04<4:01:26, 16.30s/it] 87%|████████▋ | 5752/6640 [43:20<3:59:48, 16.20s/it]                                                     {'loss': 0.5151, 'learning_rate': 9.236808306349498e-07, 'epoch': 0.87}
 87%|████████▋ | 5752/6640 [43:20<3:59:48, 16.20s/it] 87%|████████▋ | 5753/6640 [43:36<4:01:08, 16.31s/it]                                                     {'loss': 0.5246, 'learning_rate': 9.216341827141772e-07, 'epoch': 0.87}
 87%|████████▋ | 5753/6640 [43:36<4:01:08, 16.31s/it] 87%|████████▋ | 5754/6640 [43:52<3:58:48, 16.17s/it]                                                     {'loss': 0.4833, 'learning_rate': 9.195896952009287e-07, 'epoch': 0.87}
 87%|████████▋ | 5754/6640 [43:52<3:58:48, 16.17s/it] 87%|████████▋ | 5755/6640 [44:08<3:58:58, 16.20s/it]                                                     {'loss': 0.4916, 'learning_rate': 9.175473685817371e-07, 'epoch': 0.87}
 87%|████████▋ | 5755/6640 [44:08<3:58:58, 16.20s/it] 87%|████████▋ | 5756/6640 [44:25<4:01:08, 16.37s/it]                                                     {'loss': 0.4968, 'learning_rate': 9.155072033426194e-07, 'epoch': 0.87}
 87%|████████▋ | 5756/6640 [44:25<4:01:08, 16.37s/it] 87%|████████▋ | 5757/6640 [44:41<4:00:25, 16.34s/it]                                                     {'loss': 0.5066, 'learning_rate': 9.134691999690815e-07, 'epoch': 0.87}
 87%|████████▋ | 5757/6640 [44:41<4:00:25, 16.34s/it] 87%|████████▋ | 5758/6640 [44:59<4:05:46, 16.72s/it]                                                     {'loss': 0.5106, 'learning_rate': 9.114333589461144e-07, 'epoch': 0.87}
 87%|████████▋ | 5758/6640 [44:59<4:05:46, 16.72s/it] 87%|████████▋ | 5759/6640 [45:15<4:04:36, 16.66s/it]                                                     {'loss': 0.5033, 'learning_rate': 9.093996807581929e-07, 'epoch': 0.87}
 87%|████████▋ | 5759/6640 [45:15<4:04:36, 16.66s/it] 87%|████████▋ | 5760/6640 [45:33<4:06:49, 16.83s/it]                                                     {'loss': 0.5115, 'learning_rate': 9.073681658892775e-07, 'epoch': 0.87}
 87%|████████▋ | 5760/6640 [45:33<4:06:49, 16.83s/it] 87%|████████▋ | 5761/6640 [45:50<4:08:52, 16.99s/it]                                                     {'loss': 0.509, 'learning_rate': 9.053388148228138e-07, 'epoch': 0.87}
 87%|████████▋ | 5761/6640 [45:50<4:08:52, 16.99s/it] 87%|████████▋ | 5762/6640 [46:07<4:08:29, 16.98s/it]                                                     {'loss': 0.5082, 'learning_rate': 9.033116280417331e-07, 'epoch': 0.87}
 87%|████████▋ | 5762/6640 [46:07<4:08:29, 16.98s/it] 87%|████████▋ | 5763/6640 [46:23<4:05:28, 16.79s/it]                                                     {'loss': 0.49, 'learning_rate': 9.01286606028452e-07, 'epoch': 0.87}
 87%|████████▋ | 5763/6640 [46:23<4:05:28, 16.79s/it] 87%|████████▋ | 5764/6640 [46:40<4:02:15, 16.59s/it]                                                     {'loss': 0.5055, 'learning_rate': 8.992637492648737e-07, 'epoch': 0.87}
 87%|████████▋ | 5764/6640 [46:40<4:02:15, 16.59s/it] 87%|████████▋ | 5765/6640 [46:57<4:05:29, 16.83s/it]                                                     {'loss': 0.4951, 'learning_rate': 8.972430582323788e-07, 'epoch': 0.87}
 87%|████████▋ | 5765/6640 [46:57<4:05:29, 16.83s/it] 87%|████████▋ | 5766/6640 [47:14<4:07:18, 16.98s/it]                                                     {'loss': 0.492, 'learning_rate': 8.952245334118415e-07, 'epoch': 0.87}
 87%|████████▋ | 5766/6640 [47:14<4:07:18, 16.98s/it] 87%|████████▋ | 5767/6640 [47:30<4:02:57, 16.70s/it]                                                     {'loss': 0.5012, 'learning_rate': 8.932081752836141e-07, 'epoch': 0.87}
 87%|████████▋ | 5767/6640 [47:30<4:02:57, 16.70s/it] 87%|████████▋ | 5768/6640 [47:46<4:00:01, 16.51s/it]                                                     {'loss': 0.5272, 'learning_rate': 8.911939843275396e-07, 'epoch': 0.87}
 87%|████████▋ | 5768/6640 [47:46<4:00:01, 16.51s/it] 87%|████████▋ | 5769/6640 [48:04<4:03:16, 16.76s/it]                                                     {'loss': 0.5025, 'learning_rate': 8.891819610229369e-07, 'epoch': 0.87}
 87%|████████▋ | 5769/6640 [48:04<4:03:16, 16.76s/it] 87%|████████▋ | 5770/6640 [48:20<4:02:42, 16.74s/it]                                                     {'loss': 0.5299, 'learning_rate': 8.871721058486149e-07, 'epoch': 0.87}
 87%|████████▋ | 5770/6640 [48:20<4:02:42, 16.74s/it] 87%|████████▋ | 5771/6640 [48:38<4:04:49, 16.90s/it]                                                     {'loss': 0.5169, 'learning_rate': 8.851644192828668e-07, 'epoch': 0.87}
 87%|████████▋ | 5771/6640 [48:38<4:04:49, 16.90s/it] 87%|████████▋ | 5772/6640 [48:54<4:02:22, 16.75s/it]                                                     {'loss': 0.521, 'learning_rate': 8.831589018034659e-07, 'epoch': 0.87}
 87%|████████▋ | 5772/6640 [48:54<4:02:22, 16.75s/it] 87%|████████▋ | 5773/6640 [49:10<3:57:53, 16.46s/it]                                                     {'loss': 0.5003, 'learning_rate': 8.811555538876748e-07, 'epoch': 0.87}
 87%|████████▋ | 5773/6640 [49:10<3:57:53, 16.46s/it] 87%|████████▋ | 5774/6640 [49:27<4:02:08, 16.78s/it]                                                     {'loss': 0.5154, 'learning_rate': 8.791543760122335e-07, 'epoch': 0.87}
 87%|████████▋ | 5774/6640 [49:27<4:02:08, 16.78s/it] 87%|████████▋ | 5775/6640 [49:43<3:58:56, 16.57s/it]                                                     {'loss': 0.5125, 'learning_rate': 8.771553686533684e-07, 'epoch': 0.87}
 87%|████████▋ | 5775/6640 [49:43<3:58:56, 16.57s/it] 87%|████████▋ | 5776/6640 [50:00<3:56:53, 16.45s/it]                                                     {'loss': 0.5334, 'learning_rate': 8.751585322867917e-07, 'epoch': 0.87}
 87%|████████▋ | 5776/6640 [50:00<3:56:53, 16.45s/it] 87%|████████▋ | 5777/6640 [50:16<3:55:51, 16.40s/it]                                                     {'loss': 0.5152, 'learning_rate': 8.731638673876964e-07, 'epoch': 0.87}
 87%|████████▋ | 5777/6640 [50:16<3:55:51, 16.40s/it] 87%|████████▋ | 5778/6640 [50:33<3:57:08, 16.51s/it]                                                     {'loss': 0.5448, 'learning_rate': 8.711713744307603e-07, 'epoch': 0.87}
 87%|████████▋ | 5778/6640 [50:33<3:57:08, 16.51s/it] 87%|████████▋ | 5779/6640 [50:49<3:58:05, 16.59s/it]                                                     {'loss': 0.4827, 'learning_rate': 8.69181053890138e-07, 'epoch': 0.87}
 87%|████████▋ | 5779/6640 [50:49<3:58:05, 16.59s/it] 87%|████████▋ | 5780/6640 [51:06<3:58:07, 16.61s/it]                                                     {'loss': 0.4978, 'learning_rate': 8.671929062394802e-07, 'epoch': 0.87}
 87%|████████▋ | 5780/6640 [51:06<3:58:07, 16.61s/it] 87%|████████▋ | 5781/6640 [51:24<4:01:56, 16.90s/it]                                                     {'loss': 0.5147, 'learning_rate': 8.652069319519074e-07, 'epoch': 0.87}
 87%|████████▋ | 5781/6640 [51:24<4:01:56, 16.90s/it] 87%|████████▋ | 5782/6640 [51:40<3:58:42, 16.69s/it]                                                     {'loss': 0.542, 'learning_rate': 8.632231315000305e-07, 'epoch': 0.87}
 87%|████████▋ | 5782/6640 [51:40<3:58:42, 16.69s/it] 87%|████████▋ | 5783/6640 [51:57<4:00:15, 16.82s/it]                                                     {'loss': 0.4985, 'learning_rate': 8.612415053559386e-07, 'epoch': 0.87}
 87%|████████▋ | 5783/6640 [51:57<4:00:15, 16.82s/it] 87%|████████▋ | 5784/6640 [52:13<3:57:43, 16.66s/it]                                                     {'loss': 0.4976, 'learning_rate': 8.592620539912067e-07, 'epoch': 0.87}
 87%|████████▋ | 5784/6640 [52:13<3:57:43, 16.66s/it] 87%|████████▋ | 5785/6640 [52:30<3:59:21, 16.80s/it]                                                     {'loss': 0.5469, 'learning_rate': 8.572847778768912e-07, 'epoch': 0.87}
 87%|████████▋ | 5785/6640 [52:30<3:59:21, 16.80s/it] 87%|████████▋ | 5786/6640 [52:46<3:54:52, 16.50s/it]                                                     {'loss': 0.5172, 'learning_rate': 8.553096774835312e-07, 'epoch': 0.87}
 87%|████████▋ | 5786/6640 [52:46<3:54:52, 16.50s/it] 87%|████████▋ | 5787/6640 [53:03<3:56:46, 16.65s/it]                                                     {'loss': 0.4965, 'learning_rate': 8.533367532811487e-07, 'epoch': 0.87}
 87%|████████▋ | 5787/6640 [53:03<3:56:46, 16.65s/it] 87%|████████▋ | 5788/6640 [53:21<3:59:49, 16.89s/it]                                                     {'loss': 0.5077, 'learning_rate': 8.513660057392415e-07, 'epoch': 0.87}
 87%|████████▋ | 5788/6640 [53:21<3:59:49, 16.89s/it] 87%|████████▋ | 5789/6640 [53:39<4:03:56, 17.20s/it]                                                     {'loss': 0.5051, 'learning_rate': 8.493974353268019e-07, 'epoch': 0.87}
 87%|████████▋ | 5789/6640 [53:39<4:03:56, 17.20s/it] 87%|████████▋ | 5790/6640 [53:55<3:58:53, 16.86s/it]                                                     {'loss': 0.5003, 'learning_rate': 8.474310425122923e-07, 'epoch': 0.87}
 87%|████████▋ | 5790/6640 [53:55<3:58:53, 16.86s/it] 87%|████████▋ | 5791/6640 [54:11<3:54:57, 16.60s/it]                                                     {'loss': 0.5192, 'learning_rate': 8.454668277636636e-07, 'epoch': 0.87}
 87%|████████▋ | 5791/6640 [54:11<3:54:57, 16.60s/it] 87%|████████▋ | 5792/6640 [54:26<3:50:40, 16.32s/it]                                                     {'loss': 0.5046, 'learning_rate': 8.435047915483441e-07, 'epoch': 0.87}
 87%|████████▋ | 5792/6640 [54:26<3:50:40, 16.32s/it] 87%|████████▋ | 5793/6640 [54:43<3:50:19, 16.32s/it]                                                     {'loss': 0.5219, 'learning_rate': 8.41544934333246e-07, 'epoch': 0.87}
 87%|████████▋ | 5793/6640 [54:43<3:50:19, 16.32s/it] 87%|████████▋ | 5794/6640 [55:00<3:52:26, 16.48s/it]                                                     {'loss': 0.5122, 'learning_rate': 8.39587256584764e-07, 'epoch': 0.87}
 87%|████████▋ | 5794/6640 [55:00<3:52:26, 16.48s/it] 87%|████████▋ | 5795/6640 [55:16<3:51:25, 16.43s/it]                                                     {'loss': 0.5136, 'learning_rate': 8.376317587687721e-07, 'epoch': 0.87}
 87%|████████▋ | 5795/6640 [55:16<3:51:25, 16.43s/it] 87%|████████▋ | 5796/6640 [55:32<3:50:30, 16.39s/it]                                                     {'loss': 0.5106, 'learning_rate': 8.356784413506281e-07, 'epoch': 0.87}
 87%|████████▋ | 5796/6640 [55:32<3:50:30, 16.39s/it] 87%|████████▋ | 5797/6640 [55:49<3:50:14, 16.39s/it]                                                     {'loss': 0.5142, 'learning_rate': 8.337273047951655e-07, 'epoch': 0.87}
 87%|████████▋ | 5797/6640 [55:49<3:50:14, 16.39s/it] 87%|████████▋ | 5798/6640 [56:05<3:49:22, 16.35s/it]                                                     {'loss': 0.5138, 'learning_rate': 8.317783495667075e-07, 'epoch': 0.87}
 87%|████████▋ | 5798/6640 [56:05<3:49:22, 16.35s/it] 87%|████████▋ | 5799/6640 [56:21<3:49:38, 16.38s/it]                                                     {'loss': 0.5071, 'learning_rate': 8.298315761290477e-07, 'epoch': 0.87}
 87%|████████▋ | 5799/6640 [56:21<3:49:38, 16.38s/it]5 AutoResumeHook: Checking whether to suspend...
0 2AutoResumeHook: Checking whether to suspend... AutoResumeHook: Checking whether to suspend...

1 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
 87%|████████▋ | 5800/6640 [56:37<3:47:45, 16.27s/it]6 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
                                                     {'loss': 0.5149, 'learning_rate': 8.278869849454718e-07, 'epoch': 0.87}
 87%|████████▋ | 5800/6640 [56:37<3:47:45, 16.27s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5800/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5800/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5800/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 87%|████████▋ | 5801/6640 [58:26<10:15:17, 44.00s/it]                                                      {'loss': 0.5207, 'learning_rate': 8.259445764787344e-07, 'epoch': 0.87}
 87%|████████▋ | 5801/6640 [58:26<10:15:17, 44.00s/it] 87%|████████▋ | 5802/6640 [58:42<8:18:12, 35.67s/it]                                                      {'loss': 0.5286, 'learning_rate': 8.24004351191079e-07, 'epoch': 0.87}
 87%|████████▋ | 5802/6640 [58:42<8:18:12, 35.67s/it] 87%|████████▋ | 5803/6640 [58:59<6:57:47, 29.95s/it]                                                     {'loss': 0.5068, 'learning_rate': 8.220663095442283e-07, 'epoch': 0.87}
 87%|████████▋ | 5803/6640 [58:59<6:57:47, 29.95s/it] 87%|████████▋ | 5804/6640 [59:17<6:06:27, 26.30s/it]                                                     {'loss': 0.5206, 'learning_rate': 8.201304519993836e-07, 'epoch': 0.87}
 87%|████████▋ | 5804/6640 [59:17<6:06:27, 26.30s/it] 87%|████████▋ | 5805/6640 [59:33<5:22:45, 23.19s/it]                                                     {'loss': 0.5027, 'learning_rate': 8.181967790172274e-07, 'epoch': 0.87}
 87%|████████▋ | 5805/6640 [59:33<5:22:45, 23.19s/it] 87%|████████▋ | 5806/6640 [59:49<4:53:58, 21.15s/it]                                                     {'loss': 0.5096, 'learning_rate': 8.162652910579194e-07, 'epoch': 0.87}
 87%|████████▋ | 5806/6640 [59:49<4:53:58, 21.15s/it] 87%|████████▋ | 5807/6640 [1:00:06<4:35:13, 19.82s/it]                                                       {'loss': 0.4935, 'learning_rate': 8.143359885811064e-07, 'epoch': 0.87}
 87%|████████▋ | 5807/6640 [1:00:06<4:35:13, 19.82s/it] 87%|████████▋ | 5808/6640 [1:00:23<4:25:03, 19.11s/it]                                                       {'loss': 0.5165, 'learning_rate': 8.124088720459067e-07, 'epoch': 0.87}
 87%|████████▋ | 5808/6640 [1:00:23<4:25:03, 19.11s/it] 87%|████████▋ | 5809/6640 [1:00:40<4:14:11, 18.35s/it]                                                       {'loss': 0.5228, 'learning_rate': 8.104839419109256e-07, 'epoch': 0.87}
 87%|████████▋ | 5809/6640 [1:00:40<4:14:11, 18.35s/it] 88%|████████▊ | 5810/6640 [1:00:55<4:03:00, 17.57s/it]                                                       {'loss': 0.4893, 'learning_rate': 8.085611986342423e-07, 'epoch': 0.88}
 88%|████████▊ | 5810/6640 [1:00:55<4:03:00, 17.57s/it] 88%|████████▊ | 5811/6640 [1:01:12<4:00:26, 17.40s/it]                                                       {'loss': 0.517, 'learning_rate': 8.066406426734174e-07, 'epoch': 0.88}
 88%|████████▊ | 5811/6640 [1:01:12<4:00:26, 17.40s/it] 88%|████████▊ | 5812/6640 [1:01:29<3:57:04, 17.18s/it]                                                       {'loss': 0.5074, 'learning_rate': 8.047222744854943e-07, 'epoch': 0.88}
 88%|████████▊ | 5812/6640 [1:01:29<3:57:04, 17.18s/it] 88%|████████▊ | 5813/6640 [1:01:45<3:52:20, 16.86s/it]                                                       {'loss': 0.5287, 'learning_rate': 8.028060945269911e-07, 'epoch': 0.88}
 88%|████████▊ | 5813/6640 [1:01:45<3:52:20, 16.86s/it] 88%|████████▊ | 5814/6640 [1:02:02<3:50:30, 16.74s/it]                                                       {'loss': 0.4992, 'learning_rate': 8.008921032539108e-07, 'epoch': 0.88}
 88%|████████▊ | 5814/6640 [1:02:02<3:50:30, 16.74s/it] 88%|████████▊ | 5815/6640 [1:02:17<3:46:28, 16.47s/it]                                                       {'loss': 0.4981, 'learning_rate': 7.989803011217256e-07, 'epoch': 0.88}
 88%|████████▊ | 5815/6640 [1:02:17<3:46:28, 16.47s/it] 88%|████████▊ | 5816/6640 [1:02:35<3:51:16, 16.84s/it]                                                       {'loss': 0.5191, 'learning_rate': 7.970706885854007e-07, 'epoch': 0.88}
 88%|████████▊ | 5816/6640 [1:02:35<3:51:16, 16.84s/it] 88%|████████▊ | 5817/6640 [1:02:52<3:50:20, 16.79s/it]                                                       {'loss': 0.4903, 'learning_rate': 7.951632660993669e-07, 'epoch': 0.88}
 88%|████████▊ | 5817/6640 [1:02:52<3:50:20, 16.79s/it] 88%|████████▊ | 5818/6640 [1:03:07<3:44:20, 16.38s/it]                                                       {'loss': 0.5088, 'learning_rate': 7.932580341175411e-07, 'epoch': 0.88}
 88%|████████▊ | 5818/6640 [1:03:07<3:44:20, 16.38s/it] 88%|████████▊ | 5819/6640 [1:03:24<3:45:19, 16.47s/it]                                                       {'loss': 0.5197, 'learning_rate': 7.913549930933196e-07, 'epoch': 0.88}
 88%|████████▊ | 5819/6640 [1:03:24<3:45:19, 16.47s/it] 88%|████████▊ | 5820/6640 [1:03:40<3:44:01, 16.39s/it]                                                       {'loss': 0.5288, 'learning_rate': 7.8945414347957e-07, 'epoch': 0.88}
 88%|████████▊ | 5820/6640 [1:03:40<3:44:01, 16.39s/it] 88%|████████▊ | 5821/6640 [1:03:57<3:44:59, 16.48s/it]                                                       {'loss': 0.512, 'learning_rate': 7.875554857286504e-07, 'epoch': 0.88}
 88%|████████▊ | 5821/6640 [1:03:57<3:44:59, 16.48s/it] 88%|████████▊ | 5822/6640 [1:04:14<3:45:28, 16.54s/it]                                                       {'loss': 0.5206, 'learning_rate': 7.856590202923852e-07, 'epoch': 0.88}
 88%|████████▊ | 5822/6640 [1:04:14<3:45:28, 16.54s/it] 88%|████████▊ | 5823/6640 [1:04:31<3:48:40, 16.79s/it]                                                       {'loss': 0.5044, 'learning_rate': 7.837647476220855e-07, 'epoch': 0.88}
 88%|████████▊ | 5823/6640 [1:04:31<3:48:40, 16.79s/it] 88%|████████▊ | 5824/6640 [1:04:47<3:47:24, 16.72s/it]                                                       {'loss': 0.5288, 'learning_rate': 7.818726681685329e-07, 'epoch': 0.88}
 88%|████████▊ | 5824/6640 [1:04:47<3:47:24, 16.72s/it] 88%|████████▊ | 5825/6640 [1:05:04<3:46:19, 16.66s/it]                                                       {'loss': 0.5295, 'learning_rate': 7.799827823819972e-07, 'epoch': 0.88}
 88%|████████▊ | 5825/6640 [1:05:04<3:46:19, 16.66s/it] 88%|████████▊ | 5826/6640 [1:05:20<3:44:00, 16.51s/it]                                                       {'loss': 0.5101, 'learning_rate': 7.780950907122164e-07, 'epoch': 0.88}
 88%|████████▊ | 5826/6640 [1:05:20<3:44:00, 16.51s/it] 88%|████████▊ | 5827/6640 [1:05:37<3:43:14, 16.48s/it]                                                       {'loss': 0.5082, 'learning_rate': 7.762095936084124e-07, 'epoch': 0.88}
 88%|████████▊ | 5827/6640 [1:05:37<3:43:14, 16.48s/it] 88%|████████▊ | 5828/6640 [1:05:52<3:40:17, 16.28s/it]                                                       {'loss': 0.5052, 'learning_rate': 7.743262915192839e-07, 'epoch': 0.88}
 88%|████████▊ | 5828/6640 [1:05:52<3:40:17, 16.28s/it] 88%|████████▊ | 5829/6640 [1:06:08<3:37:48, 16.11s/it]                                                       {'loss': 0.4952, 'learning_rate': 7.724451848930014e-07, 'epoch': 0.88}
 88%|████████▊ | 5829/6640 [1:06:08<3:37:48, 16.11s/it] 88%|████████▊ | 5830/6640 [1:06:25<3:40:04, 16.30s/it]                                                       {'loss': 0.5216, 'learning_rate': 7.705662741772235e-07, 'epoch': 0.88}
 88%|████████▊ | 5830/6640 [1:06:25<3:40:04, 16.30s/it] 88%|████████▊ | 5831/6640 [1:06:41<3:40:23, 16.35s/it]                                                       {'loss': 0.5123, 'learning_rate': 7.68689559819078e-07, 'epoch': 0.88}
 88%|████████▊ | 5831/6640 [1:06:41<3:40:23, 16.35s/it] 88%|████████▊ | 5832/6640 [1:06:58<3:40:16, 16.36s/it]                                                       {'loss': 0.4936, 'learning_rate': 7.668150422651743e-07, 'epoch': 0.88}
 88%|████████▊ | 5832/6640 [1:06:58<3:40:16, 16.36s/it] 88%|████████▊ | 5833/6640 [1:07:16<3:47:01, 16.88s/it]                                                       {'loss': 0.5103, 'learning_rate': 7.649427219615912e-07, 'epoch': 0.88}
 88%|████████▊ | 5833/6640 [1:07:16<3:47:01, 16.88s/it] 88%|████████▊ | 5834/6640 [1:07:33<3:48:46, 17.03s/it]                                                       {'loss': 0.5161, 'learning_rate': 7.630725993539001e-07, 'epoch': 0.88}
 88%|████████▊ | 5834/6640 [1:07:33<3:48:46, 17.03s/it] 88%|████████▊ | 5835/6640 [1:07:50<3:45:50, 16.83s/it]                                                       {'loss': 0.5097, 'learning_rate': 7.612046748871327e-07, 'epoch': 0.88}
 88%|████████▊ | 5835/6640 [1:07:50<3:45:50, 16.83s/it] 88%|████████▊ | 5836/6640 [1:08:07<3:47:03, 16.94s/it]                                                       {'loss': 0.5072, 'learning_rate': 7.593389490058078e-07, 'epoch': 0.88}
 88%|████████▊ | 5836/6640 [1:08:07<3:47:03, 16.94s/it] 88%|████████▊ | 5837/6640 [1:08:24<3:48:42, 17.09s/it]                                                       {'loss': 0.5053, 'learning_rate': 7.574754221539194e-07, 'epoch': 0.88}
 88%|████████▊ | 5837/6640 [1:08:24<3:48:42, 17.09s/it] 88%|████████▊ | 5838/6640 [1:08:41<3:46:43, 16.96s/it]                                                       {'loss': 0.519, 'learning_rate': 7.556140947749324e-07, 'epoch': 0.88}
 88%|████████▊ | 5838/6640 [1:08:41<3:46:43, 16.96s/it] 88%|████████▊ | 5839/6640 [1:08:57<3:44:47, 16.84s/it]                                                       {'loss': 0.5374, 'learning_rate': 7.537549673117983e-07, 'epoch': 0.88}
 88%|████████▊ | 5839/6640 [1:08:57<3:44:47, 16.84s/it] 88%|████████▊ | 5840/6640 [1:09:13<3:38:44, 16.41s/it]                                                       {'loss': 0.5051, 'learning_rate': 7.518980402069354e-07, 'epoch': 0.88}
 88%|████████▊ | 5840/6640 [1:09:13<3:38:44, 16.41s/it] 88%|████████▊ | 5841/6640 [1:09:29<3:36:38, 16.27s/it]                                                       {'loss': 0.5028, 'learning_rate': 7.500433139022456e-07, 'epoch': 0.88}
 88%|████████▊ | 5841/6640 [1:09:29<3:36:38, 16.27s/it] 88%|████████▊ | 5842/6640 [1:09:46<3:39:18, 16.49s/it]                                                       {'loss': 0.5188, 'learning_rate': 7.481907888390994e-07, 'epoch': 0.88}
 88%|████████▊ | 5842/6640 [1:09:46<3:39:18, 16.49s/it] 88%|████████▊ | 5843/6640 [1:10:03<3:42:39, 16.76s/it]                                                       {'loss': 0.5382, 'learning_rate': 7.46340465458354e-07, 'epoch': 0.88}
 88%|████████▊ | 5843/6640 [1:10:03<3:42:39, 16.76s/it] 88%|████████▊ | 5844/6640 [1:10:20<3:41:11, 16.67s/it]                                                       {'loss': 0.5151, 'learning_rate': 7.444923442003327e-07, 'epoch': 0.88}
 88%|████████▊ | 5844/6640 [1:10:20<3:41:11, 16.67s/it] 88%|████████▊ | 5845/6640 [1:10:35<3:37:40, 16.43s/it]                                                       {'loss': 0.5274, 'learning_rate': 7.426464255048393e-07, 'epoch': 0.88}
 88%|████████▊ | 5845/6640 [1:10:35<3:37:40, 16.43s/it] 88%|████████▊ | 5846/6640 [1:10:52<3:36:18, 16.35s/it]                                                       {'loss': 0.5086, 'learning_rate': 7.408027098111559e-07, 'epoch': 0.88}
 88%|████████▊ | 5846/6640 [1:10:52<3:36:18, 16.35s/it] 88%|████████▊ | 5847/6640 [1:11:07<3:34:10, 16.20s/it]                                                       {'loss': 0.5068, 'learning_rate': 7.389611975580313e-07, 'epoch': 0.88}
 88%|████████▊ | 5847/6640 [1:11:07<3:34:10, 16.20s/it] 88%|████████▊ | 5848/6640 [1:11:25<3:37:11, 16.45s/it]                                                       {'loss': 0.5114, 'learning_rate': 7.371218891837029e-07, 'epoch': 0.88}
 88%|████████▊ | 5848/6640 [1:11:25<3:37:11, 16.45s/it] 88%|████████▊ | 5849/6640 [1:11:41<3:35:13, 16.33s/it]                                                       {'loss': 0.5006, 'learning_rate': 7.352847851258716e-07, 'epoch': 0.88}
 88%|████████▊ | 5849/6640 [1:11:41<3:35:13, 16.33s/it]10 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
 88%|████████▊ | 5850/6640 [1:11:57<3:35:00, 16.33s/it]6 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5298, 'learning_rate': 7.334498858217231e-07, 'epoch': 0.88}
 88%|████████▊ | 5850/6640 [1:11:57<3:35:00, 16.33s/it] 88%|████████▊ | 5851/6640 [1:12:13<3:33:14, 16.22s/it]                                                       {'loss': 0.5157, 'learning_rate': 7.316171917079084e-07, 'epoch': 0.88}
 88%|████████▊ | 5851/6640 [1:12:13<3:33:14, 16.22s/it] 88%|████████▊ | 5852/6640 [1:12:29<3:34:26, 16.33s/it]                                                       {'loss': 0.5211, 'learning_rate': 7.297867032205664e-07, 'epoch': 0.88}
 88%|████████▊ | 5852/6640 [1:12:29<3:34:26, 16.33s/it] 88%|████████▊ | 5853/6640 [1:12:47<3:37:37, 16.59s/it]                                                       {'loss': 0.4942, 'learning_rate': 7.279584207952995e-07, 'epoch': 0.88}
 88%|████████▊ | 5853/6640 [1:12:47<3:37:37, 16.59s/it] 88%|████████▊ | 5854/6640 [1:13:04<3:38:30, 16.68s/it]                                                       {'loss': 0.5137, 'learning_rate': 7.261323448671919e-07, 'epoch': 0.88}
 88%|████████▊ | 5854/6640 [1:13:04<3:38:30, 16.68s/it] 88%|████████▊ | 5855/6640 [1:13:20<3:35:58, 16.51s/it]                                                       {'loss': 0.5151, 'learning_rate': 7.243084758708007e-07, 'epoch': 0.88}
 88%|████████▊ | 5855/6640 [1:13:20<3:35:58, 16.51s/it] 88%|████████▊ | 5856/6640 [1:13:37<3:37:36, 16.65s/it]                                                       {'loss': 0.5004, 'learning_rate': 7.224868142401542e-07, 'epoch': 0.88}
 88%|████████▊ | 5856/6640 [1:13:37<3:37:36, 16.65s/it] 88%|████████▊ | 5857/6640 [1:13:52<3:34:21, 16.43s/it]                                                       {'loss': 0.5048, 'learning_rate': 7.206673604087655e-07, 'epoch': 0.88}
 88%|████████▊ | 5857/6640 [1:13:52<3:34:21, 16.43s/it] 88%|████████▊ | 5858/6640 [1:14:09<3:33:11, 16.36s/it]                                                       {'loss': 0.5007, 'learning_rate': 7.188501148096117e-07, 'epoch': 0.88}
 88%|████████▊ | 5858/6640 [1:14:09<3:33:11, 16.36s/it] 88%|████████▊ | 5859/6640 [1:14:25<3:31:29, 16.25s/it]                                                       {'loss': 0.5154, 'learning_rate': 7.170350778751478e-07, 'epoch': 0.88}
 88%|████████▊ | 5859/6640 [1:14:25<3:31:29, 16.25s/it] 88%|████████▊ | 5860/6640 [1:14:41<3:32:15, 16.33s/it]                                                       {'loss': 0.4852, 'learning_rate': 7.152222500373052e-07, 'epoch': 0.88}
 88%|████████▊ | 5860/6640 [1:14:41<3:32:15, 16.33s/it] 88%|████████▊ | 5861/6640 [1:14:57<3:30:03, 16.18s/it]                                                       {'loss': 0.5082, 'learning_rate': 7.134116317274886e-07, 'epoch': 0.88}
 88%|████████▊ | 5861/6640 [1:14:57<3:30:03, 16.18s/it] 88%|████████▊ | 5862/6640 [1:15:14<3:31:44, 16.33s/it]                                                       {'loss': 0.5166, 'learning_rate': 7.11603223376578e-07, 'epoch': 0.88}
 88%|████████▊ | 5862/6640 [1:15:14<3:31:44, 16.33s/it] 88%|████████▊ | 5863/6640 [1:15:30<3:32:22, 16.40s/it]                                                       {'loss': 0.5162, 'learning_rate': 7.097970254149222e-07, 'epoch': 0.88}
 88%|████████▊ | 5863/6640 [1:15:30<3:32:22, 16.40s/it] 88%|████████▊ | 5864/6640 [1:15:48<3:36:26, 16.74s/it]                                                       {'loss': 0.4965, 'learning_rate': 7.079930382723521e-07, 'epoch': 0.88}
 88%|████████▊ | 5864/6640 [1:15:48<3:36:26, 16.74s/it] 88%|████████▊ | 5865/6640 [1:16:05<3:36:16, 16.74s/it]                                                       {'loss': 0.5179, 'learning_rate': 7.06191262378163e-07, 'epoch': 0.88}
 88%|████████▊ | 5865/6640 [1:16:05<3:36:16, 16.74s/it] 88%|████████▊ | 5866/6640 [1:16:22<3:37:04, 16.83s/it]                                                       {'loss': 0.5034, 'learning_rate': 7.043916981611354e-07, 'epoch': 0.88}
 88%|████████▊ | 5866/6640 [1:16:22<3:37:04, 16.83s/it] 88%|████████▊ | 5867/6640 [1:16:38<3:36:28, 16.80s/it]                                                       {'loss': 0.498, 'learning_rate': 7.025943460495133e-07, 'epoch': 0.88}
 88%|████████▊ | 5867/6640 [1:16:38<3:36:28, 16.80s/it] 88%|████████▊ | 5868/6640 [1:16:55<3:34:58, 16.71s/it]                                                       {'loss': 0.4998, 'learning_rate': 7.007992064710189e-07, 'epoch': 0.88}
 88%|████████▊ | 5868/6640 [1:16:55<3:34:58, 16.71s/it] 88%|████████▊ | 5869/6640 [1:17:11<3:34:20, 16.68s/it]                                                       {'loss': 0.5152, 'learning_rate': 6.990062798528474e-07, 'epoch': 0.88}
 88%|████████▊ | 5869/6640 [1:17:11<3:34:20, 16.68s/it] 88%|████████▊ | 5870/6640 [1:17:30<3:39:27, 17.10s/it]                                                       {'loss': 0.5169, 'learning_rate': 6.972155666216684e-07, 'epoch': 0.88}
 88%|████████▊ | 5870/6640 [1:17:30<3:39:27, 17.10s/it] 88%|████████▊ | 5871/6640 [1:17:45<3:33:30, 16.66s/it]                                                       {'loss': 0.5248, 'learning_rate': 6.954270672036234e-07, 'epoch': 0.88}
 88%|████████▊ | 5871/6640 [1:17:45<3:33:30, 16.66s/it] 88%|████████▊ | 5872/6640 [1:18:01<3:31:09, 16.50s/it]                                                       {'loss': 0.5117, 'learning_rate': 6.936407820243251e-07, 'epoch': 0.88}
 88%|████████▊ | 5872/6640 [1:18:01<3:31:09, 16.50s/it] 88%|████████▊ | 5873/6640 [1:18:17<3:27:30, 16.23s/it]                                                       {'loss': 0.5002, 'learning_rate': 6.918567115088648e-07, 'epoch': 0.88}
 88%|████████▊ | 5873/6640 [1:18:17<3:27:30, 16.23s/it] 88%|████████▊ | 5874/6640 [1:18:33<3:28:32, 16.33s/it]                                                       {'loss': 0.5346, 'learning_rate': 6.900748560817982e-07, 'epoch': 0.88}
 88%|████████▊ | 5874/6640 [1:18:33<3:28:32, 16.33s/it] 88%|████████▊ | 5875/6640 [1:18:50<3:30:21, 16.50s/it]                                                       {'loss': 0.4933, 'learning_rate': 6.882952161671652e-07, 'epoch': 0.88}
 88%|████████▊ | 5875/6640 [1:18:50<3:30:21, 16.50s/it] 88%|████████▊ | 5876/6640 [1:19:07<3:31:02, 16.57s/it]                                                       {'loss': 0.5054, 'learning_rate': 6.865177921884681e-07, 'epoch': 0.88}
 88%|████████▊ | 5876/6640 [1:19:07<3:31:02, 16.57s/it] 89%|████████▊ | 5877/6640 [1:19:23<3:29:09, 16.45s/it]                                                       {'loss': 0.5138, 'learning_rate': 6.847425845686884e-07, 'epoch': 0.89}
 89%|████████▊ | 5877/6640 [1:19:23<3:29:09, 16.45s/it]WARNING: tokenization mismatch: 1 vs. 737. [[{'from': 'human', 'value': 'ASSISTANT: You are a top consultant specialising in advising tax firms and have the following skills and qualities.\n\nKNOWLEDGE: Consultant in a top consulting firm specialising in tax consulting, senior strategist, digital expert.\n\nCHARACTERISTICS: Customer-focused, empathetic, solution-oriented, personable, persuasive, creative.\n\nTASK: Use your knowledge to develop 10 measures to encourage clients to submit their documents digitally instead of by post. The measures should be formulated in such a way that the client recognises the advantages of digital filing. The law firm is digitised and can accept digital documents.\n\nOUTPUT: A list of the 10 actions, each with the name of the action as a heading and 2 short additional bullet points.\n\nOUTPUT LANGUAGE: German'}, {'from': 'gpt', 'value': '1. Persönlicher Kontakt und Beratung:\n\t* Persönliche Beratung und Unterstützung bei der Umstellung auf digitales Einreichen\n\t* Betonung der Vorteile, wie Zeit- und Kosteneinsparungen\n2. Schulung und Unterstützung:\n\t* Schulungen für die digitale Einreichung von Dokumenten\n\t* Anleitung zur Nutzung von Tools und Software\n3. Anreize schaffen:\n\t* Ermäßigung bei der Beauftragung digitaler Dienstleistungen\n\t* Sonderangebote für Kunden, die ihre Dokumente digital einreichen\n4. Informationen bereitstellen:\n\t* Veröffentlichung von Leitfäden und Handbüchern für die digitale Einreichung von Dokumenten\n\t* FAQ-Liste für häufig gestellte Fragen zum digitalen Einreichen\n5. Klare Kommunikation:\n\t* Verständliche Kommunikation der Vorteile der digitalen Einreichung\n\t* Bereitstellung von Informationen über die Sicherheit der digitalen Übermittlung\n6. Einfache Zugänglichkeit:\n\t* Vereinfachung des digitalen Einreichungsprozesses durch intuitive Online-Plattformen\n\t* Bereitstellung von Unterstützung für den Fall technischer Schwierigkeiten\n7. Zeitersparnis betonen:\n\t* Betonung der Vorteile von Zeitersparnis durch digitales Einreichen\n\t* Erinnerungen an Fristen und den Nutzen der pünktlichen Einreichung\n8. Umweltbewusstsein:\n\t* Betonung des Umweltvorteils durch digitales Einreichen von Dokumenten\n\t* Verweis auf die Möglichkeit, Papierverbrauch zu reduzieren\n9. Kosteneffizienz:\n\t* Betonung der Vorteile von Kosteneinsparungen durch digitales Einreichen\n\t* Verweis auf die Möglichkeit, Papier- und Portokosten zu sparen\n10. Feedback einholen:\n* Umfrage zur Bewertung des digitalen Einreichungsprozesses\n* Analyse der Ergebnisse zur Verbesserung der digitalen Dienstleistungen'}]] (ignored)
 89%|████████▊ | 5878/6640 [1:19:39<3:25:50, 16.21s/it]                                                       {'loss': 0.5146, 'learning_rate': 6.82969593730276e-07, 'epoch': 0.89}
 89%|████████▊ | 5878/6640 [1:19:39<3:25:50, 16.21s/it] 89%|████████▊ | 5879/6640 [1:19:55<3:25:23, 16.19s/it]                                                       {'loss': 0.494, 'learning_rate': 6.81198820095158e-07, 'epoch': 0.89}
 89%|████████▊ | 5879/6640 [1:19:55<3:25:23, 16.19s/it] 89%|████████▊ | 5880/6640 [1:20:12<3:26:31, 16.30s/it]                                                       {'loss': 0.4981, 'learning_rate': 6.794302640847294e-07, 'epoch': 0.89}
 89%|████████▊ | 5880/6640 [1:20:12<3:26:31, 16.30s/it] 89%|████████▊ | 5881/6640 [1:20:28<3:25:30, 16.25s/it]                                                       {'loss': 0.5284, 'learning_rate': 6.776639261198581e-07, 'epoch': 0.89}
 89%|████████▊ | 5881/6640 [1:20:28<3:25:30, 16.25s/it] 89%|████████▊ | 5882/6640 [1:20:44<3:24:59, 16.23s/it]                                                       {'loss': 0.5132, 'learning_rate': 6.758998066208866e-07, 'epoch': 0.89}
 89%|████████▊ | 5882/6640 [1:20:44<3:24:59, 16.23s/it] 89%|████████▊ | 5883/6640 [1:21:00<3:23:50, 16.16s/it]                                                       {'loss': 0.5106, 'learning_rate': 6.741379060076258e-07, 'epoch': 0.89}
 89%|████████▊ | 5883/6640 [1:21:00<3:23:50, 16.16s/it] 89%|████████▊ | 5884/6640 [1:21:15<3:21:01, 15.95s/it]                                                       {'loss': 0.5075, 'learning_rate': 6.723782246993648e-07, 'epoch': 0.89}
 89%|████████▊ | 5884/6640 [1:21:15<3:21:01, 15.95s/it] 89%|████████▊ | 5885/6640 [1:21:32<3:24:22, 16.24s/it]                                                       {'loss': 0.5144, 'learning_rate': 6.706207631148564e-07, 'epoch': 0.89}
 89%|████████▊ | 5885/6640 [1:21:32<3:24:22, 16.24s/it] 89%|████████▊ | 5886/6640 [1:21:49<3:26:24, 16.43s/it]                                                       {'loss': 0.5385, 'learning_rate': 6.688655216723317e-07, 'epoch': 0.89}
 89%|████████▊ | 5886/6640 [1:21:49<3:26:24, 16.43s/it] 89%|████████▊ | 5887/6640 [1:22:06<3:26:56, 16.49s/it]                                                       {'loss': 0.5166, 'learning_rate': 6.671125007894896e-07, 'epoch': 0.89}
 89%|████████▊ | 5887/6640 [1:22:06<3:26:56, 16.49s/it] 89%|████████▊ | 5888/6640 [1:22:22<3:27:31, 16.56s/it]                                                       {'loss': 0.5265, 'learning_rate': 6.653617008835034e-07, 'epoch': 0.89}
 89%|████████▊ | 5888/6640 [1:22:22<3:27:31, 16.56s/it] 89%|████████▊ | 5889/6640 [1:22:39<3:27:20, 16.57s/it]                                                       {'loss': 0.5304, 'learning_rate': 6.636131223710174e-07, 'epoch': 0.89}
 89%|████████▊ | 5889/6640 [1:22:39<3:27:20, 16.57s/it] 89%|████████▊ | 5890/6640 [1:22:55<3:25:58, 16.48s/it]                                                       {'loss': 0.4872, 'learning_rate': 6.618667656681444e-07, 'epoch': 0.89}
 89%|████████▊ | 5890/6640 [1:22:55<3:25:58, 16.48s/it] 89%|████████▊ | 5891/6640 [1:23:15<3:36:13, 17.32s/it]                                                       {'loss': 0.5059, 'learning_rate': 6.601226311904718e-07, 'epoch': 0.89}
 89%|████████▊ | 5891/6640 [1:23:15<3:36:13, 17.32s/it] 89%|████████▊ | 5892/6640 [1:23:31<3:31:35, 16.97s/it]                                                       {'loss': 0.5163, 'learning_rate': 6.583807193530523e-07, 'epoch': 0.89}
 89%|████████▊ | 5892/6640 [1:23:31<3:31:35, 16.97s/it] 89%|████████▉ | 5893/6640 [1:23:48<3:30:34, 16.91s/it]                                                       {'loss': 0.5236, 'learning_rate': 6.566410305704218e-07, 'epoch': 0.89}
 89%|████████▉ | 5893/6640 [1:23:48<3:30:34, 16.91s/it] 89%|████████▉ | 5894/6640 [1:24:05<3:32:13, 17.07s/it]                                                       {'loss': 0.4908, 'learning_rate': 6.549035652565739e-07, 'epoch': 0.89}
 89%|████████▉ | 5894/6640 [1:24:05<3:32:13, 17.07s/it] 89%|████████▉ | 5895/6640 [1:24:21<3:29:08, 16.84s/it]                                                       {'loss': 0.5132, 'learning_rate': 6.531683238249809e-07, 'epoch': 0.89}
 89%|████████▉ | 5895/6640 [1:24:21<3:29:08, 16.84s/it] 89%|████████▉ | 5896/6640 [1:24:38<3:27:27, 16.73s/it]                                                       {'loss': 0.5148, 'learning_rate': 6.514353066885837e-07, 'epoch': 0.89}
 89%|████████▉ | 5896/6640 [1:24:38<3:27:27, 16.73s/it] 89%|████████▉ | 5897/6640 [1:24:54<3:25:08, 16.57s/it]                                                       {'loss': 0.5154, 'learning_rate': 6.497045142597924e-07, 'epoch': 0.89}
 89%|████████▉ | 5897/6640 [1:24:54<3:25:08, 16.57s/it] 89%|████████▉ | 5898/6640 [1:25:11<3:27:07, 16.75s/it]                                                       {'loss': 0.5217, 'learning_rate': 6.479759469504931e-07, 'epoch': 0.89}
 89%|████████▉ | 5898/6640 [1:25:11<3:27:07, 16.75s/it] 89%|████████▉ | 5899/6640 [1:25:28<3:26:30, 16.72s/it]                                                       {'loss': 0.5092, 'learning_rate': 6.462496051720335e-07, 'epoch': 0.89}
 89%|████████▉ | 5899/6640 [1:25:28<3:26:30, 16.72s/it]1 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
06 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
 89%|████████▉ | 5900/6640 [1:25:44<3:24:48, 16.61s/it]3 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5044, 'learning_rate': 6.445254893352381e-07, 'epoch': 0.89}
 89%|████████▉ | 5900/6640 [1:25:44<3:24:48, 16.61s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5900/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5900/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-5900/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 89%|████████▉ | 5901/6640 [1:27:33<9:06:02, 44.33s/it]                                                       {'loss': 0.5245, 'learning_rate': 6.428035998504023e-07, 'epoch': 0.89}
 89%|████████▉ | 5901/6640 [1:27:33<9:06:02, 44.33s/it] 89%|████████▉ | 5902/6640 [1:27:50<7:22:20, 35.96s/it]                                                       {'loss': 0.4945, 'learning_rate': 6.41083937127287e-07, 'epoch': 0.89}
 89%|████████▉ | 5902/6640 [1:27:50<7:22:20, 35.96s/it] 89%|████████▉ | 5903/6640 [1:28:06<6:08:03, 29.96s/it]                                                       {'loss': 0.5112, 'learning_rate': 6.393665015751293e-07, 'epoch': 0.89}
 89%|████████▉ | 5903/6640 [1:28:06<6:08:03, 29.96s/it] 89%|████████▉ | 5904/6640 [1:28:22<5:19:26, 26.04s/it]                                                       {'loss': 0.4925, 'learning_rate': 6.37651293602628e-07, 'epoch': 0.89}
 89%|████████▉ | 5904/6640 [1:28:22<5:19:26, 26.04s/it] 89%|████████▉ | 5905/6640 [1:28:40<4:48:35, 23.56s/it]                                                       {'loss': 0.5136, 'learning_rate': 6.359383136179598e-07, 'epoch': 0.89}
 89%|████████▉ | 5905/6640 [1:28:40<4:48:35, 23.56s/it] 89%|████████▉ | 5906/6640 [1:28:57<4:22:50, 21.49s/it]                                                       {'loss': 0.5031, 'learning_rate': 6.342275620287675e-07, 'epoch': 0.89}
 89%|████████▉ | 5906/6640 [1:28:57<4:22:50, 21.49s/it] 89%|████████▉ | 5907/6640 [1:29:15<4:09:50, 20.45s/it]                                                       {'loss': 0.5379, 'learning_rate': 6.325190392421654e-07, 'epoch': 0.89}
 89%|████████▉ | 5907/6640 [1:29:15<4:09:50, 20.45s/it] 89%|████████▉ | 5908/6640 [1:29:31<3:53:46, 19.16s/it]                                                       {'loss': 0.4943, 'learning_rate': 6.308127456647317e-07, 'epoch': 0.89}
 89%|████████▉ | 5908/6640 [1:29:31<3:53:46, 19.16s/it] 89%|████████▉ | 5909/6640 [1:29:48<3:44:28, 18.43s/it]                                                       {'loss': 0.5026, 'learning_rate': 6.291086817025228e-07, 'epoch': 0.89}
 89%|████████▉ | 5909/6640 [1:29:48<3:44:28, 18.43s/it] 89%|████████▉ | 5910/6640 [1:30:04<3:35:57, 17.75s/it]                                                       {'loss': 0.5221, 'learning_rate': 6.274068477610584e-07, 'epoch': 0.89}
 89%|████████▉ | 5910/6640 [1:30:04<3:35:57, 17.75s/it] 89%|████████▉ | 5911/6640 [1:30:20<3:27:43, 17.10s/it]                                                       {'loss': 0.5047, 'learning_rate': 6.257072442453293e-07, 'epoch': 0.89}
 89%|████████▉ | 5911/6640 [1:30:20<3:27:43, 17.10s/it] 89%|████████▉ | 5912/6640 [1:30:36<3:26:49, 17.05s/it]                                                       {'loss': 0.4828, 'learning_rate': 6.240098715597975e-07, 'epoch': 0.89}
 89%|████████▉ | 5912/6640 [1:30:36<3:26:49, 17.05s/it] 89%|████████▉ | 5913/6640 [1:30:53<3:23:38, 16.81s/it]                                                       {'loss': 0.494, 'learning_rate': 6.223147301083887e-07, 'epoch': 0.89}
 89%|████████▉ | 5913/6640 [1:30:53<3:23:38, 16.81s/it] 89%|████████▉ | 5914/6640 [1:31:09<3:20:33, 16.58s/it]                                                       {'loss': 0.506, 'learning_rate': 6.206218202945036e-07, 'epoch': 0.89}
 89%|████████▉ | 5914/6640 [1:31:09<3:20:33, 16.58s/it] 89%|████████▉ | 5915/6640 [1:31:25<3:18:46, 16.45s/it]                                                       {'loss': 0.5195, 'learning_rate': 6.189311425210087e-07, 'epoch': 0.89}
 89%|████████▉ | 5915/6640 [1:31:25<3:18:46, 16.45s/it] 89%|████████▉ | 5916/6640 [1:31:41<3:18:58, 16.49s/it]                                                       {'loss': 0.514, 'learning_rate': 6.172426971902412e-07, 'epoch': 0.89}
 89%|████████▉ | 5916/6640 [1:31:41<3:18:58, 16.49s/it] 89%|████████▉ | 5917/6640 [1:31:57<3:15:25, 16.22s/it]                                                       {'loss': 0.5148, 'learning_rate': 6.15556484704003e-07, 'epoch': 0.89}
 89%|████████▉ | 5917/6640 [1:31:57<3:15:25, 16.22s/it] 89%|████████▉ | 5918/6640 [1:32:13<3:14:56, 16.20s/it]                                                       {'loss': 0.5248, 'learning_rate': 6.138725054635697e-07, 'epoch': 0.89}
 89%|████████▉ | 5918/6640 [1:32:13<3:14:56, 16.20s/it] 89%|████████▉ | 5919/6640 [1:32:29<3:14:59, 16.23s/it]                                                       {'loss': 0.5179, 'learning_rate': 6.121907598696808e-07, 'epoch': 0.89}
 89%|████████▉ | 5919/6640 [1:32:29<3:14:59, 16.23s/it] 89%|████████▉ | 5920/6640 [1:32:45<3:13:12, 16.10s/it]                                                       {'loss': 0.5202, 'learning_rate': 6.105112483225495e-07, 'epoch': 0.89}
 89%|████████▉ | 5920/6640 [1:32:45<3:13:12, 16.10s/it] 89%|████████▉ | 5921/6640 [1:33:02<3:13:46, 16.17s/it]                                                       {'loss': 0.5056, 'learning_rate': 6.08833971221855e-07, 'epoch': 0.89}
 89%|████████▉ | 5921/6640 [1:33:02<3:13:46, 16.17s/it] 89%|████████▉ | 5922/6640 [1:33:18<3:12:42, 16.10s/it]                                                       {'loss': 0.5054, 'learning_rate': 6.071589289667402e-07, 'epoch': 0.89}
 89%|████████▉ | 5922/6640 [1:33:18<3:12:42, 16.10s/it] 89%|████████▉ | 5923/6640 [1:33:34<3:12:51, 16.14s/it]                                                       {'loss': 0.5072, 'learning_rate': 6.054861219558228e-07, 'epoch': 0.89}
 89%|████████▉ | 5923/6640 [1:33:34<3:12:51, 16.14s/it] 89%|████████▉ | 5924/6640 [1:33:51<3:14:45, 16.32s/it]                                                       {'loss': 0.5185, 'learning_rate': 6.038155505871857e-07, 'epoch': 0.89}
 89%|████████▉ | 5924/6640 [1:33:51<3:14:45, 16.32s/it] 89%|████████▉ | 5925/6640 [1:34:07<3:16:01, 16.45s/it]                                                       {'loss': 0.5086, 'learning_rate': 6.021472152583818e-07, 'epoch': 0.89}
 89%|████████▉ | 5925/6640 [1:34:07<3:16:01, 16.45s/it] 89%|████████▉ | 5926/6640 [1:34:24<3:15:16, 16.41s/it]                                                       {'loss': 0.5149, 'learning_rate': 6.00481116366427e-07, 'epoch': 0.89}
 89%|████████▉ | 5926/6640 [1:34:24<3:15:16, 16.41s/it] 89%|████████▉ | 5927/6640 [1:34:40<3:13:55, 16.32s/it]                                                       {'loss': 0.5196, 'learning_rate': 5.988172543078097e-07, 'epoch': 0.89}
 89%|████████▉ | 5927/6640 [1:34:40<3:13:55, 16.32s/it] 89%|████████▉ | 5928/6640 [1:34:57<3:16:01, 16.52s/it]                                                       {'loss': 0.5177, 'learning_rate': 5.971556294784842e-07, 'epoch': 0.89}
 89%|████████▉ | 5928/6640 [1:34:57<3:16:01, 16.52s/it] 89%|████████▉ | 5929/6640 [1:35:13<3:15:38, 16.51s/it]                                                       {'loss': 0.5159, 'learning_rate': 5.95496242273873e-07, 'epoch': 0.89}
 89%|████████▉ | 5929/6640 [1:35:13<3:15:38, 16.51s/it] 89%|████████▉ | 5930/6640 [1:35:29<3:14:26, 16.43s/it]                                                       {'loss': 0.5367, 'learning_rate': 5.938390930888671e-07, 'epoch': 0.89}
 89%|████████▉ | 5930/6640 [1:35:29<3:14:26, 16.43s/it] 89%|████████▉ | 5931/6640 [1:35:46<3:14:07, 16.43s/it]                                                       {'loss': 0.5154, 'learning_rate': 5.921841823178198e-07, 'epoch': 0.89}
 89%|████████▉ | 5931/6640 [1:35:46<3:14:07, 16.43s/it] 89%|████████▉ | 5932/6640 [1:36:02<3:14:29, 16.48s/it]                                                       {'loss': 0.4924, 'learning_rate': 5.905315103545573e-07, 'epoch': 0.89}
 89%|████████▉ | 5932/6640 [1:36:02<3:14:29, 16.48s/it] 89%|████████▉ | 5933/6640 [1:36:19<3:13:42, 16.44s/it]                                                       {'loss': 0.5026, 'learning_rate': 5.888810775923726e-07, 'epoch': 0.89}
 89%|████████▉ | 5933/6640 [1:36:19<3:13:42, 16.44s/it] 89%|████████▉ | 5934/6640 [1:36:36<3:14:59, 16.57s/it]                                                       {'loss': 0.5063, 'learning_rate': 5.872328844240249e-07, 'epoch': 0.89}
 89%|████████▉ | 5934/6640 [1:36:36<3:14:59, 16.57s/it] 89%|████████▉ | 5935/6640 [1:36:51<3:09:09, 16.10s/it]                                                       {'loss': 0.499, 'learning_rate': 5.855869312417362e-07, 'epoch': 0.89}
 89%|████████▉ | 5935/6640 [1:36:51<3:09:09, 16.10s/it] 89%|████████▉ | 5936/6640 [1:37:08<3:12:30, 16.41s/it]                                                       {'loss': 0.4992, 'learning_rate': 5.839432184372018e-07, 'epoch': 0.89}
 89%|████████▉ | 5936/6640 [1:37:08<3:12:30, 16.41s/it] 89%|████████▉ | 5937/6640 [1:37:24<3:13:12, 16.49s/it]                                                       {'loss': 0.5081, 'learning_rate': 5.823017464015801e-07, 'epoch': 0.89}
 89%|████████▉ | 5937/6640 [1:37:24<3:13:12, 16.49s/it] 89%|████████▉ | 5938/6640 [1:37:41<3:12:24, 16.45s/it]                                                       {'loss': 0.4934, 'learning_rate': 5.806625155254986e-07, 'epoch': 0.89}
 89%|████████▉ | 5938/6640 [1:37:41<3:12:24, 16.45s/it] 89%|████████▉ | 5939/6640 [1:37:57<3:10:43, 16.32s/it]                                                       {'loss': 0.4993, 'learning_rate': 5.790255261990518e-07, 'epoch': 0.89}
 89%|████████▉ | 5939/6640 [1:37:57<3:10:43, 16.32s/it] 89%|████████▉ | 5940/6640 [1:38:14<3:11:54, 16.45s/it]                                                       {'loss': 0.5137, 'learning_rate': 5.77390778811796e-07, 'epoch': 0.89}
 89%|████████▉ | 5940/6640 [1:38:14<3:11:54, 16.45s/it] 89%|████████▉ | 5941/6640 [1:38:30<3:11:29, 16.44s/it]                                                       {'loss': 0.5258, 'learning_rate': 5.757582737527579e-07, 'epoch': 0.89}
 89%|████████▉ | 5941/6640 [1:38:30<3:11:29, 16.44s/it] 89%|████████▉ | 5942/6640 [1:38:46<3:09:43, 16.31s/it]                                                       {'loss': 0.5092, 'learning_rate': 5.741280114104309e-07, 'epoch': 0.89}
 89%|████████▉ | 5942/6640 [1:38:46<3:09:43, 16.31s/it] 90%|████████▉ | 5943/6640 [1:39:02<3:09:06, 16.28s/it]                                                       {'loss': 0.4968, 'learning_rate': 5.724999921727725e-07, 'epoch': 0.9}
 90%|████████▉ | 5943/6640 [1:39:02<3:09:06, 16.28s/it] 90%|████████▉ | 5944/6640 [1:39:19<3:11:14, 16.49s/it]                                                       {'loss': 0.5093, 'learning_rate': 5.708742164272108e-07, 'epoch': 0.9}
 90%|████████▉ | 5944/6640 [1:39:19<3:11:14, 16.49s/it] 90%|████████▉ | 5945/6640 [1:39:36<3:10:32, 16.45s/it]                                                       {'loss': 0.527, 'learning_rate': 5.692506845606327e-07, 'epoch': 0.9}
 90%|████████▉ | 5945/6640 [1:39:36<3:10:32, 16.45s/it] 90%|████████▉ | 5946/6640 [1:39:53<3:11:56, 16.59s/it]                                                       {'loss': 0.512, 'learning_rate': 5.676293969593971e-07, 'epoch': 0.9}
 90%|████████▉ | 5946/6640 [1:39:53<3:11:56, 16.59s/it] 90%|████████▉ | 5947/6640 [1:40:09<3:11:15, 16.56s/it]                                                       {'loss': 0.5183, 'learning_rate': 5.660103540093265e-07, 'epoch': 0.9}
 90%|████████▉ | 5947/6640 [1:40:09<3:11:15, 16.56s/it] 90%|████████▉ | 5948/6640 [1:40:26<3:11:33, 16.61s/it]                                                       {'loss': 0.5032, 'learning_rate': 5.643935560957114e-07, 'epoch': 0.9}
 90%|████████▉ | 5948/6640 [1:40:26<3:11:33, 16.61s/it] 90%|████████▉ | 5949/6640 [1:40:42<3:10:22, 16.53s/it]                                                       {'loss': 0.507, 'learning_rate': 5.627790036033031e-07, 'epoch': 0.9}
 90%|████████▉ | 5949/6640 [1:40:42<3:10:22, 16.53s/it]0 2 AutoResumeHook: Checking whether to suspend...6
 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
 90%|████████▉ | 5950/6640 [1:40:59<3:09:53, 16.51s/it]                                                       {'loss': 0.4993, 'learning_rate': 5.611666969163243e-07, 'epoch': 0.9}
 90%|████████▉ | 5950/6640 [1:40:59<3:09:53, 16.51s/it] 90%|████████▉ | 5951/6640 [1:41:15<3:09:10, 16.47s/it]                                                       {'loss': 0.5122, 'learning_rate': 5.595566364184602e-07, 'epoch': 0.9}
 90%|████████▉ | 5951/6640 [1:41:15<3:09:10, 16.47s/it] 90%|████████▉ | 5952/6640 [1:41:31<3:07:35, 16.36s/it]                                                       {'loss': 0.5164, 'learning_rate': 5.57948822492862e-07, 'epoch': 0.9}
 90%|████████▉ | 5952/6640 [1:41:31<3:07:35, 16.36s/it] 90%|████████▉ | 5953/6640 [1:41:47<3:07:32, 16.38s/it]                                                       {'loss': 0.507, 'learning_rate': 5.563432555221471e-07, 'epoch': 0.9}
 90%|████████▉ | 5953/6640 [1:41:47<3:07:32, 16.38s/it] 90%|████████▉ | 5954/6640 [1:42:04<3:08:28, 16.48s/it]                                                       {'loss': 0.5118, 'learning_rate': 5.547399358883953e-07, 'epoch': 0.9}
 90%|████████▉ | 5954/6640 [1:42:04<3:08:28, 16.48s/it] 90%|████████▉ | 5955/6640 [1:42:21<3:09:14, 16.58s/it]                                                       {'loss': 0.5126, 'learning_rate': 5.53138863973155e-07, 'epoch': 0.9}
 90%|████████▉ | 5955/6640 [1:42:21<3:09:14, 16.58s/it] 90%|████████▉ | 5956/6640 [1:42:37<3:07:01, 16.41s/it]                                                       {'loss': 0.523, 'learning_rate': 5.515400401574378e-07, 'epoch': 0.9}
 90%|████████▉ | 5956/6640 [1:42:37<3:07:01, 16.41s/it] 90%|████████▉ | 5957/6640 [1:42:53<3:04:11, 16.18s/it]                                                       {'loss': 0.5248, 'learning_rate': 5.499434648217216e-07, 'epoch': 0.9}
 90%|████████▉ | 5957/6640 [1:42:53<3:04:11, 16.18s/it] 90%|████████▉ | 5958/6640 [1:43:09<3:04:21, 16.22s/it]                                                       {'loss': 0.5323, 'learning_rate': 5.483491383459482e-07, 'epoch': 0.9}
 90%|████████▉ | 5958/6640 [1:43:09<3:04:21, 16.22s/it] 90%|████████▉ | 5959/6640 [1:43:24<3:01:22, 15.98s/it]                                                       {'loss': 0.5204, 'learning_rate': 5.467570611095241e-07, 'epoch': 0.9}
 90%|████████▉ | 5959/6640 [1:43:24<3:01:22, 15.98s/it] 90%|████████▉ | 5960/6640 [1:43:42<3:06:41, 16.47s/it]                                                       {'loss': 0.5083, 'learning_rate': 5.451672334913216e-07, 'epoch': 0.9}
 90%|████████▉ | 5960/6640 [1:43:42<3:06:41, 16.47s/it] 90%|████████▉ | 5961/6640 [1:43:58<3:06:27, 16.48s/it]                                                       {'loss': 0.4971, 'learning_rate': 5.43579655869676e-07, 'epoch': 0.9}
 90%|████████▉ | 5961/6640 [1:43:58<3:06:27, 16.48s/it] 90%|████████▉ | 5962/6640 [1:44:15<3:07:02, 16.55s/it]                                                       {'loss': 0.5074, 'learning_rate': 5.419943286223905e-07, 'epoch': 0.9}
 90%|████████▉ | 5962/6640 [1:44:15<3:07:02, 16.55s/it] 90%|████████▉ | 5963/6640 [1:44:31<3:05:15, 16.42s/it]                                                       {'loss': 0.5039, 'learning_rate': 5.40411252126728e-07, 'epoch': 0.9}
 90%|████████▉ | 5963/6640 [1:44:31<3:05:15, 16.42s/it] 90%|████████▉ | 5964/6640 [1:44:47<3:03:25, 16.28s/it]                                                       {'loss': 0.5174, 'learning_rate': 5.388304267594191e-07, 'epoch': 0.9}
 90%|████████▉ | 5964/6640 [1:44:47<3:03:25, 16.28s/it] 90%|████████▉ | 5965/6640 [1:45:04<3:03:36, 16.32s/it]                                                       {'loss': 0.5124, 'learning_rate': 5.372518528966575e-07, 'epoch': 0.9}
 90%|████████▉ | 5965/6640 [1:45:04<3:03:36, 16.32s/it] 90%|████████▉ | 5966/6640 [1:45:20<3:02:02, 16.21s/it]                                                       {'loss': 0.5224, 'learning_rate': 5.356755309141026e-07, 'epoch': 0.9}
 90%|████████▉ | 5966/6640 [1:45:20<3:02:02, 16.21s/it] 90%|████████▉ | 5967/6640 [1:45:36<3:01:14, 16.16s/it]                                                       {'loss': 0.5051, 'learning_rate': 5.341014611868756e-07, 'epoch': 0.9}
 90%|████████▉ | 5967/6640 [1:45:36<3:01:14, 16.16s/it] 90%|████████▉ | 5968/6640 [1:45:52<3:02:14, 16.27s/it]                                                       {'loss': 0.5335, 'learning_rate': 5.325296440895622e-07, 'epoch': 0.9}
 90%|████████▉ | 5968/6640 [1:45:52<3:02:14, 16.27s/it] 90%|████████▉ | 5969/6640 [1:46:10<3:05:35, 16.59s/it]                                                       {'loss': 0.5113, 'learning_rate': 5.309600799962145e-07, 'epoch': 0.9}
 90%|████████▉ | 5969/6640 [1:46:10<3:05:35, 16.59s/it] 90%|████████▉ | 5970/6640 [1:46:26<3:05:40, 16.63s/it]                                                       {'loss': 0.5176, 'learning_rate': 5.293927692803458e-07, 'epoch': 0.9}
 90%|████████▉ | 5970/6640 [1:46:26<3:05:40, 16.63s/it] 90%|████████▉ | 5971/6640 [1:46:43<3:06:25, 16.72s/it]                                                       {'loss': 0.5313, 'learning_rate': 5.278277123149355e-07, 'epoch': 0.9}
 90%|████████▉ | 5971/6640 [1:46:43<3:06:25, 16.72s/it] 90%|████████▉ | 5972/6640 [1:47:00<3:04:59, 16.62s/it]                                                       {'loss': 0.5237, 'learning_rate': 5.262649094724226e-07, 'epoch': 0.9}
 90%|████████▉ | 5972/6640 [1:47:00<3:04:59, 16.62s/it] 90%|████████▉ | 5973/6640 [1:47:17<3:06:58, 16.82s/it]                                                       {'loss': 0.5015, 'learning_rate': 5.247043611247127e-07, 'epoch': 0.9}
 90%|████████▉ | 5973/6640 [1:47:17<3:06:58, 16.82s/it] 90%|████████▉ | 5974/6640 [1:47:33<3:04:55, 16.66s/it]                                                       {'loss': 0.5245, 'learning_rate': 5.231460676431755e-07, 'epoch': 0.9}
 90%|████████▉ | 5974/6640 [1:47:33<3:04:55, 16.66s/it] 90%|████████▉ | 5975/6640 [1:47:51<3:08:04, 16.97s/it]                                                       {'loss': 0.5163, 'learning_rate': 5.215900293986431e-07, 'epoch': 0.9}
 90%|████████▉ | 5975/6640 [1:47:51<3:08:04, 16.97s/it] 90%|█████████ | 5976/6640 [1:48:07<3:05:54, 16.80s/it]                                                       {'loss': 0.5182, 'learning_rate': 5.200362467614106e-07, 'epoch': 0.9}
 90%|█████████ | 5976/6640 [1:48:07<3:05:54, 16.80s/it] 90%|█████████ | 5977/6640 [1:48:24<3:04:37, 16.71s/it]                                                       {'loss': 0.5029, 'learning_rate': 5.184847201012355e-07, 'epoch': 0.9}
 90%|█████████ | 5977/6640 [1:48:24<3:04:37, 16.71s/it] 90%|█████████ | 5978/6640 [1:48:40<3:02:31, 16.54s/it]                                                       {'loss': 0.5082, 'learning_rate': 5.169354497873402e-07, 'epoch': 0.9}
 90%|█████████ | 5978/6640 [1:48:40<3:02:31, 16.54s/it] 90%|█████████ | 5979/6640 [1:48:56<3:00:13, 16.36s/it]                                                       {'loss': 0.5124, 'learning_rate': 5.153884361884098e-07, 'epoch': 0.9}
 90%|█████████ | 5979/6640 [1:48:56<3:00:13, 16.36s/it] 90%|█████████ | 5980/6640 [1:49:12<2:58:50, 16.26s/it]                                                       {'loss': 0.4933, 'learning_rate': 5.138436796725942e-07, 'epoch': 0.9}
 90%|█████████ | 5980/6640 [1:49:12<2:58:50, 16.26s/it] 90%|█████████ | 5981/6640 [1:49:28<2:57:13, 16.14s/it]                                                       {'loss': 0.5311, 'learning_rate': 5.123011806074995e-07, 'epoch': 0.9}
 90%|█████████ | 5981/6640 [1:49:28<2:57:13, 16.14s/it] 90%|█████████ | 5982/6640 [1:49:45<2:59:43, 16.39s/it]                                                       {'loss': 0.5134, 'learning_rate': 5.107609393602019e-07, 'epoch': 0.9}
 90%|█████████ | 5982/6640 [1:49:45<2:59:43, 16.39s/it] 90%|█████████ | 5983/6640 [1:50:02<3:01:44, 16.60s/it]                                                       {'loss': 0.5363, 'learning_rate': 5.092229562972373e-07, 'epoch': 0.9}
 90%|█████████ | 5983/6640 [1:50:02<3:01:44, 16.60s/it] 90%|█████████ | 5984/6640 [1:50:18<2:58:47, 16.35s/it]                                                       {'loss': 0.4974, 'learning_rate': 5.076872317846027e-07, 'epoch': 0.9}
 90%|█████████ | 5984/6640 [1:50:18<2:58:47, 16.35s/it] 90%|█████████ | 5985/6640 [1:50:34<2:59:48, 16.47s/it]                                                       {'loss': 0.4994, 'learning_rate': 5.061537661877636e-07, 'epoch': 0.9}
 90%|█████████ | 5985/6640 [1:50:34<2:59:48, 16.47s/it] 90%|█████████ | 5986/6640 [1:50:51<2:59:46, 16.49s/it]                                                       {'loss': 0.5069, 'learning_rate': 5.04622559871637e-07, 'epoch': 0.9}
 90%|█████████ | 5986/6640 [1:50:51<2:59:46, 16.49s/it] 90%|█████████ | 5987/6640 [1:51:09<3:05:17, 17.03s/it]                                                       {'loss': 0.5111, 'learning_rate': 5.030936132006159e-07, 'epoch': 0.9}
 90%|█████████ | 5987/6640 [1:51:09<3:05:17, 17.03s/it] 90%|█████████ | 5988/6640 [1:51:26<3:04:56, 17.02s/it]                                                       {'loss': 0.5089, 'learning_rate': 5.015669265385436e-07, 'epoch': 0.9}
 90%|█████████ | 5988/6640 [1:51:26<3:04:56, 17.02s/it] 90%|█████████ | 5989/6640 [1:51:43<3:03:06, 16.88s/it]                                                       {'loss': 0.5113, 'learning_rate': 5.000425002487342e-07, 'epoch': 0.9}
 90%|█████████ | 5989/6640 [1:51:43<3:03:06, 16.88s/it] 90%|█████████ | 5990/6640 [1:52:00<3:04:12, 17.00s/it]                                                       {'loss': 0.5174, 'learning_rate': 4.98520334693956e-07, 'epoch': 0.9}
 90%|█████████ | 5990/6640 [1:52:00<3:04:12, 17.00s/it] 90%|█████████ | 5991/6640 [1:52:16<3:01:59, 16.82s/it]                                                       {'loss': 0.5152, 'learning_rate': 4.970004302364473e-07, 'epoch': 0.9}
 90%|█████████ | 5991/6640 [1:52:16<3:01:59, 16.82s/it] 90%|█████████ | 5992/6640 [1:52:33<2:59:54, 16.66s/it]                                                       {'loss': 0.4862, 'learning_rate': 4.954827872379031e-07, 'epoch': 0.9}
 90%|█████████ | 5992/6640 [1:52:33<2:59:54, 16.66s/it] 90%|█████████ | 5993/6640 [1:52:49<2:57:11, 16.43s/it]                                                       {'loss': 0.5168, 'learning_rate': 4.939674060594813e-07, 'epoch': 0.9}
 90%|█████████ | 5993/6640 [1:52:49<2:57:11, 16.43s/it] 90%|█████████ | 5994/6640 [1:53:05<2:58:23, 16.57s/it]                                                       {'loss': 0.5139, 'learning_rate': 4.924542870618043e-07, 'epoch': 0.9}
 90%|█████████ | 5994/6640 [1:53:05<2:58:23, 16.57s/it] 90%|█████████ | 5995/6640 [1:53:21<2:56:00, 16.37s/it]                                                       {'loss': 0.5212, 'learning_rate': 4.909434306049487e-07, 'epoch': 0.9}
 90%|█████████ | 5995/6640 [1:53:21<2:56:00, 16.37s/it] 90%|█████████ | 5996/6640 [1:53:37<2:53:50, 16.20s/it]                                                       {'loss': 0.4983, 'learning_rate': 4.894348370484648e-07, 'epoch': 0.9}
 90%|█████████ | 5996/6640 [1:53:37<2:53:50, 16.20s/it] 90%|█████████ | 5997/6640 [1:53:54<2:55:38, 16.39s/it]                                                       {'loss': 0.5131, 'learning_rate': 4.879285067513518e-07, 'epoch': 0.9}
 90%|█████████ | 5997/6640 [1:53:54<2:55:38, 16.39s/it] 90%|█████████ | 5998/6640 [1:54:11<2:55:59, 16.45s/it]                                                       {'loss': 0.5103, 'learning_rate': 4.864244400720797e-07, 'epoch': 0.9}
 90%|█████████ | 5998/6640 [1:54:11<2:55:59, 16.45s/it] 90%|█████████ | 5999/6640 [1:54:26<2:52:53, 16.18s/it]                                                       {'loss': 0.5016, 'learning_rate': 4.849226373685723e-07, 'epoch': 0.9}
 90%|█████████ | 5999/6640 [1:54:26<2:52:53, 16.18s/it]0 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
 90%|█████████ | 6000/6640 [1:54:42<2:52:34, 16.18s/it]4 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5037, 'learning_rate': 4.834230989982214e-07, 'epoch': 0.9}
 90%|█████████ | 6000/6640 [1:54:42<2:52:34, 16.18s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6000/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6000/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6000/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 90%|█████████ | 6001/6640 [1:56:29<7:41:00, 43.29s/it]                                                       {'loss': 0.5007, 'learning_rate': 4.819258253178749e-07, 'epoch': 0.9}
 90%|█████████ | 6001/6640 [1:56:29<7:41:00, 43.29s/it] 90%|█████████ | 6002/6640 [1:56:45<6:14:15, 35.20s/it]                                                       {'loss': 0.5148, 'learning_rate': 4.804308166838445e-07, 'epoch': 0.9}
 90%|█████████ | 6002/6640 [1:56:45<6:14:15, 35.20s/it] 90%|█████████ | 6003/6640 [1:57:01<5:11:54, 29.38s/it]                                                       {'loss': 0.5125, 'learning_rate': 4.789380734519045e-07, 'epoch': 0.9}
 90%|█████████ | 6003/6640 [1:57:01<5:11:54, 29.38s/it] 90%|█████████ | 6004/6640 [1:57:17<4:29:51, 25.46s/it]                                                       {'loss': 0.5196, 'learning_rate': 4.774475959772818e-07, 'epoch': 0.9}
 90%|█████████ | 6004/6640 [1:57:17<4:29:51, 25.46s/it] 90%|█████████ | 6005/6640 [1:57:33<3:59:15, 22.61s/it]                                                       {'loss': 0.5211, 'learning_rate': 4.7595938461467706e-07, 'epoch': 0.9}
 90%|█████████ | 6005/6640 [1:57:33<3:59:15, 22.61s/it] 90%|█████████ | 6006/6640 [1:57:49<3:37:39, 20.60s/it]                                                       {'loss': 0.4975, 'learning_rate': 4.7447343971824044e-07, 'epoch': 0.9}
 90%|█████████ | 6006/6640 [1:57:49<3:37:39, 20.60s/it] 90%|█████████ | 6007/6640 [1:58:07<3:28:31, 19.77s/it]                                                       {'loss': 0.488, 'learning_rate': 4.7298976164158795e-07, 'epoch': 0.9}
 90%|█████████ | 6007/6640 [1:58:07<3:28:31, 19.77s/it] 90%|█████████ | 6008/6640 [1:58:22<3:14:40, 18.48s/it]                                                       {'loss': 0.5246, 'learning_rate': 4.715083507377949e-07, 'epoch': 0.9}
 90%|█████████ | 6008/6640 [1:58:22<3:14:40, 18.48s/it] 90%|█████████ | 6009/6640 [1:58:40<3:11:16, 18.19s/it]                                                       {'loss': 0.497, 'learning_rate': 4.7002920735939705e-07, 'epoch': 0.9}
 90%|█████████ | 6009/6640 [1:58:40<3:11:16, 18.19s/it] 91%|█████████ | 6010/6640 [1:58:55<3:02:43, 17.40s/it]                                                       {'loss': 0.518, 'learning_rate': 4.6855233185839175e-07, 'epoch': 0.91}
 91%|█████████ | 6010/6640 [1:58:55<3:02:43, 17.40s/it] 91%|█████████ | 6011/6640 [1:59:12<3:00:15, 17.19s/it]                                                       {'loss': 0.5006, 'learning_rate': 4.6707772458623566e-07, 'epoch': 0.91}
 91%|█████████ | 6011/6640 [1:59:12<3:00:15, 17.19s/it] 91%|█████████ | 6012/6640 [1:59:29<2:59:10, 17.12s/it]                                                       {'loss': 0.4984, 'learning_rate': 4.6560538589384585e-07, 'epoch': 0.91}
 91%|█████████ | 6012/6640 [1:59:29<2:59:10, 17.12s/it] 91%|█████████ | 6013/6640 [1:59:45<2:55:47, 16.82s/it]                                                       {'loss': 0.5192, 'learning_rate': 4.6413531613159755e-07, 'epoch': 0.91}
 91%|█████████ | 6013/6640 [1:59:45<2:55:47, 16.82s/it] 91%|█████████ | 6014/6640 [2:00:03<2:58:08, 17.07s/it]                                                       {'loss': 0.5181, 'learning_rate': 4.62667515649331e-07, 'epoch': 0.91}
 91%|█████████ | 6014/6640 [2:00:03<2:58:08, 17.07s/it] 91%|█████████ | 6015/6640 [2:00:19<2:56:01, 16.90s/it]                                                       {'loss': 0.5325, 'learning_rate': 4.6120198479634117e-07, 'epoch': 0.91}
 91%|█████████ | 6015/6640 [2:00:19<2:56:01, 16.90s/it] 91%|█████████ | 6016/6640 [2:00:36<2:54:43, 16.80s/it]                                                       {'loss': 0.5061, 'learning_rate': 4.5973872392138686e-07, 'epoch': 0.91}
 91%|█████████ | 6016/6640 [2:00:36<2:54:43, 16.80s/it] 91%|█████████ | 6017/6640 [2:00:53<2:54:06, 16.77s/it]                                                       {'loss': 0.5031, 'learning_rate': 4.5827773337268177e-07, 'epoch': 0.91}
 91%|█████████ | 6017/6640 [2:00:53<2:54:06, 16.77s/it] 91%|█████████ | 6018/6640 [2:01:08<2:50:50, 16.48s/it]                                                       {'loss': 0.4943, 'learning_rate': 4.5681901349790556e-07, 'epoch': 0.91}
 91%|█████████ | 6018/6640 [2:01:08<2:50:50, 16.48s/it] 91%|█████████ | 6019/6640 [2:01:24<2:48:20, 16.26s/it]                                                       {'loss': 0.5085, 'learning_rate': 4.553625646441928e-07, 'epoch': 0.91}
 91%|█████████ | 6019/6640 [2:01:24<2:48:20, 16.26s/it] 91%|█████████ | 6020/6640 [2:01:41<2:48:18, 16.29s/it]                                                       {'loss': 0.501, 'learning_rate': 4.5390838715813956e-07, 'epoch': 0.91}
 91%|█████████ | 6020/6640 [2:01:41<2:48:18, 16.29s/it] 91%|█████████ | 6021/6640 [2:01:57<2:48:56, 16.38s/it]                                                       {'loss': 0.5096, 'learning_rate': 4.5245648138580234e-07, 'epoch': 0.91}
 91%|█████████ | 6021/6640 [2:01:57<2:48:56, 16.38s/it] 91%|█████████ | 6022/6640 [2:02:13<2:47:57, 16.31s/it]                                                       {'loss': 0.4964, 'learning_rate': 4.5100684767269256e-07, 'epoch': 0.91}
 91%|█████████ | 6022/6640 [2:02:13<2:47:57, 16.31s/it] 91%|█████████ | 6023/6640 [2:02:29<2:46:50, 16.22s/it]                                                       {'loss': 0.4926, 'learning_rate': 4.495594863637875e-07, 'epoch': 0.91}
 91%|█████████ | 6023/6640 [2:02:29<2:46:50, 16.22s/it] 91%|█████████ | 6024/6640 [2:02:45<2:45:31, 16.12s/it]                                                       {'loss': 0.4845, 'learning_rate': 4.481143978035196e-07, 'epoch': 0.91}
 91%|█████████ | 6024/6640 [2:02:45<2:45:31, 16.12s/it] 91%|█████████ | 6025/6640 [2:03:02<2:47:17, 16.32s/it]                                                       {'loss': 0.5156, 'learning_rate': 4.4667158233577925e-07, 'epoch': 0.91}
 91%|█████████ | 6025/6640 [2:03:02<2:47:17, 16.32s/it] 91%|█████████ | 6026/6640 [2:03:19<2:49:50, 16.60s/it]                                                       {'loss': 0.5112, 'learning_rate': 4.452310403039217e-07, 'epoch': 0.91}
 91%|█████████ | 6026/6640 [2:03:19<2:49:50, 16.60s/it] 91%|█████████ | 6027/6640 [2:03:37<2:52:36, 16.90s/it]                                                       {'loss': 0.51, 'learning_rate': 4.4379277205075175e-07, 'epoch': 0.91}
 91%|█████████ | 6027/6640 [2:03:37<2:52:36, 16.90s/it] 91%|█████████ | 6028/6640 [2:03:54<2:51:46, 16.84s/it]                                                       {'loss': 0.5222, 'learning_rate': 4.4235677791854445e-07, 'epoch': 0.91}
 91%|█████████ | 6028/6640 [2:03:54<2:51:46, 16.84s/it] 91%|█████████ | 6029/6640 [2:04:11<2:52:31, 16.94s/it]                                                       {'loss': 0.4992, 'learning_rate': 4.4092305824902317e-07, 'epoch': 0.91}
 91%|█████████ | 6029/6640 [2:04:11<2:52:31, 16.94s/it] 91%|█████████ | 6030/6640 [2:04:27<2:48:53, 16.61s/it]                                                       {'loss': 0.5137, 'learning_rate': 4.394916133833782e-07, 'epoch': 0.91}
 91%|█████████ | 6030/6640 [2:04:27<2:48:53, 16.61s/it] 91%|█████████ | 6031/6640 [2:04:43<2:48:12, 16.57s/it]                                                       {'loss': 0.5077, 'learning_rate': 4.380624436622516e-07, 'epoch': 0.91}
 91%|█████████ | 6031/6640 [2:04:43<2:48:12, 16.57s/it] 91%|█████████ | 6032/6640 [2:05:00<2:49:34, 16.73s/it]                                                       {'loss': 0.5108, 'learning_rate': 4.3663554942575235e-07, 'epoch': 0.91}
 91%|█████████ | 6032/6640 [2:05:00<2:49:34, 16.73s/it] 91%|█████████ | 6033/6640 [2:05:17<2:48:13, 16.63s/it]                                                       {'loss': 0.5025, 'learning_rate': 4.352109310134378e-07, 'epoch': 0.91}
 91%|█████████ | 6033/6640 [2:05:17<2:48:13, 16.63s/it] 91%|█████████ | 6034/6640 [2:05:33<2:46:05, 16.45s/it]                                                       {'loss': 0.5212, 'learning_rate': 4.3378858876433117e-07, 'epoch': 0.91}
 91%|█████████ | 6034/6640 [2:05:33<2:46:05, 16.45s/it] 91%|█████████ | 6035/6640 [2:05:48<2:43:50, 16.25s/it]                                                       {'loss': 0.4967, 'learning_rate': 4.323685230169128e-07, 'epoch': 0.91}
 91%|█████████ | 6035/6640 [2:05:48<2:43:50, 16.25s/it] 91%|█████████ | 6036/6640 [2:06:04<2:42:26, 16.14s/it]                                                       {'loss': 0.4885, 'learning_rate': 4.309507341091179e-07, 'epoch': 0.91}
 91%|█████████ | 6036/6640 [2:06:04<2:42:26, 16.14s/it] 91%|█████████ | 6037/6640 [2:06:20<2:41:32, 16.07s/it]                                                       {'loss': 0.4953, 'learning_rate': 4.295352223783444e-07, 'epoch': 0.91}
 91%|█████████ | 6037/6640 [2:06:20<2:41:32, 16.07s/it] 91%|█████████ | 6038/6640 [2:06:36<2:41:52, 16.13s/it]                                                       {'loss': 0.5257, 'learning_rate': 4.281219881614451e-07, 'epoch': 0.91}
 91%|█████████ | 6038/6640 [2:06:36<2:41:52, 16.13s/it] 91%|█████████ | 6039/6640 [2:06:52<2:40:26, 16.02s/it]                                                       {'loss': 0.5048, 'learning_rate': 4.267110317947332e-07, 'epoch': 0.91}
 91%|█████████ | 6039/6640 [2:06:52<2:40:26, 16.02s/it] 91%|█████████ | 6040/6640 [2:07:08<2:40:46, 16.08s/it]                                                       {'loss': 0.5117, 'learning_rate': 4.253023536139733e-07, 'epoch': 0.91}
 91%|█████████ | 6040/6640 [2:07:08<2:40:46, 16.08s/it] 91%|█████████ | 6041/6640 [2:07:25<2:41:05, 16.14s/it]                                                       {'loss': 0.5173, 'learning_rate': 4.2389595395440074e-07, 'epoch': 0.91}
 91%|█████████ | 6041/6640 [2:07:25<2:41:05, 16.14s/it] 91%|█████████ | 6042/6640 [2:07:41<2:42:09, 16.27s/it]                                                       {'loss': 0.5292, 'learning_rate': 4.224918331506955e-07, 'epoch': 0.91}
 91%|█████████ | 6042/6640 [2:07:41<2:42:09, 16.27s/it] 91%|█████████ | 6043/6640 [2:07:57<2:40:51, 16.17s/it]                                                       {'loss': 0.4956, 'learning_rate': 4.2108999153700257e-07, 'epoch': 0.91}
 91%|█████████ | 6043/6640 [2:07:57<2:40:51, 16.17s/it] 91%|█████████ | 6044/6640 [2:08:15<2:44:09, 16.53s/it]                                                       {'loss': 0.5462, 'learning_rate': 4.1969042944692284e-07, 'epoch': 0.91}
 91%|█████████ | 6044/6640 [2:08:15<2:44:09, 16.53s/it] 91%|█████████ | 6045/6640 [2:08:31<2:43:18, 16.47s/it]                                                       {'loss': 0.5063, 'learning_rate': 4.1829314721351213e-07, 'epoch': 0.91}
 91%|█████████ | 6045/6640 [2:08:31<2:43:18, 16.47s/it] 91%|█████████ | 6046/6640 [2:08:48<2:44:38, 16.63s/it]                                                       {'loss': 0.5249, 'learning_rate': 4.1689814516928994e-07, 'epoch': 0.91}
 91%|█████████ | 6046/6640 [2:08:48<2:44:38, 16.63s/it] 91%|█████████ | 6047/6640 [2:09:04<2:43:50, 16.58s/it]                                                       {'loss': 0.502, 'learning_rate': 4.155054236462264e-07, 'epoch': 0.91}
 91%|█████████ | 6047/6640 [2:09:04<2:43:50, 16.58s/it] 91%|█████████ | 6048/6640 [2:09:21<2:44:10, 16.64s/it]                                                       {'loss': 0.5212, 'learning_rate': 4.14114982975754e-07, 'epoch': 0.91}
 91%|█████████ | 6048/6640 [2:09:21<2:44:10, 16.64s/it] 91%|█████████ | 6049/6640 [2:09:38<2:43:07, 16.56s/it]                                                       {'loss': 0.5187, 'learning_rate': 4.1272682348875604e-07, 'epoch': 0.91}
 91%|█████████ | 6049/6640 [2:09:38<2:43:07, 16.56s/it]0 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
 91%|█████████ | 6050/6640 [2:09:54<2:43:55, 16.67s/it]3 AutoResumeHook: Checking whether to suspend...1
 AutoResumeHook: Checking whether to suspend...
45 AutoResumeHook: Checking whether to suspend... AutoResumeHook: Checking whether to suspend...

2 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5185, 'learning_rate': 4.113409455155837e-07, 'epoch': 0.91}
 91%|█████████ | 6050/6640 [2:09:54<2:43:55, 16.67s/it] 91%|█████████ | 6051/6640 [2:10:11<2:43:20, 16.64s/it]                                                       {'loss': 0.5091, 'learning_rate': 4.099573493860343e-07, 'epoch': 0.91}
 91%|█████████ | 6051/6640 [2:10:11<2:43:20, 16.64s/it] 91%|█████████ | 6052/6640 [2:10:27<2:40:59, 16.43s/it]                                                       {'loss': 0.507, 'learning_rate': 4.0857603542936776e-07, 'epoch': 0.91}
 91%|█████████ | 6052/6640 [2:10:27<2:40:59, 16.43s/it] 91%|█████████ | 6053/6640 [2:10:43<2:40:35, 16.41s/it]                                                       {'loss': 0.513, 'learning_rate': 4.0719700397430116e-07, 'epoch': 0.91}
 91%|█████████ | 6053/6640 [2:10:43<2:40:35, 16.41s/it] 91%|█████████ | 6054/6640 [2:11:00<2:41:17, 16.51s/it]                                                       {'loss': 0.5049, 'learning_rate': 4.05820255349002e-07, 'epoch': 0.91}
 91%|█████████ | 6054/6640 [2:11:00<2:41:17, 16.51s/it] 91%|█████████ | 6055/6640 [2:11:16<2:40:22, 16.45s/it]                                                       {'loss': 0.5174, 'learning_rate': 4.0444578988110715e-07, 'epoch': 0.91}
 91%|█████████ | 6055/6640 [2:11:16<2:40:22, 16.45s/it] 91%|█████████ | 6056/6640 [2:11:33<2:39:50, 16.42s/it]                                                       {'loss': 0.5129, 'learning_rate': 4.0307360789769603e-07, 'epoch': 0.91}
 91%|█████████ | 6056/6640 [2:11:33<2:39:50, 16.42s/it] 91%|█████████ | 6057/6640 [2:11:48<2:37:32, 16.21s/it]                                                       {'loss': 0.4962, 'learning_rate': 4.017037097253151e-07, 'epoch': 0.91}
 91%|█████████ | 6057/6640 [2:11:48<2:37:32, 16.21s/it] 91%|█████████ | 6058/6640 [2:12:06<2:40:49, 16.58s/it]                                                       {'loss': 0.4951, 'learning_rate': 4.0033609568995934e-07, 'epoch': 0.91}
 91%|█████████ | 6058/6640 [2:12:06<2:40:49, 16.58s/it] 91%|█████████▏| 6059/6640 [2:12:22<2:40:17, 16.55s/it]                                                       {'loss': 0.5255, 'learning_rate': 3.989707661170894e-07, 'epoch': 0.91}
 91%|█████████▏| 6059/6640 [2:12:22<2:40:17, 16.55s/it] 91%|█████████▏| 6060/6640 [2:12:38<2:37:02, 16.25s/it]                                                       {'loss': 0.4972, 'learning_rate': 3.976077213316132e-07, 'epoch': 0.91}
 91%|█████████▏| 6060/6640 [2:12:38<2:37:02, 16.25s/it] 91%|█████████▏| 6061/6640 [2:12:54<2:37:15, 16.30s/it]                                                       {'loss': 0.4892, 'learning_rate': 3.96246961657899e-07, 'epoch': 0.91}
 91%|█████████▏| 6061/6640 [2:12:54<2:37:15, 16.30s/it] 91%|█████████▏| 6062/6640 [2:13:10<2:34:09, 16.00s/it]                                                       {'loss': 0.513, 'learning_rate': 3.9488848741977447e-07, 'epoch': 0.91}
 91%|█████████▏| 6062/6640 [2:13:10<2:34:09, 16.00s/it] 91%|█████████▏| 6063/6640 [2:13:27<2:36:29, 16.27s/it]                                                       {'loss': 0.5033, 'learning_rate': 3.935322989405155e-07, 'epoch': 0.91}
 91%|█████████▏| 6063/6640 [2:13:27<2:36:29, 16.27s/it] 91%|█████████▏| 6064/6640 [2:13:43<2:37:28, 16.40s/it]                                                       {'loss': 0.4956, 'learning_rate': 3.9217839654286274e-07, 'epoch': 0.91}
 91%|█████████▏| 6064/6640 [2:13:43<2:37:28, 16.40s/it] 91%|█████████▏| 6065/6640 [2:13:59<2:35:10, 16.19s/it]                                                       {'loss': 0.5225, 'learning_rate': 3.908267805490051e-07, 'epoch': 0.91}
 91%|█████████▏| 6065/6640 [2:13:59<2:35:10, 16.19s/it] 91%|█████████▏| 6066/6640 [2:14:16<2:36:23, 16.35s/it]                                                       {'loss': 0.4995, 'learning_rate': 3.894774512805932e-07, 'epoch': 0.91}
 91%|█████████▏| 6066/6640 [2:14:16<2:36:23, 16.35s/it] 91%|█████████▏| 6067/6640 [2:14:32<2:36:26, 16.38s/it]                                                       {'loss': 0.5193, 'learning_rate': 3.88130409058729e-07, 'epoch': 0.91}
 91%|█████████▏| 6067/6640 [2:14:32<2:36:26, 16.38s/it] 91%|█████████▏| 6068/6640 [2:14:49<2:36:47, 16.45s/it]                                                       {'loss': 0.4967, 'learning_rate': 3.8678565420397606e-07, 'epoch': 0.91}
 91%|█████████▏| 6068/6640 [2:14:49<2:36:47, 16.45s/it] 91%|█████████▏| 6069/6640 [2:15:04<2:34:22, 16.22s/it]                                                       {'loss': 0.5169, 'learning_rate': 3.854431870363473e-07, 'epoch': 0.91}
 91%|█████████▏| 6069/6640 [2:15:04<2:34:22, 16.22s/it] 91%|█████████▏| 6070/6640 [2:15:23<2:41:08, 16.96s/it]                                                       {'loss': 0.4924, 'learning_rate': 3.8410300787531385e-07, 'epoch': 0.91}
 91%|█████████▏| 6070/6640 [2:15:23<2:41:08, 16.96s/it] 91%|█████████▏| 6071/6640 [2:15:40<2:39:45, 16.85s/it]                                                       {'loss': 0.5168, 'learning_rate': 3.827651170398039e-07, 'epoch': 0.91}
 91%|█████████▏| 6071/6640 [2:15:40<2:39:45, 16.85s/it] 91%|█████████▏| 6072/6640 [2:15:56<2:37:27, 16.63s/it]                                                       {'loss': 0.5116, 'learning_rate': 3.814295148481961e-07, 'epoch': 0.91}
 91%|█████████▏| 6072/6640 [2:15:56<2:37:27, 16.63s/it] 91%|█████████▏| 6073/6640 [2:16:11<2:33:39, 16.26s/it]                                                       {'loss': 0.4836, 'learning_rate': 3.8009620161833295e-07, 'epoch': 0.91}
 91%|█████████▏| 6073/6640 [2:16:11<2:33:39, 16.26s/it] 91%|█████████▏| 6074/6640 [2:16:28<2:34:58, 16.43s/it]                                                       {'loss': 0.5106, 'learning_rate': 3.7876517766750386e-07, 'epoch': 0.91}
 91%|█████████▏| 6074/6640 [2:16:28<2:34:58, 16.43s/it] 91%|█████████▏| 6075/6640 [2:16:44<2:33:34, 16.31s/it]                                                       {'loss': 0.4904, 'learning_rate': 3.774364433124578e-07, 'epoch': 0.91}
 91%|█████████▏| 6075/6640 [2:16:44<2:33:34, 16.31s/it] 92%|█████████▏| 6076/6640 [2:17:00<2:33:01, 16.28s/it]                                                       {'loss': 0.5156, 'learning_rate': 3.7610999886939725e-07, 'epoch': 0.92}
 92%|█████████▏| 6076/6640 [2:17:00<2:33:01, 16.28s/it] 92%|█████████▏| 6077/6640 [2:17:18<2:35:39, 16.59s/it]                                                       {'loss': 0.5123, 'learning_rate': 3.7478584465398206e-07, 'epoch': 0.92}
 92%|█████████▏| 6077/6640 [2:17:18<2:35:39, 16.59s/it] 92%|█████████▏| 6078/6640 [2:17:34<2:33:32, 16.39s/it]                                                       {'loss': 0.5052, 'learning_rate': 3.734639809813245e-07, 'epoch': 0.92}
 92%|█████████▏| 6078/6640 [2:17:34<2:33:32, 16.39s/it] 92%|█████████▏| 6079/6640 [2:17:50<2:34:52, 16.56s/it]                                                       {'loss': 0.496, 'learning_rate': 3.7214440816599193e-07, 'epoch': 0.92}
 92%|█████████▏| 6079/6640 [2:17:50<2:34:52, 16.56s/it] 92%|█████████▏| 6080/6640 [2:18:07<2:35:13, 16.63s/it]                                                       {'loss': 0.4988, 'learning_rate': 3.708271265220087e-07, 'epoch': 0.92}
 92%|█████████▏| 6080/6640 [2:18:07<2:35:13, 16.63s/it] 92%|█████████▏| 6081/6640 [2:18:23<2:31:40, 16.28s/it]                                                       {'loss': 0.4766, 'learning_rate': 3.695121363628484e-07, 'epoch': 0.92}
 92%|█████████▏| 6081/6640 [2:18:23<2:31:40, 16.28s/it] 92%|█████████▏| 6082/6640 [2:18:39<2:31:58, 16.34s/it]                                                       {'loss': 0.4857, 'learning_rate': 3.6819943800144975e-07, 'epoch': 0.92}
 92%|█████████▏| 6082/6640 [2:18:39<2:31:58, 16.34s/it] 92%|█████████▏| 6083/6640 [2:18:56<2:34:18, 16.62s/it]                                                       {'loss': 0.4998, 'learning_rate': 3.6688903175019607e-07, 'epoch': 0.92}
 92%|█████████▏| 6083/6640 [2:18:56<2:34:18, 16.62s/it] 92%|█████████▏| 6084/6640 [2:19:13<2:33:48, 16.60s/it]                                                       {'loss': 0.5199, 'learning_rate': 3.6558091792092907e-07, 'epoch': 0.92}
 92%|█████████▏| 6084/6640 [2:19:13<2:33:48, 16.60s/it] 92%|█████████▏| 6085/6640 [2:19:29<2:31:28, 16.38s/it]                                                       {'loss': 0.5095, 'learning_rate': 3.642750968249442e-07, 'epoch': 0.92}
 92%|█████████▏| 6085/6640 [2:19:29<2:31:28, 16.38s/it] 92%|█████████▏| 6086/6640 [2:19:47<2:36:54, 16.99s/it]                                                       {'loss': 0.512, 'learning_rate': 3.62971568772994e-07, 'epoch': 0.92}
 92%|█████████▏| 6086/6640 [2:19:47<2:36:54, 16.99s/it] 92%|█████████▏| 6087/6640 [2:20:05<2:38:11, 17.16s/it]                                                       {'loss': 0.5107, 'learning_rate': 3.616703340752825e-07, 'epoch': 0.92}
 92%|█████████▏| 6087/6640 [2:20:05<2:38:11, 17.16s/it] 92%|█████████▏| 6088/6640 [2:20:22<2:36:28, 17.01s/it]                                                       {'loss': 0.5052, 'learning_rate': 3.603713930414676e-07, 'epoch': 0.92}
 92%|█████████▏| 6088/6640 [2:20:22<2:36:28, 17.01s/it] 92%|█████████▏| 6089/6640 [2:20:38<2:33:45, 16.74s/it]                                                       {'loss': 0.5183, 'learning_rate': 3.5907474598066315e-07, 'epoch': 0.92}
 92%|█████████▏| 6089/6640 [2:20:38<2:33:45, 16.74s/it] 92%|█████████▏| 6090/6640 [2:20:53<2:30:01, 16.37s/it]                                                       {'loss': 0.497, 'learning_rate': 3.5778039320143456e-07, 'epoch': 0.92}
 92%|█████████▏| 6090/6640 [2:20:53<2:30:01, 16.37s/it] 92%|█████████▏| 6091/6640 [2:21:09<2:28:31, 16.23s/it]                                                       {'loss': 0.5001, 'learning_rate': 3.5648833501180645e-07, 'epoch': 0.92}
 92%|█████████▏| 6091/6640 [2:21:09<2:28:31, 16.23s/it] 92%|█████████▏| 6092/6640 [2:21:26<2:30:25, 16.47s/it]                                                       {'loss': 0.4987, 'learning_rate': 3.551985717192519e-07, 'epoch': 0.92}
 92%|█████████▏| 6092/6640 [2:21:26<2:30:25, 16.47s/it] 92%|█████████▏| 6093/6640 [2:21:42<2:28:08, 16.25s/it]                                                       {'loss': 0.5127, 'learning_rate': 3.539111036306997e-07, 'epoch': 0.92}
 92%|█████████▏| 6093/6640 [2:21:42<2:28:08, 16.25s/it] 92%|█████████▏| 6094/6640 [2:21:58<2:28:46, 16.35s/it]                                                       {'loss': 0.497, 'learning_rate': 3.5262593105253374e-07, 'epoch': 0.92}
 92%|█████████▏| 6094/6640 [2:21:58<2:28:46, 16.35s/it] 92%|█████████▏| 6095/6640 [2:22:15<2:28:56, 16.40s/it]                                                       {'loss': 0.5264, 'learning_rate': 3.5134305429058935e-07, 'epoch': 0.92}
 92%|█████████▏| 6095/6640 [2:22:15<2:28:56, 16.40s/it] 92%|█████████▏| 6096/6640 [2:22:31<2:28:23, 16.37s/it]                                                       {'loss': 0.5128, 'learning_rate': 3.50062473650159e-07, 'epoch': 0.92}
 92%|█████████▏| 6096/6640 [2:22:31<2:28:23, 16.37s/it] 92%|█████████▏| 6097/6640 [2:22:47<2:26:55, 16.24s/it]                                                       {'loss': 0.5127, 'learning_rate': 3.4878418943598446e-07, 'epoch': 0.92}
 92%|█████████▏| 6097/6640 [2:22:47<2:26:55, 16.24s/it] 92%|█████████▏| 6098/6640 [2:23:04<2:27:57, 16.38s/it]                                                       {'loss': 0.5149, 'learning_rate': 3.475082019522646e-07, 'epoch': 0.92}
 92%|█████████▏| 6098/6640 [2:23:04<2:27:57, 16.38s/it] 92%|█████████▏| 6099/6640 [2:23:20<2:28:21, 16.45s/it]                                                       {'loss': 0.5057, 'learning_rate': 3.462345115026478e-07, 'epoch': 0.92}
 92%|█████████▏| 6099/6640 [2:23:20<2:28:21, 16.45s/it]06 AutoResumeHook: Checking whether to suspend...
 2 AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

3 AutoResumeHook: Checking whether to suspend...
 92%|█████████▏| 6100/6640 [2:23:37<2:27:51, 16.43s/it]4 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5199, 'learning_rate': 3.4496311839024133e-07, 'epoch': 0.92}
 92%|█████████▏| 6100/6640 [2:23:37<2:27:51, 16.43s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6100/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6100/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6100/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 92%|█████████▏| 6101/6640 [2:25:21<6:22:53, 42.62s/it]                                                       {'loss': 0.5165, 'learning_rate': 3.436940229176e-07, 'epoch': 0.92}
 92%|█████████▏| 6101/6640 [2:25:21<6:22:53, 42.62s/it] 92%|█████████▏| 6102/6640 [2:25:37<5:11:00, 34.68s/it]                                                       {'loss': 0.522, 'learning_rate': 3.4242722538673557e-07, 'epoch': 0.92}
 92%|█████████▏| 6102/6640 [2:25:37<5:11:00, 34.68s/it] 92%|█████████▏| 6103/6640 [2:25:53<4:19:49, 29.03s/it]                                                       {'loss': 0.5017, 'learning_rate': 3.411627260991124e-07, 'epoch': 0.92}
 92%|█████████▏| 6103/6640 [2:25:53<4:19:49, 29.03s/it] 92%|█████████▏| 6104/6640 [2:26:09<3:45:28, 25.24s/it]                                                       {'loss': 0.5005, 'learning_rate': 3.3990052535564644e-07, 'epoch': 0.92}
 92%|█████████▏| 6104/6640 [2:26:09<3:45:28, 25.24s/it] 92%|█████████▏| 6105/6640 [2:26:25<3:20:12, 22.45s/it]                                                       {'loss': 0.5181, 'learning_rate': 3.386406234567086e-07, 'epoch': 0.92}
 92%|█████████▏| 6105/6640 [2:26:25<3:20:12, 22.45s/it] 92%|█████████▏| 6106/6640 [2:26:41<3:03:21, 20.60s/it]                                                       {'loss': 0.5092, 'learning_rate': 3.3738302070212114e-07, 'epoch': 0.92}
 92%|█████████▏| 6106/6640 [2:26:41<3:03:21, 20.60s/it] 92%|█████████▏| 6107/6640 [2:26:57<2:50:28, 19.19s/it]                                                       {'loss': 0.5083, 'learning_rate': 3.3612771739116035e-07, 'epoch': 0.92}
 92%|█████████▏| 6107/6640 [2:26:57<2:50:28, 19.19s/it] 92%|█████████▏| 6108/6640 [2:27:14<2:42:49, 18.36s/it]                                                       {'loss': 0.5108, 'learning_rate': 3.3487471382255277e-07, 'epoch': 0.92}
 92%|█████████▏| 6108/6640 [2:27:14<2:42:49, 18.36s/it] 92%|█████████▏| 6109/6640 [2:27:29<2:36:00, 17.63s/it]                                                       {'loss': 0.5028, 'learning_rate': 3.336240102944821e-07, 'epoch': 0.92}
 92%|█████████▏| 6109/6640 [2:27:29<2:36:00, 17.63s/it] 92%|█████████▏| 6110/6640 [2:27:45<2:31:18, 17.13s/it]                                                       {'loss': 0.489, 'learning_rate': 3.3237560710458137e-07, 'epoch': 0.92}
 92%|█████████▏| 6110/6640 [2:27:45<2:31:18, 17.13s/it] 92%|█████████▏| 6111/6640 [2:28:02<2:29:19, 16.94s/it]                                                       {'loss': 0.506, 'learning_rate': 3.3112950454993633e-07, 'epoch': 0.92}
 92%|█████████▏| 6111/6640 [2:28:02<2:29:19, 16.94s/it] 92%|█████████▏| 6112/6640 [2:28:19<2:30:04, 17.05s/it]                                                       {'loss': 0.5222, 'learning_rate': 3.298857029270863e-07, 'epoch': 0.92}
 92%|█████████▏| 6112/6640 [2:28:19<2:30:04, 17.05s/it] 92%|█████████▏| 6113/6640 [2:28:37<2:31:46, 17.28s/it]                                                       {'loss': 0.5086, 'learning_rate': 3.2864420253202357e-07, 'epoch': 0.92}
 92%|█████████▏| 6113/6640 [2:28:37<2:31:46, 17.28s/it] 92%|█████████▏| 6114/6640 [2:28:54<2:30:15, 17.14s/it]                                                       {'loss': 0.5171, 'learning_rate': 3.274050036601917e-07, 'epoch': 0.92}
 92%|█████████▏| 6114/6640 [2:28:54<2:30:15, 17.14s/it] 92%|█████████▏| 6115/6640 [2:29:10<2:27:48, 16.89s/it]                                                       {'loss': 0.5161, 'learning_rate': 3.261681066064859e-07, 'epoch': 0.92}
 92%|█████████▏| 6115/6640 [2:29:10<2:27:48, 16.89s/it] 92%|█████████▏| 6116/6640 [2:29:26<2:25:52, 16.70s/it]                                                       {'loss': 0.5145, 'learning_rate': 3.2493351166525413e-07, 'epoch': 0.92}
 92%|█████████▏| 6116/6640 [2:29:26<2:25:52, 16.70s/it] 92%|█████████▏| 6117/6640 [2:29:43<2:24:07, 16.53s/it]                                                       {'loss': 0.5109, 'learning_rate': 3.2370121913029796e-07, 'epoch': 0.92}
 92%|█████████▏| 6117/6640 [2:29:43<2:24:07, 16.53s/it] 92%|█████████▏| 6118/6640 [2:29:59<2:23:00, 16.44s/it]                                                       {'loss': 0.5122, 'learning_rate': 3.224712292948695e-07, 'epoch': 0.92}
 92%|█████████▏| 6118/6640 [2:29:59<2:23:00, 16.44s/it] 92%|█████████▏| 6119/6640 [2:30:15<2:22:32, 16.42s/it]                                                       {'loss': 0.5241, 'learning_rate': 3.212435424516758e-07, 'epoch': 0.92}
 92%|█████████▏| 6119/6640 [2:30:15<2:22:32, 16.42s/it] 92%|█████████▏| 6120/6640 [2:30:32<2:22:34, 16.45s/it]                                                       {'loss': 0.4929, 'learning_rate': 3.2001815889286856e-07, 'epoch': 0.92}
 92%|█████████▏| 6120/6640 [2:30:32<2:22:34, 16.45s/it] 92%|█████████▏| 6121/6640 [2:30:49<2:24:07, 16.66s/it]                                                       {'loss': 0.5017, 'learning_rate': 3.1879507891005914e-07, 'epoch': 0.92}
 92%|█████████▏| 6121/6640 [2:30:49<2:24:07, 16.66s/it] 92%|█████████▏| 6122/6640 [2:31:05<2:22:21, 16.49s/it]                                                       {'loss': 0.5089, 'learning_rate': 3.175743027943079e-07, 'epoch': 0.92}
 92%|█████████▏| 6122/6640 [2:31:05<2:22:21, 16.49s/it] 92%|█████████▏| 6123/6640 [2:31:22<2:24:49, 16.81s/it]                                                       {'loss': 0.5223, 'learning_rate': 3.16355830836127e-07, 'epoch': 0.92}
 92%|█████████▏| 6123/6640 [2:31:22<2:24:49, 16.81s/it] 92%|█████████▏| 6124/6640 [2:31:39<2:24:34, 16.81s/it]                                                       {'loss': 0.5174, 'learning_rate': 3.1513966332547887e-07, 'epoch': 0.92}
 92%|█████████▏| 6124/6640 [2:31:39<2:24:34, 16.81s/it] 92%|█████████▏| 6125/6640 [2:31:56<2:22:56, 16.65s/it]                                                       {'loss': 0.5181, 'learning_rate': 3.1392580055177867e-07, 'epoch': 0.92}
 92%|█████████▏| 6125/6640 [2:31:56<2:22:56, 16.65s/it] 92%|█████████▏| 6126/6640 [2:32:11<2:19:03, 16.23s/it]                                                       {'loss': 0.5251, 'learning_rate': 3.1271424280389317e-07, 'epoch': 0.92}
 92%|█████████▏| 6126/6640 [2:32:11<2:19:03, 16.23s/it] 92%|█████████▏| 6127/6640 [2:32:26<2:16:56, 16.02s/it]                                                       {'loss': 0.5136, 'learning_rate': 3.115049903701417e-07, 'epoch': 0.92}
 92%|█████████▏| 6127/6640 [2:32:26<2:16:56, 16.02s/it] 92%|█████████▏| 6128/6640 [2:32:43<2:17:39, 16.13s/it]                                                       {'loss': 0.497, 'learning_rate': 3.1029804353829517e-07, 'epoch': 0.92}
 92%|█████████▏| 6128/6640 [2:32:43<2:17:39, 16.13s/it] 92%|█████████▏| 6129/6640 [2:32:59<2:17:27, 16.14s/it]                                                       {'loss': 0.5011, 'learning_rate': 3.0909340259557055e-07, 'epoch': 0.92}
 92%|█████████▏| 6129/6640 [2:32:59<2:17:27, 16.14s/it] 92%|█████████▏| 6130/6640 [2:33:15<2:17:12, 16.14s/it]                                                       {'loss': 0.5165, 'learning_rate': 3.0789106782864285e-07, 'epoch': 0.92}
 92%|█████████▏| 6130/6640 [2:33:15<2:17:12, 16.14s/it] 92%|█████████▏| 6131/6640 [2:33:32<2:18:35, 16.34s/it]                                                       {'loss': 0.494, 'learning_rate': 3.0669103952363557e-07, 'epoch': 0.92}
 92%|█████████▏| 6131/6640 [2:33:32<2:18:35, 16.34s/it] 92%|█████████▏| 6132/6640 [2:33:48<2:18:37, 16.37s/it]                                                       {'loss': 0.5034, 'learning_rate': 3.0549331796612237e-07, 'epoch': 0.92}
 92%|█████████▏| 6132/6640 [2:33:48<2:18:37, 16.37s/it] 92%|█████████▏| 6133/6640 [2:34:05<2:18:51, 16.43s/it]                                                       {'loss': 0.5238, 'learning_rate': 3.042979034411286e-07, 'epoch': 0.92}
 92%|█████████▏| 6133/6640 [2:34:05<2:18:51, 16.43s/it] 92%|█████████▏| 6134/6640 [2:34:21<2:18:03, 16.37s/it]                                                       {'loss': 0.5022, 'learning_rate': 3.0310479623313125e-07, 'epoch': 0.92}
 92%|█████████▏| 6134/6640 [2:34:21<2:18:03, 16.37s/it] 92%|█████████▏| 6135/6640 [2:34:39<2:20:29, 16.69s/it]                                                       {'loss': 0.5222, 'learning_rate': 3.019139966260587e-07, 'epoch': 0.92}
 92%|█████████▏| 6135/6640 [2:34:39<2:20:29, 16.69s/it] 92%|█████████▏| 6136/6640 [2:34:54<2:18:18, 16.46s/it]                                                       {'loss': 0.5016, 'learning_rate': 3.0072550490328754e-07, 'epoch': 0.92}
 92%|█████████▏| 6136/6640 [2:34:54<2:18:18, 16.46s/it] 92%|█████████▏| 6137/6640 [2:35:11<2:18:09, 16.48s/it]                                                       {'loss': 0.5185, 'learning_rate': 2.995393213476494e-07, 'epoch': 0.92}
 92%|█████████▏| 6137/6640 [2:35:11<2:18:09, 16.48s/it] 92%|█████████▏| 6138/6640 [2:35:27<2:16:43, 16.34s/it]                                                       {'loss': 0.5057, 'learning_rate': 2.983554462414218e-07, 'epoch': 0.92}
 92%|█████████▏| 6138/6640 [2:35:27<2:16:43, 16.34s/it] 92%|█████████▏| 6139/6640 [2:35:43<2:16:19, 16.33s/it]                                                       {'loss': 0.5177, 'learning_rate': 2.971738798663348e-07, 'epoch': 0.92}
 92%|█████████▏| 6139/6640 [2:35:43<2:16:19, 16.33s/it] 92%|█████████▏| 6140/6640 [2:36:02<2:20:46, 16.89s/it]                                                       {'loss': 0.513, 'learning_rate': 2.959946225035726e-07, 'epoch': 0.92}
 92%|█████████▏| 6140/6640 [2:36:02<2:20:46, 16.89s/it] 92%|█████████▏| 6141/6640 [2:36:18<2:18:44, 16.68s/it]                                                       {'loss': 0.5062, 'learning_rate': 2.9481767443376496e-07, 'epoch': 0.92}
 92%|█████████▏| 6141/6640 [2:36:18<2:18:44, 16.68s/it] 92%|█████████▎| 6142/6640 [2:36:34<2:18:07, 16.64s/it]                                                       {'loss': 0.5122, 'learning_rate': 2.936430359369935e-07, 'epoch': 0.93}
 92%|█████████▎| 6142/6640 [2:36:34<2:18:07, 16.64s/it] 93%|█████████▎| 6143/6640 [2:36:51<2:17:57, 16.65s/it]                                                       {'loss': 0.4909, 'learning_rate': 2.9247070729279017e-07, 'epoch': 0.93}
 93%|█████████▎| 6143/6640 [2:36:51<2:17:57, 16.65s/it] 93%|█████████▎| 6144/6640 [2:37:06<2:14:54, 16.32s/it]                                                       {'loss': 0.5026, 'learning_rate': 2.913006887801395e-07, 'epoch': 0.93}
 93%|█████████▎| 6144/6640 [2:37:06<2:14:54, 16.32s/it] 93%|█████████▎| 6145/6640 [2:37:24<2:16:52, 16.59s/it]                                                       {'loss': 0.5032, 'learning_rate': 2.901329806774744e-07, 'epoch': 0.93}
 93%|█████████▎| 6145/6640 [2:37:24<2:16:52, 16.59s/it] 93%|█████████▎| 6146/6640 [2:37:41<2:17:19, 16.68s/it]                                                       {'loss': 0.4919, 'learning_rate': 2.8896758326267703e-07, 'epoch': 0.93}
 93%|█████████▎| 6146/6640 [2:37:41<2:17:19, 16.68s/it] 93%|█████████▎| 6147/6640 [2:37:57<2:15:17, 16.47s/it]                                                       {'loss': 0.5226, 'learning_rate': 2.878044968130811e-07, 'epoch': 0.93}
 93%|█████████▎| 6147/6640 [2:37:57<2:15:17, 16.47s/it] 93%|█████████▎| 6148/6640 [2:38:14<2:16:40, 16.67s/it]                                                       {'loss': 0.5044, 'learning_rate': 2.866437216054696e-07, 'epoch': 0.93}
 93%|█████████▎| 6148/6640 [2:38:14<2:16:40, 16.67s/it] 93%|█████████▎| 6149/6640 [2:38:30<2:15:15, 16.53s/it]                                                       {'loss': 0.5092, 'learning_rate': 2.854852579160772e-07, 'epoch': 0.93}
 93%|█████████▎| 6149/6640 [2:38:30<2:15:15, 16.53s/it]0 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
 93%|█████████▎| 6150/6640 [2:38:47<2:15:45, 16.62s/it]5 AutoResumeHook: Checking whether to suspend...
47  AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

3 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.502, 'learning_rate': 2.843291060205855e-07, 'epoch': 0.93}
 93%|█████████▎| 6150/6640 [2:38:47<2:15:45, 16.62s/it] 93%|█████████▎| 6151/6640 [2:39:03<2:15:16, 16.60s/it]                                                       {'loss': 0.5252, 'learning_rate': 2.8317526619412895e-07, 'epoch': 0.93}
 93%|█████████▎| 6151/6640 [2:39:03<2:15:16, 16.60s/it] 93%|█████████▎| 6152/6640 [2:39:20<2:16:02, 16.73s/it]                                                       {'loss': 0.5214, 'learning_rate': 2.8202373871128897e-07, 'epoch': 0.93}
 93%|█████████▎| 6152/6640 [2:39:20<2:16:02, 16.73s/it] 93%|█████████▎| 6153/6640 [2:39:37<2:16:41, 16.84s/it]                                                       {'loss': 0.5171, 'learning_rate': 2.808745238460997e-07, 'epoch': 0.93}
 93%|█████████▎| 6153/6640 [2:39:37<2:16:41, 16.84s/it] 93%|█████████▎| 6154/6640 [2:39:54<2:16:04, 16.80s/it]                                                       {'loss': 0.506, 'learning_rate': 2.7972762187204237e-07, 'epoch': 0.93}
 93%|█████████▎| 6154/6640 [2:39:54<2:16:04, 16.80s/it] 93%|█████████▎| 6155/6640 [2:40:10<2:14:04, 16.59s/it]                                                       {'loss': 0.4957, 'learning_rate': 2.785830330620509e-07, 'epoch': 0.93}
 93%|█████████▎| 6155/6640 [2:40:10<2:14:04, 16.59s/it] 93%|█████████▎| 6156/6640 [2:40:26<2:12:38, 16.44s/it]                                                       {'loss': 0.519, 'learning_rate': 2.774407576885041e-07, 'epoch': 0.93}
 93%|█████████▎| 6156/6640 [2:40:26<2:12:38, 16.44s/it] 93%|█████████▎| 6157/6640 [2:40:43<2:12:09, 16.42s/it]                                                       {'loss': 0.5227, 'learning_rate': 2.7630079602323447e-07, 'epoch': 0.93}
 93%|█████████▎| 6157/6640 [2:40:43<2:12:09, 16.42s/it] 93%|█████████▎| 6158/6640 [2:41:00<2:13:19, 16.60s/it]                                                       {'loss': 0.5143, 'learning_rate': 2.751631483375217e-07, 'epoch': 0.93}
 93%|█████████▎| 6158/6640 [2:41:00<2:13:19, 16.60s/it] 93%|█████████▎| 6159/6640 [2:41:15<2:11:08, 16.36s/it]                                                       {'loss': 0.5054, 'learning_rate': 2.7402781490209473e-07, 'epoch': 0.93}
 93%|█████████▎| 6159/6640 [2:41:15<2:11:08, 16.36s/it] 93%|█████████▎| 6160/6640 [2:41:32<2:10:09, 16.27s/it]                                                       {'loss': 0.4978, 'learning_rate': 2.728947959871353e-07, 'epoch': 0.93}
 93%|█████████▎| 6160/6640 [2:41:32<2:10:09, 16.27s/it] 93%|█████████▎| 6161/6640 [2:41:47<2:06:59, 15.91s/it]                                                       {'loss': 0.5526, 'learning_rate': 2.717640918622677e-07, 'epoch': 0.93}
 93%|█████████▎| 6161/6640 [2:41:47<2:06:59, 15.91s/it] 93%|█████████▎| 6162/6640 [2:42:03<2:09:02, 16.20s/it]                                                       {'loss': 0.5118, 'learning_rate': 2.7063570279657114e-07, 'epoch': 0.93}
 93%|█████████▎| 6162/6640 [2:42:03<2:09:02, 16.20s/it] 93%|█████████▎| 6163/6640 [2:42:21<2:11:02, 16.48s/it]                                                       {'loss': 0.506, 'learning_rate': 2.695096290585719e-07, 'epoch': 0.93}
 93%|█████████▎| 6163/6640 [2:42:21<2:11:02, 16.48s/it] 93%|█████████▎| 6164/6640 [2:42:37<2:09:49, 16.36s/it]                                                       {'loss': 0.5066, 'learning_rate': 2.683858709162468e-07, 'epoch': 0.93}
 93%|█████████▎| 6164/6640 [2:42:37<2:09:49, 16.36s/it] 93%|█████████▎| 6165/6640 [2:42:52<2:07:50, 16.15s/it]                                                       {'loss': 0.503, 'learning_rate': 2.672644286370163e-07, 'epoch': 0.93}
 93%|█████████▎| 6165/6640 [2:42:52<2:07:50, 16.15s/it] 93%|█████████▎| 6166/6640 [2:43:10<2:10:15, 16.49s/it]                                                       {'loss': 0.5031, 'learning_rate': 2.661453024877569e-07, 'epoch': 0.93}
 93%|█████████▎| 6166/6640 [2:43:10<2:10:15, 16.49s/it] 93%|█████████▎| 6167/6640 [2:43:26<2:08:58, 16.36s/it]                                                       {'loss': 0.5022, 'learning_rate': 2.6502849273478903e-07, 'epoch': 0.93}
 93%|█████████▎| 6167/6640 [2:43:26<2:08:58, 16.36s/it] 93%|█████████▎| 6168/6640 [2:43:42<2:07:32, 16.21s/it]                                                       {'loss': 0.5124, 'learning_rate': 2.639139996438844e-07, 'epoch': 0.93}
 93%|█████████▎| 6168/6640 [2:43:42<2:07:32, 16.21s/it] 93%|█████████▎| 6169/6640 [2:43:58<2:08:02, 16.31s/it]                                                       {'loss': 0.4843, 'learning_rate': 2.6280182348026206e-07, 'epoch': 0.93}
 93%|█████████▎| 6169/6640 [2:43:58<2:08:02, 16.31s/it] 93%|█████████▎| 6170/6640 [2:44:14<2:07:26, 16.27s/it]                                                       {'loss': 0.5086, 'learning_rate': 2.616919645085902e-07, 'epoch': 0.93}
 93%|█████████▎| 6170/6640 [2:44:14<2:07:26, 16.27s/it] 93%|█████████▎| 6171/6640 [2:44:30<2:05:44, 16.09s/it]                                                       {'loss': 0.4899, 'learning_rate': 2.6058442299298437e-07, 'epoch': 0.93}
 93%|█████████▎| 6171/6640 [2:44:30<2:05:44, 16.09s/it] 93%|█████████▎| 6172/6640 [2:44:46<2:05:52, 16.14s/it]                                                       {'loss': 0.5003, 'learning_rate': 2.594791991970114e-07, 'epoch': 0.93}
 93%|█████████▎| 6172/6640 [2:44:46<2:05:52, 16.14s/it] 93%|█████████▎| 6173/6640 [2:45:02<2:05:16, 16.09s/it]                                                       {'loss': 0.497, 'learning_rate': 2.583762933836853e-07, 'epoch': 0.93}
 93%|█████████▎| 6173/6640 [2:45:02<2:05:16, 16.09s/it] 93%|█████████▎| 6174/6640 [2:45:19<2:06:30, 16.29s/it]                                                       {'loss': 0.509, 'learning_rate': 2.572757058154651e-07, 'epoch': 0.93}
 93%|█████████▎| 6174/6640 [2:45:19<2:06:30, 16.29s/it] 93%|█████████▎| 6175/6640 [2:45:35<2:06:32, 16.33s/it]                                                       {'loss': 0.5063, 'learning_rate': 2.5617743675426354e-07, 'epoch': 0.93}
 93%|█████████▎| 6175/6640 [2:45:35<2:06:32, 16.33s/it] 93%|█████████▎| 6176/6640 [2:45:51<2:05:31, 16.23s/it]                                                       {'loss': 0.5131, 'learning_rate': 2.5508148646143927e-07, 'epoch': 0.93}
 93%|█████████▎| 6176/6640 [2:45:51<2:05:31, 16.23s/it] 93%|█████████▎| 6177/6640 [2:46:08<2:06:11, 16.35s/it]                                                       {'loss': 0.514, 'learning_rate': 2.5398785519779814e-07, 'epoch': 0.93}
 93%|█████████▎| 6177/6640 [2:46:08<2:06:11, 16.35s/it] 93%|█████████▎| 6178/6640 [2:46:24<2:05:03, 16.24s/it]                                                       {'loss': 0.5345, 'learning_rate': 2.5289654322359526e-07, 'epoch': 0.93}
 93%|█████████▎| 6178/6640 [2:46:24<2:05:03, 16.24s/it] 93%|█████████▎| 6179/6640 [2:46:41<2:06:23, 16.45s/it]                                                       {'loss': 0.5274, 'learning_rate': 2.5180755079853405e-07, 'epoch': 0.93}
 93%|█████████▎| 6179/6640 [2:46:41<2:06:23, 16.45s/it] 93%|█████████▎| 6180/6640 [2:46:57<2:05:18, 16.34s/it]                                                       {'loss': 0.5166, 'learning_rate': 2.507208781817638e-07, 'epoch': 0.93}
 93%|█████████▎| 6180/6640 [2:46:57<2:05:18, 16.34s/it] 93%|█████████▎| 6181/6640 [2:47:13<2:03:59, 16.21s/it]                                                       {'loss': 0.5169, 'learning_rate': 2.4963652563188557e-07, 'epoch': 0.93}
 93%|█████████▎| 6181/6640 [2:47:13<2:03:59, 16.21s/it] 93%|█████████▎| 6182/6640 [2:47:30<2:05:10, 16.40s/it]                                                       {'loss': 0.5102, 'learning_rate': 2.4855449340694616e-07, 'epoch': 0.93}
 93%|█████████▎| 6182/6640 [2:47:30<2:05:10, 16.40s/it] 93%|█████████▎| 6183/6640 [2:47:46<2:05:25, 16.47s/it]                                                       {'loss': 0.5106, 'learning_rate': 2.474747817644396e-07, 'epoch': 0.93}
 93%|█████████▎| 6183/6640 [2:47:46<2:05:25, 16.47s/it] 93%|█████████▎| 6184/6640 [2:48:02<2:04:02, 16.32s/it]                                                       {'loss': 0.5196, 'learning_rate': 2.463973909613071e-07, 'epoch': 0.93}
 93%|█████████▎| 6184/6640 [2:48:02<2:04:02, 16.32s/it] 93%|█████████▎| 6185/6640 [2:48:18<2:01:47, 16.06s/it]                                                       {'loss': 0.5181, 'learning_rate': 2.453223212539391e-07, 'epoch': 0.93}
 93%|█████████▎| 6185/6640 [2:48:18<2:01:47, 16.06s/it] 93%|█████████▎| 6186/6640 [2:48:34<2:01:58, 16.12s/it]                                                       {'loss': 0.5251, 'learning_rate': 2.442495728981753e-07, 'epoch': 0.93}
 93%|█████████▎| 6186/6640 [2:48:34<2:01:58, 16.12s/it] 93%|█████████▎| 6187/6640 [2:48:51<2:02:32, 16.23s/it]                                                       {'loss': 0.5335, 'learning_rate': 2.4317914614930047e-07, 'epoch': 0.93}
 93%|█████████▎| 6187/6640 [2:48:51<2:02:32, 16.23s/it] 93%|█████████▎| 6188/6640 [2:49:07<2:02:01, 16.20s/it]                                                       {'loss': 0.5001, 'learning_rate': 2.421110412620453e-07, 'epoch': 0.93}
 93%|█████████▎| 6188/6640 [2:49:07<2:02:01, 16.20s/it] 93%|█████████▎| 6189/6640 [2:49:24<2:04:22, 16.55s/it]                                                       {'loss': 0.4791, 'learning_rate': 2.41045258490592e-07, 'epoch': 0.93}
 93%|█████████▎| 6189/6640 [2:49:24<2:04:22, 16.55s/it] 93%|█████████▎| 6190/6640 [2:49:41<2:04:05, 16.55s/it]                                                       {'loss': 0.5431, 'learning_rate': 2.399817980885677e-07, 'epoch': 0.93}
 93%|█████████▎| 6190/6640 [2:49:41<2:04:05, 16.55s/it] 93%|█████████▎| 6191/6640 [2:49:57<2:02:25, 16.36s/it]                                                       {'loss': 0.5114, 'learning_rate': 2.389206603090488e-07, 'epoch': 0.93}
 93%|█████████▎| 6191/6640 [2:49:57<2:02:25, 16.36s/it] 93%|█████████▎| 6192/6640 [2:50:13<2:03:12, 16.50s/it]                                                       {'loss': 0.5142, 'learning_rate': 2.3786184540455449e-07, 'epoch': 0.93}
 93%|█████████▎| 6192/6640 [2:50:13<2:03:12, 16.50s/it] 93%|█████████▎| 6193/6640 [2:50:30<2:03:52, 16.63s/it]                                                       {'loss': 0.4984, 'learning_rate': 2.3680535362705758e-07, 'epoch': 0.93}
 93%|█████████▎| 6193/6640 [2:50:30<2:03:52, 16.63s/it] 93%|█████████▎| 6194/6640 [2:50:47<2:03:22, 16.60s/it]                                                       {'loss': 0.5184, 'learning_rate': 2.3575118522797258e-07, 'epoch': 0.93}
 93%|█████████▎| 6194/6640 [2:50:47<2:03:22, 16.60s/it] 93%|█████████▎| 6195/6640 [2:51:03<2:02:17, 16.49s/it]                                                       {'loss': 0.5072, 'learning_rate': 2.3469934045816435e-07, 'epoch': 0.93}
 93%|█████████▎| 6195/6640 [2:51:03<2:02:17, 16.49s/it] 93%|█████████▎| 6196/6640 [2:51:19<2:01:54, 16.47s/it]                                                       {'loss': 0.5246, 'learning_rate': 2.3364981956794487e-07, 'epoch': 0.93}
 93%|█████████▎| 6196/6640 [2:51:19<2:01:54, 16.47s/it] 93%|█████████▎| 6197/6640 [2:51:35<2:00:32, 16.33s/it]                                                       {'loss': 0.5295, 'learning_rate': 2.326026228070688e-07, 'epoch': 0.93}
 93%|█████████▎| 6197/6640 [2:51:35<2:00:32, 16.33s/it] 93%|█████████▎| 6198/6640 [2:51:52<2:01:42, 16.52s/it]                                                       {'loss': 0.5211, 'learning_rate': 2.315577504247435e-07, 'epoch': 0.93}
 93%|█████████▎| 6198/6640 [2:51:52<2:01:42, 16.52s/it] 93%|█████████▎| 6199/6640 [2:52:08<1:59:37, 16.28s/it]                                                       {'loss': 0.5103, 'learning_rate': 2.3051520266961892e-07, 'epoch': 0.93}
 93%|█████████▎| 6199/6640 [2:52:08<1:59:37, 16.28s/it]4 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
06 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
 93%|█████████▎| 6200/6640 [2:52:25<1:59:36, 16.31s/it]5 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5061, 'learning_rate': 2.294749797897955e-07, 'epoch': 0.93}
 93%|█████████▎| 6200/6640 [2:52:25<1:59:36, 16.31s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6200/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6200/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6200/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 93%|█████████▎| 6201/6640 [2:54:08<5:10:20, 42.41s/it]                                                       {'loss': 0.5044, 'learning_rate': 2.2843708203281745e-07, 'epoch': 0.93}
 93%|█████████▎| 6201/6640 [2:54:08<5:10:20, 42.41s/it] 93%|█████████▎| 6202/6640 [2:54:24<4:12:40, 34.61s/it]                                                       {'loss': 0.527, 'learning_rate': 2.2740150964567387e-07, 'epoch': 0.93}
 93%|█████████▎| 6202/6640 [2:54:24<4:12:40, 34.61s/it] 93%|█████████▎| 6203/6640 [2:54:40<3:31:40, 29.06s/it]                                                       {'loss': 0.5257, 'learning_rate': 2.2636826287480872e-07, 'epoch': 0.93}
 93%|█████████▎| 6203/6640 [2:54:40<3:31:40, 29.06s/it] 93%|█████████▎| 6204/6640 [2:54:56<3:02:31, 25.12s/it]                                                       {'loss': 0.5119, 'learning_rate': 2.2533734196610203e-07, 'epoch': 0.93}
 93%|█████████▎| 6204/6640 [2:54:56<3:02:31, 25.12s/it] 93%|█████████▎| 6205/6640 [2:55:13<2:43:15, 22.52s/it]                                                       {'loss': 0.5162, 'learning_rate': 2.243087471648886e-07, 'epoch': 0.93}
 93%|█████████▎| 6205/6640 [2:55:13<2:43:15, 22.52s/it] 93%|█████████▎| 6206/6640 [2:55:29<2:29:18, 20.64s/it]                                                       {'loss': 0.527, 'learning_rate': 2.2328247871594379e-07, 'epoch': 0.93}
 93%|█████████▎| 6206/6640 [2:55:29<2:29:18, 20.64s/it] 93%|█████████▎| 6207/6640 [2:55:46<2:20:56, 19.53s/it]                                                       {'loss': 0.5016, 'learning_rate': 2.222585368634933e-07, 'epoch': 0.93}
 93%|█████████▎| 6207/6640 [2:55:46<2:20:56, 19.53s/it] 93%|█████████▎| 6208/6640 [2:56:03<2:15:02, 18.75s/it]                                                       {'loss': 0.5185, 'learning_rate': 2.2123692185120783e-07, 'epoch': 0.93}
 93%|█████████▎| 6208/6640 [2:56:03<2:15:02, 18.75s/it] 94%|█████████▎| 6209/6640 [2:56:20<2:10:22, 18.15s/it]                                                       {'loss': 0.5275, 'learning_rate': 2.2021763392220396e-07, 'epoch': 0.94}
 94%|█████████▎| 6209/6640 [2:56:20<2:10:22, 18.15s/it] 94%|█████████▎| 6210/6640 [2:56:36<2:05:59, 17.58s/it]                                                       {'loss': 0.5159, 'learning_rate': 2.192006733190466e-07, 'epoch': 0.94}
 94%|█████████▎| 6210/6640 [2:56:36<2:05:59, 17.58s/it] 94%|█████████▎| 6211/6640 [2:56:52<2:02:52, 17.19s/it]                                                       {'loss': 0.5219, 'learning_rate': 2.1818604028374212e-07, 'epoch': 0.94}
 94%|█████████▎| 6211/6640 [2:56:52<2:02:52, 17.19s/it] 94%|█████████▎| 6212/6640 [2:57:07<1:58:33, 16.62s/it]                                                       {'loss': 0.488, 'learning_rate': 2.1717373505774854e-07, 'epoch': 0.94}
 94%|█████████▎| 6212/6640 [2:57:07<1:58:33, 16.62s/it] 94%|█████████▎| 6213/6640 [2:57:25<1:59:16, 16.76s/it]                                                       {'loss': 0.5323, 'learning_rate': 2.161637578819653e-07, 'epoch': 0.94}
 94%|█████████▎| 6213/6640 [2:57:25<1:59:16, 16.76s/it] 94%|█████████▎| 6214/6640 [2:57:41<1:57:36, 16.56s/it]                                                       {'loss': 0.4827, 'learning_rate': 2.1515610899674244e-07, 'epoch': 0.94}
 94%|█████████▎| 6214/6640 [2:57:41<1:57:36, 16.56s/it] 94%|█████████▎| 6215/6640 [2:57:57<1:57:19, 16.56s/it]                                                       {'loss': 0.5017, 'learning_rate': 2.1415078864187034e-07, 'epoch': 0.94}
 94%|█████████▎| 6215/6640 [2:57:57<1:57:19, 16.56s/it] 94%|█████████▎| 6216/6640 [2:58:13<1:56:29, 16.49s/it]                                                       {'loss': 0.5286, 'learning_rate': 2.1314779705658982e-07, 'epoch': 0.94}
 94%|█████████▎| 6216/6640 [2:58:13<1:56:29, 16.49s/it] 94%|█████████▎| 6217/6640 [2:58:30<1:56:19, 16.50s/it]                                                       {'loss': 0.5114, 'learning_rate': 2.1214713447958556e-07, 'epoch': 0.94}
 94%|█████████▎| 6217/6640 [2:58:30<1:56:19, 16.50s/it] 94%|█████████▎| 6218/6640 [2:58:46<1:54:47, 16.32s/it]                                                       {'loss': 0.5097, 'learning_rate': 2.1114880114898928e-07, 'epoch': 0.94}
 94%|█████████▎| 6218/6640 [2:58:46<1:54:47, 16.32s/it] 94%|█████████▎| 6219/6640 [2:59:03<1:55:14, 16.42s/it]                                                       {'loss': 0.5036, 'learning_rate': 2.1015279730237757e-07, 'epoch': 0.94}
 94%|█████████▎| 6219/6640 [2:59:03<1:55:14, 16.42s/it] 94%|█████████▎| 6220/6640 [2:59:19<1:54:46, 16.40s/it]                                                       {'loss': 0.5169, 'learning_rate': 2.091591231767709e-07, 'epoch': 0.94}
 94%|█████████▎| 6220/6640 [2:59:19<1:54:46, 16.40s/it] 94%|█████████▎| 6221/6640 [2:59:35<1:54:04, 16.34s/it]                                                       {'loss': 0.4997, 'learning_rate': 2.0816777900863895e-07, 'epoch': 0.94}
 94%|█████████▎| 6221/6640 [2:59:35<1:54:04, 16.34s/it] 94%|█████████▎| 6222/6640 [2:59:52<1:54:03, 16.37s/it]                                                       {'loss': 0.5161, 'learning_rate': 2.071787650338941e-07, 'epoch': 0.94}
 94%|█████████▎| 6222/6640 [2:59:52<1:54:03, 16.37s/it] 94%|█████████▎| 6223/6640 [3:00:08<1:54:02, 16.41s/it]                                                       {'loss': 0.4968, 'learning_rate': 2.0619208148789593e-07, 'epoch': 0.94}
 94%|█████████▎| 6223/6640 [3:00:08<1:54:02, 16.41s/it] 94%|█████████▎| 6224/6640 [3:00:26<1:56:02, 16.74s/it]                                                       {'loss': 0.4829, 'learning_rate': 2.0520772860544768e-07, 'epoch': 0.94}
 94%|█████████▎| 6224/6640 [3:00:26<1:56:02, 16.74s/it] 94%|█████████▍| 6225/6640 [3:00:43<1:56:15, 16.81s/it]                                                       {'loss': 0.5127, 'learning_rate': 2.0422570662079866e-07, 'epoch': 0.94}
 94%|█████████▍| 6225/6640 [3:00:43<1:56:15, 16.81s/it] 94%|█████████▍| 6226/6640 [3:00:59<1:54:12, 16.55s/it]                                                       {'loss': 0.4995, 'learning_rate': 2.0324601576764525e-07, 'epoch': 0.94}
 94%|█████████▍| 6226/6640 [3:00:59<1:54:12, 16.55s/it] 94%|█████████▍| 6227/6640 [3:01:15<1:53:04, 16.43s/it]                                                       {'loss': 0.5086, 'learning_rate': 2.022686562791254e-07, 'epoch': 0.94}
 94%|█████████▍| 6227/6640 [3:01:15<1:53:04, 16.43s/it] 94%|█████████▍| 6228/6640 [3:01:32<1:53:47, 16.57s/it]                                                       {'loss': 0.5249, 'learning_rate': 2.012936283878275e-07, 'epoch': 0.94}
 94%|█████████▍| 6228/6640 [3:01:32<1:53:47, 16.57s/it] 94%|█████████▍| 6229/6640 [3:01:48<1:53:33, 16.58s/it]                                                       {'loss': 0.5144, 'learning_rate': 2.0032093232577822e-07, 'epoch': 0.94}
 94%|█████████▍| 6229/6640 [3:01:48<1:53:33, 16.58s/it] 94%|█████████▍| 6230/6640 [3:02:04<1:52:23, 16.45s/it]                                                       {'loss': 0.519, 'learning_rate': 1.9935056832445676e-07, 'epoch': 0.94}
 94%|█████████▍| 6230/6640 [3:02:04<1:52:23, 16.45s/it] 94%|█████████▍| 6231/6640 [3:02:22<1:55:14, 16.91s/it]                                                       {'loss': 0.5178, 'learning_rate': 1.983825366147818e-07, 'epoch': 0.94}
 94%|█████████▍| 6231/6640 [3:02:22<1:55:14, 16.91s/it] 94%|█████████▍| 6232/6640 [3:02:38<1:52:35, 16.56s/it]                                                       {'loss': 0.514, 'learning_rate': 1.9741683742712014e-07, 'epoch': 0.94}
 94%|█████████▍| 6232/6640 [3:02:38<1:52:35, 16.56s/it] 94%|█████████▍| 6233/6640 [3:02:53<1:50:04, 16.23s/it]                                                       {'loss': 0.5256, 'learning_rate': 1.964534709912813e-07, 'epoch': 0.94}
 94%|█████████▍| 6233/6640 [3:02:53<1:50:04, 16.23s/it] 94%|█████████▍| 6234/6640 [3:03:09<1:48:43, 16.07s/it]                                                       {'loss': 0.5205, 'learning_rate': 1.954924375365197e-07, 'epoch': 0.94}
 94%|█████████▍| 6234/6640 [3:03:09<1:48:43, 16.07s/it] 94%|█████████▍| 6235/6640 [3:03:25<1:47:51, 15.98s/it]                                                       {'loss': 0.5108, 'learning_rate': 1.945337372915368e-07, 'epoch': 0.94}
 94%|█████████▍| 6235/6640 [3:03:25<1:47:51, 15.98s/it] 94%|█████████▍| 6236/6640 [3:03:41<1:47:54, 16.03s/it]                                                       {'loss': 0.5233, 'learning_rate': 1.935773704844779e-07, 'epoch': 0.94}
 94%|█████████▍| 6236/6640 [3:03:41<1:47:54, 16.03s/it] 94%|█████████▍| 6237/6640 [3:03:57<1:47:52, 16.06s/it]                                                       {'loss': 0.5181, 'learning_rate': 1.9262333734293203e-07, 'epoch': 0.94}
 94%|█████████▍| 6237/6640 [3:03:57<1:47:52, 16.06s/it] 94%|█████████▍| 6238/6640 [3:04:14<1:48:49, 16.24s/it]                                                       {'loss': 0.5043, 'learning_rate': 1.9167163809393207e-07, 'epoch': 0.94}
 94%|█████████▍| 6238/6640 [3:04:14<1:48:49, 16.24s/it] 94%|█████████▍| 6239/6640 [3:04:30<1:48:17, 16.20s/it]                                                       {'loss': 0.5187, 'learning_rate': 1.9072227296396017e-07, 'epoch': 0.94}
 94%|█████████▍| 6239/6640 [3:04:30<1:48:17, 16.20s/it] 94%|█████████▍| 6240/6640 [3:04:47<1:49:07, 16.37s/it]                                                       {'loss': 0.5252, 'learning_rate': 1.8977524217893782e-07, 'epoch': 0.94}
 94%|█████████▍| 6240/6640 [3:04:47<1:49:07, 16.37s/it] 94%|█████████▍| 6241/6640 [3:05:03<1:48:26, 16.31s/it]                                                       {'loss': 0.5126, 'learning_rate': 1.8883054596423255e-07, 'epoch': 0.94}
 94%|█████████▍| 6241/6640 [3:05:03<1:48:26, 16.31s/it] 94%|█████████▍| 6242/6640 [3:05:19<1:48:37, 16.38s/it]                                                       {'loss': 0.5111, 'learning_rate': 1.8788818454465674e-07, 'epoch': 0.94}
 94%|█████████▍| 6242/6640 [3:05:19<1:48:37, 16.38s/it] 94%|█████████▍| 6243/6640 [3:05:36<1:48:58, 16.47s/it]                                                       {'loss': 0.506, 'learning_rate': 1.8694815814446875e-07, 'epoch': 0.94}
 94%|█████████▍| 6243/6640 [3:05:36<1:48:58, 16.47s/it] 94%|█████████▍| 6244/6640 [3:05:52<1:48:04, 16.38s/it]                                                       {'loss': 0.5115, 'learning_rate': 1.8601046698736858e-07, 'epoch': 0.94}
 94%|█████████▍| 6244/6640 [3:05:52<1:48:04, 16.38s/it] 94%|█████████▍| 6245/6640 [3:06:10<1:49:28, 16.63s/it]                                                       {'loss': 0.51, 'learning_rate': 1.85075111296501e-07, 'epoch': 0.94}
 94%|█████████▍| 6245/6640 [3:06:10<1:49:28, 16.63s/it] 94%|█████████▍| 6246/6640 [3:06:27<1:49:55, 16.74s/it]                                                       {'loss': 0.4965, 'learning_rate': 1.8414209129445692e-07, 'epoch': 0.94}
 94%|█████████▍| 6246/6640 [3:06:27<1:49:55, 16.74s/it] 94%|█████████▍| 6247/6640 [3:06:44<1:50:11, 16.82s/it]                                                       {'loss': 0.5171, 'learning_rate': 1.8321140720326758e-07, 'epoch': 0.94}
 94%|█████████▍| 6247/6640 [3:06:44<1:50:11, 16.82s/it] 94%|█████████▍| 6248/6640 [3:07:00<1:48:17, 16.58s/it]                                                       {'loss': 0.5118, 'learning_rate': 1.8228305924441469e-07, 'epoch': 0.94}
 94%|█████████▍| 6248/6640 [3:07:00<1:48:17, 16.58s/it] 94%|█████████▍| 6249/6640 [3:07:15<1:46:38, 16.37s/it]                                                       {'loss': 0.5187, 'learning_rate': 1.81357047638816e-07, 'epoch': 0.94}
 94%|█████████▍| 6249/6640 [3:07:15<1:46:38, 16.37s/it]6 AutoResumeHook: Checking whether to suspend...
032   AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

AutoResumeHook: Checking whether to suspend...5 AutoResumeHook: Checking whether to suspend...

1 AutoResumeHook: Checking whether to suspend...
 94%|█████████▍| 6250/6640 [3:07:31<1:45:09, 16.18s/it]4 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.4983, 'learning_rate': 1.804333726068408e-07, 'epoch': 0.94}
 94%|█████████▍| 6250/6640 [3:07:31<1:45:09, 16.18s/it] 94%|█████████▍| 6251/6640 [3:07:47<1:44:44, 16.16s/it]                                                       {'loss': 0.4996, 'learning_rate': 1.7951203436829656e-07, 'epoch': 0.94}
 94%|█████████▍| 6251/6640 [3:07:47<1:44:44, 16.16s/it] 94%|█████████▍| 6252/6640 [3:08:03<1:44:25, 16.15s/it]                                                       {'loss': 0.4905, 'learning_rate': 1.785930331424379e-07, 'epoch': 0.94}
 94%|█████████▍| 6252/6640 [3:08:03<1:44:25, 16.15s/it] 94%|█████████▍| 6253/6640 [3:08:20<1:44:36, 16.22s/it]                                                       {'loss': 0.5054, 'learning_rate': 1.7767636914796437e-07, 'epoch': 0.94}
 94%|█████████▍| 6253/6640 [3:08:20<1:44:36, 16.22s/it] 94%|█████████▍| 6254/6640 [3:08:37<1:45:43, 16.43s/it]                                                       {'loss': 0.5158, 'learning_rate': 1.7676204260301477e-07, 'epoch': 0.94}
 94%|█████████▍| 6254/6640 [3:08:37<1:45:43, 16.43s/it] 94%|█████████▍| 6255/6640 [3:08:54<1:46:42, 16.63s/it]                                                       {'loss': 0.5134, 'learning_rate': 1.7585005372517504e-07, 'epoch': 0.94}
 94%|█████████▍| 6255/6640 [3:08:54<1:46:42, 16.63s/it] 94%|█████████▍| 6256/6640 [3:09:10<1:44:44, 16.37s/it]                                                       {'loss': 0.479, 'learning_rate': 1.7494040273147384e-07, 'epoch': 0.94}
 94%|█████████▍| 6256/6640 [3:09:10<1:44:44, 16.37s/it] 94%|█████████▍| 6257/6640 [3:09:26<1:45:28, 16.52s/it]                                                       {'loss': 0.5086, 'learning_rate': 1.7403308983838462e-07, 'epoch': 0.94}
 94%|█████████▍| 6257/6640 [3:09:26<1:45:28, 16.52s/it] 94%|█████████▍| 6258/6640 [3:09:43<1:45:26, 16.56s/it]                                                       {'loss': 0.5121, 'learning_rate': 1.731281152618225e-07, 'epoch': 0.94}
 94%|█████████▍| 6258/6640 [3:09:43<1:45:26, 16.56s/it] 94%|█████████▍| 6259/6640 [3:09:59<1:44:48, 16.51s/it]                                                       {'loss': 0.5201, 'learning_rate': 1.722254792171485e-07, 'epoch': 0.94}
 94%|█████████▍| 6259/6640 [3:09:59<1:44:48, 16.51s/it] 94%|█████████▍| 6260/6640 [3:10:16<1:43:47, 16.39s/it]                                                       {'loss': 0.5228, 'learning_rate': 1.7132518191916413e-07, 'epoch': 0.94}
 94%|█████████▍| 6260/6640 [3:10:16<1:43:47, 16.39s/it] 94%|█████████▍| 6261/6640 [3:10:32<1:42:57, 16.30s/it]                                                       {'loss': 0.5132, 'learning_rate': 1.7042722358211694e-07, 'epoch': 0.94}
 94%|█████████▍| 6261/6640 [3:10:32<1:42:57, 16.30s/it] 94%|█████████▍| 6262/6640 [3:10:48<1:42:58, 16.34s/it]                                                       {'loss': 0.5047, 'learning_rate': 1.6953160441969707e-07, 'epoch': 0.94}
 94%|█████████▍| 6262/6640 [3:10:48<1:42:58, 16.34s/it] 94%|█████████▍| 6263/6640 [3:11:06<1:45:10, 16.74s/it]                                                       {'loss': 0.5002, 'learning_rate': 1.686383246450374e-07, 'epoch': 0.94}
 94%|█████████▍| 6263/6640 [3:11:06<1:45:10, 16.74s/it] 94%|█████████▍| 6264/6640 [3:11:22<1:43:28, 16.51s/it]                                                       {'loss': 0.5067, 'learning_rate': 1.677473844707156e-07, 'epoch': 0.94}
 94%|█████████▍| 6264/6640 [3:11:22<1:43:28, 16.51s/it] 94%|█████████▍| 6265/6640 [3:11:38<1:43:22, 16.54s/it]                                                       {'loss': 0.5087, 'learning_rate': 1.6685878410874768e-07, 'epoch': 0.94}
 94%|█████████▍| 6265/6640 [3:11:38<1:43:22, 16.54s/it] 94%|█████████▍| 6266/6640 [3:11:55<1:42:44, 16.48s/it]                                                       {'loss': 0.4902, 'learning_rate': 1.6597252377060335e-07, 'epoch': 0.94}
 94%|█████████▍| 6266/6640 [3:11:55<1:42:44, 16.48s/it] 94%|█████████▍| 6267/6640 [3:12:11<1:42:43, 16.52s/it]                                                       {'loss': 0.5049, 'learning_rate': 1.6508860366718283e-07, 'epoch': 0.94}
 94%|█████████▍| 6267/6640 [3:12:11<1:42:43, 16.52s/it] 94%|█████████▍| 6268/6640 [3:12:28<1:42:46, 16.58s/it]                                                       {'loss': 0.5092, 'learning_rate': 1.642070240088378e-07, 'epoch': 0.94}
 94%|█████████▍| 6268/6640 [3:12:28<1:42:46, 16.58s/it] 94%|█████████▍| 6269/6640 [3:12:46<1:44:36, 16.92s/it]                                                       {'loss': 0.491, 'learning_rate': 1.633277850053605e-07, 'epoch': 0.94}
 94%|█████████▍| 6269/6640 [3:12:46<1:44:36, 16.92s/it] 94%|█████████▍| 6270/6640 [3:13:02<1:42:28, 16.62s/it]                                                       {'loss': 0.4953, 'learning_rate': 1.6245088686598686e-07, 'epoch': 0.94}
 94%|█████████▍| 6270/6640 [3:13:02<1:42:28, 16.62s/it] 94%|█████████▍| 6271/6640 [3:13:18<1:41:38, 16.53s/it]                                                       {'loss': 0.5178, 'learning_rate': 1.615763297993944e-07, 'epoch': 0.94}
 94%|█████████▍| 6271/6640 [3:13:18<1:41:38, 16.53s/it] 94%|█████████▍| 6272/6640 [3:13:35<1:41:41, 16.58s/it]                                                       {'loss': 0.518, 'learning_rate': 1.6070411401370335e-07, 'epoch': 0.94}
 94%|█████████▍| 6272/6640 [3:13:35<1:41:41, 16.58s/it] 94%|█████████▍| 6273/6640 [3:13:51<1:41:23, 16.58s/it]                                                       {'loss': 0.4975, 'learning_rate': 1.5983423971647983e-07, 'epoch': 0.94}
 94%|█████████▍| 6273/6640 [3:13:51<1:41:23, 16.58s/it] 94%|█████████▍| 6274/6640 [3:14:07<1:40:12, 16.43s/it]                                                       {'loss': 0.5077, 'learning_rate': 1.5896670711472828e-07, 'epoch': 0.94}
 94%|█████████▍| 6274/6640 [3:14:07<1:40:12, 16.43s/it] 95%|█████████▍| 6275/6640 [3:14:23<1:39:28, 16.35s/it]                                                       {'loss': 0.4961, 'learning_rate': 1.5810151641489912e-07, 'epoch': 0.95}
 95%|█████████▍| 6275/6640 [3:14:23<1:39:28, 16.35s/it] 95%|█████████▍| 6276/6640 [3:14:41<1:41:02, 16.65s/it]                                                       {'loss': 0.5032, 'learning_rate': 1.5723866782288545e-07, 'epoch': 0.95}
 95%|█████████▍| 6276/6640 [3:14:41<1:41:02, 16.65s/it] 95%|█████████▍| 6277/6640 [3:14:57<1:39:25, 16.43s/it]                                                       {'loss': 0.5193, 'learning_rate': 1.5637816154402075e-07, 'epoch': 0.95}
 95%|█████████▍| 6277/6640 [3:14:57<1:39:25, 16.43s/it] 95%|█████████▍| 6278/6640 [3:15:14<1:40:13, 16.61s/it]                                                       {'loss': 0.5426, 'learning_rate': 1.5551999778308235e-07, 'epoch': 0.95}
 95%|█████████▍| 6278/6640 [3:15:14<1:40:13, 16.61s/it] 95%|█████████▍| 6279/6640 [3:15:29<1:38:02, 16.30s/it]                                                       {'loss': 0.5146, 'learning_rate': 1.5466417674429136e-07, 'epoch': 0.95}
 95%|█████████▍| 6279/6640 [3:15:29<1:38:02, 16.30s/it] 95%|█████████▍| 6280/6640 [3:15:46<1:37:32, 16.26s/it]                                                       {'loss': 0.5033, 'learning_rate': 1.5381069863131037e-07, 'epoch': 0.95}
 95%|█████████▍| 6280/6640 [3:15:46<1:37:32, 16.26s/it] 95%|█████████▍| 6281/6640 [3:16:02<1:37:38, 16.32s/it]                                                       {'loss': 0.5163, 'learning_rate': 1.529595636472425e-07, 'epoch': 0.95}
 95%|█████████▍| 6281/6640 [3:16:02<1:37:38, 16.32s/it] 95%|█████████▍| 6282/6640 [3:16:19<1:39:07, 16.61s/it]                                                       {'loss': 0.4899, 'learning_rate': 1.5211077199463685e-07, 'epoch': 0.95}
 95%|█████████▍| 6282/6640 [3:16:19<1:39:07, 16.61s/it] 95%|█████████▍| 6283/6640 [3:16:35<1:36:51, 16.28s/it]                                                       {'loss': 0.5157, 'learning_rate': 1.5126432387548185e-07, 'epoch': 0.95}
 95%|█████████▍| 6283/6640 [3:16:35<1:36:51, 16.28s/it] 95%|█████████▍| 6284/6640 [3:16:51<1:35:57, 16.17s/it]                                                       {'loss': 0.4857, 'learning_rate': 1.5042021949120967e-07, 'epoch': 0.95}
 95%|█████████▍| 6284/6640 [3:16:51<1:35:57, 16.17s/it] 95%|█████████▍| 6285/6640 [3:17:07<1:35:45, 16.18s/it]                                                       {'loss': 0.5027, 'learning_rate': 1.495784590426963e-07, 'epoch': 0.95}
 95%|█████████▍| 6285/6640 [3:17:07<1:35:45, 16.18s/it] 95%|█████████▍| 6286/6640 [3:17:23<1:35:59, 16.27s/it]                                                       {'loss': 0.4987, 'learning_rate': 1.4873904273025486e-07, 'epoch': 0.95}
 95%|█████████▍| 6286/6640 [3:17:23<1:35:59, 16.27s/it] 95%|█████████▍| 6287/6640 [3:17:40<1:35:29, 16.23s/it]                                                       {'loss': 0.5048, 'learning_rate': 1.4790197075364666e-07, 'epoch': 0.95}
 95%|█████████▍| 6287/6640 [3:17:40<1:35:29, 16.23s/it] 95%|█████████▍| 6288/6640 [3:17:56<1:35:31, 16.28s/it]                                                       {'loss': 0.511, 'learning_rate': 1.4706724331207122e-07, 'epoch': 0.95}
 95%|█████████▍| 6288/6640 [3:17:56<1:35:31, 16.28s/it] 95%|█████████▍| 6289/6640 [3:18:12<1:35:44, 16.37s/it]                                                       {'loss': 0.495, 'learning_rate': 1.462348606041708e-07, 'epoch': 0.95}
 95%|█████████▍| 6289/6640 [3:18:12<1:35:44, 16.37s/it] 95%|█████████▍| 6290/6640 [3:18:29<1:35:33, 16.38s/it]                                                       {'loss': 0.521, 'learning_rate': 1.4540482282803136e-07, 'epoch': 0.95}
 95%|█████████▍| 6290/6640 [3:18:29<1:35:33, 16.38s/it]Token indices sequence length is longer than the specified maximum sequence length for this model (4901 > 4096). Running this sequence through the model will result in indexing errors
 95%|█████████▍| 6291/6640 [3:18:45<1:35:03, 16.34s/it]                                                       {'loss': 0.4974, 'learning_rate': 1.4457713018117935e-07, 'epoch': 0.95}
 95%|█████████▍| 6291/6640 [3:18:45<1:35:03, 16.34s/it] 95%|█████████▍| 6292/6640 [3:19:01<1:34:41, 16.33s/it]                                                       {'loss': 0.5232, 'learning_rate': 1.4375178286058167e-07, 'epoch': 0.95}
 95%|█████████▍| 6292/6640 [3:19:01<1:34:41, 16.33s/it] 95%|█████████▍| 6293/6640 [3:19:18<1:34:27, 16.33s/it]                                                       {'loss': 0.5091, 'learning_rate': 1.4292878106265118e-07, 'epoch': 0.95}
 95%|█████████▍| 6293/6640 [3:19:18<1:34:27, 16.33s/it] 95%|█████████▍| 6294/6640 [3:19:35<1:35:21, 16.54s/it]                                                       {'loss': 0.5132, 'learning_rate': 1.4210812498324012e-07, 'epoch': 0.95}
 95%|█████████▍| 6294/6640 [3:19:35<1:35:21, 16.54s/it] 95%|█████████▍| 6295/6640 [3:19:52<1:35:55, 16.68s/it]                                                       {'loss': 0.5198, 'learning_rate': 1.4128981481764115e-07, 'epoch': 0.95}
 95%|█████████▍| 6295/6640 [3:19:52<1:35:55, 16.68s/it] 95%|█████████▍| 6296/6640 [3:20:08<1:35:16, 16.62s/it]                                                       {'loss': 0.5193, 'learning_rate': 1.4047385076059072e-07, 'epoch': 0.95}
 95%|█████████▍| 6296/6640 [3:20:08<1:35:16, 16.62s/it] 95%|█████████▍| 6297/6640 [3:20:25<1:34:16, 16.49s/it]                                                       {'loss': 0.4945, 'learning_rate': 1.3966023300626685e-07, 'epoch': 0.95}
 95%|█████████▍| 6297/6640 [3:20:25<1:34:16, 16.49s/it] 95%|█████████▍| 6298/6640 [3:20:41<1:33:55, 16.48s/it]                                                       {'loss': 0.5177, 'learning_rate': 1.388489617482891e-07, 'epoch': 0.95}
 95%|█████████▍| 6298/6640 [3:20:41<1:33:55, 16.48s/it] 95%|█████████▍| 6299/6640 [3:20:57<1:33:27, 16.44s/it]                                                       {'loss': 0.5007, 'learning_rate': 1.3804003717971637e-07, 'epoch': 0.95}
 95%|█████████▍| 6299/6640 [3:20:57<1:33:27, 16.44s/it]6 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
2 7AutoResumeHook: Checking whether to suspend... 
AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 95%|█████████▍| 6300/6640 [3:21:13<1:32:05, 16.25s/it]                                                       {'loss': 0.5133, 'learning_rate': 1.3723345949305245e-07, 'epoch': 0.95}
 95%|█████████▍| 6300/6640 [3:21:13<1:32:05, 16.25s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6300/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6300/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6300/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 95%|█████████▍| 6301/6640 [3:22:38<3:28:34, 36.92s/it]                                                       {'loss': 0.519, 'learning_rate': 1.3642922888024047e-07, 'epoch': 0.95}
 95%|█████████▍| 6301/6640 [3:22:38<3:28:34, 36.92s/it] 95%|█████████▍| 6302/6640 [3:22:56<2:54:46, 31.03s/it]                                                       {'loss': 0.5095, 'learning_rate': 1.356273455326662e-07, 'epoch': 0.95}
 95%|█████████▍| 6302/6640 [3:22:56<2:54:46, 31.03s/it] 95%|█████████▍| 6303/6640 [3:23:12<2:29:07, 26.55s/it]                                                       {'loss': 0.5007, 'learning_rate': 1.3482780964115705e-07, 'epoch': 0.95}
 95%|█████████▍| 6303/6640 [3:23:12<2:29:07, 26.55s/it] 95%|█████████▍| 6304/6640 [3:23:28<2:12:18, 23.63s/it]                                                       {'loss': 0.5117, 'learning_rate': 1.3403062139598078e-07, 'epoch': 0.95}
 95%|█████████▍| 6304/6640 [3:23:28<2:12:18, 23.63s/it] 95%|█████████▍| 6305/6640 [3:23:45<1:59:33, 21.41s/it]                                                       {'loss': 0.5231, 'learning_rate': 1.3323578098684565e-07, 'epoch': 0.95}
 95%|█████████▍| 6305/6640 [3:23:45<1:59:33, 21.41s/it] 95%|█████████▍| 6306/6640 [3:24:00<1:49:49, 19.73s/it]                                                       {'loss': 0.5157, 'learning_rate': 1.3244328860290257e-07, 'epoch': 0.95}
 95%|█████████▍| 6306/6640 [3:24:00<1:49:49, 19.73s/it] 95%|█████████▍| 6307/6640 [3:24:17<1:43:59, 18.74s/it]                                                       {'loss': 0.4963, 'learning_rate': 1.3165314443274623e-07, 'epoch': 0.95}
 95%|█████████▍| 6307/6640 [3:24:17<1:43:59, 18.74s/it]/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/model/llava_arch.py:397: UserWarning: Inputs truncated!
  warnings.warn("Inputs truncated!")
 95%|█████████▌| 6308/6640 [3:24:33<1:40:05, 18.09s/it]                                                       {'loss': 0.5086, 'learning_rate': 1.3086534866440515e-07, 'epoch': 0.95}
 95%|█████████▌| 6308/6640 [3:24:33<1:40:05, 18.09s/it] 95%|█████████▌| 6309/6640 [3:24:49<1:35:56, 17.39s/it]                                                       {'loss': 0.5183, 'learning_rate': 1.300799014853571e-07, 'epoch': 0.95}
 95%|█████████▌| 6309/6640 [3:24:49<1:35:56, 17.39s/it] 95%|█████████▌| 6310/6640 [3:25:06<1:33:48, 17.06s/it]                                                       {'loss': 0.5058, 'learning_rate': 1.292968030825159e-07, 'epoch': 0.95}
 95%|█████████▌| 6310/6640 [3:25:06<1:33:48, 17.06s/it] 95%|█████████▌| 6311/6640 [3:25:22<1:32:02, 16.79s/it]                                                       {'loss': 0.505, 'learning_rate': 1.285160536422392e-07, 'epoch': 0.95}
 95%|█████████▌| 6311/6640 [3:25:22<1:32:02, 16.79s/it] 95%|█████████▌| 6312/6640 [3:25:38<1:30:55, 16.63s/it]                                                       {'loss': 0.5056, 'learning_rate': 1.2773765335032384e-07, 'epoch': 0.95}
 95%|█████████▌| 6312/6640 [3:25:38<1:30:55, 16.63s/it] 95%|█████████▌| 6313/6640 [3:25:54<1:30:03, 16.52s/it]                                                       {'loss': 0.4945, 'learning_rate': 1.2696160239200728e-07, 'epoch': 0.95}
 95%|█████████▌| 6313/6640 [3:25:54<1:30:03, 16.52s/it] 95%|█████████▌| 6314/6640 [3:26:10<1:29:10, 16.41s/it]                                                       {'loss': 0.5074, 'learning_rate': 1.2618790095196953e-07, 'epoch': 0.95}
 95%|█████████▌| 6314/6640 [3:26:10<1:29:10, 16.41s/it] 95%|█████████▌| 6315/6640 [3:26:26<1:27:28, 16.15s/it]                                                       {'loss': 0.5069, 'learning_rate': 1.2541654921432998e-07, 'epoch': 0.95}
 95%|█████████▌| 6315/6640 [3:26:26<1:27:28, 16.15s/it] 95%|█████████▌| 6316/6640 [3:26:42<1:26:30, 16.02s/it]                                                       {'loss': 0.5196, 'learning_rate': 1.2464754736265183e-07, 'epoch': 0.95}
 95%|█████████▌| 6316/6640 [3:26:42<1:26:30, 16.02s/it] 95%|█████████▌| 6317/6640 [3:26:58<1:26:02, 15.98s/it]                                                       {'loss': 0.5131, 'learning_rate': 1.2388089557993533e-07, 'epoch': 0.95}
 95%|█████████▌| 6317/6640 [3:26:58<1:26:02, 15.98s/it] 95%|█████████▌| 6318/6640 [3:27:15<1:27:26, 16.29s/it]                                                       {'loss': 0.5044, 'learning_rate': 1.231165940486234e-07, 'epoch': 0.95}
 95%|█████████▌| 6318/6640 [3:27:15<1:27:26, 16.29s/it] 95%|█████████▌| 6319/6640 [3:27:31<1:27:21, 16.33s/it]                                                       {'loss': 0.5023, 'learning_rate': 1.223546429505984e-07, 'epoch': 0.95}
 95%|█████████▌| 6319/6640 [3:27:31<1:27:21, 16.33s/it] 95%|█████████▌| 6320/6640 [3:27:48<1:28:09, 16.53s/it]                                                       {'loss': 0.5185, 'learning_rate': 1.2159504246718522e-07, 'epoch': 0.95}
 95%|█████████▌| 6320/6640 [3:27:48<1:28:09, 16.53s/it] 95%|█████████▌| 6321/6640 [3:28:05<1:27:58, 16.55s/it]                                                       {'loss': 0.502, 'learning_rate': 1.208377927791482e-07, 'epoch': 0.95}
 95%|█████████▌| 6321/6640 [3:28:05<1:27:58, 16.55s/it] 95%|█████████▌| 6322/6640 [3:28:20<1:26:38, 16.35s/it]                                                       {'loss': 0.5066, 'learning_rate': 1.2008289406669206e-07, 'epoch': 0.95}
 95%|█████████▌| 6322/6640 [3:28:20<1:26:38, 16.35s/it] 95%|█████████▌| 6323/6640 [3:28:37<1:26:57, 16.46s/it]                                                       {'loss': 0.5247, 'learning_rate': 1.1933034650946306e-07, 'epoch': 0.95}
 95%|█████████▌| 6323/6640 [3:28:37<1:26:57, 16.46s/it] 95%|█████████▌| 6324/6640 [3:28:53<1:25:47, 16.29s/it]                                                       {'loss': 0.5164, 'learning_rate': 1.1858015028654801e-07, 'epoch': 0.95}
 95%|█████████▌| 6324/6640 [3:28:53<1:25:47, 16.29s/it] 95%|█████████▌| 6325/6640 [3:29:09<1:24:20, 16.07s/it]                                                       {'loss': 0.4956, 'learning_rate': 1.1783230557647075e-07, 'epoch': 0.95}
 95%|█████████▌| 6325/6640 [3:29:09<1:24:20, 16.07s/it] 95%|█████████▌| 6326/6640 [3:29:26<1:26:39, 16.56s/it]                                                       {'loss': 0.5129, 'learning_rate': 1.1708681255720223e-07, 'epoch': 0.95}
 95%|█████████▌| 6326/6640 [3:29:26<1:26:39, 16.56s/it] 95%|█████████▌| 6327/6640 [3:29:43<1:26:01, 16.49s/it]                                                       {'loss': 0.492, 'learning_rate': 1.1634367140614611e-07, 'epoch': 0.95}
 95%|█████████▌| 6327/6640 [3:29:43<1:26:01, 16.49s/it] 95%|█████████▌| 6328/6640 [3:29:59<1:24:51, 16.32s/it]                                                       {'loss': 0.506, 'learning_rate': 1.1560288230015204e-07, 'epoch': 0.95}
 95%|█████████▌| 6328/6640 [3:29:59<1:24:51, 16.32s/it] 95%|█████████▌| 6329/6640 [3:30:15<1:24:20, 16.27s/it]                                                       {'loss': 0.5171, 'learning_rate': 1.1486444541550679e-07, 'epoch': 0.95}
 95%|█████████▌| 6329/6640 [3:30:15<1:24:20, 16.27s/it] 95%|█████████▌| 6330/6640 [3:30:31<1:24:19, 16.32s/it]                                                       {'loss': 0.5045, 'learning_rate': 1.1412836092793977e-07, 'epoch': 0.95}
 95%|█████████▌| 6330/6640 [3:30:31<1:24:19, 16.32s/it] 95%|█████████▌| 6331/6640 [3:30:47<1:23:20, 16.18s/it]                                                       {'loss': 0.5081, 'learning_rate': 1.1339462901261867e-07, 'epoch': 0.95}
 95%|█████████▌| 6331/6640 [3:30:47<1:23:20, 16.18s/it] 95%|█████████▌| 6332/6640 [3:31:05<1:25:13, 16.60s/it]                                                       {'loss': 0.4999, 'learning_rate': 1.1266324984415266e-07, 'epoch': 0.95}
 95%|█████████▌| 6332/6640 [3:31:05<1:25:13, 16.60s/it] 95%|█████████▌| 6333/6640 [3:31:22<1:25:33, 16.72s/it]                                                       {'loss': 0.5367, 'learning_rate': 1.1193422359658924e-07, 'epoch': 0.95}
 95%|█████████▌| 6333/6640 [3:31:22<1:25:33, 16.72s/it] 95%|█████████▌| 6334/6640 [3:31:38<1:24:17, 16.53s/it]                                                       {'loss': 0.4759, 'learning_rate': 1.1120755044341736e-07, 'epoch': 0.95}
 95%|█████████▌| 6334/6640 [3:31:38<1:24:17, 16.53s/it] 95%|█████████▌| 6335/6640 [3:31:54<1:23:04, 16.34s/it]                                                       {'loss': 0.5079, 'learning_rate': 1.1048323055756649e-07, 'epoch': 0.95}
 95%|█████████▌| 6335/6640 [3:31:54<1:23:04, 16.34s/it] 95%|█████████▌| 6336/6640 [3:32:09<1:21:57, 16.18s/it]                                                       {'loss': 0.506, 'learning_rate': 1.097612641114043e-07, 'epoch': 0.95}
 95%|█████████▌| 6336/6640 [3:32:09<1:21:57, 16.18s/it] 95%|█████████▌| 6337/6640 [3:32:26<1:22:54, 16.42s/it]                                                       {'loss': 0.5012, 'learning_rate': 1.0904165127674116e-07, 'epoch': 0.95}
 95%|█████████▌| 6337/6640 [3:32:26<1:22:54, 16.42s/it] 95%|█████████▌| 6338/6640 [3:32:44<1:23:57, 16.68s/it]                                                       {'loss': 0.5093, 'learning_rate': 1.0832439222482338e-07, 'epoch': 0.95}
 95%|█████████▌| 6338/6640 [3:32:44<1:23:57, 16.68s/it] 95%|█████████▌| 6339/6640 [3:33:00<1:23:29, 16.64s/it]                                                       {'loss': 0.5248, 'learning_rate': 1.0760948712634112e-07, 'epoch': 0.95}
 95%|█████████▌| 6339/6640 [3:33:00<1:23:29, 16.64s/it] 95%|█████████▌| 6340/6640 [3:33:17<1:23:16, 16.66s/it]                                                       {'loss': 0.5235, 'learning_rate': 1.068969361514216e-07, 'epoch': 0.95}
 95%|█████████▌| 6340/6640 [3:33:17<1:23:16, 16.66s/it] 95%|█████████▌| 6341/6640 [3:33:33<1:22:11, 16.49s/it]                                                       {'loss': 0.5253, 'learning_rate': 1.0618673946963365e-07, 'epoch': 0.95}
 95%|█████████▌| 6341/6640 [3:33:33<1:22:11, 16.49s/it] 96%|█████████▌| 6342/6640 [3:33:49<1:21:46, 16.47s/it]                                                       {'loss': 0.5189, 'learning_rate': 1.0547889724998428e-07, 'epoch': 0.96}
 96%|█████████▌| 6342/6640 [3:33:49<1:21:46, 16.47s/it] 96%|█████████▌| 6343/6640 [3:34:06<1:21:14, 16.41s/it]                                                       {'loss': 0.5156, 'learning_rate': 1.0477340966092097e-07, 'epoch': 0.96}
 96%|█████████▌| 6343/6640 [3:34:06<1:21:14, 16.41s/it] 96%|█████████▌| 6344/6640 [3:34:22<1:20:14, 16.26s/it]                                                       {'loss': 0.4865, 'learning_rate': 1.0407027687033166e-07, 'epoch': 0.96}
 96%|█████████▌| 6344/6640 [3:34:22<1:20:14, 16.26s/it] 96%|█████████▌| 6345/6640 [3:34:38<1:20:39, 16.41s/it]                                                       {'loss': 0.4949, 'learning_rate': 1.033694990455425e-07, 'epoch': 0.96}
 96%|█████████▌| 6345/6640 [3:34:38<1:20:39, 16.41s/it] 96%|█████████▌| 6346/6640 [3:34:54<1:19:58, 16.32s/it]                                                       {'loss': 0.5116, 'learning_rate': 1.0267107635331897e-07, 'epoch': 0.96}
 96%|█████████▌| 6346/6640 [3:34:54<1:19:58, 16.32s/it] 96%|█████████▌| 6347/6640 [3:35:11<1:20:15, 16.43s/it]                                                       {'loss': 0.5137, 'learning_rate': 1.0197500895986922e-07, 'epoch': 0.96}
 96%|█████████▌| 6347/6640 [3:35:11<1:20:15, 16.43s/it] 96%|█████████▌| 6348/6640 [3:35:28<1:20:31, 16.55s/it]                                                       {'loss': 0.5034, 'learning_rate': 1.0128129703083634e-07, 'epoch': 0.96}
 96%|█████████▌| 6348/6640 [3:35:28<1:20:31, 16.55s/it] 96%|█████████▌| 6349/6640 [3:35:45<1:20:42, 16.64s/it]                                                       {'loss': 0.5018, 'learning_rate': 1.0058994073130712e-07, 'epoch': 0.96}
 96%|█████████▌| 6349/6640 [3:35:45<1:20:42, 16.64s/it]6 AutoResumeHook: Checking whether to suspend...
07 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
 96%|█████████▌| 6350/6640 [3:36:02<1:20:35, 16.67s/it]2 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5132, 'learning_rate': 9.990094022580332e-08, 'epoch': 0.96}
 96%|█████████▌| 6350/6640 [3:36:02<1:20:35, 16.67s/it] 96%|█████████▌| 6351/6640 [3:36:17<1:19:05, 16.42s/it]                                                       {'loss': 0.5322, 'learning_rate': 9.921429567829043e-08, 'epoch': 0.96}
 96%|█████████▌| 6351/6640 [3:36:17<1:19:05, 16.42s/it] 96%|█████████▌| 6352/6640 [3:36:33<1:18:16, 16.31s/it]                                                       {'loss': 0.4868, 'learning_rate': 9.85300072521711e-08, 'epoch': 0.96}
 96%|█████████▌| 6352/6640 [3:36:33<1:18:16, 16.31s/it] 96%|█████████▌| 6353/6640 [3:36:50<1:18:04, 16.32s/it]                                                       {'loss': 0.5353, 'learning_rate': 9.784807511028837e-08, 'epoch': 0.96}
 96%|█████████▌| 6353/6640 [3:36:50<1:18:04, 16.32s/it] 96%|█████████▌| 6354/6640 [3:37:06<1:18:06, 16.39s/it]                                                       {'loss': 0.5015, 'learning_rate': 9.716849941492135e-08, 'epoch': 0.96}
 96%|█████████▌| 6354/6640 [3:37:06<1:18:06, 16.39s/it] 96%|█████████▌| 6355/6640 [3:37:23<1:18:20, 16.49s/it]                                                       {'loss': 0.5273, 'learning_rate': 9.649128032779287e-08, 'epoch': 0.96}
 96%|█████████▌| 6355/6640 [3:37:23<1:18:20, 16.49s/it] 96%|█████████▌| 6356/6640 [3:37:40<1:18:12, 16.52s/it]                                                       {'loss': 0.4961, 'learning_rate': 9.581641801006292e-08, 'epoch': 0.96}
 96%|█████████▌| 6356/6640 [3:37:40<1:18:12, 16.52s/it] 96%|█████████▌| 6357/6640 [3:37:56<1:17:21, 16.40s/it]                                                       {'loss': 0.5202, 'learning_rate': 9.514391262233081e-08, 'epoch': 0.96}
 96%|█████████▌| 6357/6640 [3:37:56<1:17:21, 16.40s/it] 96%|█████████▌| 6358/6640 [3:38:13<1:17:54, 16.58s/it]                                                       {'loss': 0.4762, 'learning_rate': 9.447376432463295e-08, 'epoch': 0.96}
 96%|█████████▌| 6358/6640 [3:38:13<1:17:54, 16.58s/it] 96%|█████████▌| 6359/6640 [3:38:30<1:17:50, 16.62s/it]                                                       {'loss': 0.5346, 'learning_rate': 9.380597327644847e-08, 'epoch': 0.96}
 96%|█████████▌| 6359/6640 [3:38:30<1:17:50, 16.62s/it] 96%|█████████▌| 6360/6640 [3:38:46<1:17:23, 16.58s/it]                                                       {'loss': 0.5251, 'learning_rate': 9.314053963669245e-08, 'epoch': 0.96}
 96%|█████████▌| 6360/6640 [3:38:46<1:17:23, 16.58s/it] 96%|█████████▌| 6361/6640 [3:39:02<1:16:40, 16.49s/it]                                                       {'loss': 0.5154, 'learning_rate': 9.247746356372156e-08, 'epoch': 0.96}
 96%|█████████▌| 6361/6640 [3:39:02<1:16:40, 16.49s/it] 96%|█████████▌| 6362/6640 [3:39:19<1:16:48, 16.58s/it]                                                       {'loss': 0.5087, 'learning_rate': 9.181674521532957e-08, 'epoch': 0.96}
 96%|█████████▌| 6362/6640 [3:39:19<1:16:48, 16.58s/it] 96%|█████████▌| 6363/6640 [3:39:35<1:15:29, 16.35s/it]                                                       {'loss': 0.5181, 'learning_rate': 9.115838474874849e-08, 'epoch': 0.96}
 96%|█████████▌| 6363/6640 [3:39:35<1:15:29, 16.35s/it] 96%|█████████▌| 6364/6640 [3:39:51<1:15:06, 16.33s/it]                                                       {'loss': 0.5208, 'learning_rate': 9.0502382320653e-08, 'epoch': 0.96}
 96%|█████████▌| 6364/6640 [3:39:51<1:15:06, 16.33s/it] 96%|█████████▌| 6365/6640 [3:40:07<1:14:09, 16.18s/it]                                                       {'loss': 0.51, 'learning_rate': 8.984873808715155e-08, 'epoch': 0.96}
 96%|█████████▌| 6365/6640 [3:40:07<1:14:09, 16.18s/it] 96%|█████████▌| 6366/6640 [3:40:23<1:13:33, 16.11s/it]                                                       {'loss': 0.5046, 'learning_rate': 8.919745220379528e-08, 'epoch': 0.96}
 96%|█████████▌| 6366/6640 [3:40:23<1:13:33, 16.11s/it] 96%|█████████▌| 6367/6640 [3:40:39<1:13:05, 16.06s/it]                                                       {'loss': 0.5019, 'learning_rate': 8.854852482557242e-08, 'epoch': 0.96}
 96%|█████████▌| 6367/6640 [3:40:39<1:13:05, 16.06s/it] 96%|█████████▌| 6368/6640 [3:40:55<1:13:06, 16.13s/it]                                                       {'loss': 0.5059, 'learning_rate': 8.790195610691054e-08, 'epoch': 0.96}
 96%|█████████▌| 6368/6640 [3:40:55<1:13:06, 16.13s/it] 96%|█████████▌| 6369/6640 [3:41:12<1:13:43, 16.32s/it]                                                       {'loss': 0.4818, 'learning_rate': 8.725774620167549e-08, 'epoch': 0.96}
 96%|█████████▌| 6369/6640 [3:41:12<1:13:43, 16.32s/it] 96%|█████████▌| 6370/6640 [3:41:30<1:15:43, 16.83s/it]                                                       {'loss': 0.5013, 'learning_rate': 8.661589526317238e-08, 'epoch': 0.96}
 96%|█████████▌| 6370/6640 [3:41:30<1:15:43, 16.83s/it] 96%|█████████▌| 6371/6640 [3:41:46<1:14:51, 16.70s/it]                                                       {'loss': 0.4931, 'learning_rate': 8.597640344414348e-08, 'epoch': 0.96}
 96%|█████████▌| 6371/6640 [3:41:46<1:14:51, 16.70s/it] 96%|█████████▌| 6372/6640 [3:42:03<1:13:59, 16.56s/it]                                                       {'loss': 0.4834, 'learning_rate': 8.533927089677152e-08, 'epoch': 0.96}
 96%|█████████▌| 6372/6640 [3:42:03<1:13:59, 16.56s/it] 96%|█████████▌| 6373/6640 [3:42:20<1:14:37, 16.77s/it]                                                       {'loss': 0.5084, 'learning_rate': 8.470449777267631e-08, 'epoch': 0.96}
 96%|█████████▌| 6373/6640 [3:42:20<1:14:37, 16.77s/it] 96%|█████████▌| 6374/6640 [3:42:37<1:14:17, 16.76s/it]                                                       {'loss': 0.5185, 'learning_rate': 8.407208422291702e-08, 'epoch': 0.96}
 96%|█████████▌| 6374/6640 [3:42:37<1:14:17, 16.76s/it] 96%|█████████▌| 6375/6640 [3:42:53<1:13:42, 16.69s/it]                                                       {'loss': 0.4926, 'learning_rate': 8.344203039799214e-08, 'epoch': 0.96}
 96%|█████████▌| 6375/6640 [3:42:53<1:13:42, 16.69s/it] 96%|█████████▌| 6376/6640 [3:43:09<1:13:01, 16.60s/it]                                                       {'loss': 0.5038, 'learning_rate': 8.281433644783621e-08, 'epoch': 0.96}
 96%|█████████▌| 6376/6640 [3:43:09<1:13:01, 16.60s/it] 96%|█████████▌| 6377/6640 [3:43:26<1:12:51, 16.62s/it]                                                       {'loss': 0.5242, 'learning_rate': 8.218900252182415e-08, 'epoch': 0.96}
 96%|█████████▌| 6377/6640 [3:43:26<1:12:51, 16.62s/it] 96%|█████████▌| 6378/6640 [3:43:42<1:12:03, 16.50s/it]                                                       {'loss': 0.5032, 'learning_rate': 8.156602876876918e-08, 'epoch': 0.96}
 96%|█████████▌| 6378/6640 [3:43:42<1:12:03, 16.50s/it] 96%|█████████▌| 6379/6640 [3:43:58<1:10:51, 16.29s/it]                                                       {'loss': 0.5082, 'learning_rate': 8.094541533692047e-08, 'epoch': 0.96}
 96%|█████████▌| 6379/6640 [3:43:58<1:10:51, 16.29s/it] 96%|█████████▌| 6380/6640 [3:44:14<1:10:26, 16.26s/it]                                                       {'loss': 0.5187, 'learning_rate': 8.032716237396987e-08, 'epoch': 0.96}
 96%|█████████▌| 6380/6640 [3:44:14<1:10:26, 16.26s/it] 96%|█████████▌| 6381/6640 [3:44:30<1:09:16, 16.05s/it]                                                       {'loss': 0.494, 'learning_rate': 7.971127002704304e-08, 'epoch': 0.96}
 96%|█████████▌| 6381/6640 [3:44:30<1:09:16, 16.05s/it] 96%|█████████▌| 6382/6640 [3:44:45<1:08:17, 15.88s/it]                                                       {'loss': 0.5188, 'learning_rate': 7.909773844270718e-08, 'epoch': 0.96}
 96%|█████████▌| 6382/6640 [3:44:45<1:08:17, 15.88s/it] 96%|█████████▌| 6383/6640 [3:45:01<1:07:59, 15.88s/it]                                                       {'loss': 0.514, 'learning_rate': 7.84865677669655e-08, 'epoch': 0.96}
 96%|█████████▌| 6383/6640 [3:45:01<1:07:59, 15.88s/it] 96%|█████████▌| 6384/6640 [3:45:18<1:08:29, 16.05s/it]                                                       {'loss': 0.5246, 'learning_rate': 7.787775814526055e-08, 'epoch': 0.96}
 96%|█████████▌| 6384/6640 [3:45:18<1:08:29, 16.05s/it] 96%|█████████▌| 6385/6640 [3:45:34<1:08:09, 16.04s/it]                                                       {'loss': 0.5081, 'learning_rate': 7.727130972247199e-08, 'epoch': 0.96}
 96%|█████████▌| 6385/6640 [3:45:34<1:08:09, 16.04s/it] 96%|█████████▌| 6386/6640 [3:45:50<1:08:39, 16.22s/it]                                                       {'loss': 0.5192, 'learning_rate': 7.666722264291882e-08, 'epoch': 0.96}
 96%|█████████▌| 6386/6640 [3:45:50<1:08:39, 16.22s/it] 96%|█████████▌| 6387/6640 [3:46:06<1:07:40, 16.05s/it]                                                       {'loss': 0.5009, 'learning_rate': 7.606549705035937e-08, 'epoch': 0.96}
 96%|█████████▌| 6387/6640 [3:46:06<1:07:40, 16.05s/it] 96%|█████████▌| 6388/6640 [3:46:23<1:08:17, 16.26s/it]                                                       {'loss': 0.512, 'learning_rate': 7.546613308798468e-08, 'epoch': 0.96}
 96%|█████████▌| 6388/6640 [3:46:23<1:08:17, 16.26s/it] 96%|█████████▌| 6389/6640 [3:46:40<1:08:42, 16.42s/it]                                                       {'loss': 0.497, 'learning_rate': 7.48691308984295e-08, 'epoch': 0.96}
 96%|█████████▌| 6389/6640 [3:46:40<1:08:42, 16.42s/it] 96%|█████████▌| 6390/6640 [3:46:56<1:08:09, 16.36s/it]                                                       {'loss': 0.5028, 'learning_rate': 7.427449062376468e-08, 'epoch': 0.96}
 96%|█████████▌| 6390/6640 [3:46:56<1:08:09, 16.36s/it] 96%|█████████▋| 6391/6640 [3:47:13<1:08:38, 16.54s/it]                                                       {'loss': 0.5307, 'learning_rate': 7.3682212405497e-08, 'epoch': 0.96}
 96%|█████████▋| 6391/6640 [3:47:13<1:08:38, 16.54s/it] 96%|█████████▋| 6392/6640 [3:47:29<1:08:05, 16.47s/it]                                                       {'loss': 0.5085, 'learning_rate': 7.309229638457372e-08, 'epoch': 0.96}
 96%|█████████▋| 6392/6640 [3:47:29<1:08:05, 16.47s/it] 96%|█████████▋| 6393/6640 [3:47:45<1:07:22, 16.37s/it]                                                       {'loss': 0.5371, 'learning_rate': 7.250474270137919e-08, 'epoch': 0.96}
 96%|█████████▋| 6393/6640 [3:47:45<1:07:22, 16.37s/it] 96%|█████████▋| 6394/6640 [3:48:00<1:05:45, 16.04s/it]                                                       {'loss': 0.5146, 'learning_rate': 7.191955149573492e-08, 'epoch': 0.96}
 96%|█████████▋| 6394/6640 [3:48:00<1:05:45, 16.04s/it] 96%|█████████▋| 6395/6640 [3:48:17<1:06:00, 16.17s/it]                                                       {'loss': 0.5038, 'learning_rate': 7.133672290690064e-08, 'epoch': 0.96}
 96%|█████████▋| 6395/6640 [3:48:17<1:06:00, 16.17s/it] 96%|█████████▋| 6396/6640 [3:48:33<1:05:55, 16.21s/it]                                                       {'loss': 0.5108, 'learning_rate': 7.075625707357537e-08, 'epoch': 0.96}
 96%|█████████▋| 6396/6640 [3:48:33<1:05:55, 16.21s/it] 96%|█████████▋| 6397/6640 [3:48:49<1:05:36, 16.20s/it]                                                       {'loss': 0.4978, 'learning_rate': 7.017815413389306e-08, 'epoch': 0.96}
 96%|█████████▋| 6397/6640 [3:48:49<1:05:36, 16.20s/it] 96%|█████████▋| 6398/6640 [3:49:06<1:05:12, 16.17s/it]                                                       {'loss': 0.5166, 'learning_rate': 6.960241422542702e-08, 'epoch': 0.96}
 96%|█████████▋| 6398/6640 [3:49:06<1:05:12, 16.17s/it] 96%|█████████▋| 6399/6640 [3:49:22<1:05:25, 16.29s/it]                                                       {'loss': 0.5081, 'learning_rate': 6.902903748518764e-08, 'epoch': 0.96}
 96%|█████████▋| 6399/6640 [3:49:22<1:05:25, 16.29s/it]6 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
01 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...5 AutoResumeHook: Checking whether to suspend...

3 AutoResumeHook: Checking whether to suspend...
 96%|█████████▋| 6400/6640 [3:49:38<1:05:11, 16.30s/it]2 AutoResumeHook: Checking whether to suspend...
                                                       {'loss': 0.5034, 'learning_rate': 6.845802404962243e-08, 'epoch': 0.96}
 96%|█████████▋| 6400/6640 [3:49:38<1:05:11, 16.30s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6400/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6400/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6400/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 96%|█████████▋| 6401/6640 [3:51:21<2:48:17, 42.25s/it]                                                       {'loss': 0.523, 'learning_rate': 6.788937405461937e-08, 'epoch': 0.96}
 96%|█████████▋| 6401/6640 [3:51:21<2:48:17, 42.25s/it] 96%|█████████▋| 6402/6640 [3:51:37<2:16:19, 34.37s/it]                                                       {'loss': 0.5158, 'learning_rate': 6.732308763550022e-08, 'epoch': 0.96}
 96%|█████████▋| 6402/6640 [3:51:37<2:16:19, 34.37s/it] 96%|█████████▋| 6403/6640 [3:51:54<1:54:28, 28.98s/it]                                                       {'loss': 0.4973, 'learning_rate': 6.675916492702717e-08, 'epoch': 0.96}
 96%|█████████▋| 6403/6640 [3:51:54<1:54:28, 28.98s/it] 96%|█████████▋| 6404/6640 [3:52:10<1:38:52, 25.14s/it]                                                       {'loss': 0.5525, 'learning_rate': 6.619760606339731e-08, 'epoch': 0.96}
 96%|█████████▋| 6404/6640 [3:52:10<1:38:52, 25.14s/it] 96%|█████████▋| 6405/6640 [3:52:26<1:28:26, 22.58s/it]                                                       {'loss': 0.4992, 'learning_rate': 6.56384111782482e-08, 'epoch': 0.96}
 96%|█████████▋| 6405/6640 [3:52:26<1:28:26, 22.58s/it] 96%|█████████▋| 6406/6640 [3:52:43<1:20:35, 20.67s/it]                                                       {'loss': 0.5044, 'learning_rate': 6.508158040465118e-08, 'epoch': 0.96}
 96%|█████████▋| 6406/6640 [3:52:43<1:20:35, 20.67s/it] 96%|█████████▋| 6407/6640 [3:52:59<1:15:00, 19.31s/it]                                                       {'loss': 0.4805, 'learning_rate': 6.452711387511912e-08, 'epoch': 0.96}
 96%|█████████▋| 6407/6640 [3:52:59<1:15:00, 19.31s/it] 97%|█████████▋| 6408/6640 [3:53:15<1:11:30, 18.49s/it]                                                       {'loss': 0.5101, 'learning_rate': 6.39750117215987e-08, 'epoch': 0.97}
 97%|█████████▋| 6408/6640 [3:53:15<1:11:30, 18.49s/it] 97%|█████████▋| 6409/6640 [3:53:31<1:08:08, 17.70s/it]                                                       {'loss': 0.5122, 'learning_rate': 6.342527407547594e-08, 'epoch': 0.97}
 97%|█████████▋| 6409/6640 [3:53:31<1:08:08, 17.70s/it] 97%|█████████▋| 6410/6640 [3:53:48<1:06:28, 17.34s/it]                                                       {'loss': 0.512, 'learning_rate': 6.287790106757396e-08, 'epoch': 0.97}
 97%|█████████▋| 6410/6640 [3:53:48<1:06:28, 17.34s/it] 97%|█████████▋| 6411/6640 [3:54:05<1:06:10, 17.34s/it]                                                       {'loss': 0.4956, 'learning_rate': 6.233289282815302e-08, 'epoch': 0.97}
 97%|█████████▋| 6411/6640 [3:54:05<1:06:10, 17.34s/it] 97%|█████████▋| 6412/6640 [3:54:22<1:05:35, 17.26s/it]                                                       {'loss': 0.5012, 'learning_rate': 6.179024948690938e-08, 'epoch': 0.97}
 97%|█████████▋| 6412/6640 [3:54:22<1:05:35, 17.26s/it] 97%|█████████▋| 6413/6640 [3:54:38<1:04:05, 16.94s/it]                                                       {'loss': 0.5122, 'learning_rate': 6.124997117297859e-08, 'epoch': 0.97}
 97%|█████████▋| 6413/6640 [3:54:38<1:04:05, 16.94s/it] 97%|█████████▋| 6414/6640 [3:54:54<1:02:51, 16.69s/it]                                                       {'loss': 0.5091, 'learning_rate': 6.07120580149323e-08, 'epoch': 0.97}
 97%|█████████▋| 6414/6640 [3:54:54<1:02:51, 16.69s/it] 97%|█████████▋| 6415/6640 [3:55:11<1:02:37, 16.70s/it]                                                       {'loss': 0.5013, 'learning_rate': 6.017651014077807e-08, 'epoch': 0.97}
 97%|█████████▋| 6415/6640 [3:55:11<1:02:37, 16.70s/it] 97%|█████████▋| 6416/6640 [3:55:28<1:02:43, 16.80s/it]                                                       {'loss': 0.5189, 'learning_rate': 5.964332767796399e-08, 'epoch': 0.97}
 97%|█████████▋| 6416/6640 [3:55:28<1:02:43, 16.80s/it] 97%|█████████▋| 6417/6640 [3:55:45<1:02:54, 16.92s/it]                                                       {'loss': 0.4995, 'learning_rate': 5.911251075337188e-08, 'epoch': 0.97}
 97%|█████████▋| 6417/6640 [3:55:45<1:02:54, 16.92s/it] 97%|█████████▋| 6418/6640 [3:56:01<1:01:05, 16.51s/it]                                                       {'loss': 0.5385, 'learning_rate': 5.85840594933218e-08, 'epoch': 0.97}
 97%|█████████▋| 6418/6640 [3:56:01<1:01:05, 16.51s/it] 97%|█████████▋| 6419/6640 [3:56:18<1:01:11, 16.61s/it]                                                       {'loss': 0.5158, 'learning_rate': 5.805797402357205e-08, 'epoch': 0.97}
 97%|█████████▋| 6419/6640 [3:56:18<1:01:11, 16.61s/it] 97%|█████████▋| 6420/6640 [3:56:34<1:00:21, 16.46s/it]                                                       {'loss': 0.5014, 'learning_rate': 5.753425446931582e-08, 'epoch': 0.97}
 97%|█████████▋| 6420/6640 [3:56:34<1:00:21, 16.46s/it] 97%|█████████▋| 6421/6640 [3:56:51<1:00:28, 16.57s/it]                                                       {'loss': 0.5063, 'learning_rate': 5.701290095518564e-08, 'epoch': 0.97}
 97%|█████████▋| 6421/6640 [3:56:51<1:00:28, 16.57s/it] 97%|█████████▋| 6422/6640 [3:57:07<59:45, 16.45s/it]                                                       {'loss': 0.5155, 'learning_rate': 5.6493913605246696e-08, 'epoch': 0.97}
 97%|█████████▋| 6422/6640 [3:57:07<59:45, 16.45s/it] 97%|█████████▋| 6423/6640 [3:57:24<1:00:10, 16.64s/it]                                                       {'loss': 0.4869, 'learning_rate': 5.5977292543007987e-08, 'epoch': 0.97}
 97%|█████████▋| 6423/6640 [3:57:24<1:00:10, 16.64s/it] 97%|█████████▋| 6424/6640 [3:57:42<1:01:05, 16.97s/it]                                                       {'loss': 0.5116, 'learning_rate': 5.5463037891408944e-08, 'epoch': 0.97}
 97%|█████████▋| 6424/6640 [3:57:42<1:01:05, 16.97s/it] 97%|█████████▋| 6425/6640 [3:57:58<1:00:37, 16.92s/it]                                                       {'loss': 0.5167, 'learning_rate': 5.495114977282945e-08, 'epoch': 0.97}
 97%|█████████▋| 6425/6640 [3:57:58<1:00:37, 16.92s/it]May 29 02:18:00.807282 1643482 slurmstepd   0x155550a06700: error: *** STEP 8299338.0 ON batch-block1-2107 CANCELLED AT 2025-05-29T02:18:00 DUE TO TIME LIMIT ***
srun: Job step aborted: Waiting up to 122 seconds for job step to finish.
srun: error: batch-block1-2107: task 0: Terminated
srun: Terminating StepId=8299338.0
srun: job 8515132 queued and waiting for resources
srun: job 8515132 has been allocated resources
srun: job 8515153 queued and waiting for resources
srun: job 8515153 has been allocated resources
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
MASTER_ADDR=batch-block1-0048
JobID: 8515153 | Full list: batch-block1-0048 batch-block1-2006 
NETWORK=Efficient-Large-Model/VILA1.5-13b
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
MASTER_ADDR=batch-block1-0048
JobID: 8515153 | Full list: batch-block1-0048 batch-block1-2006 
NETWORK=Efficient-Large-Model/VILA1.5-13b
WARNING:torch.distributed.run:
*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
*****************************************
WARNING:torch.distributed.run:
*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
*****************************************
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
[2025-06-03 16:10:59,577] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:10:59,577] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:10:59,577] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:10:59,577] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:10:59,577] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:10:59,577] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:10:59,577] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:10:59,577] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:10:59,878] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:10:59,878] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:10:59,878] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:10:59,878] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:10:59,878] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:10:59,878] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:10:59,878] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:10:59,878] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:11:00,828] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,828] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:11:00,828] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,828] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,828] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,828] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:11:00,828] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,828] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,828] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,828] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:11:00,828] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,828] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:11:00,828] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:11:00,828] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:11:00,828] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:11:00,828] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:11:00,828] [INFO] [comm.py:625:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
[2025-06-03 16:11:00,927] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,927] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,927] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,927] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,927] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,927] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:11:00,927] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,927] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,927] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:11:00,927] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:11:00,927] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:11:00,927] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:11:00,927] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:11:00,927] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:11:00,927] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:11:00,927] [INFO] [comm.py:594:init_distributed] cdb=None
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-06-03 16:11:09,422] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.02B parameters
Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.32s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.32s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.34s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.34s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.35s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.35s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.35s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.36s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.36s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.36s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.36s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.37s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:06,  1.37s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:07,  1.44s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:01<00:07,  1.44s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:04<00:23,  4.66s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:12,  3.02s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:12,  3.03s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:12,  3.03s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:12,  3.04s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:12,  3.04s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:12,  3.04s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:12,  3.04s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:12,  3.04s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:12,  3.04s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:12,  3.04s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:12,  3.04s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:12,  3.04s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:12,  3.05s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:12,  3.06s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:05<00:12,  3.06s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:09<00:18,  4.74s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.03s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.03s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.04s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.04s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.04s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.04s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.04s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.04s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.04s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.04s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.05s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.05s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.05s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.06s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:10<00:12,  4.06s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:14<00:14,  4.81s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.26s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.26s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.25s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.26s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.26s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.26s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.26s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.26s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.26s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.26s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.26s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.27s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.27s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.26s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:15<00:08,  4.27s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:18<00:09,  4.72s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.51s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.51s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.51s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.51s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.51s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.52s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.51s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.51s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.51s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.51s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.52s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.52s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.52s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.51s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:20<00:04,  4.52s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.27s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.53s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.27s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.53s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.28s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.54s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.27s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.54s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.27s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.27s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.54s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.54s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.28s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.54s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.27s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.54s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.28s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.54s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.28s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.54s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.28s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.54s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.28s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.54s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.28s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.54s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.28s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.55s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.28s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:21<00:00,  3.55s/it]
Loading checkpoint shards:  83%|████████▎ | 5/6 [00:23<00:04,  4.83s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:25<00:00,  3.69s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:25<00:00,  4.24s/it]
[2025-06-03 16:11:35,141] [WARNING] [partition_parameters.py:836:_post_init_method] param `probe` in SiglipMultiheadAttentionPoolingHead not on GPU so was not broadcasted from rank 0
[2025-06-03 16:11:35,142] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.44B parameters
[2025-06-03 16:11:36,703] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.49B parameters
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanu[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
c_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_seco[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanundary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_masc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secok', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
ndary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mas[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuk', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
c_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_seco[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanundary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_masc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secok', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
ndary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[dist-0-of-16] LlavaLlamaModel(
  (llm): LlamaForCausalLM(
    (model): LlamaModel(
      (embed_tokens): Embedding(32000, 5120, padding_idx=0)
      (layers): ModuleList(
        (0-39): 40 x LlamaDecoderLayer(
          (self_attn): LlamaFlashAttention2(
            (q_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (k_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (v_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (o_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (rotary_emb): LlamaRotaryEmbedding()
          )
          (mlp): LlamaMLP(
            (gate_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (up_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (down_proj): Linear(in_features=13824, out_features=5120, bias=False)
            (act_fn): SiLU()
          )
          (input_layernorm): LlamaRMSNorm()
          (post_attention_layernorm): LlamaRMSNorm()
        )
      )
      (norm): LlamaRMSNorm()
    )
    (lm_head): Linear(in_features=5120, out_features=32000, bias=False)
  )
  (vision_tower): SiglipVisionTower(
    (vision_tower): SiglipVisionModel(
      (vision_model): SiglipVisionTransformer(
        (embeddings): SiglipVisionEmbeddings(
          (patch_embedding): Conv2d(3, 1152, kernel_size=(14, 14), stride=(14, 14), padding=valid)
          (position_embedding): Embedding(729, 1152)
        )
        (encoder): SiglipEncoder(
          (layers): ModuleList(
            (0-26): 27 x SiglipEncoderLayer(
              (self_attn): SiglipAttention(
                (k_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (v_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (q_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (out_proj): Linear(in_features=1152, out_features=1152, bias=True)
              )
              (layer_norm1): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
              (mlp): SiglipMLP(
                (activation_fn): PytorchGELUTanh()
                (fc1): Linear(in_features=1152, out_features=4304, bias=True)
                (fc2): Linear(in_features=4304, out_features=1152, bias=True)
              )
              (layer_norm2): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
            )
          )
        )
        (post_layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
        (head): SiglipMultiheadAttentionPoolingHead(
          (attention): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=1152, out_features=1152, bias=True)
          )
          (layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
          (mlp): SiglipMLP(
            (activation_fn): PytorchGELUTanh()
            (fc1): Linear(in_features=1152, out_features=4304, bias=True)
            (fc2): Linear(in_features=4304, out_features=1152, bias=True)
          )
        )
      )
    )
  )
  (mm_projector): MultimodalProjector(
    (layers): Sequential(
      (0): DownSampleBlock()
      (1): LayerNorm((4608,), eps=1e-05, elementwise_affine=True)
      (2): Linear(in_features=4608, out_features=5120, bias=True)
      (3): GELU(approximate='none')
      (4): Linear(in_features=5120, out_features=5120, bias=True)
    )
  )
)
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[dist-0-of-16] Tunable parameters:
language model True
[dist-0-of-16] vision tower True
[dist-0-of-16] mm projector True
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
length of dataloader: 6638 1700195
[GPU memory] before trainer 1.6589269638061523
length of dataloader: 6638 1700195
[GPU memory] before trainer 1.6574010848999023
length of dataloader: 6638 1700195
[GPU memory] before trainer 1.6576452255249023
length of dataloader: 6638 1700195
[GPU memory] before trainer 1.6584997177124023
length of dataloader: 6638 1700195
[GPU memory] before trainer 1.6630163192749023
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
length of dataloader: 6638 1700195
[GPU memory] before trainer 1.6575841903686523
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
length of dataloader: 6638 1700195
[GPU memory] before trainer 1.6576452255249023
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
length of dataloader: 6638 1700195
[GPU memory] before trainer 1.6582555770874023
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
length of dataloader: 6638 1700195
[GPU memory] before trainer 1.6595373153686523
length of dataloader: 6638 1700195
[GPU memory] before trainer 1.6595373153686523
length of dataloader: 6638 1700195
[GPU memory] before trainer 1.6589879989624023
length of dataloader: 6638 1700195
[GPU memory] before trainer 1.6589879989624023
length of dataloader: 6638 1700195
[GPU memory] before trainer 1.6589879989624023
length of dataloader: 6638 1700195
[GPU memory] before trainer 1.6589879989624023
length of dataloader: 6638 1700195
length of dataloader: 6638 1700195
[GPU memory] before trainer 1.6589879989624023
[GPU memory] before trainer 1.6589879989624023
Parameter Offload: Total persistent parameters: 847296 in 365 params
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2604, in load_checkpoint
    load_path, client_states = self._load_checkpoint(load_dir,
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2635, in _load_checkpoint
    sd_loader = SDLoaderFactory.get_sd_loader(ckpt_list, checkpoint_engine=self.checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 43, in get_sd_loader
    return MegatronSDLoader(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 193, in __init__
    super().__init__(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 55, in __init__
    self.check_ckpt_list()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 168, in check_ckpt_list
    assert len(self.ckpt_list) > 0
AssertionError
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2604, in load_checkpoint
    load_path, client_states = self._load_checkpoint(load_dir,
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2635, in _load_checkpoint
    sd_loader = SDLoaderFactory.get_sd_loader(ckpt_list, checkpoint_engine=self.checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 43, in get_sd_loader
    return MegatronSDLoader(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 193, in __init__
    super().__init__(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 55, in __init__
    self.check_ckpt_list()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 168, in check_ckpt_list
    assert len(self.ckpt_list) > 0
AssertionError
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2604, in load_checkpoint
    load_path, client_states = self._load_checkpoint(load_dir,
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2635, in _load_checkpoint
    sd_loader = SDLoaderFactory.get_sd_loader(ckpt_list, checkpoint_engine=self.checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 43, in get_sd_loader
    return MegatronSDLoader(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 193, in __init__
    super().__init__(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 55, in __init__
    self.check_ckpt_list()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 168, in check_ckpt_list
    assert len(self.ckpt_list) > 0
AssertionError
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2604, in load_checkpoint
    load_path, client_states = self._load_checkpoint(load_dir,
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2635, in _load_checkpoint
    sd_loader = SDLoaderFactory.get_sd_loader(ckpt_list, checkpoint_engine=self.checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 43, in get_sd_loader
    return MegatronSDLoader(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 193, in __init__
    super().__init__(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 55, in __init__
    self.check_ckpt_list()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 168, in check_ckpt_list
    assert len(self.ckpt_list) > 0
AssertionError
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2604, in load_checkpoint
    load_path, client_states = self._load_checkpoint(load_dir,
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2635, in _load_checkpoint
    sd_loader = SDLoaderFactory.get_sd_loader(ckpt_list, checkpoint_engine=self.checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 43, in get_sd_loader
    return MegatronSDLoader(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 193, in __init__
    super().__init__(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 55, in __init__
    self.check_ckpt_list()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 168, in check_ckpt_list
    assert len(self.ckpt_list) > 0
AssertionError
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2604, in load_checkpoint
    load_path, client_states = self._load_checkpoint(load_dir,
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2635, in _load_checkpoint
    sd_loader = SDLoaderFactory.get_sd_loader(ckpt_list, checkpoint_engine=self.checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 43, in get_sd_loader
    return MegatronSDLoader(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 193, in __init__
    super().__init__(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 55, in __init__
    self.check_ckpt_list()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 168, in check_ckpt_list
    assert len(self.ckpt_list) > 0
AssertionError
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2604, in load_checkpoint
    load_path, client_states = self._load_checkpoint(load_dir,
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2635, in _load_checkpoint
    sd_loader = SDLoaderFactory.get_sd_loader(ckpt_list, checkpoint_engine=self.checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 43, in get_sd_loader
    return MegatronSDLoader(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 193, in __init__
    super().__init__(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 55, in __init__
    self.check_ckpt_list()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 168, in check_ckpt_list
    assert len(self.ckpt_list) > 0
AssertionError
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2604, in load_checkpoint
    load_path, client_states = self._load_checkpoint(load_dir,
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2635, in _load_checkpoint
    sd_loader = SDLoaderFactory.get_sd_loader(ckpt_list, checkpoint_engine=self.checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 43, in get_sd_loader
    return MegatronSDLoader(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 193, in __init__
    super().__init__(ckpt_list, version, checkpoint_engine)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 55, in __init__
    self.check_ckpt_list()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/state_dict_factory.py", line 168, in check_ckpt_list
    assert len(self.ckpt_list) > 0
AssertionError
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2614, in load_checkpoint
    success = self._load_zero_checkpoint(load_dir, tag, load_optimizer_states=load_optimizer_states)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2756, in _load_zero_checkpoint
    raise ZeRORuntimeException("The checkpoint being loaded used a DP " \
deepspeed.runtime.zero.utils.ZeRORuntimeException: The checkpoint being loaded used a DP world size of 8 but the current world size is 16. Automatic adjustment of ZeRO's optimizer state partitioning with a new world size is not currently supported.
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2614, in load_checkpoint
    success = self._load_zero_checkpoint(load_dir, tag, load_optimizer_states=load_optimizer_states)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2756, in _load_zero_checkpoint
    raise ZeRORuntimeException("The checkpoint being loaded used a DP " \
deepspeed.runtime.zero.utils.ZeRORuntimeException: The checkpoint being loaded used a DP world size of 8 but the current world size is 16. Automatic adjustment of ZeRO's optimizer state partitioning with a new world size is not currently supported.
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2614, in load_checkpoint
    success = self._load_zero_checkpoint(load_dir, tag, load_optimizer_states=load_optimizer_states)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2756, in _load_zero_checkpoint
    raise ZeRORuntimeException("The checkpoint being loaded used a DP " \
deepspeed.runtime.zero.utils.ZeRORuntimeException: The checkpoint being loaded used a DP world size of 8 but the current world size is 16. Automatic adjustment of ZeRO's optimizer state partitioning with a new world size is not currently supported.
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2614, in load_checkpoint
    success = self._load_zero_checkpoint(load_dir, tag, load_optimizer_states=load_optimizer_states)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2756, in _load_zero_checkpoint
    raise ZeRORuntimeException("The checkpoint being loaded used a DP " \
deepspeed.runtime.zero.utils.ZeRORuntimeException: The checkpoint being loaded used a DP world size of 8 but the current world size is 16. Automatic adjustment of ZeRO's optimizer state partitioning with a new world size is not currently supported.
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2614, in load_checkpoint
    success = self._load_zero_checkpoint(load_dir, tag, load_optimizer_states=load_optimizer_states)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2756, in _load_zero_checkpoint
    raise ZeRORuntimeException("The checkpoint being loaded used a DP " \
deepspeed.runtime.zero.utils.ZeRORuntimeException: The checkpoint being loaded used a DP world size of 8 but the current world size is 16. Automatic adjustment of ZeRO's optimizer state partitioning with a new world size is not currently supported.
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2614, in load_checkpoint
    success = self._load_zero_checkpoint(load_dir, tag, load_optimizer_states=load_optimizer_states)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2756, in _load_zero_checkpoint
    raise ZeRORuntimeException("The checkpoint being loaded used a DP " \
deepspeed.runtime.zero.utils.ZeRORuntimeException: The checkpoint being loaded used a DP world size of 8 but the current world size is 16. Automatic adjustment of ZeRO's optimizer state partitioning with a new world size is not currently supported.
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2614, in load_checkpoint
    success = self._load_zero_checkpoint(load_dir, tag, load_optimizer_states=load_optimizer_states)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2756, in _load_zero_checkpoint
    raise ZeRORuntimeException("The checkpoint being loaded used a DP " \
deepspeed.runtime.zero.utils.ZeRORuntimeException: The checkpoint being loaded used a DP world size of 8 but the current world size is 16. Automatic adjustment of ZeRO's optimizer state partitioning with a new world size is not currently supported.
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train_mem.py", line 36, in <module>
    train()
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/train/train.py", line 436, in train
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1537, in train
    return inner_training_loop(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/trainer.py", line 1693, in _inner_training_loop
    deepspeed_load_checkpoint(self.model_wrapped, resume_from_checkpoint)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 402, in deepspeed_load_checkpoint
    load_path, _ = deepspeed_engine.load_checkpoint(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2614, in load_checkpoint
    success = self._load_zero_checkpoint(load_dir, tag, load_optimizer_states=load_optimizer_states)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/deepspeed/runtime/engine.py", line 2756, in _load_zero_checkpoint
    raise ZeRORuntimeException("The checkpoint being loaded used a DP " \
deepspeed.runtime.zero.utils.ZeRORuntimeException: The checkpoint being loaded used a DP world size of 8 but the current world size is 16. Automatic adjustment of ZeRO's optimizer state partitioning with a new world size is not currently supported.
ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 2258980) of binary: /lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/bin/python3.10
ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 3014318) of binary: /lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/bin/python3.10
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/bin/torchrun", line 8, in <module>
    sys.exit(main())
Traceback (most recent call last):
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/bin/torchrun", line 8, in <module>
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/distributed/elastic/multiprocessing/errors/__init__.py", line 346, in wrapper
    sys.exit(main())
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/distributed/elastic/multiprocessing/errors/__init__.py", line 346, in wrapper
    return f(*args, **kwargs)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/distributed/run.py", line 794, in main
    return f(*args, **kwargs)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/distributed/run.py", line 794, in main
    run(args)
    run(args)
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/distributed/run.py", line 785, in run
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/distributed/run.py", line 785, in run
    elastic_launch(
    elastic_launch(
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 134, in __call__
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 134, in __call__
    return launch_agent(self._config, self._entrypoint, list(args))
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 250, in launch_agent
    return launch_agent(self._config, self._entrypoint, list(args))
  File "/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 250, in launch_agent
    raise ChildFailedError(
    raise ChildFailedError(
torch.distributed.elastic.multiprocessing.errors.ChildFailedError: 
============================================================
llava/train/train_mem.py FAILED
------------------------------------------------------------
Failures:
[1]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-0048.cm.cluster
  rank      : 1 (local_rank: 1)
  exitcode  : 1 (pid: 2258981)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
[2]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-0048.cm.cluster
  rank      : 2 (local_rank: 2)
  exitcode  : 1 (pid: 2258982)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
[3]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-0048.cm.cluster
  rank      : 3 (local_rank: 3)
  exitcode  : 1 (pid: 2258983)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
[4]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-0048.cm.cluster
  rank      : 4 (local_rank: 4)
  exitcode  : 1 (pid: 2258984)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
[5]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-0048.cm.cluster
  rank      : 5 (local_rank: 5)
  exitcode  : 1 (pid: 2258985)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
[6]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-0048.cm.cluster
  rank      : 6 (local_rank: 6)
  exitcode  : 1 (pid: 2258986)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
[7]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-0048.cm.cluster
  rank      : 7 (local_rank: 7)
  exitcode  : 1 (pid: 2258987)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
------------------------------------------------------------
Root Cause (first observed failure):
[0]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-0048.cm.cluster
  rank      : 0 (local_rank: 0)
  exitcode  : 1 (pid: 2258980)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
============================================================
torch.distributed.elastic.multiprocessing.errors.ChildFailedError: 
============================================================
llava/train/train_mem.py FAILED
------------------------------------------------------------
Failures:
[1]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-2006.cm.cluster
  rank      : 9 (local_rank: 1)
  exitcode  : 1 (pid: 3014319)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
[2]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-2006.cm.cluster
  rank      : 10 (local_rank: 2)
  exitcode  : 1 (pid: 3014320)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
[3]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-2006.cm.cluster
  rank      : 11 (local_rank: 3)
  exitcode  : 1 (pid: 3014321)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
[4]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-2006.cm.cluster
  rank      : 12 (local_rank: 4)
  exitcode  : 1 (pid: 3014322)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
[5]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-2006.cm.cluster
  rank      : 13 (local_rank: 5)
  exitcode  : 1 (pid: 3014323)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
[6]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-2006.cm.cluster
  rank      : 14 (local_rank: 6)
  exitcode  : 1 (pid: 3014324)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
[7]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-2006.cm.cluster
  rank      : 15 (local_rank: 7)
  exitcode  : 1 (pid: 3014325)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
------------------------------------------------------------
Root Cause (first observed failure):
[0]:
  time      : 2025-06-03_16:12:23
  host      : batch-block1-2006.cm.cluster
  rank      : 8 (local_rank: 0)
  exitcode  : 1 (pid: 3014318)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
============================================================
srun: error: batch-block1-2006: task 1: Exited with exit code 1
srun: Terminating StepId=8515153.0
srun: error: batch-block1-0048: task 0: Exited with exit code 1
srun: job 8515163 queued and waiting for resources
srun: job 8515163 has been allocated resources
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
MASTER_ADDR=batch-block5-00142
JobID: 8515163 | Full list: batch-block5-00142 
NETWORK=Efficient-Large-Model/VILA1.5-13b
WARNING:torch.distributed.run:
*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
*****************************************
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
[2025-06-03 16:14:28,596] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:14:28,596] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:14:28,596] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:14:28,596] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:14:28,596] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:14:28,596] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:14:28,596] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:14:28,596] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 16:14:30,252] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:14:30,252] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:14:30,252] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:14:30,252] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:14:30,252] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:14:30,252] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:14:30,252] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:14:30,252] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:14:30,252] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:14:30,252] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:14:30,252] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:14:30,252] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:14:30,252] [INFO] [comm.py:625:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
[2025-06-03 16:14:30,252] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:14:30,252] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 16:14:30,252] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 16:14:30,252] [INFO] [comm.py:594:init_distributed] cdb=None
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[2025-06-03 16:14:39,868] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.02B parameters
Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.22it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.22it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.16it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.15it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  2.02it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  1.97it/s]Loading checkpoint shards:  17%|█▋        | 1/6 [00:00<00:02,  1.94it/s]Loading checkpoint shards:  33%|███▎      | 2/6 [00:02<00:06,  1.61s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:02<00:06,  1.62s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:02<00:06,  1.64s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:02<00:06,  1.63s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:02<00:06,  1.64s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:02<00:06,  1.64s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:03<00:06,  1.74s/it]Loading checkpoint shards:  17%|█▋        | 1/6 [00:04<00:24,  4.98s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:07<00:09,  3.10s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:07<00:09,  3.12s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:07<00:09,  3.12s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:07<00:09,  3.11s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:07<00:09,  3.12s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:07<00:09,  3.13s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:07<00:09,  3.11s/it]Loading checkpoint shards:  33%|███▎      | 2/6 [00:09<00:19,  4.83s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:12<00:07,  3.81s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:12<00:07,  3.81s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:12<00:07,  3.82s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:12<00:07,  3.81s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:12<00:07,  3.82s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:12<00:07,  3.82s/it]Loading checkpoint shards:  67%|██████▋   | 4/6 [00:12<00:07,  3.81s/it]Loading checkpoint shards:  50%|█████     | 3/6 [00:14<00:14,  4.99s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:17<00:04,  4.28s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:17<00:04,  4.29s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:17<00:04,  4.29s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:17<00:04,  4.29s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:17<00:04,  4.29s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:17<00:04,  4.30s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:17<00:04,  4.29s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:18<00:00,  3.16s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:18<00:00,  3.13s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:18<00:00,  3.17s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:18<00:00,  3.13s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:18<00:00,  3.17s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:18<00:00,  3.13s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:18<00:00,  3.16s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:18<00:00,  3.13s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:18<00:00,  3.17s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:18<00:00,  3.14s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:18<00:00,  3.17s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:18<00:00,  3.14s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:18<00:00,  3.18s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:18<00:00,  3.15s/it]
Loading checkpoint shards:  67%|██████▋   | 4/6 [00:19<00:09,  4.93s/it]Loading checkpoint shards:  83%|████████▎ | 5/6 [00:24<00:04,  4.93s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:26<00:00,  3.72s/it]Loading checkpoint shards: 100%|██████████| 6/6 [00:26<00:00,  4.34s/it]
[2025-06-03 16:15:06,403] [WARNING] [partition_parameters.py:836:_post_init_method] param `probe` in SiglipMultiheadAttentionPoolingHead not on GPU so was not broadcasted from rank 0
[2025-06-03 16:15:06,404] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.44B parameters
[2025-06-03 16:15:07,921] [INFO] [partition_parameters.py:453:__exit__] finished initializing model with 13.49B parameters
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
[dist-0-of-8] LlavaLlamaModel(
  (llm): LlamaForCausalLM(
    (model): LlamaModel(
      (embed_tokens): Embedding(32000, 5120, padding_idx=0)
      (layers): ModuleList(
        (0-39): 40 x LlamaDecoderLayer(
          (self_attn): LlamaFlashAttention2(
            (q_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (k_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (v_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (o_proj): Linear(in_features=5120, out_features=5120, bias=False)
            (rotary_emb): LlamaRotaryEmbedding()
          )
          (mlp): LlamaMLP(
            (gate_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (up_proj): Linear(in_features=5120, out_features=13824, bias=False)
            (down_proj): Linear(in_features=13824, out_features=5120, bias=False)
            (act_fn): SiLU()
          )
          (input_layernorm): LlamaRMSNorm()
          (post_attention_layernorm): LlamaRMSNorm()
        )
      )
      (norm): LlamaRMSNorm()
    )
    (lm_head): Linear(in_features=5120, out_features=32000, bias=False)
  )
  (vision_tower): SiglipVisionTower(
    (vision_tower): SiglipVisionModel(
      (vision_model): SiglipVisionTransformer(
        (embeddings): SiglipVisionEmbeddings(
          (patch_embedding): Conv2d(3, 1152, kernel_size=(14, 14), stride=(14, 14), padding=valid)
          (position_embedding): Embedding(729, 1152)
        )
        (encoder): SiglipEncoder(
          (layers): ModuleList(
            (0-26): 27 x SiglipEncoderLayer(
              (self_attn): SiglipAttention(
                (k_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (v_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (q_proj): Linear(in_features=1152, out_features=1152, bias=True)
                (out_proj): Linear(in_features=1152, out_features=1152, bias=True)
              )
              (layer_norm1): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
              (mlp): SiglipMLP(
                (activation_fn): PytorchGELUTanh()
                (fc1): Linear(in_features=1152, out_features=4304, bias=True)
                (fc2): Linear(in_features=4304, out_features=1152, bias=True)
              )
              (layer_norm2): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
            )
          )
        )
        (post_layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
        (head): SiglipMultiheadAttentionPoolingHead(
          (attention): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=1152, out_features=1152, bias=True)
          )
          (layernorm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
          (mlp): SiglipMLP(
            (activation_fn): PytorchGELUTanh()
            (fc1): Linear(in_features=1152, out_features=4304, bias=True)
            (fc2): Linear(in_features=4304, out_features=1152, bias=True)
          )
        )
      )
    )
  )
  (mm_projector): MultimodalProjector(
    (layers): Sequential(
      (0): DownSampleBlock()
      (1): LayerNorm((4608,), eps=1e-05, elementwise_affine=True)
      (2): Linear(in_features=4608, out_features=5120, bias=True)
      (3): GELU(approximate='none')
      (4): Linear(in_features=5120, out_features=5120, bias=True)
    )
  )
)
WARNING:root:You are setting tunable parameters for the model. Previous args include 'freeze_backbone' and 'tune_mm_mlp_adapter' are deprecated.
 Notice: default value of tune_xxx is False, which means you would not tune this part.
[dist-0-of-8] Tunable parameters:
language model True
[dist-0-of-8] vision tower True
[dist-0-of-8] mm projector True
[Dataset-INFO]: Loading from ['robopoint_1432k', 'austin_buds_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_buds_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sailor_dataset_converted_externally_to_rlds_tertiary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_primary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_secondary_path_mask', 'austin_sirius_dataset_converted_externally_to_rlds_tertiary_path_mask', 'bc_z_primary_path_mask', 'bc_z_secondary_path_mask', 'bc_z_tertiary_path_mask', 'berkeley_autolab_ur5_primary_path_mask', 'berkeley_autolab_ur5_secondary_path_mask', 'berkeley_autolab_ur5_tertiary_path_mask', 'berkeley_fanuc_manipulation_primary_path_mask', 'berkeley_fanuc_manipulation_secondary_path_mask', 'berkeley_fanuc_manipulation_tertiary_path_mask', 'bridge_v2_primary_path_mask', 'bridge_v2_secondary_path_mask', 'bridge_v2_tertiary_path_mask', 'cmu_stretch_primary_path_mask', 'cmu_stretch_secondary_path_mask', 'cmu_stretch_tertiary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_primary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_secondary_path_mask', 'dlr_edan_shared_control_converted_externally_to_rlds_tertiary_path_mask', 'droid_primary_path_mask', 'droid_secondary_path_mask', 'droid_tertiary_path_mask', 'fmb_primary_path_mask', 'fmb_secondary_path_mask', 'fmb_tertiary_path_mask', 'fractal20220817_data_primary_path_mask', 'fractal20220817_data_secondary_path_mask', 'fractal20220817_data_tertiary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_primary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_secondary_path_mask', 'iamlab_cmu_pickup_insert_converted_externally_to_rlds_tertiary_path_mask', 'jaco_play_primary_path_mask', 'jaco_play_secondary_path_mask', 'jaco_play_tertiary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_primary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_secondary_path_mask', 'nyu_franka_play_dataset_converted_externally_to_rlds_tertiary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_primary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_secondary_path_mask', 'stanford_hydra_dataset_converted_externally_to_rlds_tertiary_path_mask', 'taco_play_primary_path_mask', 'taco_play_secondary_path_mask', 'taco_play_tertiary_path_mask', 'toto_primary_path_mask', 'toto_secondary_path_mask', 'toto_tertiary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_primary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_secondary_path_mask', 'ucsd_kitchen_dataset_converted_externally_to_rlds_tertiary_path_mask', 'utaustin_mutex_primary_path_mask', 'utaustin_mutex_secondary_path_mask', 'utaustin_mutex_tertiary_path_mask', 'viola_primary_path_mask', 'viola_secondary_path_mask', 'viola_tertiary_path_mask']
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode


Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy modeFormatting inputs...Skip in lazy mode

Formatting inputs...Skip in lazy mode

WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
Formatting inputs...Skip in lazy mode
WARNING:root:Pay attention, split eval is not built...
length of dataloader: 13280 1700195
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.235877513885498
[GPU memory] before trainer 3.232436180114746
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2351698875427246
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2351150512695312
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.237833023071289
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2360010147094727
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.234835147857666
length of dataloader: 13280 1700195
[GPU memory] before trainer 3.2351560592651367
Parameter Offload: Total persistent parameters: 847296 in 365 params
wandb: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
wandb: Tracking run with wandb version 0.18.7
wandb: Run data is saved locally in /lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/wandb/run-20250603_161638-dqplhl83
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run vila_13b_path_mask
wandb: ⭐️ View project at https://wandb.ai/memmelma/VILA
wandb: 🚀 View run at https://wandb.ai/memmelma/VILA/runs/dqplhl83
  0%|          | 0/6640 [00:00<?, ?it/s]Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
Could not estimate the number of tokens of the input, floating-point operations will not be computed
 96%|█████████▋| 6401/6640 [00:34<00:01, 188.05it/s]                                                    {'loss': 0.523, 'learning_rate': 6.788937405461937e-08, 'epoch': 0.96}
 96%|█████████▋| 6401/6640 [00:34<00:01, 188.05it/s]                                                    {'loss': 0.5157, 'learning_rate': 6.732308763550022e-08, 'epoch': 0.96}
 96%|█████████▋| 6402/6640 [00:49<00:01, 188.05it/s] 96%|█████████▋| 6402/6640 [00:52<00:01, 188.05it/s] 96%|█████████▋| 6403/6640 [01:06<00:02, 80.25it/s]                                                    {'loss': 0.4975, 'learning_rate': 6.675916492702717e-08, 'epoch': 0.96}
 96%|█████████▋| 6403/6640 [01:06<00:02, 80.25it/s] 96%|█████████▋| 6404/6640 [01:22<00:04, 56.89it/s]                                                   {'loss': 0.5526, 'learning_rate': 6.619760606339731e-08, 'epoch': 0.96}
 96%|█████████▋| 6404/6640 [01:22<00:04, 56.89it/s] 96%|█████████▋| 6405/6640 [01:38<00:05, 39.84it/s]                                                   {'loss': 0.4991, 'learning_rate': 6.56384111782482e-08, 'epoch': 0.96}
 96%|█████████▋| 6405/6640 [01:38<00:05, 39.84it/s] 96%|█████████▋| 6406/6640 [01:54<00:08, 28.12it/s]                                                   {'loss': 0.5042, 'learning_rate': 6.508158040465118e-08, 'epoch': 0.96}
 96%|█████████▋| 6406/6640 [01:54<00:08, 28.12it/s] 96%|█████████▋| 6407/6640 [02:10<00:11, 19.82it/s]                                                   {'loss': 0.4804, 'learning_rate': 6.452711387511912e-08, 'epoch': 0.96}
 96%|█████████▋| 6407/6640 [02:10<00:11, 19.82it/s] 97%|█████████▋| 6408/6640 [02:27<00:16, 13.85it/s]                                                   {'loss': 0.5099, 'learning_rate': 6.39750117215987e-08, 'epoch': 0.97}
 97%|█████████▋| 6408/6640 [02:27<00:16, 13.85it/s] 97%|█████████▋| 6409/6640 [02:43<00:23,  9.82it/s]                                                   {'loss': 0.5119, 'learning_rate': 6.342527407547594e-08, 'epoch': 0.97}
 97%|█████████▋| 6409/6640 [02:43<00:23,  9.82it/s] 97%|█████████▋| 6410/6640 [02:59<00:33,  6.87it/s]                                                   {'loss': 0.512, 'learning_rate': 6.287790106757396e-08, 'epoch': 0.97}
 97%|█████████▋| 6410/6640 [02:59<00:33,  6.87it/s] 97%|█████████▋| 6411/6640 [03:16<00:48,  4.74it/s]                                                   {'loss': 0.4958, 'learning_rate': 6.233289282815302e-08, 'epoch': 0.97}
 97%|█████████▋| 6411/6640 [03:16<00:48,  4.74it/s] 97%|█████████▋| 6412/6640 [03:33<01:08,  3.31it/s]                                                   {'loss': 0.5011, 'learning_rate': 6.179024948690938e-08, 'epoch': 0.97}
 97%|█████████▋| 6412/6640 [03:33<01:08,  3.31it/s] 97%|█████████▋| 6413/6640 [03:49<01:36,  2.36it/s]                                                   {'loss': 0.5121, 'learning_rate': 6.124997117297859e-08, 'epoch': 0.97}
 97%|█████████▋| 6413/6640 [03:49<01:36,  2.36it/s] 97%|█████████▋| 6414/6640 [04:05<02:14,  1.69it/s]                                                   {'loss': 0.5089, 'learning_rate': 6.07120580149323e-08, 'epoch': 0.97}
 97%|█████████▋| 6414/6640 [04:05<02:14,  1.69it/s] 97%|█████████▋| 6415/6640 [04:22<03:08,  1.19it/s]                                                   {'loss': 0.5012, 'learning_rate': 6.017651014077807e-08, 'epoch': 0.97}
 97%|█████████▋| 6415/6640 [04:22<03:08,  1.19it/s] 97%|█████████▋| 6416/6640 [04:39<04:25,  1.18s/it]                                                   {'loss': 0.5189, 'learning_rate': 5.964332767796399e-08, 'epoch': 0.97}
 97%|█████████▋| 6416/6640 [04:39<04:25,  1.18s/it] 97%|█████████▋| 6417/6640 [04:56<06:09,  1.66s/it]                                                   {'loss': 0.4993, 'learning_rate': 5.911251075337188e-08, 'epoch': 0.97}
 97%|█████████▋| 6417/6640 [04:56<06:09,  1.66s/it] 97%|█████████▋| 6418/6640 [05:12<08:12,  2.22s/it]                                                   {'loss': 0.5384, 'learning_rate': 5.85840594933218e-08, 'epoch': 0.97}
 97%|█████████▋| 6418/6640 [05:12<08:12,  2.22s/it] 97%|█████████▋| 6419/6640 [05:28<11:07,  3.02s/it]                                                   {'loss': 0.5156, 'learning_rate': 5.805797402357205e-08, 'epoch': 0.97}
 97%|█████████▋| 6419/6640 [05:28<11:07,  3.02s/it] 97%|█████████▋| 6420/6640 [05:44<14:31,  3.96s/it]                                                   {'loss': 0.5013, 'learning_rate': 5.753425446931582e-08, 'epoch': 0.97}
 97%|█████████▋| 6420/6640 [05:44<14:31,  3.96s/it] 97%|█████████▋| 6421/6640 [06:01<18:50,  5.16s/it]                                                   {'loss': 0.5062, 'learning_rate': 5.701290095518564e-08, 'epoch': 0.97}
 97%|█████████▋| 6421/6640 [06:01<18:50,  5.16s/it] 97%|█████████▋| 6422/6640 [06:17<23:28,  6.46s/it]                                                   {'loss': 0.5155, 'learning_rate': 5.6493913605246696e-08, 'epoch': 0.97}
 97%|█████████▋| 6422/6640 [06:17<23:28,  6.46s/it] 97%|█████████▋| 6423/6640 [06:34<28:54,  7.99s/it]                                                   {'loss': 0.4868, 'learning_rate': 5.5977292543007987e-08, 'epoch': 0.97}
 97%|█████████▋| 6423/6640 [06:34<28:54,  7.99s/it] 97%|█████████▋| 6424/6640 [06:52<34:43,  9.64s/it]                                                   {'loss': 0.5115, 'learning_rate': 5.5463037891408944e-08, 'epoch': 0.97}
 97%|█████████▋| 6424/6640 [06:52<34:43,  9.64s/it] 97%|█████████▋| 6425/6640 [07:09<39:31, 11.03s/it]                                                   {'loss': 0.5168, 'learning_rate': 5.495114977282945e-08, 'epoch': 0.97}
 97%|█████████▋| 6425/6640 [07:09<39:31, 11.03s/it] 97%|█████████▋| 6426/6640 [07:25<43:41, 12.25s/it]                                                   {'loss': 0.4909, 'learning_rate': 5.444162830908428e-08, 'epoch': 0.97}
 97%|█████████▋| 6426/6640 [07:25<43:41, 12.25s/it] 97%|█████████▋| 6427/6640 [07:41<46:28, 13.09s/it]                                                   {'loss': 0.5174, 'learning_rate': 5.393447362142645e-08, 'epoch': 0.97}
 97%|█████████▋| 6427/6640 [07:41<46:28, 13.09s/it] 97%|█████████▋| 6428/6640 [07:58<49:30, 14.01s/it]                                                   {'loss': 0.4927, 'learning_rate': 5.342968583054497e-08, 'epoch': 0.97}
 97%|█████████▋| 6428/6640 [07:58<49:30, 14.01s/it] 97%|█████████▋| 6429/6640 [08:14<51:01, 14.51s/it]                                                   {'loss': 0.5188, 'learning_rate': 5.292726505656598e-08, 'epoch': 0.97}
 97%|█████████▋| 6429/6640 [08:14<51:01, 14.51s/it] 97%|█████████▋| 6430/6640 [08:30<52:08, 14.90s/it]                                                   {'loss': 0.5093, 'learning_rate': 5.2427211419051605e-08, 'epoch': 0.97}
 97%|█████████▋| 6430/6640 [08:30<52:08, 14.90s/it] 97%|█████████▋| 6431/6640 [08:45<52:57, 15.20s/it]                                                   {'loss': 0.5159, 'learning_rate': 5.192952503700222e-08, 'epoch': 0.97}
 97%|█████████▋| 6431/6640 [08:45<52:57, 15.20s/it] 97%|█████████▋| 6432/6640 [09:02<53:53, 15.55s/it]                                                   {'loss': 0.5065, 'learning_rate': 5.1434206028853074e-08, 'epoch': 0.97}
 97%|█████████▋| 6432/6640 [09:02<53:53, 15.55s/it] 97%|█████████▋| 6433/6640 [09:19<55:32, 16.10s/it]                                                   {'loss': 0.4901, 'learning_rate': 5.094125451247656e-08, 'epoch': 0.97}
 97%|█████████▋| 6433/6640 [09:19<55:32, 16.10s/it] 97%|█████████▋| 6434/6640 [09:36<56:14, 16.38s/it]                                                   {'loss': 0.4996, 'learning_rate': 5.0450670605182165e-08, 'epoch': 0.97}
 97%|█████████▋| 6434/6640 [09:36<56:14, 16.38s/it] 97%|█████████▋| 6435/6640 [09:52<55:06, 16.13s/it]                                                   {'loss': 0.5278, 'learning_rate': 4.99624544237165e-08, 'epoch': 0.97}
 97%|█████████▋| 6435/6640 [09:52<55:06, 16.13s/it] 97%|█████████▋| 6436/6640 [10:08<54:48, 16.12s/it]                                                   {'loss': 0.5051, 'learning_rate': 4.947660608426108e-08, 'epoch': 0.97}
 97%|█████████▋| 6436/6640 [10:08<54:48, 16.12s/it] 97%|█████████▋| 6437/6640 [10:25<55:16, 16.34s/it]                                                   {'loss': 0.5063, 'learning_rate': 4.899312570243453e-08, 'epoch': 0.97}
 97%|█████████▋| 6437/6640 [10:25<55:16, 16.34s/it] 97%|█████████▋| 6438/6640 [10:41<54:33, 16.21s/it]                                                   {'loss': 0.4972, 'learning_rate': 4.851201339329259e-08, 'epoch': 0.97}
 97%|█████████▋| 6438/6640 [10:41<54:33, 16.21s/it] 97%|█████████▋| 6439/6640 [10:57<54:07, 16.15s/it]                                                   {'loss': 0.4946, 'learning_rate': 4.803326927132812e-08, 'epoch': 0.97}
 97%|█████████▋| 6439/6640 [10:57<54:07, 16.15s/it] 97%|█████████▋| 6440/6640 [11:13<53:36, 16.08s/it]                                                   {'loss': 0.5094, 'learning_rate': 4.7556893450466656e-08, 'epoch': 0.97}
 97%|█████████▋| 6440/6640 [11:13<53:36, 16.08s/it] 97%|█████████▋| 6441/6640 [11:29<53:59, 16.28s/it]                                                   {'loss': 0.5075, 'learning_rate': 4.70828860440764e-08, 'epoch': 0.97}
 97%|█████████▋| 6441/6640 [11:29<53:59, 16.28s/it] 97%|█████████▋| 6442/6640 [11:46<53:48, 16.31s/it]                                                   {'loss': 0.5023, 'learning_rate': 4.661124716495602e-08, 'epoch': 0.97}
 97%|█████████▋| 6442/6640 [11:46<53:48, 16.31s/it] 97%|█████████▋| 6443/6640 [12:03<54:00, 16.45s/it]                                                   {'loss': 0.5266, 'learning_rate': 4.61419769253435e-08, 'epoch': 0.97}
 97%|█████████▋| 6443/6640 [12:03<54:00, 16.45s/it] 97%|█████████▋| 6444/6640 [12:19<53:37, 16.41s/it]                                                   {'loss': 0.5018, 'learning_rate': 4.567507543691174e-08, 'epoch': 0.97}
 97%|█████████▋| 6444/6640 [12:19<53:37, 16.41s/it] 97%|█████████▋| 6445/6640 [12:35<53:16, 16.39s/it]                                                   {'loss': 0.4861, 'learning_rate': 4.5210542810771864e-08, 'epoch': 0.97}
 97%|█████████▋| 6445/6640 [12:35<53:16, 16.39s/it] 97%|█████████▋| 6446/6640 [12:51<52:04, 16.11s/it]                                                   {'loss': 0.5356, 'learning_rate': 4.474837915747099e-08, 'epoch': 0.97}
 97%|█████████▋| 6446/6640 [12:51<52:04, 16.11s/it] 97%|█████████▋| 6447/6640 [13:07<51:46, 16.09s/it]                                                   {'loss': 0.4915, 'learning_rate': 4.4288584586990034e-08, 'epoch': 0.97}
 97%|█████████▋| 6447/6640 [13:07<51:46, 16.09s/it] 97%|█████████▋| 6448/6640 [13:23<51:17, 16.03s/it]                                                   {'loss': 0.5016, 'learning_rate': 4.3831159208748145e-08, 'epoch': 0.97}
 97%|█████████▋| 6448/6640 [13:23<51:17, 16.03s/it] 97%|█████████▋| 6449/6640 [13:39<51:27, 16.16s/it]                                                   {'loss': 0.4928, 'learning_rate': 4.337610313159935e-08, 'epoch': 0.97}
 97%|█████████▋| 6449/6640 [13:39<51:27, 16.16s/it]0 AutoResumeHook: Checking whether to suspend...
4 AutoResumeHook: Checking whether to suspend...
 97%|█████████▋| 6450/6640 [13:55<50:42, 16.01s/it]56 AutoResumeHook: Checking whether to suspend...
 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
                                                   {'loss': 0.519, 'learning_rate': 4.292341646383813e-08, 'epoch': 0.97}
 97%|█████████▋| 6450/6640 [13:55<50:42, 16.01s/it] 97%|█████████▋| 6451/6640 [14:11<50:37, 16.07s/it]                                                   {'loss': 0.5129, 'learning_rate': 4.247309931318722e-08, 'epoch': 0.97}
 97%|█████████▋| 6451/6640 [14:11<50:37, 16.07s/it] 97%|█████████▋| 6452/6640 [14:27<50:09, 16.01s/it]                                                   {'loss': 0.5079, 'learning_rate': 4.202515178681421e-08, 'epoch': 0.97}
 97%|█████████▋| 6452/6640 [14:27<50:09, 16.01s/it] 97%|█████████▋| 6453/6640 [14:44<50:35, 16.23s/it]                                                   {'loss': 0.5304, 'learning_rate': 4.157957399131607e-08, 'epoch': 0.97}
 97%|█████████▋| 6453/6640 [14:44<50:35, 16.23s/it] 97%|█████████▋| 6454/6640 [15:00<50:20, 16.24s/it]                                                   {'loss': 0.527, 'learning_rate': 4.113636603272797e-08, 'epoch': 0.97}
 97%|█████████▋| 6454/6640 [15:00<50:20, 16.24s/it] 97%|█████████▋| 6455/6640 [15:16<49:39, 16.10s/it]                                                   {'loss': 0.4933, 'learning_rate': 4.069552801652443e-08, 'epoch': 0.97}
 97%|█████████▋| 6455/6640 [15:16<49:39, 16.10s/it] 97%|█████████▋| 6456/6640 [15:32<49:15, 16.06s/it]                                                   {'loss': 0.4969, 'learning_rate': 4.025706004760932e-08, 'epoch': 0.97}
 97%|█████████▋| 6456/6640 [15:32<49:15, 16.06s/it] 97%|█████████▋| 6457/6640 [15:48<49:36, 16.26s/it]                                                   {'loss': 0.5149, 'learning_rate': 3.982096223032916e-08, 'epoch': 0.97}
 97%|█████████▋| 6457/6640 [15:48<49:36, 16.26s/it] 97%|█████████▋| 6458/6640 [16:05<49:51, 16.44s/it]                                                   {'loss': 0.5217, 'learning_rate': 3.938723466846206e-08, 'epoch': 0.97}
 97%|█████████▋| 6458/6640 [16:05<49:51, 16.44s/it] 97%|█████████▋| 6459/6640 [16:21<49:23, 16.37s/it]                                                   {'loss': 0.5107, 'learning_rate': 3.8955877465224335e-08, 'epoch': 0.97}
 97%|█████████▋| 6459/6640 [16:21<49:23, 16.37s/it] 97%|█████████▋| 6460/6640 [16:37<48:31, 16.18s/it]                                                   {'loss': 0.505, 'learning_rate': 3.852689072326832e-08, 'epoch': 0.97}
 97%|█████████▋| 6460/6640 [16:37<48:31, 16.18s/it] 97%|█████████▋| 6461/6640 [16:54<48:41, 16.32s/it]                                                   {'loss': 0.5112, 'learning_rate': 3.8100274544677904e-08, 'epoch': 0.97}
 97%|█████████▋| 6461/6640 [16:54<48:41, 16.32s/it] 97%|█████████▋| 6462/6640 [17:10<48:38, 16.39s/it]                                                   {'loss': 0.5117, 'learning_rate': 3.7676029030979666e-08, 'epoch': 0.97}
 97%|█████████▋| 6462/6640 [17:10<48:38, 16.39s/it] 97%|█████████▋| 6463/6640 [17:27<48:12, 16.34s/it]                                                   {'loss': 0.4978, 'learning_rate': 3.725415428313173e-08, 'epoch': 0.97}
 97%|█████████▋| 6463/6640 [17:27<48:12, 16.34s/it] 97%|█████████▋| 6464/6640 [17:43<47:49, 16.30s/it]                                                   {'loss': 0.5108, 'learning_rate': 3.6834650401528226e-08, 'epoch': 0.97}
 97%|█████████▋| 6464/6640 [17:43<47:49, 16.30s/it] 97%|█████████▋| 6465/6640 [17:59<47:21, 16.24s/it]                                                   {'loss': 0.5387, 'learning_rate': 3.641751748600042e-08, 'epoch': 0.97}
 97%|█████████▋| 6465/6640 [17:59<47:21, 16.24s/it] 97%|█████████▋| 6466/6640 [18:16<47:38, 16.43s/it]                                                   {'loss': 0.5137, 'learning_rate': 3.6002755635814455e-08, 'epoch': 0.97}
 97%|█████████▋| 6466/6640 [18:16<47:38, 16.43s/it] 97%|█████████▋| 6467/6640 [18:33<47:48, 16.58s/it]                                                   {'loss': 0.5124, 'learning_rate': 3.5590364949672495e-08, 'epoch': 0.97}
 97%|█████████▋| 6467/6640 [18:33<47:48, 16.58s/it] 97%|█████████▋| 6468/6640 [18:48<46:48, 16.33s/it]                                                   {'loss': 0.5171, 'learning_rate': 3.51803455257127e-08, 'epoch': 0.97}
 97%|█████████▋| 6468/6640 [18:48<46:48, 16.33s/it] 97%|█████████▋| 6469/6640 [19:05<46:50, 16.44s/it]                                                   {'loss': 0.5154, 'learning_rate': 3.477269746150924e-08, 'epoch': 0.97}
 97%|█████████▋| 6469/6640 [19:05<46:50, 16.44s/it] 97%|█████████▋| 6470/6640 [19:21<46:24, 16.38s/it]                                                   {'loss': 0.5106, 'learning_rate': 3.436742085407119e-08, 'epoch': 0.97}
 97%|█████████▋| 6470/6640 [19:21<46:24, 16.38s/it] 97%|█████████▋| 6471/6640 [19:38<46:42, 16.58s/it]                                                   {'loss': 0.502, 'learning_rate': 3.39645157998425e-08, 'epoch': 0.97}
 97%|█████████▋| 6471/6640 [19:38<46:42, 16.58s/it] 97%|█████████▋| 6472/6640 [19:56<46:53, 16.75s/it]                                                   {'loss': 0.5173, 'learning_rate': 3.356398239470427e-08, 'epoch': 0.97}
 97%|█████████▋| 6472/6640 [19:56<46:53, 16.75s/it] 97%|█████████▋| 6473/6640 [20:12<45:59, 16.53s/it]                                                   {'loss': 0.5119, 'learning_rate': 3.3165820733973566e-08, 'epoch': 0.97}
 97%|█████████▋| 6473/6640 [20:12<45:59, 16.53s/it] 98%|█████████▊| 6474/6640 [20:28<45:53, 16.58s/it]                                                   {'loss': 0.5078, 'learning_rate': 3.277003091240128e-08, 'epoch': 0.97}
 98%|█████████▊| 6474/6640 [20:28<45:53, 16.58s/it] 98%|█████████▊| 6475/6640 [20:45<45:32, 16.56s/it]                                                   {'loss': 0.5119, 'learning_rate': 3.2376613024175384e-08, 'epoch': 0.98}
 98%|█████████▊| 6475/6640 [20:45<45:32, 16.56s/it] 98%|█████████▊| 6476/6640 [21:01<45:18, 16.58s/it]                                                   {'loss': 0.5209, 'learning_rate': 3.198556716291767e-08, 'epoch': 0.98}
 98%|█████████▊| 6476/6640 [21:01<45:18, 16.58s/it] 98%|█████████▊| 6477/6640 [21:18<44:57, 16.55s/it]                                                   {'loss': 0.499, 'learning_rate': 3.159689342168704e-08, 'epoch': 0.98}
 98%|█████████▊| 6477/6640 [21:18<44:57, 16.55s/it] 98%|█████████▊| 6478/6640 [21:34<44:34, 16.51s/it]                                                   {'loss': 0.5, 'learning_rate': 3.121059189297837e-08, 'epoch': 0.98}
 98%|█████████▊| 6478/6640 [21:34<44:34, 16.51s/it] 98%|█████████▊| 6479/6640 [21:51<44:09, 16.45s/it]                                                   {'loss': 0.5024, 'learning_rate': 3.082666266872036e-08, 'epoch': 0.98}
 98%|█████████▊| 6479/6640 [21:51<44:09, 16.45s/it] 98%|█████████▊| 6480/6640 [22:07<43:38, 16.36s/it]                                                   {'loss': 0.5055, 'learning_rate': 3.044510584027771e-08, 'epoch': 0.98}
 98%|█████████▊| 6480/6640 [22:07<43:38, 16.36s/it] 98%|█████████▊| 6481/6640 [22:23<42:56, 16.21s/it]                                                   {'loss': 0.5108, 'learning_rate': 3.0065921498451113e-08, 'epoch': 0.98}
 98%|█████████▊| 6481/6640 [22:23<42:56, 16.21s/it] 98%|█████████▊| 6482/6640 [22:39<42:51, 16.28s/it]                                                   {'loss': 0.5293, 'learning_rate': 2.9689109733475052e-08, 'epoch': 0.98}
 98%|█████████▊| 6482/6640 [22:39<42:51, 16.28s/it] 98%|█████████▊| 6483/6640 [22:55<42:28, 16.23s/it]                                                   {'loss': 0.5009, 'learning_rate': 2.9314670635022247e-08, 'epoch': 0.98}
 98%|█████████▊| 6483/6640 [22:55<42:28, 16.23s/it] 98%|█████████▊| 6484/6640 [23:12<42:28, 16.34s/it]                                                   {'loss': 0.5418, 'learning_rate': 2.8942604292199195e-08, 'epoch': 0.98}
 98%|█████████▊| 6484/6640 [23:12<42:28, 16.34s/it] 98%|█████████▊| 6485/6640 [23:28<42:02, 16.27s/it]                                                   {'loss': 0.5079, 'learning_rate': 2.8572910793546183e-08, 'epoch': 0.98}
 98%|█████████▊| 6485/6640 [23:28<42:02, 16.27s/it] 98%|█████████▊| 6486/6640 [23:45<42:37, 16.61s/it]                                                   {'loss': 0.4945, 'learning_rate': 2.8205590227040613e-08, 'epoch': 0.98}
 98%|█████████▊| 6486/6640 [23:45<42:37, 16.61s/it] 98%|█████████▊| 6487/6640 [24:01<41:55, 16.44s/it]                                                   {'loss': 0.5064, 'learning_rate': 2.7840642680097007e-08, 'epoch': 0.98}
 98%|█████████▊| 6487/6640 [24:01<41:55, 16.44s/it] 98%|█████████▊| 6488/6640 [24:17<41:22, 16.33s/it]                                                   {'loss': 0.5025, 'learning_rate': 2.747806823956034e-08, 'epoch': 0.98}
 98%|█████████▊| 6488/6640 [24:17<41:22, 16.33s/it] 98%|█████████▊| 6489/6640 [24:35<41:42, 16.57s/it]                                                   {'loss': 0.5052, 'learning_rate': 2.7117866991714925e-08, 'epoch': 0.98}
 98%|█████████▊| 6489/6640 [24:35<41:42, 16.57s/it] 98%|█████████▊| 6490/6640 [24:51<41:09, 16.47s/it]                                                   {'loss': 0.5073, 'learning_rate': 2.676003902227886e-08, 'epoch': 0.98}
 98%|█████████▊| 6490/6640 [24:51<41:09, 16.47s/it] 98%|█████████▊| 6491/6640 [25:07<40:28, 16.30s/it]                                                   {'loss': 0.4984, 'learning_rate': 2.6404584416406254e-08, 'epoch': 0.98}
 98%|█████████▊| 6491/6640 [25:07<40:28, 16.30s/it] 98%|█████████▊| 6492/6640 [25:24<40:55, 16.59s/it]                                                   {'loss': 0.4917, 'learning_rate': 2.6051503258684995e-08, 'epoch': 0.98}
 98%|█████████▊| 6492/6640 [25:24<40:55, 16.59s/it] 98%|█████████▊| 6493/6640 [25:41<41:09, 16.80s/it]                                                   {'loss': 0.5169, 'learning_rate': 2.5700795633138987e-08, 'epoch': 0.98}
 98%|█████████▊| 6493/6640 [25:41<41:09, 16.80s/it] 98%|█████████▊| 6494/6640 [25:58<41:04, 16.88s/it]                                                   {'loss': 0.5171, 'learning_rate': 2.535246162322702e-08, 'epoch': 0.98}
 98%|█████████▊| 6494/6640 [25:58<41:04, 16.88s/it] 98%|█████████▊| 6495/6640 [26:14<40:09, 16.62s/it]                                                   {'loss': 0.5056, 'learning_rate': 2.50065013118439e-08, 'epoch': 0.98}
 98%|█████████▊| 6495/6640 [26:14<40:09, 16.62s/it] 98%|█████████▊| 6496/6640 [26:30<39:31, 16.47s/it]                                                   {'loss': 0.5141, 'learning_rate': 2.4662914781318215e-08, 'epoch': 0.98}
 98%|█████████▊| 6496/6640 [26:30<39:31, 16.47s/it] 98%|█████████▊| 6497/6640 [26:46<38:38, 16.21s/it]                                                   {'loss': 0.507, 'learning_rate': 2.432170211341567e-08, 'epoch': 0.98}
 98%|█████████▊| 6497/6640 [26:46<38:38, 16.21s/it] 98%|█████████▊| 6498/6640 [27:03<38:57, 16.46s/it]                                                   {'loss': 0.5323, 'learning_rate': 2.3982863389333532e-08, 'epoch': 0.98}
 98%|█████████▊| 6498/6640 [27:03<38:57, 16.46s/it] 98%|█████████▊| 6499/6640 [27:20<39:10, 16.67s/it]                                                   {'loss': 0.5149, 'learning_rate': 2.3646398689707307e-08, 'epoch': 0.98}
 98%|█████████▊| 6499/6640 [27:20<39:10, 16.67s/it]2 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
03 AutoResumeHook: Checking whether to suspend...
 4 AutoResumeHook: Checking whether to suspend...AutoResumeHook: Checking whether to suspend...

1 AutoResumeHook: Checking whether to suspend...
 98%|█████████▊| 6500/6640 [27:37<39:01, 16.72s/it]5 AutoResumeHook: Checking whether to suspend...
                                                   {'loss': 0.5108, 'learning_rate': 2.3312308094607382e-08, 'epoch': 0.98}
 98%|█████████▊| 6500/6640 [27:37<39:01, 16.72s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6500/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6500/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6500/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 98%|█████████▊| 6501/6640 [29:37<1:50:12, 47.57s/it]                                                     {'loss': 0.5144, 'learning_rate': 2.2980591683539056e-08, 'epoch': 0.98}
 98%|█████████▊| 6501/6640 [29:37<1:50:12, 47.57s/it] 98%|█████████▊| 6502/6640 [29:52<1:27:31, 38.06s/it]                                                     {'loss': 0.4989, 'learning_rate': 2.265124953543918e-08, 'epoch': 0.98}
 98%|█████████▊| 6502/6640 [29:52<1:27:31, 38.06s/it] 98%|█████████▊| 6503/6640 [30:09<1:11:50, 31.46s/it]                                                     {'loss': 0.5067, 'learning_rate': 2.232428172868395e-08, 'epoch': 0.98}
 98%|█████████▊| 6503/6640 [30:09<1:11:50, 31.46s/it] 98%|█████████▊| 6504/6640 [30:25<1:00:57, 26.89s/it]                                                     {'loss': 0.4903, 'learning_rate': 2.1999688341083348e-08, 'epoch': 0.98}
 98%|█████████▊| 6504/6640 [30:25<1:00:57, 26.89s/it] 98%|█████████▊| 6505/6640 [30:41<53:02, 23.57s/it]                                                     {'loss': 0.5108, 'learning_rate': 2.167746944988114e-08, 'epoch': 0.98}
 98%|█████████▊| 6505/6640 [30:41<53:02, 23.57s/it] 98%|█████████▊| 6506/6640 [30:57<47:39, 21.34s/it]                                                   {'loss': 0.5159, 'learning_rate': 2.135762513175599e-08, 'epoch': 0.98}
 98%|█████████▊| 6506/6640 [30:57<47:39, 21.34s/it] 98%|█████████▊| 6507/6640 [31:13<43:51, 19.78s/it]                                                   {'loss': 0.4905, 'learning_rate': 2.1040155462824786e-08, 'epoch': 0.98}
 98%|█████████▊| 6507/6640 [31:13<43:51, 19.78s/it] 98%|█████████▊| 6508/6640 [31:30<41:41, 18.95s/it]                                                   {'loss': 0.516, 'learning_rate': 2.0725060518633765e-08, 'epoch': 0.98}
 98%|█████████▊| 6508/6640 [31:30<41:41, 18.95s/it] 98%|█████████▊| 6509/6640 [31:46<39:34, 18.13s/it]                                                   {'loss': 0.5241, 'learning_rate': 2.0412340374169615e-08, 'epoch': 0.98}
 98%|█████████▊| 6509/6640 [31:46<39:34, 18.13s/it] 98%|█████████▊| 6510/6640 [32:02<37:43, 17.41s/it]                                                   {'loss': 0.5362, 'learning_rate': 2.010199510385058e-08, 'epoch': 0.98}
 98%|█████████▊| 6510/6640 [32:02<37:43, 17.41s/it] 98%|█████████▊| 6511/6640 [32:18<36:25, 16.94s/it]                                                   {'loss': 0.519, 'learning_rate': 1.9794024781529808e-08, 'epoch': 0.98}
 98%|█████████▊| 6511/6640 [32:18<36:25, 16.94s/it] 98%|█████████▊| 6512/6640 [32:35<36:19, 17.03s/it]                                                   {'loss': 0.5127, 'learning_rate': 1.948842948049534e-08, 'epoch': 0.98}
 98%|█████████▊| 6512/6640 [32:35<36:19, 17.03s/it] 98%|█████████▊| 6513/6640 [32:51<35:35, 16.81s/it]                                                   {'loss': 0.5035, 'learning_rate': 1.9185209273473448e-08, 'epoch': 0.98}
 98%|█████████▊| 6513/6640 [32:51<35:35, 16.81s/it] 98%|█████████▊| 6514/6640 [33:07<34:44, 16.54s/it]                                                   {'loss': 0.5257, 'learning_rate': 1.8884364232619744e-08, 'epoch': 0.98}
 98%|█████████▊| 6514/6640 [33:07<34:44, 16.54s/it] 98%|█████████▊| 6515/6640 [33:24<34:40, 16.64s/it]                                                   {'loss': 0.5338, 'learning_rate': 1.8585894429528073e-08, 'epoch': 0.98}
 98%|█████████▊| 6515/6640 [33:24<34:40, 16.64s/it] 98%|█████████▊| 6516/6640 [33:40<33:50, 16.37s/it]                                                   {'loss': 0.5043, 'learning_rate': 1.828979993522717e-08, 'epoch': 0.98}
 98%|█████████▊| 6516/6640 [33:40<33:50, 16.37s/it] 98%|█████████▊| 6517/6640 [33:56<33:37, 16.40s/it]                                                   {'loss': 0.4921, 'learning_rate': 1.7996080820178453e-08, 'epoch': 0.98}
 98%|█████████▊| 6517/6640 [33:56<33:37, 16.40s/it] 98%|█████████▊| 6518/6640 [34:13<33:19, 16.39s/it]                                                   {'loss': 0.5095, 'learning_rate': 1.770473715427934e-08, 'epoch': 0.98}
 98%|█████████▊| 6518/6640 [34:13<33:19, 16.39s/it] 98%|█████████▊| 6519/6640 [34:29<33:10, 16.45s/it]                                                   {'loss': 0.5102, 'learning_rate': 1.741576900686215e-08, 'epoch': 0.98}
 98%|█████████▊| 6519/6640 [34:29<33:10, 16.45s/it] 98%|█████████▊| 6520/6640 [34:45<32:48, 16.41s/it]                                                   {'loss': 0.5125, 'learning_rate': 1.7129176446692986e-08, 'epoch': 0.98}
 98%|█████████▊| 6520/6640 [34:45<32:48, 16.41s/it] 98%|█████████▊| 6521/6640 [35:02<32:35, 16.44s/it]                                                   {'loss': 0.519, 'learning_rate': 1.6844959541973958e-08, 'epoch': 0.98}
 98%|█████████▊| 6521/6640 [35:02<32:35, 16.44s/it] 98%|█████████▊| 6522/6640 [35:18<32:11, 16.37s/it]                                                   {'loss': 0.5002, 'learning_rate': 1.6563118360339858e-08, 'epoch': 0.98}
 98%|█████████▊| 6522/6640 [35:18<32:11, 16.37s/it] 98%|█████████▊| 6523/6640 [35:35<32:13, 16.52s/it]                                                   {'loss': 0.5055, 'learning_rate': 1.6283652968863695e-08, 'epoch': 0.98}
 98%|█████████▊| 6523/6640 [35:35<32:13, 16.52s/it] 98%|█████████▊| 6524/6640 [35:52<31:55, 16.51s/it]                                                   {'loss': 0.5068, 'learning_rate': 1.6006563434047828e-08, 'epoch': 0.98}
 98%|█████████▊| 6524/6640 [35:52<31:55, 16.51s/it] 98%|█████████▊| 6525/6640 [36:08<31:21, 16.36s/it]                                                   {'loss': 0.5203, 'learning_rate': 1.5731849821833955e-08, 'epoch': 0.98}
 98%|█████████▊| 6525/6640 [36:08<31:21, 16.36s/it] 98%|█████████▊| 6526/6640 [36:24<31:08, 16.39s/it]                                                   {'loss': 0.5068, 'learning_rate': 1.545951219759645e-08, 'epoch': 0.98}
 98%|█████████▊| 6526/6640 [36:24<31:08, 16.39s/it] 98%|█████████▊| 6527/6640 [36:40<30:49, 16.37s/it]                                                   {'loss': 0.4787, 'learning_rate': 1.5189550626144577e-08, 'epoch': 0.98}
 98%|█████████▊| 6527/6640 [36:40<30:49, 16.37s/it] 98%|█████████▊| 6528/6640 [36:57<30:41, 16.44s/it]                                                   {'loss': 0.5107, 'learning_rate': 1.4921965171720288e-08, 'epoch': 0.98}
 98%|█████████▊| 6528/6640 [36:57<30:41, 16.44s/it] 98%|█████████▊| 6529/6640 [37:14<30:43, 16.61s/it]                                                   {'loss': 0.5086, 'learning_rate': 1.465675589800375e-08, 'epoch': 0.98}
 98%|█████████▊| 6529/6640 [37:14<30:43, 16.61s/it] 98%|█████████▊| 6530/6640 [37:30<29:54, 16.32s/it]                                                   {'loss': 0.4978, 'learning_rate': 1.4393922868105591e-08, 'epoch': 0.98}
 98%|█████████▊| 6530/6640 [37:30<29:54, 16.32s/it] 98%|█████████▊| 6531/6640 [37:46<29:38, 16.31s/it]                                                   {'loss': 0.5117, 'learning_rate': 1.413346614457467e-08, 'epoch': 0.98}
 98%|█████████▊| 6531/6640 [37:46<29:38, 16.31s/it] 98%|█████████▊| 6532/6640 [38:02<29:05, 16.17s/it]                                                   {'loss': 0.5139, 'learning_rate': 1.3875385789392514e-08, 'epoch': 0.98}
 98%|█████████▊| 6532/6640 [38:02<29:05, 16.17s/it] 98%|█████████▊| 6533/6640 [38:18<28:54, 16.21s/it]                                                   {'loss': 0.5229, 'learning_rate': 1.3619681863974443e-08, 'epoch': 0.98}
 98%|█████████▊| 6533/6640 [38:18<28:54, 16.21s/it] 98%|█████████▊| 6534/6640 [38:35<28:50, 16.32s/it]                                                   {'loss': 0.5322, 'learning_rate': 1.336635442917289e-08, 'epoch': 0.98}
 98%|█████████▊| 6534/6640 [38:35<28:50, 16.32s/it] 98%|█████████▊| 6535/6640 [38:50<28:08, 16.09s/it]                                                   {'loss': 0.4902, 'learning_rate': 1.3115403545270744e-08, 'epoch': 0.98}
 98%|█████████▊| 6535/6640 [38:50<28:08, 16.09s/it] 98%|█████████▊| 6536/6640 [39:06<27:58, 16.14s/it]                                                   {'loss': 0.5114, 'learning_rate': 1.2866829271989122e-08, 'epoch': 0.98}
 98%|█████████▊| 6536/6640 [39:06<27:58, 16.14s/it] 98%|█████████▊| 6537/6640 [39:23<27:43, 16.15s/it]                                                   {'loss': 0.5068, 'learning_rate': 1.2620631668481819e-08, 'epoch': 0.98}
 98%|█████████▊| 6537/6640 [39:23<27:43, 16.15s/it] 98%|█████████▊| 6538/6640 [39:39<27:32, 16.20s/it]                                                   {'loss': 0.5234, 'learning_rate': 1.2376810793336413e-08, 'epoch': 0.98}
 98%|█████████▊| 6538/6640 [39:39<27:32, 16.20s/it] 98%|█████████▊| 6539/6640 [39:55<27:27, 16.31s/it]                                                   {'loss': 0.4934, 'learning_rate': 1.213536670457649e-08, 'epoch': 0.98}
 98%|█████████▊| 6539/6640 [39:55<27:27, 16.31s/it] 98%|█████████▊| 6540/6640 [40:11<26:51, 16.12s/it]                                                   {'loss': 0.5149, 'learning_rate': 1.1896299459658311e-08, 'epoch': 0.98}
 98%|█████████▊| 6540/6640 [40:11<26:51, 16.12s/it] 99%|█████████▊| 6541/6640 [40:28<27:07, 16.44s/it]                                                   {'loss': 0.5237, 'learning_rate': 1.1659609115475257e-08, 'epoch': 0.99}
 99%|█████████▊| 6541/6640 [40:28<27:07, 16.44s/it] 99%|█████████▊| 6542/6640 [40:45<26:53, 16.46s/it]                                                   {'loss': 0.5106, 'learning_rate': 1.142529572835227e-08, 'epoch': 0.99}
 99%|█████████▊| 6542/6640 [40:45<26:53, 16.46s/it] 99%|█████████▊| 6543/6640 [41:01<26:20, 16.30s/it]                                                   {'loss': 0.556, 'learning_rate': 1.1193359354049194e-08, 'epoch': 0.99}
 99%|█████████▊| 6543/6640 [41:01<26:20, 16.30s/it] 99%|█████████▊| 6544/6640 [41:17<25:48, 16.14s/it]                                                   {'loss': 0.4995, 'learning_rate': 1.0963800047760764e-08, 'epoch': 0.99}
 99%|█████████▊| 6544/6640 [41:17<25:48, 16.14s/it] 99%|█████████▊| 6545/6640 [41:33<25:37, 16.19s/it]                                                   {'loss': 0.4944, 'learning_rate': 1.0736617864117727e-08, 'epoch': 0.99}
 99%|█████████▊| 6545/6640 [41:33<25:37, 16.19s/it] 99%|█████████▊| 6546/6640 [41:49<25:17, 16.15s/it]                                                   {'loss': 0.504, 'learning_rate': 1.051181285718128e-08, 'epoch': 0.99}
 99%|█████████▊| 6546/6640 [41:49<25:17, 16.15s/it] 99%|█████████▊| 6547/6640 [42:06<25:34, 16.50s/it]                                                   {'loss': 0.4827, 'learning_rate': 1.0289385080448632e-08, 'epoch': 0.99}
 99%|█████████▊| 6547/6640 [42:06<25:34, 16.50s/it] 99%|█████████▊| 6548/6640 [42:22<24:58, 16.28s/it]                                                   {'loss': 0.5002, 'learning_rate': 1.0069334586854106e-08, 'epoch': 0.99}
 99%|█████████▊| 6548/6640 [42:22<24:58, 16.28s/it] 99%|█████████▊| 6549/6640 [42:39<24:52, 16.40s/it]                                                   {'loss': 0.5185, 'learning_rate': 9.851661428761372e-09, 'epoch': 0.99}
 99%|█████████▊| 6549/6640 [42:39<24:52, 16.40s/it]4 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
7 AutoResumeHook: Checking whether to suspend...
05  AutoResumeHook: Checking whether to suspend...
AutoResumeHook: Checking whether to suspend...
 99%|█████████▊| 6550/6640 [42:55<24:24, 16.27s/it]                                                   {'loss': 0.5285, 'learning_rate': 9.636365657971215e-09, 'epoch': 0.99}
 99%|█████████▊| 6550/6640 [42:55<24:24, 16.27s/it] 99%|█████████▊| 6551/6640 [43:12<24:27, 16.48s/it]                                                   {'loss': 0.4768, 'learning_rate': 9.423447325720425e-09, 'epoch': 0.99}
 99%|█████████▊| 6551/6640 [43:12<24:27, 16.48s/it] 99%|█████████▊| 6552/6640 [43:27<23:50, 16.26s/it]                                                   {'loss': 0.5206, 'learning_rate': 9.212906482675143e-09, 'epoch': 0.99}
 99%|█████████▊| 6552/6640 [43:27<23:50, 16.26s/it] 99%|█████████▊| 6553/6640 [43:43<23:24, 16.14s/it]                                                   {'loss': 0.4924, 'learning_rate': 9.004743178939735e-09, 'epoch': 0.99}
 99%|█████████▊| 6553/6640 [43:43<23:24, 16.14s/it] 99%|█████████▊| 6554/6640 [44:00<23:19, 16.27s/it]                                                   {'loss': 0.509, 'learning_rate': 8.798957464051238e-09, 'epoch': 0.99}
 99%|█████████▊| 6554/6640 [44:00<23:19, 16.27s/it] 99%|█████████▊| 6555/6640 [44:16<23:07, 16.32s/it]                                                   {'loss': 0.5274, 'learning_rate': 8.595549386981595e-09, 'epoch': 0.99}
 99%|█████████▊| 6555/6640 [44:16<23:07, 16.32s/it] 99%|█████████▊| 6556/6640 [44:32<22:46, 16.27s/it]                                                   {'loss': 0.5108, 'learning_rate': 8.394518996135414e-09, 'epoch': 0.99}
 99%|█████████▊| 6556/6640 [44:32<22:46, 16.27s/it] 99%|█████████▉| 6557/6640 [44:48<22:21, 16.16s/it]                                                   {'loss': 0.5047, 'learning_rate': 8.19586633935332e-09, 'epoch': 0.99}
 99%|█████████▉| 6557/6640 [44:48<22:21, 16.16s/it] 99%|█████████▉| 6558/6640 [45:04<22:05, 16.16s/it]                                                   {'loss': 0.4997, 'learning_rate': 7.999591463908607e-09, 'epoch': 0.99}
 99%|█████████▉| 6558/6640 [45:04<22:05, 16.16s/it] 99%|█████████▉| 6559/6640 [45:21<21:53, 16.21s/it]                                                   {'loss': 0.5007, 'learning_rate': 7.805694416510579e-09, 'epoch': 0.99}
 99%|█████████▉| 6559/6640 [45:21<21:53, 16.21s/it] 99%|█████████▉| 6560/6640 [45:37<21:44, 16.31s/it]                                                   {'loss': 0.5263, 'learning_rate': 7.614175243301213e-09, 'epoch': 0.99}
 99%|█████████▉| 6560/6640 [45:37<21:44, 16.31s/it] 99%|█████████▉| 6561/6640 [45:55<22:00, 16.72s/it]                                                   {'loss': 0.522, 'learning_rate': 7.425033989856279e-09, 'epoch': 0.99}
 99%|█████████▉| 6561/6640 [45:55<22:00, 16.72s/it] 99%|█████████▉| 6562/6640 [46:11<21:38, 16.65s/it]                                                   {'loss': 0.5009, 'learning_rate': 7.238270701186434e-09, 'epoch': 0.99}
 99%|█████████▉| 6562/6640 [46:11<21:38, 16.65s/it] 99%|█████████▉| 6563/6640 [46:27<21:05, 16.43s/it]                                                   {'loss': 0.5186, 'learning_rate': 7.053885421737239e-09, 'epoch': 0.99}
 99%|█████████▉| 6563/6640 [46:27<21:05, 16.43s/it] 99%|█████████▉| 6564/6640 [46:44<20:45, 16.39s/it]                                                   {'loss': 0.5136, 'learning_rate': 6.871878195386927e-09, 'epoch': 0.99}
 99%|█████████▉| 6564/6640 [46:44<20:45, 16.39s/it] 99%|█████████▉| 6565/6640 [47:00<20:17, 16.23s/it]                                                   {'loss': 0.5082, 'learning_rate': 6.692249065447521e-09, 'epoch': 0.99}
 99%|█████████▉| 6565/6640 [47:00<20:17, 16.23s/it] 99%|█████████▉| 6566/6640 [47:16<20:06, 16.30s/it]                                                   {'loss': 0.4995, 'learning_rate': 6.514998074667045e-09, 'epoch': 0.99}
 99%|█████████▉| 6566/6640 [47:16<20:06, 16.30s/it] 99%|█████████▉| 6567/6640 [47:32<19:47, 16.27s/it]                                                   {'loss': 0.5109, 'learning_rate': 6.340125265226205e-09, 'epoch': 0.99}
 99%|█████████▉| 6567/6640 [47:32<19:47, 16.27s/it] 99%|█████████▉| 6568/6640 [47:48<19:30, 16.25s/it]                                                   {'loss': 0.5379, 'learning_rate': 6.167630678739489e-09, 'epoch': 0.99}
 99%|█████████▉| 6568/6640 [47:48<19:30, 16.25s/it] 99%|█████████▉| 6569/6640 [48:05<19:28, 16.46s/it]                                                   {'loss': 0.5253, 'learning_rate': 5.997514356256285e-09, 'epoch': 0.99}
 99%|█████████▉| 6569/6640 [48:05<19:28, 16.46s/it] 99%|█████████▉| 6570/6640 [48:22<19:16, 16.52s/it]                                                   {'loss': 0.5119, 'learning_rate': 5.8297763382597625e-09, 'epoch': 0.99}
 99%|█████████▉| 6570/6640 [48:22<19:16, 16.52s/it] 99%|█████████▉| 6571/6640 [48:39<19:04, 16.59s/it]                                                   {'loss': 0.4998, 'learning_rate': 5.664416664666883e-09, 'epoch': 0.99}
 99%|█████████▉| 6571/6640 [48:39<19:04, 16.59s/it] 99%|█████████▉| 6572/6640 [48:54<18:29, 16.32s/it]                                                   {'loss': 0.5031, 'learning_rate': 5.5014353748295e-09, 'epoch': 0.99}
 99%|█████████▉| 6572/6640 [48:54<18:29, 16.32s/it] 99%|█████████▉| 6573/6640 [49:10<18:04, 16.19s/it]                                                   {'loss': 0.5131, 'learning_rate': 5.3408325075332555e-09, 'epoch': 0.99}
 99%|█████████▉| 6573/6640 [49:10<18:04, 16.19s/it] 99%|█████████▉| 6574/6640 [49:27<17:48, 16.20s/it]                                                   {'loss': 0.5391, 'learning_rate': 5.182608100995356e-09, 'epoch': 0.99}
 99%|█████████▉| 6574/6640 [49:27<17:48, 16.20s/it] 99%|█████████▉| 6575/6640 [49:43<17:38, 16.29s/it]                                                   {'loss': 0.5203, 'learning_rate': 5.026762192870127e-09, 'epoch': 0.99}
 99%|█████████▉| 6575/6640 [49:43<17:38, 16.29s/it] 99%|█████████▉| 6576/6640 [49:59<17:11, 16.12s/it]                                                   {'loss': 0.5099, 'learning_rate': 4.873294820244568e-09, 'epoch': 0.99}
 99%|█████████▉| 6576/6640 [49:59<17:11, 16.12s/it] 99%|█████████▉| 6577/6640 [50:14<16:47, 16.00s/it]                                                   {'loss': 0.5144, 'learning_rate': 4.7222060196394634e-09, 'epoch': 0.99}
 99%|█████████▉| 6577/6640 [50:14<16:47, 16.00s/it] 99%|█████████▉| 6578/6640 [50:31<16:32, 16.01s/it]                                                   {'loss': 0.5135, 'learning_rate': 4.573495827010499e-09, 'epoch': 0.99}
 99%|█████████▉| 6578/6640 [50:31<16:32, 16.01s/it] 99%|█████████▉| 6579/6640 [50:47<16:19, 16.05s/it]                                                   {'loss': 0.5117, 'learning_rate': 4.4271642777471425e-09, 'epoch': 0.99}
 99%|█████████▉| 6579/6640 [50:47<16:19, 16.05s/it] 99%|█████████▉| 6580/6640 [51:03<16:10, 16.17s/it]                                                   {'loss': 0.5087, 'learning_rate': 4.283211406670429e-09, 'epoch': 0.99}
 99%|█████████▉| 6580/6640 [51:03<16:10, 16.17s/it] 99%|█████████▉| 6581/6640 [51:19<15:49, 16.09s/it]                                                   {'loss': 0.5024, 'learning_rate': 4.14163724803962e-09, 'epoch': 0.99}
 99%|█████████▉| 6581/6640 [51:19<15:49, 16.09s/it] 99%|█████████▉| 6582/6640 [51:35<15:30, 16.05s/it]                                                   {'loss': 0.5174, 'learning_rate': 4.002441835544435e-09, 'epoch': 0.99}
 99%|█████████▉| 6582/6640 [51:35<15:30, 16.05s/it] 99%|█████████▉| 6583/6640 [51:51<15:13, 16.02s/it]                                                   {'loss': 0.506, 'learning_rate': 3.865625202309487e-09, 'epoch': 0.99}
 99%|█████████▉| 6583/6640 [51:51<15:13, 16.02s/it] 99%|█████████▉| 6584/6640 [52:08<15:07, 16.20s/it]                                                   {'loss': 0.5088, 'learning_rate': 3.731187380893176e-09, 'epoch': 0.99}
 99%|█████████▉| 6584/6640 [52:08<15:07, 16.20s/it] 99%|█████████▉| 6585/6640 [52:24<14:51, 16.21s/it]                                                   {'loss': 0.5469, 'learning_rate': 3.5991284032899087e-09, 'epoch': 0.99}
 99%|█████████▉| 6585/6640 [52:24<14:51, 16.21s/it] 99%|█████████▉| 6586/6640 [52:40<14:30, 16.13s/it]                                                   {'loss': 0.5067, 'learning_rate': 3.4694483009234393e-09, 'epoch': 0.99}
 99%|█████████▉| 6586/6640 [52:40<14:30, 16.13s/it] 99%|█████████▉| 6587/6640 [52:56<14:12, 16.08s/it]                                                   {'loss': 0.5151, 'learning_rate': 3.3421471046568564e-09, 'epoch': 0.99}
 99%|█████████▉| 6587/6640 [52:56<14:12, 16.08s/it] 99%|█████████▉| 6588/6640 [53:11<13:50, 15.98s/it]                                                   {'loss': 0.5154, 'learning_rate': 3.217224844782596e-09, 'epoch': 0.99}
 99%|█████████▉| 6588/6640 [53:11<13:50, 15.98s/it] 99%|█████████▉| 6589/6640 [53:28<13:49, 16.26s/it]                                                   {'loss': 0.5421, 'learning_rate': 3.0946815510290995e-09, 'epoch': 0.99}
 99%|█████████▉| 6589/6640 [53:28<13:49, 16.26s/it] 99%|█████████▉| 6590/6640 [53:45<13:36, 16.33s/it]                                                   {'loss': 0.5029, 'learning_rate': 2.974517252558595e-09, 'epoch': 0.99}
 99%|█████████▉| 6590/6640 [53:45<13:36, 16.33s/it] 99%|█████████▉| 6591/6640 [54:01<13:24, 16.41s/it]                                                   {'loss': 0.5247, 'learning_rate': 2.856731977968208e-09, 'epoch': 0.99}
 99%|█████████▉| 6591/6640 [54:01<13:24, 16.41s/it] 99%|█████████▉| 6592/6640 [54:18<13:10, 16.47s/it]                                                   {'loss': 0.5222, 'learning_rate': 2.741325755285518e-09, 'epoch': 0.99}
 99%|█████████▉| 6592/6640 [54:18<13:10, 16.47s/it] 99%|█████████▉| 6593/6640 [54:35<13:07, 16.75s/it]                                                   {'loss': 0.5203, 'learning_rate': 2.628298611975222e-09, 'epoch': 0.99}
 99%|█████████▉| 6593/6640 [54:35<13:07, 16.75s/it] 99%|█████████▉| 6594/6640 [54:52<12:47, 16.69s/it]                                                   {'loss': 0.5231, 'learning_rate': 2.5176505749346937e-09, 'epoch': 0.99}
 99%|█████████▉| 6594/6640 [54:52<12:47, 16.69s/it] 99%|█████████▉| 6595/6640 [55:08<12:19, 16.42s/it]                                                   {'loss': 0.5008, 'learning_rate': 2.4093816704950924e-09, 'epoch': 0.99}
 99%|█████████▉| 6595/6640 [55:08<12:19, 16.42s/it] 99%|█████████▉| 6596/6640 [55:24<11:54, 16.24s/it]                                                   {'loss': 0.5106, 'learning_rate': 2.3034919244213637e-09, 'epoch': 0.99}
 99%|█████████▉| 6596/6640 [55:24<11:54, 16.24s/it] 99%|█████████▉| 6597/6640 [55:40<11:36, 16.20s/it]                                                   {'loss': 0.5178, 'learning_rate': 2.19998136191224e-09, 'epoch': 0.99}
 99%|█████████▉| 6597/6640 [55:40<11:36, 16.20s/it] 99%|█████████▉| 6598/6640 [55:56<11:20, 16.20s/it]                                                   {'loss': 0.5206, 'learning_rate': 2.0988500076013494e-09, 'epoch': 0.99}
 99%|█████████▉| 6598/6640 [55:56<11:20, 16.20s/it] 99%|█████████▉| 6599/6640 [56:12<11:06, 16.25s/it]                                                   {'loss': 0.5021, 'learning_rate': 2.000097885554997e-09, 'epoch': 0.99}
 99%|█████████▉| 6599/6640 [56:12<11:06, 16.25s/it]4 AutoResumeHook: Checking whether to suspend...
5 AutoResumeHook: Checking whether to suspend...
2 AutoResumeHook: Checking whether to suspend...
6 AutoResumeHook: Checking whether to suspend...
1 AutoResumeHook: Checking whether to suspend...
3 AutoResumeHook: Checking whether to suspend...
0 AutoResumeHook: Checking whether to suspend...
 99%|█████████▉| 6600/6640 [56:29<10:50, 16.27s/it]7 AutoResumeHook: Checking whether to suspend...
                                                   {'loss': 0.4911, 'learning_rate': 1.9037250192732728e-09, 'epoch': 0.99}
 99%|█████████▉| 6600/6640 [56:29<10:50, 16.27s/it]saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6600/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6600/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/tmp-checkpoint-6600/mm_projector
/lustre/fs12/portfolios/nvr/users/mmemmel/miniforge3/envs/vila/lib/python3.10/site-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
  warnings.warn(
 99%|█████████▉| 6601/6640 [58:30<31:08, 47.91s/it]                                                   {'loss': 0.513, 'learning_rate': 1.8097314316900537e-09, 'epoch': 0.99}
 99%|█████████▉| 6601/6640 [58:30<31:08, 47.91s/it] 99%|█████████▉| 6602/6640 [58:47<24:20, 38.42s/it]                                                   {'loss': 0.5186, 'learning_rate': 1.7181171451730039e-09, 'epoch': 0.99}
 99%|█████████▉| 6602/6640 [58:47<24:20, 38.42s/it] 99%|█████████▉| 6603/6640 [59:04<19:42, 31.97s/it]                                                   {'loss': 0.4993, 'learning_rate': 1.6288821815246825e-09, 'epoch': 0.99}
 99%|█████████▉| 6603/6640 [59:04<19:42, 31.97s/it] 99%|█████████▉| 6604/6640 [59:20<16:24, 27.35s/it]                                                   {'loss': 0.5135, 'learning_rate': 1.5420265619803255e-09, 'epoch': 0.99}
 99%|█████████▉| 6604/6640 [59:20<16:24, 27.35s/it] 99%|█████████▉| 6605/6640 [59:37<14:11, 24.33s/it]                                                   {'loss': 0.5055, 'learning_rate': 1.4575503072100649e-09, 'epoch': 0.99}
 99%|█████████▉| 6605/6640 [59:37<14:11, 24.33s/it] 99%|█████████▉| 6606/6640 [59:53<12:17, 21.70s/it]                                                   {'loss': 0.5193, 'learning_rate': 1.3754534373155992e-09, 'epoch': 0.99}
 99%|█████████▉| 6606/6640 [59:53<12:17, 21.70s/it]Token indices sequence length is longer than the specified maximum sequence length for this model (4214 > 4096). Running this sequence through the model will result in indexing errors
100%|█████████▉| 6607/6640 [1:00:09<11:04, 20.14s/it]                                                     {'loss': 0.5004, 'learning_rate': 1.295735971834633e-09, 'epoch': 1.0}
100%|█████████▉| 6607/6640 [1:00:09<11:04, 20.14s/it]100%|█████████▉| 6608/6640 [1:00:26<10:08, 19.02s/it]                                                     {'loss': 0.5098, 'learning_rate': 1.2183979297364368e-09, 'epoch': 1.0}
100%|█████████▉| 6608/6640 [1:00:26<10:08, 19.02s/it]100%|█████████▉| 6609/6640 [1:00:42<09:23, 18.18s/it]                                                     {'loss': 0.5136, 'learning_rate': 1.1434393294273981e-09, 'epoch': 1.0}
100%|█████████▉| 6609/6640 [1:00:42<09:23, 18.18s/it]100%|█████████▉| 6610/6640 [1:00:58<08:43, 17.45s/it]                                                     {'loss': 0.5004, 'learning_rate': 1.0708601887454706e-09, 'epoch': 1.0}
100%|█████████▉| 6610/6640 [1:00:58<08:43, 17.45s/it]100%|█████████▉| 6611/6640 [1:01:14<08:14, 17.06s/it]                                                     {'loss': 0.5095, 'learning_rate': 1.000660524960173e-09, 'epoch': 1.0}
100%|█████████▉| 6611/6640 [1:01:14<08:14, 17.06s/it]100%|█████████▉| 6612/6640 [1:01:32<08:07, 17.40s/it]                                                     {'loss': 0.5033, 'learning_rate': 9.328403547792518e-10, 'epoch': 1.0}
100%|█████████▉| 6612/6640 [1:01:32<08:07, 17.40s/it]100%|█████████▉| 6613/6640 [1:01:49<07:41, 17.10s/it]                                                     {'loss': 0.5187, 'learning_rate': 8.673996943420193e-10, 'epoch': 1.0}
100%|█████████▉| 6613/6640 [1:01:49<07:41, 17.10s/it]100%|█████████▉| 6614/6640 [1:02:05<07:21, 16.99s/it]                                                     {'loss': 0.4937, 'learning_rate': 8.043385592215735e-10, 'epoch': 1.0}
100%|█████████▉| 6614/6640 [1:02:05<07:21, 16.99s/it]100%|█████████▉| 6615/6640 [1:02:22<06:59, 16.77s/it]                                                     {'loss': 0.5089, 'learning_rate': 7.43656964423689e-10, 'epoch': 1.0}
100%|█████████▉| 6615/6640 [1:02:22<06:59, 16.77s/it]100%|█████████▉| 6616/6640 [1:02:38<06:36, 16.54s/it]                                                     {'loss': 0.4785, 'learning_rate': 6.85354924390147e-10, 'epoch': 1.0}
100%|█████████▉| 6616/6640 [1:02:38<06:36, 16.54s/it]100%|█████████▉| 6617/6640 [1:02:54<06:21, 16.61s/it]                                                     {'loss': 0.4915, 'learning_rate': 6.294324529942942e-10, 'epoch': 1.0}
100%|█████████▉| 6617/6640 [1:02:54<06:21, 16.61s/it]100%|█████████▉| 6618/6640 [1:03:11<06:06, 16.67s/it]                                                     {'loss': 0.5025, 'learning_rate': 5.75889563544374e-10, 'epoch': 1.0}
100%|█████████▉| 6618/6640 [1:03:11<06:06, 16.67s/it]100%|█████████▉| 6619/6640 [1:03:27<05:45, 16.47s/it]                                                     {'loss': 0.5055, 'learning_rate': 5.247262687835264e-10, 'epoch': 1.0}
100%|█████████▉| 6619/6640 [1:03:27<05:45, 16.47s/it]100%|█████████▉| 6620/6640 [1:03:43<05:27, 16.40s/it]                                                     {'loss': 0.4739, 'learning_rate': 4.759425808853468e-10, 'epoch': 1.0}
100%|█████████▉| 6620/6640 [1:03:43<05:27, 16.40s/it]100%|█████████▉| 6621/6640 [1:04:00<05:10, 16.37s/it]                                                     {'loss': 0.5151, 'learning_rate': 4.295385114594375e-10, 'epoch': 1.0}
100%|█████████▉| 6621/6640 [1:04:00<05:10, 16.37s/it]100%|█████████▉| 6622/6640 [1:04:15<04:50, 16.13s/it]                                                     {'loss': 0.5007, 'learning_rate': 3.8551407155029697e-10, 'epoch': 1.0}
100%|█████████▉| 6622/6640 [1:04:15<04:50, 16.13s/it]100%|█████████▉| 6623/6640 [1:04:31<04:33, 16.10s/it]                                                     {'loss': 0.4975, 'learning_rate': 3.4386927163287953e-10, 'epoch': 1.0}
100%|█████████▉| 6623/6640 [1:04:31<04:33, 16.10s/it]/lustre/fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/llava/model/llava_arch.py:397: UserWarning: Inputs truncated!
  warnings.warn("Inputs truncated!")
100%|█████████▉| 6624/6640 [1:04:50<04:28, 16.75s/it]                                                     {'loss': 0.5179, 'learning_rate': 3.0460412161814613e-10, 'epoch': 1.0}
100%|█████████▉| 6624/6640 [1:04:50<04:28, 16.75s/it]100%|█████████▉| 6625/6640 [1:05:05<04:06, 16.43s/it]                                                     {'loss': 0.5025, 'learning_rate': 2.677186308497337e-10, 'epoch': 1.0}
100%|█████████▉| 6625/6640 [1:05:05<04:06, 16.43s/it]100%|█████████▉| 6626/6640 [1:05:22<03:51, 16.55s/it]                                                     {'loss': 0.5267, 'learning_rate': 2.3321280810617575e-10, 'epoch': 1.0}
100%|█████████▉| 6626/6640 [1:05:22<03:51, 16.55s/it]100%|█████████▉| 6627/6640 [1:05:39<03:37, 16.70s/it]                                                     {'loss': 0.5048, 'learning_rate': 2.0108666159757151e-10, 'epoch': 1.0}
100%|█████████▉| 6627/6640 [1:05:39<03:37, 16.70s/it]100%|█████████▉| 6628/6640 [1:05:56<03:19, 16.63s/it]                                                     {'loss': 0.5102, 'learning_rate': 1.7134019897113718e-10, 'epoch': 1.0}
100%|█████████▉| 6628/6640 [1:05:56<03:19, 16.63s/it]100%|█████████▉| 6629/6640 [1:06:12<03:01, 16.46s/it]                                                     {'loss': 0.5099, 'learning_rate': 1.4397342730343434e-10, 'epoch': 1.0}
100%|█████████▉| 6629/6640 [1:06:12<03:01, 16.46s/it]100%|█████████▉| 6630/6640 [1:06:28<02:43, 16.33s/it]                                                     {'loss': 0.5086, 'learning_rate': 1.1898635310925167e-10, 'epoch': 1.0}
100%|█████████▉| 6630/6640 [1:06:28<02:43, 16.33s/it]100%|█████████▉| 6631/6640 [1:06:44<02:26, 16.33s/it]                                                     {'loss': 0.5192, 'learning_rate': 9.637898233272324e-11, 'epoch': 1.0}
100%|█████████▉| 6631/6640 [1:06:44<02:26, 16.33s/it]100%|█████████▉| 6632/6640 [1:07:00<02:09, 16.21s/it]                                                     {'loss': 0.5252, 'learning_rate': 7.615132035510008e-11, 'epoch': 1.0}
100%|█████████▉| 6632/6640 [1:07:00<02:09, 16.21s/it]100%|█████████▉| 6633/6640 [1:07:17<01:54, 16.33s/it]                                                     {'loss': 0.5239, 'learning_rate': 5.830337199030922e-11, 'epoch': 1.0}
100%|█████████▉| 6633/6640 [1:07:17<01:54, 16.33s/it]100%|█████████▉| 6634/6640 [1:07:32<01:37, 16.17s/it]                                                     {'loss': 0.524, 'learning_rate': 4.2835141484953715e-11, 'epoch': 1.0}
100%|█████████▉| 6634/6640 [1:07:32<01:37, 16.17s/it]100%|█████████▉| 6635/6640 [1:07:49<01:21, 16.24s/it]                                                     {'loss': 0.5149, 'learning_rate': 2.9746632520533116e-11, 'epoch': 1.0}
100%|█████████▉| 6635/6640 [1:07:49<01:21, 16.24s/it]100%|█████████▉| 6636/6640 [1:08:05<01:04, 16.23s/it]                                                     {'loss': 0.512, 'learning_rate': 1.903784821122301e-11, 'epoch': 1.0}
100%|█████████▉| 6636/6640 [1:08:05<01:04, 16.23s/it]100%|█████████▉| 6637/6640 [1:08:21<00:48, 16.16s/it]                                                     {'loss': 0.5005, 'learning_rate': 1.070879110498524e-11, 'epoch': 1.0}
100%|█████████▉| 6637/6640 [1:08:21<00:48, 16.16s/it]100%|█████████▉| 6638/6640 [1:08:37<00:32, 16.18s/it]                                                     {'loss': 0.526, 'learning_rate': 4.759463185788349e-12, 'epoch': 1.0}
100%|█████████▉| 6638/6640 [1:08:37<00:32, 16.18s/it]100%|█████████▉| 6639/6640 [1:08:53<00:16, 16.16s/it]                                                     {'loss': 0.4951, 'learning_rate': 1.1898658669462494e-12, 'epoch': 1.0}
100%|█████████▉| 6639/6640 [1:08:53<00:16, 16.16s/it]100%|██████████| 6640/6640 [1:09:12<00:00, 16.90s/it]                                                     {'loss': 0.5203, 'learning_rate': 0.0, 'epoch': 1.0}
100%|██████████| 6640/6640 [1:09:12<00:00, 16.90s/it]                                                     {'train_runtime': 4155.3143, 'train_samples_per_second': 409.162, 'train_steps_per_second': 1.598, 'train_loss': 0.01843953949051449, 'epoch': 1.0}
100%|██████████| 6640/6640 [1:09:12<00:00, 16.90s/it]100%|██████████| 6640/6640 [1:09:12<00:00,  1.60it/s]
saving llm to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/llm
saving vision_tower to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/vision_tower
saving mm_projector to /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask/mm_projector
[1;34mwandb[0m: 🚀 View run [33mvila_13b_path_mask[0m at: [34mhttps://wandb.ai/memmelma/VILA/runs/dqplhl83[0m
[1;34mwandb[0m: Find logs at: [1;35m../../../../../../../../fs12/portfolios/nvr/users/mmemmel/projects/vila/VILA/wandb/run-20250603_161638-dqplhl83/logs[0m
srun: job 8517763 queued and waiting for resources
srun: job 8517763 has been allocated resources
wandb: Currently logged in as: memmelma. Use `wandb login --relogin` to force relogin
MASTER_ADDR=batch-block1-0101
JobID: 8517763 | Full list: batch-block1-0101 
NETWORK=Efficient-Large-Model/VILA1.5-13b
WARNING:torch.distributed.run:
*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
*****************************************
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
Did not find AutoResume SDK!
[2025-06-03 17:29:34,854] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 17:29:34,854] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 17:29:34,854] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 17:29:34,854] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 17:29:34,854] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 17:29:34,854] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 17:29:34,854] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 17:29:34,854] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2025-06-03 17:29:35,970] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 17:29:35,970] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 17:29:35,970] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 17:29:35,970] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 17:29:35,970] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 17:29:35,970] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 17:29:35,970] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 17:29:35,970] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 17:29:35,970] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 17:29:35,970] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 17:29:35,970] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 17:29:35,970] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 17:29:35,970] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 17:29:35,970] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 17:29:35,970] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
[2025-06-03 17:29:35,970] [INFO] [comm.py:594:init_distributed] cdb=None
[2025-06-03 17:29:35,970] [INFO] [comm.py:625:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
Models has been ready under /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask. Skipp trainingModels has been ready under /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask. Skipp training

Models has been ready under /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask. Skipp training
Models has been ready under /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask. Skipp training
Models has been ready under /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask. Skipp training
Models has been ready under /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask. Skipp training
Models has been ready under /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask. Skipp training
Models has been ready under /lustre/fs12/portfolios/nvr/users/mmemmel/projects/nvila/checkpoints/finetuned/nvila/vila_13b_path_mask. Skipp training