Upload checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins

Browse files

Files changed (1) hide show

checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/wandb/offline-run-20260119_052528-vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins-run0/files/output.log +66 -66

checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/wandb/offline-run-20260119_052528-vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins-run0/files/output.log CHANGED Viewed

@@ -925,23 +925,6 @@ wandb: For more information, check out the docs at: https://weave-docs.wandb.ai/
 [[34m2026-01-19 08:39:42[39m] (step=0000914) Train Loss mse: 0.0659, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
 [[34m2026-01-19 08:39:54[39m] (step=0000915) Train Loss mse: 0.0571, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 08:40:07[39m] (step=0000916) Train Loss mse: 0.0690, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
-[[34m2026-01-19 08:40:19[39m] (step=0000917) Train Loss mse: 0.0567, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
-[[34m2026-01-19 08:40:30[39m] (step=0000918) Train Loss mse: 0.0771, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
-[[34m2026-01-19 08:40:43[39m] (step=0000919) Train Loss mse: 0.0694, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
-[[34m2026-01-19 08:40:56[39m] (step=0000920) Train Loss mse: 0.0645, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
-[[34m2026-01-19 08:41:07[39m] (step=0000921) Train Loss mse: 0.0638, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
-[[34m2026-01-19 08:41:18[39m] (step=0000922) Train Loss mse: 0.0379, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
-[[34m2026-01-19 08:41:31[39m] (step=0000923) Train Loss mse: 0.0754, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
-[[34m2026-01-19 08:41:42[39m] (step=0000924) Train Loss mse: 0.0598, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
-[[34m2026-01-19 08:41:53[39m] (step=0000925) Train Loss mse: 0.0734, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
-[[34m2026-01-19 08:42:03[39m] (step=0000926) Train Loss mse: 0.0786, Train Loss ce: 0.0000, Train Steps/Sec: 0.10,
-[[34m2026-01-19 08:42:14[39m] (step=0000927) Train Loss mse: 0.0971, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
-[[34m2026-01-19 08:42:25[39m] (step=0000928) Train Loss mse: 0.0513, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
-[[34m2026-01-19 08:42:39[39m] (step=0000929) Train Loss mse: 0.0699, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
-[[34m2026-01-19 08:42:51[39m] (step=0000930) Train Loss mse: 0.0961, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
-[[34m2026-01-19 08:43:00[39m] (step=0000931) Train Loss mse: 0.0873, Train Loss ce: 0.0000, Train Steps/Sec: 0.12,
-[[34m2026-01-19 08:43:15[39m] (step=0000932) Train Loss mse: 0.0499, Train Loss ce: 0.0000, Train Steps/Sec: 0.06,
-[[34m2026-01-19 08:43:27[39m] (step=0000933) Train Loss mse: 0.0517, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 FullyShardedDataParallel(
   (_fsdp_wrapped_module): Bagel(
     (language_model): Qwen2ForCausalLM(
@@ -1142,13 +1125,23 @@ Preparing Dataset vlm_gym_jigsaw_swap_mse_loss_only_evalonce/vlm_gym_jigsaw_swap
   fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
   fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
 ce_avg: 0.0, mse_avg: 0.06354626268148422
-base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins_step2000
-Preparing Dataset vlm_gym_jigsaw_swap_mse_loss_only_evalonce/vlm_gym_jigsaw_swap_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-ce_avg: 0.0, mse_avg: 0.06860851496458054
 [[34m2026-01-19 08:43:40[39m] (step=0000934) Train Loss mse: 0.0704, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 08:43:51[39m] (step=0000935) Train Loss mse: 0.0528, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
 [[34m2026-01-19 08:44:05[39m] (step=0000936) Train Loss mse: 0.0624, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
@@ -2361,6 +2354,27 @@ ce_avg: 0.0, mse_avg: 0.06860851496458054
 [[34m2026-01-19 12:53:30[39m] (step=0002143) Train Loss mse: 0.0761, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 12:53:44[39m] (step=0002144) Train Loss mse: 0.0698, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 12:53:58[39m] (step=0002145) Train Loss mse: 0.0700, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 12:54:11[39m] (step=0002146) Train Loss mse: 0.0571, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 12:54:21[39m] (step=0002147) Train Loss mse: 0.1154, Train Loss ce: 0.0000, Train Steps/Sec: 0.10,
 [[34m2026-01-19 12:54:33[39m] (step=0002148) Train Loss mse: 0.0616, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
@@ -2500,20 +2514,6 @@ ce_avg: 0.0, mse_avg: 0.06860851496458054
 [[34m2026-01-19 13:21:45[39m] (step=0002282) Train Loss mse: 0.0623, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
 [[34m2026-01-19 13:21:59[39m] (step=0002283) Train Loss mse: 0.0643, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 13:22:14[39m] (step=0002284) Train Loss mse: 0.0609, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
-base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins_step2500
-Preparing Dataset vlm_gym_jigsaw_swap_mse_loss_only_evalonce/vlm_gym_jigsaw_swap_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-ce_avg: 0.0, mse_avg: 0.06288589537143707
-base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins_step3000
-Preparing Dataset vlm_gym_jigsaw_swap_mse_loss_only_evalonce/vlm_gym_jigsaw_swap_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-ce_avg: 0.0, mse_avg: 0.07036882638931274
 [[34m2026-01-19 13:22:26[39m] (step=0002285) Train Loss mse: 0.0670, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 13:22:42[39m] (step=0002286) Train Loss mse: 0.0632, Train Loss ce: 0.0000, Train Steps/Sec: 0.06,
 [[34m2026-01-19 13:22:52[39m] (step=0002287) Train Loss mse: 0.0844, Train Loss ce: 0.0000, Train Steps/Sec: 0.10,
@@ -3328,6 +3328,20 @@ ce_avg: 0.0, mse_avg: 0.07036882638931274
 [[34m2026-01-19 16:10:58[39m] (step=0003093) Train Loss mse: 0.0637, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 16:11:10[39m] (step=0003094) Train Loss mse: 0.0634, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 16:11:21[39m] (step=0003095) Train Loss mse: 0.0589, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
 [[34m2026-01-19 16:11:31[39m] (step=0003096) Train Loss mse: 0.0905, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
 [[34m2026-01-19 16:11:43[39m] (step=0003097) Train Loss mse: 0.0591, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
 [[34m2026-01-19 16:11:55[39m] (step=0003098) Train Loss mse: 0.0876, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
@@ -3495,27 +3509,6 @@ ce_avg: 0.0, mse_avg: 0.07036882638931274
 [[34m2026-01-19 16:44:49[39m] (step=0003260) Train Loss mse: 0.0682, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 16:44:59[39m] (step=0003261) Train Loss mse: 0.0587, Train Loss ce: 0.0000, Train Steps/Sec: 0.10,
 [[34m2026-01-19 16:45:11[39m] (step=0003262) Train Loss mse: 0.0876, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
-base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins_step3500
-Preparing Dataset vlm_gym_jigsaw_swap_mse_loss_only_evalonce/vlm_gym_jigsaw_swap_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-ce_avg: 0.0, mse_avg: 0.07131727039813995
-base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins_step4000
-Preparing Dataset vlm_gym_jigsaw_swap_mse_loss_only_evalonce/vlm_gym_jigsaw_swap_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-ce_avg: 0.0, mse_avg: 0.06401161849498749
-base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins_step4500
-Preparing Dataset vlm_gym_jigsaw_swap_mse_loss_only_evalonce/vlm_gym_jigsaw_swap_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-ce_avg: 0.0, mse_avg: 0.06277775019407272
 [[34m2026-01-19 16:45:24[39m] (step=0003263) Train Loss mse: 0.0580, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 16:45:37[39m] (step=0003264) Train Loss mse: 0.0725, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 16:45:48[39m] (step=0003265) Train Loss mse: 0.0477, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
@@ -4625,6 +4618,20 @@ ce_avg: 0.0, mse_avg: 0.06277775019407272
 [[34m2026-01-19 20:33:07[39m] (step=0004369) Train Loss mse: 0.1095, Train Loss ce: 0.0000, Train Steps/Sec: 0.10,
 [[34m2026-01-19 20:33:20[39m] (step=0004370) Train Loss mse: 0.0465, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 20:33:34[39m] (step=0004371) Train Loss mse: 0.0448, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 20:33:46[39m] (step=0004372) Train Loss mse: 0.0563, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 20:33:56[39m] (step=0004373) Train Loss mse: 0.0880, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
 [[34m2026-01-19 20:34:12[39m] (step=0004374) Train Loss mse: 0.0460, Train Loss ce: 0.0000, Train Steps/Sec: 0.06,
@@ -4924,13 +4931,6 @@ ce_avg: 0.0, mse_avg: 0.06277775019407272
 [[34m2026-01-19 21:35:03[39m] (step=0004668) Train Loss mse: 0.0452, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 21:35:15[39m] (step=0004669) Train Loss mse: 0.0848, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 21:35:30[39m] (step=0004670) Train Loss mse: 0.0643, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
-base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins_step5000
-Preparing Dataset vlm_gym_jigsaw_swap_mse_loss_only_evalonce/vlm_gym_jigsaw_swap_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
-ce_avg: 0.0, mse_avg: 0.06819717586040497
 [[34m2026-01-19 21:35:40[39m] (step=0004671) Train Loss mse: 0.0504, Train Loss ce: 0.0000, Train Steps/Sec: 0.10,
 [[34m2026-01-19 21:35:52[39m] (step=0004672) Train Loss mse: 0.0699, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 21:36:07[39m] (step=0004673) Train Loss mse: 0.0593, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,

 [[34m2026-01-19 08:39:42[39m] (step=0000914) Train Loss mse: 0.0659, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
 [[34m2026-01-19 08:39:54[39m] (step=0000915) Train Loss mse: 0.0571, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 08:40:07[39m] (step=0000916) Train Loss mse: 0.0690, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 FullyShardedDataParallel(
   (_fsdp_wrapped_module): Bagel(
     (language_model): Qwen2ForCausalLM(
   fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
   fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
 ce_avg: 0.0, mse_avg: 0.06354626268148422
+[[34m2026-01-19 08:40:19[39m] (step=0000917) Train Loss mse: 0.0567, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
+[[34m2026-01-19 08:40:30[39m] (step=0000918) Train Loss mse: 0.0771, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
+[[34m2026-01-19 08:40:43[39m] (step=0000919) Train Loss mse: 0.0694, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
+[[34m2026-01-19 08:40:56[39m] (step=0000920) Train Loss mse: 0.0645, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
+[[34m2026-01-19 08:41:07[39m] (step=0000921) Train Loss mse: 0.0638, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
+[[34m2026-01-19 08:41:18[39m] (step=0000922) Train Loss mse: 0.0379, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
+[[34m2026-01-19 08:41:31[39m] (step=0000923) Train Loss mse: 0.0754, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
+[[34m2026-01-19 08:41:42[39m] (step=0000924) Train Loss mse: 0.0598, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
+[[34m2026-01-19 08:41:53[39m] (step=0000925) Train Loss mse: 0.0734, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
+[[34m2026-01-19 08:42:03[39m] (step=0000926) Train Loss mse: 0.0786, Train Loss ce: 0.0000, Train Steps/Sec: 0.10,
+[[34m2026-01-19 08:42:14[39m] (step=0000927) Train Loss mse: 0.0971, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
+[[34m2026-01-19 08:42:25[39m] (step=0000928) Train Loss mse: 0.0513, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
+[[34m2026-01-19 08:42:39[39m] (step=0000929) Train Loss mse: 0.0699, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
+[[34m2026-01-19 08:42:51[39m] (step=0000930) Train Loss mse: 0.0961, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
+[[34m2026-01-19 08:43:00[39m] (step=0000931) Train Loss mse: 0.0873, Train Loss ce: 0.0000, Train Steps/Sec: 0.12,
+[[34m2026-01-19 08:43:15[39m] (step=0000932) Train Loss mse: 0.0499, Train Loss ce: 0.0000, Train Steps/Sec: 0.06,
+[[34m2026-01-19 08:43:27[39m] (step=0000933) Train Loss mse: 0.0517, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 08:43:40[39m] (step=0000934) Train Loss mse: 0.0704, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 08:43:51[39m] (step=0000935) Train Loss mse: 0.0528, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
 [[34m2026-01-19 08:44:05[39m] (step=0000936) Train Loss mse: 0.0624, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 12:53:30[39m] (step=0002143) Train Loss mse: 0.0761, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 12:53:44[39m] (step=0002144) Train Loss mse: 0.0698, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 12:53:58[39m] (step=0002145) Train Loss mse: 0.0700, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
+base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins_step2000
+Preparing Dataset vlm_gym_jigsaw_swap_mse_loss_only_evalonce/vlm_gym_jigsaw_swap_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+ce_avg: 0.0, mse_avg: 0.06860851496458054
+base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins_step2500
+Preparing Dataset vlm_gym_jigsaw_swap_mse_loss_only_evalonce/vlm_gym_jigsaw_swap_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+ce_avg: 0.0, mse_avg: 0.06288589537143707
+base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins_step3000
+Preparing Dataset vlm_gym_jigsaw_swap_mse_loss_only_evalonce/vlm_gym_jigsaw_swap_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+ce_avg: 0.0, mse_avg: 0.07036882638931274
 [[34m2026-01-19 12:54:11[39m] (step=0002146) Train Loss mse: 0.0571, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 12:54:21[39m] (step=0002147) Train Loss mse: 0.1154, Train Loss ce: 0.0000, Train Steps/Sec: 0.10,
 [[34m2026-01-19 12:54:33[39m] (step=0002148) Train Loss mse: 0.0616, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
 [[34m2026-01-19 13:21:45[39m] (step=0002282) Train Loss mse: 0.0623, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
 [[34m2026-01-19 13:21:59[39m] (step=0002283) Train Loss mse: 0.0643, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 13:22:14[39m] (step=0002284) Train Loss mse: 0.0609, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 13:22:26[39m] (step=0002285) Train Loss mse: 0.0670, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 13:22:42[39m] (step=0002286) Train Loss mse: 0.0632, Train Loss ce: 0.0000, Train Steps/Sec: 0.06,
 [[34m2026-01-19 13:22:52[39m] (step=0002287) Train Loss mse: 0.0844, Train Loss ce: 0.0000, Train Steps/Sec: 0.10,
 [[34m2026-01-19 16:10:58[39m] (step=0003093) Train Loss mse: 0.0637, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 16:11:10[39m] (step=0003094) Train Loss mse: 0.0634, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 16:11:21[39m] (step=0003095) Train Loss mse: 0.0589, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
+[
+base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins_step3500
+Preparing Dataset vlm_gym_jigsaw_swap_mse_loss_only_evalonce/vlm_gym_jigsaw_swap_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+ce_avg: 0.0, mse_avg: 0.07131727039813995
+base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins_step4000
+Preparing Dataset vlm_gym_jigsaw_swap_mse_loss_only_evalonce/vlm_gym_jigsaw_swap_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
 [[34m2026-01-19 16:11:31[39m] (step=0003096) Train Loss mse: 0.0905, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
 [[34m2026-01-19 16:11:43[39m] (step=0003097) Train Loss mse: 0.0591, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
 [[34m2026-01-19 16:11:55[39m] (step=0003098) Train Loss mse: 0.0876, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 16:44:49[39m] (step=0003260) Train Loss mse: 0.0682, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 16:44:59[39m] (step=0003261) Train Loss mse: 0.0587, Train Loss ce: 0.0000, Train Steps/Sec: 0.10,
 [[34m2026-01-19 16:45:11[39m] (step=0003262) Train Loss mse: 0.0876, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 16:45:24[39m] (step=0003263) Train Loss mse: 0.0580, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 16:45:37[39m] (step=0003264) Train Loss mse: 0.0725, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 16:45:48[39m] (step=0003265) Train Loss mse: 0.0477, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
 [[34m2026-01-19 20:33:07[39m] (step=0004369) Train Loss mse: 0.1095, Train Loss ce: 0.0000, Train Steps/Sec: 0.10,
 [[34m2026-01-19 20:33:20[39m] (step=0004370) Train Loss mse: 0.0465, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 20:33:34[39m] (step=0004371) Train Loss mse: 0.0448, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
+base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins_step4500
+Preparing Dataset vlm_gym_jigsaw_swap_mse_loss_only_evalonce/vlm_gym_jigsaw_swap_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+ce_avg: 0.0, mse_avg: 0.06277775019407272
+base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_jigsaw_one_img_lr2e_5_mse_only_ins_step5000
+Preparing Dataset vlm_gym_jigsaw_swap_mse_loss_only_evalonce/vlm_gym_jigsaw_swap_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_swap_mse_loss_only_evalonce'}]
+ce_avg: 0.0, mse_avg: 0.06819717586040497
 [[34m2026-01-19 20:33:46[39m] (step=0004372) Train Loss mse: 0.0563, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 20:33:56[39m] (step=0004373) Train Loss mse: 0.0880, Train Loss ce: 0.0000, Train Steps/Sec: 0.09,
 [[34m2026-01-19 20:34:12[39m] (step=0004374) Train Loss mse: 0.0460, Train Loss ce: 0.0000, Train Steps/Sec: 0.06,
 [[34m2026-01-19 21:35:03[39m] (step=0004668) Train Loss mse: 0.0452, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 21:35:15[39m] (step=0004669) Train Loss mse: 0.0848, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 21:35:30[39m] (step=0004670) Train Loss mse: 0.0643, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,
 [[34m2026-01-19 21:35:40[39m] (step=0004671) Train Loss mse: 0.0504, Train Loss ce: 0.0000, Train Steps/Sec: 0.10,
 [[34m2026-01-19 21:35:52[39m] (step=0004672) Train Loss mse: 0.0699, Train Loss ce: 0.0000, Train Steps/Sec: 0.08,
 [[34m2026-01-19 21:36:07[39m] (step=0004673) Train Loss mse: 0.0593, Train Loss ce: 0.0000, Train Steps/Sec: 0.07,