Upload checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed

Browse files

Files changed (1) hide show

checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/wandb/offline-run-20260111_233506-checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed-run0/files/output.log +56 -56

checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/wandb/offline-run-20260111_233506-checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed-run0/files/output.log CHANGED Viewed

@@ -1205,6 +1205,20 @@ wandb: For more information, check out the docs at: https://weave-docs.wandb.ai/
 [[34m2026-01-12 02:01:10[39m] (step=0001017) Train Loss mse: 0.0000, Train Loss ce: 0.0599, Train Steps/Sec: 0.12,
 [[34m2026-01-12 02:01:18[39m] (step=0001018) Train Loss mse: 0.0000, Train Loss ce: 0.0600, Train Steps/Sec: 0.12,
 [[34m2026-01-12 02:01:26[39m] (step=0001019) Train Loss mse: 0.0000, Train Loss ce: 0.0601, Train Steps/Sec: 0.12,
 [[34m2026-01-12 02:01:34[39m] (step=0001020) Train Loss mse: 0.0000, Train Loss ce: 0.0598, Train Steps/Sec: 0.12,
 [[34m2026-01-12 02:01:42[39m] (step=0001021) Train Loss mse: 0.0000, Train Loss ce: 0.0594, Train Steps/Sec: 0.12,
 [[34m2026-01-12 02:01:51[39m] (step=0001022) Train Loss mse: 0.0000, Train Loss ce: 0.0601, Train Steps/Sec: 0.12,
@@ -2571,20 +2585,6 @@ wandb: For more information, check out the docs at: https://weave-docs.wandb.ai/
 [[34m2026-01-12 05:08:21[39m] (step=0002383) Train Loss mse: 0.0000, Train Loss ce: 0.0587, Train Steps/Sec: 0.12,
 [[34m2026-01-12 05:08:30[39m] (step=0002384) Train Loss mse: 0.0000, Train Loss ce: 0.0585, Train Steps/Sec: 0.12,
 [[34m2026-01-12 05:08:38[39m] (step=0002385) Train Loss mse: 0.0000, Train Loss ce: 0.0575, Train Steps/Sec: 0.12,
-base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step1500
-Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-ce_avg: 0.16342228651046753, mse_avg: 0.0
-base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step2000
-Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-ce_avg: 0.10344104468822479, mse_avg: 0.0
 [[34m2026-01-12 05:08:46[39m] (step=0002386) Train Loss mse: 0.0000, Train Loss ce: 0.0579, Train Steps/Sec: 0.12,
 [[34m2026-01-12 05:08:54[39m] (step=0002387) Train Loss mse: 0.0000, Train Loss ce: 0.0571, Train Steps/Sec: 0.12,
 [[34m2026-01-12 05:09:03[39m] (step=0002388) Train Loss mse: 0.0000, Train Loss ce: 0.0576, Train Steps/Sec: 0.12,
@@ -3527,41 +3527,6 @@ ce_avg: 0.10344104468822479, mse_avg: 0.0
 [[34m2026-01-12 07:19:45[39m] (step=0003322) Train Loss mse: 0.0000, Train Loss ce: 0.0580, Train Steps/Sec: 0.11,
 [[34m2026-01-12 07:19:53[39m] (step=0003323) Train Loss mse: 0.0000, Train Loss ce: 0.0580, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:20:01[39m] (step=0003324) Train Loss mse: 0.0000, Train Loss ce: 0.0565, Train Steps/Sec: 0.12,
-base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step2500
-Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-ce_avg: 0.08726762980222702, mse_avg: 0.0
-base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step3000
-Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-ce_avg: 0.07871276885271072, mse_avg: 0.0
-base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step3500
-Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-ce_avg: 0.07428010553121567, mse_avg: 0.0
-base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step4000
-Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-ce_avg: 0.07037562131881714, mse_avg: 0.0
-base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step4500
-Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-ce_avg: 0.06715264171361923, mse_avg: 0.0
 [[34m2026-01-12 07:20:09[39m] (step=0003325) Train Loss mse: 0.0000, Train Loss ce: 0.0572, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:20:17[39m] (step=0003326) Train Loss mse: 0.0000, Train Loss ce: 0.0570, Train Steps/Sec: 0.13,
 [[34m2026-01-12 07:20:25[39m] (step=0003327) Train Loss mse: 0.0000, Train Loss ce: 0.0567, Train Steps/Sec: 0.12,
@@ -3681,6 +3646,27 @@ ce_avg: 0.06715264171361923, mse_avg: 0.0
 [[34m2026-01-12 07:36:02[39m] (step=0003441) Train Loss mse: 0.0000, Train Loss ce: 0.0566, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:36:10[39m] (step=0003442) Train Loss mse: 0.0000, Train Loss ce: 0.0556, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:36:18[39m] (step=0003443) Train Loss mse: 0.0000, Train Loss ce: 0.0563, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:36:26[39m] (step=0003444) Train Loss mse: 0.0000, Train Loss ce: 0.0564, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:36:35[39m] (step=0003445) Train Loss mse: 0.0000, Train Loss ce: 0.0570, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:36:43[39m] (step=0003446) Train Loss mse: 0.0000, Train Loss ce: 0.0565, Train Steps/Sec: 0.12,
@@ -4961,13 +4947,6 @@ ce_avg: 0.06715264171361923, mse_avg: 0.0
 [[34m2026-01-12 10:31:42[39m] (step=0004721) Train Loss mse: 0.0000, Train Loss ce: 0.0545, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:31:51[39m] (step=0004722) Train Loss mse: 0.0000, Train Loss ce: 0.0559, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:31:59[39m] (step=0004723) Train Loss mse: 0.0000, Train Loss ce: 0.0550, Train Steps/Sec: 0.12,
-base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step5000
-Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
-ce_avg: 0.06502918154001236, mse_avg: 0.0
 [[34m2026-01-12 10:32:07[39m] (step=0004724) Train Loss mse: 0.0000, Train Loss ce: 0.0563, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:32:15[39m] (step=0004725) Train Loss mse: 0.0000, Train Loss ce: 0.0559, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:32:23[39m] (step=0004726) Train Loss mse: 0.0000, Train Loss ce: 0.0550, Train Steps/Sec: 0.12,
@@ -5140,6 +5119,27 @@ ce_avg: 0.06502918154001236, mse_avg: 0.0
 [[34m2026-01-12 10:55:17[39m] (step=0004893) Train Loss mse: 0.0000, Train Loss ce: 0.0551, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:55:25[39m] (step=0004894) Train Loss mse: 0.0000, Train Loss ce: 0.0543, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:55:33[39m] (step=0004895) Train Loss mse: 0.0000, Train Loss ce: 0.0552, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:55:41[39m] (step=0004896) Train Loss mse: 0.0000, Train Loss ce: 0.0543, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:55:50[39m] (step=0004897) Train Loss mse: 0.0000, Train Loss ce: 0.0558, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:55:58[39m] (step=0004898) Train Loss mse: 0.0000, Train Loss ce: 0.0540, Train Steps/Sec: 0.12,

 [[34m2026-01-12 02:01:10[39m] (step=0001017) Train Loss mse: 0.0000, Train Loss ce: 0.0599, Train Steps/Sec: 0.12,
 [[34m2026-01-12 02:01:18[39m] (step=0001018) Train Loss mse: 0.0000, Train Loss ce: 0.0600, Train Steps/Sec: 0.12,
 [[34m2026-01-12 02:01:26[39m] (step=0001019) Train Loss mse: 0.0000, Train Loss ce: 0.0601, Train Steps/Sec: 0.12,
+base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step1500
+Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+ce_avg: 0.16342228651046753, mse_avg: 0.0
+base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step2000
+Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+ce_avg: 0.10344104468822479, mse_avg: 0.0
 [[34m2026-01-12 02:01:34[39m] (step=0001020) Train Loss mse: 0.0000, Train Loss ce: 0.0598, Train Steps/Sec: 0.12,
 [[34m2026-01-12 02:01:42[39m] (step=0001021) Train Loss mse: 0.0000, Train Loss ce: 0.0594, Train Steps/Sec: 0.12,
 [[34m2026-01-12 02:01:51[39m] (step=0001022) Train Loss mse: 0.0000, Train Loss ce: 0.0601, Train Steps/Sec: 0.12,
 [[34m2026-01-12 05:08:21[39m] (step=0002383) Train Loss mse: 0.0000, Train Loss ce: 0.0587, Train Steps/Sec: 0.12,
 [[34m2026-01-12 05:08:30[39m] (step=0002384) Train Loss mse: 0.0000, Train Loss ce: 0.0585, Train Steps/Sec: 0.12,
 [[34m2026-01-12 05:08:38[39m] (step=0002385) Train Loss mse: 0.0000, Train Loss ce: 0.0575, Train Steps/Sec: 0.12,
 [[34m2026-01-12 05:08:46[39m] (step=0002386) Train Loss mse: 0.0000, Train Loss ce: 0.0579, Train Steps/Sec: 0.12,
 [[34m2026-01-12 05:08:54[39m] (step=0002387) Train Loss mse: 0.0000, Train Loss ce: 0.0571, Train Steps/Sec: 0.12,
 [[34m2026-01-12 05:09:03[39m] (step=0002388) Train Loss mse: 0.0000, Train Loss ce: 0.0576, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:19:45[39m] (step=0003322) Train Loss mse: 0.0000, Train Loss ce: 0.0580, Train Steps/Sec: 0.11,
 [[34m2026-01-12 07:19:53[39m] (step=0003323) Train Loss mse: 0.0000, Train Loss ce: 0.0580, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:20:01[39m] (step=0003324) Train Loss mse: 0.0000, Train Loss ce: 0.0565, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:20:09[39m] (step=0003325) Train Loss mse: 0.0000, Train Loss ce: 0.0572, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:20:17[39m] (step=0003326) Train Loss mse: 0.0000, Train Loss ce: 0.0570, Train Steps/Sec: 0.13,
 [[34m2026-01-12 07:20:25[39m] (step=0003327) Train Loss mse: 0.0000, Train Loss ce: 0.0567, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:36:02[39m] (step=0003441) Train Loss mse: 0.0000, Train Loss ce: 0.0566, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:36:10[39m] (step=0003442) Train Loss mse: 0.0000, Train Loss ce: 0.0556, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:36:18[39m] (step=0003443) Train Loss mse: 0.0000, Train Loss ce: 0.0563, Train Steps/Sec: 0.12,
+base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step2500
+Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+ce_avg: 0.08726762980222702, mse_avg: 0.0
+base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step3000
+Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+ce_avg: 0.07871276885271072, mse_avg: 0.0
+base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step3500
+Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+ce_avg: 0.07428010553121567, mse_avg: 0.0
 [[34m2026-01-12 07:36:26[39m] (step=0003444) Train Loss mse: 0.0000, Train Loss ce: 0.0564, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:36:35[39m] (step=0003445) Train Loss mse: 0.0000, Train Loss ce: 0.0570, Train Steps/Sec: 0.12,
 [[34m2026-01-12 07:36:43[39m] (step=0003446) Train Loss mse: 0.0000, Train Loss ce: 0.0565, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:31:42[39m] (step=0004721) Train Loss mse: 0.0000, Train Loss ce: 0.0545, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:31:51[39m] (step=0004722) Train Loss mse: 0.0000, Train Loss ce: 0.0559, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:31:59[39m] (step=0004723) Train Loss mse: 0.0000, Train Loss ce: 0.0550, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:32:07[39m] (step=0004724) Train Loss mse: 0.0000, Train Loss ce: 0.0563, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:32:15[39m] (step=0004725) Train Loss mse: 0.0000, Train Loss ce: 0.0559, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:32:23[39m] (step=0004726) Train Loss mse: 0.0000, Train Loss ce: 0.0550, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:55:17[39m] (step=0004893) Train Loss mse: 0.0000, Train Loss ce: 0.0551, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:55:25[39m] (step=0004894) Train Loss mse: 0.0000, Train Loss ce: 0.0543, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:55:33[39m] (step=0004895) Train Loss mse: 0.0000, Train Loss ce: 0.0552, Train Steps/Sec: 0.12,
+base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step4000
+Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+ce_avg: 0.07037562131881714, mse_avg: 0.0
+base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step4500
+Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+ce_avg: 0.06715264171361923, mse_avg: 0.0
+base_dir is /dev/shm/models/checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed/eval_used_rows, step_tag is checkpoints_vlm_gym_jigsaw_one_image_lr2e_5_ce_no_mse_ema9999_hashed_step5000
+Preparing Dataset vlm_gym_jigsaw_celoss_no_mse_evalonce/vlm_gym_jigsaw_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_jigsaw_celoss_no_mse_evalonce'}]
+ce_avg: 0.06502918154001236, mse_avg: 0.0
 [[34m2026-01-12 10:55:41[39m] (step=0004896) Train Loss mse: 0.0000, Train Loss ce: 0.0543, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:55:50[39m] (step=0004897) Train Loss mse: 0.0000, Train Loss ce: 0.0558, Train Steps/Sec: 0.12,
 [[34m2026-01-12 10:55:58[39m] (step=0004898) Train Loss mse: 0.0000, Train Loss ce: 0.0540, Train Steps/Sec: 0.12,