Upload checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins/checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins

Browse files

Files changed (2) hide show

checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins/checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins/wandb/offline-run-20260129_223638-vlm_gym_patch_reassembly_alt_one_img_lr2e_5_mse_only_ins-run0/files/config.yaml +456 -0
checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins/checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins/wandb/offline-run-20260129_223638-vlm_gym_patch_reassembly_alt_one_img_lr2e_5_mse_only_ins-run0/files/output.log +25 -25

checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins/checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins/wandb/offline-run-20260129_223638-vlm_gym_patch_reassembly_alt_one_img_lr2e_5_mse_only_ins-run0/files/config.yaml CHANGED Viewed

	@@ -0,0 +1,456 @@

+wandb_version: 1
+_wandb:
+  desc: null
+  value:
+    python_version: 3.11.10
+    cli_version: 0.23.1
+    framework: huggingface
+    huggingface_version: 4.49.0
+    is_jupyter_run: false
+    is_kaggle_kernel: false
+    start_time: 1769726198
+    t:
+      1:
+      - 1
+      - 5
+      - 11
+      - 41
+      - 49
+      - 53
+      - 71
+      - 105
+      2:
+      - 1
+      - 5
+      - 11
+      - 41
+      - 49
+      - 53
+      - 71
+      - 105
+      3:
+      - 4
+      - 13
+      - 14
+      - 37
+      - 42
+      - 61
+      4: 3.11.10
+      5: 0.23.1
+      6: 4.49.0
+      13: linux-x86_64
+    e:
+      ittdtbt5kh132nrytiu95slls6ihhpwy:
+        os: Linux-6.6.93+-x86_64-with-glibc2.35
+        python: CPython 3.11.10
+        started_at: '2026-01-29T22:36:38.281927Z'
+        args:
+        - --dataset_config_file
+        - ./data/configs/vlm_gym_patch_reassembly_alt_train_mseloss_only.yaml
+        - --eval_dataset_config_file
+        - ./data/configs/vlm_gym_patch_reassembly_alt_eval_mseloss_only.yaml
+        - --viz_dataset_config_file
+        - ./data/configs/vlm_gym_patch_reassembly_alt_eval_mseloss_only.yaml
+        - --inference_hash_file
+        - /home/clouduser/Code/Github/launch_new/hashes_test_set_v10.json
+        - --task_name
+        - patch_reassembly_v5
+        - --instructions_dir
+        - ./data/instructions
+        - --train_data_dir
+        - /home/clouduser/Code/data/gym/patch_reassembly_alt_v5/train/
+        - --train_jsonl_path
+        - /home/clouduser/Code/data/gym/patch_reassembly_alt_v5/train/
+        - --eval_data_dir
+        - /home/clouduser/Code/data/gym/patch_reassembly_alt_v5/val/
+        - --eval_jsonl_path
+        - /home/clouduser/Code/data/gym/patch_reassembly_alt_v5/val/
+        - --model_path
+        - /home/clouduser/Code/Models/BAGEL-7B-MoT
+        - --layer_module
+        - Qwen2MoTDecoderLayer
+        - --max_latent_size
+        - '64'
+        - --resume-from
+        - /home/clouduser/Code/Models/BAGEL-7B-MoT
+        - --finetune_from_hf
+        - 'True'
+        - --auto_resume
+        - 'False'
+        - --resume-model-only
+        - 'True'
+        - --finetune-from-ema
+        - 'True'
+        - --log_every
+        - '1'
+        - --lr
+        - 2e-5
+        - --warmup_steps
+        - '300'
+        - --lr_scheduler
+        - cosine
+        - --num_worker
+        - '1'
+        - --expected_num_tokens
+        - '30000'
+        - --max_num_tokens
+        - '30000'
+        - --max_num_tokens_per_sample
+        - '30000'
+        - --visual_und
+        - 'True'
+        - --save_every
+        - '5000'
+        - --total_steps
+        - '5000'
+        - --text_cond_dropout_prob
+        - '0.0'
+        - --vae_cond_dropout_prob
+        - '0.0'
+        - --vit_cond_dropout_prob
+        - '0.0'
+        - --ema
+        - '0.993'
+        - --checkpoint_dir
+        - /dev/shm/models/checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins
+        - --wandb_project
+        - bagel
+        - --wandb_name
+        - vlm_gym_patch_reassembly_alt_one_img_lr2e_5_mse_only_ins
+        - --wandb_dir
+        - /dev/shm/models/checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins
+        - --wandb_offline
+        - 'True'
+        program: /home/clouduser/Code/Github/unified_world_model/train/pretrain_unified_navit.py
+        code_path: train/pretrain_unified_navit.py
+        code_path_local: train/pretrain_unified_navit.py
+        git:
+          remote_url: https://github.com/para-lost/unified_world_model
+          commit: 8d7b26b7e552fc87b592cf3be94d93be7aeca2a9
+        root: /dev/shm/models/checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins
+        host: junyizhang-launch-new-226785934-1-0
+        executable: /opt/conda/bin/python3.11
+        cpu_count: 48
+        cpu_count_logical: 96
+        gpu_type: NVIDIA A100-SXM4-80GB
+        gpu_count: 8
+        disk:
+          /:
+            total: '1052461830144'
+            used: '179527671808'
+        memory:
+          total: '1437332606976'
+        gpu_nvidia:
+        - name: NVIDIA A100-SXM4-80GB
+          memory_total: '85899345920'
+          cuda_cores: 6912
+          architecture: Ampere
+          uuid: GPU-f4aaac9b-3a87-794b-6e6c-15c16dbe16e0
+        - name: NVIDIA A100-SXM4-80GB
+          memory_total: '85899345920'
+          cuda_cores: 6912
+          architecture: Ampere
+          uuid: GPU-2f859169-51c8-27b2-ce9a-fccc2476cd01
+        - name: NVIDIA A100-SXM4-80GB
+          memory_total: '85899345920'
+          cuda_cores: 6912
+          architecture: Ampere
+          uuid: GPU-bfb6fecc-609c-c84a-a7c3-42cf7cb62146
+        - name: NVIDIA A100-SXM4-80GB
+          memory_total: '85899345920'
+          cuda_cores: 6912
+          architecture: Ampere
+          uuid: GPU-bf9a144c-5481-d388-df94-ad3c5c62d0cc
+        - name: NVIDIA A100-SXM4-80GB
+          memory_total: '85899345920'
+          cuda_cores: 6912
+          architecture: Ampere
+          uuid: GPU-6272c62b-809e-5ca4-0bab-bc5c95571384
+        - name: NVIDIA A100-SXM4-80GB
+          memory_total: '85899345920'
+          cuda_cores: 6912
+          architecture: Ampere
+          uuid: GPU-fab44e96-66a8-de9f-ffb2-d15bd5745b62
+        - name: NVIDIA A100-SXM4-80GB
+          memory_total: '85899345920'
+          cuda_cores: 6912
+          architecture: Ampere
+          uuid: GPU-6a70a600-5064-4828-f913-0823badd1507
+        - name: NVIDIA A100-SXM4-80GB
+          memory_total: '85899345920'
+          cuda_cores: 6912
+          architecture: Ampere
+          uuid: GPU-771a3859-a52f-931c-62d6-00b3ae2b8c67
+        cuda_version: '12.2'
+        writer_id: ittdtbt5kh132nrytiu95slls6ihhpwy
+visual_gen:
+  desc: null
+  value: true
+visual_und:
+  desc: null
+  value: true
+results_dir:
+  desc: null
+  value: results
+checkpoint_dir:
+  desc: null
+  value: /dev/shm/models/checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins
+wandb_project:
+  desc: null
+  value: bagel
+wandb_name:
+  desc: null
+  value: vlm_gym_patch_reassembly_alt_one_img_lr2e_5_mse_only_ins
+wandb_runid:
+  desc: null
+  value: '0'
+wandb_resume:
+  desc: null
+  value: allow
+wandb_offline:
+  desc: null
+  value: true
+wandb_dir:
+  desc: null
+  value: /dev/shm/models/checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins
+global_seed:
+  desc: null
+  value: 4396
+auto_resume:
+  desc: null
+  value: false
+resume_from:
+  desc: null
+  value: /home/clouduser/Code/Models/BAGEL-7B-MoT
+resume_model_only:
+  desc: null
+  value: true
+finetune_from_ema:
+  desc: null
+  value: true
+finetune_from_hf:
+  desc: null
+  value: true
+log_every:
+  desc: null
+  value: 1
+save_every:
+  desc: null
+  value: 5000
+total_steps:
+  desc: null
+  value: 5000
+warmup_steps:
+  desc: null
+  value: 300
+lr_scheduler:
+  desc: null
+  value: cosine
+lr:
+  desc: null
+  value: 2.0e-05
+min_lr:
+  desc: null
+  value: 1.0e-07
+beta1:
+  desc: null
+  value: 0.9
+beta2:
+  desc: null
+  value: 0.95
+eps:
+  desc: null
+  value: 1.0e-15
+ema:
+  desc: null
+  value: 0.993
+max_grad_norm:
+  desc: null
+  value: 1.0
+timestep_shift:
+  desc: null
+  value: 1.0
+mse_weight:
+  desc: null
+  value: 1.0
+ce_weight:
+  desc: null
+  value: 1.0
+ce_loss_reweighting:
+  desc: null
+  value: false
+expected_num_tokens:
+  desc: null
+  value: 30000
+num_replicate:
+  desc: null
+  value: 1
+num_shard:
+  desc: null
+  value: 8
+sharding_strategy:
+  desc: null
+  value: HYBRID_SHARD
+backward_prefetch:
+  desc: null
+  value: BACKWARD_PRE
+cpu_offload:
+  desc: null
+  value: false
+freeze_llm:
+  desc: null
+  value: false
+freeze_vit:
+  desc: null
+  value: false
+freeze_vae:
+  desc: null
+  value: true
+freeze_und:
+  desc: null
+  value: false
+copy_init_moe:
+  desc: null
+  value: true
+use_flex:
+  desc: null
+  value: false
+eval_every:
+  desc: null
+  value: 500
+num_eval_batches:
+  desc: null
+  value: 20
+use_ema_for_eval:
+  desc: null
+  value: true
+eval_log_dir:
+  desc: null
+  value: null
+eval_run_tag:
+  desc: null
+  value: ''
+viz_every:
+  desc: null
+  value: 500
+viz_n:
+  desc: null
+  value: 8
+viz_outdir:
+  desc: null
+  value: results/viz
+eval_dataset_config_file:
+  desc: null
+  value: ./data/configs/vlm_gym_patch_reassembly_alt_eval_mseloss_only.yaml
+viz_dataset_config_file:
+  desc: null
+  value: ./data/configs/vlm_gym_patch_reassembly_alt_eval_mseloss_only.yaml
+eval_print_n:
+  desc: null
+  value: 3
+save_ema_only:
+  desc: null
+  value: true
+save_optimizer:
+  desc: null
+  value: false
+model_path:
+  desc: null
+  value: /home/clouduser/Code/Models/BAGEL-7B-MoT
+llm_path:
+  desc: null
+  value: hf/Qwen2.5-0.5B-Instruct/
+llm_qk_norm:
+  desc: null
+  value: true
+tie_word_embeddings:
+  desc: null
+  value: false
+layer_module:
+  desc: null
+  value: Qwen2MoTDecoderLayer
+vae_path:
+  desc: null
+  value: flux/vae/ae.safetensors
+vit_path:
+  desc: null
+  value: hf/siglip-so400m-14-980-flash-attn2-navit/
+max_latent_size:
+  desc: null
+  value: 64
+latent_patch_size:
+  desc: null
+  value: 2
+vit_patch_size:
+  desc: null
+  value: 14
+vit_max_num_patch_per_side:
+  desc: null
+  value: 70
+connector_act:
+  desc: null
+  value: gelu_pytorch_tanh
+interpolate_pos:
+  desc: null
+  value: false
+vit_select_layer:
+  desc: null
+  value: -2
+vit_rope:
+  desc: null
+  value: false
+text_cond_dropout_prob:
+  desc: null
+  value: 0.0
+vae_cond_dropout_prob:
+  desc: null
+  value: 0.0
+vit_cond_dropout_prob:
+  desc: null
+  value: 0.0
+dataset_config_file:
+  desc: null
+  value: ./data/configs/vlm_gym_patch_reassembly_alt_train_mseloss_only.yaml
+train_data_dir:
+  desc: null
+  value: /home/clouduser/Code/data/gym/patch_reassembly_alt_v5/train/
+train_jsonl_path:
+  desc: null
+  value: /home/clouduser/Code/data/gym/patch_reassembly_alt_v5/train/
+eval_data_dir:
+  desc: null
+  value: /home/clouduser/Code/data/gym/patch_reassembly_alt_v5/val/
+eval_jsonl_path:
+  desc: null
+  value: /home/clouduser/Code/data/gym/patch_reassembly_alt_v5/val/
+inference_hash_file:
+  desc: null
+  value: /home/clouduser/Code/Github/launch_new/hashes_test_set_v10.json
+task_name:
+  desc: null
+  value: patch_reassembly_v5
+instructions_dir:
+  desc: null
+  value: ./data/instructions
+prefetch_factor:
+  desc: null
+  value: 2
+num_workers:
+  desc: null
+  value: 1
+max_num_tokens_per_sample:
+  desc: null
+  value: 30000
+max_num_tokens:
+  desc: null
+  value: 30000
+prefer_buffer_before:
+  desc: null
+  value: 16384
+max_buffer_size:
+  desc: null
+  value: 50
+data_seed:
+  desc: null
+  value: 42

@@ -782,16 +782,6 @@ wandb: For more information, check out the docs at: https://weave-docs.wandb.ai/
 [[34m2026-01-30 03:37:07[39m] (step=0000771) Train Loss mse: 0.0162, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
 [[34m2026-01-30 03:37:26[39m] (step=0000772) Train Loss mse: 0.0173, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
 [[34m2026-01-30 03:37:50[39m] (step=0000773) Train Loss mse: 0.0135, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
-[[34m2026-01-30 03:38:14[39m] (step=0000774) Train Loss mse: 0.0161, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
-[[34m2026-01-30 03:38:36[39m] (step=0000775) Train Loss mse: 0.0152, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
-[[34m2026-01-30 03:38:56[39m] (step=0000776) Train Loss mse: 0.0159, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
-[[34m2026-01-30 03:39:22[39m] (step=0000777) Train Loss mse: 0.0153, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
-[[34m2026-01-30 03:39:43[39m] (step=0000778) Train Loss mse: 0.0177, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
-[[34m2026-01-30 03:40:01[39m] (step=0000779) Train Loss mse: 0.0168, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
-[[34m2026-01-30 03:40:21[39m] (step=0000780) Train Loss mse: 0.0177, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
-[[34m2026-01-30 03:40:48[39m] (step=0000781) Train Loss mse: 0.0157, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
-[[34m2026-01-30 03:41:12[39m] (step=0000782) Train Loss mse: 0.0180, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
-[[34m2026-01-30 03:41:35[39m] (step=0000783) Train Loss mse: 0.0171, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
 FullyShardedDataParallel(
   (_fsdp_wrapped_module): Bagel(
     (language_model): Qwen2ForCausalLM(
@@ -978,6 +968,30 @@ Preparing Dataset vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce/vlm_gym_pa
   fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
   fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
 ce_avg: 0.0, mse_avg: 0.017283011227846146
 [[34m2026-01-30 03:41:57[39m] (step=0000784) Train Loss mse: 0.0161, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
 [[34m2026-01-30 03:42:24[39m] (step=0000785) Train Loss mse: 0.0168, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
 [[34m2026-01-30 03:42:48[39m] (step=0000786) Train Loss mse: 0.0156, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
@@ -1726,18 +1740,4 @@ ce_avg: 0.0, mse_avg: 0.017283011227846146
 [[34m2026-01-30 08:23:09[39m] (step=0001529) Train Loss mse: 0.0158, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
 [[34m2026-01-30 08:23:31[39m] (step=0001530) Train Loss mse: 0.0151, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
 [[34m2026-01-30 08:23:54[39m] (step=0001531) Train Loss mse: 0.0129, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
-[[34m2026-01-30 08:24:22[39m] (step=0001532) Train Loss mse: 0.0126, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
-base_dir is /dev/shm/models/checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_patch_reassembly_alt_one_img_lr2e_5_mse_only_ins_step1000
-Preparing Dataset vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce/vlm_gym_patch_reassembly_alt_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
-ce_avg: 0.0, mse_avg: 0.01552750263363123
-base_dir is /dev/shm/models/checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_patch_reassembly_alt_one_img_lr2e_5_mse_only_ins_step1500
-Preparing Dataset vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce/vlm_gym_patch_reassembly_alt_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
-ce_avg: 0.0, mse_avg: 0.015110340900719166

 [[34m2026-01-30 03:37:07[39m] (step=0000771) Train Loss mse: 0.0162, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
 [[34m2026-01-30 03:37:26[39m] (step=0000772) Train Loss mse: 0.0173, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
 [[34m2026-01-30 03:37:50[39m] (step=0000773) Train Loss mse: 0.0135, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
 FullyShardedDataParallel(
   (_fsdp_wrapped_module): Bagel(
     (language_model): Qwen2ForCausalLM(
   fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
   fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
 ce_avg: 0.0, mse_avg: 0.017283011227846146
+base_dir is /dev/shm/models/checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_patch_reassembly_alt_one_img_lr2e_5_mse_only_ins_step1000
+Preparing Dataset vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce/vlm_gym_patch_reassembly_alt_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
+ce_avg: 0.0, mse_avg: 0.01552750263363123
+base_dir is /dev/shm/models/checkpoints_vlm_gym_patch_reassembly_alt_one_image_lr2e_5_mse_only_ins/eval_used_rows, step_tag is vlm_gym_patch_reassembly_alt_one_img_lr2e_5_mse_only_ins_step1500
+Preparing Dataset vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce/vlm_gym_patch_reassembly_alt_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_patch_reassembly_alt_mse_loss_only_evalonce'}]
+ce_avg: 0.0, mse_avg: 0.015110340900719166
+[[34m2026-01-30 03:38:14[39m] (step=0000774) Train Loss mse: 0.0161, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
+[[34m2026-01-30 03:38:36[39m] (step=0000775) Train Loss mse: 0.0152, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
+[[34m2026-01-30 03:38:56[39m] (step=0000776) Train Loss mse: 0.0159, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
+[[34m2026-01-30 03:39:22[39m] (step=0000777) Train Loss mse: 0.0153, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
+[[34m2026-01-30 03:39:43[39m] (step=0000778) Train Loss mse: 0.0177, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
+[[34m2026-01-30 03:40:01[39m] (step=0000779) Train Loss mse: 0.0168, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
+[[34m2026-01-30 03:40:21[39m] (step=0000780) Train Loss mse: 0.0177, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
+[[34m2026-01-30 03:40:48[39m] (step=0000781) Train Loss mse: 0.0157, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
+[[34m2026-01-30 03:41:12[39m] (step=0000782) Train Loss mse: 0.0180, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
+[[34m2026-01-30 03:41:35[39m] (step=0000783) Train Loss mse: 0.0171, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
 [[34m2026-01-30 03:41:57[39m] (step=0000784) Train Loss mse: 0.0161, Train Loss ce: 0.0000, Train Steps/Sec: 0.05,
 [[34m2026-01-30 03:42:24[39m] (step=0000785) Train Loss mse: 0.0168, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
 [[34m2026-01-30 03:42:48[39m] (step=0000786) Train Loss mse: 0.0156, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
 [[34m2026-01-30 08:23:09[39m] (step=0001529) Train Loss mse: 0.0158, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
 [[34m2026-01-30 08:23:31[39m] (step=0001530) Train Loss mse: 0.0151, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
 [[34m2026-01-30 08:23:54[39m] (step=0001531) Train Loss mse: 0.0129, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,
+[[34m2026-01-30 08:24:22[39m] (step=0001532) Train Loss mse: 0.0126, Train Loss ce: 0.0000, Train Steps/Sec: 0.04,