KAT-2-RSSM / training_log.txt

Preston

Upload KAT TutoringRSSM v2 world model — 2.8M params, best eval loss 0.3124 @ epoch 93

76e4ab1 verified 10 days ago

27.9 kB

	nohup: ignoring input
	2026-02-25 18:05:41,969 [INFO] __main__: ═══ WORLD MODEL TRAINING ═══
	2026-02-25 18:05:41,969 [INFO] __main__: Trajectories: data/training/tutoring_trajectories_merged.pt
	2026-02-25 18:05:41,969 [INFO] __main__: Device: cuda
	2026-02-25 18:05:41,969 [INFO] __main__: Config: obs=20, act=8, latent=128, hidden=512
	2026-02-25 18:05:41,969 [INFO] __main__: Rollout: horizon=5, discount=0.95, weight=0.50
	2026-02-25 18:05:42,158 [INFO] __main__: Loaded trajectory dataset: 100901 trajectories, seq_len=20
	2026-02-25 18:05:42,172 [INFO] __main__: Train: 95856 trajectories, Eval: 5045 trajectories
	2026-02-25 18:05:42,196 [INFO] __main__: TutoringRSSM initialized: 2802838 trainable params (obs=20, act=8, latent=128, hidden=512)
	2026-02-25 18:05:43,302 [INFO] __main__: AMP: enabled (dtype=torch.bfloat16)
	2026-02-25 18:06:54,815 [INFO] __main__: Epoch 1/100 \| train_loss=1.1062 (recon=0.8257 kl=0.0119 rew=0.1221 done=0.2374 rollout=1.0153) \| eval_loss=0.5283 \| lr=1.00e-04 \| 71.5s (1340 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:06:54,842 [INFO] __main__: ★ New best eval loss: 0.5283 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:08:05,197 [INFO] __main__: Epoch 2/100 \| train_loss=0.5135 (recon=0.2962 kl=0.0162 rew=0.1142 done=0.1189 rollout=0.4816) \| eval_loss=0.4655 \| lr=9.99e-05 \| 70.4s (1362 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:08:05,217 [INFO] __main__: ★ New best eval loss: 0.4655 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:09:15,732 [INFO] __main__: Epoch 3/100 \| train_loss=0.4439 (recon=0.2452 kl=0.0068 rew=0.1086 done=0.0963 rollout=0.4309) \| eval_loss=0.4277 \| lr=9.98e-05 \| 70.5s (1359 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:09:15,753 [INFO] __main__: ★ New best eval loss: 0.4277 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:10:25,717 [INFO] __main__: Epoch 4/100 \| train_loss=0.4088 (recon=0.2179 kl=0.0087 rew=0.1034 done=0.0865 rollout=0.4011) \| eval_loss=0.3946 \| lr=9.96e-05 \| 70.0s (1370 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:10:25,739 [INFO] __main__: ★ New best eval loss: 0.3946 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:11:36,483 [INFO] __main__: Epoch 5/100 \| train_loss=0.3867 (recon=0.2010 kl=0.0095 rew=0.0995 done=0.0816 rollout=0.3817) \| eval_loss=0.3807 \| lr=9.94e-05 \| 70.7s (1355 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:11:36,506 [INFO] __main__: ★ New best eval loss: 0.3807 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:12:47,250 [INFO] __main__: Epoch 6/100 \| train_loss=0.3736 (recon=0.1909 kl=0.0102 rew=0.0966 done=0.0785 rollout=0.3709) \| eval_loss=0.3709 \| lr=9.91e-05 \| 70.7s (1355 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:12:47,274 [INFO] __main__: ★ New best eval loss: 0.3709 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:13:58,025 [INFO] __main__: Epoch 7/100 \| train_loss=0.3653 (recon=0.1835 kl=0.0108 rew=0.0947 done=0.0765 rollout=0.3652) \| eval_loss=0.3697 \| lr=9.88e-05 \| 70.8s (1355 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:13:58,046 [INFO] __main__: ★ New best eval loss: 0.3697 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:15:08,628 [INFO] __main__: Epoch 8/100 \| train_loss=0.3587 (recon=0.1779 kl=0.0113 rew=0.0928 done=0.0748 rollout=0.3606) \| eval_loss=0.3572 \| lr=9.84e-05 \| 70.6s (1358 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:15:08,651 [INFO] __main__: ★ New best eval loss: 0.3572 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:16:19,315 [INFO] __main__: Epoch 9/100 \| train_loss=0.3522 (recon=0.1725 kl=0.0115 rew=0.0910 done=0.0731 rollout=0.3563) \| eval_loss=0.3507 \| lr=9.80e-05 \| 70.7s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:16:19,340 [INFO] __main__: ★ New best eval loss: 0.3507 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:17:30,150 [INFO] __main__: Epoch 10/100 \| train_loss=0.3475 (recon=0.1685 kl=0.0114 rew=0.0898 done=0.0719 rollout=0.3534) \| eval_loss=0.3452 \| lr=9.76e-05 \| 70.8s (1354 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:17:30,171 [INFO] __main__: ★ New best eval loss: 0.3452 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:18:41,124 [INFO] __main__: Epoch 11/100 \| train_loss=0.3426 (recon=0.1645 kl=0.0112 rew=0.0886 done=0.0707 rollout=0.3503) \| eval_loss=0.3483 \| lr=9.70e-05 \| 70.9s (1351 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:19:51,548 [INFO] __main__: Epoch 12/100 \| train_loss=0.3404 (recon=0.1625 kl=0.0110 rew=0.0879 done=0.0701 rollout=0.3492) \| eval_loss=0.3401 \| lr=9.65e-05 \| 70.4s (1361 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:19:51,571 [INFO] __main__: ★ New best eval loss: 0.3401 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:21:02,429 [INFO] __main__: Epoch 13/100 \| train_loss=0.3379 (recon=0.1607 kl=0.0111 rew=0.0871 done=0.0693 rollout=0.3476) \| eval_loss=0.3385 \| lr=9.59e-05 \| 70.9s (1353 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:21:02,450 [INFO] __main__: ★ New best eval loss: 0.3385 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:22:12,961 [INFO] __main__: Epoch 14/100 \| train_loss=0.3375 (recon=0.1606 kl=0.0112 rew=0.0868 done=0.0690 rollout=0.3473) \| eval_loss=0.3408 \| lr=9.52e-05 \| 70.5s (1359 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:23:23,462 [INFO] __main__: Epoch 15/100 \| train_loss=0.3363 (recon=0.1591 kl=0.0114 rew=0.0866 done=0.0688 rollout=0.3467) \| eval_loss=0.3414 \| lr=9.46e-05 \| 70.5s (1360 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:24:33,788 [INFO] __main__: Epoch 16/100 \| train_loss=0.3351 (recon=0.1586 kl=0.0111 rew=0.0862 done=0.0685 rollout=0.3456) \| eval_loss=0.3473 \| lr=9.38e-05 \| 70.3s (1363 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:25:44,746 [INFO] __main__: Epoch 17/100 \| train_loss=0.5437 (recon=0.1957 kl=0.3120 rew=0.0954 done=0.0791 rollout=0.4052) \| eval_loss=0.4109 \| lr=9.30e-05 \| 71.0s (1351 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:26:55,420 [INFO] __main__: Epoch 18/100 \| train_loss=0.3521 (recon=0.1768 kl=0.0077 rew=0.0899 done=0.0727 rollout=0.3571) \| eval_loss=0.3392 \| lr=9.22e-05 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:28:05,836 [INFO] __main__: Epoch 19/100 \| train_loss=0.3347 (recon=0.1594 kl=0.0092 rew=0.0868 done=0.0689 rollout=0.3450) \| eval_loss=0.3335 \| lr=9.14e-05 \| 70.4s (1361 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:28:05,858 [INFO] __main__: ★ New best eval loss: 0.3335 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:29:16,516 [INFO] __main__: Epoch 20/100 \| train_loss=0.3308 (recon=0.1559 kl=0.0098 rew=0.0856 done=0.0679 rollout=0.3425) \| eval_loss=0.3300 \| lr=9.05e-05 \| 70.7s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:29:16,539 [INFO] __main__: ★ New best eval loss: 0.3300 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:30:27,172 [INFO] __main__: Epoch 21/100 \| train_loss=0.3289 (recon=0.1543 kl=0.0101 rew=0.0850 done=0.0672 rollout=0.3412) \| eval_loss=0.3289 \| lr=8.95e-05 \| 70.6s (1358 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:30:27,194 [INFO] __main__: ★ New best eval loss: 0.3289 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:31:37,839 [INFO] __main__: Epoch 22/100 \| train_loss=0.3281 (recon=0.1536 kl=0.0103 rew=0.0846 done=0.0669 rollout=0.3406) \| eval_loss=0.3292 \| lr=8.85e-05 \| 70.6s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:32:48,010 [INFO] __main__: Epoch 23/100 \| train_loss=0.3272 (recon=0.1531 kl=0.0104 rew=0.0843 done=0.0665 rollout=0.3400) \| eval_loss=0.3296 \| lr=8.75e-05 \| 70.2s (1366 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:33:58,113 [INFO] __main__: Epoch 24/100 \| train_loss=0.3269 (recon=0.1525 kl=0.0105 rew=0.0841 done=0.0664 rollout=0.3401) \| eval_loss=0.3279 \| lr=8.64e-05 \| 70.1s (1367 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:33:58,135 [INFO] __main__: ★ New best eval loss: 0.3279 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:35:09,021 [INFO] __main__: Epoch 25/100 \| train_loss=0.3263 (recon=0.1523 kl=0.0105 rew=0.0840 done=0.0663 rollout=0.3396) \| eval_loss=0.3275 \| lr=8.54e-05 \| 70.9s (1352 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:35:09,044 [INFO] __main__: ★ New best eval loss: 0.3275 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:36:19,718 [INFO] __main__: Epoch 26/100 \| train_loss=0.3260 (recon=0.1522 kl=0.0106 rew=0.0837 done=0.0660 rollout=0.3395) \| eval_loss=0.3315 \| lr=8.42e-05 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:37:29,992 [INFO] __main__: Epoch 27/100 \| train_loss=0.3259 (recon=0.1518 kl=0.0107 rew=0.0837 done=0.0660 rollout=0.3395) \| eval_loss=0.3270 \| lr=8.31e-05 \| 70.3s (1364 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:37:30,015 [INFO] __main__: ★ New best eval loss: 0.3270 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:38:40,921 [INFO] __main__: Epoch 28/100 \| train_loss=0.3266 (recon=0.1520 kl=0.0110 rew=0.0839 done=0.0661 rollout=0.3402) \| eval_loss=0.3265 \| lr=8.19e-05 \| 70.9s (1352 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:38:40,942 [INFO] __main__: ★ New best eval loss: 0.3265 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:39:51,355 [INFO] __main__: Epoch 29/100 \| train_loss=0.3256 (recon=0.1513 kl=0.0110 rew=0.0836 done=0.0658 rollout=0.3395) \| eval_loss=0.3274 \| lr=8.06e-05 \| 70.4s (1361 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:41:02,495 [INFO] __main__: Epoch 30/100 \| train_loss=0.3250 (recon=0.1509 kl=0.0111 rew=0.0834 done=0.0656 rollout=0.3390) \| eval_loss=0.3284 \| lr=7.94e-05 \| 71.1s (1347 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:42:12,904 [INFO] __main__: Epoch 31/100 \| train_loss=0.3251 (recon=0.1508 kl=0.0111 rew=0.0834 done=0.0656 rollout=0.3392) \| eval_loss=0.3278 \| lr=7.81e-05 \| 70.4s (1362 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:43:23,731 [INFO] __main__: Epoch 32/100 \| train_loss=0.3253 (recon=0.1507 kl=0.0113 rew=0.0836 done=0.0658 rollout=0.3392) \| eval_loss=0.3256 \| lr=7.68e-05 \| 70.8s (1353 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:43:23,754 [INFO] __main__: ★ New best eval loss: 0.3256 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:44:34,007 [INFO] __main__: Epoch 33/100 \| train_loss=0.3250 (recon=0.1503 kl=0.0113 rew=0.0835 done=0.0657 rollout=0.3392) \| eval_loss=0.3246 \| lr=7.55e-05 \| 70.3s (1364 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:44:34,030 [INFO] __main__: ★ New best eval loss: 0.3246 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:45:45,357 [INFO] __main__: Epoch 34/100 \| train_loss=0.3250 (recon=0.1502 kl=0.0116 rew=0.0835 done=0.0657 rollout=0.3390) \| eval_loss=0.3235 \| lr=7.41e-05 \| 71.3s (1344 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:45:45,380 [INFO] __main__: ★ New best eval loss: 0.3235 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:46:56,106 [INFO] __main__: Epoch 35/100 \| train_loss=0.3236 (recon=0.1495 kl=0.0113 rew=0.0833 done=0.0655 rollout=0.3377) \| eval_loss=0.3261 \| lr=7.27e-05 \| 70.7s (1355 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:48:06,339 [INFO] __main__: Epoch 36/100 \| train_loss=0.3235 (recon=0.1490 kl=0.0114 rew=0.0833 done=0.0655 rollout=0.3377) \| eval_loss=0.3237 \| lr=7.13e-05 \| 70.2s (1365 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:49:16,519 [INFO] __main__: Epoch 37/100 \| train_loss=0.3236 (recon=0.1495 kl=0.0115 rew=0.0831 done=0.0653 rollout=0.3377) \| eval_loss=0.3267 \| lr=6.99e-05 \| 70.2s (1366 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:50:27,556 [INFO] __main__: Epoch 38/100 \| train_loss=0.3527 (recon=0.1496 kl=0.0665 rew=0.0836 done=0.0659 rollout=0.3398) \| eval_loss=2.2169 \| lr=6.84e-05 \| 71.0s (1349 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:51:38,153 [INFO] __main__: Epoch 39/100 \| train_loss=0.3815 (recon=0.1745 kl=0.0569 rew=0.0906 done=0.0711 rollout=0.3697) \| eval_loss=0.3257 \| lr=6.69e-05 \| 70.6s (1358 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:52:49,003 [INFO] __main__: Epoch 40/100 \| train_loss=0.3221 (recon=0.1484 kl=0.0096 rew=0.0837 done=0.0659 rollout=0.3367) \| eval_loss=0.3214 \| lr=6.55e-05 \| 70.8s (1353 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:52:49,026 [INFO] __main__: ★ New best eval loss: 0.3214 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:53:59,507 [INFO] __main__: Epoch 41/100 \| train_loss=0.3204 (recon=0.1467 kl=0.0101 rew=0.0829 done=0.0652 rollout=0.3358) \| eval_loss=0.3207 \| lr=6.39e-05 \| 70.5s (1360 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:53:59,530 [INFO] __main__: ★ New best eval loss: 0.3207 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:55:10,159 [INFO] __main__: Epoch 42/100 \| train_loss=0.3198 (recon=0.1463 kl=0.0105 rew=0.0826 done=0.0649 rollout=0.3353) \| eval_loss=0.3206 \| lr=6.24e-05 \| 70.6s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:55:10,182 [INFO] __main__: ★ New best eval loss: 0.3206 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:56:20,740 [INFO] __main__: Epoch 43/100 \| train_loss=0.3191 (recon=0.1458 kl=0.0105 rew=0.0825 done=0.0647 rollout=0.3348) \| eval_loss=0.3209 \| lr=6.09e-05 \| 70.6s (1359 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:57:31,289 [INFO] __main__: Epoch 44/100 \| train_loss=0.3191 (recon=0.1458 kl=0.0108 rew=0.0822 done=0.0645 rollout=0.3350) \| eval_loss=0.3205 \| lr=5.94e-05 \| 70.5s (1359 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:57:31,312 [INFO] __main__: ★ New best eval loss: 0.3205 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:58:42,262 [INFO] __main__: Epoch 45/100 \| train_loss=0.3190 (recon=0.1455 kl=0.0109 rew=0.0823 done=0.0644 rollout=0.3349) \| eval_loss=0.3199 \| lr=5.78e-05 \| 70.9s (1351 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:58:42,284 [INFO] __main__: ★ New best eval loss: 0.3199 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:59:53,374 [INFO] __main__: Epoch 46/100 \| train_loss=0.3185 (recon=0.1452 kl=0.0108 rew=0.0822 done=0.0643 rollout=0.3346) \| eval_loss=0.3209 \| lr=5.63e-05 \| 71.1s (1348 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:01:04,213 [INFO] __main__: Epoch 47/100 \| train_loss=0.3188 (recon=0.1451 kl=0.0110 rew=0.0824 done=0.0644 rollout=0.3347) \| eval_loss=0.3196 \| lr=5.47e-05 \| 70.8s (1353 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:01:04,236 [INFO] __main__: ★ New best eval loss: 0.3196 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:02:14,681 [INFO] __main__: Epoch 48/100 \| train_loss=0.3182 (recon=0.1448 kl=0.0110 rew=0.0822 done=0.0642 rollout=0.3341) \| eval_loss=0.3195 \| lr=5.31e-05 \| 70.4s (1361 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:02:14,704 [INFO] __main__: ★ New best eval loss: 0.3195 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:03:25,389 [INFO] __main__: Epoch 49/100 \| train_loss=0.3182 (recon=0.1448 kl=0.0110 rew=0.0822 done=0.0642 rollout=0.3342) \| eval_loss=0.3294 \| lr=5.16e-05 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:04:36,190 [INFO] __main__: Epoch 50/100 \| train_loss=0.3184 (recon=0.1445 kl=0.0111 rew=0.0822 done=0.0643 rollout=0.3346) \| eval_loss=0.3213 \| lr=5.00e-05 \| 70.8s (1354 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:05:46,967 [INFO] __main__: Epoch 51/100 \| train_loss=0.3177 (recon=0.1442 kl=0.0110 rew=0.0821 done=0.0642 rollout=0.3339) \| eval_loss=0.3190 \| lr=4.84e-05 \| 70.8s (1355 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:05:46,990 [INFO] __main__: ★ New best eval loss: 0.3190 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:06:57,321 [INFO] __main__: Epoch 52/100 \| train_loss=0.3180 (recon=0.1442 kl=0.0111 rew=0.0821 done=0.0642 rollout=0.3344) \| eval_loss=0.3201 \| lr=4.69e-05 \| 70.3s (1363 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:08:07,968 [INFO] __main__: Epoch 53/100 \| train_loss=0.3179 (recon=0.1437 kl=0.0112 rew=0.0824 done=0.0644 rollout=0.3342) \| eval_loss=0.3172 \| lr=4.53e-05 \| 70.6s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:08:07,991 [INFO] __main__: ★ New best eval loss: 0.3172 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:09:18,618 [INFO] __main__: Epoch 54/100 \| train_loss=0.3170 (recon=0.1433 kl=0.0111 rew=0.0820 done=0.0641 rollout=0.3334) \| eval_loss=0.3191 \| lr=4.37e-05 \| 70.6s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:10:29,306 [INFO] __main__: Epoch 55/100 \| train_loss=0.3167 (recon=0.1430 kl=0.0113 rew=0.0820 done=0.0641 rollout=0.3331) \| eval_loss=0.3181 \| lr=4.22e-05 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:11:40,099 [INFO] __main__: Epoch 56/100 \| train_loss=0.3168 (recon=0.1429 kl=0.0113 rew=0.0820 done=0.0642 rollout=0.3332) \| eval_loss=0.3191 \| lr=4.06e-05 \| 70.8s (1354 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:12:50,815 [INFO] __main__: Epoch 57/100 \| train_loss=0.3163 (recon=0.1424 kl=0.0112 rew=0.0819 done=0.0641 rollout=0.3329) \| eval_loss=0.3188 \| lr=3.91e-05 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:14:01,170 [INFO] __main__: Epoch 58/100 \| train_loss=0.3168 (recon=0.1426 kl=0.0114 rew=0.0820 done=0.0641 rollout=0.3335) \| eval_loss=0.3182 \| lr=3.76e-05 \| 70.4s (1362 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:15:12,063 [INFO] __main__: Epoch 59/100 \| train_loss=0.3163 (recon=0.1425 kl=0.0113 rew=0.0820 done=0.0640 rollout=0.3327) \| eval_loss=0.3188 \| lr=3.61e-05 \| 70.9s (1352 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:16:22,721 [INFO] __main__: Epoch 60/100 \| train_loss=0.3157 (recon=0.1421 kl=0.0113 rew=0.0818 done=0.0639 rollout=0.3322) \| eval_loss=0.3179 \| lr=3.45e-05 \| 70.7s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:17:33,459 [INFO] __main__: Epoch 61/100 \| train_loss=0.3162 (recon=0.1420 kl=0.0114 rew=0.0820 done=0.0641 rollout=0.3328) \| eval_loss=0.3165 \| lr=3.31e-05 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:17:33,480 [INFO] __main__: ★ New best eval loss: 0.3165 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:18:44,368 [INFO] __main__: Epoch 62/100 \| train_loss=0.3155 (recon=0.1415 kl=0.0113 rew=0.0820 done=0.0640 rollout=0.3321) \| eval_loss=0.3156 \| lr=3.16e-05 \| 70.9s (1352 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:18:44,389 [INFO] __main__: ★ New best eval loss: 0.3156 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:19:55,957 [INFO] __main__: Epoch 63/100 \| train_loss=0.3151 (recon=0.1414 kl=0.0112 rew=0.0819 done=0.0640 rollout=0.3317) \| eval_loss=0.3181 \| lr=3.01e-05 \| 71.6s (1339 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:21:06,500 [INFO] __main__: Epoch 64/100 \| train_loss=0.3146 (recon=0.1412 kl=0.0112 rew=0.0817 done=0.0639 rollout=0.3313) \| eval_loss=0.3156 \| lr=2.87e-05 \| 70.5s (1359 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:22:18,147 [INFO] __main__: Epoch 65/100 \| train_loss=0.3152 (recon=0.1415 kl=0.0114 rew=0.0819 done=0.0640 rollout=0.3317) \| eval_loss=0.3259 \| lr=2.73e-05 \| 71.6s (1338 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:23:29,450 [INFO] __main__: Epoch 66/100 \| train_loss=0.3153 (recon=0.1414 kl=0.0113 rew=0.0820 done=0.0641 rollout=0.3318) \| eval_loss=0.3175 \| lr=2.59e-05 \| 71.3s (1344 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:24:40,964 [INFO] __main__: Epoch 67/100 \| train_loss=0.3145 (recon=0.1408 kl=0.0112 rew=0.0819 done=0.0641 rollout=0.3310) \| eval_loss=0.3169 \| lr=2.45e-05 \| 71.5s (1340 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:25:51,897 [INFO] __main__: Epoch 68/100 \| train_loss=0.3149 (recon=0.1411 kl=0.0114 rew=0.0819 done=0.0640 rollout=0.3313) \| eval_loss=0.3191 \| lr=2.32e-05 \| 70.9s (1351 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:27:02,722 [INFO] __main__: Epoch 69/100 \| train_loss=0.3148 (recon=0.1408 kl=0.0112 rew=0.0821 done=0.0642 rollout=0.3313) \| eval_loss=0.3160 \| lr=2.19e-05 \| 70.8s (1353 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:28:14,130 [INFO] __main__: Epoch 70/100 \| train_loss=0.3139 (recon=0.1406 kl=0.0110 rew=0.0819 done=0.0640 rollout=0.3303) \| eval_loss=0.3164 \| lr=2.06e-05 \| 71.4s (1342 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:29:25,313 [INFO] __main__: Epoch 71/100 \| train_loss=0.3142 (recon=0.1406 kl=0.0111 rew=0.0819 done=0.0640 rollout=0.3307) \| eval_loss=0.3176 \| lr=1.94e-05 \| 71.2s (1347 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:30:36,305 [INFO] __main__: Epoch 72/100 \| train_loss=0.3141 (recon=0.1407 kl=0.0111 rew=0.0819 done=0.0640 rollout=0.3307) \| eval_loss=0.3148 \| lr=1.81e-05 \| 71.0s (1350 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:30:36,326 [INFO] __main__: ★ New best eval loss: 0.3148 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:31:47,498 [INFO] __main__: Epoch 73/100 \| train_loss=0.3139 (recon=0.1402 kl=0.0111 rew=0.0820 done=0.0640 rollout=0.3305) \| eval_loss=0.3138 \| lr=1.69e-05 \| 71.2s (1347 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:31:47,521 [INFO] __main__: ★ New best eval loss: 0.3138 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:32:58,167 [INFO] __main__: Epoch 74/100 \| train_loss=0.3135 (recon=0.1400 kl=0.0109 rew=0.0820 done=0.0640 rollout=0.3301) \| eval_loss=0.3154 \| lr=1.58e-05 \| 70.6s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:34:09,526 [INFO] __main__: Epoch 75/100 \| train_loss=0.3139 (recon=0.1399 kl=0.0112 rew=0.0821 done=0.0641 rollout=0.3304) \| eval_loss=0.3162 \| lr=1.46e-05 \| 71.4s (1343 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:35:20,593 [INFO] __main__: Epoch 76/100 \| train_loss=0.3137 (recon=0.1399 kl=0.0110 rew=0.0820 done=0.0641 rollout=0.3304) \| eval_loss=0.3144 \| lr=1.36e-05 \| 71.1s (1349 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:36:31,515 [INFO] __main__: Epoch 77/100 \| train_loss=0.3132 (recon=0.1397 kl=0.0109 rew=0.0820 done=0.0640 rollout=0.3299) \| eval_loss=0.3146 \| lr=1.25e-05 \| 70.9s (1352 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:37:43,067 [INFO] __main__: Epoch 78/100 \| train_loss=0.3128 (recon=0.1395 kl=0.0109 rew=0.0818 done=0.0639 rollout=0.3295) \| eval_loss=0.3158 \| lr=1.15e-05 \| 71.6s (1340 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:38:54,333 [INFO] __main__: Epoch 79/100 \| train_loss=0.3132 (recon=0.1397 kl=0.0110 rew=0.0819 done=0.0640 rollout=0.3299) \| eval_loss=0.3141 \| lr=1.05e-05 \| 71.3s (1345 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:40:05,333 [INFO] __main__: Epoch 80/100 \| train_loss=0.3131 (recon=0.1394 kl=0.0109 rew=0.0821 done=0.0641 rollout=0.3297) \| eval_loss=0.3148 \| lr=9.55e-06 \| 71.0s (1350 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:41:16,170 [INFO] __main__: Epoch 81/100 \| train_loss=0.3127 (recon=0.1395 kl=0.0109 rew=0.0818 done=0.0639 rollout=0.3294) \| eval_loss=0.3149 \| lr=8.65e-06 \| 70.8s (1354 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:42:26,882 [INFO] __main__: Epoch 82/100 \| train_loss=0.3132 (recon=0.1394 kl=0.0109 rew=0.0820 done=0.0641 rollout=0.3299) \| eval_loss=0.3134 \| lr=7.78e-06 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:42:26,903 [INFO] __main__: ★ New best eval loss: 0.3134 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:43:38,250 [INFO] __main__: Epoch 83/100 \| train_loss=0.3129 (recon=0.1394 kl=0.0109 rew=0.0820 done=0.0641 rollout=0.3295) \| eval_loss=0.3135 \| lr=6.96e-06 \| 71.3s (1344 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:44:48,938 [INFO] __main__: Epoch 84/100 \| train_loss=0.3129 (recon=0.1393 kl=0.0109 rew=0.0821 done=0.0641 rollout=0.3296) \| eval_loss=0.3134 \| lr=6.18e-06 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:44:48,960 [INFO] __main__: ★ New best eval loss: 0.3134 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:45:59,739 [INFO] __main__: Epoch 85/100 \| train_loss=0.3127 (recon=0.1391 kl=0.0108 rew=0.0819 done=0.0639 rollout=0.3295) \| eval_loss=0.3146 \| lr=5.45e-06 \| 70.8s (1354 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:47:11,503 [INFO] __main__: Epoch 86/100 \| train_loss=0.3126 (recon=0.1391 kl=0.0108 rew=0.0820 done=0.0640 rollout=0.3292) \| eval_loss=0.3152 \| lr=4.76e-06 \| 71.8s (1336 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:48:22,493 [INFO] __main__: Epoch 87/100 \| train_loss=0.3125 (recon=0.1392 kl=0.0108 rew=0.0819 done=0.0639 rollout=0.3293) \| eval_loss=0.3145 \| lr=4.11e-06 \| 71.0s (1350 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:49:34,161 [INFO] __main__: Epoch 88/100 \| train_loss=0.3124 (recon=0.1391 kl=0.0107 rew=0.0819 done=0.0640 rollout=0.3291) \| eval_loss=0.3147 \| lr=3.51e-06 \| 71.7s (1338 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:50:45,579 [INFO] __main__: Epoch 89/100 \| train_loss=0.3123 (recon=0.1391 kl=0.0109 rew=0.0818 done=0.0639 rollout=0.3291) \| eval_loss=0.3132 \| lr=2.96e-06 \| 71.4s (1342 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:50:45,600 [INFO] __main__: ★ New best eval loss: 0.3132 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:51:57,816 [INFO] __main__: Epoch 90/100 \| train_loss=0.3123 (recon=0.1390 kl=0.0108 rew=0.0819 done=0.0638 rollout=0.3290) \| eval_loss=0.3142 \| lr=2.45e-06 \| 72.2s (1327 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:53:09,370 [INFO] __main__: Epoch 91/100 \| train_loss=0.3123 (recon=0.1390 kl=0.0108 rew=0.0819 done=0.0638 rollout=0.3290) \| eval_loss=0.3145 \| lr=1.99e-06 \| 71.5s (1340 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:54:20,932 [INFO] __main__: Epoch 92/100 \| train_loss=0.3124 (recon=0.1389 kl=0.0108 rew=0.0820 done=0.0641 rollout=0.3291) \| eval_loss=0.3143 \| lr=1.57e-06 \| 71.6s (1339 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:55:32,652 [INFO] __main__: Epoch 93/100 \| train_loss=0.3122 (recon=0.1391 kl=0.0107 rew=0.0819 done=0.0639 rollout=0.3288) \| eval_loss=0.3124 \| lr=1.20e-06 \| 71.7s (1337 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:55:32,682 [INFO] __main__: ★ New best eval loss: 0.3124 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:56:45,681 [INFO] __main__: Epoch 94/100 \| train_loss=0.3124 (recon=0.1390 kl=0.0109 rew=0.0820 done=0.0640 rollout=0.3291) \| eval_loss=0.3139 \| lr=8.86e-07 \| 73.0s (1313 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:57:57,869 [INFO] __main__: Epoch 95/100 \| train_loss=0.3125 (recon=0.1390 kl=0.0108 rew=0.0819 done=0.0639 rollout=0.3293) \| eval_loss=0.3136 \| lr=6.16e-07 \| 72.2s (1328 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:59:10,503 [INFO] __main__: Epoch 96/100 \| train_loss=0.3121 (recon=0.1390 kl=0.0108 rew=0.0818 done=0.0638 rollout=0.3289) \| eval_loss=0.3130 \| lr=3.94e-07 \| 72.6s (1320 samples/s) \| gpu_mem=1.3GB
	2026-02-25 20:00:23,114 [INFO] __main__: Epoch 97/100 \| train_loss=0.3125 (recon=0.1389 kl=0.0108 rew=0.0820 done=0.0640 rollout=0.3293) \| eval_loss=0.3127 \| lr=2.22e-07 \| 72.6s (1320 samples/s) \| gpu_mem=1.3GB
	2026-02-25 20:01:35,276 [INFO] __main__: Epoch 98/100 \| train_loss=0.3121 (recon=0.1389 kl=0.0107 rew=0.0819 done=0.0639 rollout=0.3288) \| eval_loss=0.3136 \| lr=9.87e-08 \| 72.2s (1328 samples/s) \| gpu_mem=1.3GB
	2026-02-25 20:02:47,305 [INFO] __main__: Epoch 99/100 \| train_loss=0.3118 (recon=0.1388 kl=0.0107 rew=0.0818 done=0.0639 rollout=0.3285) \| eval_loss=0.3140 \| lr=2.47e-08 \| 72.0s (1331 samples/s) \| gpu_mem=1.3GB
	2026-02-25 20:03:59,255 [INFO] __main__: Epoch 100/100 \| train_loss=0.3119 (recon=0.1389 kl=0.0108 rew=0.0818 done=0.0638 rollout=0.3286) \| eval_loss=0.3145 \| lr=0.00e+00 \| 71.9s (1332 samples/s) \| gpu_mem=1.3GB
	2026-02-25 20:03:59,299 [INFO] __main__: ═══ WORLD MODEL TRAINING COMPLETE ═══
	2026-02-25 20:03:59,299 [INFO] __main__: Best eval loss: 0.3124
	2026-02-25 20:03:59,299 [INFO] __main__: Best checkpoint: checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 20:03:59,299 [INFO] __main__: Final checkpoint: checkpoints/world-model/tutoring_rssm_final.pt

	════════════════════════════════════════════════════════════
	World Model Training Complete
	════════════════════════════════════════════════════════════
	Best checkpoint: checkpoints/world-model/tutoring_rssm_best.pt
	════════════════════════════════════════════════════════════

	nohup: ignoring input
	2026-02-25 18:05:41,969 [INFO] __main__: ═══ WORLD MODEL TRAINING ═══
	2026-02-25 18:05:41,969 [INFO] __main__: Trajectories: data/training/tutoring_trajectories_merged.pt
	2026-02-25 18:05:41,969 [INFO] __main__: Device: cuda
	2026-02-25 18:05:41,969 [INFO] __main__: Config: obs=20, act=8, latent=128, hidden=512
	2026-02-25 18:05:41,969 [INFO] __main__: Rollout: horizon=5, discount=0.95, weight=0.50
	2026-02-25 18:05:42,158 [INFO] __main__: Loaded trajectory dataset: 100901 trajectories, seq_len=20
	2026-02-25 18:05:42,172 [INFO] __main__: Train: 95856 trajectories, Eval: 5045 trajectories
	2026-02-25 18:05:42,196 [INFO] __main__: TutoringRSSM initialized: 2802838 trainable params (obs=20, act=8, latent=128, hidden=512)
	2026-02-25 18:05:43,302 [INFO] __main__: AMP: enabled (dtype=torch.bfloat16)
	2026-02-25 18:06:54,815 [INFO] __main__: Epoch 1/100 \| train_loss=1.1062 (recon=0.8257 kl=0.0119 rew=0.1221 done=0.2374 rollout=1.0153) \| eval_loss=0.5283 \| lr=1.00e-04 \| 71.5s (1340 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:06:54,842 [INFO] __main__: ★ New best eval loss: 0.5283 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:08:05,197 [INFO] __main__: Epoch 2/100 \| train_loss=0.5135 (recon=0.2962 kl=0.0162 rew=0.1142 done=0.1189 rollout=0.4816) \| eval_loss=0.4655 \| lr=9.99e-05 \| 70.4s (1362 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:08:05,217 [INFO] __main__: ★ New best eval loss: 0.4655 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:09:15,732 [INFO] __main__: Epoch 3/100 \| train_loss=0.4439 (recon=0.2452 kl=0.0068 rew=0.1086 done=0.0963 rollout=0.4309) \| eval_loss=0.4277 \| lr=9.98e-05 \| 70.5s (1359 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:09:15,753 [INFO] __main__: ★ New best eval loss: 0.4277 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:10:25,717 [INFO] __main__: Epoch 4/100 \| train_loss=0.4088 (recon=0.2179 kl=0.0087 rew=0.1034 done=0.0865 rollout=0.4011) \| eval_loss=0.3946 \| lr=9.96e-05 \| 70.0s (1370 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:10:25,739 [INFO] __main__: ★ New best eval loss: 0.3946 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:11:36,483 [INFO] __main__: Epoch 5/100 \| train_loss=0.3867 (recon=0.2010 kl=0.0095 rew=0.0995 done=0.0816 rollout=0.3817) \| eval_loss=0.3807 \| lr=9.94e-05 \| 70.7s (1355 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:11:36,506 [INFO] __main__: ★ New best eval loss: 0.3807 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:12:47,250 [INFO] __main__: Epoch 6/100 \| train_loss=0.3736 (recon=0.1909 kl=0.0102 rew=0.0966 done=0.0785 rollout=0.3709) \| eval_loss=0.3709 \| lr=9.91e-05 \| 70.7s (1355 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:12:47,274 [INFO] __main__: ★ New best eval loss: 0.3709 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:13:58,025 [INFO] __main__: Epoch 7/100 \| train_loss=0.3653 (recon=0.1835 kl=0.0108 rew=0.0947 done=0.0765 rollout=0.3652) \| eval_loss=0.3697 \| lr=9.88e-05 \| 70.8s (1355 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:13:58,046 [INFO] __main__: ★ New best eval loss: 0.3697 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:15:08,628 [INFO] __main__: Epoch 8/100 \| train_loss=0.3587 (recon=0.1779 kl=0.0113 rew=0.0928 done=0.0748 rollout=0.3606) \| eval_loss=0.3572 \| lr=9.84e-05 \| 70.6s (1358 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:15:08,651 [INFO] __main__: ★ New best eval loss: 0.3572 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:16:19,315 [INFO] __main__: Epoch 9/100 \| train_loss=0.3522 (recon=0.1725 kl=0.0115 rew=0.0910 done=0.0731 rollout=0.3563) \| eval_loss=0.3507 \| lr=9.80e-05 \| 70.7s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:16:19,340 [INFO] __main__: ★ New best eval loss: 0.3507 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:17:30,150 [INFO] __main__: Epoch 10/100 \| train_loss=0.3475 (recon=0.1685 kl=0.0114 rew=0.0898 done=0.0719 rollout=0.3534) \| eval_loss=0.3452 \| lr=9.76e-05 \| 70.8s (1354 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:17:30,171 [INFO] __main__: ★ New best eval loss: 0.3452 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:18:41,124 [INFO] __main__: Epoch 11/100 \| train_loss=0.3426 (recon=0.1645 kl=0.0112 rew=0.0886 done=0.0707 rollout=0.3503) \| eval_loss=0.3483 \| lr=9.70e-05 \| 70.9s (1351 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:19:51,548 [INFO] __main__: Epoch 12/100 \| train_loss=0.3404 (recon=0.1625 kl=0.0110 rew=0.0879 done=0.0701 rollout=0.3492) \| eval_loss=0.3401 \| lr=9.65e-05 \| 70.4s (1361 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:19:51,571 [INFO] __main__: ★ New best eval loss: 0.3401 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:21:02,429 [INFO] __main__: Epoch 13/100 \| train_loss=0.3379 (recon=0.1607 kl=0.0111 rew=0.0871 done=0.0693 rollout=0.3476) \| eval_loss=0.3385 \| lr=9.59e-05 \| 70.9s (1353 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:21:02,450 [INFO] __main__: ★ New best eval loss: 0.3385 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:22:12,961 [INFO] __main__: Epoch 14/100 \| train_loss=0.3375 (recon=0.1606 kl=0.0112 rew=0.0868 done=0.0690 rollout=0.3473) \| eval_loss=0.3408 \| lr=9.52e-05 \| 70.5s (1359 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:23:23,462 [INFO] __main__: Epoch 15/100 \| train_loss=0.3363 (recon=0.1591 kl=0.0114 rew=0.0866 done=0.0688 rollout=0.3467) \| eval_loss=0.3414 \| lr=9.46e-05 \| 70.5s (1360 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:24:33,788 [INFO] __main__: Epoch 16/100 \| train_loss=0.3351 (recon=0.1586 kl=0.0111 rew=0.0862 done=0.0685 rollout=0.3456) \| eval_loss=0.3473 \| lr=9.38e-05 \| 70.3s (1363 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:25:44,746 [INFO] __main__: Epoch 17/100 \| train_loss=0.5437 (recon=0.1957 kl=0.3120 rew=0.0954 done=0.0791 rollout=0.4052) \| eval_loss=0.4109 \| lr=9.30e-05 \| 71.0s (1351 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:26:55,420 [INFO] __main__: Epoch 18/100 \| train_loss=0.3521 (recon=0.1768 kl=0.0077 rew=0.0899 done=0.0727 rollout=0.3571) \| eval_loss=0.3392 \| lr=9.22e-05 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:28:05,836 [INFO] __main__: Epoch 19/100 \| train_loss=0.3347 (recon=0.1594 kl=0.0092 rew=0.0868 done=0.0689 rollout=0.3450) \| eval_loss=0.3335 \| lr=9.14e-05 \| 70.4s (1361 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:28:05,858 [INFO] __main__: ★ New best eval loss: 0.3335 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:29:16,516 [INFO] __main__: Epoch 20/100 \| train_loss=0.3308 (recon=0.1559 kl=0.0098 rew=0.0856 done=0.0679 rollout=0.3425) \| eval_loss=0.3300 \| lr=9.05e-05 \| 70.7s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:29:16,539 [INFO] __main__: ★ New best eval loss: 0.3300 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:30:27,172 [INFO] __main__: Epoch 21/100 \| train_loss=0.3289 (recon=0.1543 kl=0.0101 rew=0.0850 done=0.0672 rollout=0.3412) \| eval_loss=0.3289 \| lr=8.95e-05 \| 70.6s (1358 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:30:27,194 [INFO] __main__: ★ New best eval loss: 0.3289 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:31:37,839 [INFO] __main__: Epoch 22/100 \| train_loss=0.3281 (recon=0.1536 kl=0.0103 rew=0.0846 done=0.0669 rollout=0.3406) \| eval_loss=0.3292 \| lr=8.85e-05 \| 70.6s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:32:48,010 [INFO] __main__: Epoch 23/100 \| train_loss=0.3272 (recon=0.1531 kl=0.0104 rew=0.0843 done=0.0665 rollout=0.3400) \| eval_loss=0.3296 \| lr=8.75e-05 \| 70.2s (1366 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:33:58,113 [INFO] __main__: Epoch 24/100 \| train_loss=0.3269 (recon=0.1525 kl=0.0105 rew=0.0841 done=0.0664 rollout=0.3401) \| eval_loss=0.3279 \| lr=8.64e-05 \| 70.1s (1367 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:33:58,135 [INFO] __main__: ★ New best eval loss: 0.3279 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:35:09,021 [INFO] __main__: Epoch 25/100 \| train_loss=0.3263 (recon=0.1523 kl=0.0105 rew=0.0840 done=0.0663 rollout=0.3396) \| eval_loss=0.3275 \| lr=8.54e-05 \| 70.9s (1352 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:35:09,044 [INFO] __main__: ★ New best eval loss: 0.3275 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:36:19,718 [INFO] __main__: Epoch 26/100 \| train_loss=0.3260 (recon=0.1522 kl=0.0106 rew=0.0837 done=0.0660 rollout=0.3395) \| eval_loss=0.3315 \| lr=8.42e-05 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:37:29,992 [INFO] __main__: Epoch 27/100 \| train_loss=0.3259 (recon=0.1518 kl=0.0107 rew=0.0837 done=0.0660 rollout=0.3395) \| eval_loss=0.3270 \| lr=8.31e-05 \| 70.3s (1364 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:37:30,015 [INFO] __main__: ★ New best eval loss: 0.3270 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:38:40,921 [INFO] __main__: Epoch 28/100 \| train_loss=0.3266 (recon=0.1520 kl=0.0110 rew=0.0839 done=0.0661 rollout=0.3402) \| eval_loss=0.3265 \| lr=8.19e-05 \| 70.9s (1352 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:38:40,942 [INFO] __main__: ★ New best eval loss: 0.3265 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:39:51,355 [INFO] __main__: Epoch 29/100 \| train_loss=0.3256 (recon=0.1513 kl=0.0110 rew=0.0836 done=0.0658 rollout=0.3395) \| eval_loss=0.3274 \| lr=8.06e-05 \| 70.4s (1361 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:41:02,495 [INFO] __main__: Epoch 30/100 \| train_loss=0.3250 (recon=0.1509 kl=0.0111 rew=0.0834 done=0.0656 rollout=0.3390) \| eval_loss=0.3284 \| lr=7.94e-05 \| 71.1s (1347 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:42:12,904 [INFO] __main__: Epoch 31/100 \| train_loss=0.3251 (recon=0.1508 kl=0.0111 rew=0.0834 done=0.0656 rollout=0.3392) \| eval_loss=0.3278 \| lr=7.81e-05 \| 70.4s (1362 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:43:23,731 [INFO] __main__: Epoch 32/100 \| train_loss=0.3253 (recon=0.1507 kl=0.0113 rew=0.0836 done=0.0658 rollout=0.3392) \| eval_loss=0.3256 \| lr=7.68e-05 \| 70.8s (1353 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:43:23,754 [INFO] __main__: ★ New best eval loss: 0.3256 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:44:34,007 [INFO] __main__: Epoch 33/100 \| train_loss=0.3250 (recon=0.1503 kl=0.0113 rew=0.0835 done=0.0657 rollout=0.3392) \| eval_loss=0.3246 \| lr=7.55e-05 \| 70.3s (1364 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:44:34,030 [INFO] __main__: ★ New best eval loss: 0.3246 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:45:45,357 [INFO] __main__: Epoch 34/100 \| train_loss=0.3250 (recon=0.1502 kl=0.0116 rew=0.0835 done=0.0657 rollout=0.3390) \| eval_loss=0.3235 \| lr=7.41e-05 \| 71.3s (1344 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:45:45,380 [INFO] __main__: ★ New best eval loss: 0.3235 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:46:56,106 [INFO] __main__: Epoch 35/100 \| train_loss=0.3236 (recon=0.1495 kl=0.0113 rew=0.0833 done=0.0655 rollout=0.3377) \| eval_loss=0.3261 \| lr=7.27e-05 \| 70.7s (1355 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:48:06,339 [INFO] __main__: Epoch 36/100 \| train_loss=0.3235 (recon=0.1490 kl=0.0114 rew=0.0833 done=0.0655 rollout=0.3377) \| eval_loss=0.3237 \| lr=7.13e-05 \| 70.2s (1365 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:49:16,519 [INFO] __main__: Epoch 37/100 \| train_loss=0.3236 (recon=0.1495 kl=0.0115 rew=0.0831 done=0.0653 rollout=0.3377) \| eval_loss=0.3267 \| lr=6.99e-05 \| 70.2s (1366 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:50:27,556 [INFO] __main__: Epoch 38/100 \| train_loss=0.3527 (recon=0.1496 kl=0.0665 rew=0.0836 done=0.0659 rollout=0.3398) \| eval_loss=2.2169 \| lr=6.84e-05 \| 71.0s (1349 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:51:38,153 [INFO] __main__: Epoch 39/100 \| train_loss=0.3815 (recon=0.1745 kl=0.0569 rew=0.0906 done=0.0711 rollout=0.3697) \| eval_loss=0.3257 \| lr=6.69e-05 \| 70.6s (1358 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:52:49,003 [INFO] __main__: Epoch 40/100 \| train_loss=0.3221 (recon=0.1484 kl=0.0096 rew=0.0837 done=0.0659 rollout=0.3367) \| eval_loss=0.3214 \| lr=6.55e-05 \| 70.8s (1353 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:52:49,026 [INFO] __main__: ★ New best eval loss: 0.3214 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:53:59,507 [INFO] __main__: Epoch 41/100 \| train_loss=0.3204 (recon=0.1467 kl=0.0101 rew=0.0829 done=0.0652 rollout=0.3358) \| eval_loss=0.3207 \| lr=6.39e-05 \| 70.5s (1360 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:53:59,530 [INFO] __main__: ★ New best eval loss: 0.3207 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:55:10,159 [INFO] __main__: Epoch 42/100 \| train_loss=0.3198 (recon=0.1463 kl=0.0105 rew=0.0826 done=0.0649 rollout=0.3353) \| eval_loss=0.3206 \| lr=6.24e-05 \| 70.6s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:55:10,182 [INFO] __main__: ★ New best eval loss: 0.3206 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:56:20,740 [INFO] __main__: Epoch 43/100 \| train_loss=0.3191 (recon=0.1458 kl=0.0105 rew=0.0825 done=0.0647 rollout=0.3348) \| eval_loss=0.3209 \| lr=6.09e-05 \| 70.6s (1359 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:57:31,289 [INFO] __main__: Epoch 44/100 \| train_loss=0.3191 (recon=0.1458 kl=0.0108 rew=0.0822 done=0.0645 rollout=0.3350) \| eval_loss=0.3205 \| lr=5.94e-05 \| 70.5s (1359 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:57:31,312 [INFO] __main__: ★ New best eval loss: 0.3205 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:58:42,262 [INFO] __main__: Epoch 45/100 \| train_loss=0.3190 (recon=0.1455 kl=0.0109 rew=0.0823 done=0.0644 rollout=0.3349) \| eval_loss=0.3199 \| lr=5.78e-05 \| 70.9s (1351 samples/s) \| gpu_mem=1.3GB
	2026-02-25 18:58:42,284 [INFO] __main__: ★ New best eval loss: 0.3199 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 18:59:53,374 [INFO] __main__: Epoch 46/100 \| train_loss=0.3185 (recon=0.1452 kl=0.0108 rew=0.0822 done=0.0643 rollout=0.3346) \| eval_loss=0.3209 \| lr=5.63e-05 \| 71.1s (1348 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:01:04,213 [INFO] __main__: Epoch 47/100 \| train_loss=0.3188 (recon=0.1451 kl=0.0110 rew=0.0824 done=0.0644 rollout=0.3347) \| eval_loss=0.3196 \| lr=5.47e-05 \| 70.8s (1353 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:01:04,236 [INFO] __main__: ★ New best eval loss: 0.3196 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:02:14,681 [INFO] __main__: Epoch 48/100 \| train_loss=0.3182 (recon=0.1448 kl=0.0110 rew=0.0822 done=0.0642 rollout=0.3341) \| eval_loss=0.3195 \| lr=5.31e-05 \| 70.4s (1361 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:02:14,704 [INFO] __main__: ★ New best eval loss: 0.3195 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:03:25,389 [INFO] __main__: Epoch 49/100 \| train_loss=0.3182 (recon=0.1448 kl=0.0110 rew=0.0822 done=0.0642 rollout=0.3342) \| eval_loss=0.3294 \| lr=5.16e-05 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:04:36,190 [INFO] __main__: Epoch 50/100 \| train_loss=0.3184 (recon=0.1445 kl=0.0111 rew=0.0822 done=0.0643 rollout=0.3346) \| eval_loss=0.3213 \| lr=5.00e-05 \| 70.8s (1354 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:05:46,967 [INFO] __main__: Epoch 51/100 \| train_loss=0.3177 (recon=0.1442 kl=0.0110 rew=0.0821 done=0.0642 rollout=0.3339) \| eval_loss=0.3190 \| lr=4.84e-05 \| 70.8s (1355 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:05:46,990 [INFO] __main__: ★ New best eval loss: 0.3190 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:06:57,321 [INFO] __main__: Epoch 52/100 \| train_loss=0.3180 (recon=0.1442 kl=0.0111 rew=0.0821 done=0.0642 rollout=0.3344) \| eval_loss=0.3201 \| lr=4.69e-05 \| 70.3s (1363 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:08:07,968 [INFO] __main__: Epoch 53/100 \| train_loss=0.3179 (recon=0.1437 kl=0.0112 rew=0.0824 done=0.0644 rollout=0.3342) \| eval_loss=0.3172 \| lr=4.53e-05 \| 70.6s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:08:07,991 [INFO] __main__: ★ New best eval loss: 0.3172 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:09:18,618 [INFO] __main__: Epoch 54/100 \| train_loss=0.3170 (recon=0.1433 kl=0.0111 rew=0.0820 done=0.0641 rollout=0.3334) \| eval_loss=0.3191 \| lr=4.37e-05 \| 70.6s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:10:29,306 [INFO] __main__: Epoch 55/100 \| train_loss=0.3167 (recon=0.1430 kl=0.0113 rew=0.0820 done=0.0641 rollout=0.3331) \| eval_loss=0.3181 \| lr=4.22e-05 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:11:40,099 [INFO] __main__: Epoch 56/100 \| train_loss=0.3168 (recon=0.1429 kl=0.0113 rew=0.0820 done=0.0642 rollout=0.3332) \| eval_loss=0.3191 \| lr=4.06e-05 \| 70.8s (1354 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:12:50,815 [INFO] __main__: Epoch 57/100 \| train_loss=0.3163 (recon=0.1424 kl=0.0112 rew=0.0819 done=0.0641 rollout=0.3329) \| eval_loss=0.3188 \| lr=3.91e-05 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:14:01,170 [INFO] __main__: Epoch 58/100 \| train_loss=0.3168 (recon=0.1426 kl=0.0114 rew=0.0820 done=0.0641 rollout=0.3335) \| eval_loss=0.3182 \| lr=3.76e-05 \| 70.4s (1362 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:15:12,063 [INFO] __main__: Epoch 59/100 \| train_loss=0.3163 (recon=0.1425 kl=0.0113 rew=0.0820 done=0.0640 rollout=0.3327) \| eval_loss=0.3188 \| lr=3.61e-05 \| 70.9s (1352 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:16:22,721 [INFO] __main__: Epoch 60/100 \| train_loss=0.3157 (recon=0.1421 kl=0.0113 rew=0.0818 done=0.0639 rollout=0.3322) \| eval_loss=0.3179 \| lr=3.45e-05 \| 70.7s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:17:33,459 [INFO] __main__: Epoch 61/100 \| train_loss=0.3162 (recon=0.1420 kl=0.0114 rew=0.0820 done=0.0641 rollout=0.3328) \| eval_loss=0.3165 \| lr=3.31e-05 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:17:33,480 [INFO] __main__: ★ New best eval loss: 0.3165 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:18:44,368 [INFO] __main__: Epoch 62/100 \| train_loss=0.3155 (recon=0.1415 kl=0.0113 rew=0.0820 done=0.0640 rollout=0.3321) \| eval_loss=0.3156 \| lr=3.16e-05 \| 70.9s (1352 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:18:44,389 [INFO] __main__: ★ New best eval loss: 0.3156 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:19:55,957 [INFO] __main__: Epoch 63/100 \| train_loss=0.3151 (recon=0.1414 kl=0.0112 rew=0.0819 done=0.0640 rollout=0.3317) \| eval_loss=0.3181 \| lr=3.01e-05 \| 71.6s (1339 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:21:06,500 [INFO] __main__: Epoch 64/100 \| train_loss=0.3146 (recon=0.1412 kl=0.0112 rew=0.0817 done=0.0639 rollout=0.3313) \| eval_loss=0.3156 \| lr=2.87e-05 \| 70.5s (1359 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:22:18,147 [INFO] __main__: Epoch 65/100 \| train_loss=0.3152 (recon=0.1415 kl=0.0114 rew=0.0819 done=0.0640 rollout=0.3317) \| eval_loss=0.3259 \| lr=2.73e-05 \| 71.6s (1338 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:23:29,450 [INFO] __main__: Epoch 66/100 \| train_loss=0.3153 (recon=0.1414 kl=0.0113 rew=0.0820 done=0.0641 rollout=0.3318) \| eval_loss=0.3175 \| lr=2.59e-05 \| 71.3s (1344 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:24:40,964 [INFO] __main__: Epoch 67/100 \| train_loss=0.3145 (recon=0.1408 kl=0.0112 rew=0.0819 done=0.0641 rollout=0.3310) \| eval_loss=0.3169 \| lr=2.45e-05 \| 71.5s (1340 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:25:51,897 [INFO] __main__: Epoch 68/100 \| train_loss=0.3149 (recon=0.1411 kl=0.0114 rew=0.0819 done=0.0640 rollout=0.3313) \| eval_loss=0.3191 \| lr=2.32e-05 \| 70.9s (1351 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:27:02,722 [INFO] __main__: Epoch 69/100 \| train_loss=0.3148 (recon=0.1408 kl=0.0112 rew=0.0821 done=0.0642 rollout=0.3313) \| eval_loss=0.3160 \| lr=2.19e-05 \| 70.8s (1353 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:28:14,130 [INFO] __main__: Epoch 70/100 \| train_loss=0.3139 (recon=0.1406 kl=0.0110 rew=0.0819 done=0.0640 rollout=0.3303) \| eval_loss=0.3164 \| lr=2.06e-05 \| 71.4s (1342 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:29:25,313 [INFO] __main__: Epoch 71/100 \| train_loss=0.3142 (recon=0.1406 kl=0.0111 rew=0.0819 done=0.0640 rollout=0.3307) \| eval_loss=0.3176 \| lr=1.94e-05 \| 71.2s (1347 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:30:36,305 [INFO] __main__: Epoch 72/100 \| train_loss=0.3141 (recon=0.1407 kl=0.0111 rew=0.0819 done=0.0640 rollout=0.3307) \| eval_loss=0.3148 \| lr=1.81e-05 \| 71.0s (1350 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:30:36,326 [INFO] __main__: ★ New best eval loss: 0.3148 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:31:47,498 [INFO] __main__: Epoch 73/100 \| train_loss=0.3139 (recon=0.1402 kl=0.0111 rew=0.0820 done=0.0640 rollout=0.3305) \| eval_loss=0.3138 \| lr=1.69e-05 \| 71.2s (1347 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:31:47,521 [INFO] __main__: ★ New best eval loss: 0.3138 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:32:58,167 [INFO] __main__: Epoch 74/100 \| train_loss=0.3135 (recon=0.1400 kl=0.0109 rew=0.0820 done=0.0640 rollout=0.3301) \| eval_loss=0.3154 \| lr=1.58e-05 \| 70.6s (1357 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:34:09,526 [INFO] __main__: Epoch 75/100 \| train_loss=0.3139 (recon=0.1399 kl=0.0112 rew=0.0821 done=0.0641 rollout=0.3304) \| eval_loss=0.3162 \| lr=1.46e-05 \| 71.4s (1343 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:35:20,593 [INFO] __main__: Epoch 76/100 \| train_loss=0.3137 (recon=0.1399 kl=0.0110 rew=0.0820 done=0.0641 rollout=0.3304) \| eval_loss=0.3144 \| lr=1.36e-05 \| 71.1s (1349 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:36:31,515 [INFO] __main__: Epoch 77/100 \| train_loss=0.3132 (recon=0.1397 kl=0.0109 rew=0.0820 done=0.0640 rollout=0.3299) \| eval_loss=0.3146 \| lr=1.25e-05 \| 70.9s (1352 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:37:43,067 [INFO] __main__: Epoch 78/100 \| train_loss=0.3128 (recon=0.1395 kl=0.0109 rew=0.0818 done=0.0639 rollout=0.3295) \| eval_loss=0.3158 \| lr=1.15e-05 \| 71.6s (1340 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:38:54,333 [INFO] __main__: Epoch 79/100 \| train_loss=0.3132 (recon=0.1397 kl=0.0110 rew=0.0819 done=0.0640 rollout=0.3299) \| eval_loss=0.3141 \| lr=1.05e-05 \| 71.3s (1345 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:40:05,333 [INFO] __main__: Epoch 80/100 \| train_loss=0.3131 (recon=0.1394 kl=0.0109 rew=0.0821 done=0.0641 rollout=0.3297) \| eval_loss=0.3148 \| lr=9.55e-06 \| 71.0s (1350 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:41:16,170 [INFO] __main__: Epoch 81/100 \| train_loss=0.3127 (recon=0.1395 kl=0.0109 rew=0.0818 done=0.0639 rollout=0.3294) \| eval_loss=0.3149 \| lr=8.65e-06 \| 70.8s (1354 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:42:26,882 [INFO] __main__: Epoch 82/100 \| train_loss=0.3132 (recon=0.1394 kl=0.0109 rew=0.0820 done=0.0641 rollout=0.3299) \| eval_loss=0.3134 \| lr=7.78e-06 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:42:26,903 [INFO] __main__: ★ New best eval loss: 0.3134 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:43:38,250 [INFO] __main__: Epoch 83/100 \| train_loss=0.3129 (recon=0.1394 kl=0.0109 rew=0.0820 done=0.0641 rollout=0.3295) \| eval_loss=0.3135 \| lr=6.96e-06 \| 71.3s (1344 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:44:48,938 [INFO] __main__: Epoch 84/100 \| train_loss=0.3129 (recon=0.1393 kl=0.0109 rew=0.0821 done=0.0641 rollout=0.3296) \| eval_loss=0.3134 \| lr=6.18e-06 \| 70.7s (1356 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:44:48,960 [INFO] __main__: ★ New best eval loss: 0.3134 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:45:59,739 [INFO] __main__: Epoch 85/100 \| train_loss=0.3127 (recon=0.1391 kl=0.0108 rew=0.0819 done=0.0639 rollout=0.3295) \| eval_loss=0.3146 \| lr=5.45e-06 \| 70.8s (1354 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:47:11,503 [INFO] __main__: Epoch 86/100 \| train_loss=0.3126 (recon=0.1391 kl=0.0108 rew=0.0820 done=0.0640 rollout=0.3292) \| eval_loss=0.3152 \| lr=4.76e-06 \| 71.8s (1336 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:48:22,493 [INFO] __main__: Epoch 87/100 \| train_loss=0.3125 (recon=0.1392 kl=0.0108 rew=0.0819 done=0.0639 rollout=0.3293) \| eval_loss=0.3145 \| lr=4.11e-06 \| 71.0s (1350 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:49:34,161 [INFO] __main__: Epoch 88/100 \| train_loss=0.3124 (recon=0.1391 kl=0.0107 rew=0.0819 done=0.0640 rollout=0.3291) \| eval_loss=0.3147 \| lr=3.51e-06 \| 71.7s (1338 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:50:45,579 [INFO] __main__: Epoch 89/100 \| train_loss=0.3123 (recon=0.1391 kl=0.0109 rew=0.0818 done=0.0639 rollout=0.3291) \| eval_loss=0.3132 \| lr=2.96e-06 \| 71.4s (1342 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:50:45,600 [INFO] __main__: ★ New best eval loss: 0.3132 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:51:57,816 [INFO] __main__: Epoch 90/100 \| train_loss=0.3123 (recon=0.1390 kl=0.0108 rew=0.0819 done=0.0638 rollout=0.3290) \| eval_loss=0.3142 \| lr=2.45e-06 \| 72.2s (1327 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:53:09,370 [INFO] __main__: Epoch 91/100 \| train_loss=0.3123 (recon=0.1390 kl=0.0108 rew=0.0819 done=0.0638 rollout=0.3290) \| eval_loss=0.3145 \| lr=1.99e-06 \| 71.5s (1340 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:54:20,932 [INFO] __main__: Epoch 92/100 \| train_loss=0.3124 (recon=0.1389 kl=0.0108 rew=0.0820 done=0.0641 rollout=0.3291) \| eval_loss=0.3143 \| lr=1.57e-06 \| 71.6s (1339 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:55:32,652 [INFO] __main__: Epoch 93/100 \| train_loss=0.3122 (recon=0.1391 kl=0.0107 rew=0.0819 done=0.0639 rollout=0.3288) \| eval_loss=0.3124 \| lr=1.20e-06 \| 71.7s (1337 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:55:32,682 [INFO] __main__: ★ New best eval loss: 0.3124 → checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 19:56:45,681 [INFO] __main__: Epoch 94/100 \| train_loss=0.3124 (recon=0.1390 kl=0.0109 rew=0.0820 done=0.0640 rollout=0.3291) \| eval_loss=0.3139 \| lr=8.86e-07 \| 73.0s (1313 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:57:57,869 [INFO] __main__: Epoch 95/100 \| train_loss=0.3125 (recon=0.1390 kl=0.0108 rew=0.0819 done=0.0639 rollout=0.3293) \| eval_loss=0.3136 \| lr=6.16e-07 \| 72.2s (1328 samples/s) \| gpu_mem=1.3GB
	2026-02-25 19:59:10,503 [INFO] __main__: Epoch 96/100 \| train_loss=0.3121 (recon=0.1390 kl=0.0108 rew=0.0818 done=0.0638 rollout=0.3289) \| eval_loss=0.3130 \| lr=3.94e-07 \| 72.6s (1320 samples/s) \| gpu_mem=1.3GB
	2026-02-25 20:00:23,114 [INFO] __main__: Epoch 97/100 \| train_loss=0.3125 (recon=0.1389 kl=0.0108 rew=0.0820 done=0.0640 rollout=0.3293) \| eval_loss=0.3127 \| lr=2.22e-07 \| 72.6s (1320 samples/s) \| gpu_mem=1.3GB
	2026-02-25 20:01:35,276 [INFO] __main__: Epoch 98/100 \| train_loss=0.3121 (recon=0.1389 kl=0.0107 rew=0.0819 done=0.0639 rollout=0.3288) \| eval_loss=0.3136 \| lr=9.87e-08 \| 72.2s (1328 samples/s) \| gpu_mem=1.3GB
	2026-02-25 20:02:47,305 [INFO] __main__: Epoch 99/100 \| train_loss=0.3118 (recon=0.1388 kl=0.0107 rew=0.0818 done=0.0639 rollout=0.3285) \| eval_loss=0.3140 \| lr=2.47e-08 \| 72.0s (1331 samples/s) \| gpu_mem=1.3GB
	2026-02-25 20:03:59,255 [INFO] __main__: Epoch 100/100 \| train_loss=0.3119 (recon=0.1389 kl=0.0108 rew=0.0818 done=0.0638 rollout=0.3286) \| eval_loss=0.3145 \| lr=0.00e+00 \| 71.9s (1332 samples/s) \| gpu_mem=1.3GB
	2026-02-25 20:03:59,299 [INFO] __main__: ═══ WORLD MODEL TRAINING COMPLETE ═══
	2026-02-25 20:03:59,299 [INFO] __main__: Best eval loss: 0.3124
	2026-02-25 20:03:59,299 [INFO] __main__: Best checkpoint: checkpoints/world-model/tutoring_rssm_best.pt
	2026-02-25 20:03:59,299 [INFO] __main__: Final checkpoint: checkpoints/world-model/tutoring_rssm_final.pt

	════════════════════════════════════════════════════════════
	World Model Training Complete
	════════════════════════════════════════════════════════════
	Best checkpoint: checkpoints/world-model/tutoring_rssm_best.pt
	════════════════════════════════════════════════════════════