Training Log — ARX5 Multitask Micro Advantaged

Mode

run_type: experiment
objective: Fine-tune PI0.5 on the micro training mix (14 datasets) with advantaged valid-index filtering; compare to baseline variant.

config: pi05_arx5_multitask_micro_advantaged
exp_name: micro_advantaged_v1
dataset: training_mix_micro.json — 14 villekuosmanen/* LeRobot repos
key settings: 14D bimanual action space (7D padded), delta actions (delta joints, absolute grippers), per-timestep action normalization, 30k steps, batch_size=36, lr=5e-5 cosine (1k warmup), from pi0.5 base weights

loss_one_liner: Steep drop from 0.18 to ~0.02 in the first 5k, then steady decline to 0.008 by 30k; lower final loss than baseline (0.0080 vs 0.0107).

Verify with:

cd checkpoints/<step> && find params -type f | sort | xargs sha256sum | sha256sum

Step	SHA-256
25,000	`1648c67a7ac44d377f28f316384bdcab72af4422237f9f9485e1e77a02c6a65c`
29,999	`aff337d89dd426388303855ed8fca784f5b5615b33cbad14f26dfbe8688caa88`