thoughtworks
/

arithmetic-sorl

+# Undersized architecture sweep: baseline vs SoRL
+# Goal: capacity-constrained models forced to use abstract tokens
+# 10K epochs (SoRL groks ~2500, baseline signal by ~5K)
+python -m arithmetic.modular.training.train --mode baseline --n_layer 1 --n_head 1 --n_embd 32  --d_mlp 128  --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_baseline_1L1H32d  --device cuda:0
+python -m arithmetic.modular.training.train --mode sorl     --n_layer 1 --n_head 1 --n_embd 32  --d_mlp 128  --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_sorl_1L1H32d     --device cuda:0
+python -m arithmetic.modular.training.train --mode baseline --n_layer 1 --n_head 1 --n_embd 64  --d_mlp 256  --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_baseline_1L1H64d  --device cuda:0
+python -m arithmetic.modular.training.train --mode sorl     --n_layer 1 --n_head 1 --n_embd 64  --d_mlp 256  --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_sorl_1L1H64d     --device cuda:0
+python -m arithmetic.modular.training.train --mode baseline --n_layer 1 --n_head 2 --n_embd 64  --d_mlp 256  --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_baseline_1L2H64d  --device cuda:0
+python -m arithmetic.modular.training.train --mode sorl     --n_layer 1 --n_head 2 --n_embd 64  --d_mlp 256  --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_sorl_1L2H64d     --device cuda:0
+python -m arithmetic.modular.training.train --mode baseline --n_layer 1 --n_head 4 --n_embd 64  --d_mlp 256  --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_baseline_1L4H64d  --device cuda:0
+python -m arithmetic.modular.training.train --mode sorl     --n_layer 1 --n_head 4 --n_embd 64  --d_mlp 256  --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_sorl_1L4H64d     --device cuda:0
+python -m arithmetic.modular.training.train --mode baseline --n_layer 1 --n_head 1 --n_embd 128 --d_mlp 512  --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_baseline_1L1H128d --device cuda:0
+python -m arithmetic.modular.training.train --mode sorl     --n_layer 1 --n_head 1 --n_embd 128 --d_mlp 512  --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_sorl_1L1H128d     --device cuda:0
+python -m arithmetic.modular.training.train --mode baseline --n_layer 1 --n_head 2 --n_embd 128 --d_mlp 512  --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_baseline_1L2H128d --device cuda:0
+python -m arithmetic.modular.training.train --mode sorl     --n_layer 1 --n_head 2 --n_embd 128 --d_mlp 512  --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_sorl_1L2H128d     --device cuda:0
+python -m arithmetic.modular.training.train --mode baseline --n_layer 1 --n_head 4 --n_embd 128 --d_mlp 512  --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_baseline_1L4H128d --device cuda:0
+python -m arithmetic.modular.training.train --mode sorl     --n_layer 1 --n_head 4 --n_embd 128 --d_mlp 512  --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_sorl_1L4H128d     --device cuda:0