amirali1985 commited on
Commit
f5b2f72
·
verified ·
1 Parent(s): fe8c900

Upload modular/code/sweep_undersized.txt with huggingface_hub

Browse files
Files changed (1) hide show
  1. modular/code/sweep_undersized.txt +18 -0
modular/code/sweep_undersized.txt ADDED
@@ -0,0 +1,18 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # Undersized architecture sweep: baseline vs SoRL
2
+ # Goal: capacity-constrained models forced to use abstract tokens
3
+ # 10K epochs (SoRL groks ~2500, baseline signal by ~5K)
4
+
5
+ python -m arithmetic.modular.training.train --mode baseline --n_layer 1 --n_head 1 --n_embd 32 --d_mlp 128 --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_baseline_1L1H32d --device cuda:0
6
+ python -m arithmetic.modular.training.train --mode sorl --n_layer 1 --n_head 1 --n_embd 32 --d_mlp 128 --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_sorl_1L1H32d --device cuda:0
7
+ python -m arithmetic.modular.training.train --mode baseline --n_layer 1 --n_head 1 --n_embd 64 --d_mlp 256 --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_baseline_1L1H64d --device cuda:0
8
+ python -m arithmetic.modular.training.train --mode sorl --n_layer 1 --n_head 1 --n_embd 64 --d_mlp 256 --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_sorl_1L1H64d --device cuda:0
9
+ python -m arithmetic.modular.training.train --mode baseline --n_layer 1 --n_head 2 --n_embd 64 --d_mlp 256 --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_baseline_1L2H64d --device cuda:0
10
+ python -m arithmetic.modular.training.train --mode sorl --n_layer 1 --n_head 2 --n_embd 64 --d_mlp 256 --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_sorl_1L2H64d --device cuda:0
11
+ python -m arithmetic.modular.training.train --mode baseline --n_layer 1 --n_head 4 --n_embd 64 --d_mlp 256 --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_baseline_1L4H64d --device cuda:0
12
+ python -m arithmetic.modular.training.train --mode sorl --n_layer 1 --n_head 4 --n_embd 64 --d_mlp 256 --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_sorl_1L4H64d --device cuda:0
13
+ python -m arithmetic.modular.training.train --mode baseline --n_layer 1 --n_head 1 --n_embd 128 --d_mlp 512 --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_baseline_1L1H128d --device cuda:0
14
+ python -m arithmetic.modular.training.train --mode sorl --n_layer 1 --n_head 1 --n_embd 128 --d_mlp 512 --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_sorl_1L1H128d --device cuda:0
15
+ python -m arithmetic.modular.training.train --mode baseline --n_layer 1 --n_head 2 --n_embd 128 --d_mlp 512 --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_baseline_1L2H128d --device cuda:0
16
+ python -m arithmetic.modular.training.train --mode sorl --n_layer 1 --n_head 2 --n_embd 128 --d_mlp 512 --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_sorl_1L2H128d --device cuda:0
17
+ python -m arithmetic.modular.training.train --mode baseline --n_layer 1 --n_head 4 --n_embd 128 --d_mlp 512 --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_baseline_1L4H128d --device cuda:0
18
+ python -m arithmetic.modular.training.train --mode sorl --n_layer 1 --n_head 4 --n_embd 128 --d_mlp 512 --num_epochs 10000 --batch_size 0 --weight_decay 1.0 --eval_every 200 --log_every 100 --job_name mod_sorl_1L4H128d --device cuda:0