| python train.py\ | |
| --testing True\ | |
| --seed 97\ | |
| --data_dir ./demos/ftd_processed\ | |
| --n_embd 64\ | |
| --n_head 4\ | |
| --n_layer 2\ | |
| --ff_width 4\ | |
| --intermediate_schedules True\ | |
| --train_batch_size 64\ | |
| --val_batch_size 256\ | |
| --nb_epochs 5\ | |
| --early_stopping_patience 15\ | |
| --dropout 0.0\ | |
| --checkpoint_interval_ratio 0.25\ | |
| --decay_lr True\ | |
| --lr_partitions_ratios 0.66\ | |
| --init_lr 1e-4\ | |
| --max_lr 1e-3\ | |
| --min_lr 5e-5\ | |
| --lr_warmup_iters_ratio 0.1\ | |
| --lr_decay_iters_ratio 0.95\ | |
| --beta1 0.9\ | |
| --beta2 0.95\ | |
| --weight_decay 1e-1\ | |
| --grad_clip 1.0\ | |
| --compile ""\ | |
| --compile_mode default\ | |
| --save_only_last_checkpoint True\ | |
| --output_dir "./demos/train_artifacts"\ |