python train.py\ --testing True\ --seed 97\ --data_dir ./demos/ftd_processed\ --n_embd 64\ --n_head 4\ --n_layer 2\ --ff_width 4\ --intermediate_schedules True\ --train_batch_size 64\ --val_batch_size 256\ --nb_epochs 5\ --early_stopping_patience 15\ --dropout 0.0\ --checkpoint_interval_ratio 0.25\ --decay_lr True\ --lr_partitions_ratios 0.66\ --init_lr 1e-4\ --max_lr 1e-3\ --min_lr 5e-5\ --lr_warmup_iters_ratio 0.1\ --lr_decay_iters_ratio 0.95\ --beta1 0.9\ --beta2 0.95\ --weight_decay 1e-1\ --grad_clip 1.0\ --compile ""\ --compile_mode default\ --save_only_last_checkpoint True\ --output_dir "./demos/train_artifacts"\