python -m scripts.base_train
--depth=12
--max_seq_len=1024
--device_batch_size=128
--target_param_data_ratio=40
python -m scripts.base_train
--depth=12
--max_seq_len=1024
--device_batch_size=128
--target_param_data_ratio=40