Upload 5 files

bb7aa3d almost 3 years ago

287 kB

	Setting ds_accelerator to cuda (auto detect)
	[2023-06-12 07:26:44,544] [WARNING] [runner.py:196:fetch_hostfile] Unable to find hostfile, will proceed with training with local resources only.
	Detected CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7: setting --include=localhost:0,1,2,3,4,5,6,7
	[2023-06-12 07:26:44,602] [INFO] [runner.py:555:main] cmd = /home/zhaiyuanzhao/anaconda3/envs/RLHF/bin/python -u -m deepspeed.launcher.launch --world_info=eyJsb2NhbGhvc3QiOiBbMCwgMSwgMiwgMywgNCwgNSwgNiwgN119 --master_addr=127.0.0.1 --master_port=29500 --enable_each_rank_log=None main.py --data_path /home/zhaiyuanzhao/llm/dataset/rm-static/data /home/zhaiyuanzhao/llm/dataset/full-hh-rlhf/data /home/zhaiyuanzhao/llm/dataset/synthetic-instruct-gptj-pairwise/data /home/zhaiyuanzhao/llm/dataset/rlhf-reward-datasets/data --data_split 2,4,4 --model_name_or_path /home/zhaiyuanzhao/llm/opt-350m --num_padding_at_beginning 1 --per_device_train_batch_size 4 --per_device_eval_batch_size 4 --max_seq_len 512 --learning_rate 5e-5 --weight_decay 0.1 --num_train_epochs 1 --disable_dropout --gradient_accumulation_steps 1 --lr_scheduler_type cosine --num_warmup_steps 0 --seed 1234 --zero_stage 0 --deepspeed --output_dir ./output
	Setting ds_accelerator to cuda (auto detect)
	[2023-06-12 07:26:46,974] [INFO] [launch.py:145:main] WORLD INFO DICT: {'localhost': [0, 1, 2, 3, 4, 5, 6, 7]}
	[2023-06-12 07:26:46,974] [INFO] [launch.py:151:main] nnodes=1, num_local_procs=8, node_rank=0
	[2023-06-12 07:26:46,974] [INFO] [launch.py:162:main] global_rank_mapping=defaultdict(<class 'list'>, {'localhost': [0, 1, 2, 3, 4, 5, 6, 7]})
	[2023-06-12 07:26:46,974] [INFO] [launch.py:163:main] dist_world_size=8
	[2023-06-12 07:26:46,974] [INFO] [launch.py:165:main] Setting CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
	Setting ds_accelerator to cuda (auto detect)
	Setting ds_accelerator to cuda (auto detect)
	Setting ds_accelerator to cuda (auto detect)
	Setting ds_accelerator to cuda (auto detect)
	Setting ds_accelerator to cuda (auto detect)
	Setting ds_accelerator to cuda (auto detect)
	Setting ds_accelerator to cuda (auto detect)
	Setting ds_accelerator to cuda (auto detect)
	[2023-06-12 07:26:51,092] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
	[2023-06-12 07:26:51,093] [INFO] [comm.py:594:init_distributed] cdb=None
	[2023-06-12 07:26:51,093] [INFO] [comm.py:625:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
	[2023-06-12 07:26:51,137] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
	[2023-06-12 07:26:51,138] [INFO] [comm.py:594:init_distributed] cdb=None
	[2023-06-12 07:26:51,228] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
	[2023-06-12 07:26:51,229] [INFO] [comm.py:594:init_distributed] cdb=None
	[2023-06-12 07:26:51,237] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
	[2023-06-12 07:26:51,237] [INFO] [comm.py:594:init_distributed] cdb=None
	[2023-06-12 07:26:51,268] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
	[2023-06-12 07:26:51,268] [INFO] [comm.py:594:init_distributed] cdb=None
	[2023-06-12 07:26:51,291] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
	[2023-06-12 07:26:51,291] [INFO] [comm.py:594:init_distributed] cdb=None
	[2023-06-12 07:26:51,301] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
	[2023-06-12 07:26:51,301] [INFO] [comm.py:594:init_distributed] cdb=None
	[2023-06-12 07:26:51,302] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented
	[2023-06-12 07:26:51,302] [INFO] [comm.py:594:init_distributed] cdb=None
	model loaded
	model loaded
	model loaded
	model loaded
	model loaded
	model loaded
	model loaded
	model loaded
	Found cached dataset parquet (/home/zhaiyuanzhao/.cache/huggingface/datasets/parquet/default-d09980a08a1dbd7c/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec)
	0%\| \| 0/2 [00:00<?, ?it/s] 100%\|██████████\| 2/2 [00:00<00:00, 426.34it/s]
	Found cached dataset parquet (/home/zhaiyuanzhao/.cache/huggingface/datasets/parquet/default-4308203777c8e513/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec)
	0%\| \| 0/2 [00:00<?, ?it/s] 100%\|██████████\| 2/2 [00:00<00:00, 431.40it/s]
	Found cached dataset parquet (/home/zhaiyuanzhao/.cache/huggingface/datasets/parquet/default-889242b757bcedb6/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec)
	0%\| \| 0/1 [00:00<?, ?it/s] 100%\|██████████\| 1/1 [00:00<00:00, 3.22it/s] 100%\|██████████\| 1/1 [00:00<00:00, 3.21it/s]
	Found cached dataset parquet (/home/zhaiyuanzhao/.cache/huggingface/datasets/parquet/default-d7a2d440e1098887/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec)
	0%\| \| 0/2 [00:00<?, ?it/s] 50%\|█████ \| 1/2 [00:00<00:00, 1.17it/s] 100%\|██████████\| 2/2 [00:00<00:00, 2.14it/s]
	Installed CUDA version 11.4 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
	Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
	Installed CUDA version 11.4 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
	Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
	Installed CUDA version 11.4 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
	Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
	Installed CUDA version 11.4 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
	Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
	Installed CUDA version 11.4 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
	Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
	Installed CUDA version 11.4 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
	Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
	Installed CUDA version 11.4 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
	Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
	Detected CUDA files, patching ldflags
	Emitting ninja build file /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117/fused_adam/build.ninja...
	Building extension module fused_adam...
	Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
	ninja: no work to do.
	Loading extension module fused_adam...
	Loading extension module fused_adam...
	Loading extension module fused_adam...
	Loading extension module fused_adam...
	Loading extension module fused_adam...
	Loading extension module fused_adam...
	Time to load fused_adam op: 1.3389649391174316 secondsTime to load fused_adam op: 2.0576629638671875 seconds
	Time to load fused_adam op: 1.134117841720581 secondsTime to load fused_adam op: 2.074185371398926 seconds
	Time to load fused_adam op: 1.7726669311523438 seconds


	Time to load fused_adam op: 1.8186185359954834 seconds
	Loading extension module fused_adam...
	Time to load fused_adam op: 1.7075252532958984 seconds
	huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	To disable this warning, you can either:
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true \| false)
	huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	To disable this warning, you can either:
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true \| false)
	huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	To disable this warning, you can either:
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true \| false)
	huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	To disable this warning, you can either:
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true \| false)
	Installed CUDA version 11.4 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
	Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
	huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	To disable this warning, you can either:
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true \| false)
	huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	To disable this warning, you can either:
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true \| false)
	huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	To disable this warning, you can either:
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true \| false)
	Detected CUDA files, patching ldflags
	Emitting ninja build file /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117/fused_adam/build.ninja...
	Building extension module fused_adam...
	Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
	huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	To disable this warning, you can either:
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true \| false)
	ninja: no work to do.
	Loading extension module fused_adam...
	Time to load fused_adam op: 2.440418243408203 seconds
	[2023-06-12 07:32:32,480] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed info: version=0.9.3, git-hash=unknown, git-branch=unknown
	[2023-06-12 07:32:32,481] [INFO] [comm.py:619:init_distributed] Distributed backend already initialized
	[2023-06-12 07:32:34,152] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed Flops Profiler Enabled: False
	[2023-06-12 07:32:34,154] [INFO] [logging.py:96:log_dist] [Rank 0] Removing param_group that has no 'params' in the client Optimizer
	[2023-06-12 07:32:34,154] [INFO] [logging.py:96:log_dist] [Rank 0] Using client Optimizer as basic optimizer
	[2023-06-12 07:32:34,169] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed Basic Optimizer = FusedAdam
	[2023-06-12 07:32:34,169] [INFO] [logging.py:96:log_dist] [Rank 0] Creating fp16 optimizer with dynamic loss scale
	[2023-06-12 07:32:34,410] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed Final Optimizer = FusedAdam
	[2023-06-12 07:32:34,410] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed using client LR scheduler
	[2023-06-12 07:32:34,410] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed LR Scheduler = <torch.optim.lr_scheduler.LambdaLR object at 0x2b8b8fed3df0>
	[2023-06-12 07:32:34,410] [INFO] [logging.py:96:log_dist] [Rank 0] step=0, skipped=0, lr=[5e-05, 5e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
	[2023-06-12 07:32:34,410] [INFO] [config.py:960:print] DeepSpeedEngine configuration:
	Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
	Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...

	Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...[2023-06-12 07:32:34,411] [INFO] [config.py:964:print] activation_checkpointing_config {
	"partition_activations": false,
	"contiguous_memory_optimization": false,
	"cpu_checkpointing": false,
	"number_checkpoints": null,
	"synchronize_checkpoint_boundary": false,
	"profile": false
	}

	[2023-06-12 07:32:34,411] [INFO] [config.py:964:print] aio_config ................... {'block_size': 1048576, 'queue_depth': 8, 'thread_count': 1, 'single_submit': False, 'overlap_events': True}
	Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...[2023-06-12 07:32:34,411] [INFO] [config.py:964:print] amp_enabled .................. False

	Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...[2023-06-12 07:32:34,411] [INFO] [config.py:964:print] amp_params ................... False

	[2023-06-12 07:32:34,411] [INFO] [config.py:964:print] autotuning_config ............ {
	"enabled": false,
	"start_step": null,
	"end_step": null,
	"metric_path": null,
	"arg_mappings": null,
	"metric": "throughput",
	"model_info": null,
	"results_dir": "autotuning_results",
	"exps_dir": "autotuning_exps",
	"overwrite": true,
	"fast": true,
	"start_profile_step": 3,
	"end_profile_step": 5,
	"tuner_type": "gridsearch",
	"tuner_early_stopping": 5,
	"tuner_num_trials": 50,
	"model_info_path": null,
	"mp_size": 1,
	"max_train_batch_size": null,
	"min_train_batch_size": 1,
	"max_train_micro_batch_size_per_gpu": 1.024000e+03,
	"min_train_micro_batch_size_per_gpu": 1,
	"num_tuning_micro_batch_sizes": 3
	}
	[2023-06-12 07:32:34,411] [INFO] [config.py:964:print] bfloat16_enabled ............. False
	[2023-06-12 07:32:34,411] [INFO] [config.py:964:print] checkpoint_parallel_write_pipeline False
	[2023-06-12 07:32:34,411] [INFO] [config.py:964:print] checkpoint_tag_validation_enabled True
	[2023-06-12 07:32:34,411] [INFO] [config.py:964:print] checkpoint_tag_validation_fail False
	[2023-06-12 07:32:34,411] [INFO] [config.py:964:print] comms_config ................. <deepspeed.comm.config.DeepSpeedCommsConfig object at 0x2b8e784141c0>
	[2023-06-12 07:32:34,411] [INFO] [config.py:964:print] communication_data_type ...... None
	[2023-06-12 07:32:34,411] [INFO] [config.py:964:print] compression_config ........... {'weight_quantization': {'shared_parameters': {'enabled': False, 'quantizer_kernel': False, 'schedule_offset': 0, 'quantize_groups': 1, 'quantize_verbose': False, 'quantization_type': 'symmetric', 'quantize_weight_in_forward': False, 'rounding': 'nearest', 'fp16_mixed_quantize': False, 'quantize_change_ratio': 0.001}, 'different_groups': {}}, 'activation_quantization': {'shared_parameters': {'enabled': False, 'quantization_type': 'symmetric', 'range_calibration': 'dynamic', 'schedule_offset': 1000}, 'different_groups': {}}, 'sparse_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'row_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'head_pruning': {'shared_parameters': {'enabled': False, 'method': 'topk', 'schedule_offset': 1000}, 'different_groups': {}}, 'channel_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'layer_reduction': {'enabled': False}}
	[2023-06-12 07:32:34,411] [INFO] [config.py:964:print] curriculum_enabled_legacy .... False
	[2023-06-12 07:32:34,411] [INFO] [config.py:964:print] curriculum_params_legacy ..... False
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] data_efficiency_config ....... {'enabled': False, 'seed': 1234, 'data_sampling': {'enabled': False, 'num_epochs': 1000, 'num_workers': 0, 'curriculum_learning': {'enabled': False}}, 'data_routing': {'enabled': False, 'random_ltd': {'enabled': False, 'layer_token_lr_schedule': {'enabled': False}}}}
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] data_efficiency_enabled ...... False
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] dataloader_drop_last ......... False
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] disable_allgather ............ False
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] dump_state ................... False
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] dynamic_loss_scale_args ...... {'init_scale': 65536, 'scale_window': 100, 'delayed_shift': 2, 'consecutive_hysteresis': False, 'min_scale': 1}
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] eigenvalue_enabled ........... False
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] eigenvalue_gas_boundary_resolution 1
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] eigenvalue_layer_name ........ bert.encoder.layer
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] eigenvalue_layer_num ......... 0
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] eigenvalue_max_iter .......... 100
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] eigenvalue_stability ......... 1e-06
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] eigenvalue_tol ............... 0.01
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] eigenvalue_verbose ........... False
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] elasticity_enabled ........... False
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] flops_profiler_config ........ {
	"enabled": false,
	"recompute_fwd_factor": 0.0,
	"profile_step": 1,
	"module_depth": -1,
	"top_modules": 1,
	"detailed": true,
	"output_file": null
	}
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] fp16_auto_cast ............... False
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] fp16_enabled ................. True
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] fp16_master_weights_and_gradients False
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] global_rank .................. 0
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] grad_accum_dtype ............. None
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] gradient_accumulation_steps .. 1
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] gradient_clipping ............ 1.0
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] gradient_predivide_factor .... 1.0
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] hybrid_engine ................ enabled=False max_out_tokens=512 inference_tp_size=1 release_inference_cache=False pin_parameters=True tp_gather_partition_size=8
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] initial_dynamic_scale ........ 65536
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] load_universal_checkpoint .... False
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] loss_scale ................... 0
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] memory_breakdown ............. False
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] mics_hierarchial_params_gather False
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] mics_shard_size .............. -1
	[2023-06-12 07:32:34,412] [INFO] [config.py:964:print] monitor_config ............... tensorboard=TensorBoardConfig(enabled=False, output_path='', job_name='DeepSpeedJobName') wandb=WandbConfig(enabled=False, group=None, team=None, project='deepspeed') csv_monitor=CSVConfig(enabled=False, output_path='', job_name='DeepSpeedJobName') enabled=False
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] nebula_config ................ {
	"enabled": false,
	"persistent_storage_path": null,
	"persistent_time_interval": 100,
	"num_of_version_in_retention": 2,
	"enable_nebula_load": true,
	"load_path": null
	}
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] optimizer_legacy_fusion ...... False
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] optimizer_name ............... None
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] optimizer_params ............. None
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] pipeline ..................... {'stages': 'auto', 'partition': 'best', 'seed_layers': False, 'activation_checkpoint_interval': 0}
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] pld_enabled .................. False
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] pld_params ................... False
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] prescale_gradients ........... False
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] scheduler_name ............... None
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] scheduler_params ............. None
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] sparse_attention ............. None
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] sparse_gradients_enabled ..... False
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] steps_per_print .............. 10
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] train_batch_size ............. 32
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] train_micro_batch_size_per_gpu 4
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] use_node_local_storage ....... False
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] wall_clock_breakdown ......... False
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] world_size ................... 8
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] zero_allow_untested_optimizer False
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] zero_config .................. stage=0 contiguous_gradients=True reduce_scatter=True reduce_bucket_size=500,000,000 allgather_partitions=True allgather_bucket_size=500,000,000 overlap_comm=False load_from_fp32_weights=True elastic_checkpoint=False offload_param=DeepSpeedZeroOffloadParamConfig(device='none', nvme_path=None, buffer_count=5, buffer_size=100,000,000, max_in_cpu=1,000,000,000, pin_memory=False) offload_optimizer=DeepSpeedZeroOffloadOptimizerConfig(device='none', nvme_path=None, buffer_count=4, pin_memory=False, pipeline=False, pipeline_read=False, pipeline_write=False, fast_init=False) sub_group_size=1,000,000,000 cpu_offload_param=None cpu_offload_use_pin_memory=None cpu_offload=None prefetch_bucket_size=30000000 param_persistence_threshold=10000 model_persistence_threshold=sys.maxsize max_live_parameters=30000000 max_reuse_distance=1,000,000,000 gather_16bit_weights_on_model_save=False stage3_gather_fp16_weights_on_model_save=False ignore_unused_parameters=True legacy_stage1=False round_robin_gradients=False mics_shard_size=-1 mics_hierarchical_params_gather=False memory_efficient_linear=False
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] zero_enabled ................. False
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] zero_force_ds_cpu_optimizer .. True
	[2023-06-12 07:32:34,413] [INFO] [config.py:964:print] zero_optimization_stage ...... 0
	[2023-06-12 07:32:34,413] [INFO] [config.py:950:print_user_config] json = {
	"train_batch_size": 32,
	"train_micro_batch_size_per_gpu": 4,
	"steps_per_print": 10,
	"zero_optimization": {
	"stage": 0,
	"offload_param": {
	"device": "none"
	},
	"offload_optimizer": {
	"device": "none"
	},
	"stage3_param_persistence_threshold": 1.000000e+04,
	"stage3_max_live_parameters": 3.000000e+07,
	"stage3_prefetch_bucket_size": 3.000000e+07,
	"memory_efficient_linear": false
	},
	"fp16": {
	"enabled": true,
	"loss_scale_window": 100
	},
	"gradient_clipping": 1.0,
	"prescale_gradients": false,
	"wall_clock_breakdown": false,
	"hybrid_engine": {
	"enabled": false,
	"max_out_tokens": 512,
	"inference_tp_size": 1,
	"release_inference_cache": false,
	"pin_parameters": true,
	"tp_gather_partition_size": 8
	}
	}
	Using /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
	Emitting ninja build file /home/zhaiyuanzhao/.cache/torch_extensions/py39_cu117/utils/build.ninja...
	Building extension module utils...
	Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
	ninja: no work to do.
	Loading extension module utils...
	Time to load utils op: 1.7743585109710693 seconds
	Loading extension module utils...
	Loading extension module utils...
	Loading extension module utils...
	Loading extension module utils...
	Loading extension module utils...
	Loading extension module utils...
	Loading extension module utils...
	Time to load utils op: 1.8262453079223633 seconds
	Time to load utils op: 1.8265697956085205 seconds
	Time to load utils op: 1.8265929222106934 seconds
	Time to load utils op: 1.8270368576049805 secondsTime to load utils op: 1.8266544342041016 seconds

	Time to load utils op: 1.82395339012146 secondsTime to load utils op: 1.8270204067230225 seconds

	*** Running training ***
	*** Evaluating reward, Epoch 0/1 ***
	chosen_last_scores (higher is better) : 2.576474905014038, acc (higher is better) : 0.4899999797344208
	Beginning of Epoch 1/1, Total Micro Batches 3680
	[2023-06-12 07:32:42,955] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 0
	[2023-06-12 07:32:42,955] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 0
	[2023-06-12 07:32:42,955] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 0
	[2023-06-12 07:32:42,955] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 0
	[2023-06-12 07:32:42,956] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 65536 to 32768.0
	[2023-06-12 07:32:42,956] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 65536 to 32768.0
	[2023-06-12 07:32:42,956] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 65536 to 32768.0
	[2023-06-12 07:32:42,956] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 65536 to 32768.0
	[2023-06-12 07:32:42,955] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 0
	[2023-06-12 07:32:42,956] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 65536, reducing to 32768.0
	[2023-06-12 07:32:42,955] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 0
	[2023-06-12 07:32:42,956] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 0
	[2023-06-12 07:32:42,956] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 65536 to 32768.0
	[2023-06-12 07:32:42,956] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 65536 to 32768.0
	[2023-06-12 07:32:42,955] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 0
	[2023-06-12 07:32:42,957] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 65536 to 32768.0
	[2023-06-12 07:32:42,957] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 65536 to 32768.0
	[2023-06-12 07:32:43,187] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1
	[2023-06-12 07:32:43,187] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:32:43,187] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1
	[2023-06-12 07:32:43,187] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1
	[2023-06-12 07:32:43,187] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:32:43,187] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:32:43,187] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1
	[2023-06-12 07:32:43,187] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1
	[2023-06-12 07:32:43,187] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 32768.0, reducing to 16384.0
	[2023-06-12 07:32:43,187] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1
	[2023-06-12 07:32:43,187] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:32:43,187] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:32:43,187] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:32:43,187] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1
	[2023-06-12 07:32:43,187] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1
	[2023-06-12 07:32:43,187] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:32:43,188] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:32:43,403] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2
	[2023-06-12 07:32:43,404] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2
	[2023-06-12 07:32:43,404] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:32:43,404] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2
	[2023-06-12 07:32:43,404] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:32:43,404] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2
	[2023-06-12 07:32:43,404] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:32:43,404] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:32:43,404] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2
	[2023-06-12 07:32:43,404] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 16384.0, reducing to 8192.0
	[2023-06-12 07:32:43,404] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:32:43,404] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2
	[2023-06-12 07:32:43,404] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2
	[2023-06-12 07:32:43,404] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:32:43,404] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:32:43,404] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2
	[2023-06-12 07:32:43,404] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:32:43,620] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 8192.0, reducing to 4096.0
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:32:43,620] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:32:43,835] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 4
	[2023-06-12 07:32:43,835] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 4
	[2023-06-12 07:32:43,835] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 4
	[2023-06-12 07:32:43,836] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:32:43,836] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:32:43,835] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 4
	[2023-06-12 07:32:43,836] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:32:43,836] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 4096.0, reducing to 2048.0
	[2023-06-12 07:32:43,835] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 4
	[2023-06-12 07:32:43,836] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:32:43,835] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 4
	[2023-06-12 07:32:43,836] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:32:43,835] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 4
	[2023-06-12 07:32:43,836] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:32:43,835] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 4
	[2023-06-12 07:32:43,836] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:32:43,836] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:32:44,052] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 5
	[2023-06-12 07:32:44,052] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 5
	[2023-06-12 07:32:44,052] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 2048.0 to 1024.0
	[2023-06-12 07:32:44,052] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 5
	[2023-06-12 07:32:44,053] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 2048.0 to 1024.0
	[2023-06-12 07:32:44,053] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 5
	[2023-06-12 07:32:44,053] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 2048.0 to 1024.0
	[2023-06-12 07:32:44,053] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 5
	[2023-06-12 07:32:44,053] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 2048.0, reducing to 1024.0
	[2023-06-12 07:32:44,053] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 5
	[2023-06-12 07:32:44,053] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 2048.0 to 1024.0
	[2023-06-12 07:32:44,053] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 2048.0 to 1024.0
	[2023-06-12 07:32:44,053] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 5
	[2023-06-12 07:32:44,053] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 2048.0 to 1024.0
	[2023-06-12 07:32:44,053] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 2048.0 to 1024.0
	[2023-06-12 07:32:44,053] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 5
	[2023-06-12 07:32:44,053] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 2048.0 to 1024.0
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 6
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 6
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 6
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 6
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 6
	[2023-06-12 07:32:44,269] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 1024.0, reducing to 512.0
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 6
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 6
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 6
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:32:44,269] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:32:45,018] [INFO] [logging.py:96:log_dist] [Rank 0] step=10, skipped=7, lr=[4.999991801084829e-05, 4.999991801084829e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:32:45,027] [INFO] [timer.py:215:stop] epoch=0/micro_step=10/global_step=10, RunningAvgSamplesPerSec=139.45916111120349, CurrSamplesPerSec=128.15631859921302, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:32:47,514] [INFO] [logging.py:96:log_dist] [Rank 0] step=20, skipped=7, lr=[4.999846044088921e-05, 4.999846044088921e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:32:47,524] [INFO] [timer.py:215:stop] epoch=0/micro_step=20/global_step=20, RunningAvgSamplesPerSec=133.08776115147245, CurrSamplesPerSec=128.86802949171062, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:32:50,006] [INFO] [logging.py:96:log_dist] [Rank 0] step=30, skipped=7, lr=[4.9995181012051625e-05, 4.9995181012051625e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:32:50,015] [INFO] [timer.py:215:stop] epoch=0/micro_step=30/global_step=30, RunningAvgSamplesPerSec=131.49171226334505, CurrSamplesPerSec=128.62005460359686, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:32:52,496] [INFO] [logging.py:96:log_dist] [Rank 0] step=40, skipped=7, lr=[4.9990079963336504e-05, 4.9990079963336504e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:32:52,505] [INFO] [timer.py:215:stop] epoch=0/micro_step=40/global_step=40, RunningAvgSamplesPerSec=130.75525989930847, CurrSamplesPerSec=128.66518206786145, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:32:54,989] [INFO] [logging.py:96:log_dist] [Rank 0] step=50, skipped=7, lr=[4.998315766650239e-05, 4.998315766650239e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:32:54,998] [INFO] [timer.py:215:stop] epoch=0/micro_step=50/global_step=50, RunningAvgSamplesPerSec=130.30280993651792, CurrSamplesPerSec=128.76022582826883, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:32:57,476] [INFO] [logging.py:96:log_dist] [Rank 0] step=60, skipped=7, lr=[4.997441462603825e-05, 4.997441462603825e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:32:57,485] [INFO] [timer.py:215:stop] epoch=0/micro_step=60/global_step=60, RunningAvgSamplesPerSec=130.0584389411792, CurrSamplesPerSec=128.32271098027707, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:32:59,969] [INFO] [logging.py:96:log_dist] [Rank 0] step=70, skipped=7, lr=[4.996385147912677e-05, 4.996385147912677e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:32:59,978] [INFO] [timer.py:215:stop] epoch=0/micro_step=70/global_step=70, RunningAvgSamplesPerSec=129.84299111248677, CurrSamplesPerSec=128.00317390682372, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:02,463] [INFO] [logging.py:96:log_dist] [Rank 0] step=80, skipped=7, lr=[4.995146899559788e-05, 4.995146899559788e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:02,472] [INFO] [timer.py:215:stop] epoch=0/micro_step=80/global_step=80, RunningAvgSamplesPerSec=129.66959360325677, CurrSamplesPerSec=128.52410993009673, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:04,960] [INFO] [logging.py:96:log_dist] [Rank 0] step=90, skipped=7, lr=[4.993726807787265e-05, 4.993726807787265e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:04,969] [INFO] [timer.py:215:stop] epoch=0/micro_step=90/global_step=90, RunningAvgSamplesPerSec=129.5227164533939, CurrSamplesPerSec=127.3706632553805, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:07,458] [INFO] [logging.py:96:log_dist] [Rank 0] step=100, skipped=7, lr=[4.9921249760897536e-05, 4.9921249760897536e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:07,467] [INFO] [timer.py:215:stop] epoch=0/micro_step=100/global_step=100, RunningAvgSamplesPerSec=129.40289835578912, CurrSamplesPerSec=128.923113571832, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:09,442] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:09,443] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:09,442] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:09,443] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:09,443] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:09,442] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:09,443] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:09,443] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:09,442] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:09,443] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:09,443] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:09,443] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:09,443] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:09,442] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:09,443] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:09,443] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:09,954] [INFO] [logging.py:96:log_dist] [Rank 0] step=110, skipped=7, lr=[4.990341521206896e-05, 4.990341521206896e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:09,963] [INFO] [timer.py:215:stop] epoch=0/micro_step=110/global_step=110, RunningAvgSamplesPerSec=129.3134761036645, CurrSamplesPerSec=129.07052455141417, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:12,450] [INFO] [logging.py:96:log_dist] [Rank 0] step=120, skipped=7, lr=[4.9883765731148184e-05, 4.9883765731148184e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:12,459] [INFO] [timer.py:215:stop] epoch=0/micro_step=120/global_step=120, RunningAvgSamplesPerSec=129.23928190718652, CurrSamplesPerSec=128.01355123919254, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:14,952] [INFO] [logging.py:96:log_dist] [Rank 0] step=130, skipped=7, lr=[4.986230275016667e-05, 4.986230275016667e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:14,961] [INFO] [timer.py:215:stop] epoch=0/micro_step=130/global_step=130, RunningAvgSamplesPerSec=129.153005016377, CurrSamplesPerSec=126.98083618419061, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:17,456] [INFO] [logging.py:96:log_dist] [Rank 0] step=140, skipped=7, lr=[4.983902783332164e-05, 4.983902783332164e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:17,465] [INFO] [timer.py:215:stop] epoch=0/micro_step=140/global_step=140, RunningAvgSamplesPerSec=129.06913315521484, CurrSamplesPerSec=127.52023760095999, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:19,962] [INFO] [logging.py:96:log_dist] [Rank 0] step=150, skipped=7, lr=[4.98139426768621e-05, 4.98139426768621e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:19,971] [INFO] [timer.py:215:stop] epoch=0/micro_step=150/global_step=150, RunningAvgSamplesPerSec=128.99316406920303, CurrSamplesPerSec=128.62523155712765, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:20,939] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 153
	[2023-06-12 07:33:20,939] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 153
	[2023-06-12 07:33:20,939] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 153
	[2023-06-12 07:33:20,940] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:33:20,940] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:33:20,939] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 153
	[2023-06-12 07:33:20,940] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:33:20,940] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 1024.0, reducing to 512.0
	[2023-06-12 07:33:20,939] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 153
	[2023-06-12 07:33:20,940] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:33:20,939] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 153
	[2023-06-12 07:33:20,940] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:33:20,939] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 153
	[2023-06-12 07:33:20,940] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:33:20,939] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 153
	[2023-06-12 07:33:20,940] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:33:20,940] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 1024.0 to 512.0
	[2023-06-12 07:33:22,431] [INFO] [logging.py:96:log_dist] [Rank 0] step=160, skipped=8, lr=[4.978981978944271e-05, 4.978981978944271e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:22,440] [INFO] [timer.py:215:stop] epoch=0/micro_step=160/global_step=160, RunningAvgSamplesPerSec=129.0466569387555, CurrSamplesPerSec=128.65728864217388, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:24,935] [INFO] [logging.py:96:log_dist] [Rank 0] step=170, skipped=8, lr=[4.9761300323275173e-05, 4.9761300323275173e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:24,944] [INFO] [timer.py:215:stop] epoch=0/micro_step=170/global_step=170, RunningAvgSamplesPerSec=128.98792191920867, CurrSamplesPerSec=127.31713906279643, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:27,437] [INFO] [logging.py:96:log_dist] [Rank 0] step=180, skipped=8, lr=[4.973097628218415e-05, 4.973097628218415e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:27,446] [INFO] [timer.py:215:stop] epoch=0/micro_step=180/global_step=180, RunningAvgSamplesPerSec=128.93962083991278, CurrSamplesPerSec=127.7033259372871, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:29,941] [INFO] [logging.py:96:log_dist] [Rank 0] step=190, skipped=8, lr=[4.9698849876150674e-05, 4.9698849876150674e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:29,950] [INFO] [timer.py:215:stop] epoch=0/micro_step=190/global_step=190, RunningAvgSamplesPerSec=128.89003113944034, CurrSamplesPerSec=127.6620275607028, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:32,445] [INFO] [logging.py:96:log_dist] [Rank 0] step=200, skipped=8, lr=[4.966492344651005e-05, 4.966492344651005e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:32,454] [INFO] [timer.py:215:stop] epoch=0/micro_step=200/global_step=200, RunningAvgSamplesPerSec=128.84730591363484, CurrSamplesPerSec=128.1066561802343, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:34,948] [INFO] [logging.py:96:log_dist] [Rank 0] step=210, skipped=8, lr=[4.962919946578123e-05, 4.962919946578123e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:34,957] [INFO] [timer.py:215:stop] epoch=0/micro_step=210/global_step=210, RunningAvgSamplesPerSec=128.8093961189123, CurrSamplesPerSec=128.07291749166728, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:37,446] [INFO] [logging.py:96:log_dist] [Rank 0] step=220, skipped=8, lr=[4.95916805374866e-05, 4.95916805374866e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:37,455] [INFO] [timer.py:215:stop] epoch=0/micro_step=220/global_step=220, RunningAvgSamplesPerSec=128.78839050454786, CurrSamplesPerSec=128.18385746156903, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:39,943] [INFO] [logging.py:96:log_dist] [Rank 0] step=230, skipped=8, lr=[4.955236939596225e-05, 4.955236939596225e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:39,952] [INFO] [timer.py:215:stop] epoch=0/micro_step=230/global_step=230, RunningAvgSamplesPerSec=128.77077558798177, CurrSamplesPerSec=128.37364613342208, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:42,440] [INFO] [logging.py:96:log_dist] [Rank 0] step=240, skipped=8, lr=[4.95112689061587e-05, 4.95112689061587e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:42,449] [INFO] [timer.py:215:stop] epoch=0/micro_step=240/global_step=240, RunningAvgSamplesPerSec=128.75464099241177, CurrSamplesPerSec=128.27463584659156, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:44,938] [INFO] [logging.py:96:log_dist] [Rank 0] step=250, skipped=8, lr=[4.946838206343211e-05, 4.946838206343211e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:44,947] [INFO] [timer.py:215:stop] epoch=0/micro_step=250/global_step=250, RunningAvgSamplesPerSec=128.73673254242163, CurrSamplesPerSec=128.1510569633548, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:46,175] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:46,176] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:46,176] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:46,176] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:46,176] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:46,176] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:46,176] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:46,175] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:46,176] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:46,176] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:46,176] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:46,176] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:46,176] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:46,176] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:33:46,176] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:46,176] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 512.0 to 1024.0
	[2023-06-12 07:33:47,439] [INFO] [logging.py:96:log_dist] [Rank 0] step=260, skipped=8, lr=[4.9423711993325955e-05, 4.9423711993325955e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:47,448] [INFO] [timer.py:215:stop] epoch=0/micro_step=260/global_step=260, RunningAvgSamplesPerSec=128.7151608599872, CurrSamplesPerSec=127.82080785032275, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:49,938] [INFO] [logging.py:96:log_dist] [Rank 0] step=270, skipped=8, lr=[4.9377261951343265e-05, 4.9377261951343265e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:49,947] [INFO] [timer.py:215:stop] epoch=0/micro_step=270/global_step=270, RunningAvgSamplesPerSec=128.6987933502108, CurrSamplesPerSec=128.839453838947, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:52,437] [INFO] [logging.py:96:log_dist] [Rank 0] step=280, skipped=8, lr=[4.9329035322709386e-05, 4.9329035322709386e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:52,447] [INFO] [timer.py:215:stop] epoch=0/micro_step=280/global_step=280, RunningAvgSamplesPerSec=128.6829715578517, CurrSamplesPerSec=127.99377471684403, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:54,944] [INFO] [logging.py:96:log_dist] [Rank 0] step=290, skipped=8, lr=[4.927903562212521e-05, 4.927903562212521e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:54,953] [INFO] [timer.py:215:stop] epoch=0/micro_step=290/global_step=290, RunningAvgSamplesPerSec=128.65557921272662, CurrSamplesPerSec=127.4600510152723, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:57,450] [INFO] [logging.py:96:log_dist] [Rank 0] step=300, skipped=8, lr=[4.922726649351108e-05, 4.922726649351108e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:57,459] [INFO] [timer.py:215:stop] epoch=0/micro_step=300/global_step=300, RunningAvgSamplesPerSec=128.6298066168354, CurrSamplesPerSec=127.62633814040086, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:33:59,954] [INFO] [logging.py:96:log_dist] [Rank 0] step=310, skipped=8, lr=[4.917373170974119e-05, 4.917373170974119e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:33:59,963] [INFO] [timer.py:215:stop] epoch=0/micro_step=310/global_step=310, RunningAvgSamplesPerSec=128.6110159438476, CurrSamplesPerSec=128.21336777378585, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:02,459] [INFO] [logging.py:96:log_dist] [Rank 0] step=320, skipped=8, lr=[4.9118435172368673e-05, 4.9118435172368673e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:02,468] [INFO] [timer.py:215:stop] epoch=0/micro_step=320/global_step=320, RunningAvgSamplesPerSec=128.59017355702366, CurrSamplesPerSec=128.34504382949385, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:04,965] [INFO] [logging.py:96:log_dist] [Rank 0] step=330, skipped=8, lr=[4.906138091134118e-05, 4.906138091134118e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:04,974] [INFO] [timer.py:215:stop] epoch=0/micro_step=330/global_step=330, RunningAvgSamplesPerSec=128.57031005727694, CurrSamplesPerSec=127.65025027366995, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:07,472] [INFO] [logging.py:96:log_dist] [Rank 0] step=340, skipped=8, lr=[4.900257308470728e-05, 4.900257308470728e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:07,481] [INFO] [timer.py:215:stop] epoch=0/micro_step=340/global_step=340, RunningAvgSamplesPerSec=128.54944919086356, CurrSamplesPerSec=127.49334642928046, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:09,973] [INFO] [logging.py:96:log_dist] [Rank 0] step=350, skipped=8, lr=[4.894201597831334e-05, 4.894201597831334e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:09,983] [INFO] [timer.py:215:stop] epoch=0/micro_step=350/global_step=350, RunningAvgSamplesPerSec=128.53784489123402, CurrSamplesPerSec=128.61376886309714, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:11,210] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:11,211] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:11,212] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 1024.0 to 2048.0
	[2023-06-12 07:34:11,211] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:11,212] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 1024.0 to 2048.0
	[2023-06-12 07:34:11,211] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:11,212] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 1024.0 to 2048.0
	[2023-06-12 07:34:11,212] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:11,212] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 1024.0 to 2048.0
	[2023-06-12 07:34:11,212] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 1024.0 to 2048.0
	[2023-06-12 07:34:11,212] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:11,212] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:11,212] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 1024.0 to 2048.0
	[2023-06-12 07:34:11,212] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 1024.0 to 2048.0
	[2023-06-12 07:34:11,212] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:11,212] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 1024.0 to 2048.0
	[2023-06-12 07:34:12,474] [INFO] [logging.py:96:log_dist] [Rank 0] step=360, skipped=8, lr=[4.88797140054912e-05, 4.88797140054912e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:12,483] [INFO] [timer.py:215:stop] epoch=0/micro_step=360/global_step=360, RunningAvgSamplesPerSec=128.5282209420601, CurrSamplesPerSec=128.1801849294529, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:14,976] [INFO] [logging.py:96:log_dist] [Rank 0] step=370, skipped=8, lr=[4.88156717067366e-05, 4.88156717067366e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:14,986] [INFO] [timer.py:215:stop] epoch=0/micro_step=370/global_step=370, RunningAvgSamplesPerSec=128.5168424032244, CurrSamplesPerSec=127.65110010823231, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:17,481] [INFO] [logging.py:96:log_dist] [Rank 0] step=380, skipped=8, lr=[4.874989374937817e-05, 4.874989374937817e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:17,490] [INFO] [timer.py:215:stop] epoch=0/micro_step=380/global_step=380, RunningAvgSamplesPerSec=128.502842177046, CurrSamplesPerSec=128.73219184126023, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:19,986] [INFO] [logging.py:96:log_dist] [Rank 0] step=390, skipped=8, lr=[4.8682384927237355e-05, 4.8682384927237355e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:19,995] [INFO] [timer.py:215:stop] epoch=0/micro_step=390/global_step=390, RunningAvgSamplesPerSec=128.4893315147837, CurrSamplesPerSec=128.33682149195275, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:22,493] [INFO] [logging.py:96:log_dist] [Rank 0] step=400, skipped=8, lr=[4.861315016027902e-05, 4.861315016027902e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:22,503] [INFO] [timer.py:215:stop] epoch=0/micro_step=400/global_step=400, RunningAvgSamplesPerSec=128.4729178346795, CurrSamplesPerSec=127.45932476372808, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:25,001] [INFO] [logging.py:96:log_dist] [Rank 0] step=410, skipped=8, lr=[4.854219449425288e-05, 4.854219449425288e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:25,010] [INFO] [timer.py:215:stop] epoch=0/micro_step=410/global_step=410, RunningAvgSamplesPerSec=128.45682658711848, CurrSamplesPerSec=128.3436938211917, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:27,509] [INFO] [logging.py:96:log_dist] [Rank 0] step=420, skipped=8, lr=[4.84695231003258e-05, 4.84695231003258e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:27,518] [INFO] [timer.py:215:stop] epoch=0/micro_step=420/global_step=420, RunningAvgSamplesPerSec=128.44162868085314, CurrSamplesPerSec=128.25183728501304, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:30,011] [INFO] [logging.py:96:log_dist] [Rank 0] step=430, skipped=8, lr=[4.83951412747049e-05, 4.83951412747049e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:30,020] [INFO] [timer.py:215:stop] epoch=0/micro_step=430/global_step=430, RunningAvgSamplesPerSec=128.43448259167772, CurrSamplesPerSec=128.02905933010155, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:32,518] [INFO] [logging.py:96:log_dist] [Rank 0] step=440, skipped=8, lr=[4.831905443825159e-05, 4.831905443825159e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:32,527] [INFO] [timer.py:215:stop] epoch=0/micro_step=440/global_step=440, RunningAvgSamplesPerSec=128.4210509777968, CurrSamplesPerSec=127.48486958272741, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:35,022] [INFO] [logging.py:96:log_dist] [Rank 0] step=450, skipped=8, lr=[4.824126813608649e-05, 4.824126813608649e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:35,032] [INFO] [timer.py:215:stop] epoch=0/micro_step=450/global_step=450, RunningAvgSamplesPerSec=128.41147064387533, CurrSamplesPerSec=128.35289898660506, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:36,265] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:36,266] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:36,266] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:36,266] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:34:36,266] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:34:36,265] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:36,266] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:34:36,265] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:36,266] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:34:36,265] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:36,266] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:34:36,266] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:36,266] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:34:36,266] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:34:36,266] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:34:36,266] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:34:37,529] [INFO] [logging.py:96:log_dist] [Rank 0] step=460, skipped=8, lr=[4.8161788037185327e-05, 4.8161788037185327e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:37,538] [INFO] [timer.py:215:stop] epoch=0/micro_step=460/global_step=460, RunningAvgSamplesPerSec=128.39982672043462, CurrSamplesPerSec=128.5660911970681, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:40,035] [INFO] [logging.py:96:log_dist] [Rank 0] step=470, skipped=8, lr=[4.808061993396574e-05, 4.808061993396574e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:40,044] [INFO] [timer.py:215:stop] epoch=0/micro_step=470/global_step=470, RunningAvgSamplesPerSec=128.3898396634247, CurrSamplesPerSec=128.38248719214272, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:42,538] [INFO] [logging.py:96:log_dist] [Rank 0] step=480, skipped=8, lr=[4.7997769741865226e-05, 4.7997769741865226e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:42,548] [INFO] [timer.py:215:stop] epoch=0/micro_step=480/global_step=480, RunningAvgSamplesPerSec=128.38231635005965, CurrSamplesPerSec=128.10751210274736, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:45,043] [INFO] [logging.py:96:log_dist] [Rank 0] step=490, skipped=8, lr=[4.791324349890993e-05, 4.791324349890993e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:45,052] [INFO] [timer.py:215:stop] epoch=0/micro_step=490/global_step=490, RunningAvgSamplesPerSec=128.3740816659432, CurrSamplesPerSec=128.71256296924253, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:47,545] [INFO] [logging.py:96:log_dist] [Rank 0] step=500, skipped=8, lr=[4.782704736527466e-05, 4.782704736527466e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:47,554] [INFO] [timer.py:215:stop] epoch=0/micro_step=500/global_step=500, RunningAvgSamplesPerSec=128.3689129590794, CurrSamplesPerSec=128.39808480616077, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:50,053] [INFO] [logging.py:96:log_dist] [Rank 0] step=510, skipped=8, lr=[4.7739187622833914e-05, 4.7739187622833914e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:50,062] [INFO] [timer.py:215:stop] epoch=0/micro_step=510/global_step=510, RunningAvgSamplesPerSec=128.358240762381, CurrSamplesPerSec=127.65571369330914, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:52,559] [INFO] [logging.py:96:log_dist] [Rank 0] step=520, skipped=8, lr=[4.76496706747041e-05, 4.76496706747041e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:52,568] [INFO] [timer.py:215:stop] epoch=0/micro_step=520/global_step=520, RunningAvgSamplesPerSec=128.34929447986508, CurrSamplesPerSec=126.91059658067451, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:54,540] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 527
	[2023-06-12 07:34:54,540] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 527
	[2023-06-12 07:34:54,541] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:34:54,540] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 527
	[2023-06-12 07:34:54,541] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:34:54,540] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 527
	[2023-06-12 07:34:54,540] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 527
	[2023-06-12 07:34:54,541] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:34:54,540] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 527
	[2023-06-12 07:34:54,541] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:34:54,541] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:34:54,540] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 527
	[2023-06-12 07:34:54,541] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:34:54,541] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 4096.0, reducing to 2048.0
	[2023-06-12 07:34:54,540] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 527
	[2023-06-12 07:34:54,541] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:34:54,541] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 4096.0 to 2048.0
	[2023-06-12 07:34:55,032] [INFO] [logging.py:96:log_dist] [Rank 0] step=530, skipped=9, lr=[4.756769390003164e-05, 4.756769390003164e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:55,041] [INFO] [timer.py:215:stop] epoch=0/micro_step=530/global_step=530, RunningAvgSamplesPerSec=128.3737817075941, CurrSamplesPerSec=128.51980255377825, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:34:57,536] [INFO] [logging.py:96:log_dist] [Rank 0] step=540, skipped=9, lr=[4.7475046333851735e-05, 4.7475046333851735e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:34:57,546] [INFO] [timer.py:215:stop] epoch=0/micro_step=540/global_step=540, RunningAvgSamplesPerSec=128.3665334982638, CurrSamplesPerSec=127.20672912431347, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:00,037] [INFO] [logging.py:96:log_dist] [Rank 0] step=550, skipped=9, lr=[4.738076081229433e-05, 4.738076081229433e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:00,047] [INFO] [timer.py:215:stop] epoch=0/micro_step=550/global_step=550, RunningAvgSamplesPerSec=128.36303470660093, CurrSamplesPerSec=128.1854489575086, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:02,546] [INFO] [logging.py:96:log_dist] [Rank 0] step=560, skipped=9, lr=[4.728484420677918e-05, 4.728484420677918e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:02,555] [INFO] [timer.py:215:stop] epoch=0/micro_step=560/global_step=560, RunningAvgSamplesPerSec=128.352690453546, CurrSamplesPerSec=127.53926208042084, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:05,052] [INFO] [logging.py:96:log_dist] [Rank 0] step=570, skipped=9, lr=[4.718730350759753e-05, 4.718730350759753e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:05,061] [INFO] [timer.py:215:stop] epoch=0/micro_step=570/global_step=570, RunningAvgSamplesPerSec=128.34481997852183, CurrSamplesPerSec=128.06986232876974, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:07,561] [INFO] [logging.py:96:log_dist] [Rank 0] step=580, skipped=9, lr=[4.7088145823402683e-05, 4.7088145823402683e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:07,570] [INFO] [timer.py:215:stop] epoch=0/micro_step=580/global_step=580, RunningAvgSamplesPerSec=128.33496935018465, CurrSamplesPerSec=126.01858106046309, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:10,069] [INFO] [logging.py:96:log_dist] [Rank 0] step=590, skipped=9, lr=[4.698737838069198e-05, 4.698737838069198e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:10,080] [INFO] [timer.py:215:stop] epoch=0/micro_step=590/global_step=590, RunningAvgSamplesPerSec=128.3248254812987, CurrSamplesPerSec=127.2321727853909, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:12,574] [INFO] [logging.py:96:log_dist] [Rank 0] step=600, skipped=9, lr=[4.6885008523280066e-05, 4.6885008523280066e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:12,583] [INFO] [timer.py:215:stop] epoch=0/micro_step=600/global_step=600, RunningAvgSamplesPerSec=128.3202640650528, CurrSamplesPerSec=127.35748947209608, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:15,080] [INFO] [logging.py:96:log_dist] [Rank 0] step=610, skipped=9, lr=[4.678104371176373e-05, 4.678104371176373e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:15,089] [INFO] [timer.py:215:stop] epoch=0/micro_step=610/global_step=610, RunningAvgSamplesPerSec=128.31383356351878, CurrSamplesPerSec=128.36185994912108, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:17,587] [INFO] [logging.py:96:log_dist] [Rank 0] step=620, skipped=9, lr=[4.667549152297817e-05, 4.667549152297817e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:17,597] [INFO] [timer.py:215:stop] epoch=0/micro_step=620/global_step=620, RunningAvgSamplesPerSec=128.30616372284862, CurrSamplesPerSec=128.1126478780208, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:19,828] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:19,829] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:19,830] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:19,830] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:19,830] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:35:19,830] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:35:19,830] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:19,830] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:35:19,830] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:35:19,829] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:19,830] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:35:19,829] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:19,830] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:19,830] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:35:19,830] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:35:19,830] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 2048.0 to 4096.0
	[2023-06-12 07:35:20,092] [INFO] [logging.py:96:log_dist] [Rank 0] step=630, skipped=9, lr=[4.65683596494448e-05, 4.65683596494448e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:20,101] [INFO] [timer.py:215:stop] epoch=0/micro_step=630/global_step=630, RunningAvgSamplesPerSec=128.30143717198132, CurrSamplesPerSec=127.93533541891858, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:22,594] [INFO] [logging.py:96:log_dist] [Rank 0] step=640, skipped=9, lr=[4.645965589881063e-05, 4.645965589881063e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:22,603] [INFO] [timer.py:215:stop] epoch=0/micro_step=640/global_step=640, RunningAvgSamplesPerSec=128.2985768333149, CurrSamplesPerSec=127.84126155610461, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:25,098] [INFO] [logging.py:96:log_dist] [Rank 0] step=650, skipped=9, lr=[4.634938819327925e-05, 4.634938819327925e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:25,108] [INFO] [timer.py:215:stop] epoch=0/micro_step=650/global_step=650, RunningAvgSamplesPerSec=128.29372997520036, CurrSamplesPerSec=127.30627057071584, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:27,607] [INFO] [logging.py:96:log_dist] [Rank 0] step=660, skipped=9, lr=[4.6237564569033496e-05, 4.6237564569033496e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:27,617] [INFO] [timer.py:215:stop] epoch=0/micro_step=660/global_step=660, RunningAvgSamplesPerSec=128.2856388262904, CurrSamplesPerSec=127.33670702574291, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:30,110] [INFO] [logging.py:96:log_dist] [Rank 0] step=670, skipped=9, lr=[4.612419317564973e-05, 4.612419317564973e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:30,119] [INFO] [timer.py:215:stop] epoch=0/micro_step=670/global_step=670, RunningAvgSamplesPerSec=128.2829462134768, CurrSamplesPerSec=128.31167013534042, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:32,618] [INFO] [logging.py:96:log_dist] [Rank 0] step=680, skipped=9, lr=[4.6009282275503976e-05, 4.6009282275503976e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:32,628] [INFO] [timer.py:215:stop] epoch=0/micro_step=680/global_step=680, RunningAvgSamplesPerSec=128.27544356632112, CurrSamplesPerSec=128.14114668313889, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:35,125] [INFO] [logging.py:96:log_dist] [Rank 0] step=690, skipped=9, lr=[4.589284024316967e-05, 4.589284024316967e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:35,134] [INFO] [timer.py:215:stop] epoch=0/micro_step=690/global_step=690, RunningAvgSamplesPerSec=128.26987496543404, CurrSamplesPerSec=127.9328965252982, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:37,631] [INFO] [logging.py:96:log_dist] [Rank 0] step=700, skipped=9, lr=[4.5774875564807464e-05, 4.5774875564807464e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:37,641] [INFO] [timer.py:215:stop] epoch=0/micro_step=700/global_step=700, RunningAvgSamplesPerSec=128.26432308919502, CurrSamplesPerSec=127.89961492244609, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:40,142] [INFO] [logging.py:96:log_dist] [Rank 0] step=710, skipped=9, lr=[4.5655396837546625e-05, 4.5655396837546625e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:40,152] [INFO] [timer.py:215:stop] epoch=0/micro_step=710/global_step=710, RunningAvgSamplesPerSec=128.25584438199786, CurrSamplesPerSec=127.44613263471945, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:42,648] [INFO] [logging.py:96:log_dist] [Rank 0] step=720, skipped=9, lr=[4.5534412768858605e-05, 4.5534412768858605e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:42,657] [INFO] [timer.py:215:stop] epoch=0/micro_step=720/global_step=720, RunningAvgSamplesPerSec=128.25162341829233, CurrSamplesPerSec=128.2617646946397, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:44,893] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:44,894] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:44,894] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:35:44,894] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:44,894] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:35:44,894] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:44,895] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:35:44,894] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:44,895] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:35:44,895] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:44,895] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:35:44,895] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:35:44,895] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:44,895] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:35:44,895] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:35:44,895] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:35:45,157] [INFO] [logging.py:96:log_dist] [Rank 0] step=730, skipped=9, lr=[4.541193217592236e-05, 4.541193217592236e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:45,166] [INFO] [timer.py:215:stop] epoch=0/micro_step=730/global_step=730, RunningAvgSamplesPerSec=128.24468611851677, CurrSamplesPerSec=127.89181514736585, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:47,664] [INFO] [logging.py:96:log_dist] [Rank 0] step=740, skipped=9, lr=[4.528796398498182e-05, 4.528796398498182e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:47,673] [INFO] [timer.py:215:stop] epoch=0/micro_step=740/global_step=740, RunningAvgSamplesPerSec=128.23981378876826, CurrSamplesPerSec=128.59516174310616, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:50,168] [INFO] [logging.py:96:log_dist] [Rank 0] step=750, skipped=9, lr=[4.516251723069534e-05, 4.516251723069534e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:50,178] [INFO] [timer.py:215:stop] epoch=0/micro_step=750/global_step=750, RunningAvgSamplesPerSec=128.23634332075477, CurrSamplesPerSec=127.36002732849707, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:52,677] [INFO] [logging.py:96:log_dist] [Rank 0] step=760, skipped=9, lr=[4.5035601055477245e-05, 4.5035601055477245e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:52,687] [INFO] [timer.py:215:stop] epoch=0/micro_step=760/global_step=760, RunningAvgSamplesPerSec=128.230046450437, CurrSamplesPerSec=127.5808448690663, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:55,183] [INFO] [logging.py:96:log_dist] [Rank 0] step=770, skipped=9, lr=[4.4907224708831575e-05, 4.4907224708831575e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:55,193] [INFO] [timer.py:215:stop] epoch=0/micro_step=770/global_step=770, RunningAvgSamplesPerSec=128.22597894609675, CurrSamplesPerSec=127.77760874180431, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:35:57,694] [INFO] [logging.py:96:log_dist] [Rank 0] step=780, skipped=9, lr=[4.477739754667796e-05, 4.477739754667796e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:35:57,703] [INFO] [timer.py:215:stop] epoch=0/micro_step=780/global_step=780, RunningAvgSamplesPerSec=128.21925090506426, CurrSamplesPerSec=128.1185178397222, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:00,198] [INFO] [logging.py:96:log_dist] [Rank 0] step=790, skipped=9, lr=[4.4646129030669795e-05, 4.4646129030669795e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:00,208] [INFO] [timer.py:215:stop] epoch=0/micro_step=790/global_step=790, RunningAvgSamplesPerSec=128.21628880718973, CurrSamplesPerSec=128.48252504695407, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:02,709] [INFO] [logging.py:96:log_dist] [Rank 0] step=800, skipped=9, lr=[4.451342872750468e-05, 4.451342872750468e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:02,718] [INFO] [timer.py:215:stop] epoch=0/micro_step=800/global_step=800, RunningAvgSamplesPerSec=128.20979376777623, CurrSamplesPerSec=128.1073898274024, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:05,217] [INFO] [logging.py:96:log_dist] [Rank 0] step=810, skipped=9, lr=[4.43793063082272e-05, 4.43793063082272e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:05,227] [INFO] [timer.py:215:stop] epoch=0/micro_step=810/global_step=810, RunningAvgSamplesPerSec=128.20442298428011, CurrSamplesPerSec=127.25400697623925, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:07,727] [INFO] [logging.py:96:log_dist] [Rank 0] step=820, skipped=9, lr=[4.42437715475241e-05, 4.42437715475241e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:07,736] [INFO] [timer.py:215:stop] epoch=0/micro_step=820/global_step=820, RunningAvgSamplesPerSec=128.19871914803585, CurrSamplesPerSec=127.99011306842942, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:09,975] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:09,975] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:09,975] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:09,976] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:36:09,976] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:09,976] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:36:09,976] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:36:09,975] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:09,976] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:36:09,976] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:09,976] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:09,976] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:36:09,976] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:36:09,976] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:09,976] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:36:09,976] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:36:10,238] [INFO] [logging.py:96:log_dist] [Rank 0] step=830, skipped=9, lr=[4.410683432301198e-05, 4.410683432301198e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:10,247] [INFO] [timer.py:215:stop] epoch=0/micro_step=830/global_step=830, RunningAvgSamplesPerSec=128.19199218936544, CurrSamplesPerSec=127.7917212946962, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:12,748] [INFO] [logging.py:96:log_dist] [Rank 0] step=840, skipped=9, lr=[4.3968504614517336e-05, 4.3968504614517336e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:12,757] [INFO] [timer.py:215:stop] epoch=0/micro_step=840/global_step=840, RunningAvgSamplesPerSec=128.18673223397778, CurrSamplesPerSec=128.4114747573707, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:15,259] [INFO] [logging.py:96:log_dist] [Rank 0] step=850, skipped=9, lr=[4.38287925033493e-05, 4.38287925033493e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:15,268] [INFO] [timer.py:215:stop] epoch=0/micro_step=850/global_step=850, RunningAvgSamplesPerSec=128.18034314426606, CurrSamplesPerSec=127.34202281986425, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:17,770] [INFO] [logging.py:96:log_dist] [Rank 0] step=860, skipped=9, lr=[4.3687708171564925e-05, 4.3687708171564925e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:17,780] [INFO] [timer.py:215:stop] epoch=0/micro_step=860/global_step=860, RunningAvgSamplesPerSec=128.17389331807945, CurrSamplesPerSec=127.53271798847986, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:20,282] [INFO] [logging.py:96:log_dist] [Rank 0] step=870, skipped=9, lr=[4.354526190122709e-05, 4.354526190122709e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:20,292] [INFO] [timer.py:215:stop] epoch=0/micro_step=870/global_step=870, RunningAvgSamplesPerSec=128.1674302975097, CurrSamplesPerSec=127.39411691564719, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:22,793] [INFO] [logging.py:96:log_dist] [Rank 0] step=880, skipped=9, lr=[4.340146407365521e-05, 4.340146407365521e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:22,802] [INFO] [timer.py:215:stop] epoch=0/micro_step=880/global_step=880, RunningAvgSamplesPerSec=128.16183615758715, CurrSamplesPerSec=127.50182440320974, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:25,301] [INFO] [logging.py:96:log_dist] [Rank 0] step=890, skipped=9, lr=[4.3256325168668596e-05, 4.3256325168668596e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:25,310] [INFO] [timer.py:215:stop] epoch=0/micro_step=890/global_step=890, RunningAvgSamplesPerSec=128.15784808777184, CurrSamplesPerSec=128.4201981543231, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:27,811] [INFO] [logging.py:96:log_dist] [Rank 0] step=900, skipped=9, lr=[4.310985576382276e-05, 4.310985576382276e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:27,820] [INFO] [timer.py:215:stop] epoch=0/micro_step=900/global_step=900, RunningAvgSamplesPerSec=128.1531796068461, CurrSamplesPerSec=127.60862223709631, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:30,321] [INFO] [logging.py:96:log_dist] [Rank 0] step=910, skipped=9, lr=[4.296206653363848e-05, 4.296206653363848e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:30,330] [INFO] [timer.py:215:stop] epoch=0/micro_step=910/global_step=910, RunningAvgSamplesPerSec=128.14845002355648, CurrSamplesPerSec=128.18789748996934, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:32,834] [INFO] [logging.py:96:log_dist] [Rank 0] step=920, skipped=9, lr=[4.2812968248823894e-05, 4.2812968248823894e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:32,843] [INFO] [timer.py:215:stop] epoch=0/micro_step=920/global_step=920, RunningAvgSamplesPerSec=128.14203984896605, CurrSamplesPerSec=127.86233084533274, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:35,080] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:35,081] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:35,081] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:35,082] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:36:35,082] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:36:35,081] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:35,082] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:36:35,081] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:35,082] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:36:35,081] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:35,081] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:35,082] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:36:35,082] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:36:35,082] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:36:35,082] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:36:35,082] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:36:35,345] [INFO] [logging.py:96:log_dist] [Rank 0] step=930, skipped=9, lr=[4.2662571775489523e-05, 4.2662571775489523e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:35,354] [INFO] [timer.py:215:stop] epoch=0/micro_step=930/global_step=930, RunningAvgSamplesPerSec=128.1367082004806, CurrSamplesPerSec=127.28381489953304, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:37,855] [INFO] [logging.py:96:log_dist] [Rank 0] step=940, skipped=9, lr=[4.251088807435636e-05, 4.251088807435636e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:37,864] [INFO] [timer.py:215:stop] epoch=0/micro_step=940/global_step=940, RunningAvgSamplesPerSec=128.13219029713017, CurrSamplesPerSec=127.73346631593773, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:39,586] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 946
	[2023-06-12 07:36:39,586] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 946
	[2023-06-12 07:36:39,586] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 946
	[2023-06-12 07:36:39,587] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:36:39,586] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 946
	[2023-06-12 07:36:39,587] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:36:39,587] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:36:39,587] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 32768.0, reducing to 16384.0
	[2023-06-12 07:36:39,586] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 946
	[2023-06-12 07:36:39,587] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:36:39,586] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 946
	[2023-06-12 07:36:39,588] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:36:39,587] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 946
	[2023-06-12 07:36:39,588] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:36:39,587] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 946
	[2023-06-12 07:36:39,588] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:36:39,588] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:36:40,332] [INFO] [logging.py:96:log_dist] [Rank 0] step=950, skipped=10, lr=[4.2373281298214366e-05, 4.2373281298214366e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:40,341] [INFO] [timer.py:215:stop] epoch=0/micro_step=950/global_step=950, RunningAvgSamplesPerSec=128.14558216615114, CurrSamplesPerSec=128.01001054846284, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:42,843] [INFO] [logging.py:96:log_dist] [Rank 0] step=960, skipped=10, lr=[4.221918239638724e-05, 4.221918239638724e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:42,852] [INFO] [timer.py:215:stop] epoch=0/micro_step=960/global_step=960, RunningAvgSamplesPerSec=128.14033730529505, CurrSamplesPerSec=127.39351233142996, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:45,354] [INFO] [logging.py:96:log_dist] [Rank 0] step=970, skipped=10, lr=[4.206382858046636e-05, 4.206382858046636e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:45,363] [INFO] [timer.py:215:stop] epoch=0/micro_step=970/global_step=970, RunningAvgSamplesPerSec=128.13558678828747, CurrSamplesPerSec=127.98693980926552, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:47,867] [INFO] [logging.py:96:log_dist] [Rank 0] step=980, skipped=10, lr=[4.190723117245809e-05, 4.190723117245809e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:47,877] [INFO] [timer.py:215:stop] epoch=0/micro_step=980/global_step=980, RunningAvgSamplesPerSec=128.12917327451635, CurrSamplesPerSec=128.0449376459634, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:50,380] [INFO] [logging.py:96:log_dist] [Rank 0] step=990, skipped=10, lr=[4.174940158500041e-05, 4.174940158500041e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:50,389] [INFO] [timer.py:215:stop] epoch=0/micro_step=990/global_step=990, RunningAvgSamplesPerSec=128.1238394426681, CurrSamplesPerSec=128.03260107468313, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:52,891] [INFO] [logging.py:96:log_dist] [Rank 0] step=1000, skipped=10, lr=[4.1590351320531064e-05, 4.1590351320531064e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:52,900] [INFO] [timer.py:215:stop] epoch=0/micro_step=1000/global_step=1000, RunningAvgSamplesPerSec=128.11886230495972, CurrSamplesPerSec=127.76313444770209, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:54,873] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1007
	[2023-06-12 07:36:54,873] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1007
	[2023-06-12 07:36:54,874] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:36:54,873] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1007
	[2023-06-12 07:36:54,874] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:36:54,873] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1007
	[2023-06-12 07:36:54,873] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1007
	[2023-06-12 07:36:54,874] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:36:54,874] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 16384.0, reducing to 8192.0
	[2023-06-12 07:36:54,874] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:36:54,873] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1007
	[2023-06-12 07:36:54,874] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:36:54,873] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1007
	[2023-06-12 07:36:54,874] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:36:54,874] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1007
	[2023-06-12 07:36:54,874] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:36:54,874] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:36:55,369] [INFO] [logging.py:96:log_dist] [Rank 0] step=1010, skipped=11, lr=[4.144617198213059e-05, 4.144617198213059e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:55,378] [INFO] [timer.py:215:stop] epoch=0/micro_step=1010/global_step=1010, RunningAvgSamplesPerSec=128.13123745018407, CurrSamplesPerSec=126.9736285442911, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:36:57,878] [INFO] [logging.py:96:log_dist] [Rank 0] step=1020, skipped=11, lr=[4.128483443849015e-05, 4.128483443849015e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:36:57,887] [INFO] [timer.py:215:stop] epoch=0/micro_step=1020/global_step=1020, RunningAvgSamplesPerSec=128.1274498289982, CurrSamplesPerSec=128.18140908344253, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:00,388] [INFO] [logging.py:96:log_dist] [Rank 0] step=1030, skipped=11, lr=[4.1122310074954256e-05, 4.1122310074954256e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:00,397] [INFO] [timer.py:215:stop] epoch=0/micro_step=1030/global_step=1030, RunningAvgSamplesPerSec=128.12353718825966, CurrSamplesPerSec=127.2963697822021, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:02,895] [INFO] [logging.py:96:log_dist] [Rank 0] step=1040, skipped=11, lr=[4.095861073611052e-05, 4.095861073611052e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:02,904] [INFO] [timer.py:215:stop] epoch=0/micro_step=1040/global_step=1040, RunningAvgSamplesPerSec=128.12089818801556, CurrSamplesPerSec=128.31154746995784, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:05,402] [INFO] [logging.py:96:log_dist] [Rank 0] step=1050, skipped=11, lr=[4.079374835217739e-05, 4.079374835217739e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:05,412] [INFO] [timer.py:215:stop] epoch=0/micro_step=1050/global_step=1050, RunningAvgSamplesPerSec=128.11831630758965, CurrSamplesPerSec=127.54629166801291, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:07,910] [INFO] [logging.py:96:log_dist] [Rank 0] step=1060, skipped=11, lr=[4.062773493813468e-05, 4.062773493813468e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:07,919] [INFO] [timer.py:215:stop] epoch=0/micro_step=1060/global_step=1060, RunningAvgSamplesPerSec=128.1156902874788, CurrSamplesPerSec=127.75936437164879, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:10,421] [INFO] [logging.py:96:log_dist] [Rank 0] step=1070, skipped=11, lr=[4.046058259284796e-05, 4.046058259284796e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:10,430] [INFO] [timer.py:215:stop] epoch=0/micro_step=1070/global_step=1070, RunningAvgSamplesPerSec=128.11119192130886, CurrSamplesPerSec=127.44952117785026, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:12,929] [INFO] [logging.py:96:log_dist] [Rank 0] step=1080, skipped=11, lr=[4.0292303498186814e-05, 4.0292303498186814e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:12,938] [INFO] [timer.py:215:stop] epoch=0/micro_step=1080/global_step=1080, RunningAvgSamplesPerSec=128.1086252955196, CurrSamplesPerSec=127.83334714360684, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:15,432] [INFO] [logging.py:96:log_dist] [Rank 0] step=1090, skipped=11, lr=[4.012290991813698e-05, 4.012290991813698e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:15,442] [INFO] [timer.py:215:stop] epoch=0/micro_step=1090/global_step=1090, RunningAvgSamplesPerSec=128.10793591000052, CurrSamplesPerSec=128.9187794099143, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:17,942] [INFO] [logging.py:96:log_dist] [Rank 0] step=1100, skipped=11, lr=[3.995241419790661e-05, 3.995241419790661e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:17,951] [INFO] [timer.py:215:stop] epoch=0/micro_step=1100/global_step=1100, RunningAvgSamplesPerSec=128.10443613580182, CurrSamplesPerSec=128.32050265928714, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:20,186] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:37:20,186] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:37:20,187] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:37:20,186] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:37:20,187] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:37:20,186] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:37:20,187] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:37:20,187] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:37:20,187] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:37:20,187] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:37:20,187] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:37:20,187] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:37:20,188] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:37:20,187] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:37:20,188] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:37:20,188] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:37:20,450] [INFO] [logging.py:96:log_dist] [Rank 0] step=1110, skipped=11, lr=[3.978082876302658e-05, 3.978082876302658e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:20,459] [INFO] [timer.py:215:stop] epoch=0/micro_step=1110/global_step=1110, RunningAvgSamplesPerSec=128.10202837132144, CurrSamplesPerSec=127.6826734095523, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:22,961] [INFO] [logging.py:96:log_dist] [Rank 0] step=1120, skipped=11, lr=[3.9608166118444864e-05, 3.9608166118444864e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:22,970] [INFO] [timer.py:215:stop] epoch=0/micro_step=1120/global_step=1120, RunningAvgSamplesPerSec=128.0980853364955, CurrSamplesPerSec=126.97422914969722, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:25,467] [INFO] [logging.py:96:log_dist] [Rank 0] step=1130, skipped=11, lr=[3.94344388476153e-05, 3.94344388476153e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:25,476] [INFO] [timer.py:215:stop] epoch=0/micro_step=1130/global_step=1130, RunningAvgSamplesPerSec=128.09640421019526, CurrSamplesPerSec=127.90278385283402, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:27,975] [INFO] [logging.py:96:log_dist] [Rank 0] step=1140, skipped=11, lr=[3.925965961158039e-05, 3.925965961158039e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:27,984] [INFO] [timer.py:215:stop] epoch=0/micro_step=1140/global_step=1140, RunningAvgSamplesPerSec=128.09360773309078, CurrSamplesPerSec=127.65522803707029, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:30,486] [INFO] [logging.py:96:log_dist] [Rank 0] step=1150, skipped=11, lr=[3.908384114804867e-05, 3.908384114804867e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:30,495] [INFO] [timer.py:215:stop] epoch=0/micro_step=1150/global_step=1150, RunningAvgSamplesPerSec=128.08979377174293, CurrSamplesPerSec=127.96900164945701, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:32,993] [INFO] [logging.py:96:log_dist] [Rank 0] step=1160, skipped=11, lr=[3.890699627046639e-05, 3.890699627046639e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:33,002] [INFO] [timer.py:215:stop] epoch=0/micro_step=1160/global_step=1160, RunningAvgSamplesPerSec=128.08783954523238, CurrSamplesPerSec=127.55077646495336, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:35,502] [INFO] [logging.py:96:log_dist] [Rank 0] step=1170, skipped=11, lr=[3.872913786708364e-05, 3.872913786708364e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:35,511] [INFO] [timer.py:215:stop] epoch=0/micro_step=1170/global_step=1170, RunningAvgSamplesPerSec=128.08525628738477, CurrSamplesPerSec=127.49370974789596, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:36,230] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1172
	[2023-06-12 07:37:36,230] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1172
	[2023-06-12 07:37:36,231] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:37:36,230] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1172
	[2023-06-12 07:37:36,231] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:37:36,231] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 16384.0, reducing to 8192.0
	[2023-06-12 07:37:36,231] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:37:36,230] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1172
	[2023-06-12 07:37:36,230] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1172
	[2023-06-12 07:37:36,231] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:37:36,230] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1172
	[2023-06-12 07:37:36,230] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1172
	[2023-06-12 07:37:36,231] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:37:36,231] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:37:36,230] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1172
	[2023-06-12 07:37:36,231] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:37:36,231] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:37:37,979] [INFO] [logging.py:96:log_dist] [Rank 0] step=1180, skipped=12, lr=[3.856820945115655e-05, 3.856820945115655e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:37,988] [INFO] [timer.py:215:stop] epoch=0/micro_step=1180/global_step=1180, RunningAvgSamplesPerSec=128.0961629767614, CurrSamplesPerSec=128.1045775588898, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:40,489] [INFO] [logging.py:96:log_dist] [Rank 0] step=1190, skipped=12, lr=[3.83884611196668e-05, 3.83884611196668e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:40,499] [INFO] [timer.py:215:stop] epoch=0/micro_step=1190/global_step=1190, RunningAvgSamplesPerSec=128.09278505785804, CurrSamplesPerSec=128.2882453021353, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:43,006] [INFO] [logging.py:96:log_dist] [Rank 0] step=1200, skipped=12, lr=[3.8207737052618545e-05, 3.8207737052618545e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:43,015] [INFO] [timer.py:215:stop] epoch=0/micro_step=1200/global_step=1200, RunningAvgSamplesPerSec=128.08689649145865, CurrSamplesPerSec=127.12708756402873, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:45,515] [INFO] [logging.py:96:log_dist] [Rank 0] step=1210, skipped=12, lr=[3.80260504209727e-05, 3.80260504209727e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:45,525] [INFO] [timer.py:215:stop] epoch=0/micro_step=1210/global_step=1210, RunningAvgSamplesPerSec=128.0837623724224, CurrSamplesPerSec=127.99108948752156, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:48,026] [INFO] [logging.py:96:log_dist] [Rank 0] step=1220, skipped=12, lr=[3.784341446584082e-05, 3.784341446584082e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:48,035] [INFO] [timer.py:215:stop] epoch=0/micro_step=1220/global_step=1220, RunningAvgSamplesPerSec=128.080630595365, CurrSamplesPerSec=127.5270227513504, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:50,539] [INFO] [logging.py:96:log_dist] [Rank 0] step=1230, skipped=12, lr=[3.765984249752004e-05, 3.765984249752004e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:50,548] [INFO] [timer.py:215:stop] epoch=0/micro_step=1230/global_step=1230, RunningAvgSamplesPerSec=128.07615990540486, CurrSamplesPerSec=128.02185431663767, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:53,051] [INFO] [logging.py:96:log_dist] [Rank 0] step=1240, skipped=12, lr=[3.747534789452304e-05, 3.747534789452304e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:53,060] [INFO] [timer.py:215:stop] epoch=0/micro_step=1240/global_step=1240, RunningAvgSamplesPerSec=128.072433295388, CurrSamplesPerSec=127.87183256528272, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:55,561] [INFO] [logging.py:96:log_dist] [Rank 0] step=1250, skipped=12, lr=[3.728994410260308e-05, 3.728994410260308e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:55,570] [INFO] [timer.py:215:stop] epoch=0/micro_step=1250/global_step=1250, RunningAvgSamplesPerSec=128.06959324640667, CurrSamplesPerSec=127.9232638044996, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:37:58,072] [INFO] [logging.py:96:log_dist] [Rank 0] step=1260, skipped=12, lr=[3.7103644633774014e-05, 3.7103644633774014e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:37:58,081] [INFO] [timer.py:215:stop] epoch=0/micro_step=1260/global_step=1260, RunningAvgSamplesPerSec=128.06627112015954, CurrSamplesPerSec=126.90459680019515, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:00,583] [INFO] [logging.py:96:log_dist] [Rank 0] step=1270, skipped=12, lr=[3.691646306532564e-05, 3.691646306532564e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:00,592] [INFO] [timer.py:215:stop] epoch=0/micro_step=1270/global_step=1270, RunningAvgSamplesPerSec=128.0632752381575, CurrSamplesPerSec=128.22573920686327, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:01,575] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:01,575] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:01,576] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:01,576] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:01,576] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:01,575] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:01,576] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:01,575] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:01,575] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:01,576] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:01,576] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:01,576] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:01,576] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:01,576] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:01,576] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:01,576] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:03,095] [INFO] [logging.py:96:log_dist] [Rank 0] step=1280, skipped=12, lr=[3.672841303883413e-05, 3.672841303883413e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:03,104] [INFO] [timer.py:215:stop] epoch=0/micro_step=1280/global_step=1280, RunningAvgSamplesPerSec=128.05958409059627, CurrSamplesPerSec=127.58339163498098, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:05,610] [INFO] [logging.py:96:log_dist] [Rank 0] step=1290, skipped=12, lr=[3.6539508259167863e-05, 3.6539508259167863e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:05,619] [INFO] [timer.py:215:stop] epoch=0/micro_step=1290/global_step=1290, RunningAvgSamplesPerSec=128.05502779010172, CurrSamplesPerSec=127.81776470352958, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:08,116] [INFO] [logging.py:96:log_dist] [Rank 0] step=1300, skipped=12, lr=[3.634976249348867e-05, 3.634976249348867e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:08,125] [INFO] [timer.py:215:stop] epoch=0/micro_step=1300/global_step=1300, RunningAvgSamplesPerSec=128.0539067673024, CurrSamplesPerSec=127.46622448756703, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:10,627] [INFO] [logging.py:96:log_dist] [Rank 0] step=1310, skipped=12, lr=[3.615918957024845e-05, 3.615918957024845e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:10,636] [INFO] [timer.py:215:stop] epoch=0/micro_step=1310/global_step=1310, RunningAvgSamplesPerSec=128.05069035183686, CurrSamplesPerSec=127.95728964674343, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:13,135] [INFO] [logging.py:96:log_dist] [Rank 0] step=1320, skipped=12, lr=[3.5967803378181386e-05, 3.5967803378181386e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:13,144] [INFO] [timer.py:215:stop] epoch=0/micro_step=1320/global_step=1320, RunningAvgSamplesPerSec=128.0491720961679, CurrSamplesPerSec=128.09406321399192, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:15,646] [INFO] [logging.py:96:log_dist] [Rank 0] step=1330, skipped=12, lr=[3.577561786529177e-05, 3.577561786529177e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:15,656] [INFO] [timer.py:215:stop] epoch=0/micro_step=1330/global_step=1330, RunningAvgSamplesPerSec=128.04584756774636, CurrSamplesPerSec=127.55586769774963, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1330
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1330
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1330
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1330
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:38:15,872] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 16384.0, reducing to 8192.0
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1330
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1330
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1330
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1330
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:38:15,872] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:38:18,124] [INFO] [logging.py:96:log_dist] [Rank 0] step=1340, skipped=13, lr=[3.560197905937272e-05, 3.560197905937272e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:18,133] [INFO] [timer.py:215:stop] epoch=0/micro_step=1340/global_step=1340, RunningAvgSamplesPerSec=128.055812100271, CurrSamplesPerSec=126.93124015869037, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:20,635] [INFO] [logging.py:96:log_dist] [Rank 0] step=1350, skipped=13, lr=[3.5408313471484715e-05, 3.5408313471484715e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:20,645] [INFO] [timer.py:215:stop] epoch=0/micro_step=1350/global_step=1350, RunningAvgSamplesPerSec=128.0528605171604, CurrSamplesPerSec=127.37646541882057, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:23,147] [INFO] [logging.py:96:log_dist] [Rank 0] step=1360, skipped=13, lr=[3.521388933775134e-05, 3.521388933775134e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:23,156] [INFO] [timer.py:215:stop] epoch=0/micro_step=1360/global_step=1360, RunningAvgSamplesPerSec=128.0496495522943, CurrSamplesPerSec=127.58242142645302, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:25,659] [INFO] [logging.py:96:log_dist] [Rank 0] step=1370, skipped=13, lr=[3.5018720827578524e-05, 3.5018720827578524e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:25,668] [INFO] [timer.py:215:stop] epoch=0/micro_step=1370/global_step=1370, RunningAvgSamplesPerSec=128.04659186369958, CurrSamplesPerSec=127.69020473399802, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:28,166] [INFO] [logging.py:96:log_dist] [Rank 0] step=1380, skipped=13, lr=[3.4822822164621546e-05, 3.4822822164621546e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:28,176] [INFO] [timer.py:215:stop] epoch=0/micro_step=1380/global_step=1380, RunningAvgSamplesPerSec=128.0449536024872, CurrSamplesPerSec=127.81411311864288, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:30,681] [INFO] [logging.py:96:log_dist] [Rank 0] step=1390, skipped=13, lr=[3.462620762574832e-05, 3.462620762574832e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:30,690] [INFO] [timer.py:215:stop] epoch=0/micro_step=1390/global_step=1390, RunningAvgSamplesPerSec=128.040906447566, CurrSamplesPerSec=127.93948175149085, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:33,193] [INFO] [logging.py:96:log_dist] [Rank 0] step=1400, skipped=13, lr=[3.442889153999901e-05, 3.442889153999901e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:33,203] [INFO] [timer.py:215:stop] epoch=0/micro_step=1400/global_step=1400, RunningAvgSamplesPerSec=128.03758458924017, CurrSamplesPerSec=127.8893779127437, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:35,702] [INFO] [logging.py:96:log_dist] [Rank 0] step=1410, skipped=13, lr=[3.423088828754168e-05, 3.423088828754168e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:35,712] [INFO] [timer.py:215:stop] epoch=0/micro_step=1410/global_step=1410, RunningAvgSamplesPerSec=128.03561672556455, CurrSamplesPerSec=128.03284534015322, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:38,211] [INFO] [logging.py:96:log_dist] [Rank 0] step=1420, skipped=13, lr=[3.4032212298624314e-05, 3.4032212298624314e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:38,220] [INFO] [timer.py:215:stop] epoch=0/micro_step=1420/global_step=1420, RunningAvgSamplesPerSec=128.03393007614144, CurrSamplesPerSec=128.22047186925914, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:40,720] [INFO] [logging.py:96:log_dist] [Rank 0] step=1430, skipped=13, lr=[3.383287805252317e-05, 3.383287805252317e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:40,730] [INFO] [timer.py:215:stop] epoch=0/micro_step=1430/global_step=1430, RunningAvgSamplesPerSec=128.03171151492984, CurrSamplesPerSec=127.30433858860711, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:41,210] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:41,211] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:41,211] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:41,211] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:41,211] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:41,211] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:41,211] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:41,211] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:41,211] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:41,211] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:41,211] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:41,212] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:41,211] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:38:41,212] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:41,212] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:41,212] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:38:43,233] [INFO] [logging.py:96:log_dist] [Rank 0] step=1440, skipped=13, lr=[3.36329000764875e-05, 3.36329000764875e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:43,242] [INFO] [timer.py:215:stop] epoch=0/micro_step=1440/global_step=1440, RunningAvgSamplesPerSec=128.02857872718292, CurrSamplesPerSec=126.91299665171712, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:45,743] [INFO] [logging.py:96:log_dist] [Rank 0] step=1450, skipped=13, lr=[3.343229294468086e-05, 3.343229294468086e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:45,752] [INFO] [timer.py:215:stop] epoch=0/micro_step=1450/global_step=1450, RunningAvgSamplesPerSec=128.02635980080208, CurrSamplesPerSec=127.73091355510404, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:48,251] [INFO] [logging.py:96:log_dist] [Rank 0] step=1460, skipped=13, lr=[3.323107127711897e-05, 3.323107127711897e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:48,260] [INFO] [timer.py:215:stop] epoch=0/micro_step=1460/global_step=1460, RunningAvgSamplesPerSec=128.02481849074564, CurrSamplesPerSec=127.96900164945701, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:50,761] [INFO] [logging.py:96:log_dist] [Rank 0] step=1470, skipped=13, lr=[3.302924973860416e-05, 3.302924973860416e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:50,770] [INFO] [timer.py:215:stop] epoch=0/micro_step=1470/global_step=1470, RunningAvgSamplesPerSec=128.02267882749456, CurrSamplesPerSec=128.42548191468393, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:53,274] [INFO] [logging.py:96:log_dist] [Rank 0] step=1480, skipped=13, lr=[3.282684303765669e-05, 3.282684303765669e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:53,283] [INFO] [timer.py:215:stop] epoch=0/micro_step=1480/global_step=1480, RunningAvgSamplesPerSec=128.01956050282269, CurrSamplesPerSec=127.57272015268684, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:55,782] [INFO] [logging.py:96:log_dist] [Rank 0] step=1490, skipped=13, lr=[3.2623865925442816e-05, 3.2623865925442816e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:55,791] [INFO] [timer.py:215:stop] epoch=0/micro_step=1490/global_step=1490, RunningAvgSamplesPerSec=128.01798402487617, CurrSamplesPerSec=127.41540193680005, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:38:58,290] [INFO] [logging.py:96:log_dist] [Rank 0] step=1500, skipped=13, lr=[3.242033319469963e-05, 3.242033319469963e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:38:58,299] [INFO] [timer.py:215:stop] epoch=0/micro_step=1500/global_step=1500, RunningAvgSamplesPerSec=128.01676885547505, CurrSamplesPerSec=128.48719892781926, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:00,797] [INFO] [logging.py:96:log_dist] [Rank 0] step=1510, skipped=13, lr=[3.221625967865712e-05, 3.221625967865712e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:00,806] [INFO] [timer.py:215:stop] epoch=0/micro_step=1510/global_step=1510, RunningAvgSamplesPerSec=128.01553598030188, CurrSamplesPerSec=128.3371896337901, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:03,302] [INFO] [logging.py:96:log_dist] [Rank 0] step=1520, skipped=13, lr=[3.201166024995706e-05, 3.201166024995706e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:03,311] [INFO] [timer.py:215:stop] epoch=0/micro_step=1520/global_step=1520, RunningAvgSamplesPerSec=128.0153895447443, CurrSamplesPerSec=128.11338159381776, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:05,808] [INFO] [logging.py:96:log_dist] [Rank 0] step=1530, skipped=13, lr=[3.180654981956912e-05, 3.180654981956912e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:05,817] [INFO] [timer.py:215:stop] epoch=0/micro_step=1530/global_step=1530, RunningAvgSamplesPerSec=128.01462318533956, CurrSamplesPerSec=128.11533821036394, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:06,297] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:06,297] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:06,297] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:06,298] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:39:06,298] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:39:06,297] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:06,298] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:39:06,297] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:06,298] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:39:06,298] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:06,298] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:39:06,298] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:06,298] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:39:06,298] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:06,298] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:39:06,298] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:39:07,294] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1535
	[2023-06-12 07:39:07,294] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1535
	[2023-06-12 07:39:07,295] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1535
	[2023-06-12 07:39:07,295] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:39:07,295] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:39:07,295] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1535
	[2023-06-12 07:39:07,296] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:39:07,295] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1535
	[2023-06-12 07:39:07,296] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:39:07,295] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1535
	[2023-06-12 07:39:07,295] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1535
	[2023-06-12 07:39:07,296] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:39:07,296] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:39:07,295] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1535
	[2023-06-12 07:39:07,296] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:39:07,296] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 32768.0, reducing to 16384.0
	[2023-06-12 07:39:07,296] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:39:08,290] [INFO] [logging.py:96:log_dist] [Rank 0] step=1540, skipped=14, lr=[3.1621525879721206e-05, 3.1621525879721206e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:08,299] [INFO] [timer.py:215:stop] epoch=0/micro_step=1540/global_step=1540, RunningAvgSamplesPerSec=128.02190124005665, CurrSamplesPerSec=127.72131122581038, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:10,801] [INFO] [logging.py:96:log_dist] [Rank 0] step=1550, skipped=14, lr=[3.1415485758349346e-05, 3.1415485758349346e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:10,810] [INFO] [timer.py:215:stop] epoch=0/micro_step=1550/global_step=1550, RunningAvgSamplesPerSec=128.01959591555064, CurrSamplesPerSec=129.09758854088014, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:13,036] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1558
	[2023-06-12 07:39:13,036] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1558
	[2023-06-12 07:39:13,036] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1558
	[2023-06-12 07:39:13,038] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:39:13,038] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:39:13,036] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1558
	[2023-06-12 07:39:13,038] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:39:13,038] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 16384.0, reducing to 8192.0
	[2023-06-12 07:39:13,037] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1558
	[2023-06-12 07:39:13,038] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:39:13,037] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1558
	[2023-06-12 07:39:13,038] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:39:13,037] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1558
	[2023-06-12 07:39:13,038] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:39:13,037] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1558
	[2023-06-12 07:39:13,038] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:39:13,038] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:39:13,281] [INFO] [logging.py:96:log_dist] [Rank 0] step=1560, skipped=15, lr=[3.122964946248119e-05, 3.122964946248119e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:13,290] [INFO] [timer.py:215:stop] epoch=0/micro_step=1560/global_step=1560, RunningAvgSamplesPerSec=128.02739920968037, CurrSamplesPerSec=127.17466772663143, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:15,789] [INFO] [logging.py:96:log_dist] [Rank 0] step=1570, skipped=15, lr=[3.102273385690231e-05, 3.102273385690231e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:15,798] [INFO] [timer.py:215:stop] epoch=0/micro_step=1570/global_step=1570, RunningAvgSamplesPerSec=128.02605166485563, CurrSamplesPerSec=127.60947151746792, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:18,299] [INFO] [logging.py:96:log_dist] [Rank 0] step=1580, skipped=15, lr=[3.08153793214471e-05, 3.08153793214471e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:18,309] [INFO] [timer.py:215:stop] epoch=0/micro_step=1580/global_step=1580, RunningAvgSamplesPerSec=128.0239027046948, CurrSamplesPerSec=127.93606710513774, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:20,808] [INFO] [logging.py:96:log_dist] [Rank 0] step=1590, skipped=15, lr=[3.0607600967874206e-05, 3.0607600967874206e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:20,818] [INFO] [timer.py:215:stop] epoch=0/micro_step=1590/global_step=1590, RunningAvgSamplesPerSec=128.02218666514744, CurrSamplesPerSec=127.55550402478545, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:23,319] [INFO] [logging.py:96:log_dist] [Rank 0] step=1600, skipped=15, lr=[3.039941393882969e-05, 3.039941393882969e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:23,328] [INFO] [timer.py:215:stop] epoch=0/micro_step=1600/global_step=1600, RunningAvgSamplesPerSec=128.02011053823924, CurrSamplesPerSec=127.61626616742525, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:25,830] [INFO] [logging.py:96:log_dist] [Rank 0] step=1610, skipped=15, lr=[3.0190833406743398e-05, 3.0190833406743398e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:25,839] [INFO] [timer.py:215:stop] epoch=0/micro_step=1610/global_step=1610, RunningAvgSamplesPerSec=128.0178990883948, CurrSamplesPerSec=127.2088992765594, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:28,340] [INFO] [logging.py:96:log_dist] [Rank 0] step=1620, skipped=15, lr=[2.9981874572723222e-05, 2.9981874572723222e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:28,349] [INFO] [timer.py:215:stop] epoch=0/micro_step=1620/global_step=1620, RunningAvgSamplesPerSec=128.0158363194406, CurrSamplesPerSec=127.82080785032275, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:30,847] [INFO] [logging.py:96:log_dist] [Rank 0] step=1630, skipped=15, lr=[2.9772552665447263e-05, 2.9772552665447263e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:30,856] [INFO] [timer.py:215:stop] epoch=0/micro_step=1630/global_step=1630, RunningAvgSamplesPerSec=128.01484766155724, CurrSamplesPerSec=128.17541095229774, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:33,357] [INFO] [logging.py:96:log_dist] [Rank 0] step=1640, skipped=15, lr=[2.9562882940053975e-05, 2.9562882940053975e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:33,366] [INFO] [timer.py:215:stop] epoch=0/micro_step=1640/global_step=1640, RunningAvgSamplesPerSec=128.01300963543733, CurrSamplesPerSec=127.5270227513504, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:35,866] [INFO] [logging.py:96:log_dist] [Rank 0] step=1650, skipped=15, lr=[2.9352880677030386e-05, 2.9352880677030386e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:35,876] [INFO] [timer.py:215:stop] epoch=0/micro_step=1650/global_step=1650, RunningAvgSamplesPerSec=128.01130887282926, CurrSamplesPerSec=127.86671607906874, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:38,365] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:38,366] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:38,366] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:39:38,366] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:38,366] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:39:38,366] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:38,366] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:38,367] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:39:38,367] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:39:38,366] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:38,367] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:39:38,366] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:38,367] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:39:38,366] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:39:38,367] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:39:38,367] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:39:38,378] [INFO] [logging.py:96:log_dist] [Rank 0] step=1660, skipped=15, lr=[2.9142561181098505e-05, 2.9142561181098505e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:38,387] [INFO] [timer.py:215:stop] epoch=0/micro_step=1660/global_step=1660, RunningAvgSamplesPerSec=128.0090507031761, CurrSamplesPerSec=127.28478057181441, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:40,895] [INFO] [logging.py:96:log_dist] [Rank 0] step=1670, skipped=15, lr=[2.89319397800999e-05, 2.89319397800999e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:40,904] [INFO] [timer.py:215:stop] epoch=0/micro_step=1670/global_step=1670, RunningAvgSamplesPerSec=128.0049951247616, CurrSamplesPerSec=127.60947151746792, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:43,407] [INFO] [logging.py:96:log_dist] [Rank 0] step=1680, skipped=15, lr=[2.872103182387862e-05, 2.872103182387862e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:43,416] [INFO] [timer.py:215:stop] epoch=0/micro_step=1680/global_step=1680, RunningAvgSamplesPerSec=128.00260288589115, CurrSamplesPerSec=128.11790636028067, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:45,920] [INFO] [logging.py:96:log_dist] [Rank 0] step=1690, skipped=15, lr=[2.8509852683162536e-05, 2.8509852683162536e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:45,929] [INFO] [timer.py:215:stop] epoch=0/micro_step=1690/global_step=1690, RunningAvgSamplesPerSec=128.0000851166193, CurrSamplesPerSec=127.57635795745101, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:48,431] [INFO] [logging.py:96:log_dist] [Rank 0] step=1700, skipped=15, lr=[2.8298417748443116e-05, 2.8298417748443116e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:48,441] [INFO] [timer.py:215:stop] epoch=0/micro_step=1700/global_step=1700, RunningAvgSamplesPerSec=127.99784957131214, CurrSamplesPerSec=127.41552289474134, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:50,943] [INFO] [logging.py:96:log_dist] [Rank 0] step=1710, skipped=15, lr=[2.8086742428853836e-05, 2.8086742428853836e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:50,952] [INFO] [timer.py:215:stop] epoch=0/micro_step=1710/global_step=1710, RunningAvgSamplesPerSec=127.99564664044512, CurrSamplesPerSec=127.53053677373256, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:53,455] [INFO] [logging.py:96:log_dist] [Rank 0] step=1720, skipped=15, lr=[2.7874842151047114e-05, 2.7874842151047114e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:53,464] [INFO] [timer.py:215:stop] epoch=0/micro_step=1720/global_step=1720, RunningAvgSamplesPerSec=127.99340847152818, CurrSamplesPerSec=126.9660614029694, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:55,970] [INFO] [logging.py:96:log_dist] [Rank 0] step=1730, skipped=15, lr=[2.766273235807006e-05, 2.766273235807006e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:55,979] [INFO] [timer.py:215:stop] epoch=0/micro_step=1730/global_step=1730, RunningAvgSamplesPerSec=127.99030342095347, CurrSamplesPerSec=127.37235549844696, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:39:58,482] [INFO] [logging.py:96:log_dist] [Rank 0] step=1740, skipped=15, lr=[2.7450428508239024e-05, 2.7450428508239024e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:39:58,491] [INFO] [timer.py:215:stop] epoch=0/micro_step=1740/global_step=1740, RunningAvgSamplesPerSec=127.9881257251868, CurrSamplesPerSec=128.11668341890817, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:00,994] [INFO] [logging.py:96:log_dist] [Rank 0] step=1750, skipped=15, lr=[2.723794607401297e-05, 2.723794607401297e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:01,003] [INFO] [timer.py:215:stop] epoch=0/micro_step=1750/global_step=1750, RunningAvgSamplesPerSec=127.9859074587052, CurrSamplesPerSec=127.83188612845312, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:03,493] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:03,493] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:03,493] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:03,494] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:03,494] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:03,493] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:03,494] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:03,493] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:03,494] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:03,494] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:03,494] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:03,494] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:03,494] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:03,494] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:03,494] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:03,494] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:03,505] [INFO] [logging.py:96:log_dist] [Rank 0] step=1760, skipped=15, lr=[2.7025300540865923e-05, 2.7025300540865923e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:03,514] [INFO] [timer.py:215:stop] epoch=0/micro_step=1760/global_step=1760, RunningAvgSamplesPerSec=127.98394740646945, CurrSamplesPerSec=127.18286233562934, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:03,738] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1760
	[2023-06-12 07:40:03,738] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:03,738] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1760
	[2023-06-12 07:40:03,738] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1760
	[2023-06-12 07:40:03,739] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:03,739] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:03,739] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1760
	[2023-06-12 07:40:03,739] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:03,739] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1760
	[2023-06-12 07:40:03,739] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1760
	[2023-06-12 07:40:03,739] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:03,739] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1760
	[2023-06-12 07:40:03,739] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:03,739] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1760
	[2023-06-12 07:40:03,739] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 32768.0, reducing to 16384.0
	[2023-06-12 07:40:03,739] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:03,739] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:05,990] [INFO] [logging.py:96:log_dist] [Rank 0] step=1770, skipped=16, lr=[2.6833792919797152e-05, 2.6833792919797152e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:05,999] [INFO] [timer.py:215:stop] epoch=0/micro_step=1770/global_step=1770, RunningAvgSamplesPerSec=127.98976375922193, CurrSamplesPerSec=127.46101936353881, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:08,497] [INFO] [logging.py:96:log_dist] [Rank 0] step=1780, skipped=16, lr=[2.6620880202842324e-05, 2.6620880202842324e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:08,506] [INFO] [timer.py:215:stop] epoch=0/micro_step=1780/global_step=1780, RunningAvgSamplesPerSec=127.9889938155736, CurrSamplesPerSec=127.24061605901971, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:11,012] [INFO] [logging.py:96:log_dist] [Rank 0] step=1790, skipped=16, lr=[2.6407849358013358e-05, 2.6407849358013358e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:11,021] [INFO] [timer.py:215:stop] epoch=0/micro_step=1790/global_step=1790, RunningAvgSamplesPerSec=127.98586912236219, CurrSamplesPerSec=127.06715113692091, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:13,523] [INFO] [logging.py:96:log_dist] [Rank 0] step=1800, skipped=16, lr=[2.6194715910751803e-05, 2.6194715910751803e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:13,532] [INFO] [timer.py:215:stop] epoch=0/micro_step=1800/global_step=1800, RunningAvgSamplesPerSec=127.98419696887774, CurrSamplesPerSec=128.00781297686626, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:16,034] [INFO] [logging.py:96:log_dist] [Rank 0] step=1810, skipped=16, lr=[2.598149539397672e-05, 2.598149539397672e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:16,044] [INFO] [timer.py:215:stop] epoch=0/micro_step=1810/global_step=1810, RunningAvgSamplesPerSec=127.98218899027498, CurrSamplesPerSec=127.46259296085364, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:18,544] [INFO] [logging.py:96:log_dist] [Rank 0] step=1820, skipped=16, lr=[2.576820334695273e-05, 2.576820334695273e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:18,554] [INFO] [timer.py:215:stop] epoch=0/micro_step=1820/global_step=1820, RunningAvgSamplesPerSec=127.98065290013902, CurrSamplesPerSec=127.3195545352786, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:21,058] [INFO] [logging.py:96:log_dist] [Rank 0] step=1830, skipped=16, lr=[2.5554855314157468e-05, 2.5554855314157468e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:21,068] [INFO] [timer.py:215:stop] epoch=0/micro_step=1830/global_step=1830, RunningAvgSamplesPerSec=127.97801155570318, CurrSamplesPerSec=126.86369341983878, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:23,570] [INFO] [logging.py:96:log_dist] [Rank 0] step=1840, skipped=16, lr=[2.5341466844148775e-05, 2.5341466844148775e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:23,579] [INFO] [timer.py:215:stop] epoch=0/micro_step=1840/global_step=1840, RunningAvgSamplesPerSec=127.97610936228, CurrSamplesPerSec=127.60292021877873, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:26,079] [INFO] [logging.py:96:log_dist] [Rank 0] step=1850, skipped=16, lr=[2.5128053488431502e-05, 2.5128053488431502e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:26,088] [INFO] [timer.py:215:stop] epoch=0/micro_step=1850/global_step=1850, RunningAvgSamplesPerSec=127.9749128631184, CurrSamplesPerSec=128.07988380814604, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:28,591] [INFO] [logging.py:96:log_dist] [Rank 0] step=1860, skipped=16, lr=[2.4914630800324114e-05, 2.4914630800324114e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:28,600] [INFO] [timer.py:215:stop] epoch=0/micro_step=1860/global_step=1860, RunningAvgSamplesPerSec=127.97290021634043, CurrSamplesPerSec=126.6620815135535, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:29,083] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:29,084] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:29,084] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:29,084] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:29,084] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:29,084] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:29,084] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:29,084] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:29,085] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:29,085] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:29,085] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:29,085] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:29,085] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:29,085] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:29,085] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:29,085] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:29,580] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1863
	[2023-06-12 07:40:29,580] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1863
	[2023-06-12 07:40:29,580] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1863
	[2023-06-12 07:40:29,581] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:29,580] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1863
	[2023-06-12 07:40:29,581] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:29,581] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:29,580] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1863
	[2023-06-12 07:40:29,581] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:29,580] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1863
	[2023-06-12 07:40:29,581] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:29,581] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 32768.0, reducing to 16384.0
	[2023-06-12 07:40:29,580] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1863
	[2023-06-12 07:40:29,581] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:29,580] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1863
	[2023-06-12 07:40:29,581] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:29,581] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:31,078] [INFO] [logging.py:96:log_dist] [Rank 0] step=1870, skipped=17, lr=[2.472255525721801e-05, 2.472255525721801e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:31,087] [INFO] [timer.py:215:stop] epoch=0/micro_step=1870/global_step=1870, RunningAvgSamplesPerSec=127.97781932937943, CurrSamplesPerSec=127.72374205876419, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:33,586] [INFO] [logging.py:96:log_dist] [Rank 0] step=1880, skipped=17, lr=[2.4509157688484295e-05, 2.4509157688484295e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:33,596] [INFO] [timer.py:215:stop] epoch=0/micro_step=1880/global_step=1880, RunningAvgSamplesPerSec=127.97675106399706, CurrSamplesPerSec=127.58933448421077, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:36,100] [INFO] [logging.py:96:log_dist] [Rank 0] step=1890, skipped=17, lr=[2.4295795891770427e-05, 2.4295795891770427e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:36,109] [INFO] [timer.py:215:stop] epoch=0/micro_step=1890/global_step=1890, RunningAvgSamplesPerSec=127.9742864775827, CurrSamplesPerSec=127.54701891095695, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:38,614] [INFO] [logging.py:96:log_dist] [Rank 0] step=1900, skipped=17, lr=[2.408248541663735e-05, 2.408248541663735e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:38,623] [INFO] [timer.py:215:stop] epoch=0/micro_step=1900/global_step=1900, RunningAvgSamplesPerSec=127.97192220641512, CurrSamplesPerSec=127.32897575376956, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:41,123] [INFO] [logging.py:96:log_dist] [Rank 0] step=1910, skipped=17, lr=[2.386924180890572e-05, 2.386924180890572e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:41,132] [INFO] [timer.py:215:stop] epoch=0/micro_step=1910/global_step=1910, RunningAvgSamplesPerSec=127.97079360206841, CurrSamplesPerSec=127.90717186185182, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:43,633] [INFO] [logging.py:96:log_dist] [Rank 0] step=1920, skipped=17, lr=[2.3656080609522975e-05, 2.3656080609522975e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:43,642] [INFO] [timer.py:215:stop] epoch=0/micro_step=1920/global_step=1920, RunningAvgSamplesPerSec=127.9695497479756, CurrSamplesPerSec=128.14273711867773, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:46,144] [INFO] [logging.py:96:log_dist] [Rank 0] step=1930, skipped=17, lr=[2.3443017353430764e-05, 2.3443017353430764e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:46,153] [INFO] [timer.py:215:stop] epoch=0/micro_step=1930/global_step=1930, RunningAvgSamplesPerSec=127.96782046795583, CurrSamplesPerSec=127.90558726830895, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:48,654] [INFO] [logging.py:96:log_dist] [Rank 0] step=1940, skipped=17, lr=[2.3230067568432687e-05, 2.3230067568432687e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:48,663] [INFO] [timer.py:215:stop] epoch=0/micro_step=1940/global_step=1940, RunningAvgSamplesPerSec=127.96649297722442, CurrSamplesPerSec=127.75535130936699, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:51,161] [INFO] [logging.py:96:log_dist] [Rank 0] step=1950, skipped=17, lr=[2.301724677406277e-05, 2.301724677406277e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:51,170] [INFO] [timer.py:215:stop] epoch=0/micro_step=1950/global_step=1950, RunningAvgSamplesPerSec=127.96594524180867, CurrSamplesPerSec=127.3443184136246, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:53,675] [INFO] [logging.py:96:log_dist] [Rank 0] step=1960, skipped=17, lr=[2.280457048045429e-05, 2.280457048045429e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:53,684] [INFO] [timer.py:215:stop] epoch=0/micro_step=1960/global_step=1960, RunningAvgSamplesPerSec=127.96365830567592, CurrSamplesPerSec=127.54144359364696, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:54,922] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:54,923] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:54,923] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:54,923] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:54,923] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:54,923] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:54,923] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:54,923] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:54,923] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:54,923] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:54,923] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:54,923] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:54,923] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:54,923] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:54,923] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:40:54,924] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:40:55,168] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1965
	[2023-06-12 07:40:55,169] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:55,169] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1965
	[2023-06-12 07:40:55,169] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:55,169] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1965
	[2023-06-12 07:40:55,169] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1965
	[2023-06-12 07:40:55,169] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:55,169] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1965
	[2023-06-12 07:40:55,169] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:55,169] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1965
	[2023-06-12 07:40:55,169] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:55,169] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:55,169] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1965
	[2023-06-12 07:40:55,169] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:55,169] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 1965
	[2023-06-12 07:40:55,169] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:40:55,169] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 32768.0, reducing to 16384.0
	[2023-06-12 07:40:56,163] [INFO] [logging.py:96:log_dist] [Rank 0] step=1970, skipped=18, lr=[2.261329817501475e-05, 2.261329817501475e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:56,173] [INFO] [timer.py:215:stop] epoch=0/micro_step=1970/global_step=1970, RunningAvgSamplesPerSec=127.96797590807468, CurrSamplesPerSec=127.84077448703759, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:40:58,675] [INFO] [logging.py:96:log_dist] [Rank 0] step=1980, skipped=18, lr=[2.240093912464302e-05, 2.240093912464302e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:40:58,684] [INFO] [timer.py:215:stop] epoch=0/micro_step=1980/global_step=1980, RunningAvgSamplesPerSec=127.96626928620911, CurrSamplesPerSec=127.60680238865115, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:01,187] [INFO] [logging.py:96:log_dist] [Rank 0] step=1990, skipped=18, lr=[2.218876949082127e-05, 2.218876949082127e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:01,197] [INFO] [timer.py:215:stop] epoch=0/micro_step=1990/global_step=1990, RunningAvgSamplesPerSec=127.96435508196535, CurrSamplesPerSec=127.37380602829374, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:03,699] [INFO] [logging.py:96:log_dist] [Rank 0] step=2000, skipped=18, lr=[2.197680473622697e-05, 2.197680473622697e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:03,708] [INFO] [timer.py:215:stop] epoch=0/micro_step=2000/global_step=2000, RunningAvgSamplesPerSec=127.96279629489702, CurrSamplesPerSec=126.87340708412147, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:06,211] [INFO] [logging.py:96:log_dist] [Rank 0] step=2010, skipped=18, lr=[2.1765060308606246e-05, 2.1765060308606246e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:06,221] [INFO] [timer.py:215:stop] epoch=0/micro_step=2010/global_step=2010, RunningAvgSamplesPerSec=127.96080050720353, CurrSamplesPerSec=127.31279144328215, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:08,721] [INFO] [logging.py:96:log_dist] [Rank 0] step=2020, skipped=18, lr=[2.1553551639648015e-05, 2.1553551639648015e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:08,730] [INFO] [timer.py:215:stop] epoch=0/micro_step=2020/global_step=2020, RunningAvgSamplesPerSec=127.9598035855475, CurrSamplesPerSec=127.40935433253246, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:11,234] [INFO] [logging.py:96:log_dist] [Rank 0] step=2030, skipped=18, lr=[2.1342294143859416e-05, 2.1342294143859416e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:11,243] [INFO] [timer.py:215:stop] epoch=0/micro_step=2030/global_step=2030, RunningAvgSamplesPerSec=127.95767612643242, CurrSamplesPerSec=127.7106166599426, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:13,745] [INFO] [logging.py:96:log_dist] [Rank 0] step=2040, skipped=18, lr=[2.1131303217442347e-05, 2.1131303217442347e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:13,755] [INFO] [timer.py:215:stop] epoch=0/micro_step=2040/global_step=2040, RunningAvgSamplesPerSec=127.95616404302373, CurrSamplesPerSec=127.32184931903191, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:16,258] [INFO] [logging.py:96:log_dist] [Rank 0] step=2050, skipped=18, lr=[2.092059423717145e-05, 2.092059423717145e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:16,267] [INFO] [timer.py:215:stop] epoch=0/micro_step=2050/global_step=2050, RunningAvgSamplesPerSec=127.9542541140684, CurrSamplesPerSec=127.61663018694983, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:18,770] [INFO] [logging.py:96:log_dist] [Rank 0] step=2060, skipped=18, lr=[2.0710182559273457e-05, 2.0710182559273457e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:18,779] [INFO] [timer.py:215:stop] epoch=0/micro_step=2060/global_step=2060, RunningAvgSamplesPerSec=127.95262418743026, CurrSamplesPerSec=127.2794695555859, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:20,517] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:20,518] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:20,518] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:20,518] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:20,518] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:20,518] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:20,518] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:20,518] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:20,518] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:20,518] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:20,518] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:20,518] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:20,518] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:20,519] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:20,518] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:20,519] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2067
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2067
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2067
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2067
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2067
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2067
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2067
	[2023-06-12 07:41:20,764] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 32768.0, reducing to 16384.0
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2067
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:20,764] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:21,257] [INFO] [logging.py:96:log_dist] [Rank 0] step=2070, skipped=19, lr=[2.052107891717339e-05, 2.052107891717339e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:21,266] [INFO] [timer.py:215:stop] epoch=0/micro_step=2070/global_step=2070, RunningAvgSamplesPerSec=127.95708082669086, CurrSamplesPerSec=127.8349299477108, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:23,766] [INFO] [logging.py:96:log_dist] [Rank 0] step=2080, skipped=19, lr=[2.0311274341687408e-05, 2.0311274341687408e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:23,776] [INFO] [timer.py:215:stop] epoch=0/micro_step=2080/global_step=2080, RunningAvgSamplesPerSec=127.95606859567125, CurrSamplesPerSec=126.9831187740841, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:26,275] [INFO] [logging.py:96:log_dist] [Rank 0] step=2090, skipped=19, lr=[2.0101811475103458e-05, 2.0101811475103458e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:26,284] [INFO] [timer.py:215:stop] epoch=0/micro_step=2090/global_step=2090, RunningAvgSamplesPerSec=127.95531244114856, CurrSamplesPerSec=127.5664151158591, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:28,788] [INFO] [logging.py:96:log_dist] [Rank 0] step=2100, skipped=19, lr=[1.9892705582832933e-05, 1.9892705582832933e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:28,797] [INFO] [timer.py:215:stop] epoch=0/micro_step=2100/global_step=2100, RunningAvgSamplesPerSec=127.95344641526509, CurrSamplesPerSec=127.59709740685074, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:31,301] [INFO] [logging.py:96:log_dist] [Rank 0] step=2110, skipped=19, lr=[1.9683971904271375e-05, 1.9683971904271375e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:31,310] [INFO] [timer.py:215:stop] epoch=0/micro_step=2110/global_step=2110, RunningAvgSamplesPerSec=127.95152130347918, CurrSamplesPerSec=127.17623426141402, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:33,816] [INFO] [logging.py:96:log_dist] [Rank 0] step=2120, skipped=19, lr=[1.947562565168781e-05, 1.947562565168781e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:33,825] [INFO] [timer.py:215:stop] epoch=0/micro_step=2120/global_step=2120, RunningAvgSamplesPerSec=127.9490116425704, CurrSamplesPerSec=127.3644990358775, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:36,328] [INFO] [logging.py:96:log_dist] [Rank 0] step=2130, skipped=19, lr=[1.9267682009116103e-05, 1.9267682009116103e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:36,337] [INFO] [timer.py:215:stop] epoch=0/micro_step=2130/global_step=2130, RunningAvgSamplesPerSec=127.9474658835021, CurrSamplesPerSec=127.60777296802907, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:38,839] [INFO] [logging.py:96:log_dist] [Rank 0] step=2140, skipped=19, lr=[1.906015613124839e-05, 1.906015613124839e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:38,848] [INFO] [timer.py:215:stop] epoch=0/micro_step=2140/global_step=2140, RunningAvgSamplesPerSec=127.94610718955609, CurrSamplesPerSec=127.55974700507035, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:41,350] [INFO] [logging.py:96:log_dist] [Rank 0] step=2150, skipped=19, lr=[1.8853063142330564e-05, 1.8853063142330564e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:41,359] [INFO] [timer.py:215:stop] epoch=0/micro_step=2150/global_step=2150, RunningAvgSamplesPerSec=127.94478553377729, CurrSamplesPerSec=128.05654352154778, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:43,864] [INFO] [logging.py:96:log_dist] [Rank 0] step=2160, skipped=19, lr=[1.8646418135060102e-05, 1.8646418135060102e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:43,873] [INFO] [timer.py:215:stop] epoch=0/micro_step=2160/global_step=2160, RunningAvgSamplesPerSec=127.94280242462052, CurrSamplesPerSec=127.37054238259638, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:46,112] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:46,113] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:46,113] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:46,113] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:46,113] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:46,113] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:46,113] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:46,113] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:46,113] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:46,113] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:46,113] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:46,113] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:46,113] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:46,113] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:41:46,114] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:46,114] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:41:46,375] [INFO] [logging.py:96:log_dist] [Rank 0] step=2170, skipped=19, lr=[1.844023616948608e-05, 1.844023616948608e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:46,384] [INFO] [timer.py:215:stop] epoch=0/micro_step=2170/global_step=2170, RunningAvgSamplesPerSec=127.94144284801101, CurrSamplesPerSec=127.95838755592673, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:46,610] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2170
	[2023-06-12 07:41:46,610] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2170
	[2023-06-12 07:41:46,610] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2170
	[2023-06-12 07:41:46,611] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:46,611] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:46,610] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2170
	[2023-06-12 07:41:46,611] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:46,610] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2170
	[2023-06-12 07:41:46,610] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2170
	[2023-06-12 07:41:46,611] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:46,611] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:46,611] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2170
	[2023-06-12 07:41:46,611] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:46,611] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2170
	[2023-06-12 07:41:46,611] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:46,611] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:41:46,611] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 32768.0, reducing to 16384.0
	[2023-06-12 07:41:48,862] [INFO] [logging.py:96:log_dist] [Rank 0] step=2180, skipped=20, lr=[1.825508072107439e-05, 1.825508072107439e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:48,871] [INFO] [timer.py:215:stop] epoch=0/micro_step=2180/global_step=2180, RunningAvgSamplesPerSec=127.94576083373323, CurrSamplesPerSec=128.050190571141, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:51,375] [INFO] [logging.py:96:log_dist] [Rank 0] step=2190, skipped=20, lr=[1.8049819903415228e-05, 1.8049819903415228e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:51,385] [INFO] [timer.py:215:stop] epoch=0/micro_step=2190/global_step=2190, RunningAvgSamplesPerSec=127.94387372821984, CurrSamplesPerSec=128.15790941139176, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:53,883] [INFO] [logging.py:96:log_dist] [Rank 0] step=2200, skipped=20, lr=[1.7845065606841472e-05, 1.7845065606841472e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:53,893] [INFO] [timer.py:215:stop] epoch=0/micro_step=2200/global_step=2200, RunningAvgSamplesPerSec=127.9432796111559, CurrSamplesPerSec=127.48438522554252, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:56,395] [INFO] [logging.py:96:log_dist] [Rank 0] step=2210, skipped=20, lr=[1.76408327536094e-05, 1.76408327536094e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:56,405] [INFO] [timer.py:215:stop] epoch=0/micro_step=2210/global_step=2210, RunningAvgSamplesPerSec=127.94174684998022, CurrSamplesPerSec=127.31411985107543, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:41:58,906] [INFO] [logging.py:96:log_dist] [Rank 0] step=2220, skipped=20, lr=[1.743713622797311e-05, 1.743713622797311e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:41:58,915] [INFO] [timer.py:215:stop] epoch=0/micro_step=2220/global_step=2220, RunningAvgSamplesPerSec=127.94062801695311, CurrSamplesPerSec=127.3644990358775, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:01,418] [INFO] [logging.py:96:log_dist] [Rank 0] step=2230, skipped=20, lr=[1.723399087509974e-05, 1.723399087509974e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:01,427] [INFO] [timer.py:215:stop] epoch=0/micro_step=2230/global_step=2230, RunningAvgSamplesPerSec=127.93906558444975, CurrSamplesPerSec=127.38347707162998, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:03,932] [INFO] [logging.py:96:log_dist] [Rank 0] step=2240, skipped=20, lr=[1.7031411499987605e-05, 1.7031411499987605e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:03,941] [INFO] [timer.py:215:stop] epoch=0/micro_step=2240/global_step=2240, RunningAvgSamplesPerSec=127.9370898887745, CurrSamplesPerSec=127.03552076264248, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:06,440] [INFO] [logging.py:96:log_dist] [Rank 0] step=2250, skipped=20, lr=[1.6829412866387228e-05, 1.6829412866387228e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:06,450] [INFO] [timer.py:215:stop] epoch=0/micro_step=2250/global_step=2250, RunningAvgSamplesPerSec=127.93651448591038, CurrSamplesPerSec=128.44514623778161, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:08,950] [INFO] [logging.py:96:log_dist] [Rank 0] step=2260, skipped=20, lr=[1.6628009695725346e-05, 1.6628009695725346e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:08,959] [INFO] [timer.py:215:stop] epoch=0/micro_step=2260/global_step=2260, RunningAvgSamplesPerSec=127.93573474530254, CurrSamplesPerSec=127.5608381027689, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:10,680] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2266
	[2023-06-12 07:42:10,680] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2266
	[2023-06-12 07:42:10,680] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2266
	[2023-06-12 07:42:10,682] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:42:10,682] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:42:10,680] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2266
	[2023-06-12 07:42:10,682] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:42:10,682] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 16384.0, reducing to 8192.0
	[2023-06-12 07:42:10,681] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2266
	[2023-06-12 07:42:10,682] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:42:10,681] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2266
	[2023-06-12 07:42:10,682] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:42:10,681] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2266
	[2023-06-12 07:42:10,681] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2266
	[2023-06-12 07:42:10,682] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:42:10,682] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:42:10,682] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:42:11,426] [INFO] [logging.py:96:log_dist] [Rank 0] step=2270, skipped=21, lr=[1.6447268095247876e-05, 1.6447268095247876e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:11,436] [INFO] [timer.py:215:stop] epoch=0/micro_step=2270/global_step=2270, RunningAvgSamplesPerSec=127.94218766985102, CurrSamplesPerSec=127.98193614335135, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:13,939] [INFO] [logging.py:96:log_dist] [Rank 0] step=2280, skipped=21, lr=[1.6247036705412644e-05, 1.6247036705412644e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:13,948] [INFO] [timer.py:215:stop] epoch=0/micro_step=2280/global_step=2280, RunningAvgSamplesPerSec=127.94069686865086, CurrSamplesPerSec=127.60279890477639, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:16,447] [INFO] [logging.py:96:log_dist] [Rank 0] step=2290, skipped=21, lr=[1.604744322141682e-05, 1.604744322141682e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:16,456] [INFO] [timer.py:215:stop] epoch=0/micro_step=2290/global_step=2290, RunningAvgSamplesPerSec=127.93998311179779, CurrSamplesPerSec=127.75875631570331, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:17,680] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2294
	[2023-06-12 07:42:17,680] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2294
	[2023-06-12 07:42:17,681] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:42:17,680] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2294
	[2023-06-12 07:42:17,681] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:42:17,681] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 8192.0, reducing to 4096.0
	[2023-06-12 07:42:17,680] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2294
	[2023-06-12 07:42:17,681] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:42:17,680] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2294
	[2023-06-12 07:42:17,681] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:42:17,680] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2294
	[2023-06-12 07:42:17,681] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:42:17,680] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2294
	[2023-06-12 07:42:17,681] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:42:17,680] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2294
	[2023-06-12 07:42:17,681] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:42:17,681] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 8192.0 to 4096.0
	[2023-06-12 07:42:18,927] [INFO] [logging.py:96:log_dist] [Rank 0] step=2300, skipped=22, lr=[1.5868366518677517e-05, 1.5868366518677517e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:18,937] [INFO] [timer.py:215:stop] epoch=0/micro_step=2300/global_step=2300, RunningAvgSamplesPerSec=127.94571677458067, CurrSamplesPerSec=128.19842724554016, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:21,437] [INFO] [logging.py:96:log_dist] [Rank 0] step=2310, skipped=22, lr=[1.567002509112022e-05, 1.567002509112022e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:21,446] [INFO] [timer.py:215:stop] epoch=0/micro_step=2310/global_step=2310, RunningAvgSamplesPerSec=127.94487483763727, CurrSamplesPerSec=127.97498047733511, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:23,951] [INFO] [logging.py:96:log_dist] [Rank 0] step=2320, skipped=22, lr=[1.5472363621341286e-05, 1.5472363621341286e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:23,960] [INFO] [timer.py:215:stop] epoch=0/micro_step=2320/global_step=2320, RunningAvgSamplesPerSec=127.94287116711554, CurrSamplesPerSec=127.68522424252802, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:26,465] [INFO] [logging.py:96:log_dist] [Rank 0] step=2330, skipped=22, lr=[1.5275396514679986e-05, 1.5275396514679986e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:26,474] [INFO] [timer.py:215:stop] epoch=0/micro_step=2330/global_step=2330, RunningAvgSamplesPerSec=127.94092809650165, CurrSamplesPerSec=127.10409321503418, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:28,976] [INFO] [logging.py:96:log_dist] [Rank 0] step=2340, skipped=22, lr=[1.5079138125871195e-05, 1.5079138125871195e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:28,986] [INFO] [timer.py:215:stop] epoch=0/micro_step=2340/global_step=2340, RunningAvgSamplesPerSec=127.93967047412413, CurrSamplesPerSec=127.43076543303648, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:31,490] [INFO] [logging.py:96:log_dist] [Rank 0] step=2350, skipped=22, lr=[1.4883602757999259e-05, 1.4883602757999259e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:31,499] [INFO] [timer.py:215:stop] epoch=0/micro_step=2350/global_step=2350, RunningAvgSamplesPerSec=127.9379248716125, CurrSamplesPerSec=126.83528049858015, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:34,001] [INFO] [logging.py:96:log_dist] [Rank 0] step=2360, skipped=22, lr=[1.468880466145559e-05, 1.468880466145559e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:34,011] [INFO] [timer.py:215:stop] epoch=0/micro_step=2360/global_step=2360, RunningAvgSamplesPerSec=127.93658681016575, CurrSamplesPerSec=127.8181298734939, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:36,509] [INFO] [logging.py:96:log_dist] [Rank 0] step=2370, skipped=22, lr=[1.4494758032900119e-05, 1.4494758032900119e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:36,518] [INFO] [timer.py:215:stop] epoch=0/micro_step=2370/global_step=2370, RunningAvgSamplesPerSec=127.93609815872871, CurrSamplesPerSec=128.24791576887466, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:39,019] [INFO] [logging.py:96:log_dist] [Rank 0] step=2380, skipped=22, lr=[1.4301477014226664e-05, 1.4301477014226664e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:39,028] [INFO] [timer.py:215:stop] epoch=0/micro_step=2380/global_step=2380, RunningAvgSamplesPerSec=127.9351521397032, CurrSamplesPerSec=128.23504997831185, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:41,530] [INFO] [logging.py:96:log_dist] [Rank 0] step=2390, skipped=22, lr=[1.4108975691532272e-05, 1.4108975691532272e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:41,539] [INFO] [timer.py:215:stop] epoch=0/micro_step=2390/global_step=2390, RunningAvgSamplesPerSec=127.934059022353, CurrSamplesPerSec=127.43875107530047, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:43,023] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:42:43,024] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:42:43,024] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:42:43,024] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:42:43,024] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:42:43,025] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:42:43,025] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:42:43,024] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:42:43,025] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:42:43,024] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:42:43,024] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:42:43,025] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:42:43,024] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:42:43,025] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:42:43,025] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:42:43,025] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 4096.0 to 8192.0
	[2023-06-12 07:42:44,042] [INFO] [logging.py:96:log_dist] [Rank 0] step=2400, skipped=22, lr=[1.3917268094090663e-05, 1.3917268094090663e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:44,052] [INFO] [timer.py:215:stop] epoch=0/micro_step=2400/global_step=2400, RunningAvgSamplesPerSec=127.93255866755182, CurrSamplesPerSec=126.79142731096923, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:46,550] [INFO] [logging.py:96:log_dist] [Rank 0] step=2410, skipped=22, lr=[1.3726368193329758e-05, 1.3726368193329758e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:46,559] [INFO] [timer.py:215:stop] epoch=0/micro_step=2410/global_step=2410, RunningAvgSamplesPerSec=127.93211119703683, CurrSamplesPerSec=127.76897242382472, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:49,063] [INFO] [logging.py:96:log_dist] [Rank 0] step=2420, skipped=22, lr=[1.3536289901813486e-05, 1.3536289901813486e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:49,072] [INFO] [timer.py:215:stop] epoch=0/micro_step=2420/global_step=2420, RunningAvgSamplesPerSec=127.93055843177406, CurrSamplesPerSec=127.18659846372817, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:51,577] [INFO] [logging.py:96:log_dist] [Rank 0] step=2430, skipped=22, lr=[1.334704707222787e-05, 1.334704707222787e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:51,586] [INFO] [timer.py:215:stop] epoch=0/micro_step=2430/global_step=2430, RunningAvgSamplesPerSec=127.92883428631895, CurrSamplesPerSec=127.76349930558001, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:54,084] [INFO] [logging.py:96:log_dist] [Rank 0] step=2440, skipped=22, lr=[1.3158653496371395e-05, 1.3158653496371395e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:54,093] [INFO] [timer.py:215:stop] epoch=0/micro_step=2440/global_step=2440, RunningAvgSamplesPerSec=127.92847424204895, CurrSamplesPerSec=127.88925605345104, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:56,594] [INFO] [logging.py:96:log_dist] [Rank 0] step=2450, skipped=22, lr=[1.2971122904149943e-05, 1.2971122904149943e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:56,603] [INFO] [timer.py:215:stop] epoch=0/micro_step=2450/global_step=2450, RunningAvgSamplesPerSec=127.92778142730064, CurrSamplesPerSec=127.34093546223303, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:42:59,104] [INFO] [logging.py:96:log_dist] [Rank 0] step=2460, skipped=22, lr=[1.2784468962576136e-05, 1.2784468962576136e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:42:59,113] [INFO] [timer.py:215:stop] epoch=0/micro_step=2460/global_step=2460, RunningAvgSamplesPerSec=127.92687485068114, CurrSamplesPerSec=127.9044902650094, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:01,614] [INFO] [logging.py:96:log_dist] [Rank 0] step=2470, skipped=22, lr=[1.2598705274773297e-05, 1.2598705274773297e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:01,623] [INFO] [timer.py:215:stop] epoch=0/micro_step=2470/global_step=2470, RunningAvgSamplesPerSec=127.92595681046971, CurrSamplesPerSec=127.39919564963584, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:04,129] [INFO] [logging.py:96:log_dist] [Rank 0] step=2480, skipped=22, lr=[1.2413845378984126e-05, 1.2413845378984126e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:04,138] [INFO] [timer.py:215:stop] epoch=0/micro_step=2480/global_step=2480, RunningAvgSamplesPerSec=127.92415049034301, CurrSamplesPerSec=127.15201753746084, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:06,642] [INFO] [logging.py:96:log_dist] [Rank 0] step=2490, skipped=22, lr=[1.2229902747583971e-05, 1.2229902747583971e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:06,651] [INFO] [timer.py:215:stop] epoch=0/micro_step=2490/global_step=2490, RunningAvgSamplesPerSec=127.92266844770472, CurrSamplesPerSec=127.43342720258859, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:08,138] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:08,138] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:08,139] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:08,139] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:43:08,139] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:43:08,138] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:08,139] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:43:08,138] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:08,139] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:43:08,139] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:43:08,139] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:08,139] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:43:08,139] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:08,139] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:08,139] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:43:08,139] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:43:09,155] [INFO] [logging.py:96:log_dist] [Rank 0] step=2500, skipped=22, lr=[1.204689078609902e-05, 1.204689078609902e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:09,164] [INFO] [timer.py:215:stop] epoch=0/micro_step=2500/global_step=2500, RunningAvgSamplesPerSec=127.92108580463508, CurrSamplesPerSec=127.89339939968555, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:11,672] [INFO] [logging.py:96:log_dist] [Rank 0] step=2510, skipped=22, lr=[1.1864822832229319e-05, 1.1864822832229319e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:11,681] [INFO] [timer.py:215:stop] epoch=0/micro_step=2510/global_step=2510, RunningAvgSamplesPerSec=127.91892932977089, CurrSamplesPerSec=127.50158215973592, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:14,183] [INFO] [logging.py:96:log_dist] [Rank 0] step=2520, skipped=22, lr=[1.1683712154876714e-05, 1.1683712154876714e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:14,192] [INFO] [timer.py:215:stop] epoch=0/micro_step=2520/global_step=2520, RunningAvgSamplesPerSec=127.91787676305164, CurrSamplesPerSec=127.62014914942232, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:16,693] [INFO] [logging.py:96:log_dist] [Rank 0] step=2530, skipped=22, lr=[1.1503571953177883e-05, 1.1503571953177883e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:16,702] [INFO] [timer.py:215:stop] epoch=0/micro_step=2530/global_step=2530, RunningAvgSamplesPerSec=127.91699322521518, CurrSamplesPerSec=127.72909021697754, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:19,204] [INFO] [logging.py:96:log_dist] [Rank 0] step=2540, skipped=22, lr=[1.1324415355542328e-05, 1.1324415355542328e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:19,213] [INFO] [timer.py:215:stop] epoch=0/micro_step=2540/global_step=2540, RunningAvgSamplesPerSec=127.91597448134003, CurrSamplesPerSec=127.65874912852549, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:21,715] [INFO] [logging.py:96:log_dist] [Rank 0] step=2550, skipped=22, lr=[1.1146255418695634e-05, 1.1146255418695634e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:21,725] [INFO] [timer.py:215:stop] epoch=0/micro_step=2550/global_step=2550, RunningAvgSamplesPerSec=127.91492001992398, CurrSamplesPerSec=127.39363324781434, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:24,226] [INFO] [logging.py:96:log_dist] [Rank 0] step=2560, skipped=22, lr=[1.0969105126727903e-05, 1.0969105126727903e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:24,235] [INFO] [timer.py:215:stop] epoch=0/micro_step=2560/global_step=2560, RunningAvgSamplesPerSec=127.91403594874994, CurrSamplesPerSec=127.22758976322869, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:26,736] [INFO] [logging.py:96:log_dist] [Rank 0] step=2570, skipped=22, lr=[1.0792977390147474e-05, 1.0792977390147474e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:26,745] [INFO] [timer.py:215:stop] epoch=0/micro_step=2570/global_step=2570, RunningAvgSamplesPerSec=127.91318236788061, CurrSamplesPerSec=127.6330132152139, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:29,253] [INFO] [logging.py:96:log_dist] [Rank 0] step=2580, skipped=22, lr=[1.0617885044940063e-05, 1.0617885044940063e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:29,262] [INFO] [timer.py:215:stop] epoch=0/micro_step=2580/global_step=2580, RunningAvgSamplesPerSec=127.91095123385954, CurrSamplesPerSec=126.65491001328662, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:31,762] [INFO] [logging.py:96:log_dist] [Rank 0] step=2590, skipped=22, lr=[1.0443840851633227e-05, 1.0443840851633227e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:31,771] [INFO] [timer.py:215:stop] epoch=0/micro_step=2590/global_step=2590, RunningAvgSamplesPerSec=127.91048525118175, CurrSamplesPerSec=127.18310336952804, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:33,257] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:33,258] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:33,258] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:33,258] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:43:33,258] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:43:33,258] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:33,258] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:43:33,258] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:33,258] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:43:33,258] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:33,258] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:43:33,258] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:33,258] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:43:33,258] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:43:33,258] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:43:33,258] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:43:33,503] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2596
	[2023-06-12 07:43:33,503] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:43:33,503] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2596
	[2023-06-12 07:43:33,503] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2596
	[2023-06-12 07:43:33,503] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2596
	[2023-06-12 07:43:33,503] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2596
	[2023-06-12 07:43:33,503] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:43:33,504] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:43:33,504] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:43:33,504] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:43:33,504] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2596
	[2023-06-12 07:43:33,504] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2596
	[2023-06-12 07:43:33,504] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:43:33,504] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:43:33,504] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 32768.0, reducing to 16384.0
	[2023-06-12 07:43:33,504] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2596
	[2023-06-12 07:43:33,504] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:43:34,249] [INFO] [logging.py:96:log_dist] [Rank 0] step=2600, skipped=23, lr=[1.0288107732566627e-05, 1.0288107732566627e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:34,258] [INFO] [timer.py:215:stop] epoch=0/micro_step=2600/global_step=2600, RunningAvgSamplesPerSec=127.91421499051327, CurrSamplesPerSec=127.5827852529218, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:36,761] [INFO] [logging.py:96:log_dist] [Rank 0] step=2610, skipped=23, lr=[1.0116089908795365e-05, 1.0116089908795365e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:36,770] [INFO] [timer.py:215:stop] epoch=0/micro_step=2610/global_step=2610, RunningAvgSamplesPerSec=127.91300019857147, CurrSamplesPerSec=127.48692814182425, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:39,273] [INFO] [logging.py:96:log_dist] [Rank 0] step=2620, skipped=23, lr=[9.945156807173722e-06, 9.945156807173722e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:39,283] [INFO] [timer.py:215:stop] epoch=0/micro_step=2620/global_step=2620, RunningAvgSamplesPerSec=127.91168849945691, CurrSamplesPerSec=127.4659823793483, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:41,782] [INFO] [logging.py:96:log_dist] [Rank 0] step=2630, skipped=23, lr=[9.775320885108399e-06, 9.775320885108399e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:41,791] [INFO] [timer.py:215:stop] epoch=0/micro_step=2630/global_step=2630, RunningAvgSamplesPerSec=127.91115165418711, CurrSamplesPerSec=127.85417023887092, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:44,292] [INFO] [logging.py:96:log_dist] [Rank 0] step=2640, skipped=23, lr=[9.606594520044945e-06, 9.606594520044945e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:44,301] [INFO] [timer.py:215:stop] epoch=0/micro_step=2640/global_step=2640, RunningAvgSamplesPerSec=127.91042212495985, CurrSamplesPerSec=127.6322849913037, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:46,804] [INFO] [logging.py:96:log_dist] [Rank 0] step=2650, skipped=23, lr=[9.438990008565656e-06, 9.438990008565656e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:46,813] [INFO] [timer.py:215:stop] epoch=0/micro_step=2650/global_step=2650, RunningAvgSamplesPerSec=127.90919777198359, CurrSamplesPerSec=127.99231003233716, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:49,314] [INFO] [logging.py:96:log_dist] [Rank 0] step=2660, skipped=23, lr=[9.272519565493443e-06, 9.272519565493443e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:49,323] [INFO] [timer.py:215:stop] epoch=0/micro_step=2660/global_step=2660, RunningAvgSamplesPerSec=127.90847408833218, CurrSamplesPerSec=127.04754566528814, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:51,821] [INFO] [logging.py:96:log_dist] [Rank 0] step=2670, skipped=23, lr=[9.10719532300162e-06, 9.10719532300162e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:51,830] [INFO] [timer.py:215:stop] epoch=0/micro_step=2670/global_step=2670, RunningAvgSamplesPerSec=127.90840752849742, CurrSamplesPerSec=127.91594878319586, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:54,328] [INFO] [logging.py:96:log_dist] [Rank 0] step=2680, skipped=23, lr=[8.943029329729721e-06, 8.943029329729721e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:54,337] [INFO] [timer.py:215:stop] epoch=0/micro_step=2680/global_step=2680, RunningAvgSamplesPerSec=127.90816067102958, CurrSamplesPerSec=127.42653102881908, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:55,306] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2683
	[2023-06-12 07:43:55,306] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2683
	[2023-06-12 07:43:55,306] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2683
	[2023-06-12 07:43:55,307] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:43:55,307] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:43:55,306] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2683
	[2023-06-12 07:43:55,307] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:43:55,306] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2683
	[2023-06-12 07:43:55,306] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2683
	[2023-06-12 07:43:55,308] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:43:55,308] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 16384.0, reducing to 8192.0
	[2023-06-12 07:43:55,308] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:43:55,308] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:43:55,306] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2683
	[2023-06-12 07:43:55,306] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2683
	[2023-06-12 07:43:55,308] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:43:55,308] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:43:56,804] [INFO] [logging.py:96:log_dist] [Rank 0] step=2690, skipped=24, lr=[8.796280129060475e-06, 8.796280129060475e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:56,813] [INFO] [timer.py:215:stop] epoch=0/micro_step=2690/global_step=2690, RunningAvgSamplesPerSec=127.91388800137813, CurrSamplesPerSec=128.18642835926806, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:43:59,315] [INFO] [logging.py:96:log_dist] [Rank 0] step=2700, skipped=24, lr=[8.634347700284575e-06, 8.634347700284575e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:43:59,324] [INFO] [timer.py:215:stop] epoch=0/micro_step=2700/global_step=2700, RunningAvgSamplesPerSec=127.91300525188942, CurrSamplesPerSec=128.09027358262784, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:01,826] [INFO] [logging.py:96:log_dist] [Rank 0] step=2710, skipped=24, lr=[8.473607981316364e-06, 8.473607981316364e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:01,836] [INFO] [timer.py:215:stop] epoch=0/micro_step=2710/global_step=2710, RunningAvgSamplesPerSec=127.91189445714673, CurrSamplesPerSec=127.32776782732765, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:04,340] [INFO] [logging.py:96:log_dist] [Rank 0] step=2720, skipped=24, lr=[8.31407268668061e-06, 8.31407268668061e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:04,349] [INFO] [timer.py:215:stop] epoch=0/micro_step=2720/global_step=2720, RunningAvgSamplesPerSec=127.91060496861292, CurrSamplesPerSec=127.63944622067866, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:06,849] [INFO] [logging.py:96:log_dist] [Rank 0] step=2730, skipped=24, lr=[8.155753443125036e-06, 8.155753443125036e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:06,858] [INFO] [timer.py:215:stop] epoch=0/micro_step=2730/global_step=2730, RunningAvgSamplesPerSec=127.90996461141324, CurrSamplesPerSec=127.21649539256555, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:09,355] [INFO] [logging.py:96:log_dist] [Rank 0] step=2740, skipped=24, lr=[7.998661788772957e-06, 7.998661788772957e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:09,365] [INFO] [timer.py:215:stop] epoch=0/micro_step=2740/global_step=2740, RunningAvgSamplesPerSec=127.90994942487251, CurrSamplesPerSec=127.56568765171373, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:11,871] [INFO] [logging.py:96:log_dist] [Rank 0] step=2750, skipped=24, lr=[7.842809172282436e-06, 7.842809172282436e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:11,880] [INFO] [timer.py:215:stop] epoch=0/micro_step=2750/global_step=2750, RunningAvgSamplesPerSec=127.90815176213754, CurrSamplesPerSec=128.55439278045006, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:14,387] [INFO] [logging.py:96:log_dist] [Rank 0] step=2760, skipped=24, lr=[7.688206952011861e-06, 7.688206952011861e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:14,396] [INFO] [timer.py:215:stop] epoch=0/micro_step=2760/global_step=2760, RunningAvgSamplesPerSec=127.90637315179274, CurrSamplesPerSec=126.99273057915985, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:16,900] [INFO] [logging.py:96:log_dist] [Rank 0] step=2770, skipped=24, lr=[7.534866395192203e-06, 7.534866395192203e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:16,909] [INFO] [timer.py:215:stop] epoch=0/micro_step=2770/global_step=2770, RunningAvgSamplesPerSec=127.90505624625827, CurrSamplesPerSec=127.14382690261898, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:19,409] [INFO] [logging.py:96:log_dist] [Rank 0] step=2780, skipped=24, lr=[7.382798677105856e-06, 7.382798677105856e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:19,418] [INFO] [timer.py:215:stop] epoch=0/micro_step=2780/global_step=2780, RunningAvgSamplesPerSec=127.90455678143223, CurrSamplesPerSec=126.86201466565593, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:20,652] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:20,653] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:20,653] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:20,653] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:44:20,653] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:44:20,652] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:20,653] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:44:20,652] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:20,653] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:44:20,653] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:20,653] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:44:20,652] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:20,653] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:20,653] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:44:20,653] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:44:20,653] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:44:21,919] [INFO] [logging.py:96:log_dist] [Rank 0] step=2790, skipped=24, lr=[7.2320148802721925e-06, 7.2320148802721925e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:21,928] [INFO] [timer.py:215:stop] epoch=0/micro_step=2790/global_step=2790, RunningAvgSamplesPerSec=127.90391261018638, CurrSamplesPerSec=128.1161942488963, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:24,429] [INFO] [logging.py:96:log_dist] [Rank 0] step=2800, skipped=24, lr=[7.082525993639916e-06, 7.082525993639916e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:24,438] [INFO] [timer.py:215:stop] epoch=0/micro_step=2800/global_step=2800, RunningAvgSamplesPerSec=127.90317647345486, CurrSamplesPerSec=127.25002559833743, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:26,939] [INFO] [logging.py:96:log_dist] [Rank 0] step=2810, skipped=24, lr=[6.934342911786143e-06, 6.934342911786143e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:26,948] [INFO] [timer.py:215:stop] epoch=0/micro_step=2810/global_step=2810, RunningAvgSamplesPerSec=127.90253904163518, CurrSamplesPerSec=127.71705749077694, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:29,445] [INFO] [logging.py:96:log_dist] [Rank 0] step=2820, skipped=24, lr=[6.787476434122461e-06, 6.787476434122461e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:29,454] [INFO] [timer.py:215:stop] epoch=0/micro_step=2820/global_step=2820, RunningAvgSamplesPerSec=127.90251568918812, CurrSamplesPerSec=127.68473836172247, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:31,955] [INFO] [logging.py:96:log_dist] [Rank 0] step=2830, skipped=24, lr=[6.641937264107867e-06, 6.641937264107867e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:31,964] [INFO] [timer.py:215:stop] epoch=0/micro_step=2830/global_step=2830, RunningAvgSamplesPerSec=127.90180511721627, CurrSamplesPerSec=127.52799211749269, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:34,466] [INFO] [logging.py:96:log_dist] [Rank 0] step=2840, skipped=24, lr=[6.497736008468702e-06, 6.497736008468702e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:34,475] [INFO] [timer.py:215:stop] epoch=0/micro_step=2840/global_step=2840, RunningAvgSamplesPerSec=127.9009379536914, CurrSamplesPerSec=127.64442314148305, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:36,980] [INFO] [logging.py:96:log_dist] [Rank 0] step=2850, skipped=24, lr=[6.35488317642568e-06, 6.35488317642568e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:36,989] [INFO] [timer.py:215:stop] epoch=0/micro_step=2850/global_step=2850, RunningAvgSamplesPerSec=127.89952911940284, CurrSamplesPerSec=127.7446510423805, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:39,491] [INFO] [logging.py:96:log_dist] [Rank 0] step=2860, skipped=24, lr=[6.2133891789279365e-06, 6.2133891789279365e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:39,500] [INFO] [timer.py:215:stop] epoch=0/micro_step=2860/global_step=2860, RunningAvgSamplesPerSec=127.89876795912716, CurrSamplesPerSec=127.9049778197083, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:42,000] [INFO] [logging.py:96:log_dist] [Rank 0] step=2870, skipped=24, lr=[6.073264327894332e-06, 6.073264327894332e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:42,009] [INFO] [timer.py:215:stop] epoch=0/micro_step=2870/global_step=2870, RunningAvgSamplesPerSec=127.8981732997756, CurrSamplesPerSec=127.55526157729474, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:44,509] [INFO] [logging.py:96:log_dist] [Rank 0] step=2880, skipped=24, lr=[5.934518835461908e-06, 5.934518835461908e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:44,518] [INFO] [timer.py:215:stop] epoch=0/micro_step=2880/global_step=2880, RunningAvgSamplesPerSec=127.89770668617244, CurrSamplesPerSec=127.76362092533574, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:45,751] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:45,751] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:45,751] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:45,752] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:44:45,752] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:44:45,752] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:45,752] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:45,752] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:44:45,752] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:45,752] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:44:45,752] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:44:45,752] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:45,752] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:44:45,752] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:44:45,752] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:44:45,752] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:44:45,997] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2885
	[2023-06-12 07:44:45,997] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:44:45,998] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2885
	[2023-06-12 07:44:45,998] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2885
	[2023-06-12 07:44:45,998] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:44:45,998] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2885
	[2023-06-12 07:44:45,998] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:44:45,998] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:44:45,998] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2885
	[2023-06-12 07:44:45,998] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2885
	[2023-06-12 07:44:45,998] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:44:45,998] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2885
	[2023-06-12 07:44:45,998] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:44:45,998] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 32768.0, reducing to 16384.0
	[2023-06-12 07:44:45,998] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:44:45,998] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2885
	[2023-06-12 07:44:45,999] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:44:46,996] [INFO] [logging.py:96:log_dist] [Rank 0] step=2890, skipped=25, lr=[5.810835603212231e-06, 5.810835603212231e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:47,005] [INFO] [timer.py:215:stop] epoch=0/micro_step=2890/global_step=2890, RunningAvgSamplesPerSec=127.90106613363557, CurrSamplesPerSec=127.22771036484505, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:49,505] [INFO] [logging.py:96:log_dist] [Rank 0] step=2900, skipped=25, lr=[5.674738665931575e-06, 5.674738665931575e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:49,514] [INFO] [timer.py:215:stop] epoch=0/micro_step=2900/global_step=2900, RunningAvgSamplesPerSec=127.90064842028545, CurrSamplesPerSec=127.92704355998147, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:52,010] [INFO] [logging.py:96:log_dist] [Rank 0] step=2910, skipped=25, lr=[5.5400501313413316e-06, 5.5400501313413316e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:52,019] [INFO] [timer.py:215:stop] epoch=0/micro_step=2910/global_step=2910, RunningAvgSamplesPerSec=127.90076134057966, CurrSamplesPerSec=127.7572970050487, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:54,522] [INFO] [logging.py:96:log_dist] [Rank 0] step=2920, skipped=25, lr=[5.406779815386087e-06, 5.406779815386087e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:54,531] [INFO] [timer.py:215:stop] epoch=0/micro_step=2920/global_step=2920, RunningAvgSamplesPerSec=127.89977994788383, CurrSamplesPerSec=127.99975585984066, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:57,033] [INFO] [logging.py:96:log_dist] [Rank 0] step=2930, skipped=25, lr=[5.274937430652302e-06, 5.274937430652302e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:57,042] [INFO] [timer.py:215:stop] epoch=0/micro_step=2930/global_step=2930, RunningAvgSamplesPerSec=127.89897023283858, CurrSamplesPerSec=127.83821743532498, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:44:59,546] [INFO] [logging.py:96:log_dist] [Rank 0] step=2940, skipped=25, lr=[5.144532585660452e-06, 5.144532585660452e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:44:59,555] [INFO] [timer.py:215:stop] epoch=0/micro_step=2940/global_step=2940, RunningAvgSamplesPerSec=127.89780899940031, CurrSamplesPerSec=126.95369167002454, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:01,274] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2946
	[2023-06-12 07:45:01,274] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2946
	[2023-06-12 07:45:01,274] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2946
	[2023-06-12 07:45:01,275] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:01,275] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:01,274] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2946
	[2023-06-12 07:45:01,275] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:01,275] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 16384.0, reducing to 8192.0
	[2023-06-12 07:45:01,274] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2946
	[2023-06-12 07:45:01,275] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:01,274] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2946
	[2023-06-12 07:45:01,274] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2946
	[2023-06-12 07:45:01,275] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:01,275] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 2946
	[2023-06-12 07:45:01,275] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:01,275] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:01,276] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:02,021] [INFO] [logging.py:96:log_dist] [Rank 0] step=2950, skipped=26, lr=[5.02840517867596e-06, 5.02840517867596e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:02,030] [INFO] [timer.py:215:stop] epoch=0/micro_step=2950/global_step=2950, RunningAvgSamplesPerSec=127.90318812518296, CurrSamplesPerSec=127.64976465900045, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:04,529] [INFO] [logging.py:96:log_dist] [Rank 0] step=2960, skipped=26, lr=[4.90075775488921e-06, 4.90075775488921e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:04,538] [INFO] [timer.py:215:stop] epoch=0/micro_step=2960/global_step=2960, RunningAvgSamplesPerSec=127.9028364718858, CurrSamplesPerSec=128.2019783671021, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:07,045] [INFO] [logging.py:96:log_dist] [Rank 0] step=2970, skipped=26, lr=[4.7745751406263165e-06, 4.7745751406263165e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:07,054] [INFO] [timer.py:215:stop] epoch=0/micro_step=2970/global_step=2970, RunningAvgSamplesPerSec=127.9012007231677, CurrSamplesPerSec=127.74659641214632, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:09,557] [INFO] [logging.py:96:log_dist] [Rank 0] step=2980, skipped=26, lr=[4.649866531930241e-06, 4.649866531930241e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:09,566] [INFO] [timer.py:215:stop] epoch=0/micro_step=2980/global_step=2980, RunningAvgSamplesPerSec=127.90017258845717, CurrSamplesPerSec=127.8654979284143, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:12,070] [INFO] [logging.py:96:log_dist] [Rank 0] step=2990, skipped=26, lr=[4.526641017420119e-06, 4.526641017420119e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:12,079] [INFO] [timer.py:215:stop] epoch=0/micro_step=2990/global_step=2990, RunningAvgSamplesPerSec=127.89906426705373, CurrSamplesPerSec=127.60170708913542, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:14,582] [INFO] [logging.py:96:log_dist] [Rank 0] step=3000, skipped=26, lr=[4.404907577628895e-06, 4.404907577628895e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:14,591] [INFO] [timer.py:215:stop] epoch=0/micro_step=3000/global_step=3000, RunningAvgSamplesPerSec=127.89805185865083, CurrSamplesPerSec=127.40766110621188, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:17,093] [INFO] [logging.py:96:log_dist] [Rank 0] step=3010, skipped=26, lr=[4.284675084348852e-06, 4.284675084348852e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:17,102] [INFO] [timer.py:215:stop] epoch=0/micro_step=3010/global_step=3010, RunningAvgSamplesPerSec=127.89732795081981, CurrSamplesPerSec=128.02539566259176, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:19,600] [INFO] [logging.py:96:log_dist] [Rank 0] step=3020, skipped=26, lr=[4.165952299985004e-06, 4.165952299985004e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:19,609] [INFO] [timer.py:215:stop] epoch=0/micro_step=3020/global_step=3020, RunningAvgSamplesPerSec=127.8971436711895, CurrSamplesPerSec=127.59394360560236, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:22,112] [INFO] [logging.py:96:log_dist] [Rank 0] step=3030, skipped=26, lr=[4.048747876916539e-06, 4.048747876916539e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:22,121] [INFO] [timer.py:215:stop] epoch=0/micro_step=3030/global_step=3030, RunningAvgSamplesPerSec=127.89623754072561, CurrSamplesPerSec=127.2800730578365, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:24,620] [INFO] [logging.py:96:log_dist] [Rank 0] step=3040, skipped=26, lr=[3.933070356866231e-06, 3.933070356866231e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:24,629] [INFO] [timer.py:215:stop] epoch=0/micro_step=3040/global_step=3040, RunningAvgSamplesPerSec=127.89594245262232, CurrSamplesPerSec=127.61881434770868, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:26,615] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:45:26,616] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:45:26,615] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:45:26,616] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:45:26,616] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:45:26,615] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:45:26,616] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:45:26,616] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:45:26,616] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:45:26,616] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:45:26,616] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:45:26,616] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:45:26,616] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:45:26,616] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:45:26,616] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:45:26,616] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:45:27,131] [INFO] [logging.py:96:log_dist] [Rank 0] step=3050, skipped=26, lr=[3.818928170277911e-06, 3.818928170277911e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:27,140] [INFO] [timer.py:215:stop] epoch=0/micro_step=3050/global_step=3050, RunningAvgSamplesPerSec=127.89514046724503, CurrSamplesPerSec=127.29987110456464, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:29,642] [INFO] [logging.py:96:log_dist] [Rank 0] step=3060, skipped=26, lr=[3.7063296357021133e-06, 3.7063296357021133e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:29,651] [INFO] [timer.py:215:stop] epoch=0/micro_step=3060/global_step=3060, RunningAvgSamplesPerSec=127.89437980349093, CurrSamplesPerSec=127.41794210179557, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:32,154] [INFO] [logging.py:96:log_dist] [Rank 0] step=3070, skipped=26, lr=[3.5952829591897746e-06, 3.5952829591897746e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:32,163] [INFO] [timer.py:215:stop] epoch=0/micro_step=3070/global_step=3070, RunningAvgSamplesPerSec=127.89335618217243, CurrSamplesPerSec=127.33706945215292, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:34,667] [INFO] [logging.py:96:log_dist] [Rank 0] step=3080, skipped=26, lr=[3.4857962336942218e-06, 3.4857962336942218e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:34,676] [INFO] [timer.py:215:stop] epoch=0/micro_step=3080/global_step=3080, RunningAvgSamplesPerSec=127.89233934706733, CurrSamplesPerSec=127.87487828719838, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:35,395] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3082
	[2023-06-12 07:45:35,395] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3082
	[2023-06-12 07:45:35,396] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:35,395] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3082
	[2023-06-12 07:45:35,396] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:35,396] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3082
	[2023-06-12 07:45:35,396] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3082
	[2023-06-12 07:45:35,396] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:35,396] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 16384.0, reducing to 8192.0
	[2023-06-12 07:45:35,396] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:35,396] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3082
	[2023-06-12 07:45:35,396] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:35,396] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3082
	[2023-06-12 07:45:35,397] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:35,396] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3082
	[2023-06-12 07:45:35,397] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:35,397] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:45:37,145] [INFO] [logging.py:96:log_dist] [Rank 0] step=3090, skipped=27, lr=[3.3885985360893046e-06, 3.3885985360893046e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:37,154] [INFO] [timer.py:215:stop] epoch=0/micro_step=3090/global_step=3090, RunningAvgSamplesPerSec=127.8970061037381, CurrSamplesPerSec=127.78563791552219, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:39,655] [INFO] [logging.py:96:log_dist] [Rank 0] step=3100, skipped=27, lr=[3.28209760597179e-06, 3.28209760597179e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:39,664] [INFO] [timer.py:215:stop] epoch=0/micro_step=3100/global_step=3100, RunningAvgSamplesPerSec=127.89632706939746, CurrSamplesPerSec=127.49007665491987, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:42,165] [INFO] [logging.py:96:log_dist] [Rank 0] step=3110, skipped=27, lr=[3.17717945145731e-06, 3.17717945145731e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:42,174] [INFO] [timer.py:215:stop] epoch=0/micro_step=3110/global_step=3110, RunningAvgSamplesPerSec=127.89570625009448, CurrSamplesPerSec=127.44613263471945, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:44,676] [INFO] [logging.py:96:log_dist] [Rank 0] step=3120, skipped=27, lr=[3.073851718859594e-06, 3.073851718859594e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:44,685] [INFO] [timer.py:215:stop] epoch=0/micro_step=3120/global_step=3120, RunningAvgSamplesPerSec=127.89500311699142, CurrSamplesPerSec=127.75146009579142, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:47,186] [INFO] [logging.py:96:log_dist] [Rank 0] step=3130, skipped=27, lr=[2.972121938584263e-06, 2.972121938584263e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:47,195] [INFO] [timer.py:215:stop] epoch=0/micro_step=3130/global_step=3130, RunningAvgSamplesPerSec=127.89441509655757, CurrSamplesPerSec=128.1398009608261, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:49,694] [INFO] [logging.py:96:log_dist] [Rank 0] step=3140, skipped=27, lr=[2.8719975245800224e-06, 2.8719975245800224e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:49,703] [INFO] [timer.py:215:stop] epoch=0/micro_step=3140/global_step=3140, RunningAvgSamplesPerSec=127.89407312852991, CurrSamplesPerSec=127.66919212816978, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:52,202] [INFO] [logging.py:96:log_dist] [Rank 0] step=3150, skipped=27, lr=[2.7734857737983317e-06, 2.7734857737983317e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:52,211] [INFO] [timer.py:215:stop] epoch=0/micro_step=3150/global_step=3150, RunningAvgSamplesPerSec=127.89389143794875, CurrSamplesPerSec=127.82433808214533, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:54,710] [INFO] [logging.py:96:log_dist] [Rank 0] step=3160, skipped=27, lr=[2.676593865661639e-06, 2.676593865661639e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:54,719] [INFO] [timer.py:215:stop] epoch=0/micro_step=3160/global_step=3160, RunningAvgSamplesPerSec=127.89365586902977, CurrSamplesPerSec=127.98401078661628, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:57,221] [INFO] [logging.py:96:log_dist] [Rank 0] step=3170, skipped=27, lr=[2.5813288615401247e-06, 2.5813288615401247e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:57,230] [INFO] [timer.py:215:stop] epoch=0/micro_step=3170/global_step=3170, RunningAvgSamplesPerSec=127.89304126228993, CurrSamplesPerSec=127.8362692741059, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:45:59,729] [INFO] [logging.py:96:log_dist] [Rank 0] step=3180, skipped=27, lr=[2.4876977042370795e-06, 2.4876977042370795e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:45:59,738] [INFO] [timer.py:215:stop] epoch=0/micro_step=3180/global_step=3180, RunningAvgSamplesPerSec=127.89279792830571, CurrSamplesPerSec=127.46101936353881, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:00,723] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:00,723] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:00,724] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:00,724] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:00,724] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:00,724] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:00,724] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:00,723] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:00,724] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:00,724] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:00,724] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:00,724] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:00,724] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:00,724] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:00,724] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:00,724] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:02,240] [INFO] [logging.py:96:log_dist] [Rank 0] step=3190, skipped=27, lr=[2.395707217482937e-06, 2.395707217482937e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:02,249] [INFO] [timer.py:215:stop] epoch=0/micro_step=3190/global_step=3190, RunningAvgSamplesPerSec=127.89210096278747, CurrSamplesPerSec=127.98413282655005, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:04,753] [INFO] [logging.py:96:log_dist] [Rank 0] step=3200, skipped=27, lr=[2.3053641054379572e-06, 2.3053641054379572e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:04,762] [INFO] [timer.py:215:stop] epoch=0/micro_step=3200/global_step=3200, RunningAvgSamplesPerSec=127.89103656350647, CurrSamplesPerSec=127.43681507011897, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:07,261] [INFO] [logging.py:96:log_dist] [Rank 0] step=3210, skipped=27, lr=[2.216674952203629e-06, 2.216674952203629e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:07,270] [INFO] [timer.py:215:stop] epoch=0/micro_step=3210/global_step=3210, RunningAvgSamplesPerSec=127.89073334712918, CurrSamplesPerSec=128.22230926345918, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:09,769] [INFO] [logging.py:96:log_dist] [Rank 0] step=3220, skipped=27, lr=[2.129646221342854e-06, 2.129646221342854e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:09,778] [INFO] [timer.py:215:stop] epoch=0/micro_step=3220/global_step=3220, RunningAvgSamplesPerSec=127.89059273156528, CurrSamplesPerSec=127.25195593226766, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:12,253] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3229
	[2023-06-12 07:46:12,253] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3229
	[2023-06-12 07:46:12,253] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3229
	[2023-06-12 07:46:12,254] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:46:12,254] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:46:12,253] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3229
	[2023-06-12 07:46:12,254] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:46:12,253] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3229
	[2023-06-12 07:46:12,253] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3229
	[2023-06-12 07:46:12,254] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:46:12,254] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:46:12,253] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3229
	[2023-06-12 07:46:12,254] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:46:12,253] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3229
	[2023-06-12 07:46:12,254] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:46:12,254] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 16384.0 to 8192.0
	[2023-06-12 07:46:12,254] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 16384.0, reducing to 8192.0
	[2023-06-12 07:46:12,255] [INFO] [logging.py:96:log_dist] [Rank 0] step=3230, skipped=28, lr=[2.0527452693256287e-06, 2.0527452693256287e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:12,255] [INFO] [timer.py:215:stop] epoch=0/micro_step=3230/global_step=3230, RunningAvgSamplesPerSec=127.89517223528777, CurrSamplesPerSec=147.90973188014502, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:14,759] [INFO] [logging.py:96:log_dist] [Rank 0] step=3240, skipped=28, lr=[1.9688887143216263e-06, 1.9688887143216263e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:14,768] [INFO] [timer.py:215:stop] epoch=0/micro_step=3240/global_step=3240, RunningAvgSamplesPerSec=127.89420046053199, CurrSamplesPerSec=127.12046530173863, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:17,269] [INFO] [logging.py:96:log_dist] [Rank 0] step=3250, skipped=28, lr=[1.8867106400655533e-06, 1.8867106400655533e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:17,279] [INFO] [timer.py:215:stop] epoch=0/micro_step=3250/global_step=3250, RunningAvgSamplesPerSec=127.89348565971912, CurrSamplesPerSec=127.79013956039144, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:19,777] [INFO] [logging.py:96:log_dist] [Rank 0] step=3260, skipped=28, lr=[1.8062170356003855e-06, 1.8062170356003855e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:19,786] [INFO] [timer.py:215:stop] epoch=0/micro_step=3260/global_step=3260, RunningAvgSamplesPerSec=127.89329833014285, CurrSamplesPerSec=128.12438833935687, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:22,285] [INFO] [logging.py:96:log_dist] [Rank 0] step=3270, skipped=28, lr=[1.7274137672069145e-06, 1.7274137672069145e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:22,294] [INFO] [timer.py:215:stop] epoch=0/micro_step=3270/global_step=3270, RunningAvgSamplesPerSec=127.89307414818478, CurrSamplesPerSec=127.7356544778662, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:24,789] [INFO] [logging.py:96:log_dist] [Rank 0] step=3280, skipped=28, lr=[1.6503065779761796e-06, 1.6503065779761796e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:24,798] [INFO] [timer.py:215:stop] epoch=0/micro_step=3280/global_step=3280, RunningAvgSamplesPerSec=127.89344929159383, CurrSamplesPerSec=128.01758053931968, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:27,299] [INFO] [logging.py:96:log_dist] [Rank 0] step=3290, skipped=28, lr=[1.5749010873909175e-06, 1.5749010873909175e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:27,308] [INFO] [timer.py:215:stop] epoch=0/micro_step=3290/global_step=3290, RunningAvgSamplesPerSec=127.89287386862631, CurrSamplesPerSec=127.62330424628995, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:29,805] [INFO] [logging.py:96:log_dist] [Rank 0] step=3300, skipped=28, lr=[1.5012027909160675e-06, 1.5012027909160675e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:29,815] [INFO] [timer.py:215:stop] epoch=0/micro_step=3300/global_step=3300, RunningAvgSamplesPerSec=127.89283485240924, CurrSamplesPerSec=128.6913359598751, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:32,314] [INFO] [logging.py:96:log_dist] [Rank 0] step=3310, skipped=28, lr=[1.4292170595982146e-06, 1.4292170595982146e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:32,323] [INFO] [timer.py:215:stop] epoch=0/micro_step=3310/global_step=3310, RunningAvgSamplesPerSec=127.89255370379047, CurrSamplesPerSec=127.81606060461772, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:34,823] [INFO] [logging.py:96:log_dist] [Rank 0] step=3320, skipped=28, lr=[1.3589491396741898e-06, 1.3589491396741898e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:34,832] [INFO] [timer.py:215:stop] epoch=0/micro_step=3320/global_step=3320, RunningAvgSamplesPerSec=127.89212671315367, CurrSamplesPerSec=127.76362092533574, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:37,328] [INFO] [logging.py:96:log_dist] [Rank 0] step=3330, skipped=28, lr=[1.2904041521887122e-06, 1.2904041521887122e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:37,337] [INFO] [timer.py:215:stop] epoch=0/micro_step=3330/global_step=3330, RunningAvgSamplesPerSec=127.8922711871296, CurrSamplesPerSec=127.79756188365103, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:37,568] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:37,568] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:37,568] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:37,568] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:37,568] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:37,568] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:37,568] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:37,569] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:37,568] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:37,569] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:37,569] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:37,569] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:37,569] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:37,569] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:37,569] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:46:37,569] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 8192.0 to 16384.0
	[2023-06-12 07:46:39,838] [INFO] [logging.py:96:log_dist] [Rank 0] step=3340, skipped=28, lr=[1.2235870926211619e-06, 1.2235870926211619e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:39,848] [INFO] [timer.py:215:stop] epoch=0/micro_step=3340/global_step=3340, RunningAvgSamplesPerSec=127.8916840834043, CurrSamplesPerSec=127.74671799972398, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:42,345] [INFO] [logging.py:96:log_dist] [Rank 0] step=3350, skipped=28, lr=[1.15850283052156e-06, 1.15850283052156e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:42,354] [INFO] [timer.py:215:stop] epoch=0/micro_step=3350/global_step=3350, RunningAvgSamplesPerSec=127.8917288816514, CurrSamplesPerSec=127.73091355510404, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:44,854] [INFO] [logging.py:96:log_dist] [Rank 0] step=3360, skipped=28, lr=[1.095156109155629e-06, 1.095156109155629e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:44,863] [INFO] [timer.py:215:stop] epoch=0/micro_step=3360/global_step=3360, RunningAvgSamplesPerSec=127.89127543487183, CurrSamplesPerSec=127.51284745511514, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:47,361] [INFO] [logging.py:96:log_dist] [Rank 0] step=3370, skipped=28, lr=[1.0335515451591503e-06, 1.0335515451591503e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:47,370] [INFO] [timer.py:215:stop] epoch=0/micro_step=3370/global_step=3370, RunningAvgSamplesPerSec=127.89112915918383, CurrSamplesPerSec=127.64648685662114, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:49,874] [INFO] [logging.py:96:log_dist] [Rank 0] step=3380, skipped=28, lr=[9.73693628201483e-07, 9.73693628201483e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:49,883] [INFO] [timer.py:215:stop] epoch=0/micro_step=3380/global_step=3380, RunningAvgSamplesPerSec=127.89012819304345, CurrSamplesPerSec=126.88264244051389, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:52,384] [INFO] [logging.py:96:log_dist] [Rank 0] step=3390, skipped=28, lr=[9.155867206583624e-07, 9.155867206583624e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:52,393] [INFO] [timer.py:215:stop] epoch=0/micro_step=3390/global_step=3390, RunningAvgSamplesPerSec=127.88973539918096, CurrSamplesPerSec=127.7621615035487, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:54,891] [INFO] [logging.py:96:log_dist] [Rank 0] step=3400, skipped=28, lr=[8.59235057294e-07, 8.59235057294e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:54,900] [INFO] [timer.py:215:stop] epoch=0/micro_step=3400/global_step=3400, RunningAvgSamplesPerSec=127.88954194619005, CurrSamplesPerSec=127.67732913759744, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:57,397] [INFO] [logging.py:96:log_dist] [Rank 0] step=3410, skipped=28, lr=[8.046427449524274e-07, 8.046427449524274e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:57,406] [INFO] [timer.py:215:stop] epoch=0/micro_step=3410/global_step=3410, RunningAvgSamplesPerSec=127.88964287169027, CurrSamplesPerSec=127.38710409150919, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:46:59,907] [INFO] [logging.py:96:log_dist] [Rank 0] step=3420, skipped=28, lr=[7.518137622582188e-07, 7.518137622582188e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:46:59,917] [INFO] [timer.py:215:stop] epoch=0/micro_step=3420/global_step=3420, RunningAvgSamplesPerSec=127.88907576059347, CurrSamplesPerSec=127.08543899284363, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:02,413] [INFO] [logging.py:96:log_dist] [Rank 0] step=3430, skipped=28, lr=[7.007519593265204e-07, 7.007519593265204e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:02,422] [INFO] [timer.py:215:stop] epoch=0/micro_step=3430/global_step=3430, RunningAvgSamplesPerSec=127.8892374973014, CurrSamplesPerSec=127.85307411736352, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:02,651] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:02,651] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:02,651] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:02,651] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:02,651] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:02,652] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:02,652] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:02,652] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:02,652] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:02,652] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:02,652] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:02,652] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:02,652] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:02,652] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:02,652] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:02,652] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:03,397] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3433
	[2023-06-12 07:47:03,397] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3433
	[2023-06-12 07:47:03,397] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3433
	[2023-06-12 07:47:03,398] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:03,398] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:03,397] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3433
	[2023-06-12 07:47:03,398] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:03,397] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3433
	[2023-06-12 07:47:03,397] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3433
	[2023-06-12 07:47:03,398] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:03,398] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:03,397] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3433
	[2023-06-12 07:47:03,398] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:03,398] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 32768.0, reducing to 16384.0
	[2023-06-12 07:47:03,397] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3433
	[2023-06-12 07:47:03,398] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:03,398] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:04,895] [INFO] [logging.py:96:log_dist] [Rank 0] step=3440, skipped=29, lr=[6.563103537256809e-07, 6.563103537256809e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:04,904] [INFO] [timer.py:215:stop] epoch=0/micro_step=3440/global_step=3440, RunningAvgSamplesPerSec=127.89283487192752, CurrSamplesPerSec=127.51842027256075, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:07,406] [INFO] [logging.py:96:log_dist] [Rank 0] step=3450, skipped=29, lr=[6.086163379298321e-07, 6.086163379298321e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:07,415] [INFO] [timer.py:215:stop] epoch=0/micro_step=3450/global_step=3450, RunningAvgSamplesPerSec=127.89217632262086, CurrSamplesPerSec=127.36727890414079, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:09,915] [INFO] [logging.py:96:log_dist] [Rank 0] step=3460, skipped=29, lr=[5.626999379591269e-07, 5.626999379591269e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:09,924] [INFO] [timer.py:215:stop] epoch=0/micro_step=3460/global_step=3460, RunningAvgSamplesPerSec=127.89185852929202, CurrSamplesPerSec=127.6304644678836, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:12,423] [INFO] [logging.py:96:log_dist] [Rank 0] step=3470, skipped=29, lr=[5.185645001476724e-07, 5.185645001476724e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:12,432] [INFO] [timer.py:215:stop] epoch=0/micro_step=3470/global_step=3470, RunningAvgSamplesPerSec=127.89154028618431, CurrSamplesPerSec=127.31013471085825, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:14,937] [INFO] [logging.py:96:log_dist] [Rank 0] step=3480, skipped=29, lr=[4.762132410351311e-07, 4.762132410351311e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:14,946] [INFO] [timer.py:215:stop] epoch=0/micro_step=3480/global_step=3480, RunningAvgSamplesPerSec=127.89044613605812, CurrSamplesPerSec=127.755716122793, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:17,448] [INFO] [logging.py:96:log_dist] [Rank 0] step=3490, skipped=29, lr=[4.356492471322665e-07, 4.356492471322665e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:17,458] [INFO] [timer.py:215:stop] epoch=0/micro_step=3490/global_step=3490, RunningAvgSamplesPerSec=127.88974268846509, CurrSamplesPerSec=128.08159494917493, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:19,959] [INFO] [logging.py:96:log_dist] [Rank 0] step=3500, skipped=29, lr=[3.968754746960346e-07, 3.968754746960346e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:19,968] [INFO] [timer.py:215:stop] epoch=0/micro_step=3500/global_step=3500, RunningAvgSamplesPerSec=127.88915659442345, CurrSamplesPerSec=128.42363869308411, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:22,465] [INFO] [logging.py:96:log_dist] [Rank 0] step=3510, skipped=29, lr=[3.598947495141114e-07, 3.598947495141114e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:22,474] [INFO] [timer.py:215:stop] epoch=0/micro_step=3510/global_step=3510, RunningAvgSamplesPerSec=127.88916062958893, CurrSamplesPerSec=127.9258242596151, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:24,975] [INFO] [logging.py:96:log_dist] [Rank 0] step=3520, skipped=29, lr=[3.2470976669896905e-07, 3.2470976669896905e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:24,984] [INFO] [timer.py:215:stop] epoch=0/micro_step=3520/global_step=3520, RunningAvgSamplesPerSec=127.88868856907614, CurrSamplesPerSec=127.56095933699872, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:27,484] [INFO] [logging.py:96:log_dist] [Rank 0] step=3530, skipped=29, lr=[2.9132309049146046e-07, 2.9132309049146046e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:27,493] [INFO] [timer.py:215:stop] epoch=0/micro_step=3530/global_step=3530, RunningAvgSamplesPerSec=127.88836425635921, CurrSamplesPerSec=127.95863153830386, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:28,726] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:28,727] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:28,727] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:28,727] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:28,727] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:28,727] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:28,727] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:28,727] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:28,727] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:28,727] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:28,728] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:28,727] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:28,728] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:28,727] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:28,728] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:28,728] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:28,971] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3535
	[2023-06-12 07:47:28,971] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3535
	[2023-06-12 07:47:28,972] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:28,971] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3535
	[2023-06-12 07:47:28,972] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:28,972] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3535
	[2023-06-12 07:47:28,972] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3535
	[2023-06-12 07:47:28,972] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:28,972] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3535
	[2023-06-12 07:47:28,973] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:28,973] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:28,972] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3535
	[2023-06-12 07:47:28,973] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:28,972] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3535
	[2023-06-12 07:47:28,973] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:28,973] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 32768.0, reducing to 16384.0
	[2023-06-12 07:47:28,973] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:29,969] [INFO] [logging.py:96:log_dist] [Rank 0] step=3540, skipped=30, lr=[2.628146477903104e-07, 2.628146477903104e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:29,978] [INFO] [timer.py:215:stop] epoch=0/micro_step=3540/global_step=3540, RunningAvgSamplesPerSec=127.89143295417861, CurrSamplesPerSec=126.87004910602458, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:32,475] [INFO] [logging.py:96:log_dist] [Rank 0] step=3550, skipped=30, lr=[2.3285134909173112e-07, 2.3285134909173112e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:32,484] [INFO] [timer.py:215:stop] epoch=0/micro_step=3550/global_step=3550, RunningAvgSamplesPerSec=127.89148987970766, CurrSamplesPerSec=127.40911244030266, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:34,984] [INFO] [logging.py:96:log_dist] [Rank 0] step=3560, skipped=30, lr=[2.0469305153599516e-07, 2.0469305153599516e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:34,993] [INFO] [timer.py:215:stop] epoch=0/micro_step=3560/global_step=3560, RunningAvgSamplesPerSec=127.89108704975476, CurrSamplesPerSec=127.78235313158702, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:37,491] [INFO] [logging.py:96:log_dist] [Rank 0] step=3570, skipped=30, lr=[1.7834180726725158e-07, 1.7834180726725158e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:37,500] [INFO] [timer.py:215:stop] epoch=0/micro_step=3570/global_step=3570, RunningAvgSamplesPerSec=127.89100558307919, CurrSamplesPerSec=127.6951856140214, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:40,000] [INFO] [logging.py:96:log_dist] [Rank 0] step=3580, skipped=30, lr=[1.5379953673370084e-07, 1.5379953673370084e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:40,009] [INFO] [timer.py:215:stop] epoch=0/micro_step=3580/global_step=3580, RunningAvgSamplesPerSec=127.89061494415745, CurrSamplesPerSec=127.8687869884495, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:42,507] [INFO] [logging.py:96:log_dist] [Rank 0] step=3590, skipped=30, lr=[1.31068028547629e-07, 1.31068028547629e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:42,516] [INFO] [timer.py:215:stop] epoch=0/micro_step=3590/global_step=3590, RunningAvgSamplesPerSec=127.89059047290596, CurrSamplesPerSec=127.67975829666116, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:45,015] [INFO] [logging.py:96:log_dist] [Rank 0] step=3600, skipped=30, lr=[1.1014893935505367e-07, 1.1014893935505367e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:45,025] [INFO] [timer.py:215:stop] epoch=0/micro_step=3600/global_step=3600, RunningAvgSamplesPerSec=127.89029098424352, CurrSamplesPerSec=127.42290176346332, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:47,519] [INFO] [logging.py:96:log_dist] [Rank 0] step=3610, skipped=30, lr=[9.104379371500105e-08, 9.104379371500105e-08], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:47,528] [INFO] [timer.py:215:stop] epoch=0/micro_step=3610/global_step=3610, RunningAvgSamplesPerSec=127.89068973868224, CurrSamplesPerSec=127.90412460142448, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:50,024] [INFO] [logging.py:96:log_dist] [Rank 0] step=3620, skipped=30, lr=[7.375398398837829e-08, 7.375398398837829e-08], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:50,033] [INFO] [timer.py:215:stop] epoch=0/micro_step=3620/global_step=3620, RunningAvgSamplesPerSec=127.89086018223459, CurrSamplesPerSec=127.89778676480398, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:52,530] [INFO] [logging.py:96:log_dist] [Rank 0] step=3630, skipped=30, lr=[5.8280770236518456e-08, 5.8280770236518456e-08], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:52,539] [INFO] [timer.py:215:stop] epoch=0/micro_step=3630/global_step=3630, RunningAvgSamplesPerSec=127.89091702769119, CurrSamplesPerSec=128.18116425077406, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:54,272] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:54,272] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:54,273] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:54,273] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:54,273] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:54,273] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:54,273] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:54,273] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:54,273] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:54,273] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:54,273] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:54,273] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:54,273] [INFO] [fused_optimizer.py:370:_update_scale] No Grad overflow for 100 iterations
	[2023-06-12 07:47:54,274] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:54,274] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:54,274] [INFO] [fused_optimizer.py:371:_update_scale] Increasing dynamic loss scale from 16384.0 to 32768.0
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3637
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3637
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3637
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3637
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3637
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3637
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3637
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:362:_update_scale]
	Grad overflow on iteration 3637
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:54,519] [INFO] [fused_optimizer.py:363:_update_scale] Reducing dynamic loss scale from 32768.0 to 16384.0
	[2023-06-12 07:47:54,519] [INFO] [logging.py:96:log_dist] [Rank 0] Overflow detected. Skipping step. Attempted loss scale: 32768.0, reducing to 16384.0
	[2023-06-12 07:47:55,013] [INFO] [logging.py:96:log_dist] [Rank 0] step=3640, skipped=31, lr=[4.5909002174351904e-08, 4.5909002174351904e-08], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:55,022] [INFO] [timer.py:215:stop] epoch=0/micro_step=3640/global_step=3640, RunningAvgSamplesPerSec=127.89422976269, CurrSamplesPerSec=127.92289803356437, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:47:57,520] [INFO] [logging.py:96:log_dist] [Rank 0] step=3650, skipped=31, lr=[3.389031801728504e-08, 3.389031801728504e-08], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:47:57,529] [INFO] [timer.py:215:stop] epoch=0/micro_step=3650/global_step=3650, RunningAvgSamplesPerSec=127.89414981528735, CurrSamplesPerSec=127.15225845446096, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:48:00,029] [INFO] [logging.py:96:log_dist] [Rank 0] step=3660, skipped=31, lr=[2.369113505284737e-08, 2.369113505284737e-08], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:48:00,038] [INFO] [timer.py:215:stop] epoch=0/micro_step=3660/global_step=3660, RunningAvgSamplesPerSec=127.89373988213451, CurrSamplesPerSec=127.45230475879372, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:48:02,542] [INFO] [logging.py:96:log_dist] [Rank 0] step=3670, skipped=31, lr=[1.5312196585692828e-08, 1.5312196585692828e-08], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:48:02,551] [INFO] [timer.py:215:stop] epoch=0/micro_step=3670/global_step=3670, RunningAvgSamplesPerSec=127.89283392302097, CurrSamplesPerSec=127.42024043358931, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	[2023-06-12 07:48:05,048] [INFO] [logging.py:96:log_dist] [Rank 0] step=3680, skipped=31, lr=[8.754113263159668e-09, 8.754113263159668e-09], mom=[(0.9, 0.95), (0.9, 0.95)]
	[2023-06-12 07:48:05,057] [INFO] [timer.py:215:stop] epoch=0/micro_step=3680/global_step=3680, RunningAvgSamplesPerSec=127.89297541765943, CurrSamplesPerSec=128.34933949940807, MemAllocated=4.32GB, MaxMemAllocated=12.79GB
	Epoch 1/1 with loss 0.5835847191188647
	*** Evaluating reward, Epoch 1/1 ***
	chosen_last_scores (higher is better) : 2.8516085147857666, acc (higher is better) : 0.6974999904632568
	saving model ...
	[2023-06-12 07:48:24,156] [INFO] [launch.py:346:main] Process 4245 exits successfully.
	[2023-06-12 07:48:24,157] [INFO] [launch.py:346:main] Process 4249 exits successfully.
	[2023-06-12 07:48:24,157] [INFO] [launch.py:346:main] Process 4246 exits successfully.
	[2023-06-12 07:48:24,157] [INFO] [launch.py:346:main] Process 4244 exits successfully.
	[2023-06-12 07:48:24,157] [INFO] [launch.py:346:main] Process 4250 exits successfully.
	[2023-06-12 07:48:25,158] [INFO] [launch.py:346:main] Process 4247 exits successfully.
	[2023-06-12 07:48:25,160] [INFO] [launch.py:346:main] Process 4243 exits successfully.
	[2023-06-12 07:48:25,160] [INFO] [launch.py:346:main] Process 4248 exits successfully.