diff --git "a/Ins/log.txt" "b/Ins/log.txt"
new file mode 100644--- /dev/null
+++ "b/Ins/log.txt"
@@ -0,0 +1,2821 @@
+W0404 07:59:56.954000 140117560674112 torch/distributed/run.py:779] 
+W0404 07:59:56.954000 140117560674112 torch/distributed/run.py:779] *****************************************
+W0404 07:59:56.954000 140117560674112 torch/distributed/run.py:779] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+W0404 07:59:56.954000 140117560674112 torch/distributed/run.py:779] *****************************************
+{'seed': 42, 'base_model': '/home/jovyan/workspace/Llama-7b', 'output_dir': './Ins', 'optim': 'adamw_torch', 'epochs': 1, 'learning_rate': 0.0005, 'per_device_batch_size': 8, 'gradient_accumulation_steps': 2, 'logging_step': 10, 'model_max_length': 1024, 'weight_decay': 0.01, 'lora_r': 8, 'lora_alpha': 32, 'lora_dropout': 0.05, 'lora_target_modules': 'q_proj,v_proj,k_proj,o_proj,gate_proj,down_proj,up_proj', 'lora_modules_to_save': 'embed_tokens,lm_head', 'resume_from_checkpoint': None, 'warmup_ratio': 0.01, 'lr_scheduler_type': 'cosine', 'save_and_eval_strategy': 'epoch', 'save_and_eval_steps': 1000, 'fp16': False, 'bf16': True, 'deepspeed': './config/ds_z2_bf16.json', 'remove_unused_columns': False, 'data_path': '/home/jovyan/workspace', 'tasks': 'seqrec,itemsearch,inters2title,inters2description,preferenceobtain,item2index,index2item,intertitles2item,query2item', 'train_data_sample_num': '0,0,0,0,0,0,0,0,0', 'dataset': 'Instruments', 'index_file': '.index.json', 'dataloader_num_workers': 4, 'dataloader_prefetch_factor': 2, 'max_his_len': 20, 'add_prefix': False, 'his_sep': ', ', 'only_train_response': True, 'train_prompt_sample_num': '1,1,1,1,1,1,1,1,1', 'valid_prompt_id': 0, 'sample_valid': True, 'valid_prompt_sample_num': 2, 'lr': 0.001, 'batch_size': 1024, 'num_workers': 4, 'eval_step': 50, 'learner': 'AdamW', 'dropout_prob': 0.0, 'bn': False, 'loss_type': 'mse', 'kmeans_init': False, 'kmeans_iters': 100, 'sk_epsilons': [0.0, 0.0, 0.0, 0.0], 'sk_iters': 50, 'device': 'cuda:1', 'num_emb_list': [256, 256, 256, 256], 'e_dim': 32, 'quant_loss_weight': 1.0, 'layers': [2048, 1024, 512, 256, 128, 64], 'ckpt_dir': '', 'warmup': 5, 'rqvae_model': '/home/jovyan/workspace/LC-Rec/index/Ins/Apr-04-2025_07-12-04/best_collision_model.pth'}
+You are using the default legacy behaviour of the <class 'transformers.models.llama.tokenization_llama.LlamaTokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565 - if you loaded a llama tokenizer from a GGUF file you can ignore this message
+You are using the default legacy behaviour of the <class 'transformers.models.llama.tokenization_llama.LlamaTokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565 - if you loaded a llama tokenizer from a GGUF file you can ignore this message
+You are using the default legacy behaviour of the <class 'transformers.models.llama.tokenization_llama.LlamaTokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565 - if you loaded a llama tokenizer from a GGUF file you can ignore this message
+Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]You are using the default legacy behaviour of the <class 'transformers.models.llama.tokenization_llama.LlamaTokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565 - if you loaded a llama tokenizer from a GGUF file you can ignore this message
+Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:04<00:04,  4.07s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:04<00:04,  4.73s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:05<00:05,  5.31s/it]Loading checkpoint shards:  50%|█████     | 1/2 [00:05<00:05,  5.29s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:05<00:00,  2.55s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:05<00:00,  2.78s/it]
+Loading checkpoint shards: 100%|██████████| 2/2 [00:06<00:00,  2.95s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:06<00:00,  3.22s/it]
+Loading checkpoint shards: 100%|██████████| 2/2 [00:07<00:00,  3.30s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:07<00:00,  3.60s/it]
+Loading checkpoint shards: 100%|██████████| 2/2 [00:07<00:00,  3.29s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:07<00:00,  3.59s/it]
+RQVAE(
+  (encoder): MLPLayers(
+    (mlp_layers): Sequential(
+      (0): Dropout(p=0.0, inplace=False)
+      (1): Linear(in_features=4096, out_features=2048, bias=True)
+      (2): ReLU()
+      (3): Dropout(p=0.0, inplace=False)
+      (4): Linear(in_features=2048, out_features=1024, bias=True)
+      (5): ReLU()
+      (6): Dropout(p=0.0, inplace=False)
+      (7): Linear(in_features=1024, out_features=512, bias=True)
+      (8): ReLU()
+      (9): Dropout(p=0.0, inplace=False)
+      (10): Linear(in_features=512, out_features=256, bias=True)
+      (11): ReLU()
+      (12): Dropout(p=0.0, inplace=False)
+      (13): Linear(in_features=256, out_features=128, bias=True)
+      (14): ReLU()
+      (15): Dropout(p=0.0, inplace=False)
+      (16): Linear(in_features=128, out_features=64, bias=True)
+      (17): ReLU()
+      (18): Dropout(p=0.0, inplace=False)
+      (19): Linear(in_features=64, out_features=32, bias=True)
+    )
+  )
+  (rq): ResidualVectorQuantizer(
+    (vq_layers): ModuleList(
+      (0-3): 4 x VectorQuantizer(
+        (embedding): Embedding(256, 32)
+      )
+    )
+  )
+  (decoder): MLPLayers(
+    (mlp_layers): Sequential(
+      (0): Dropout(p=0.0, inplace=False)
+      (1): Linear(in_features=32, out_features=64, bias=True)
+      (2): ReLU()
+      (3): Dropout(p=0.0, inplace=False)
+      (4): Linear(in_features=64, out_features=128, bias=True)
+      (5): ReLU()
+      (6): Dropout(p=0.0, inplace=False)
+      (7): Linear(in_features=128, out_features=256, bias=True)
+      (8): ReLU()
+      (9): Dropout(p=0.0, inplace=False)
+      (10): Linear(in_features=256, out_features=512, bias=True)
+      (11): ReLU()
+      (12): Dropout(p=0.0, inplace=False)
+      (13): Linear(in_features=512, out_features=1024, bias=True)
+      (14): ReLU()
+      (15): Dropout(p=0.0, inplace=False)
+      (16): Linear(in_features=1024, out_features=2048, bias=True)
+      (17): ReLU()
+      (18): Dropout(p=0.0, inplace=False)
+      (19): Linear(in_features=2048, out_features=4096, bias=True)
+    )
+  )
+)
+/home/jovyan/workspace/ed2/pre-train.py:51: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  ckpt = torch.load(args.rqvae_model, map_location = torch.device('cpu'))
+token num: 33024
+data num: 619364
+trainable params: 290,521,088 || all params: 7,037,325,312 || trainable%: 4.1283
+/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+RQVAE(
+  (encoder): MLPLayers(
+    (mlp_layers): Sequential(
+      (0): Dropout(p=0.0, inplace=False)
+      (1): Linear(in_features=4096, out_features=2048, bias=True)
+      (2): ReLU()
+      (3): Dropout(p=0.0, inplace=False)
+      (4): Linear(in_features=2048, out_features=1024, bias=True)
+      (5): ReLU()
+      (6): Dropout(p=0.0, inplace=False)
+      (7): Linear(in_features=1024, out_features=512, bias=True)
+      (8): ReLU()
+      (9): Dropout(p=0.0, inplace=False)
+      (10): Linear(in_features=512, out_features=256, bias=True)
+      (11): ReLU()
+      (12): Dropout(p=0.0, inplace=False)
+      (13): Linear(in_features=256, out_features=128, bias=True)
+      (14): ReLU()
+      (15): Dropout(p=0.0, inplace=False)
+      (16): Linear(in_features=128, out_features=64, bias=True)
+      (17): ReLU()
+      (18): Dropout(p=0.0, inplace=False)
+      (19): Linear(in_features=64, out_features=32, bias=True)
+    )
+  )
+  (rq): ResidualVectorQuantizer(
+    (vq_layers): ModuleList(
+      (0-3): 4 x VectorQuantizer(
+        (embedding): Embedding(256, 32)
+      )
+    )
+  )
+  (decoder): MLPLayers(
+    (mlp_layers): Sequential(
+      (0): Dropout(p=0.0, inplace=False)
+      (1): Linear(in_features=32, out_features=64, bias=True)
+      (2): ReLU()
+      (3): Dropout(p=0.0, inplace=False)
+      (4): Linear(in_features=64, out_features=128, bias=True)
+      (5): ReLU()
+      (6): Dropout(p=0.0, inplace=False)
+      (7): Linear(in_features=128, out_features=256, bias=True)
+      (8): ReLU()
+      (9): Dropout(p=0.0, inplace=False)
+      (10): Linear(in_features=256, out_features=512, bias=True)
+      (11): ReLU()
+      (12): Dropout(p=0.0, inplace=False)
+      (13): Linear(in_features=512, out_features=1024, bias=True)
+      (14): ReLU()
+      (15): Dropout(p=0.0, inplace=False)
+      (16): Linear(in_features=1024, out_features=2048, bias=True)
+      (17): ReLU()
+      (18): Dropout(p=0.0, inplace=False)
+      (19): Linear(in_features=2048, out_features=4096, bias=True)
+    )
+  )
+)
+/home/jovyan/workspace/ed2/pre-train.py:51: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  ckpt = torch.load(args.rqvae_model, map_location = torch.device('cpu'))
+/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+RQVAE(
+  (encoder): MLPLayers(
+    (mlp_layers): Sequential(
+      (0): Dropout(p=0.0, inplace=False)
+      (1): Linear(in_features=4096, out_features=2048, bias=True)
+      (2): ReLU()
+      (3): Dropout(p=0.0, inplace=False)
+      (4): Linear(in_features=2048, out_features=1024, bias=True)
+      (5): ReLU()
+      (6): Dropout(p=0.0, inplace=False)
+      (7): Linear(in_features=1024, out_features=512, bias=True)
+      (8): ReLU()
+      (9): Dropout(p=0.0, inplace=False)
+      (10): Linear(in_features=512, out_features=256, bias=True)
+      (11): ReLU()
+      (12): Dropout(p=0.0, inplace=False)
+      (13): Linear(in_features=256, out_features=128, bias=True)
+      (14): ReLU()
+      (15): Dropout(p=0.0, inplace=False)
+      (16): Linear(in_features=128, out_features=64, bias=True)
+      (17): ReLU()
+      (18): Dropout(p=0.0, inplace=False)
+      (19): Linear(in_features=64, out_features=32, bias=True)
+    )
+  )
+  (rq): ResidualVectorQuantizer(
+    (vq_layers): ModuleList(
+      (0-3): 4 x VectorQuantizer(
+        (embedding): Embedding(256, 32)
+      )
+    )
+  )
+  (decoder): MLPLayers(
+    (mlp_layers): Sequential(
+      (0): Dropout(p=0.0, inplace=False)
+      (1): Linear(in_features=32, out_features=64, bias=True)
+      (2): ReLU()
+      (3): Dropout(p=0.0, inplace=False)
+      (4): Linear(in_features=64, out_features=128, bias=True)
+      (5): ReLU()
+      (6): Dropout(p=0.0, inplace=False)
+      (7): Linear(in_features=128, out_features=256, bias=True)
+      (8): ReLU()
+      (9): Dropout(p=0.0, inplace=False)
+      (10): Linear(in_features=256, out_features=512, bias=True)
+      (11): ReLU()
+      (12): Dropout(p=0.0, inplace=False)
+      (13): Linear(in_features=512, out_features=1024, bias=True)
+      (14): ReLU()
+      (15): Dropout(p=0.0, inplace=False)
+      (16): Linear(in_features=1024, out_features=2048, bias=True)
+      (17): ReLU()
+      (18): Dropout(p=0.0, inplace=False)
+      (19): Linear(in_features=2048, out_features=4096, bias=True)
+    )
+  )
+)
+/home/jovyan/workspace/ed2/pre-train.py:51: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  ckpt = torch.load(args.rqvae_model, map_location = torch.device('cpu'))
+RQVAE(
+  (encoder): MLPLayers(
+    (mlp_layers): Sequential(
+      (0): Dropout(p=0.0, inplace=False)
+      (1): Linear(in_features=4096, out_features=2048, bias=True)
+      (2): ReLU()
+      (3): Dropout(p=0.0, inplace=False)
+      (4): Linear(in_features=2048, out_features=1024, bias=True)
+      (5): ReLU()
+      (6): Dropout(p=0.0, inplace=False)
+      (7): Linear(in_features=1024, out_features=512, bias=True)
+      (8): ReLU()
+      (9): Dropout(p=0.0, inplace=False)
+      (10): Linear(in_features=512, out_features=256, bias=True)
+      (11): ReLU()
+      (12): Dropout(p=0.0, inplace=False)
+      (13): Linear(in_features=256, out_features=128, bias=True)
+      (14): ReLU()
+      (15): Dropout(p=0.0, inplace=False)
+      (16): Linear(in_features=128, out_features=64, bias=True)
+      (17): ReLU()
+      (18): Dropout(p=0.0, inplace=False)
+      (19): Linear(in_features=64, out_features=32, bias=True)
+    )
+  )
+  (rq): ResidualVectorQuantizer(
+    (vq_layers): ModuleList(
+      (0-3): 4 x VectorQuantizer(
+        (embedding): Embedding(256, 32)
+      )
+    )
+  )
+  (decoder): MLPLayers(
+    (mlp_layers): Sequential(
+      (0): Dropout(p=0.0, inplace=False)
+      (1): Linear(in_features=32, out_features=64, bias=True)
+      (2): ReLU()
+      (3): Dropout(p=0.0, inplace=False)
+      (4): Linear(in_features=64, out_features=128, bias=True)
+      (5): ReLU()
+      (6): Dropout(p=0.0, inplace=False)
+      (7): Linear(in_features=128, out_features=256, bias=True)
+      (8): ReLU()
+      (9): Dropout(p=0.0, inplace=False)
+      (10): Linear(in_features=256, out_features=512, bias=True)
+      (11): ReLU()
+      (12): Dropout(p=0.0, inplace=False)
+      (13): Linear(in_features=512, out_features=1024, bias=True)
+      (14): ReLU()
+      (15): Dropout(p=0.0, inplace=False)
+      (16): Linear(in_features=1024, out_features=2048, bias=True)
+      (17): ReLU()
+      (18): Dropout(p=0.0, inplace=False)
+      (19): Linear(in_features=2048, out_features=4096, bias=True)
+    )
+  )
+)
+/home/jovyan/workspace/ed2/pre-train.py:51: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  ckpt = torch.load(args.rqvae_model, map_location = torch.device('cpu'))
+/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2025-04-04 08:00:17,338] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-04-04 08:00:17,353] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-04-04 08:00:17,354] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-04-04 08:00:17,357] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-04-04 08:00:18,002] [INFO] [comm.py:652:init_distributed] cdb=None
+[2025-04-04 08:00:18,002] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+[2025-04-04 08:00:18,009] [INFO] [comm.py:652:init_distributed] cdb=None
+[2025-04-04 08:00:18,009] [INFO] [comm.py:652:init_distributed] cdb=None
+[2025-04-04 08:00:18,009] [INFO] [comm.py:652:init_distributed] cdb=None
+/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/transformers/deepspeed.py:24: FutureWarning: transformers.deepspeed module is deprecated and will be removed in a future version. Please import deepspeed modules directly from transformers.integrations
+  warnings.warn(
+/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/transformers/deepspeed.py:24: FutureWarning: transformers.deepspeed module is deprecated and will be removed in a future version. Please import deepspeed modules directly from transformers.integrations
+  warnings.warn(
+/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/transformers/deepspeed.py:24: FutureWarning: transformers.deepspeed module is deprecated and will be removed in a future version. Please import deepspeed modules directly from transformers.integrations
+  warnings.warn(
+/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/transformers/deepspeed.py:24: FutureWarning: transformers.deepspeed module is deprecated and will be removed in a future version. Please import deepspeed modules directly from transformers.integrations
+  warnings.warn(
+`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.
+`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.
+`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.
+wandb: WARNING The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+  0%|          | 0/9678 [00:00<?, ?it/s]`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.
+/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/torch/utils/checkpoint.py:295: FutureWarning: `torch.cpu.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cpu', args...)` instead.
+  with torch.enable_grad(), device_autocast_ctx, torch.cpu.amp.autocast(**ctx.cpu_autocast_kwargs):  # type: ignore[attr-defined]
+/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/torch/utils/checkpoint.py:295: FutureWarning: `torch.cpu.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cpu', args...)` instead.
+  with torch.enable_grad(), device_autocast_ctx, torch.cpu.amp.autocast(**ctx.cpu_autocast_kwargs):  # type: ignore[attr-defined]
+/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/torch/utils/checkpoint.py:295: FutureWarning: `torch.cpu.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cpu', args...)` instead.
+  with torch.enable_grad(), device_autocast_ctx, torch.cpu.amp.autocast(**ctx.cpu_autocast_kwargs):  # type: ignore[attr-defined]
+/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/torch/utils/checkpoint.py:295: FutureWarning: `torch.cpu.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cpu', args...)` instead.
+  with torch.enable_grad(), device_autocast_ctx, torch.cpu.amp.autocast(**ctx.cpu_autocast_kwargs):  # type: ignore[attr-defined]
+  0%|          | 1/9678 [00:10<27:18:13, 10.16s/it]  0%|          | 2/9678 [00:18<24:13:54,  9.02s/it]  0%|          | 3/9678 [00:27<23:45:23,  8.84s/it]  0%|          | 4/9678 [00:35<23:51:56,  8.88s/it]  0%|          | 5/9678 [00:44<23:34:51,  8.78s/it]  0%|          | 6/9678 [00:53<23:39:07,  8.80s/it]  0%|          | 7/9678 [01:01<22:40:41,  8.44s/it]  0%|          | 8/9678 [01:09<22:47:40,  8.49s/it]  0%|          | 9/9678 [01:17<22:02:49,  8.21s/it]  0%|          | 10/9678 [01:26<22:54:39,  8.53s/it]                                                    {'loss': 4.2162, 'grad_norm': 9.612689971923828, 'learning_rate': 5.1546391752577315e-05, 'epoch': 0.0}
+  0%|          | 10/9678 [01:28<22:54:39,  8.53s/it]  0%|          | 11/9678 [01:40<27:41:33, 10.31s/it]  0%|          | 12/9678 [01:51<27:35:30, 10.28s/it]  0%|          | 13/9678 [02:01<27:32:11, 10.26s/it]  0%|          | 14/9678 [02:10<26:24:37,  9.84s/it]  0%|          | 15/9678 [02:19<25:36:31,  9.54s/it]  0%|          | 16/9678 [02:27<24:36:22,  9.17s/it]  0%|          | 17/9678 [02:34<23:14:36,  8.66s/it]  0%|          | 18/9678 [02:42<22:39:39,  8.45s/it]  0%|          | 19/9678 [02:50<22:30:00,  8.39s/it]  0%|          | 20/9678 [02:58<21:28:18,  8.00s/it]                                                    {'loss': 3.388, 'grad_norm': 6.56850004196167, 'learning_rate': 0.00010309278350515463, 'epoch': 0.0}
+  0%|          | 20/9678 [02:58<21:28:18,  8.00s/it]  0%|          | 21/9678 [03:06<22:04:21,  8.23s/it]  0%|          | 22/9678 [03:14<21:19:39,  7.95s/it]  0%|          | 23/9678 [03:21<20:36:29,  7.68s/it]  0%|          | 24/9678 [03:28<20:11:42,  7.53s/it]  0%|          | 25/9678 [03:37<21:31:05,  8.03s/it]  0%|          | 26/9678 [03:45<21:49:34,  8.14s/it]  0%|          | 27/9678 [03:55<22:37:05,  8.44s/it]  0%|          | 28/9678 [04:04<23:00:21,  8.58s/it]  0%|          | 29/9678 [04:13<23:19:26,  8.70s/it]  0%|          | 30/9678 [04:21<23:14:27,  8.67s/it]                                                    {'loss': 2.7081, 'grad_norm': 4.049291610717773, 'learning_rate': 0.00015463917525773197, 'epoch': 0.0}
+  0%|          | 30/9678 [04:21<23:14:27,  8.67s/it]  0%|          | 31/9678 [04:29<22:20:15,  8.34s/it]  0%|          | 32/9678 [04:37<22:37:03,  8.44s/it]  0%|          | 33/9678 [04:46<23:03:40,  8.61s/it]  0%|          | 34/9678 [04:52<20:57:31,  7.82s/it]  0%|          | 35/9678 [05:00<20:27:54,  7.64s/it]  0%|          | 36/9678 [05:06<19:52:42,  7.42s/it]  0%|          | 37/9678 [05:14<20:15:20,  7.56s/it]  0%|          | 38/9678 [05:23<21:26:56,  8.01s/it]  0%|          | 39/9678 [05:32<22:10:17,  8.28s/it]  0%|          | 40/9678 [05:41<22:43:11,  8.49s/it]                                                    {'loss': 2.8688, 'grad_norm': 2.604156970977783, 'learning_rate': 0.00020618556701030926, 'epoch': 0.0}
+  0%|          | 40/9678 [05:41<22:43:11,  8.49s/it]  0%|          | 41/9678 [05:50<22:33:20,  8.43s/it]  0%|          | 42/9678 [05:59<23:06:44,  8.63s/it]  0%|          | 43/9678 [06:06<22:22:13,  8.36s/it]  0%|          | 44/9678 [06:16<23:06:42,  8.64s/it]  0%|          | 45/9678 [06:25<23:21:27,  8.73s/it]  0%|          | 46/9678 [06:33<22:56:15,  8.57s/it]  0%|          | 47/9678 [06:42<23:34:46,  8.81s/it]  0%|          | 48/9678 [06:49<22:03:35,  8.25s/it]  1%|          | 49/9678 [06:56<20:43:47,  7.75s/it]  1%|          | 50/9678 [07:04<21:04:11,  7.88s/it]                                                    {'loss': 2.6251, 'grad_norm': 1.8748372793197632, 'learning_rate': 0.00025773195876288655, 'epoch': 0.01}
+  1%|          | 50/9678 [07:04<21:04:11,  7.88s/it]  1%|          | 51/9678 [07:12<21:33:57,  8.06s/it]  1%|          | 52/9678 [07:20<21:08:28,  7.91s/it]  1%|          | 53/9678 [07:28<21:00:59,  7.86s/it]  1%|          | 54/9678 [07:34<20:03:41,  7.50s/it]  1%|          | 55/9678 [07:42<20:19:55,  7.61s/it]  1%|          | 56/9678 [07:51<20:59:49,  7.86s/it]  1%|          | 57/9678 [07:58<20:37:23,  7.72s/it]  1%|          | 58/9678 [08:05<20:13:41,  7.57s/it]  1%|          | 59/9678 [08:13<20:33:01,  7.69s/it]  1%|          | 60/9678 [08:21<20:13:58,  7.57s/it]                                                    {'loss': 2.5802, 'grad_norm': 2.638007164001465, 'learning_rate': 0.00030927835051546395, 'epoch': 0.01}
+  1%|          | 60/9678 [08:21<20:13:58,  7.57s/it]  1%|          | 61/9678 [08:28<20:07:08,  7.53s/it]  1%|          | 62/9678 [08:36<20:22:51,  7.63s/it]  1%|          | 63/9678 [08:47<22:59:28,  8.61s/it]  1%|          | 64/9678 [08:54<21:45:12,  8.15s/it]  1%|          | 65/9678 [09:03<22:48:54,  8.54s/it]  1%|          | 66/9678 [09:12<23:07:56,  8.66s/it]  1%|          | 67/9678 [09:21<23:18:39,  8.73s/it]  1%|          | 68/9678 [09:28<21:45:09,  8.15s/it]  1%|          | 69/9678 [09:36<21:37:41,  8.10s/it]  1%|          | 70/9678 [09:43<20:38:53,  7.74s/it]                                                    {'loss': 2.4978, 'grad_norm': 1.8762423992156982, 'learning_rate': 0.00036082474226804123, 'epoch': 0.01}
+  1%|          | 70/9678 [09:43<20:38:53,  7.74s/it]  1%|          | 71/9678 [09:52<21:49:32,  8.18s/it]  1%|          | 72/9678 [10:02<22:56:47,  8.60s/it]  1%|          | 73/9678 [10:08<21:20:48,  8.00s/it]  1%|          | 74/9678 [10:18<22:51:49,  8.57s/it]  1%|          | 75/9678 [10:26<22:38:10,  8.49s/it]  1%|          | 76/9678 [10:37<24:24:02,  9.15s/it]  1%|          | 77/9678 [10:45<23:15:01,  8.72s/it]  1%|          | 78/9678 [10:52<22:08:38,  8.30s/it]  1%|          | 79/9678 [11:01<22:30:35,  8.44s/it]  1%|          | 80/9678 [11:09<22:07:41,  8.30s/it]                                                    {'loss': 2.4351, 'grad_norm': 1.7499455213546753, 'learning_rate': 0.0004123711340206185, 'epoch': 0.01}
+  1%|          | 80/9678 [11:09<22:07:41,  8.30s/it]  1%|          | 81/9678 [11:16<20:49:27,  7.81s/it]  1%|          | 82/9678 [11:25<22:20:52,  8.38s/it]  1%|          | 83/9678 [11:32<20:57:50,  7.87s/it]  1%|          | 84/9678 [11:40<20:57:22,  7.86s/it]  1%|          | 85/9678 [11:48<21:15:46,  7.98s/it]  1%|          | 86/9678 [11:55<20:21:43,  7.64s/it]  1%|          | 87/9678 [12:05<22:03:46,  8.28s/it]  1%|          | 88/9678 [12:13<22:12:05,  8.33s/it]  1%|          | 89/9678 [12:22<22:36:13,  8.49s/it]  1%|          | 90/9678 [12:30<22:01:43,  8.27s/it]                                                    {'loss': 2.4811, 'grad_norm': 1.4334783554077148, 'learning_rate': 0.0004639175257731959, 'epoch': 0.01}
+  1%|          | 90/9678 [12:30<22:01:43,  8.27s/it]  1%|          | 91/9678 [12:40<23:25:40,  8.80s/it]  1%|          | 92/9678 [12:48<22:55:38,  8.61s/it]  1%|          | 93/9678 [12:56<22:38:13,  8.50s/it]  1%|          | 94/9678 [13:04<22:28:23,  8.44s/it]  1%|          | 95/9678 [13:12<22:07:51,  8.31s/it]  1%|          | 96/9678 [13:20<21:23:19,  8.04s/it]  1%|          | 97/9678 [13:30<23:11:29,  8.71s/it]  1%|          | 98/9678 [13:37<21:18:46,  8.01s/it]  1%|          | 99/9678 [13:45<21:46:19,  8.18s/it]  1%|          | 100/9678 [13:52<20:53:39,  7.85s/it]                                                     {'loss': 2.3653, 'grad_norm': 1.4335546493530273, 'learning_rate': 0.0004999998790431266, 'epoch': 0.01}
+  1%|          | 100/9678 [13:52<20:53:39,  7.85s/it]  1%|          | 101/9678 [14:02<22:29:50,  8.46s/it]  1%|          | 102/9678 [14:11<22:37:34,  8.51s/it]  1%|          | 103/9678 [14:20<23:12:15,  8.72s/it]  1%|          | 104/9678 [14:28<22:25:23,  8.43s/it]  1%|          | 105/9678 [14:36<22:22:53,  8.42s/it]  1%|          | 106/9678 [14:46<23:43:38,  8.92s/it]  1%|          | 107/9678 [14:54<22:41:39,  8.54s/it]  1%|          | 108/9678 [15:01<22:00:12,  8.28s/it]  1%|          | 109/9678 [15:10<21:54:54,  8.24s/it]  1%|          | 110/9678 [15:17<21:28:30,  8.08s/it]                                                     {'loss': 2.2769, 'grad_norm': 1.379575490951538, 'learning_rate': 0.0004999977287019656, 'epoch': 0.01}
+  1%|          | 110/9678 [15:17<21:28:30,  8.08s/it]  1%|          | 111/9678 [15:24<20:33:20,  7.73s/it]  1%|          | 112/9678 [15:35<22:57:31,  8.64s/it]  1%|          | 113/9678 [15:44<23:27:55,  8.83s/it]  1%|          | 114/9678 [15:54<23:59:46,  9.03s/it]  1%|          | 115/9678 [16:01<22:33:23,  8.49s/it]  1%|          | 116/9678 [16:07<20:21:55,  7.67s/it]  1%|          | 117/9678 [16:15<20:54:07,  7.87s/it]  1%|          | 118/9678 [16:22<20:16:40,  7.64s/it]  1%|          | 119/9678 [16:31<21:35:42,  8.13s/it]  1%|          | 120/9678 [16:39<20:49:38,  7.84s/it]                                                     {'loss': 2.1347, 'grad_norm': 1.357542872428894, 'learning_rate': 0.0004999928904568952, 'epoch': 0.01}
+  1%|          | 120/9678 [16:39<20:49:38,  7.84s/it]  1%|▏         | 121/9678 [16:45<19:59:53,  7.53s/it]  1%|▏         | 122/9678 [16:54<20:47:53,  7.84s/it]  1%|▏         | 123/9678 [17:04<22:27:42,  8.46s/it]  1%|▏         | 124/9678 [17:13<22:44:58,  8.57s/it]  1%|▏         | 125/9678 [17:21<22:38:41,  8.53s/it]  1%|▏         | 126/9678 [17:29<21:42:55,  8.18s/it]  1%|▏         | 127/9678 [17:37<21:35:01,  8.14s/it]  1%|▏         | 128/9678 [17:46<22:22:35,  8.44s/it]  1%|▏         | 129/9678 [17:53<21:46:45,  8.21s/it]  1%|▏         | 130/9678 [18:02<21:47:43,  8.22s/it]                                                     {'loss': 2.1943, 'grad_norm': 1.6458231210708618, 'learning_rate': 0.0004999853643599349, 'epoch': 0.01}
+  1%|▏         | 130/9678 [18:02<21:47:43,  8.22s/it]  1%|▏         | 131/9678 [18:12<23:36:53,  8.90s/it]  1%|▏         | 132/9678 [18:18<21:31:03,  8.11s/it]  1%|▏         | 133/9678 [18:27<21:54:35,  8.26s/it]  1%|▏         | 134/9678 [18:37<23:13:40,  8.76s/it]  1%|▏         | 135/9678 [18:45<22:46:15,  8.59s/it]  1%|▏         | 136/9678 [18:54<23:06:46,  8.72s/it]  1%|▏         | 137/9678 [19:02<22:40:30,  8.56s/it]  1%|▏         | 138/9678 [19:12<23:27:35,  8.85s/it]  1%|▏         | 139/9678 [19:20<22:48:49,  8.61s/it]  1%|▏         | 140/9678 [19:27<21:24:35,  8.08s/it]                                                     {'loss': 2.204, 'grad_norm': 1.7004691362380981, 'learning_rate': 0.0004999751504920031, 'epoch': 0.01}
+  1%|▏         | 140/9678 [19:27<21:24:35,  8.08s/it]  1%|▏         | 141/9678 [19:34<20:54:21,  7.89s/it]  1%|▏         | 142/9678 [19:42<20:47:55,  7.85s/it]  1%|▏         | 143/9678 [19:51<21:23:58,  8.08s/it]  1%|▏         | 144/9678 [20:00<22:25:46,  8.47s/it]  1%|▏         | 145/9678 [20:08<22:02:34,  8.32s/it]  2%|▏         | 146/9678 [20:16<21:53:51,  8.27s/it]  2%|▏         | 147/9678 [20:24<21:48:32,  8.24s/it]  2%|▏         | 148/9678 [20:33<22:22:07,  8.45s/it]  2%|▏         | 149/9678 [20:42<22:34:08,  8.53s/it]  2%|▏         | 150/9678 [20:50<22:32:02,  8.51s/it]                                                     {'loss': 2.0817, 'grad_norm': 1.3042373657226562, 'learning_rate': 0.0004999622489629164, 'epoch': 0.02}
+  2%|▏         | 150/9678 [20:50<22:32:02,  8.51s/it]  2%|▏         | 151/9678 [20:58<21:41:29,  8.20s/it]  2%|▏         | 152/9678 [21:04<20:27:26,  7.73s/it]  2%|▏         | 153/9678 [21:13<20:44:33,  7.84s/it]  2%|▏         | 154/9678 [21:22<21:40:54,  8.20s/it]  2%|▏         | 155/9678 [21:31<22:46:11,  8.61s/it]  2%|▏         | 156/9678 [21:38<21:24:05,  8.09s/it]  2%|▏         | 157/9678 [21:46<21:10:43,  8.01s/it]  2%|▏         | 158/9678 [21:55<21:55:27,  8.29s/it]  2%|▏         | 159/9678 [22:01<20:35:05,  7.79s/it]  2%|▏         | 160/9678 [22:11<21:42:58,  8.21s/it]                                                     {'loss': 2.115, 'grad_norm': 1.5508415699005127, 'learning_rate': 0.0004999466599113884, 'epoch': 0.02}
+  2%|▏         | 160/9678 [22:11<21:42:58,  8.21s/it]  2%|▏         | 161/9678 [22:20<23:00:35,  8.70s/it]  2%|▏         | 162/9678 [22:29<22:38:46,  8.57s/it]  2%|▏         | 163/9678 [22:38<22:58:29,  8.69s/it]  2%|▏         | 164/9678 [22:46<22:37:40,  8.56s/it]  2%|▏         | 165/9678 [22:53<21:25:16,  8.11s/it]  2%|▏         | 166/9678 [23:01<21:08:10,  8.00s/it]  2%|▏         | 167/9678 [23:08<20:47:53,  7.87s/it]  2%|▏         | 168/9678 [23:15<19:55:11,  7.54s/it]  2%|▏         | 169/9678 [23:22<19:38:05,  7.43s/it]  2%|▏         | 170/9678 [23:29<19:23:33,  7.34s/it]                                                     {'loss': 2.1762, 'grad_norm': 1.3333240747451782, 'learning_rate': 0.0004999283835050278, 'epoch': 0.02}
+  2%|▏         | 170/9678 [23:29<19:23:33,  7.34s/it]  2%|▏         | 171/9678 [23:35<18:07:35,  6.86s/it]  2%|▏         | 172/9678 [23:43<18:58:32,  7.19s/it]  2%|▏         | 173/9678 [23:50<18:33:21,  7.03s/it]  2%|▏         | 174/9678 [24:01<21:29:31,  8.14s/it]  2%|▏         | 175/9678 [24:08<21:02:23,  7.97s/it]  2%|▏         | 176/9678 [24:17<21:45:30,  8.24s/it]  2%|▏         | 177/9678 [24:24<21:08:41,  8.01s/it]  2%|▏         | 178/9678 [24:35<22:47:50,  8.64s/it]  2%|▏         | 179/9678 [24:43<22:51:03,  8.66s/it]  2%|▏         | 180/9678 [24:51<21:44:53,  8.24s/it]                                                     {'loss': 2.0493, 'grad_norm': 1.3132269382476807, 'learning_rate': 0.0004999074199403377, 'epoch': 0.02}
+  2%|▏         | 180/9678 [24:51<21:44:53,  8.24s/it]  2%|▏         | 181/9678 [24:58<20:54:29,  7.93s/it]  2%|▏         | 182/9678 [25:06<20:49:45,  7.90s/it]  2%|▏         | 183/9678 [25:14<20:59:27,  7.96s/it]  2%|▏         | 184/9678 [25:22<21:36:27,  8.19s/it]  2%|▏         | 185/9678 [25:33<23:20:36,  8.85s/it]  2%|▏         | 186/9678 [25:39<21:33:03,  8.17s/it]  2%|▏         | 187/9678 [25:46<20:07:26,  7.63s/it]  2%|▏         | 188/9678 [25:55<21:21:20,  8.10s/it]  2%|▏         | 189/9678 [26:02<20:14:20,  7.68s/it]  2%|▏         | 190/9678 [26:09<20:08:09,  7.64s/it]                                                     {'loss': 2.2234, 'grad_norm': 1.250373363494873, 'learning_rate': 0.000499883769442712, 'epoch': 0.02}
+  2%|▏         | 190/9678 [26:09<20:08:09,  7.64s/it]  2%|▏         | 191/9678 [26:16<19:36:15,  7.44s/it]  2%|▏         | 192/9678 [26:25<20:41:06,  7.85s/it]  2%|▏         | 193/9678 [26:32<19:58:36,  7.58s/it]  2%|▏         | 194/9678 [26:41<20:49:34,  7.91s/it]  2%|▏         | 195/9678 [26:48<20:10:49,  7.66s/it]  2%|▏         | 196/9678 [26:54<19:21:23,  7.35s/it]  2%|▏         | 197/9678 [27:02<20:00:45,  7.60s/it]  2%|▏         | 198/9678 [27:11<20:22:36,  7.74s/it]  2%|▏         | 199/9678 [27:20<21:44:14,  8.26s/it]  2%|▏         | 200/9678 [27:26<20:20:13,  7.72s/it]                                                     {'loss': 1.9751, 'grad_norm': 1.2733889818191528, 'learning_rate': 0.0004998574322664343, 'epoch': 0.02}
+  2%|▏         | 200/9678 [27:26<20:20:13,  7.72s/it]  2%|▏         | 201/9678 [27:37<22:46:43,  8.65s/it]  2%|▏         | 202/9678 [27:45<22:05:00,  8.39s/it]  2%|▏         | 203/9678 [27:54<22:31:15,  8.56s/it]  2%|▏         | 204/9678 [28:01<21:19:08,  8.10s/it]  2%|▏         | 205/9678 [28:08<20:46:30,  7.90s/it]  2%|▏         | 206/9678 [28:18<21:59:01,  8.36s/it]  2%|▏         | 207/9678 [28:26<22:01:46,  8.37s/it]  2%|▏         | 208/9678 [28:34<21:17:56,  8.10s/it]  2%|▏         | 209/9678 [28:42<21:37:52,  8.22s/it]  2%|▏         | 210/9678 [28:51<22:06:22,  8.41s/it]                                                     {'loss': 2.1314, 'grad_norm': 0.9156686663627625, 'learning_rate': 0.0004998284086946743, 'epoch': 0.02}
+  2%|▏         | 210/9678 [28:51<22:06:22,  8.41s/it]  2%|▏         | 211/9678 [29:00<22:06:13,  8.41s/it]  2%|▏         | 212/9678 [29:07<21:00:29,  7.99s/it]  2%|▏         | 213/9678 [29:13<19:51:10,  7.55s/it]  2%|▏         | 214/9678 [29:20<19:29:32,  7.41s/it]  2%|▏         | 215/9678 [29:28<19:51:49,  7.56s/it]  2%|▏         | 216/9678 [29:35<19:31:13,  7.43s/it]  2%|▏         | 217/9678 [29:44<20:31:57,  7.81s/it]  2%|▏         | 218/9678 [29:54<22:26:11,  8.54s/it]  2%|▏         | 219/9678 [30:01<21:29:12,  8.18s/it]  2%|▏         | 220/9678 [30:09<21:15:37,  8.09s/it]                                                     {'loss': 1.8402, 'grad_norm': 1.0921283960342407, 'learning_rate': 0.0004997966990394851, 'epoch': 0.02}
+  2%|▏         | 220/9678 [30:09<21:15:37,  8.09s/it]  2%|▏         | 221/9678 [30:17<21:08:37,  8.05s/it]  2%|▏         | 222/9678 [30:26<21:40:12,  8.25s/it]  2%|▏         | 223/9678 [30:34<21:18:34,  8.11s/it]  2%|▏         | 224/9678 [30:42<21:12:56,  8.08s/it]  2%|▏         | 225/9678 [30:49<20:42:38,  7.89s/it]  2%|▏         | 226/9678 [30:59<22:13:14,  8.46s/it]  2%|▏         | 227/9678 [31:09<23:07:38,  8.81s/it]  2%|▏         | 228/9678 [31:17<22:34:52,  8.60s/it]  2%|▏         | 229/9678 [31:25<22:23:43,  8.53s/it]  2%|▏         | 230/9678 [31:32<21:19:54,  8.13s/it]                                                     {'loss': 2.1236, 'grad_norm': 1.2582165002822876, 'learning_rate': 0.0004997623036417998, 'epoch': 0.02}
+  2%|▏         | 230/9678 [31:32<21:19:54,  8.13s/it]  2%|▏         | 231/9678 [31:40<21:19:58,  8.13s/it]  2%|▏         | 232/9678 [31:47<20:25:29,  7.78s/it]  2%|▏         | 233/9678 [31:56<21:12:59,  8.09s/it]  2%|▏         | 234/9678 [32:06<22:16:44,  8.49s/it]  2%|▏         | 235/9678 [32:13<21:44:06,  8.29s/it]  2%|▏         | 236/9678 [32:22<21:38:57,  8.25s/it]  2%|▏         | 237/9678 [32:31<22:06:31,  8.43s/it]  2%|▏         | 238/9678 [32:38<21:16:32,  8.11s/it]  2%|▏         | 239/9678 [32:46<21:36:47,  8.24s/it]  2%|▏         | 240/9678 [32:54<21:23:25,  8.16s/it]                                                     {'loss': 2.0778, 'grad_norm': 1.1085331439971924, 'learning_rate': 0.0004997252228714278, 'epoch': 0.02}
+  2%|▏         | 240/9678 [32:54<21:23:25,  8.16s/it]  2%|▏         | 241/9678 [33:02<20:42:21,  7.90s/it]  3%|▎         | 242/9678 [33:10<21:02:17,  8.03s/it]  3%|▎         | 243/9678 [33:18<20:48:15,  7.94s/it]  3%|▎         | 244/9678 [33:24<19:18:46,  7.37s/it]  3%|▎         | 245/9678 [33:31<18:58:59,  7.24s/it]  3%|▎         | 246/9678 [33:39<20:01:22,  7.64s/it]  3%|▎         | 247/9678 [33:45<18:26:29,  7.04s/it]  3%|▎         | 248/9678 [33:51<17:47:40,  6.79s/it]  3%|▎         | 249/9678 [34:01<19:48:08,  7.56s/it]  3%|▎         | 250/9678 [34:08<19:56:57,  7.62s/it]                                                     {'loss': 2.146, 'grad_norm': 1.096815824508667, 'learning_rate': 0.0004996854571270512, 'epoch': 0.03}
+  3%|▎         | 250/9678 [34:08<19:56:57,  7.62s/it]  3%|▎         | 251/9678 [34:18<21:16:39,  8.13s/it]  3%|▎         | 252/9678 [34:26<21:14:01,  8.11s/it]  3%|▎         | 253/9678 [34:34<21:26:12,  8.19s/it]  3%|▎         | 254/9678 [34:44<23:07:31,  8.83s/it]  3%|▎         | 255/9678 [34:52<22:00:55,  8.41s/it]  3%|▎         | 256/9678 [34:59<21:03:24,  8.05s/it]  3%|▎         | 257/9678 [35:08<21:44:49,  8.31s/it]  3%|▎         | 258/9678 [35:16<21:35:11,  8.25s/it]  3%|▎         | 259/9678 [35:24<21:18:05,  8.14s/it]  3%|▎         | 260/9678 [35:32<20:55:36,  8.00s/it]                                                     {'loss': 1.9776, 'grad_norm': 1.0710986852645874, 'learning_rate': 0.0004996430068362196, 'epoch': 0.03}
+  3%|▎         | 260/9678 [35:32<20:55:36,  8.00s/it]  3%|▎         | 261/9678 [35:40<21:38:47,  8.28s/it]  3%|▎         | 262/9678 [35:49<21:34:39,  8.25s/it]  3%|▎         | 263/9678 [35:55<20:17:38,  7.76s/it]  3%|▎         | 264/9678 [36:03<20:03:41,  7.67s/it]  3%|▎         | 265/9678 [36:09<19:17:30,  7.38s/it]  3%|▎         | 266/9678 [36:17<19:04:31,  7.30s/it]  3%|▎         | 267/9678 [36:24<18:58:41,  7.26s/it]  3%|▎         | 268/9678 [36:32<20:00:35,  7.66s/it]  3%|▎         | 269/9678 [36:41<20:33:26,  7.87s/it]  3%|▎         | 270/9678 [36:48<19:57:13,  7.64s/it]                                                     {'loss': 1.9536, 'grad_norm': 1.4760586023330688, 'learning_rate': 0.0004995978724553464, 'epoch': 0.03}
+  3%|▎         | 270/9678 [36:48<19:57:13,  7.64s/it]  3%|▎         | 271/9678 [36:55<19:36:17,  7.50s/it]  3%|▎         | 272/9678 [37:04<20:29:10,  7.84s/it]  3%|▎         | 273/9678 [37:11<20:15:32,  7.75s/it]  3%|▎         | 274/9678 [37:19<20:42:54,  7.93s/it]  3%|▎         | 275/9678 [37:27<20:27:07,  7.83s/it]  3%|▎         | 276/9678 [37:35<20:10:23,  7.72s/it]  3%|▎         | 277/9678 [37:42<19:45:20,  7.57s/it]  3%|▎         | 278/9678 [37:50<20:37:12,  7.90s/it]  3%|▎         | 279/9678 [37:58<19:59:39,  7.66s/it]  3%|▎         | 280/9678 [38:07<21:06:54,  8.09s/it]                                                     {'loss': 1.7954, 'grad_norm': 1.3000599145889282, 'learning_rate': 0.0004995500544697036, 'epoch': 0.03}
+  3%|▎         | 280/9678 [38:07<21:06:54,  8.09s/it]  3%|▎         | 281/9678 [38:15<21:32:23,  8.25s/it]  3%|▎         | 282/9678 [38:24<21:48:37,  8.36s/it]  3%|▎         | 283/9678 [38:32<21:42:21,  8.32s/it]  3%|▎         | 284/9678 [38:39<20:52:46,  8.00s/it]  3%|▎         | 285/9678 [38:48<21:08:42,  8.10s/it]  3%|▎         | 286/9678 [38:55<20:42:40,  7.94s/it]  3%|▎         | 287/9678 [39:03<20:28:42,  7.85s/it]  3%|▎         | 288/9678 [39:11<20:50:00,  7.99s/it]  3%|▎         | 289/9678 [39:19<20:27:02,  7.84s/it]  3%|▎         | 290/9678 [39:25<19:37:29,  7.53s/it]                                                     {'loss': 1.8429, 'grad_norm': 1.2158455848693848, 'learning_rate': 0.0004994995533934163, 'epoch': 0.03}
+  3%|▎         | 290/9678 [39:25<19:37:29,  7.53s/it]  3%|▎         | 291/9678 [39:34<20:24:23,  7.83s/it]  3%|▎         | 292/9678 [39:43<21:04:01,  8.08s/it]  3%|▎         | 293/9678 [39:50<20:44:53,  7.96s/it]  3%|▎         | 294/9678 [39:57<19:44:22,  7.57s/it]  3%|▎         | 295/9678 [40:05<19:54:08,  7.64s/it]  3%|▎         | 296/9678 [40:14<21:11:43,  8.13s/it]  3%|▎         | 297/9678 [40:20<19:45:09,  7.58s/it]  3%|▎         | 298/9678 [40:28<20:07:36,  7.72s/it]  3%|▎         | 299/9678 [40:36<20:12:00,  7.75s/it]  3%|▎         | 300/9678 [40:43<19:44:52,  7.58s/it]                                                     {'loss': 2.0769, 'grad_norm': 1.1453113555908203, 'learning_rate': 0.0004994463697694579, 'epoch': 0.03}
+  3%|��         | 300/9678 [40:43<19:44:52,  7.58s/it]  3%|▎         | 301/9678 [40:51<19:32:30,  7.50s/it]  3%|▎         | 302/9678 [40:58<19:27:01,  7.47s/it]  3%|▎         | 303/9678 [41:04<18:23:07,  7.06s/it]  3%|▎         | 304/9678 [41:13<19:32:42,  7.51s/it]  3%|▎         | 305/9678 [41:21<20:00:03,  7.68s/it]  3%|▎         | 306/9678 [41:28<19:50:29,  7.62s/it]  3%|▎         | 307/9678 [41:37<20:47:00,  7.98s/it]  3%|▎         | 308/9678 [41:43<19:16:52,  7.41s/it]  3%|▎         | 309/9678 [41:52<20:38:49,  7.93s/it]  3%|▎         | 310/9678 [42:01<20:52:17,  8.02s/it]                                                     {'loss': 1.903, 'grad_norm': 0.7675238847732544, 'learning_rate': 0.0004993905041696433, 'epoch': 0.03}
+  3%|▎         | 310/9678 [42:01<20:52:17,  8.02s/it]  3%|▎         | 311/9678 [42:10<21:54:41,  8.42s/it]  3%|▎         | 312/9678 [42:17<20:34:57,  7.91s/it]  3%|▎         | 313/9678 [42:24<20:20:43,  7.82s/it]  3%|▎         | 314/9678 [42:32<20:04:19,  7.72s/it]  3%|▎         | 315/9678 [42:40<20:04:52,  7.72s/it]  3%|▎         | 316/9678 [42:47<19:57:18,  7.67s/it]  3%|▎         | 317/9678 [42:55<20:04:22,  7.72s/it]  3%|▎         | 318/9678 [43:01<18:59:09,  7.30s/it]  3%|▎         | 319/9678 [43:07<18:08:21,  6.98s/it]  3%|▎         | 320/9678 [43:16<18:59:44,  7.31s/it]                                                     {'loss': 1.9536, 'grad_norm': 1.1099224090576172, 'learning_rate': 0.0004993319571946235, 'epoch': 0.03}
+  3%|▎         | 320/9678 [43:16<18:59:44,  7.31s/it]  3%|▎         | 321/9678 [43:25<20:20:00,  7.82s/it]  3%|▎         | 322/9678 [43:33<21:10:32,  8.15s/it]  3%|▎         | 323/9678 [43:43<22:17:55,  8.58s/it]  3%|▎         | 324/9678 [43:50<21:21:43,  8.22s/it]  3%|▎         | 325/9678 [43:59<21:39:26,  8.34s/it]  3%|▎         | 326/9678 [44:06<20:43:54,  7.98s/it]  3%|▎         | 327/9678 [44:13<19:58:21,  7.69s/it]  3%|▎         | 328/9678 [44:21<19:59:07,  7.69s/it]  3%|▎         | 329/9678 [44:30<21:12:20,  8.17s/it]  3%|▎         | 330/9678 [44:38<21:10:49,  8.16s/it]                                                     {'loss': 1.9095, 'grad_norm': 1.617551326751709, 'learning_rate': 0.0004992707294738786, 'epoch': 0.03}
+  3%|▎         | 330/9678 [44:38<21:10:49,  8.16s/it]  3%|▎         | 331/9678 [44:44<19:32:53,  7.53s/it]  3%|▎         | 332/9678 [44:51<18:32:08,  7.14s/it]  3%|▎         | 333/9678 [45:00<20:16:21,  7.81s/it]  3%|▎         | 334/9678 [45:12<23:33:19,  9.08s/it]  3%|▎         | 335/9678 [45:20<22:35:45,  8.71s/it]  3%|▎         | 336/9678 [45:28<22:15:50,  8.58s/it]  3%|▎         | 337/9678 [45:36<21:18:58,  8.22s/it]  3%|▎         | 338/9678 [45:44<21:45:00,  8.38s/it]  4%|▎         | 339/9678 [45:52<20:57:54,  8.08s/it]  4%|▎         | 340/9678 [45:58<19:51:45,  7.66s/it]                                                     {'loss': 1.8174, 'grad_norm': 1.486296534538269, 'learning_rate': 0.0004992068216657115, 'epoch': 0.04}
+  4%|▎         | 340/9678 [45:58<19:51:45,  7.66s/it]  4%|▎         | 341/9678 [46:07<20:55:05,  8.07s/it]  4%|▎         | 342/9678 [46:15<20:38:17,  7.96s/it]  4%|▎         | 343/9678 [46:23<20:25:45,  7.88s/it]  4%|▎         | 344/9678 [46:32<21:48:16,  8.41s/it]  4%|▎         | 345/9678 [46:40<20:52:09,  8.05s/it]  4%|▎         | 346/9678 [46:50<22:30:27,  8.68s/it]  4%|▎         | 347/9678 [46:57<21:22:44,  8.25s/it]  4%|▎         | 348/9678 [47:04<20:45:46,  8.01s/it]  4%|▎         | 349/9678 [47:12<20:36:52,  7.95s/it]  4%|▎         | 350/9678 [47:20<20:25:45,  7.88s/it]                                                     {'loss': 1.7963, 'grad_norm': 1.4763352870941162, 'learning_rate': 0.0004991402344572409, 'epoch': 0.04}
+  4%|▎         | 350/9678 [47:20<20:25:45,  7.88s/it]  4%|▎         | 351/9678 [47:28<20:24:46,  7.88s/it]  4%|▎         | 352/9678 [47:34<19:05:19,  7.37s/it]  4%|▎         | 353/9678 [47:42<19:27:06,  7.51s/it]  4%|▎         | 354/9678 [47:52<21:16:44,  8.22s/it]  4%|▎         | 355/9678 [47:58<19:40:42,  7.60s/it]  4%|▎         | 356/9678 [48:06<20:02:21,  7.74s/it]  4%|▎         | 357/9678 [48:14<19:59:43,  7.72s/it]  4%|▎         | 358/9678 [48:22<20:05:17,  7.76s/it]  4%|▎         | 359/9678 [48:30<20:33:29,  7.94s/it]  4%|▎         | 360/9678 [48:39<21:09:32,  8.17s/it]                                                     {'loss': 1.9319, 'grad_norm': 1.2317055463790894, 'learning_rate': 0.0004990709685643932, 'epoch': 0.04}
+  4%|▎         | 360/9678 [48:39<21:09:32,  8.17s/it]  4%|▎         | 361/9678 [48:49<23:03:51,  8.91s/it]  4%|▎         | 362/9678 [48:57<22:24:22,  8.66s/it]  4%|▍         | 363/9678 [49:08<23:47:22,  9.19s/it]  4%|▍         | 364/9678 [49:16<22:56:48,  8.87s/it]  4%|▍         | 365/9678 [49:26<23:39:31,  9.15s/it]  4%|▍         | 366/9678 [49:32<21:29:19,  8.31s/it]  4%|▍         | 367/9678 [49:42<22:29:20,  8.70s/it]  4%|▍         | 368/9678 [49:48<20:44:11,  8.02s/it]  4%|▍         | 369/9678 [49:57<21:31:05,  8.32s/it]  4%|▍         | 370/9678 [50:08<23:27:46,  9.07s/it]                                                     {'loss': 1.9447, 'grad_norm': 1.074246883392334, 'learning_rate': 0.0004989990247318954, 'epoch': 0.04}
+  4%|▍         | 370/9678 [50:08<23:27:46,  9.07s/it]  4%|▍         | 371/9678 [50:15<21:35:14,  8.35s/it]  4%|▍         | 372/9678 [50:22<20:41:42,  8.01s/it]  4%|▍         | 373/9678 [50:29<20:13:32,  7.83s/it]  4%|▍         | 374/9678 [50:35<18:40:43,  7.23s/it]  4%|▍         | 375/9678 [50:41<18:05:11,  7.00s/it]  4%|▍         | 376/9678 [50:50<19:11:16,  7.43s/it]  4%|▍         | 377/9678 [50:59<20:20:17,  7.87s/it]  4%|▍         | 378/9678 [51:07<20:39:48,  8.00s/it]  4%|▍         | 379/9678 [51:15<20:23:30,  7.89s/it]  4%|▍         | 380/9678 [51:22<20:13:37,  7.83s/it]                                                     {'loss': 1.7053, 'grad_norm': 1.2657012939453125, 'learning_rate': 0.0004989244037332671, 'epoch': 0.04}
+  4%|▍         | 380/9678 [51:22<20:13:37,  7.83s/it]  4%|▍         | 381/9678 [51:30<20:21:50,  7.89s/it]  4%|▍         | 382/9678 [51:39<20:37:51,  7.99s/it]  4%|▍         | 383/9678 [51:47<20:50:30,  8.07s/it]  4%|▍         | 384/9678 [51:54<20:15:46,  7.85s/it]  4%|▍         | 385/9678 [52:03<20:37:25,  7.99s/it]  4%|▍         | 386/9678 [52:10<19:56:25,  7.73s/it]  4%|▍         | 387/9678 [52:18<20:29:48,  7.94s/it]  4%|▍         | 388/9678 [52:27<20:59:12,  8.13s/it]  4%|▍         | 389/9678 [52:38<23:05:00,  8.95s/it]  4%|▍         | 390/9678 [52:46<22:43:50,  8.81s/it]                                                     {'loss': 1.8009, 'grad_norm': 1.3143869638442993, 'learning_rate': 0.0004988471063708116, 'epoch': 0.04}
+  4%|▍         | 390/9678 [52:46<22:43:50,  8.81s/it]  4%|▍         | 391/9678 [52:54<22:24:04,  8.68s/it]  4%|▍         | 392/9678 [53:05<23:34:35,  9.14s/it]  4%|▍         | 393/9678 [53:13<22:49:45,  8.85s/it]  4%|▍         | 394/9678 [53:21<22:10:29,  8.60s/it]  4%|▍         | 395/9678 [53:30<22:38:08,  8.78s/it]  4%|▍         | 396/9678 [53:40<23:31:41,  9.13s/it]  4%|▍         | 397/9678 [53:47<22:10:44,  8.60s/it]  4%|▍         | 398/9678 [53:57<22:44:52,  8.82s/it]  4%|▍         | 399/9678 [54:04<21:31:25,  8.35s/it]  4%|▍         | 400/9678 [54:11<20:10:22,  7.83s/it]                                                     {'loss': 1.8229, 'grad_norm': 1.381238579750061, 'learning_rate': 0.0004987671334756084, 'epoch': 0.04}
+  4%|▍         | 400/9678 [54:11<20:10:22,  7.83s/it]  4%|▍         | 401/9678 [54:18<19:50:56,  7.70s/it]  4%|▍         | 402/9678 [54:25<19:07:12,  7.42s/it]  4%|▍         | 403/9678 [54:33<19:38:56,  7.63s/it]  4%|▍         | 404/9678 [54:39<18:11:04,  7.06s/it]  4%|▍         | 405/9678 [54:48<20:06:54,  7.81s/it]  4%|▍         | 406/9678 [54:56<20:06:41,  7.81s/it]  4%|▍         | 407/9678 [55:03<19:42:29,  7.65s/it]  4%|▍         | 408/9678 [55:12<20:52:55,  8.11s/it]  4%|▍         | 409/9678 [55:21<21:33:50,  8.38s/it]  4%|▍         | 410/9678 [55:29<20:43:38,  8.05s/it]                                                     {'loss': 1.7401, 'grad_norm': 1.2067453861236572, 'learning_rate': 0.0004986844859075028, 'epoch': 0.04}
+  4%|▍         | 410/9678 [55:29<20:43:38,  8.05s/it]  4%|▍         | 411/9678 [55:36<20:31:35,  7.97s/it]  4%|▍         | 412/9678 [55:45<21:18:11,  8.28s/it]  4%|▍         | 413/9678 [55:53<20:30:36,  7.97s/it]  4%|▍         | 414/9678 [55:59<19:33:12,  7.60s/it]  4%|▍         | 415/9678 [56:07<19:32:10,  7.59s/it]  4%|▍         | 416/9678 [56:14<19:11:47,  7.46s/it]  4%|▍         | 417/9678 [56:24<21:04:38,  8.19s/it]  4%|▍         | 418/9678 [56:31<20:24:52,  7.94s/it]  4%|▍         | 419/9678 [56:38<18:59:42,  7.39s/it]  4%|▍         | 420/9678 [56:47<20:52:23,  8.12s/it]                                                     {'loss': 1.6774, 'grad_norm': 1.2656382322311401, 'learning_rate': 0.0004985991645550979, 'epoch': 0.04}
+  4%|▍         | 420/9678 [56:47<20:52:23,  8.12s/it]  4%|▍         | 421/9678 [56:57<21:41:11,  8.43s/it]  4%|▍         | 422/9678 [57:05<21:49:02,  8.49s/it]  4%|▍         | 423/9678 [57:14<22:16:51,  8.67s/it]  4%|▍         | 424/9678 [57:23<22:22:23,  8.70s/it]  4%|▍         | 425/9678 [57:31<22:05:50,  8.60s/it]  4%|▍         | 426/9678 [57:42<23:30:14,  9.15s/it]  4%|▍         | 427/9678 [57:48<21:28:13,  8.36s/it]  4%|▍         | 428/9678 [57:58<22:17:19,  8.67s/it]  4%|▍         | 429/9678 [58:06<21:47:39,  8.48s/it]  4%|▍         | 430/9678 [58:15<22:07:21,  8.61s/it]                                                     {'loss': 1.7884, 'grad_norm': 0.9306573271751404, 'learning_rate': 0.0004985111703357444, 'epoch': 0.04}
+  4%|▍         | 430/9678 [58:15<22:07:21,  8.61s/it]  4%|▍         | 431/9678 [58:24<22:26:25,  8.74s/it]  4%|▍         | 432/9678 [58:31<21:00:50,  8.18s/it]  4%|▍         | 433/9678 [58:41<22:27:48,  8.75s/it]  4%|▍         | 434/9678 [58:50<22:57:32,  8.94s/it]  4%|▍         | 435/9678 [58:59<22:48:26,  8.88s/it]  5%|▍         | 436/9678 [59:07<22:00:29,  8.57s/it]  5%|▍         | 437/9678 [59:17<23:03:52,  8.99s/it]  5%|▍         | 438/9678 [59:27<23:52:44,  9.30s/it]  5%|▍         | 439/9678 [59:33<21:45:24,  8.48s/it]  5%|▍         | 440/9678 [59:41<21:02:27,  8.20s/it]                                                     {'loss': 1.6522, 'grad_norm': 0.9404155611991882, 'learning_rate': 0.0004984205041955309, 'epoch': 0.05}
+  5%|▍         | 440/9678 [59:41<21:02:27,  8.20s/it]  5%|▍         | 441/9678 [59:48<20:19:35,  7.92s/it]  5%|▍         | 442/9678 [59:56<20:14:46,  7.89s/it]  5%|▍         | 443/9678 [1:00:04<20:46:22,  8.10s/it]  5%|▍         | 444/9678 [1:00:13<21:06:51,  8.23s/it]  5%|▍         | 445/9678 [1:00:21<20:48:14,  8.11s/it]  5%|▍         | 446/9678 [1:00:29<20:52:04,  8.14s/it]  5%|▍         | 447/9678 [1:00:38<21:20:29,  8.32s/it]  5%|▍         | 448/9678 [1:00:45<20:22:56,  7.95s/it]  5%|▍         | 449/9678 [1:00:53<20:11:27,  7.88s/it]  5%|▍         | 450/9678 [1:01:02<21:15:01,  8.29s/it]                                                       {'loss': 1.7681, 'grad_norm': 1.2634170055389404, 'learning_rate': 0.0004983271671092738, 'epoch': 0.05}
+  5%|▍         | 450/9678 [1:01:02<21:15:01,  8.29s/it]  5%|▍         | 451/9678 [1:01:10<21:30:13,  8.39s/it]  5%|▍         | 452/9678 [1:01:18<20:37:42,  8.05s/it]  5%|▍         | 453/9678 [1:01:26<20:58:36,  8.19s/it]  5%|▍         | 454/9678 [1:01:34<20:40:17,  8.07s/it]  5%|▍         | 455/9678 [1:01:43<21:18:34,  8.32s/it]  5%|▍         | 456/9678 [1:01:50<20:28:40,  7.99s/it]  5%|▍         | 457/9678 [1:01:58<20:16:59,  7.92s/it]  5%|▍         | 458/9678 [1:02:06<20:50:16,  8.14s/it]  5%|▍         | 459/9678 [1:02:15<21:16:12,  8.31s/it]  5%|▍         | 460/9678 [1:02:22<20:08:59,  7.87s/it]                                                       {'loss': 1.8906, 'grad_norm': 1.6461280584335327, 'learning_rate': 0.0004982311600805066, 'epoch': 0.05}
+  5%|▍         | 460/9678 [1:02:22<20:08:59,  7.87s/it]  5%|▍         | 461/9678 [1:02:31<20:41:47,  8.08s/it]  5%|▍         | 462/9678 [1:02:38<19:59:53,  7.81s/it]  5%|▍         | 463/9678 [1:02:47<20:54:18,  8.17s/it]  5%|▍         | 464/9678 [1:02:53<19:33:43,  7.64s/it]  5%|▍         | 465/9678 [1:03:03<21:13:31,  8.29s/it]  5%|▍         | 466/9678 [1:03:11<21:20:25,  8.34s/it]  5%|▍         | 467/9678 [1:03:21<22:38:23,  8.85s/it]  5%|▍         | 468/9678 [1:03:30<22:07:36,  8.65s/it]  5%|▍         | 469/9678 [1:03:38<21:58:45,  8.59s/it]  5%|▍         | 470/9678 [1:03:45<20:53:59,  8.17s/it]                                                       {'loss': 1.8049, 'grad_norm': 1.242746114730835, 'learning_rate': 0.0004981324841414695, 'epoch': 0.05}
+  5%|▍         | 470/9678 [1:03:45<20:53:59,  8.17s/it]  5%|▍         | 471/9678 [1:03:52<19:57:11,  7.80s/it]  5%|▍         | 472/9678 [1:04:03<21:57:30,  8.59s/it]  5%|▍         | 473/9678 [1:04:12<22:28:59,  8.79s/it]  5%|▍         | 474/9678 [1:04:19<21:11:56,  8.29s/it]  5%|▍         | 475/9678 [1:04:31<23:47:59,  9.31s/it]  5%|▍         | 476/9678 [1:04:39<22:43:12,  8.89s/it]  5%|▍         | 477/9678 [1:04:48<23:01:56,  9.01s/it]  5%|▍         | 478/9678 [1:04:58<23:29:37,  9.19s/it]  5%|▍         | 479/9678 [1:05:04<21:37:45,  8.46s/it]  5%|▍         | 480/9678 [1:05:12<20:54:57,  8.19s/it]                                                       {'loss': 1.6272, 'grad_norm': 1.0817033052444458, 'learning_rate': 0.0004980311403530978, 'epoch': 0.05}
+  5%|▍         | 480/9678 [1:05:12<20:54:57,  8.19s/it]  5%|▍         | 481/9678 [1:05:19<20:15:40,  7.93s/it]  5%|▍         | 482/9678 [1:05:28<20:52:48,  8.17s/it]  5%|▍         | 483/9678 [1:05:36<20:35:07,  8.06s/it]  5%|▌         | 484/9678 [1:05:44<21:04:09,  8.25s/it]  5%|▌         | 485/9678 [1:05:53<21:27:43,  8.40s/it]  5%|▌         | 486/9678 [1:06:00<20:27:52,  8.01s/it]  5%|▌         | 487/9678 [1:06:09<20:52:16,  8.18s/it]  5%|▌         | 488/9678 [1:06:17<20:30:02,  8.03s/it]  5%|▌         | 489/9678 [1:06:25<20:54:48,  8.19s/it]  5%|▌         | 490/9678 [1:06:32<20:05:51,  7.87s/it]                                                       {'loss': 1.6988, 'grad_norm': 1.2890691757202148, 'learning_rate': 0.0004979271298050107, 'epoch': 0.05}
+  5%|▌         | 490/9678 [1:06:32<20:05:51,  7.87s/it]  5%|▌         | 491/9678 [1:06:41<20:49:34,  8.16s/it]  5%|▌         | 492/9678 [1:06:50<21:12:31,  8.31s/it]  5%|▌         | 493/9678 [1:06:56<19:35:35,  7.68s/it]  5%|▌         | 494/9678 [1:07:03<19:10:43,  7.52s/it]  5%|▌         | 495/9678 [1:07:12<20:22:39,  7.99s/it]  5%|▌         | 496/9678 [1:07:20<20:22:49,  7.99s/it]  5%|▌         | 497/9678 [1:07:28<20:35:17,  8.07s/it]  5%|▌         | 498/9678 [1:07:37<20:43:00,  8.12s/it]  5%|▌         | 499/9678 [1:07:47<22:01:57,  8.64s/it]  5%|▌         | 500/9678 [1:07:54<21:06:27,  8.28s/it]                                                       {'loss': 1.728, 'grad_norm': 1.0929986238479614, 'learning_rate': 0.0004978204536155003, 'epoch': 0.05}
+  5%|▌         | 500/9678 [1:07:54<21:06:27,  8.28s/it]  5%|▌         | 501/9678 [1:08:03<21:40:53,  8.51s/it]  5%|▌         | 502/9678 [1:08:12<21:58:21,  8.62s/it]  5%|▌         | 503/9678 [1:08:20<21:32:41,  8.45s/it]  5%|▌         | 504/9678 [1:08:28<20:56:59,  8.22s/it]  5%|▌         | 505/9678 [1:08:36<20:48:33,  8.17s/it]  5%|▌         | 506/9678 [1:08:44<21:10:19,  8.31s/it]  5%|▌         | 507/9678 [1:08:53<21:26:31,  8.42s/it]  5%|▌         | 508/9678 [1:09:01<21:20:24,  8.38s/it]  5%|▌         | 509/9678 [1:09:09<20:47:46,  8.17s/it]  5%|▌         | 510/9678 [1:09:17<20:32:56,  8.07s/it]                                                       {'loss': 1.5616, 'grad_norm': 1.2483139038085938, 'learning_rate': 0.0004977111129315177, 'epoch': 0.05}
+  5%|▌         | 510/9678 [1:09:17<20:32:56,  8.07s/it]  5%|▌         | 511/9678 [1:09:24<20:12:19,  7.93s/it]  5%|▌         | 512/9678 [1:09:32<20:00:00,  7.86s/it]  5%|▌         | 513/9678 [1:09:42<21:22:22,  8.40s/it]  5%|▌         | 514/9678 [1:09:52<22:52:30,  8.99s/it]  5%|▌         | 515/9678 [1:10:00<22:18:47,  8.77s/it]  5%|▌         | 516/9678 [1:10:09<22:04:30,  8.67s/it]  5%|▌         | 517/9678 [1:10:15<20:16:31,  7.97s/it]  5%|▌         | 518/9678 [1:10:22<19:32:42,  7.68s/it]  5%|▌         | 519/9678 [1:10:29<18:52:25,  7.42s/it]  5%|▌         | 520/9678 [1:10:37<19:24:33,  7.63s/it]                                                       {'loss': 1.5409, 'grad_norm': 1.0845454931259155, 'learning_rate': 0.0004975991089286632, 'epoch': 0.05}
+  5%|▌         | 520/9678 [1:10:37<19:24:33,  7.63s/it]  5%|▌         | 521/9678 [1:10:45<19:25:48,  7.64s/it]  5%|▌         | 522/9678 [1:10:53<19:38:44,  7.72s/it]  5%|▌         | 523/9678 [1:11:01<20:08:38,  7.92s/it]  5%|▌         | 524/9678 [1:11:09<20:15:20,  7.97s/it]  5%|▌         | 525/9678 [1:11:17<20:15:03,  7.96s/it]  5%|▌         | 526/9678 [1:11:25<20:01:31,  7.88s/it]  5%|▌         | 527/9678 [1:11:33<20:39:33,  8.13s/it]  5%|▌         | 528/9678 [1:11:41<20:29:28,  8.06s/it]  5%|▌         | 529/9678 [1:11:51<21:52:43,  8.61s/it]  5%|▌         | 530/9678 [1:11:59<21:33:00,  8.48s/it]                                                       {'loss': 1.7888, 'grad_norm': 1.4180911779403687, 'learning_rate': 0.0004974844428111715, 'epoch': 0.05}
+  5%|▌         | 530/9678 [1:11:59<21:33:00,  8.48s/it]  5%|▌         | 531/9678 [1:12:09<22:34:19,  8.88s/it]  5%|▌         | 532/9678 [1:12:18<22:36:49,  8.90s/it]  6%|▌         | 533/9678 [1:12:25<21:20:17,  8.40s/it]  6%|▌         | 534/9678 [1:12:33<20:32:13,  8.09s/it]  6%|▌         | 535/9678 [1:12:39<18:55:10,  7.45s/it]  6%|▌         | 536/9678 [1:12:46<19:04:21,  7.51s/it]  6%|▌         | 537/9678 [1:12:54<19:20:40,  7.62s/it]  6%|▌         | 538/9678 [1:13:01<18:55:53,  7.46s/it]  6%|▌         | 539/9678 [1:13:08<18:16:08,  7.20s/it]  6%|▌         | 540/9678 [1:13:15<18:15:21,  7.19s/it]                                                       {'loss': 1.6986, 'grad_norm': 1.0860427618026733, 'learning_rate': 0.0004973671158118998, 'epoch': 0.06}
+  6%|▌         | 540/9678 [1:13:15<18:15:21,  7.19s/it]  6%|▌         | 541/9678 [1:13:24<19:24:43,  7.65s/it]  6%|▌         | 542/9678 [1:13:30<17:57:24,  7.08s/it]  6%|▌         | 543/9678 [1:13:37<18:12:43,  7.18s/it]  6%|▌         | 544/9678 [1:13:45<18:33:43,  7.32s/it]  6%|▌         | 545/9678 [1:13:52<18:25:11,  7.26s/it]  6%|▌         | 546/9678 [1:14:01<19:50:35,  7.82s/it]  6%|▌         | 547/9678 [1:14:09<19:44:02,  7.78s/it]  6%|▌         | 548/9678 [1:14:17<20:12:29,  7.97s/it]  6%|▌         | 549/9678 [1:14:24<19:33:55,  7.72s/it]  6%|▌         | 550/9678 [1:14:32<19:34:36,  7.72s/it]                                                       {'loss': 1.8097, 'grad_norm': 1.1166560649871826, 'learning_rate': 0.0004972471291923143, 'epoch': 0.06}
+  6%|▌         | 550/9678 [1:14:32<19:34:36,  7.72s/it]  6%|▌         | 551/9678 [1:14:41<20:27:03,  8.07s/it]  6%|▌         | 552/9678 [1:14:48<20:13:00,  7.98s/it]  6%|▌         | 553/9678 [1:14:57<20:48:17,  8.21s/it]  6%|▌         | 554/9678 [1:15:07<22:02:29,  8.70s/it]  6%|▌         | 555/9678 [1:15:14<20:35:11,  8.12s/it]  6%|▌         | 556/9678 [1:15:21<19:37:32,  7.75s/it]  6%|▌         | 557/9678 [1:15:28<19:14:02,  7.59s/it]  6%|▌         | 558/9678 [1:15:36<19:28:45,  7.69s/it]  6%|▌         | 559/9678 [1:15:44<20:08:18,  7.95s/it]  6%|▌         | 560/9678 [1:15:51<19:23:52,  7.66s/it]                                                       {'loss': 1.6169, 'grad_norm': 1.2548375129699707, 'learning_rate': 0.0004971244842424768, 'epoch': 0.06}
+  6%|▌         | 560/9678 [1:15:51<19:23:52,  7.66s/it]  6%|▌         | 561/9678 [1:15:58<18:54:26,  7.47s/it]  6%|▌         | 562/9678 [1:16:07<19:32:52,  7.72s/it]  6%|▌         | 563/9678 [1:16:16<20:23:59,  8.06s/it]  6%|▌         | 564/9678 [1:16:23<19:49:47,  7.83s/it]  6%|▌         | 565/9678 [1:16:31<20:23:50,  8.06s/it]  6%|▌         | 566/9678 [1:16:40<20:40:07,  8.17s/it]  6%|▌         | 567/9678 [1:16:49<21:20:01,  8.43s/it]  6%|▌         | 568/9678 [1:16:57<20:52:58,  8.25s/it]  6%|▌         | 569/9678 [1:17:05<20:30:45,  8.11s/it]  6%|▌         | 570/9678 [1:17:12<20:16:47,  8.02s/it]                                                       {'loss': 1.6965, 'grad_norm': 0.991226851940155, 'learning_rate': 0.0004969991822810307, 'epoch': 0.06}
+  6%|▌         | 570/9678 [1:17:12<20:16:47,  8.02s/it]  6%|▌         | 571/9678 [1:17:20<20:12:43,  7.99s/it]  6%|▌         | 572/9678 [1:17:30<21:09:53,  8.37s/it]  6%|▌         | 573/9678 [1:17:36<19:39:06,  7.77s/it]  6%|▌         | 574/9678 [1:17:43<19:28:39,  7.70s/it]  6%|▌         | 575/9678 [1:17:51<19:20:55,  7.65s/it]  6%|▌         | 576/9678 [1:17:58<18:57:54,  7.50s/it]  6%|▌         | 577/9678 [1:18:07<19:40:27,  7.78s/it]  6%|▌         | 578/9678 [1:18:16<20:37:28,  8.16s/it]  6%|▌         | 579/9678 [1:18:25<21:50:32,  8.64s/it]  6%|▌         | 580/9678 [1:18:34<21:48:34,  8.63s/it]                                                       {'loss': 1.6587, 'grad_norm': 1.1663395166397095, 'learning_rate': 0.0004968712246551868, 'epoch': 0.06}
+  6%|▌         | 580/9678 [1:18:34<21:48:34,  8.63s/it]  6%|▌         | 581/9678 [1:18:43<22:18:28,  8.83s/it]  6%|▌         | 582/9678 [1:18:52<22:02:45,  8.73s/it]  6%|▌         | 583/9678 [1:19:01<22:43:02,  8.99s/it]  6%|▌         | 584/9678 [1:19:10<22:30:50,  8.91s/it]  6%|▌         | 585/9678 [1:19:18<22:07:15,  8.76s/it]  6%|▌         | 586/9678 [1:19:27<22:04:03,  8.74s/it]  6%|▌         | 587/9678 [1:19:36<21:58:39,  8.70s/it]  6%|▌         | 588/9678 [1:19:46<22:45:09,  9.01s/it]  6%|▌         | 589/9678 [1:19:54<22:21:31,  8.86s/it]  6%|▌         | 590/9678 [1:20:01<21:13:17,  8.41s/it]                                                       {'loss': 1.6837, 'grad_norm': 1.3420109748840332, 'learning_rate': 0.0004967406127407086, 'epoch': 0.06}
+  6%|▌         | 590/9678 [1:20:01<21:13:17,  8.41s/it]  6%|▌         | 591/9678 [1:20:10<21:27:38,  8.50s/it]  6%|▌         | 592/9678 [1:20:19<21:53:04,  8.67s/it]  6%|▌         | 593/9678 [1:20:28<21:56:49,  8.70s/it]  6%|▌         | 594/9678 [1:20:36<21:47:00,  8.63s/it]  6%|▌         | 595/9678 [1:20:43<20:22:25,  8.08s/it]  6%|▌         | 596/9678 [1:20:51<20:26:00,  8.10s/it]  6%|▌         | 597/9678 [1:21:00<20:41:12,  8.20s/it]  6%|▌         | 598/9678 [1:21:09<21:36:29,  8.57s/it]  6%|▌         | 599/9678 [1:21:17<20:50:42,  8.27s/it]  6%|▌         | 600/9678 [1:21:26<21:29:13,  8.52s/it]                                                       {'loss': 1.637, 'grad_norm': 1.0421655178070068, 'learning_rate': 0.0004966073479418982, 'epoch': 0.06}
+  6%|▌         | 600/9678 [1:21:26<21:29:13,  8.52s/it]  6%|▌         | 601/9678 [1:21:35<21:51:01,  8.67s/it]  6%|▌         | 602/9678 [1:21:44<22:15:02,  8.83s/it]  6%|▌         | 603/9678 [1:21:52<21:36:13,  8.57s/it]  6%|▌         | 604/9678 [1:21:59<20:07:50,  7.99s/it]  6%|▋         | 605/9678 [1:22:07<20:45:25,  8.24s/it]  6%|▋         | 606/9678 [1:22:17<21:45:13,  8.63s/it]  6%|▋         | 607/9678 [1:22:25<21:31:05,  8.54s/it]  6%|▋         | 608/9678 [1:22:34<21:44:04,  8.63s/it]  6%|▋         | 609/9678 [1:22:41<20:13:15,  8.03s/it]  6%|▋         | 610/9678 [1:22:50<21:09:17,  8.40s/it]                                                       {'loss': 1.5727, 'grad_norm': 1.2786924839019775, 'learning_rate': 0.0004964714316915803, 'epoch': 0.06}
+  6%|▋         | 610/9678 [1:22:50<21:09:17,  8.40s/it]  6%|▋         | 611/9678 [1:22:57<20:04:32,  7.97s/it]  6%|▋         | 612/9678 [1:23:03<18:51:59,  7.49s/it]  6%|▋         | 613/9678 [1:23:12<19:18:25,  7.67s/it]  6%|▋         | 614/9678 [1:23:20<20:07:59,  8.00s/it]  6%|▋         | 615/9678 [1:23:28<19:44:14,  7.84s/it]  6%|▋         | 616/9678 [1:23:37<20:25:24,  8.11s/it]  6%|▋         | 617/9678 [1:23:45<20:40:01,  8.21s/it]  6%|▋         | 618/9678 [1:23:51<19:06:29,  7.59s/it]  6%|▋         | 619/9678 [1:23:59<19:14:19,  7.65s/it]  6%|▋         | 620/9678 [1:24:07<19:49:31,  7.88s/it]                                                       {'loss': 1.6056, 'grad_norm': 1.507780909538269, 'learning_rate': 0.0004963328654510877, 'epoch': 0.06}
+  6%|▋         | 620/9678 [1:24:07<19:49:31,  7.88s/it]  6%|▋         | 621/9678 [1:24:16<20:43:16,  8.24s/it]  6%|▋         | 622/9678 [1:24:25<21:13:03,  8.43s/it]  6%|▋         | 623/9678 [1:24:33<20:32:32,  8.17s/it]  6%|▋         | 624/9678 [1:24:42<21:00:40,  8.35s/it]  6%|▋         | 625/9678 [1:24:50<20:42:55,  8.24s/it]  6%|▋         | 626/9678 [1:24:57<20:11:45,  8.03s/it]  6%|▋         | 627/9678 [1:25:04<19:36:39,  7.80s/it]  6%|▋         | 628/9678 [1:25:13<19:51:40,  7.90s/it]  6%|▋         | 629/9678 [1:25:22<20:43:38,  8.25s/it]  7%|▋         | 630/9678 [1:25:29<20:16:00,  8.06s/it]                                                       {'loss': 1.5742, 'grad_norm': 1.0936928987503052, 'learning_rate': 0.0004961916507102447, 'epoch': 0.07}
+  7%|▋         | 630/9678 [1:25:29<20:16:00,  8.06s/it]  7%|▋         | 631/9678 [1:25:37<19:53:11,  7.91s/it]  7%|▋         | 632/9678 [1:25:46<20:33:30,  8.18s/it]  7%|▋         | 633/9678 [1:25:55<21:12:57,  8.44s/it]  7%|▋         | 634/9678 [1:26:04<22:04:43,  8.79s/it]  7%|▋         | 635/9678 [1:26:12<21:12:59,  8.45s/it]  7%|▋         | 636/9678 [1:26:21<21:52:57,  8.71s/it]  7%|▋         | 637/9678 [1:26:28<20:39:07,  8.22s/it]  7%|▋         | 638/9678 [1:26:36<20:23:38,  8.12s/it]  7%|▋         | 639/9678 [1:26:46<21:19:41,  8.49s/it]  7%|▋         | 640/9678 [1:26:55<21:42:09,  8.64s/it]                                                       {'loss': 1.6692, 'grad_norm': 1.2347360849380493, 'learning_rate': 0.0004960477889873517, 'epoch': 0.07}
+  7%|▋         | 640/9678 [1:26:55<21:42:09,  8.64s/it]  7%|▋         | 641/9678 [1:27:02<20:33:35,  8.19s/it]  7%|▋         | 642/9678 [1:27:08<19:30:56,  7.78s/it]  7%|▋         | 643/9678 [1:27:15<18:43:06,  7.46s/it]  7%|▋         | 644/9678 [1:27:21<17:48:48,  7.10s/it]  7%|▋         | 645/9678 [1:27:28<17:19:37,  6.91s/it]  7%|▋         | 646/9678 [1:27:37<19:17:38,  7.69s/it]  7%|▋         | 647/9678 [1:27:45<19:28:54,  7.77s/it]  7%|▋         | 648/9678 [1:27:53<19:26:39,  7.75s/it]  7%|▋         | 649/9678 [1:28:02<20:34:37,  8.20s/it]  7%|▋         | 650/9678 [1:28:10<20:07:40,  8.03s/it]                                                       {'loss': 1.6412, 'grad_norm': 1.4181699752807617, 'learning_rate': 0.0004959012818291688, 'epoch': 0.07}
+  7%|▋         | 650/9678 [1:28:10<20:07:40,  8.03s/it]  7%|▋         | 651/9678 [1:28:18<19:59:29,  7.97s/it]  7%|▋         | 652/9678 [1:28:26<20:08:46,  8.04s/it]  7%|▋         | 653/9678 [1:28:35<20:49:15,  8.31s/it]  7%|▋         | 654/9678 [1:28:44<21:17:59,  8.50s/it]  7%|▋         | 655/9678 [1:28:50<19:32:13,  7.79s/it]  7%|▋         | 656/9678 [1:29:00<21:27:42,  8.56s/it]  7%|▋         | 657/9678 [1:29:10<21:57:18,  8.76s/it]  7%|▋         | 658/9678 [1:29:18<21:37:50,  8.63s/it]  7%|▋         | 659/9678 [1:29:26<21:34:25,  8.61s/it]  7%|▋         | 660/9678 [1:29:35<21:46:47,  8.69s/it]                                                       {'loss': 1.4951, 'grad_norm': 1.3150395154953003, 'learning_rate': 0.000495752130810899, 'epoch': 0.07}
+  7%|▋         | 660/9678 [1:29:35<21:46:47,  8.69s/it]  7%|▋         | 661/9678 [1:29:43<20:36:45,  8.23s/it]  7%|▋         | 662/9678 [1:29:50<20:22:17,  8.13s/it]  7%|▋         | 663/9678 [1:29:59<20:32:34,  8.20s/it]  7%|▋         | 664/9678 [1:30:08<21:34:28,  8.62s/it]  7%|▋         | 665/9678 [1:30:18<21:57:36,  8.77s/it]  7%|▋         | 666/9678 [1:30:25<20:39:31,  8.25s/it]  7%|▋         | 667/9678 [1:30:32<19:55:27,  7.96s/it]  7%|▋         | 668/9678 [1:30:40<20:04:19,  8.02s/it]  7%|▋         | 669/9678 [1:30:49<20:45:11,  8.29s/it]  7%|▋         | 670/9678 [1:30:58<21:00:12,  8.39s/it]                                                       {'loss': 1.6635, 'grad_norm': 1.5858718156814575, 'learning_rate': 0.0004956003375361712, 'epoch': 0.07}
+  7%|▋         | 670/9678 [1:30:58<21:00:12,  8.39s/it]  7%|▋         | 671/9678 [1:31:04<19:34:13,  7.82s/it]  7%|▋         | 672/9678 [1:31:12<19:58:21,  7.98s/it]  7%|▋         | 673/9678 [1:31:19<18:53:22,  7.55s/it]  7%|▋         | 674/9678 [1:31:26<18:15:12,  7.30s/it]  7%|▋         | 675/9678 [1:31:33<18:08:52,  7.26s/it]  7%|▋         | 676/9678 [1:31:41<19:04:17,  7.63s/it]  7%|▋         | 677/9678 [1:31:48<18:38:46,  7.46s/it]  7%|▋         | 678/9678 [1:31:57<19:43:14,  7.89s/it]  7%|▋         | 679/9678 [1:32:06<20:23:36,  8.16s/it]  7%|▋         | 680/9678 [1:32:14<20:26:38,  8.18s/it]                                                       {'loss': 1.6101, 'grad_norm': 1.1488349437713623, 'learning_rate': 0.0004954459036370231, 'epoch': 0.07}
+  7%|▋         | 680/9678 [1:32:14<20:26:38,  8.18s/it]  7%|▋         | 681/9678 [1:32:22<19:45:37,  7.91s/it]  7%|▋         | 682/9678 [1:32:30<19:49:16,  7.93s/it]  7%|▋         | 683/9678 [1:32:38<19:59:40,  8.00s/it]  7%|▋         | 684/9678 [1:32:46<20:04:12,  8.03s/it]  7%|▋         | 685/9678 [1:32:54<20:09:22,  8.07s/it]  7%|▋         | 686/9678 [1:33:03<20:38:24,  8.26s/it]  7%|▋         | 687/9678 [1:33:11<20:53:00,  8.36s/it]  7%|▋         | 688/9678 [1:33:21<21:54:51,  8.78s/it]  7%|▋         | 689/9678 [1:33:29<21:13:57,  8.50s/it]  7%|▋         | 690/9678 [1:33:37<20:42:12,  8.29s/it]                                                       {'loss': 1.7019, 'grad_norm': 1.0433565378189087, 'learning_rate': 0.0004952888307738839, 'epoch': 0.07}
+  7%|▋         | 690/9678 [1:33:37<20:42:12,  8.29s/it]  7%|▋         | 691/9678 [1:33:45<20:39:37,  8.28s/it]  7%|▋         | 692/9678 [1:33:53<20:08:56,  8.07s/it]  7%|▋         | 693/9678 [1:34:01<20:17:56,  8.13s/it]  7%|▋         | 694/9678 [1:34:08<19:38:45,  7.87s/it]  7%|▋         | 695/9678 [1:34:18<20:54:46,  8.38s/it]  7%|▋         | 696/9678 [1:34:29<22:50:36,  9.16s/it]  7%|▋         | 697/9678 [1:34:35<21:05:20,  8.45s/it]  7%|▋         | 698/9678 [1:34:44<21:15:46,  8.52s/it]  7%|▋         | 699/9678 [1:34:51<20:02:16,  8.03s/it]  7%|▋         | 700/9678 [1:35:00<20:37:19,  8.27s/it]                                                       {'loss': 1.6477, 'grad_norm': 1.2093909978866577, 'learning_rate': 0.000495129120635556, 'epoch': 0.07}
+  7%|▋         | 700/9678 [1:35:00<20:37:19,  8.27s/it]  7%|▋         | 701/9678 [1:35:10<21:47:38,  8.74s/it]  7%|▋         | 702/9678 [1:35:17<21:07:58,  8.48s/it]  7%|▋         | 703/9678 [1:35:26<20:49:45,  8.35s/it]  7%|▋         | 704/9678 [1:35:32<19:09:53,  7.69s/it]  7%|▋         | 705/9678 [1:35:39<19:01:01,  7.63s/it]  7%|▋         | 706/9678 [1:35:48<19:34:37,  7.86s/it]  7%|▋         | 707/9678 [1:35:55<19:21:44,  7.77s/it]  7%|▋         | 708/9678 [1:36:03<19:11:18,  7.70s/it]  7%|▋         | 709/9678 [1:36:11<19:27:19,  7.81s/it]  7%|▋         | 710/9678 [1:36:18<18:57:10,  7.61s/it]                                                       {'loss': 1.5262, 'grad_norm': 1.1268610954284668, 'learning_rate': 0.0004949667749391967, 'epoch': 0.07}
+  7%|▋         | 710/9678 [1:36:18<18:57:10,  7.61s/it]  7%|▋         | 711/9678 [1:36:27<19:43:39,  7.92s/it]  7%|▋         | 712/9678 [1:36:36<20:37:59,  8.28s/it]  7%|▋         | 713/9678 [1:36:43<20:00:18,  8.03s/it]  7%|▋         | 714/9678 [1:36:49<18:25:32,  7.40s/it]  7%|▋         | 715/9678 [1:36:56<18:00:48,  7.24s/it]  7%|▋         | 716/9678 [1:37:04<18:40:46,  7.50s/it]  7%|▋         | 717/9678 [1:37:13<19:28:00,  7.82s/it]  7%|▋         | 718/9678 [1:37:20<19:10:16,  7.70s/it]  7%|▋         | 719/9678 [1:37:27<18:23:57,  7.39s/it]  7%|▋         | 720/9678 [1:37:34<18:11:17,  7.31s/it]                                                       {'loss': 1.7201, 'grad_norm': 1.0410875082015991, 'learning_rate': 0.0004948017954303007, 'epoch': 0.07}
+  7%|▋         | 720/9678 [1:37:34<18:11:17,  7.31s/it]  7%|▋         | 721/9678 [1:37:42<18:33:17,  7.46s/it]  7%|▋         | 722/9678 [1:37:49<18:32:47,  7.46s/it]  7%|▋         | 723/9678 [1:37:57<18:43:47,  7.53s/it]  7%|▋         | 724/9678 [1:38:03<17:41:27,  7.11s/it]  7%|▋         | 725/9678 [1:38:11<18:21:51,  7.38s/it]  8%|▊         | 726/9678 [1:38:19<18:40:54,  7.51s/it]  8%|▊         | 727/9678 [1:38:27<19:24:33,  7.81s/it]  8%|▊         | 728/9678 [1:38:35<19:09:29,  7.71s/it]  8%|▊         | 729/9678 [1:38:42<19:01:43,  7.65s/it]  8%|▊         | 730/9678 [1:38:50<19:10:07,  7.71s/it]                                                       {'loss': 1.7024, 'grad_norm': 1.5368582010269165, 'learning_rate': 0.0004946341838826803, 'epoch': 0.08}
+  8%|▊         | 730/9678 [1:38:50<19:10:07,  7.71s/it]  8%|▊         | 731/9678 [1:38:59<19:56:12,  8.02s/it]  8%|▊         | 732/9678 [1:39:07<20:21:55,  8.20s/it]  8%|▊         | 733/9678 [1:39:15<20:10:23,  8.12s/it]  8%|▊         | 734/9678 [1:39:21<18:40:18,  7.52s/it]  8%|▊         | 735/9678 [1:39:30<19:13:06,  7.74s/it]  8%|▊         | 736/9678 [1:39:38<19:33:56,  7.88s/it]  8%|▊         | 737/9678 [1:39:45<18:44:18,  7.54s/it]  8%|▊         | 738/9678 [1:39:53<19:16:35,  7.76s/it]  8%|▊         | 739/9678 [1:39:59<18:13:15,  7.34s/it]  8%|▊         | 740/9678 [1:40:08<18:55:17,  7.62s/it]                                                       {'loss': 1.4697, 'grad_norm': 0.9913454651832581, 'learning_rate': 0.0004944639420984469, 'epoch': 0.08}
+  8%|▊         | 740/9678 [1:40:08<18:55:17,  7.62s/it]  8%|▊         | 741/9678 [1:40:15<18:53:04,  7.61s/it]  8%|▊         | 742/9678 [1:40:24<19:40:04,  7.92s/it]  8%|▊         | 743/9678 [1:40:32<19:37:54,  7.91s/it]  8%|▊         | 744/9678 [1:40:38<18:41:56,  7.53s/it]  8%|▊         | 745/9678 [1:40:46<18:38:47,  7.51s/it]  8%|▊         | 746/9678 [1:40:54<19:29:59,  7.86s/it]  8%|▊         | 747/9678 [1:41:02<19:18:18,  7.78s/it]  8%|▊         | 748/9678 [1:41:11<20:26:51,  8.24s/it]  8%|▊         | 749/9678 [1:41:18<19:17:47,  7.78s/it]  8%|▊         | 750/9678 [1:41:26<19:22:04,  7.81s/it]                                                       {'loss': 1.4866, 'grad_norm': 1.1712089776992798, 'learning_rate': 0.0004942910719079912, 'epoch': 0.08}
+  8%|▊         | 750/9678 [1:41:26<19:22:04,  7.81s/it]  8%|▊         | 751/9678 [1:41:33<18:34:02,  7.49s/it]  8%|▊         | 752/9678 [1:41:41<18:47:18,  7.58s/it]  8%|▊         | 753/9678 [1:41:49<19:38:17,  7.92s/it]  8%|▊         | 754/9678 [1:41:57<19:48:18,  7.99s/it]  8%|▊         | 755/9678 [1:42:08<21:36:44,  8.72s/it]  8%|▊         | 756/9678 [1:42:15<20:49:59,  8.41s/it]  8%|▊         | 757/9678 [1:42:25<22:01:37,  8.89s/it]  8%|▊         | 758/9678 [1:42:32<20:07:16,  8.12s/it]  8%|▊         | 759/9678 [1:42:40<20:22:54,  8.23s/it]  8%|▊         | 760/9678 [1:42:48<20:21:07,  8.22s/it]                                                       {'loss': 1.6489, 'grad_norm': 1.5118815898895264, 'learning_rate': 0.0004941155751699639, 'epoch': 0.08}
+  8%|▊         | 760/9678 [1:42:48<20:21:07,  8.22s/it]  8%|▊         | 761/9678 [1:42:56<19:46:29,  7.98s/it]  8%|▊         | 762/9678 [1:43:03<19:14:48,  7.77s/it]  8%|▊         | 763/9678 [1:43:10<18:38:45,  7.53s/it]  8%|▊         | 764/9678 [1:43:19<19:24:38,  7.84s/it]  8%|▊         | 765/9678 [1:43:28<20:13:57,  8.17s/it]  8%|▊         | 766/9678 [1:43:36<20:05:39,  8.12s/it]  8%|▊         | 767/9678 [1:43:43<19:34:21,  7.91s/it]  8%|▊         | 768/9678 [1:43:50<19:05:51,  7.72s/it]  8%|▊         | 769/9678 [1:43:59<19:46:37,  7.99s/it]  8%|▊         | 770/9678 [1:44:06<18:52:45,  7.63s/it]                                                       {'loss': 1.5053, 'grad_norm': 0.9319295883178711, 'learning_rate': 0.0004939374537712558, 'epoch': 0.08}
+  8%|▊         | 770/9678 [1:44:06<18:52:45,  7.63s/it]  8%|▊         | 771/9678 [1:44:14<19:22:42,  7.83s/it]  8%|▊         | 772/9678 [1:44:22<19:37:07,  7.93s/it]  8%|▊         | 773/9678 [1:44:30<19:16:20,  7.79s/it]  8%|▊         | 774/9678 [1:44:39<20:09:54,  8.15s/it]  8%|▊         | 775/9678 [1:44:45<18:48:59,  7.61s/it]  8%|▊         | 776/9678 [1:44:52<18:22:24,  7.43s/it]  8%|▊         | 777/9678 [1:45:02<20:00:01,  8.09s/it]  8%|▊         | 778/9678 [1:45:09<19:10:34,  7.76s/it]  8%|▊         | 779/9678 [1:45:16<18:42:12,  7.57s/it]  8%|▊         | 780/9678 [1:45:25<19:33:16,  7.91s/it]                                                       {'loss': 1.6412, 'grad_norm': 2.0669829845428467, 'learning_rate': 0.0004937567096269769, 'epoch': 0.08}
+  8%|▊         | 780/9678 [1:45:25<19:33:16,  7.91s/it]  8%|▊         | 781/9678 [1:45:33<19:47:28,  8.01s/it]  8%|▊         | 782/9678 [1:45:41<20:05:25,  8.13s/it]  8%|▊         | 783/9678 [1:45:48<19:20:40,  7.83s/it]  8%|▊         | 784/9678 [1:45:57<19:45:47,  8.00s/it]  8%|▊         | 785/9678 [1:46:06<20:48:38,  8.42s/it]  8%|▊         | 786/9678 [1:46:13<19:33:54,  7.92s/it]  8%|▊         | 787/9678 [1:46:22<20:27:59,  8.29s/it]  8%|▊         | 788/9678 [1:46:29<19:19:14,  7.82s/it]  8%|▊         | 789/9678 [1:46:37<19:34:48,  7.93s/it]  8%|▊         | 790/9678 [1:46:45<19:39:55,  7.97s/it]                                                       {'loss': 1.7186, 'grad_norm': 1.876446008682251, 'learning_rate': 0.0004935733446804367, 'epoch': 0.08}
+  8%|▊         | 790/9678 [1:46:45<19:39:55,  7.97s/it]  8%|▊         | 791/9678 [1:46:53<19:27:29,  7.88s/it]  8%|▊         | 792/9678 [1:47:03<20:58:18,  8.50s/it]  8%|▊         | 793/9678 [1:47:11<20:55:47,  8.48s/it]  8%|▊         | 794/9678 [1:47:19<20:42:03,  8.39s/it]  8%|▊         | 795/9678 [1:47:27<20:32:01,  8.32s/it]  8%|▊         | 796/9678 [1:47:38<22:05:38,  8.95s/it]  8%|▊         | 797/9678 [1:47:46<21:17:45,  8.63s/it]  8%|▊         | 798/9678 [1:47:54<20:46:10,  8.42s/it]  8%|▊         | 799/9678 [1:48:04<21:59:13,  8.91s/it]  8%|▊         | 800/9678 [1:48:12<21:41:07,  8.79s/it]                                                       {'loss': 1.4197, 'grad_norm': 1.0011149644851685, 'learning_rate': 0.0004933873609031224, 'epoch': 0.08}
+  8%|▊         | 800/9678 [1:48:12<21:41:07,  8.79s/it]  8%|▊         | 801/9678 [1:48:20<20:57:17,  8.50s/it]  8%|▊         | 802/9678 [1:48:28<20:19:38,  8.24s/it]  8%|▊         | 803/9678 [1:48:36<20:37:57,  8.37s/it]  8%|▊         | 804/9678 [1:48:45<21:06:15,  8.56s/it]  8%|▊         | 805/9678 [1:48:52<19:50:20,  8.05s/it]  8%|▊         | 806/9678 [1:49:00<19:54:39,  8.08s/it]  8%|▊         | 807/9678 [1:49:09<20:27:08,  8.30s/it]  8%|▊         | 808/9678 [1:49:16<19:43:26,  8.01s/it]  8%|▊         | 809/9678 [1:49:25<20:00:48,  8.12s/it]  8%|▊         | 810/9678 [1:49:33<20:02:56,  8.14s/it]                                                       {'loss': 2.006, 'grad_norm': 84.56254577636719, 'learning_rate': 0.000493198760294678, 'epoch': 0.08}
+  8%|▊         | 810/9678 [1:49:33<20:02:56,  8.14s/it]  8%|▊         | 811/9678 [1:49:40<19:05:38,  7.75s/it]  8%|▊         | 812/9678 [1:49:48<19:35:56,  7.96s/it]  8%|▊         | 813/9678 [1:49:58<20:51:30,  8.47s/it]  8%|▊         | 814/9678 [1:50:04<19:22:47,  7.87s/it]  8%|▊         | 815/9678 [1:50:13<19:56:16,  8.10s/it]  8%|▊         | 816/9678 [1:50:19<18:40:57,  7.59s/it]  8%|▊         | 817/9678 [1:50:28<19:23:31,  7.88s/it]  8%|▊         | 818/9678 [1:50:34<17:53:48,  7.27s/it]  8%|▊         | 819/9678 [1:50:42<18:41:16,  7.59s/it]  8%|▊         | 820/9678 [1:50:51<19:21:50,  7.87s/it]                                                       {'loss': 3.6223, 'grad_norm': 9.466862678527832, 'learning_rate': 0.0004930075448828836, 'epoch': 0.08}
+  8%|▊         | 820/9678 [1:50:51<19:21:50,  7.87s/it]  8%|▊         | 821/9678 [1:50:59<19:26:42,  7.90s/it]  8%|▊         | 822/9678 [1:51:08<20:43:07,  8.42s/it]  9%|▊         | 823/9678 [1:51:17<20:47:10,  8.45s/it]  9%|▊         | 824/9678 [1:51:26<21:26:14,  8.72s/it]  9%|▊         | 825/9678 [1:51:33<19:59:56,  8.13s/it]  9%|▊         | 826/9678 [1:51:40<19:07:57,  7.78s/it]  9%|▊         | 827/9678 [1:51:49<20:15:46,  8.24s/it]  9%|▊         | 828/9678 [1:51:56<19:01:41,  7.74s/it]  9%|▊         | 829/9678 [1:52:05<20:06:52,  8.18s/it]  9%|▊         | 830/9678 [1:52:13<20:17:46,  8.26s/it]                                                       {'loss': 1.8625, 'grad_norm': 1.8478171825408936, 'learning_rate': 0.0004928137167236323, 'epoch': 0.09}
+  9%|▊         | 830/9678 [1:52:13<20:17:46,  8.26s/it]  9%|▊         | 831/9678 [1:52:20<19:22:29,  7.88s/it]  9%|▊         | 832/9678 [1:52:27<18:43:41,  7.62s/it]  9%|▊         | 833/9678 [1:52:36<19:11:00,  7.81s/it]  9%|▊         | 834/9678 [1:52:44<19:28:38,  7.93s/it]  9%|▊         | 835/9678 [1:52:51<18:46:43,  7.64s/it]  9%|▊         | 836/9678 [1:52:59<19:25:18,  7.91s/it]  9%|▊         | 837/9678 [1:53:09<20:56:34,  8.53s/it]  9%|▊         | 838/9678 [1:53:16<19:11:11,  7.81s/it]  9%|▊         | 839/9678 [1:53:23<19:05:02,  7.77s/it]  9%|▊         | 840/9678 [1:53:32<19:41:11,  8.02s/it]                                                       {'loss': 1.6312, 'grad_norm': 1.6235121488571167, 'learning_rate': 0.0004926172779009089, 'epoch': 0.09}
+  9%|▊         | 840/9678 [1:53:32<19:41:11,  8.02s/it]  9%|▊         | 841/9678 [1:53:42<21:26:32,  8.74s/it]  9%|▊         | 842/9678 [1:53:51<21:16:40,  8.67s/it]  9%|▊         | 843/9678 [1:53:59<20:59:37,  8.55s/it]  9%|▊         | 844/9678 [1:54:06<19:57:07,  8.13s/it]  9%|▊         | 845/9678 [1:54:14<20:01:35,  8.16s/it]  9%|▊         | 846/9678 [1:54:23<20:41:08,  8.43s/it]  9%|▉         | 847/9678 [1:54:36<23:56:29,  9.76s/it]  9%|▉         | 848/9678 [1:54:46<23:30:56,  9.59s/it]  9%|▉         | 849/9678 [1:54:54<22:53:20,  9.33s/it]  9%|▉         | 850/9678 [1:55:03<22:19:29,  9.10s/it]                                                       {'loss': 1.4884, 'grad_norm': 1.0582070350646973, 'learning_rate': 0.0004924182305267672, 'epoch': 0.09}
+  9%|▉         | 850/9678 [1:55:03<22:19:29,  9.10s/it]  9%|▉         | 851/9678 [1:55:12<22:19:03,  9.10s/it]  9%|▉         | 852/9678 [1:55:19<20:58:53,  8.56s/it]  9%|▉         | 853/9678 [1:55:27<20:11:06,  8.23s/it]  9%|▉         | 854/9678 [1:55:36<21:00:40,  8.57s/it]  9%|▉         | 855/9678 [1:55:44<20:45:00,  8.47s/it]  9%|▉         | 856/9678 [1:55:53<21:03:07,  8.59s/it]  9%|▉         | 857/9678 [1:56:01<20:42:56,  8.45s/it]  9%|▉         | 858/9678 [1:56:11<21:33:08,  8.80s/it]  9%|▉         | 859/9678 [1:56:19<20:51:55,  8.52s/it]  9%|▉         | 860/9678 [1:56:27<20:37:40,  8.42s/it]                                                       {'loss': 1.4772, 'grad_norm': 1.6170542240142822, 'learning_rate': 0.0004922165767413077, 'epoch': 0.09}
+  9%|▉         | 860/9678 [1:56:27<20:37:40,  8.42s/it]  9%|▉         | 861/9678 [1:56:37<21:30:39,  8.78s/it]  9%|▉         | 862/9678 [1:56:45<21:22:47,  8.73s/it]  9%|▉         | 863/9678 [1:56:53<20:40:31,  8.44s/it]  9%|▉         | 864/9678 [1:57:01<20:34:28,  8.40s/it]  9%|▉         | 865/9678 [1:57:10<20:41:35,  8.45s/it]  9%|▉         | 866/9678 [1:57:18<20:33:51,  8.40s/it]  9%|▉         | 867/9678 [1:57:27<20:48:34,  8.50s/it]  9%|▉         | 868/9678 [1:57:33<19:20:31,  7.90s/it]  9%|▉         | 869/9678 [1:57:41<19:07:20,  7.81s/it]  9%|▉         | 870/9678 [1:57:50<19:41:12,  8.05s/it]                                                       {'loss': 1.396, 'grad_norm': 1.1165497303009033, 'learning_rate': 0.0004920123187126539, 'epoch': 0.09}
+  9%|▉         | 870/9678 [1:57:50<19:41:12,  8.05s/it]  9%|▉         | 871/9678 [1:57:56<18:26:59,  7.54s/it]  9%|▉         | 872/9678 [1:58:04<18:40:43,  7.64s/it]  9%|▉         | 873/9678 [1:58:14<20:16:46,  8.29s/it]  9%|▉         | 874/9678 [1:58:21<19:29:16,  7.97s/it]  9%|▉         | 875/9678 [1:58:28<18:39:29,  7.63s/it]  9%|▉         | 876/9678 [1:58:37<19:53:22,  8.13s/it]  9%|▉         | 877/9678 [1:58:45<20:03:07,  8.20s/it]  9%|▉         | 878/9678 [1:58:53<19:52:25,  8.13s/it]  9%|▉         | 879/9678 [1:59:00<18:49:13,  7.70s/it]  9%|▉         | 880/9678 [1:59:07<18:02:46,  7.38s/it]                                                       {'loss': 1.7157, 'grad_norm': 1.5052683353424072, 'learning_rate': 0.0004918054586369299, 'epoch': 0.09}
+  9%|▉         | 880/9678 [1:59:07<18:02:46,  7.38s/it]  9%|▉         | 881/9678 [1:59:13<17:31:32,  7.17s/it]  9%|▉         | 882/9678 [1:59:21<17:56:22,  7.34s/it]  9%|▉         | 883/9678 [1:59:29<18:03:33,  7.39s/it]  9%|▉         | 884/9678 [1:59:36<18:25:37,  7.54s/it]  9%|▉         | 885/9678 [1:59:43<17:48:23,  7.29s/it]  9%|▉         | 886/9678 [1:59:51<18:21:40,  7.52s/it]  9%|▉         | 887/9678 [2:00:00<18:59:36,  7.78s/it]  9%|▉         | 888/9678 [2:00:05<17:32:30,  7.18s/it]  9%|▉         | 889/9678 [2:00:13<17:48:09,  7.29s/it]  9%|▉         | 890/9678 [2:00:20<17:26:51,  7.15s/it]                                                       {'loss': 1.5859, 'grad_norm': 1.5653349161148071, 'learning_rate': 0.0004915959987382355, 'epoch': 0.09}
+  9%|▉         | 890/9678 [2:00:20<17:26:51,  7.15s/it]  9%|▉         | 891/9678 [2:00:27<17:44:34,  7.27s/it]  9%|▉         | 892/9678 [2:00:35<18:12:21,  7.46s/it]  9%|▉         | 893/9678 [2:00:42<17:41:56,  7.25s/it]  9%|▉         | 894/9678 [2:00:50<18:07:35,  7.43s/it]  9%|▉         | 895/9678 [2:00:59<19:22:00,  7.94s/it]  9%|▉         | 896/9678 [2:01:06<18:41:23,  7.66s/it]  9%|▉         | 897/9678 [2:01:14<18:56:25,  7.77s/it]  9%|▉         | 898/9678 [2:01:21<18:22:12,  7.53s/it]  9%|▉         | 899/9678 [2:01:28<18:19:25,  7.51s/it]  9%|▉         | 900/9678 [2:01:36<18:02:00,  7.40s/it]                                                       {'loss': 1.5155, 'grad_norm': 1.4743231534957886, 'learning_rate': 0.0004913839412686238, 'epoch': 0.09}
+  9%|▉         | 900/9678 [2:01:36<18:02:00,  7.40s/it]  9%|▉         | 901/9678 [2:01:43<18:06:10,  7.43s/it]  9%|▉         | 902/9678 [2:01:50<17:26:41,  7.16s/it]  9%|▉         | 903/9678 [2:01:57<17:45:26,  7.29s/it]  9%|▉         | 904/9678 [2:02:05<18:27:33,  7.57s/it]  9%|▉         | 905/9678 [2:02:13<18:29:26,  7.59s/it]  9%|▉         | 906/9678 [2:02:20<18:21:06,  7.53s/it]  9%|▉         | 907/9678 [2:02:29<18:59:33,  7.80s/it]  9%|▉         | 908/9678 [2:02:38<20:15:48,  8.32s/it]  9%|▉         | 909/9678 [2:02:48<20:51:46,  8.57s/it]  9%|▉         | 910/9678 [2:02:55<20:00:40,  8.22s/it]                                                       {'loss': 1.6259, 'grad_norm': 1.931356430053711, 'learning_rate': 0.0004911692885080757, 'epoch': 0.09}
+  9%|▉         | 910/9678 [2:02:55<20:00:40,  8.22s/it]  9%|▉         | 911/9678 [2:03:00<17:45:41,  7.29s/it]  9%|▉         | 912/9678 [2:03:07<17:44:31,  7.29s/it]  9%|▉         | 913/9678 [2:03:14<17:33:45,  7.21s/it]  9%|▉         | 914/9678 [2:03:21<16:48:39,  6.91s/it]  9%|▉         | 915/9678 [2:03:29<17:37:02,  7.24s/it]  9%|▉         | 916/9678 [2:03:36<17:49:33,  7.32s/it]  9%|▉         | 917/9678 [2:03:44<18:36:00,  7.64s/it]  9%|▉         | 918/9678 [2:03:52<18:18:03,  7.52s/it]  9%|▉         | 919/9678 [2:04:01<19:19:33,  7.94s/it] 10%|▉         | 920/9678 [2:04:09<19:28:43,  8.01s/it]                                                       {'loss': 1.544, 'grad_norm': 1.209402322769165, 'learning_rate': 0.0004909520427644762, 'epoch': 0.1}
+ 10%|▉         | 920/9678 [2:04:09<19:28:43,  8.01s/it] 10%|▉         | 921/9678 [2:04:18<20:41:29,  8.51s/it] 10%|▉         | 922/9678 [2:04:27<20:24:20,  8.39s/it] 10%|▉         | 923/9678 [2:04:34<19:41:31,  8.10s/it] 10%|▉         | 924/9678 [2:04:44<20:48:50,  8.56s/it] 10%|▉         | 925/9678 [2:04:51<20:08:58,  8.29s/it] 10%|▉         | 926/9678 [2:04:59<19:26:39,  8.00s/it] 10%|▉         | 927/9678 [2:05:07<19:32:21,  8.04s/it] 10%|▉         | 928/9678 [2:05:13<18:32:56,  7.63s/it] 10%|▉         | 929/9678 [2:05:21<18:37:29,  7.66s/it] 10%|▉         | 930/9678 [2:05:27<16:57:14,  6.98s/it]                                                       {'loss': 1.6404, 'grad_norm': 1.3506582975387573, 'learning_rate': 0.0004907322063735895, 'epoch': 0.1}
+ 10%|▉         | 930/9678 [2:05:27<16:57:14,  6.98s/it] 10%|▉         | 931/9678 [2:05:33<16:33:38,  6.82s/it] 10%|▉         | 932/9678 [2:05:43<18:54:17,  7.78s/it] 10%|▉         | 933/9678 [2:05:50<18:28:56,  7.61s/it] 10%|▉         | 934/9678 [2:05:59<18:58:09,  7.81s/it] 10%|▉         | 935/9678 [2:06:06<18:50:08,  7.76s/it] 10%|▉         | 936/9678 [2:06:14<18:35:03,  7.65s/it] 10%|▉         | 937/9678 [2:06:23<19:33:01,  8.05s/it] 10%|▉         | 938/9678 [2:06:30<19:07:54,  7.88s/it] 10%|▉         | 939/9678 [2:06:39<20:01:05,  8.25s/it] 10%|▉         | 940/9678 [2:06:48<20:23:55,  8.40s/it]                                                       {'loss': 1.4471, 'grad_norm': 1.0187022686004639, 'learning_rate': 0.0004905097816990331, 'epoch': 0.1}
+ 10%|▉         | 940/9678 [2:06:48<20:23:55,  8.40s/it] 10%|▉         | 941/9678 [2:06:55<19:17:43,  7.95s/it] 10%|▉         | 942/9678 [2:07:03<19:36:38,  8.08s/it] 10%|▉         | 943/9678 [2:07:12<20:09:56,  8.31s/it] 10%|▉         | 944/9678 [2:07:19<19:15:13,  7.94s/it] 10%|▉         | 945/9678 [2:07:27<19:26:31,  8.01s/it] 10%|▉         | 946/9678 [2:07:34<18:29:56,  7.63s/it] 10%|▉         | 947/9678 [2:07:42<18:41:35,  7.71s/it] 10%|▉         | 948/9678 [2:07:50<19:10:25,  7.91s/it] 10%|▉         | 949/9678 [2:07:58<19:00:06,  7.84s/it] 10%|▉         | 950/9678 [2:08:05<18:43:00,  7.72s/it]                                                       {'loss': 1.5233, 'grad_norm': 1.3293033838272095, 'learning_rate': 0.0004902847711322535, 'epoch': 0.1}
+ 10%|▉         | 950/9678 [2:08:05<18:43:00,  7.72s/it] 10%|▉         | 951/9678 [2:08:13<18:37:19,  7.68s/it] 10%|▉         | 952/9678 [2:08:19<17:30:52,  7.23s/it] 10%|▉         | 953/9678 [2:08:26<17:26:07,  7.19s/it] 10%|▉         | 954/9678 [2:08:35<18:37:18,  7.68s/it] 10%|▉         | 955/9678 [2:08:43<19:07:33,  7.89s/it] 10%|▉         | 956/9678 [2:08:53<20:20:06,  8.39s/it] 10%|▉         | 957/9678 [2:09:01<19:59:07,  8.25s/it] 10%|▉         | 958/9678 [2:09:09<19:39:29,  8.12s/it] 10%|▉         | 959/9678 [2:09:17<19:32:29,  8.07s/it] 10%|▉         | 960/9678 [2:09:24<18:52:08,  7.79s/it]                                                       {'loss': 1.4875, 'grad_norm': 1.0673298835754395, 'learning_rate': 0.0004900571770924999, 'epoch': 0.1}
+ 10%|▉         | 960/9678 [2:09:24<18:52:08,  7.79s/it] 10%|▉         | 961/9678 [2:09:32<18:54:38,  7.81s/it] 10%|▉         | 962/9678 [2:09:40<19:09:39,  7.91s/it] 10%|▉         | 963/9678 [2:09:49<20:08:58,  8.32s/it] 10%|▉         | 964/9678 [2:09:56<19:24:03,  8.02s/it] 10%|▉         | 965/9678 [2:10:05<19:40:41,  8.13s/it] 10%|▉         | 966/9678 [2:10:12<18:43:27,  7.74s/it] 10%|▉         | 967/9678 [2:10:18<17:32:54,  7.25s/it] 10%|█         | 968/9678 [2:10:25<17:26:00,  7.21s/it] 10%|█         | 969/9678 [2:10:32<17:34:13,  7.26s/it] 10%|█         | 970/9678 [2:10:42<19:23:12,  8.01s/it]                                                       {'loss': 1.5143, 'grad_norm': 1.2059558629989624, 'learning_rate': 0.000489827002026798, 'epoch': 0.1}
+ 10%|█         | 970/9678 [2:10:42<19:23:12,  8.01s/it] 10%|█         | 971/9678 [2:10:50<18:59:47,  7.85s/it] 10%|█         | 972/9678 [2:10:58<19:31:15,  8.07s/it] 10%|█         | 973/9678 [2:11:06<19:39:21,  8.13s/it] 10%|█         | 974/9678 [2:11:16<20:48:52,  8.61s/it] 10%|█         | 975/9678 [2:11:24<20:32:17,  8.50s/it] 10%|█         | 976/9678 [2:11:32<20:10:35,  8.35s/it] 10%|█         | 977/9678 [2:11:41<20:27:33,  8.46s/it] 10%|█         | 978/9678 [2:11:48<19:18:57,  7.99s/it] 10%|█         | 979/9678 [2:11:57<20:21:55,  8.43s/it] 10%|█         | 980/9678 [2:12:06<20:10:00,  8.35s/it]                                                       {'loss': 1.3904, 'grad_norm': 1.5264915227890015, 'learning_rate': 0.0004895942484099241, 'epoch': 0.1}
+ 10%|█         | 980/9678 [2:12:06<20:10:00,  8.35s/it] 10%|█         | 981/9678 [2:12:14<20:31:42,  8.50s/it] 10%|█         | 982/9678 [2:12:21<19:25:03,  8.04s/it] 10%|█         | 983/9678 [2:12:29<18:54:48,  7.83s/it] 10%|█         | 984/9678 [2:12:36<18:42:11,  7.74s/it] 10%|█         | 985/9678 [2:12:45<19:26:28,  8.05s/it] 10%|█         | 986/9678 [2:12:54<19:50:32,  8.22s/it] 10%|█         | 987/9678 [2:13:01<19:23:49,  8.03s/it] 10%|█         | 988/9678 [2:13:09<19:32:16,  8.09s/it] 10%|█         | 989/9678 [2:13:18<19:44:12,  8.18s/it] 10%|█         | 990/9678 [2:13:27<20:34:19,  8.52s/it]                                                       {'loss': 1.5727, 'grad_norm': 1.055259108543396, 'learning_rate': 0.0004893589187443786, 'epoch': 0.1}
+ 10%|█         | 990/9678 [2:13:27<20:34:19,  8.52s/it] 10%|█         | 991/9678 [2:13:35<19:45:19,  8.19s/it] 10%|█         | 992/9678 [2:13:41<18:34:27,  7.70s/it] 10%|█         | 993/9678 [2:13:49<18:51:53,  7.82s/it] 10%|█         | 994/9678 [2:13:57<18:40:53,  7.74s/it] 10%|█         | 995/9678 [2:14:05<19:07:38,  7.93s/it] 10%|█         | 996/9678 [2:14:12<18:22:11,  7.62s/it] 10%|█         | 997/9678 [2:14:21<19:03:13,  7.90s/it] 10%|█         | 998/9678 [2:14:27<18:17:15,  7.58s/it] 10%|█         | 999/9678 [2:14:36<18:42:05,  7.76s/it] 10%|█         | 1000/9678 [2:14:44<18:51:16,  7.82s/it]                                                        {'loss': 1.3997, 'grad_norm': 1.3388723134994507, 'learning_rate': 0.0004891210155603585, 'epoch': 0.1}
+ 10%|█         | 1000/9678 [2:14:44<18:51:16,  7.82s/it] 10%|█         | 1001/9678 [2:14:52<19:00:36,  7.89s/it] 10%|█         | 1002/9678 [2:14:59<18:55:48,  7.85s/it] 10%|█         | 1003/9678 [2:15:08<19:33:26,  8.12s/it] 10%|█         | 1004/9678 [2:15:14<18:14:36,  7.57s/it] 10%|█         | 1005/9678 [2:15:22<18:03:49,  7.50s/it] 10%|█         | 1006/9678 [2:15:29<17:59:16,  7.47s/it] 10%|█         | 1007/9678 [2:15:38<18:47:06,  7.80s/it] 10%|█         | 1008/9678 [2:15:46<18:59:09,  7.88s/it] 10%|█         | 1009/9678 [2:15:55<19:36:11,  8.14s/it] 10%|█         | 1010/9678 [2:16:04<20:39:08,  8.58s/it]                                                        {'loss': 1.5489, 'grad_norm': 1.146324872970581, 'learning_rate': 0.0004888805414157304, 'epoch': 0.1}
+ 10%|█         | 1010/9678 [2:16:04<20:39:08,  8.58s/it] 10%|█         | 1011/9678 [2:16:12<20:00:42,  8.31s/it] 10%|█         | 1012/9678 [2:16:19<19:31:00,  8.11s/it] 10%|█         | 1013/9678 [2:16:27<19:01:08,  7.90s/it] 10%|█         | 1014/9678 [2:16:37<20:27:55,  8.50s/it] 10%|█         | 1015/9678 [2:16:44<19:33:08,  8.13s/it] 10%|█         | 1016/9678 [2:16:51<18:53:52,  7.85s/it] 11%|█         | 1017/9678 [2:17:01<20:14:04,  8.41s/it] 11%|█         | 1018/9678 [2:17:09<19:58:41,  8.31s/it] 11%|█         | 1019/9678 [2:17:14<17:40:17,  7.35s/it] 11%|█         | 1020/9678 [2:17:22<17:45:21,  7.38s/it]                                                        {'loss': 1.5821, 'grad_norm': 1.446535348892212, 'learning_rate': 0.0004886374988960036, 'epoch': 0.11}
+ 11%|█         | 1020/9678 [2:17:22<17:45:21,  7.38s/it] 11%|█         | 1021/9678 [2:17:31<19:11:13,  7.98s/it] 11%|█         | 1022/9678 [2:17:40<19:57:28,  8.30s/it] 11%|█         | 1023/9678 [2:17:48<20:03:51,  8.35s/it] 11%|█         | 1024/9678 [2:17:55<19:00:47,  7.91s/it] 11%|█         | 1025/9678 [2:18:04<19:52:42,  8.27s/it] 11%|█         | 1026/9678 [2:18:13<20:14:36,  8.42s/it] 11%|█         | 1027/9678 [2:18:22<20:14:42,  8.42s/it] 11%|█         | 1028/9678 [2:18:29<19:19:12,  8.04s/it] 11%|█         | 1029/9678 [2:18:36<18:48:05,  7.83s/it] 11%|█         | 1030/9678 [2:18:44<19:05:25,  7.95s/it]                                                        {'loss': 1.4677, 'grad_norm': 1.3649553060531616, 'learning_rate': 0.0004883918906143016, 'epoch': 0.11}
+ 11%|█         | 1030/9678 [2:18:44<19:05:25,  7.95s/it] 11%|█         | 1031/9678 [2:18:52<18:34:53,  7.74s/it] 11%|█         | 1032/9678 [2:19:00<18:47:42,  7.83s/it] 11%|█         | 1033/9678 [2:19:07<18:12:19,  7.58s/it] 11%|█         | 1034/9678 [2:19:15<19:05:20,  7.95s/it] 11%|█         | 1035/9678 [2:19:24<19:31:39,  8.13s/it] 11%|█         | 1036/9678 [2:19:31<18:29:16,  7.70s/it] 11%|█         | 1037/9678 [2:19:39<18:36:19,  7.75s/it] 11%|█         | 1038/9678 [2:19:46<18:00:44,  7.51s/it] 11%|█         | 1039/9678 [2:19:53<18:08:00,  7.56s/it] 11%|█         | 1040/9678 [2:20:01<18:11:43,  7.58s/it]                                                        {'loss': 1.4691, 'grad_norm': 1.2442352771759033, 'learning_rate': 0.00048814371921133417, 'epoch': 0.11}
+ 11%|█         | 1040/9678 [2:20:01<18:11:43,  7.58s/it] 11%|█         | 1041/9678 [2:20:10<19:18:59,  8.05s/it] 11%|█         | 1042/9678 [2:20:18<19:31:48,  8.14s/it] 11%|█         | 1043/9678 [2:20:25<18:25:04,  7.68s/it] 11%|█         | 1044/9678 [2:20:35<19:50:23,  8.27s/it] 11%|█         | 1045/9678 [2:20:42<19:32:22,  8.15s/it] 11%|█         | 1046/9678 [2:20:51<19:41:42,  8.21s/it] 11%|█         | 1047/9678 [2:21:00<20:09:23,  8.41s/it] 11%|█         | 1048/9678 [2:21:07<19:16:42,  8.04s/it] 11%|█         | 1049/9678 [2:21:14<18:45:29,  7.83s/it] 11%|█         | 1050/9678 [2:21:23<19:38:01,  8.19s/it]                                                        {'loss': 1.6451, 'grad_norm': 1.2473433017730713, 'learning_rate': 0.00048789298735536904, 'epoch': 0.11}
+ 11%|█         | 1050/9678 [2:21:23<19:38:01,  8.19s/it] 11%|█         | 1051/9678 [2:21:31<19:32:08,  8.15s/it] 11%|█         | 1052/9678 [2:21:38<18:29:57,  7.72s/it] 11%|█         | 1053/9678 [2:21:46<18:24:52,  7.69s/it] 11%|█         | 1054/9678 [2:21:54<18:41:26,  7.80s/it] 11%|█         | 1055/9678 [2:22:02<19:01:57,  7.95s/it] 11%|█         | 1056/9678 [2:22:10<19:12:40,  8.02s/it] 11%|█         | 1057/9678 [2:22:18<19:16:23,  8.05s/it] 11%|█         | 1058/9678 [2:22:26<19:11:22,  8.01s/it] 11%|█         | 1059/9678 [2:22:35<19:50:34,  8.29s/it] 11%|█         | 1060/9678 [2:22:42<19:08:07,  7.99s/it]                                                        {'loss': 1.6799, 'grad_norm': 1.7001152038574219, 'learning_rate': 0.0004876396977422033, 'epoch': 0.11}
+ 11%|█         | 1060/9678 [2:22:42<19:08:07,  7.99s/it] 11%|█         | 1061/9678 [2:22:51<19:43:01,  8.24s/it] 11%|█         | 1062/9678 [2:22:59<19:23:44,  8.10s/it] 11%|█         | 1063/9678 [2:23:08<19:44:04,  8.25s/it] 11%|█         | 1064/9678 [2:23:15<19:25:08,  8.12s/it] 11%|█         | 1065/9678 [2:23:22<18:38:00,  7.79s/it] 11%|█         | 1066/9678 [2:23:32<19:38:15,  8.21s/it] 11%|█         | 1067/9678 [2:23:39<19:10:17,  8.02s/it] 11%|█         | 1068/9678 [2:23:48<19:29:34,  8.15s/it] 11%|█         | 1069/9678 [2:23:55<18:42:05,  7.82s/it] 11%|█         | 1070/9678 [2:24:01<17:51:28,  7.47s/it]                                                        {'loss': 1.4816, 'grad_norm': 1.1802128553390503, 'learning_rate': 0.00048738385309513434, 'epoch': 0.11}
+ 11%|█         | 1070/9678 [2:24:01<17:51:28,  7.47s/it] 11%|█         | 1071/9678 [2:24:11<19:03:17,  7.97s/it] 11%|█         | 1072/9678 [2:24:19<19:13:41,  8.04s/it] 11%|█         | 1073/9678 [2:24:27<19:32:29,  8.18s/it] 11%|█         | 1074/9678 [2:24:36<19:57:00,  8.35s/it] 11%|█         | 1075/9678 [2:24:43<19:14:43,  8.05s/it] 11%|█         | 1076/9678 [2:24:51<18:45:18,  7.85s/it] 11%|█         | 1077/9678 [2:24:59<18:55:49,  7.92s/it] 11%|█         | 1078/9678 [2:25:07<18:46:05,  7.86s/it] 11%|█         | 1079/9678 [2:25:16<19:55:08,  8.34s/it] 11%|█         | 1080/9678 [2:25:25<20:26:36,  8.56s/it]                                                        {'loss': 1.681, 'grad_norm': 1.1580235958099365, 'learning_rate': 0.0004871254561649303, 'epoch': 0.11}
+ 11%|█         | 1080/9678 [2:25:25<20:26:36,  8.56s/it] 11%|█         | 1081/9678 [2:25:33<20:03:17,  8.40s/it] 11%|█         | 1082/9678 [2:25:41<19:43:58,  8.26s/it] 11%|█         | 1083/9678 [2:25:50<20:31:45,  8.60s/it] 11%|█         | 1084/9678 [2:25:59<20:12:03,  8.46s/it] 11%|█         | 1085/9678 [2:26:07<20:06:20,  8.42s/it] 11%|█         | 1086/9678 [2:26:14<19:06:13,  8.00s/it] 11%|█         | 1087/9678 [2:26:21<18:08:24,  7.60s/it] 11%|█         | 1088/9678 [2:26:28<18:06:04,  7.59s/it] 11%|█▏        | 1089/9678 [2:26:37<18:44:26,  7.85s/it] 11%|█▏        | 1090/9678 [2:26:46<20:04:09,  8.41s/it]                                                        {'loss': 1.507, 'grad_norm': 1.2179391384124756, 'learning_rate': 0.000486864509729801, 'epoch': 0.11}
+ 11%|█▏        | 1090/9678 [2:26:46<20:04:09,  8.41s/it] 11%|█▏        | 1091/9678 [2:26:54<19:29:24,  8.17s/it] 11%|█▏        | 1092/9678 [2:27:03<20:21:34,  8.54s/it] 11%|█▏        | 1093/9678 [2:27:10<19:19:38,  8.10s/it] 11%|█▏        | 1094/9678 [2:27:18<18:35:42,  7.80s/it] 11%|█▏        | 1095/9678 [2:27:25<18:41:36,  7.84s/it] 11%|█▏        | 1096/9678 [2:27:33<18:33:07,  7.78s/it] 11%|█▏        | 1097/9678 [2:27:41<18:43:54,  7.86s/it] 11%|█▏        | 1098/9678 [2:27:48<18:00:43,  7.56s/it] 11%|█▏        | 1099/9678 [2:27:55<17:56:30,  7.53s/it] 11%|█▏        | 1100/9678 [2:28:04<18:23:54,  7.72s/it]                                                        {'loss': 1.276, 'grad_norm': 1.1689331531524658, 'learning_rate': 0.00048660101659536763, 'epoch': 0.11}
+ 11%|█▏        | 1100/9678 [2:28:04<18:23:54,  7.72s/it] 11%|█▏        | 1101/9678 [2:28:11<18:03:14,  7.58s/it] 11%|█▏        | 1102/9678 [2:28:18<17:56:07,  7.53s/it] 11%|█▏        | 1103/9678 [2:28:27<18:32:51,  7.79s/it] 11%|█▏        | 1104/9678 [2:28:34<18:23:35,  7.72s/it] 11%|█▏        | 1105/9678 [2:28:42<18:28:44,  7.76s/it] 11%|█▏        | 1106/9678 [2:28:50<18:39:44,  7.84s/it] 11%|█▏        | 1107/9678 [2:28:59<19:19:41,  8.12s/it] 11%|█▏        | 1108/9678 [2:29:08<20:04:43,  8.43s/it] 11%|█▏        | 1109/9678 [2:29:14<18:20:02,  7.70s/it] 11%|█▏        | 1110/9678 [2:29:21<18:01:14,  7.57s/it]                                                        {'loss': 1.5065, 'grad_norm': 1.1789075136184692, 'learning_rate': 0.0004863349795946329, 'epoch': 0.11}
+ 11%|█▏        | 1110/9678 [2:29:21<18:01:14,  7.57s/it] 11%|█▏        | 1111/9678 [2:29:30<18:43:37,  7.87s/it] 11%|█▏        | 1112/9678 [2:29:38<18:34:04,  7.80s/it] 12%|█▏        | 1113/9678 [2:29:47<19:30:02,  8.20s/it] 12%|█▏        | 1114/9678 [2:29:56<20:01:33,  8.42s/it] 12%|█▏        | 1115/9678 [2:30:04<19:46:20,  8.31s/it] 12%|█▏        | 1116/9678 [2:30:12<19:55:32,  8.38s/it] 12%|█▏        | 1117/9678 [2:30:19<19:08:43,  8.05s/it] 12%|█▏        | 1118/9678 [2:30:28<19:35:18,  8.24s/it] 12%|█▏        | 1119/9678 [2:30:35<18:55:41,  7.96s/it] 12%|█▏        | 1120/9678 [2:30:42<18:02:44,  7.59s/it]                                                        {'loss': 1.286, 'grad_norm': 0.98433917760849, 'learning_rate': 0.00048606640158795034, 'epoch': 0.12}
+ 12%|█▏        | 1120/9678 [2:30:42<18:02:44,  7.59s/it] 12%|█▏        | 1121/9678 [2:30:50<18:32:13,  7.80s/it] 12%|█▏        | 1122/9678 [2:30:57<17:38:55,  7.43s/it] 12%|█▏        | 1123/9678 [2:31:05<18:08:35,  7.63s/it] 12%|█▏        | 1124/9678 [2:31:15<19:22:54,  8.16s/it] 12%|█▏        | 1125/9678 [2:31:22<18:35:40,  7.83s/it] 12%|█▏        | 1126/9678 [2:31:29<18:27:42,  7.77s/it] 12%|█▏        | 1127/9678 [2:31:37<18:07:47,  7.63s/it] 12%|█▏        | 1128/9678 [2:31:44<17:49:38,  7.51s/it] 12%|█▏        | 1129/9678 [2:31:52<18:16:50,  7.70s/it] 12%|█▏        | 1130/9678 [2:32:00<18:17:10,  7.70s/it]                                                        {'loss': 1.4637, 'grad_norm': 0.9510318636894226, 'learning_rate': 0.0004857952854629938, 'epoch': 0.12}
+ 12%|█▏        | 1130/9678 [2:32:00<18:17:10,  7.70s/it] 12%|█▏        | 1131/9678 [2:32:08<18:39:45,  7.86s/it] 12%|█▏        | 1132/9678 [2:32:16<18:51:10,  7.94s/it] 12%|█▏        | 1133/9678 [2:32:26<20:14:03,  8.52s/it] 12%|█▏        | 1134/9678 [2:32:34<19:44:27,  8.32s/it] 12%|█▏        | 1135/9678 [2:32:42<19:55:06,  8.39s/it] 12%|█▏        | 1136/9678 [2:32:51<20:17:03,  8.55s/it] 12%|█▏        | 1137/9678 [2:32:59<19:37:22,  8.27s/it] 12%|█▏        | 1138/9678 [2:33:06<19:02:06,  8.02s/it] 12%|█▏        | 1139/9678 [2:33:14<19:09:38,  8.08s/it] 12%|█▏        | 1140/9678 [2:33:22<19:05:25,  8.05s/it]                                                        {'loss': 1.4925, 'grad_norm': 1.0436633825302124, 'learning_rate': 0.0004855216341347259, 'epoch': 0.12}
+ 12%|█▏        | 1140/9678 [2:33:22<19:05:25,  8.05s/it] 12%|█▏        | 1141/9678 [2:33:31<19:16:05,  8.13s/it] 12%|█▏        | 1142/9678 [2:33:38<18:41:36,  7.88s/it] 12%|█▏        | 1143/9678 [2:33:45<18:19:14,  7.73s/it] 12%|█▏        | 1144/9678 [2:33:54<18:43:03,  7.90s/it] 12%|█▏        | 1145/9678 [2:34:01<18:15:42,  7.70s/it] 12%|█▏        | 1146/9678 [2:34:09<18:35:37,  7.85s/it] 12%|█▏        | 1147/9678 [2:34:17<18:24:35,  7.77s/it] 12%|█▏        | 1148/9678 [2:34:25<18:59:11,  8.01s/it] 12%|█▏        | 1149/9678 [2:34:33<19:06:50,  8.07s/it] 12%|█▏        | 1150/9678 [2:34:40<17:45:24,  7.50s/it]                                                        {'loss': 1.3586, 'grad_norm': 1.4930212497711182, 'learning_rate': 0.0004852454505453674, 'epoch': 0.12}
+ 12%|█▏        | 1150/9678 [2:34:40<17:45:24,  7.50s/it] 12%|█▏        | 1151/9678 [2:34:47<17:55:58,  7.57s/it] 12%|█▏        | 1152/9678 [2:34:56<18:24:16,  7.77s/it] 12%|█▏        | 1153/9678 [2:35:03<17:54:20,  7.56s/it] 12%|█▏        | 1154/9678 [2:35:09<17:15:42,  7.29s/it] 12%|█▏        | 1155/9678 [2:35:18<18:20:49,  7.75s/it] 12%|█▏        | 1156/9678 [2:35:26<18:11:35,  7.69s/it] 12%|█▏        | 1157/9678 [2:35:33<17:41:08,  7.47s/it] 12%|█▏        | 1158/9678 [2:35:40<17:39:30,  7.46s/it] 12%|█▏        | 1159/9678 [2:35:48<18:07:05,  7.66s/it] 12%|█▏        | 1160/9678 [2:35:56<18:19:12,  7.74s/it]                                                        {'loss': 1.5212, 'grad_norm': 0.8224968910217285, 'learning_rate': 0.00048496673766436517, 'epoch': 0.12}
+ 12%|█▏        | 1160/9678 [2:35:56<18:19:12,  7.74s/it] 12%|█▏        | 1161/9678 [2:36:06<19:34:15,  8.27s/it] 12%|█▏        | 1162/9678 [2:36:13<19:11:38,  8.11s/it] 12%|█▏        | 1163/9678 [2:36:22<19:39:14,  8.31s/it] 12%|█▏        | 1164/9678 [2:36:31<19:47:01,  8.37s/it] 12%|█▏        | 1165/9678 [2:36:38<18:47:27,  7.95s/it] 12%|█▏        | 1166/9678 [2:36:46<18:57:30,  8.02s/it] 12%|█▏        | 1167/9678 [2:36:52<17:51:37,  7.55s/it] 12%|█▏        | 1168/9678 [2:37:00<18:13:27,  7.71s/it] 12%|█▏        | 1169/9678 [2:37:10<19:37:10,  8.30s/it] 12%|█▏        | 1170/9678 [2:37:16<17:50:17,  7.55s/it]                                                        {'loss': 1.4901, 'grad_norm': 1.2815650701522827, 'learning_rate': 0.00048468549848835996, 'epoch': 0.12}
+ 12%|█▏        | 1170/9678 [2:37:16<17:50:17,  7.55s/it] 12%|█▏        | 1171/9678 [2:37:24<18:06:55,  7.67s/it] 12%|█▏        | 1172/9678 [2:37:33<19:27:00,  8.23s/it] 12%|█▏        | 1173/9678 [2:37:41<18:52:56,  7.99s/it] 12%|█▏        | 1174/9678 [2:37:48<18:38:33,  7.89s/it] 12%|█▏        | 1175/9678 [2:37:55<17:40:26,  7.48s/it] 12%|█▏        | 1176/9678 [2:38:04<18:41:13,  7.91s/it] 12%|█▏        | 1177/9678 [2:38:12<18:46:49,  7.95s/it] 12%|█▏        | 1178/9678 [2:38:19<18:06:20,  7.67s/it] 12%|█▏        | 1179/9678 [2:38:28<18:51:27,  7.99s/it] 12%|█▏        | 1180/9678 [2:38:35<18:04:21,  7.66s/it]                                                        {'loss': 1.5946, 'grad_norm': 1.2067404985427856, 'learning_rate': 0.000484401736041155, 'epoch': 0.12}
+ 12%|█▏        | 1180/9678 [2:38:35<18:04:21,  7.66s/it] 12%|█▏        | 1181/9678 [2:38:44<19:06:53,  8.10s/it] 12%|█▏        | 1182/9678 [2:38:52<19:14:55,  8.16s/it] 12%|█▏        | 1183/9678 [2:39:01<19:31:23,  8.27s/it] 12%|█▏        | 1184/9678 [2:39:08<19:04:08,  8.08s/it] 12%|█▏        | 1185/9678 [2:39:18<20:17:08,  8.60s/it] 12%|█▏        | 1186/9678 [2:39:26<19:32:01,  8.28s/it] 12%|█▏        | 1187/9678 [2:39:35<20:33:28,  8.72s/it] 12%|█▏        | 1188/9678 [2:39:41<18:46:26,  7.96s/it] 12%|█▏        | 1189/9678 [2:39:49<18:21:55,  7.79s/it] 12%|█▏        | 1190/9678 [2:39:56<18:05:48,  7.68s/it]                                                        {'loss': 1.5052, 'grad_norm': 1.530190348625183, 'learning_rate': 0.0004841154533736827, 'epoch': 0.12}
+ 12%|█▏        | 1190/9678 [2:39:56<18:05:48,  7.68s/it] 12%|█▏        | 1191/9678 [2:40:04<18:17:34,  7.76s/it] 12%|█▏        | 1192/9678 [2:40:10<17:06:27,  7.26s/it] 12%|█▏        | 1193/9678 [2:40:18<17:38:53,  7.49s/it] 12%|█▏        | 1194/9678 [2:40:26<17:31:51,  7.44s/it] 12%|█▏        | 1195/9678 [2:40:34<17:52:39,  7.59s/it] 12%|█▏        | 1196/9678 [2:40:43<19:28:40,  8.27s/it] 12%|█▏        | 1197/9678 [2:40:51<19:06:56,  8.11s/it] 12%|█▏        | 1198/9678 [2:41:00<19:31:47,  8.29s/it] 12%|█▏        | 1199/9678 [2:41:07<18:26:46,  7.83s/it] 12%|█▏        | 1200/9678 [2:41:18<20:35:23,  8.74s/it]                                                        {'loss': 1.4186, 'grad_norm': 1.2579395771026611, 'learning_rate': 0.0004838266535639722, 'epoch': 0.12}
+ 12%|█▏        | 1200/9678 [2:41:18<20:35:23,  8.74s/it] 12%|█▏        | 1201/9678 [2:41:25<20:00:37,  8.50s/it] 12%|█▏        | 1202/9678 [2:41:32<18:20:06,  7.79s/it] 12%|█▏        | 1203/9678 [2:41:39<18:21:04,  7.80s/it] 12%|█▏        | 1204/9678 [2:41:47<18:13:57,  7.75s/it] 12%|█▏        | 1205/9678 [2:41:55<18:35:54,  7.90s/it] 12%|█▏        | 1206/9678 [2:42:02<17:45:04,  7.54s/it] 12%|█▏        | 1207/9678 [2:42:10<17:44:26,  7.54s/it] 12%|█▏        | 1208/9678 [2:42:18<18:26:58,  7.84s/it] 12%|█▏        | 1209/9678 [2:42:25<17:53:34,  7.61s/it] 13%|█▎        | 1210/9678 [2:42:34<18:39:19,  7.93s/it]                                                        {'loss': 1.3459, 'grad_norm': 1.5573033094406128, 'learning_rate': 0.00048353533971711625, 'epoch': 0.13}
+ 13%|█▎        | 1210/9678 [2:42:34<18:39:19,  7.93s/it] 13%|█▎        | 1211/9678 [2:42:42<18:47:29,  7.99s/it] 13%|█▎        | 1212/9678 [2:42:49<17:56:58,  7.63s/it] 13%|█▎        | 1213/9678 [2:42:56<17:47:19,  7.57s/it] 13%|█▎        | 1214/9678 [2:43:04<18:08:38,  7.72s/it] 13%|█▎        | 1215/9678 [2:43:15<20:11:16,  8.59s/it] 13%|█▎        | 1216/9678 [2:43:23<19:58:22,  8.50s/it] 13%|█▎        | 1217/9678 [2:43:31<19:50:34,  8.44s/it] 13%|█▎        | 1218/9678 [2:43:39<19:12:56,  8.18s/it] 13%|█▎        | 1219/9678 [2:43:48<19:31:08,  8.31s/it] 13%|█▎        | 1220/9678 [2:43:57<20:05:29,  8.55s/it]                                                        {'loss': 1.4907, 'grad_norm': 1.2861477136611938, 'learning_rate': 0.0004832415149652378, 'epoch': 0.13}
+ 13%|█▎        | 1220/9678 [2:43:57<20:05:29,  8.55s/it] 13%|█▎        | 1221/9678 [2:44:07<21:34:11,  9.18s/it] 13%|█▎        | 1222/9678 [2:44:17<21:39:58,  9.22s/it] 13%|█▎        | 1223/9678 [2:44:26<21:43:43,  9.25s/it] 13%|█▎        | 1224/9678 [2:44:33<20:17:22,  8.64s/it] 13%|█▎        | 1225/9678 [2:44:40<18:39:50,  7.95s/it] 13%|█▎        | 1226/9678 [2:44:47<18:36:53,  7.93s/it] 13%|█▎        | 1227/9678 [2:44:56<18:46:56,  8.00s/it] 13%|█▎        | 1228/9678 [2:45:04<18:48:33,  8.01s/it] 13%|█▎        | 1229/9678 [2:45:11<18:08:21,  7.73s/it] 13%|█▎        | 1230/9678 [2:45:20<19:08:31,  8.16s/it]                                                        {'loss': 1.3579, 'grad_norm': 0.8996832370758057, 'learning_rate': 0.00048294518246745643, 'epoch': 0.13}
+ 13%|█▎        | 1230/9678 [2:45:20<19:08:31,  8.16s/it] 13%|█▎        | 1231/9678 [2:45:27<18:28:12,  7.87s/it] 13%|█▎        | 1232/9678 [2:45:34<17:49:28,  7.60s/it] 13%|█▎        | 1233/9678 [2:45:41<17:42:11,  7.55s/it] 13%|█▎        | 1234/9678 [2:45:50<18:18:17,  7.80s/it] 13%|█▎        | 1235/9678 [2:45:58<18:29:14,  7.88s/it] 13%|█▎        | 1236/9678 [2:46:07<19:30:31,  8.32s/it] 13%|█▎        | 1237/9678 [2:46:15<19:04:25,  8.13s/it] 13%|█▎        | 1238/9678 [2:46:22<18:07:22,  7.73s/it] 13%|█▎        | 1239/9678 [2:46:32<19:48:35,  8.45s/it] 13%|█▎        | 1240/9678 [2:46:39<18:48:11,  8.02s/it]                                                        {'loss': 1.3771, 'grad_norm': 1.4587196111679077, 'learning_rate': 0.0004826463454098542, 'epoch': 0.13}
+ 13%|█▎        | 1240/9678 [2:46:39<18:48:11,  8.02s/it] 13%|█▎        | 1241/9678 [2:46:48<19:30:45,  8.33s/it] 13%|█▎        | 1242/9678 [2:46:56<19:34:29,  8.35s/it] 13%|█▎        | 1243/9678 [2:47:04<19:01:02,  8.12s/it] 13%|█▎        | 1244/9678 [2:47:12<18:59:55,  8.11s/it] 13%|█▎        | 1245/9678 [2:47:21<19:43:11,  8.42s/it] 13%|█▎        | 1246/9678 [2:47:31<20:22:14,  8.70s/it] 13%|█▎        | 1247/9678 [2:47:39<19:57:59,  8.53s/it] 13%|█▎        | 1248/9678 [2:47:45<18:26:43,  7.88s/it] 13%|█▎        | 1249/9678 [2:47:55<19:40:03,  8.40s/it] 13%|█▎        | 1250/9678 [2:48:02<18:46:43,  8.02s/it]                                                        {'loss': 1.3366, 'grad_norm': 1.1128901243209839, 'learning_rate': 0.00048234500700544144, 'epoch': 0.13}
+ 13%|█▎        | 1250/9678 [2:48:02<18:46:43,  8.02s/it] 13%|█▎        | 1251/9678 [2:48:13<20:52:45,  8.92s/it] 13%|█▎        | 1252/9678 [2:48:21<20:14:55,  8.65s/it] 13%|█▎        | 1253/9678 [2:48:27<18:48:38,  8.04s/it] 13%|█▎        | 1254/9678 [2:48:35<18:49:52,  8.05s/it] 13%|█▎        | 1255/9678 [2:48:44<19:12:02,  8.21s/it] 13%|█▎        | 1256/9678 [2:48:51<18:34:24,  7.94s/it] 13%|█▎        | 1257/9678 [2:48:59<18:00:20,  7.70s/it] 13%|█▎        | 1258/9678 [2:49:07<18:26:43,  7.89s/it] 13%|█▎        | 1259/9678 [2:49:16<19:19:02,  8.26s/it] 13%|█▎        | 1260/9678 [2:49:22<17:52:33,  7.64s/it]                                                        {'loss': 1.3485, 'grad_norm': 1.0845853090286255, 'learning_rate': 0.0004820411704941223, 'epoch': 0.13}
+ 13%|█▎        | 1260/9678 [2:49:22<17:52:33,  7.64s/it] 13%|█▎        | 1261/9678 [2:49:31<18:25:15,  7.88s/it] 13%|█▎        | 1262/9678 [2:49:39<19:04:56,  8.16s/it] 13%|█▎        | 1263/9678 [2:49:46<17:45:12,  7.60s/it] 13%|█▎        | 1264/9678 [2:49:52<16:56:53,  7.25s/it] 13%|█▎        | 1265/9678 [2:50:01<18:11:14,  7.78s/it] 13%|█▎        | 1266/9678 [2:50:08<17:36:02,  7.53s/it] 13%|█▎        | 1267/9678 [2:50:17<18:34:25,  7.95s/it] 13%|█▎        | 1268/9678 [2:50:24<18:03:31,  7.73s/it] 13%|█▎        | 1269/9678 [2:50:32<17:47:41,  7.62s/it] 13%|█▎        | 1270/9678 [2:50:38<17:16:47,  7.40s/it]                                                        {'loss': 1.4484, 'grad_norm': 1.1594990491867065, 'learning_rate': 0.00048173483914265976, 'epoch': 0.13}
+ 13%|█▎        | 1270/9678 [2:50:38<17:16:47,  7.40s/it] 13%|█▎        | 1271/9678 [2:50:46<17:24:54,  7.46s/it] 13%|█▎        | 1272/9678 [2:50:54<17:49:20,  7.63s/it] 13%|█▎        | 1273/9678 [2:51:00<16:55:09,  7.25s/it] 13%|█▎        | 1274/9678 [2:51:11<19:28:59,  8.35s/it] 13%|█▎        | 1275/9678 [2:51:18<18:12:20,  7.80s/it] 13%|█▎        | 1276/9678 [2:51:26<18:05:34,  7.75s/it] 13%|█▎        | 1277/9678 [2:51:34<18:29:11,  7.92s/it] 13%|█▎        | 1278/9678 [2:51:41<18:02:56,  7.74s/it] 13%|█▎        | 1279/9678 [2:51:48<17:29:57,  7.50s/it] 13%|█▎        | 1280/9678 [2:51:55<17:03:15,  7.31s/it]                                                        {'loss': 1.4147, 'grad_norm': 1.2621511220932007, 'learning_rate': 0.0004814260162446408, 'epoch': 0.13}
+ 13%|█▎        | 1280/9678 [2:51:55<17:03:15,  7.31s/it] 13%|█▎        | 1281/9678 [2:52:04<18:34:28,  7.96s/it] 13%|█▎        | 1282/9678 [2:52:13<19:12:07,  8.23s/it] 13%|█▎        | 1283/9678 [2:52:24<20:47:00,  8.91s/it] 13%|█▎        | 1284/9678 [2:52:32<20:05:48,  8.62s/it] 13%|█▎        | 1285/9678 [2:52:40<20:08:54,  8.64s/it] 13%|█▎        | 1286/9678 [2:52:48<19:34:33,  8.40s/it] 13%|█▎        | 1287/9678 [2:52:56<18:48:59,  8.07s/it] 13%|█▎        | 1288/9678 [2:53:02<17:46:43,  7.63s/it] 13%|█▎        | 1289/9678 [2:53:09<17:07:16,  7.35s/it] 13%|█▎        | 1290/9678 [2:53:17<17:47:07,  7.63s/it]                                                        {'loss': 1.3724, 'grad_norm': 1.6021978855133057, 'learning_rate': 0.00048111470512044065, 'epoch': 0.13}
+ 13%|█▎        | 1290/9678 [2:53:17<17:47:07,  7.63s/it] 13%|█▎        | 1291/9678 [2:53:25<18:10:22,  7.80s/it] 13%|█▎        | 1292/9678 [2:53:31<16:28:40,  7.07s/it] 13%|█▎        | 1293/9678 [2:53:38<16:25:47,  7.05s/it] 13%|█▎        | 1294/9678 [2:53:45<16:27:47,  7.07s/it] 13%|█▎        | 1295/9678 [2:53:53<17:00:30,  7.30s/it] 13%|█▎        | 1296/9678 [2:54:02<18:20:47,  7.88s/it] 13%|█▎        | 1297/9678 [2:54:10<18:34:47,  7.98s/it] 13%|█▎        | 1298/9678 [2:54:18<18:16:12,  7.85s/it] 13%|█▎        | 1299/9678 [2:54:27<19:05:14,  8.20s/it] 13%|█▎        | 1300/9678 [2:54:35<19:05:36,  8.20s/it]                                                        {'loss': 1.3844, 'grad_norm': 1.3557963371276855, 'learning_rate': 0.0004808009091171873, 'epoch': 0.13}
+ 13%|█▎        | 1300/9678 [2:54:35<19:05:36,  8.20s/it] 13%|█▎        | 1301/9678 [2:54:43<19:03:12,  8.19s/it] 13%|█▎        | 1302/9678 [2:54:52<19:18:48,  8.30s/it] 13%|█▎        | 1303/9678 [2:54:59<18:57:52,  8.15s/it] 13%|█▎        | 1304/9678 [2:55:06<18:04:21,  7.77s/it] 13%|█▎        | 1305/9678 [2:55:15<18:51:40,  8.11s/it] 13%|█▎        | 1306/9678 [2:55:24<18:58:36,  8.16s/it] 14%|█▎        | 1307/9678 [2:55:31<18:32:45,  7.98s/it] 14%|█▎        | 1308/9678 [2:55:37<17:27:42,  7.51s/it] 14%|█▎        | 1309/9678 [2:55:46<18:18:42,  7.88s/it] 14%|█▎        | 1310/9678 [2:55:56<19:30:30,  8.39s/it]                                                        {'loss': 1.2895, 'grad_norm': 1.341562271118164, 'learning_rate': 0.0004804846316087254, 'epoch': 0.14}
+ 14%|█▎        | 1310/9678 [2:55:56<19:30:30,  8.39s/it] 14%|█▎        | 1311/9678 [2:56:02<18:15:06,  7.85s/it] 14%|█▎        | 1312/9678 [2:56:08<16:44:08,  7.20s/it] 14%|█▎        | 1313/9678 [2:56:16<17:15:33,  7.43s/it] 14%|█▎        | 1314/9678 [2:56:24<17:35:09,  7.57s/it] 14%|█▎        | 1315/9678 [2:56:32<17:52:15,  7.69s/it] 14%|█▎        | 1316/9678 [2:56:40<17:57:11,  7.73s/it] 14%|█▎        | 1317/9678 [2:56:47<17:40:16,  7.61s/it] 14%|█▎        | 1318/9678 [2:56:53<16:31:59,  7.12s/it] 14%|█▎        | 1319/9678 [2:57:02<17:32:18,  7.55s/it] 14%|█▎        | 1320/9678 [2:57:10<18:07:36,  7.81s/it]                                                        {'loss': 1.3963, 'grad_norm': 1.1911447048187256, 'learning_rate': 0.00048016587599557996, 'epoch': 0.14}
+ 14%|█▎        | 1320/9678 [2:57:10<18:07:36,  7.81s/it] 14%|█▎        | 1321/9678 [2:57:21<20:07:02,  8.67s/it] 14%|█▎        | 1322/9678 [2:57:28<19:13:33,  8.28s/it] 14%|█▎        | 1323/9678 [2:57:34<17:28:24,  7.53s/it] 14%|█▎        | 1324/9678 [2:57:45<20:07:49,  8.67s/it] 14%|█▎        | 1325/9678 [2:57:54<19:54:15,  8.58s/it] 14%|█▎        | 1326/9678 [2:58:01<19:02:36,  8.21s/it] 14%|█▎        | 1327/9678 [2:58:09<19:06:37,  8.24s/it] 14%|█▎        | 1328/9678 [2:58:18<19:19:44,  8.33s/it] 14%|█▎        | 1329/9678 [2:58:26<19:11:41,  8.28s/it] 14%|█▎        | 1330/9678 [2:58:34<18:53:48,  8.15s/it]                                                        {'loss': 1.3621, 'grad_norm': 1.0620297193527222, 'learning_rate': 0.0004798446457049201, 'epoch': 0.14}
+ 14%|█▎        | 1330/9678 [2:58:34<18:53:48,  8.15s/it] 14%|█▍        | 1331/9678 [2:58:40<17:44:56,  7.66s/it] 14%|█▍        | 1332/9678 [2:58:49<18:44:19,  8.08s/it] 14%|█▍        | 1333/9678 [2:58:57<18:24:08,  7.94s/it] 14%|█▍        | 1334/9678 [2:59:04<17:46:12,  7.67s/it] 14%|█▍        | 1335/9678 [2:59:13<19:03:26,  8.22s/it] 14%|█▍        | 1336/9678 [2:59:22<19:01:17,  8.21s/it] 14%|█▍        | 1337/9678 [2:59:29<18:38:19,  8.04s/it] 14%|█▍        | 1338/9678 [2:59:38<18:48:37,  8.12s/it] 14%|█▍        | 1339/9678 [2:59:46<18:59:36,  8.20s/it] 14%|█▍        | 1340/9678 [2:59:55<19:17:44,  8.33s/it]                                                        {'loss': 1.3658, 'grad_norm': 1.1608030796051025, 'learning_rate': 0.0004795209441905217, 'epoch': 0.14}
+ 14%|█▍        | 1340/9678 [2:59:55<19:17:44,  8.33s/it] 14%|█▍        | 1341/9678 [3:00:02<18:38:55,  8.05s/it] 14%|█▍        | 1342/9678 [3:00:09<18:11:13,  7.85s/it] 14%|█▍        | 1343/9678 [3:00:16<17:35:11,  7.60s/it] 14%|█▍        | 1344/9678 [3:00:24<17:35:33,  7.60s/it] 14%|█▍        | 1345/9678 [3:00:32<18:01:50,  7.79s/it] 14%|█▍        | 1346/9678 [3:00:39<17:30:20,  7.56s/it] 14%|█▍        | 1347/9678 [3:00:48<18:10:15,  7.85s/it] 14%|█▍        | 1348/9678 [3:00:55<17:54:40,  7.74s/it] 14%|█▍        | 1349/9678 [3:01:04<18:13:52,  7.88s/it] 14%|█▍        | 1350/9678 [3:01:11<18:08:55,  7.85s/it]                                                        {'loss': 1.3683, 'grad_norm': 1.5855592489242554, 'learning_rate': 0.0004791947749327308, 'epoch': 0.14}
+ 14%|█▍        | 1350/9678 [3:01:11<18:08:55,  7.85s/it] 14%|█▍        | 1351/9678 [3:01:20<19:04:57,  8.25s/it] 14%|█▍        | 1352/9678 [3:01:29<18:56:55,  8.19s/it] 14%|█▍        | 1353/9678 [3:01:37<18:58:37,  8.21s/it] 14%|█▍        | 1354/9678 [3:01:44<18:14:55,  7.89s/it] 14%|█▍        | 1355/9678 [3:01:51<17:42:18,  7.66s/it] 14%|█▍        | 1356/9678 [3:01:59<17:41:40,  7.65s/it] 14%|█▍        | 1357/9678 [3:02:06<17:09:11,  7.42s/it] 14%|█▍        | 1358/9678 [3:02:14<17:40:23,  7.65s/it] 14%|█▍        | 1359/9678 [3:02:22<18:25:05,  7.97s/it] 14%|█▍        | 1360/9678 [3:02:31<18:37:20,  8.06s/it]                                                        {'loss': 1.3186, 'grad_norm': 1.5676512718200684, 'learning_rate': 0.0004788661414384255, 'epoch': 0.14}
+ 14%|█▍        | 1360/9678 [3:02:31<18:37:20,  8.06s/it] 14%|█▍        | 1361/9678 [3:02:40<19:20:03,  8.37s/it] 14%|█▍        | 1362/9678 [3:02:46<18:03:49,  7.82s/it] 14%|█▍        | 1363/9678 [3:02:56<19:10:42,  8.30s/it] 14%|█▍        | 1364/9678 [3:03:04<18:59:27,  8.22s/it] 14%|█▍        | 1365/9678 [3:03:13<19:36:51,  8.49s/it] 14%|█▍        | 1366/9678 [3:03:21<19:06:39,  8.28s/it] 14%|█▍        | 1367/9678 [3:03:29<19:17:49,  8.36s/it] 14%|█▍        | 1368/9678 [3:03:36<18:25:08,  7.98s/it] 14%|█▍        | 1369/9678 [3:03:44<18:24:23,  7.97s/it] 14%|█▍        | 1370/9678 [3:03:53<18:38:50,  8.08s/it]                                                        {'loss': 1.3231, 'grad_norm': 1.149056315422058, 'learning_rate': 0.0004785350472409792, 'epoch': 0.14}
+ 14%|█▍        | 1370/9678 [3:03:53<18:38:50,  8.08s/it] 14%|█▍        | 1371/9678 [3:04:02<19:29:54,  8.45s/it] 14%|█▍        | 1372/9678 [3:04:10<18:53:09,  8.19s/it] 14%|█▍        | 1373/9678 [3:04:17<18:25:49,  7.99s/it] 14%|█▍        | 1374/9678 [3:04:25<18:26:34,  8.00s/it] 14%|█▍        | 1375/9678 [3:04:32<17:59:49,  7.80s/it] 14%|█▍        | 1376/9678 [3:04:43<19:40:20,  8.53s/it] 14%|█▍        | 1377/9678 [3:04:52<20:33:14,  8.91s/it] 14%|█▍        | 1378/9678 [3:05:00<19:17:59,  8.37s/it] 14%|█▍        | 1379/9678 [3:05:07<18:31:49,  8.04s/it] 14%|█▍        | 1380/9678 [3:05:14<17:51:53,  7.75s/it]                                                        {'loss': 1.2976, 'grad_norm': 0.9153057336807251, 'learning_rate': 0.00047820149590022153, 'epoch': 0.14}
+ 14%|█▍        | 1380/9678 [3:05:14<17:51:53,  7.75s/it] 14%|█▍        | 1381/9678 [3:05:24<19:11:06,  8.32s/it] 14%|█▍        | 1382/9678 [3:05:32<19:22:48,  8.41s/it] 14%|█▍        | 1383/9678 [3:05:40<18:38:39,  8.09s/it] 14%|█▍        | 1384/9678 [3:05:46<17:39:37,  7.67s/it] 14%|█▍        | 1385/9678 [3:05:55<18:16:18,  7.93s/it] 14%|█▍        | 1386/9678 [3:06:02<18:02:22,  7.83s/it] 14%|█▍        | 1387/9678 [3:06:12<19:25:19,  8.43s/it] 14%|█▍        | 1388/9678 [3:06:19<18:10:52,  7.90s/it] 14%|█▍        | 1389/9678 [3:06:27<18:22:57,  7.98s/it] 14%|█▍        | 1390/9678 [3:06:35<18:03:36,  7.84s/it]                                                        {'loss': 1.4205, 'grad_norm': 1.2601430416107178, 'learning_rate': 0.00047786549100240107, 'epoch': 0.14}
+ 14%|█▍        | 1390/9678 [3:06:35<18:03:36,  7.84s/it] 14%|█▍        | 1391/9678 [3:06:42<18:02:45,  7.84s/it] 14%|█▍        | 1392/9678 [3:06:51<18:34:19,  8.07s/it] 14%|█▍        | 1393/9678 [3:06:59<18:12:11,  7.91s/it] 14%|█▍        | 1394/9678 [3:07:05<17:16:29,  7.51s/it] 14%|█▍        | 1395/9678 [3:07:14<18:10:49,  7.90s/it] 14%|█▍        | 1396/9678 [3:07:22<18:31:36,  8.05s/it] 14%|█▍        | 1397/9678 [3:07:30<18:31:10,  8.05s/it] 14%|█▍        | 1398/9678 [3:07:38<18:27:14,  8.02s/it] 14%|█▍        | 1399/9678 [3:07:46<17:59:29,  7.82s/it] 14%|█▍        | 1400/9678 [3:07:54<18:08:31,  7.89s/it]                                                        {'loss': 1.3192, 'grad_norm': 1.2112687826156616, 'learning_rate': 0.0004775270361601461, 'epoch': 0.14}
+ 14%|█▍        | 1400/9678 [3:07:54<18:08:31,  7.89s/it] 14%|█▍        | 1401/9678 [3:08:00<17:07:54,  7.45s/it] 14%|█▍        | 1402/9678 [3:08:07<16:36:09,  7.22s/it] 14%|█▍        | 1403/9678 [3:08:17<18:27:09,  8.03s/it] 15%|█▍        | 1404/9678 [3:08:25<18:23:10,  8.00s/it] 15%|█▍        | 1405/9678 [3:08:33<18:31:19,  8.06s/it] 15%|█▍        | 1406/9678 [3:08:41<18:19:49,  7.98s/it] 15%|█▍        | 1407/9678 [3:08:47<17:24:51,  7.58s/it] 15%|█▍        | 1408/9678 [3:08:56<18:01:12,  7.84s/it] 15%|█▍        | 1409/9678 [3:09:05<18:44:11,  8.16s/it] 15%|█▍        | 1410/9678 [3:09:14<19:24:38,  8.45s/it]                                                        {'loss': 1.355, 'grad_norm': 1.1192986965179443, 'learning_rate': 0.00047718613501242604, 'epoch': 0.15}
+ 15%|█▍        | 1410/9678 [3:09:14<19:24:38,  8.45s/it] 15%|█▍        | 1411/9678 [3:09:22<19:15:12,  8.38s/it] 15%|█▍        | 1412/9678 [3:09:30<18:57:39,  8.26s/it] 15%|█▍        | 1413/9678 [3:09:39<19:25:29,  8.46s/it] 15%|█▍        | 1414/9678 [3:09:48<19:45:33,  8.61s/it] 15%|█▍        | 1415/9678 [3:09:55<18:35:06,  8.10s/it] 15%|█▍        | 1416/9678 [3:10:03<18:48:04,  8.19s/it] 15%|█▍        | 1417/9678 [3:10:12<18:57:24,  8.26s/it] 15%|█▍        | 1418/9678 [3:10:20<19:05:28,  8.32s/it] 15%|█▍        | 1419/9678 [3:10:27<18:17:41,  7.97s/it] 15%|█▍        | 1420/9678 [3:10:34<17:32:44,  7.65s/it]                                                        {'loss': 1.3638, 'grad_norm': 1.2099722623825073, 'learning_rate': 0.00047684279122451223, 'epoch': 0.15}
+ 15%|█▍        | 1420/9678 [3:10:34<17:32:44,  7.65s/it] 15%|█▍        | 1421/9678 [3:10:41<16:54:40,  7.37s/it] 15%|█▍        | 1422/9678 [3:10:48<16:44:13,  7.30s/it] 15%|█▍        | 1423/9678 [3:10:56<17:22:49,  7.58s/it] 15%|█▍        | 1424/9678 [3:11:02<16:00:32,  6.98s/it] 15%|█▍        | 1425/9678 [3:11:10<16:55:33,  7.38s/it] 15%|█▍        | 1426/9678 [3:11:17<16:44:19,  7.30s/it] 15%|█▍        | 1427/9678 [3:11:25<17:04:15,  7.45s/it] 15%|█▍        | 1428/9678 [3:11:33<17:33:48,  7.66s/it] 15%|█▍        | 1429/9678 [3:11:41<17:35:11,  7.68s/it] 15%|█▍        | 1430/9678 [3:11:53<20:43:38,  9.05s/it]                                                        {'loss': 1.331, 'grad_norm': 1.124934434890747, 'learning_rate': 0.00047649700848793886, 'epoch': 0.15}
+ 15%|█▍        | 1430/9678 [3:11:53<20:43:38,  9.05s/it] 15%|█▍        | 1431/9678 [3:12:00<18:56:48,  8.27s/it] 15%|█▍        | 1432/9678 [3:12:07<18:17:07,  7.98s/it] 15%|█▍        | 1433/9678 [3:12:14<17:56:56,  7.84s/it] 15%|█▍        | 1434/9678 [3:12:23<18:36:29,  8.13s/it] 15%|█▍        | 1435/9678 [3:12:31<18:21:52,  8.02s/it] 15%|█▍        | 1436/9678 [3:12:40<19:04:36,  8.33s/it] 15%|█▍        | 1437/9678 [3:12:47<18:22:34,  8.03s/it] 15%|█▍        | 1438/9678 [3:12:56<18:30:56,  8.09s/it] 15%|█▍        | 1439/9678 [3:13:03<18:07:07,  7.92s/it] 15%|█▍        | 1440/9678 [3:13:11<17:47:08,  7.77s/it]                                                        {'loss': 1.5308, 'grad_norm': 1.2407630681991577, 'learning_rate': 0.00047614879052046254, 'epoch': 0.15}
+ 15%|█▍        | 1440/9678 [3:13:11<17:47:08,  7.77s/it] 15%|█▍        | 1441/9678 [3:13:18<17:32:46,  7.67s/it] 15%|█▍        | 1442/9678 [3:13:25<17:13:21,  7.53s/it] 15%|█▍        | 1443/9678 [3:13:33<17:38:33,  7.71s/it] 15%|█▍        | 1444/9678 [3:13:43<19:12:58,  8.40s/it] 15%|█▍        | 1445/9678 [3:13:51<18:56:22,  8.28s/it] 15%|█▍        | 1446/9678 [3:13:59<18:44:01,  8.19s/it] 15%|█▍        | 1447/9678 [3:14:07<18:24:54,  8.05s/it] 15%|█▍        | 1448/9678 [3:14:15<18:29:48,  8.09s/it] 15%|█▍        | 1449/9678 [3:14:23<18:07:50,  7.93s/it] 15%|█▍        | 1450/9678 [3:14:30<17:30:18,  7.66s/it]                                                        {'loss': 1.3365, 'grad_norm': 1.2991951704025269, 'learning_rate': 0.00047579814106602316, 'epoch': 0.15}
+ 15%|█▍        | 1450/9678 [3:14:30<17:30:18,  7.66s/it] 15%|█▍        | 1451/9678 [3:14:38<18:00:33,  7.88s/it] 15%|█▌        | 1452/9678 [3:14:47<18:47:01,  8.22s/it] 15%|█▌        | 1453/9678 [3:14:53<17:17:29,  7.57s/it] 15%|█▌        | 1454/9678 [3:15:01<17:37:10,  7.71s/it] 15%|█▌        | 1455/9678 [3:15:09<17:37:41,  7.72s/it] 15%|█▌        | 1456/9678 [3:15:17<17:29:08,  7.66s/it] 15%|█▌        | 1457/9678 [3:15:23<16:52:01,  7.39s/it] 15%|█▌        | 1458/9678 [3:15:31<17:23:12,  7.61s/it] 15%|█▌        | 1459/9678 [3:15:42<19:15:07,  8.43s/it] 15%|█▌        | 1460/9678 [3:15:50<19:12:38,  8.42s/it]                                                        {'loss': 1.3209, 'grad_norm': 1.3195995092391968, 'learning_rate': 0.0004754450638947032, 'epoch': 0.15}
+ 15%|█▌        | 1460/9678 [3:15:50<19:12:38,  8.42s/it] 15%|█▌        | 1461/9678 [3:15:59<19:49:10,  8.68s/it] 15%|█▌        | 1462/9678 [3:16:10<20:49:25,  9.12s/it] 15%|█▌        | 1463/9678 [3:16:19<20:40:35,  9.06s/it] 15%|█▌        | 1464/9678 [3:16:26<19:51:59,  8.71s/it] 15%|█▌        | 1465/9678 [3:16:33<18:31:53,  8.12s/it] 15%|█▌        | 1466/9678 [3:16:41<18:19:32,  8.03s/it] 15%|█▌        | 1467/9678 [3:16:50<19:12:25,  8.42s/it] 15%|█▌        | 1468/9678 [3:16:58<18:48:39,  8.25s/it] 15%|█▌        | 1469/9678 [3:17:05<17:50:19,  7.82s/it] 15%|█▌        | 1470/9678 [3:17:11<16:50:36,  7.39s/it]                                                        {'loss': 1.4705, 'grad_norm': 1.4838430881500244, 'learning_rate': 0.000475089562802687, 'epoch': 0.15}
+ 15%|█▌        | 1470/9678 [3:17:11<16:50:36,  7.39s/it] 15%|█▌        | 1471/9678 [3:17:18<16:24:24,  7.20s/it] 15%|█▌        | 1472/9678 [3:17:27<17:31:17,  7.69s/it] 15%|█▌        | 1473/9678 [3:17:35<17:29:38,  7.68s/it] 15%|█▌        | 1474/9678 [3:17:45<19:19:20,  8.48s/it] 15%|█▌        | 1475/9678 [3:17:52<18:33:58,  8.15s/it] 15%|█▌        | 1476/9678 [3:18:00<18:02:49,  7.92s/it] 15%|█▌        | 1477/9678 [3:18:08<18:33:14,  8.14s/it] 15%|█▌        | 1478/9678 [3:18:17<18:59:42,  8.34s/it] 15%|█▌        | 1479/9678 [3:18:25<18:53:07,  8.29s/it] 15%|█▌        | 1480/9678 [3:18:34<18:52:45,  8.29s/it]                                                        {'loss': 1.3316, 'grad_norm': 1.126265287399292, 'learning_rate': 0.0004747316416122205, 'epoch': 0.15}
+ 15%|█▌        | 1480/9678 [3:18:34<18:52:45,  8.29s/it] 15%|█▌        | 1481/9678 [3:18:41<18:02:13,  7.92s/it] 15%|█▌        | 1482/9678 [3:18:48<17:51:16,  7.84s/it] 15%|█▌        | 1483/9678 [3:18:57<18:28:58,  8.12s/it] 15%|█▌        | 1484/9678 [3:19:04<17:46:25,  7.81s/it] 15%|█▌        | 1485/9678 [3:19:12<17:41:30,  7.77s/it] 15%|█▌        | 1486/9678 [3:19:19<17:27:46,  7.67s/it] 15%|█▌        | 1487/9678 [3:19:29<18:30:49,  8.14s/it] 15%|█▌        | 1488/9678 [3:19:36<18:02:54,  7.93s/it] 15%|█▌        | 1489/9678 [3:19:42<17:00:27,  7.48s/it] 15%|█▌        | 1490/9678 [3:19:50<16:51:24,  7.41s/it]                                                        {'loss': 1.4045, 'grad_norm': 1.0109881162643433, 'learning_rate': 0.00047437130417156973, 'epoch': 0.15}
+ 15%|█▌        | 1490/9678 [3:19:50<16:51:24,  7.41s/it] 15%|█▌        | 1491/9678 [3:19:58<17:10:24,  7.55s/it] 15%|█▌        | 1492/9678 [3:20:05<17:13:44,  7.58s/it] 15%|█▌        | 1493/9678 [3:20:14<17:55:21,  7.88s/it] 15%|█▌        | 1494/9678 [3:20:23<18:40:11,  8.21s/it] 15%|█▌        | 1495/9678 [3:20:30<18:17:03,  8.04s/it] 15%|█▌        | 1496/9678 [3:20:40<19:06:36,  8.41s/it] 15%|█▌        | 1497/9678 [3:20:46<17:38:40,  7.76s/it] 15%|█▌        | 1498/9678 [3:20:53<17:16:51,  7.61s/it] 15%|█▌        | 1499/9678 [3:21:01<17:37:53,  7.76s/it] 15%|█▌        | 1500/9678 [3:21:09<17:21:57,  7.64s/it]                                                        {'loss': 1.3058, 'grad_norm': 0.8355922698974609, 'learning_rate': 0.00047400855435497945, 'epoch': 0.15}
+ 15%|█▌        | 1500/9678 [3:21:09<17:21:57,  7.64s/it] 16%|█▌        | 1501/9678 [3:21:19<18:55:11,  8.33s/it] 16%|█▌        | 1502/9678 [3:21:26<17:55:03,  7.89s/it] 16%|█▌        | 1503/9678 [3:21:33<17:34:54,  7.74s/it] 16%|█▌        | 1504/9678 [3:21:40<17:14:06,  7.59s/it] 16%|█▌        | 1505/9678 [3:21:47<16:38:20,  7.33s/it] 16%|█▌        | 1506/9678 [3:21:56<17:49:34,  7.85s/it] 16%|█▌        | 1507/9678 [3:22:05<18:27:43,  8.13s/it] 16%|█▌        | 1508/9678 [3:22:12<17:35:13,  7.75s/it] 16%|█▌        | 1509/9678 [3:22:23<20:11:37,  8.90s/it] 16%|█▌        | 1510/9678 [3:22:30<19:06:15,  8.42s/it]                                                        {'loss': 1.2732, 'grad_norm': 1.406782865524292, 'learning_rate': 0.00047364339606263185, 'epoch': 0.16}
+ 16%|█▌        | 1510/9678 [3:22:30<19:06:15,  8.42s/it] 16%|█▌        | 1511/9678 [3:22:38<18:30:49,  8.16s/it] 16%|█▌        | 1512/9678 [3:22:45<17:23:18,  7.67s/it] 16%|█▌        | 1513/9678 [3:22:52<17:33:33,  7.74s/it] 16%|█▌        | 1514/9678 [3:23:00<17:26:56,  7.69s/it] 16%|█▌        | 1515/9678 [3:23:07<16:52:54,  7.45s/it] 16%|█▌        | 1516/9678 [3:23:16<17:54:07,  7.90s/it] 16%|█▌        | 1517/9678 [3:23:23<17:30:17,  7.72s/it] 16%|█▌        | 1518/9678 [3:23:33<18:47:48,  8.29s/it] 16%|█▌        | 1519/9678 [3:23:41<18:57:22,  8.36s/it] 16%|█▌        | 1520/9678 [3:23:48<17:31:21,  7.73s/it]                                                        {'loss': 1.3472, 'grad_norm': 0.9180629849433899, 'learning_rate': 0.00047327583322060406, 'epoch': 0.16}
+ 16%|█▌        | 1520/9678 [3:23:48<17:31:21,  7.73s/it] 16%|█▌        | 1521/9678 [3:23:53<15:52:54,  7.01s/it] 16%|█▌        | 1522/9678 [3:24:00<15:59:07,  7.06s/it] 16%|█▌        | 1523/9678 [3:24:09<17:19:37,  7.65s/it] 16%|█▌        | 1524/9678 [3:24:17<17:25:36,  7.69s/it] 16%|█▌        | 1525/9678 [3:24:27<19:10:44,  8.47s/it] 16%|█▌        | 1526/9678 [3:24:34<17:59:24,  7.94s/it] 16%|█▌        | 1527/9678 [3:24:43<19:05:16,  8.43s/it] 16%|█▌        | 1528/9678 [3:24:52<19:07:14,  8.45s/it] 16%|█▌        | 1529/9678 [3:24:59<18:09:15,  8.02s/it] 16%|█▌        | 1530/9678 [3:25:07<18:14:50,  8.06s/it]                                                        {'loss': 1.4165, 'grad_norm': 1.1642565727233887, 'learning_rate': 0.00047290586978082654, 'epoch': 0.16}
+ 16%|█▌        | 1530/9678 [3:25:07<18:14:50,  8.06s/it] 16%|█▌        | 1531/9678 [3:25:14<17:26:49,  7.71s/it] 16%|█▌        | 1532/9678 [3:25:24<18:39:49,  8.25s/it] 16%|█▌        | 1533/9678 [3:25:34<20:00:00,  8.84s/it] 16%|█▌        | 1534/9678 [3:25:42<19:46:16,  8.74s/it] 16%|█▌        | 1535/9678 [3:25:49<18:38:08,  8.24s/it] 16%|█▌        | 1536/9678 [3:25:55<17:13:59,  7.62s/it] 16%|█▌        | 1537/9678 [3:26:05<18:21:07,  8.12s/it] 16%|█▌        | 1538/9678 [3:26:13<18:24:59,  8.14s/it] 16%|█▌        | 1539/9678 [3:26:21<18:19:20,  8.10s/it] 16%|█▌        | 1540/9678 [3:26:27<16:48:59,  7.44s/it]                                                        {'loss': 1.5038, 'grad_norm': 1.6167621612548828, 'learning_rate': 0.00047253350972104003, 'epoch': 0.16}
+ 16%|█▌        | 1540/9678 [3:26:27<16:48:59,  7.44s/it] 16%|█▌        | 1541/9678 [3:26:35<17:01:06,  7.53s/it] 16%|█▌        | 1542/9678 [3:26:44<18:10:11,  8.04s/it] 16%|█▌        | 1543/9678 [3:26:52<18:02:09,  7.98s/it] 16%|█▌        | 1544/9678 [3:27:00<17:58:13,  7.95s/it] 16%|█▌        | 1545/9678 [3:27:09<18:46:51,  8.31s/it] 16%|█▌        | 1546/9678 [3:27:18<19:07:50,  8.47s/it] 16%|█▌        | 1547/9678 [3:27:26<19:19:19,  8.55s/it] 16%|█▌        | 1548/9678 [3:27:35<19:26:11,  8.61s/it] 16%|█▌        | 1549/9678 [3:27:42<18:10:46,  8.05s/it] 16%|█▌        | 1550/9678 [3:27:49<17:25:41,  7.72s/it]                                                        {'loss': 1.3744, 'grad_norm': 1.1963645219802856, 'learning_rate': 0.00047215875704475314, 'epoch': 0.16}
+ 16%|█▌        | 1550/9678 [3:27:49<17:25:41,  7.72s/it] 16%|█▌        | 1551/9678 [3:27:56<16:54:42,  7.49s/it] 16%|█▌        | 1552/9678 [3:28:04<17:35:43,  7.80s/it] 16%|█▌        | 1553/9678 [3:28:11<16:49:41,  7.46s/it] 16%|█▌        | 1554/9678 [3:28:18<16:37:19,  7.37s/it] 16%|█▌        | 1555/9678 [3:28:26<16:55:21,  7.50s/it] 16%|█▌        | 1556/9678 [3:28:32<15:56:32,  7.07s/it] 16%|█▌        | 1557/9678 [3:28:39<16:12:40,  7.19s/it] 16%|█▌        | 1558/9678 [3:28:47<16:50:38,  7.47s/it] 16%|█▌        | 1559/9678 [3:28:57<18:05:12,  8.02s/it] 16%|█▌        | 1560/9678 [3:29:05<18:00:48,  7.99s/it]                                                        {'loss': 1.3314, 'grad_norm': 1.246496319770813, 'learning_rate': 0.00047178161578119925, 'epoch': 0.16}
+ 16%|█▌        | 1560/9678 [3:29:05<18:00:48,  7.99s/it] 16%|█▌        | 1561/9678 [3:29:11<17:07:13,  7.59s/it] 16%|█▌        | 1562/9678 [3:29:20<17:38:31,  7.83s/it] 16%|█▌        | 1563/9678 [3:29:27<17:26:59,  7.74s/it] 16%|█▌        | 1564/9678 [3:29:36<17:59:35,  7.98s/it] 16%|█▌        | 1565/9678 [3:29:45<18:30:21,  8.21s/it] 16%|█▌        | 1566/9678 [3:29:52<18:11:41,  8.07s/it] 16%|█▌        | 1567/9678 [3:29:59<17:15:06,  7.66s/it] 16%|█▌        | 1568/9678 [3:30:07<17:15:27,  7.66s/it] 16%|█▌        | 1569/9678 [3:30:15<17:44:15,  7.87s/it] 16%|█▌        | 1570/9678 [3:30:23<17:57:15,  7.97s/it]                                                        {'loss': 1.4149, 'grad_norm': 1.1050803661346436, 'learning_rate': 0.00047140208998529303, 'epoch': 0.16}
+ 16%|█▌        | 1570/9678 [3:30:23<17:57:15,  7.97s/it] 16%|█▌        | 1571/9678 [3:30:30<17:07:27,  7.60s/it] 16%|█▌        | 1572/9678 [3:30:37<16:52:59,  7.50s/it] 16%|█▋        | 1573/9678 [3:30:46<17:35:06,  7.81s/it] 16%|█▋        | 1574/9678 [3:30:53<17:10:36,  7.63s/it] 16%|█▋        | 1575/9678 [3:31:02<18:02:56,  8.02s/it] 16%|█▋        | 1576/9678 [3:31:09<17:18:30,  7.69s/it] 16%|█▋        | 1577/9678 [3:31:18<17:57:25,  7.98s/it] 16%|█▋        | 1578/9678 [3:31:26<18:17:19,  8.13s/it] 16%|█▋        | 1579/9678 [3:31:35<18:33:08,  8.25s/it] 16%|█▋        | 1580/9678 [3:31:44<19:04:05,  8.48s/it]                                                        {'loss': 1.3817, 'grad_norm': 1.379414439201355, 'learning_rate': 0.00047102018373758716, 'epoch': 0.16}
+ 16%|█▋        | 1580/9678 [3:31:44<19:04:05,  8.48s/it] 16%|█▋        | 1581/9678 [3:31:52<18:54:31,  8.41s/it] 16%|█▋        | 1582/9678 [3:32:00<18:41:12,  8.31s/it] 16%|█▋        | 1583/9678 [3:32:08<18:42:06,  8.32s/it] 16%|█▋        | 1584/9678 [3:32:17<19:16:55,  8.58s/it] 16%|█▋        | 1585/9678 [3:32:23<17:35:31,  7.83s/it] 16%|█▋        | 1586/9678 [3:32:30<16:41:59,  7.43s/it] 16%|█▋        | 1587/9678 [3:32:37<16:18:05,  7.25s/it] 16%|█▋        | 1588/9678 [3:32:45<17:06:20,  7.61s/it] 16%|█▋        | 1589/9678 [3:32:54<17:56:53,  7.99s/it] 16%|█▋        | 1590/9678 [3:33:02<17:35:25,  7.83s/it]                                                        {'loss': 1.2865, 'grad_norm': 1.0111711025238037, 'learning_rate': 0.00047063590114422804, 'epoch': 0.16}
+ 16%|█▋        | 1590/9678 [3:33:02<17:35:25,  7.83s/it] 16%|█▋        | 1591/9678 [3:33:10<18:08:00,  8.07s/it] 16%|█▋        | 1592/9678 [3:33:17<17:21:18,  7.73s/it] 16%|█▋        | 1593/9678 [3:33:25<17:31:41,  7.80s/it] 16%|█▋        | 1594/9678 [3:33:32<16:59:46,  7.57s/it] 16%|█▋        | 1595/9678 [3:33:41<18:02:44,  8.04s/it] 16%|█▋        | 1596/9678 [3:33:50<18:30:22,  8.24s/it] 17%|█▋        | 1597/9678 [3:33:58<18:31:57,  8.26s/it] 17%|█▋        | 1598/9678 [3:34:05<17:33:22,  7.82s/it] 17%|█▋        | 1599/9678 [3:34:13<17:39:27,  7.87s/it] 17%|█▋        | 1600/9678 [3:34:19<16:02:30,  7.15s/it]                                                        {'loss': 1.317, 'grad_norm': 1.5682810544967651, 'learning_rate': 0.00047024924633691197, 'epoch': 0.17}
+ 17%|█▋        | 1600/9678 [3:34:19<16:02:30,  7.15s/it] 17%|█▋        | 1601/9678 [3:34:25<15:43:49,  7.01s/it] 17%|█▋        | 1602/9678 [3:34:33<16:19:31,  7.28s/it] 17%|█▋        | 1603/9678 [3:34:40<15:48:27,  7.05s/it] 17%|█▋        | 1604/9678 [3:34:46<15:13:59,  6.79s/it] 17%|█▋        | 1605/9678 [3:34:52<14:48:30,  6.60s/it] 17%|█▋        | 1606/9678 [3:34:59<15:10:45,  6.77s/it] 17%|█▋        | 1607/9678 [3:35:08<16:32:10,  7.38s/it] 17%|█▋        | 1608/9678 [3:35:16<16:53:58,  7.54s/it] 17%|█▋        | 1609/9678 [3:35:24<17:11:06,  7.67s/it] 17%|█▋        | 1610/9678 [3:35:31<17:10:08,  7.66s/it]                                                        {'loss': 1.3659, 'grad_norm': 0.9005609154701233, 'learning_rate': 0.0004698602234728406, 'epoch': 0.17}
+ 17%|█▋        | 1610/9678 [3:35:31<17:10:08,  7.66s/it] 17%|█▋        | 1611/9678 [3:35:39<16:45:21,  7.48s/it] 17%|█▋        | 1612/9678 [3:35:45<16:18:47,  7.28s/it] 17%|█▋        | 1613/9678 [3:35:54<17:16:00,  7.71s/it] 17%|█▋        | 1614/9678 [3:36:02<17:42:36,  7.91s/it] 17%|█▋        | 1615/9678 [3:36:10<17:21:21,  7.75s/it] 17%|█▋        | 1616/9678 [3:36:16<16:34:26,  7.40s/it] 17%|█▋        | 1617/9678 [3:36:27<18:27:04,  8.24s/it] 17%|█▋        | 1618/9678 [3:36:33<17:27:04,  7.79s/it] 17%|█▋        | 1619/9678 [3:36:45<19:43:27,  8.81s/it] 17%|█▋        | 1620/9678 [3:36:55<20:52:28,  9.33s/it]                                                        {'loss': 1.3373, 'grad_norm': 1.00556218624115, 'learning_rate': 0.00046946883673467624, 'epoch': 0.17}
+ 17%|█▋        | 1620/9678 [3:36:55<20:52:28,  9.33s/it] 17%|█▋        | 1621/9678 [3:37:05<21:12:07,  9.47s/it] 17%|█▋        | 1622/9678 [3:37:13<20:27:16,  9.14s/it] 17%|█▋        | 1623/9678 [3:37:21<19:37:20,  8.77s/it] 17%|█▋        | 1624/9678 [3:37:30<19:36:43,  8.77s/it] 17%|█▋        | 1625/9678 [3:37:38<19:18:35,  8.63s/it] 17%|█▋        | 1626/9678 [3:37:49<20:32:45,  9.19s/it] 17%|█▋        | 1627/9678 [3:37:57<20:10:57,  9.02s/it] 17%|█▋        | 1628/9678 [3:38:07<20:28:21,  9.16s/it] 17%|█▋        | 1629/9678 [3:38:15<20:09:13,  9.01s/it] 17%|█▋        | 1630/9678 [3:38:25<20:14:56,  9.06s/it]                                                        {'loss': 1.4858, 'grad_norm': 1.387304425239563, 'learning_rate': 0.00046907509033049683, 'epoch': 0.17}
+ 17%|█▋        | 1630/9678 [3:38:25<20:14:56,  9.06s/it] 17%|█▋        | 1631/9678 [3:38:33<19:49:27,  8.87s/it] 17%|█▋        | 1632/9678 [3:38:41<19:00:15,  8.50s/it] 17%|█▋        | 1633/9678 [3:38:48<18:22:21,  8.22s/it] 17%|█▋        | 1634/9678 [3:38:57<18:43:08,  8.38s/it] 17%|█▋        | 1635/9678 [3:39:05<18:23:14,  8.23s/it] 17%|█▋        | 1636/9678 [3:39:13<18:26:05,  8.25s/it] 17%|█▋        | 1637/9678 [3:39:20<17:34:45,  7.87s/it] 17%|█▋        | 1638/9678 [3:39:28<17:35:02,  7.87s/it] 17%|█▋        | 1639/9678 [3:39:37<18:01:22,  8.07s/it] 17%|█▋        | 1640/9678 [3:39:44<17:33:57,  7.87s/it]                                                        {'loss': 1.4221, 'grad_norm': 1.2545139789581299, 'learning_rate': 0.0004686789884937509, 'epoch': 0.17}
+ 17%|█▋        | 1640/9678 [3:39:44<17:33:57,  7.87s/it] 17%|█▋        | 1641/9678 [3:39:51<17:04:12,  7.65s/it] 17%|█▋        | 1642/9678 [3:40:00<17:41:37,  7.93s/it] 17%|█▋        | 1643/9678 [3:40:08<17:50:35,  7.99s/it] 17%|█▋        | 1644/9678 [3:40:16<17:53:56,  8.02s/it] 17%|█▋        | 1645/9678 [3:40:24<18:05:36,  8.11s/it] 17%|█▋        | 1646/9678 [3:40:30<16:27:05,  7.37s/it] 17%|█▋        | 1647/9678 [3:40:38<16:48:24,  7.53s/it] 17%|█▋        | 1648/9678 [3:40:47<17:47:00,  7.97s/it] 17%|█▋        | 1649/9678 [3:40:56<18:39:04,  8.36s/it] 17%|█▋        | 1650/9678 [3:41:05<19:13:45,  8.62s/it]                                                        {'loss': 1.3609, 'grad_norm': 1.3092625141143799, 'learning_rate': 0.00046828053548321187, 'epoch': 0.17}
+ 17%|█▋        | 1650/9678 [3:41:05<19:13:45,  8.62s/it] 17%|█▋        | 1651/9678 [3:41:14<19:19:47,  8.67s/it] 17%|█▋        | 1652/9678 [3:41:21<18:07:34,  8.13s/it] 17%|█▋        | 1653/9678 [3:41:29<17:47:22,  7.98s/it] 17%|█▋        | 1654/9678 [3:41:36<17:07:21,  7.68s/it] 17%|█▋        | 1655/9678 [3:41:41<15:53:58,  7.13s/it] 17%|█▋        | 1656/9678 [3:41:52<18:03:27,  8.10s/it] 17%|█▋        | 1657/9678 [3:41:59<17:32:00,  7.87s/it] 17%|█▋        | 1658/9678 [3:42:05<16:22:46,  7.35s/it] 17%|█▋        | 1659/9678 [3:42:13<16:46:23,  7.53s/it] 17%|█▋        | 1660/9678 [3:42:22<17:31:26,  7.87s/it]                                                        {'loss': 1.3406, 'grad_norm': 1.0507373809814453, 'learning_rate': 0.0004678797355829322, 'epoch': 0.17}
+ 17%|█▋        | 1660/9678 [3:42:22<17:31:26,  7.87s/it] 17%|█▋        | 1661/9678 [3:42:29<17:07:34,  7.69s/it] 17%|█▋        | 1662/9678 [3:42:38<17:38:54,  7.93s/it] 17%|█▋        | 1663/9678 [3:42:45<17:09:56,  7.71s/it] 17%|█▋        | 1664/9678 [3:42:51<16:14:27,  7.30s/it] 17%|█▋        | 1665/9678 [3:42:58<16:14:46,  7.30s/it] 17%|█▋        | 1666/9678 [3:43:07<17:16:50,  7.76s/it] 17%|█▋        | 1667/9678 [3:43:15<16:58:56,  7.63s/it] 17%|█▋        | 1668/9678 [3:43:23<17:24:06,  7.82s/it] 17%|█▋        | 1669/9678 [3:43:31<17:22:13,  7.81s/it] 17%|█▋        | 1670/9678 [3:43:39<17:30:16,  7.87s/it]                                                        {'loss': 1.3098, 'grad_norm': 1.0271055698394775, 'learning_rate': 0.0004674765931021976, 'epoch': 0.17}
+ 17%|█▋        | 1670/9678 [3:43:39<17:30:16,  7.87s/it] 17%|█▋        | 1671/9678 [3:43:46<17:03:59,  7.67s/it] 17%|█▋        | 1672/9678 [3:43:53<16:51:23,  7.58s/it] 17%|█▋        | 1673/9678 [3:44:02<17:41:46,  7.96s/it] 17%|█▋        | 1674/9678 [3:44:10<17:25:17,  7.84s/it] 17%|█▋        | 1675/9678 [3:44:18<17:44:04,  7.98s/it] 17%|█▋        | 1676/9678 [3:44:26<17:53:05,  8.05s/it] 17%|█▋        | 1677/9678 [3:44:33<17:15:40,  7.77s/it] 17%|█▋        | 1678/9678 [3:44:40<16:35:59,  7.47s/it] 17%|█▋        | 1679/9678 [3:44:48<16:54:03,  7.61s/it] 17%|█▋        | 1680/9678 [3:44:55<16:42:16,  7.52s/it]                                                        {'loss': 1.2113, 'grad_norm': 1.1777933835983276, 'learning_rate': 0.0004670711123754804, 'epoch': 0.17}
+ 17%|█▋        | 1680/9678 [3:44:55<16:42:16,  7.52s/it] 17%|█▋        | 1681/9678 [3:45:01<15:42:04,  7.07s/it] 17%|█▋        | 1682/9678 [3:45:08<15:45:07,  7.09s/it] 17%|█▋        | 1683/9678 [3:45:17<16:36:15,  7.48s/it] 17%|█▋        | 1684/9678 [3:45:25<17:11:24,  7.74s/it] 17%|█▋        | 1685/9678 [3:45:34<17:49:17,  8.03s/it] 17%|█▋        | 1686/9678 [3:45:42<17:49:32,  8.03s/it] 17%|█▋        | 1687/9678 [3:45:51<18:18:01,  8.24s/it] 17%|█▋        | 1688/9678 [3:46:00<19:10:39,  8.64s/it] 17%|█▋        | 1689/9678 [3:46:08<18:41:47,  8.42s/it] 17%|█▋        | 1690/9678 [3:46:15<17:19:13,  7.81s/it]                                                        {'loss': 1.3137, 'grad_norm': 1.1888736486434937, 'learning_rate': 0.00046666329776239306, 'epoch': 0.17}
+ 17%|█▋        | 1690/9678 [3:46:15<17:19:13,  7.81s/it] 17%|█▋        | 1691/9678 [3:46:23<17:56:45,  8.09s/it] 17%|█▋        | 1692/9678 [3:46:31<17:36:24,  7.94s/it] 17%|█▋        | 1693/9678 [3:46:38<17:20:17,  7.82s/it] 18%|█▊        | 1694/9678 [3:46:46<17:27:56,  7.88s/it] 18%|█▊        | 1695/9678 [3:46:55<17:47:25,  8.02s/it] 18%|█▊        | 1696/9678 [3:47:04<18:36:02,  8.39s/it] 18%|█▊        | 1697/9678 [3:47:12<18:12:01,  8.21s/it] 18%|█▊        | 1698/9678 [3:47:19<17:39:04,  7.96s/it] 18%|█▊        | 1699/9678 [3:47:26<16:58:00,  7.66s/it] 18%|█▊        | 1700/9678 [3:47:33<16:19:34,  7.37s/it]                                                        {'loss': 1.23, 'grad_norm': 1.4923595190048218, 'learning_rate': 0.00046625315364764156, 'epoch': 0.18}
+ 18%|█▊        | 1700/9678 [3:47:33<16:19:34,  7.37s/it] 18%|█▊        | 1701/9678 [3:47:40<16:28:51,  7.44s/it] 18%|█▊        | 1702/9678 [3:47:49<17:08:54,  7.74s/it] 18%|█▊        | 1703/9678 [3:47:55<16:16:26,  7.35s/it] 18%|█▊        | 1704/9678 [3:48:02<16:07:31,  7.28s/it] 18%|█▊        | 1705/9678 [3:48:10<16:06:25,  7.27s/it] 18%|█▊        | 1706/9678 [3:48:18<17:07:23,  7.73s/it] 18%|█▊        | 1707/9678 [3:48:28<18:05:06,  8.17s/it] 18%|█▊        | 1708/9678 [3:48:36<18:11:25,  8.22s/it] 18%|█▊        | 1709/9678 [3:48:45<18:51:10,  8.52s/it] 18%|█▊        | 1710/9678 [3:48:53<18:41:07,  8.44s/it]                                                        {'loss': 1.3182, 'grad_norm': 1.3654290437698364, 'learning_rate': 0.00046584068444097766, 'epoch': 0.18}
+ 18%|█▊        | 1710/9678 [3:48:53<18:41:07,  8.44s/it] 18%|█▊        | 1711/9678 [3:49:02<18:43:50,  8.46s/it] 18%|█▊        | 1712/9678 [3:49:08<17:16:03,  7.80s/it] 18%|█▊        | 1713/9678 [3:49:16<17:20:57,  7.84s/it] 18%|█▊        | 1714/9678 [3:49:24<17:07:20,  7.74s/it] 18%|█▊        | 1715/9678 [3:49:33<17:56:51,  8.11s/it] 18%|█▊        | 1716/9678 [3:49:40<17:36:12,  7.96s/it] 18%|█▊        | 1717/9678 [3:49:46<16:06:28,  7.28s/it] 18%|█▊        | 1718/9678 [3:49:53<16:04:33,  7.27s/it] 18%|█▊        | 1719/9678 [3:49:59<15:09:34,  6.86s/it] 18%|█▊        | 1720/9678 [3:50:06<15:14:39,  6.90s/it]                                                        {'loss': 1.2854, 'grad_norm': 1.5486831665039062, 'learning_rate': 0.0004654258945771521, 'epoch': 0.18}
+ 18%|█▊        | 1720/9678 [3:50:06<15:14:39,  6.90s/it] 18%|█▊        | 1721/9678 [3:50:12<14:53:35,  6.74s/it] 18%|█▊        | 1722/9678 [3:50:21<15:50:48,  7.17s/it] 18%|█▊        | 1723/9678 [3:50:29<16:54:50,  7.65s/it] 18%|█▊        | 1724/9678 [3:50:37<16:55:44,  7.66s/it] 18%|█▊        | 1725/9678 [3:50:46<17:52:09,  8.09s/it] 18%|█▊        | 1726/9678 [3:50:54<17:33:42,  7.95s/it] 18%|█▊        | 1727/9678 [3:51:02<17:48:15,  8.06s/it] 18%|█▊        | 1728/9678 [3:51:11<18:36:40,  8.43s/it] 18%|█▊        | 1729/9678 [3:51:21<19:10:52,  8.69s/it] 18%|█▊        | 1730/9678 [3:51:31<20:26:24,  9.26s/it]                                                        {'loss': 1.3328, 'grad_norm': 1.3204468488693237, 'learning_rate': 0.0004650087885158667, 'epoch': 0.18}
+ 18%|█▊        | 1730/9678 [3:51:31<20:26:24,  9.26s/it] 18%|█▊        | 1731/9678 [3:51:39<19:35:51,  8.88s/it] 18%|█▊        | 1732/9678 [3:51:48<19:33:58,  8.86s/it] 18%|█▊        | 1733/9678 [3:51:57<19:30:13,  8.84s/it] 18%|█▊        | 1734/9678 [3:52:05<18:43:08,  8.48s/it] 18%|█▊        | 1735/9678 [3:52:11<17:22:46,  7.88s/it] 18%|█▊        | 1736/9678 [3:52:17<16:15:43,  7.37s/it] 18%|█▊        | 1737/9678 [3:52:25<16:48:12,  7.62s/it] 18%|█▊        | 1738/9678 [3:52:32<16:23:11,  7.43s/it] 18%|█▊        | 1739/9678 [3:52:41<17:00:03,  7.71s/it] 18%|█▊        | 1740/9678 [3:52:50<17:51:50,  8.10s/it]                                                        {'loss': 1.3741, 'grad_norm': 1.4773411750793457, 'learning_rate': 0.000464589370741726, 'epoch': 0.18}
+ 18%|█▊        | 1740/9678 [3:52:50<17:51:50,  8.10s/it] 18%|█▊        | 1741/9678 [3:52:58<18:14:37,  8.27s/it] 18%|█▊        | 1742/9678 [3:53:08<19:07:06,  8.67s/it] 18%|█▊        | 1743/9678 [3:53:15<17:38:35,  8.00s/it] 18%|█▊        | 1744/9678 [3:53:24<18:54:57,  8.58s/it] 18%|█▊        | 1745/9678 [3:53:33<19:02:31,  8.64s/it] 18%|█▊        | 1746/9678 [3:53:42<18:53:25,  8.57s/it] 18%|█▊        | 1747/9678 [3:53:47<17:03:47,  7.75s/it] 18%|█▊        | 1748/9678 [3:53:54<16:29:54,  7.49s/it] 18%|█▊        | 1749/9678 [3:54:03<16:58:35,  7.71s/it] 18%|█▊        | 1750/9678 [3:54:11<17:33:18,  7.97s/it]                                                        {'loss': 1.26, 'grad_norm': 1.20607328414917, 'learning_rate': 0.00046416764576418993, 'epoch': 0.18}
+ 18%|█▊        | 1750/9678 [3:54:11<17:33:18,  7.97s/it] 18%|█▊        | 1751/9678 [3:54:19<17:37:59,  8.01s/it] 18%|█▊        | 1752/9678 [3:54:27<17:37:43,  8.01s/it] 18%|█▊        | 1753/9678 [3:54:36<17:49:57,  8.10s/it] 18%|█▊        | 1754/9678 [3:54:43<17:38:08,  8.01s/it] 18%|█▊        | 1755/9678 [3:54:50<16:51:43,  7.66s/it] 18%|█▊        | 1756/9678 [3:54:58<17:13:04,  7.82s/it] 18%|█▊        | 1757/9678 [3:55:07<17:41:27,  8.04s/it] 18%|█▊        | 1758/9678 [3:55:14<16:48:18,  7.64s/it] 18%|█▊        | 1759/9678 [3:55:22<17:21:47,  7.89s/it] 18%|█▊        | 1760/9678 [3:55:30<17:23:39,  7.91s/it]                                                        {'loss': 1.2398, 'grad_norm': 1.2402129173278809, 'learning_rate': 0.00046374361811752436, 'epoch': 0.18}
+ 18%|█▊        | 1760/9678 [3:55:30<17:23:39,  7.91s/it] 18%|█▊        | 1761/9678 [3:55:37<17:01:53,  7.74s/it] 18%|█▊        | 1762/9678 [3:55:46<17:20:51,  7.89s/it] 18%|█▊        | 1763/9678 [3:55:55<18:29:50,  8.41s/it] 18%|█▊        | 1764/9678 [3:56:02<17:37:01,  8.01s/it] 18%|█▊        | 1765/9678 [3:56:09<16:43:04,  7.61s/it] 18%|█▊        | 1766/9678 [3:56:16<16:11:52,  7.37s/it] 18%|█▊        | 1767/9678 [3:56:25<17:11:29,  7.82s/it] 18%|█▊        | 1768/9678 [3:56:33<17:46:37,  8.09s/it] 18%|█▊        | 1769/9678 [3:56:41<17:37:31,  8.02s/it] 18%|█▊        | 1770/9678 [3:56:48<16:52:58,  7.69s/it]                                                        {'loss': 1.4529, 'grad_norm': 1.1439170837402344, 'learning_rate': 0.00046331729236075305, 'epoch': 0.18}
+ 18%|█▊        | 1770/9678 [3:56:48<16:52:58,  7.69s/it] 18%|█▊        | 1771/9678 [3:56:56<16:46:51,  7.64s/it] 18%|█▊        | 1772/9678 [3:57:04<16:50:12,  7.67s/it] 18%|█▊        | 1773/9678 [3:57:12<17:03:38,  7.77s/it] 18%|█▊        | 1774/9678 [3:57:20<17:32:52,  7.99s/it] 18%|█▊        | 1775/9678 [3:57:28<17:34:58,  8.01s/it] 18%|█▊        | 1776/9678 [3:57:38<18:54:25,  8.61s/it] 18%|█▊        | 1777/9678 [3:57:45<17:48:14,  8.11s/it] 18%|█▊        | 1778/9678 [3:57:52<16:55:14,  7.71s/it] 18%|█▊        | 1779/9678 [3:58:00<17:07:21,  7.80s/it] 18%|█▊        | 1780/9678 [3:58:08<17:28:09,  7.96s/it]                                                        {'loss': 1.4535, 'grad_norm': 1.268829107284546, 'learning_rate': 0.0004628886730776084, 'epoch': 0.18}
+ 18%|█▊        | 1780/9678 [3:58:08<17:28:09,  7.96s/it] 18%|█▊        | 1781/9678 [3:58:15<16:29:52,  7.52s/it] 18%|█▊        | 1782/9678 [3:58:22<16:36:51,  7.57s/it] 18%|█▊        | 1783/9678 [3:58:30<16:23:02,  7.47s/it] 18%|█▊        | 1784/9678 [3:58:37<16:30:18,  7.53s/it] 18%|█▊        | 1785/9678 [3:58:44<16:12:02,  7.39s/it] 18%|█▊        | 1786/9678 [3:58:51<15:34:03,  7.10s/it] 18%|█▊        | 1787/9678 [3:58:58<15:46:30,  7.20s/it] 18%|█▊        | 1788/9678 [3:59:07<16:47:27,  7.66s/it] 18%|█▊        | 1789/9678 [3:59:15<17:00:13,  7.76s/it] 18%|█▊        | 1790/9678 [3:59:21<16:05:19,  7.34s/it]                                                        {'loss': 1.3249, 'grad_norm': 1.37249755859375, 'learning_rate': 0.0004624577648764819, 'epoch': 0.18}
+ 18%|█▊        | 1790/9678 [3:59:21<16:05:19,  7.34s/it] 19%|█▊        | 1791/9678 [3:59:29<16:10:05,  7.38s/it] 19%|█▊        | 1792/9678 [3:59:37<16:35:53,  7.58s/it] 19%|█▊        | 1793/9678 [3:59:44<16:29:52,  7.53s/it] 19%|█▊        | 1794/9678 [3:59:53<17:16:29,  7.89s/it] 19%|█▊        | 1795/9678 [4:00:00<16:48:47,  7.68s/it] 19%|█▊        | 1796/9678 [4:00:07<16:01:16,  7.32s/it] 19%|█▊        | 1797/9678 [4:00:14<16:15:25,  7.43s/it] 19%|█▊        | 1798/9678 [4:00:22<16:34:08,  7.57s/it] 19%|█▊        | 1799/9678 [4:00:30<16:50:24,  7.69s/it] 19%|█▊        | 1800/9678 [4:00:37<16:09:42,  7.39s/it]                                                        {'loss': 1.2866, 'grad_norm': 1.2565507888793945, 'learning_rate': 0.0004620245723903751, 'epoch': 0.19}
+ 19%|█▊        | 1800/9678 [4:00:37<16:09:42,  7.39s/it] 19%|█▊        | 1801/9678 [4:00:46<17:21:40,  7.93s/it] 19%|█▊        | 1802/9678 [4:00:56<18:37:33,  8.51s/it] 19%|█▊        | 1803/9678 [4:01:02<17:01:00,  7.78s/it] 19%|█▊        | 1804/9678 [4:01:10<17:26:09,  7.97s/it] 19%|█▊        | 1805/9678 [4:01:19<17:41:27,  8.09s/it] 19%|█▊        | 1806/9678 [4:01:29<19:12:37,  8.79s/it] 19%|█▊        | 1807/9678 [4:01:37<18:49:55,  8.61s/it] 19%|█▊        | 1808/9678 [4:01:44<17:35:32,  8.05s/it] 19%|█▊        | 1809/9678 [4:01:51<17:00:45,  7.78s/it] 19%|█▊        | 1810/9678 [4:01:59<16:55:20,  7.74s/it]                                                        {'loss': 1.1712, 'grad_norm': 1.1188476085662842, 'learning_rate': 0.0004615891002768494, 'epoch': 0.19}
+ 19%|█▊        | 1810/9678 [4:01:59<16:55:20,  7.74s/it] 19%|█▊        | 1811/9678 [4:02:05<15:53:30,  7.27s/it] 19%|█▊        | 1812/9678 [4:02:14<17:02:02,  7.80s/it] 19%|█▊        | 1813/9678 [4:02:20<15:58:24,  7.31s/it] 19%|█▊        | 1814/9678 [4:02:27<15:36:54,  7.15s/it] 19%|█▉        | 1815/9678 [4:02:34<15:37:08,  7.15s/it] 19%|█▉        | 1816/9678 [4:02:42<15:52:21,  7.27s/it] 19%|█▉        | 1817/9678 [4:02:49<16:08:56,  7.40s/it] 19%|█▉        | 1818/9678 [4:02:58<16:39:14,  7.63s/it] 19%|█▉        | 1819/9678 [4:03:06<16:55:48,  7.76s/it] 19%|█▉        | 1820/9678 [4:03:14<17:31:27,  8.03s/it]                                                        {'loss': 1.1788, 'grad_norm': 1.3613345623016357, 'learning_rate': 0.00046115135321797617, 'epoch': 0.19}
+ 19%|█▉        | 1820/9678 [4:03:14<17:31:27,  8.03s/it] 19%|█▉        | 1821/9678 [4:03:23<17:52:54,  8.19s/it] 19%|█▉        | 1822/9678 [4:03:30<17:10:27,  7.87s/it] 19%|█▉        | 1823/9678 [4:03:39<17:54:00,  8.20s/it] 19%|█▉        | 1824/9678 [4:03:48<18:41:11,  8.57s/it] 19%|█▉        | 1825/9678 [4:03:57<18:45:34,  8.60s/it] 19%|█▉        | 1826/9678 [4:04:03<17:11:16,  7.88s/it] 19%|█▉        | 1827/9678 [4:04:12<17:45:01,  8.14s/it] 19%|█▉        | 1828/9678 [4:04:19<17:03:05,  7.82s/it] 19%|█▉        | 1829/9678 [4:04:26<16:43:48,  7.67s/it] 19%|█▉        | 1830/9678 [4:04:33<16:09:55,  7.42s/it]                                                        {'loss': 1.2391, 'grad_norm': 1.3465733528137207, 'learning_rate': 0.00046071133592028626, 'epoch': 0.19}
+ 19%|█▉        | 1830/9678 [4:04:33<16:09:55,  7.42s/it] 19%|█▉        | 1831/9678 [4:04:43<17:33:06,  8.05s/it] 19%|█▉        | 1832/9678 [4:04:53<19:00:09,  8.72s/it] 19%|█▉        | 1833/9678 [4:05:02<18:51:46,  8.66s/it] 19%|█▉        | 1834/9678 [4:05:10<18:37:44,  8.55s/it] 19%|█▉        | 1835/9678 [4:05:17<17:49:16,  8.18s/it] 19%|█▉        | 1836/9678 [4:05:27<18:41:27,  8.58s/it] 19%|█▉        | 1837/9678 [4:05:35<18:26:33,  8.47s/it] 19%|█▉        | 1838/9678 [4:05:42<17:34:19,  8.07s/it] 19%|█▉        | 1839/9678 [4:05:49<16:58:21,  7.79s/it] 19%|█▉        | 1840/9678 [4:05:56<16:33:09,  7.60s/it]                                                        {'loss': 1.2213, 'grad_norm': 1.2718288898468018, 'learning_rate': 0.00046026905311471946, 'epoch': 0.19}
+ 19%|█▉        | 1840/9678 [4:05:56<16:33:09,  7.60s/it] 19%|█▉        | 1841/9678 [4:06:04<16:28:51,  7.57s/it] 19%|█▉        | 1842/9678 [4:06:11<16:14:23,  7.46s/it] 19%|█▉        | 1843/9678 [4:06:20<17:05:14,  7.85s/it] 19%|█▉        | 1844/9678 [4:06:26<16:16:05,  7.48s/it] 19%|█▉        | 1845/9678 [4:06:35<16:44:35,  7.70s/it] 19%|█▉        | 1846/9678 [4:06:41<15:58:10,  7.34s/it] 19%|█▉        | 1847/9678 [4:06:48<15:32:51,  7.15s/it] 19%|█▉        | 1848/9678 [4:06:57<16:34:18,  7.62s/it] 19%|█▉        | 1849/9678 [4:07:06<17:36:28,  8.10s/it] 19%|█▉        | 1850/9678 [4:07:15<18:10:13,  8.36s/it]                                                        {'loss': 1.2036, 'grad_norm': 1.372878909111023, 'learning_rate': 0.0004598245095565738, 'epoch': 0.19}
+ 19%|█▉        | 1850/9678 [4:07:15<18:10:13,  8.36s/it] 19%|█▉        | 1851/9678 [4:07:22<17:35:46,  8.09s/it] 19%|█▉        | 1852/9678 [4:07:31<17:50:43,  8.21s/it] 19%|█▉        | 1853/9678 [4:07:37<16:22:37,  7.53s/it] 19%|█▉        | 1854/9678 [4:07:44<15:58:32,  7.35s/it] 19%|█▉        | 1855/9678 [4:07:53<17:30:06,  8.05s/it] 19%|█▉        | 1856/9678 [4:08:02<17:44:27,  8.17s/it] 19%|█▉        | 1857/9678 [4:08:09<17:20:22,  7.98s/it] 19%|█▉        | 1858/9678 [4:08:19<18:24:51,  8.48s/it] 19%|█▉        | 1859/9678 [4:08:26<17:35:07,  8.10s/it] 19%|█▉        | 1860/9678 [4:08:34<17:12:30,  7.92s/it]                                                        {'loss': 1.192, 'grad_norm': 1.198723316192627, 'learning_rate': 0.00045937771002545403, 'epoch': 0.19}
+ 19%|█▉        | 1860/9678 [4:08:34<17:12:30,  7.92s/it] 19%|█▉        | 1861/9678 [4:08:45<19:09:40,  8.82s/it] 19%|█▉        | 1862/9678 [4:08:54<19:44:37,  9.09s/it] 19%|█▉        | 1863/9678 [4:09:04<19:55:55,  9.18s/it] 19%|█▉        | 1864/9678 [4:09:13<19:52:17,  9.16s/it] 19%|█▉        | 1865/9678 [4:09:22<19:43:21,  9.09s/it] 19%|█▉        | 1866/9678 [4:09:29<18:41:05,  8.61s/it] 19%|█▉        | 1867/9678 [4:09:36<17:49:06,  8.21s/it] 19%|█▉        | 1868/9678 [4:09:44<17:05:12,  7.88s/it] 19%|█▉        | 1869/9678 [4:09:50<16:24:28,  7.56s/it] 19%|█▉        | 1870/9678 [4:09:59<16:51:45,  7.77s/it]                                                        {'loss': 1.2999, 'grad_norm': 0.9199055433273315, 'learning_rate': 0.00045892865932522077, 'epoch': 0.19}
+ 19%|█▉        | 1870/9678 [4:09:59<16:51:45,  7.77s/it] 19%|█▉        | 1871/9678 [4:10:07<16:54:28,  7.80s/it] 19%|█▉        | 1872/9678 [4:10:14<16:45:56,  7.73s/it] 19%|█▉        | 1873/9678 [4:10:22<16:58:17,  7.83s/it] 19%|█▉        | 1874/9678 [4:10:29<16:32:18,  7.63s/it] 19%|█▉        | 1875/9678 [4:10:39<17:51:53,  8.24s/it] 19%|█▉        | 1876/9678 [4:10:46<16:54:44,  7.80s/it] 19%|█▉        | 1877/9678 [4:10:55<17:59:14,  8.30s/it] 19%|█▉        | 1878/9678 [4:11:04<18:32:45,  8.56s/it] 19%|█▉        | 1879/9678 [4:11:13<18:17:06,  8.44s/it] 19%|█▉        | 1880/9678 [4:11:22<19:04:49,  8.81s/it]                                                        {'loss': 1.3587, 'grad_norm': 1.3330020904541016, 'learning_rate': 0.0004584773622839383, 'epoch': 0.19}
+ 19%|█▉        | 1880/9678 [4:11:22<19:04:49,  8.81s/it] 19%|█▉        | 1881/9678 [4:11:30<18:34:27,  8.58s/it] 19%|█▉        | 1882/9678 [4:11:37<17:33:59,  8.11s/it] 19%|█▉        | 1883/9678 [4:11:45<17:09:48,  7.93s/it] 19%|█▉        | 1884/9678 [4:11:54<18:09:51,  8.39s/it] 19%|█▉        | 1885/9678 [4:12:02<18:04:30,  8.35s/it] 19%|█▉        | 1886/9678 [4:12:10<17:35:33,  8.13s/it] 19%|█▉        | 1887/9678 [4:12:20<18:27:25,  8.53s/it] 20%|█▉        | 1888/9678 [4:12:28<18:10:09,  8.40s/it] 20%|█▉        | 1889/9678 [4:12:34<17:07:29,  7.91s/it] 20%|█▉        | 1890/9678 [4:12:44<17:56:34,  8.29s/it]                                                        {'loss': 1.4654, 'grad_norm': 1.228247046470642, 'learning_rate': 0.0004580238237538232, 'epoch': 0.2}
+ 20%|█▉        | 1890/9678 [4:12:44<17:56:34,  8.29s/it] 20%|█▉        | 1891/9678 [4:12:52<17:49:29,  8.24s/it] 20%|█▉        | 1892/9678 [4:13:00<18:08:10,  8.39s/it] 20%|█▉        | 1893/9678 [4:13:09<17:58:03,  8.31s/it] 20%|█▉        | 1894/9678 [4:13:15<16:42:29,  7.73s/it] 20%|█▉        | 1895/9678 [4:13:22<16:33:54,  7.66s/it] 20%|█▉        | 1896/9678 [4:13:29<16:04:19,  7.44s/it] 20%|█▉        | 1897/9678 [4:13:38<16:55:51,  7.83s/it] 20%|█▉        | 1898/9678 [4:13:46<16:43:33,  7.74s/it] 20%|█▉        | 1899/9678 [4:13:55<17:31:51,  8.11s/it] 20%|█▉        | 1900/9678 [4:14:01<16:31:36,  7.65s/it]                                                        {'loss': 1.1583, 'grad_norm': 1.6616053581237793, 'learning_rate': 0.0004575680486111915, 'epoch': 0.2}
+ 20%|█▉        | 1900/9678 [4:14:01<16:31:36,  7.65s/it] 20%|█▉        | 1901/9678 [4:14:07<15:18:53,  7.09s/it] 20%|█▉        | 1902/9678 [4:14:15<15:58:34,  7.40s/it] 20%|█▉        | 1903/9678 [4:14:22<15:32:46,  7.20s/it] 20%|█▉        | 1904/9678 [4:14:30<16:06:50,  7.46s/it] 20%|█▉        | 1905/9678 [4:14:37<15:52:30,  7.35s/it] 20%|█▉        | 1906/9678 [4:14:46<16:58:35,  7.86s/it] 20%|█▉        | 1907/9678 [4:14:54<17:08:13,  7.94s/it] 20%|█▉        | 1908/9678 [4:15:05<18:49:12,  8.72s/it] 20%|█▉        | 1909/9678 [4:15:13<18:27:30,  8.55s/it] 20%|█▉        | 1910/9678 [4:15:24<20:12:07,  9.36s/it]                                                        {'loss': 1.2121, 'grad_norm': 1.0149476528167725, 'learning_rate': 0.000457110041756407, 'epoch': 0.2}
+ 20%|█▉        | 1910/9678 [4:15:24<20:12:07,  9.36s/it] 20%|█▉        | 1911/9678 [4:15:32<19:25:34,  9.00s/it] 20%|█▉        | 1912/9678 [4:15:42<19:32:28,  9.06s/it] 20%|█▉        | 1913/9678 [4:15:49<18:32:44,  8.60s/it] 20%|█▉        | 1914/9678 [4:15:58<18:40:12,  8.66s/it] 20%|█▉        | 1915/9678 [4:16:05<17:49:47,  8.27s/it] 20%|█▉        | 1916/9678 [4:16:13<17:51:06,  8.28s/it] 20%|█▉        | 1917/9678 [4:16:21<17:25:54,  8.09s/it] 20%|█▉        | 1918/9678 [4:16:30<17:51:48,  8.29s/it] 20%|█▉        | 1919/9678 [4:16:37<17:12:37,  7.99s/it] 20%|█▉        | 1920/9678 [4:16:46<17:42:36,  8.22s/it]                                                        {'loss': 1.2938, 'grad_norm': 1.6001296043395996, 'learning_rate': 0.00045664980811382813, 'epoch': 0.2}
+ 20%|█▉        | 1920/9678 [4:16:46<17:42:36,  8.22s/it] 20%|█▉        | 1921/9678 [4:16:53<17:07:15,  7.95s/it] 20%|█▉        | 1922/9678 [4:17:01<16:42:15,  7.75s/it] 20%|█▉        | 1923/9678 [4:17:08<16:45:33,  7.78s/it] 20%|█▉        | 1924/9678 [4:17:16<16:47:32,  7.80s/it] 20%|█▉        | 1925/9678 [4:17:24<16:53:26,  7.84s/it] 20%|█▉        | 1926/9678 [4:17:32<16:39:28,  7.74s/it] 20%|█▉        | 1927/9678 [4:17:39<16:27:02,  7.64s/it] 20%|█▉        | 1928/9678 [4:17:46<15:49:32,  7.35s/it] 20%|█▉        | 1929/9678 [4:17:55<17:17:55,  8.04s/it] 20%|█▉        | 1930/9678 [4:18:03<16:53:12,  7.85s/it]                                                        {'loss': 1.1885, 'grad_norm': 1.263951301574707, 'learning_rate': 0.00045618735263175495, 'epoch': 0.2}
+ 20%|█▉        | 1930/9678 [4:18:03<16:53:12,  7.85s/it] 20%|█▉        | 1931/9678 [4:18:12<17:57:47,  8.35s/it] 20%|█▉        | 1932/9678 [4:18:22<18:48:42,  8.74s/it] 20%|█▉        | 1933/9678 [4:18:30<18:26:45,  8.57s/it] 20%|█▉        | 1934/9678 [4:18:38<17:46:49,  8.27s/it] 20%|█▉        | 1935/9678 [4:18:44<16:43:04,  7.77s/it] 20%|██        | 1936/9678 [4:18:52<16:29:43,  7.67s/it] 20%|██        | 1937/9678 [4:19:02<17:56:17,  8.34s/it] 20%|██        | 1938/9678 [4:19:08<16:51:02,  7.84s/it] 20%|██        | 1939/9678 [4:19:16<16:59:36,  7.90s/it] 20%|██        | 1940/9678 [4:19:24<17:03:33,  7.94s/it]                                                        {'loss': 1.2981, 'grad_norm': 1.4672034978866577, 'learning_rate': 0.00045572268028237637, 'epoch': 0.2}
+ 20%|██        | 1940/9678 [4:19:24<17:03:33,  7.94s/it] 20%|██        | 1941/9678 [4:19:33<17:42:14,  8.24s/it] 20%|██        | 1942/9678 [4:19:40<16:36:14,  7.73s/it] 20%|██        | 1943/9678 [4:19:47<16:19:02,  7.59s/it] 20%|██        | 1944/9678 [4:19:56<17:22:05,  8.08s/it] 20%|██        | 1945/9678 [4:20:04<17:06:12,  7.96s/it] 20%|██        | 1946/9678 [4:20:10<16:01:11,  7.46s/it] 20%|██        | 1947/9678 [4:20:17<15:26:47,  7.19s/it] 20%|██        | 1948/9678 [4:20:25<16:06:09,  7.50s/it] 20%|██        | 1949/9678 [4:20:35<17:48:16,  8.29s/it] 20%|██        | 1950/9678 [4:20:42<16:36:04,  7.73s/it]                                                        {'loss': 1.117, 'grad_norm': 1.1751412153244019, 'learning_rate': 0.0004552557960617161, 'epoch': 0.2}
+ 20%|██        | 1950/9678 [4:20:42<16:36:04,  7.73s/it] 20%|██        | 1951/9678 [4:20:53<18:45:05,  8.74s/it] 20%|██        | 1952/9678 [4:21:01<18:35:29,  8.66s/it] 20%|██        | 1953/9678 [4:21:09<17:47:37,  8.29s/it] 20%|██        | 1954/9678 [4:21:16<16:54:11,  7.88s/it] 20%|██        | 1955/9678 [4:21:23<16:43:39,  7.80s/it] 20%|██        | 1956/9678 [4:21:31<16:53:48,  7.88s/it] 20%|██        | 1957/9678 [4:21:38<16:22:51,  7.64s/it] 20%|██        | 1958/9678 [4:21:47<17:01:02,  7.94s/it] 20%|██        | 1959/9678 [4:21:54<16:40:06,  7.77s/it] 20%|██        | 1960/9678 [4:22:03<16:59:18,  7.92s/it]                                                        {'loss': 1.1909, 'grad_norm': 1.131339192390442, 'learning_rate': 0.0004547867049895796, 'epoch': 0.2}
+ 20%|██        | 1960/9678 [4:22:03<16:59:18,  7.92s/it] 20%|██        | 1961/9678 [4:22:12<17:35:57,  8.21s/it] 20%|██        | 1962/9678 [4:22:19<17:22:01,  8.10s/it] 20%|██        | 1963/9678 [4:22:28<17:38:20,  8.23s/it] 20%|██        | 1964/9678 [4:22:38<18:36:16,  8.68s/it] 20%|██        | 1965/9678 [4:22:46<18:22:22,  8.58s/it] 20%|██        | 1966/9678 [4:22:54<17:49:50,  8.32s/it] 20%|██        | 1967/9678 [4:23:05<19:28:20,  9.09s/it] 20%|██        | 1968/9678 [4:23:13<18:49:48,  8.79s/it] 20%|██        | 1969/9678 [4:23:21<18:33:16,  8.66s/it] 20%|██        | 1970/9678 [4:23:28<17:34:04,  8.21s/it]                                                        {'loss': 1.1328, 'grad_norm': 0.991729736328125, 'learning_rate': 0.0004543154121094996, 'epoch': 0.2}
+ 20%|██        | 1970/9678 [4:23:28<17:34:04,  8.21s/it] 20%|██        | 1971/9678 [4:23:36<17:32:31,  8.19s/it] 20%|██        | 1972/9678 [4:23:46<18:23:10,  8.59s/it] 20%|██        | 1973/9678 [4:23:53<17:36:55,  8.23s/it] 20%|██        | 1974/9678 [4:24:00<16:29:52,  7.71s/it] 20%|██        | 1975/9678 [4:24:08<16:53:33,  7.89s/it] 20%|██        | 1976/9678 [4:24:17<17:32:28,  8.20s/it] 20%|██        | 1977/9678 [4:24:25<17:38:58,  8.25s/it] 20%|██        | 1978/9678 [4:24:33<17:02:37,  7.97s/it] 20%|██        | 1979/9678 [4:24:42<18:11:00,  8.50s/it] 20%|██        | 1980/9678 [4:24:49<17:07:10,  8.01s/it]                                                        {'loss': 0.9973, 'grad_norm': 0.9073534607887268, 'learning_rate': 0.0004538419224886819, 'epoch': 0.2}
+ 20%|██        | 1980/9678 [4:24:49<17:07:10,  8.01s/it] 20%|██        | 1981/9678 [4:24:57<16:45:00,  7.83s/it] 20%|██        | 1982/9678 [4:25:05<16:50:55,  7.88s/it] 20%|██        | 1983/9678 [4:25:15<18:14:25,  8.53s/it] 21%|██        | 1984/9678 [4:25:23<17:46:19,  8.32s/it] 21%|██        | 1985/9678 [4:25:32<18:31:05,  8.67s/it] 21%|██        | 1986/9678 [4:25:38<16:49:53,  7.88s/it] 21%|██        | 1987/9678 [4:25:48<18:07:15,  8.48s/it] 21%|██        | 1988/9678 [4:25:56<17:37:45,  8.25s/it] 21%|██        | 1989/9678 [4:26:06<18:58:31,  8.88s/it] 21%|██        | 1990/9678 [4:26:13<17:44:15,  8.31s/it]                                                        {'loss': 1.2367, 'grad_norm': 1.2480231523513794, 'learning_rate': 0.00045336624121795124, 'epoch': 0.21}
+ 21%|██        | 1990/9678 [4:26:13<17:44:15,  8.31s/it] 21%|██        | 1991/9678 [4:26:23<18:35:22,  8.71s/it] 21%|██        | 1992/9678 [4:26:32<19:04:46,  8.94s/it] 21%|██        | 1993/9678 [4:26:40<18:41:49,  8.76s/it] 21%|██        | 1994/9678 [4:26:48<17:35:37,  8.24s/it] 21%|██        | 1995/9678 [4:26:57<18:20:24,  8.59s/it] 21%|██        | 1996/9678 [4:27:06<18:50:11,  8.83s/it] 21%|██        | 1997/9678 [4:27:14<17:59:04,  8.43s/it] 21%|██        | 1998/9678 [4:27:21<17:15:38,  8.09s/it] 21%|██        | 1999/9678 [4:27:28<16:40:49,  7.82s/it] 21%|██        | 2000/9678 [4:27:34<15:23:41,  7.22s/it]                                                        {'loss': 1.1738, 'grad_norm': 1.28248131275177, 'learning_rate': 0.0004528883734116963, 'epoch': 0.21}
+ 21%|██        | 2000/9678 [4:27:34<15:23:41,  7.22s/it] 21%|██        | 2001/9678 [4:27:42<16:08:20,  7.57s/it] 21%|██        | 2002/9678 [4:27:51<16:29:36,  7.74s/it] 21%|██        | 2003/9678 [4:27:57<15:31:29,  7.28s/it] 21%|██        | 2004/9678 [4:28:03<14:55:31,  7.00s/it] 21%|██        | 2005/9678 [4:28:11<15:40:02,  7.35s/it] 21%|██        | 2006/9678 [4:28:18<15:14:06,  7.15s/it] 21%|██        | 2007/9678 [4:28:24<14:29:12,  6.80s/it] 21%|██        | 2008/9678 [4:28:32<15:22:50,  7.22s/it] 21%|██        | 2009/9678 [4:28:40<15:58:18,  7.50s/it] 21%|██        | 2010/9678 [4:28:49<16:50:33,  7.91s/it]                                                        {'loss': 1.3788, 'grad_norm': 1.386885166168213, 'learning_rate': 0.00045240832420781474, 'epoch': 0.21}
+ 21%|██        | 2010/9678 [4:28:49<16:50:33,  7.91s/it] 21%|██        | 2011/9678 [4:28:57<16:51:09,  7.91s/it] 21%|██        | 2012/9678 [4:29:05<16:33:11,  7.77s/it] 21%|██        | 2013/9678 [4:29:13<17:03:26,  8.01s/it] 21%|██        | 2014/9678 [4:29:22<17:52:17,  8.39s/it] 21%|██        | 2015/9678 [4:29:31<17:46:50,  8.35s/it] 21%|██        | 2016/9678 [4:29:39<17:55:05,  8.42s/it] 21%|██        | 2017/9678 [4:29:49<18:44:29,  8.81s/it] 21%|██        | 2018/9678 [4:29:57<18:03:27,  8.49s/it] 21%|██        | 2019/9678 [4:30:04<17:08:14,  8.06s/it] 21%|██        | 2020/9678 [4:30:12<16:59:43,  7.99s/it]                                                        {'loss': 1.3046, 'grad_norm': 1.1158126592636108, 'learning_rate': 0.0004519260987676579, 'epoch': 0.21}
+ 21%|██        | 2020/9678 [4:30:12<16:59:43,  7.99s/it] 21%|██        | 2021/9678 [4:30:19<16:44:20,  7.87s/it] 21%|██        | 2022/9678 [4:30:29<17:56:57,  8.44s/it] 21%|██        | 2023/9678 [4:30:38<18:17:04,  8.60s/it] 21%|██        | 2024/9678 [4:30:46<17:38:42,  8.30s/it] 21%|██        | 2025/9678 [4:30:53<17:05:05,  8.04s/it] 21%|██        | 2026/9678 [4:31:01<17:16:20,  8.13s/it] 21%|██        | 2027/9678 [4:31:08<16:38:03,  7.83s/it] 21%|██        | 2028/9678 [4:31:16<16:09:44,  7.61s/it] 21%|██        | 2029/9678 [4:31:22<15:36:37,  7.35s/it] 21%|██        | 2030/9678 [4:31:30<16:06:05,  7.58s/it]                                                        {'loss': 1.2355, 'grad_norm': 1.162636399269104, 'learning_rate': 0.00045144170227597545, 'epoch': 0.21}
+ 21%|██        | 2030/9678 [4:31:30<16:06:05,  7.58s/it] 21%|██        | 2031/9678 [4:31:39<16:45:22,  7.89s/it] 21%|██        | 2032/9678 [4:31:47<16:43:14,  7.87s/it] 21%|██        | 2033/9678 [4:31:57<18:00:09,  8.48s/it] 21%|██        | 2034/9678 [4:32:05<17:52:44,  8.42s/it] 21%|██        | 2035/9678 [4:32:12<16:42:02,  7.87s/it] 21%|██        | 2036/9678 [4:32:19<16:19:23,  7.69s/it] 21%|██        | 2037/9678 [4:32:30<18:13:48,  8.59s/it] 21%|██        | 2038/9678 [4:32:38<18:04:55,  8.52s/it] 21%|██        | 2039/9678 [4:32:46<17:55:56,  8.45s/it] 21%|██        | 2040/9678 [4:32:55<18:10:00,  8.56s/it]                                                        {'loss': 1.1542, 'grad_norm': 1.4077121019363403, 'learning_rate': 0.0004509551399408598, 'epoch': 0.21}
+ 21%|██        | 2040/9678 [4:32:55<18:10:00,  8.56s/it] 21%|██        | 2041/9678 [4:33:05<19:17:02,  9.09s/it] 21%|██        | 2042/9678 [4:33:13<18:25:24,  8.69s/it] 21%|██        | 2043/9678 [4:33:22<18:48:20,  8.87s/it] 21%|██        | 2044/9678 [4:33:31<18:53:01,  8.91s/it] 21%|██        | 2045/9678 [4:33:39<18:18:11,  8.63s/it] 21%|██        | 2046/9678 [4:33:47<17:22:06,  8.19s/it] 21%|██        | 2047/9678 [4:33:55<17:43:09,  8.36s/it] 21%|██        | 2048/9678 [4:34:02<16:45:57,  7.91s/it] 21%|██        | 2049/9678 [4:34:10<16:54:27,  7.98s/it] 21%|██        | 2050/9678 [4:34:18<16:35:11,  7.83s/it]                                                        {'loss': 1.3411, 'grad_norm': 1.1237014532089233, 'learning_rate': 0.00045046641699368953, 'epoch': 0.21}
+ 21%|██        | 2050/9678 [4:34:18<16:35:11,  7.83s/it] 21%|██        | 2051/9678 [4:34:26<16:59:52,  8.02s/it] 21%|██        | 2052/9678 [4:34:35<17:12:09,  8.12s/it] 21%|██        | 2053/9678 [4:34:42<17:01:50,  8.04s/it] 21%|██        | 2054/9678 [4:34:52<17:45:18,  8.38s/it] 21%|██        | 2055/9678 [4:35:01<18:09:01,  8.57s/it] 21%|██        | 2056/9678 [4:35:07<16:51:10,  7.96s/it] 21%|██▏       | 2057/9678 [4:35:15<16:42:58,  7.90s/it] 21%|██▏       | 2058/9678 [4:35:24<17:18:29,  8.18s/it] 21%|██▏       | 2059/9678 [4:35:32<17:33:33,  8.30s/it] 21%|██▏       | 2060/9678 [4:35:41<17:41:28,  8.36s/it]                                                        {'loss': 1.1783, 'grad_norm': 1.1503592729568481, 'learning_rate': 0.0004499755386890736, 'epoch': 0.21}
+ 21%|██▏       | 2060/9678 [4:35:41<17:41:28,  8.36s/it] 21%|██▏       | 2061/9678 [4:35:50<17:58:36,  8.50s/it] 21%|██▏       | 2062/9678 [4:36:01<19:41:46,  9.31s/it] 21%|██▏       | 2063/9678 [4:36:08<18:16:03,  8.64s/it] 21%|██▏       | 2064/9678 [4:36:16<18:10:16,  8.59s/it] 21%|██▏       | 2065/9678 [4:36:25<18:24:34,  8.71s/it] 21%|██▏       | 2066/9678 [4:36:35<18:49:12,  8.90s/it] 21%|██▏       | 2067/9678 [4:36:43<18:41:59,  8.84s/it] 21%|██▏       | 2068/9678 [4:36:53<19:11:26,  9.08s/it] 21%|██▏       | 2069/9678 [4:37:01<18:38:03,  8.82s/it] 21%|██▏       | 2070/9678 [4:37:09<17:42:10,  8.38s/it]                                                        {'loss': 1.3331, 'grad_norm': 1.2852717638015747, 'learning_rate': 0.0004494825103047949, 'epoch': 0.21}
+ 21%|██▏       | 2070/9678 [4:37:09<17:42:10,  8.38s/it] 21%|██▏       | 2071/9678 [4:37:17<17:37:13,  8.34s/it] 21%|██▏       | 2072/9678 [4:37:28<19:10:35,  9.08s/it] 21%|██▏       | 2073/9678 [4:37:38<19:40:53,  9.32s/it] 21%|██▏       | 2074/9678 [4:37:46<19:05:08,  9.04s/it] 21%|██▏       | 2075/9678 [4:37:53<17:43:57,  8.40s/it] 21%|██▏       | 2076/9678 [4:38:01<17:22:57,  8.23s/it] 21%|██▏       | 2077/9678 [4:38:08<16:49:17,  7.97s/it] 21%|██▏       | 2078/9678 [4:38:15<16:25:48,  7.78s/it] 21%|██▏       | 2079/9678 [4:38:24<16:45:57,  7.94s/it] 21%|██▏       | 2080/9678 [4:38:32<17:16:26,  8.18s/it]                                                        {'loss': 1.3272, 'grad_norm': 1.2611557245254517, 'learning_rate': 0.0004489873371417534, 'epoch': 0.21}
+ 21%|██▏       | 2080/9678 [4:38:32<17:16:26,  8.18s/it] 22%|██▏       | 2081/9678 [4:38:43<18:42:29,  8.87s/it] 22%|██▏       | 2082/9678 [4:38:49<17:16:35,  8.19s/it] 22%|██▏       | 2083/9678 [4:38:55<15:40:50,  7.43s/it] 22%|██▏       | 2084/9678 [4:39:03<16:04:19,  7.62s/it] 22%|██▏       | 2085/9678 [4:39:12<16:30:06,  7.82s/it] 22%|██▏       | 2086/9678 [4:39:18<15:56:45,  7.56s/it] 22%|██▏       | 2087/9678 [4:39:28<17:03:34,  8.09s/it] 22%|██▏       | 2088/9678 [4:39:37<17:33:09,  8.33s/it] 22%|██▏       | 2089/9678 [4:39:46<18:13:39,  8.65s/it] 22%|██▏       | 2090/9678 [4:39:55<18:09:44,  8.62s/it]                                                        {'loss': 1.1658, 'grad_norm': 1.4016764163970947, 'learning_rate': 0.00044849002452390874, 'epoch': 0.22}
+ 22%|██▏       | 2090/9678 [4:39:55<18:09:44,  8.62s/it] 22%|██▏       | 2091/9678 [4:40:02<17:33:10,  8.33s/it] 22%|██▏       | 2092/9678 [4:40:12<18:13:12,  8.65s/it] 22%|██▏       | 2093/9678 [4:40:20<17:46:46,  8.44s/it] 22%|██▏       | 2094/9678 [4:40:27<17:24:32,  8.26s/it] 22%|██▏       | 2095/9678 [4:40:36<17:36:17,  8.36s/it] 22%|██▏       | 2096/9678 [4:40:44<17:11:39,  8.16s/it] 22%|██▏       | 2097/9678 [4:40:52<17:26:09,  8.28s/it] 22%|██▏       | 2098/9678 [4:41:01<17:57:09,  8.53s/it] 22%|██▏       | 2099/9678 [4:41:10<17:47:31,  8.45s/it] 22%|██▏       | 2100/9678 [4:41:17<17:18:17,  8.22s/it]                                                        {'loss': 1.2651, 'grad_norm': 1.4920654296875, 'learning_rate': 0.0004479905777982238, 'epoch': 0.22}
+ 22%|██▏       | 2100/9678 [4:41:17<17:18:17,  8.22s/it] 22%|██▏       | 2101/9678 [4:41:25<16:57:07,  8.05s/it] 22%|██▏       | 2102/9678 [4:41:32<16:16:30,  7.73s/it] 22%|██▏       | 2103/9678 [4:41:41<16:53:38,  8.03s/it] 22%|██▏       | 2104/9678 [4:41:47<15:46:57,  7.50s/it] 22%|██▏       | 2105/9678 [4:41:55<16:01:45,  7.62s/it] 22%|██▏       | 2106/9678 [4:42:04<17:13:53,  8.19s/it] 22%|██▏       | 2107/9678 [4:42:11<16:10:14,  7.69s/it] 22%|██▏       | 2108/9678 [4:42:20<17:04:37,  8.12s/it] 22%|██▏       | 2109/9678 [4:42:29<17:28:44,  8.31s/it] 22%|██▏       | 2110/9678 [4:42:36<16:51:04,  8.02s/it]                                                        {'loss': 1.2347, 'grad_norm': 1.1262540817260742, 'learning_rate': 0.0004474890023346066, 'epoch': 0.22}
+ 22%|██▏       | 2110/9678 [4:42:36<16:51:04,  8.02s/it] 22%|██▏       | 2111/9678 [4:42:44<16:38:07,  7.91s/it] 22%|██▏       | 2112/9678 [4:42:51<15:51:37,  7.55s/it] 22%|██▏       | 2113/9678 [4:42:57<15:20:52,  7.30s/it] 22%|██▏       | 2114/9678 [4:43:07<16:38:14,  7.92s/it] 22%|██▏       | 2115/9678 [4:43:15<17:02:22,  8.11s/it] 22%|██▏       | 2116/9678 [4:43:24<17:27:02,  8.31s/it] 22%|██▏       | 2117/9678 [4:43:34<18:22:33,  8.75s/it] 22%|██▏       | 2118/9678 [4:43:42<17:59:01,  8.56s/it] 22%|██▏       | 2119/9678 [4:43:49<17:18:43,  8.24s/it] 22%|██▏       | 2120/9678 [4:43:57<17:01:41,  8.11s/it]                                                        {'loss': 1.3167, 'grad_norm': 1.2998685836791992, 'learning_rate': 0.0004469853035258526, 'epoch': 0.22}
+ 22%|██▏       | 2120/9678 [4:43:57<17:01:41,  8.11s/it] 22%|██▏       | 2121/9678 [4:44:05<16:54:25,  8.05s/it] 22%|██▏       | 2122/9678 [4:44:13<16:56:32,  8.07s/it] 22%|██▏       | 2123/9678 [4:44:22<17:15:41,  8.23s/it] 22%|██▏       | 2124/9678 [4:44:29<16:21:01,  7.79s/it] 22%|██▏       | 2125/9678 [4:44:35<15:24:23,  7.34s/it] 22%|██▏       | 2126/9678 [4:44:43<16:03:27,  7.65s/it] 22%|██▏       | 2127/9678 [4:44:53<17:32:59,  8.37s/it] 22%|██▏       | 2128/9678 [4:45:02<17:47:10,  8.48s/it] 22%|██▏       | 2129/9678 [4:45:09<16:39:39,  7.95s/it] 22%|██▏       | 2130/9678 [4:45:17<17:01:55,  8.12s/it]                                                        {'loss': 1.1621, 'grad_norm': 1.0999696254730225, 'learning_rate': 0.0004464794867875871, 'epoch': 0.22}
+ 22%|██▏       | 2130/9678 [4:45:17<17:01:55,  8.12s/it] 22%|██▏       | 2131/9678 [4:45:25<16:32:51,  7.89s/it] 22%|██▏       | 2132/9678 [4:45:31<15:52:37,  7.57s/it] 22%|██▏       | 2133/9678 [4:45:39<15:55:32,  7.60s/it] 22%|██▏       | 2134/9678 [4:45:47<15:56:02,  7.60s/it] 22%|██▏       | 2135/9678 [4:45:55<16:09:23,  7.71s/it] 22%|██▏       | 2136/9678 [4:46:01<15:26:11,  7.37s/it] 22%|██▏       | 2137/9678 [4:46:09<15:33:44,  7.43s/it] 22%|██▏       | 2138/9678 [4:46:19<17:13:35,  8.22s/it] 22%|██▏       | 2139/9678 [4:46:28<17:42:08,  8.45s/it] 22%|██▏       | 2140/9678 [4:46:35<16:52:26,  8.06s/it]                                                        {'loss': 1.1631, 'grad_norm': 0.9801570177078247, 'learning_rate': 0.0004459715575582066, 'epoch': 0.22}
+ 22%|██▏       | 2140/9678 [4:46:35<16:52:26,  8.06s/it] 22%|██▏       | 2141/9678 [4:46:43<16:59:08,  8.11s/it] 22%|██▏       | 2142/9678 [4:46:53<18:01:23,  8.61s/it] 22%|██▏       | 2143/9678 [4:47:00<17:03:11,  8.15s/it] 22%|██▏       | 2144/9678 [4:47:10<18:09:44,  8.68s/it] 22%|██▏       | 2145/9678 [4:47:19<18:14:43,  8.72s/it] 22%|██▏       | 2146/9678 [4:47:25<16:57:58,  8.11s/it] 22%|██▏       | 2147/9678 [4:47:33<16:33:28,  7.92s/it] 22%|██▏       | 2148/9678 [4:47:41<16:36:21,  7.94s/it] 22%|██▏       | 2149/9678 [4:47:49<16:24:10,  7.84s/it] 22%|██▏       | 2150/9678 [4:47:57<16:31:37,  7.90s/it]                                                        {'loss': 1.1256, 'grad_norm': 1.161098837852478, 'learning_rate': 0.00044546152129882054, 'epoch': 0.22}
+ 22%|██▏       | 2150/9678 [4:47:57<16:31:37,  7.90s/it] 22%|██▏       | 2151/9678 [4:48:06<17:45:13,  8.49s/it] 22%|██▏       | 2152/9678 [4:48:14<17:21:54,  8.31s/it] 22%|██▏       | 2153/9678 [4:48:21<16:37:28,  7.95s/it] 22%|██▏       | 2154/9678 [4:48:30<16:41:38,  7.99s/it] 22%|██▏       | 2155/9678 [4:48:37<16:31:04,  7.90s/it] 22%|██▏       | 2156/9678 [4:48:45<16:21:40,  7.83s/it] 22%|██▏       | 2157/9678 [4:48:51<15:30:41,  7.42s/it] 22%|██▏       | 2158/9678 [4:48:59<15:43:40,  7.53s/it] 22%|██▏       | 2159/9678 [4:49:06<15:35:17,  7.46s/it] 22%|██▏       | 2160/9678 [4:49:13<14:44:30,  7.06s/it]                                                        {'loss': 1.1182, 'grad_norm': 1.2714890241622925, 'learning_rate': 0.0004449493834931927, 'epoch': 0.22}
+ 22%|██▏       | 2160/9678 [4:49:13<14:44:30,  7.06s/it] 22%|██▏       | 2161/9678 [4:49:20<15:00:25,  7.19s/it] 22%|██▏       | 2162/9678 [4:49:27<14:36:08,  6.99s/it] 22%|██▏       | 2163/9678 [4:49:35<15:24:01,  7.38s/it] 22%|██▏       | 2164/9678 [4:49:43<15:54:36,  7.62s/it] 22%|██▏       | 2165/9678 [4:49:53<17:10:49,  8.23s/it] 22%|██▏       | 2166/9678 [4:50:04<18:56:30,  9.08s/it] 22%|██▏       | 2167/9678 [4:50:10<17:01:36,  8.16s/it] 22%|██▏       | 2168/9678 [4:50:17<16:29:48,  7.91s/it] 22%|██▏       | 2169/9678 [4:50:25<16:28:16,  7.90s/it] 22%|██▏       | 2170/9678 [4:50:32<16:09:00,  7.74s/it]                                                        {'loss': 1.2051, 'grad_norm': 0.9561129808425903, 'learning_rate': 0.0004444351496476818, 'epoch': 0.22}
+ 22%|██▏       | 2170/9678 [4:50:32<16:09:00,  7.74s/it] 22%|██▏       | 2171/9678 [4:50:39<15:44:34,  7.55s/it] 22%|██▏       | 2172/9678 [4:50:47<15:45:28,  7.56s/it] 22%|██▏       | 2173/9678 [4:50:53<14:52:57,  7.14s/it] 22%|██▏       | 2174/9678 [4:51:02<15:43:36,  7.54s/it] 22%|██▏       | 2175/9678 [4:51:10<15:57:08,  7.65s/it] 22%|██▏       | 2176/9678 [4:51:17<15:51:45,  7.61s/it] 22%|██▏       | 2177/9678 [4:51:24<15:31:00,  7.45s/it] 23%|██▎       | 2178/9678 [4:51:32<15:45:26,  7.56s/it] 23%|██▎       | 2179/9678 [4:51:39<15:12:06,  7.30s/it] 23%|██▎       | 2180/9678 [4:51:46<15:14:24,  7.32s/it]                                                        {'loss': 1.2268, 'grad_norm': 1.3160920143127441, 'learning_rate': 0.0004439188252911828, 'epoch': 0.23}
+ 23%|██▎       | 2180/9678 [4:51:46<15:14:24,  7.32s/it] 23%|██▎       | 2181/9678 [4:51:53<15:09:44,  7.28s/it] 23%|██▎       | 2182/9678 [4:52:01<15:29:25,  7.44s/it] 23%|██▎       | 2183/9678 [4:52:08<14:52:50,  7.15s/it] 23%|██▎       | 2184/9678 [4:52:16<15:29:47,  7.44s/it] 23%|██▎       | 2185/9678 [4:52:24<15:48:50,  7.60s/it] 23%|██▎       | 2186/9678 [4:52:31<15:50:21,  7.61s/it] 23%|██▎       | 2187/9678 [4:52:39<16:02:25,  7.71s/it] 23%|██▎       | 2188/9678 [4:52:47<15:55:13,  7.65s/it] 23%|██▎       | 2189/9678 [4:52:56<16:51:11,  8.10s/it] 23%|██▎       | 2190/9678 [4:53:07<18:41:59,  8.99s/it]                                                        {'loss': 1.1928, 'grad_norm': 1.1478712558746338, 'learning_rate': 0.0004434004159750671, 'epoch': 0.23}
+ 23%|██▎       | 2190/9678 [4:53:07<18:41:59,  8.99s/it] 23%|██▎       | 2191/9678 [4:53:14<17:44:26,  8.53s/it] 23%|██▎       | 2192/9678 [4:53:22<16:52:13,  8.11s/it] 23%|██▎       | 2193/9678 [4:53:30<16:52:04,  8.11s/it] 23%|██▎       | 2194/9678 [4:53:35<15:14:57,  7.34s/it] 23%|██▎       | 2195/9678 [4:53:42<14:39:26,  7.05s/it] 23%|██▎       | 2196/9678 [4:53:51<16:07:34,  7.76s/it] 23%|██▎       | 2197/9678 [4:53:59<16:07:19,  7.76s/it] 23%|██▎       | 2198/9678 [4:54:07<16:19:35,  7.86s/it] 23%|██▎       | 2199/9678 [4:54:15<16:46:24,  8.07s/it] 23%|██▎       | 2200/9678 [4:54:22<15:46:46,  7.60s/it]                                                        {'loss': 1.1548, 'grad_norm': 1.2426934242248535, 'learning_rate': 0.0004428799272731231, 'epoch': 0.23}
+ 23%|██▎       | 2200/9678 [4:54:22<15:46:46,  7.60s/it] 23%|██▎       | 2201/9678 [4:54:30<15:47:39,  7.60s/it] 23%|██▎       | 2202/9678 [4:54:37<15:46:40,  7.60s/it] 23%|██▎       | 2203/9678 [4:54:46<16:30:32,  7.95s/it] 23%|██▎       | 2204/9678 [4:54:54<16:37:58,  8.01s/it] 23%|██▎       | 2205/9678 [4:55:02<16:42:58,  8.05s/it] 23%|██▎       | 2206/9678 [4:55:10<16:26:32,  7.92s/it] 23%|██▎       | 2207/9678 [4:55:17<16:13:47,  7.82s/it] 23%|██▎       | 2208/9678 [4:55:24<15:45:12,  7.59s/it] 23%|██▎       | 2209/9678 [4:55:31<15:19:22,  7.39s/it] 23%|██▎       | 2210/9678 [4:55:39<15:29:56,  7.47s/it]                                                        {'loss': 1.1371, 'grad_norm': 1.3587703704833984, 'learning_rate': 0.0004423573647814961, 'epoch': 0.23}
+ 23%|██▎       | 2210/9678 [4:55:39<15:29:56,  7.47s/it] 23%|██▎       | 2211/9678 [4:55:45<14:30:39,  7.00s/it] 23%|██▎       | 2212/9678 [4:55:54<15:50:34,  7.64s/it] 23%|██▎       | 2213/9678 [4:56:01<15:20:20,  7.40s/it] 23%|██▎       | 2214/9678 [4:56:09<16:04:47,  7.76s/it] 23%|██▎       | 2215/9678 [4:56:18<16:20:54,  7.89s/it] 23%|██▎       | 2216/9678 [4:56:25<16:17:21,  7.86s/it] 23%|██▎       | 2217/9678 [4:56:33<16:12:30,  7.82s/it] 23%|██▎       | 2218/9678 [4:56:42<16:46:44,  8.10s/it] 23%|██▎       | 2219/9678 [4:56:50<16:44:06,  8.08s/it] 23%|██▎       | 2220/9678 [4:56:59<17:37:09,  8.50s/it]                                                        {'loss': 1.1668, 'grad_norm': 1.0638786554336548, 'learning_rate': 0.0004418327341186282, 'epoch': 0.23}
+ 23%|██▎       | 2220/9678 [4:56:59<17:37:09,  8.50s/it] 23%|██▎       | 2221/9678 [4:57:07<17:11:46,  8.30s/it] 23%|██▎       | 2222/9678 [4:57:15<16:46:48,  8.10s/it] 23%|██▎       | 2223/9678 [4:57:23<16:34:50,  8.01s/it] 23%|██▎       | 2224/9678 [4:57:32<17:04:41,  8.25s/it] 23%|██▎       | 2225/9678 [4:57:39<16:42:50,  8.07s/it] 23%|██▎       | 2226/9678 [4:57:47<16:26:09,  7.94s/it] 23%|██▎       | 2227/9678 [4:57:56<17:13:21,  8.32s/it] 23%|██▎       | 2228/9678 [4:58:05<17:39:24,  8.53s/it] 23%|██▎       | 2229/9678 [4:58:13<17:16:45,  8.35s/it] 23%|██▎       | 2230/9678 [4:58:21<17:16:47,  8.35s/it]                                                        {'loss': 1.1524, 'grad_norm': 1.1600587368011475, 'learning_rate': 0.00044130604092519794, 'epoch': 0.23}
+ 23%|██▎       | 2230/9678 [4:58:21<17:16:47,  8.35s/it] 23%|██▎       | 2231/9678 [4:58:31<17:49:14,  8.61s/it] 23%|██▎       | 2232/9678 [4:58:39<17:43:32,  8.57s/it] 23%|██▎       | 2233/9678 [4:58:47<17:24:16,  8.42s/it] 23%|██▎       | 2234/9678 [4:58:54<16:19:40,  7.90s/it] 23%|██▎       | 2235/9678 [4:59:00<15:22:27,  7.44s/it] 23%|██▎       | 2236/9678 [4:59:09<16:21:04,  7.91s/it] 23%|██▎       | 2237/9678 [4:59:17<16:21:56,  7.92s/it] 23%|██▎       | 2238/9678 [4:59:24<15:52:38,  7.68s/it] 23%|██▎       | 2239/9678 [4:59:31<15:16:18,  7.39s/it] 23%|██▎       | 2240/9678 [4:59:39<15:35:14,  7.54s/it]                                                        {'loss': 1.3963, 'grad_norm': 1.402921199798584, 'learning_rate': 0.0004407772908640595, 'epoch': 0.23}
+ 23%|██▎       | 2240/9678 [4:59:39<15:35:14,  7.54s/it] 23%|██▎       | 2241/9678 [4:59:47<15:49:37,  7.66s/it] 23%|██▎       | 2242/9678 [4:59:54<15:20:33,  7.43s/it] 23%|██▎       | 2243/9678 [5:00:00<14:44:44,  7.14s/it] 23%|██▎       | 2244/9678 [5:00:07<14:42:08,  7.12s/it] 23%|██▎       | 2245/9678 [5:00:14<14:45:42,  7.15s/it] 23%|██▎       | 2246/9678 [5:00:24<16:17:21,  7.89s/it] 23%|██▎       | 2247/9678 [5:00:31<15:35:48,  7.56s/it] 23%|██▎       | 2248/9678 [5:00:39<16:17:58,  7.90s/it] 23%|██▎       | 2249/9678 [5:00:46<15:39:35,  7.59s/it] 23%|██▎       | 2250/9678 [5:00:54<15:24:10,  7.47s/it]                                                        {'loss': 1.2359, 'grad_norm': 1.3043389320373535, 'learning_rate': 0.00044024648962018184, 'epoch': 0.23}
+ 23%|██▎       | 2250/9678 [5:00:54<15:24:10,  7.47s/it] 23%|██▎       | 2251/9678 [5:01:02<16:09:17,  7.83s/it] 23%|██▎       | 2252/9678 [5:01:11<16:35:13,  8.04s/it] 23%|██▎       | 2253/9678 [5:01:20<17:32:12,  8.50s/it] 23%|██▎       | 2254/9678 [5:01:26<15:56:51,  7.73s/it] 23%|██▎       | 2255/9678 [5:01:34<15:57:40,  7.74s/it] 23%|██▎       | 2256/9678 [5:01:41<15:37:24,  7.58s/it] 23%|██▎       | 2257/9678 [5:01:49<15:55:15,  7.72s/it] 23%|██▎       | 2258/9678 [5:01:58<16:26:10,  7.97s/it] 23%|██▎       | 2259/9678 [5:02:05<16:13:38,  7.87s/it] 23%|██▎       | 2260/9678 [5:02:14<16:41:01,  8.10s/it]                                                        {'loss': 1.366, 'grad_norm': 1.1807844638824463, 'learning_rate': 0.0004397136429005879, 'epoch': 0.23}
+ 23%|██▎       | 2260/9678 [5:02:14<16:41:01,  8.10s/it] 23%|██▎       | 2261/9678 [5:02:22<16:39:08,  8.08s/it] 23%|██▎       | 2262/9678 [5:02:30<16:41:43,  8.10s/it] 23%|██▎       | 2263/9678 [5:02:37<15:53:02,  7.71s/it] 23%|██▎       | 2264/9678 [5:02:47<17:02:06,  8.27s/it] 23%|██▎       | 2265/9678 [5:02:55<17:06:20,  8.31s/it] 23%|██▎       | 2266/9678 [5:03:03<17:04:31,  8.29s/it] 23%|██▎       | 2267/9678 [5:03:11<16:54:38,  8.21s/it] 23%|██▎       | 2268/9678 [5:03:20<17:17:24,  8.40s/it] 23%|██▎       | 2269/9678 [5:03:26<15:55:10,  7.74s/it] 23%|██▎       | 2270/9678 [5:03:34<16:03:30,  7.80s/it]                                                        {'loss': 1.234, 'grad_norm': 1.397064208984375, 'learning_rate': 0.00043917875643429284, 'epoch': 0.23}
+ 23%|██▎       | 2270/9678 [5:03:34<16:03:30,  7.80s/it] 23%|██▎       | 2271/9678 [5:03:42<15:57:53,  7.76s/it] 23%|██▎       | 2272/9678 [5:03:50<15:52:58,  7.72s/it] 23%|██▎       | 2273/9678 [5:03:58<16:23:27,  7.97s/it] 23%|██▎       | 2274/9678 [5:04:05<15:33:41,  7.57s/it] 24%|██▎       | 2275/9678 [5:04:12<15:22:41,  7.48s/it] 24%|██▎       | 2276/9678 [5:04:19<15:07:51,  7.36s/it] 24%|██▎       | 2277/9678 [5:04:28<15:51:55,  7.72s/it] 24%|██▎       | 2278/9678 [5:04:35<15:28:37,  7.53s/it] 24%|██▎       | 2279/9678 [5:04:43<15:40:10,  7.62s/it] 24%|██▎       | 2280/9678 [5:04:50<15:40:35,  7.63s/it]                                                        {'loss': 1.1863, 'grad_norm': 1.3520923852920532, 'learning_rate': 0.0004386418359722426, 'epoch': 0.24}
+ 24%|██▎       | 2280/9678 [5:04:50<15:40:35,  7.63s/it] 24%|██▎       | 2281/9678 [5:04:57<15:20:17,  7.46s/it] 24%|██▎       | 2282/9678 [5:05:06<15:58:43,  7.78s/it] 24%|██▎       | 2283/9678 [5:05:15<16:31:36,  8.05s/it] 24%|██▎       | 2284/9678 [5:05:23<16:40:40,  8.12s/it] 24%|██▎       | 2285/9678 [5:05:30<15:49:30,  7.71s/it] 24%|██▎       | 2286/9678 [5:05:38<16:27:30,  8.02s/it] 24%|██▎       | 2287/9678 [5:05:45<15:23:37,  7.50s/it] 24%|██▎       | 2288/9678 [5:05:54<16:20:23,  7.96s/it] 24%|██▎       | 2289/9678 [5:06:00<15:34:17,  7.59s/it] 24%|██▎       | 2290/9678 [5:06:06<14:16:22,  6.95s/it]                                                        {'loss': 1.3008, 'grad_norm': 1.3684437274932861, 'learning_rate': 0.00043810288728725203, 'epoch': 0.24}
+ 24%|██▎       | 2290/9678 [5:06:06<14:16:22,  6.95s/it] 24%|██▎       | 2291/9678 [5:06:13<14:39:03,  7.14s/it] 24%|██▎       | 2292/9678 [5:06:22<15:18:09,  7.46s/it] 24%|██▎       | 2293/9678 [5:06:30<16:08:11,  7.87s/it] 24%|██▎       | 2294/9678 [5:06:38<16:02:55,  7.82s/it] 24%|██▎       | 2295/9678 [5:06:48<17:02:13,  8.31s/it] 24%|██▎       | 2296/9678 [5:06:54<15:47:55,  7.70s/it] 24%|██▎       | 2297/9678 [5:07:01<15:36:05,  7.61s/it] 24%|██▎       | 2298/9678 [5:07:07<14:40:19,  7.16s/it] 24%|██▍       | 2299/9678 [5:07:16<15:35:33,  7.61s/it] 24%|██▍       | 2300/9678 [5:07:23<15:07:54,  7.38s/it]                                                        {'loss': 1.0295, 'grad_norm': 1.1893550157546997, 'learning_rate': 0.0004375619161739428, 'epoch': 0.24}
+ 24%|██▍       | 2300/9678 [5:07:23<15:07:54,  7.38s/it] 24%|██▍       | 2301/9678 [5:07:32<16:16:49,  7.94s/it] 24%|██▍       | 2302/9678 [5:07:43<18:07:24,  8.85s/it] 24%|██▍       | 2303/9678 [5:07:53<18:29:46,  9.03s/it] 24%|██▍       | 2304/9678 [5:07:59<17:07:12,  8.36s/it] 24%|██▍       | 2305/9678 [5:08:06<16:10:21,  7.90s/it] 24%|██▍       | 2306/9678 [5:08:15<16:40:20,  8.14s/it] 24%|██▍       | 2307/9678 [5:08:22<15:55:52,  7.78s/it] 24%|██▍       | 2308/9678 [5:08:30<16:09:43,  7.89s/it] 24%|██▍       | 2309/9678 [5:08:37<15:51:55,  7.75s/it] 24%|██▍       | 2310/9678 [5:08:45<15:54:34,  7.77s/it]                                                        {'loss': 1.2778, 'grad_norm': 1.57694673538208, 'learning_rate': 0.0004370189284486814, 'epoch': 0.24}
+ 24%|██▍       | 2310/9678 [5:08:45<15:54:34,  7.77s/it] 24%|██▍       | 2311/9678 [5:08:54<16:45:19,  8.19s/it] 24%|██▍       | 2312/9678 [5:09:02<16:27:33,  8.04s/it] 24%|██▍       | 2313/9678 [5:09:10<16:17:08,  7.96s/it] 24%|██▍       | 2314/9678 [5:09:19<16:44:41,  8.19s/it] 24%|██▍       | 2315/9678 [5:09:27<16:35:57,  8.12s/it] 24%|██▍       | 2316/9678 [5:09:33<15:49:30,  7.74s/it] 24%|██▍       | 2317/9678 [5:09:42<16:26:03,  8.04s/it] 24%|██▍       | 2318/9678 [5:09:52<17:48:28,  8.71s/it] 24%|██▍       | 2319/9678 [5:10:01<17:40:53,  8.65s/it] 24%|██▍       | 2320/9678 [5:10:12<19:13:16,  9.40s/it]                                                        {'loss': 1.0583, 'grad_norm': 1.601629376411438, 'learning_rate': 0.0004364739299495162, 'epoch': 0.24}
+ 24%|██▍       | 2320/9678 [5:10:12<19:13:16,  9.40s/it] 24%|██▍       | 2321/9678 [5:10:23<20:00:49,  9.79s/it] 24%|██▍       | 2322/9678 [5:10:31<18:58:58,  9.29s/it] 24%|██▍       | 2323/9678 [5:10:38<17:43:59,  8.68s/it] 24%|██▍       | 2324/9678 [5:10:45<16:22:18,  8.01s/it] 24%|██▍       | 2325/9678 [5:10:53<16:37:22,  8.14s/it] 24%|██▍       | 2326/9678 [5:11:01<16:12:40,  7.94s/it] 24%|██▍       | 2327/9678 [5:11:07<15:22:10,  7.53s/it] 24%|██▍       | 2328/9678 [5:11:13<14:29:21,  7.10s/it] 24%|██▍       | 2329/9678 [5:11:21<15:05:59,  7.40s/it] 24%|██▍       | 2330/9678 [5:11:27<14:16:04,  6.99s/it]                                                        {'loss': 1.201, 'grad_norm': 1.3246372938156128, 'learning_rate': 0.00043592692653611465, 'epoch': 0.24}
+ 24%|██▍       | 2330/9678 [5:11:27<14:16:04,  6.99s/it] 24%|██▍       | 2331/9678 [5:11:35<14:35:06,  7.15s/it] 24%|██▍       | 2332/9678 [5:11:42<14:36:20,  7.16s/it] 24%|██▍       | 2333/9678 [5:11:49<14:27:26,  7.09s/it] 24%|██▍       | 2334/9678 [5:11:56<14:27:25,  7.09s/it] 24%|██▍       | 2335/9678 [5:12:04<14:47:12,  7.25s/it] 24%|██▍       | 2336/9678 [5:12:10<14:15:12,  6.99s/it] 24%|██▍       | 2337/9678 [5:12:16<13:53:54,  6.82s/it] 24%|██▍       | 2338/9678 [5:12:23<13:54:16,  6.82s/it] 24%|██▍       | 2339/9678 [5:12:30<14:06:16,  6.92s/it] 24%|██▍       | 2340/9678 [5:12:40<15:26:11,  7.57s/it]                                                        {'loss': 1.3127, 'grad_norm': 1.020665168762207, 'learning_rate': 0.0004353779240897008, 'epoch': 0.24}
+ 24%|██▍       | 2340/9678 [5:12:40<15:26:11,  7.57s/it] 24%|██▍       | 2341/9678 [5:12:49<16:42:18,  8.20s/it] 24%|██▍       | 2342/9678 [5:12:56<15:58:52,  7.84s/it] 24%|██▍       | 2343/9678 [5:13:05<16:35:38,  8.14s/it] 24%|██▍       | 2344/9678 [5:13:14<17:15:30,  8.47s/it] 24%|██▍       | 2345/9678 [5:13:23<17:31:29,  8.60s/it] 24%|██▍       | 2346/9678 [5:13:31<17:03:54,  8.38s/it] 24%|██▍       | 2347/9678 [5:13:38<16:29:37,  8.10s/it] 24%|██▍       | 2348/9678 [5:13:47<16:50:04,  8.27s/it] 24%|██▍       | 2349/9678 [5:13:55<16:52:32,  8.29s/it] 24%|██▍       | 2350/9678 [5:14:03<16:27:25,  8.08s/it]                                                        {'loss': 1.225, 'grad_norm': 1.082587480545044, 'learning_rate': 0.00043482692851299146, 'epoch': 0.24}
+ 24%|██▍       | 2350/9678 [5:14:03<16:27:25,  8.08s/it] 24%|██▍       | 2351/9678 [5:14:11<16:06:16,  7.91s/it] 24%|██▍       | 2352/9678 [5:14:17<15:19:31,  7.53s/it] 24%|██▍       | 2353/9678 [5:14:24<14:49:21,  7.28s/it] 24%|██▍       | 2354/9678 [5:14:31<14:40:04,  7.21s/it] 24%|██▍       | 2355/9678 [5:14:39<14:58:21,  7.36s/it] 24%|██▍       | 2356/9678 [5:14:46<14:55:38,  7.34s/it] 24%|██▍       | 2357/9678 [5:14:54<15:35:18,  7.67s/it] 24%|██▍       | 2358/9678 [5:15:02<15:50:25,  7.79s/it] 24%|██▍       | 2359/9678 [5:15:10<15:51:16,  7.80s/it] 24%|██▍       | 2360/9678 [5:15:18<15:47:21,  7.77s/it]                                                        {'loss': 1.0587, 'grad_norm': 1.093636155128479, 'learning_rate': 0.00043427394573013314, 'epoch': 0.24}
+ 24%|██▍       | 2360/9678 [5:15:18<15:47:21,  7.77s/it] 24%|██▍       | 2361/9678 [5:15:26<16:09:44,  7.95s/it] 24%|██▍       | 2362/9678 [5:15:33<15:31:02,  7.64s/it] 24%|██▍       | 2363/9678 [5:15:41<15:26:23,  7.60s/it] 24%|██▍       | 2364/9678 [5:15:50<16:20:01,  8.04s/it] 24%|██▍       | 2365/9678 [5:15:56<15:21:18,  7.56s/it] 24%|██▍       | 2366/9678 [5:16:04<15:28:47,  7.62s/it] 24%|██▍       | 2367/9678 [5:16:12<15:48:03,  7.78s/it] 24%|██▍       | 2368/9678 [5:16:20<15:41:24,  7.73s/it] 24%|██▍       | 2369/9678 [5:16:29<16:20:19,  8.05s/it] 24%|██▍       | 2370/9678 [5:16:36<15:49:39,  7.80s/it]                                                        {'loss': 1.2375, 'grad_norm': 1.3400568962097168, 'learning_rate': 0.00043371898168663816, 'epoch': 0.24}
+ 24%|██▍       | 2370/9678 [5:16:36<15:49:39,  7.80s/it] 24%|██▍       | 2371/9678 [5:16:44<16:01:37,  7.90s/it] 25%|██▍       | 2372/9678 [5:16:53<16:50:11,  8.30s/it] 25%|██▍       | 2373/9678 [5:17:00<15:40:58,  7.73s/it] 25%|██▍       | 2374/9678 [5:17:07<15:37:13,  7.70s/it] 25%|██▍       | 2375/9678 [5:17:15<15:27:18,  7.62s/it] 25%|██▍       | 2376/9678 [5:17:23<16:09:00,  7.96s/it] 25%|██▍       | 2377/9678 [5:17:35<18:21:21,  9.05s/it] 25%|██▍       | 2378/9678 [5:17:42<17:15:20,  8.51s/it] 25%|██▍       | 2379/9678 [5:17:49<16:20:46,  8.06s/it] 25%|██▍       | 2380/9678 [5:17:58<16:36:42,  8.19s/it]                                                        {'loss': 1.3076, 'grad_norm': 1.223877191543579, 'learning_rate': 0.00043316204234932084, 'epoch': 0.25}
+ 25%|██▍       | 2380/9678 [5:17:58<16:36:42,  8.19s/it] 25%|██▍       | 2381/9678 [5:18:06<16:30:01,  8.14s/it] 25%|██▍       | 2382/9678 [5:18:14<16:44:27,  8.26s/it] 25%|██▍       | 2383/9678 [5:18:23<16:59:29,  8.39s/it] 25%|██▍       | 2384/9678 [5:18:30<16:07:51,  7.96s/it] 25%|██▍       | 2385/9678 [5:18:37<15:20:14,  7.57s/it] 25%|██▍       | 2386/9678 [5:18:43<14:19:29,  7.07s/it] 25%|██▍       | 2387/9678 [5:18:49<14:13:10,  7.02s/it] 25%|██▍       | 2388/9678 [5:18:58<15:17:19,  7.55s/it] 25%|██▍       | 2389/9678 [5:19:08<16:25:37,  8.11s/it] 25%|██▍       | 2390/9678 [5:19:15<15:41:49,  7.75s/it]                                                        {'loss': 1.251, 'grad_norm': 1.4696872234344482, 'learning_rate': 0.0004326031337062333, 'epoch': 0.25}
+ 25%|██▍       | 2390/9678 [5:19:15<15:41:49,  7.75s/it] 25%|██▍       | 2391/9678 [5:19:22<15:13:31,  7.52s/it] 25%|██▍       | 2392/9678 [5:19:31<16:05:29,  7.95s/it] 25%|██▍       | 2393/9678 [5:19:39<16:15:17,  8.03s/it] 25%|██▍       | 2394/9678 [5:19:45<15:21:54,  7.59s/it] 25%|██▍       | 2395/9678 [5:19:54<16:15:17,  8.03s/it] 25%|██▍       | 2396/9678 [5:20:04<16:58:28,  8.39s/it] 25%|██▍       | 2397/9678 [5:20:11<16:17:01,  8.05s/it] 25%|██▍       | 2398/9678 [5:20:18<15:52:43,  7.85s/it] 25%|██▍       | 2399/9678 [5:20:27<16:33:08,  8.19s/it] 25%|██▍       | 2400/9678 [5:20:33<15:06:24,  7.47s/it]                                                        {'loss': 1.2215, 'grad_norm': 1.3883171081542969, 'learning_rate': 0.00043204226176660107, 'epoch': 0.25}
+ 25%|██▍       | 2400/9678 [5:20:33<15:06:24,  7.47s/it] 25%|██▍       | 2401/9678 [5:20:41<15:31:47,  7.68s/it] 25%|██▍       | 2402/9678 [5:20:50<15:55:59,  7.88s/it] 25%|██▍       | 2403/9678 [5:20:58<16:12:08,  8.02s/it] 25%|██▍       | 2404/9678 [5:21:05<15:52:29,  7.86s/it] 25%|██▍       | 2405/9678 [5:21:11<14:46:53,  7.32s/it] 25%|██▍       | 2406/9678 [5:21:21<15:57:25,  7.90s/it] 25%|██▍       | 2407/9678 [5:21:28<15:28:51,  7.66s/it] 25%|██▍       | 2408/9678 [5:21:34<14:30:45,  7.19s/it] 25%|██▍       | 2409/9678 [5:21:41<14:42:03,  7.28s/it] 25%|██▍       | 2410/9678 [5:21:49<14:49:56,  7.35s/it]                                                        {'loss': 1.1014, 'grad_norm': 1.1045054197311401, 'learning_rate': 0.0004314794325607584, 'epoch': 0.25}
+ 25%|██▍       | 2410/9678 [5:21:49<14:49:56,  7.35s/it] 25%|██▍       | 2411/9678 [5:21:57<15:35:02,  7.72s/it] 25%|██▍       | 2412/9678 [5:22:05<15:28:13,  7.66s/it] 25%|██▍       | 2413/9678 [5:22:13<15:26:31,  7.65s/it] 25%|██▍       | 2414/9678 [5:22:20<15:19:47,  7.60s/it] 25%|██▍       | 2415/9678 [5:22:28<15:32:38,  7.70s/it] 25%|██▍       | 2416/9678 [5:22:36<15:49:19,  7.84s/it] 25%|██▍       | 2417/9678 [5:22:43<15:15:31,  7.57s/it] 25%|██▍       | 2418/9678 [5:22:52<15:46:02,  7.82s/it] 25%|██▍       | 2419/9678 [5:22:59<15:36:00,  7.74s/it] 25%|██▌       | 2420/9678 [5:23:07<15:34:37,  7.73s/it]                                                        {'loss': 1.0845, 'grad_norm': 1.273431658744812, 'learning_rate': 0.00043091465214008354, 'epoch': 0.25}
+ 25%|██▌       | 2420/9678 [5:23:07<15:34:37,  7.73s/it] 25%|██▌       | 2421/9678 [5:23:15<16:10:12,  8.02s/it] 25%|██▌       | 2422/9678 [5:23:24<16:16:17,  8.07s/it] 25%|██▌       | 2423/9678 [5:23:34<17:39:22,  8.76s/it] 25%|██▌       | 2424/9678 [5:23:44<18:11:48,  9.03s/it] 25%|██▌       | 2425/9678 [5:23:50<16:49:38,  8.35s/it] 25%|██▌       | 2426/9678 [5:23:58<16:17:46,  8.09s/it] 25%|██▌       | 2427/9678 [5:24:06<16:06:06,  7.99s/it] 25%|██▌       | 2428/9678 [5:24:13<15:49:05,  7.85s/it] 25%|██▌       | 2429/9678 [5:24:20<15:07:45,  7.51s/it] 25%|██▌       | 2430/9678 [5:24:27<15:04:00,  7.48s/it]                                                        {'loss': 1.1162, 'grad_norm': 1.0618531703948975, 'learning_rate': 0.0004303479265769337, 'epoch': 0.25}
+ 25%|██▌       | 2430/9678 [5:24:27<15:04:00,  7.48s/it] 25%|██▌       | 2431/9678 [5:24:36<15:35:23,  7.74s/it] 25%|██▌       | 2432/9678 [5:24:45<16:16:53,  8.09s/it] 25%|██▌       | 2433/9678 [5:24:53<16:21:33,  8.13s/it] 25%|██▌       | 2434/9678 [5:25:02<17:13:22,  8.56s/it] 25%|██▌       | 2435/9678 [5:25:10<16:47:15,  8.34s/it] 25%|██▌       | 2436/9678 [5:25:20<17:21:16,  8.63s/it] 25%|██▌       | 2437/9678 [5:25:27<16:53:10,  8.40s/it] 25%|██▌       | 2438/9678 [5:25:35<16:17:14,  8.10s/it] 25%|██▌       | 2439/9678 [5:25:42<15:57:47,  7.94s/it] 25%|██▌       | 2440/9678 [5:25:50<15:32:40,  7.73s/it]                                                        {'loss': 1.0385, 'grad_norm': 1.3230130672454834, 'learning_rate': 0.0004297792619645797, 'epoch': 0.25}
+ 25%|██▌       | 2440/9678 [5:25:50<15:32:40,  7.73s/it] 25%|██▌       | 2441/9678 [5:25:58<15:49:16,  7.87s/it] 25%|██▌       | 2442/9678 [5:26:06<15:52:56,  7.90s/it] 25%|██▌       | 2443/9678 [5:26:17<17:36:14,  8.76s/it] 25%|██▌       | 2444/9678 [5:26:25<17:14:10,  8.58s/it] 25%|██▌       | 2445/9678 [5:26:32<16:40:06,  8.30s/it] 25%|██▌       | 2446/9678 [5:26:43<18:01:03,  8.97s/it] 25%|██▌       | 2447/9678 [5:26:52<17:55:27,  8.92s/it] 25%|██▌       | 2448/9678 [5:26:58<16:31:45,  8.23s/it] 25%|██▌       | 2449/9678 [5:27:06<16:22:12,  8.15s/it] 25%|██▌       | 2450/9678 [5:27:14<16:15:51,  8.10s/it]                                                        {'loss': 1.1548, 'grad_norm': 1.3020095825195312, 'learning_rate': 0.0004292086644171403, 'epoch': 0.25}
+ 25%|██▌       | 2450/9678 [5:27:14<16:15:51,  8.10s/it] 25%|██▌       | 2451/9678 [5:27:22<15:57:25,  7.95s/it] 25%|██▌       | 2452/9678 [5:27:31<16:57:32,  8.45s/it] 25%|██▌       | 2453/9678 [5:27:39<16:33:12,  8.25s/it] 25%|██▌       | 2454/9678 [5:27:44<14:43:00,  7.33s/it] 25%|██▌       | 2455/9678 [5:27:53<15:22:13,  7.66s/it] 25%|██▌       | 2456/9678 [5:28:01<15:33:01,  7.75s/it] 25%|██▌       | 2457/9678 [5:28:09<15:50:42,  7.90s/it] 25%|██▌       | 2458/9678 [5:28:16<15:09:41,  7.56s/it] 25%|██▌       | 2459/9678 [5:28:24<15:31:48,  7.74s/it] 25%|██▌       | 2460/9678 [5:28:32<15:33:20,  7.76s/it]                                                        {'loss': 1.3534, 'grad_norm': 1.3359605073928833, 'learning_rate': 0.0004286361400695169, 'epoch': 0.25}
+ 25%|██▌       | 2460/9678 [5:28:32<15:33:20,  7.76s/it] 25%|██▌       | 2461/9678 [5:28:39<15:09:35,  7.56s/it] 25%|██▌       | 2462/9678 [5:28:46<15:03:46,  7.51s/it] 25%|██▌       | 2463/9678 [5:28:53<14:30:27,  7.24s/it] 25%|██▌       | 2464/9678 [5:29:02<15:29:44,  7.73s/it] 25%|██▌       | 2465/9678 [5:29:10<15:37:28,  7.80s/it] 25%|██▌       | 2466/9678 [5:29:17<15:14:56,  7.61s/it] 25%|██▌       | 2467/9678 [5:29:26<15:50:44,  7.91s/it] 26%|██▌       | 2468/9678 [5:29:34<15:57:11,  7.97s/it] 26%|██▌       | 2469/9678 [5:29:43<16:30:17,  8.24s/it] 26%|██▌       | 2470/9678 [5:29:50<16:17:51,  8.14s/it]                                                        {'loss': 1.2432, 'grad_norm': 0.9598666429519653, 'learning_rate': 0.00042806169507732706, 'epoch': 0.26}
+ 26%|██▌       | 2470/9678 [5:29:50<16:17:51,  8.14s/it] 26%|██▌       | 2471/9678 [5:29:59<16:17:11,  8.14s/it] 26%|██▌       | 2472/9678 [5:30:08<16:52:21,  8.43s/it] 26%|██▌       | 2473/9678 [5:30:16<16:49:08,  8.40s/it] 26%|██▌       | 2474/9678 [5:30:23<15:57:37,  7.98s/it] 26%|██▌       | 2475/9678 [5:30:31<15:53:33,  7.94s/it] 26%|██▌       | 2476/9678 [5:30:38<15:39:09,  7.82s/it] 26%|██▌       | 2477/9678 [5:30:47<16:09:21,  8.08s/it] 26%|██▌       | 2478/9678 [5:30:54<15:41:26,  7.85s/it] 26%|██▌       | 2479/9678 [5:31:03<16:01:54,  8.02s/it] 26%|██▌       | 2480/9678 [5:31:12<17:02:58,  8.53s/it]                                                        {'loss': 1.2512, 'grad_norm': 0.9668743014335632, 'learning_rate': 0.00042748533561683865, 'epoch': 0.26}
+ 26%|██▌       | 2480/9678 [5:31:12<17:02:58,  8.53s/it] 26%|██▌       | 2481/9678 [5:31:20<16:10:10,  8.09s/it] 26%|██▌       | 2482/9678 [5:31:29<16:57:30,  8.48s/it] 26%|██▌       | 2483/9678 [5:31:37<16:41:22,  8.35s/it] 26%|██▌       | 2484/9678 [5:31:45<16:31:40,  8.27s/it] 26%|██▌       | 2485/9678 [5:31:54<16:48:50,  8.42s/it] 26%|██▌       | 2486/9678 [5:32:03<17:14:34,  8.63s/it] 26%|██▌       | 2487/9678 [5:32:11<16:42:58,  8.37s/it] 26%|██▌       | 2488/9678 [5:32:19<16:56:04,  8.48s/it] 26%|██▌       | 2489/9678 [5:32:26<15:34:57,  7.80s/it] 26%|██▌       | 2490/9678 [5:32:34<15:51:32,  7.94s/it]                                                        {'loss': 1.136, 'grad_norm': 1.0706520080566406, 'learning_rate': 0.0004269070678849034, 'epoch': 0.26}
+ 26%|██▌       | 2490/9678 [5:32:34<15:51:32,  7.94s/it] 26%|██▌       | 2491/9678 [5:32:43<16:24:32,  8.22s/it] 26%|██▌       | 2492/9678 [5:32:52<17:16:19,  8.65s/it] 26%|██▌       | 2493/9678 [5:33:02<17:33:25,  8.80s/it] 26%|██▌       | 2494/9678 [5:33:08<16:08:57,  8.09s/it] 26%|██▌       | 2495/9678 [5:33:15<15:11:44,  7.62s/it] 26%|██▌       | 2496/9678 [5:33:23<15:23:42,  7.72s/it] 26%|██▌       | 2497/9678 [5:33:32<16:26:26,  8.24s/it] 26%|██▌       | 2498/9678 [5:33:40<16:11:47,  8.12s/it] 26%|██▌       | 2499/9678 [5:33:48<15:58:23,  8.01s/it] 26%|██▌       | 2500/9678 [5:33:57<16:49:21,  8.44s/it]                                                        {'loss': 1.1211, 'grad_norm': 1.0470647811889648, 'learning_rate': 0.00042632689809889027, 'epoch': 0.26}
+ 26%|██▌       | 2500/9678 [5:33:57<16:49:21,  8.44s/it] 26%|██▌       | 2501/9678 [5:34:05<16:21:51,  8.21s/it] 26%|██▌       | 2502/9678 [5:34:14<16:57:51,  8.51s/it] 26%|██▌       | 2503/9678 [5:34:20<15:34:40,  7.82s/it] 26%|██▌       | 2504/9678 [5:34:28<15:46:35,  7.92s/it] 26%|██▌       | 2505/9678 [5:34:34<14:41:16,  7.37s/it] 26%|██▌       | 2506/9678 [5:34:43<15:25:10,  7.74s/it] 26%|██▌       | 2507/9678 [5:34:51<15:45:16,  7.91s/it] 26%|██▌       | 2508/9678 [5:34:57<14:37:42,  7.34s/it] 26%|██▌       | 2509/9678 [5:35:04<14:28:50,  7.27s/it] 26%|██▌       | 2510/9678 [5:35:12<14:34:13,  7.32s/it]                                                        {'loss': 1.0704, 'grad_norm': 1.1314566135406494, 'learning_rate': 0.0004257448324966183, 'epoch': 0.26}
+ 26%|██▌       | 2510/9678 [5:35:12<14:34:13,  7.32s/it] 26%|██▌       | 2511/9678 [5:35:18<14:03:18,  7.06s/it] 26%|██▌       | 2512/9678 [5:35:27<15:06:49,  7.59s/it] 26%|██▌       | 2513/9678 [5:35:35<15:18:42,  7.69s/it] 26%|██▌       | 2514/9678 [5:35:42<14:59:01,  7.53s/it] 26%|██▌       | 2515/9678 [5:35:49<14:31:46,  7.30s/it] 26%|██▌       | 2516/9678 [5:35:56<14:32:18,  7.31s/it] 26%|██▌       | 2517/9678 [5:36:07<16:30:52,  8.30s/it] 26%|██▌       | 2518/9678 [5:36:17<17:34:54,  8.84s/it] 26%|██▌       | 2519/9678 [5:36:25<17:01:45,  8.56s/it] 26%|██▌       | 2520/9678 [5:36:32<16:19:43,  8.21s/it]                                                        {'loss': 1.1727, 'grad_norm': 1.085749626159668, 'learning_rate': 0.00042516087733629004, 'epoch': 0.26}
+ 26%|██▌       | 2520/9678 [5:36:32<16:19:43,  8.21s/it] 26%|██▌       | 2521/9678 [5:36:40<16:00:26,  8.05s/it] 26%|██▌       | 2522/9678 [5:36:50<16:55:17,  8.51s/it] 26%|██▌       | 2523/9678 [5:36:58<16:48:12,  8.45s/it] 26%|██▌       | 2524/9678 [5:37:07<17:26:13,  8.77s/it] 26%|██▌       | 2525/9678 [5:37:15<16:57:05,  8.53s/it] 26%|██▌       | 2526/9678 [5:37:23<16:26:38,  8.28s/it] 26%|██▌       | 2527/9678 [5:37:31<16:01:00,  8.06s/it] 26%|██▌       | 2528/9678 [5:37:40<16:39:20,  8.39s/it] 26%|██▌       | 2529/9678 [5:37:47<15:57:18,  8.03s/it] 26%|██▌       | 2530/9678 [5:37:55<15:52:56,  8.00s/it]                                                        {'loss': 1.2864, 'grad_norm': 1.2759054899215698, 'learning_rate': 0.00042457503889642396, 'epoch': 0.26}
+ 26%|██▌       | 2530/9678 [5:37:55<15:52:56,  8.00s/it] 26%|██▌       | 2531/9678 [5:38:03<15:39:21,  7.89s/it] 26%|██▌       | 2532/9678 [5:38:10<15:17:02,  7.70s/it] 26%|██▌       | 2533/9678 [5:38:16<14:24:24,  7.26s/it] 26%|██▌       | 2534/9678 [5:38:25<15:19:46,  7.72s/it] 26%|██▌       | 2535/9678 [5:38:34<15:59:43,  8.06s/it] 26%|██▌       | 2536/9678 [5:38:42<16:15:42,  8.20s/it] 26%|██▌       | 2537/9678 [5:38:49<15:23:06,  7.76s/it] 26%|██▌       | 2538/9678 [5:38:56<15:11:29,  7.66s/it] 26%|██▌       | 2539/9678 [5:39:04<15:02:13,  7.58s/it] 26%|██▌       | 2540/9678 [5:39:11<15:02:56,  7.59s/it]                                                        {'loss': 1.0734, 'grad_norm': 1.2468546628952026, 'learning_rate': 0.0004239873234757871, 'epoch': 0.26}
+ 26%|██▌       | 2540/9678 [5:39:11<15:02:56,  7.59s/it] 26%|██▋       | 2541/9678 [5:39:19<15:17:35,  7.71s/it] 26%|██▋       | 2542/9678 [5:39:28<15:33:45,  7.85s/it] 26%|██▋       | 2543/9678 [5:39:35<15:21:15,  7.75s/it] 26%|██▋       | 2544/9678 [5:39:41<14:29:07,  7.31s/it] 26%|██▋       | 2545/9678 [5:39:48<14:22:23,  7.25s/it] 26%|██▋       | 2546/9678 [5:39:57<15:13:01,  7.68s/it] 26%|██▋       | 2547/9678 [5:40:05<15:04:11,  7.61s/it] 26%|██▋       | 2548/9678 [5:40:12<14:42:24,  7.43s/it] 26%|██▋       | 2549/9678 [5:40:19<14:58:05,  7.56s/it] 26%|██▋       | 2550/9678 [5:40:28<15:38:54,  7.90s/it]                                                        {'loss': 1.1816, 'grad_norm': 1.2701605558395386, 'learning_rate': 0.00042339773739332706, 'epoch': 0.26}
+ 26%|██▋       | 2550/9678 [5:40:28<15:38:54,  7.90s/it] 26%|██▋       | 2551/9678 [5:40:36<15:24:44,  7.79s/it] 26%|██▋       | 2552/9678 [5:40:44<15:44:21,  7.95s/it] 26%|██▋       | 2553/9678 [5:40:52<16:00:00,  8.08s/it] 26%|██▋       | 2554/9678 [5:41:02<16:49:28,  8.50s/it] 26%|██▋       | 2555/9678 [5:41:09<16:15:59,  8.22s/it] 26%|██▋       | 2556/9678 [5:41:19<16:53:48,  8.54s/it] 26%|██▋       | 2557/9678 [5:41:27<16:34:45,  8.38s/it] 26%|██▋       | 2558/9678 [5:41:33<15:16:47,  7.73s/it] 26%|██▋       | 2559/9678 [5:41:41<15:31:20,  7.85s/it] 26%|██▋       | 2560/9678 [5:41:47<14:37:29,  7.40s/it]                                                        {'loss': 1.0726, 'grad_norm': 1.0027897357940674, 'learning_rate': 0.00042280628698810447, 'epoch': 0.26}
+ 26%|██▋       | 2560/9678 [5:41:47<14:37:29,  7.40s/it] 26%|██▋       | 2561/9678 [5:41:56<15:18:05,  7.74s/it] 26%|██▋       | 2562/9678 [5:42:03<14:48:54,  7.49s/it] 26%|██▋       | 2563/9678 [5:42:09<14:17:25,  7.23s/it] 26%|██▋       | 2564/9678 [5:42:17<14:42:37,  7.44s/it] 27%|██▋       | 2565/9678 [5:42:25<14:31:38,  7.35s/it] 27%|██▋       | 2566/9678 [5:42:33<15:11:27,  7.69s/it] 27%|██▋       | 2567/9678 [5:42:43<16:42:17,  8.46s/it] 27%|██▋       | 2568/9678 [5:42:52<16:43:22,  8.47s/it] 27%|██▋       | 2569/9678 [5:42:59<16:12:10,  8.21s/it] 27%|██▋       | 2570/9678 [5:43:08<16:38:24,  8.43s/it]                                                        {'loss': 1.278, 'grad_norm': 1.4462809562683105, 'learning_rate': 0.0004222129786192245, 'epoch': 0.27}
+ 27%|██▋       | 2570/9678 [5:43:08<16:38:24,  8.43s/it] 27%|██▋       | 2571/9678 [5:43:18<17:26:44,  8.84s/it] 27%|██▋       | 2572/9678 [5:43:26<16:55:55,  8.58s/it] 27%|██▋       | 2573/9678 [5:43:33<15:52:02,  8.04s/it] 27%|██▋       | 2574/9678 [5:43:43<17:18:51,  8.77s/it] 27%|██▋       | 2575/9678 [5:43:50<16:20:08,  8.28s/it] 27%|██▋       | 2576/9678 [5:43:56<14:53:18,  7.55s/it] 27%|██▋       | 2577/9678 [5:44:04<14:55:43,  7.57s/it] 27%|██▋       | 2578/9678 [5:44:14<16:22:53,  8.31s/it] 27%|██▋       | 2579/9678 [5:44:24<17:21:25,  8.80s/it] 27%|██▋       | 2580/9678 [5:44:33<17:26:15,  8.84s/it]                                                        {'loss': 1.1829, 'grad_norm': 1.241769552230835, 'learning_rate': 0.0004216178186657686, 'epoch': 0.27}
+ 27%|██▋       | 2580/9678 [5:44:33<17:26:15,  8.84s/it] 27%|██▋       | 2581/9678 [5:44:41<16:44:38,  8.49s/it] 27%|██▋       | 2582/9678 [5:44:49<16:58:48,  8.61s/it] 27%|██▋       | 2583/9678 [5:44:59<17:29:20,  8.87s/it] 27%|██▋       | 2584/9678 [5:45:10<18:36:30,  9.44s/it] 27%|██▋       | 2585/9678 [5:45:19<18:30:46,  9.40s/it] 27%|██▋       | 2586/9678 [5:45:27<17:31:56,  8.90s/it] 27%|██▋       | 2587/9678 [5:45:33<16:07:04,  8.18s/it] 27%|██▋       | 2588/9678 [5:45:40<15:13:28,  7.73s/it] 27%|██▋       | 2589/9678 [5:45:47<14:56:04,  7.58s/it] 27%|██▋       | 2590/9678 [5:45:56<15:56:18,  8.10s/it]                                                        {'loss': 1.1479, 'grad_norm': 1.6216635704040527, 'learning_rate': 0.00042102081352672594, 'epoch': 0.27}
+ 27%|██���       | 2590/9678 [5:45:56<15:56:18,  8.10s/it] 27%|██▋       | 2591/9678 [5:46:05<16:18:02,  8.28s/it] 27%|██▋       | 2592/9678 [5:46:14<16:50:16,  8.55s/it] 27%|██▋       | 2593/9678 [5:46:22<16:32:33,  8.41s/it] 27%|██▋       | 2594/9678 [5:46:29<15:16:46,  7.76s/it] 27%|██▋       | 2595/9678 [5:46:37<15:35:37,  7.93s/it] 27%|██▋       | 2596/9678 [5:46:46<16:28:54,  8.38s/it] 27%|██▋       | 2597/9678 [5:46:53<15:09:27,  7.71s/it] 27%|██▋       | 2598/9678 [5:47:00<15:08:30,  7.70s/it] 27%|██▋       | 2599/9678 [5:47:09<15:52:55,  8.08s/it] 27%|██▋       | 2600/9678 [5:47:19<16:59:17,  8.64s/it]                                                        {'loss': 1.1709, 'grad_norm': 4.33831787109375, 'learning_rate': 0.0004204219696209248, 'epoch': 0.27}
+ 27%|██▋       | 2600/9678 [5:47:19<16:59:17,  8.64s/it] 27%|██▋       | 2601/9678 [5:47:26<16:08:30,  8.21s/it] 27%|██▋       | 2602/9678 [5:47:35<16:16:40,  8.28s/it] 27%|██▋       | 2603/9678 [5:47:43<15:58:40,  8.13s/it] 27%|██▋       | 2604/9678 [5:47:51<16:20:08,  8.31s/it] 27%|██▋       | 2605/9678 [5:48:00<16:20:48,  8.32s/it] 27%|██▋       | 2606/9678 [5:48:07<15:33:26,  7.92s/it] 27%|██▋       | 2607/9678 [5:48:14<15:20:25,  7.81s/it] 27%|██▋       | 2608/9678 [5:48:23<15:46:06,  8.03s/it] 27%|██▋       | 2609/9678 [5:48:30<15:32:28,  7.91s/it] 27%|██▋       | 2610/9678 [5:48:37<14:44:13,  7.51s/it]                                                        {'loss': 1.1018, 'grad_norm': 0.952393114566803, 'learning_rate': 0.00041982129338696296, 'epoch': 0.27}
+ 27%|██▋       | 2610/9678 [5:48:37<14:44:13,  7.51s/it] 27%|██▋       | 2611/9678 [5:48:44<14:17:04,  7.28s/it] 27%|██▋       | 2612/9678 [5:48:51<14:06:20,  7.19s/it] 27%|██▋       | 2613/9678 [5:48:58<14:02:11,  7.15s/it] 27%|██▋       | 2614/9678 [5:49:05<14:03:51,  7.17s/it] 27%|██▋       | 2615/9678 [5:49:13<14:22:08,  7.32s/it] 27%|██▋       | 2616/9678 [5:49:20<14:08:52,  7.21s/it] 27%|██▋       | 2617/9678 [5:49:29<15:39:35,  7.98s/it] 27%|██▋       | 2618/9678 [5:49:37<15:28:00,  7.89s/it] 27%|██▋       | 2619/9678 [5:49:45<15:19:44,  7.82s/it] 27%|██▋       | 2620/9678 [5:49:53<15:40:25,  7.99s/it]                                                        {'loss': 1.081, 'grad_norm': 1.4484752416610718, 'learning_rate': 0.0004192187912831393, 'epoch': 0.27}
+ 27%|██▋       | 2620/9678 [5:49:53<15:40:25,  7.99s/it] 27%|██▋       | 2621/9678 [5:50:02<16:06:23,  8.22s/it] 27%|██▋       | 2622/9678 [5:50:08<15:11:20,  7.75s/it] 27%|██▋       | 2623/9678 [5:50:17<15:25:11,  7.87s/it] 27%|██▋       | 2624/9678 [5:50:23<14:45:32,  7.53s/it] 27%|██▋       | 2625/9678 [5:50:31<14:47:14,  7.55s/it] 27%|██▋       | 2626/9678 [5:50:38<14:37:14,  7.46s/it] 27%|██▋       | 2627/9678 [5:50:47<15:21:20,  7.84s/it] 27%|██▋       | 2628/9678 [5:50:56<15:54:09,  8.12s/it] 27%|██▋       | 2629/9678 [5:51:02<14:48:07,  7.56s/it] 27%|██▋       | 2630/9678 [5:51:10<14:56:34,  7.63s/it]                                                        {'loss': 1.251, 'grad_norm': 1.0843290090560913, 'learning_rate': 0.0004186144697873835, 'epoch': 0.27}
+ 27%|██▋       | 2630/9678 [5:51:10<14:56:34,  7.63s/it] 27%|██▋       | 2631/9678 [5:51:17<14:49:25,  7.57s/it] 27%|██▋       | 2632/9678 [5:51:27<16:05:34,  8.22s/it] 27%|██▋       | 2633/9678 [5:51:35<15:49:36,  8.09s/it] 27%|██▋       | 2634/9678 [5:51:43<15:48:14,  8.08s/it] 27%|██▋       | 2635/9678 [5:51:49<14:56:25,  7.64s/it] 27%|██▋       | 2636/9678 [5:51:56<14:39:12,  7.49s/it] 27%|██▋       | 2637/9678 [5:52:04<14:36:04,  7.47s/it] 27%|██▋       | 2638/9678 [5:52:10<13:56:10,  7.13s/it] 27%|██▋       | 2639/9678 [5:52:17<13:40:07,  6.99s/it] 27%|██▋       | 2640/9678 [5:52:25<14:03:10,  7.19s/it]                                                        {'loss': 1.134, 'grad_norm': 1.5165774822235107, 'learning_rate': 0.0004180083353971871, 'epoch': 0.27}
+ 27%|██▋       | 2640/9678 [5:52:25<14:03:10,  7.19s/it] 27%|██▋       | 2641/9678 [5:52:31<13:40:18,  6.99s/it] 27%|██▋       | 2642/9678 [5:52:39<14:02:01,  7.18s/it] 27%|██▋       | 2643/9678 [5:52:46<13:59:25,  7.16s/it] 27%|██▋       | 2644/9678 [5:52:52<13:23:48,  6.86s/it] 27%|██▋       | 2645/9678 [5:52:59<13:24:05,  6.86s/it] 27%|██▋       | 2646/9678 [5:53:06<13:19:39,  6.82s/it] 27%|██▋       | 2647/9678 [5:53:13<13:36:20,  6.97s/it] 27%|██▋       | 2648/9678 [5:53:20<13:55:16,  7.13s/it] 27%|██▋       | 2649/9678 [5:53:29<15:04:08,  7.72s/it] 27%|██▋       | 2650/9678 [5:53:38<15:34:50,  7.98s/it]                                                        {'loss': 1.1763, 'grad_norm': 1.2171909809112549, 'learning_rate': 0.00041740039462953343, 'epoch': 0.27}
+ 27%|██▋       | 2650/9678 [5:53:38<15:34:50,  7.98s/it] 27%|██▋       | 2651/9678 [5:53:47<16:00:58,  8.21s/it] 27%|██▋       | 2652/9678 [5:53:57<16:55:36,  8.67s/it] 27%|██▋       | 2653/9678 [5:54:03<15:21:26,  7.87s/it] 27%|██▋       | 2654/9678 [5:54:11<15:43:10,  8.06s/it] 27%|██▋       | 2655/9678 [5:54:19<15:37:43,  8.01s/it] 27%|██▋       | 2656/9678 [5:54:27<15:26:46,  7.92s/it] 27%|██▋       | 2657/9678 [5:54:36<16:01:02,  8.21s/it] 27%|██▋       | 2658/9678 [5:54:45<16:37:04,  8.52s/it] 27%|██▋       | 2659/9678 [5:54:53<16:12:57,  8.32s/it] 27%|██▋       | 2660/9678 [5:55:03<17:14:15,  8.84s/it]                                                        {'loss': 1.1178, 'grad_norm': 1.0561660528182983, 'learning_rate': 0.00041679065402082724, 'epoch': 0.27}
+ 27%|██▋       | 2660/9678 [5:55:03<17:14:15,  8.84s/it] 27%|██▋       | 2661/9678 [5:55:10<16:22:51,  8.40s/it] 28%|██▊       | 2662/9678 [5:55:19<16:44:57,  8.59s/it] 28%|██▊       | 2663/9678 [5:55:27<16:16:48,  8.35s/it] 28%|██▊       | 2664/9678 [5:55:35<16:03:53,  8.25s/it] 28%|██▊       | 2665/9678 [5:55:43<16:05:24,  8.26s/it] 28%|██▊       | 2666/9678 [5:55:52<16:34:25,  8.51s/it] 28%|██▊       | 2667/9678 [5:56:00<16:07:28,  8.28s/it] 28%|██▊       | 2668/9678 [5:56:06<15:00:21,  7.71s/it] 28%|██▊       | 2669/9678 [5:56:15<15:43:47,  8.08s/it] 28%|██▊       | 2670/9678 [5:56:24<15:54:27,  8.17s/it]                                                        {'loss': 1.2379, 'grad_norm': 1.2738356590270996, 'learning_rate': 0.0004161791201268247, 'epoch': 0.28}
+ 28%|██▊       | 2670/9678 [5:56:24<15:54:27,  8.17s/it] 28%|██▊       | 2671/9678 [5:56:33<16:22:51,  8.42s/it] 28%|██▊       | 2672/9678 [5:56:41<16:18:11,  8.38s/it] 28%|██▊       | 2673/9678 [5:56:48<15:12:36,  7.82s/it] 28%|██▊       | 2674/9678 [5:56:55<14:59:20,  7.70s/it] 28%|██▊       | 2675/9678 [5:57:02<14:51:55,  7.64s/it] 28%|██▊       | 2676/9678 [5:57:10<14:56:29,  7.68s/it] 28%|██▊       | 2677/9678 [5:57:18<15:04:05,  7.75s/it] 28%|██▊       | 2678/9678 [5:57:26<15:13:42,  7.83s/it] 28%|██▊       | 2679/9678 [5:57:35<15:33:58,  8.01s/it] 28%|██▊       | 2680/9678 [5:57:41<14:51:35,  7.64s/it]                                                        {'loss': 1.2347, 'grad_norm': 1.127266764640808, 'learning_rate': 0.000415565799522563, 'epoch': 0.28}
+ 28%|██▊       | 2680/9678 [5:57:41<14:51:35,  7.64s/it] 28%|██▊       | 2681/9678 [5:57:49<14:43:03,  7.57s/it] 28%|██▊       | 2682/9678 [5:57:56<14:23:06,  7.40s/it] 28%|██▊       | 2683/9678 [5:58:04<15:07:26,  7.78s/it] 28%|██▊       | 2684/9678 [5:58:11<14:35:20,  7.51s/it] 28%|██▊       | 2685/9678 [5:58:18<14:19:49,  7.38s/it] 28%|██▊       | 2686/9678 [5:58:26<14:12:49,  7.32s/it] 28%|██▊       | 2687/9678 [5:58:34<15:00:55,  7.73s/it] 28%|██▊       | 2688/9678 [5:58:41<14:29:49,  7.47s/it] 28%|██▊       | 2689/9678 [5:58:49<14:58:00,  7.71s/it] 28%|██▊       | 2690/9678 [5:58:57<15:02:55,  7.75s/it]                                                        {'loss': 1.2155, 'grad_norm': 1.4078705310821533, 'learning_rate': 0.0004149506988022894, 'epoch': 0.28}
+ 28%|██▊       | 2690/9678 [5:58:57<15:02:55,  7.75s/it] 28%|██▊       | 2691/9678 [5:59:07<16:14:58,  8.37s/it] 28%|██▊       | 2692/9678 [5:59:13<14:46:46,  7.62s/it] 28%|██▊       | 2693/9678 [5:59:22<15:37:17,  8.05s/it] 28%|██▊       | 2694/9678 [5:59:29<14:47:26,  7.62s/it] 28%|██▊       | 2695/9678 [5:59:35<13:52:25,  7.15s/it] 28%|██▊       | 2696/9678 [5:59:42<13:41:16,  7.06s/it] 28%|██▊       | 2697/9678 [5:59:50<14:15:48,  7.36s/it] 28%|██▊       | 2698/9678 [5:59:58<14:49:22,  7.65s/it] 28%|██▊       | 2699/9678 [6:00:06<15:01:28,  7.75s/it] 28%|██▊       | 2700/9678 [6:00:14<15:12:56,  7.85s/it]                                                        {'loss': 1.1583, 'grad_norm': 0.9871230125427246, 'learning_rate': 0.0004143338245793906, 'epoch': 0.28}
+ 28%|██▊       | 2700/9678 [6:00:14<15:12:56,  7.85s/it] 28%|██▊       | 2701/9678 [6:00:22<15:09:05,  7.82s/it] 28%|██▊       | 2702/9678 [6:00:31<16:00:39,  8.26s/it] 28%|██▊       | 2703/9678 [6:00:37<14:54:24,  7.69s/it] 28%|██▊       | 2704/9678 [6:00:46<15:32:09,  8.02s/it] 28%|██▊       | 2705/9678 [6:00:54<15:18:23,  7.90s/it] 28%|██▊       | 2706/9678 [6:01:02<15:19:19,  7.91s/it] 28%|██▊       | 2707/9678 [6:01:10<15:44:27,  8.13s/it] 28%|██▊       | 2708/9678 [6:01:18<15:12:35,  7.86s/it] 28%|██▊       | 2709/9678 [6:01:27<16:14:19,  8.39s/it] 28%|██▊       | 2710/9678 [6:01:35<15:45:27,  8.14s/it]                                                        {'loss': 1.171, 'grad_norm': 0.8731614947319031, 'learning_rate': 0.0004137151834863213, 'epoch': 0.28}
+ 28%|██▊       | 2710/9678 [6:01:35<15:45:27,  8.14s/it] 28%|██▊       | 2711/9678 [6:01:43<15:31:49,  8.02s/it] 28%|██▊       | 2712/9678 [6:01:52<16:10:29,  8.36s/it] 28%|██▊       | 2713/9678 [6:02:01<16:54:16,  8.74s/it] 28%|██▊       | 2714/9678 [6:02:09<16:06:56,  8.33s/it] 28%|██▊       | 2715/9678 [6:02:17<16:18:07,  8.43s/it] 28%|██▊       | 2716/9678 [6:02:26<16:22:11,  8.46s/it] 28%|██▊       | 2717/9678 [6:02:32<15:07:51,  7.83s/it] 28%|██▊       | 2718/9678 [6:02:40<15:03:11,  7.79s/it] 28%|██▊       | 2719/9678 [6:02:48<15:07:05,  7.82s/it] 28%|██▊       | 2720/9678 [6:02:58<16:13:15,  8.39s/it]                                                        {'loss': 1.2112, 'grad_norm': 1.0814101696014404, 'learning_rate': 0.0004130947821745332, 'epoch': 0.28}
+ 28%|██▊       | 2720/9678 [6:02:58<16:13:15,  8.39s/it] 28%|██▊       | 2721/9678 [6:03:05<15:38:55,  8.10s/it] 28%|██▊       | 2722/9678 [6:03:13<15:33:06,  8.05s/it] 28%|██▊       | 2723/9678 [6:03:22<16:06:21,  8.34s/it] 28%|██▊       | 2724/9678 [6:03:29<15:25:57,  7.99s/it] 28%|██▊       | 2725/9678 [6:03:38<16:02:09,  8.30s/it] 28%|██▊       | 2726/9678 [6:03:46<16:01:35,  8.30s/it] 28%|██▊       | 2727/9678 [6:03:53<14:55:06,  7.73s/it] 28%|██▊       | 2728/9678 [6:04:00<14:24:02,  7.46s/it] 28%|██▊       | 2729/9678 [6:04:08<14:44:31,  7.64s/it] 28%|██▊       | 2730/9678 [6:04:17<15:44:03,  8.15s/it]                                                        {'loss': 1.0269, 'grad_norm': 1.695854902267456, 'learning_rate': 0.0004124726273144034, 'epoch': 0.28}
+ 28%|██▊       | 2730/9678 [6:04:17<15:44:03,  8.15s/it] 28%|██▊       | 2731/9678 [6:04:25<15:38:32,  8.11s/it] 28%|██▊       | 2732/9678 [6:04:31<14:39:18,  7.60s/it] 28%|██▊       | 2733/9678 [6:04:40<14:59:29,  7.77s/it] 28%|██▊       | 2734/9678 [6:04:48<15:09:33,  7.86s/it] 28%|██▊       | 2735/9678 [6:04:54<14:29:46,  7.52s/it] 28%|██▊       | 2736/9678 [6:05:03<14:53:05,  7.72s/it] 28%|██▊       | 2737/9678 [6:05:11<15:17:04,  7.93s/it] 28%|██▊       | 2738/9678 [6:05:19<15:19:03,  7.95s/it] 28%|██▊       | 2739/9678 [6:05:28<16:04:57,  8.34s/it] 28%|██▊       | 2740/9678 [6:05:37<16:12:12,  8.41s/it]                                                        {'loss': 1.1974, 'grad_norm': 0.9004189372062683, 'learning_rate': 0.00041184872559516244, 'epoch': 0.28}
+ 28%|██▊       | 2740/9678 [6:05:37<16:12:12,  8.41s/it] 28%|██▊       | 2741/9678 [6:05:47<17:08:22,  8.89s/it] 28%|██▊       | 2742/9678 [6:05:56<17:04:41,  8.86s/it] 28%|██▊       | 2743/9678 [6:06:03<16:27:34,  8.54s/it] 28%|██▊       | 2744/9678 [6:06:13<16:48:26,  8.73s/it] 28%|██▊       | 2745/9678 [6:06:21<16:51:05,  8.75s/it] 28%|██▊       | 2746/9678 [6:06:28<15:53:51,  8.26s/it] 28%|██▊       | 2747/9678 [6:06:35<14:45:44,  7.67s/it] 28%|██▊       | 2748/9678 [6:06:41<13:55:24,  7.23s/it] 28%|██▊       | 2749/9678 [6:06:49<14:25:56,  7.50s/it] 28%|██▊       | 2750/9678 [6:06:57<14:38:56,  7.61s/it]                                                        {'loss': 1.1068, 'grad_norm': 1.034590482711792, 'learning_rate': 0.0004112230837248229, 'epoch': 0.28}
+ 28%|██▊       | 2750/9678 [6:06:57<14:38:56,  7.61s/it] 28%|██▊       | 2751/9678 [6:07:04<14:12:33,  7.38s/it] 28%|██▊       | 2752/9678 [6:07:10<13:32:52,  7.04s/it] 28%|██▊       | 2753/9678 [6:07:21<15:50:19,  8.23s/it] 28%|██▊       | 2754/9678 [6:07:28<15:10:41,  7.89s/it] 28%|██▊       | 2755/9678 [6:07:37<15:30:09,  8.06s/it] 28%|██▊       | 2756/9678 [6:07:47<16:38:44,  8.66s/it] 28%|██▊       | 2757/9678 [6:07:55<16:11:39,  8.42s/it] 28%|██▊       | 2758/9678 [6:08:03<16:07:41,  8.39s/it] 29%|██▊       | 2759/9678 [6:08:11<15:53:39,  8.27s/it] 29%|██▊       | 2760/9678 [6:08:18<15:23:30,  8.01s/it]                                                        {'loss': 1.0922, 'grad_norm': 1.4124444723129272, 'learning_rate': 0.0004105957084301069, 'epoch': 0.29}
+ 29%|██▊       | 2760/9678 [6:08:18<15:23:30,  8.01s/it] 29%|██▊       | 2761/9678 [6:08:25<14:55:19,  7.77s/it] 29%|██▊       | 2762/9678 [6:08:32<14:24:13,  7.50s/it] 29%|██▊       | 2763/9678 [6:08:42<15:25:22,  8.03s/it] 29%|██▊       | 2764/9678 [6:08:50<15:44:55,  8.20s/it] 29%|██▊       | 2765/9678 [6:08:58<15:39:09,  8.15s/it] 29%|██▊       | 2766/9678 [6:09:05<14:42:44,  7.66s/it] 29%|██▊       | 2767/9678 [6:09:12<14:26:45,  7.53s/it] 29%|██▊       | 2768/9678 [6:09:19<14:13:01,  7.41s/it] 29%|██▊       | 2769/9678 [6:09:26<13:45:22,  7.17s/it] 29%|██▊       | 2770/9678 [6:09:34<14:15:39,  7.43s/it]                                                        {'loss': 1.2392, 'grad_norm': 1.4991061687469482, 'learning_rate': 0.00040996660645637345, 'epoch': 0.29}
+ 29%|██▊       | 2770/9678 [6:09:34<14:15:39,  7.43s/it] 29%|██▊       | 2771/9678 [6:09:42<14:51:22,  7.74s/it] 29%|██▊       | 2772/9678 [6:09:49<14:12:22,  7.41s/it] 29%|██▊       | 2773/9678 [6:09:55<13:17:50,  6.93s/it] 29%|██▊       | 2774/9678 [6:10:01<13:11:20,  6.88s/it] 29%|██▊       | 2775/9678 [6:10:09<13:36:10,  7.09s/it] 29%|██▊       | 2776/9678 [6:10:17<13:55:26,  7.26s/it] 29%|██▊       | 2777/9678 [6:10:25<14:30:28,  7.57s/it] 29%|██▊       | 2778/9678 [6:10:34<15:18:17,  7.99s/it] 29%|██▊       | 2779/9678 [6:10:41<14:43:25,  7.68s/it] 29%|██▊       | 2780/9678 [6:10:50<15:34:52,  8.13s/it]                                                        {'loss': 1.0433, 'grad_norm': 1.316277027130127, 'learning_rate': 0.00040933578456754687, 'epoch': 0.29}
+ 29%|██▊       | 2780/9678 [6:10:50<15:34:52,  8.13s/it] 29%|██▊       | 2781/9678 [6:10:58<15:20:24,  8.01s/it] 29%|██▊       | 2782/9678 [6:11:06<15:24:14,  8.04s/it] 29%|██▉       | 2783/9678 [6:11:15<15:55:16,  8.31s/it] 29%|██▉       | 2784/9678 [6:11:23<15:36:29,  8.15s/it] 29%|██▉       | 2785/9678 [6:11:29<14:41:43,  7.67s/it] 29%|██▉       | 2786/9678 [6:11:39<15:39:13,  8.18s/it] 29%|██▉       | 2787/9678 [6:11:48<16:13:25,  8.48s/it] 29%|██▉       | 2788/9678 [6:11:56<16:00:04,  8.36s/it] 29%|██▉       | 2789/9678 [6:12:04<16:10:22,  8.45s/it] 29%|██▉       | 2790/9678 [6:12:13<16:25:31,  8.58s/it]                                                        {'loss': 0.9623, 'grad_norm': 1.6624524593353271, 'learning_rate': 0.00040870324954604323, 'epoch': 0.29}
+ 29%|██▉       | 2790/9678 [6:12:13<16:25:31,  8.58s/it] 29%|██▉       | 2791/9678 [6:12:22<16:25:19,  8.58s/it] 29%|██▉       | 2792/9678 [6:12:30<16:15:31,  8.50s/it] 29%|██▉       | 2793/9678 [6:12:37<15:26:16,  8.07s/it] 29%|██▉       | 2794/9678 [6:12:45<15:02:12,  7.86s/it] 29%|██▉       | 2795/9678 [6:12:53<15:03:52,  7.88s/it] 29%|██▉       | 2796/9678 [6:13:03<16:11:52,  8.47s/it] 29%|██▉       | 2797/9678 [6:13:11<16:03:41,  8.40s/it] 29%|██▉       | 2798/9678 [6:13:17<14:33:11,  7.62s/it] 29%|██▉       | 2799/9678 [6:13:23<14:08:12,  7.40s/it] 29%|██▉       | 2800/9678 [6:13:29<13:17:54,  6.96s/it]                                                        {'loss': 1.108, 'grad_norm': 1.2658953666687012, 'learning_rate': 0.00040806900819269766, 'epoch': 0.29}
+ 29%|██▉       | 2800/9678 [6:13:29<13:17:54,  6.96s/it] 29%|██▉       | 2801/9678 [6:13:38<14:07:41,  7.40s/it] 29%|██▉       | 2802/9678 [6:13:47<15:05:10,  7.90s/it] 29%|██▉       | 2803/9678 [6:13:56<15:54:07,  8.33s/it] 29%|██▉       | 2804/9678 [6:14:05<16:08:57,  8.46s/it] 29%|██▉       | 2805/9678 [6:14:14<16:19:57,  8.55s/it] 29%|██▉       | 2806/9678 [6:14:21<15:28:47,  8.11s/it] 29%|██▉       | 2807/9678 [6:14:30<16:07:52,  8.45s/it] 29%|██▉       | 2808/9678 [6:14:38<15:42:28,  8.23s/it] 29%|██▉       | 2809/9678 [6:14:48<16:35:08,  8.69s/it] 29%|██▉       | 2810/9678 [6:14:56<16:29:32,  8.64s/it]                                                        {'loss': 1.137, 'grad_norm': 1.3295769691467285, 'learning_rate': 0.00040743306732669133, 'epoch': 0.29}
+ 29%|██▉       | 2810/9678 [6:14:56<16:29:32,  8.64s/it] 29%|██▉       | 2811/9678 [6:15:05<16:56:08,  8.88s/it] 29%|██▉       | 2812/9678 [6:15:14<16:48:29,  8.81s/it] 29%|██▉       | 2813/9678 [6:15:22<16:20:34,  8.57s/it] 29%|██▉       | 2814/9678 [6:15:31<16:30:03,  8.65s/it] 29%|██▉       | 2815/9678 [6:15:38<15:42:40,  8.24s/it] 29%|██▉       | 2816/9678 [6:15:47<15:43:53,  8.25s/it] 29%|██▉       | 2817/9678 [6:15:55<16:05:14,  8.44s/it] 29%|██▉       | 2818/9678 [6:16:07<17:51:00,  9.37s/it] 29%|██▉       | 2819/9678 [6:16:15<17:08:08,  8.99s/it] 29%|██▉       | 2820/9678 [6:16:22<15:57:01,  8.37s/it]                                                        {'loss': 1.1281, 'grad_norm': 1.6526551246643066, 'learning_rate': 0.0004067954337854783, 'epoch': 0.29}
+ 29%|██▉       | 2820/9678 [6:16:22<15:57:01,  8.37s/it] 29%|██▉       | 2821/9678 [6:16:33<17:26:07,  9.15s/it] 29%|██▉       | 2822/9678 [6:16:42<17:06:03,  8.98s/it] 29%|██▉       | 2823/9678 [6:16:49<16:06:32,  8.46s/it] 29%|██▉       | 2824/9678 [6:16:55<14:56:55,  7.85s/it] 29%|██▉       | 2825/9678 [6:17:01<14:00:29,  7.36s/it] 29%|██▉       | 2826/9678 [6:17:09<14:17:37,  7.51s/it] 29%|██▉       | 2827/9678 [6:17:18<15:02:36,  7.90s/it] 29%|██▉       | 2828/9678 [6:17:25<14:19:49,  7.53s/it] 29%|██▉       | 2829/9678 [6:17:34<15:13:33,  8.00s/it] 29%|██▉       | 2830/9678 [6:17:42<15:16:43,  8.03s/it]                                                        {'loss': 1.0086, 'grad_norm': 1.1587738990783691, 'learning_rate': 0.0004061561144247115, 'epoch': 0.29}
+ 29%|██▉       | 2830/9678 [6:17:42<15:16:43,  8.03s/it] 29%|██▉       | 2831/9678 [6:17:50<15:02:20,  7.91s/it] 29%|██▉       | 2832/9678 [6:17:59<15:40:39,  8.24s/it] 29%|██▉       | 2833/9678 [6:18:06<15:19:13,  8.06s/it] 29%|██▉       | 2834/9678 [6:18:13<14:46:53,  7.78s/it] 29%|██▉       | 2835/9678 [6:18:22<15:13:21,  8.01s/it] 29%|██▉       | 2836/9678 [6:18:29<14:34:29,  7.67s/it] 29%|██▉       | 2837/9678 [6:18:38<15:16:38,  8.04s/it] 29%|██▉       | 2838/9678 [6:18:46<15:40:14,  8.25s/it] 29%|██▉       | 2839/9678 [6:18:53<14:36:53,  7.69s/it] 29%|██▉       | 2840/9678 [6:19:01<14:59:56,  7.90s/it]                                                        {'loss': 1.0723, 'grad_norm': 1.454256534576416, 'learning_rate': 0.0004055151161181694, 'epoch': 0.29}
+ 29%|██▉       | 2840/9678 [6:19:01<14:59:56,  7.90s/it] 29%|██▉       | 2841/9678 [6:19:08<14:15:31,  7.51s/it] 29%|██▉       | 2842/9678 [6:19:16<14:50:14,  7.81s/it] 29%|██▉       | 2843/9678 [6:19:25<15:07:21,  7.97s/it] 29%|██▉       | 2844/9678 [6:19:32<14:43:45,  7.76s/it] 29%|██▉       | 2845/9678 [6:19:40<14:37:43,  7.71s/it] 29%|██▉       | 2846/9678 [6:19:49<15:26:42,  8.14s/it] 29%|██▉       | 2847/9678 [6:19:58<16:10:21,  8.52s/it] 29%|██▉       | 2848/9678 [6:20:06<15:48:42,  8.33s/it] 29%|██▉       | 2849/9678 [6:20:14<15:33:26,  8.20s/it] 29%|██▉       | 2850/9678 [6:20:22<15:34:31,  8.21s/it]                                                        {'loss': 1.2486, 'grad_norm': 1.476521611213684, 'learning_rate': 0.00040487244575768193, 'epoch': 0.29}
+ 29%|██▉       | 2850/9678 [6:20:22<15:34:31,  8.21s/it] 29%|██▉       | 2851/9678 [6:20:29<14:51:20,  7.83s/it] 29%|██▉       | 2852/9678 [6:20:37<15:11:12,  8.01s/it] 29%|██▉       | 2853/9678 [6:20:44<14:28:04,  7.63s/it] 29%|██▉       | 2854/9678 [6:20:54<15:43:11,  8.29s/it] 29%|██▉       | 2855/9678 [6:21:03<16:04:26,  8.48s/it] 30%|██▉       | 2856/9678 [6:21:11<15:40:00,  8.27s/it] 30%|██▉       | 2857/9678 [6:21:19<15:39:53,  8.27s/it] 30%|██▉       | 2858/9678 [6:21:27<15:34:52,  8.22s/it] 30%|██▉       | 2859/9678 [6:21:36<15:40:35,  8.28s/it] 30%|██▉       | 2860/9678 [6:21:42<14:25:18,  7.61s/it]                                                        {'loss': 1.1071, 'grad_norm': 0.9193058609962463, 'learning_rate': 0.00040422811025305676, 'epoch': 0.3}
+ 30%|██▉       | 2860/9678 [6:21:42<14:25:18,  7.61s/it] 30%|██▉       | 2861/9678 [6:21:51<15:26:42,  8.16s/it] 30%|██▉       | 2862/9678 [6:21:58<14:50:56,  7.84s/it] 30%|██▉       | 2863/9678 [6:22:06<14:42:28,  7.77s/it] 30%|██▉       | 2864/9678 [6:22:14<14:44:17,  7.79s/it] 30%|██▉       | 2865/9678 [6:22:21<14:45:59,  7.80s/it] 30%|██▉       | 2866/9678 [6:22:28<14:19:58,  7.57s/it] 30%|██▉       | 2867/9678 [6:22:35<13:57:34,  7.38s/it] 30%|██▉       | 2868/9678 [6:22:44<14:28:19,  7.65s/it] 30%|██▉       | 2869/9678 [6:22:51<14:06:28,  7.46s/it] 30%|██▉       | 2870/9678 [6:22:59<14:23:02,  7.61s/it]                                                        {'loss': 1.1724, 'grad_norm': 1.8984912633895874, 'learning_rate': 0.0004035821165320045, 'epoch': 0.3}
+ 30%|██▉       | 2870/9678 [6:22:59<14:23:02,  7.61s/it] 30%|██▉       | 2871/9678 [6:23:06<14:24:34,  7.62s/it] 30%|██▉       | 2872/9678 [6:23:16<15:52:21,  8.40s/it] 30%|██▉       | 2873/9678 [6:23:25<15:48:24,  8.36s/it] 30%|██▉       | 2874/9678 [6:23:34<16:01:43,  8.48s/it] 30%|██▉       | 2875/9678 [6:23:40<15:02:58,  7.96s/it] 30%|██▉       | 2876/9678 [6:23:48<15:07:36,  8.01s/it] 30%|██▉       | 2877/9678 [6:23:56<14:59:56,  7.94s/it] 30%|██▉       | 2878/9678 [6:24:05<15:16:55,  8.09s/it] 30%|██▉       | 2879/9678 [6:24:15<16:42:02,  8.84s/it] 30%|██▉       | 2880/9678 [6:24:24<16:32:40,  8.76s/it]                                                        {'loss': 1.174, 'grad_norm': 1.7232333421707153, 'learning_rate': 0.00040293447154006435, 'epoch': 0.3}
+ 30%|██▉       | 2880/9678 [6:24:24<16:32:40,  8.76s/it] 30%|██▉       | 2881/9678 [6:24:32<16:24:11,  8.69s/it] 30%|██▉       | 2882/9678 [6:24:39<15:25:28,  8.17s/it] 30%|██▉       | 2883/9678 [6:24:47<15:06:35,  8.01s/it] 30%|██▉       | 2884/9678 [6:24:53<14:17:13,  7.57s/it] 30%|██▉       | 2885/9678 [6:25:02<14:50:03,  7.86s/it] 30%|██▉       | 2886/9678 [6:25:10<15:00:06,  7.95s/it] 30%|██▉       | 2887/9678 [6:25:18<15:04:40,  7.99s/it] 30%|██▉       | 2888/9678 [6:25:25<14:14:08,  7.55s/it] 30%|██▉       | 2889/9678 [6:25:35<15:47:12,  8.37s/it] 30%|██▉       | 2890/9678 [6:25:44<15:53:03,  8.42s/it]                                                        {'loss': 1.2448, 'grad_norm': 0.9074342846870422, 'learning_rate': 0.0004022851822405297, 'epoch': 0.3}
+ 30%|██▉       | 2890/9678 [6:25:44<15:53:03,  8.42s/it] 30%|██▉       | 2891/9678 [6:25:53<16:26:29,  8.72s/it] 30%|██▉       | 2892/9678 [6:26:02<16:26:10,  8.72s/it] 30%|██▉       | 2893/9678 [6:26:11<16:39:28,  8.84s/it] 30%|██▉       | 2894/9678 [6:26:19<16:00:13,  8.49s/it] 30%|██▉       | 2895/9678 [6:26:28<16:34:55,  8.80s/it] 30%|██▉       | 2896/9678 [6:26:36<15:55:42,  8.46s/it] 30%|██▉       | 2897/9678 [6:26:43<15:18:30,  8.13s/it] 30%|██▉       | 2898/9678 [6:26:52<15:33:15,  8.26s/it] 30%|██▉       | 2899/9678 [6:27:00<15:33:15,  8.26s/it] 30%|██▉       | 2900/9678 [6:27:08<15:38:28,  8.31s/it]                                                        {'loss': 1.1207, 'grad_norm': 1.2896414995193481, 'learning_rate': 0.0004016342556143727, 'epoch': 0.3}
+ 30%|██▉       | 2900/9678 [6:27:08<15:38:28,  8.31s/it] 30%|██▉       | 2901/9678 [6:27:20<17:23:11,  9.24s/it] 30%|██▉       | 2902/9678 [6:27:28<16:48:12,  8.93s/it] 30%|██▉       | 2903/9678 [6:27:36<16:32:32,  8.79s/it] 30%|███       | 2904/9678 [6:27:43<15:18:25,  8.13s/it] 30%|███       | 2905/9678 [6:27:50<14:28:56,  7.70s/it] 30%|███       | 2906/9678 [6:27:58<15:02:56,  8.00s/it] 30%|███       | 2907/9678 [6:28:05<14:13:21,  7.56s/it] 30%|███       | 2908/9678 [6:28:13<14:30:06,  7.71s/it] 30%|███       | 2909/9678 [6:28:21<14:39:02,  7.79s/it] 30%|███       | 2910/9678 [6:28:29<14:39:25,  7.80s/it]                                                        {'loss': 1.0868, 'grad_norm': 1.264952301979065, 'learning_rate': 0.0004009816986601702, 'epoch': 0.3}
+ 30%|███       | 2910/9678 [6:28:29<14:39:25,  7.80s/it] 30%|███       | 2911/9678 [6:28:37<14:51:00,  7.90s/it] 30%|███       | 2912/9678 [6:28:46<15:15:58,  8.12s/it] 30%|███       | 2913/9678 [6:28:55<16:01:35,  8.53s/it] 30%|███       | 2914/9678 [6:29:02<15:18:59,  8.15s/it] 30%|███       | 2915/9678 [6:29:12<16:16:57,  8.67s/it] 30%|███       | 2916/9678 [6:29:20<16:02:37,  8.54s/it] 30%|███       | 2917/9678 [6:29:28<15:42:31,  8.36s/it] 30%|███       | 2918/9678 [6:29:37<16:00:54,  8.53s/it] 30%|███       | 2919/9678 [6:29:43<14:37:58,  7.79s/it] 30%|███       | 2920/9678 [6:29:53<15:34:42,  8.30s/it]                                                        {'loss': 1.1881, 'grad_norm': 1.1345736980438232, 'learning_rate': 0.00040032751839402727, 'epoch': 0.3}
+ 30%|███       | 2920/9678 [6:29:53<15:34:42,  8.30s/it] 30%|███       | 2921/9678 [6:30:00<14:47:30,  7.88s/it] 30%|███       | 2922/9678 [6:30:06<13:48:11,  7.36s/it] 30%|███       | 2923/9678 [6:30:14<14:06:33,  7.52s/it] 30%|███       | 2924/9678 [6:30:23<15:13:40,  8.12s/it] 30%|███       | 2925/9678 [6:30:32<15:34:40,  8.30s/it] 30%|███       | 2926/9678 [6:30:38<14:27:28,  7.71s/it] 30%|███       | 2927/9678 [6:30:45<13:45:08,  7.33s/it] 30%|███       | 2928/9678 [6:30:51<13:21:43,  7.13s/it] 30%|███       | 2929/9678 [6:31:00<14:01:46,  7.48s/it] 30%|███       | 2930/9678 [6:31:07<13:47:00,  7.35s/it]                                                        {'loss': 1.1796, 'grad_norm': 1.0581121444702148, 'learning_rate': 0.00039967172184950263, 'epoch': 0.3}
+ 30%|███       | 2930/9678 [6:31:07<13:47:00,  7.35s/it] 30%|███       | 2931/9678 [6:31:15<14:32:01,  7.75s/it] 30%|███       | 2932/9678 [6:31:22<13:39:26,  7.29s/it] 30%|███       | 2933/9678 [6:31:30<14:18:38,  7.64s/it] 30%|███       | 2934/9678 [6:31:38<14:24:52,  7.69s/it] 30%|███       | 2935/9678 [6:31:44<13:22:09,  7.14s/it] 30%|███       | 2936/9678 [6:31:51<13:38:10,  7.28s/it] 30%|███       | 2937/9678 [6:32:01<14:45:22,  7.88s/it] 30%|███       | 2938/9678 [6:32:08<14:35:53,  7.80s/it] 30%|███       | 2939/9678 [6:32:14<13:38:29,  7.29s/it] 30%|███       | 2940/9678 [6:32:22<13:43:56,  7.34s/it]                                                        {'loss': 1.108, 'grad_norm': 1.1877319812774658, 'learning_rate': 0.0003990143160775327, 'epoch': 0.3}
+ 30%|███       | 2940/9678 [6:32:22<13:43:56,  7.34s/it] 30%|███       | 2941/9678 [6:32:31<14:35:29,  7.80s/it] 30%|███       | 2942/9678 [6:32:39<15:02:03,  8.03s/it] 30%|███       | 2943/9678 [6:32:47<14:49:36,  7.93s/it] 30%|███       | 2944/9678 [6:32:55<15:08:44,  8.10s/it] 30%|███       | 2945/9678 [6:33:03<14:40:39,  7.85s/it] 30%|███       | 2946/9678 [6:33:10<14:12:38,  7.60s/it] 30%|███       | 2947/9678 [6:33:19<14:56:55,  8.00s/it] 30%|███       | 2948/9678 [6:33:25<14:09:47,  7.58s/it] 30%|███       | 2949/9678 [6:33:33<14:18:36,  7.66s/it] 30%|███       | 2950/9678 [6:33:41<14:38:35,  7.84s/it]                                                        {'loss': 0.9986, 'grad_norm': 1.0478935241699219, 'learning_rate': 0.0003983553081463559, 'epoch': 0.3}
+ 30%|███       | 2950/9678 [6:33:41<14:38:35,  7.84s/it] 30%|███       | 2951/9678 [6:33:49<14:18:14,  7.65s/it] 31%|███       | 2952/9678 [6:33:56<14:00:16,  7.50s/it] 31%|███       | 2953/9678 [6:34:04<14:10:44,  7.59s/it] 31%|███       | 2954/9678 [6:34:11<14:13:04,  7.61s/it] 31%|███       | 2955/9678 [6:34:17<13:24:26,  7.18s/it] 31%|███       | 2956/9678 [6:34:26<14:05:39,  7.55s/it] 31%|███       | 2957/9678 [6:34:34<14:14:51,  7.63s/it] 31%|███       | 2958/9678 [6:34:42<14:41:14,  7.87s/it] 31%|███       | 2959/9678 [6:34:52<15:38:13,  8.38s/it] 31%|███       | 2960/9678 [6:35:00<15:45:36,  8.45s/it]                                                        {'loss': 1.0221, 'grad_norm': 1.1299808025360107, 'learning_rate': 0.0003976947051414366, 'epoch': 0.31}
+ 31%|███       | 2960/9678 [6:35:00<15:45:36,  8.45s/it] 31%|███       | 2961/9678 [6:35:08<15:35:09,  8.35s/it] 31%|███       | 2962/9678 [6:35:15<14:38:05,  7.84s/it] 31%|███       | 2963/9678 [6:35:24<15:04:34,  8.08s/it] 31%|███       | 2964/9678 [6:35:34<16:15:28,  8.72s/it] 31%|███       | 2965/9678 [6:35:42<15:46:35,  8.46s/it] 31%|███       | 2966/9678 [6:35:51<16:08:59,  8.66s/it] 31%|███       | 2967/9678 [6:35:59<15:59:48,  8.58s/it] 31%|███       | 2968/9678 [6:36:08<15:57:22,  8.56s/it] 31%|███       | 2969/9678 [6:36:17<16:32:09,  8.87s/it] 31%|███       | 2970/9678 [6:36:24<15:27:06,  8.29s/it]                                                        {'loss': 0.9024, 'grad_norm': 1.0618709325790405, 'learning_rate': 0.00039703251416538883, 'epoch': 0.31}
+ 31%|███       | 2970/9678 [6:36:24<15:27:06,  8.29s/it] 31%|███       | 2971/9678 [6:36:33<15:55:53,  8.55s/it] 31%|███       | 2972/9678 [6:36:43<16:22:39,  8.79s/it] 31%|███       | 2973/9678 [6:36:50<15:44:26,  8.45s/it] 31%|███       | 2974/9678 [6:36:59<15:43:08,  8.44s/it] 31%|███       | 2975/9678 [6:37:05<14:39:49,  7.88s/it] 31%|███       | 2976/9678 [6:37:15<15:29:02,  8.32s/it] 31%|███       | 2977/9678 [6:37:24<16:09:20,  8.68s/it] 31%|███       | 2978/9678 [6:37:32<15:37:05,  8.39s/it] 31%|███       | 2979/9678 [6:37:39<14:37:38,  7.86s/it] 31%|███       | 2980/9678 [6:37:49<15:59:40,  8.60s/it]                                                        {'loss': 1.2754, 'grad_norm': 1.099435806274414, 'learning_rate': 0.0003963687423379003, 'epoch': 0.31}
+ 31%|███       | 2980/9678 [6:37:49<15:59:40,  8.60s/it] 31%|███       | 2981/9678 [6:37:57<15:33:29,  8.36s/it] 31%|███       | 2982/9678 [6:38:04<14:41:38,  7.90s/it] 31%|███       | 2983/9678 [6:38:11<14:38:30,  7.87s/it] 31%|███       | 2984/9678 [6:38:19<14:35:06,  7.84s/it] 31%|███       | 2985/9678 [6:38:29<15:28:47,  8.33s/it] 31%|███       | 2986/9678 [6:38:36<14:56:42,  8.04s/it] 31%|███       | 2987/9678 [6:38:44<14:50:33,  7.99s/it] 31%|███       | 2988/9678 [6:38:51<14:25:55,  7.77s/it] 31%|███       | 2989/9678 [6:39:02<16:12:50,  8.73s/it] 31%|███       | 2990/9678 [6:39:09<15:14:22,  8.20s/it]                                                        {'loss': 1.1154, 'grad_norm': 1.1851657629013062, 'learning_rate': 0.00039570339679565527, 'epoch': 0.31}
+ 31%|███       | 2990/9678 [6:39:09<15:14:22,  8.20s/it] 31%|███       | 2991/9678 [6:39:15<14:00:41,  7.54s/it] 31%|███       | 2992/9678 [6:39:23<14:01:01,  7.55s/it] 31%|███       | 2993/9678 [6:39:30<14:07:34,  7.61s/it] 31%|███       | 2994/9678 [6:39:39<14:28:40,  7.80s/it] 31%|███       | 2995/9678 [6:39:49<16:11:54,  8.73s/it] 31%|███       | 2996/9678 [6:39:58<15:59:48,  8.62s/it] 31%|███       | 2997/9678 [6:40:06<15:49:05,  8.52s/it] 31%|███       | 2998/9678 [6:40:14<15:42:44,  8.47s/it] 31%|███       | 2999/9678 [6:40:21<14:23:38,  7.76s/it] 31%|███       | 3000/9678 [6:40:28<14:07:23,  7.61s/it]                                                        {'loss': 0.9979, 'grad_norm': 1.1812468767166138, 'learning_rate': 0.00039503648469225826, 'epoch': 0.31}
+ 31%|███       | 3000/9678 [6:40:28<14:07:23,  7.61s/it] 31%|███       | 3001/9678 [6:40:36<14:15:46,  7.69s/it] 31%|███       | 3002/9678 [6:40:44<14:43:32,  7.94s/it] 31%|███       | 3003/9678 [6:40:53<15:07:48,  8.16s/it] 31%|███       | 3004/9678 [6:41:01<14:51:02,  8.01s/it] 31%|███       | 3005/9678 [6:41:07<14:11:15,  7.65s/it] 31%|███       | 3006/9678 [6:41:15<14:23:52,  7.77s/it] 31%|███       | 3007/9678 [6:41:23<13:59:41,  7.55s/it] 31%|███       | 3008/9678 [6:41:30<13:48:32,  7.45s/it] 31%|███       | 3009/9678 [6:41:38<14:27:28,  7.80s/it] 31%|███       | 3010/9678 [6:41:45<14:03:42,  7.59s/it]                                                        {'loss': 1.0625, 'grad_norm': 1.1941215991973877, 'learning_rate': 0.00039436801319815717, 'epoch': 0.31}
+ 31%|███       | 3010/9678 [6:41:45<14:03:42,  7.59s/it] 31%|███       | 3011/9678 [6:41:54<14:46:04,  7.97s/it] 31%|███       | 3012/9678 [6:42:02<14:27:49,  7.81s/it] 31%|███       | 3013/9678 [6:42:09<14:24:15,  7.78s/it] 31%|███       | 3014/9678 [6:42:18<15:00:50,  8.11s/it] 31%|███       | 3015/9678 [6:42:27<15:05:49,  8.16s/it] 31%|███       | 3016/9678 [6:42:36<15:33:11,  8.40s/it] 31%|███       | 3017/9678 [6:42:43<15:09:09,  8.19s/it] 31%|███       | 3018/9678 [6:42:50<14:15:21,  7.71s/it] 31%|███       | 3019/9678 [6:42:59<14:55:27,  8.07s/it] 31%|███       | 3020/9678 [6:43:07<15:05:33,  8.16s/it]                                                        {'loss': 1.189, 'grad_norm': 0.9969115853309631, 'learning_rate': 0.00039369798950056567, 'epoch': 0.31}
+ 31%|███       | 3020/9678 [6:43:07<15:05:33,  8.16s/it] 31%|███       | 3021/9678 [6:43:15<15:01:37,  8.13s/it] 31%|███       | 3022/9678 [6:43:22<14:14:58,  7.71s/it] 31%|███       | 3023/9678 [6:43:29<13:40:16,  7.40s/it] 31%|███       | 3024/9678 [6:43:37<14:27:59,  7.83s/it] 31%|███▏      | 3025/9678 [6:43:44<13:53:10,  7.51s/it] 31%|███▏      | 3026/9678 [6:43:54<14:55:40,  8.08s/it] 31%|███▏      | 3027/9678 [6:44:00<14:06:46,  7.64s/it] 31%|███▏      | 3028/9678 [6:44:08<14:01:51,  7.60s/it] 31%|███▏      | 3029/9678 [6:44:16<14:32:50,  7.88s/it] 31%|███▏      | 3030/9678 [6:44:24<14:29:18,  7.85s/it]                                                        {'loss': 1.107, 'grad_norm': 1.1364282369613647, 'learning_rate': 0.00039302642080338664, 'epoch': 0.31}
+ 31%|███▏      | 3030/9678 [6:44:24<14:29:18,  7.85s/it] 31%|███▏      | 3031/9678 [6:44:33<14:54:44,  8.08s/it] 31%|███▏      | 3032/9678 [6:44:41<15:11:51,  8.23s/it] 31%|███▏      | 3033/9678 [6:44:48<14:22:26,  7.79s/it] 31%|███▏      | 3034/9678 [6:44:56<14:21:38,  7.78s/it] 31%|███▏      | 3035/9678 [6:45:05<15:02:42,  8.15s/it] 31%|███▏      | 3036/9678 [6:45:11<14:06:43,  7.65s/it] 31%|███▏      | 3037/9678 [6:45:19<14:07:05,  7.65s/it] 31%|███▏      | 3038/9678 [6:45:26<13:48:22,  7.49s/it] 31%|███▏      | 3039/9678 [6:45:33<13:37:22,  7.39s/it] 31%|███▏      | 3040/9678 [6:45:39<12:43:45,  6.90s/it]                                                        {'loss': 1.238, 'grad_norm': 1.234078288078308, 'learning_rate': 0.0003923533143271341, 'epoch': 0.31}
+ 31%|███▏      | 3040/9678 [6:45:39<12:43:45,  6.90s/it] 31%|███▏      | 3041/9678 [6:45:46<12:59:29,  7.05s/it] 31%|███▏      | 3042/9678 [6:45:52<12:20:56,  6.70s/it] 31%|███▏      | 3043/9678 [6:46:00<13:00:18,  7.06s/it] 31%|███▏      | 3044/9678 [6:46:07<13:05:36,  7.11s/it] 31%|███▏      | 3045/9678 [6:46:16<13:57:06,  7.57s/it] 31%|███▏      | 3046/9678 [6:46:23<13:37:31,  7.40s/it] 31%|███▏      | 3047/9678 [6:46:32<14:22:49,  7.81s/it] 31%|███▏      | 3048/9678 [6:46:40<14:48:05,  8.04s/it] 32%|███▏      | 3049/9678 [6:46:48<14:44:15,  8.00s/it] 32%|███▏      | 3050/9678 [6:46:56<14:21:33,  7.80s/it]                                                        {'loss': 1.1151, 'grad_norm': 1.0862330198287964, 'learning_rate': 0.0003916786773088559, 'epoch': 0.32}
+ 32%|███▏      | 3050/9678 [6:46:56<14:21:33,  7.80s/it] 32%|███▏      | 3051/9678 [6:47:02<13:52:58,  7.54s/it] 32%|███▏      | 3052/9678 [6:47:10<14:06:02,  7.66s/it] 32%|███▏      | 3053/9678 [6:47:20<15:25:48,  8.38s/it] 32%|███▏      | 3054/9678 [6:47:28<14:49:00,  8.05s/it] 32%|███▏      | 3055/9678 [6:47:36<14:42:52,  8.00s/it] 32%|███▏      | 3056/9678 [6:47:45<15:32:52,  8.45s/it] 32%|███▏      | 3057/9678 [6:47:51<14:03:48,  7.65s/it] 32%|███▏      | 3058/9678 [6:47:58<13:39:28,  7.43s/it] 32%|███▏      | 3059/9678 [6:48:06<13:49:04,  7.52s/it] 32%|███▏      | 3060/9678 [6:48:14<14:10:30,  7.71s/it]                                                        {'loss': 1.1031, 'grad_norm': 0.7923426032066345, 'learning_rate': 0.0003910025170020558, 'epoch': 0.32}
+ 32%|███▏      | 3060/9678 [6:48:14<14:10:30,  7.71s/it] 32%|███▏      | 3061/9678 [6:48:21<13:52:14,  7.55s/it] 32%|███▏      | 3062/9678 [6:48:29<14:19:06,  7.79s/it] 32%|███▏      | 3063/9678 [6:48:38<14:38:56,  7.97s/it] 32%|███▏      | 3064/9678 [6:48:45<14:07:02,  7.68s/it] 32%|███▏      | 3065/9678 [6:48:52<14:01:39,  7.64s/it] 32%|███▏      | 3066/9678 [6:49:00<14:13:17,  7.74s/it] 32%|███▏      | 3067/9678 [6:49:07<13:40:44,  7.45s/it] 32%|███▏      | 3068/9678 [6:49:18<15:41:22,  8.55s/it] 32%|███▏      | 3069/9678 [6:49:25<14:49:54,  8.08s/it] 32%|███▏      | 3070/9678 [6:49:34<15:08:35,  8.25s/it]                                                        {'loss': 1.0546, 'grad_norm': 1.6818230152130127, 'learning_rate': 0.0003903248406766158, 'epoch': 0.32}
+ 32%|███▏      | 3070/9678 [6:49:34<15:08:35,  8.25s/it] 32%|███▏      | 3071/9678 [6:49:42<15:03:13,  8.20s/it] 32%|███▏      | 3072/9678 [6:49:49<14:27:53,  7.88s/it] 32%|███▏      | 3073/9678 [6:49:55<13:39:42,  7.45s/it] 32%|███▏      | 3074/9678 [6:50:05<14:51:42,  8.10s/it] 32%|███▏      | 3075/9678 [6:50:11<13:33:59,  7.40s/it] 32%|███▏      | 3076/9678 [6:50:20<14:42:58,  8.02s/it] 32%|███▏      | 3077/9678 [6:50:29<15:09:49,  8.27s/it] 32%|███▏      | 3078/9678 [6:50:37<15:06:56,  8.24s/it] 32%|███▏      | 3079/9678 [6:50:44<14:17:03,  7.79s/it] 32%|███▏      | 3080/9678 [6:50:53<14:49:15,  8.09s/it]                                                        {'loss': 1.1412, 'grad_norm': 1.0749332904815674, 'learning_rate': 0.00038964565561871723, 'epoch': 0.32}
+ 32%|███▏      | 3080/9678 [6:50:53<14:49:15,  8.09s/it] 32%|███▏      | 3081/9678 [6:50:59<13:36:44,  7.43s/it] 32%|███▏      | 3082/9678 [6:51:06<13:45:18,  7.51s/it] 32%|███▏      | 3083/9678 [6:51:17<15:44:53,  8.60s/it] 32%|███▏      | 3084/9678 [6:51:25<15:23:26,  8.40s/it] 32%|███▏      | 3085/9678 [6:51:33<14:50:00,  8.10s/it] 32%|███▏      | 3086/9678 [6:51:39<14:01:36,  7.66s/it] 32%|███▏      | 3087/9678 [6:51:47<13:53:26,  7.59s/it] 32%|███▏      | 3088/9678 [6:51:55<13:56:20,  7.61s/it] 32%|███▏      | 3089/9678 [6:52:05<15:25:41,  8.43s/it] 32%|███▏      | 3090/9678 [6:52:13<15:16:41,  8.35s/it]                                                        {'loss': 1.0668, 'grad_norm': 1.6896083354949951, 'learning_rate': 0.00038896496913076327, 'epoch': 0.32}
+ 32%|███▏      | 3090/9678 [6:52:13<15:16:41,  8.35s/it] 32%|███▏      | 3091/9678 [6:52:20<14:31:29,  7.94s/it] 32%|███▏      | 3092/9678 [6:52:28<14:35:41,  7.98s/it] 32%|███▏      | 3093/9678 [6:52:35<14:13:00,  7.77s/it] 32%|███▏      | 3094/9678 [6:52:44<14:56:19,  8.17s/it] 32%|███▏      | 3095/9678 [6:52:52<14:21:46,  7.85s/it] 32%|███▏      | 3096/9678 [6:53:00<14:43:03,  8.05s/it] 32%|███▏      | 3097/9678 [6:53:09<15:08:09,  8.28s/it] 32%|███▏      | 3098/9678 [6:53:17<15:06:05,  8.26s/it] 32%|███▏      | 3099/9678 [6:53:25<15:00:10,  8.21s/it] 32%|███▏      | 3100/9678 [6:53:32<14:17:19,  7.82s/it]                                                        {'loss': 1.2632, 'grad_norm': 1.24112069606781, 'learning_rate': 0.0003882827885312998, 'epoch': 0.32}
+ 32%|███▏      | 3100/9678 [6:53:32<14:17:19,  7.82s/it] 32%|███▏      | 3101/9678 [6:53:39<13:59:52,  7.66s/it] 32%|███▏      | 3102/9678 [6:53:48<14:37:18,  8.00s/it] 32%|███▏      | 3103/9678 [6:53:56<14:21:04,  7.86s/it] 32%|███▏      | 3104/9678 [6:54:02<13:42:16,  7.50s/it] 32%|███▏      | 3105/9678 [6:54:11<14:11:26,  7.77s/it] 32%|███▏      | 3106/9678 [6:54:18<13:39:28,  7.48s/it] 32%|███▏      | 3107/9678 [6:54:26<14:18:30,  7.84s/it] 32%|███▏      | 3108/9678 [6:54:34<13:57:52,  7.65s/it] 32%|███▏      | 3109/9678 [6:54:41<13:43:19,  7.52s/it] 32%|███▏      | 3110/9678 [6:54:49<14:07:38,  7.74s/it]                                                        {'loss': 1.0969, 'grad_norm': 1.2017937898635864, 'learning_rate': 0.00038759912115493724, 'epoch': 0.32}
+ 32%|███▏      | 3110/9678 [6:54:49<14:07:38,  7.74s/it] 32%|███▏      | 3111/9678 [6:54:56<13:59:02,  7.67s/it] 32%|███▏      | 3112/9678 [6:55:05<14:23:12,  7.89s/it] 32%|███▏      | 3113/9678 [6:55:13<14:30:01,  7.95s/it] 32%|███▏      | 3114/9678 [6:55:22<15:03:19,  8.26s/it] 32%|███▏      | 3115/9678 [6:55:31<15:20:57,  8.42s/it] 32%|███▏      | 3116/9678 [6:55:39<15:12:13,  8.34s/it] 32%|███▏      | 3117/9678 [6:55:46<14:31:32,  7.97s/it] 32%|███▏      | 3118/9678 [6:55:54<14:37:48,  8.03s/it] 32%|███▏      | 3119/9678 [6:56:01<14:07:47,  7.76s/it] 32%|███▏      | 3120/9678 [6:56:09<14:20:18,  7.87s/it]                                                        {'loss': 0.9202, 'grad_norm': 1.20210599899292, 'learning_rate': 0.00038691397435227097, 'epoch': 0.32}
+ 32%|███▏      | 3120/9678 [6:56:09<14:20:18,  7.87s/it] 32%|███▏      | 3121/9678 [6:56:16<13:27:10,  7.39s/it] 32%|███▏      | 3122/9678 [6:56:27<15:31:39,  8.53s/it] 32%|███▏      | 3123/9678 [6:56:35<15:24:21,  8.46s/it] 32%|███▏      | 3124/9678 [6:56:45<15:58:23,  8.77s/it] 32%|███▏      | 3125/9678 [6:56:53<15:56:43,  8.76s/it] 32%|███▏      | 3126/9678 [6:57:03<16:21:21,  8.99s/it] 32%|███▏      | 3127/9678 [6:57:11<15:36:45,  8.58s/it] 32%|███▏      | 3128/9678 [6:57:18<15:15:50,  8.39s/it] 32%|███▏      | 3129/9678 [6:57:28<15:57:08,  8.77s/it] 32%|███▏      | 3130/9678 [6:57:36<15:10:45,  8.35s/it]                                                        {'loss': 1.1583, 'grad_norm': 1.408257246017456, 'learning_rate': 0.0003862273554898032, 'epoch': 0.32}
+ 32%|███▏      | 3130/9678 [6:57:36<15:10:45,  8.35s/it] 32%|███▏      | 3131/9678 [6:57:43<14:31:33,  7.99s/it] 32%|███▏      | 3132/9678 [6:57:51<14:53:10,  8.19s/it] 32%|███▏      | 3133/9678 [6:58:01<15:44:34,  8.66s/it] 32%|███▏      | 3134/9678 [6:58:10<15:45:52,  8.67s/it] 32%|███▏      | 3135/9678 [6:58:17<15:12:10,  8.36s/it] 32%|███▏      | 3136/9678 [6:58:25<14:39:42,  8.07s/it] 32%|███▏      | 3137/9678 [6:58:32<14:21:00,  7.90s/it] 32%|███▏      | 3138/9678 [6:58:39<13:42:17,  7.54s/it] 32%|███▏      | 3139/9678 [6:58:48<14:40:13,  8.08s/it] 32%|███▏      | 3140/9678 [6:58:55<14:08:00,  7.78s/it]                                                        {'loss': 1.0382, 'grad_norm': 1.5274341106414795, 'learning_rate': 0.000385539271949863, 'epoch': 0.32}
+ 32%|███▏      | 3140/9678 [6:58:55<14:08:00,  7.78s/it] 32%|███▏      | 3141/9678 [6:59:04<14:38:56,  8.07s/it] 32%|███▏      | 3142/9678 [6:59:12<14:41:17,  8.09s/it] 32%|███▏      | 3143/9678 [6:59:21<14:56:18,  8.23s/it] 32%|███▏      | 3144/9678 [6:59:28<14:19:03,  7.89s/it] 32%|███▏      | 3145/9678 [6:59:36<14:16:20,  7.86s/it] 33%|███▎      | 3146/9678 [6:59:42<13:31:21,  7.45s/it] 33%|███▎      | 3147/9678 [6:59:51<14:26:46,  7.96s/it] 33%|███▎      | 3148/9678 [6:59:58<13:46:34,  7.59s/it] 33%|███▎      | 3149/9678 [7:00:08<14:52:52,  8.21s/it] 33%|███▎      | 3150/9678 [7:00:15<14:31:01,  8.01s/it]                                                        {'loss': 1.1232, 'grad_norm': 1.1086093187332153, 'learning_rate': 0.00038484973113052736, 'epoch': 0.33}
+ 33%|███▎      | 3150/9678 [7:00:15<14:31:01,  8.01s/it] 33%|███▎      | 3151/9678 [7:00:23<14:16:14,  7.87s/it] 33%|███▎      | 3152/9678 [7:00:30<13:54:12,  7.67s/it] 33%|███▎      | 3153/9678 [7:00:38<14:10:10,  7.82s/it] 33%|███▎      | 3154/9678 [7:00:45<13:45:51,  7.60s/it] 33%|███▎      | 3155/9678 [7:00:54<14:07:55,  7.80s/it] 33%|███▎      | 3156/9678 [7:01:01<13:58:13,  7.71s/it] 33%|███▎      | 3157/9678 [7:01:07<13:01:35,  7.19s/it] 33%|███▎      | 3158/9678 [7:01:15<13:20:55,  7.37s/it] 33%|███▎      | 3159/9678 [7:01:24<14:16:59,  7.89s/it] 33%|███▎      | 3160/9678 [7:01:33<15:07:17,  8.35s/it]                                                        {'loss': 1.1019, 'grad_norm': 1.35590660572052, 'learning_rate': 0.0003841587404455413, 'epoch': 0.33}
+ 33%|███▎      | 3160/9678 [7:01:33<15:07:17,  8.35s/it] 33%|███▎      | 3161/9678 [7:01:42<15:22:55,  8.50s/it] 33%|███▎      | 3162/9678 [7:01:49<14:35:47,  8.06s/it] 33%|███▎      | 3163/9678 [7:01:57<14:12:42,  7.85s/it] 33%|███▎      | 3164/9678 [7:02:04<13:54:29,  7.69s/it] 33%|███▎      | 3165/9678 [7:02:12<14:20:42,  7.93s/it] 33%|███▎      | 3166/9678 [7:02:21<14:55:11,  8.25s/it] 33%|███▎      | 3167/9678 [7:02:28<14:07:34,  7.81s/it] 33%|███▎      | 3168/9678 [7:02:36<13:56:36,  7.71s/it] 33%|███▎      | 3169/9678 [7:02:43<13:54:33,  7.69s/it] 33%|███▎      | 3170/9678 [7:02:50<13:19:30,  7.37s/it]                                                        {'loss': 1.1557, 'grad_norm': 1.0598667860031128, 'learning_rate': 0.000383466307324239, 'epoch': 0.33}
+ 33%|███▎      | 3170/9678 [7:02:50<13:19:30,  7.37s/it] 33%|███▎      | 3171/9678 [7:02:58<13:53:30,  7.69s/it] 33%|███▎      | 3172/9678 [7:03:07<14:27:35,  8.00s/it] 33%|███▎      | 3173/9678 [7:03:14<13:59:07,  7.74s/it] 33%|███▎      | 3174/9678 [7:03:23<14:16:53,  7.90s/it] 33%|███▎      | 3175/9678 [7:03:29<13:34:48,  7.52s/it] 33%|███▎      | 3176/9678 [7:03:35<12:31:32,  6.94s/it] 33%|███▎      | 3177/9678 [7:03:42<12:31:21,  6.93s/it] 33%|███▎      | 3178/9678 [7:03:50<13:09:31,  7.29s/it] 33%|███▎      | 3179/9678 [7:04:00<14:41:37,  8.14s/it] 33%|███▎      | 3180/9678 [7:04:08<14:48:37,  8.21s/it]                                                        {'loss': 1.0634, 'grad_norm': 1.1116646528244019, 'learning_rate': 0.00038277243921146253, 'epoch': 0.33}
+ 33%|███▎      | 3180/9678 [7:04:08<14:48:37,  8.21s/it] 33%|███▎      | 3181/9678 [7:04:16<14:36:18,  8.09s/it] 33%|███▎      | 3182/9678 [7:04:23<14:09:33,  7.85s/it] 33%|███▎      | 3183/9678 [7:04:32<14:20:40,  7.95s/it] 33%|███▎      | 3184/9678 [7:04:39<13:56:03,  7.72s/it] 33%|███▎      | 3185/9678 [7:04:46<13:45:34,  7.63s/it] 33%|███▎      | 3186/9678 [7:04:54<13:44:16,  7.62s/it] 33%|███▎      | 3187/9678 [7:05:02<14:11:32,  7.87s/it] 33%|███▎      | 3188/9678 [7:05:09<13:20:26,  7.40s/it] 33%|███▎      | 3189/9678 [7:05:16<13:11:14,  7.32s/it] 33%|███▎      | 3190/9678 [7:05:23<13:15:03,  7.35s/it]                                                        {'loss': 1.0067, 'grad_norm': 1.4738123416900635, 'learning_rate': 0.0003820771435674829, 'epoch': 0.33}
+ 33%|███▎      | 3190/9678 [7:05:23<13:15:03,  7.35s/it] 33%|███▎      | 3191/9678 [7:05:30<13:07:04,  7.28s/it] 33%|███▎      | 3192/9678 [7:05:37<13:02:00,  7.23s/it] 33%|███▎      | 3193/9678 [7:05:46<13:33:10,  7.52s/it] 33%|███▎      | 3194/9678 [7:05:52<12:44:33,  7.07s/it] 33%|███▎      | 3195/9678 [7:06:01<13:49:19,  7.68s/it] 33%|███▎      | 3196/9678 [7:06:09<14:07:54,  7.85s/it] 33%|███▎      | 3197/9678 [7:06:16<13:31:17,  7.51s/it] 33%|███▎      | 3198/9678 [7:06:25<14:24:05,  8.00s/it] 33%|███▎      | 3199/9678 [7:06:31<13:17:12,  7.38s/it] 33%|███▎      | 3200/9678 [7:06:37<12:34:26,  6.99s/it]                                                        {'loss': 1.0798, 'grad_norm': 1.3569648265838623, 'learning_rate': 0.00038138042786791987, 'epoch': 0.33}
+ 33%|███▎      | 3200/9678 [7:06:37<12:34:26,  6.99s/it] 33%|███▎      | 3201/9678 [7:06:44<12:52:02,  7.15s/it] 33%|███▎      | 3202/9678 [7:06:53<13:34:34,  7.55s/it] 33%|███▎      | 3203/9678 [7:07:01<14:03:31,  7.82s/it] 33%|███▎      | 3204/9678 [7:07:10<14:22:53,  8.00s/it] 33%|███▎      | 3205/9678 [7:07:18<14:41:27,  8.17s/it] 33%|███▎      | 3206/9678 [7:07:24<13:31:39,  7.52s/it] 33%|███▎      | 3207/9678 [7:07:33<14:18:29,  7.96s/it] 33%|███▎      | 3208/9678 [7:07:41<14:21:25,  7.99s/it] 33%|███▎      | 3209/9678 [7:07:50<14:51:37,  8.27s/it] 33%|███▎      | 3210/9678 [7:07:59<14:53:41,  8.29s/it]                                                        {'loss': 1.0349, 'grad_norm': 1.073232650756836, 'learning_rate': 0.00038068229960366054, 'epoch': 0.33}
+ 33%|███▎      | 3210/9678 [7:07:59<14:53:41,  8.29s/it] 33%|███▎      | 3211/9678 [7:08:08<15:46:05,  8.78s/it] 33%|███▎      | 3212/9678 [7:08:15<14:33:02,  8.10s/it] 33%|███▎      | 3213/9678 [7:08:24<15:01:49,  8.37s/it] 33%|███▎      | 3214/9678 [7:08:33<15:36:30,  8.69s/it] 33%|███▎      | 3215/9678 [7:08:41<14:47:32,  8.24s/it] 33%|███▎      | 3216/9678 [7:08:49<14:39:35,  8.17s/it] 33%|███▎      | 3217/9678 [7:08:57<14:38:47,  8.16s/it] 33%|███▎      | 3218/9678 [7:09:04<14:18:42,  7.98s/it] 33%|███▎      | 3219/9678 [7:09:12<14:10:06,  7.90s/it] 33%|███▎      | 3220/9678 [7:09:19<13:57:16,  7.78s/it]                                                        {'loss': 1.1281, 'grad_norm': 1.4980833530426025, 'learning_rate': 0.0003799827662807801, 'epoch': 0.33}
+ 33%|███▎      | 3220/9678 [7:09:19<13:57:16,  7.78s/it] 33%|███▎      | 3221/9678 [7:09:27<14:01:14,  7.82s/it] 33%|███▎      | 3222/9678 [7:09:35<14:00:40,  7.81s/it] 33%|███▎      | 3223/9678 [7:09:42<13:35:12,  7.58s/it] 33%|███▎      | 3224/9678 [7:09:51<14:14:52,  7.95s/it] 33%|███▎      | 3225/9678 [7:09:58<13:55:28,  7.77s/it] 33%|███▎      | 3226/9678 [7:10:07<14:16:39,  7.97s/it] 33%|███▎      | 3227/9678 [7:10:14<14:03:48,  7.85s/it] 33%|███▎      | 3228/9678 [7:10:22<13:50:51,  7.73s/it] 33%|███▎      | 3229/9678 [7:10:31<14:43:55,  8.22s/it] 33%|███▎      | 3230/9678 [7:10:40<15:01:58,  8.39s/it]                                                        {'loss': 1.1056, 'grad_norm': 1.4308544397354126, 'learning_rate': 0.0003792818354204601, 'epoch': 0.33}
+ 33%|███▎      | 3230/9678 [7:10:40<15:01:58,  8.39s/it] 33%|███▎      | 3231/9678 [7:10:47<14:10:51,  7.92s/it] 33%|███▎      | 3232/9678 [7:10:55<14:04:00,  7.86s/it] 33%|███▎      | 3233/9678 [7:11:02<14:00:47,  7.83s/it] 33%|███▎      | 3234/9678 [7:11:08<13:05:22,  7.31s/it] 33%|███▎      | 3235/9678 [7:11:15<12:55:54,  7.23s/it] 33%|███▎      | 3236/9678 [7:11:23<13:07:39,  7.34s/it] 33%|███▎      | 3237/9678 [7:11:32<13:52:22,  7.75s/it] 33%|███▎      | 3238/9678 [7:11:40<14:13:09,  7.95s/it] 33%|███▎      | 3239/9678 [7:11:48<14:24:56,  8.06s/it] 33%|███▎      | 3240/9678 [7:11:57<14:37:52,  8.18s/it]                                                        {'loss': 1.0928, 'grad_norm': 1.5736769437789917, 'learning_rate': 0.0003785795145589085, 'epoch': 0.33}
+ 33%|███▎      | 3240/9678 [7:11:57<14:37:52,  8.18s/it] 33%|███▎      | 3241/9678 [7:12:05<14:31:24,  8.12s/it] 33%|███▎      | 3242/9678 [7:12:14<15:13:15,  8.51s/it] 34%|███▎      | 3243/9678 [7:12:21<14:22:03,  8.04s/it] 34%|███▎      | 3244/9678 [7:12:29<14:21:01,  8.03s/it] 34%|███▎      | 3245/9678 [7:12:37<13:59:19,  7.83s/it] 34%|███▎      | 3246/9678 [7:12:47<15:08:11,  8.47s/it] 34%|███▎      | 3247/9678 [7:12:53<14:16:16,  7.99s/it] 34%|███▎      | 3248/9678 [7:13:02<14:45:14,  8.26s/it] 34%|███▎      | 3249/9678 [7:13:10<14:30:21,  8.12s/it] 34%|███▎      | 3250/9678 [7:13:19<14:38:02,  8.20s/it]                                                        {'loss': 1.2857, 'grad_norm': 1.5231635570526123, 'learning_rate': 0.0003778758112472776, 'epoch': 0.34}
+ 34%|███▎      | 3250/9678 [7:13:19<14:38:02,  8.20s/it] 34%|███▎      | 3251/9678 [7:13:27<14:46:29,  8.28s/it] 34%|███▎      | 3252/9678 [7:13:36<15:04:20,  8.44s/it] 34%|███▎      | 3253/9678 [7:13:43<14:15:45,  7.99s/it] 34%|███▎      | 3254/9678 [7:13:51<14:34:52,  8.17s/it] 34%|███▎      | 3255/9678 [7:14:00<14:49:43,  8.31s/it] 34%|███▎      | 3256/9678 [7:14:06<13:47:51,  7.73s/it] 34%|███▎      | 3257/9678 [7:14:15<14:09:23,  7.94s/it] 34%|███▎      | 3258/9678 [7:14:22<13:31:55,  7.59s/it] 34%|███▎      | 3259/9678 [7:14:28<12:54:49,  7.24s/it] 34%|███▎      | 3260/9678 [7:14:36<13:13:00,  7.41s/it]                                                        {'loss': 1.1738, 'grad_norm': 1.0374634265899658, 'learning_rate': 0.00037717073305158376, 'epoch': 0.34}
+ 34%|███▎      | 3260/9678 [7:14:36<13:13:00,  7.41s/it] 34%|███▎      | 3261/9678 [7:14:45<14:22:57,  8.07s/it] 34%|███▎      | 3262/9678 [7:14:55<15:20:47,  8.61s/it] 34%|███▎      | 3263/9678 [7:15:03<14:55:52,  8.38s/it] 34%|███▎      | 3264/9678 [7:15:12<15:18:45,  8.59s/it] 34%|███▎      | 3265/9678 [7:15:20<15:04:11,  8.46s/it] 34%|███▎      | 3266/9678 [7:15:29<14:57:27,  8.40s/it] 34%|███▍      | 3267/9678 [7:15:36<14:37:40,  8.21s/it] 34%|███▍      | 3268/9678 [7:15:44<14:22:08,  8.07s/it] 34%|███▍      | 3269/9678 [7:15:54<15:11:56,  8.54s/it] 34%|███▍      | 3270/9678 [7:16:02<15:13:03,  8.55s/it]                                                        {'loss': 0.9849, 'grad_norm': 1.1238751411437988, 'learning_rate': 0.0003764642875526256, 'epoch': 0.34}
+ 34%|███▍      | 3270/9678 [7:16:02<15:13:03,  8.55s/it] 34%|███▍      | 3271/9678 [7:16:10<14:55:01,  8.38s/it] 34%|███▍      | 3272/9678 [7:16:19<14:52:35,  8.36s/it] 34%|███▍      | 3273/9678 [7:16:26<14:16:54,  8.03s/it] 34%|███▍      | 3274/9678 [7:16:32<13:12:33,  7.43s/it] 34%|███▍      | 3275/9678 [7:16:41<14:02:51,  7.90s/it] 34%|███▍      | 3276/9678 [7:16:49<13:56:09,  7.84s/it] 34%|███▍      | 3277/9678 [7:16:58<14:34:14,  8.19s/it] 34%|███▍      | 3278/9678 [7:17:06<14:48:07,  8.33s/it] 34%|███▍      | 3279/9678 [7:17:15<14:51:46,  8.36s/it] 34%|███▍      | 3280/9678 [7:17:24<15:09:17,  8.53s/it]                                                        {'loss': 1.059, 'grad_norm': 1.039632797241211, 'learning_rate': 0.0003757564823459025, 'epoch': 0.34}
+ 34%|███▍      | 3280/9678 [7:17:24<15:09:17,  8.53s/it] 34%|███▍      | 3281/9678 [7:17:35<16:37:46,  9.36s/it] 34%|███▍      | 3282/9678 [7:17:41<15:06:05,  8.50s/it] 34%|███▍      | 3283/9678 [7:17:48<14:13:00,  8.00s/it] 34%|███▍      | 3284/9678 [7:17:56<14:10:06,  7.98s/it] 34%|███▍      | 3285/9678 [7:18:05<14:28:20,  8.15s/it] 34%|███▍      | 3286/9678 [7:18:13<14:44:49,  8.31s/it] 34%|███▍      | 3287/9678 [7:18:22<15:04:00,  8.49s/it] 34%|███▍      | 3288/9678 [7:18:31<14:58:07,  8.43s/it] 34%|███▍      | 3289/9678 [7:18:39<14:51:24,  8.37s/it] 34%|███▍      | 3290/9678 [7:18:48<15:15:49,  8.60s/it]                                                        {'loss': 0.9745, 'grad_norm': 1.1179864406585693, 'learning_rate': 0.0003750473250415334, 'epoch': 0.34}
+ 34%|███▍      | 3290/9678 [7:18:48<15:15:49,  8.60s/it] 34%|███▍      | 3291/9678 [7:18:56<14:55:21,  8.41s/it] 34%|███▍      | 3292/9678 [7:19:03<13:58:13,  7.88s/it] 34%|███▍      | 3293/9678 [7:19:11<14:06:25,  7.95s/it] 34%|███▍      | 3294/9678 [7:19:19<14:23:13,  8.11s/it] 34%|███▍      | 3295/9678 [7:19:27<14:03:01,  7.92s/it] 34%|███▍      | 3296/9678 [7:19:37<15:18:20,  8.63s/it] 34%|███▍      | 3297/9678 [7:19:45<14:56:03,  8.43s/it] 34%|███▍      | 3298/9678 [7:19:52<14:25:10,  8.14s/it] 34%|███▍      | 3299/9678 [7:20:00<14:18:12,  8.07s/it] 34%|███▍      | 3300/9678 [7:20:09<14:32:17,  8.21s/it]                                                        {'loss': 1.1077, 'grad_norm': 1.1467711925506592, 'learning_rate': 0.0003743368232641741, 'epoch': 0.34}
+ 34%|███��      | 3300/9678 [7:20:09<14:32:17,  8.21s/it] 34%|███▍      | 3301/9678 [7:20:17<14:29:13,  8.18s/it] 34%|███▍      | 3302/9678 [7:20:26<14:54:02,  8.41s/it] 34%|███▍      | 3303/9678 [7:20:33<14:10:34,  8.01s/it] 34%|███▍      | 3304/9678 [7:20:40<13:38:05,  7.70s/it] 34%|███▍      | 3305/9678 [7:20:48<14:02:46,  7.93s/it] 34%|███▍      | 3306/9678 [7:20:58<15:06:48,  8.54s/it] 34%|███▍      | 3307/9678 [7:21:05<14:21:46,  8.12s/it] 34%|███▍      | 3308/9678 [7:21:15<14:56:14,  8.44s/it] 34%|███▍      | 3309/9678 [7:21:21<13:49:17,  7.81s/it] 34%|███▍      | 3310/9678 [7:21:29<13:53:34,  7.85s/it]                                                        {'loss': 1.0454, 'grad_norm': 1.0984638929367065, 'learning_rate': 0.00037362498465293604, 'epoch': 0.34}
+ 34%|███▍      | 3310/9678 [7:21:29<13:53:34,  7.85s/it] 34%|███▍      | 3311/9678 [7:21:37<13:58:18,  7.90s/it] 34%|███▍      | 3312/9678 [7:21:45<14:01:32,  7.93s/it] 34%|███▍      | 3313/9678 [7:21:52<13:39:33,  7.73s/it] 34%|███▍      | 3314/9678 [7:21:59<13:06:45,  7.42s/it] 34%|███▍      | 3315/9678 [7:22:07<13:22:09,  7.56s/it] 34%|███▍      | 3316/9678 [7:22:16<14:00:12,  7.92s/it] 34%|███▍      | 3317/9678 [7:22:23<13:41:20,  7.75s/it] 34%|███▍      | 3318/9678 [7:22:31<13:54:29,  7.87s/it] 34%|███▍      | 3319/9678 [7:22:39<13:47:23,  7.81s/it] 34%|███▍      | 3320/9678 [7:22:45<12:54:35,  7.31s/it]                                                        {'loss': 1.073, 'grad_norm': 1.0687668323516846, 'learning_rate': 0.000372911816861304, 'epoch': 0.34}
+ 34%|███▍      | 3320/9678 [7:22:45<12:54:35,  7.31s/it] 34%|███▍      | 3321/9678 [7:22:51<12:31:02,  7.09s/it] 34%|███▍      | 3322/9678 [7:22:58<12:09:59,  6.89s/it] 34%|███▍      | 3323/9678 [7:23:05<12:23:07,  7.02s/it] 34%|███▍      | 3324/9678 [7:23:12<12:29:05,  7.07s/it] 34%|███▍      | 3325/9678 [7:23:20<13:00:19,  7.37s/it] 34%|███▍      | 3326/9678 [7:23:30<13:54:47,  7.89s/it] 34%|███▍      | 3327/9678 [7:23:37<13:46:47,  7.81s/it] 34%|███▍      | 3328/9678 [7:23:45<14:01:20,  7.95s/it] 34%|███▍      | 3329/9678 [7:23:54<14:13:00,  8.06s/it] 34%|███▍      | 3330/9678 [7:24:02<14:27:52,  8.20s/it]                                                        {'loss': 1.1094, 'grad_norm': 1.6367201805114746, 'learning_rate': 0.00037219732755705353, 'epoch': 0.34}
+ 34%|███▍      | 3330/9678 [7:24:02<14:27:52,  8.20s/it] 34%|███▍      | 3331/9678 [7:24:12<15:20:15,  8.70s/it] 34%|███▍      | 3332/9678 [7:24:20<14:49:16,  8.41s/it] 34%|███▍      | 3333/9678 [7:24:28<14:25:59,  8.19s/it] 34%|███▍      | 3334/9678 [7:24:35<13:55:02,  7.90s/it] 34%|███▍      | 3335/9678 [7:24:42<13:42:44,  7.78s/it] 34%|███▍      | 3336/9678 [7:24:48<12:50:59,  7.29s/it] 34%|███▍      | 3337/9678 [7:24:55<12:24:05,  7.04s/it] 34%|███▍      | 3338/9678 [7:25:05<14:02:44,  7.98s/it] 35%|███▍      | 3339/9678 [7:25:14<14:41:41,  8.35s/it] 35%|███▍      | 3340/9678 [7:25:23<15:05:36,  8.57s/it]                                                        {'loss': 1.1536, 'grad_norm': 1.2905350923538208, 'learning_rate': 0.0003714815244221689, 'epoch': 0.35}
+ 35%|███▍      | 3340/9678 [7:25:23<15:05:36,  8.57s/it] 35%|███▍      | 3341/9678 [7:25:30<14:17:50,  8.12s/it] 35%|███▍      | 3342/9678 [7:25:40<14:50:25,  8.43s/it] 35%|███▍      | 3343/9678 [7:25:48<14:57:15,  8.50s/it] 35%|███▍      | 3344/9678 [7:25:57<15:07:21,  8.60s/it] 35%|███▍      | 3345/9678 [7:26:04<14:15:10,  8.10s/it] 35%|███▍      | 3346/9678 [7:26:11<13:39:57,  7.77s/it] 35%|███▍      | 3347/9678 [7:26:19<13:43:59,  7.81s/it] 35%|███▍      | 3348/9678 [7:26:27<13:41:30,  7.79s/it] 35%|███▍      | 3349/9678 [7:26:35<13:50:26,  7.87s/it] 35%|███▍      | 3350/9678 [7:26:43<14:05:37,  8.02s/it]                                                        {'loss': 1.1906, 'grad_norm': 0.9039587378501892, 'learning_rate': 0.00037076441515276003, 'epoch': 0.35}
+ 35%|███▍      | 3350/9678 [7:26:43<14:05:37,  8.02s/it] 35%|███▍      | 3351/9678 [7:26:52<14:33:50,  8.29s/it] 35%|███▍      | 3352/9678 [7:27:00<14:15:37,  8.12s/it] 35%|███▍      | 3353/9678 [7:27:06<13:30:49,  7.69s/it] 35%|███▍      | 3354/9678 [7:27:13<13:07:33,  7.47s/it] 35%|███▍      | 3355/9678 [7:27:21<13:12:33,  7.52s/it] 35%|███▍      | 3356/9678 [7:27:27<12:35:32,  7.17s/it] 35%|███▍      | 3357/9678 [7:27:36<13:22:59,  7.62s/it] 35%|███▍      | 3358/9678 [7:27:44<13:22:44,  7.62s/it] 35%|███▍      | 3359/9678 [7:27:51<13:18:00,  7.58s/it] 35%|███▍      | 3360/9678 [7:28:00<14:06:25,  8.04s/it]                                                        {'loss': 1.1448, 'grad_norm': 1.3063287734985352, 'learning_rate': 0.0003700460074589804, 'epoch': 0.35}
+ 35%|███▍      | 3360/9678 [7:28:00<14:06:25,  8.04s/it] 35%|███▍      | 3361/9678 [7:28:08<13:59:17,  7.97s/it] 35%|███▍      | 3362/9678 [7:28:14<12:42:45,  7.25s/it] 35%|███▍      | 3363/9678 [7:28:21<12:29:54,  7.12s/it] 35%|███▍      | 3364/9678 [7:28:28<12:56:35,  7.38s/it] 35%|███▍      | 3365/9678 [7:28:36<13:00:18,  7.42s/it] 35%|███▍      | 3366/9678 [7:28:45<13:43:27,  7.83s/it] 35%|███▍      | 3367/9678 [7:28:53<13:54:51,  7.94s/it] 35%|███▍      | 3368/9678 [7:29:02<14:40:55,  8.38s/it] 35%|███▍      | 3369/9678 [7:29:12<15:15:43,  8.71s/it] 35%|███▍      | 3370/9678 [7:29:20<14:50:44,  8.47s/it]                                                        {'loss': 1.2537, 'grad_norm': 1.5665302276611328, 'learning_rate': 0.00036932630906494346, 'epoch': 0.35}
+ 35%|███▍      | 3370/9678 [7:29:20<14:50:44,  8.47s/it] 35%|███▍      | 3371/9678 [7:29:27<13:56:56,  7.96s/it] 35%|███▍      | 3372/9678 [7:29:34<13:47:10,  7.87s/it] 35%|███▍      | 3373/9678 [7:29:41<13:19:37,  7.61s/it] 35%|███▍      | 3374/9678 [7:29:50<14:02:35,  8.02s/it] 35%|███▍      | 3375/9678 [7:29:58<14:03:45,  8.03s/it] 35%|███▍      | 3376/9678 [7:30:07<14:22:45,  8.21s/it] 35%|███▍      | 3377/9678 [7:30:16<14:46:34,  8.44s/it] 35%|███▍      | 3378/9678 [7:30:23<14:19:06,  8.18s/it] 35%|███▍      | 3379/9678 [7:30:31<14:06:51,  8.07s/it] 35%|███▍      | 3380/9678 [7:30:42<15:38:13,  8.94s/it]                                                        {'loss': 1.1135, 'grad_norm': 1.0483524799346924, 'learning_rate': 0.0003686053277086401, 'epoch': 0.35}
+ 35%|███▍      | 3380/9678 [7:30:42<15:38:13,  8.94s/it] 35%|███▍      | 3381/9678 [7:30:51<15:45:54,  9.01s/it] 35%|███▍      | 3382/9678 [7:30:59<14:46:52,  8.45s/it] 35%|███▍      | 3383/9678 [7:31:07<15:00:00,  8.58s/it] 35%|███▍      | 3384/9678 [7:31:15<14:28:39,  8.28s/it] 35%|███▍      | 3385/9678 [7:31:20<12:58:12,  7.42s/it] 35%|███▍      | 3386/9678 [7:31:30<14:08:51,  8.09s/it] 35%|███▍      | 3387/9678 [7:31:37<13:34:44,  7.77s/it] 35%|███▌      | 3388/9678 [7:31:45<13:47:16,  7.89s/it] 35%|███▌      | 3389/9678 [7:31:52<13:13:04,  7.57s/it] 35%|███▌      | 3390/9678 [7:31:58<12:34:25,  7.20s/it]                                                        {'loss': 1.0816, 'grad_norm': 1.2478828430175781, 'learning_rate': 0.0003678830711418551, 'epoch': 0.35}
+ 35%|███▌      | 3390/9678 [7:31:58<12:34:25,  7.20s/it] 35%|███▌      | 3391/9678 [7:32:06<12:49:59,  7.35s/it] 35%|███▌      | 3392/9678 [7:32:15<13:43:20,  7.86s/it] 35%|███▌      | 3393/9678 [7:32:22<13:13:55,  7.58s/it] 35%|███▌      | 3394/9678 [7:32:29<12:46:35,  7.32s/it] 35%|███▌      | 3395/9678 [7:32:38<13:43:46,  7.87s/it] 35%|███▌      | 3396/9678 [7:32:48<14:42:37,  8.43s/it] 35%|███▌      | 3397/9678 [7:32:55<14:21:05,  8.23s/it] 35%|███▌      | 3398/9678 [7:33:03<13:55:58,  7.99s/it] 35%|███▌      | 3399/9678 [7:33:12<14:33:18,  8.35s/it] 35%|███▌      | 3400/9678 [7:33:21<14:49:14,  8.50s/it]                                                        {'loss': 1.1217, 'grad_norm': 1.14175283908844, 'learning_rate': 0.00036715954713008406, 'epoch': 0.35}
+ 35%|███▌      | 3400/9678 [7:33:21<14:49:14,  8.50s/it] 35%|███▌      | 3401/9678 [7:33:29<14:43:02,  8.44s/it] 35%|███▌      | 3402/9678 [7:33:36<13:49:58,  7.93s/it] 35%|███▌      | 3403/9678 [7:33:43<13:31:53,  7.76s/it] 35%|███▌      | 3404/9678 [7:33:53<14:31:01,  8.33s/it] 35%|███▌      | 3405/9678 [7:34:02<14:37:57,  8.40s/it] 35%|███▌      | 3406/9678 [7:34:08<13:33:01,  7.78s/it] 35%|███▌      | 3407/9678 [7:34:15<13:25:21,  7.71s/it] 35%|███▌      | 3408/9678 [7:34:25<14:36:14,  8.39s/it] 35%|███▌      | 3409/9678 [7:34:33<14:22:54,  8.26s/it] 35%|███▌      | 3410/9678 [7:34:41<14:07:21,  8.11s/it]                                                        {'loss': 1.1127, 'grad_norm': 1.0000718832015991, 'learning_rate': 0.0003664347634524497, 'epoch': 0.35}
+ 35%|███▌      | 3410/9678 [7:34:41<14:07:21,  8.11s/it] 35%|███▌      | 3411/9678 [7:34:49<13:59:07,  8.03s/it] 35%|███▌      | 3412/9678 [7:34:57<14:09:52,  8.14s/it] 35%|███▌      | 3413/9678 [7:35:05<13:50:33,  7.95s/it] 35%|███▌      | 3414/9678 [7:35:14<14:19:36,  8.23s/it] 35%|███▌      | 3415/9678 [7:35:21<13:35:38,  7.81s/it] 35%|███▌      | 3416/9678 [7:35:27<12:49:39,  7.37s/it] 35%|███▌      | 3417/9678 [7:35:35<13:02:54,  7.50s/it] 35%|███▌      | 3418/9678 [7:35:43<13:23:55,  7.71s/it] 35%|███▌      | 3419/9678 [7:35:52<13:56:13,  8.02s/it] 35%|███▌      | 3420/9678 [7:36:01<14:36:41,  8.41s/it]                                                        {'loss': 1.0619, 'grad_norm': 1.5337084531784058, 'learning_rate': 0.00036570872790161834, 'epoch': 0.35}
+ 35%|███▌      | 3420/9678 [7:36:01<14:36:41,  8.41s/it] 35%|███▌      | 3421/9678 [7:36:11<15:19:40,  8.82s/it] 35%|███▌      | 3422/9678 [7:36:18<14:44:54,  8.49s/it] 35%|███▌      | 3423/9678 [7:36:26<14:16:52,  8.22s/it] 35%|███▌      | 3424/9678 [7:36:33<13:47:16,  7.94s/it] 35%|███▌      | 3425/9678 [7:36:42<13:55:29,  8.02s/it] 35%|███▌      | 3426/9678 [7:36:52<15:23:12,  8.86s/it] 35%|███▌      | 3427/9678 [7:37:00<14:37:04,  8.42s/it] 35%|███▌      | 3428/9678 [7:37:08<14:41:23,  8.46s/it] 35%|███▌      | 3429/9678 [7:37:16<14:05:35,  8.12s/it] 35%|███▌      | 3430/9678 [7:37:24<14:20:56,  8.27s/it]                                                        {'loss': 1.1094, 'grad_norm': 0.878587543964386, 'learning_rate': 0.00036498144828371604, 'epoch': 0.35}
+ 35%|███▌      | 3430/9678 [7:37:24<14:20:56,  8.27s/it] 35%|███▌      | 3431/9678 [7:37:32<13:58:13,  8.05s/it] 35%|███▌      | 3432/9678 [7:37:38<13:02:01,  7.51s/it] 35%|███▌      | 3433/9678 [7:37:45<12:49:38,  7.39s/it] 35%|███▌      | 3434/9678 [7:37:54<13:25:10,  7.74s/it] 35%|███▌      | 3435/9678 [7:38:02<13:40:56,  7.89s/it] 36%|███▌      | 3436/9678 [7:38:11<14:03:54,  8.11s/it] 36%|███▌      | 3437/9678 [7:38:17<13:26:08,  7.75s/it] 36%|███▌      | 3438/9678 [7:38:27<14:14:06,  8.21s/it] 36%|███▌      | 3439/9678 [7:38:34<13:36:23,  7.85s/it] 36%|███▌      | 3440/9678 [7:38:41<13:11:10,  7.61s/it]                                                        {'loss': 0.9874, 'grad_norm': 1.3913145065307617, 'learning_rate': 0.0003642529324182449, 'epoch': 0.36}
+ 36%|███▌      | 3440/9678 [7:38:41<13:11:10,  7.61s/it] 36%|███▌      | 3441/9678 [7:38:49<13:29:40,  7.79s/it] 36%|███▌      | 3442/9678 [7:38:57<13:37:26,  7.87s/it] 36%|███▌      | 3443/9678 [7:39:04<13:12:37,  7.63s/it] 36%|███▌      | 3444/9678 [7:39:12<13:08:41,  7.59s/it] 36%|███▌      | 3445/9678 [7:39:19<12:54:36,  7.46s/it] 36%|███▌      | 3446/9678 [7:39:25<12:28:52,  7.21s/it] 36%|███▌      | 3447/9678 [7:39:35<13:26:55,  7.77s/it] 36%|███▌      | 3448/9678 [7:39:43<13:41:33,  7.91s/it] 36%|███▌      | 3449/9678 [7:39:50<13:06:41,  7.58s/it] 36%|███▌      | 3450/9678 [7:39:56<12:46:16,  7.38s/it]                                                        {'loss': 1.0177, 'grad_norm': 1.388934850692749, 'learning_rate': 0.0003635231881379985, 'epoch': 0.36}
+ 36%|███▌      | 3450/9678 [7:39:56<12:46:16,  7.38s/it] 36%|███▌      | 3451/9678 [7:40:03<12:18:01,  7.11s/it] 36%|███▌      | 3452/9678 [7:40:10<12:19:22,  7.13s/it] 36%|███▌      | 3453/9678 [7:40:16<11:55:48,  6.90s/it] 36%|███▌      | 3454/9678 [7:40:24<12:11:01,  7.05s/it] 36%|███▌      | 3455/9678 [7:40:33<13:14:04,  7.66s/it] 36%|███▌      | 3456/9678 [7:40:42<13:51:14,  8.02s/it] 36%|███▌      | 3457/9678 [7:40:50<14:03:21,  8.13s/it] 36%|███▌      | 3458/9678 [7:41:00<14:39:30,  8.48s/it] 36%|███▌      | 3459/9678 [7:41:07<14:21:45,  8.31s/it] 36%|███▌      | 3460/9678 [7:41:17<14:57:21,  8.66s/it]                                                        {'loss': 1.0533, 'grad_norm': 1.2259199619293213, 'learning_rate': 0.00036279222328897826, 'epoch': 0.36}
+ 36%|███▌      | 3460/9678 [7:41:17<14:57:21,  8.66s/it] 36%|███▌      | 3461/9678 [7:41:24<13:57:03,  8.08s/it] 36%|███▌      | 3462/9678 [7:41:30<13:13:10,  7.66s/it] 36%|███▌      | 3463/9678 [7:41:38<13:10:42,  7.63s/it] 36%|███▌      | 3464/9678 [7:41:46<13:14:27,  7.67s/it] 36%|███▌      | 3465/9678 [7:41:54<13:51:08,  8.03s/it] 36%|███▌      | 3466/9678 [7:42:03<14:06:36,  8.18s/it] 36%|███▌      | 3467/9678 [7:42:10<13:32:24,  7.85s/it] 36%|███▌      | 3468/9678 [7:42:19<14:10:55,  8.22s/it] 36%|███▌      | 3469/9678 [7:42:31<15:51:50,  9.20s/it] 36%|███▌      | 3470/9678 [7:42:37<14:25:43,  8.37s/it]                                                        {'loss': 1.1231, 'grad_norm': 1.561023235321045, 'learning_rate': 0.0003620600457303085, 'epoch': 0.36}
+ 36%|███▌      | 3470/9678 [7:42:37<14:25:43,  8.37s/it] 36%|███▌      | 3471/9678 [7:42:45<14:07:55,  8.20s/it] 36%|███▌      | 3472/9678 [7:42:53<13:51:07,  8.04s/it] 36%|███▌      | 3473/9678 [7:42:59<12:53:04,  7.48s/it] 36%|███▌      | 3474/9678 [7:43:07<13:27:04,  7.81s/it] 36%|███▌      | 3475/9678 [7:43:15<13:22:12,  7.76s/it] 36%|███▌      | 3476/9678 [7:43:23<13:34:48,  7.88s/it] 36%|███▌      | 3477/9678 [7:43:30<12:54:04,  7.49s/it] 36%|███▌      | 3478/9678 [7:43:38<13:05:57,  7.61s/it] 36%|███▌      | 3479/9678 [7:43:46<13:21:03,  7.75s/it] 36%|███▌      | 3480/9678 [7:43:53<12:59:49,  7.55s/it]                                                        {'loss': 1.0971, 'grad_norm': 1.6612300872802734, 'learning_rate': 0.0003613266633341528, 'epoch': 0.36}
+ 36%|███▌      | 3480/9678 [7:43:53<12:59:49,  7.55s/it] 36%|███▌      | 3481/9678 [7:43:58<11:52:59,  6.90s/it] 36%|███▌      | 3482/9678 [7:44:06<12:13:58,  7.11s/it] 36%|███▌      | 3483/9678 [7:44:14<13:00:21,  7.56s/it] 36%|███▌      | 3484/9678 [7:44:20<12:16:24,  7.13s/it] 36%|███▌      | 3485/9678 [7:44:30<13:35:26,  7.90s/it] 36%|███▌      | 3486/9678 [7:44:37<12:50:36,  7.47s/it] 36%|███▌      | 3487/9678 [7:44:45<13:10:32,  7.66s/it] 36%|███▌      | 3488/9678 [7:44:51<12:23:22,  7.21s/it] 36%|███▌      | 3489/9678 [7:44:59<12:48:05,  7.45s/it] 36%|███▌      | 3490/9678 [7:45:06<12:49:56,  7.47s/it]                                                        {'loss': 1.024, 'grad_norm': 1.3272353410720825, 'learning_rate': 0.00036059208398562793, 'epoch': 0.36}
+ 36%|███▌      | 3490/9678 [7:45:06<12:49:56,  7.47s/it] 36%|███▌      | 3491/9678 [7:45:14<12:43:55,  7.41s/it] 36%|███▌      | 3492/9678 [7:45:20<12:19:02,  7.17s/it] 36%|███▌      | 3493/9678 [7:45:29<13:16:41,  7.73s/it] 36%|███▌      | 3494/9678 [7:45:38<13:53:31,  8.09s/it] 36%|███▌      | 3495/9678 [7:45:45<13:19:16,  7.76s/it] 36%|███▌      | 3496/9678 [7:45:54<13:49:41,  8.05s/it] 36%|███▌      | 3497/9678 [7:46:01<13:13:35,  7.70s/it] 36%|███▌      | 3498/9678 [7:46:09<13:16:21,  7.73s/it] 36%|███▌      | 3499/9678 [7:46:18<14:16:12,  8.31s/it] 36%|███▌      | 3500/9678 [7:46:27<14:20:55,  8.36s/it]                                                        {'loss': 1.0369, 'grad_norm': 1.2441381216049194, 'learning_rate': 0.00035985631558272074, 'epoch': 0.36}
+ 36%|███▌      | 3500/9678 [7:46:27<14:20:55,  8.36s/it] 36%|███▌      | 3501/9678 [7:46:34<13:56:53,  8.13s/it] 36%|███▌      | 3502/9678 [7:46:42<13:40:58,  7.98s/it] 36%|███▌      | 3503/9678 [7:46:51<14:04:41,  8.21s/it] 36%|███▌      | 3504/9678 [7:47:00<14:34:16,  8.50s/it] 36%|███▌      | 3505/9678 [7:47:09<14:38:55,  8.54s/it] 36%|███▌      | 3506/9678 [7:47:16<14:15:39,  8.32s/it] 36%|███▌      | 3507/9678 [7:47:23<13:22:56,  7.81s/it] 36%|███▌      | 3508/9678 [7:47:30<12:58:18,  7.57s/it] 36%|███▋      | 3509/9678 [7:47:37<12:26:18,  7.26s/it] 36%|███▋      | 3510/9678 [7:47:44<12:22:53,  7.23s/it]                                                        {'loss': 0.9626, 'grad_norm': 1.1805377006530762, 'learning_rate': 0.00035911936603620225, 'epoch': 0.36}
+ 36%|███▋      | 3510/9678 [7:47:44<12:22:53,  7.23s/it] 36%|███▋      | 3511/9678 [7:47:53<13:15:37,  7.74s/it] 36%|███▋      | 3512/9678 [7:48:00<13:18:59,  7.77s/it] 36%|███▋      | 3513/9678 [7:48:09<13:56:53,  8.14s/it] 36%|███▋      | 3514/9678 [7:48:19<14:39:26,  8.56s/it] 36%|███▋      | 3515/9678 [7:48:26<13:39:28,  7.98s/it] 36%|███▋      | 3516/9678 [7:48:34<13:36:30,  7.95s/it] 36%|███▋      | 3517/9678 [7:48:41<13:19:00,  7.78s/it] 36%|███▋      | 3518/9678 [7:48:50<13:52:08,  8.11s/it] 36%|███▋      | 3519/9678 [7:48:56<13:06:03,  7.66s/it] 36%|███▋      | 3520/9678 [7:49:03<12:36:16,  7.37s/it]                                                        {'loss': 1.1415, 'grad_norm': 1.3905142545700073, 'learning_rate': 0.00035838124326954254, 'epoch': 0.36}
+ 36%|███▋      | 3520/9678 [7:49:03<12:36:16,  7.37s/it] 36%|███▋      | 3521/9678 [7:49:14<14:30:39,  8.48s/it] 36%|███▋      | 3522/9678 [7:49:23<14:27:09,  8.45s/it] 36%|███▋      | 3523/9678 [7:49:33<15:16:20,  8.93s/it] 36%|███▋      | 3524/9678 [7:49:39<13:48:19,  8.08s/it] 36%|███▋      | 3525/9678 [7:49:47<13:47:37,  8.07s/it] 36%|███▋      | 3526/9678 [7:49:56<14:34:32,  8.53s/it] 36%|███▋      | 3527/9678 [7:50:04<14:21:26,  8.40s/it] 36%|███▋      | 3528/9678 [7:50:12<14:02:35,  8.22s/it] 36%|███▋      | 3529/9678 [7:50:19<13:20:40,  7.81s/it] 36%|███▋      | 3530/9678 [7:50:28<13:39:44,  8.00s/it]                                                        {'loss': 1.0101, 'grad_norm': 1.2646347284317017, 'learning_rate': 0.0003576419552188261, 'epoch': 0.36}
+ 36%|███▋      | 3530/9678 [7:50:28<13:39:44,  8.00s/it] 36%|███▋      | 3531/9678 [7:50:34<12:59:25,  7.61s/it] 36%|███▋      | 3532/9678 [7:50:42<13:03:08,  7.65s/it] 37%|███▋      | 3533/9678 [7:50:51<13:39:34,  8.00s/it] 37%|███���      | 3534/9678 [7:51:00<14:10:26,  8.31s/it] 37%|███▋      | 3535/9678 [7:51:07<13:27:33,  7.89s/it] 37%|███▋      | 3536/9678 [7:51:14<12:55:12,  7.57s/it] 37%|███▋      | 3537/9678 [7:51:22<13:20:17,  7.82s/it] 37%|███▋      | 3538/9678 [7:51:29<12:57:44,  7.60s/it] 37%|███▋      | 3539/9678 [7:51:36<12:46:32,  7.49s/it] 37%|███▋      | 3540/9678 [7:51:46<14:02:49,  8.24s/it]                                                        {'loss': 0.9862, 'grad_norm': 1.1667832136154175, 'learning_rate': 0.000356901509832666, 'epoch': 0.37}
+ 37%|███▋      | 3540/9678 [7:51:46<14:02:49,  8.24s/it] 37%|███▋      | 3541/9678 [7:51:53<13:14:26,  7.77s/it] 37%|███▋      | 3542/9678 [7:52:00<12:49:26,  7.52s/it] 37%|███▋      | 3543/9678 [7:52:09<13:26:25,  7.89s/it] 37%|███▋      | 3544/9678 [7:52:17<13:33:21,  7.96s/it] 37%|███▋      | 3545/9678 [7:52:26<14:04:49,  8.27s/it] 37%|███▋      | 3546/9678 [7:52:34<14:10:26,  8.32s/it] 37%|███▋      | 3547/9678 [7:52:41<13:27:59,  7.91s/it] 37%|███▋      | 3548/9678 [7:52:49<13:19:26,  7.82s/it] 37%|███▋      | 3549/9678 [7:52:56<13:14:44,  7.78s/it] 37%|███▋      | 3550/9678 [7:53:04<13:08:58,  7.72s/it]                                                        {'loss': 0.9644, 'grad_norm': 0.8571506142616272, 'learning_rate': 0.00035615991507211887, 'epoch': 0.37}
+ 37%|███▋      | 3550/9678 [7:53:04<13:08:58,  7.72s/it] 37%|███▋      | 3551/9678 [7:53:11<12:42:15,  7.46s/it] 37%|███▋      | 3552/9678 [7:53:20<13:21:03,  7.85s/it] 37%|███▋      | 3553/9678 [7:53:27<13:20:37,  7.84s/it] 37%|███▋      | 3554/9678 [7:53:35<13:04:09,  7.68s/it] 37%|███▋      | 3555/9678 [7:53:41<12:31:57,  7.37s/it] 37%|███▋      | 3556/9678 [7:53:50<13:18:25,  7.83s/it] 37%|███▋      | 3557/9678 [7:53:59<13:36:15,  8.00s/it] 37%|███▋      | 3558/9678 [7:54:08<14:05:20,  8.29s/it] 37%|███▋      | 3559/9678 [7:54:15<13:28:13,  7.93s/it] 37%|███▋      | 3560/9678 [7:54:22<12:59:32,  7.65s/it]                                                        {'loss': 0.8918, 'grad_norm': 0.9799628853797913, 'learning_rate': 0.00035541717891059886, 'epoch': 0.37}
+ 37%|███▋      | 3560/9678 [7:54:22<12:59:32,  7.65s/it] 37%|███▋      | 3561/9678 [7:54:28<12:11:46,  7.18s/it] 37%|███▋      | 3562/9678 [7:54:36<12:56:38,  7.62s/it] 37%|███▋      | 3563/9678 [7:54:44<12:51:17,  7.57s/it] 37%|███▋      | 3564/9678 [7:54:54<14:10:30,  8.35s/it] 37%|███▋      | 3565/9678 [7:55:02<13:57:48,  8.22s/it] 37%|███▋      | 3566/9678 [7:55:09<13:09:12,  7.75s/it] 37%|███▋      | 3567/9678 [7:55:16<12:57:00,  7.63s/it] 37%|███▋      | 3568/9678 [7:55:25<13:34:03,  7.99s/it] 37%|███▋      | 3569/9678 [7:55:32<13:20:12,  7.86s/it] 37%|███▋      | 3570/9678 [7:55:40<13:26:27,  7.92s/it]                                                        {'loss': 0.935, 'grad_norm': 1.0068583488464355, 'learning_rate': 0.0003546733093337924, 'epoch': 0.37}
+ 37%|███▋      | 3570/9678 [7:55:40<13:26:27,  7.92s/it] 37%|███▋      | 3571/9678 [7:55:46<12:12:17,  7.19s/it] 37%|███▋      | 3572/9678 [7:55:54<12:26:57,  7.34s/it] 37%|███▋      | 3573/9678 [7:56:01<12:28:56,  7.36s/it] 37%|███▋      | 3574/9678 [7:56:08<12:02:40,  7.10s/it] 37%|███▋      | 3575/9678 [7:56:17<13:01:34,  7.68s/it] 37%|███▋      | 3576/9678 [7:56:25<13:24:27,  7.91s/it] 37%|███▋      | 3577/9678 [7:56:34<14:00:15,  8.26s/it] 37%|███▋      | 3578/9678 [7:56:41<13:27:08,  7.94s/it] 37%|███▋      | 3579/9678 [7:56:50<13:48:38,  8.15s/it] 37%|███▋      | 3580/9678 [7:56:57<13:30:17,  7.97s/it]                                                        {'loss': 1.0752, 'grad_norm': 0.8947041034698486, 'learning_rate': 0.0003539283143395719, 'epoch': 0.37}
+ 37%|███▋      | 3580/9678 [7:56:57<13:30:17,  7.97s/it] 37%|███▋      | 3581/9678 [7:57:07<14:09:31,  8.36s/it] 37%|███▋      | 3582/9678 [7:57:13<13:16:26,  7.84s/it] 37%|███▋      | 3583/9678 [7:57:21<13:08:09,  7.76s/it] 37%|███▋      | 3584/9678 [7:57:29<13:09:05,  7.77s/it] 37%|███▋      | 3585/9678 [7:57:36<12:45:56,  7.54s/it] 37%|███▋      | 3586/9678 [7:57:43<12:51:57,  7.60s/it] 37%|███▋      | 3587/9678 [7:57:52<13:05:24,  7.74s/it] 37%|███▋      | 3588/9678 [7:57:59<12:53:39,  7.62s/it] 37%|███▋      | 3589/9678 [7:58:06<12:32:52,  7.42s/it] 37%|███▋      | 3590/9678 [7:58:13<12:16:09,  7.26s/it]                                                        {'loss': 0.9534, 'grad_norm': 1.0797079801559448, 'learning_rate': 0.00035318220193790976, 'epoch': 0.37}
+ 37%|███▋      | 3590/9678 [7:58:13<12:16:09,  7.26s/it] 37%|███▋      | 3591/9678 [7:58:22<13:19:28,  7.88s/it] 37%|███▋      | 3592/9678 [7:58:31<13:50:06,  8.18s/it] 37%|███▋      | 3593/9678 [7:58:38<13:25:45,  7.95s/it] 37%|███▋      | 3594/9678 [7:58:46<13:31:11,  8.00s/it] 37%|███▋      | 3595/9678 [7:58:53<12:52:38,  7.62s/it] 37%|███▋      | 3596/9678 [7:59:03<13:58:24,  8.27s/it] 37%|███▋      | 3597/9678 [7:59:11<13:45:54,  8.15s/it] 37%|███▋      | 3598/9678 [7:59:20<14:01:37,  8.31s/it] 37%|███▋      | 3599/9678 [7:59:27<13:43:32,  8.13s/it] 37%|███▋      | 3600/9678 [7:59:37<14:27:48,  8.57s/it]                                                        {'loss': 0.9862, 'grad_norm': 1.0746815204620361, 'learning_rate': 0.0003524349801507929, 'epoch': 0.37}
+ 37%|███▋      | 3600/9678 [7:59:37<14:27:48,  8.57s/it] 37%|███▋      | 3601/9678 [7:59:46<14:36:56,  8.66s/it] 37%|███▋      | 3602/9678 [7:59:54<14:35:22,  8.64s/it] 37%|███▋      | 3603/9678 [8:00:03<14:35:45,  8.65s/it] 37%|███▋      | 3604/9678 [8:00:10<13:57:33,  8.27s/it] 37%|███▋      | 3605/9678 [8:00:17<13:11:13,  7.82s/it] 37%|███▋      | 3606/9678 [8:00:25<13:10:45,  7.81s/it] 37%|███▋      | 3607/9678 [8:00:32<12:53:05,  7.64s/it] 37%|███▋      | 3608/9678 [8:00:40<12:55:33,  7.67s/it] 37%|███▋      | 3609/9678 [8:00:47<12:28:31,  7.40s/it] 37%|███▋      | 3610/9678 [8:00:55<12:44:58,  7.56s/it]                                                        {'loss': 1.0606, 'grad_norm': 1.0419459342956543, 'learning_rate': 0.0003516866570121356, 'epoch': 0.37}
+ 37%|███▋      | 3610/9678 [8:00:55<12:44:58,  7.56s/it] 37%|███▋      | 3611/9678 [8:01:03<13:06:53,  7.78s/it] 37%|███▋      | 3612/9678 [8:01:11<13:30:01,  8.01s/it] 37%|███▋      | 3613/9678 [8:01:19<13:09:42,  7.81s/it] 37%|███▋      | 3614/9678 [8:01:26<12:47:06,  7.59s/it] 37%|███▋      | 3615/9678 [8:01:35<13:27:17,  7.99s/it] 37%|███▋      | 3616/9678 [8:01:44<14:18:13,  8.49s/it] 37%|███▋      | 3617/9678 [8:01:52<14:02:18,  8.34s/it] 37%|███▋      | 3618/9678 [8:02:01<13:53:59,  8.26s/it] 37%|███▋      | 3619/9678 [8:02:09<13:49:08,  8.21s/it] 37%|███▋      | 3620/9678 [8:02:17<13:40:46,  8.13s/it]                                                        {'loss': 0.97, 'grad_norm': 1.1848483085632324, 'learning_rate': 0.0003509372405676937, 'epoch': 0.37}
+ 37%|███▋      | 3620/9678 [8:02:17<13:40:46,  8.13s/it] 37%|███▋      | 3621/9678 [8:02:23<12:39:23,  7.52s/it] 37%|███▋      | 3622/9678 [8:02:30<12:38:05,  7.51s/it] 37%|███▋      | 3623/9678 [8:02:37<12:26:36,  7.40s/it] 37%|███▋      | 3624/9678 [8:02:46<12:51:53,  7.65s/it] 37%|███▋      | 3625/9678 [8:02:54<13:31:18,  8.04s/it] 37%|███▋      | 3626/9678 [8:03:03<13:37:35,  8.11s/it] 37%|███▋      | 3627/9678 [8:03:11<13:37:41,  8.11s/it] 37%|███▋      | 3628/9678 [8:03:19<13:35:44,  8.09s/it] 37%|███▋      | 3629/9678 [8:03:27<13:42:30,  8.16s/it] 38%|███▊      | 3630/9678 [8:03:35<13:40:37,  8.14s/it]                                                        {'loss': 1.0237, 'grad_norm': 1.2240206003189087, 'learning_rate': 0.00035018673887497807, 'epoch': 0.38}
+ 38%|███▊      | 3630/9678 [8:03:35<13:40:37,  8.14s/it] 38%|███▊      | 3631/9678 [8:03:42<13:03:00,  7.77s/it] 38%|███▊      | 3632/9678 [8:03:50<13:01:02,  7.75s/it] 38%|███▊      | 3633/9678 [8:03:57<12:34:16,  7.49s/it] 38%|███▊      | 3634/9678 [8:04:06<13:20:36,  7.95s/it] 38%|███▊      | 3635/9678 [8:04:14<13:27:23,  8.02s/it] 38%|███▊      | 3636/9678 [8:04:20<12:32:10,  7.47s/it] 38%|███▊      | 3637/9678 [8:04:28<12:36:23,  7.51s/it] 38%|███▊      | 3638/9678 [8:04:35<12:37:23,  7.52s/it] 38%|███▊      | 3639/9678 [8:04:43<12:46:00,  7.61s/it] 38%|███▊      | 3640/9678 [8:04:50<12:31:41,  7.47s/it]                                                        {'loss': 1.0748, 'grad_norm': 1.6243517398834229, 'learning_rate': 0.0003494351600031677, 'epoch': 0.38}
+ 38%|███▊      | 3640/9678 [8:04:50<12:31:41,  7.47s/it] 38%|███▊      | 3641/9678 [8:04:58<12:48:38,  7.64s/it] 38%|███▊      | 3642/9678 [8:05:05<12:31:44,  7.47s/it] 38%|███▊      | 3643/9678 [8:05:14<13:20:17,  7.96s/it] 38%|███▊      | 3644/9678 [8:05:24<14:03:40,  8.39s/it] 38%|███▊      | 3645/9678 [8:05:33<14:19:05,  8.54s/it] 38%|███▊      | 3646/9678 [8:05:42<14:26:34,  8.62s/it] 38%|███▊      | 3647/9678 [8:05:49<13:47:58,  8.24s/it] 38%|███▊      | 3648/9678 [8:05:56<13:01:53,  7.78s/it] 38%|███▊      | 3649/9678 [8:06:04<13:04:18,  7.81s/it] 38%|███▊      | 3650/9678 [8:06:11<13:04:14,  7.81s/it]                                                        {'loss': 1.0639, 'grad_norm': 1.4265719652175903, 'learning_rate': 0.00034868251203302314, 'epoch': 0.38}
+ 38%|███▊      | 3650/9678 [8:06:11<13:04:14,  7.81s/it] 38%|███▊      | 3651/9678 [8:06:18<12:16:01,  7.33s/it] 38%|███▊      | 3652/9678 [8:06:27<13:15:23,  7.92s/it] 38%|███▊      | 3653/9678 [8:06:36<13:38:03,  8.15s/it] 38%|███▊      | 3654/9678 [8:06:43<13:03:11,  7.80s/it] 38%|███▊      | 3655/9678 [8:06:51<13:15:19,  7.92s/it] 38%|███▊      | 3656/9678 [8:06:58<12:46:06,  7.63s/it] 38%|███▊      | 3657/9678 [8:07:06<13:14:54,  7.92s/it] 38%|███▊      | 3658/9678 [8:07:15<13:39:17,  8.17s/it] 38%|███▊      | 3659/9678 [8:07:24<14:14:50,  8.52s/it] 38%|███▊      | 3660/9678 [8:07:33<14:09:48,  8.47s/it]                                                        {'loss': 0.9635, 'grad_norm': 1.0866336822509766, 'learning_rate': 0.00034792880305679967, 'epoch': 0.38}
+ 38%|███▊      | 3660/9678 [8:07:33<14:09:48,  8.47s/it] 38%|███▊      | 3661/9678 [8:07:40<13:22:02,  8.00s/it] 38%|███▊      | 3662/9678 [8:07:47<13:04:40,  7.83s/it] 38%|███▊      | 3663/9678 [8:07:55<13:02:35,  7.81s/it] 38%|███▊      | 3664/9678 [8:08:03<13:12:41,  7.91s/it] 38%|███▊      | 3665/9678 [8:08:11<13:30:14,  8.08s/it] 38%|███▊      | 3666/9678 [8:08:21<14:12:13,  8.51s/it] 38%|███▊      | 3667/9678 [8:08:29<14:05:44,  8.44s/it] 38%|███▊      | 3668/9678 [8:08:36<13:07:37,  7.86s/it] 38%|███▊      | 3669/9678 [8:08:44<13:09:29,  7.88s/it] 38%|███▊      | 3670/9678 [8:08:50<12:26:40,  7.46s/it]                                                        {'loss': 1.1082, 'grad_norm': 1.0087511539459229, 'learning_rate': 0.00034717404117816, 'epoch': 0.38}
+ 38%|███▊      | 3670/9678 [8:08:50<12:26:40,  7.46s/it] 38%|███▊      | 3671/9678 [8:08:59<13:03:26,  7.83s/it] 38%|███▊      | 3672/9678 [8:09:07<13:03:13,  7.82s/it] 38%|███▊      | 3673/9678 [8:09:14<12:42:37,  7.62s/it] 38%|███▊      | 3674/9678 [8:09:22<13:05:31,  7.85s/it] 38%|███▊      | 3675/9678 [8:09:31<13:22:43,  8.02s/it] 38%|███▊      | 3676/9678 [8:09:39<13:47:46,  8.27s/it] 38%|███▊      | 3677/9678 [8:09:47<13:18:05,  7.98s/it] 38%|███▊      | 3678/9678 [8:09:57<14:28:15,  8.68s/it] 38%|███▊      | 3679/9678 [8:10:07<15:07:06,  9.07s/it] 38%|███▊      | 3680/9678 [8:10:14<14:11:13,  8.52s/it]                                                        {'loss': 1.0258, 'grad_norm': 0.9332922697067261, 'learning_rate': 0.0003464182345120877, 'epoch': 0.38}
+ 38%|███▊      | 3680/9678 [8:10:14<14:11:13,  8.52s/it] 38%|███▊      | 3681/9678 [8:10:23<14:06:44,  8.47s/it] 38%|███▊      | 3682/9678 [8:10:30<13:31:39,  8.12s/it] 38%|███▊      | 3683/9678 [8:10:38<13:41:03,  8.22s/it] 38%|███▊      | 3684/9678 [8:10:46<13:33:59,  8.15s/it] 38%|███▊      | 3685/9678 [8:10:55<13:47:00,  8.28s/it] 38%|███▊      | 3686/9678 [8:11:05<14:33:01,  8.74s/it] 38%|███▊      | 3687/9678 [8:11:12<13:43:27,  8.25s/it] 38%|███▊      | 3688/9678 [8:11:18<12:45:49,  7.67s/it] 38%|███▊      | 3689/9678 [8:11:26<12:54:31,  7.76s/it] 38%|███▊      | 3690/9678 [8:11:34<12:45:20,  7.67s/it]                                                        {'loss': 1.0168, 'grad_norm': 0.9739323854446411, 'learning_rate': 0.000345661391184799, 'epoch': 0.38}
+ 38%|███▊      | 3690/9678 [8:11:34<12:45:20,  7.67s/it] 38%|███▊      | 3691/9678 [8:11:43<13:39:22,  8.21s/it] 38%|███▊      | 3692/9678 [8:11:51<13:38:44,  8.21s/it] 38%|███▊      | 3693/9678 [8:12:00<13:55:24,  8.37s/it] 38%|███▊      | 3694/9678 [8:12:08<13:55:03,  8.37s/it] 38%|███▊      | 3695/9678 [8:12:16<13:40:52,  8.23s/it] 38%|███▊      | 3696/9678 [8:12:24<13:34:31,  8.17s/it] 38%|███▊      | 3697/9678 [8:12:32<13:19:20,  8.02s/it] 38%|███▊      | 3698/9678 [8:12:40<13:30:49,  8.14s/it] 38%|███▊      | 3699/9678 [8:12:48<13:10:36,  7.93s/it] 38%|███▊      | 3700/9678 [8:12:56<13:29:43,  8.13s/it]                                                        {'loss': 1.0996, 'grad_norm': 0.912225067615509, 'learning_rate': 0.00034490351933365673, 'epoch': 0.38}
+ 38%|███▊      | 3700/9678 [8:12:56<13:29:43,  8.13s/it] 38%|███▊      | 3701/9678 [8:13:05<13:35:05,  8.18s/it] 38%|███▊      | 3702/9678 [8:13:12<12:51:46,  7.75s/it] 38%|███▊      | 3703/9678 [8:13:19<12:45:05,  7.68s/it] 38%|███▊      | 3704/9678 [8:13:28<13:16:15,  8.00s/it] 38%|███▊      | 3705/9678 [8:13:36<13:12:03,  7.96s/it] 38%|███▊      | 3706/9678 [8:13:45<13:41:51,  8.26s/it] 38%|███▊      | 3707/9678 [8:13:53<13:56:28,  8.41s/it] 38%|███▊      | 3708/9678 [8:14:03<14:21:26,  8.66s/it] 38%|███▊      | 3709/9678 [8:14:11<14:27:08,  8.72s/it] 38%|███▊      | 3710/9678 [8:14:20<14:31:43,  8.76s/it]                                                        {'loss': 0.9759, 'grad_norm': 0.853449285030365, 'learning_rate': 0.0003441446271070816, 'epoch': 0.38}
+ 38%|███▊      | 3710/9678 [8:14:20<14:31:43,  8.76s/it] 38%|███▊      | 3711/9678 [8:14:29<14:22:53,  8.68s/it] 38%|███▊      | 3712/9678 [8:14:37<14:02:35,  8.47s/it] 38%|███▊      | 3713/9678 [8:14:43<13:02:11,  7.87s/it] 38%|███▊      | 3714/9678 [8:14:52<13:13:45,  7.99s/it] 38%|███▊      | 3715/9678 [8:15:00<13:22:45,  8.08s/it] 38%|███▊      | 3716/9678 [8:15:07<12:47:19,  7.72s/it] 38%|███▊      | 3717/9678 [8:15:14<12:44:53,  7.70s/it] 38%|███▊      | 3718/9678 [8:15:21<12:13:38,  7.39s/it] 38%|███▊      | 3719/9678 [8:15:29<12:24:43,  7.50s/it] 38%|███▊      | 3720/9678 [8:15:35<11:48:26,  7.13s/it]                                                        {'loss': 0.9917, 'grad_norm': 1.4455146789550781, 'learning_rate': 0.0003433847226644653, 'epoch': 0.38}
+ 38%|███▊      | 3720/9678 [8:15:35<11:48:26,  7.13s/it] 38%|███▊      | 3721/9678 [8:15:42<11:50:03,  7.15s/it] 38%|███▊      | 3722/9678 [8:15:49<11:52:32,  7.18s/it] 38%|███▊      | 3723/9678 [8:15:58<12:33:59,  7.60s/it] 38%|███▊      | 3724/9678 [8:16:07<13:17:25,  8.04s/it] 38%|███▊      | 3725/9678 [8:16:16<13:44:17,  8.31s/it] 38%|███▊      | 3726/9678 [8:16:23<13:08:05,  7.94s/it] 39%|███▊      | 3727/9678 [8:16:30<12:45:07,  7.71s/it] 39%|███▊      | 3728/9678 [8:16:39<13:03:57,  7.91s/it] 39%|███▊      | 3729/9678 [8:16:46<12:53:32,  7.80s/it] 39%|███▊      | 3730/9678 [8:16:55<13:14:15,  8.01s/it]                                                        {'loss': 1.1549, 'grad_norm': 0.9426379799842834, 'learning_rate': 0.0003426238141760826, 'epoch': 0.39}
+ 39%|███▊      | 3730/9678 [8:16:55<13:14:15,  8.01s/it] 39%|███▊      | 3731/9678 [8:17:02<13:01:02,  7.88s/it] 39%|███▊      | 3732/9678 [8:17:10<12:45:51,  7.73s/it] 39%|███▊      | 3733/9678 [8:17:17<12:35:44,  7.63s/it] 39%|███▊      | 3734/9678 [8:17:24<12:18:05,  7.45s/it] 39%|███▊      | 3735/9678 [8:17:32<12:35:52,  7.63s/it] 39%|███▊      | 3736/9678 [8:17:40<12:38:32,  7.66s/it] 39%|███▊      | 3737/9678 [8:17:46<12:07:23,  7.35s/it] 39%|███▊      | 3738/9678 [8:17:55<12:48:02,  7.76s/it] 39%|███▊      | 3739/9678 [8:18:01<11:44:25,  7.12s/it] 39%|███▊      | 3740/9678 [8:18:08<11:48:59,  7.16s/it]                                                        {'loss': 1.0742, 'grad_norm': 1.3207985162734985, 'learning_rate': 0.00034186190982300323, 'epoch': 0.39}
+ 39%|███▊      | 3740/9678 [8:18:08<11:48:59,  7.16s/it] 39%|███▊      | 3741/9678 [8:18:18<13:12:09,  8.01s/it] 39%|███▊      | 3742/9678 [8:18:25<12:44:27,  7.73s/it] 39%|███▊      | 3743/9678 [8:18:33<12:41:01,  7.69s/it] 39%|███▊      | 3744/9678 [8:18:41<13:07:50,  7.97s/it] 39%|███▊      | 3745/9678 [8:18:48<12:39:51,  7.68s/it] 39%|███▊      | 3746/9678 [8:18:56<12:49:36,  7.78s/it] 39%|███▊      | 3747/9678 [8:19:04<12:57:04,  7.86s/it] 39%|███▊      | 3748/9678 [8:19:12<12:49:14,  7.78s/it] 39%|███▊      | 3749/9678 [8:19:19<12:10:48,  7.40s/it] 39%|███▊      | 3750/9678 [8:19:27<12:42:18,  7.72s/it]                                                        {'loss': 1.0011, 'grad_norm': 0.9599164128303528, 'learning_rate': 0.00034109901779700474, 'epoch': 0.39}
+ 39%|███▊      | 3750/9678 [8:19:27<12:42:18,  7.72s/it] 39%|███▉      | 3751/9678 [8:19:34<12:09:40,  7.39s/it] 39%|███▉      | 3752/9678 [8:19:41<12:20:09,  7.49s/it] 39%|███▉      | 3753/9678 [8:19:49<12:36:13,  7.66s/it] 39%|███▉      | 3754/9678 [8:19:58<13:07:12,  7.97s/it] 39%|███▉      | 3755/9678 [8:20:07<13:21:57,  8.12s/it] 39%|███▉      | 3756/9678 [8:20:16<13:44:51,  8.36s/it] 39%|███▉      | 3757/9678 [8:20:22<12:44:51,  7.75s/it] 39%|███▉      | 3758/9678 [8:20:33<14:12:51,  8.64s/it] 39%|███▉      | 3759/9678 [8:20:39<13:03:24,  7.94s/it] 39%|███▉      | 3760/9678 [8:20:45<12:22:53,  7.53s/it]                                                        {'loss': 0.9508, 'grad_norm': 1.0271940231323242, 'learning_rate': 0.0003403351463004831, 'epoch': 0.39}
+ 39%|███▉      | 3760/9678 [8:20:45<12:22:53,  7.53s/it] 39%|███▉      | 3761/9678 [8:20:55<13:36:10,  8.28s/it] 39%|███▉      | 3762/9678 [8:21:02<12:35:59,  7.67s/it] 39%|███▉      | 3763/9678 [8:21:09<12:22:09,  7.53s/it] 39%|███▉      | 3764/9678 [8:21:17<12:32:48,  7.64s/it] 39%|███▉      | 3765/9678 [8:21:24<12:19:59,  7.51s/it] 39%|███▉      | 3766/9678 [8:21:30<11:35:47,  7.06s/it] 39%|███▉      | 3767/9678 [8:21:39<12:25:16,  7.56s/it] 39%|███▉      | 3768/9678 [8:21:46<12:01:23,  7.32s/it] 39%|███▉      | 3769/9678 [8:21:53<11:58:56,  7.30s/it] 39%|███▉      | 3770/9678 [8:22:00<11:42:02,  7.13s/it]                                                        {'loss': 1.134, 'grad_norm': 1.680550456047058, 'learning_rate': 0.0003395703035463659, 'epoch': 0.39}
+ 39%|███▉      | 3770/9678 [8:22:00<11:42:02,  7.13s/it] 39%|███▉      | 3771/9678 [8:22:08<12:20:44,  7.52s/it] 39%|███▉      | 3772/9678 [8:22:14<11:42:51,  7.14s/it] 39%|███▉      | 3773/9678 [8:22:21<11:42:59,  7.14s/it] 39%|███▉      | 3774/9678 [8:22:29<11:43:36,  7.15s/it] 39%|███▉      | 3775/9678 [8:22:37<12:09:28,  7.41s/it] 39%|███▉      | 3776/9678 [8:22:43<11:27:37,  6.99s/it] 39%|███▉      | 3777/9678 [8:22:52<12:43:39,  7.76s/it] 39%|███▉      | 3778/9678 [8:23:02<13:52:22,  8.46s/it] 39%|███▉      | 3779/9678 [8:23:10<13:33:04,  8.27s/it] 39%|███▉      | 3780/9678 [8:23:17<12:55:12,  7.89s/it]                                                        {'loss': 1.1811, 'grad_norm': 1.4388446807861328, 'learning_rate': 0.00033880449775802306, 'epoch': 0.39}
+ 39%|███▉      | 3780/9678 [8:23:17<12:55:12,  7.89s/it] 39%|███▉      | 3781/9678 [8:23:26<13:27:14,  8.21s/it] 39%|███▉      | 3782/9678 [8:23:35<13:52:01,  8.47s/it] 39%|███▉      | 3783/9678 [8:23:42<13:17:08,  8.11s/it] 39%|███▉      | 3784/9678 [8:23:49<12:43:41,  7.77s/it] 39%|███▉      | 3785/9678 [8:23:58<13:04:34,  7.99s/it] 39%|███▉      | 3786/9678 [8:24:06<13:02:47,  7.97s/it] 39%|███▉      | 3787/9678 [8:24:14<13:14:34,  8.09s/it] 39%|███▉      | 3788/9678 [8:24:22<13:18:31,  8.13s/it] 39%|███▉      | 3789/9678 [8:24:31<13:34:55,  8.30s/it] 39%|███▉      | 3790/9678 [8:24:38<12:49:37,  7.84s/it]                                                        {'loss': 0.8677, 'grad_norm': 1.1560338735580444, 'learning_rate': 0.00033803773716917896, 'epoch': 0.39}
+ 39%|███▉      | 3790/9678 [8:24:38<12:49:37,  7.84s/it] 39%|███▉      | 3791/9678 [8:24:44<12:15:13,  7.49s/it] 39%|███▉      | 3792/9678 [8:24:53<12:47:25,  7.82s/it] 39%|███▉      | 3793/9678 [8:25:00<12:27:59,  7.63s/it] 39%|███▉      | 3794/9678 [8:25:09<13:08:55,  8.04s/it] 39%|███▉      | 3795/9678 [8:25:17<13:07:45,  8.03s/it] 39%|███▉      | 3796/9678 [8:25:24<12:30:17,  7.65s/it] 39%|███▉      | 3797/9678 [8:25:32<12:38:31,  7.74s/it] 39%|███▉      | 3798/9678 [8:25:42<13:31:09,  8.28s/it] 39%|███▉      | 3799/9678 [8:25:48<12:31:04,  7.67s/it] 39%|███▉      | 3800/9678 [8:25:56<12:59:57,  7.96s/it]                                                        {'loss': 1.0965, 'grad_norm': 1.414915680885315, 'learning_rate': 0.00033727003002382346, 'epoch': 0.39}
+ 39%|███▉      | 3800/9678 [8:25:56<12:59:57,  7.96s/it] 39%|███▉      | 3801/9678 [8:26:05<13:16:00,  8.13s/it] 39%|███▉      | 3802/9678 [8:26:13<13:10:13,  8.07s/it] 39%|███▉      | 3803/9678 [8:26:22<13:29:34,  8.27s/it] 39%|███▉      | 3804/9678 [8:26:31<13:51:20,  8.49s/it] 39%|███▉      | 3805/9678 [8:26:39<13:44:08,  8.42s/it] 39%|███▉      | 3806/9678 [8:26:47<13:47:35,  8.46s/it] 39%|███▉      | 3807/9678 [8:26:55<13:35:32,  8.33s/it] 39%|███▉      | 3808/9678 [8:27:05<14:07:35,  8.66s/it] 39%|███▉      | 3809/9678 [8:27:12<13:16:29,  8.14s/it] 39%|███▉      | 3810/9678 [8:27:21<13:45:29,  8.44s/it]                                                        {'loss': 1.0057, 'grad_norm': 1.1397249698638916, 'learning_rate': 0.0003365013845761239, 'epoch': 0.39}
+ 39%|███▉      | 3810/9678 [8:27:21<13:45:29,  8.44s/it] 39%|███▉      | 3811/9678 [8:27:28<13:17:08,  8.15s/it] 39%|███▉      | 3812/9678 [8:27:38<13:58:25,  8.58s/it] 39%|███▉      | 3813/9678 [8:27:49<14:56:27,  9.17s/it] 39%|███▉      | 3814/9678 [8:27:57<14:48:05,  9.09s/it] 39%|███▉      | 3815/9678 [8:28:09<15:47:02,  9.69s/it] 39%|███▉      | 3816/9678 [8:28:16<14:55:22,  9.16s/it] 39%|███▉      | 3817/9678 [8:28:23<13:41:22,  8.41s/it] 39%|███▉      | 3818/9678 [8:28:30<12:53:51,  7.92s/it] 39%|███▉      | 3819/9678 [8:28:39<13:17:39,  8.17s/it] 39%|███▉      | 3820/9678 [8:28:46<12:52:41,  7.91s/it]                                                        {'loss': 1.1104, 'grad_norm': 1.470551609992981, 'learning_rate': 0.00033573180909033567, 'epoch': 0.39}
+ 39%|███▉      | 3820/9678 [8:28:46<12:52:41,  7.91s/it] 39%|███▉      | 3821/9678 [8:28:54<12:49:27,  7.88s/it] 39%|███▉      | 3822/9678 [8:29:01<12:31:54,  7.70s/it] 40%|███▉      | 3823/9678 [8:29:10<13:01:01,  8.00s/it] 40%|███▉      | 3824/9678 [8:29:17<12:42:32,  7.82s/it] 40%|███▉      | 3825/9678 [8:29:25<12:29:23,  7.68s/it] 40%|███▉      | 3826/9678 [8:29:33<12:41:13,  7.80s/it] 40%|███▉      | 3827/9678 [8:29:39<12:09:37,  7.48s/it] 40%|███▉      | 3828/9678 [8:29:46<11:40:04,  7.18s/it] 40%|███▉      | 3829/9678 [8:29:54<12:14:21,  7.53s/it] 40%|███▉      | 3830/9678 [8:30:01<11:51:44,  7.30s/it]                                                        {'loss': 1.0244, 'grad_norm': 0.9758129119873047, 'learning_rate': 0.0003349613118407138, 'epoch': 0.4}
+ 40%|███▉      | 3830/9678 [8:30:01<11:51:44,  7.30s/it] 40%|███▉      | 3831/9678 [8:30:09<12:02:23,  7.41s/it] 40%|███▉      | 3832/9678 [8:30:16<11:54:56,  7.34s/it] 40%|███▉      | 3833/9678 [8:30:24<12:17:42,  7.57s/it] 40%|███▉      | 3834/9678 [8:30:31<11:51:21,  7.30s/it] 40%|███▉      | 3835/9678 [8:30:38<11:42:41,  7.22s/it] 40%|███▉      | 3836/9678 [8:30:45<11:59:11,  7.39s/it] 40%|███▉      | 3837/9678 [8:30:52<11:36:43,  7.16s/it] 40%|███▉      | 3838/9678 [8:31:00<11:58:12,  7.38s/it] 40%|███▉      | 3839/9678 [8:31:07<11:57:30,  7.37s/it] 40%|███▉      | 3840/9678 [8:31:15<12:17:27,  7.58s/it]                                                        {'loss': 1.0993, 'grad_norm': 0.9483941793441772, 'learning_rate': 0.0003341899011114238, 'epoch': 0.4}
+ 40%|███▉      | 3840/9678 [8:31:15<12:17:27,  7.58s/it] 40%|███▉      | 3841/9678 [8:31:22<11:59:37,  7.40s/it] 40%|███▉      | 3842/9678 [8:31:29<11:53:07,  7.33s/it] 40%|███▉      | 3843/9678 [8:31:37<12:03:02,  7.43s/it] 40%|███▉      | 3844/9678 [8:31:44<11:41:45,  7.22s/it] 40%|███▉      | 3845/9678 [8:31:53<12:33:19,  7.75s/it] 40%|███▉      | 3846/9678 [8:31:59<12:00:33,  7.41s/it] 40%|███▉      | 3847/9678 [8:32:08<12:24:47,  7.66s/it] 40%|███▉      | 3848/9678 [8:32:16<12:28:37,  7.70s/it] 40%|███▉      | 3849/9678 [8:32:22<11:54:18,  7.35s/it] 40%|███▉      | 3850/9678 [8:32:29<11:42:58,  7.24s/it]                                                        {'loss': 0.9506, 'grad_norm': 1.0213124752044678, 'learning_rate': 0.00033341758519645273, 'epoch': 0.4}
+ 40%|███▉      | 3850/9678 [8:32:29<11:42:58,  7.24s/it] 40%|███▉      | 3851/9678 [8:32:38<12:44:46,  7.87s/it] 40%|███▉      | 3852/9678 [8:32:47<12:56:37,  8.00s/it] 40%|███▉      | 3853/9678 [8:32:56<13:26:25,  8.31s/it] 40%|███▉      | 3854/9678 [8:33:03<13:02:16,  8.06s/it] 40%|███▉      | 3855/9678 [8:33:11<13:07:03,  8.11s/it] 40%|███▉      | 3856/9678 [8:33:17<12:07:40,  7.50s/it] 40%|███▉      | 3857/9678 [8:33:23<11:16:34,  6.97s/it] 40%|███▉      | 3858/9678 [8:33:30<11:10:34,  6.91s/it] 40%|███▉      | 3859/9678 [8:33:40<12:40:23,  7.84s/it] 40%|███▉      | 3860/9678 [8:33:46<11:52:22,  7.35s/it]                                                        {'loss': 0.993, 'grad_norm': 1.0135273933410645, 'learning_rate': 0.0003326443723995199, 'epoch': 0.4}
+ 40%|███▉      | 3860/9678 [8:33:46<11:52:22,  7.35s/it] 40%|███▉      | 3861/9678 [8:33:55<12:39:03,  7.83s/it] 40%|███▉      | 3862/9678 [8:34:03<12:37:23,  7.81s/it] 40%|███▉      | 3863/9678 [8:34:12<13:22:54,  8.28s/it] 40%|███▉      | 3864/9678 [8:34:19<12:42:46,  7.87s/it] 40%|███▉      | 3865/9678 [8:34:29<13:48:46,  8.55s/it] 40%|███▉      | 3866/9678 [8:34:37<13:13:49,  8.20s/it] 40%|███▉      | 3867/9678 [8:34:44<12:47:39,  7.93s/it] 40%|███▉      | 3868/9678 [8:34:53<13:10:54,  8.17s/it] 40%|███▉      | 3869/9678 [8:35:02<13:36:28,  8.43s/it] 40%|███▉      | 3870/9678 [8:35:10<13:35:55,  8.43s/it]                                                        {'loss': 0.9969, 'grad_norm': 0.9621232748031616, 'learning_rate': 0.0003318702710339875, 'epoch': 0.4}
+ 40%|███▉      | 3870/9678 [8:35:10<13:35:55,  8.43s/it] 40%|███▉      | 3871/9678 [8:35:18<13:09:13,  8.15s/it] 40%|████      | 3872/9678 [8:35:24<12:25:30,  7.70s/it] 40%|████      | 3873/9678 [8:35:33<12:57:26,  8.04s/it] 40%|████      | 3874/9678 [8:35:41<12:52:52,  7.99s/it] 40%|████      | 3875/9678 [8:35:48<12:22:19,  7.68s/it] 40%|████      | 3876/9678 [8:35:56<12:22:54,  7.68s/it] 40%|████      | 3877/9678 [8:36:02<11:56:18,  7.41s/it] 40%|████      | 3878/9678 [8:36:10<11:57:19,  7.42s/it] 40%|████      | 3879/9678 [8:36:17<12:01:22,  7.46s/it] 40%|████      | 3880/9678 [8:36:26<12:43:16,  7.90s/it]                                                        {'loss': 1.0203, 'grad_norm': 1.1387019157409668, 'learning_rate': 0.0003310952894227718, 'epoch': 0.4}
+ 40%|████      | 3880/9678 [8:36:26<12:43:16,  7.90s/it] 40%|████      | 3881/9678 [8:36:33<12:16:17,  7.62s/it] 40%|████      | 3882/9678 [8:36:40<11:59:58,  7.45s/it] 40%|████      | 3883/9678 [8:36:48<11:59:06,  7.45s/it] 40%|████      | 3884/9678 [8:36:55<12:02:41,  7.48s/it] 40%|████      | 3885/9678 [8:37:02<11:25:34,  7.10s/it] 40%|████      | 3886/9678 [8:37:09<11:41:49,  7.27s/it] 40%|████      | 3887/9678 [8:37:18<12:13:07,  7.60s/it] 40%|████      | 3888/9678 [8:37:27<12:57:08,  8.05s/it] 40%|████      | 3889/9678 [8:37:34<12:37:37,  7.85s/it] 40%|████      | 3890/9678 [8:37:42<12:37:23,  7.85s/it]                                                        {'loss': 1.0166, 'grad_norm': 1.406870722770691, 'learning_rate': 0.0003303194358982526, 'epoch': 0.4}
+ 40%|████      | 3890/9678 [8:37:42<12:37:23,  7.85s/it] 40%|████      | 3891/9678 [8:37:50<12:38:12,  7.86s/it] 40%|████      | 3892/9678 [8:37:58<12:35:21,  7.83s/it] 40%|████      | 3893/9678 [8:38:06<12:49:12,  7.98s/it] 40%|████      | 3894/9678 [8:38:13<12:34:37,  7.83s/it] 40%|████      | 3895/9678 [8:38:21<12:32:40,  7.81s/it] 40%|████      | 3896/9678 [8:38:30<12:50:30,  8.00s/it] 40%|████      | 3897/9678 [8:38:38<12:46:15,  7.95s/it] 40%|████      | 3898/9678 [8:38:48<14:02:52,  8.75s/it] 40%|████      | 3899/9678 [8:38:56<13:39:35,  8.51s/it] 40%|████      | 3900/9678 [8:39:04<13:10:04,  8.20s/it]                                                        {'loss': 0.9749, 'grad_norm': 1.339579701423645, 'learning_rate': 0.00032954271880218465, 'epoch': 0.4}
+ 40%|████      | 3900/9678 [8:39:04<13:10:04,  8.20s/it] 40%|████      | 3901/9678 [8:39:13<13:33:38,  8.45s/it] 40%|████      | 3902/9678 [8:39:20<13:00:49,  8.11s/it] 40%|████      | 3903/9678 [8:39:26<12:04:10,  7.52s/it] 40%|████      | 3904/9678 [8:39:34<12:15:12,  7.64s/it] 40%|████      | 3905/9678 [8:39:41<11:43:08,  7.31s/it] 40%|████      | 3906/9678 [8:39:49<12:12:43,  7.62s/it] 40%|████      | 3907/9678 [8:39:56<12:03:45,  7.52s/it] 40%|████      | 3908/9678 [8:40:03<11:29:59,  7.17s/it] 40%|████      | 3909/9678 [8:40:12<12:24:20,  7.74s/it] 40%|████      | 3910/9678 [8:40:21<13:00:33,  8.12s/it]                                                        {'loss': 0.943, 'grad_norm': 1.2406803369522095, 'learning_rate': 0.00032876514648560757, 'epoch': 0.4}
+ 40%|████      | 3910/9678 [8:40:21<13:00:33,  8.12s/it] 40%|████      | 3911/9678 [8:40:29<12:59:09,  8.11s/it] 40%|████      | 3912/9678 [8:40:35<12:19:44,  7.70s/it] 40%|████      | 3913/9678 [8:40:45<13:09:39,  8.22s/it] 40%|████      | 3914/9678 [8:40:55<13:55:32,  8.70s/it] 40%|████      | 3915/9678 [8:41:03<13:46:45,  8.61s/it] 40%|████      | 3916/9678 [8:41:12<13:47:08,  8.61s/it] 40%|████      | 3917/9678 [8:41:19<13:17:56,  8.31s/it] 40%|████      | 3918/9678 [8:41:26<12:43:09,  7.95s/it] 40%|████      | 3919/9678 [8:41:36<13:22:11,  8.36s/it] 41%|████      | 3920/9678 [8:41:42<12:32:46,  7.84s/it]                                                        {'loss': 0.9874, 'grad_norm': 1.172455072402954, 'learning_rate': 0.00032798672730875603, 'epoch': 0.41}
+ 41%|████      | 3920/9678 [8:41:42<12:32:46,  7.84s/it] 41%|████      | 3921/9678 [8:41:51<13:00:36,  8.14s/it] 41%|████      | 3922/9678 [8:41:59<12:47:09,  8.00s/it] 41%|████      | 3923/9678 [8:42:05<11:55:56,  7.46s/it] 41%|████      | 3924/9678 [8:42:13<12:00:33,  7.51s/it] 41%|████      | 3925/9678 [8:42:21<12:24:34,  7.77s/it] 41%|████      | 3926/9678 [8:42:30<12:48:02,  8.01s/it] 41%|████      | 3927/9678 [8:42:38<13:01:15,  8.15s/it] 41%|████      | 3928/9678 [8:42:45<12:30:51,  7.84s/it] 41%|████      | 3929/9678 [8:42:54<13:00:05,  8.14s/it] 41%|████      | 3930/9678 [8:43:02<12:45:36,  7.99s/it]                                                        {'loss': 0.8747, 'grad_norm': 1.2804698944091797, 'learning_rate': 0.0003272074696409697, 'epoch': 0.41}
+ 41%|████      | 3930/9678 [8:43:02<12:45:36,  7.99s/it] 41%|████      | 3931/9678 [8:43:08<11:58:17,  7.50s/it] 41%|████      | 3932/9678 [8:43:17<12:36:35,  7.90s/it] 41%|████      | 3933/9678 [8:43:25<12:45:19,  7.99s/it] 41%|████      | 3934/9678 [8:43:35<13:40:39,  8.57s/it] 41%|████      | 3935/9678 [8:43:43<13:15:55,  8.32s/it] 41%|████      | 3936/9678 [8:43:52<13:49:19,  8.67s/it] 41%|████      | 3937/9678 [8:43:59<12:58:02,  8.13s/it] 41%|████      | 3938/9678 [8:44:08<13:10:57,  8.27s/it] 41%|████      | 3939/9678 [8:44:14<12:20:08,  7.74s/it] 41%|████      | 3940/9678 [8:44:22<12:23:13,  7.77s/it]                                                        {'loss': 1.0686, 'grad_norm': 1.3023015260696411, 'learning_rate': 0.00032642738186060375, 'epoch': 0.41}
+ 41%|████      | 3940/9678 [8:44:22<12:23:13,  7.77s/it] 41%|████      | 3941/9678 [8:44:30<12:37:49,  7.93s/it] 41%|████      | 3942/9678 [8:44:39<12:46:59,  8.02s/it] 41%|████      | 3943/9678 [8:44:47<12:48:13,  8.04s/it] 41%|████      | 3944/9678 [8:44:56<13:34:58,  8.53s/it] 41%|████      | 3945/9678 [8:45:05<13:50:47,  8.69s/it] 41%|████      | 3946/9678 [8:45:14<13:44:52,  8.63s/it] 41%|████      | 3947/9678 [8:45:23<13:47:27,  8.66s/it] 41%|████      | 3948/9678 [8:45:29<12:43:20,  7.99s/it] 41%|████      | 3949/9678 [8:45:36<12:10:39,  7.65s/it] 41%|████      | 3950/9678 [8:45:44<12:21:59,  7.77s/it]                                                        {'loss': 1.074, 'grad_norm': 1.0053542852401733, 'learning_rate': 0.00032564647235493833, 'epoch': 0.41}
+ 41%|████      | 3950/9678 [8:45:44<12:21:59,  7.77s/it] 41%|████      | 3951/9678 [8:45:50<11:41:43,  7.35s/it] 41%|████      | 3952/9678 [8:45:57<11:27:05,  7.20s/it] 41%|████      | 3953/9678 [8:46:03<10:58:14,  6.90s/it] 41%|████      | 3954/9678 [8:46:12<11:39:34,  7.33s/it] 41%|████      | 3955/9678 [8:46:19<11:33:23,  7.27s/it] 41%|████      | 3956/9678 [8:46:27<11:50:39,  7.45s/it] 41%|████      | 3957/9678 [8:46:35<12:00:09,  7.55s/it] 41%|████      | 3958/9678 [8:46:42<12:09:13,  7.65s/it] 41%|████      | 3959/9678 [8:46:49<11:33:23,  7.27s/it] 41%|████      | 3960/9678 [8:46:55<10:57:45,  6.90s/it]                                                        {'loss': 1.0043, 'grad_norm': 1.0846545696258545, 'learning_rate': 0.0003248647495200886, 'epoch': 0.41}
+ 41%|████      | 3960/9678 [8:46:55<10:57:45,  6.90s/it] 41%|████      | 3961/9678 [8:47:03<11:29:38,  7.24s/it] 41%|████      | 3962/9678 [8:47:10<11:36:07,  7.31s/it] 41%|████      | 3963/9678 [8:47:18<11:48:36,  7.44s/it] 41%|████      | 3964/9678 [8:47:27<12:24:36,  7.82s/it] 41%|████      | 3965/9678 [8:47:35<12:24:43,  7.82s/it] 41%|████      | 3966/9678 [8:47:41<11:36:04,  7.31s/it] 41%|████      | 3967/9678 [8:47:50<12:31:56,  7.90s/it] 41%|████      | 3968/9678 [8:47:58<12:49:37,  8.09s/it] 41%|████      | 3969/9678 [8:48:06<12:31:53,  7.90s/it] 41%|████      | 3970/9678 [8:48:12<11:50:22,  7.47s/it]                                                        {'loss': 1.0302, 'grad_norm': 1.0012749433517456, 'learning_rate': 0.00032408222176091427, 'epoch': 0.41}
+ 41%|████      | 3970/9678 [8:48:12<11:50:22,  7.47s/it] 41%|████      | 3971/9678 [8:48:20<12:05:25,  7.63s/it] 41%|████      | 3972/9678 [8:48:31<13:30:54,  8.53s/it] 41%|████      | 3973/9678 [8:48:40<13:39:25,  8.62s/it] 41%|████      | 3974/9678 [8:48:48<13:23:21,  8.45s/it] 41%|████      | 3975/9678 [8:48:57<13:37:02,  8.60s/it] 41%|████      | 3976/9678 [8:49:07<14:09:15,  8.94s/it] 41%|████      | 3977/9678 [8:49:14<13:21:56,  8.44s/it] 41%|████      | 3978/9678 [8:49:22<13:15:29,  8.37s/it] 41%|████      | 3979/9678 [8:49:31<13:20:57,  8.43s/it] 41%|████      | 3980/9678 [8:49:36<12:04:54,  7.63s/it]                                                        {'loss': 0.9389, 'grad_norm': 1.074317455291748, 'learning_rate': 0.0003232988974909296, 'epoch': 0.41}
+ 41%|████      | 3980/9678 [8:49:36<12:04:54,  7.63s/it] 41%|████      | 3981/9678 [8:49:44<11:52:39,  7.51s/it] 41%|████      | 3982/9678 [8:49:52<12:23:36,  7.83s/it] 41%|████      | 3983/9678 [8:50:01<12:44:59,  8.06s/it] 41%|████      | 3984/9678 [8:50:09<12:53:34,  8.15s/it] 41%|████      | 3985/9678 [8:50:17<12:44:43,  8.06s/it] 41%|████      | 3986/9678 [8:50:25<12:41:47,  8.03s/it] 41%|████      | 3987/9678 [8:50:34<13:03:32,  8.26s/it] 41%|████      | 3988/9678 [8:50:41<12:28:05,  7.89s/it] 41%|████      | 3989/9678 [8:50:48<11:55:14,  7.54s/it] 41%|████      | 3990/9678 [8:50:55<11:43:32,  7.42s/it]                                                        {'loss': 0.9772, 'grad_norm': 1.5110340118408203, 'learning_rate': 0.00032251478513221254, 'epoch': 0.41}
+ 41%|████      | 3990/9678 [8:50:55<11:43:32,  7.42s/it] 41%|████      | 3991/9678 [8:51:02<11:42:01,  7.41s/it] 41%|████      | 3992/9678 [8:51:09<11:28:32,  7.27s/it] 41%|████▏     | 3993/9678 [8:51:17<11:34:58,  7.33s/it] 41%|████▏     | 3994/9678 [8:51:26<12:26:58,  7.88s/it] 41%|████▏     | 3995/9678 [8:51:35<13:00:35,  8.24s/it] 41%|████▏     | 3996/9678 [8:51:42<12:43:00,  8.06s/it] 41%|████▏     | 3997/9678 [8:51:51<13:03:52,  8.28s/it] 41%|████▏     | 3998/9678 [8:51:59<12:58:33,  8.22s/it] 41%|████▏     | 3999/9678 [8:52:06<12:20:04,  7.82s/it] 41%|████▏     | 4000/9678 [8:52:13<11:58:36,  7.59s/it]                                                        {'loss': 1.0754, 'grad_norm': 0.9564982652664185, 'learning_rate': 0.00032172989311531427, 'epoch': 0.41}
+ 41%|████▏     | 4000/9678 [8:52:13<11:58:36,  7.59s/it] 41%|████▏     | 4001/9678 [8:52:21<11:53:38,  7.54s/it] 41%|████▏     | 4002/9678 [8:52:29<12:27:11,  7.90s/it] 41%|████▏     | 4003/9678 [8:52:39<13:23:58,  8.50s/it] 41%|████▏     | 4004/9678 [8:52:47<13:05:45,  8.31s/it] 41%|████▏     | 4005/9678 [8:52:54<12:18:02,  7.81s/it] 41%|████▏     | 4006/9678 [8:53:01<12:06:45,  7.69s/it] 41%|████▏     | 4007/9678 [8:53:08<11:37:19,  7.38s/it] 41%|████▏     | 4008/9678 [8:53:16<11:50:41,  7.52s/it] 41%|████▏     | 4009/9678 [8:53:25<12:49:02,  8.14s/it] 41%|████▏     | 4010/9678 [8:53:34<12:54:12,  8.20s/it]                                                        {'loss': 0.9343, 'grad_norm': 1.091377854347229, 'learning_rate': 0.0003209442298791689, 'epoch': 0.41}
+ 41%|████▏     | 4010/9678 [8:53:34<12:54:12,  8.20s/it] 41%|████▏     | 4011/9678 [8:53:41<12:33:52,  7.98s/it] 41%|████▏     | 4012/9678 [8:53:50<13:00:26,  8.26s/it] 41%|████▏     | 4013/9678 [8:53:58<12:45:16,  8.11s/it] 41%|████▏     | 4014/9678 [8:54:05<12:15:44,  7.79s/it] 41%|████▏     | 4015/9678 [8:54:12<11:52:03,  7.54s/it] 41%|████▏     | 4016/9678 [8:54:19<11:40:14,  7.42s/it] 42%|████▏     | 4017/9678 [8:54:29<13:00:32,  8.27s/it] 42%|████▏     | 4018/9678 [8:54:36<12:12:41,  7.77s/it] 42%|████▏     | 4019/9678 [8:54:44<12:18:56,  7.83s/it] 42%|████▏     | 4020/9678 [8:54:51<12:14:51,  7.79s/it]                                                        {'loss': 0.9448, 'grad_norm': 1.3888299465179443, 'learning_rate': 0.00032015780387100227, 'epoch': 0.42}
+ 42%|████▏     | 4020/9678 [8:54:51<12:14:51,  7.79s/it] 42%|████▏     | 4021/9678 [8:54:59<12:18:59,  7.84s/it] 42%|████▏     | 4022/9678 [8:55:07<12:24:59,  7.90s/it] 42%|████▏     | 4023/9678 [8:55:17<13:06:49,  8.35s/it] 42%|████▏     | 4024/9678 [8:55:25<12:59:13,  8.27s/it] 42%|████▏     | 4025/9678 [8:55:33<12:57:51,  8.26s/it] 42%|████▏     | 4026/9678 [8:55:40<12:16:33,  7.82s/it] 42%|████▏     | 4027/9678 [8:55:46<11:35:11,  7.38s/it] 42%|████▏     | 4028/9678 [8:55:56<12:27:14,  7.94s/it] 42%|████▏     | 4029/9678 [8:56:05<13:06:06,  8.35s/it] 42%|████▏     | 4030/9678 [8:56:14<13:33:19,  8.64s/it]                                                        {'loss': 0.9877, 'grad_norm': 0.9059675335884094, 'learning_rate': 0.0003193706235462412, 'epoch': 0.42}
+ 42%|████▏     | 4030/9678 [8:56:14<13:33:19,  8.64s/it] 42%|████▏     | 4031/9678 [8:56:23<13:47:08,  8.79s/it] 42%|████▏     | 4032/9678 [8:56:33<14:09:22,  9.03s/it] 42%|████▏     | 4033/9678 [8:56:41<13:41:22,  8.73s/it] 42%|████▏     | 4034/9678 [8:56:48<13:06:14,  8.36s/it] 42%|████▏     | 4035/9678 [8:56:56<12:34:06,  8.02s/it] 42%|████▏     | 4036/9678 [8:57:04<12:53:27,  8.23s/it] 42%|████▏     | 4037/9678 [8:57:11<12:11:35,  7.78s/it] 42%|████▏     | 4038/9678 [8:57:17<11:26:30,  7.30s/it] 42%|████▏     | 4039/9678 [8:57:26<12:17:55,  7.85s/it] 42%|████▏     | 4040/9678 [8:57:33<11:42:37,  7.48s/it]                                                        {'loss': 1.0814, 'grad_norm': 1.5517827272415161, 'learning_rate': 0.0003185826973684231, 'epoch': 0.42}
+ 42%|████▏     | 4040/9678 [8:57:33<11:42:37,  7.48s/it] 42%|████▏     | 4041/9678 [8:57:42<12:18:59,  7.87s/it] 42%|████▏     | 4042/9678 [8:57:49<12:12:08,  7.79s/it] 42%|████▏     | 4043/9678 [8:57:57<12:12:47,  7.80s/it] 42%|████▏     | 4044/9678 [8:58:05<12:06:20,  7.74s/it] 42%|████▏     | 4045/9678 [8:58:13<12:17:26,  7.85s/it] 42%|████▏     | 4046/9678 [8:58:20<11:46:42,  7.53s/it] 42%|████▏     | 4047/9678 [8:58:26<11:16:25,  7.21s/it] 42%|████▏     | 4048/9678 [8:58:35<11:49:21,  7.56s/it] 42%|████▏     | 4049/9678 [8:58:42<11:48:33,  7.55s/it] 42%|████▏     | 4050/9678 [8:58:53<13:12:07,  8.44s/it]                                                        {'loss': 1.0654, 'grad_norm': 1.1768487691879272, 'learning_rate': 0.00031779403380910427, 'epoch': 0.42}
+ 42%|████▏     | 4050/9678 [8:58:53<13:12:07,  8.44s/it] 42%|████▏     | 4051/9678 [8:59:01<13:19:04,  8.52s/it] 42%|████▏     | 4052/9678 [8:59:08<12:39:10,  8.10s/it] 42%|████▏     | 4053/9678 [8:59:17<12:51:08,  8.23s/it] 42%|████▏     | 4054/9678 [8:59:26<13:10:04,  8.43s/it] 42%|████▏     | 4055/9678 [8:59:34<12:56:23,  8.28s/it] 42%|████▏     | 4056/9678 [8:59:41<12:33:48,  8.04s/it] 42%|████▏     | 4057/9678 [8:59:49<12:28:52,  7.99s/it] 42%|████▏     | 4058/9678 [8:59:57<12:23:00,  7.93s/it] 42%|████▏     | 4059/9678 [9:00:04<12:02:59,  7.72s/it] 42%|████▏     | 4060/9678 [9:00:12<12:00:45,  7.70s/it]                                                        {'loss': 1.0507, 'grad_norm': 1.0996865034103394, 'learning_rate': 0.0003170046413477692, 'epoch': 0.42}
+ 42%|████▏     | 4060/9678 [9:00:12<12:00:45,  7.70s/it] 42%|████▏     | 4061/9678 [9:00:21<12:42:47,  8.15s/it] 42%|████▏     | 4062/9678 [9:00:29<12:49:03,  8.22s/it] 42%|████▏     | 4063/9678 [9:00:38<12:56:19,  8.30s/it] 42%|████▏     | 4064/9678 [9:00:46<12:39:40,  8.12s/it] 42%|████▏     | 4065/9678 [9:00:55<13:07:15,  8.42s/it] 42%|████▏     | 4066/9678 [9:01:02<12:40:30,  8.13s/it] 42%|████▏     | 4067/9678 [9:01:12<13:25:27,  8.61s/it] 42%|████▏     | 4068/9678 [9:01:19<12:49:29,  8.23s/it] 42%|████▏     | 4069/9678 [9:01:27<12:37:55,  8.11s/it] 42%|████▏     | 4070/9678 [9:01:33<11:45:17,  7.55s/it]                                                        {'loss': 1.1611, 'grad_norm': 1.7401593923568726, 'learning_rate': 0.00031621452847173923, 'epoch': 0.42}
+ 42%|████▏     | 4070/9678 [9:01:33<11:45:17,  7.55s/it] 42%|████▏     | 4071/9678 [9:01:39<10:59:06,  7.05s/it] 42%|████▏     | 4072/9678 [9:01:46<10:56:04,  7.02s/it] 42%|████▏     | 4073/9678 [9:01:55<11:48:44,  7.59s/it] 42%|████▏     | 4074/9678 [9:02:04<12:34:42,  8.08s/it] 42%|████▏     | 4075/9678 [9:02:13<12:39:43,  8.14s/it] 42%|████▏     | 4076/9678 [9:02:19<11:51:37,  7.62s/it] 42%|████▏     | 4077/9678 [9:02:28<12:21:42,  7.95s/it] 42%|████▏     | 4078/9678 [9:02:35<12:15:40,  7.88s/it] 42%|████▏     | 4079/9678 [9:02:43<12:18:48,  7.92s/it] 42%|████▏     | 4080/9678 [9:02:51<12:23:22,  7.97s/it]                                                        {'loss': 1.0043, 'grad_norm': 1.4233949184417725, 'learning_rate': 0.00031542370367608176, 'epoch': 0.42}
+ 42%|████▏     | 4080/9678 [9:02:51<12:23:22,  7.97s/it] 42%|████▏     | 4081/9678 [9:02:59<12:24:12,  7.98s/it] 42%|████▏     | 4082/9678 [9:03:09<13:15:37,  8.53s/it] 42%|████▏     | 4083/9678 [9:03:15<12:10:29,  7.83s/it] 42%|████▏     | 4084/9678 [9:03:24<12:22:18,  7.96s/it] 42%|████▏     | 4085/9678 [9:03:31<12:02:16,  7.75s/it] 42%|████▏     | 4086/9678 [9:03:40<12:23:27,  7.98s/it] 42%|████▏     | 4087/9678 [9:03:47<12:13:38,  7.87s/it] 42%|████▏     | 4088/9678 [9:03:54<11:48:53,  7.61s/it] 42%|████▏     | 4089/9678 [9:04:02<12:09:17,  7.83s/it] 42%|████▏     | 4090/9678 [9:04:09<11:30:38,  7.42s/it]                                                        {'loss': 1.0389, 'grad_norm': 1.1471216678619385, 'learning_rate': 0.00031463217546351803, 'epoch': 0.42}
+ 42%|████▏     | 4090/9678 [9:04:09<11:30:38,  7.42s/it] 42%|████▏     | 4091/9678 [9:04:18<12:23:11,  7.98s/it] 42%|████▏     | 4092/9678 [9:04:28<13:19:46,  8.59s/it] 42%|████▏     | 4093/9678 [9:04:34<12:11:20,  7.86s/it] 42%|████▏     | 4094/9678 [9:04:41<11:45:34,  7.58s/it] 42%|████▏     | 4095/9678 [9:04:49<11:34:10,  7.46s/it] 42%|████▏     | 4096/9678 [9:04:55<11:07:25,  7.17s/it] 42%|████▏     | 4097/9678 [9:05:04<11:48:19,  7.62s/it] 42%|████▏     | 4098/9678 [9:05:12<11:57:33,  7.72s/it] 42%|████▏     | 4099/9678 [9:05:19<12:01:16,  7.76s/it] 42%|████▏     | 4100/9678 [9:05:25<11:07:15,  7.18s/it]                                                        {'loss': 0.9048, 'grad_norm': 0.9187898635864258, 'learning_rate': 0.0003138399523443326, 'epoch': 0.42}
+ 42%|████▏     | 4100/9678 [9:05:25<11:07:15,  7.18s/it] 42%|████▏     | 4101/9678 [9:05:33<11:26:27,  7.39s/it] 42%|████▏     | 4102/9678 [9:05:42<12:14:51,  7.91s/it] 42%|████▏     | 4103/9678 [9:05:50<12:00:25,  7.75s/it] 42%|████▏     | 4104/9678 [9:05:57<11:51:25,  7.66s/it] 42%|████▏     | 4105/9678 [9:06:06<12:17:49,  7.94s/it] 42%|████▏     | 4106/9678 [9:06:14<12:17:59,  7.95s/it] 42%|████▏     | 4107/9678 [9:06:22<12:21:19,  7.98s/it] 42%|████▏     | 4108/9678 [9:06:28<11:44:55,  7.59s/it] 42%|████▏     | 4109/9678 [9:06:37<12:19:55,  7.97s/it] 42%|████▏     | 4110/9678 [9:06:44<11:57:51,  7.74s/it]                                                        {'loss': 0.9538, 'grad_norm': 1.0712145566940308, 'learning_rate': 0.0003130470428362811, 'epoch': 0.42}
+ 42%|████▏     | 4110/9678 [9:06:44<11:57:51,  7.74s/it] 42%|████▏     | 4111/9678 [9:06:52<11:44:04,  7.59s/it] 42%|████▏     | 4112/9678 [9:06:59<11:46:17,  7.61s/it] 42%|████▏     | 4113/9678 [9:07:09<12:50:38,  8.31s/it] 43%|████▎     | 4114/9678 [9:07:17<12:24:44,  8.03s/it] 43%|████▎     | 4115/9678 [9:07:26<12:46:50,  8.27s/it] 43%|████▎     | 4116/9678 [9:07:34<12:40:15,  8.20s/it] 43%|████▎     | 4117/9678 [9:07:41<12:23:04,  8.02s/it] 43%|████▎     | 4118/9678 [9:07:49<12:14:06,  7.92s/it] 43%|████▎     | 4119/9678 [9:07:58<12:54:39,  8.36s/it] 43%|████▎     | 4120/9678 [9:08:07<12:54:27,  8.36s/it]                                                        {'loss': 0.9093, 'grad_norm': 1.3978677988052368, 'learning_rate': 0.0003122534554644995, 'epoch': 0.43}
+ 43%|████▎     | 4120/9678 [9:08:07<12:54:27,  8.36s/it] 43%|████▎     | 4121/9678 [9:08:14<12:17:34,  7.96s/it] 43%|████▎     | 4122/9678 [9:08:22<12:17:48,  7.97s/it] 43%|████▎     | 4123/9678 [9:08:29<11:47:43,  7.64s/it] 43%|████▎     | 4124/9678 [9:08:36<11:31:18,  7.47s/it] 43%|████▎     | 4125/9678 [9:08:43<11:19:18,  7.34s/it] 43%|████▎     | 4126/9678 [9:08:50<11:17:43,  7.32s/it] 43%|████▎     | 4127/9678 [9:08:57<11:10:18,  7.25s/it] 43%|████▎     | 4128/9678 [9:09:04<10:52:18,  7.05s/it] 43%|████▎     | 4129/9678 [9:09:13<12:10:30,  7.90s/it] 43%|████▎     | 4130/9678 [9:09:24<13:20:14,  8.65s/it]                                                        {'loss': 0.984, 'grad_norm': 0.9700504541397095, 'learning_rate': 0.0003114591987614117, 'epoch': 0.43}
+ 43%|████▎     | 4130/9678 [9:09:24<13:20:14,  8.65s/it] 43%|████▎     | 4131/9678 [9:09:33<13:47:03,  8.95s/it] 43%|████▎     | 4132/9678 [9:09:42<13:31:44,  8.78s/it] 43%|████▎     | 4133/9678 [9:09:49<12:40:55,  8.23s/it] 43%|████▎     | 4134/9678 [9:09:57<12:32:35,  8.14s/it] 43%|████▎     | 4135/9678 [9:10:04<11:58:46,  7.78s/it] 43%|████▎     | 4136/9678 [9:10:13<12:54:24,  8.38s/it] 43%|████▎     | 4137/9678 [9:10:22<13:06:38,  8.52s/it] 43%|████▎     | 4138/9678 [9:10:33<14:17:38,  9.29s/it] 43%|████▎     | 4139/9678 [9:10:40<13:11:35,  8.57s/it] 43%|████▎     | 4140/9678 [9:10:49<13:02:45,  8.48s/it]                                                        {'loss': 0.9965, 'grad_norm': 1.1521259546279907, 'learning_rate': 0.0003106642812666379, 'epoch': 0.43}
+ 43%|████▎     | 4140/9678 [9:10:49<13:02:45,  8.48s/it] 43%|████▎     | 4141/9678 [9:10:57<12:47:28,  8.32s/it] 43%|████▎     | 4142/9678 [9:11:04<12:32:11,  8.15s/it] 43%|████▎     | 4143/9678 [9:11:15<13:30:22,  8.78s/it] 43%|████▎     | 4144/9678 [9:11:22<12:41:48,  8.26s/it] 43%|████▎     | 4145/9678 [9:11:30<12:51:03,  8.36s/it] 43%|████▎     | 4146/9678 [9:11:38<12:43:05,  8.28s/it] 43%|████▎     | 4147/9678 [9:11:47<12:44:49,  8.30s/it] 43%|████▎     | 4148/9678 [9:11:55<12:37:51,  8.22s/it] 43%|████▎     | 4149/9678 [9:12:02<12:23:24,  8.07s/it] 43%|████▎     | 4150/9678 [9:12:10<12:05:41,  7.88s/it]                                                        {'loss': 0.9018, 'grad_norm': 1.2085431814193726, 'learning_rate': 0.0003098687115269034, 'epoch': 0.43}
+ 43%|████▎     | 4150/9678 [9:12:10<12:05:41,  7.88s/it] 43%|████▎     | 4151/9678 [9:12:21<13:24:23,  8.73s/it] 43%|████▎     | 4152/9678 [9:12:28<12:49:09,  8.35s/it] 43%|████▎     | 4153/9678 [9:12:35<12:04:23,  7.87s/it] 43%|████▎     | 4154/9678 [9:12:44<12:33:29,  8.18s/it] 43%|████▎     | 4155/9678 [9:12:50<11:47:49,  7.69s/it] 43%|████▎     | 4156/9678 [9:12:57<11:31:06,  7.51s/it] 43%|████▎     | 4157/9678 [9:13:05<11:35:24,  7.56s/it] 43%|████▎     | 4158/9678 [9:13:15<12:36:04,  8.22s/it] 43%|████▎     | 4159/9678 [9:13:22<12:02:33,  7.86s/it] 43%|████▎     | 4160/9678 [9:13:29<11:48:49,  7.71s/it]                                                        {'loss': 1.0776, 'grad_norm': 1.1607948541641235, 'learning_rate': 0.0003090724980959457, 'epoch': 0.43}
+ 43%|████▎     | 4160/9678 [9:13:29<11:48:49,  7.71s/it] 43%|████▎     | 4161/9678 [9:13:37<11:52:33,  7.75s/it] 43%|████▎     | 4162/9678 [9:13:45<12:01:33,  7.85s/it] 43%|████▎     | 4163/9678 [9:13:53<12:16:57,  8.02s/it] 43%|████▎     | 4164/9678 [9:14:03<12:53:16,  8.41s/it] 43%|████▎     | 4165/9678 [9:14:11<12:45:33,  8.33s/it] 43%|████▎     | 4166/9678 [9:14:19<12:29:35,  8.16s/it] 43%|████▎     | 4167/9678 [9:14:26<11:55:50,  7.79s/it] 43%|████▎     | 4168/9678 [9:14:33<11:36:36,  7.59s/it] 43%|████▎     | 4169/9678 [9:14:41<12:00:37,  7.85s/it] 43%|████▎     | 4170/9678 [9:14:49<11:55:52,  7.80s/it]                                                        {'loss': 0.9008, 'grad_norm': 1.4290366172790527, 'learning_rate': 0.0003082756495344234, 'epoch': 0.43}
+ 43%|████▎     | 4170/9678 [9:14:49<11:55:52,  7.80s/it] 43%|████▎     | 4171/9678 [9:14:56<11:25:39,  7.47s/it] 43%|████▎     | 4172/9678 [9:15:06<12:48:11,  8.37s/it] 43%|████▎     | 4173/9678 [9:15:13<11:59:59,  7.85s/it] 43%|████▎     | 4174/9678 [9:15:19<11:17:41,  7.39s/it] 43%|████▎     | 4175/9678 [9:15:27<11:41:07,  7.64s/it] 43%|████▎     | 4176/9678 [9:15:36<12:04:52,  7.90s/it] 43%|████▎     | 4177/9678 [9:15:44<12:11:16,  7.98s/it] 43%|████▎     | 4178/9678 [9:15:52<12:13:19,  8.00s/it] 43%|████▎     | 4179/9678 [9:16:00<12:22:22,  8.10s/it] 43%|████▎     | 4180/9678 [9:16:07<11:59:13,  7.85s/it]                                                        {'loss': 0.9175, 'grad_norm': 1.3393192291259766, 'learning_rate': 0.00030747817440982385, 'epoch': 0.43}
+ 43%|████▎     | 4180/9678 [9:16:07<11:59:13,  7.85s/it] 43%|████▎     | 4181/9678 [9:16:14<11:25:30,  7.48s/it] 43%|████▎     | 4182/9678 [9:16:21<11:12:49,  7.35s/it] 43%|████▎     | 4183/9678 [9:16:28<10:54:35,  7.15s/it] 43%|████▎     | 4184/9678 [9:16:36<11:21:42,  7.44s/it] 43%|████▎     | 4185/9678 [9:16:44<11:25:01,  7.48s/it] 43%|████▎     | 4186/9678 [9:16:51<11:20:41,  7.44s/it] 43%|████▎     | 4187/9678 [9:16:58<11:16:09,  7.39s/it] 43%|████▎     | 4188/9678 [9:17:06<11:21:02,  7.44s/it] 43%|████▎     | 4189/9678 [9:17:13<11:06:40,  7.29s/it] 43%|████▎     | 4190/9678 [9:17:21<11:29:33,  7.54s/it]                                                        {'loss': 1.0164, 'grad_norm': 1.4794620275497437, 'learning_rate': 0.00030668008129637104, 'epoch': 0.43}
+ 43%|████▎     | 4190/9678 [9:17:21<11:29:33,  7.54s/it] 43%|████▎     | 4191/9678 [9:17:29<11:54:43,  7.82s/it] 43%|████▎     | 4192/9678 [9:17:37<12:06:06,  7.94s/it] 43%|████▎     | 4193/9678 [9:17:44<11:28:08,  7.53s/it] 43%|████▎     | 4194/9678 [9:17:50<10:59:04,  7.21s/it] 43%|████▎     | 4195/9678 [9:17:58<11:11:25,  7.35s/it] 43%|████▎     | 4196/9678 [9:18:06<11:11:45,  7.35s/it] 43%|████▎     | 4197/9678 [9:18:17<12:53:31,  8.47s/it] 43%|████▎     | 4198/9678 [9:18:25<12:51:55,  8.45s/it] 43%|████▎     | 4199/9678 [9:18:33<12:43:29,  8.36s/it] 43%|████▎     | 4200/9678 [9:18:40<12:04:57,  7.94s/it]                                                        {'loss': 1.0511, 'grad_norm': 0.5630869269371033, 'learning_rate': 0.00030588137877493317, 'epoch': 0.43}
+ 43%|████▎     | 4200/9678 [9:18:40<12:04:57,  7.94s/it] 43%|████▎     | 4201/9678 [9:18:47<11:31:39,  7.58s/it] 43%|████▎     | 4202/9678 [9:18:55<11:59:37,  7.88s/it] 43%|████▎     | 4203/9678 [9:19:04<12:15:29,  8.06s/it] 43%|████▎     | 4204/9678 [9:19:13<12:57:03,  8.52s/it] 43%|████▎     | 4205/9678 [9:19:22<12:43:58,  8.38s/it] 43%|████▎     | 4206/9678 [9:19:28<12:02:31,  7.92s/it] 43%|████▎     | 4207/9678 [9:19:37<12:22:06,  8.14s/it] 43%|████▎     | 4208/9678 [9:19:45<12:06:06,  7.96s/it] 43%|████▎     | 4209/9678 [9:19:52<11:56:40,  7.86s/it] 44%|████▎     | 4210/9678 [9:20:00<11:54:38,  7.84s/it]                                                        {'loss': 0.8834, 'grad_norm': 1.0285252332687378, 'learning_rate': 0.0003050820754329309, 'epoch': 0.44}
+ 44%|████▎     | 4210/9678 [9:20:00<11:54:38,  7.84s/it] 44%|████▎     | 4211/9678 [9:20:09<12:29:03,  8.22s/it] 44%|████▎     | 4212/9678 [9:20:17<12:10:46,  8.02s/it] 44%|████▎     | 4213/9678 [9:20:24<11:46:30,  7.76s/it] 44%|████▎     | 4214/9678 [9:20:32<12:09:47,  8.01s/it] 44%|████▎     | 4215/9678 [9:20:41<12:13:38,  8.06s/it] 44%|████▎     | 4216/9678 [9:20:49<12:17:28,  8.10s/it] 44%|████▎     | 4217/9678 [9:20:57<12:19:08,  8.12s/it] 44%|████▎     | 4218/9678 [9:21:05<12:16:18,  8.09s/it] 44%|████▎     | 4219/9678 [9:21:13<12:19:38,  8.13s/it] 44%|████▎     | 4220/9678 [9:21:21<12:19:36,  8.13s/it]                                                        {'loss': 1.0248, 'grad_norm': 1.4534152746200562, 'learning_rate': 0.00030428217986424444, 'epoch': 0.44}
+ 44%|████▎     | 4220/9678 [9:21:21<12:19:36,  8.13s/it] 44%|████▎     | 4221/9678 [9:21:28<11:52:30,  7.83s/it] 44%|████▎     | 4222/9678 [9:21:38<12:30:58,  8.26s/it] 44%|████▎     | 4223/9678 [9:21:48<13:15:21,  8.75s/it] 44%|████▎     | 4224/9678 [9:21:57<13:30:42,  8.92s/it] 44%|████▎     | 4225/9678 [9:22:05<13:03:24,  8.62s/it] 44%|████▎     | 4226/9678 [9:22:13<13:02:44,  8.61s/it] 44%|████▎     | 4227/9678 [9:22:23<13:14:46,  8.75s/it] 44%|████▎     | 4228/9678 [9:22:30<12:48:31,  8.46s/it] 44%|████▎     | 4229/9678 [9:22:37<12:04:48,  7.98s/it] 44%|████▎     | 4230/9678 [9:22:46<12:15:14,  8.10s/it]                                                        {'loss': 0.9278, 'grad_norm': 1.7549463510513306, 'learning_rate': 0.0003034817006691219, 'epoch': 0.44}
+ 44%|████▎     | 4230/9678 [9:22:46<12:15:14,  8.10s/it] 44%|████▎     | 4231/9678 [9:22:52<11:24:49,  7.54s/it] 44%|████▎     | 4232/9678 [9:23:01<11:59:48,  7.93s/it] 44%|████▎     | 4233/9678 [9:23:07<11:06:03,  7.34s/it] 44%|████▎     | 4234/9678 [9:23:14<11:20:32,  7.50s/it] 44%|████▍     | 4235/9678 [9:23:21<10:56:40,  7.24s/it] 44%|████▍     | 4236/9678 [9:23:29<11:22:14,  7.52s/it] 44%|████▍     | 4237/9678 [9:23:38<11:50:30,  7.83s/it] 44%|████▍     | 4238/9678 [9:23:46<11:56:05,  7.90s/it] 44%|████▍     | 4239/9678 [9:23:53<11:39:58,  7.72s/it] 44%|████▍     | 4240/9678 [9:24:01<11:31:54,  7.63s/it]                                                        {'loss': 1.0172, 'grad_norm': 1.1008073091506958, 'learning_rate': 0.0003026806464540859, 'epoch': 0.44}
+ 44%|████▍     | 4240/9678 [9:24:01<11:31:54,  7.63s/it] 44%|████▍     | 4241/9678 [9:24:08<11:37:22,  7.70s/it] 44%|████▍     | 4242/9678 [9:24:17<11:52:03,  7.86s/it] 44%|████▍     | 4243/9678 [9:24:23<11:22:51,  7.54s/it] 44%|████▍     | 4244/9678 [9:24:32<11:41:29,  7.75s/it] 44%|████▍     | 4245/9678 [9:24:39<11:40:24,  7.74s/it] 44%|████▍     | 4246/9678 [9:24:49<12:36:04,  8.35s/it] 44%|████▍     | 4247/9678 [9:24:58<12:46:14,  8.47s/it] 44%|████▍     | 4248/9678 [9:25:06<12:36:36,  8.36s/it] 44%|████▍     | 4249/9678 [9:25:15<12:43:51,  8.44s/it] 44%|████▍     | 4250/9678 [9:25:23<12:31:33,  8.31s/it]                                                        {'loss': 0.9703, 'grad_norm': 1.042400598526001, 'learning_rate': 0.0003018790258318417, 'epoch': 0.44}
+ 44%|████▍     | 4250/9678 [9:25:23<12:31:33,  8.31s/it] 44%|████▍     | 4251/9678 [9:25:31<12:24:02,  8.23s/it] 44%|████▍     | 4252/9678 [9:25:39<12:27:13,  8.26s/it] 44%|████▍     | 4253/9678 [9:25:46<11:57:40,  7.94s/it] 44%|████▍     | 4254/9678 [9:25:54<11:45:04,  7.80s/it] 44%|████▍     | 4255/9678 [9:26:01<11:42:39,  7.77s/it] 44%|████▍     | 4256/9678 [9:26:10<11:50:54,  7.87s/it] 44%|████▍     | 4257/9678 [9:26:17<11:50:40,  7.87s/it] 44%|████▍     | 4258/9678 [9:26:26<11:59:49,  7.97s/it] 44%|████▍     | 4259/9678 [9:26:33<11:43:55,  7.79s/it] 44%|████▍     | 4260/9678 [9:26:41<11:50:09,  7.86s/it]                                                        {'loss': 0.9187, 'grad_norm': 1.428467035293579, 'learning_rate': 0.00030107684742118466, 'epoch': 0.44}
+ 44%|████▍     | 4260/9678 [9:26:41<11:50:09,  7.86s/it] 44%|████▍     | 4261/9678 [9:26:51<12:45:11,  8.48s/it] 44%|████▍     | 4262/9678 [9:27:00<12:56:06,  8.60s/it] 44%|████▍     | 4263/9678 [9:27:07<12:15:25,  8.15s/it] 44%|████▍     | 4264/9678 [9:27:15<12:18:54,  8.19s/it] 44%|████▍     | 4265/9678 [9:27:22<11:43:23,  7.80s/it] 44%|████▍     | 4266/9678 [9:27:30<11:42:30,  7.79s/it] 44%|████▍     | 4267/9678 [9:27:39<12:24:53,  8.26s/it] 44%|████▍     | 4268/9678 [9:27:48<12:40:12,  8.43s/it] 44%|████▍     | 4269/9678 [9:27:56<12:21:44,  8.23s/it] 44%|████▍     | 4270/9678 [9:28:04<12:08:50,  8.09s/it]                                                        {'loss': 0.8501, 'grad_norm': 0.8269082903862, 'learning_rate': 0.0003002741198469068, 'epoch': 0.44}
+ 44%|████▍     | 4270/9678 [9:28:04<12:08:50,  8.09s/it] 44%|████▍     | 4271/9678 [9:28:11<11:38:42,  7.75s/it] 44%|████▍     | 4272/9678 [9:28:19<11:44:58,  7.82s/it] 44%|████▍     | 4273/9678 [9:28:30<13:12:48,  8.80s/it] 44%|████▍     | 4274/9678 [9:28:37<12:25:19,  8.28s/it] 44%|████▍     | 4275/9678 [9:28:45<12:28:48,  8.32s/it] 44%|████▍     | 4276/9678 [9:28:54<12:33:07,  8.37s/it] 44%|████▍     | 4277/9678 [9:29:00<11:50:37,  7.89s/it] 44%|████▍     | 4278/9678 [9:29:08<11:42:40,  7.81s/it] 44%|████▍     | 4279/9678 [9:29:14<11:09:09,  7.44s/it] 44%|████▍     | 4280/9678 [9:29:23<11:34:05,  7.71s/it]                                                        {'loss': 0.9252, 'grad_norm': 1.0836302042007446, 'learning_rate': 0.00029947085173970506, 'epoch': 0.44}
+ 44%|████▍     | 4280/9678 [9:29:23<11:34:05,  7.71s/it] 44%|████▍     | 4281/9678 [9:29:32<12:11:39,  8.13s/it] 44%|████▍     | 4282/9678 [9:29:42<13:04:37,  8.72s/it] 44%|████▍     | 4283/9678 [9:29:50<12:40:17,  8.46s/it] 44%|██��█▍     | 4284/9678 [9:29:57<11:54:51,  7.95s/it] 44%|████▍     | 4285/9678 [9:30:05<11:54:20,  7.95s/it] 44%|████▍     | 4286/9678 [9:30:12<11:36:56,  7.76s/it] 44%|████▍     | 4287/9678 [9:30:20<11:57:45,  7.99s/it] 44%|████▍     | 4288/9678 [9:30:27<11:19:35,  7.57s/it] 44%|████▍     | 4289/9678 [9:30:35<11:26:46,  7.65s/it] 44%|████▍     | 4290/9678 [9:30:43<11:38:59,  7.78s/it]                                                        {'loss': 0.8576, 'grad_norm': 0.8747875690460205, 'learning_rate': 0.00029866705173608776, 'epoch': 0.44}
+ 44%|████▍     | 4290/9678 [9:30:43<11:38:59,  7.78s/it] 44%|████▍     | 4291/9678 [9:30:51<11:37:15,  7.77s/it] 44%|████▍     | 4292/9678 [9:30:59<12:04:19,  8.07s/it] 44%|████▍     | 4293/9678 [9:31:07<11:53:23,  7.95s/it] 44%|████▍     | 4294/9678 [9:31:16<12:14:59,  8.19s/it] 44%|████▍     | 4295/9678 [9:31:24<12:06:37,  8.10s/it] 44%|████▍     | 4296/9678 [9:31:33<12:28:58,  8.35s/it] 44%|████▍     | 4297/9678 [9:31:39<11:27:51,  7.67s/it] 44%|████▍     | 4298/9678 [9:31:49<12:23:10,  8.29s/it] 44%|████▍     | 4299/9678 [9:31:56<11:59:05,  8.02s/it] 44%|████▍     | 4300/9678 [9:32:03<11:41:32,  7.83s/it]                                                        {'loss': 0.8515, 'grad_norm': 1.261354923248291, 'learning_rate': 0.0002978627284782821, 'epoch': 0.44}
+ 44%|████▍     | 4300/9678 [9:32:03<11:41:32,  7.83s/it] 44%|████▍     | 4301/9678 [9:32:11<11:26:12,  7.66s/it] 44%|████▍     | 4302/9678 [9:32:18<11:22:27,  7.62s/it] 44%|████▍     | 4303/9678 [9:32:25<11:16:34,  7.55s/it] 44%|████▍     | 4304/9678 [9:32:32<10:53:31,  7.30s/it] 44%|████▍     | 4305/9678 [9:32:38<10:18:24,  6.91s/it] 44%|████▍     | 4306/9678 [9:32:47<11:14:36,  7.53s/it] 45%|████▍     | 4307/9678 [9:32:53<10:27:58,  7.02s/it] 45%|████▍     | 4308/9678 [9:33:01<10:53:08,  7.30s/it] 45%|████▍     | 4309/9678 [9:33:08<10:56:14,  7.33s/it] 45%|████▍     | 4310/9678 [9:33:16<10:54:24,  7.31s/it]                                                        {'loss': 0.9274, 'grad_norm': 1.2424492835998535, 'learning_rate': 0.0002970578906141411, 'epoch': 0.45}
+ 45%|████▍     | 4310/9678 [9:33:16<10:54:24,  7.31s/it] 45%|████▍     | 4311/9678 [9:33:23<10:48:39,  7.25s/it] 45%|████▍     | 4312/9678 [9:33:31<11:18:58,  7.59s/it] 45%|████▍     | 4313/9678 [9:33:38<11:01:55,  7.40s/it] 45%|████▍     | 4314/9678 [9:33:46<11:07:23,  7.47s/it] 45%|████▍     | 4315/9678 [9:33:53<11:10:28,  7.50s/it] 45%|████▍     | 4316/9678 [9:34:00<10:42:40,  7.19s/it] 45%|████▍     | 4317/9678 [9:34:07<10:45:49,  7.23s/it] 45%|████▍     | 4318/9678 [9:34:17<11:51:15,  7.96s/it] 45%|████▍     | 4319/9678 [9:34:24<11:30:12,  7.73s/it] 45%|████▍     | 4320/9678 [9:34:31<11:10:32,  7.51s/it]                                                        {'loss': 1.1236, 'grad_norm': 1.6803146600723267, 'learning_rate': 0.00029625254679705094, 'epoch': 0.45}
+ 45%|████▍     | 4320/9678 [9:34:31<11:10:32,  7.51s/it] 45%|████▍     | 4321/9678 [9:34:40<11:52:51,  7.98s/it] 45%|████▍     | 4322/9678 [9:34:47<11:29:16,  7.72s/it] 45%|████▍     | 4323/9678 [9:34:55<11:40:31,  7.85s/it] 45%|████▍     | 4324/9678 [9:35:02<11:12:28,  7.54s/it] 45%|████▍     | 4325/9678 [9:35:11<11:39:38,  7.84s/it] 45%|████▍     | 4326/9678 [9:35:19<12:02:16,  8.10s/it] 45%|████▍     | 4327/9678 [9:35:28<12:22:43,  8.33s/it] 45%|████▍     | 4328/9678 [9:35:36<12:21:34,  8.32s/it] 45%|████▍     | 4329/9678 [9:35:45<12:14:28,  8.24s/it] 45%|████▍     | 4330/9678 [9:35:54<12:35:56,  8.48s/it]                                                        {'loss': 0.9698, 'grad_norm': 1.284347653388977, 'learning_rate': 0.00029544670568583734, 'epoch': 0.45}
+ 45%|████▍     | 4330/9678 [9:35:54<12:35:56,  8.48s/it] 45%|████▍     | 4331/9678 [9:36:02<12:25:50,  8.37s/it] 45%|████▍     | 4332/9678 [9:36:09<12:06:47,  8.16s/it] 45%|████▍     | 4333/9678 [9:36:17<11:55:14,  8.03s/it] 45%|████▍     | 4334/9678 [9:36:26<12:06:10,  8.15s/it] 45%|████▍     | 4335/9678 [9:36:33<11:42:13,  7.89s/it] 45%|████▍     | 4336/9678 [9:36:40<11:21:56,  7.66s/it] 45%|████▍     | 4337/9678 [9:36:48<11:38:48,  7.85s/it] 45%|████▍     | 4338/9678 [9:36:56<11:38:15,  7.85s/it] 45%|████▍     | 4339/9678 [9:37:04<11:30:49,  7.76s/it] 45%|████▍     | 4340/9678 [9:37:11<11:32:37,  7.79s/it]                                                        {'loss': 0.9518, 'grad_norm': 0.7693723440170288, 'learning_rate': 0.00029464037594467284, 'epoch': 0.45}
+ 45%|████▍     | 4340/9678 [9:37:11<11:32:37,  7.79s/it] 45%|████▍     | 4341/9678 [9:37:18<10:57:25,  7.39s/it] 45%|████▍     | 4342/9678 [9:37:27<11:30:35,  7.77s/it] 45%|████▍     | 4343/9678 [9:37:35<11:48:52,  7.97s/it] 45%|████▍     | 4344/9678 [9:37:45<12:30:09,  8.44s/it] 45%|████▍     | 4345/9678 [9:37:53<12:28:20,  8.42s/it] 45%|████▍     | 4346/9678 [9:38:01<12:12:12,  8.24s/it] 45%|████▍     | 4347/9678 [9:38:08<11:41:08,  7.89s/it] 45%|████▍     | 4348/9678 [9:38:16<11:52:49,  8.02s/it] 45%|████▍     | 4349/9678 [9:38:24<11:39:15,  7.87s/it] 45%|████▍     | 4350/9678 [9:38:31<11:19:33,  7.65s/it]                                                        {'loss': 1.0873, 'grad_norm': 1.0315730571746826, 'learning_rate': 0.00029383356624298383, 'epoch': 0.45}
+ 45%|████▍     | 4350/9678 [9:38:31<11:19:33,  7.65s/it] 45%|████▍     | 4351/9678 [9:38:40<12:04:42,  8.16s/it] 45%|████▍     | 4352/9678 [9:38:48<11:50:42,  8.01s/it] 45%|████▍     | 4353/9678 [9:38:56<11:56:14,  8.07s/it] 45%|████▍     | 4354/9678 [9:39:03<11:35:06,  7.83s/it] 45%|████▍     | 4355/9678 [9:39:11<11:32:20,  7.80s/it] 45%|████▌     | 4356/9678 [9:39:20<11:51:30,  8.02s/it] 45%|████▌     | 4357/9678 [9:39:27<11:31:18,  7.80s/it] 45%|████▌     | 4358/9678 [9:39:34<11:05:44,  7.51s/it] 45%|████▌     | 4359/9678 [9:39:42<11:28:55,  7.77s/it] 45%|████▌     | 4360/9678 [9:39:50<11:42:03,  7.92s/it]                                                        {'loss': 1.0025, 'grad_norm': 0.8411365747451782, 'learning_rate': 0.0002930262852553568, 'epoch': 0.45}
+ 45%|████▌     | 4360/9678 [9:39:50<11:42:03,  7.92s/it] 45%|████▌     | 4361/9678 [9:39:57<11:08:13,  7.54s/it] 45%|████▌     | 4362/9678 [9:40:04<10:53:04,  7.37s/it] 45%|████▌     | 4363/9678 [9:40:13<11:34:30,  7.84s/it] 45%|████▌     | 4364/9678 [9:40:20<11:08:45,  7.55s/it] 45%|████▌     | 4365/9678 [9:40:31<12:46:44,  8.66s/it] 45%|████▌     | 4366/9678 [9:40:37<11:35:59,  7.86s/it] 45%|████▌     | 4367/9678 [9:40:44<11:17:50,  7.66s/it] 45%|████▌     | 4368/9678 [9:40:52<11:25:49,  7.75s/it] 45%|████▌     | 4369/9678 [9:41:00<11:31:26,  7.81s/it] 45%|████▌     | 4370/9678 [9:41:07<11:04:58,  7.52s/it]                                                        {'loss': 0.8811, 'grad_norm': 0.8453785181045532, 'learning_rate': 0.0002922185416614456, 'epoch': 0.45}
+ 45%|████▌     | 4370/9678 [9:41:07<11:04:58,  7.52s/it] 45%|████▌     | 4371/9678 [9:41:14<11:00:34,  7.47s/it] 45%|████▌     | 4372/9678 [9:41:21<10:35:13,  7.18s/it] 45%|████▌     | 4373/9678 [9:41:28<10:30:32,  7.13s/it] 45%|████▌     | 4374/9678 [9:41:37<11:11:59,  7.60s/it] 45%|████▌     | 4375/9678 [9:41:45<11:30:39,  7.81s/it] 45%|████▌     | 4376/9678 [9:41:53<11:35:30,  7.87s/it] 45%|████▌     | 4377/9678 [9:41:59<11:02:18,  7.50s/it] 45%|████▌     | 4378/9678 [9:42:07<10:54:08,  7.41s/it] 45%|████▌     | 4379/9678 [9:42:14<10:51:44,  7.38s/it] 45%|████▌     | 4380/9678 [9:42:21<10:41:42,  7.27s/it]                                                        {'loss': 1.0246, 'grad_norm': 1.2322771549224854, 'learning_rate': 0.0002914103441458775, 'epoch': 0.45}
+ 45%|████▌     | 4380/9678 [9:42:21<10:41:42,  7.27s/it] 45%|████▌     | 4381/9678 [9:42:29<11:14:01,  7.63s/it] 45%|████▌     | 4382/9678 [9:42:37<11:01:56,  7.50s/it] 45%|████▌     | 4383/9678 [9:42:43<10:34:18,  7.19s/it] 45%|████▌     | 4384/9678 [9:42:52<11:07:19,  7.56s/it] 45%|████▌     | 4385/9678 [9:42:58<10:37:34,  7.23s/it] 45%|████▌     | 4386/9678 [9:43:06<10:49:39,  7.37s/it] 45%|████▌     | 4387/9678 [9:43:14<11:15:09,  7.66s/it] 45%|████▌     | 4388/9678 [9:43:23<11:54:28,  8.10s/it] 45%|████▌     | 4389/9678 [9:43:32<12:06:20,  8.24s/it] 45%|████▌     | 4390/9678 [9:43:39<11:34:27,  7.88s/it]                                                        {'loss': 0.9645, 'grad_norm': 1.2167178392410278, 'learning_rate': 0.0002906017013981609, 'epoch': 0.45}
+ 45%|████▌     | 4390/9678 [9:43:39<11:34:27,  7.88s/it] 45%|████▌     | 4391/9678 [9:43:47<11:34:43,  7.88s/it] 45%|████▌     | 4392/9678 [9:43:56<12:04:46,  8.23s/it] 45%|████▌     | 4393/9678 [9:44:02<11:09:58,  7.61s/it] 45%|████▌     | 4394/9678 [9:44:09<11:10:10,  7.61s/it] 45%|████▌     | 4395/9678 [9:44:18<11:31:33,  7.85s/it] 45%|████▌     | 4396/9678 [9:44:25<11:23:18,  7.76s/it] 45%|████▌     | 4397/9678 [9:44:34<11:38:26,  7.94s/it] 45%|████▌     | 4398/9678 [9:44:43<12:17:21,  8.38s/it] 45%|████▌     | 4399/9678 [9:44:51<11:52:27,  8.10s/it] 45%|████▌     | 4400/9678 [9:45:01<12:47:49,  8.73s/it]                                                        {'loss': 0.9242, 'grad_norm': 1.0350911617279053, 'learning_rate': 0.0002897926221125906, 'epoch': 0.45}
+ 45%|████▌     | 4400/9678 [9:45:01<12:47:49,  8.73s/it] 45%|████▌     | 4401/9678 [9:45:09<12:38:55,  8.63s/it] 45%|████▌     | 4402/9678 [9:45:16<11:56:27,  8.15s/it] 45%|████▌     | 4403/9678 [9:45:25<12:10:02,  8.30s/it] 46%|████▌     | 4404/9678 [9:45:33<11:59:50,  8.19s/it] 46%|████▌     | 4405/9678 [9:45:39<11:04:05,  7.56s/it] 46%|████▌     | 4406/9678 [9:45:47<11:24:35,  7.79s/it] 46%|████▌     | 4407/9678 [9:45:55<11:21:09,  7.75s/it] 46%|████▌     | 4408/9678 [9:46:03<11:27:07,  7.82s/it] 46%|████▌     | 4409/9678 [9:46:11<11:44:26,  8.02s/it] 46%|████▌     | 4410/9678 [9:46:19<11:45:27,  8.03s/it]                                                        {'loss': 0.945, 'grad_norm': 1.1375268697738647, 'learning_rate': 0.0002889831149881551, 'epoch': 0.46}
+ 46%|████▌     | 4410/9678 [9:46:19<11:45:27,  8.03s/it] 46%|████▌     | 4411/9678 [9:46:27<11:30:44,  7.87s/it] 46%|████▌     | 4412/9678 [9:46:34<11:16:18,  7.71s/it] 46%|████▌     | 4413/9678 [9:46:43<11:46:47,  8.05s/it] 46%|████▌     | 4414/9678 [9:46:52<12:11:10,  8.33s/it] 46%|████▌     | 4415/9678 [9:47:00<11:59:51,  8.21s/it] 46%|████▌     | 4416/9678 [9:47:08<11:45:13,  8.04s/it] 46%|████▌     | 4417/9678 [9:47:14<10:53:16,  7.45s/it] 46%|████▌     | 4418/9678 [9:47:21<10:34:18,  7.24s/it] 46%|████▌     | 4419/9678 [9:47:30<11:32:42,  7.90s/it] 46%|████▌     | 4420/9678 [9:47:39<12:00:41,  8.22s/it]                                                        {'loss': 1.0773, 'grad_norm': 1.209620475769043, 'learning_rate': 0.0002881731887284429, 'epoch': 0.46}
+ 46%|████▌     | 4420/9678 [9:47:39<12:00:41,  8.22s/it] 46%|████▌     | 4421/9678 [9:47:46<11:34:22,  7.93s/it] 46%|████▌     | 4422/9678 [9:47:53<11:12:44,  7.68s/it] 46%|████▌     | 4423/9678 [9:48:01<11:04:44,  7.59s/it] 46%|████▌     | 4424/9678 [9:48:08<10:45:20,  7.37s/it] 46%|████▌     | 4425/9678 [9:48:16<11:12:15,  7.68s/it] 46%|████▌     | 4426/9678 [9:48:26<12:16:50,  8.42s/it] 46%|████▌     | 4427/9678 [9:48:34<11:52:43,  8.14s/it] 46%|████▌     | 4428/9678 [9:48:43<12:24:32,  8.51s/it] 46%|████▌     | 4429/9678 [9:48:50<11:37:29,  7.97s/it] 46%|████▌     | 4430/9678 [9:48:57<11:28:24,  7.87s/it]                                                        {'loss': 0.8517, 'grad_norm': 1.2932454347610474, 'learning_rate': 0.0002873628520415491, 'epoch': 0.46}
+ 46%|████▌     | 4430/9678 [9:48:57<11:28:24,  7.87s/it] 46%|████▌     | 4431/9678 [9:49:06<11:47:13,  8.09s/it] 46%|████▌     | 4432/9678 [9:49:13<11:13:09,  7.70s/it] 46%|████▌     | 4433/9678 [9:49:21<11:19:04,  7.77s/it] 46%|████▌     | 4434/9678 [9:49:29<11:27:52,  7.87s/it] 46%|████▌     | 4435/9678 [9:49:37<11:45:39,  8.08s/it] 46%|████▌     | 4436/9678 [9:49:44<11:22:20,  7.81s/it] 46%|████▌     | 4437/9678 [9:49:51<11:01:48,  7.58s/it] 46%|████▌     | 4438/9678 [9:50:00<11:25:50,  7.85s/it] 46%|████▌     | 4439/9678 [9:50:09<12:06:04,  8.32s/it] 46%|████▌     | 4440/9678 [9:50:18<12:16:49,  8.44s/it]                                                        {'loss': 0.8911, 'grad_norm': 1.0030730962753296, 'learning_rate': 0.0002865521136399814, 'epoch': 0.46}
+ 46%|████▌     | 4440/9678 [9:50:18<12:16:49,  8.44s/it] 46%|████▌     | 4441/9678 [9:50:25<11:31:22,  7.92s/it] 46%|████▌     | 4442/9678 [9:50:34<12:06:55,  8.33s/it] 46%|████▌     | 4443/9678 [9:50:41<11:30:52,  7.92s/it] 46%|████▌     | 4444/9678 [9:50:49<11:32:33,  7.94s/it] 46%|████▌     | 4445/9678 [9:50:57<11:35:18,  7.97s/it] 46%|████▌     | 4446/9678 [9:51:06<11:51:17,  8.16s/it] 46%|████▌     | 4447/9678 [9:51:13<11:25:12,  7.86s/it] 46%|████▌     | 4448/9678 [9:51:20<11:17:11,  7.77s/it] 46%|████▌     | 4449/9678 [9:51:27<10:50:46,  7.47s/it] 46%|████▌     | 4450/9678 [9:51:35<10:59:57,  7.57s/it]                                                        {'loss': 0.9505, 'grad_norm': 0.9559937119483948, 'learning_rate': 0.0002857409822405666, 'epoch': 0.46}
+ 46%|████▌     | 4450/9678 [9:51:35<10:59:57,  7.57s/it] 46%|████▌     | 4451/9678 [9:51:43<10:58:41,  7.56s/it] 46%|████▌     | 4452/9678 [9:51:49<10:38:05,  7.33s/it] 46%|████▌     | 4453/9678 [9:51:57<10:53:25,  7.50s/it] 46%|████▌     | 4454/9678 [9:52:04<10:26:46,  7.20s/it] 46%|████▌     | 4455/9678 [9:52:12<10:46:49,  7.43s/it] 46%|████▌     | 4456/9678 [9:52:21<11:24:57,  7.87s/it] 46%|████▌     | 4457/9678 [9:52:27<10:45:03,  7.41s/it] 46%|████▌     | 4458/9678 [9:52:36<11:30:29,  7.94s/it] 46%|████▌     | 4459/9678 [9:52:44<11:18:27,  7.80s/it] 46%|████▌     | 4460/9678 [9:52:51<11:08:16,  7.68s/it]                                                        {'loss': 1.0858, 'grad_norm': 0.934845507144928, 'learning_rate': 0.00028492946656435704, 'epoch': 0.46}
+ 46%|████▌     | 4460/9678 [9:52:51<11:08:16,  7.68s/it] 46%|████▌     | 4461/9678 [9:52:58<10:58:37,  7.57s/it] 46%|████▌     | 4462/9678 [9:53:07<11:15:49,  7.77s/it] 46%|████▌     | 4463/9678 [9:53:14<11:07:42,  7.68s/it] 46%|████▌     | 4464/9678 [9:53:20<10:36:43,  7.33s/it] 46%|████▌     | 4465/9678 [9:53:29<11:00:17,  7.60s/it] 46%|████▌     | 4466/9678 [9:53:38<11:32:26,  7.97s/it] 46%|████▌     | 4467/9678 [9:53:47<12:19:41,  8.52s/it] 46%|████▌     | 4468/9678 [9:53:53<11:04:28,  7.65s/it] 46%|████▌     | 4469/9678 [9:54:03<11:56:16,  8.25s/it] 46%|████▌     | 4470/9678 [9:54:11<11:48:40,  8.16s/it]                                                        {'loss': 0.9919, 'grad_norm': 1.2203209400177002, 'learning_rate': 0.00028411757533653657, 'epoch': 0.46}
+ 46%|████▌     | 4470/9678 [9:54:11<11:48:40,  8.16s/it] 46%|████▌     | 4471/9678 [9:54:18<11:25:17,  7.90s/it] 46%|████▌     | 4472/9678 [9:54:25<10:52:51,  7.52s/it] 46%|████▌     | 4473/9678 [9:54:32<10:53:03,  7.53s/it] 46%|████▌     | 4474/9678 [9:54:39<10:41:52,  7.40s/it] 46%|████▌     | 4475/9678 [9:54:46<10:28:05,  7.24s/it] 46%|████▌     | 4476/9678 [9:54:53<10:20:18,  7.15s/it] 46%|████▋     | 4477/9678 [9:55:00<10:23:03,  7.19s/it] 46%|████▋     | 4478/9678 [9:55:10<11:19:05,  7.84s/it] 46%|████▋     | 4479/9678 [9:55:19<11:48:21,  8.17s/it] 46%|████▋     | 4480/9678 [9:55:26<11:35:03,  8.02s/it]                                                        {'loss': 0.9198, 'grad_norm': 1.3204402923583984, 'learning_rate': 0.000283305317286327, 'epoch': 0.46}
+ 46%|████▋     | 4480/9678 [9:55:26<11:35:03,  8.02s/it] 46%|████▋     | 4481/9678 [9:55:33<11:09:07,  7.73s/it] 46%|████▋     | 4482/9678 [9:55:41<11:22:10,  7.88s/it] 46%|████▋     | 4483/9678 [9:55:48<10:45:00,  7.45s/it] 46%|████▋     | 4484/9678 [9:55:55<10:35:56,  7.35s/it] 46%|████▋     | 4485/9678 [9:56:04<11:05:20,  7.69s/it] 46%|████▋     | 4486/9678 [9:56:11<11:01:04,  7.64s/it] 46%|████▋     | 4487/9678 [9:56:18<10:47:20,  7.48s/it] 46%|████▋     | 4488/9678 [9:56:26<10:55:23,  7.58s/it] 46%|████▋     | 4489/9678 [9:56:34<11:10:29,  7.75s/it] 46%|████▋     | 4490/9678 [9:56:41<10:36:53,  7.37s/it]                                                        {'loss': 1.0825, 'grad_norm': 0.7426913380622864, 'learning_rate': 0.0002824927011468939, 'epoch': 0.46}
+ 46%|████▋     | 4490/9678 [9:56:41<10:36:53,  7.37s/it] 46%|████▋     | 4491/9678 [9:56:50<11:26:44,  7.94s/it] 46%|████▋     | 4492/9678 [9:56:56<10:40:28,  7.41s/it] 46%|████▋     | 4493/9678 [9:57:04<10:55:27,  7.58s/it] 46%|████▋     | 4494/9678 [9:57:13<11:21:29,  7.89s/it] 46%|████▋     | 4495/9678 [9:57:20<11:14:08,  7.80s/it] 46%|████▋     | 4496/9678 [9:57:30<11:53:10,  8.26s/it] 46%|████▋     | 4497/9678 [9:57:37<11:22:55,  7.91s/it] 46%|████▋     | 4498/9678 [9:57:43<10:48:36,  7.51s/it] 46%|████▋     | 4499/9678 [9:57:51<10:49:40,  7.53s/it] 46%|████▋     | 4500/9678 [9:58:00<11:36:55,  8.08s/it]                                                        {'loss': 0.9528, 'grad_norm': 0.8991280198097229, 'learning_rate': 0.00028167973565525325, 'epoch': 0.46}
+ 46%|████▋     | 4500/9678 [9:58:00<11:36:55,  8.08s/it] 47%|████▋     | 4501/9678 [9:58:09<11:48:12,  8.21s/it] 47%|████▋     | 4502/9678 [9:58:17<11:39:26,  8.11s/it] 47%|████▋     | 4503/9678 [9:58:24<11:15:18,  7.83s/it] 47%|████▋     | 4504/9678 [9:58:31<10:50:52,  7.55s/it] 47%|████▋     | 4505/9678 [9:58:39<11:05:28,  7.72s/it] 47%|████▋     | 4506/9678 [9:58:45<10:30:36,  7.32s/it] 47%|████▋     | 4507/9678 [9:58:53<10:35:32,  7.37s/it] 47%|████▋     | 4508/9678 [9:59:00<10:42:49,  7.46s/it] 47%|████▋     | 4509/9678 [9:59:10<11:52:38,  8.27s/it] 47%|████▋     | 4510/9678 [9:59:19<11:58:36,  8.34s/it]                                                        {'loss': 0.8118, 'grad_norm': 0.697215735912323, 'learning_rate': 0.00028086642955217666, 'epoch': 0.47}
+ 47%|████▋     | 4510/9678 [9:59:19<11:58:36,  8.34s/it] 47%|████▋     | 4511/9678 [9:59:25<11:05:01,  7.72s/it] 47%|████▋     | 4512/9678 [9:59:32<10:52:24,  7.58s/it] 47%|████▋     | 4513/9678 [9:59:40<10:55:55,  7.62s/it] 47%|████▋     | 4514/9678 [9:59:48<10:55:52,  7.62s/it] 47%|████▋     | 4515/9678 [9:59:53<9:58:32,  6.96s/it]  47%|████▋     | 4516/9678 [10:00:00<10:06:26,  7.05s/it] 47%|████▋     | 4517/9678 [10:00:08<10:09:16,  7.08s/it] 47%|████▋     | 4518/9678 [10:00:15<10:26:50,  7.29s/it] 47%|████▋     | 4519/9678 [10:00:22<10:05:34,  7.04s/it] 47%|████▋     | 4520/9678 [10:00:29<10:05:55,  7.05s/it]                                                         {'loss': 0.8903, 'grad_norm': 1.4364171028137207, 'learning_rate': 0.0002800527915820984, 'epoch': 0.47}
+ 47%|████▋     | 4520/9678 [10:00:29<10:05:55,  7.05s/it] 47%|████▋     | 4521/9678 [10:00:38<10:57:33,  7.65s/it] 47%|████▋     | 4522/9678 [10:00:46<10:55:29,  7.63s/it] 47%|████▋     | 4523/9678 [10:00:55<11:32:22,  8.06s/it] 47%|████▋     | 4524/9678 [10:01:03<11:35:36,  8.10s/it] 47%|████▋     | 4525/9678 [10:01:10<11:13:49,  7.85s/it] 47%|████▋     | 4526/9678 [10:01:18<11:23:22,  7.96s/it] 47%|████▋     | 4527/9678 [10:01:26<11:20:23,  7.93s/it] 47%|████▋     | 4528/9678 [10:01:35<11:41:15,  8.17s/it] 47%|████▋     | 4529/9678 [10:01:44<12:11:22,  8.52s/it] 47%|████▋     | 4530/9678 [10:01:51<11:36:42,  8.12s/it]                                                         {'loss': 0.9083, 'grad_norm': 0.9677620530128479, 'learning_rate': 0.00027923883049302067, 'epoch': 0.47}
+ 47%|████▋     | 4530/9678 [10:01:51<11:36:42,  8.12s/it] 47%|████▋     | 4531/9678 [10:01:58<11:02:37,  7.72s/it] 47%|████▋     | 4532/9678 [10:02:04<10:20:10,  7.23s/it] 47%|████▋     | 4533/9678 [10:02:13<11:04:25,  7.75s/it] 47%|████▋     | 4534/9678 [10:02:23<12:02:44,  8.43s/it] 47%|████▋     | 4535/9678 [10:02:33<12:32:03,  8.77s/it] 47%|████▋     | 4536/9678 [10:02:41<12:14:39,  8.57s/it] 47%|████▋     | 4537/9678 [10:02:48<11:30:17,  8.06s/it] 47%|████▋     | 4538/9678 [10:02:55<11:04:48,  7.76s/it] 47%|████▋     | 4539/9678 [10:03:02<10:51:18,  7.60s/it] 47%|████▋     | 4540/9678 [10:03:09<10:22:53,  7.27s/it]                                                         {'loss': 0.8643, 'grad_norm': 1.240580439567566, 'learning_rate': 0.00027842455503641965, 'epoch': 0.47}
+ 47%|████▋     | 4540/9678 [10:03:09<10:22:53,  7.27s/it] 47%|████▋     | 4541/9678 [10:03:14<9:40:00,  6.77s/it]  47%|████▋     | 4542/9678 [10:03:22<9:57:17,  6.98s/it] 47%|████▋     | 4543/9678 [10:03:29<10:12:08,  7.15s/it] 47%|████▋     | 4544/9678 [10:03:39<11:14:36,  7.88s/it] 47%|████▋     | 4545/9678 [10:03:45<10:21:22,  7.26s/it] 47%|████▋     | 4546/9678 [10:03:51<9:49:05,  6.89s/it]  47%|████▋     | 4547/9678 [10:04:00<10:47:36,  7.57s/it] 47%|████▋     | 4548/9678 [10:04:08<10:51:33,  7.62s/it] 47%|████▋     | 4549/9678 [10:04:16<11:19:05,  7.94s/it] 47%|████▋     | 4550/9678 [10:04:23<10:42:37,  7.52s/it]                                                         {'loss': 1.0802, 'grad_norm': 1.102919101715088, 'learning_rate': 0.00027760997396715167, 'epoch': 0.47}
+ 47%|████▋     | 4550/9678 [10:04:23<10:42:37,  7.52s/it] 47%|████▋     | 4551/9678 [10:04:31<10:47:12,  7.57s/it] 47%|████▋     | 4552/9678 [10:04:39<11:15:48,  7.91s/it] 47%|████▋     | 4553/9678 [10:04:46<10:59:22,  7.72s/it] 47%|████▋     | 4554/9678 [10:04:55<11:14:04,  7.89s/it] 47%|████▋     | 4555/9678 [10:05:03<11:25:00,  8.02s/it] 47%|████▋     | 4556/9678 [10:05:10<10:52:01,  7.64s/it] 47%|████▋     | 4557/9678 [10:05:19<11:29:39,  8.08s/it] 47%|████▋     | 4558/9678 [10:05:24<10:19:37,  7.26s/it] 47%|████▋     | 4559/9678 [10:05:32<10:35:01,  7.44s/it] 47%|████▋     | 4560/9678 [10:05:39<10:31:56,  7.41s/it]                                                         {'loss': 0.8717, 'grad_norm': 0.921911895275116, 'learning_rate': 0.0002767950960433588, 'epoch': 0.47}
+ 47%|████▋     | 4560/9678 [10:05:40<10:31:56,  7.41s/it] 47%|████▋     | 4561/9678 [10:05:48<11:02:55,  7.77s/it] 47%|████▋     | 4562/9678 [10:05:56<11:10:08,  7.86s/it] 47%|████▋     | 4563/9678 [10:06:04<11:00:13,  7.74s/it] 47%|████▋     | 4564/9678 [10:06:11<10:52:46,  7.66s/it] 47%|████▋     | 4565/9678 [10:06:21<11:51:08,  8.35s/it] 47%|████▋     | 4566/9678 [10:06:28<11:24:26,  8.03s/it] 47%|████▋     | 4567/9678 [10:06:38<12:12:51,  8.60s/it] 47%|████▋     | 4568/9678 [10:06:45<11:25:31,  8.05s/it] 47%|████▋     | 4569/9678 [10:06:54<11:45:38,  8.29s/it] 47%|████▋     | 4570/9678 [10:07:01<11:10:45,  7.88s/it]                                                         {'loss': 0.9584, 'grad_norm': 1.3429372310638428, 'learning_rate': 0.000275979930026375, 'epoch': 0.47}
+ 47%|████▋     | 4570/9678 [10:07:01<11:10:45,  7.88s/it] 47%|████▋     | 4571/9678 [10:07:09<11:27:41,  8.08s/it] 47%|████▋     | 4572/9678 [10:07:16<10:55:55,  7.71s/it] 47%|████▋     | 4573/9678 [10:07:26<11:58:17,  8.44s/it] 47%|████▋     | 4574/9678 [10:07:34<11:27:23,  8.08s/it] 47%|████▋     | 4575/9678 [10:07:41<11:20:46,  8.00s/it] 47%|████▋     | 4576/9678 [10:07:48<10:50:45,  7.65s/it] 47%|████▋     | 4577/9678 [10:07:57<11:18:38,  7.98s/it] 47%|████▋     | 4578/9678 [10:08:05<11:28:32,  8.10s/it] 47%|████▋     | 4579/9678 [10:08:13<11:16:08,  7.96s/it] 47%|████▋     | 4580/9678 [10:08:20<11:02:46,  7.80s/it]                                                         {'loss': 0.7652, 'grad_norm': 1.0819973945617676, 'learning_rate': 0.0002751644846806315, 'epoch': 0.47}
+ 47%|████▋     | 4580/9678 [10:08:20<11:02:46,  7.80s/it] 47%|████▋     | 4581/9678 [10:08:27<10:37:18,  7.50s/it] 47%|████▋     | 4582/9678 [10:08:37<11:26:42,  8.09s/it] 47%|████▋     | 4583/9678 [10:08:44<10:58:44,  7.76s/it] 47%|████▋     | 4584/9678 [10:08:52<11:02:27,  7.80s/it] 47%|████▋     | 4585/9678 [10:08:59<10:50:59,  7.67s/it] 47%|████▋     | 4586/9678 [10:09:07<10:51:11,  7.67s/it] 47%|████▋     | 4587/9678 [10:09:14<10:51:22,  7.68s/it] 47%|████▋     | 4588/9678 [10:09:22<10:51:37,  7.68s/it] 47%|████▋     | 4589/9678 [10:09:31<11:18:25,  8.00s/it] 47%|████▋     | 4590/9678 [10:09:37<10:35:15,  7.49s/it]                                                         {'loss': 0.8873, 'grad_norm': 0.9730139970779419, 'learning_rate': 0.00027434876877356287, 'epoch': 0.47}
+ 47%|████▋     | 4590/9678 [10:09:37<10:35:15,  7.49s/it] 47%|████▋     | 4591/9678 [10:09:44<10:17:32,  7.28s/it] 47%|████▋     | 4592/9678 [10:09:51<10:25:44,  7.38s/it] 47%|████▋     | 4593/9678 [10:10:00<10:42:30,  7.58s/it] 47%|████▋     | 4594/9678 [10:10:06<10:13:45,  7.24s/it] 47%|████▋     | 4595/9678 [10:10:12<9:52:23,  6.99s/it]  47%|████▋     | 4596/9678 [10:10:21<10:21:00,  7.33s/it] 47%|████▋     | 4597/9678 [10:10:28<10:34:46,  7.50s/it] 48%|████▊     | 4598/9678 [10:10:38<11:17:01,  8.00s/it] 48%|████▊     | 4599/9678 [10:10:44<10:46:12,  7.63s/it] 48%|████▊     | 4600/9678 [10:10:52<10:49:27,  7.67s/it]                                                         {'loss': 0.9581, 'grad_norm': 0.9837844371795654, 'learning_rate': 0.00027353279107551276, 'epoch': 0.48}
+ 48%|████▊     | 4600/9678 [10:10:52<10:49:27,  7.67s/it] 48%|████▊     | 4601/9678 [10:11:00<10:46:30,  7.64s/it] 48%|████▊     | 4602/9678 [10:11:10<11:44:41,  8.33s/it] 48%|████▊     | 4603/9678 [10:11:20<12:46:32,  9.06s/it] 48%|████▊     | 4604/9678 [10:11:30<13:01:24,  9.24s/it] 48%|████▊     | 4605/9678 [10:11:36<11:26:29,  8.12s/it] 48%|████▊     | 4606/9678 [10:11:45<12:01:56,  8.54s/it] 48%|████▊     | 4607/9678 [10:11:52<11:21:08,  8.06s/it] 48%|████▊     | 4608/9678 [10:11:59<10:43:51,  7.62s/it] 48%|████▊     | 4609/9678 [10:12:08<11:18:50,  8.04s/it] 48%|████▊     | 4610/9678 [10:12:15<10:53:57,  7.74s/it]                                                         {'loss': 0.9409, 'grad_norm': 1.1134988069534302, 'learning_rate': 0.0002727165603596394, 'epoch': 0.48}
+ 48%|████▊     | 4610/9678 [10:12:15<10:53:57,  7.74s/it] 48%|████▊     | 4611/9678 [10:12:23<11:00:05,  7.82s/it] 48%|████▊     | 4612/9678 [10:12:30<10:46:30,  7.66s/it] 48%|████▊     | 4613/9678 [10:12:37<10:43:04,  7.62s/it] 48%|████▊     | 4614/9678 [10:12:46<11:02:08,  7.85s/it] 48%|████▊     | 4615/9678 [10:12:55<11:43:09,  8.33s/it] 48%|████▊     | 4616/9678 [10:13:03<11:31:27,  8.20s/it] 48%|████▊     | 4617/9678 [10:13:09<10:37:50,  7.56s/it] 48%|████▊     | 4618/9678 [10:13:18<11:10:09,  7.95s/it] 48%|████▊     | 4619/9678 [10:13:26<11:04:48,  7.88s/it] 48%|████▊     | 4620/9678 [10:13:34<11:01:15,  7.84s/it]                                                         {'loss': 0.9099, 'grad_norm': 0.7778913378715515, 'learning_rate': 0.00027190008540182135, 'epoch': 0.48}
+ 48%|████▊     | 4620/9678 [10:13:34<11:01:15,  7.84s/it] 48%|████▊     | 4621/9678 [10:13:42<11:09:02,  7.94s/it] 48%|████▊     | 4622/9678 [10:13:49<10:57:31,  7.80s/it] 48%|████▊     | 4623/9678 [10:13:56<10:27:52,  7.45s/it] 48%|████▊     | 4624/9678 [10:14:03<10:23:39,  7.40s/it] 48%|████▊     | 4625/9678 [10:14:10<10:16:34,  7.32s/it] 48%|████▊     | 4626/9678 [10:14:19<10:53:50,  7.77s/it] 48%|████▊     | 4627/9678 [10:14:29<11:41:10,  8.33s/it] 48%|████▊     | 4628/9678 [10:14:36<11:09:30,  7.95s/it] 48%|████▊     | 4629/9678 [10:14:46<12:12:36,  8.71s/it] 48%|████▊     | 4630/9678 [10:14:54<11:35:50,  8.27s/it]                                                         {'loss': 0.8565, 'grad_norm': 1.166568636894226, 'learning_rate': 0.00027108337498056356, 'epoch': 0.48}
+ 48%|████▊     | 4630/9678 [10:14:54<11:35:50,  8.27s/it] 48%|████▊     | 4631/9678 [10:15:02<11:33:00,  8.24s/it] 48%|████▊     | 4632/9678 [10:15:09<11:13:51,  8.01s/it] 48%|████▊     | 4633/9678 [10:15:16<10:43:43,  7.66s/it] 48%|████▊     | 4634/9678 [10:15:23<10:32:21,  7.52s/it] 48%|████▊     | 4635/9678 [10:15:32<11:16:25,  8.05s/it] 48%|████▊     | 4636/9678 [10:15:39<10:46:20,  7.69s/it] 48%|████▊     | 4637/9678 [10:15:49<11:23:46,  8.14s/it] 48%|████▊     | 4638/9678 [10:15:57<11:34:48,  8.27s/it] 48%|████▊     | 4639/9678 [10:16:07<12:04:16,  8.62s/it] 48%|████▊     | 4640/9678 [10:16:14<11:36:50,  8.30s/it]                                                         {'loss': 0.8251, 'grad_norm': 0.7446126341819763, 'learning_rate': 0.0002702664378769021, 'epoch': 0.48}
+ 48%|████▊     | 4640/9678 [10:16:14<11:36:50,  8.30s/it] 48%|████▊     | 4641/9678 [10:16:22<11:20:43,  8.11s/it] 48%|████▊     | 4642/9678 [10:16:29<11:00:17,  7.87s/it] 48%|████▊     | 4643/9678 [10:16:36<10:31:10,  7.52s/it] 48%|████▊     | 4644/9678 [10:16:43<10:21:14,  7.40s/it] 48%|████▊     | 4645/9678 [10:16:50<10:11:56,  7.30s/it] 48%|████▊     | 4646/9678 [10:16:58<10:21:48,  7.41s/it] 48%|████▊     | 4647/9678 [10:17:06<10:46:38,  7.71s/it] 48%|████▊     | 4648/9678 [10:17:15<11:04:52,  7.93s/it] 48%|████▊     | 4649/9678 [10:17:22<10:51:55,  7.78s/it] 48%|████▊     | 4650/9678 [10:17:29<10:32:46,  7.55s/it]                                                         {'loss': 0.9475, 'grad_norm': 1.5371274948120117, 'learning_rate': 0.0002694492828743106, 'epoch': 0.48}
+ 48%|████▊     | 4650/9678 [10:17:29<10:32:46,  7.55s/it] 48%|████▊     | 4651/9678 [10:17:37<10:49:39,  7.75s/it] 48%|████▊     | 4652/9678 [10:17:45<11:03:24,  7.92s/it] 48%|████▊     | 4653/9678 [10:17:55<11:39:42,  8.35s/it] 48%|████▊     | 4654/9678 [10:18:02<11:04:24,  7.93s/it] 48%|████▊     | 4655/9678 [10:18:09<10:56:24,  7.84s/it] 48%|████▊     | 4656/9678 [10:18:18<11:08:12,  7.98s/it] 48%|████▊     | 4657/9678 [10:18:25<10:47:24,  7.74s/it] 48%|████▊     | 4658/9678 [10:18:33<11:00:52,  7.90s/it] 48%|████▊     | 4659/9678 [10:18:41<10:54:13,  7.82s/it] 48%|████▊     | 4660/9678 [10:18:47<10:10:09,  7.30s/it]                                                         {'loss': 0.8798, 'grad_norm': 0.7517269253730774, 'learning_rate': 0.0002686319187586054, 'epoch': 0.48}
+ 48%|████▊     | 4660/9678 [10:18:47<10:10:09,  7.30s/it] 48%|████▊     | 4661/9678 [10:18:55<10:42:22,  7.68s/it] 48%|████▊     | 4662/9678 [10:19:02<10:19:43,  7.41s/it] 48%|████▊     | 4663/9678 [10:19:09<10:13:13,  7.34s/it] 48%|████▊     | 4664/9678 [10:19:17<10:21:05,  7.43s/it] 48%|████▊     | 4665/9678 [10:19:26<10:52:36,  7.81s/it] 48%|████▊     | 4666/9678 [10:19:33<10:44:01,  7.71s/it] 48%|████▊     | 4667/9678 [10:19:42<11:21:54,  8.16s/it] 48%|████▊     | 4668/9678 [10:19:50<11:02:29,  7.93s/it] 48%|████▊     | 4669/9678 [10:19:56<10:17:55,  7.40s/it] 48%|████▊     | 4670/9678 [10:20:04<10:36:54,  7.63s/it]                                                         {'loss': 1.0462, 'grad_norm': 1.4352338314056396, 'learning_rate': 0.00026781435431785116, 'epoch': 0.48}
+ 48%|████▊     | 4670/9678 [10:20:04<10:36:54,  7.63s/it] 48%|████▊     | 4671/9678 [10:20:12<10:36:48,  7.63s/it] 48%|████▊     | 4672/9678 [10:20:18<10:07:59,  7.29s/it] 48%|████▊     | 4673/9678 [10:20:26<10:05:53,  7.26s/it] 48%|████▊     | 4674/9678 [10:20:34<10:36:28,  7.63s/it] 48%|████▊     | 4675/9678 [10:20:41<10:16:49,  7.40s/it] 48%|████▊     | 4676/9678 [10:20:49<10:31:05,  7.57s/it] 48%|████▊     | 4677/9678 [10:20:55<9:46:01,  7.03s/it]  48%|████▊     | 4678/9678 [10:21:00<9:07:39,  6.57s/it] 48%|████▊     | 4679/9678 [10:21:07<9:24:31,  6.78s/it] 48%|████▊     | 4680/9678 [10:21:15<9:48:14,  7.06s/it]                                                        {'loss': 0.9107, 'grad_norm': 1.1265496015548706, 'learning_rate': 0.0002669965983422663, 'epoch': 0.48}
+ 48%|████▊     | 4680/9678 [10:21:15<9:48:14,  7.06s/it] 48%|████▊     | 4681/9678 [10:21:24<10:33:04,  7.60s/it] 48%|████▊     | 4682/9678 [10:21:31<10:12:16,  7.35s/it] 48%|████▊     | 4683/9678 [10:21:40<10:51:30,  7.83s/it] 48%|████▊     | 4684/9678 [10:21:45<9:50:08,  7.09s/it]  48%|████▊     | 4685/9678 [10:21:51<9:34:03,  6.90s/it] 48%|████▊     | 4686/9678 [10:21:59<9:58:47,  7.20s/it] 48%|████▊     | 4687/9678 [10:22:06<9:48:56,  7.08s/it] 48%|████▊     | 4688/9678 [10:22:14<10:09:39,  7.33s/it] 48%|████▊     | 4689/9678 [10:22:21<10:08:19,  7.32s/it] 48%|████▊     | 4690/9678 [10:22:29<10:09:29,  7.33s/it]                                                         {'loss': 0.8822, 'grad_norm': 0.8634279370307922, 'learning_rate': 0.00026617865962412865, 'epoch': 0.48}
+ 48%|████▊     | 4690/9678 [10:22:29<10:09:29,  7.33s/it] 48%|████▊     | 4691/9678 [10:22:37<10:29:22,  7.57s/it] 48%|████▊     | 4692/9678 [10:22:43<9:54:01,  7.15s/it]  48%|████▊     | 4693/9678 [10:22:53<10:55:12,  7.89s/it] 49%|████▊     | 4694/9678 [10:23:01<11:16:34,  8.14s/it] 49%|████▊     | 4695/9678 [10:23:10<11:32:16,  8.34s/it] 49%|████▊     | 4696/9678 [10:23:18<11:29:19,  8.30s/it] 49%|████▊     | 4697/9678 [10:23:26<11:03:18,  7.99s/it] 49%|████▊     | 4698/9678 [10:23:33<10:41:21,  7.73s/it] 49%|████▊     | 4699/9678 [10:23:41<10:52:56,  7.87s/it] 49%|████▊     | 4700/9678 [10:23:51<11:42:31,  8.47s/it]                                                         {'loss': 0.8842, 'grad_norm': 1.0112096071243286, 'learning_rate': 0.0002653605469576809, 'epoch': 0.49}
+ 49%|████▊     | 4700/9678 [10:23:51<11:42:31,  8.47s/it] 49%|████▊     | 4701/9678 [10:23:59<11:41:25,  8.46s/it] 49%|████▊     | 4702/9678 [10:24:07<11:30:38,  8.33s/it] 49%|████▊     | 4703/9678 [10:24:14<10:59:27,  7.95s/it] 49%|████▊     | 4704/9678 [10:24:22<10:46:44,  7.80s/it] 49%|████▊     | 4705/9678 [10:24:29<10:21:35,  7.50s/it] 49%|████▊     | 4706/9678 [10:24:37<10:49:08,  7.83s/it] 49%|████▊     | 4707/9678 [10:24:45<10:51:24,  7.86s/it] 49%|████▊     | 4708/9678 [10:24:54<11:14:57,  8.15s/it] 49%|████▊     | 4709/9678 [10:25:03<11:46:07,  8.53s/it] 49%|████▊     | 4710/9678 [10:25:14<12:27:46,  9.03s/it]                                                         {'loss': 0.908, 'grad_norm': 0.8251860737800598, 'learning_rate': 0.0002645422691390358, 'epoch': 0.49}
+ 49%|████▊     | 4710/9678 [10:25:14<12:27:46,  9.03s/it] 49%|████▊     | 4711/9678 [10:25:22<12:17:14,  8.91s/it] 49%|████▊     | 4712/9678 [10:25:30<11:47:34,  8.55s/it] 49%|████▊     | 4713/9678 [10:25:38<11:26:39,  8.30s/it] 49%|████▊     | 4714/9678 [10:25:46<11:16:53,  8.18s/it] 49%|████▊     | 4715/9678 [10:25:54<11:28:50,  8.33s/it] 49%|████▊     | 4716/9678 [10:26:02<11:19:43,  8.22s/it] 49%|████▊     | 4717/9678 [10:26:10<11:13:39,  8.15s/it] 49%|████▊     | 4718/9678 [10:26:20<11:56:50,  8.67s/it] 49%|████▉     | 4719/9678 [10:26:27<11:15:56,  8.18s/it] 49%|████▉     | 4720/9678 [10:26:36<11:25:38,  8.30s/it]                                                         {'loss': 0.8912, 'grad_norm': 0.7483717203140259, 'learning_rate': 0.0002637238349660819, 'epoch': 0.49}
+ 49%|████▉     | 4720/9678 [10:26:36<11:25:38,  8.30s/it] 49%|████▉     | 4721/9678 [10:26:43<10:57:12,  7.96s/it] 49%|████▉     | 4722/9678 [10:26:49<10:19:55,  7.51s/it] 49%|████▉     | 4723/9678 [10:26:57<10:20:38,  7.52s/it] 49%|████▉     | 4724/9678 [10:27:05<10:42:11,  7.78s/it] 49%|████▉     | 4725/9678 [10:27:14<11:03:52,  8.04s/it] 49%|████▉     | 4726/9678 [10:27:21<10:37:37,  7.73s/it] 49%|████▉     | 4727/9678 [10:27:28<10:22:04,  7.54s/it] 49%|████▉     | 4728/9678 [10:27:35<10:20:28,  7.52s/it] 49%|████▉     | 4729/9678 [10:27:42<9:56:08,  7.23s/it]  49%|████▉     | 4730/9678 [10:27:52<11:01:32,  8.02s/it]                                                         {'loss': 0.7702, 'grad_norm': 0.8353511691093445, 'learning_rate': 0.0002629052532383888, 'epoch': 0.49}
+ 49%|████▉     | 4730/9678 [10:27:52<11:01:32,  8.02s/it] 49%|████▉     | 4731/9678 [10:28:00<11:07:27,  8.10s/it] 49%|████▉     | 4732/9678 [10:28:07<10:30:09,  7.64s/it] 49%|████▉     | 4733/9678 [10:28:15<10:57:01,  7.97s/it] 49%|████▉     | 4734/9678 [10:28:24<11:19:02,  8.24s/it] 49%|████▉     | 4735/9678 [10:28:31<10:39:09,  7.76s/it] 49%|████▉     | 4736/9678 [10:28:39<10:37:13,  7.74s/it] 49%|████▉     | 4737/9678 [10:28:45<10:06:30,  7.36s/it] 49%|████▉     | 4738/9678 [10:28:54<10:52:48,  7.93s/it] 49%|████▉     | 4739/9678 [10:29:01<10:31:21,  7.67s/it] 49%|████▉     | 4740/9678 [10:29:07<9:46:06,  7.12s/it]                                                         {'loss': 0.8797, 'grad_norm': 0.9910038113594055, 'learning_rate': 0.00026208653275711265, 'epoch': 0.49}
+ 49%|████▉     | 4740/9678 [10:29:07<9:46:06,  7.12s/it] 49%|████▉     | 4741/9678 [10:29:16<10:15:38,  7.48s/it] 49%|████▉     | 4742/9678 [10:29:24<10:37:40,  7.75s/it] 49%|████▉     | 4743/9678 [10:29:32<10:36:41,  7.74s/it] 49%|████▉     | 4744/9678 [10:29:39<10:36:23,  7.74s/it] 49%|████▉     | 4745/9678 [10:29:48<10:48:39,  7.89s/it] 49%|████▉     | 4746/9678 [10:29:56<10:52:44,  7.94s/it] 49%|████▉     | 4747/9678 [10:30:04<11:07:05,  8.12s/it] 49%|████▉     | 4748/9678 [10:30:13<11:14:22,  8.21s/it] 49%|████▉     | 4749/9678 [10:30:20<11:01:56,  8.06s/it] 49%|████▉     | 4750/9678 [10:30:28<10:52:37,  7.95s/it]                                                         {'loss': 0.9161, 'grad_norm': 1.1162399053573608, 'learning_rate': 0.00026126768232490115, 'epoch': 0.49}
+ 49%|████▉     | 4750/9678 [10:30:28<10:52:37,  7.95s/it] 49%|████▉     | 4751/9678 [10:30:35<10:38:34,  7.78s/it] 49%|████▉     | 4752/9678 [10:30:42<10:16:11,  7.51s/it] 49%|████▉     | 4753/9678 [10:30:50<10:22:50,  7.59s/it] 49%|████▉     | 4754/9678 [10:30:57<10:07:53,  7.41s/it] 49%|████▉     | 4755/9678 [10:31:06<10:37:06,  7.76s/it] 49%|████▉     | 4756/9678 [10:31:13<10:31:17,  7.70s/it] 49%|████▉     | 4757/9678 [10:31:22<10:53:47,  7.97s/it] 49%|████▉     | 4758/9678 [10:31:30<10:46:33,  7.88s/it] 49%|████▉     | 4759/9678 [10:31:38<10:53:27,  7.97s/it] 49%|████▉     | 4760/9678 [10:31:45<10:44:36,  7.86s/it]                                                         {'loss': 1.0406, 'grad_norm': 0.8416900038719177, 'learning_rate': 0.00026044871074579955, 'epoch': 0.49}
+ 49%|████▉     | 4760/9678 [10:31:45<10:44:36,  7.86s/it] 49%|████▉     | 4761/9678 [10:31:52<10:09:30,  7.44s/it] 49%|████▉     | 4762/9678 [10:31:59<10:02:34,  7.35s/it] 49%|████▉     | 4763/9678 [10:32:07<10:10:11,  7.45s/it] 49%|████▉     | 4764/9678 [10:32:13<9:54:05,  7.25s/it]  49%|████▉     | 4765/9678 [10:32:22<10:15:52,  7.52s/it] 49%|████▉     | 4766/9678 [10:32:29<10:24:56,  7.63s/it] 49%|████▉     | 4767/9678 [10:32:38<10:52:15,  7.97s/it] 49%|████▉     | 4768/9678 [10:32:45<10:19:56,  7.58s/it] 49%|████▉     | 4769/9678 [10:32:52<10:21:04,  7.59s/it] 49%|████▉     | 4770/9678 [10:33:04<12:05:52,  8.87s/it]                                                         {'loss': 1.0545, 'grad_norm': 1.2481132745742798, 'learning_rate': 0.0002596296268251556, 'epoch': 0.49}
+ 49%|████▉     | 4770/9678 [10:33:04<12:05:52,  8.87s/it] 49%|████▉     | 4771/9678 [10:33:11<11:23:20,  8.36s/it] 49%|████▉     | 4772/9678 [10:33:19<11:11:22,  8.21s/it] 49%|████▉     | 4773/9678 [10:33:28<11:10:53,  8.21s/it] 49%|████▉     | 4774/9678 [10:33:37<11:42:25,  8.59s/it] 49%|████▉     | 4775/9678 [10:33:44<11:13:45,  8.24s/it] 49%|████▉     | 4776/9678 [10:33:52<10:50:07,  7.96s/it] 49%|████▉     | 4777/9678 [10:34:00<10:56:23,  8.04s/it] 49%|████▉     | 4778/9678 [10:34:08<10:49:37,  7.95s/it] 49%|████▉     | 4779/9678 [10:34:16<11:03:18,  8.12s/it] 49%|████▉     | 4780/9678 [10:34:26<11:49:32,  8.69s/it]                                                         {'loss': 0.9128, 'grad_norm': 1.115768551826477, 'learning_rate': 0.0002588104393695245, 'epoch': 0.49}
+ 49%|████▉     | 4780/9678 [10:34:26<11:49:32,  8.69s/it] 49%|████▉     | 4781/9678 [10:34:34<11:19:44,  8.33s/it] 49%|████▉     | 4782/9678 [10:34:41<11:01:34,  8.11s/it] 49%|████▉     | 4783/9678 [10:34:50<11:03:07,  8.13s/it] 49%|████▉     | 4784/9678 [10:34:56<10:34:37,  7.78s/it] 49%|████▉     | 4785/9678 [10:35:04<10:27:28,  7.69s/it] 49%|████▉     | 4786/9678 [10:35:12<10:38:07,  7.83s/it] 49%|████▉     | 4787/9678 [10:35:19<10:06:36,  7.44s/it] 49%|████▉     | 4788/9678 [10:35:29<11:12:08,  8.25s/it] 49%|████▉     | 4789/9678 [10:35:35<10:28:48,  7.72s/it] 49%|████▉     | 4790/9678 [10:35:44<10:42:40,  7.89s/it]                                                         {'loss': 1.0822, 'grad_norm': 0.7396090030670166, 'learning_rate': 0.0002579911571865752, 'epoch': 0.49}
+ 49%|████▉     | 4790/9678 [10:35:44<10:42:40,  7.89s/it] 50%|███��▉     | 4791/9678 [10:35:49<9:47:48,  7.22s/it]  50%|████▉     | 4792/9678 [10:35:57<10:12:59,  7.53s/it] 50%|████▉     | 4793/9678 [10:36:04<9:47:57,  7.22s/it]  50%|████▉     | 4794/9678 [10:36:10<9:24:39,  6.94s/it] 50%|████▉     | 4795/9678 [10:36:17<9:18:19,  6.86s/it] 50%|████▉     | 4796/9678 [10:36:25<9:38:55,  7.12s/it] 50%|████▉     | 4797/9678 [10:36:34<10:31:23,  7.76s/it] 50%|████▉     | 4798/9678 [10:36:44<11:18:48,  8.35s/it] 50%|████▉     | 4799/9678 [10:36:52<11:31:06,  8.50s/it] 50%|████▉     | 4800/9678 [10:37:00<11:14:19,  8.29s/it]                                                         {'loss': 0.8659, 'grad_norm': 0.9519025087356567, 'learning_rate': 0.0002571717890849946, 'epoch': 0.5}
+ 50%|████▉     | 4800/9678 [10:37:00<11:14:19,  8.29s/it] 50%|████▉     | 4801/9678 [10:37:09<11:28:12,  8.47s/it] 50%|████▉     | 4802/9678 [10:37:15<10:33:27,  7.79s/it] 50%|████▉     | 4803/9678 [10:37:23<10:17:16,  7.60s/it] 50%|████▉     | 4804/9678 [10:37:32<10:58:24,  8.11s/it] 50%|████▉     | 4805/9678 [10:37:40<10:52:53,  8.04s/it] 50%|████▉     | 4806/9678 [10:37:49<11:12:38,  8.28s/it] 50%|████▉     | 4807/9678 [10:37:56<11:03:05,  8.17s/it] 50%|████▉     | 4808/9678 [10:38:04<10:39:40,  7.88s/it] 50%|████▉     | 4809/9678 [10:38:10<10:09:33,  7.51s/it] 50%|████▉     | 4810/9678 [10:38:19<10:50:08,  8.01s/it]                                                         {'loss': 0.8773, 'grad_norm': 0.7343184947967529, 'learning_rate': 0.0002563523438743939, 'epoch': 0.5}
+ 50%|████▉     | 4810/9678 [10:38:19<10:50:08,  8.01s/it] 50%|████▉     | 4811/9678 [10:38:30<11:50:28,  8.76s/it] 50%|████▉     | 4812/9678 [10:38:38<11:28:01,  8.48s/it] 50%|████▉     | 4813/9678 [10:38:46<11:12:14,  8.29s/it] 50%|████▉     | 4814/9678 [10:38:54<11:17:46,  8.36s/it] 50%|████▉     | 4815/9678 [10:39:02<11:08:05,  8.24s/it] 50%|████▉     | 4816/9678 [10:39:11<11:10:55,  8.28s/it] 50%|████▉     | 4817/9678 [10:39:20<11:35:19,  8.58s/it] 50%|████▉     | 4818/9678 [10:39:27<11:06:22,  8.23s/it] 50%|████▉     | 4819/9678 [10:39:35<10:49:24,  8.02s/it] 50%|████▉     | 4820/9678 [10:39:43<10:52:59,  8.07s/it]                                                         {'loss': 0.7956, 'grad_norm': 1.4175959825515747, 'learning_rate': 0.0002555328303652129, 'epoch': 0.5}
+ 50%|████▉     | 4820/9678 [10:39:43<10:52:59,  8.07s/it] 50%|████▉     | 4821/9678 [10:39:50<10:29:26,  7.78s/it] 50%|████▉     | 4822/9678 [10:39:59<10:47:57,  8.01s/it] 50%|████▉     | 4823/9678 [10:40:06<10:32:47,  7.82s/it] 50%|████▉     | 4824/9678 [10:40:13<10:16:33,  7.62s/it] 50%|████▉     | 4825/9678 [10:40:22<10:46:15,  7.99s/it] 50%|████▉     | 4826/9678 [10:40:31<11:08:57,  8.27s/it] 50%|████▉     | 4827/9678 [10:40:39<11:01:02,  8.18s/it] 50%|████▉     | 4828/9678 [10:40:46<10:26:49,  7.75s/it] 50%|████▉     | 4829/9678 [10:40:54<10:38:27,  7.90s/it] 50%|████▉     | 4830/9678 [10:41:03<11:03:23,  8.21s/it]                                                         {'loss': 0.9604, 'grad_norm': 1.0520236492156982, 'learning_rate': 0.000254713257368626, 'epoch': 0.5}
+ 50%|████▉     | 4830/9678 [10:41:03<11:03:23,  8.21s/it] 50%|████▉     | 4831/9678 [10:41:11<11:12:41,  8.33s/it] 50%|████▉     | 4832/9678 [10:41:18<10:29:08,  7.79s/it] 50%|████▉     | 4833/9678 [10:41:24<9:57:31,  7.40s/it]  50%|████▉     | 4834/9678 [10:41:34<10:53:13,  8.09s/it] 50%|████▉     | 4835/9678 [10:41:42<10:57:24,  8.14s/it] 50%|████▉     | 4836/9678 [10:41:49<10:31:32,  7.83s/it] 50%|████▉     | 4837/9678 [10:41:59<11:04:36,  8.24s/it] 50%|████▉     | 4838/9678 [10:42:06<10:43:11,  7.97s/it] 50%|█████     | 4839/9678 [10:42:13<10:10:00,  7.56s/it] 50%|█████     | 4840/9678 [10:42:19<9:46:23,  7.27s/it]                                                         {'loss': 0.7715, 'grad_norm': 0.7733720541000366, 'learning_rate': 0.0002538936336964471, 'epoch': 0.5}
+ 50%|█████     | 4840/9678 [10:42:19<9:46:23,  7.27s/it] 50%|█████     | 4841/9678 [10:42:29<10:45:28,  8.01s/it] 50%|█████     | 4842/9678 [10:42:37<10:46:33,  8.02s/it] 50%|█████     | 4843/9678 [10:42:45<10:53:26,  8.11s/it] 50%|█████     | 4844/9678 [10:42:53<10:38:55,  7.93s/it] 50%|█████     | 4845/9678 [10:43:01<10:47:38,  8.04s/it] 50%|█████     | 4846/9678 [10:43:08<10:14:41,  7.63s/it] 50%|█████     | 4847/9678 [10:43:17<10:50:24,  8.08s/it] 50%|█████     | 4848/9678 [10:43:25<10:52:07,  8.10s/it] 50%|█████     | 4849/9678 [10:43:34<11:09:51,  8.32s/it] 50%|█████     | 4850/9678 [10:43:41<10:29:49,  7.83s/it]                                                         {'loss': 0.9329, 'grad_norm': 1.4437015056610107, 'learning_rate': 0.0002530739681610349, 'epoch': 0.5}
+ 50%|█████     | 4850/9678 [10:43:41<10:29:49,  7.83s/it] 50%|█████     | 4851/9678 [10:43:51<11:29:23,  8.57s/it] 50%|█████     | 4852/9678 [10:43:59<11:08:49,  8.32s/it] 50%|█████     | 4853/9678 [10:44:06<10:43:30,  8.00s/it] 50%|█████     | 4854/9678 [10:44:14<10:38:50,  7.95s/it] 50%|█████     | 4855/9678 [10:44:22<10:40:13,  7.96s/it] 50%|█████     | 4856/9678 [10:44:29<10:35:36,  7.91s/it] 50%|█████     | 4857/9678 [10:44:38<10:55:20,  8.16s/it] 50%|█████     | 4858/9678 [10:44:45<10:17:51,  7.69s/it] 50%|█████     | 4859/9678 [10:44:52<10:11:33,  7.61s/it] 50%|█████     | 4860/9678 [10:44:59<9:53:25,  7.39s/it]                                                         {'loss': 0.8434, 'grad_norm': 0.892091691493988, 'learning_rate': 0.00025225426957519825, 'epoch': 0.5}
+ 50%|█████     | 4860/9678 [10:44:59<9:53:25,  7.39s/it] 50%|█████     | 4861/9678 [10:45:06<9:51:52,  7.37s/it] 50%|█████     | 4862/9678 [10:45:14<9:45:32,  7.30s/it] 50%|█████     | 4863/9678 [10:45:23<10:26:52,  7.81s/it] 50%|█████     | 4864/9678 [10:45:30<10:21:24,  7.75s/it] 50%|█████     | 4865/9678 [10:45:40<11:19:34,  8.47s/it] 50%|█████     | 4866/9678 [10:45:47<10:40:15,  7.98s/it] 50%|█████     | 4867/9678 [10:45:55<10:29:31,  7.85s/it] 50%|█████     | 4868/9678 [10:46:04<10:57:48,  8.21s/it] 50%|█████     | 4869/9678 [10:46:12<10:46:57,  8.07s/it] 50%|█████     | 4870/9678 [10:46:19<10:28:03,  7.84s/it]                                                         {'loss': 0.8912, 'grad_norm': 0.9304814338684082, 'learning_rate': 0.0002514345467521014, 'epoch': 0.5}
+ 50%|█████     | 4870/9678 [10:46:19<10:28:03,  7.84s/it] 50%|█████     | 4871/9678 [10:46:26<10:20:19,  7.74s/it] 50%|█████     | 4872/9678 [10:46:35<10:44:35,  8.05s/it] 50%|█████     | 4873/9678 [10:46:43<10:44:05,  8.04s/it] 50%|█████     | 4874/9678 [10:46:50<10:27:56,  7.84s/it] 50%|█████     | 4875/9678 [10:46:58<10:21:56,  7.77s/it] 50%|█████     | 4876/9678 [10:47:06<10:27:27,  7.84s/it] 50%|█████     | 4877/9678 [10:47:13<9:56:35,  7.46s/it]  50%|█████     | 4878/9678 [10:47:21<10:11:28,  7.64s/it] 50%|█████     | 4879/9678 [10:47:28<10:09:55,  7.63s/it] 50%|█████     | 4880/9678 [10:47:36<10:11:53,  7.65s/it]                                                         {'loss': 0.9901, 'grad_norm': 1.063408374786377, 'learning_rate': 0.00025061480850516914, 'epoch': 0.5}
+ 50%|█████     | 4880/9678 [10:47:36<10:11:53,  7.65s/it] 50%|█████     | 4881/9678 [10:47:45<10:43:50,  8.05s/it] 50%|█████     | 4882/9678 [10:47:54<11:00:44,  8.27s/it] 50%|█████     | 4883/9678 [10:48:00<10:19:17,  7.75s/it] 50%|█████     | 4884/9678 [10:48:08<10:25:10,  7.82s/it] 50%|█████     | 4885/9678 [10:48:15<10:00:16,  7.51s/it] 50%|█████     | 4886/9678 [10:48:23<10:14:29,  7.69s/it] 50%|█████     | 4887/9678 [10:48:31<10:15:03,  7.70s/it] 51%|█████     | 4888/9678 [10:48:38<9:49:44,  7.39s/it]  51%|█████     | 4889/9678 [10:48:46<10:20:23,  7.77s/it] 51%|█████     | 4890/9678 [10:48:54<10:25:42,  7.84s/it]                                                         {'loss': 0.89, 'grad_norm': 1.0481808185577393, 'learning_rate': 0.00024979506364799207, 'epoch': 0.51}
+ 51%|█████     | 4890/9678 [10:48:54<10:25:42,  7.84s/it] 51%|█████     | 4891/9678 [10:49:03<10:38:12,  8.00s/it] 51%|█████     | 4892/9678 [10:49:11<10:41:16,  8.04s/it] 51%|█████     | 4893/9678 [10:49:19<10:54:33,  8.21s/it] 51%|█████     | 4894/9678 [10:49:28<11:07:31,  8.37s/it] 51%|█████     | 4895/9678 [10:49:35<10:21:46,  7.80s/it] 51%|█████     | 4896/9678 [10:49:41<9:56:29,  7.48s/it]  51%|█████     | 4897/9678 [10:49:49<10:07:35,  7.63s/it] 51%|█████     | 4898/9678 [10:49:57<9:58:56,  7.52s/it]  51%|█████     | 4899/9678 [10:50:05<10:29:44,  7.91s/it] 51%|█████     | 4900/9678 [10:50:14<10:53:26,  8.21s/it]                                                         {'loss': 1.1239, 'grad_norm': 1.2767094373703003, 'learning_rate': 0.000248975320994232, 'epoch': 0.51}
+ 51%|█████     | 4900/9678 [10:50:14<10:53:26,  8.21s/it] 51%|█████     | 4901/9678 [10:50:22<10:48:18,  8.14s/it] 51%|█████     | 4902/9678 [10:50:30<10:27:31,  7.88s/it] 51%|█████     | 4903/9678 [10:50:38<10:36:37,  8.00s/it] 51%|█████     | 4904/9678 [10:50:47<11:01:57,  8.32s/it] 51%|█████     | 4905/9678 [10:50:55<10:55:42,  8.24s/it] 51%|█████     | 4906/9678 [10:51:04<11:04:37,  8.36s/it] 51%|█████     | 4907/9678 [10:51:12<11:00:11,  8.30s/it] 51%|█████     | 4908/9678 [10:51:19<10:39:33,  8.04s/it] 51%|█████     | 4909/9678 [10:51:27<10:43:02,  8.09s/it] 51%|█████     | 4910/9678 [10:51:36<11:03:14,  8.35s/it]                                                         {'loss': 0.8866, 'grad_norm': 1.0354382991790771, 'learning_rate': 0.00024815558935752677, 'epoch': 0.51}
+ 51%|█████     | 4910/9678 [10:51:36<11:03:14,  8.35s/it] 51%|█████     | 4911/9678 [10:51:44<10:46:38,  8.14s/it] 51%|█████     | 4912/9678 [10:51:53<11:11:03,  8.45s/it] 51%|█████     | 4913/9678 [10:52:02<11:21:10,  8.58s/it] 51%|█████     | 4914/9678 [10:52:10<11:03:27,  8.36s/it] 51%|█████     | 4915/9678 [10:52:18<11:05:42,  8.39s/it] 51%|█████     | 4916/9678 [10:52:27<11:18:36,  8.55s/it] 51%|█████     | 4917/9678 [10:52:35<10:55:31,  8.26s/it] 51%|█████     | 4918/9678 [10:52:44<11:23:05,  8.61s/it] 51%|█████     | 4919/9678 [10:52:54<11:48:51,  8.94s/it] 51%|█████     | 4920/9678 [10:53:02<11:19:56,  8.57s/it]                                                         {'loss': 0.8817, 'grad_norm': 0.7483660578727722, 'learning_rate': 0.0002473358775513959, 'epoch': 0.51}
+ 51%|█████     | 4920/9678 [10:53:02<11:19:56,  8.57s/it] 51%|█████     | 4921/9678 [10:53:10<11:07:32,  8.42s/it] 51%|█████     | 4922/9678 [10:53:16<10:23:01,  7.86s/it] 51%|█████     | 4923/9678 [10:53:27<11:20:24,  8.59s/it] 51%|█████     | 4924/9678 [10:53:35<11:26:25,  8.66s/it] 51%|█████     | 4925/9678 [10:53:43<10:55:02,  8.27s/it] 51%|█████     | 4926/9678 [10:53:50<10:28:33,  7.94s/it] 51%|█████     | 4927/9678 [10:53:57<10:08:14,  7.68s/it] 51%|█████     | 4928/9678 [10:54:06<10:41:44,  8.11s/it] 51%|█████     | 4929/9678 [10:54:13<10:19:59,  7.83s/it] 51%|█████     | 4930/9678 [10:54:20<9:59:42,  7.58s/it]                                                         {'loss': 0.8991, 'grad_norm': 0.6301681399345398, 'learning_rate': 0.000246516194389146, 'epoch': 0.51}
+ 51%|█████     | 4930/9678 [10:54:20<9:59:42,  7.58s/it] 51%|█████     | 4931/9678 [10:54:28<10:13:35,  7.76s/it] 51%|█████     | 4932/9678 [10:54:37<10:24:01,  7.89s/it] 51%|█████     | 4933/9678 [10:54:46<11:07:32,  8.44s/it] 51%|█████     | 4934/9678 [10:54:54<10:57:22,  8.31s/it] 51%|█████     | 4935/9678 [10:55:02<10:47:02,  8.19s/it] 51%|█████     | 4936/9678 [10:55:09<10:18:03,  7.82s/it] 51%|█████     | 4937/9678 [10:55:17<10:26:41,  7.93s/it] 51%|█████     | 4938/9678 [10:55:25<10:12:47,  7.76s/it] 51%|█████     | 4939/9678 [10:55:33<10:15:37,  7.79s/it] 51%|█████     | 4940/9678 [10:55:42<10:55:26,  8.30s/it]                                                         {'loss': 0.7891, 'grad_norm': 1.0671608448028564, 'learning_rate': 0.0002456965486837752, 'epoch': 0.51}
+ 51%|█████     | 4940/9678 [10:55:42<10:55:26,  8.30s/it] 51%|█████     | 4941/9678 [10:55:49<10:15:38,  7.80s/it] 51%|█████     | 4942/9678 [10:55:56<10:02:43,  7.64s/it] 51%|█████     | 4943/9678 [10:56:03<9:51:14,  7.49s/it]  51%|█████     | 4944/9678 [10:56:11<9:54:56,  7.54s/it] 51%|█████     | 4945/9678 [10:56:19<9:57:49,  7.58s/it] 51%|█████     | 4946/9678 [10:56:26<9:54:15,  7.53s/it] 51%|█████     | 4947/9678 [10:56:34<9:57:23,  7.58s/it] 51%|█████     | 4948/9678 [10:56:41<9:56:25,  7.57s/it] 51%|█████     | 4949/9678 [10:56:51<10:51:35,  8.27s/it] 51%|█████     | 4950/9678 [10:57:00<11:00:36,  8.38s/it]                                                         {'loss': 0.9388, 'grad_norm': 1.3131459951400757, 'learning_rate': 0.00024487694924787935, 'epoch': 0.51}
+ 51%|█████     | 4950/9678 [10:57:00<11:00:36,  8.38s/it] 51%|█████     | 4951/9678 [10:57:08<11:03:36,  8.42s/it] 51%|█████     | 4952/9678 [10:57:16<10:57:25,  8.35s/it] 51%|█████     | 4953/9678 [10:57:23<10:26:19,  7.95s/it] 51%|█████     | 4954/9678 [10:57:31<10:22:18,  7.90s/it] 51%|█████     | 4955/9678 [10:57:39<10:18:18,  7.85s/it] 51%|█████     | 4956/9678 [10:57:46<10:00:30,  7.63s/it] 51%|█████     | 4957/9678 [10:57:54<10:04:34,  7.68s/it] 51%|█████     | 4958/9678 [10:58:02<10:18:32,  7.86s/it] 51%|█████     | 4959/9678 [10:58:09<9:57:11,  7.59s/it]  51%|█████▏    | 4960/9678 [10:58:16<9:45:48,  7.45s/it]                                                        {'loss': 0.8558, 'grad_norm': 1.2082393169403076, 'learning_rate': 0.00024405740489355634, 'epoch': 0.51}
+ 51%|█████▏    | 4960/9678 [10:58:16<9:45:48,  7.45s/it] 51%|█████▏    | 4961/9678 [10:58:24<9:46:57,  7.47s/it] 51%|█████▏    | 4962/9678 [10:58:30<9:28:33,  7.23s/it] 51%|█████▏    | 4963/9678 [10:58:38<9:37:32,  7.35s/it] 51%|█████▏    | 4964/9678 [10:58:45<9:21:48,  7.15s/it] 51%|█████▏    | 4965/9678 [10:58:52<9:32:52,  7.29s/it] 51%|█████▏    | 4966/9678 [10:59:01<10:03:28,  7.68s/it] 51%|█████▏    | 4967/9678 [10:59:10<10:25:35,  7.97s/it] 51%|█████▏    | 4968/9678 [10:59:17<10:04:37,  7.70s/it] 51%|█████▏    | 4969/9678 [10:59:24<9:51:24,  7.54s/it]  51%|█████▏    | 4970/9678 [10:59:33<10:17:16,  7.87s/it]                                                         {'loss': 0.8703, 'grad_norm': 0.915107786655426, 'learning_rate': 0.0002432379244323124, 'epoch': 0.51}
+ 51%|█████▏    | 4970/9678 [10:59:33<10:17:16,  7.87s/it] 51%|█████▏    | 4971/9678 [10:59:42<11:01:29,  8.43s/it] 51%|█████▏    | 4972/9678 [10:59:51<11:01:20,  8.43s/it] 51%|█████▏    | 4973/9678 [11:00:00<11:25:20,  8.74s/it] 51%|█████▏    | 4974/9678 [11:00:07<10:33:00,  8.07s/it] 51%|█████▏    | 4975/9678 [11:00:16<10:57:01,  8.38s/it] 51%|█████▏    | 4976/9678 [11:00:25<11:13:42,  8.60s/it] 51%|█████▏    | 4977/9678 [11:00:33<10:55:12,  8.36s/it] 51%|█████▏    | 4978/9678 [11:00:41<10:52:28,  8.33s/it] 51%|█████▏    | 4979/9678 [11:00:49<10:34:55,  8.11s/it] 51%|█████▏    | 4980/9678 [11:00:57<10:42:05,  8.20s/it]                                                         {'loss': 0.9959, 'grad_norm': 1.2518354654312134, 'learning_rate': 0.00024241851667496645, 'epoch': 0.51}
+ 51%|█████▏    | 4980/9678 [11:00:57<10:42:05,  8.20s/it] 51%|█████▏    | 4981/9678 [11:01:05<10:40:12,  8.18s/it] 51%|█████▏    | 4982/9678 [11:01:14<11:07:18,  8.53s/it] 51%|█████▏    | 4983/9678 [11:01:21<10:32:38,  8.08s/it] 51%|█████▏    | 4984/9678 [11:01:29<10:08:51,  7.78s/it] 52%|█████▏    | 4985/9678 [11:01:36<10:05:38,  7.74s/it] 52%|█████▏    | 4986/9678 [11:01:43<9:44:07,  7.47s/it]  52%|█████▏    | 4987/9678 [11:01:49<9:11:31,  7.05s/it] 52%|█████▏    | 4988/9678 [11:01:55<8:38:16,  6.63s/it] 52%|█████▏    | 4989/9678 [11:02:01<8:39:06,  6.64s/it] 52%|█████▏    | 4990/9678 [11:02:08<8:47:15,  6.75s/it]                                                        {'loss': 1.0497, 'grad_norm': 1.0495281219482422, 'learning_rate': 0.00024159919043155556, 'epoch': 0.52}
+ 52%|█████▏    | 4990/9678 [11:02:08<8:47:15,  6.75s/it] 52%|█████▏    | 4991/9678 [11:02:16<9:04:44,  6.97s/it] 52%|█████▏    | 4992/9678 [11:02:24<9:37:41,  7.40s/it] 52%|█████▏    | 4993/9678 [11:02:31<9:18:53,  7.16s/it] 52%|█████▏    | 4994/9678 [11:02:39<9:50:02,  7.56s/it] 52%|█████▏    | 4995/9678 [11:02:47<9:49:22,  7.55s/it] 52%|█████▏    | 4996/9678 [11:02:55<9:54:42,  7.62s/it] 52%|█████▏    | 4997/9678 [11:03:02<9:40:49,  7.44s/it] 52%|█████▏    | 4998/9678 [11:03:11<10:33:55,  8.13s/it] 52%|█████▏    | 4999/9678 [11:03:19<10:23:49,  8.00s/it] 52%|█████▏    | 5000/9678 [11:03:27<10:09:32,  7.82s/it]                                                         {'loss': 0.7946, 'grad_norm': 1.469854712486267, 'learning_rate': 0.0002407799545112409, 'epoch': 0.52}
+ 52%|█████▏    | 5000/9678 [11:03:27<10:09:32,  7.82s/it] 52%|█████▏    | 5001/9678 [11:03:34<10:03:38,  7.74s/it] 52%|█████▏    | 5002/9678 [11:03:41<9:45:20,  7.51s/it]  52%|█████▏    | 5003/9678 [11:03:51<10:41:58,  8.24s/it] 52%|█████▏    | 5004/9678 [11:03:57<9:57:50,  7.67s/it]  52%|█████▏    | 5005/9678 [11:04:04<9:32:01,  7.34s/it] 52%|█████▏    | 5006/9678 [11:04:14<10:30:43,  8.10s/it] 52%|█████▏    | 5007/9678 [11:04:25<11:36:52,  8.95s/it] 52%|█████▏    | 5008/9678 [11:04:33<11:30:51,  8.88s/it] 52%|█████▏    | 5009/9678 [11:04:41<11:01:13,  8.50s/it] 52%|█████▏    | 5010/9678 [11:04:49<10:42:05,  8.25s/it]                                                         {'loss': 0.7768, 'grad_norm': 0.7165640592575073, 'learning_rate': 0.0002399608177222122, 'epoch': 0.52}
+ 52%|█████▏    | 5010/9678 [11:04:49<10:42:05,  8.25s/it] 52%|█████▏    | 5011/9678 [11:04:56<10:22:36,  8.00s/it] 52%|█████▏    | 5012/9678 [11:05:04<10:21:02,  7.99s/it] 52%|█████▏    | 5013/9678 [11:05:12<10:15:33,  7.92s/it] 52%|█████▏    | 5014/9678 [11:05:20<10:15:47,  7.92s/it] 52%|█████▏    | 5015/9678 [11:05:28<10:30:12,  8.11s/it] 52%|█████▏    | 5016/9678 [11:05:36<10:11:49,  7.87s/it] 52%|█████▏    | 5017/9678 [11:05:42<9:44:25,  7.52s/it]  52%|█████▏    | 5018/9678 [11:05:50<9:37:17,  7.43s/it] 52%|█████▏    | 5019/9678 [11:05:55<8:58:34,  6.94s/it] 52%|█████▏    | 5020/9678 [11:06:02<8:55:27,  6.90s/it]                                                        {'loss': 0.8901, 'grad_norm': 0.7148188352584839, 'learning_rate': 0.00023914178887159327, 'epoch': 0.52}
+ 52%|█████▏    | 5020/9678 [11:06:02<8:55:27,  6.90s/it] 52%|█████▏    | 5021/9678 [11:06:09<9:03:03,  7.00s/it] 52%|█████▏    | 5022/9678 [11:06:17<9:09:19,  7.08s/it] 52%|█████▏    | 5023/9678 [11:06:26<9:50:37,  7.61s/it] 52%|█████▏    | 5024/9678 [11:06:32<9:26:22,  7.30s/it] 52%|█████▏    | 5025/9678 [11:06:40<9:40:08,  7.48s/it] 52%|█████▏    | 5026/9678 [11:06:51<11:06:37,  8.60s/it] 52%|█████▏    | 5027/9678 [11:06:58<10:20:29,  8.00s/it] 52%|█████▏    | 5028/9678 [11:07:07<10:52:43,  8.42s/it] 52%|█████▏    | 5029/9678 [11:07:15<10:29:53,  8.13s/it] 52%|█████▏    | 5030/9678 [11:07:23<10:43:19,  8.30s/it]                                                         {'loss': 1.0241, 'grad_norm': 1.2880741357803345, 'learning_rate': 0.0002383228767653474, 'epoch': 0.52}
+ 52%|█████▏    | 5030/9678 [11:07:23<10:43:19,  8.30s/it] 52%|█████▏    | 5031/9678 [11:07:33<11:01:47,  8.54s/it] 52%|█████▏    | 5032/9678 [11:07:40<10:41:47,  8.29s/it] 52%|█████▏    | 5033/9678 [11:07:48<10:19:07,  8.00s/it] 52%|█████▏    | 5034/9678 [11:07:56<10:25:09,  8.08s/it] 52%|█████▏    | 5035/9678 [11:08:03<10:06:13,  7.83s/it] 52%|█████▏    | 5036/9678 [11:08:13<10:51:52,  8.43s/it] 52%|█████▏    | 5037/9678 [11:08:20<10:26:40,  8.10s/it] 52%|█████▏    | 5038/9678 [11:08:28<10:10:00,  7.89s/it] 52%|█████▏    | 5039/9678 [11:08:37<10:42:12,  8.31s/it] 52%|█████▏    | 5040/9678 [11:08:44<10:03:55,  7.81s/it]                                                         {'loss': 0.9248, 'grad_norm': 1.3181527853012085, 'learning_rate': 0.0002375040902081831, 'epoch': 0.52}
+ 52%|█████▏    | 5040/9678 [11:08:44<10:03:55,  7.81s/it] 52%|█████▏    | 5041/9678 [11:08:52<10:20:36,  8.03s/it] 52%|█████▏    | 5042/9678 [11:09:00<10:13:40,  7.94s/it] 52%|█████▏    | 5043/9678 [11:09:07<9:48:36,  7.62s/it]  52%|█████▏    | 5044/9678 [11:09:14<9:41:54,  7.53s/it] 52%|█████▏    | 5045/9678 [11:09:21<9:30:26,  7.39s/it] 52%|█████▏    | 5046/9678 [11:09:30<10:09:53,  7.90s/it] 52%|█████▏    | 5047/9678 [11:09:37<9:49:44,  7.64s/it]  52%|█████▏    | 5048/9678 [11:09:47<10:36:22,  8.25s/it] 52%|█████▏    | 5049/9678 [11:09:55<10:41:17,  8.31s/it] 52%|█████▏    | 5050/9678 [11:10:03<10:15:14,  7.98s/it]                                                         {'loss': 0.8286, 'grad_norm': 1.5515258312225342, 'learning_rate': 0.00023668543800345852, 'epoch': 0.52}
+ 52%|█████▏    | 5050/9678 [11:10:03<10:15:14,  7.98s/it] 52%|█████▏    | 5051/9678 [11:10:10<9:56:37,  7.74s/it]  52%|█████▏    | 5052/9678 [11:10:17<9:54:46,  7.71s/it] 52%|█████▏    | 5053/9678 [11:10:23<9:10:16,  7.14s/it] 52%|█████▏    | 5054/9678 [11:10:32<9:46:49,  7.61s/it] 52%|█████▏    | 5055/9678 [11:10:40<9:53:23,  7.70s/it] 52%|█████▏    | 5056/9678 [11:10:46<9:21:44,  7.29s/it] 52%|█████▏    | 5057/9678 [11:10:54<9:29:11,  7.39s/it] 52%|█████▏    | 5058/9678 [11:11:02<9:58:59,  7.78s/it] 52%|█████▏    | 5059/9678 [11:11:11<10:23:49,  8.10s/it] 52%|█████▏    | 5060/9678 [11:11:21<11:06:35,  8.66s/it]                                                         {'loss': 0.7546, 'grad_norm': 1.0438510179519653, 'learning_rate': 0.0002358669289530875, 'epoch': 0.52}
+ 52%|█████▏    | 5060/9678 [11:11:21<11:06:35,  8.66s/it] 52%|█████▏    | 5061/9678 [11:11:31<11:35:34,  9.04s/it] 52%|█████▏    | 5062/9678 [11:11:39<11:03:56,  8.63s/it] 52%|█████▏    | 5063/9678 [11:11:46<10:21:21,  8.08s/it] 52%|█████▏    | 5064/9678 [11:11:54<10:29:02,  8.18s/it] 52%|█████▏    | 5065/9678 [11:12:02<10:27:48,  8.17s/it] 52%|█████▏    | 5066/9678 [11:12:08<9:42:17,  7.58s/it]  52%|█████▏    | 5067/9678 [11:12:16<9:50:15,  7.68s/it] 52%|█████▏    | 5068/9678 [11:12:25<10:18:52,  8.05s/it] 52%|█████▏    | 5069/9678 [11:12:34<10:29:48,  8.20s/it] 52%|█████▏    | 5070/9678 [11:12:43<10:51:02,  8.48s/it]                                                         {'loss': 0.8099, 'grad_norm': 1.179828405380249, 'learning_rate': 0.00023504857185744453, 'epoch': 0.52}
+ 52%|█████▏    | 5070/9678 [11:12:43<10:51:02,  8.48s/it] 52%|█████▏    | 5071/9678 [11:12:50<10:17:11,  8.04s/it] 52%|█████▏    | 5072/9678 [11:12:57<10:05:38,  7.89s/it] 52%|█████▏    | 5073/9678 [11:13:07<10:38:17,  8.32s/it] 52%|█████▏    | 5074/9678 [11:13:17<11:21:57,  8.89s/it] 52%|█████▏    | 5075/9678 [11:13:24<10:39:07,  8.33s/it] 52%|█████▏    | 5076/9678 [11:13:31<10:17:42,  8.05s/it] 52%|█████▏    | 5077/9678 [11:13:39<9:55:55,  7.77s/it]  52%|█████▏    | 5078/9678 [11:13:46<9:59:03,  7.81s/it] 52%|█████▏    | 5079/9678 [11:13:54<10:00:52,  7.84s/it] 52%|█████▏    | 5080/9678 [11:14:03<10:09:35,  7.95s/it]                                                         {'loss': 0.8692, 'grad_norm': 1.0748212337493896, 'learning_rate': 0.00023423037551527085, 'epoch': 0.52}
+ 52%|█████▏    | 5080/9678 [11:14:03<10:09:35,  7.95s/it] 53%|█████▎    | 5081/9678 [11:14:10<10:07:55,  7.93s/it] 53%|█████▎    | 5082/9678 [11:14:17<9:36:46,  7.53s/it]  53%|█████▎    | 5083/9678 [11:14:27<10:23:49,  8.15s/it] 53%|█████▎    | 5084/9678 [11:14:35<10:25:18,  8.17s/it] 53%|█████▎    | 5085/9678 [11:14:45<11:06:48,  8.71s/it] 53%|█████▎    | 5086/9678 [11:14:52<10:33:14,  8.27s/it] 53%|█████▎    | 5087/9678 [11:15:01<10:39:03,  8.35s/it] 53%|█████▎    | 5088/9678 [11:15:09<10:28:58,  8.22s/it] 53%|█████▎    | 5089/9678 [11:15:17<10:24:25,  8.16s/it] 53%|█████▎    | 5090/9678 [11:15:26<10:58:18,  8.61s/it]                                                         {'loss': 0.8423, 'grad_norm': 0.8671577572822571, 'learning_rate': 0.00023341234872357872, 'epoch': 0.53}
+ 53%|█████▎    | 5090/9678 [11:15:26<10:58:18,  8.61s/it] 53%|█████▎    | 5091/9678 [11:15:34<10:38:33,  8.35s/it] 53%|█████▎    | 5092/9678 [11:15:40<9:44:58,  7.65s/it]  53%|█████▎    | 5093/9678 [11:15:48<9:45:08,  7.66s/it] 53%|█████▎    | 5094/9678 [11:15:54<9:24:23,  7.39s/it] 53%|█████▎    | 5095/9678 [11:16:03<9:46:24,  7.68s/it] 53%|█████▎    | 5096/9678 [11:16:10<9:43:42,  7.64s/it] 53%|█████▎    | 5097/9678 [11:16:20<10:18:51,  8.11s/it] 53%|█████▎    | 5098/9678 [11:16:28<10:30:11,  8.26s/it] 53%|█████▎    | 5099/9678 [11:16:37<10:33:15,  8.30s/it] 53%|█████▎    | 5100/9678 [11:16:45<10:26:43,  8.21s/it]                                                         {'loss': 0.8823, 'grad_norm': 1.147182583808899, 'learning_rate': 0.00023259450027755764, 'epoch': 0.53}
+ 53%|█████▎    | 5100/9678 [11:16:45<10:26:43,  8.21s/it] 53%|█████▎    | 5101/9678 [11:16:54<10:53:20,  8.56s/it] 53%|█████▎    | 5102/9678 [11:17:03<11:13:01,  8.82s/it] 53%|█████▎    | 5103/9678 [11:17:10<10:33:56,  8.31s/it] 53%|█████▎    | 5104/9678 [11:17:19<10:40:44,  8.40s/it] 53%|█████▎    | 5105/9678 [11:17:29<11:24:52,  8.99s/it] 53%|█████▎    | 5106/9678 [11:17:38<11:14:01,  8.85s/it] 53%|█████▎    | 5107/9678 [11:17:49<11:53:50,  9.37s/it] 53%|█████▎    | 5108/9678 [11:17:59<12:19:11,  9.70s/it] 53%|█████▎    | 5109/9678 [11:18:08<11:58:08,  9.43s/it] 53%|█████▎    | 5110/9678 [11:18:15<11:07:45,  8.77s/it]                                                         {'loss': 0.879, 'grad_norm': 1.0983150005340576, 'learning_rate': 0.0002317768389704799, 'epoch': 0.53}
+ 53%|█████▎    | 5110/9678 [11:18:15<11:07:45,  8.77s/it] 53%|█████▎    | 5111/9678 [11:18:23<10:50:36,  8.55s/it] 53%|█████▎    | 5112/9678 [11:18:29<9:59:12,  7.87s/it]  53%|█████▎    | 5113/9678 [11:18:37<9:48:40,  7.74s/it] 53%|█████▎    | 5114/9678 [11:18:45<10:02:37,  7.92s/it] 53%|█████▎    | 5115/9678 [11:18:52<9:41:12,  7.64s/it]  53%|█████▎    | 5116/9678 [11:19:01<10:14:14,  8.08s/it] 53%|█████▎    | 5117/9678 [11:19:10<10:39:36,  8.41s/it] 53%|█████▎    | 5118/9678 [11:19:17<10:07:06,  7.99s/it] 53%|█████▎    | 5119/9678 [11:19:26<10:22:05,  8.19s/it] 53%|█████▎    | 5120/9678 [11:19:36<10:59:46,  8.68s/it]                                                         {'loss': 0.9303, 'grad_norm': 1.5440839529037476, 'learning_rate': 0.00023095937359360525, 'epoch': 0.53}
+ 53%|█████▎    | 5120/9678 [11:19:36<10:59:46,  8.68s/it] 53%|█████▎    | 5121/9678 [11:19:45<10:59:34,  8.68s/it] 53%|█████▎    | 5122/9678 [11:19:53<10:58:56,  8.68s/it] 53%|█████▎    | 5123/9678 [11:20:00<10:11:08,  8.05s/it] 53%|█████▎    | 5124/9678 [11:20:07<9:57:56,  7.88s/it]  53%|█████▎    | 5125/9678 [11:20:15<9:42:27,  7.68s/it] 53%|█████▎    | 5126/9678 [11:20:20<8:57:41,  7.09s/it] 53%|█████▎    | 5127/9678 [11:20:29<9:37:21,  7.61s/it] 53%|█████▎    | 5128/9678 [11:20:38<9:57:59,  7.89s/it] 53%|█████▎    | 5129/9678 [11:20:44<9:26:45,  7.48s/it] 53%|█████▎    | 5130/9678 [11:20:52<9:32:14,  7.55s/it]                                                        {'loss': 0.8823, 'grad_norm': 1.0175645351409912, 'learning_rate': 0.00023014211293608718, 'epoch': 0.53}
+ 53%|█████▎    | 5130/9678 [11:20:52<9:32:14,  7.55s/it] 53%|█████▎    | 5131/9678 [11:20:59<9:29:09,  7.51s/it] 53%|█████▎    | 5132/9678 [11:21:07<9:40:58,  7.67s/it] 53%|█████▎    | 5133/9678 [11:21:16<10:02:39,  7.96s/it] 53%|█████▎    | 5134/9678 [11:21:25<10:22:21,  8.22s/it] 53%|█████▎    | 5135/9678 [11:21:34<10:39:15,  8.44s/it] 53%|█████▎    | 5136/9678 [11:21:41<10:19:11,  8.18s/it] 53%|█████▎    | 5137/9678 [11:21:53<11:49:56,  9.38s/it] 53%|█████▎    | 5138/9678 [11:22:02<11:21:18,  9.00s/it] 53%|█████▎    | 5139/9678 [11:22:09<10:48:45,  8.58s/it] 53%|█████▎    | 5140/9678 [11:22:17<10:40:48,  8.47s/it]                                                         {'loss': 0.9467, 'grad_norm': 1.1853641271591187, 'learning_rate': 0.00022932506578487782, 'epoch': 0.53}
+ 53%|█████▎    | 5140/9678 [11:22:17<10:40:48,  8.47s/it] 53%|█████▎    | 5141/9678 [11:22:26<10:38:48,  8.45s/it] 53%|█████▎    | 5142/9678 [11:22:35<10:48:56,  8.58s/it] 53%|█████▎    | 5143/9678 [11:22:43<10:53:16,  8.64s/it] 53%|█████▎    | 5144/9678 [11:22:54<11:38:13,  9.24s/it] 53%|█████▎    | 5145/9678 [11:23:02<11:14:59,  8.93s/it] 53%|█████▎    | 5146/9678 [11:23:10<10:49:44,  8.60s/it] 53%|█████▎    | 5147/9678 [11:23:19<10:49:47,  8.60s/it] 53%|█████▎    | 5148/9678 [11:23:27<10:42:08,  8.51s/it] 53%|█████▎    | 5149/9678 [11:23:37<11:18:24,  8.99s/it] 53%|█████▎    | 5150/9678 [11:23:45<10:56:52,  8.70s/it]                                                         {'loss': 0.7992, 'grad_norm': 0.9132509827613831, 'learning_rate': 0.00022850824092463413, 'epoch': 0.53}
+ 53%|█████▎    | 5150/9678 [11:23:45<10:56:52,  8.70s/it] 53%|█████▎    | 5151/9678 [11:23:54<10:56:57,  8.71s/it] 53%|█████▎    | 5152/9678 [11:24:00<10:02:56,  7.99s/it] 53%|█████▎    | 5153/9678 [11:24:08<10:01:31,  7.98s/it] 53%|█████▎    | 5154/9678 [11:24:15<9:46:13,  7.77s/it]  53%|█████▎    | 5155/9678 [11:24:23<9:32:53,  7.60s/it] 53%|█████▎    | 5156/9678 [11:24:33<10:26:19,  8.31s/it] 53%|█████▎    | 5157/9678 [11:24:41<10:25:42,  8.30s/it] 53%|█████▎    | 5158/9678 [11:24:49<10:10:42,  8.11s/it] 53%|█████▎    | 5159/9678 [11:24:57<10:19:37,  8.23s/it] 53%|█████▎    | 5160/9678 [11:25:04<9:54:24,  7.89s/it]                                                         {'loss': 0.9003, 'grad_norm': 0.8958359360694885, 'learning_rate': 0.0002276916471376227, 'epoch': 0.53}
+ 53%|█████▎    | 5160/9678 [11:25:04<9:54:24,  7.89s/it] 53%|█████▎    | 5161/9678 [11:25:12<9:46:43,  7.79s/it] 53%|█████▎    | 5162/9678 [11:25:19<9:31:03,  7.59s/it] 53%|█████▎    | 5163/9678 [11:25:29<10:35:01,  8.44s/it] 53%|█████▎    | 5164/9678 [11:25:37<10:08:22,  8.09s/it] 53%|█████▎    | 5165/9678 [11:25:46<10:35:04,  8.44s/it] 53%|█████▎    | 5166/9678 [11:25:53<10:03:40,  8.03s/it] 53%|█████▎    | 5167/9678 [11:26:01<10:13:54,  8.17s/it] 53%|█████▎    | 5168/9678 [11:26:10<10:30:16,  8.39s/it] 53%|█████▎    | 5169/9678 [11:26:16<9:37:26,  7.68s/it]  53%|█████▎    | 5170/9678 [11:26:24<9:27:00,  7.55s/it]                                                        {'loss': 0.8922, 'grad_norm': 0.9055427312850952, 'learning_rate': 0.00022687529320362587, 'epoch': 0.53}
+ 53%|█████▎    | 5170/9678 [11:26:24<9:27:00,  7.55s/it] 53%|█████▎    | 5171/9678 [11:26:33<10:10:26,  8.13s/it] 53%|█████▎    | 5172/9678 [11:26:40<9:45:35,  7.80s/it]  53%|█████▎    | 5173/9678 [11:26:48<9:43:23,  7.77s/it] 53%|█████▎    | 5174/9678 [11:26:55<9:35:12,  7.66s/it] 53%|█████▎    | 5175/9678 [11:27:03<9:40:01,  7.73s/it] 53%|█████▎    | 5176/9678 [11:27:11<9:49:08,  7.85s/it] 53%|█████▎    | 5177/9678 [11:27:19<9:57:50,  7.97s/it] 54%|█████▎    | 5178/9678 [11:27:26<9:36:14,  7.68s/it] 54%|█████▎    | 5179/9678 [11:27:34<9:25:05,  7.54s/it] 54%|█████▎    | 5180/9678 [11:27:42<9:37:52,  7.71s/it]                                                        {'loss': 0.8021, 'grad_norm': 1.2413357496261597, 'learning_rate': 0.00022605918789984707, 'epoch': 0.54}
+ 54%|█████▎    | 5180/9678 [11:27:42<9:37:52,  7.71s/it] 54%|█████▎    | 5181/9678 [11:27:50<9:53:51,  7.92s/it] 54%|█████▎    | 5182/9678 [11:28:00<10:26:27,  8.36s/it] 54%|█████▎    | 5183/9678 [11:28:08<10:28:56,  8.40s/it] 54%|█████▎    | 5184/9678 [11:28:17<10:31:13,  8.43s/it] 54%|█████▎    | 5185/9678 [11:28:27<11:08:54,  8.93s/it] 54%|█████▎    | 5186/9678 [11:28:34<10:27:07,  8.38s/it] 54%|█████▎    | 5187/9678 [11:28:40<9:47:52,  7.85s/it]  54%|█████▎    | 5188/9678 [11:28:46<8:52:55,  7.12s/it] 54%|█████▎    | 5189/9678 [11:28:53<8:47:36,  7.05s/it] 54%|█████▎    | 5190/9678 [11:28:59<8:32:37,  6.85s/it]                                                        {'loss': 0.7335, 'grad_norm': 1.096956729888916, 'learning_rate': 0.00022524334000081664, 'epoch': 0.54}
+ 54%|█████▎    | 5190/9678 [11:28:59<8:32:37,  6.85s/it] 54%|█████▎    | 5191/9678 [11:29:08<9:12:36,  7.39s/it] 54%|█████▎    | 5192/9678 [11:29:17<9:51:34,  7.91s/it] 54%|█████▎    | 5193/9678 [11:29:25<10:05:26,  8.10s/it] 54%|█████▎    | 5194/9678 [11:29:32<9:36:57,  7.72s/it]  54%|█████▎    | 5195/9678 [11:29:40<9:27:42,  7.60s/it] 54%|█████▎    | 5196/9678 [11:29:46<9:10:02,  7.36s/it] 54%|█████▎    | 5197/9678 [11:29:53<8:56:51,  7.19s/it] 54%|█████▎    | 5198/9678 [11:30:00<8:44:32,  7.03s/it] 54%|█████▎    | 5199/9678 [11:30:10<9:46:50,  7.86s/it] 54%|█████▎    | 5200/9678 [11:30:15<8:46:50,  7.06s/it]                                                        {'loss': 0.9217, 'grad_norm': 1.0181100368499756, 'learning_rate': 0.00022442775827829722, 'epoch': 0.54}
+ 54%|█████▎    | 5200/9678 [11:30:15<8:46:50,  7.06s/it] 54%|█████▎    | 5201/9678 [11:30:23<9:03:46,  7.29s/it] 54%|█████▍    | 5202/9678 [11:30:30<9:09:40,  7.37s/it] 54%|█████▍    | 5203/9678 [11:30:37<8:54:47,  7.17s/it] 54%|█████▍    | 5204/9678 [11:30:44<8:44:45,  7.04s/it] 54%|█████▍    | 5205/9678 [11:30:53<9:46:00,  7.86s/it] 54%|█████▍    | 5206/9678 [11:31:01<9:37:07,  7.74s/it] 54%|█████▍    | 5207/9678 [11:31:07<8:52:26,  7.15s/it] 54%|█████▍    | 5208/9678 [11:31:15<9:12:41,  7.42s/it] 54%|█████▍    | 5209/9678 [11:31:24<9:51:19,  7.94s/it] 54%|█████▍    | 5210/9678 [11:31:32<10:02:58,  8.10s/it]                                                         {'loss': 0.8444, 'grad_norm': 0.9444778561592102, 'learning_rate': 0.0002236124515011897, 'epoch': 0.54}
+ 54%|█████▍    | 5210/9678 [11:31:32<10:02:58,  8.10s/it] 54%|█████▍    | 5211/9678 [11:31:41<10:25:20,  8.40s/it] 54%|█████▍    | 5212/9678 [11:31:48<9:40:53,  7.80s/it]  54%|█████▍    | 5213/9678 [11:31:56<9:50:05,  7.93s/it] 54%|█████▍    | 5214/9678 [11:32:06<10:29:52,  8.47s/it] 54%|█████▍    | 5215/9678 [11:32:13<10:00:21,  8.07s/it] 54%|█████▍    | 5216/9678 [11:32:21<10:09:02,  8.19s/it] 54%|█████▍    | 5217/9678 [11:32:29<9:53:01,  7.98s/it]  54%|█████▍    | 5218/9678 [11:32:36<9:33:30,  7.72s/it] 54%|█████▍    | 5219/9678 [11:32:44<9:31:40,  7.69s/it] 54%|█████▍    | 5220/9678 [11:32:51<9:19:05,  7.52s/it]                                                        {'loss': 0.7901, 'grad_norm': 0.9442963004112244, 'learning_rate': 0.00022279742843543887, 'epoch': 0.54}
+ 54%|█████▍    | 5220/9678 [11:32:51<9:19:05,  7.52s/it] 54%|█████▍    | 5221/9678 [11:32:58<9:06:40,  7.36s/it] 54%|█████▍    | 5222/9678 [11:33:05<9:08:52,  7.39s/it] 54%|█████▍    | 5223/9678 [11:33:13<9:13:15,  7.45s/it] 54%|█████▍    | 5224/9678 [11:33:20<9:19:08,  7.53s/it] 54%|█████▍    | 5225/9678 [11:33:28<9:18:56,  7.53s/it] 54%|█████▍    | 5226/9678 [11:33:36<9:28:56,  7.67s/it] 54%|█████▍    | 5227/9678 [11:33:44<9:31:39,  7.71s/it] 54%|█████▍    | 5228/9678 [11:33:50<9:05:44,  7.36s/it] 54%|█████▍    | 5229/9678 [11:33:58<9:09:52,  7.42s/it] 54%|█████▍    | 5230/9678 [11:34:07<9:55:34,  8.03s/it]                                                        {'loss': 0.9, 'grad_norm': 1.3280583620071411, 'learning_rate': 0.00022198269784393904, 'epoch': 0.54}
+ 54%|█████▍    | 5230/9678 [11:34:07<9:55:34,  8.03s/it] 54%|█████▍    | 5231/9678 [11:34:15<9:53:45,  8.01s/it] 54%|█████▍    | 5232/9678 [11:34:24<9:58:41,  8.08s/it] 54%|█████▍    | 5233/9678 [11:34:31<9:41:06,  7.84s/it] 54%|█████▍    | 5234/9678 [11:34:41<10:42:08,  8.67s/it] 54%|█████▍    | 5235/9678 [11:34:50<10:31:01,  8.52s/it] 54%|█████▍    | 5236/9678 [11:34:56<9:51:49,  7.99s/it]  54%|█████▍    | 5237/9678 [11:35:04<9:55:03,  8.04s/it] 54%|█████▍    | 5238/9678 [11:35:11<9:32:01,  7.73s/it] 54%|█████▍    | 5239/9678 [11:35:20<9:51:12,  7.99s/it] 54%|█████▍    | 5240/9678 [11:35:29<10:00:57,  8.12s/it]                                                         {'loss': 0.8782, 'grad_norm': 0.7821478843688965, 'learning_rate': 0.00022116826848643994, 'epoch': 0.54}
+ 54%|█████▍    | 5240/9678 [11:35:29<10:00:57,  8.12s/it] 54%|█████▍    | 5241/9678 [11:35:36<9:51:09,  7.99s/it]  54%|█████▍    | 5242/9678 [11:35:44<9:42:43,  7.88s/it] 54%|█████▍    | 5243/9678 [11:35:51<9:20:50,  7.59s/it] 54%|█████▍    | 5244/9678 [11:36:00<10:00:21,  8.12s/it] 54%|█████▍    | 5245/9678 [11:36:09<10:20:17,  8.40s/it] 54%|█████▍    | 5246/9678 [11:36:17<10:08:50,  8.24s/it] 54%|█████▍    | 5247/9678 [11:36:25<9:53:13,  8.03s/it]  54%|█████▍    | 5248/9678 [11:36:33<10:00:36,  8.13s/it] 54%|█████▍    | 5249/9678 [11:36:40<9:34:03,  7.78s/it]  54%|█████▍    | 5250/9678 [11:36:46<9:05:56,  7.40s/it]                                                        {'loss': 0.8268, 'grad_norm': 0.942866861820221, 'learning_rate': 0.00022035414911945252, 'epoch': 0.54}
+ 54%|█████▍    | 5250/9678 [11:36:46<9:05:56,  7.40s/it] 54%|█████▍    | 5251/9678 [11:36:54<9:19:01,  7.58s/it] 54%|█████▍    | 5252/9678 [11:37:01<8:57:30,  7.29s/it] 54%|█████▍    | 5253/9678 [11:37:09<9:12:50,  7.50s/it] 54%|█████▍    | 5254/9678 [11:37:18<9:55:19,  8.07s/it] 54%|█████▍    | 5255/9678 [11:37:25<9:25:35,  7.67s/it] 54%|█████▍    | 5256/9678 [11:37:33<9:30:52,  7.75s/it] 54%|█████▍    | 5257/9678 [11:37:42<9:47:19,  7.97s/it] 54%|█████▍    | 5258/9678 [11:37:50<9:48:35,  7.99s/it] 54%|█████▍    | 5259/9678 [11:37:56<9:23:27,  7.65s/it] 54%|█████▍    | 5260/9678 [11:38:05<9:51:55,  8.04s/it]                                                        {'loss': 0.7923, 'grad_norm': 1.0075554847717285, 'learning_rate': 0.0002195403484961549, 'epoch': 0.54}
+ 54%|█████▍    | 5260/9678 [11:38:05<9:51:55,  8.04s/it] 54%|█████▍    | 5261/9678 [11:38:12<9:19:11,  7.60s/it] 54%|█████▍    | 5262/9678 [11:38:19<9:07:44,  7.44s/it] 54%|█████▍    | 5263/9678 [11:38:27<9:16:59,  7.57s/it] 54%|█████▍    | 5264/9678 [11:38:35<9:25:21,  7.68s/it] 54%|█████▍    | 5265/9678 [11:38:43<9:38:46,  7.87s/it] 54%|█████▍    | 5266/9678 [11:38:52<10:02:49,  8.20s/it] 54%|█████▍    | 5267/9678 [11:38:59<9:38:40,  7.87s/it]  54%|█████▍    | 5268/9678 [11:39:07<9:32:55,  7.79s/it] 54%|█████▍    | 5269/9678 [11:39:16<10:05:11,  8.24s/it] 54%|█████▍    | 5270/9678 [11:39:23<9:33:30,  7.81s/it]                                                         {'loss': 0.8108, 'grad_norm': 1.0974137783050537, 'learning_rate': 0.00021872687536629806, 'epoch': 0.54}
+ 54%|█████▍    | 5270/9678 [11:39:23<9:33:30,  7.81s/it] 54%|█████▍    | 5271/9678 [11:39:29<8:59:49,  7.35s/it] 54%|█████▍    | 5272/9678 [11:39:38<9:36:19,  7.85s/it] 54%|█████▍    | 5273/9678 [11:39:47<9:53:11,  8.08s/it] 54%|█████▍    | 5274/9678 [11:39:54<9:42:08,  7.93s/it] 55%|█████▍    | 5275/9678 [11:40:02<9:38:05,  7.88s/it] 55%|█████▍    | 5276/9678 [11:40:10<9:32:29,  7.80s/it] 55%|█████▍    | 5277/9678 [11:40:21<10:40:03,  8.73s/it] 55%|█████▍    | 5278/9678 [11:40:29<10:35:03,  8.66s/it] 55%|█████▍    | 5279/9678 [11:40:38<10:34:57,  8.66s/it] 55%|█████▍    | 5280/9678 [11:40:46<10:21:19,  8.48s/it]                                                         {'loss': 0.8236, 'grad_norm': 0.8785361647605896, 'learning_rate': 0.00021791373847611186, 'epoch': 0.55}
+ 55%|█████▍    | 5280/9678 [11:40:46<10:21:19,  8.48s/it] 55%|█████▍    | 5281/9678 [11:40:53<9:47:00,  8.01s/it]  55%|█████▍    | 5282/9678 [11:41:01<9:39:41,  7.91s/it] 55%|█████▍    | 5283/9678 [11:41:09<9:59:56,  8.19s/it] 55%|█████▍    | 5284/9678 [11:41:17<9:51:33,  8.08s/it] 55%|█████▍    | 5285/9678 [11:41:25<9:37:31,  7.89s/it] 55%|█████▍    | 5286/9678 [11:41:33<9:57:39,  8.16s/it] 55%|█████▍    | 5287/9678 [11:41:41<9:41:52,  7.95s/it] 55%|█████▍    | 5288/9678 [11:41:47<9:07:18,  7.48s/it] 55%|█████▍    | 5289/9678 [11:41:56<9:35:10,  7.86s/it] 55%|█████▍    | 5290/9678 [11:42:03<9:19:10,  7.65s/it]                                                        {'loss': 0.9875, 'grad_norm': 1.300614356994629, 'learning_rate': 0.00021710094656821098, 'epoch': 0.55}
+ 55%|█████▍    | 5290/9678 [11:42:03<9:19:10,  7.65s/it] 55%|█████▍    | 5291/9678 [11:42:11<9:15:23,  7.60s/it] 55%|█████▍    | 5292/9678 [11:42:16<8:32:58,  7.02s/it] 55%|█████▍    | 5293/9678 [11:42:27<9:45:38,  8.01s/it] 55%|█████▍    | 5294/9678 [11:42:34<9:40:28,  7.94s/it] 55%|█████▍    | 5295/9678 [11:42:42<9:32:05,  7.83s/it] 55%|█████▍    | 5296/9678 [11:42:50<9:39:43,  7.94s/it] 55%|█████▍    | 5297/9678 [11:42:57<9:09:12,  7.52s/it] 55%|█████▍    | 5298/9678 [11:43:04<8:58:10,  7.37s/it] 55%|█████▍    | 5299/9678 [11:43:11<9:02:57,  7.44s/it] 55%|█████▍    | 5300/9678 [11:43:19<9:01:02,  7.42s/it]                                                        {'loss': 0.8824, 'grad_norm': 0.9605757594108582, 'learning_rate': 0.0002162885083815011, 'epoch': 0.55}
+ 55%|█████▍    | 5300/9678 [11:43:19<9:01:02,  7.42s/it] 55%|█████▍    | 5301/9678 [11:43:26<8:57:34,  7.37s/it] 55%|█████▍    | 5302/9678 [11:43:34<9:17:45,  7.65s/it] 55%|█████▍    | 5303/9678 [11:43:40<8:32:36,  7.03s/it] 55%|█████▍    | 5304/9678 [11:43:48<8:52:54,  7.31s/it] 55%|█████▍    | 5305/9678 [11:43:56<9:11:54,  7.57s/it] 55%|█████▍    | 5306/9678 [11:44:04<9:18:55,  7.67s/it] 55%|█████▍    | 5307/9678 [11:44:12<9:23:24,  7.73s/it] 55%|█████▍    | 5308/9678 [11:44:20<9:29:05,  7.81s/it] 55%|█████▍    | 5309/9678 [11:44:27<9:15:39,  7.63s/it] 55%|█████▍    | 5310/9678 [11:44:34<8:54:35,  7.34s/it]                                                        {'loss': 0.9041, 'grad_norm': 0.8986537456512451, 'learning_rate': 0.0002154764326510847, 'epoch': 0.55}
+ 55%|█████▍    | 5310/9678 [11:44:34<8:54:35,  7.34s/it] 55%|█████▍    | 5311/9678 [11:44:42<9:25:18,  7.77s/it] 55%|█████▍    | 5312/9678 [11:44:50<9:21:24,  7.72s/it] 55%|█████▍    | 5313/9678 [11:44:58<9:20:12,  7.70s/it] 55%|█████▍    | 5314/9678 [11:45:07<9:53:02,  8.15s/it] 55%|█████▍    | 5315/9678 [11:45:14<9:31:28,  7.86s/it] 55%|█████▍    | 5316/9678 [11:45:22<9:37:29,  7.94s/it] 55%|█████▍    | 5317/9678 [11:45:30<9:36:41,  7.93s/it] 55%|█████▍    | 5318/9678 [11:45:39<9:58:59,  8.24s/it] 55%|█████▍    | 5319/9678 [11:45:47<10:00:36,  8.27s/it] 55%|█████▍    | 5320/9678 [11:45:57<10:25:20,  8.61s/it]                                                         {'loss': 0.8553, 'grad_norm': 0.8150350451469421, 'learning_rate': 0.0002146647281081671, 'epoch': 0.55}
+ 55%|█████▍    | 5320/9678 [11:45:57<10:25:20,  8.61s/it] 55%|█████▍    | 5321/9678 [11:46:06<10:37:51,  8.78s/it] 55%|█████▍    | 5322/9678 [11:46:14<10:24:09,  8.60s/it] 55%|█████▌    | 5323/9678 [11:46:22<10:06:58,  8.36s/it] 55%|█████▌    | 5324/9678 [11:46:29<9:38:57,  7.98s/it]  55%|█████▌    | 5325/9678 [11:46:37<9:44:59,  8.06s/it] 55%|█████▌    | 5326/9678 [11:46:44<9:25:14,  7.79s/it] 55%|█████▌    | 5327/9678 [11:46:53<9:41:37,  8.02s/it] 55%|█████▌    | 5328/9678 [11:47:00<9:26:54,  7.82s/it] 55%|█████▌    | 5329/9678 [11:47:10<10:07:22,  8.38s/it] 55%|█████▌    | 5330/9678 [11:47:18<10:01:17,  8.30s/it]                                                         {'loss': 0.9266, 'grad_norm': 1.396665334701538, 'learning_rate': 0.00021385340347996297, 'epoch': 0.55}
+ 55%|█████▌    | 5330/9678 [11:47:18<10:01:17,  8.30s/it] 55%|█████▌    | 5331/9678 [11:47:26<9:57:12,  8.24s/it]  55%|█████▌    | 5332/9678 [11:47:35<10:01:22,  8.30s/it] 55%|█████▌    | 5333/9678 [11:47:41<9:16:34,  7.69s/it]  55%|█████▌    | 5334/9678 [11:47:48<9:10:17,  7.60s/it] 55%|█████▌    | 5335/9678 [11:47:56<9:16:08,  7.68s/it] 55%|█████▌    | 5336/9678 [11:48:03<8:51:48,  7.35s/it] 55%|█████▌    | 5337/9678 [11:48:11<9:17:26,  7.70s/it] 55%|█████▌    | 5338/9678 [11:48:19<9:20:07,  7.74s/it] 55%|█████▌    | 5339/9678 [11:48:28<9:47:58,  8.13s/it] 55%|█████▌    | 5340/9678 [11:48:37<9:59:43,  8.29s/it]                                                        {'loss': 0.8426, 'grad_norm': 1.1270840167999268, 'learning_rate': 0.00021304246748960208, 'epoch': 0.55}
+ 55%|█████▌    | 5340/9678 [11:48:37<9:59:43,  8.29s/it] 55%|█████▌    | 5341/9678 [11:48:45<9:55:05,  8.23s/it] 55%|█████▌    | 5342/9678 [11:48:52<9:28:23,  7.87s/it] 55%|█████▌    | 5343/9678 [11:48:59<9:12:12,  7.64s/it] 55%|█████▌    | 5344/9678 [11:49:06<8:49:00,  7.32s/it] 55%|█████▌    | 5345/9678 [11:49:14<8:59:43,  7.47s/it] 55%|█████▌    | 5346/9678 [11:49:22<9:22:24,  7.79s/it] 55%|█████▌    | 5347/9678 [11:49:32<10:05:11,  8.38s/it] 55%|█████▌    | 5348/9678 [11:49:40<9:54:31,  8.24s/it]  55%|█████▌    | 5349/9678 [11:49:45<8:56:56,  7.44s/it] 55%|█████▌    | 5350/9678 [11:49:57<10:35:17,  8.81s/it]                                                         {'loss': 0.9085, 'grad_norm': 1.4210362434387207, 'learning_rate': 0.00021223192885603571, 'epoch': 0.55}
+ 55%|█████▌    | 5350/9678 [11:49:57<10:35:17,  8.81s/it] 55%|█████▌    | 5351/9678 [11:50:05<10:10:29,  8.47s/it] 55%|█████▌    | 5352/9678 [11:50:13<10:07:09,  8.42s/it] 55%|█████▌    | 5353/9678 [11:50:20<9:23:39,  7.82s/it]  55%|█████▌    | 5354/9678 [11:50:26<8:51:35,  7.38s/it] 55%|█████▌    | 5355/9678 [11:50:34<9:03:02,  7.54s/it] 55%|█████▌    | 5356/9678 [11:50:41<9:00:25,  7.50s/it] 55%|█████▌    | 5357/9678 [11:50:49<9:05:57,  7.58s/it] 55%|█████▌    | 5358/9678 [11:50:57<9:19:30,  7.77s/it] 55%|█████▌    | 5359/9678 [11:51:05<9:06:29,  7.59s/it] 55%|█████▌    | 5360/9678 [11:51:12<9:07:19,  7.61s/it]                                                        {'loss': 0.8978, 'grad_norm': 0.9129871726036072, 'learning_rate': 0.00021142179629394283, 'epoch': 0.55}
+ 55%|█████▌    | 5360/9678 [11:51:12<9:07:19,  7.61s/it] 55%|█████▌    | 5361/9678 [11:51:19<8:46:56,  7.32s/it] 55%|█████▌    | 5362/9678 [11:51:27<9:07:54,  7.62s/it] 55%|█████▌    | 5363/9678 [11:51:34<8:50:28,  7.38s/it] 55%|█████▌    | 5364/9678 [11:51:41<8:45:22,  7.31s/it] 55%|█████▌    | 5365/9678 [11:51:50<9:17:21,  7.75s/it] 55%|█████▌    | 5366/9678 [11:51:58<9:16:04,  7.74s/it] 55%|█████▌    | 5367/9678 [11:52:06<9:27:55,  7.90s/it] 55%|█████▌    | 5368/9678 [11:52:13<9:19:20,  7.79s/it] 55%|█████▌    | 5369/9678 [11:52:20<9:00:18,  7.52s/it] 55%|█████▌    | 5370/9678 [11:52:28<8:58:22,  7.50s/it]                                                        {'loss': 0.9224, 'grad_norm': 1.0395097732543945, 'learning_rate': 0.00021061207851363661, 'epoch': 0.55}
+ 55%|█████▌    | 5370/9678 [11:52:28<8:58:22,  7.50s/it] 55%|█████▌    | 5371/9678 [11:52:35<8:53:28,  7.43s/it] 56%|█████▌    | 5372/9678 [11:52:43<9:15:53,  7.75s/it] 56%|█████▌    | 5373/9678 [11:52:53<9:49:40,  8.22s/it] 56%|█████▌    | 5374/9678 [11:53:00<9:36:57,  8.04s/it] 56%|█████▌    | 5375/9678 [11:53:11<10:23:40,  8.70s/it] 56%|█████▌    | 5376/9678 [11:53:18<9:56:23,  8.32s/it]  56%|█████▌    | 5377/9678 [11:53:27<10:02:28,  8.40s/it] 56%|█████▌    | 5378/9678 [11:53:36<10:22:38,  8.69s/it] 56%|█████▌    | 5379/9678 [11:53:43<9:42:06,  8.12s/it]  56%|█████▌    | 5380/9678 [11:53:53<10:20:37,  8.66s/it]                                                         {'loss': 0.789, 'grad_norm': 0.5978155136108398, 'learning_rate': 0.00020980278422097045, 'epoch': 0.56}
+ 56%|█████▌    | 5380/9678 [11:53:53<10:20:37,  8.66s/it] 56%|█████▌    | 5381/9678 [11:54:02<10:30:32,  8.80s/it] 56%|█████▌    | 5382/9678 [11:54:10<10:06:27,  8.47s/it] 56%|█████▌    | 5383/9678 [11:54:17<9:46:32,  8.19s/it]  56%|█████▌    | 5384/9678 [11:54:27<10:15:44,  8.60s/it] 56%|█████▌    | 5385/9678 [11:54:35<10:09:13,  8.51s/it] 56%|█████▌    | 5386/9678 [11:54:44<10:08:50,  8.51s/it] 56%|█████▌    | 5387/9678 [11:54:52<10:14:15,  8.59s/it] 56%|█████▌    | 5388/9678 [11:54:59<9:23:22,  7.88s/it]  56%|█████▌    | 5389/9678 [11:55:06<9:20:17,  7.84s/it] 56%|█████▌    | 5390/9678 [11:55:14<9:07:36,  7.66s/it]                                                        {'loss': 0.8651, 'grad_norm': 0.8347190022468567, 'learning_rate': 0.0002089939221172446, 'epoch': 0.56}
+ 56%|█████▌    | 5390/9678 [11:55:14<9:07:36,  7.66s/it] 56%|█████▌    | 5391/9678 [11:55:23<9:45:11,  8.19s/it] 56%|█████▌    | 5392/9678 [11:55:33<10:26:04,  8.76s/it] 56%|█████▌    | 5393/9678 [11:55:41<10:05:31,  8.48s/it] 56%|█████▌    | 5394/9678 [11:55:49<9:47:47,  8.23s/it]  56%|█████▌    | 5395/9678 [11:55:55<9:06:38,  7.66s/it] 56%|█████▌    | 5396/9678 [11:56:03<9:14:46,  7.77s/it] 56%|█████▌    | 5397/9678 [11:56:10<8:54:32,  7.49s/it] 56%|█████▌    | 5398/9678 [11:56:16<8:38:14,  7.27s/it] 56%|█████▌    | 5399/9678 [11:56:25<9:01:04,  7.59s/it] 56%|█████▌    | 5400/9678 [11:56:33<9:05:08,  7.65s/it]                                                        {'loss': 0.9259, 'grad_norm': 1.0471965074539185, 'learning_rate': 0.00020818550089911234, 'epoch': 0.56}
+ 56%|���████▌    | 5400/9678 [11:56:33<9:05:08,  7.65s/it] 56%|█████▌    | 5401/9678 [11:56:41<9:19:39,  7.85s/it] 56%|█████▌    | 5402/9678 [11:56:48<9:05:45,  7.66s/it] 56%|█████▌    | 5403/9678 [11:56:54<8:19:20,  7.01s/it] 56%|█████▌    | 5404/9678 [11:57:04<9:26:55,  7.96s/it] 56%|█████▌    | 5405/9678 [11:57:11<9:20:24,  7.87s/it] 56%|█████▌    | 5406/9678 [11:57:19<9:18:13,  7.84s/it] 56%|█████▌    | 5407/9678 [11:57:27<9:08:00,  7.70s/it] 56%|█████▌    | 5408/9678 [11:57:36<9:37:29,  8.11s/it] 56%|█████▌    | 5409/9678 [11:57:44<9:39:34,  8.15s/it] 56%|█████▌    | 5410/9678 [11:57:51<9:19:37,  7.87s/it]                                                        {'loss': 0.7926, 'grad_norm': 0.8594735264778137, 'learning_rate': 0.00020737752925848707, 'epoch': 0.56}
+ 56%|█████▌    | 5410/9678 [11:57:51<9:19:37,  7.87s/it] 56%|█████▌    | 5411/9678 [11:57:58<9:09:16,  7.72s/it] 56%|█████▌    | 5412/9678 [11:58:07<9:27:54,  7.99s/it] 56%|█████▌    | 5413/9678 [11:58:14<8:58:35,  7.58s/it] 56%|█████▌    | 5414/9678 [11:58:22<9:15:43,  7.82s/it] 56%|█████▌    | 5415/9678 [11:58:30<9:12:43,  7.78s/it] 56%|█████▌    | 5416/9678 [11:58:38<9:20:28,  7.89s/it] 56%|█████▌    | 5417/9678 [11:58:45<9:12:26,  7.78s/it] 56%|█████▌    | 5418/9678 [11:58:55<9:43:54,  8.22s/it] 56%|█████▌    | 5419/9678 [11:59:03<9:43:52,  8.23s/it] 56%|█████▌    | 5420/9678 [11:59:11<9:35:33,  8.11s/it]                                                        {'loss': 0.9561, 'grad_norm': 0.9445158243179321, 'learning_rate': 0.00020657001588244816, 'epoch': 0.56}
+ 56%|█████▌    | 5420/9678 [11:59:11<9:35:33,  8.11s/it] 56%|█████▌    | 5421/9678 [11:59:19<9:29:15,  8.02s/it] 56%|█████▌    | 5422/9678 [11:59:27<9:31:44,  8.06s/it] 56%|█████▌    | 5423/9678 [11:59:33<8:58:28,  7.59s/it] 56%|█████▌    | 5424/9678 [11:59:40<8:45:14,  7.41s/it] 56%|█████▌    | 5425/9678 [11:59:49<9:20:59,  7.91s/it] 56%|█████▌    | 5426/9678 [11:59:57<9:11:45,  7.79s/it] 56%|█████▌    | 5427/9678 [12:00:06<9:40:30,  8.19s/it] 56%|█████▌    | 5428/9678 [12:00:11<8:43:20,  7.39s/it] 56%|█████▌    | 5429/9678 [12:00:19<8:52:27,  7.52s/it] 56%|█████▌    | 5430/9678 [12:00:28<9:19:35,  7.90s/it]                                                        {'loss': 0.8636, 'grad_norm': 0.7682790160179138, 'learning_rate': 0.00020576296945314787, 'epoch': 0.56}
+ 56%|█████▌    | 5430/9678 [12:00:28<9:19:35,  7.90s/it] 56%|█████▌    | 5431/9678 [12:00:35<8:58:46,  7.61s/it] 56%|█████▌    | 5432/9678 [12:00:41<8:33:11,  7.25s/it] 56%|█████▌    | 5433/9678 [12:00:50<9:00:22,  7.64s/it] 56%|█████▌    | 5434/9678 [12:00:59<9:32:13,  8.09s/it] 56%|█████▌    | 5435/9678 [12:01:06<9:07:18,  7.74s/it] 56%|█████▌    | 5436/9678 [12:01:13<8:55:43,  7.58s/it] 56%|█████▌    | 5437/9678 [12:01:22<9:11:49,  7.81s/it] 56%|█████▌    | 5438/9678 [12:01:31<9:42:45,  8.25s/it] 56%|█████▌    | 5439/9678 [12:01:39<9:46:33,  8.30s/it] 56%|█████▌    | 5440/9678 [12:01:50<10:36:15,  9.01s/it]                                                         {'loss': 0.877, 'grad_norm': 0.8511012196540833, 'learning_rate': 0.00020495639864771814, 'epoch': 0.56}
+ 56%|█████▌    | 5440/9678 [12:01:50<10:36:15,  9.01s/it] 56%|█████▌    | 5441/9678 [12:01:57<9:51:32,  8.38s/it]  56%|█████▌    | 5442/9678 [12:02:03<8:57:12,  7.61s/it] 56%|█████▌    | 5443/9678 [12:02:10<8:56:15,  7.60s/it] 56%|█████▋    | 5444/9678 [12:02:21<10:12:06,  8.67s/it] 56%|█████▋    | 5445/9678 [12:02:28<9:23:21,  7.99s/it]  56%|█████▋    | 5446/9678 [12:02:37<9:58:45,  8.49s/it] 56%|█████▋    | 5447/9678 [12:02:45<9:35:33,  8.16s/it] 56%|█████▋    | 5448/9678 [12:02:55<10:26:37,  8.89s/it] 56%|█████▋    | 5449/9678 [12:03:02<9:33:47,  8.14s/it]  56%|█████▋    | 5450/9678 [12:03:10<9:25:48,  8.03s/it]                                                        {'loss': 0.8865, 'grad_norm': 1.3375914096832275, 'learning_rate': 0.00020415031213817704, 'epoch': 0.56}
+ 56%|█████▋    | 5450/9678 [12:03:10<9:25:48,  8.03s/it] 56%|█████▋    | 5451/9678 [12:03:17<9:20:35,  7.96s/it] 56%|█████▋    | 5452/9678 [12:03:24<9:01:02,  7.68s/it] 56%|█████▋    | 5453/9678 [12:03:31<8:34:58,  7.31s/it] 56%|█████▋    | 5454/9678 [12:03:38<8:37:11,  7.35s/it] 56%|█████▋    | 5455/9678 [12:03:48<9:25:46,  8.04s/it] 56%|█████▋    | 5456/9678 [12:03:55<9:14:05,  7.87s/it] 56%|███��█▋    | 5457/9678 [12:04:03<9:14:08,  7.88s/it] 56%|█████▋    | 5458/9678 [12:04:10<8:52:26,  7.57s/it] 56%|█████▋    | 5459/9678 [12:04:19<9:14:54,  7.89s/it] 56%|█████▋    | 5460/9678 [12:04:28<9:36:21,  8.20s/it]                                                        {'loss': 0.8816, 'grad_norm': 1.4135067462921143, 'learning_rate': 0.0002033447185913356, 'epoch': 0.56}
+ 56%|█████▋    | 5460/9678 [12:04:28<9:36:21,  8.20s/it] 56%|█████▋    | 5461/9678 [12:04:35<9:15:05,  7.90s/it] 56%|█████▋    | 5462/9678 [12:04:44<9:30:12,  8.11s/it] 56%|█████▋    | 5463/9678 [12:04:53<9:55:28,  8.48s/it] 56%|█████▋    | 5464/9678 [12:05:01<9:45:27,  8.34s/it] 56%|█████▋    | 5465/9678 [12:05:07<8:57:25,  7.65s/it] 56%|█████▋    | 5466/9678 [12:05:15<9:00:55,  7.71s/it] 56%|█████▋    | 5467/9678 [12:05:23<9:12:35,  7.87s/it] 56%|█████▋    | 5468/9678 [12:05:32<9:30:15,  8.13s/it] 57%|█████▋    | 5469/9678 [12:05:39<9:05:12,  7.77s/it] 57%|█████▋    | 5470/9678 [12:05:46<9:04:20,  7.76s/it]                                                        {'loss': 0.7509, 'grad_norm': 1.0292867422103882, 'learning_rate': 0.0002025396266687045, 'epoch': 0.57}
+ 57%|█████▋    | 5470/9678 [12:05:46<9:04:20,  7.76s/it] 57%|█████▋    | 5471/9678 [12:05:54<9:06:06,  7.79s/it] 57%|█████▋    | 5472/9678 [12:06:03<9:27:30,  8.10s/it] 57%|█████▋    | 5473/9678 [12:06:11<9:31:53,  8.16s/it] 57%|█████▋    | 5474/9678 [12:06:19<9:22:07,  8.02s/it] 57%|█████▋    | 5475/9678 [12:06:29<10:00:34,  8.57s/it] 57%|█████▋    | 5476/9678 [12:06:37<9:42:48,  8.32s/it]  57%|█████▋    | 5477/9678 [12:06:44<9:22:52,  8.04s/it] 57%|█████▋    | 5478/9678 [12:06:52<9:28:41,  8.12s/it] 57%|█████▋    | 5479/9678 [12:07:01<9:36:32,  8.24s/it] 57%|█████▋    | 5480/9678 [12:07:08<9:19:45,  8.00s/it]                                                        {'loss': 0.8376, 'grad_norm': 0.8321288228034973, 'learning_rate': 0.00020173504502640164, 'epoch': 0.57}
+ 57%|█████▋    | 5480/9678 [12:07:08<9:19:45,  8.00s/it] 57%|█████▋    | 5481/9678 [12:07:17<9:35:29,  8.23s/it] 57%|█████▋    | 5482/9678 [12:07:26<9:40:11,  8.30s/it] 57%|█████▋    | 5483/9678 [12:07:34<9:42:44,  8.33s/it] 57%|█████▋    | 5484/9678 [12:07:42<9:26:09,  8.10s/it] 57%|█████▋    | 5485/9678 [12:07:51<9:44:22,  8.36s/it] 57%|█████▋    | 5486/9678 [12:07:58<9:17:08,  7.97s/it] 57%|█████▋    | 5487/9678 [12:08:05<9:11:02,  7.89s/it] 57%|█████▋    | 5488/9678 [12:08:12<8:44:03,  7.50s/it] 57%|█████▋    | 5489/9678 [12:08:21<9:16:28,  7.97s/it] 57%|█████▋    | 5490/9678 [12:08:30<9:38:31,  8.29s/it]                                                        {'loss': 0.822, 'grad_norm': 0.7995291948318481, 'learning_rate': 0.000200930982315058, 'epoch': 0.57}
+ 57%|█████▋    | 5490/9678 [12:08:30<9:38:31,  8.29s/it] 57%|█████▋    | 5491/9678 [12:08:37<9:02:24,  7.77s/it] 57%|█████▋    | 5492/9678 [12:08:43<8:40:04,  7.45s/it] 57%|█████▋    | 5493/9678 [12:08:50<8:29:14,  7.30s/it] 57%|█████▋    | 5494/9678 [12:08:59<9:01:54,  7.77s/it] 57%|█████▋    | 5495/9678 [12:09:07<9:08:58,  7.87s/it] 57%|█████▋    | 5496/9678 [12:09:14<8:54:48,  7.67s/it] 57%|█████▋    | 5497/9678 [12:09:23<9:16:55,  7.99s/it] 57%|█████▋    | 5498/9678 [12:09:33<9:52:03,  8.50s/it] 57%|█████▋    | 5499/9678 [12:09:40<9:32:03,  8.21s/it] 57%|█████▋    | 5500/9678 [12:09:49<9:32:04,  8.22s/it]                                                        {'loss': 0.9819, 'grad_norm': 0.7237703800201416, 'learning_rate': 0.0002001274471797252, 'epoch': 0.57}
+ 57%|█████▋    | 5500/9678 [12:09:49<9:32:04,  8.22s/it] 57%|█████▋    | 5501/9678 [12:09:56<9:10:15,  7.90s/it] 57%|█████▋    | 5502/9678 [12:10:04<9:13:19,  7.95s/it] 57%|█████▋    | 5503/9678 [12:10:12<9:13:27,  7.95s/it] 57%|█████▋    | 5504/9678 [12:10:19<8:57:29,  7.73s/it] 57%|█████▋    | 5505/9678 [12:10:26<8:45:24,  7.55s/it] 57%|█████▋    | 5506/9678 [12:10:35<9:11:21,  7.93s/it] 57%|█████▋    | 5507/9678 [12:10:42<8:48:25,  7.60s/it] 57%|█████▋    | 5508/9678 [12:10:49<8:45:08,  7.56s/it] 57%|█████▋    | 5509/9678 [12:10:57<8:49:25,  7.62s/it] 57%|█████▋    | 5510/9678 [12:11:04<8:40:43,  7.50s/it]                                                        {'loss': 0.7477, 'grad_norm': 1.2666767835617065, 'learning_rate': 0.0001993244482597829, 'epoch': 0.57}
+ 57%|█████▋    | 5510/9678 [12:11:04<8:40:43,  7.50s/it] 57%|█████▋    | 5511/9678 [12:11:12<8:40:16,  7.49s/it] 57%|█████▋    | 5512/9678 [12:11:21<9:07:58,  7.89s/it] 57%|█████▋    | 5513/9678 [12:11:30<9:33:55,  8.27s/it] 57%|█████▋    | 5514/9678 [12:11:36<9:01:23,  7.80s/it] 57%|█████▋    | 5515/9678 [12:11:45<9:08:13,  7.90s/it] 57%|█████▋    | 5516/9678 [12:11:53<9:16:21,  8.02s/it] 57%|█████▋    | 5517/9678 [12:12:05<10:36:40,  9.18s/it] 57%|█████▋    | 5518/9678 [12:12:13<10:12:13,  8.83s/it] 57%|█████▋    | 5519/9678 [12:12:21<9:54:32,  8.58s/it]  57%|█████▋    | 5520/9678 [12:12:27<9:17:09,  8.04s/it]                                                        {'loss': 0.7239, 'grad_norm': 1.1628350019454956, 'learning_rate': 0.00019852199418884527, 'epoch': 0.57}
+ 57%|█████▋    | 5520/9678 [12:12:27<9:17:09,  8.04s/it] 57%|█████▋    | 5521/9678 [12:12:35<9:08:39,  7.92s/it] 57%|█████▋    | 5522/9678 [12:12:43<9:02:27,  7.83s/it] 57%|█████▋    | 5523/9678 [12:12:50<8:51:52,  7.68s/it] 57%|█████▋    | 5524/9678 [12:12:57<8:41:57,  7.54s/it] 57%|█████▋    | 5525/9678 [12:13:05<8:44:12,  7.57s/it] 57%|█████▋    | 5526/9678 [12:13:11<8:10:26,  7.09s/it] 57%|█████▋    | 5527/9678 [12:13:18<8:17:49,  7.20s/it] 57%|█████▋    | 5528/9678 [12:13:25<8:10:31,  7.09s/it] 57%|█████▋    | 5529/9678 [12:13:33<8:17:36,  7.20s/it] 57%|█████▋    | 5530/9678 [12:13:41<8:33:15,  7.42s/it]                                                        {'loss': 0.8326, 'grad_norm': 1.1754180192947388, 'learning_rate': 0.00019772009359466828, 'epoch': 0.57}
+ 57%|█████▋    | 5530/9678 [12:13:41<8:33:15,  7.42s/it] 57%|█████▋    | 5531/9678 [12:13:48<8:35:19,  7.46s/it] 57%|█████▋    | 5532/9678 [12:13:57<9:10:08,  7.96s/it] 57%|█████▋    | 5533/9678 [12:14:08<9:58:07,  8.66s/it] 57%|█████▋    | 5534/9678 [12:14:17<10:13:02,  8.88s/it] 57%|█████▋    | 5535/9678 [12:14:25<9:54:03,  8.60s/it]  57%|█████▋    | 5536/9678 [12:14:33<9:44:05,  8.46s/it] 57%|█████▋    | 5537/9678 [12:14:39<9:01:23,  7.84s/it] 57%|█████▋    | 5538/9678 [12:14:49<9:42:03,  8.44s/it] 57%|█████▋    | 5539/9678 [12:14:57<9:26:02,  8.21s/it] 57%|█████▋    | 5540/9678 [12:15:06<9:36:39,  8.36s/it]                                                        {'loss': 0.779, 'grad_norm': 0.9641863703727722, 'learning_rate': 0.00019691875509905718, 'epoch': 0.57}
+ 57%|█████▋    | 5540/9678 [12:15:06<9:36:39,  8.36s/it] 57%|█████▋    | 5541/9678 [12:15:12<9:00:05,  7.83s/it] 57%|█████▋    | 5542/9678 [12:15:20<9:01:13,  7.85s/it] 57%|█████▋    | 5543/9678 [12:15:27<8:51:14,  7.71s/it] 57%|█████▋    | 5544/9678 [12:15:34<8:27:23,  7.36s/it] 57%|█████▋    | 5545/9678 [12:15:42<8:38:39,  7.53s/it] 57%|█████▋    | 5546/9678 [12:15:51<9:15:58,  8.07s/it] 57%|█████▋    | 5547/9678 [12:16:00<9:25:42,  8.22s/it] 57%|█████▋    | 5548/9678 [12:16:09<9:34:38,  8.35s/it] 57%|█████▋    | 5549/9678 [12:16:15<8:56:13,  7.79s/it] 57%|█████▋    | 5550/9678 [12:16:27<10:14:48,  8.94s/it]                                                         {'loss': 0.8895, 'grad_norm': 1.4042216539382935, 'learning_rate': 0.00019611798731777397, 'epoch': 0.57}
+ 57%|█████▋    | 5550/9678 [12:16:27<10:14:48,  8.94s/it] 57%|█████▋    | 5551/9678 [12:16:35<10:11:46,  8.89s/it] 57%|█████▋    | 5552/9678 [12:16:43<9:41:13,  8.45s/it]  57%|█████▋    | 5553/9678 [12:16:52<10:02:31,  8.76s/it] 57%|█████▋    | 5554/9678 [12:17:01<9:50:31,  8.59s/it]  57%|█████▋    | 5555/9678 [12:17:09<9:42:17,  8.47s/it] 57%|█████▋    | 5556/9678 [12:17:15<8:53:43,  7.77s/it] 57%|█████▋    | 5557/9678 [12:17:22<8:46:08,  7.66s/it] 57%|█████▋    | 5558/9678 [12:17:28<8:16:19,  7.23s/it] 57%|█████▋    | 5559/9678 [12:17:37<8:34:49,  7.50s/it] 57%|█████▋    | 5560/9678 [12:17:46<9:06:12,  7.96s/it]                                                        {'loss': 0.8636, 'grad_norm': 0.8444200158119202, 'learning_rate': 0.00019531779886044424, 'epoch': 0.57}
+ 57%|█████▋    | 5560/9678 [12:17:46<9:06:12,  7.96s/it] 57%|█████▋    | 5561/9678 [12:17:54<9:16:29,  8.11s/it] 57%|█████▋    | 5562/9678 [12:18:05<10:07:10,  8.85s/it] 57%|█████▋    | 5563/9678 [12:18:13<9:47:56,  8.57s/it]  57%|█████▋    | 5564/9678 [12:18:19<9:08:26,  8.00s/it] 58%|█████▊    | 5565/9678 [12:18:25<8:28:08,  7.41s/it] 58%|█████▊    | 5566/9678 [12:18:35<9:13:55,  8.08s/it] 58%|█████▊    | 5567/9678 [12:18:43<9:12:20,  8.06s/it] 58%|███���█▊    | 5568/9678 [12:18:53<9:55:49,  8.70s/it] 58%|█████▊    | 5569/9678 [12:19:01<9:39:58,  8.47s/it] 58%|█████▊    | 5570/9678 [12:19:11<10:01:01,  8.78s/it]                                                         {'loss': 0.802, 'grad_norm': 0.8476575016975403, 'learning_rate': 0.0001945181983304647, 'epoch': 0.58}
+ 58%|█████▊    | 5570/9678 [12:19:11<10:01:01,  8.78s/it] 58%|█████▊    | 5571/9678 [12:19:18<9:40:57,  8.49s/it]  58%|█████▊    | 5572/9678 [12:19:27<9:51:56,  8.65s/it] 58%|█████▊    | 5573/9678 [12:19:35<9:27:54,  8.30s/it] 58%|█████▊    | 5574/9678 [12:19:43<9:14:11,  8.10s/it] 58%|█████▊    | 5575/9678 [12:19:51<9:13:32,  8.09s/it] 58%|█████▊    | 5576/9678 [12:20:00<9:46:25,  8.58s/it] 58%|█████▊    | 5577/9678 [12:20:08<9:25:01,  8.27s/it] 58%|█████▊    | 5578/9678 [12:20:15<9:08:19,  8.02s/it] 58%|█████▊    | 5579/9678 [12:20:21<8:27:27,  7.43s/it] 58%|█████▊    | 5580/9678 [12:20:28<8:14:52,  7.25s/it]                                                        {'loss': 0.8356, 'grad_norm': 1.086524486541748, 'learning_rate': 0.00019371919432491108, 'epoch': 0.58}
+ 58%|█████▊    | 5580/9678 [12:20:28<8:14:52,  7.25s/it] 58%|█████▊    | 5581/9678 [12:20:36<8:23:33,  7.37s/it] 58%|█████▊    | 5582/9678 [12:20:43<8:26:05,  7.41s/it] 58%|█████▊    | 5583/9678 [12:20:51<8:20:56,  7.34s/it] 58%|█████▊    | 5584/9678 [12:21:00<9:02:20,  7.95s/it] 58%|█████▊    | 5585/9678 [12:21:07<8:35:22,  7.55s/it] 58%|█████▊    | 5586/9678 [12:21:14<8:31:36,  7.50s/it] 58%|█████▊    | 5587/9678 [12:21:22<8:35:03,  7.55s/it] 58%|█████▊    | 5588/9678 [12:21:30<8:45:10,  7.70s/it] 58%|█████▊    | 5589/9678 [12:21:38<9:02:23,  7.96s/it] 58%|█████▊    | 5590/9678 [12:21:45<8:44:48,  7.70s/it]                                                        {'loss': 0.8772, 'grad_norm': 0.8224913477897644, 'learning_rate': 0.00019292079543444557, 'epoch': 0.58}
+ 58%|█████▊    | 5590/9678 [12:21:45<8:44:48,  7.70s/it] 58%|█████▊    | 5591/9678 [12:21:52<8:25:12,  7.42s/it] 58%|█████▊    | 5592/9678 [12:22:00<8:30:50,  7.50s/it] 58%|█████▊    | 5593/9678 [12:22:07<8:28:54,  7.47s/it] 58%|█████▊    | 5594/9678 [12:22:15<8:37:27,  7.60s/it] 58%|█████▊    | 5595/9678 [12:22:23<8:52:57,  7.83s/it] 58%|█████▊    | 5596/9678 [12:22:31<8:50:09,  7.79s/it] 58%|█████▊    | 5597/9678 [12:22:39<8:52:50,  7.83s/it] 58%|█████▊    | 5598/9678 [12:22:46<8:40:39,  7.66s/it] 58%|█████▊    | 5599/9678 [12:22:53<8:21:31,  7.38s/it] 58%|█████▊    | 5600/9678 [12:23:02<9:03:59,  8.00s/it]                                                        {'loss': 0.883, 'grad_norm': 0.8469100594520569, 'learning_rate': 0.00019212301024322396, 'epoch': 0.58}
+ 58%|█████▊    | 5600/9678 [12:23:02<9:03:59,  8.00s/it] 58%|█████▊    | 5601/9678 [12:23:10<8:56:56,  7.90s/it] 58%|█████▊    | 5602/9678 [12:23:16<8:22:11,  7.39s/it] 58%|█████▊    | 5603/9678 [12:23:24<8:27:41,  7.48s/it] 58%|█████▊    | 5604/9678 [12:23:32<8:43:26,  7.71s/it] 58%|█████▊    | 5605/9678 [12:23:40<8:47:58,  7.78s/it] 58%|█████▊    | 5606/9678 [12:23:46<8:03:37,  7.13s/it] 58%|█████▊    | 5607/9678 [12:23:53<7:54:40,  7.00s/it] 58%|█████▊    | 5608/9678 [12:24:01<8:19:29,  7.36s/it] 58%|█████▊    | 5609/9678 [12:24:11<9:16:12,  8.20s/it] 58%|█████▊    | 5610/9678 [12:24:19<9:09:44,  8.11s/it]                                                        {'loss': 0.7449, 'grad_norm': 0.6162629127502441, 'learning_rate': 0.00019132584732880383, 'epoch': 0.58}
+ 58%|█████▊    | 5610/9678 [12:24:19<9:09:44,  8.11s/it] 58%|█████▊    | 5611/9678 [12:24:27<9:20:27,  8.27s/it] 58%|█████▊    | 5612/9678 [12:24:34<8:53:07,  7.87s/it] 58%|█████▊    | 5613/9678 [12:24:42<8:53:05,  7.87s/it] 58%|█████▊    | 5614/9678 [12:24:50<8:50:59,  7.84s/it] 58%|█████▊    | 5615/9678 [12:24:58<8:48:38,  7.81s/it] 58%|█████▊    | 5616/9678 [12:25:05<8:35:01,  7.61s/it] 58%|█████▊    | 5617/9678 [12:25:14<8:59:16,  7.97s/it] 58%|█████▊    | 5618/9678 [12:25:23<9:24:09,  8.34s/it] 58%|█████▊    | 5619/9678 [12:25:31<9:16:37,  8.23s/it] 58%|█████▊    | 5620/9678 [12:25:38<8:57:53,  7.95s/it]                                                        {'loss': 0.8848, 'grad_norm': 1.1471900939941406, 'learning_rate': 0.00019052931526205267, 'epoch': 0.58}
+ 58%|█████▊    | 5620/9678 [12:25:38<8:57:53,  7.95s/it] 58%|█████▊    | 5621/9678 [12:25:47<9:18:11,  8.26s/it] 58%|█████▊    | 5622/9678 [12:25:55<9:15:28,  8.22s/it] 58%|█████▊    | 5623/9678 [12:26:04<9:28:18,  8.41s/it] 58%|█████▊    | 5624/9678 [12:26:14<9:49:25,  8.72s/it] 58%|█████▊    | 5625/9678 [12:26:21<9:18:03,  8.26s/it] 58%|█████▊    | 5626/9678 [12:26:29<9:14:08,  8.21s/it] 58%|█████▊    | 5627/9678 [12:26:36<8:43:20,  7.75s/it] 58%|█████▊    | 5628/9678 [12:26:44<8:58:47,  7.98s/it] 58%|█████▊    | 5629/9678 [12:26:51<8:44:16,  7.77s/it] 58%|█████▊    | 5630/9678 [12:27:00<9:02:58,  8.05s/it]                                                        {'loss': 0.7942, 'grad_norm': 1.4094953536987305, 'learning_rate': 0.00018973342260705458, 'epoch': 0.58}
+ 58%|█████▊    | 5630/9678 [12:27:00<9:02:58,  8.05s/it] 58%|█████▊    | 5631/9678 [12:27:07<8:39:43,  7.71s/it] 58%|█████▊    | 5632/9678 [12:27:14<8:31:39,  7.59s/it] 58%|█████▊    | 5633/9678 [12:27:22<8:43:55,  7.77s/it] 58%|█████▊    | 5634/9678 [12:27:29<8:27:44,  7.53s/it] 58%|█████▊    | 5635/9678 [12:27:38<8:44:33,  7.78s/it] 58%|█████▊    | 5636/9678 [12:27:46<8:51:58,  7.90s/it] 58%|█████▊    | 5637/9678 [12:27:54<8:49:36,  7.86s/it] 58%|█████▊    | 5638/9678 [12:28:00<8:23:58,  7.48s/it] 58%|█████▊    | 5639/9678 [12:28:08<8:32:45,  7.62s/it] 58%|█████▊    | 5640/9678 [12:28:15<8:18:45,  7.41s/it]                                                        {'loss': 0.8205, 'grad_norm': 0.8406280279159546, 'learning_rate': 0.00018893817792101935, 'epoch': 0.58}
+ 58%|█████▊    | 5640/9678 [12:28:15<8:18:45,  7.41s/it] 58%|█████▊    | 5641/9678 [12:28:22<8:04:14,  7.20s/it] 58%|█████▊    | 5642/9678 [12:28:30<8:27:29,  7.54s/it] 58%|█████▊    | 5643/9678 [12:28:39<8:53:48,  7.94s/it] 58%|█████▊    | 5644/9678 [12:28:47<8:52:23,  7.92s/it] 58%|█████▊    | 5645/9678 [12:28:55<8:55:12,  7.96s/it] 58%|█████▊    | 5646/9678 [12:29:05<9:35:59,  8.57s/it] 58%|█████▊    | 5647/9678 [12:29:13<9:14:26,  8.25s/it] 58%|█████▊    | 5648/9678 [12:29:19<8:44:15,  7.81s/it] 58%|█████▊    | 5649/9678 [12:29:28<8:54:20,  7.96s/it] 58%|█████▊    | 5650/9678 [12:29:39<9:58:30,  8.92s/it]                                                        {'loss': 0.733, 'grad_norm': 1.5820422172546387, 'learning_rate': 0.00018814358975418984, 'epoch': 0.58}
+ 58%|█████▊    | 5650/9678 [12:29:39<9:58:30,  8.92s/it] 58%|█████▊    | 5651/9678 [12:29:46<9:15:59,  8.28s/it] 58%|█████▊    | 5652/9678 [12:29:54<9:23:14,  8.39s/it] 58%|█████▊    | 5653/9678 [12:30:01<8:52:02,  7.93s/it] 58%|█████▊    | 5654/9678 [12:30:08<8:35:37,  7.69s/it] 58%|█████▊    | 5655/9678 [12:30:15<8:21:47,  7.48s/it] 58%|█████▊    | 5656/9678 [12:30:24<8:40:37,  7.77s/it] 58%|█████▊    | 5657/9678 [12:30:32<8:43:45,  7.82s/it] 58%|█████▊    | 5658/9678 [12:30:39<8:45:32,  7.84s/it] 58%|█████▊    | 5659/9678 [12:30:47<8:44:41,  7.83s/it] 58%|█████▊    | 5660/9678 [12:30:55<8:47:46,  7.88s/it]                                                        {'loss': 0.8889, 'grad_norm': 1.0317678451538086, 'learning_rate': 0.00018734966664975023, 'epoch': 0.58}
+ 58%|█████▊    | 5660/9678 [12:30:55<8:47:46,  7.88s/it] 58%|█████▊    | 5661/9678 [12:31:03<8:36:21,  7.71s/it] 59%|█████▊    | 5662/9678 [12:31:11<8:42:59,  7.81s/it] 59%|█████▊    | 5663/9678 [12:31:21<9:35:53,  8.61s/it] 59%|█████▊    | 5664/9678 [12:31:30<9:47:57,  8.79s/it] 59%|█████▊    | 5665/9678 [12:31:38<9:31:09,  8.54s/it] 59%|█████▊    | 5666/9678 [12:31:46<9:19:46,  8.37s/it] 59%|█████▊    | 5667/9678 [12:31:56<9:42:56,  8.72s/it] 59%|█████▊    | 5668/9678 [12:32:03<9:17:45,  8.35s/it] 59%|█████▊    | 5669/9678 [12:32:12<9:24:10,  8.44s/it] 59%|█████▊    | 5670/9678 [12:32:22<10:05:40,  9.07s/it]                                                         {'loss': 0.897, 'grad_norm': 1.1359983682632446, 'learning_rate': 0.00018655641714373413, 'epoch': 0.59}
+ 59%|█████▊    | 5670/9678 [12:32:22<10:05:40,  9.07s/it] 59%|█████▊    | 5671/9678 [12:32:31<9:50:56,  8.85s/it]  59%|█████▊    | 5672/9678 [12:32:39<9:40:38,  8.70s/it] 59%|█████▊    | 5673/9678 [12:32:47<9:33:30,  8.59s/it] 59%|█████▊    | 5674/9678 [12:32:55<9:06:35,  8.19s/it] 59%|█████▊    | 5675/9678 [12:33:04<9:32:48,  8.59s/it] 59%|█████▊    | 5676/9678 [12:33:11<8:54:13,  8.01s/it] 59%|█████▊    | 5677/9678 [12:33:17<8:23:07,  7.54s/it] 59%|█████▊    | 5678/9678 [12:33:26<8:35:13,  7.73s/it] 59%|█████▊    | 5679/9678 [12:33:32<8:17:52,  7.47s/it] 59%|█████▊    | 5680/9678 [12:33:39<8:09:14,  7.34s/it]                                                        {'loss': 0.7574, 'grad_norm': 1.0122281312942505, 'learning_rate': 0.00018576384976493282, 'epoch': 0.59}
+ 59%|█████▊    | 5680/9678 [12:33:39<8:09:14,  7.34s/it] 59%|█████▊    | 5681/9678 [12:33:47<8:06:02,  7.30s/it] 59%|█████▊    | 5682/9678 [12:33:55<8:19:41,  7.50s/it] 59%|█████▊    | 5683/9678 [12:34:02<8:14:28,  7.43s/it] 59%|█████▊    | 5684/9678 [12:34:11<8:41:47,  7.84s/it] 59%|█████▊    | 5685/9678 [12:34:17<8:05:53,  7.30s/it] 59%|█████▉    | 5686/9678 [12:34:24<8:08:57,  7.35s/it] 59%|█████▉    | 5687/9678 [12:34:31<8:00:39,  7.23s/it] 59%|█████▉    | 5688/9678 [12:34:40<8:27:35,  7.63s/it] 59%|█████▉    | 5689/9678 [12:34:46<8:11:22,  7.39s/it] 59%|█████▉    | 5690/9678 [12:34:54<8:07:19,  7.33s/it]                                                        {'loss': 0.7553, 'grad_norm': 0.9288797378540039, 'learning_rate': 0.00018497197303480348, 'epoch': 0.59}
+ 59%|█████▉    | 5690/9678 [12:34:54<8:07:19,  7.33s/it] 59%|█████▉    | 5691/9678 [12:35:01<8:14:17,  7.44s/it] 59%|█████▉    | 5692/9678 [12:35:10<8:45:11,  7.91s/it] 59%|█████▉    | 5693/9678 [12:35:19<8:52:13,  8.01s/it] 59%|█████▉    | 5694/9678 [12:35:26<8:30:01,  7.68s/it] 59%|█████▉    | 5695/9678 [12:35:33<8:27:42,  7.65s/it] 59%|█████▉    | 5696/9678 [12:35:42<8:44:58,  7.91s/it] 59%|█████▉    | 5697/9678 [12:35:51<9:10:02,  8.29s/it] 59%|█████▉    | 5698/9678 [12:36:01<9:40:07,  8.75s/it] 59%|█████▉    | 5699/9678 [12:36:09<9:41:43,  8.77s/it] 59%|█████▉    | 5700/9678 [12:36:18<9:38:37,  8.73s/it]                                                        {'loss': 0.74, 'grad_norm': 0.8775319457054138, 'learning_rate': 0.00018418079546737783, 'epoch': 0.59}
+ 59%|█████▉    | 5700/9678 [12:36:18<9:38:37,  8.73s/it] 59%|█████▉    | 5701/9678 [12:36:25<9:11:32,  8.32s/it] 59%|█████▉    | 5702/9678 [12:36:34<9:23:33,  8.50s/it] 59%|█████▉    | 5703/9678 [12:36:44<9:39:18,  8.74s/it] 59%|█████▉    | 5704/9678 [12:36:52<9:33:21,  8.66s/it] 59%|█████▉    | 5705/9678 [12:37:00<9:16:40,  8.41s/it] 59%|█████▉    | 5706/9678 [12:37:09<9:22:44,  8.50s/it] 59%|█████▉    | 5707/9678 [12:37:17<9:12:55,  8.35s/it] 59%|█████▉    | 5708/9678 [12:37:24<8:42:41,  7.90s/it] 59%|█████▉    | 5709/9678 [12:37:32<8:51:20,  8.03s/it] 59%|█████▉    | 5710/9678 [12:37:40<9:02:01,  8.20s/it]                                                        {'loss': 0.8761, 'grad_norm': 1.075302243232727, 'learning_rate': 0.0001833903255691702, 'epoch': 0.59}
+ 59%|█████▉    | 5710/9678 [12:37:40<9:02:01,  8.20s/it] 59%|█████▉    | 5711/9678 [12:37:49<9:12:31,  8.36s/it] 59%|█████▉    | 5712/9678 [12:37:56<8:43:09,  7.91s/it] 59%|█████▉    | 5713/9678 [12:38:03<8:14:38,  7.49s/it] 59%|█████▉    | 5714/9678 [12:38:10<8:08:34,  7.40s/it] 59%|█████▉    | 5715/9678 [12:38:18<8:19:49,  7.57s/it] 59%|█████▉    | 5716/9678 [12:38:28<9:20:37,  8.49s/it] 59%|█████▉    | 5717/9678 [12:38:37<9:22:14,  8.52s/it] 59%|█████▉    | 5718/9678 [12:38:45<9:04:24,  8.25s/it] 59%|█████▉    | 5719/9678 [12:38:53<9:15:21,  8.42s/it] 59%|█████▉    | 5720/9678 [12:39:00<8:46:05,  7.98s/it]                                                        {'loss': 0.8817, 'grad_norm': 1.0737923383712769, 'learning_rate': 0.00018260057183908625, 'epoch': 0.59}
+ 59%|█████▉    | 5720/9678 [12:39:00<8:46:05,  7.98s/it] 59%|█████▉    | 5721/9678 [12:39:10<9:24:18,  8.56s/it] 59%|█████▉    | 5722/9678 [12:39:18<9:02:04,  8.22s/it] 59%|█████▉    | 5723/9678 [12:39:25<8:54:00,  8.10s/it] 59%|█████▉    | 5724/9678 [12:39:32<8:24:03,  7.65s/it] 59%|█████▉    | 5725/9678 [12:39:39<8:13:30,  7.49s/it] 59%|█████▉    | 5726/9678 [12:39:48<8:40:42,  7.91s/it] 59%|█████▉    | 5727/9678 [12:39:56<8:35:38,  7.83s/it] 59%|█████▉    | 5728/9678 [12:40:03<8:29:00,  7.73s/it] 59%|█████▉    | 5729/9678 [12:40:14<9:22:03,  8.54s/it] 59%|█████▉    | 5730/9678 [12:40:23<9:44:07,  8.88s/it]                                                        {'loss': 0.7806, 'grad_norm': 1.1469508409500122, 'learning_rate': 0.00018181154276833178, 'epoch': 0.59}
+ 59%|█████▉    | 5730/9678 [12:40:23<9:44:07,  8.88s/it] 59%|█████▉    | 5731/9678 [12:40:30<8:55:15,  8.14s/it] 59%|█████▉    | 5732/9678 [12:40:38<8:56:40,  8.16s/it] 59%|█████▉    | 5733/9678 [12:40:44<8:18:44,  7.59s/it] 59%|█████▉    | 5734/9678 [12:40:51<8:09:19,  7.44s/it] 59%|█████▉    | 5735/9678 [12:41:00<8:28:07,  7.73s/it] 59%|█████▉    | 5736/9678 [12:41:09<8:50:11,  8.07s/it] 59%|█████▉    | 5737/9678 [12:41:18<9:21:09,  8.54s/it] 59%|█████▉    | 5738/9678 [12:41:26<8:56:49,  8.18s/it] 59%|█████▉    | 5739/9678 [12:41:33<8:35:35,  7.85s/it] 59%|█████▉    | 5740/9678 [12:41:39<8:09:45,  7.46s/it]                                                        {'loss': 0.7683, 'grad_norm': 0.8804445266723633, 'learning_rate': 0.00018102324684032115, 'epoch': 0.59}
+ 59%|█████▉    | 5740/9678 [12:41:39<8:09:45,  7.46s/it] 59%|█████▉    | 5741/9678 [12:41:46<7:52:00,  7.19s/it] 59%|█████▉    | 5742/9678 [12:41:53<8:01:54,  7.35s/it] 59%|█████▉    | 5743/9678 [12:42:00<7:48:37,  7.15s/it] 59%|█████▉    | 5744/9678 [12:42:09<8:20:16,  7.63s/it] 59%|█████▉    | 5745/9678 [12:42:19<8:59:16,  8.23s/it] 59%|█████▉    | 5746/9678 [12:42:28<9:18:38,  8.52s/it] 59%|█████▉    | 5747/9678 [12:42:35<8:48:54,  8.07s/it] 59%|█████▉    | 5748/9678 [12:42:41<8:21:22,  7.65s/it] 59%|█████▉    | 5749/9678 [12:42:50<8:47:21,  8.05s/it] 59%|█████▉    | 5750/9678 [12:42:57<8:24:26,  7.71s/it]                                                        {'loss': 0.8427, 'grad_norm': 0.9593983888626099, 'learning_rate': 0.00018023569253058613, 'epoch': 0.59}
+ 59%|█████▉    | 5750/9678 [12:42:57<8:24:26,  7.71s/it] 59%|█████▉    | 5751/9678 [12:43:04<8:14:14,  7.55s/it] 59%|█████▉    | 5752/9678 [12:43:12<8:16:52,  7.59s/it] 59%|█████▉    | 5753/9678 [12:43:20<8:16:15,  7.59s/it] 59%|█████▉    | 5754/9678 [12:43:27<8:00:31,  7.35s/it] 59%|█████▉    | 5755/9678 [12:43:35<8:22:14,  7.68s/it] 59%|█████▉    | 5756/9678 [12:43:44<8:39:37,  7.95s/it] 59%|█████▉    | 5757/9678 [12:43:53<9:07:36,  8.38s/it] 59%|█████▉    | 5758/9678 [12:44:01<9:03:35,  8.32s/it] 60%|█████▉    | 5759/9678 [12:44:10<9:13:07,  8.47s/it] 60%|█████▉    | 5760/9678 [12:44:17<8:39:26,  7.95s/it]                                                        {'loss': 0.8697, 'grad_norm': 0.7528694272041321, 'learning_rate': 0.00017944888830668488, 'epoch': 0.6}
+ 60%|█████▉    | 5760/9678 [12:44:17<8:39:26,  7.95s/it] 60%|█████▉    | 5761/9678 [12:44:25<8:37:52,  7.93s/it] 60%|█████▉    | 5762/9678 [12:44:36<9:37:55,  8.85s/it] 60%|█████▉    | 5763/9678 [12:44:45<9:53:49,  9.10s/it] 60%|█████▉    | 5764/9678 [12:44:52<9:14:43,  8.50s/it] 60%|█████▉    | 5765/9678 [12:45:01<9:12:30,  8.47s/it] 60%|█████▉    | 5766/9678 [12:45:10<9:34:33,  8.81s/it] 60%|█████▉    | 5767/9678 [12:45:17<8:57:07,  8.24s/it] 60%|█████▉    | 5768/9678 [12:45:26<9:11:46,  8.47s/it] 60%|█████▉    | 5769/9678 [12:45:35<9:15:42,  8.53s/it] 60%|█████▉    | 5770/9678 [12:45:44<9:15:59,  8.54s/it]                                                        {'loss': 0.779, 'grad_norm': 1.0688844919204712, 'learning_rate': 0.00017866284262811093, 'epoch': 0.6}
+ 60%|█████▉    | 5770/9678 [12:45:44<9:15:59,  8.54s/it] 60%|█████▉    | 5771/9678 [12:45:51<8:48:19,  8.11s/it] 60%|█████▉    | 5772/9678 [12:45:58<8:40:37,  8.00s/it] 60%|█████▉    | 5773/9678 [12:46:06<8:29:27,  7.83s/it] 60%|█████▉    | 5774/9678 [12:46:15<8:59:22,  8.29s/it] 60%|█████▉    | 5775/9678 [12:46:23<8:43:47,  8.05s/it] 60%|█████▉    | 5776/9678 [12:46:30<8:36:43,  7.95s/it] 60%|█████▉    | 5777/9678 [12:46:38<8:25:04,  7.77s/it] 60%|█████▉    | 5778/9678 [12:46:45<8:15:22,  7.62s/it] 60%|█████▉    | 5779/9678 [12:46:54<8:35:15,  7.93s/it] 60%|█████▉    | 5780/9678 [12:47:03<8:55:51,  8.25s/it]                                                        {'loss': 0.8387, 'grad_norm': 1.181410312652588, 'learning_rate': 0.00017787756394620202, 'epoch': 0.6}
+ 60%|█████▉    | 5780/9678 [12:47:03<8:55:51,  8.25s/it] 60%|█████▉    | 5781/9678 [12:47:11<8:48:22,  8.14s/it] 60%|█████▉    | 5782/9678 [12:47:17<8:16:28,  7.65s/it] 60%|█████▉    | 5783/9678 [12:47:26<8:46:21,  8.11s/it] 60%|█████▉    | 5784/9678 [12:47:32<8:02:37,  7.44s/it] 60%|█████▉    | 5785/9678 [12:47:39<7:49:10,  7.23s/it] 60%|█████▉    | 5786/9678 [12:47:50<9:04:58,  8.40s/it] 60%|█████▉    | 5787/9678 [12:47:59<9:10:43,  8.49s/it] 60%|█████▉    | 5788/9678 [12:48:09<9:39:21,  8.94s/it] 60%|█████▉    | 5789/9678 [12:48:15<8:52:34,  8.22s/it] 60%|█████▉    | 5790/9678 [12:48:24<9:04:55,  8.41s/it]                                                        {'loss': 0.7897, 'grad_norm': 0.7557913064956665, 'learning_rate': 0.0001770930607040494, 'epoch': 0.6}
+ 60%|█████▉    | 5790/9678 [12:48:24<9:04:55,  8.41s/it] 60%|█████▉    | 5791/9678 [12:48:31<8:39:24,  8.02s/it] 60%|█████▉    | 5792/9678 [12:48:38<8:15:17,  7.65s/it] 60%|█████▉    | 5793/9678 [12:48:45<8:10:53,  7.58s/it] 60%|█████▉    | 5794/9678 [12:48:54<8:24:22,  7.79s/it] 60%|█████▉    | 5795/9678 [12:49:03<8:47:23,  8.15s/it] 60%|█████▉    | 5796/9678 [12:49:10<8:31:36,  7.91s/it] 60%|█████▉    | 5797/9678 [12:49:19<8:49:21,  8.18s/it] 60%|█████▉    | 5798/9678 [12:49:29<9:23:34,  8.72s/it] 60%|█████▉    | 5799/9678 [12:49:36<8:50:38,  8.21s/it] 60%|█████▉    | 5800/9678 [12:49:44<8:54:13,  8.27s/it]                                                        {'loss': 0.7056, 'grad_norm': 0.9230046272277832, 'learning_rate': 0.00017630934133640704, 'epoch': 0.6}
+ 60%|█████▉    | 5800/9678 [12:49:44<8:54:13,  8.27s/it] 60%|█████▉    | 5801/9678 [12:49:51<8:32:32,  7.93s/it] 60%|█████▉    | 5802/9678 [12:50:01<8:58:02,  8.33s/it] 60%|█████▉    | 5803/9678 [12:50:09<9:01:11,  8.38s/it] 60%|█████▉    | 5804/9678 [12:50:19<9:22:40,  8.71s/it] 60%|█████▉    | 5805/9678 [12:50:26<8:53:59,  8.27s/it] 60%|█████▉    | 5806/9678 [12:50:34<8:46:12,  8.15s/it] 60%|██████    | 5807/9678 [12:50:41<8:31:46,  7.93s/it] 60%|██████    | 5808/9678 [12:50:48<8:15:31,  7.68s/it] 60%|██████    | 5809/9678 [12:50:57<8:37:17,  8.02s/it] 60%|██████    | 5810/9678 [12:51:07<9:19:48,  8.68s/it]                                                        {'loss': 0.8133, 'grad_norm': 0.839525043964386, 'learning_rate': 0.00017552641426960092, 'epoch': 0.6}
+ 60%|██████    | 5810/9678 [12:51:07<9:19:48,  8.68s/it] 60%|██████    | 5811/9678 [12:51:16<9:22:49,  8.73s/it] 60%|██████    | 5812/9678 [12:51:22<8:23:53,  7.82s/it] 60%|██████    | 5813/9678 [12:51:30<8:30:08,  7.92s/it] 60%|██████    | 5814/9678 [12:51:37<8:05:21,  7.54s/it] 60%|██████    | 5815/9678 [12:51:44<8:07:26,  7.57s/it] 60%|██████    | 5816/9678 [12:51:53<8:27:30,  7.88s/it] 60%|██████    | 5817/9678 [12:51:59<8:01:25,  7.48s/it] 60%|██████    | 5818/9678 [12:52:06<7:51:28,  7.33s/it] 60%|██████    | 5819/9678 [12:52:14<8:02:56,  7.51s/it] 60%|██████    | 5820/9678 [12:52:24<8:52:28,  8.28s/it]                                                        {'loss': 0.884, 'grad_norm': 1.102609395980835, 'learning_rate': 0.0001747442879214384, 'epoch': 0.6}
+ 60%|██████    | 5820/9678 [12:52:24<8:52:28,  8.28s/it] 60%|██████    | 5821/9678 [12:52:32<8:35:44,  8.02s/it] 60%|██████    | 5822/9678 [12:52:40<8:44:51,  8.17s/it] 60%|██████    | 5823/9678 [12:52:47<8:19:42,  7.78s/it] 60%|██████    | 5824/9678 [12:52:54<7:56:05,  7.41s/it] 60%|██████    | 5825/9678 [12:53:00<7:37:22,  7.12s/it] 60%|██████    | 5826/9678 [12:53:09<8:05:58,  7.57s/it] 60%|██████    | 5827/9678 [12:53:18<8:45:17,  8.18s/it] 60%|██████    | 5828/9678 [12:53:27<8:53:57,  8.32s/it] 60%|██████    | 5829/9678 [12:53:36<9:00:08,  8.42s/it] 60%|██████    | 5830/9678 [12:53:45<9:19:19,  8.72s/it]                                                        {'loss': 0.7398, 'grad_norm': 0.8469570875167847, 'learning_rate': 0.0001739629707011177, 'epoch': 0.6}
+ 60%|██████    | 5830/9678 [12:53:45<9:19:19,  8.72s/it] 60%|██████    | 5831/9678 [12:53:52<8:40:03,  8.11s/it] 60%|██████    | 5832/9678 [12:53:59<8:22:31,  7.84s/it] 60%|██████    | 5833/9678 [12:54:06<8:06:05,  7.59s/it] 60%|██████    | 5834/9678 [12:54:17<9:18:10,  8.71s/it] 60%|██████    | 5835/9678 [12:54:27<9:42:32,  9.10s/it] 60%|██████    | 5836/9678 [12:54:36<9:29:31,  8.89s/it] 60%|██████    | 5837/9678 [12:54:44<9:12:10,  8.63s/it] 60%|██████    | 5838/9678 [12:54:51<8:50:44,  8.29s/it] 60%|██████    | 5839/9678 [12:54:58<8:26:48,  7.92s/it] 60%|██████    | 5840/9678 [12:55:07<8:43:52,  8.19s/it]                                                        {'loss': 0.8074, 'grad_norm': 1.2042063474655151, 'learning_rate': 0.0001731824710091377, 'epoch': 0.6}
+ 60%|██████    | 5840/9678 [12:55:07<8:43:52,  8.19s/it] 60%|██████    | 5841/9678 [12:55:14<8:26:38,  7.92s/it] 60%|██████    | 5842/9678 [12:55:21<7:57:02,  7.46s/it] 60%|██████    | 5843/9678 [12:55:29<8:10:10,  7.67s/it] 60%|██████    | 5844/9678 [12:55:37<8:19:01,  7.81s/it] 60%|██████    | 5845/9678 [12:55:44<8:07:37,  7.63s/it] 60%|██████    | 5846/9678 [12:55:52<8:04:17,  7.58s/it] 60%|██████    | 5847/9678 [12:56:00<8:19:39,  7.83s/it] 60%|██████    | 5848/9678 [12:56:08<8:13:39,  7.73s/it] 60%|██████    | 5849/9678 [12:56:16<8:18:36,  7.81s/it] 60%|██████    | 5850/9678 [12:56:23<8:12:18,  7.72s/it]                                                        {'loss': 0.8092, 'grad_norm': 2.6056320667266846, 'learning_rate': 0.00017240279723720732, 'epoch': 0.6}
+ 60%|██████    | 5850/9678 [12:56:23<8:12:18,  7.72s/it] 60%|██████    | 5851/9678 [12:56:31<8:16:51,  7.79s/it] 60%|██████    | 5852/9678 [12:56:40<8:29:38,  7.99s/it] 60%|██████    | 5853/9678 [12:56:48<8:29:30,  7.99s/it] 60%|██████    | 5854/9678 [12:56:54<8:06:51,  7.64s/it] 60%|██████    | 5855/9678 [12:57:01<7:55:47,  7.47s/it] 61%|██████    | 5856/9678 [12:57:08<7:34:05,  7.13s/it] 61%|██████    | 5857/9678 [12:57:16<7:49:00,  7.36s/it] 61%|██████    | 5858/9678 [12:57:23<7:37:10,  7.18s/it] 61%|██████    | 5859/9678 [12:57:31<8:02:16,  7.58s/it] 61%|██████    | 5860/9678 [12:57:39<8:11:48,  7.73s/it]                                                        {'loss': 0.8346, 'grad_norm': 0.788226306438446, 'learning_rate': 0.00017162395776815532, 'epoch': 0.61}
+ 61%|██████    | 5860/9678 [12:57:39<8:11:48,  7.73s/it] 61%|██████    | 5861/9678 [12:57:48<8:26:44,  7.97s/it] 61%|██████    | 5862/9678 [12:57:57<8:47:42,  8.30s/it] 61%|██████    | 5863/9678 [12:58:04<8:36:15,  8.12s/it] 61%|██████    | 5864/9678 [12:58:13<8:49:29,  8.33s/it] 61%|██████    | 5865/9678 [12:58:21<8:33:21,  8.08s/it] 61%|██████    | 5866/9678 [12:58:30<9:02:53,  8.55s/it] 61%|██████    | 5867/9678 [12:58:40<9:33:42,  9.03s/it] 61%|██████    | 5868/9678 [12:58:48<9:10:14,  8.67s/it] 61%|██████    | 5869/9678 [12:58:55<8:41:23,  8.21s/it] 61%|██████    | 5870/9678 [12:59:03<8:35:39,  8.12s/it]                                                        {'loss': 0.7632, 'grad_norm': 0.8313378095626831, 'learning_rate': 0.00017084596097584044, 'epoch': 0.61}
+ 61%|██████    | 5870/9678 [12:59:03<8:35:39,  8.12s/it] 61%|██████    | 5871/9678 [12:59:12<8:40:22,  8.20s/it] 61%|██████    | 5872/9678 [12:59:18<8:03:19,  7.62s/it] 61%|██████    | 5873/9678 [12:59:26<8:02:19,  7.61s/it] 61%|██████    | 5874/9678 [12:59:32<7:47:19,  7.37s/it] 61%|██████    | 5875/9678 [12:59:42<8:21:03,  7.91s/it] 61%|██████    | 5876/9678 [12:59:51<8:44:02,  8.27s/it] 61%|██████    | 5877/9678 [12:59:59<8:45:14,  8.29s/it] 61%|██████    | 5878/9678 [13:00:08<8:53:03,  8.42s/it] 61%|██████    | 5879/9678 [13:00:15<8:23:43,  7.96s/it] 61%|██████    | 5880/9678 [13:00:23<8:35:12,  8.14s/it]                                                        {'loss': 0.7813, 'grad_norm': 0.9668551087379456, 'learning_rate': 0.00017006881522506123, 'epoch': 0.61}
+ 61%|██████    | 5880/9678 [13:00:23<8:35:12,  8.14s/it] 61%|██████    | 5881/9678 [13:00:30<8:05:18,  7.67s/it] 61%|██████    | 5882/9678 [13:00:37<8:01:05,  7.60s/it] 61%|██████    | 5883/9678 [13:00:45<8:06:38,  7.69s/it] 61%|██████    | 5884/9678 [13:00:55<8:44:29,  8.29s/it] 61%|██████    | 5885/9678 [13:01:02<8:18:36,  7.89s/it] 61%|██████    | 5886/9678 [13:01:12<9:05:54,  8.64s/it] 61%|██████    | 5887/9678 [13:01:22<9:31:53,  9.05s/it] 61%|██████    | 5888/9678 [13:01:29<8:56:22,  8.49s/it] 61%|██████    | 5889/9678 [13:01:38<8:54:48,  8.47s/it] 61%|██████    | 5890/9678 [13:01:46<8:42:21,  8.27s/it]                                                        {'loss': 0.633, 'grad_norm': 1.2980097532272339, 'learning_rate': 0.00016929252887146597, 'epoch': 0.61}
+ 61%|██████    | 5890/9678 [13:01:46<8:42:21,  8.27s/it] 61%|██████    | 5891/9678 [13:01:54<8:41:31,  8.26s/it] 61%|██████    | 5892/9678 [13:02:01<8:24:39,  8.00s/it] 61%|██████    | 5893/9678 [13:02:11<8:56:12,  8.50s/it] 61%|██████    | 5894/9678 [13:02:19<8:54:26,  8.47s/it] 61%|██████    | 5895/9678 [13:02:27<8:47:13,  8.36s/it] 61%|██████    | 5896/9678 [13:02:34<8:11:17,  7.79s/it] 61%|██████    | 5897/9678 [13:02:40<7:42:42,  7.34s/it] 61%|██████    | 5898/9678 [13:02:47<7:34:28,  7.21s/it] 61%|██████    | 5899/9678 [13:02:56<8:10:14,  7.78s/it] 61%|██████    | 5900/9678 [13:03:05<8:36:04,  8.20s/it]                                                        {'loss': 0.8067, 'grad_norm': 1.296339511871338, 'learning_rate': 0.00016851711026146294, 'epoch': 0.61}
+ 61%|██████    | 5900/9678 [13:03:05<8:36:04,  8.20s/it] 61%|██████    | 5901/9678 [13:03:12<8:14:11,  7.85s/it] 61%|██████    | 5902/9678 [13:03:18<7:36:19,  7.25s/it] 61%|██████    | 5903/9678 [13:03:27<8:02:55,  7.68s/it] 61%|██████    | 5904/9678 [13:03:34<7:52:55,  7.52s/it] 61%|██████    | 5905/9678 [13:03:41<7:41:49,  7.34s/it] 61%|██████    | 5906/9678 [13:03:48<7:44:12,  7.38s/it] 61%|██████    | 5907/9678 [13:03:56<7:43:11,  7.37s/it] 61%|██████    | 5908/9678 [13:04:05<8:10:21,  7.80s/it] 61%|██████    | 5909/9678 [13:04:13<8:22:24,  8.00s/it] 61%|██████    | 5910/9678 [13:04:19<7:50:52,  7.50s/it]                                                        {'loss': 0.8509, 'grad_norm': 0.8966313600540161, 'learning_rate': 0.00016774256773213075, 'epoch': 0.61}
+ 61%|██████    | 5910/9678 [13:04:19<7:50:52,  7.50s/it] 61%|██████    | 5911/9678 [13:04:26<7:37:15,  7.28s/it] 61%|██████    | 5912/9678 [13:04:34<7:38:45,  7.31s/it] 61%|██████    | 5913/9678 [13:04:41<7:38:16,  7.30s/it] 61%|██████    | 5914/9678 [13:04:51<8:30:10,  8.13s/it] 61%|██████    | 5915/9678 [13:04:58<8:12:22,  7.85s/it] 61%|██████    | 5916/9678 [13:05:05<7:47:05,  7.45s/it] 61%|██████    | 5917/9678 [13:05:12<7:43:58,  7.40s/it] 61%|██████    | 5918/9678 [13:05:21<8:12:48,  7.86s/it] 61%|██████    | 5919/9678 [13:05:27<7:46:12,  7.44s/it] 61%|██████    | 5920/9678 [13:05:37<8:23:16,  8.04s/it]                                                        {'loss': 0.6981, 'grad_norm': 1.408347249031067, 'learning_rate': 0.00016696890961112867, 'epoch': 0.61}
+ 61%|██████    | 5920/9678 [13:05:37<8:23:16,  8.04s/it] 61%|██████    | 5921/9678 [13:05:44<8:18:24,  7.96s/it] 61%|██████    | 5922/9678 [13:05:54<8:50:26,  8.47s/it] 61%|██████    | 5923/9678 [13:06:02<8:35:53,  8.24s/it] 61%|██████    | 5924/9678 [13:06:10<8:28:19,  8.12s/it] 61%|██████    | 5925/9678 [13:06:19<8:57:55,  8.60s/it] 61%|██████    | 5926/9678 [13:06:27<8:34:51,  8.23s/it] 61%|██████    | 5927/9678 [13:06:34<8:16:31,  7.94s/it] 61%|██████▏   | 5928/9678 [13:06:41<7:58:42,  7.66s/it] 61%|██████▏   | 5929/9678 [13:06:51<8:35:45,  8.25s/it] 61%|██████▏   | 5930/9678 [13:07:00<8:53:22,  8.54s/it]                                                        {'loss': 0.7626, 'grad_norm': 1.421396017074585, 'learning_rate': 0.00016619614421660702, 'epoch': 0.61}
+ 61%|██████▏   | 5930/9678 [13:07:00<8:53:22,  8.54s/it] 61%|██████▏   | 5931/9678 [13:07:09<9:03:14,  8.70s/it] 61%|██████▏   | 5932/9678 [13:07:18<9:11:06,  8.83s/it] 61%|██████▏   | 5933/9678 [13:07:24<8:20:17,  8.02s/it] 61%|██████▏   | 5934/9678 [13:07:33<8:30:56,  8.19s/it] 61%|██████▏   | 5935/9678 [13:07:42<8:54:23,  8.57s/it] 61%|██████▏   | 5936/9678 [13:07:50<8:36:10,  8.28s/it] 61%|██████▏   | 5937/9678 [13:08:01<9:24:51,  9.06s/it] 61%|██████▏   | 5938/9678 [13:08:10<9:32:15,  9.18s/it] 61%|██████▏   | 5939/9678 [13:08:18<9:09:07,  8.81s/it] 61%|██████▏   | 5940/9678 [13:08:28<9:30:22,  9.16s/it]                                                        {'loss': 0.7558, 'grad_norm': 1.4539517164230347, 'learning_rate': 0.0001654242798571177, 'epoch': 0.61}
+ 61%|██████▏   | 5940/9678 [13:08:28<9:30:22,  9.16s/it] 61%|██████▏   | 5941/9678 [13:08:37<9:15:59,  8.93s/it] 61%|██████▏   | 5942/9678 [13:08:43<8:34:16,  8.26s/it] 61%|██████▏   | 5943/9678 [13:08:51<8:22:07,  8.07s/it] 61%|██████▏   | 5944/9678 [13:09:00<8:40:02,  8.36s/it] 61%|██████▏   | 5945/9678 [13:09:07<8:23:43,  8.10s/it] 61%|██████▏   | 5946/9678 [13:09:15<8:12:12,  7.91s/it] 61%|██████▏   | 5947/9678 [13:09:25<8:47:35,  8.48s/it] 61%|██████▏   | 5948/9678 [13:09:31<8:14:31,  7.95s/it] 61%|██████▏   | 5949/9678 [13:09:39<8:06:52,  7.83s/it] 61%|██████▏   | 5950/9678 [13:09:49<8:52:57,  8.58s/it]                                                        {'loss': 0.7626, 'grad_norm': 1.0731654167175293, 'learning_rate': 0.0001646533248315252, 'epoch': 0.61}
+ 61%|██████▏   | 5950/9678 [13:09:49<8:52:57,  8.58s/it] 61%|██████▏   | 5951/9678 [13:09:56<8:22:33,  8.09s/it] 62%|██████▏   | 5952/9678 [13:10:03<8:00:01,  7.73s/it] 62%|██████▏   | 5953/9678 [13:10:10<7:48:04,  7.54s/it] 62%|██████▏   | 5954/9678 [13:10:18<8:00:26,  7.74s/it] 62%|██████▏   | 5955/9678 [13:10:25<7:39:32,  7.41s/it] 62%|██████▏   | 5956/9678 [13:10:33<7:47:03,  7.53s/it] 62%|██████▏   | 5957/9678 [13:10:41<8:00:44,  7.75s/it] 62%|██████▏   | 5958/9678 [13:10:49<8:05:09,  7.83s/it] 62%|██████▏   | 5959/9678 [13:10:57<8:10:03,  7.91s/it] 62%|██████▏   | 5960/9678 [13:11:05<8:02:55,  7.79s/it]                                                        {'loss': 0.7243, 'grad_norm': 1.100475788116455, 'learning_rate': 0.00016388328742891677, 'epoch': 0.62}
+ 62%|██████▏   | 5960/9678 [13:11:05<8:02:55,  7.79s/it] 62%|██████▏   | 5961/9678 [13:11:13<8:11:13,  7.93s/it] 62%|██████▏   | 5962/9678 [13:11:21<8:14:17,  7.98s/it] 62%|██████▏   | 5963/9678 [13:11:30<8:24:09,  8.14s/it] 62%|██████▏   | 5964/9678 [13:11:37<8:01:38,  7.78s/it] 62%|██████▏   | 5965/9678 [13:11:42<7:09:42,  6.94s/it] 62%|██████▏   | 5966/9678 [13:11:51<7:51:33,  7.62s/it] 62%|██████▏   | 5967/9678 [13:11:58<7:53:20,  7.65s/it] 62%|██████▏   | 5968/9678 [13:12:05<7:38:29,  7.42s/it] 62%|██████▏   | 5969/9678 [13:12:13<7:45:43,  7.53s/it] 62%|██████▏   | 5970/9678 [13:12:20<7:36:22,  7.38s/it]                                                        {'loss': 0.8071, 'grad_norm': 1.0175180435180664, 'learning_rate': 0.00016311417592851396, 'epoch': 0.62}
+ 62%|██████▏   | 5970/9678 [13:12:20<7:36:22,  7.38s/it] 62%|██████▏   | 5971/9678 [13:12:26<7:03:34,  6.86s/it] 62%|██████▏   | 5972/9678 [13:12:33<7:13:52,  7.02s/it] 62%|██████▏   | 5973/9678 [13:12:41<7:29:39,  7.28s/it] 62%|██████▏   | 5974/9678 [13:12:50<7:51:51,  7.64s/it] 62%|██████▏   | 5975/9678 [13:12:59<8:17:35,  8.06s/it] 62%|██████▏   | 5976/9678 [13:13:07<8:20:36,  8.11s/it] 62%|██████▏   | 5977/9678 [13:13:13<7:52:04,  7.65s/it] 62%|██████▏   | 5978/9678 [13:13:22<8:14:41,  8.02s/it] 62%|██████▏   | 5979/9678 [13:13:31<8:26:45,  8.22s/it] 62%|██████▏   | 5980/9678 [13:13:37<7:49:21,  7.62s/it]                                                        {'loss': 0.7203, 'grad_norm': 0.9055405259132385, 'learning_rate': 0.00016234599859958287, 'epoch': 0.62}
+ 62%|██████▏   | 5980/9678 [13:13:37<7:49:21,  7.62s/it] 62%|██████▏   | 5981/9678 [13:13:46<8:08:05,  7.92s/it] 62%|██████▏   | 5982/9678 [13:13:53<7:58:01,  7.76s/it] 62%|██████▏   | 5983/9678 [13:14:00<7:36:57,  7.42s/it] 62%|██████▏   | 5984/9678 [13:14:08<7:57:12,  7.75s/it] 62%|██████▏   | 5985/9678 [13:14:17<8:20:34,  8.13s/it] 62%|██████▏   | 5986/9678 [13:14:27<8:40:50,  8.46s/it] 62%|██████▏   | 5987/9678 [13:14:34<8:22:01,  8.16s/it] 62%|██████▏   | 5988/9678 [13:14:43<8:33:37,  8.35s/it] 62%|██████▏   | 5989/9678 [13:14:51<8:28:03,  8.26s/it] 62%|██████▏   | 5990/9678 [13:14:59<8:16:42,  8.08s/it]                                                        {'loss': 0.706, 'grad_norm': 1.0334464311599731, 'learning_rate': 0.00016157876370134617, 'epoch': 0.62}
+ 62%|██████▏   | 5990/9678 [13:14:59<8:16:42,  8.08s/it] 62%|██████▏   | 5991/9678 [13:15:05<7:49:04,  7.63s/it] 62%|██████▏   | 5992/9678 [13:15:13<7:45:45,  7.58s/it] 62%|██████▏   | 5993/9678 [13:15:23<8:31:20,  8.33s/it] 62%|██████▏   | 5994/9678 [13:15:31<8:31:19,  8.33s/it] 62%|██████▏   | 5995/9678 [13:15:41<8:55:59,  8.73s/it] 62%|██████▏   | 5996/9678 [13:15:50<8:57:48,  8.76s/it] 62%|██████▏   | 5997/9678 [13:15:57<8:31:41,  8.34s/it] 62%|██████▏   | 5998/9678 [13:16:05<8:25:43,  8.25s/it] 62%|██████▏   | 5999/9678 [13:16:13<8:15:10,  8.08s/it] 62%|██████▏   | 6000/9678 [13:16:19<7:41:52,  7.53s/it]                                                        {'loss': 0.7802, 'grad_norm': 1.1770230531692505, 'learning_rate': 0.00016081247948289353, 'epoch': 0.62}
+ 62%|██████▏   | 6000/9678 [13:16:19<7:41:52,  7.53s/it] 62%|██████▏   | 6001/9678 [13:16:25<7:09:53,  7.01s/it] 62%|██████▏   | 6002/9678 [13:16:33<7:36:22,  7.45s/it] 62%|██████▏   | 6003/9678 [13:16:41<7:48:05,  7.64s/it] 62%|██████▏   | 6004/9678 [13:16:49<7:46:31,  7.62s/it] 62%|██████▏   | 6005/9678 [13:16:59<8:36:08,  8.43s/it] 62%|██████▏   | 6006/9678 [13:17:08<8:51:39,  8.69s/it] 62%|██████▏   | 6007/9678 [13:17:17<8:44:41,  8.58s/it] 62%|██████▏   | 6008/9678 [13:17:23<8:03:37,  7.91s/it] 62%|██████▏   | 6009/9678 [13:17:31<8:12:05,  8.05s/it] 62%|██████▏   | 6010/9678 [13:17:40<8:14:01,  8.08s/it]                                                        {'loss': 0.7762, 'grad_norm': 0.8190944790840149, 'learning_rate': 0.00016004715418309304, 'epoch': 0.62}
+ 62%|██████▏   | 6010/9678 [13:17:40<8:14:01,  8.08s/it] 62%|██████▏   | 6011/9678 [13:17:48<8:18:48,  8.16s/it] 62%|██████▏   | 6012/9678 [13:17:54<7:45:55,  7.63s/it] 62%|██████▏   | 6013/9678 [13:18:03<8:02:14,  7.89s/it] 62%|██████▏   | 6014/9678 [13:18:12<8:25:18,  8.27s/it] 62%|██████▏   | 6015/9678 [13:18:19<8:10:16,  8.03s/it] 62%|██████▏   | 6016/9678 [13:18:28<8:20:31,  8.20s/it] 62%|██████▏   | 6017/9678 [13:18:38<8:55:44,  8.78s/it] 62%|██████▏   | 6018/9678 [13:18:47<8:58:36,  8.83s/it] 62%|██████▏   | 6019/9678 [13:18:55<8:40:29,  8.53s/it] 62%|██████▏   | 6020/9678 [13:19:05<9:07:32,  8.98s/it]                                                        {'loss': 0.7886, 'grad_norm': 1.0050560235977173, 'learning_rate': 0.0001592827960305029, 'epoch': 0.62}
+ 62%|██████▏   | 6020/9678 [13:19:05<9:07:32,  8.98s/it] 62%|██████▏   | 6021/9678 [13:19:12<8:39:00,  8.52s/it] 62%|██████▏   | 6022/9678 [13:19:20<8:16:30,  8.15s/it] 62%|██████▏   | 6023/9678 [13:19:27<7:56:49,  7.83s/it] 62%|██████▏   | 6024/9678 [13:19:35<8:06:43,  7.99s/it] 62%|██████▏   | 6025/9678 [13:19:43<7:55:34,  7.81s/it] 62%|██████▏   | 6026/9678 [13:19:50<7:41:33,  7.58s/it] 62%|██████▏   | 6027/9678 [13:19:56<7:22:14,  7.27s/it] 62%|██████▏   | 6028/9678 [13:20:04<7:23:52,  7.30s/it] 62%|██████▏   | 6029/9678 [13:20:11<7:33:55,  7.46s/it] 62%|██████▏   | 6030/9678 [13:20:20<7:46:46,  7.68s/it]                                                        {'loss': 0.8016, 'grad_norm': 1.1464440822601318, 'learning_rate': 0.000158519413243283, 'epoch': 0.62}
+ 62%|██████▏   | 6030/9678 [13:20:20<7:46:46,  7.68s/it] 62%|██████▏   | 6031/9678 [13:20:27<7:35:37,  7.50s/it] 62%|██████▏   | 6032/9678 [13:20:33<7:09:05,  7.06s/it] 62%|██████▏   | 6033/9678 [13:20:40<7:04:46,  6.99s/it] 62%|██████▏   | 6034/9678 [13:20:49<7:53:14,  7.79s/it] 62%|██████▏   | 6035/9678 [13:20:57<7:47:22,  7.70s/it] 62%|██████▏   | 6036/9678 [13:21:05<7:55:36,  7.84s/it] 62%|██████▏   | 6037/9678 [13:21:14<8:26:32,  8.35s/it] 62%|██████▏   | 6038/9678 [13:21:22<8:20:44,  8.25s/it] 62%|██████▏   | 6039/9678 [13:21:31<8:20:03,  8.25s/it] 62%|██████▏   | 6040/9678 [13:21:38<7:57:11,  7.87s/it]                                                        {'loss': 0.802, 'grad_norm': 0.8896029591560364, 'learning_rate': 0.00015775701402910626, 'epoch': 0.62}
+ 62%|██████▏   | 6040/9678 [13:21:38<7:57:11,  7.87s/it] 62%|██████▏   | 6041/9678 [13:21:45<7:46:46,  7.70s/it] 62%|██████▏   | 6042/9678 [13:21:52<7:35:40,  7.52s/it] 62%|██████▏   | 6043/9678 [13:22:01<8:04:35,  8.00s/it] 62%|██████▏   | 6044/9678 [13:22:08<7:51:17,  7.78s/it] 62%|██████▏   | 6045/9678 [13:22:17<8:10:29,  8.10s/it] 62%|██████▏   | 6046/9678 [13:22:24<7:51:24,  7.79s/it] 62%|██████▏   | 6047/9678 [13:22:33<8:16:39,  8.21s/it] 62%|██████▏   | 6048/9678 [13:22:40<7:42:56,  7.65s/it] 63%|██████▎   | 6049/9678 [13:22:48<7:46:54,  7.72s/it] 63%|██████▎   | 6050/9678 [13:22:55<7:34:14,  7.51s/it]                                                        {'loss': 0.7755, 'grad_norm': 0.7307144403457642, 'learning_rate': 0.00015699560658507012, 'epoch': 0.63}
+ 63%|██████▎   | 6050/9678 [13:22:55<7:34:14,  7.51s/it] 63%|██████▎   | 6051/9678 [13:23:02<7:28:24,  7.42s/it] 63%|██████▎   | 6052/9678 [13:23:10<7:32:41,  7.49s/it] 63%|██████▎   | 6053/9678 [13:23:17<7:32:36,  7.49s/it] 63%|██████▎   | 6054/9678 [13:23:25<7:47:06,  7.73s/it] 63%|██████▎   | 6055/9678 [13:23:31<7:12:01,  7.15s/it] 63%|██████▎   | 6056/9678 [13:23:39<7:22:43,  7.33s/it] 63%|██████▎   | 6057/9678 [13:23:48<7:52:43,  7.83s/it] 63%|██████▎   | 6058/9678 [13:23:55<7:32:35,  7.50s/it] 63%|██████▎   | 6059/9678 [13:24:02<7:21:22,  7.32s/it] 63%|██████▎   | 6060/9678 [13:24:09<7:18:00,  7.26s/it]                                                        {'loss': 0.697, 'grad_norm': 0.767782986164093, 'learning_rate': 0.00015623519909760953, 'epoch': 0.63}
+ 63%|██████▎   | 6060/9678 [13:24:09<7:18:00,  7.26s/it] 63%|██████▎   | 6061/9678 [13:24:15<6:59:15,  6.95s/it] 63%|██████▎   | 6062/9678 [13:24:24<7:28:36,  7.44s/it] 63%|██████▎   | 6063/9678 [13:24:32<7:44:40,  7.71s/it] 63%|██████▎   | 6064/9678 [13:24:41<8:06:35,  8.08s/it] 63%|██████▎   | 6065/9678 [13:24:49<8:08:53,  8.12s/it] 63%|██████▎   | 6066/9678 [13:24:55<7:31:47,  7.50s/it] 63%|██████▎   | 6067/9678 [13:25:03<7:39:22,  7.63s/it] 63%|██████▎   | 6068/9678 [13:25:10<7:28:18,  7.45s/it] 63%|██████▎   | 6069/9678 [13:25:18<7:32:46,  7.53s/it] 63%|██████▎   | 6070/9678 [13:25:27<7:57:28,  7.94s/it]                                                        {'loss': 0.8005, 'grad_norm': 0.8861032724380493, 'learning_rate': 0.00015547579974240766, 'epoch': 0.63}
+ 63%|██████▎   | 6070/9678 [13:25:27<7:57:28,  7.94s/it] 63%|██████▎   | 6071/9678 [13:25:34<7:46:28,  7.76s/it] 63%|██████▎   | 6072/9678 [13:25:42<7:50:38,  7.83s/it] 63%|██████▎   | 6073/9678 [13:25:50<7:46:53,  7.77s/it] 63%|██████▎   | 6074/9678 [13:25:57<7:33:06,  7.54s/it] 63%|██████▎   | 6075/9678 [13:26:05<7:43:10,  7.71s/it] 63%|██████▎   | 6076/9678 [13:26:13<7:52:11,  7.87s/it] 63%|██████▎   | 6077/9678 [13:26:20<7:29:21,  7.49s/it] 63%|██████▎   | 6078/9678 [13:26:26<7:16:18,  7.27s/it] 63%|██████▎   | 6079/9678 [13:26:34<7:22:19,  7.37s/it] 63%|██████▎   | 6080/9678 [13:26:42<7:34:11,  7.57s/it]                                                        {'loss': 0.8324, 'grad_norm': 0.9863024950027466, 'learning_rate': 0.00015471741668430863, 'epoch': 0.63}
+ 63%|██████▎   | 6080/9678 [13:26:42<7:34:11,  7.57s/it] 63%|██████▎   | 6081/9678 [13:26:52<8:14:30,  8.25s/it] 63%|██████▎   | 6082/9678 [13:27:00<8:09:15,  8.16s/it] 63%|██████▎   | 6083/9678 [13:27:07<7:58:45,  7.99s/it] 63%|██████▎   | 6084/9678 [13:27:14<7:43:21,  7.74s/it] 63%|██████▎   | 6085/9678 [13:27:21<7:26:26,  7.46s/it] 63%|██████▎   | 6086/9678 [13:27:28<7:13:37,  7.24s/it] 63%|██████▎   | 6087/9678 [13:27:36<7:27:32,  7.48s/it] 63%|██████▎   | 6088/9678 [13:27:44<7:39:28,  7.68s/it] 63%|██████▎   | 6089/9678 [13:27:53<7:55:55,  7.96s/it] 63%|██████▎   | 6090/9678 [13:28:04<8:45:12,  8.78s/it]                                                        {'loss': 0.8615, 'grad_norm': 0.8046024441719055, 'learning_rate': 0.0001539600580772296, 'epoch': 0.63}
+ 63%|██████▎   | 6090/9678 [13:28:04<8:45:12,  8.78s/it] 63%|██████▎   | 6091/9678 [13:28:11<8:18:13,  8.33s/it] 63%|██████▎   | 6092/9678 [13:28:20<8:26:23,  8.47s/it] 63%|██████▎   | 6093/9678 [13:28:27<8:09:57,  8.20s/it] 63%|██████▎   | 6094/9678 [13:28:34<7:52:27,  7.91s/it] 63%|██████▎   | 6095/9678 [13:28:42<7:48:49,  7.85s/it] 63%|██████▎   | 6096/9678 [13:28:51<8:09:03,  8.19s/it] 63%|██████▎   | 6097/9678 [13:28:58<7:54:24,  7.95s/it] 63%|██████▎   | 6098/9678 [13:29:06<7:41:16,  7.73s/it] 63%|██████▎   | 6099/9678 [13:29:14<7:58:01,  8.01s/it] 63%|██████▎   | 6100/9678 [13:29:24<8:21:57,  8.42s/it]                                                        {'loss': 0.8317, 'grad_norm': 1.283008098602295, 'learning_rate': 0.0001532037320640734, 'epoch': 0.63}
+ 63%|██████▎   | 6100/9678 [13:29:24<8:21:57,  8.42s/it] 63%|██████▎   | 6101/9678 [13:29:34<8:56:56,  9.01s/it] 63%|██████▎   | 6102/9678 [13:29:44<9:09:17,  9.22s/it] 63%|██████▎   | 6103/9678 [13:29:52<8:58:05,  9.03s/it] 63%|██████▎   | 6104/9678 [13:30:02<9:03:18,  9.12s/it] 63%|██████▎   | 6105/9678 [13:30:10<8:52:48,  8.95s/it] 63%|██████▎   | 6106/9678 [13:30:18<8:30:13,  8.57s/it] 63%|██████▎   | 6107/9678 [13:30:25<8:05:54,  8.16s/it] 63%|██████▎   | 6108/9678 [13:30:35<8:27:07,  8.52s/it] 63%|██████▎   | 6109/9678 [13:30:42<8:03:18,  8.13s/it] 63%|██████▎   | 6110/9678 [13:30:49<7:44:00,  7.80s/it]                                                        {'loss': 0.7516, 'grad_norm': 0.9851896166801453, 'learning_rate': 0.00015244844677664036, 'epoch': 0.63}
+ 63%|██████▎   | 6110/9678 [13:30:49<7:44:00,  7.80s/it] 63%|██████▎   | 6111/9678 [13:30:57<7:43:26,  7.80s/it] 63%|██████▎   | 6112/9678 [13:31:07<8:31:47,  8.61s/it] 63%|██████▎   | 6113/9678 [13:31:13<7:51:53,  7.94s/it] 63%|██████▎   | 6114/9678 [13:31:21<7:44:09,  7.81s/it] 63%|██████▎   | 6115/9678 [13:31:29<7:45:39,  7.84s/it] 63%|██████▎   | 6116/9678 [13:31:37<7:55:45,  8.01s/it] 63%|██████▎   | 6117/9678 [13:31:46<8:12:34,  8.30s/it] 63%|███��██▎   | 6118/9678 [13:31:56<8:33:45,  8.66s/it] 63%|██████▎   | 6119/9678 [13:32:04<8:34:04,  8.67s/it] 63%|██████▎   | 6120/9678 [13:32:13<8:23:39,  8.49s/it]                                                        {'loss': 0.7692, 'grad_norm': 1.4205191135406494, 'learning_rate': 0.00015169421033554137, 'epoch': 0.63}
+ 63%|██████▎   | 6120/9678 [13:32:13<8:23:39,  8.49s/it] 63%|██████▎   | 6121/9678 [13:32:21<8:29:46,  8.60s/it] 63%|██████▎   | 6122/9678 [13:32:30<8:28:23,  8.58s/it] 63%|██████▎   | 6123/9678 [13:32:39<8:42:47,  8.82s/it] 63%|██████▎   | 6124/9678 [13:32:46<8:05:13,  8.19s/it] 63%|██████▎   | 6125/9678 [13:32:55<8:26:52,  8.56s/it] 63%|██████▎   | 6126/9678 [13:33:05<8:48:58,  8.94s/it] 63%|██████▎   | 6127/9678 [13:33:13<8:31:32,  8.64s/it] 63%|██████▎   | 6128/9678 [13:33:22<8:41:27,  8.81s/it] 63%|██████▎   | 6129/9678 [13:33:30<8:09:47,  8.28s/it] 63%|██████▎   | 6130/9678 [13:33:38<8:05:27,  8.21s/it]                                                        {'loss': 0.7453, 'grad_norm': 0.9991669058799744, 'learning_rate': 0.0001509410308501104, 'epoch': 0.63}
+ 63%|██████▎   | 6130/9678 [13:33:38<8:05:27,  8.21s/it] 63%|██████▎   | 6131/9678 [13:33:46<8:06:04,  8.22s/it] 63%|██████▎   | 6132/9678 [13:33:54<8:05:06,  8.21s/it] 63%|██████▎   | 6133/9678 [13:34:03<8:26:46,  8.58s/it] 63%|██████▎   | 6134/9678 [13:34:10<7:59:00,  8.11s/it] 63%|██████▎   | 6135/9678 [13:34:20<8:20:40,  8.48s/it] 63%|██████▎   | 6136/9678 [13:34:27<7:59:16,  8.12s/it] 63%|██████▎   | 6137/9678 [13:34:36<8:19:31,  8.46s/it] 63%|██████▎   | 6138/9678 [13:34:44<8:05:09,  8.22s/it] 63%|██████▎   | 6139/9678 [13:34:51<7:35:51,  7.73s/it] 63%|██████▎   | 6140/9678 [13:34:58<7:29:17,  7.62s/it]                                                        {'loss': 0.8026, 'grad_norm': 0.723731279373169, 'learning_rate': 0.00015018891641831744, 'epoch': 0.63}
+ 63%|██████▎   | 6140/9678 [13:34:58<7:29:17,  7.62s/it] 63%|██████▎   | 6141/9678 [13:35:05<7:22:20,  7.50s/it] 63%|██████▎   | 6142/9678 [13:35:14<7:50:10,  7.98s/it] 63%|██████▎   | 6143/9678 [13:35:23<7:56:45,  8.09s/it] 63%|██████▎   | 6144/9678 [13:35:30<7:41:53,  7.84s/it] 63%|██████▎   | 6145/9678 [13:35:37<7:36:20,  7.75s/it] 64%|██████▎   | 6146/9678 [13:35:46<7:59:45,  8.15s/it] 64%|██████▎   | 6147/9678 [13:35:55<8:13:29,  8.39s/it] 64%|██████▎   | 6148/9678 [13:36:03<8:01:55,  8.19s/it] 64%|██████▎   | 6149/9678 [13:36:11<8:02:26,  8.20s/it] 64%|██████▎   | 6150/9678 [13:36:19<7:53:30,  8.05s/it]                                                        {'loss': 0.7759, 'grad_norm': 0.5217877626419067, 'learning_rate': 0.00014943787512668118, 'epoch': 0.64}
+ 64%|██████▎   | 6150/9678 [13:36:19<7:53:30,  8.05s/it] 64%|██████▎   | 6151/9678 [13:36:27<7:53:28,  8.05s/it] 64%|██████▎   | 6152/9678 [13:36:35<7:44:21,  7.90s/it] 64%|██████▎   | 6153/9678 [13:36:45<8:20:47,  8.52s/it] 64%|██████▎   | 6154/9678 [13:36:51<7:44:46,  7.91s/it] 64%|██████▎   | 6155/9678 [13:36:57<7:07:02,  7.27s/it] 64%|██████▎   | 6156/9678 [13:37:06<7:44:51,  7.92s/it] 64%|██████▎   | 6157/9678 [13:37:13<7:30:39,  7.68s/it] 64%|██████▎   | 6158/9678 [13:37:20<7:18:40,  7.48s/it] 64%|██████▎   | 6159/9678 [13:37:31<8:09:25,  8.34s/it] 64%|██████▎   | 6160/9678 [13:37:38<7:50:08,  8.02s/it]                                                        {'loss': 0.7659, 'grad_norm': 0.6816266179084778, 'learning_rate': 0.0001486879150501822, 'epoch': 0.64}
+ 64%|██████▎   | 6160/9678 [13:37:38<7:50:08,  8.02s/it] 64%|██████▎   | 6161/9678 [13:37:45<7:35:20,  7.77s/it] 64%|██████▎   | 6162/9678 [13:37:53<7:35:35,  7.77s/it] 64%|██████▎   | 6163/9678 [13:38:02<7:47:00,  7.97s/it] 64%|██████▎   | 6164/9678 [13:38:10<7:56:53,  8.14s/it] 64%|██████▎   | 6165/9678 [13:38:19<8:03:30,  8.26s/it] 64%|██████▎   | 6166/9678 [13:38:26<7:47:17,  7.98s/it] 64%|██████▎   | 6167/9678 [13:38:34<7:44:36,  7.94s/it] 64%|██████▎   | 6168/9678 [13:38:41<7:25:55,  7.62s/it] 64%|██████▎   | 6169/9678 [13:38:48<7:22:30,  7.57s/it] 64%|██████▍   | 6170/9678 [13:38:57<7:41:18,  7.89s/it]                                                        {'loss': 0.8352, 'grad_norm': 0.5098093152046204, 'learning_rate': 0.00014793904425217648, 'epoch': 0.64}
+ 64%|██████▍   | 6170/9678 [13:38:57<7:41:18,  7.89s/it] 64%|██████▍   | 6171/9678 [13:39:04<7:33:13,  7.75s/it] 64%|██████▍   | 6172/9678 [13:39:10<7:07:11,  7.31s/it] 64%|██████▍   | 6173/9678 [13:39:18<7:08:10,  7.33s/it] 64%|██████▍   | 6174/9678 [13:39:28<7:52:23,  8.09s/it] 64%|██████▍   | 6175/9678 [13:39:35<7:36:20,  7.82s/it] 64%|██████▍   | 6176/9678 [13:39:43<7:38:31,  7.86s/it] 64%|██████▍   | 6177/9678 [13:39:51<7:42:38,  7.93s/it] 64%|██████▍   | 6178/9678 [13:39:57<7:16:24,  7.48s/it] 64%|██████▍   | 6179/9678 [13:40:05<7:24:00,  7.61s/it] 64%|██████▍   | 6180/9678 [13:40:13<7:28:00,  7.68s/it]                                                        {'loss': 0.8162, 'grad_norm': 1.0227922201156616, 'learning_rate': 0.00014719127078430795, 'epoch': 0.64}
+ 64%|██████▍   | 6180/9678 [13:40:13<7:28:00,  7.68s/it] 64%|██████▍   | 6181/9678 [13:40:21<7:26:36,  7.66s/it] 64%|██████▍   | 6182/9678 [13:40:30<7:59:50,  8.24s/it] 64%|██████▍   | 6183/9678 [13:40:37<7:40:55,  7.91s/it] 64%|██████▍   | 6184/9678 [13:40:45<7:31:10,  7.75s/it] 64%|██████▍   | 6185/9678 [13:40:52<7:27:15,  7.68s/it] 64%|██████▍   | 6186/9678 [13:41:03<8:11:41,  8.45s/it] 64%|██████▍   | 6187/9678 [13:41:10<8:00:31,  8.26s/it] 64%|██████▍   | 6188/9678 [13:41:18<7:57:39,  8.21s/it] 64%|██████▍   | 6189/9678 [13:41:27<7:54:38,  8.16s/it] 64%|██████▍   | 6190/9678 [13:41:35<8:02:03,  8.29s/it]                                                        {'loss': 0.7707, 'grad_norm': 1.5966726541519165, 'learning_rate': 0.00014644460268642263, 'epoch': 0.64}
+ 64%|██████▍   | 6190/9678 [13:41:35<8:02:03,  8.29s/it] 64%|██████▍   | 6191/9678 [13:41:46<8:40:00,  8.95s/it] 64%|██████▍   | 6192/9678 [13:41:56<8:58:52,  9.27s/it] 64%|██████▍   | 6193/9678 [13:42:03<8:18:49,  8.59s/it] 64%|██████▍   | 6194/9678 [13:42:10<8:00:00,  8.27s/it] 64%|██████▍   | 6195/9678 [13:42:18<7:48:34,  8.07s/it] 64%|██████▍   | 6196/9678 [13:42:25<7:34:32,  7.83s/it] 64%|██████▍   | 6197/9678 [13:42:33<7:43:23,  7.99s/it] 64%|██████▍   | 6198/9678 [13:42:42<7:56:01,  8.21s/it] 64%|██████▍   | 6199/9678 [13:42:50<7:57:48,  8.24s/it] 64%|██████▍   | 6200/9678 [13:43:00<8:17:22,  8.58s/it]                                                        {'loss': 0.7286, 'grad_norm': 0.6314913630485535, 'learning_rate': 0.00014569904798648176, 'epoch': 0.64}
+ 64%|██████▍   | 6200/9678 [13:43:00<8:17:22,  8.58s/it] 64%|██████▍   | 6201/9678 [13:43:08<8:14:19,  8.53s/it] 64%|██████▍   | 6202/9678 [13:43:15<7:49:14,  8.10s/it] 64%|██████▍   | 6203/9678 [13:43:23<7:35:46,  7.87s/it] 64%|██████▍   | 6204/9678 [13:43:31<7:40:50,  7.96s/it] 64%|██████▍   | 6205/9678 [13:43:38<7:33:01,  7.83s/it] 64%|██████▍   | 6206/9678 [13:43:49<8:25:59,  8.74s/it] 64%|██████▍   | 6207/9678 [13:43:58<8:18:01,  8.61s/it] 64%|██████▍   | 6208/9678 [13:44:05<8:01:14,  8.32s/it] 64%|██████▍   | 6209/9678 [13:44:15<8:22:36,  8.69s/it] 64%|██████▍   | 6210/9678 [13:44:23<8:12:51,  8.53s/it]                                                        {'loss': 0.7554, 'grad_norm': 1.072977900505066, 'learning_rate': 0.00014495461470047594, 'epoch': 0.64}
+ 64%|██████▍   | 6210/9678 [13:44:23<8:12:51,  8.53s/it] 64%|██████▍   | 6211/9678 [13:44:29<7:33:16,  7.84s/it] 64%|██████▍   | 6212/9678 [13:44:37<7:31:01,  7.81s/it] 64%|██████▍   | 6213/9678 [13:44:46<7:50:27,  8.15s/it] 64%|██████▍   | 6214/9678 [13:44:53<7:37:51,  7.93s/it] 64%|██████▍   | 6215/9678 [13:45:04<8:20:12,  8.67s/it] 64%|██████▍   | 6216/9678 [13:45:10<7:40:34,  7.98s/it] 64%|██████▍   | 6217/9678 [13:45:18<7:37:33,  7.93s/it] 64%|██████▍   | 6218/9678 [13:45:26<7:40:32,  7.99s/it] 64%|██████▍   | 6219/9678 [13:45:34<7:38:43,  7.96s/it] 64%|██████▍   | 6220/9678 [13:45:42<7:42:50,  8.03s/it]                                                        {'loss': 0.8975, 'grad_norm': 1.458894968032837, 'learning_rate': 0.0001442113108323383, 'epoch': 0.64}
+ 64%|██████▍   | 6220/9678 [13:45:42<7:42:50,  8.03s/it] 64%|██████▍   | 6221/9678 [13:45:52<8:10:56,  8.52s/it] 64%|██████▍   | 6222/9678 [13:45:59<7:53:39,  8.22s/it] 64%|██████▍   | 6223/9678 [13:46:07<7:46:17,  8.10s/it] 64%|██████▍   | 6224/9678 [13:46:14<7:19:13,  7.63s/it] 64%|██████▍   | 6225/9678 [13:46:22<7:35:58,  7.92s/it] 64%|██████▍   | 6226/9678 [13:46:30<7:39:01,  7.98s/it] 64%|██████▍   | 6227/9678 [13:46:40<8:17:13,  8.64s/it] 64%|██████▍   | 6228/9678 [13:46:48<7:58:54,  8.33s/it] 64%|██████▍   | 6229/9678 [13:46:56<8:00:06,  8.35s/it] 64%|██████▍   | 6230/9678 [13:47:03<7:26:45,  7.77s/it]                                                        {'loss': 0.6558, 'grad_norm': 0.7281268239021301, 'learning_rate': 0.00014346914437385905, 'epoch': 0.64}
+ 64%|██████▍   | 6230/9678 [13:47:03<7:26:45,  7.77s/it] 64%|██████▍   | 6231/9678 [13:47:10<7:21:13,  7.68s/it] 64%|██████▍   | 6232/9678 [13:47:19<7:38:15,  7.98s/it] 64%|██████▍   | 6233/9678 [13:47:28<7:56:18,  8.30s/it] 64%|██████▍   | 6234/9678 [13:47:35<7:27:57,  7.80s/it] 64%|██████▍   | 6235/9678 [13:47:42<7:22:26,  7.71s/it] 64%|██████▍   | 6236/9678 [13:47:50<7:26:36,  7.79s/it] 64%|██████▍   | 6237/9678 [13:47:57<7:13:01,  7.55s/it] 64%|██████▍   | 6238/9678 [13:48:05<7:22:47,  7.72s/it] 64%|██████▍   | 6239/9678 [13:48:12<6:59:54,  7.33s/it] 64%|██████▍   | 6240/9678 [13:48:20<7:21:45,  7.71s/it]                                                        {'loss': 0.7082, 'grad_norm': 0.9581575393676758, 'learning_rate': 0.00014272812330459893, 'epoch': 0.64}
+ 64%|██████▍   | 6240/9678 [13:48:20<7:21:45,  7.71s/it] 64%|██████▍   | 6241/9678 [13:48:25<6:38:25,  6.96s/it] 64%|██████▍   | 6242/9678 [13:48:34<7:04:41,  7.42s/it] 65%|██████▍   | 6243/9678 [13:48:43<7:33:36,  7.92s/it] 65%|██████▍   | 6244/9678 [13:48:51<7:25:20,  7.78s/it] 65%|██████▍   | 6245/9678 [13:48:58<7:12:52,  7.57s/it] 65%|██████▍   | 6246/9678 [13:49:06<7:33:00,  7.92s/it] 65%|██████▍   | 6247/9678 [13:49:18<8:36:05,  9.03s/it] 65%|██████▍   | 6248/9678 [13:49:26<8:17:43,  8.71s/it] 65%|██████▍   | 6249/9678 [13:49:34<8:09:44,  8.57s/it] 65%|██████▍   | 6250/9678 [13:49:42<7:49:24,  8.22s/it]                                                        {'loss': 0.8919, 'grad_norm': 1.271925687789917, 'learning_rate': 0.00014198825559180432, 'epoch': 0.65}
+ 65%|██████▍   | 6250/9678 [13:49:42<7:49:24,  8.22s/it] 65%|██████▍   | 6251/9678 [13:49:49<7:32:57,  7.93s/it] 65%|██████▍   | 6252/9678 [13:49:58<7:48:47,  8.21s/it] 65%|██████▍   | 6253/9678 [13:50:04<7:20:30,  7.72s/it] 65%|██████▍   | 6254/9678 [13:50:12<7:17:33,  7.67s/it] 65%|██████▍   | 6255/9678 [13:50:19<7:05:48,  7.46s/it] 65%|██████▍   | 6256/9678 [13:50:27<7:13:12,  7.60s/it] 65%|██████▍   | 6257/9678 [13:50:35<7:27:34,  7.85s/it] 65%|██████▍   | 6258/9678 [13:50:43<7:34:40,  7.98s/it] 65%|██████▍   | 6259/9678 [13:50:52<7:49:42,  8.24s/it] 65%|██████▍   | 6260/9678 [13:51:00<7:47:43,  8.21s/it]                                                        {'loss': 0.7847, 'grad_norm': 0.9335398077964783, 'learning_rate': 0.00014124954919032064, 'epoch': 0.65}
+ 65%|██████▍   | 6260/9678 [13:51:00<7:47:43,  8.21s/it] 65%|██████▍   | 6261/9678 [13:51:07<7:28:24,  7.87s/it] 65%|██████▍   | 6262/9678 [13:51:14<6:58:49,  7.36s/it] 65%|██████▍   | 6263/9678 [13:51:21<6:54:46,  7.29s/it] 65%|██████▍   | 6264/9678 [13:51:29<7:07:46,  7.52s/it] 65%|██████▍   | 6265/9678 [13:51:38<7:32:46,  7.96s/it] 65%|██████▍   | 6266/9678 [13:51:46<7:41:40,  8.12s/it] 65%|██████▍   | 6267/9678 [13:51:53<7:15:22,  7.66s/it] 65%|██████▍   | 6268/9678 [13:52:01<7:24:58,  7.83s/it] 65%|██████▍   | 6269/9678 [13:52:09<7:20:44,  7.76s/it] 65%|██████▍   | 6270/9678 [13:52:18<7:52:02,  8.31s/it]                                                        {'loss': 0.8197, 'grad_norm': 0.7705923318862915, 'learning_rate': 0.00014051201204250726, 'epoch': 0.65}
+ 65%|██████▍   | 6270/9678 [13:52:18<7:52:02,  8.31s/it] 65%|██████▍   | 6271/9678 [13:52:26<7:33:48,  7.99s/it] 65%|██████▍   | 6272/9678 [13:52:34<7:41:35,  8.13s/it] 65%|██████▍   | 6273/9678 [13:52:43<7:57:49,  8.42s/it] 65%|██████▍   | 6274/9678 [13:52:52<7:58:32,  8.43s/it] 65%|██████▍   | 6275/9678 [13:53:01<8:16:25,  8.75s/it] 65%|██████▍   | 6276/9678 [13:53:08<7:52:37,  8.34s/it] 65%|██████▍   | 6277/9678 [13:53:18<8:16:13,  8.75s/it] 65%|██████▍   | 6278/9678 [13:53:25<7:51:41,  8.32s/it] 65%|██████▍   | 6279/9678 [13:53:34<7:59:40,  8.47s/it] 65%|██████▍   | 6280/9678 [13:53:44<8:18:05,  8.80s/it]                                                        {'loss': 0.8028, 'grad_norm': 1.433953881263733, 'learning_rate': 0.00013977565207815238, 'epoch': 0.65}
+ 65%|██████▍   | 6280/9678 [13:53:44<8:18:05,  8.80s/it] 65%|██████▍   | 6281/9678 [13:53:52<8:15:47,  8.76s/it] 65%|██████▍   | 6282/9678 [13:54:02<8:20:34,  8.84s/it] 65%|██████▍   | 6283/9678 [13:54:09<8:00:13,  8.49s/it] 65%|██████▍   | 6284/9678 [13:54:18<8:10:56,  8.68s/it] 65%|██████▍   | 6285/9678 [13:54:27<8:06:37,  8.61s/it] 65%|██████▍   | 6286/9678 [13:54:35<8:03:42,  8.56s/it] 65%|██████▍   | 6287/9678 [13:54:44<8:06:50,  8.61s/it] 65%|██████▍   | 6288/9678 [13:54:53<8:11:28,  8.70s/it] 65%|██████▍   | 6289/9678 [13:55:00<7:49:29,  8.31s/it] 65%|██████▍   | 6290/9678 [13:55:08<7:44:32,  8.23s/it]                                                        {'loss': 0.6803, 'grad_norm': 1.4676005840301514, 'learning_rate': 0.0001390404772143872, 'epoch': 0.65}
+ 65%|██████▍   | 6290/9678 [13:55:08<7:44:32,  8.23s/it] 65%|██████▌   | 6291/9678 [13:55:15<7:13:12,  7.67s/it] 65%|██████▌   | 6292/9678 [13:55:22<7:06:35,  7.56s/it] 65%|██████▌   | 6293/9678 [13:55:32<7:47:46,  8.29s/it] 65%|██████▌   | 6294/9678 [13:55:39<7:33:52,  8.05s/it] 65%|██████▌   | 6295/9678 [13:55:47<7:27:41,  7.94s/it] 65%|██████▌   | 6296/9678 [13:55:54<7:10:43,  7.64s/it] 65%|██████▌   | 6297/9678 [13:56:01<7:01:33,  7.48s/it] 65%|██████▌   | 6298/9678 [13:56:09<7:09:24,  7.62s/it] 65%|██████▌   | 6299/9678 [13:56:17<7:13:37,  7.70s/it] 65%|██████▌   | 6300/9678 [13:56:25<7:14:27,  7.72s/it]                                                        {'loss': 0.8868, 'grad_norm': 0.8155161738395691, 'learning_rate': 0.00013830649535560093, 'epoch': 0.65}
+ 65%|██████▌   | 6300/9678 [13:56:25<7:14:27,  7.72s/it] 65%|██████▌   | 6301/9678 [13:56:33<7:15:24,  7.74s/it] 65%|██████▌   | 6302/9678 [13:56:40<7:18:19,  7.79s/it] 65%|██████▌   | 6303/9678 [13:56:48<7:20:45,  7.84s/it] 65%|██████▌   | 6304/9678 [13:56:57<7:39:13,  8.17s/it] 65%|██████▌   | 6305/9678 [13:57:06<7:39:40,  8.18s/it] 65%|██████▌   | 6306/9678 [13:57:12<7:17:51,  7.79s/it] 65%|██████▌   | 6307/9678 [13:57:21<7:38:11,  8.16s/it] 65%|██████▌   | 6308/9678 [13:57:32<8:17:23,  8.86s/it] 65%|██████▌   | 6309/9678 [13:57:40<8:10:24,  8.73s/it] 65%|██████▌   | 6310/9678 [13:57:48<7:48:50,  8.35s/it]                                                        {'loss': 0.716, 'grad_norm': 0.799152672290802, 'learning_rate': 0.00013757371439335604, 'epoch': 0.65}
+ 65%|██████▌   | 6310/9678 [13:57:48<7:48:50,  8.35s/it] 65%|██████▌   | 6311/9678 [13:57:55<7:34:24,  8.10s/it] 65%|██████▌   | 6312/9678 [13:58:04<7:42:07,  8.24s/it] 65%|██████▌   | 6313/9678 [13:58:10<7:13:24,  7.73s/it] 65%|██████▌   | 6314/9678 [13:58:21<7:54:27,  8.46s/it] 65%|██████▌   | 6315/9678 [13:58:29<7:47:02,  8.33s/it] 65%|██████▌   | 6316/9678 [13:58:36<7:36:48,  8.15s/it] 65%|██████▌   | 6317/9678 [13:58:44<7:31:21,  8.06s/it] 65%|██████▌   | 6318/9678 [13:58:51<7:14:57,  7.77s/it] 65%|██████▌   | 6319/9678 [13:58:58<7:02:08,  7.54s/it] 65%|██████▌   | 6320/9678 [13:59:06<6:56:26,  7.44s/it]                                                        {'loss': 0.7953, 'grad_norm': 1.120835304260254, 'learning_rate': 0.0001368421422063036, 'epoch': 0.65}
+ 65%|██████▌   | 6320/9678 [13:59:06<6:56:26,  7.44s/it] 65%|██████▌   | 6321/9678 [13:59:13<6:50:06,  7.33s/it] 65%|██████▌   | 6322/9678 [13:59:19<6:42:28,  7.20s/it] 65%|██████▌   | 6323/9678 [13:59:28<7:05:30,  7.61s/it] 65%|██████▌   | 6324/9678 [13:59:36<7:11:19,  7.72s/it] 65%|██████▌   | 6325/9678 [13:59:46<7:43:26,  8.29s/it] 65%|██████▌   | 6326/9678 [13:59:55<7:56:56,  8.54s/it] 65%|██████▌   | 6327/9678 [14:00:04<8:00:44,  8.61s/it] 65%|██████▌   | 6328/9678 [14:00:11<7:39:26,  8.23s/it] 65%|██████▌   | 6329/9678 [14:00:19<7:38:28,  8.21s/it] 65%|██████▌   | 6330/9678 [14:00:26<7:13:32,  7.77s/it]                                                        {'loss': 0.7389, 'grad_norm': 0.7950730919837952, 'learning_rate': 0.00013611178666009794, 'epoch': 0.65}
+ 65%|██████▌   | 6330/9678 [14:00:26<7:13:32,  7.77s/it] 65%|██████▌   | 6331/9678 [14:00:35<7:41:29,  8.27s/it] 65%|██████▌   | 6332/9678 [14:00:43<7:40:01,  8.25s/it] 65%|██████▌   | 6333/9678 [14:00:50<7:11:51,  7.75s/it] 65%|██████▌   | 6334/9678 [14:00:57<7:03:30,  7.60s/it] 65%|██████▌   | 6335/9678 [14:01:04<6:55:03,  7.45s/it] 65%|██████▌   | 6336/9678 [14:01:13<7:13:19,  7.78s/it] 65%|██████▌   | 6337/9678 [14:01:20<7:01:39,  7.57s/it] 65%|██████▌   | 6338/9678 [14:01:30<7:33:31,  8.15s/it] 65%|██████▌   | 6339/9678 [14:01:39<7:47:44,  8.40s/it] 66%|██████▌   | 6340/9678 [14:01:48<8:09:36,  8.80s/it]                                                        {'loss': 0.7451, 'grad_norm': 0.9817484617233276, 'learning_rate': 0.0001353826556073125, 'epoch': 0.66}
+ 66%|██████▌   | 6340/9678 [14:01:48<8:09:36,  8.80s/it] 66%|██████▌   | 6341/9678 [14:01:57<8:05:04,  8.72s/it] 66%|██████▌   | 6342/9678 [14:02:06<8:21:33,  9.02s/it] 66%|██████▌   | 6343/9678 [14:02:14<8:01:41,  8.67s/it] 66%|██████▌   | 6344/9678 [14:02:21<7:33:31,  8.16s/it] 66%|██████▌   | 6345/9678 [14:02:27<6:56:29,  7.50s/it] 66%|██████▌   | 6346/9678 [14:02:35<6:59:16,  7.55s/it] 66%|██████▌   | 6347/9678 [14:02:42<6:58:52,  7.55s/it] 66%|██████▌   | 6348/9678 [14:02:50<6:55:57,  7.49s/it] 66%|██████▌   | 6349/9678 [14:02:57<6:51:57,  7.43s/it] 66%|██████▌   | 6350/9678 [14:03:05<6:55:30,  7.49s/it]                                                        {'loss': 0.7386, 'grad_norm': 0.7330102324485779, 'learning_rate': 0.00013465475688735526, 'epoch': 0.66}
+ 66%|██████▌   | 6350/9678 [14:03:05<6:55:30,  7.49s/it] 66%|██████▌   | 6351/9678 [14:03:13<7:10:14,  7.76s/it] 66%|██████▌   | 6352/9678 [14:03:21<7:15:30,  7.86s/it] 66%|██████▌   | 6353/9678 [14:03:30<7:25:42,  8.04s/it] 66%|██████▌   | 6354/9678 [14:03:38<7:27:51,  8.08s/it] 66%|██████▌   | 6355/9678 [14:03:46<7:26:09,  8.06s/it] 66%|██████▌   | 6356/9678 [14:03:54<7:29:27,  8.12s/it] 66%|██████▌   | 6357/9678 [14:04:02<7:31:31,  8.16s/it] 66%|██████▌   | 6358/9678 [14:04:12<7:49:09,  8.48s/it] 66%|██████▌   | 6359/9678 [14:04:19<7:31:04,  8.15s/it] 66%|██████▌   | 6360/9678 [14:04:27<7:26:35,  8.08s/it]                                                        {'loss': 0.7596, 'grad_norm': 0.7877906560897827, 'learning_rate': 0.00013392809832638486, 'epoch': 0.66}
+ 66%|██████▌   | 6360/9678 [14:04:27<7:26:35,  8.08s/it] 66%|██████▌   | 6361/9678 [14:04:34<7:18:29,  7.93s/it] 66%|██████▌   | 6362/9678 [14:04:41<6:56:43,  7.54s/it] 66%|██████▌   | 6363/9678 [14:04:51<7:34:55,  8.23s/it] 66%|██████▌   | 6364/9678 [14:04:58<7:12:40,  7.83s/it] 66%|██████▌   | 6365/9678 [14:05:06<7:18:15,  7.94s/it] 66%|██████▌   | 6366/9678 [14:05:14<7:14:24,  7.87s/it] 66%|██████▌   | 6367/9678 [14:05:23<7:31:05,  8.17s/it] 66%|██████▌   | 6368/9678 [14:05:30<7:16:47,  7.92s/it] 66%|██████▌   | 6369/9678 [14:05:37<6:56:58,  7.56s/it] 66%|██████▌   | 6370/9678 [14:05:45<7:13:00,  7.85s/it]                                                        {'loss': 0.6482, 'grad_norm': 0.6060128211975098, 'learning_rate': 0.00013320268773722553, 'epoch': 0.66}
+ 66%|██████▌   | 6370/9678 [14:05:45<7:13:00,  7.85s/it] 66%|██████▌   | 6371/9678 [14:05:51<6:40:23,  7.26s/it] 66%|██████▌   | 6372/9678 [14:05:59<6:47:36,  7.40s/it] 66%|██████▌   | 6373/9678 [14:06:07<7:03:40,  7.69s/it] 66%|██████▌   | 6374/9678 [14:06:14<6:47:21,  7.40s/it] 66%|██████▌   | 6375/9678 [14:06:20<6:20:22,  6.91s/it] 66%|██████▌   | 6376/9678 [14:06:28<6:43:16,  7.33s/it] 66%|██████▌   | 6377/9678 [14:06:37<7:07:51,  7.78s/it] 66%|██████▌   | 6378/9678 [14:06:44<6:50:20,  7.46s/it] 66%|██████▌   | 6379/9678 [14:06:53<7:16:55,  7.95s/it] 66%|██████▌   | 6380/9678 [14:06:58<6:41:23,  7.30s/it]                                                        {'loss': 0.7416, 'grad_norm': 1.8573722839355469, 'learning_rate': 0.00013247853291928395, 'epoch': 0.66}
+ 66%|██████▌   | 6380/9678 [14:06:58<6:41:23,  7.30s/it] 66%|██████▌   | 6381/9678 [14:07:07<7:09:12,  7.81s/it] 66%|██████▌   | 6382/9678 [14:07:15<7:05:41,  7.75s/it] 66%|██████▌   | 6383/9678 [14:07:23<7:06:03,  7.76s/it] 66%|██████▌   | 6384/9678 [14:07:32<7:30:56,  8.21s/it] 66%|██████▌   | 6385/9678 [14:07:41<7:49:34,  8.56s/it] 66%|██████▌   | 6386/9678 [14:07:50<7:42:31,  8.43s/it] 66%|██████▌   | 6387/9678 [14:07:57<7:33:06,  8.26s/it] 66%|██████▌   | 6388/9678 [14:08:05<7:22:25,  8.07s/it] 66%|██████▌   | 6389/9678 [14:08:12<7:11:34,  7.87s/it] 66%|██████▌   | 6390/9678 [14:08:22<7:41:08,  8.42s/it]                                                        {'loss': 0.7027, 'grad_norm': 0.8654054403305054, 'learning_rate': 0.00013175564165846532, 'epoch': 0.66}
+ 66%|██████▌   | 6390/9678 [14:08:22<7:41:08,  8.42s/it] 66%|██████▌   | 6391/9678 [14:08:30<7:31:26,  8.24s/it] 66%|██████▌   | 6392/9678 [14:08:37<7:12:17,  7.89s/it] 66%|██████▌   | 6393/9678 [14:08:46<7:22:29,  8.08s/it] 66%|██████▌   | 6394/9678 [14:08:55<7:41:25,  8.43s/it] 66%|██████▌   | 6395/9678 [14:09:03<7:44:00,  8.48s/it] 66%|██████▌   | 6396/9678 [14:09:12<7:51:09,  8.61s/it] 66%|██████▌   | 6397/9678 [14:09:23<8:17:42,  9.10s/it] 66%|██████▌   | 6398/9678 [14:09:31<8:00:34,  8.79s/it] 66%|██████▌   | 6399/9678 [14:09:40<8:09:03,  8.95s/it] 66%|██████▌   | 6400/9678 [14:09:50<8:20:01,  9.15s/it]                                                        {'loss': 0.7331, 'grad_norm': 0.7953044772148132, 'learning_rate': 0.00013103402172708918, 'epoch': 0.66}
+ 66%|██████▌   | 6400/9678 [14:09:50<8:20:01,  9.15s/it] 66%|██████▌   | 6401/9678 [14:09:58<8:06:04,  8.90s/it] 66%|██████▌   | 6402/9678 [14:10:05<7:29:11,  8.23s/it] 66%|██████▌   | 6403/9678 [14:10:12<7:24:00,  8.13s/it] 66%|██████▌   | 6404/9678 [14:10:21<7:24:10,  8.14s/it] 66%|██████▌   | 6405/9678 [14:10:29<7:27:53,  8.21s/it] 66%|██████▌   | 6406/9678 [14:10:36<7:04:53,  7.79s/it] 66%|██████▌   | 6407/9678 [14:10:43<6:59:06,  7.69s/it] 66%|██████▌   | 6408/9678 [14:10:51<7:07:04,  7.84s/it] 66%|██████▌   | 6409/9678 [14:11:00<7:10:29,  7.90s/it] 66%|██████▌   | 6410/9678 [14:11:05<6:28:29,  7.13s/it]                                                        {'loss': 0.7007, 'grad_norm': 0.8240858316421509, 'learning_rate': 0.0001303136808838061, 'epoch': 0.66}
+ 66%|██████▌   | 6410/9678 [14:11:05<6:28:29,  7.13s/it] 66%|██████▌   | 6411/9678 [14:11:11<6:11:10,  6.82s/it] 66%|██████▋   | 6412/9678 [14:11:20<6:40:32,  7.36s/it] 66%|██████▋   | 6413/9678 [14:11:29<7:16:43,  8.03s/it] 66%|██████▋   | 6414/9678 [14:11:36<7:02:40,  7.77s/it] 66%|██████▋   | 6415/9678 [14:11:44<7:02:40,  7.77s/it] 66%|██████▋   | 6416/9678 [14:11:52<7:03:57,  7.80s/it] 66%|██████▋   | 6417/9678 [14:12:01<7:31:04,  8.30s/it] 66%|██████▋   | 6418/9678 [14:12:07<6:49:54,  7.54s/it] 66%|██████▋   | 6419/9678 [14:12:14<6:42:39,  7.41s/it] 66%|██████▋   | 6420/9678 [14:12:22<6:49:53,  7.55s/it]                                                        {'loss': 0.7626, 'grad_norm': 0.8028026819229126, 'learning_rate': 0.00012959462687351435, 'epoch': 0.66}
+ 66%|██████▋   | 6420/9678 [14:12:22<6:49:53,  7.55s/it] 66%|██████▋   | 6421/9678 [14:12:31<7:15:19,  8.02s/it] 66%|██████▋   | 6422/9678 [14:12:37<6:45:26,  7.47s/it] 66%|██████▋   | 6423/9678 [14:12:44<6:29:12,  7.17s/it] 66%|██████▋   | 6424/9678 [14:12:52<6:38:03,  7.34s/it] 66%|██████▋   | 6425/9678 [14:12:59<6:39:54,  7.38s/it] 66%|██████▋   | 6426/9678 [14:13:06<6:35:38,  7.30s/it] 66%|██████▋   | 6427/9678 [14:13:14<6:39:19,  7.37s/it] 66%|██████▋   | 6428/9678 [14:13:20<6:22:05,  7.05s/it] 66%|██████▋   | 6429/9678 [14:13:30<7:00:10,  7.76s/it] 66%|██████▋   | 6430/9678 [14:13:38<7:06:24,  7.88s/it]                                                        {'loss': 0.8101, 'grad_norm': 1.4915801286697388, 'learning_rate': 0.0001288768674272765, 'epoch': 0.66}
+ 66%|██████▋   | 6430/9678 [14:13:38<7:06:24,  7.88s/it] 66%|██████▋   | 6431/9678 [14:13:46<7:08:59,  7.93s/it] 66%|██████▋   | 6432/9678 [14:13:52<6:48:34,  7.55s/it] 66%|██████▋   | 6433/9678 [14:14:01<7:08:01,  7.91s/it] 66%|██████▋   | 6434/9678 [14:14:10<7:14:58,  8.05s/it] 66%|██████▋   | 6435/9678 [14:14:18<7:24:33,  8.23s/it] 67%|██████▋   | 6436/9678 [14:14:28<7:42:53,  8.57s/it] 67%|██████▋   | 6437/9678 [14:14:34<7:16:17,  8.08s/it] 67%|██████▋   | 6438/9678 [14:14:43<7:16:18,  8.08s/it] 67%|██████▋   | 6439/9678 [14:14:50<7:03:28,  7.84s/it] 67%|██████▋   | 6440/9678 [14:14:59<7:23:08,  8.21s/it]                                                        {'loss': 0.7186, 'grad_norm': 0.8312230110168457, 'learning_rate': 0.0001281604102622364, 'epoch': 0.67}
+ 67%|██████▋   | 6440/9678 [14:14:59<7:23:08,  8.21s/it] 67%|██████▋   | 6441/9678 [14:15:06<7:11:59,  8.01s/it] 67%|██████▋   | 6442/9678 [14:15:14<7:00:59,  7.81s/it] 67%|██████▋   | 6443/9678 [14:15:21<6:48:48,  7.58s/it] 67%|██████▋   | 6444/9678 [14:15:30<7:17:22,  8.11s/it] 67%|██████▋   | 6445/9678 [14:15:38<7:15:16,  8.08s/it] 67%|██████▋   | 6446/9678 [14:15:47<7:28:54,  8.33s/it] 67%|██████▋   | 6447/9678 [14:15:56<7:37:41,  8.50s/it] 67%|██████▋   | 6448/9678 [14:16:04<7:23:13,  8.23s/it] 67%|██████▋   | 6449/9678 [14:16:14<7:52:21,  8.78s/it] 67%|██████▋   | 6450/9678 [14:16:21<7:36:53,  8.49s/it]                                                        {'loss': 0.756, 'grad_norm': 0.8355895280838013, 'learning_rate': 0.000127445263081536, 'epoch': 0.67}
+ 67%|██████▋   | 6450/9678 [14:16:21<7:36:53,  8.49s/it] 67%|██████▋   | 6451/9678 [14:16:28<7:05:02,  7.90s/it] 67%|██████▋   | 6452/9678 [14:16:36<7:08:48,  7.98s/it] 67%|██████▋   | 6453/9678 [14:16:43<6:55:57,  7.74s/it] 67%|██████▋   | 6454/9678 [14:16:51<6:54:57,  7.72s/it] 67%|██████▋   | 6455/9678 [14:16:58<6:43:48,  7.52s/it] 67%|██████▋   | 6456/9678 [14:17:07<7:06:56,  7.95s/it] 67%|██████▋   | 6457/9678 [14:17:15<7:12:41,  8.06s/it] 67%|██████▋   | 6458/9678 [14:17:23<7:11:57,  8.05s/it] 67%|██████▋   | 6459/9678 [14:17:31<7:08:44,  7.99s/it] 67%|██████▋   | 6460/9678 [14:17:39<7:04:33,  7.92s/it]                                                        {'loss': 0.707, 'grad_norm': 0.7141729593276978, 'learning_rate': 0.0001267314335742327, 'epoch': 0.67}
+ 67%|██████▋   | 6460/9678 [14:17:39<7:04:33,  7.92s/it] 67%|██████▋   | 6461/9678 [14:17:46<6:44:34,  7.55s/it] 67%|██████▋   | 6462/9678 [14:17:56<7:32:52,  8.45s/it] 67%|██████▋   | 6463/9678 [14:18:06<7:55:24,  8.87s/it] 67%|██████▋   | 6464/9678 [14:18:14<7:36:10,  8.52s/it] 67%|██████▋   | 6465/9678 [14:18:21<7:17:55,  8.18s/it] 67%|██████▋   | 6466/9678 [14:18:28<6:51:30,  7.69s/it] 67%|██████▋   | 6467/9678 [14:18:36<6:56:33,  7.78s/it] 67%|██████▋   | 6468/9678 [14:18:43<6:56:24,  7.78s/it] 67%|██████▋   | 6469/9678 [14:18:52<7:11:25,  8.07s/it] 67%|██████▋   | 6470/9678 [14:19:01<7:23:29,  8.29s/it]                                                        {'loss': 0.6433, 'grad_norm': 1.2061463594436646, 'learning_rate': 0.000126018929415217, 'epoch': 0.67}
+ 67%|██████▋   | 6470/9678 [14:19:01<7:23:29,  8.29s/it] 67%|██████▋   | 6471/9678 [14:19:11<7:43:56,  8.68s/it] 67%|██████▋   | 6472/9678 [14:19:18<7:17:57,  8.20s/it] 67%|██████▋   | 6473/9678 [14:19:27<7:33:49,  8.50s/it] 67%|██████▋   | 6474/9678 [14:19:37<8:03:47,  9.06s/it] 67%|██████▋   | 6475/9678 [14:19:44<7:26:15,  8.36s/it] 67%|██████▋   | 6476/9678 [14:19:50<6:46:29,  7.62s/it] 67%|██████▋   | 6477/9678 [14:19:57<6:36:29,  7.43s/it] 67%|██████▋   | 6478/9678 [14:20:04<6:36:03,  7.43s/it] 67%|██████▋   | 6479/9678 [14:20:13<6:54:20,  7.77s/it] 67%|██████▋   | 6480/9678 [14:20:21<7:03:26,  7.94s/it]                                                        {'loss': 0.7131, 'grad_norm': 0.9426934123039246, 'learning_rate': 0.00012530775826512916, 'epoch': 0.67}
+ 67%|██████▋   | 6480/9678 [14:20:21<7:03:26,  7.94s/it] 67%|██████▋   | 6481/9678 [14:20:30<7:23:41,  8.33s/it] 67%|██████▋   | 6482/9678 [14:20:39<7:30:17,  8.45s/it] 67%|██████▋   | 6483/9678 [14:20:48<7:30:38,  8.46s/it] 67%|██████▋   | 6484/9678 [14:20:54<6:54:50,  7.79s/it] 67%|██████▋   | 6485/9678 [14:21:01<6:50:54,  7.72s/it] 67%|██████▋   | 6486/9678 [14:21:09<6:45:16,  7.62s/it] 67%|██████▋   | 6487/9678 [14:21:17<7:02:00,  7.93s/it] 67%|██████▋   | 6488/9678 [14:21:26<7:11:26,  8.11s/it] 67%|██████▋   | 6489/9678 [14:21:33<7:00:26,  7.91s/it] 67%|██████▋   | 6490/9678 [14:21:43<7:19:06,  8.26s/it]                                                        {'loss': 0.6755, 'grad_norm': 0.5171589255332947, 'learning_rate': 0.00012459792777027754, 'epoch': 0.67}
+ 67%|██████▋   | 6490/9678 [14:21:43<7:19:06,  8.26s/it] 67%|██████▋   | 6491/9678 [14:21:51<7:18:01,  8.25s/it] 67%|██████▋   | 6492/9678 [14:21:57<6:46:19,  7.65s/it] 67%|██████▋   | 6493/9678 [14:22:05<6:58:34,  7.89s/it] 67%|██████▋   | 6494/9678 [14:22:12<6:30:58,  7.37s/it] 67%|██████▋   | 6495/9678 [14:22:18<6:19:30,  7.15s/it] 67%|██████▋   | 6496/9678 [14:22:27<6:37:27,  7.49s/it] 67%|██████▋   | 6497/9678 [14:22:35<6:48:42,  7.71s/it] 67%|██████▋   | 6498/9678 [14:22:42<6:41:39,  7.58s/it] 67%|██████▋   | 6499/9678 [14:22:50<6:50:15,  7.74s/it] 67%|██████▋   | 6500/9678 [14:22:58<6:50:14,  7.75s/it]                                                        {'loss': 0.7517, 'grad_norm': 0.813228189945221, 'learning_rate': 0.00012388944556255614, 'epoch': 0.67}
+ 67%|██████▋   | 6500/9678 [14:22:58<6:50:14,  7.75s/it] 67%|██████▋   | 6501/9678 [14:23:06<6:54:53,  7.84s/it] 67%|██████▋   | 6502/9678 [14:23:15<7:09:45,  8.12s/it] 67%|██████▋   | 6503/9678 [14:23:23<7:11:59,  8.16s/it] 67%|██████▋   | 6504/9678 [14:23:32<7:19:29,  8.31s/it] 67%|██████▋   | 6505/9678 [14:23:40<7:24:59,  8.41s/it] 67%|██████▋   | 6506/9678 [14:23:47<6:55:17,  7.86s/it] 67%|██████▋   | 6507/9678 [14:23:55<7:02:27,  7.99s/it] 67%|██████▋   | 6508/9678 [14:24:01<6:32:06,  7.42s/it] 67%|██████▋   | 6509/9678 [14:24:08<6:23:05,  7.25s/it] 67%|██████▋   | 6510/9678 [14:24:17<6:42:20,  7.62s/it]                                                        {'loss': 0.647, 'grad_norm': 1.0219289064407349, 'learning_rate': 0.0001231823192593625, 'epoch': 0.67}
+ 67%|██████▋   | 6510/9678 [14:24:17<6:42:20,  7.62s/it] 67%|██████▋   | 6511/9678 [14:24:25<6:57:26,  7.91s/it] 67%|██████▋   | 6512/9678 [14:24:34<7:12:39,  8.20s/it] 67%|██████▋   | 6513/9678 [14:24:42<7:14:37,  8.24s/it] 67%|██████▋   | 6514/9678 [14:24:51<7:13:04,  8.21s/it] 67%|██████▋   | 6515/9678 [14:25:00<7:33:39,  8.61s/it] 67%|██████▋   | 6516/9678 [14:25:07<7:10:24,  8.17s/it] 67%|██████▋   | 6517/9678 [14:25:18<7:44:32,  8.82s/it] 67%|██████▋   | 6518/9678 [14:25:26<7:45:57,  8.85s/it] 67%|██████▋   | 6519/9678 [14:25:33<7:09:54,  8.17s/it] 67%|██████▋   | 6520/9678 [14:25:42<7:29:54,  8.55s/it]                                                        {'loss': 0.7193, 'grad_norm': 1.7192949056625366, 'learning_rate': 0.00012247655646351597, 'epoch': 0.67}
+ 67%|██████▋   | 6520/9678 [14:25:42<7:29:54,  8.55s/it] 67%|██████▋   | 6521/9678 [14:25:49<6:59:57,  7.98s/it] 67%|██████▋   | 6522/9678 [14:25:57<6:58:01,  7.95s/it] 67%|██████▋   | 6523/9678 [14:26:06<7:12:22,  8.22s/it] 67%|██████▋   | 6524/9678 [14:26:13<6:58:41,  7.96s/it] 67%|██████▋   | 6525/9678 [14:26:22<7:10:08,  8.19s/it] 67%|██████▋   | 6526/9678 [14:26:30<7:05:15,  8.10s/it] 67%|██████▋   | 6527/9678 [14:26:37<6:48:08,  7.77s/it] 67%|██████▋   | 6528/9678 [14:26:44<6:33:35,  7.50s/it] 67%|██████▋   | 6529/9678 [14:26:52<6:53:14,  7.87s/it] 67%|██████▋   | 6530/9678 [14:27:00<6:41:50,  7.66s/it]                                                        {'loss': 0.7004, 'grad_norm': 0.8978095054626465, 'learning_rate': 0.00012177216476317565, 'epoch': 0.67}
+ 67%|██████▋   | 6530/9678 [14:27:00<6:41:50,  7.66s/it] 67%|██████▋   | 6531/9678 [14:27:08<6:53:51,  7.89s/it] 67%|██████▋   | 6532/9678 [14:27:16<6:59:55,  8.01s/it] 68%|██████▊   | 6533/9678 [14:27:25<7:16:19,  8.32s/it] 68%|██████▊   | 6534/9678 [14:27:32<6:55:04,  7.92s/it] 68%|██████▊   | 6535/9678 [14:27:41<7:09:33,  8.20s/it] 68%|██████▊   | 6536/9678 [14:27:48<6:52:55,  7.89s/it] 68%|██████▊   | 6537/9678 [14:27:57<7:00:52,  8.04s/it] 68%|██████▊   | 6538/9678 [14:28:05<7:04:01,  8.10s/it] 68%|██████▊   | 6539/9678 [14:28:13<6:56:14,  7.96s/it] 68%|██████▊   | 6540/9678 [14:28:22<7:12:10,  8.26s/it]                                                        {'loss': 0.7798, 'grad_norm': 1.2175655364990234, 'learning_rate': 0.00012106915173175942, 'epoch': 0.68}
+ 68%|██████▊   | 6540/9678 [14:28:22<7:12:10,  8.26s/it] 68%|██████▊   | 6541/9678 [14:28:31<7:30:02,  8.61s/it] 68%|██████▊   | 6542/9678 [14:28:40<7:41:16,  8.83s/it] 68%|██████▊   | 6543/9678 [14:28:47<7:06:39,  8.17s/it] 68%|██████▊   | 6544/9678 [14:28:54<6:46:57,  7.79s/it] 68%|██████▊   | 6545/9678 [14:29:02<6:58:03,  8.01s/it] 68%|██████▊   | 6546/9678 [14:29:10<6:53:10,  7.92s/it] 68%|██████▊   | 6547/9678 [14:29:18<6:56:46,  7.99s/it] 68%|██████▊   | 6548/9678 [14:29:25<6:43:32,  7.74s/it] 68%|██████▊   | 6549/9678 [14:29:32<6:33:25,  7.54s/it] 68%|██████▊   | 6550/9678 [14:29:39<6:22:05,  7.33s/it]                                                        {'loss': 0.7077, 'grad_norm': 0.7553932070732117, 'learning_rate': 0.00012036752492786171, 'epoch': 0.68}
+ 68%|██████▊   | 6550/9678 [14:29:39<6:22:05,  7.33s/it] 68%|██████▊   | 6551/9678 [14:29:49<7:01:46,  8.09s/it] 68%|██████▊   | 6552/9678 [14:29:56<6:41:54,  7.71s/it] 68%|██████▊   | 6553/9678 [14:30:06<7:10:12,  8.26s/it] 68%|██████▊   | 6554/9678 [14:30:13<7:02:08,  8.11s/it] 68%|██████▊   | 6555/9678 [14:30:22<7:05:16,  8.17s/it] 68%|██████▊   | 6556/9678 [14:30:31<7:29:21,  8.64s/it] 68%|██████▊   | 6557/9678 [14:30:41<7:40:33,  8.85s/it] 68%|██████▊   | 6558/9678 [14:30:50<7:42:15,  8.89s/it] 68%|██████▊   | 6559/9678 [14:30:56<7:00:02,  8.08s/it] 68%|██████▊   | 6560/9678 [14:31:03<6:37:29,  7.65s/it]                                                        {'loss': 0.6207, 'grad_norm': 1.2669484615325928, 'learning_rate': 0.0001196672918951728, 'epoch': 0.68}
+ 68%|██████▊   | 6560/9678 [14:31:03<6:37:29,  7.65s/it] 68%|██████▊   | 6561/9678 [14:31:09<6:18:41,  7.29s/it] 68%|██████▊   | 6562/9678 [14:31:16<6:18:23,  7.29s/it] 68%|██████▊   | 6563/9678 [14:31:25<6:38:13,  7.67s/it] 68%|██████▊   | 6564/9678 [14:31:34<6:57:52,  8.05s/it] 68%|██████▊   | 6565/9678 [14:31:42<7:01:59,  8.13s/it] 68%|██████▊   | 6566/9678 [14:31:51<7:08:58,  8.27s/it] 68%|██████▊   | 6567/9678 [14:31:59<7:13:43,  8.36s/it] 68%|██████▊   | 6568/9678 [14:32:06<6:43:54,  7.79s/it] 68%|██████▊   | 6569/9678 [14:32:15<7:11:14,  8.32s/it] 68%|██████▊   | 6570/9678 [14:32:22<6:46:21,  7.84s/it]                                                        {'loss': 0.7216, 'grad_norm': 1.0848954916000366, 'learning_rate': 0.00011896846016239752, 'epoch': 0.68}
+ 68%|██████▊   | 6570/9678 [14:32:22<6:46:21,  7.84s/it] 68%|██████▊   | 6571/9678 [14:32:29<6:32:13,  7.57s/it] 68%|██████▊   | 6572/9678 [14:32:36<6:25:40,  7.45s/it] 68%|██████▊   | 6573/9678 [14:32:44<6:27:39,  7.49s/it] 68%|██████▊   | 6574/9678 [14:32:53<7:00:35,  8.13s/it] 68%|██████▊   | 6575/9678 [14:33:02<7:05:38,  8.23s/it] 68%|██████▊   | 6576/9678 [14:33:09<6:46:30,  7.86s/it] 68%|██████▊   | 6577/9678 [14:33:18<7:12:32,  8.37s/it] 68%|██████▊   | 6578/9678 [14:33:27<7:13:28,  8.39s/it] 68%|██████▊   | 6579/9678 [14:33:33<6:46:18,  7.87s/it] 68%|██████▊   | 6580/9678 [14:33:44<7:27:01,  8.66s/it]                                                        {'loss': 0.8071, 'grad_norm': 1.306950569152832, 'learning_rate': 0.00011827103724317426, 'epoch': 0.68}
+ 68%|██████▊   | 6580/9678 [14:33:44<7:27:01,  8.66s/it] 68%|██████▊   | 6581/9678 [14:33:52<7:24:24,  8.61s/it] 68%|██████▊   | 6582/9678 [14:34:00<7:05:29,  8.25s/it] 68%|██████▊   | 6583/9678 [14:34:07<6:52:57,  8.01s/it] 68%|██████▊   | 6584/9678 [14:34:15<6:43:43,  7.83s/it] 68%|██████▊   | 6585/9678 [14:34:22<6:30:47,  7.58s/it] 68%|██████▊   | 6586/9678 [14:34:29<6:26:17,  7.50s/it] 68%|██████▊   | 6587/9678 [14:34:37<6:33:24,  7.64s/it] 68%|██████▊   | 6588/9678 [14:34:46<6:58:13,  8.12s/it] 68%|██████▊   | 6589/9678 [14:34:54<6:46:27,  7.89s/it] 68%|██████▊   | 6590/9678 [14:35:01<6:41:44,  7.81s/it]                                                        {'loss': 0.7327, 'grad_norm': 1.175700306892395, 'learning_rate': 0.00011757503063599436, 'epoch': 0.68}
+ 68%|██████▊   | 6590/9678 [14:35:01<6:41:44,  7.81s/it] 68%|██████▊   | 6591/9678 [14:35:09<6:49:04,  7.95s/it] 68%|██████▊   | 6592/9678 [14:35:16<6:29:47,  7.58s/it] 68%|██████▊   | 6593/9678 [14:35:24<6:37:30,  7.73s/it] 68%|██████▊   | 6594/9678 [14:35:33<6:50:11,  7.98s/it] 68%|██████▊   | 6595/9678 [14:35:42<7:10:19,  8.37s/it] 68%|██████▊   | 6596/9678 [14:35:50<6:56:44,  8.11s/it] 68%|██████▊   | 6597/9678 [14:35:57<6:50:22,  7.99s/it] 68%|██████▊   | 6598/9678 [14:36:07<7:09:20,  8.36s/it] 68%|██████▊   | 6599/9678 [14:36:15<7:14:07,  8.46s/it] 68%|██████▊   | 6600/9678 [14:36:23<7:00:13,  8.19s/it]                                                        {'loss': 0.7375, 'grad_norm': 1.052412509918213, 'learning_rate': 0.00011688044782412124, 'epoch': 0.68}
+ 68%|██████▊   | 6600/9678 [14:36:23<7:00:13,  8.19s/it] 68%|██████▊   | 6601/9678 [14:36:31<6:54:23,  8.08s/it] 68%|██████▊   | 6602/9678 [14:36:38<6:45:13,  7.90s/it] 68%|██████▊   | 6603/9678 [14:36:46<6:41:03,  7.83s/it] 68%|██████▊   | 6604/9678 [14:36:54<6:44:20,  7.89s/it] 68%|██████▊   | 6605/9678 [14:37:03<7:05:26,  8.31s/it] 68%|██████▊   | 6606/9678 [14:37:10<6:47:44,  7.96s/it] 68%|██████▊   | 6607/9678 [14:37:18<6:41:18,  7.84s/it] 68%|██████▊   | 6608/9678 [14:37:28<7:10:27,  8.41s/it] 68%|██████▊   | 6609/9678 [14:37:35<6:53:10,  8.08s/it] 68%|██████▊   | 6610/9678 [14:37:43<6:56:07,  8.14s/it]                                                        {'loss': 0.7765, 'grad_norm': 0.922924280166626, 'learning_rate': 0.00011618729627551037, 'epoch': 0.68}
+ 68%|██████▊   | 6610/9678 [14:37:43<6:56:07,  8.14s/it] 68%|██████▊   | 6611/9678 [14:37:52<7:01:07,  8.24s/it] 68%|██████▊   | 6612/9678 [14:38:01<7:12:41,  8.47s/it] 68%|██████▊   | 6613/9678 [14:38:07<6:34:51,  7.73s/it] 68%|██████▊   | 6614/9678 [14:38:14<6:26:12,  7.56s/it] 68%|██████▊   | 6615/9678 [14:38:22<6:31:12,  7.66s/it] 68%|██████▊   | 6616/9678 [14:38:28<6:04:51,  7.15s/it] 68%|██████▊   | 6617/9678 [14:38:35<6:08:11,  7.22s/it] 68%|██████▊   | 6618/9678 [14:38:43<6:21:51,  7.49s/it] 68%|██████▊   | 6619/9678 [14:38:51<6:34:22,  7.74s/it] 68%|██████▊   | 6620/9678 [14:39:00<6:48:19,  8.01s/it]                                                        {'loss': 0.7365, 'grad_norm': 0.6624295711517334, 'learning_rate': 0.00011549558344272834, 'epoch': 0.68}
+ 68%|██████▊   | 6620/9678 [14:39:00<6:48:19,  8.01s/it] 68%|██████▊   | 6621/9678 [14:39:08<6:53:44,  8.12s/it] 68%|██████▊   | 6622/9678 [14:39:15<6:34:16,  7.74s/it] 68%|██████▊   | 6623/9678 [14:39:22<6:20:17,  7.47s/it] 68%|██████▊   | 6624/9678 [14:39:30<6:25:31,  7.57s/it] 68%|██████▊   | 6625/9678 [14:39:40<7:01:18,  8.28s/it] 68%|██████▊   | 6626/9678 [14:39:47<6:46:12,  7.99s/it] 68%|██████▊   | 6627/9678 [14:39:56<7:04:53,  8.36s/it] 68%|██████▊   | 6628/9678 [14:40:05<7:09:57,  8.46s/it] 68%|██████▊   | 6629/9678 [14:40:12<6:48:58,  8.05s/it] 69%|██████▊   | 6630/9678 [14:40:21<6:57:11,  8.21s/it]                                                        {'loss': 0.7549, 'grad_norm': 0.9047833681106567, 'learning_rate': 0.00011480531676287322, 'epoch': 0.69}
+ 69%|██████▊   | 6630/9678 [14:40:21<6:57:11,  8.21s/it] 69%|██████▊   | 6631/9678 [14:40:27<6:31:42,  7.71s/it] 69%|██████▊   | 6632/9678 [14:40:35<6:32:53,  7.74s/it] 69%|██████▊   | 6633/9678 [14:40:43<6:38:20,  7.85s/it] 69%|██████▊   | 6634/9678 [14:40:49<6:13:06,  7.35s/it] 69%|██████▊   | 6635/9678 [14:40:57<6:18:10,  7.46s/it] 69%|██████▊   | 6636/9678 [14:41:04<6:09:56,  7.30s/it] 69%|██████▊   | 6637/9678 [14:41:13<6:39:15,  7.88s/it] 69%|██████▊   | 6638/9678 [14:41:22<6:51:19,  8.12s/it] 69%|██████▊   | 6639/9678 [14:41:29<6:37:49,  7.85s/it] 69%|██████▊   | 6640/9678 [14:41:37<6:42:11,  7.94s/it]                                                        {'loss': 0.7531, 'grad_norm': 0.8293854594230652, 'learning_rate': 0.00011411650365749454, 'epoch': 0.69}
+ 69%|██████▊   | 6640/9678 [14:41:37<6:42:11,  7.94s/it] 69%|██████▊   | 6641/9678 [14:41:44<6:18:10,  7.47s/it] 69%|██████▊   | 6642/9678 [14:41:51<6:15:11,  7.41s/it] 69%|██████▊   | 6643/9678 [14:41:59<6:17:46,  7.47s/it] 69%|██████▊   | 6644/9678 [14:42:06<6:09:25,  7.31s/it] 69%|██████▊   | 6645/9678 [14:42:14<6:25:24,  7.62s/it] 69%|██████▊   | 6646/9678 [14:42:21<6:23:58,  7.60s/it] 69%|██████▊   | 6647/9678 [14:42:29<6:29:17,  7.71s/it] 69%|██████▊   | 6648/9678 [14:42:38<6:39:19,  7.91s/it] 69%|██████▊   | 6649/9678 [14:42:48<7:09:29,  8.51s/it] 69%|██████▊   | 6650/9678 [14:42:55<6:45:41,  8.04s/it]                                                        {'loss': 0.6403, 'grad_norm': 0.865106463432312, 'learning_rate': 0.00011342915153251332, 'epoch': 0.69}
+ 69%|██████▊   | 6650/9678 [14:42:55<6:45:41,  8.04s/it] 69%|██████▊   | 6651/9678 [14:43:03<6:44:46,  8.02s/it] 69%|██████▊   | 6652/9678 [14:43:10<6:39:30,  7.92s/it] 69%|██████▊   | 6653/9678 [14:43:19<6:55:28,  8.24s/it] 69%|██████▉   | 6654/9678 [14:43:27<6:43:18,  8.00s/it] 69%|██████▉   | 6655/9678 [14:43:36<7:05:42,  8.45s/it] 69%|██████▉   | 6656/9678 [14:43:44<7:00:01,  8.34s/it] 69%|██████▉   | 6657/9678 [14:43:54<7:20:13,  8.74s/it] 69%|██████▉   | 6658/9678 [14:44:02<7:13:08,  8.61s/it] 69%|██████▉   | 6659/9678 [14:44:10<6:55:41,  8.26s/it] 69%|██████▉   | 6660/9678 [14:44:18<6:57:48,  8.31s/it]                                                        {'loss': 0.7709, 'grad_norm': 1.0484962463378906, 'learning_rate': 0.0001127432677781425, 'epoch': 0.69}
+ 69%|██████▉   | 6660/9678 [14:44:18<6:57:48,  8.31s/it] 69%|██████▉   | 6661/9678 [14:44:27<7:04:14,  8.44s/it] 69%|██████▉   | 6662/9678 [14:44:35<7:03:06,  8.42s/it] 69%|██████▉   | 6663/9678 [14:44:44<7:01:27,  8.39s/it] 69%|██████▉   | 6664/9678 [14:44:51<6:51:16,  8.19s/it] 69%|██████▉   | 6665/9678 [14:45:00<6:53:58,  8.24s/it] 69%|██████▉   | 6666/9678 [14:45:08<6:52:06,  8.21s/it] 69%|██████▉   | 6667/9678 [14:45:15<6:38:12,  7.93s/it] 69%|██████▉   | 6668/9678 [14:45:23<6:41:26,  8.00s/it] 69%|██████▉   | 6669/9678 [14:45:32<6:51:58,  8.21s/it] 69%|██████▉   | 6670/9678 [14:45:40<6:46:57,  8.12s/it]                                                        {'loss': 0.6943, 'grad_norm': 0.9296818375587463, 'learning_rate': 0.00011205885976880753, 'epoch': 0.69}
+ 69%|██████▉   | 6670/9678 [14:45:40<6:46:57,  8.12s/it] 69%|██████▉   | 6671/9678 [14:45:49<6:57:22,  8.33s/it] 69%|██████▉   | 6672/9678 [14:45:56<6:36:24,  7.91s/it] 69%|██████▉   | 6673/9678 [14:46:04<6:41:06,  8.01s/it] 69%|██████▉   | 6674/9678 [14:46:10<6:19:32,  7.58s/it] 69%|██████▉   | 6675/9678 [14:46:19<6:37:15,  7.94s/it] 69%|██████▉   | 6676/9678 [14:46:29<7:03:31,  8.46s/it] 69%|██████▉   | 6677/9678 [14:46:38<7:10:17,  8.60s/it] 69%|██████▉   | 6678/9678 [14:46:46<7:09:27,  8.59s/it] 69%|██████▉   | 6679/9678 [14:46:54<6:53:31,  8.27s/it] 69%|██████▉   | 6680/9678 [14:47:01<6:39:41,  8.00s/it]                                                        {'loss': 0.6684, 'grad_norm': 0.9692133069038391, 'learning_rate': 0.00011137593486306727, 'epoch': 0.69}
+ 69%|██████▉   | 6680/9678 [14:47:01<6:39:41,  8.00s/it] 69%|██████▉   | 6681/9678 [14:47:09<6:39:42,  8.00s/it] 69%|██████▉   | 6682/9678 [14:47:16<6:21:37,  7.64s/it] 69%|██████▉   | 6683/9678 [14:47:24<6:25:34,  7.72s/it] 69%|██████▉   | 6684/9678 [14:47:31<6:12:49,  7.47s/it] 69%|██████▉   | 6685/9678 [14:47:39<6:18:03,  7.58s/it] 69%|██████▉   | 6686/9678 [14:47:47<6:29:10,  7.80s/it] 69%|██████▉   | 6687/9678 [14:47:55<6:34:44,  7.92s/it] 69%|██████▉   | 6688/9678 [14:48:03<6:28:14,  7.79s/it] 69%|██████▉   | 6689/9678 [14:48:12<6:54:45,  8.33s/it] 69%|██████▉   | 6690/9678 [14:48:19<6:35:25,  7.94s/it]                                                        {'loss': 0.8146, 'grad_norm': 1.2010059356689453, 'learning_rate': 0.00011069450040353448, 'epoch': 0.69}
+ 69%|██████▉   | 6690/9678 [14:48:19<6:35:25,  7.94s/it] 69%|██████▉   | 6691/9678 [14:48:28<6:41:24,  8.06s/it] 69%|██████▉   | 6692/9678 [14:48:36<6:43:04,  8.10s/it] 69%|██████▉   | 6693/9678 [14:48:46<7:07:52,  8.60s/it] 69%|██████▉   | 6694/9678 [14:48:53<6:51:24,  8.27s/it] 69%|██████▉   | 6695/9678 [14:49:01<6:39:55,  8.04s/it] 69%|██████▉   | 6696/9678 [14:49:09<6:43:25,  8.12s/it] 69%|██████▉   | 6697/9678 [14:49:17<6:42:57,  8.11s/it] 69%|██████▉   | 6698/9678 [14:49:25<6:33:40,  7.93s/it] 69%|██████▉   | 6699/9678 [14:49:32<6:19:51,  7.65s/it] 69%|██████▉   | 6700/9678 [14:49:39<6:22:10,  7.70s/it]                                                        {'loss': 0.6553, 'grad_norm': 0.8989507555961609, 'learning_rate': 0.00011001456371679707, 'epoch': 0.69}
+ 69%|██████▉   | 6700/9678 [14:49:39<6:22:10,  7.70s/it] 69%|██████▉   | 6701/9678 [14:49:48<6:29:00,  7.84s/it] 69%|██████▉   | 6702/9678 [14:49:55<6:22:00,  7.70s/it] 69%|██████▉   | 6703/9678 [14:50:02<6:08:32,  7.43s/it] 69%|██████▉   | 6704/9678 [14:50:09<6:04:43,  7.36s/it] 69%|██████▉   | 6705/9678 [14:50:16<6:08:01,  7.43s/it] 69%|██████▉   | 6706/9678 [14:50:23<5:55:33,  7.18s/it] 69%|██████▉   | 6707/9678 [14:50:32<6:16:41,  7.61s/it] 69%|██████▉   | 6708/9678 [14:50:40<6:33:33,  7.95s/it] 69%|██████▉   | 6709/9678 [14:50:47<6:10:47,  7.49s/it] 69%|██████▉   | 6710/9678 [14:50:53<5:56:19,  7.20s/it]                                                        {'loss': 0.76, 'grad_norm': 1.166821837425232, 'learning_rate': 0.00010933613211333943, 'epoch': 0.69}
+ 69%|██████▉   | 6710/9678 [14:50:53<5:56:19,  7.20s/it] 69%|██████▉   | 6711/9678 [14:51:00<5:52:12,  7.12s/it] 69%|██████▉   | 6712/9678 [14:51:10<6:24:29,  7.78s/it] 69%|██████▉   | 6713/9678 [14:51:17<6:20:28,  7.70s/it] 69%|██████▉   | 6714/9678 [14:51:26<6:37:18,  8.04s/it] 69%|██████▉   | 6715/9678 [14:51:34<6:42:50,  8.16s/it] 69%|██████▉   | 6716/9678 [14:51:42<6:32:37,  7.95s/it] 69%|██████▉   | 6717/9678 [14:51:49<6:19:55,  7.70s/it] 69%|██████▉   | 6718/9678 [14:51:56<6:06:30,  7.43s/it] 69%|██████▉   | 6719/9678 [14:52:06<6:47:15,  8.26s/it] 69%|██████▉   | 6720/9678 [14:52:12<6:12:34,  7.56s/it]                                                        {'loss': 0.7237, 'grad_norm': 0.8655950427055359, 'learning_rate': 0.00010865921288746362, 'epoch': 0.69}
+ 69%|██████▉   | 6720/9678 [14:52:12<6:12:34,  7.56s/it] 69%|██████▉   | 6721/9678 [14:52:18<5:48:10,  7.06s/it] 69%|██████▉   | 6722/9678 [14:52:27<6:19:04,  7.69s/it] 69%|██████▉   | 6723/9678 [14:52:36<6:38:23,  8.09s/it] 69%|██████▉   | 6724/9678 [14:52:44<6:32:13,  7.97s/it] 69%|██████▉   | 6725/9678 [14:52:53<6:44:40,  8.22s/it] 69%|██████▉   | 6726/9678 [14:53:01<6:42:17,  8.18s/it] 70%|██████▉   | 6727/9678 [14:53:10<7:03:46,  8.62s/it] 70%|██████▉   | 6728/9678 [14:53:18<6:45:26,  8.25s/it] 70%|██████▉   | 6729/9678 [14:53:25<6:32:11,  7.98s/it] 70%|██████▉   | 6730/9678 [14:53:32<6:18:30,  7.70s/it]                                                        {'loss': 0.8003, 'grad_norm': 1.0120173692703247, 'learning_rate': 0.00010798381331721108, 'epoch': 0.7}
+ 70%|██████▉   | 6730/9678 [14:53:32<6:18:30,  7.70s/it] 70%|██████▉   | 6731/9678 [14:53:39<6:11:54,  7.57s/it] 70%|██████▉   | 6732/9678 [14:53:48<6:22:13,  7.78s/it] 70%|██████▉   | 6733/9678 [14:53:56<6:26:18,  7.87s/it] 70%|██████▉   | 6734/9678 [14:54:04<6:29:50,  7.95s/it] 70%|██████▉   | 6735/9678 [14:54:11<6:21:04,  7.77s/it] 70%|██████▉   | 6736/9678 [14:54:19<6:18:39,  7.72s/it] 70%|██████▉   | 6737/9678 [14:54:26<6:10:03,  7.55s/it] 70%|██████▉   | 6738/9678 [14:54:35<6:40:11,  8.17s/it] 70%|██████▉   | 6739/9678 [14:54:43<6:28:13,  7.93s/it] 70%|██████▉   | 6740/9678 [14:54:51<6:28:27,  7.93s/it]                                                        {'loss': 0.8101, 'grad_norm': 1.4091392755508423, 'learning_rate': 0.0001073099406642844, 'epoch': 0.7}
+ 70%|██████▉   | 6740/9678 [14:54:51<6:28:27,  7.93s/it] 70%|██████▉   | 6741/9678 [14:54:58<6:17:02,  7.70s/it] 70%|██████▉   | 6742/9678 [14:55:04<5:55:19,  7.26s/it] 70%|██████▉   | 6743/9678 [14:55:12<5:55:57,  7.28s/it] 70%|██████▉   | 6744/9678 [14:55:20<6:18:53,  7.75s/it] 70%|██████▉   | 6745/9678 [14:55:28<6:15:05,  7.67s/it] 70%|██████▉   | 6746/9678 [14:55:36<6:16:14,  7.70s/it] 70%|██████▉   | 6747/9678 [14:55:43<6:15:34,  7.69s/it] 70%|██████▉   | 6748/9678 [14:55:51<6:12:40,  7.63s/it] 70%|██████▉   | 6749/9678 [14:55:57<5:57:17,  7.32s/it] 70%|██████▉   | 6750/9678 [14:56:07<6:25:29,  7.90s/it]                                                        {'loss': 0.6408, 'grad_norm': 0.8245342969894409, 'learning_rate': 0.00010663760217396906, 'epoch': 0.7}
+ 70%|██████▉   | 6750/9678 [14:56:07<6:25:29,  7.90s/it] 70%|██████▉   | 6751/9678 [14:56:14<6:20:34,  7.80s/it] 70%|██████▉   | 6752/9678 [14:56:21<6:02:04,  7.42s/it] 70%|██████▉   | 6753/9678 [14:56:29<6:09:07,  7.57s/it] 70%|██████▉   | 6754/9678 [14:56:35<5:52:30,  7.23s/it] 70%|██████▉   | 6755/9678 [14:56:43<6:01:17,  7.42s/it] 70%|██████▉   | 6756/9678 [14:56:52<6:24:52,  7.90s/it] 70%|██████▉   | 6757/9678 [14:57:01<6:44:07,  8.30s/it] 70%|██████▉   | 6758/9678 [14:57:08<6:24:02,  7.89s/it] 70%|██████▉   | 6759/9678 [14:57:17<6:38:02,  8.18s/it] 70%|██████▉   | 6760/9678 [14:57:24<6:21:50,  7.85s/it]                                                        {'loss': 0.7559, 'grad_norm': 0.7788679003715515, 'learning_rate': 0.00010596680507505596, 'epoch': 0.7}
+ 70%|██████▉   | 6760/9678 [14:57:24<6:21:50,  7.85s/it] 70%|██████▉   | 6761/9678 [14:57:32<6:17:48,  7.77s/it] 70%|██████▉   | 6762/9678 [14:57:40<6:19:16,  7.80s/it] 70%|██████▉   | 6763/9678 [14:57:47<6:14:49,  7.72s/it] 70%|██████▉   | 6764/9678 [14:57:55<6:18:47,  7.80s/it] 70%|██████▉   | 6765/9678 [14:58:03<6:17:33,  7.78s/it] 70%|██████▉   | 6766/9678 [14:58:11<6:22:48,  7.89s/it] 70%|██████▉   | 6767/9678 [14:58:18<6:16:27,  7.76s/it] 70%|██████▉   | 6768/9678 [14:58:26<6:15:15,  7.74s/it] 70%|██████▉   | 6769/9678 [14:58:33<5:58:53,  7.40s/it] 70%|██████▉   | 6770/9678 [14:58:41<6:07:00,  7.57s/it]                                                        {'loss': 0.6268, 'grad_norm': 0.5751708745956421, 'learning_rate': 0.00010529755657976315, 'epoch': 0.7}
+ 70%|██████▉   | 6770/9678 [14:58:41<6:07:00,  7.57s/it] 70%|██████▉   | 6771/9678 [14:58:48<6:04:08,  7.52s/it] 70%|██████▉   | 6772/9678 [14:58:56<6:05:21,  7.54s/it] 70%|██████▉   | 6773/9678 [14:59:04<6:13:44,  7.72s/it] 70%|██████▉   | 6774/9678 [14:59:13<6:40:29,  8.27s/it] 70%|███████   | 6775/9678 [14:59:21<6:33:15,  8.13s/it] 70%|███████   | 6776/9678 [14:59:28<6:21:40,  7.89s/it] 70%|███████   | 6777/9678 [14:59:36<6:23:20,  7.93s/it] 70%|███████   | 6778/9678 [14:59:45<6:31:09,  8.09s/it] 70%|███████   | 6779/9678 [14:59:55<6:54:37,  8.58s/it] 70%|███████   | 6780/9678 [15:00:02<6:34:47,  8.17s/it]                                                        {'loss': 0.7369, 'grad_norm': 0.9208303689956665, 'learning_rate': 0.00010462986388365837, 'epoch': 0.7}
+ 70%|███████   | 6780/9678 [15:00:02<6:34:47,  8.17s/it] 70%|███████   | 6781/9678 [15:00:10<6:34:36,  8.17s/it] 70%|███████   | 6782/9678 [15:00:20<6:56:00,  8.62s/it] 70%|███████   | 6783/9678 [15:00:27<6:31:59,  8.12s/it] 70%|███████   | 6784/9678 [15:00:35<6:31:50,  8.12s/it] 70%|███████   | 6785/9678 [15:00:44<6:44:32,  8.39s/it] 70%|███████   | 6786/9678 [15:00:51<6:32:18,  8.14s/it] 70%|███████   | 6787/9678 [15:01:00<6:40:23,  8.31s/it] 70%|███████   | 6788/9678 [15:01:07<6:24:05,  7.97s/it] 70%|███████   | 6789/9678 [15:01:17<6:49:58,  8.51s/it] 70%|███████   | 6790/9678 [15:01:23<6:12:54,  7.75s/it]                                                        {'loss': 0.7131, 'grad_norm': 0.8211421966552734, 'learning_rate': 0.00010396373416558233, 'epoch': 0.7}
+ 70%|███████   | 6790/9678 [15:01:23<6:12:54,  7.75s/it] 70%|███████   | 6791/9678 [15:01:31<6:12:46,  7.75s/it] 70%|███████   | 6792/9678 [15:01:39<6:25:20,  8.01s/it] 70%|███████   | 6793/9678 [15:01:47<6:22:21,  7.95s/it] 70%|███████   | 6794/9678 [15:01:55<6:18:53,  7.88s/it] 70%|███████   | 6795/9678 [15:02:02<6:04:03,  7.58s/it] 70%|███████   | 6796/9678 [15:02:11<6:30:35,  8.13s/it] 70%|███████   | 6797/9678 [15:02:18<6:16:05,  7.83s/it] 70%|███████   | 6798/9678 [15:02:24<5:43:01,  7.15s/it] 70%|███████   | 6799/9678 [15:02:32<6:02:17,  7.55s/it] 70%|███████   | 6800/9678 [15:02:40<6:05:36,  7.62s/it]                                                        {'loss': 0.7293, 'grad_norm': 0.6540753245353699, 'learning_rate': 0.00010329917458757068, 'epoch': 0.7}
+ 70%|███████   | 6800/9678 [15:02:40<6:05:36,  7.62s/it] 70%|███████   | 6801/9678 [15:02:47<5:58:37,  7.48s/it] 70%|███████   | 6802/9678 [15:02:56<6:21:01,  7.95s/it] 70%|███████   | 6803/9678 [15:03:06<6:38:19,  8.31s/it] 70%|███████   | 6804/9678 [15:03:14<6:35:40,  8.26s/it] 70%|███████   | 6805/9678 [15:03:21<6:21:46,  7.97s/it] 70%|███████   | 6806/9678 [15:03:30<6:41:25,  8.39s/it] 70%|███████   | 6807/9678 [15:03:36<6:07:03,  7.67s/it] 70%|███████   | 6808/9678 [15:03:45<6:15:34,  7.85s/it] 70%|███████   | 6809/9678 [15:03:53<6:20:31,  7.96s/it] 70%|███████   | 6810/9678 [15:04:01<6:26:08,  8.08s/it]                                                        {'loss': 0.6745, 'grad_norm': 1.3494755029678345, 'learning_rate': 0.0001026361922947775, 'epoch': 0.7}
+ 70%|███████   | 6810/9678 [15:04:01<6:26:08,  8.08s/it] 70%|███████   | 6811/9678 [15:04:09<6:29:21,  8.15s/it] 70%|███████   | 6812/9678 [15:04:19<6:48:12,  8.55s/it] 70%|███████   | 6813/9678 [15:04:27<6:38:41,  8.35s/it] 70%|███████   | 6814/9678 [15:04:35<6:35:59,  8.30s/it] 70%|███████   | 6815/9678 [15:04:42<6:20:15,  7.97s/it] 70%|███████   | 6816/9678 [15:04:52<6:48:42,  8.57s/it] 70%|███████   | 6817/9678 [15:04:59<6:18:26,  7.94s/it] 70%|███████   | 6818/9678 [15:05:05<5:56:18,  7.48s/it] 70%|███████   | 6819/9678 [15:05:13<6:06:36,  7.69s/it] 70%|███████   | 6820/9678 [15:05:21<6:04:36,  7.65s/it]                                                        {'loss': 0.6993, 'grad_norm': 0.8039237856864929, 'learning_rate': 0.00010197479441539827, 'epoch': 0.7}
+ 70%|███████   | 6820/9678 [15:05:21<6:04:36,  7.65s/it] 70%|███████   | 6821/9678 [15:05:29<6:10:46,  7.79s/it] 70%|███████   | 6822/9678 [15:05:38<6:30:56,  8.21s/it] 71%|███████   | 6823/9678 [15:05:45<6:13:44,  7.85s/it] 71%|███████   | 6824/9678 [15:05:54<6:34:26,  8.29s/it] 71%|███████   | 6825/9678 [15:06:02<6:29:29,  8.19s/it] 71%|███████   | 6826/9678 [15:06:11<6:31:57,  8.25s/it] 71%|███████   | 6827/9678 [15:06:19<6:29:59,  8.21s/it] 71%|███████   | 6828/9678 [15:06:27<6:28:43,  8.18s/it] 71%|███████   | 6829/9678 [15:06:36<6:37:35,  8.37s/it] 71%|███████   | 6830/9678 [15:06:43<6:22:25,  8.06s/it]                                                        {'loss': 0.7667, 'grad_norm': 0.8956775069236755, 'learning_rate': 0.00010131498806059352, 'epoch': 0.71}
+ 71%|███████   | 6830/9678 [15:06:43<6:22:25,  8.06s/it] 71%|███████   | 6831/9678 [15:06:51<6:25:59,  8.13s/it] 71%|███████   | 6832/9678 [15:06:58<6:05:40,  7.71s/it] 71%|███████   | 6833/9678 [15:07:06<6:03:46,  7.67s/it] 71%|███████   | 6834/9678 [15:07:14<6:07:28,  7.75s/it] 71%|███████   | 6835/9678 [15:07:23<6:27:46,  8.18s/it] 71%|███████   | 6836/9678 [15:07:32<6:39:14,  8.43s/it] 71%|███████   | 6837/9678 [15:07:41<6:50:39,  8.67s/it] 71%|███████   | 6838/9678 [15:07:49<6:45:38,  8.57s/it] 71%|███████   | 6839/9678 [15:07:57<6:34:07,  8.33s/it] 71%|███████   | 6840/9678 [15:08:06<6:42:17,  8.50s/it]                                                        {'loss': 0.6487, 'grad_norm': 0.7461487650871277, 'learning_rate': 0.00010065678032441208, 'epoch': 0.71}
+ 71%|███████   | 6840/9678 [15:08:06<6:42:17,  8.50s/it] 71%|███████   | 6841/9678 [15:08:14<6:26:33,  8.18s/it] 71%|███████   | 6842/9678 [15:08:23<6:43:45,  8.54s/it] 71%|███████   | 6843/9678 [15:08:31<6:33:41,  8.33s/it] 71%|███████   | 6844/9678 [15:08:38<6:22:48,  8.10s/it] 71%|███████   | 6845/9678 [15:08:48<6:39:49,  8.47s/it] 71%|███████   | 6846/9678 [15:08:56<6:31:58,  8.30s/it] 71%|███████   | 6847/9678 [15:09:04<6:29:24,  8.25s/it] 71%|███████   | 6848/9678 [15:09:13<6:48:05,  8.65s/it] 71%|███████   | 6849/9678 [15:09:20<6:14:51,  7.95s/it] 71%|███████   | 6850/9678 [15:09:27<5:59:38,  7.63s/it]                                                        {'loss': 0.6455, 'grad_norm': 1.2220842838287354, 'learning_rate': 0.00010000017828371458, 'epoch': 0.71}
+ 71%|███████   | 6850/9678 [15:09:27<5:59:38,  7.63s/it] 71%|███████   | 6851/9678 [15:09:34<6:02:35,  7.70s/it] 71%|███████   | 6852/9678 [15:09:44<6:34:34,  8.38s/it] 71%|███████   | 6853/9678 [15:09:54<6:54:28,  8.80s/it] 71%|███████   | 6854/9678 [15:10:03<6:53:53,  8.79s/it] 71%|███████   | 6855/9678 [15:10:12<6:53:55,  8.80s/it] 71%|███████   | 6856/9678 [15:10:19<6:37:59,  8.46s/it] 71%|███████   | 6857/9678 [15:10:27<6:24:08,  8.17s/it] 71%|███████   | 6858/9678 [15:10:34<6:12:30,  7.93s/it] 71%|███████   | 6859/9678 [15:10:41<6:01:03,  7.68s/it] 71%|███████   | 6860/9678 [15:10:48<5:44:25,  7.33s/it]                                                        {'loss': 0.6879, 'grad_norm': 0.9173330068588257, 'learning_rate': 9.934518899809799e-05, 'epoch': 0.71}
+ 71%|███████   | 6860/9678 [15:10:48<5:44:25,  7.33s/it] 71%|███████   | 6861/9678 [15:10:56<5:51:39,  7.49s/it] 71%|███████   | 6862/9678 [15:11:04<6:03:46,  7.75s/it] 71%|███████   | 6863/9678 [15:11:14<6:29:57,  8.31s/it] 71%|███████   | 6864/9678 [15:11:20<6:06:04,  7.81s/it] 71%|███████   | 6865/9678 [15:11:27<5:55:35,  7.58s/it] 71%|███████   | 6866/9678 [15:11:36<6:13:59,  7.98s/it] 71%|███████   | 6867/9678 [15:11:42<5:46:34,  7.40s/it] 71%|███████   | 6868/9678 [15:11:48<5:22:12,  6.88s/it] 71%|███████   | 6869/9678 [15:11:57<5:49:45,  7.47s/it] 71%|███████   | 6870/9678 [15:12:04<5:48:39,  7.45s/it]                                                        {'loss': 0.7175, 'grad_norm': 0.6598500609397888, 'learning_rate': 9.869181950981948e-05, 'epoch': 0.71}
+ 71%|███████   | 6870/9678 [15:12:04<5:48:39,  7.45s/it] 71%|███████   | 6871/9678 [15:12:13<6:01:00,  7.72s/it] 71%|███████   | 6872/9678 [15:12:22<6:22:29,  8.18s/it] 71%|███████   | 6873/9678 [15:12:30<6:19:41,  8.12s/it] 71%|███████   | 6874/9678 [15:12:38<6:18:50,  8.11s/it] 71%|███████   | 6875/9678 [15:12:46<6:15:41,  8.04s/it] 71%|███████   | 6876/9678 [15:12:52<5:44:42,  7.38s/it] 71%|███████   | 6877/9678 [15:13:01<6:08:11,  7.89s/it] 71%|███████   | 6878/9678 [15:13:09<6:08:59,  7.91s/it] 71%|███████   | 6879/9678 [15:13:19<6:36:37,  8.50s/it] 71%|███████   | 6880/9678 [15:13:27<6:34:33,  8.46s/it]                                                        {'loss': 0.7662, 'grad_norm': 1.0425814390182495, 'learning_rate': 9.804007684372038e-05, 'epoch': 0.71}
+ 71%|███████   | 6880/9678 [15:13:27<6:34:33,  8.46s/it] 71%|███████   | 6881/9678 [15:13:35<6:26:15,  8.29s/it] 71%|███████   | 6882/9678 [15:13:42<6:15:49,  8.06s/it] 71%|███████   | 6883/9678 [15:13:51<6:20:40,  8.17s/it] 71%|███████   | 6884/9678 [15:13:58<6:08:55,  7.92s/it] 71%|███████   | 6885/9678 [15:14:06<6:11:20,  7.98s/it] 71%|███████   | 6886/9678 [15:14:14<6:12:37,  8.01s/it] 71%|███████   | 6887/9678 [15:14:24<6:33:22,  8.46s/it] 71%|███████   | 6888/9678 [15:14:31<6:20:46,  8.19s/it] 71%|███████   | 6889/9678 [15:14:39<6:17:52,  8.13s/it] 71%|███████   | 6890/9678 [15:14:48<6:19:17,  8.16s/it]                                                        {'loss': 0.7261, 'grad_norm': 1.0084232091903687, 'learning_rate': 9.738996800715094e-05, 'epoch': 0.71}
+ 71%|███████   | 6890/9678 [15:14:48<6:19:17,  8.16s/it] 71%|███████   | 6891/9678 [15:14:55<6:01:42,  7.79s/it] 71%|███████   | 6892/9678 [15:15:02<5:56:44,  7.68s/it] 71%|███████   | 6893/9678 [15:15:09<5:45:41,  7.45s/it] 71%|███████   | 6894/9678 [15:15:17<5:55:45,  7.67s/it] 71%|███████   | 6895/9678 [15:15:25<5:56:55,  7.70s/it] 71%|███████▏  | 6896/9678 [15:15:32<5:53:48,  7.63s/it] 71%|███████▏  | 6897/9678 [15:15:41<6:02:28,  7.82s/it] 71%|███████▏  | 6898/9678 [15:15:50<6:25:39,  8.32s/it] 71%|███████▏  | 6899/9678 [15:15:57<6:07:36,  7.94s/it] 71%|███████▏  | 6900/9678 [15:16:05<6:07:42,  7.94s/it]                                                        {'loss': 0.7575, 'grad_norm': 0.9493532180786133, 'learning_rate': 9.674149998989523e-05, 'epoch': 0.71}
+ 71%|███████▏  | 6900/9678 [15:16:05<6:07:42,  7.94s/it] 71%|███████▏  | 6901/9678 [15:16:13<6:13:11,  8.06s/it] 71%|███████▏  | 6902/9678 [15:16:21<6:00:14,  7.79s/it] 71%|███████▏  | 6903/9678 [15:16:30<6:17:48,  8.17s/it] 71%|███████▏  | 6904/9678 [15:16:39<6:28:36,  8.41s/it] 71%|███████▏  | 6905/9678 [15:16:45<6:05:28,  7.91s/it] 71%|███████▏  | 6906/9678 [15:16:54<6:14:35,  8.11s/it] 71%|███████▏  | 6907/9678 [15:17:03<6:25:23,  8.34s/it] 71%|███████▏  | 6908/9678 [15:17:11<6:20:07,  8.23s/it] 71%|███████▏  | 6909/9678 [15:17:18<6:03:54,  7.89s/it] 71%|███████▏  | 6910/9678 [15:17:26<6:11:00,  8.04s/it]                                                        {'loss': 0.6136, 'grad_norm': 0.6258692741394043, 'learning_rate': 9.609467976409525e-05, 'epoch': 0.71}
+ 71%|███████▏  | 6910/9678 [15:17:26<6:11:00,  8.04s/it] 71%|███████▏  | 6911/9678 [15:17:34<6:10:40,  8.04s/it] 71%|███████▏  | 6912/9678 [15:17:42<6:11:02,  8.05s/it] 71%|███████▏  | 6913/9678 [15:17:52<6:33:00,  8.53s/it] 71%|███████▏  | 6914/9678 [15:18:00<6:31:23,  8.50s/it] 71%|███████▏  | 6915/9678 [15:18:08<6:14:49,  8.14s/it] 71%|███████▏  | 6916/9678 [15:18:16<6:13:39,  8.12s/it] 71%|███████▏  | 6917/9678 [15:18:22<5:48:41,  7.58s/it] 71%|███████▏  | 6918/9678 [15:18:35<6:56:29,  9.05s/it] 71%|███████▏  | 6919/9678 [15:18:43<6:46:58,  8.85s/it] 72%|███████▏  | 6920/9678 [15:18:51<6:33:00,  8.55s/it]                                                        {'loss': 0.8021, 'grad_norm': 0.6811854243278503, 'learning_rate': 9.544951428417667e-05, 'epoch': 0.72}
+ 72%|███████▏  | 6920/9678 [15:18:51<6:33:00,  8.55s/it] 72%|███████▏  | 6921/9678 [15:18:58<6:11:06,  8.08s/it] 72%|███████▏  | 6922/9678 [15:19:04<5:47:16,  7.56s/it] 72%|███████▏  | 6923/9678 [15:19:14<6:16:21,  8.20s/it] 72%|███████▏  | 6924/9678 [15:19:22<6:12:02,  8.11s/it] 72%|███████▏  | 6925/9678 [15:19:33<6:54:06,  9.03s/it] 72%|███████▏  | 6926/9678 [15:19:40<6:21:22,  8.31s/it] 72%|███████▏  | 6927/9678 [15:19:47<6:08:11,  8.03s/it] 72%|███████▏  | 6928/9678 [15:19:56<6:25:00,  8.40s/it] 72%|███████▏  | 6929/9678 [15:20:05<6:26:57,  8.45s/it] 72%|███████▏  | 6930/9678 [15:20:13<6:29:59,  8.52s/it]                                                        {'loss': 0.644, 'grad_norm': 0.8507707118988037, 'learning_rate': 9.480601048677371e-05, 'epoch': 0.72}
+ 72%|███████▏  | 6930/9678 [15:20:13<6:29:59,  8.52s/it] 72%|███████▏  | 6931/9678 [15:20:20<6:03:06,  7.93s/it] 72%|███████▏  | 6932/9678 [15:20:26<5:38:27,  7.40s/it] 72%|███████▏  | 6933/9678 [15:20:34<5:42:52,  7.49s/it] 72%|███████▏  | 6934/9678 [15:20:40<5:30:32,  7.23s/it] 72%|███████▏  | 6935/9678 [15:20:48<5:33:37,  7.30s/it] 72%|███████▏  | 6936/9678 [15:20:55<5:30:47,  7.24s/it] 72%|███████▏  | 6937/9678 [15:21:04<5:53:12,  7.73s/it] 72%|███████▏  | 6938/9678 [15:21:11<5:41:06,  7.47s/it] 72%|███████▏  | 6939/9678 [15:21:19<5:50:20,  7.67s/it] 72%|███████▏  | 6940/9678 [15:21:27<6:01:11,  7.92s/it]                                                        {'loss': 0.7257, 'grad_norm': 1.1403719186782837, 'learning_rate': 9.416417529065488e-05, 'epoch': 0.72}
+ 72%|███████▏  | 6940/9678 [15:21:27<6:01:11,  7.92s/it] 72%|███████▏  | 6941/9678 [15:21:37<6:20:26,  8.34s/it] 72%|███████▏  | 6942/9678 [15:21:42<5:43:18,  7.53s/it] 72%|███████▏  | 6943/9678 [15:21:51<5:55:48,  7.81s/it] 72%|███████▏  | 6944/9678 [15:21:59<5:59:37,  7.89s/it] 72%|███████▏  | 6945/9678 [15:22:05<5:40:49,  7.48s/it] 72%|███████▏  | 6946/9678 [15:22:15<6:06:33,  8.05s/it] 72%|███████▏  | 6947/9678 [15:22:21<5:43:00,  7.54s/it] 72%|███████▏  | 6948/9678 [15:22:28<5:29:42,  7.25s/it] 72%|███████▏  | 6949/9678 [15:22:37<5:52:49,  7.76s/it] 72%|███████▏  | 6950/9678 [15:22:44<5:42:40,  7.54s/it]                                                        {'loss': 0.6545, 'grad_norm': 0.9672065377235413, 'learning_rate': 9.352401559664817e-05, 'epoch': 0.72}
+ 72%|███████▏  | 6950/9678 [15:22:44<5:42:40,  7.54s/it] 72%|███████▏  | 6951/9678 [15:22:50<5:32:07,  7.31s/it] 72%|███████▏  | 6952/9678 [15:22:58<5:32:59,  7.33s/it] 72%|███████▏  | 6953/9678 [15:23:05<5:28:12,  7.23s/it] 72%|███████▏  | 6954/9678 [15:23:14<5:51:31,  7.74s/it] 72%|███████▏  | 6955/9678 [15:23:23<6:08:07,  8.11s/it] 72%|███████▏  | 6956/9678 [15:23:30<6:02:38,  7.99s/it] 72%|███████▏  | 6957/9678 [15:23:38<6:02:20,  7.99s/it] 72%|███████▏  | 6958/9678 [15:23:45<5:49:04,  7.70s/it] 72%|███████▏  | 6959/9678 [15:23:54<6:04:16,  8.04s/it] 72%|███████▏  | 6960/9678 [15:24:02<6:06:09,  8.08s/it]                                                        {'loss': 0.6231, 'grad_norm': 1.221876859664917, 'learning_rate': 9.288553828756702e-05, 'epoch': 0.72}
+ 72%|███████▏  | 6960/9678 [15:24:02<6:06:09,  8.08s/it] 72%|███████▏  | 6961/9678 [15:24:10<6:01:43,  7.99s/it] 72%|███████▏  | 6962/9678 [15:24:18<5:52:42,  7.79s/it] 72%|███████▏  | 6963/9678 [15:24:25<5:45:18,  7.63s/it] 72%|███████▏  | 6964/9678 [15:24:32<5:35:44,  7.42s/it] 72%|███████▏  | 6965/9678 [15:24:40<5:50:44,  7.76s/it] 72%|███████▏  | 6966/9678 [15:24:47<5:31:58,  7.34s/it] 72%|███████▏  | 6967/9678 [15:24:53<5:24:44,  7.19s/it] 72%|███████▏  | 6968/9678 [15:25:03<5:56:15,  7.89s/it] 72%|███████▏  | 6969/9678 [15:25:12<6:12:32,  8.25s/it] 72%|███████▏  | 6970/9678 [15:25:22<6:29:17,  8.63s/it]                                                        {'loss': 0.7172, 'grad_norm': 0.8762854337692261, 'learning_rate': 9.224875022813645e-05, 'epoch': 0.72}
+ 72%|███████▏  | 6970/9678 [15:25:22<6:29:17,  8.63s/it] 72%|███████▏  | 6971/9678 [15:25:30<6:25:39,  8.55s/it] 72%|███████▏  | 6972/9678 [15:25:38<6:24:01,  8.52s/it] 72%|███████▏  | 6973/9678 [15:25:48<6:33:14,  8.72s/it] 72%|███████▏  | 6974/9678 [15:25:56<6:21:47,  8.47s/it] 72%|███████▏  | 6975/9678 [15:26:05<6:33:10,  8.73s/it] 72%|███████▏  | 6976/9678 [15:26:12<6:15:27,  8.34s/it] 72%|███████▏  | 6977/9678 [15:26:19<5:56:37,  7.92s/it] 72%|███████▏  | 6978/9678 [15:26:28<6:10:32,  8.23s/it] 72%|███████▏  | 6979/9678 [15:26:37<6:14:32,  8.33s/it] 72%|███████▏  | 6980/9678 [15:26:44<6:03:49,  8.09s/it]                                                        {'loss': 0.6319, 'grad_norm': 0.811069667339325, 'learning_rate': 9.161365826491913e-05, 'epoch': 0.72}
+ 72%|███████▏  | 6980/9678 [15:26:44<6:03:49,  8.09s/it] 72%|███████▏  | 6981/9678 [15:26:51<5:44:26,  7.66s/it] 72%|███████▏  | 6982/9678 [15:26:58<5:37:16,  7.51s/it] 72%|███████▏  | 6983/9678 [15:27:05<5:24:10,  7.22s/it] 72%|███████▏  | 6984/9678 [15:27:11<5:19:09,  7.11s/it] 72%|███████▏  | 6985/9678 [15:27:17<5:02:49,  6.75s/it] 72%|███████▏  | 6986/9678 [15:27:25<5:19:27,  7.12s/it] 72%|███████▏  | 6987/9678 [15:27:33<5:27:04,  7.29s/it] 72%|███████▏  | 6988/9678 [15:27:40<5:23:48,  7.22s/it] 72%|███████▏  | 6989/9678 [15:27:48<5:31:34,  7.40s/it] 72%|███████▏  | 6990/9678 [15:27:55<5:24:52,  7.25s/it]                                                        {'loss': 0.8109, 'grad_norm': 1.3847732543945312, 'learning_rate': 9.098026922624175e-05, 'epoch': 0.72}
+ 72%|███████▏  | 6990/9678 [15:27:55<5:24:52,  7.25s/it] 72%|███████▏  | 6991/9678 [15:28:04<5:51:54,  7.86s/it] 72%|███████▏  | 6992/9678 [15:28:11<5:44:00,  7.68s/it] 72%|███████▏  | 6993/9678 [15:28:20<5:59:52,  8.04s/it] 72%|███████▏  | 6994/9678 [15:28:28<5:51:37,  7.86s/it] 72%|███████▏  | 6995/9678 [15:28:35<5:48:23,  7.79s/it] 72%|███████▏  | 6996/9678 [15:28:43<5:47:27,  7.77s/it] 72%|███████▏  | 6997/9678 [15:28:50<5:35:55,  7.52s/it] 72%|███████▏  | 6998/9678 [15:28:57<5:32:35,  7.45s/it] 72%|███████▏  | 6999/9678 [15:29:03<5:13:30,  7.02s/it] 72%|███████▏  | 7000/9678 [15:29:10<5:12:58,  7.01s/it]                                                        {'loss': 0.7571, 'grad_norm': 1.142921805381775, 'learning_rate': 9.03485899221216e-05, 'epoch': 0.72}
+ 72%|███████▏  | 7000/9678 [15:29:10<5:12:58,  7.01s/it] 72%|███████▏  | 7001/9678 [15:29:18<5:27:03,  7.33s/it] 72%|███████▏  | 7002/9678 [15:29:27<5:44:13,  7.72s/it] 72%|███████▏  | 7003/9678 [15:29:35<5:46:30,  7.77s/it] 72%|███████▏  | 7004/9678 [15:29:44<6:10:38,  8.32s/it] 72%|███████▏  | 7005/9678 [15:29:52<5:55:40,  7.98s/it] 72%|███████▏  | 7006/9678 [15:30:01<6:10:31,  8.32s/it] 72%|███████▏  | 7007/9678 [15:30:08<5:49:55,  7.86s/it] 72%|███████▏  | 7008/9678 [15:30:15<5:48:09,  7.82s/it] 72%|███████▏  | 7009/9678 [15:30:24<6:01:36,  8.13s/it] 72%|███████▏  | 7010/9678 [15:30:32<5:51:38,  7.91s/it]                                                        {'loss': 0.6592, 'grad_norm': 0.5236563086509705, 'learning_rate': 8.971862714419368e-05, 'epoch': 0.72}
+ 72%|███████▏  | 7010/9678 [15:30:32<5:51:38,  7.91s/it] 72%|███████▏  | 7011/9678 [15:30:40<5:57:00,  8.03s/it] 72%|███████▏  | 7012/9678 [15:30:47<5:46:16,  7.79s/it] 72%|███████▏  | 7013/9678 [15:30:55<5:45:20,  7.78s/it] 72%|███████▏  | 7014/9678 [15:31:02<5:39:45,  7.65s/it] 72%|███████▏  | 7015/9678 [15:31:09<5:31:04,  7.46s/it] 72%|███████▏  | 7016/9678 [15:31:16<5:20:17,  7.22s/it] 73%|███████▎  | 7017/9678 [15:31:25<5:51:35,  7.93s/it] 73%|███████▎  | 7018/9678 [15:31:33<5:43:32,  7.75s/it] 73%|███████▎  | 7019/9678 [15:31:43<6:12:47,  8.41s/it] 73%|███████▎  | 7020/9678 [15:31:50<6:03:37,  8.21s/it]                                                        {'loss': 0.7714, 'grad_norm': 1.2576050758361816, 'learning_rate': 8.909038766563703e-05, 'epoch': 0.73}
+ 73%|███████▎  | 7020/9678 [15:31:50<6:03:37,  8.21s/it] 73%|███████▎  | 7021/9678 [15:31:59<6:02:36,  8.19s/it] 73%|███████▎  | 7022/9678 [15:32:05<5:41:53,  7.72s/it] 73%|███████▎  | 7023/9678 [15:32:13<5:43:54,  7.77s/it] 73%|███████▎  | 7024/9678 [15:32:21<5:44:29,  7.79s/it] 73%|███████▎  | 7025/9678 [15:32:29<5:45:57,  7.82s/it] 73%|███████▎  | 7026/9678 [15:32:38<6:00:04,  8.15s/it] 73%|███████▎  | 7027/9678 [15:32:46<6:06:32,  8.30s/it] 73%|███████▎  | 7028/9678 [15:32:54<5:53:04,  7.99s/it] 73%|███████▎  | 7029/9678 [15:33:01<5:38:45,  7.67s/it] 73%|███████▎  | 7030/9678 [15:33:08<5:37:04,  7.64s/it]                                                        {'loss': 0.8312, 'grad_norm': 0.9121869802474976, 'learning_rate': 8.846387824110247e-05, 'epoch': 0.73}
+ 73%|███████▎  | 7030/9678 [15:33:08<5:37:04,  7.64s/it] 73%|███████▎  | 7031/9678 [15:33:15<5:30:18,  7.49s/it] 73%|███████▎  | 7032/9678 [15:33:23<5:27:05,  7.42s/it] 73%|███████▎  | 7033/9678 [15:33:31<5:38:40,  7.68s/it] 73%|███████▎  | 7034/9678 [15:33:39<5:40:35,  7.73s/it] 73%|███████▎  | 7035/9678 [15:33:47<5:46:38,  7.87s/it] 73%|███████▎  | 7036/9678 [15:33:53<5:29:21,  7.48s/it] 73%|███████▎  | 7037/9678 [15:34:02<5:38:26,  7.69s/it] 73%|███████▎  | 7038/9678 [15:34:08<5:24:36,  7.38s/it] 73%|███████▎  | 7039/9678 [15:34:19<6:12:13,  8.46s/it] 73%|███████▎  | 7040/9678 [15:34:26<5:45:02,  7.85s/it]                                                        {'loss': 0.7242, 'grad_norm': 1.3254677057266235, 'learning_rate': 8.783910560663968e-05, 'epoch': 0.73}
+ 73%|███████▎  | 7040/9678 [15:34:26<5:45:02,  7.85s/it] 73%|███████▎  | 7041/9678 [15:34:33<5:40:50,  7.76s/it] 73%|███████▎  | 7042/9678 [15:34:41<5:41:42,  7.78s/it] 73%|███████▎  | 7043/9678 [15:34:47<5:17:04,  7.22s/it] 73%|███████▎  | 7044/9678 [15:34:53<5:03:40,  6.92s/it] 73%|███████▎  | 7045/9678 [15:35:02<5:33:53,  7.61s/it] 73%|███████▎  | 7046/9678 [15:35:09<5:24:38,  7.40s/it] 73%|███████▎  | 7047/9678 [15:35:17<5:25:24,  7.42s/it] 73%|███████▎  | 7048/9678 [15:35:27<5:58:52,  8.19s/it] 73%|███████▎  | 7049/9678 [15:35:35<5:55:44,  8.12s/it] 73%|███████▎  | 7050/9678 [15:35:42<5:44:51,  7.87s/it]                                                        {'loss': 0.7367, 'grad_norm': 1.342081904411316, 'learning_rate': 8.721607647962496e-05, 'epoch': 0.73}
+ 73%|███████▎  | 7050/9678 [15:35:42<5:44:51,  7.87s/it] 73%|███████▎  | 7051/9678 [15:35:49<5:36:45,  7.69s/it] 73%|███████▎  | 7052/9678 [15:35:57<5:39:59,  7.77s/it] 73%|███████▎  | 7053/9678 [15:36:04<5:32:07,  7.59s/it] 73%|███████▎  | 7054/9678 [15:36:13<5:39:47,  7.77s/it] 73%|███████▎  | 7055/9678 [15:36:22<5:56:10,  8.15s/it] 73%|███████▎  | 7056/9678 [15:36:30<6:04:18,  8.34s/it] 73%|███████▎  | 7057/9678 [15:36:37<5:37:53,  7.73s/it] 73%|███████▎  | 7058/9678 [15:36:44<5:25:45,  7.46s/it] 73%|███████▎  | 7059/9678 [15:36:52<5:39:02,  7.77s/it] 73%|███████▎  | 7060/9678 [15:37:01<5:48:23,  7.98s/it]                                                        {'loss': 0.8162, 'grad_norm': 1.3918049335479736, 'learning_rate': 8.659479755868882e-05, 'epoch': 0.73}
+ 73%|███████▎  | 7060/9678 [15:37:01<5:48:23,  7.98s/it] 73%|███████▎  | 7061/9678 [15:37:10<6:11:59,  8.53s/it] 73%|███████▎  | 7062/9678 [15:37:18<6:02:54,  8.32s/it] 73%|███████▎  | 7063/9678 [15:37:27<6:04:50,  8.37s/it] 73%|███████▎  | 7064/9678 [15:37:34<5:49:34,  8.02s/it] 73%|███████▎  | 7065/9678 [15:37:40<5:25:22,  7.47s/it] 73%|███████▎  | 7066/9678 [15:37:47<5:16:24,  7.27s/it] 73%|███████▎  | 7067/9678 [15:37:55<5:31:03,  7.61s/it] 73%|███████▎  | 7068/9678 [15:38:02<5:14:40,  7.23s/it] 73%|███████▎  | 7069/9678 [15:38:10<5:23:24,  7.44s/it] 73%|███████▎  | 7070/9678 [15:38:19<5:46:22,  7.97s/it]                                                        {'loss': 0.6592, 'grad_norm': 0.9307500720024109, 'learning_rate': 8.597527552364415e-05, 'epoch': 0.73}
+ 73%|███████▎  | 7070/9678 [15:38:19<5:46:22,  7.97s/it] 73%|███████▎  | 7071/9678 [15:38:26<5:39:48,  7.82s/it] 73%|███████▎  | 7072/9678 [15:38:34<5:34:35,  7.70s/it] 73%|███████▎  | 7073/9678 [15:38:43<6:00:50,  8.31s/it] 73%|███████▎  | 7074/9678 [15:38:50<5:44:53,  7.95s/it] 73%|███████▎  | 7075/9678 [15:38:58<5:42:50,  7.90s/it] 73%|███████▎  | 7076/9678 [15:39:06<5:36:35,  7.76s/it] 73%|███████▎  | 7077/9678 [15:39:12<5:18:15,  7.34s/it] 73%|███████▎  | 7078/9678 [15:39:20<5:20:57,  7.41s/it] 73%|███████▎  | 7079/9678 [15:39:29<5:42:52,  7.92s/it] 73%|███████▎  | 7080/9678 [15:39:36<5:36:11,  7.76s/it]                                                        {'loss': 0.7096, 'grad_norm': 0.958733081817627, 'learning_rate': 8.535751703541417e-05, 'epoch': 0.73}
+ 73%|███████▎  | 7080/9678 [15:39:36<5:36:11,  7.76s/it] 73%|███████▎  | 7081/9678 [15:39:46<6:00:02,  8.32s/it] 73%|███████▎  | 7082/9678 [15:39:55<6:16:47,  8.71s/it] 73%|███████▎  | 7083/9678 [15:40:03<6:01:28,  8.36s/it] 73%|███████▎  | 7084/9678 [15:40:10<5:47:57,  8.05s/it] 73%|███████▎  | 7085/9678 [15:40:18<5:44:12,  7.96s/it] 73%|███████▎  | 7086/9678 [15:40:24<5:20:59,  7.43s/it] 73%|███████▎  | 7087/9678 [15:40:32<5:20:31,  7.42s/it] 73%|███████▎  | 7088/9678 [15:40:40<5:32:10,  7.70s/it] 73%|███████▎  | 7089/9678 [15:40:48<5:38:23,  7.84s/it] 73%|███████▎  | 7090/9678 [15:40:56<5:34:05,  7.75s/it]                                                        {'loss': 0.6513, 'grad_norm': 0.6930942535400391, 'learning_rate': 8.474152873596122e-05, 'epoch': 0.73}
+ 73%|███████▎  | 7090/9678 [15:40:56<5:34:05,  7.75s/it] 73%|███████▎  | 7091/9678 [15:41:02<5:15:15,  7.31s/it] 73%|███████▎  | 7092/9678 [15:41:11<5:41:45,  7.93s/it] 73%|███████▎  | 7093/9678 [15:41:21<6:02:39,  8.42s/it] 73%|███████▎  | 7094/9678 [15:41:28<5:41:44,  7.94s/it] 73%|███████▎  | 7095/9678 [15:41:38<6:08:02,  8.55s/it] 73%|███████▎  | 7096/9678 [15:41:45<5:48:17,  8.09s/it] 73%|███████▎  | 7097/9678 [15:41:53<5:55:48,  8.27s/it] 73%|███████▎  | 7098/9678 [15:42:01<5:51:23,  8.17s/it] 73%|███████▎  | 7099/9678 [15:42:09<5:42:03,  7.96s/it] 73%|███████▎  | 7100/9678 [15:42:15<5:25:47,  7.58s/it]                                                        {'loss': 0.7495, 'grad_norm': 1.3499219417572021, 'learning_rate': 8.412731724821482e-05, 'epoch': 0.73}
+ 73%|███████▎  | 7100/9678 [15:42:15<5:25:47,  7.58s/it] 73%|███████▎  | 7101/9678 [15:42:25<5:50:05,  8.15s/it] 73%|███████▎  | 7102/9678 [15:42:33<5:43:09,  7.99s/it] 73%|███████▎  | 7103/9678 [15:42:40<5:34:31,  7.79s/it] 73%|███████▎  | 7104/9678 [15:42:48<5:33:43,  7.78s/it] 73%|███████▎  | 7105/9678 [15:42:56<5:43:28,  8.01s/it] 73%|███████▎  | 7106/9678 [15:43:04<5:40:40,  7.95s/it] 73%|███████▎  | 7107/9678 [15:43:12<5:44:22,  8.04s/it] 73%|███████▎  | 7108/9678 [15:43:20<5:41:38,  7.98s/it] 73%|███████▎  | 7109/9678 [15:43:32<6:35:20,  9.23s/it] 73%|███████▎  | 7110/9678 [15:43:41<6:24:43,  8.99s/it]                                                        {'loss': 0.6989, 'grad_norm': 0.9743627905845642, 'learning_rate': 8.351488917600077e-05, 'epoch': 0.73}
+ 73%|███████▎  | 7110/9678 [15:43:41<6:24:43,  8.99s/it] 73%|███████▎  | 7111/9678 [15:43:48<5:59:28,  8.40s/it] 73%|███████▎  | 7112/9678 [15:43:56<5:57:04,  8.35s/it] 73%|███████▎  | 7113/9678 [15:44:04<5:48:06,  8.14s/it] 74%|███████▎  | 7114/9678 [15:44:10<5:21:38,  7.53s/it] 74%|███████▎  | 7115/9678 [15:44:16<5:11:50,  7.30s/it] 74%|███████▎  | 7116/9678 [15:44:26<5:35:25,  7.86s/it] 74%|███████▎  | 7117/9678 [15:44:32<5:20:16,  7.50s/it] 74%|███████▎  | 7118/9678 [15:44:41<5:34:02,  7.83s/it] 74%|███████▎  | 7119/9678 [15:44:49<5:42:28,  8.03s/it] 74%|███████▎  | 7120/9678 [15:44:57<5:35:26,  7.87s/it]                                                        {'loss': 0.7556, 'grad_norm': 0.8228883147239685, 'learning_rate': 8.290425110397018e-05, 'epoch': 0.74}
+ 74%|███████▎  | 7120/9678 [15:44:57<5:35:26,  7.87s/it] 74%|███████▎  | 7121/9678 [15:45:04<5:32:13,  7.80s/it] 74%|███████▎  | 7122/9678 [15:45:14<5:48:42,  8.19s/it] 74%|███████▎  | 7123/9678 [15:45:21<5:40:16,  7.99s/it] 74%|███████▎  | 7124/9678 [15:45:30<5:45:57,  8.13s/it] 74%|███████▎  | 7125/9678 [15:45:37<5:35:32,  7.89s/it] 74%|███████▎  | 7126/9678 [15:45:46<5:46:24,  8.14s/it] 74%|███████▎  | 7127/9678 [15:45:53<5:37:51,  7.95s/it] 74%|███████▎  | 7128/9678 [15:46:00<5:28:18,  7.72s/it] 74%|███████▎  | 7129/9678 [15:46:07<5:19:10,  7.51s/it] 74%|███████▎  | 7130/9678 [15:46:16<5:34:53,  7.89s/it]                                                        {'loss': 0.6756, 'grad_norm': 0.9745365381240845, 'learning_rate': 8.229540959752851e-05, 'epoch': 0.74}
+ 74%|███████▎  | 7130/9678 [15:46:16<5:34:53,  7.89s/it] 74%|███████▎  | 7131/9678 [15:46:23<5:20:24,  7.55s/it] 74%|███████▎  | 7132/9678 [15:46:30<5:16:59,  7.47s/it] 74%|███████▎  | 7133/9678 [15:46:38<5:24:21,  7.65s/it] 74%|███████▎  | 7134/9678 [15:46:45<5:10:25,  7.32s/it] 74%|███████▎  | 7135/9678 [15:46:53<5:17:38,  7.49s/it] 74%|███████▎  | 7136/9678 [15:47:01<5:22:28,  7.61s/it] 74%|███████▎  | 7137/9678 [15:47:07<5:09:55,  7.32s/it] 74%|███████▍  | 7138/9678 [15:47:18<5:53:33,  8.35s/it] 74%|███████▍  | 7139/9678 [15:47:25<5:38:01,  7.99s/it] 74%|███████▍  | 7140/9678 [15:47:35<5:57:56,  8.46s/it]                                                        {'loss': 0.7298, 'grad_norm': 0.9700762629508972, 'learning_rate': 8.168837120276512e-05, 'epoch': 0.74}
+ 74%|███████▍  | 7140/9678 [15:47:35<5:57:56,  8.46s/it] 74%|███████▍  | 7141/9678 [15:47:42<5:40:03,  8.04s/it] 74%|███████▍  | 7142/9678 [15:47:48<5:18:10,  7.53s/it] 74%|███████▍  | 7143/9678 [15:47:56<5:20:29,  7.59s/it] 74%|███████▍  | 7144/9678 [15:48:04<5:27:44,  7.76s/it] 74%|███████▍  | 7145/9678 [15:48:13<5:41:55,  8.10s/it] 74%|███████▍  | 7146/9678 [15:48:21<5:43:45,  8.15s/it] 74%|███████▍  | 7147/9678 [15:48:28<5:29:00,  7.80s/it] 74%|███████▍  | 7148/9678 [15:48:35<5:14:24,  7.46s/it] 74%|███████▍  | 7149/9678 [15:48:42<5:11:11,  7.38s/it] 74%|███████▍  | 7150/9678 [15:48:49<5:08:09,  7.31s/it]                                                        {'loss': 0.7307, 'grad_norm': 1.2264478206634521, 'learning_rate': 8.108314244638267e-05, 'epoch': 0.74}
+ 74%|███████▍  | 7150/9678 [15:48:49<5:08:09,  7.31s/it] 74%|███████▍  | 7151/9678 [15:48:58<5:32:05,  7.88s/it] 74%|███████▍  | 7152/9678 [15:49:05<5:19:49,  7.60s/it] 74%|███████▍  | 7153/9678 [15:49:14<5:33:59,  7.94s/it] 74%|███████▍  | 7154/9678 [15:49:21<5:20:12,  7.61s/it] 74%|███████▍  | 7155/9678 [15:49:30<5:35:04,  7.97s/it] 74%|███████▍  | 7156/9678 [15:49:36<5:18:23,  7.57s/it] 74%|███████▍  | 7157/9678 [15:49:43<5:04:55,  7.26s/it] 74%|███████▍  | 7158/9678 [15:49:50<5:01:17,  7.17s/it] 74%|███████▍  | 7159/9678 [15:49:55<4:35:40,  6.57s/it] 74%|███████▍  | 7160/9678 [15:50:03<5:00:16,  7.15s/it]                                                        {'loss': 0.7043, 'grad_norm': 1.1239992380142212, 'learning_rate': 8.047972983562748e-05, 'epoch': 0.74}
+ 74%|███████▍  | 7160/9678 [15:50:03<5:00:16,  7.15s/it] 74%|███████▍  | 7161/9678 [15:50:11<5:02:03,  7.20s/it] 74%|███████▍  | 7162/9678 [15:50:18<5:08:24,  7.35s/it] 74%|███████▍  | 7163/9678 [15:50:29<5:44:42,  8.22s/it] 74%|███████▍  | 7164/9678 [15:50:39<6:09:13,  8.81s/it] 74%|███████▍  | 7165/9678 [15:50:45<5:39:01,  8.09s/it] 74%|███████▍  | 7166/9678 [15:50:53<5:30:11,  7.89s/it] 74%|███████▍  | 7167/9678 [15:51:00<5:25:26,  7.78s/it] 74%|███████▍  | 7168/9678 [15:51:08<5:20:54,  7.67s/it] 74%|███████▍  | 7169/9678 [15:51:16<5:31:01,  7.92s/it] 74%|███████▍  | 7170/9678 [15:51:23<5:13:09,  7.49s/it]                                                        {'loss': 0.7194, 'grad_norm': 0.8346306681632996, 'learning_rate': 7.987813985821882e-05, 'epoch': 0.74}
+ 74%|███████▍  | 7170/9678 [15:51:23<5:13:09,  7.49s/it] 74%|███████▍  | 7171/9678 [15:51:29<4:55:42,  7.08s/it] 74%|███████▍  | 7172/9678 [15:51:36<4:54:25,  7.05s/it] 74%|███████▍  | 7173/9678 [15:51:45<5:18:22,  7.63s/it] 74%|███████▍  | 7174/9678 [15:51:52<5:16:30,  7.58s/it] 74%|███████▍  | 7175/9678 [15:52:00<5:24:42,  7.78s/it] 74%|███████▍  | 7176/9678 [15:52:09<5:28:23,  7.87s/it] 74%|███████▍  | 7177/9678 [15:52:18<5:50:31,  8.41s/it] 74%|███████▍  | 7178/9678 [15:52:28<6:08:31,  8.84s/it] 74%|███████▍  | 7179/9678 [15:52:36<5:55:31,  8.54s/it] 74%|███████▍  | 7180/9678 [15:52:43<5:39:43,  8.16s/it]                                                        {'loss': 0.7095, 'grad_norm': 0.8321127891540527, 'learning_rate': 7.927837898227966e-05, 'epoch': 0.74}
+ 74%|███████▍  | 7180/9678 [15:52:43<5:39:43,  8.16s/it] 74%|███████▍  | 7181/9678 [15:52:52<5:49:00,  8.39s/it] 74%|███████▍  | 7182/9678 [15:53:01<5:53:49,  8.51s/it] 74%|███████▍  | 7183/9678 [15:53:09<5:53:29,  8.50s/it] 74%|███████▍  | 7184/9678 [15:53:17<5:42:21,  8.24s/it] 74%|███████▍  | 7185/9678 [15:53:25<5:41:49,  8.23s/it] 74%|███████▍  | 7186/9678 [15:53:34<5:50:47,  8.45s/it] 74%|███████▍  | 7187/9678 [15:53:42<5:38:22,  8.15s/it] 74%|███████▍  | 7188/9678 [15:53:48<5:17:41,  7.66s/it] 74%|███████▍  | 7189/9678 [15:53:56<5:15:17,  7.60s/it] 74%|███████▍  | 7190/9678 [15:54:04<5:25:30,  7.85s/it]                                                        {'loss': 0.7328, 'grad_norm': 0.9774494767189026, 'learning_rate': 7.868045365626702e-05, 'epoch': 0.74}
+ 74%|███████▍  | 7190/9678 [15:54:04<5:25:30,  7.85s/it] 74%|███████▍  | 7191/9678 [15:54:12<5:30:23,  7.97s/it] 74%|███████▍  | 7192/9678 [15:54:19<5:20:01,  7.72s/it] 74%|███████▍  | 7193/9678 [15:54:25<4:59:15,  7.23s/it] 74%|███████▍  | 7194/9678 [15:54:36<5:34:34,  8.08s/it] 74%|███████▍  | 7195/9678 [15:54:44<5:34:47,  8.09s/it] 74%|███████▍  | 7196/9678 [15:54:53<5:46:42,  8.38s/it] 74%|███████▍  | 7197/9678 [15:55:00<5:31:35,  8.02s/it] 74%|███████▍  | 7198/9678 [15:55:08<5:32:53,  8.05s/it] 74%|███████▍  | 7199/9678 [15:55:17<5:42:08,  8.28s/it] 74%|███████▍  | 7200/9678 [15:55:26<5:47:34,  8.42s/it]                                                        {'loss': 0.6084, 'grad_norm': 0.8818146586418152, 'learning_rate': 7.808437030890258e-05, 'epoch': 0.74}
+ 74%|███████▍  | 7200/9678 [15:55:26<5:47:34,  8.42s/it] 74%|███████▍  | 7201/9678 [15:55:35<5:57:54,  8.67s/it] 74%|███████▍  | 7202/9678 [15:55:43<5:48:52,  8.45s/it] 74%|███████▍  | 7203/9678 [15:55:50<5:34:33,  8.11s/it] 74%|███████▍  | 7204/9678 [15:55:58<5:26:06,  7.91s/it] 74%|███████▍  | 7205/9678 [15:56:05<5:22:39,  7.83s/it] 74%|███████▍  | 7206/9678 [15:56:15<5:51:34,  8.53s/it] 74%|███████▍  | 7207/9678 [15:56:23<5:38:15,  8.21s/it] 74%|███████▍  | 7208/9678 [15:56:32<5:44:22,  8.37s/it] 74%|███████▍  | 7209/9678 [15:56:39<5:36:42,  8.18s/it] 74%|███████▍  | 7210/9678 [15:56:47<5:27:30,  7.96s/it]                                                        {'loss': 0.6242, 'grad_norm': 0.6830877661705017, 'learning_rate': 7.749013534910362e-05, 'epoch': 0.74}
+ 74%|███████▍  | 7210/9678 [15:56:47<5:27:30,  7.96s/it] 75%|███████▍  | 7211/9678 [15:56:54<5:15:28,  7.67s/it] 75%|███████▍  | 7212/9678 [15:57:01<5:13:30,  7.63s/it] 75%|███████▍  | 7213/9678 [15:57:09<5:08:43,  7.51s/it] 75%|███████▍  | 7214/9678 [15:57:16<5:08:31,  7.51s/it] 75%|███████▍  | 7215/9678 [15:57:27<5:47:16,  8.46s/it] 75%|███████▍  | 7216/9678 [15:57:34<5:28:24,  8.00s/it] 75%|███████▍  | 7217/9678 [15:57:42<5:38:18,  8.25s/it] 75%|███████▍  | 7218/9678 [15:57:51<5:41:31,  8.33s/it] 75%|███████▍  | 7219/9678 [15:58:00<5:55:17,  8.67s/it] 75%|███████▍  | 7220/9678 [15:58:09<5:50:09,  8.55s/it]                                                        {'loss': 0.6592, 'grad_norm': 0.7373770475387573, 'learning_rate': 7.689775516591397e-05, 'epoch': 0.75}
+ 75%|███████▍  | 7220/9678 [15:58:09<5:50:09,  8.55s/it] 75%|███████▍  | 7221/9678 [15:58:17<5:45:57,  8.45s/it] 75%|███████▍  | 7222/9678 [15:58:25<5:37:05,  8.23s/it] 75%|███████▍  | 7223/9678 [15:58:34<5:45:58,  8.46s/it] 75%|███████▍  | 7224/9678 [15:58:43<5:54:57,  8.68s/it] 75%|███████▍  | 7225/9678 [15:58:50<5:38:09,  8.27s/it] 75%|███████▍  | 7226/9678 [15:58:57<5:18:42,  7.80s/it] 75%|███████▍  | 7227/9678 [15:59:06<5:35:59,  8.22s/it] 75%|███████▍  | 7228/9678 [15:59:13<5:26:10,  7.99s/it] 75%|███████▍  | 7229/9678 [15:59:23<5:41:36,  8.37s/it] 75%|███████▍  | 7230/9678 [15:59:32<5:50:18,  8.59s/it]                                                        {'loss': 0.7781, 'grad_norm': 1.5116766691207886, 'learning_rate': 7.63072361284357e-05, 'epoch': 0.75}
+ 75%|███████▍  | 7230/9678 [15:59:32<5:50:18,  8.59s/it] 75%|███████▍  | 7231/9678 [15:59:41<6:00:27,  8.84s/it] 75%|███████▍  | 7232/9678 [15:59:50<5:53:48,  8.68s/it] 75%|███████▍  | 7233/9678 [15:59:57<5:43:52,  8.44s/it] 75%|███████▍  | 7234/9678 [16:00:06<5:41:39,  8.39s/it] 75%|███████▍  | 7235/9678 [16:00:14<5:38:42,  8.32s/it] 75%|███████▍  | 7236/9678 [16:00:21<5:21:41,  7.90s/it] 75%|███████▍  | 7237/9678 [16:00:27<4:59:49,  7.37s/it] 75%|███████▍  | 7238/9678 [16:00:35<5:02:19,  7.43s/it] 75%|███████▍  | 7239/9678 [16:00:43<5:09:30,  7.61s/it] 75%|███████▍  | 7240/9678 [16:00:50<5:09:03,  7.61s/it]                                                        {'loss': 0.8028, 'grad_norm': 1.11928129196167, 'learning_rate': 7.571858458576017e-05, 'epoch': 0.75}
+ 75%|███████▍  | 7240/9678 [16:00:50<5:09:03,  7.61s/it] 75%|███████▍  | 7241/9678 [16:00:57<5:04:42,  7.50s/it] 75%|███████▍  | 7242/9678 [16:01:04<4:53:59,  7.24s/it] 75%|███████▍  | 7243/9678 [16:01:12<5:06:38,  7.56s/it] 75%|███████▍  | 7244/9678 [16:01:20<5:12:42,  7.71s/it] 75%|███████▍  | 7245/9678 [16:01:27<5:01:02,  7.42s/it] 75%|███████▍  | 7246/9678 [16:01:36<5:18:19,  7.85s/it] 75%|███████▍  | 7247/9678 [16:01:44<5:19:19,  7.88s/it] 75%|███████▍  | 7248/9678 [16:01:51<5:08:05,  7.61s/it] 75%|███████▍  | 7249/9678 [16:01:57<4:54:22,  7.27s/it] 75%|███████▍  | 7250/9678 [16:02:05<4:58:41,  7.38s/it]                                                        {'loss': 0.6601, 'grad_norm': 0.5922040939331055, 'learning_rate': 7.513180686690002e-05, 'epoch': 0.75}
+ 75%|███████▍  | 7250/9678 [16:02:05<4:58:41,  7.38s/it] 75%|███████▍  | 7251/9678 [16:02:12<4:53:00,  7.24s/it] 75%|███████▍  | 7252/9678 [16:02:19<4:52:16,  7.23s/it] 75%|███████▍  | 7253/9678 [16:02:25<4:33:10,  6.76s/it] 75%|███████▍  | 7254/9678 [16:02:32<4:34:08,  6.79s/it] 75%|███████▍  | 7255/9678 [16:02:38<4:30:22,  6.70s/it] 75%|███████▍  | 7256/9678 [16:02:45<4:35:20,  6.82s/it] 75%|███████▍  | 7257/9678 [16:02:52<4:36:38,  6.86s/it] 75%|███████▍  | 7258/9678 [16:02:59<4:36:58,  6.87s/it] 75%|███████▌  | 7259/9678 [16:03:08<4:57:39,  7.38s/it] 75%|███████▌  | 7260/9678 [16:03:16<5:06:40,  7.61s/it]                                                        {'loss': 0.7152, 'grad_norm': 0.9148753881454468, 'learning_rate': 7.454690928072088e-05, 'epoch': 0.75}
+ 75%|███████▌  | 7260/9678 [16:03:16<5:06:40,  7.61s/it] 75%|███████▌  | 7261/9678 [16:03:23<5:05:36,  7.59s/it] 75%|███████▌  | 7262/9678 [16:03:32<5:14:12,  7.80s/it] 75%|███████▌  | 7263/9678 [16:03:39<5:04:17,  7.56s/it] 75%|███████▌  | 7264/9678 [16:03:46<5:04:50,  7.58s/it] 75%|███████▌  | 7265/9678 [16:03:56<5:28:20,  8.16s/it] 75%|███████▌  | 7266/9678 [16:04:04<5:26:25,  8.12s/it] 75%|███████▌  | 7267/9678 [16:04:12<5:31:17,  8.24s/it] 75%|███████▌  | 7268/9678 [16:04:20<5:25:20,  8.10s/it] 75%|███████▌  | 7269/9678 [16:04:27<5:07:36,  7.66s/it] 75%|███████▌  | 7270/9678 [16:04:35<5:16:35,  7.89s/it]                                                        {'loss': 0.6906, 'grad_norm': 0.7024368047714233, 'learning_rate': 7.396389811587415e-05, 'epoch': 0.75}
+ 75%|███████▌  | 7270/9678 [16:04:35<5:16:35,  7.89s/it] 75%|███████▌  | 7271/9678 [16:04:43<5:12:28,  7.79s/it] 75%|███████▌  | 7272/9678 [16:04:49<4:51:24,  7.27s/it] 75%|███████▌  | 7273/9678 [16:04:58<5:19:13,  7.96s/it] 75%|███████▌  | 7274/9678 [16:05:06<5:10:36,  7.75s/it] 75%|███████▌  | 7275/9678 [16:05:14<5:15:38,  7.88s/it] 75%|███████▌  | 7276/9678 [16:05:21<5:10:52,  7.77s/it] 75%|███████▌  | 7277/9678 [16:05:29<5:05:00,  7.62s/it] 75%|███████▌  | 7278/9678 [16:05:37<5:11:00,  7.78s/it] 75%|███████▌  | 7279/9678 [16:05:45<5:14:10,  7.86s/it] 75%|███████▌  | 7280/9678 [16:05:52<5:11:57,  7.81s/it]                                                        {'loss': 0.7471, 'grad_norm': 1.3108892440795898, 'learning_rate': 7.338277964072864e-05, 'epoch': 0.75}
+ 75%|███████▌  | 7280/9678 [16:05:52<5:11:57,  7.81s/it] 75%|███████▌  | 7281/9678 [16:06:00<5:12:51,  7.83s/it] 75%|███████▌  | 7282/9678 [16:06:10<5:34:15,  8.37s/it] 75%|███████▌  | 7283/9678 [16:06:18<5:24:24,  8.13s/it] 75%|███████▌  | 7284/9678 [16:06:26<5:27:41,  8.21s/it] 75%|███████▌  | 7285/9678 [16:06:33<5:10:05,  7.77s/it] 75%|███████▌  | 7286/9678 [16:06:40<5:04:06,  7.63s/it] 75%|███████▌  | 7287/9678 [16:06:49<5:18:02,  7.98s/it] 75%|███████▌  | 7288/9678 [16:06:56<5:12:47,  7.85s/it] 75%|███████▌  | 7289/9678 [16:07:04<5:07:40,  7.73s/it] 75%|███████▌  | 7290/9678 [16:07:12<5:15:23,  7.92s/it]                                                        {'loss': 0.7364, 'grad_norm': 0.6525394320487976, 'learning_rate': 7.280356010330361e-05, 'epoch': 0.75}
+ 75%|███████▌  | 7290/9678 [16:07:12<5:15:23,  7.92s/it] 75%|███████▌  | 7291/9678 [16:07:18<4:50:58,  7.31s/it] 75%|███████▌  | 7292/9678 [16:07:26<4:55:03,  7.42s/it] 75%|███████▌  | 7293/9678 [16:07:35<5:20:56,  8.07s/it] 75%|███████▌  | 7294/9678 [16:07:44<5:29:39,  8.30s/it] 75%|███████▌  | 7295/9678 [16:07:52<5:29:17,  8.29s/it] 75%|███████▌  | 7296/9678 [16:08:00<5:17:06,  7.99s/it] 75%|███████▌  | 7297/9678 [16:08:06<5:02:32,  7.62s/it] 75%|███████▌  | 7298/9678 [16:08:14<5:01:29,  7.60s/it] 75%|███████▌  | 7299/9678 [16:08:22<5:09:38,  7.81s/it] 75%|███████▌  | 7300/9678 [16:08:31<5:17:52,  8.02s/it]                                                        {'loss': 0.7023, 'grad_norm': 1.344499111175537, 'learning_rate': 7.222624573120137e-05, 'epoch': 0.75}
+ 75%|███████▌  | 7300/9678 [16:08:31<5:17:52,  8.02s/it] 75%|███████▌  | 7301/9678 [16:08:39<5:21:42,  8.12s/it] 75%|███████▌  | 7302/9678 [16:08:48<5:24:09,  8.19s/it] 75%|███████▌  | 7303/9678 [16:08:55<5:18:31,  8.05s/it] 75%|███████▌  | 7304/9678 [16:09:02<5:05:46,  7.73s/it] 75%|███████▌  | 7305/9678 [16:09:10<5:07:12,  7.77s/it] 75%|███████▌  | 7306/9678 [16:09:18<5:11:14,  7.87s/it] 76%|███████▌  | 7307/9678 [16:09:26<5:10:45,  7.86s/it] 76%|███████▌  | 7308/9678 [16:09:33<5:05:11,  7.73s/it] 76%|███████▌  | 7309/9678 [16:09:41<4:59:25,  7.58s/it] 76%|███████▌  | 7310/9678 [16:09:50<5:13:40,  7.95s/it]                                                        {'loss': 0.6748, 'grad_norm': 0.7209261059761047, 'learning_rate': 7.165084273154074e-05, 'epoch': 0.76}
+ 76%|███████▌  | 7310/9678 [16:09:50<5:13:40,  7.95s/it] 76%|███████▌  | 7311/9678 [16:09:58<5:17:32,  8.05s/it] 76%|███████▌  | 7312/9678 [16:10:07<5:25:21,  8.25s/it] 76%|███████▌  | 7313/9678 [16:10:16<5:38:28,  8.59s/it] 76%|███████▌  | 7314/9678 [16:10:24<5:27:24,  8.31s/it] 76%|███████▌  | 7315/9678 [16:10:30<5:10:37,  7.89s/it] 76%|███████▌  | 7316/9678 [16:10:38<5:00:46,  7.64s/it] 76%|███████▌  | 7317/9678 [16:10:44<4:47:16,  7.30s/it] 76%|███████▌  | 7318/9678 [16:10:51<4:38:53,  7.09s/it] 76%|███████▌  | 7319/9678 [16:11:00<5:00:04,  7.63s/it] 76%|███████▌  | 7320/9678 [16:11:06<4:43:20,  7.21s/it]                                                        {'loss': 0.6376, 'grad_norm': 1.4905532598495483, 'learning_rate': 7.10773572908898e-05, 'epoch': 0.76}
+ 76%|███████▌  | 7320/9678 [16:11:06<4:43:20,  7.21s/it] 76%|███████▌  | 7321/9678 [16:11:13<4:40:47,  7.15s/it] 76%|███████▌  | 7322/9678 [16:11:23<5:13:03,  7.97s/it] 76%|███████▌  | 7323/9678 [16:11:32<5:31:24,  8.44s/it] 76%|███████▌  | 7324/9678 [16:11:39<5:13:29,  7.99s/it] 76%|███████▌  | 7325/9678 [16:11:46<4:57:20,  7.58s/it] 76%|███████▌  | 7326/9678 [16:11:53<4:58:06,  7.60s/it] 76%|███████▌  | 7327/9678 [16:12:00<4:44:00,  7.25s/it] 76%|███████▌  | 7328/9678 [16:12:07<4:40:43,  7.17s/it] 76%|███████▌  | 7329/9678 [16:12:14<4:36:09,  7.05s/it] 76%|███████▌  | 7330/9678 [16:12:22<4:53:50,  7.51s/it]                                                        {'loss': 0.6694, 'grad_norm': 0.4700772762298584, 'learning_rate': 7.050579557519938e-05, 'epoch': 0.76}
+ 76%|███████▌  | 7330/9678 [16:12:22<4:53:50,  7.51s/it] 76%|███████▌  | 7331/9678 [16:12:30<4:54:24,  7.53s/it] 76%|███████▌  | 7332/9678 [16:12:40<5:31:11,  8.47s/it] 76%|███████▌  | 7333/9678 [16:12:48<5:24:14,  8.30s/it] 76%|███████▌  | 7334/9678 [16:12:54<4:58:51,  7.65s/it] 76%|███████▌  | 7335/9678 [16:13:02<4:53:39,  7.52s/it] 76%|███████▌  | 7336/9678 [16:13:09<4:51:45,  7.47s/it] 76%|███████▌  | 7337/9678 [16:13:16<4:48:37,  7.40s/it] 76%|███████▌  | 7338/9678 [16:13:26<5:13:05,  8.03s/it] 76%|███████▌  | 7339/9678 [16:13:33<4:59:48,  7.69s/it] 76%|███████▌  | 7340/9678 [16:13:41<5:06:08,  7.86s/it]                                                        {'loss': 0.6764, 'grad_norm': 0.6527320146560669, 'learning_rate': 6.993616372973739e-05, 'epoch': 0.76}
+ 76%|███████▌  | 7340/9678 [16:13:41<5:06:08,  7.86s/it] 76%|███████▌  | 7341/9678 [16:13:48<5:02:31,  7.77s/it] 76%|███████▌  | 7342/9678 [16:13:55<4:48:32,  7.41s/it] 76%|███████▌  | 7343/9678 [16:14:03<5:00:47,  7.73s/it] 76%|███████▌  | 7344/9678 [16:14:15<5:44:39,  8.86s/it] 76%|███████▌  | 7345/9678 [16:14:24<5:43:53,  8.84s/it] 76%|███████▌  | 7346/9678 [16:14:34<5:55:11,  9.14s/it] 76%|███████▌  | 7347/9678 [16:14:41<5:36:20,  8.66s/it] 76%|███████▌  | 7348/9678 [16:14:50<5:33:37,  8.59s/it] 76%|███████▌  | 7349/9678 [16:14:58<5:26:28,  8.41s/it] 76%|███████▌  | 7350/9678 [16:15:08<5:45:45,  8.91s/it]                                                        {'loss': 0.658, 'grad_norm': 0.7010611295700073, 'learning_rate': 6.936846787902207e-05, 'epoch': 0.76}
+ 76%|███████▌  | 7350/9678 [16:15:08<5:45:45,  8.91s/it] 76%|███████▌  | 7351/9678 [16:15:15<5:24:48,  8.37s/it] 76%|���██████▌  | 7352/9678 [16:15:21<4:56:59,  7.66s/it] 76%|███████▌  | 7353/9678 [16:15:27<4:44:51,  7.35s/it] 76%|███████▌  | 7354/9678 [16:15:35<4:50:17,  7.49s/it] 76%|███████▌  | 7355/9678 [16:15:46<5:24:53,  8.39s/it] 76%|███████▌  | 7356/9678 [16:15:55<5:31:45,  8.57s/it] 76%|███████▌  | 7357/9678 [16:16:02<5:16:19,  8.18s/it] 76%|███████▌  | 7358/9678 [16:16:09<5:00:03,  7.76s/it] 76%|███████▌  | 7359/9678 [16:16:17<5:04:08,  7.87s/it] 76%|███████▌  | 7360/9678 [16:16:25<5:04:24,  7.88s/it]                                                        {'loss': 0.6569, 'grad_norm': 1.1044212579727173, 'learning_rate': 6.880271412675645e-05, 'epoch': 0.76}
+ 76%|███████▌  | 7360/9678 [16:16:25<5:04:24,  7.88s/it] 76%|███████▌  | 7361/9678 [16:16:32<4:55:07,  7.64s/it] 76%|███████▌  | 7362/9678 [16:16:40<4:58:19,  7.73s/it] 76%|███████▌  | 7363/9678 [16:16:47<4:54:07,  7.62s/it] 76%|███████▌  | 7364/9678 [16:16:56<5:03:36,  7.87s/it] 76%|███████▌  | 7365/9678 [16:17:01<4:38:39,  7.23s/it] 76%|███████▌  | 7366/9678 [16:17:08<4:32:02,  7.06s/it] 76%|███████▌  | 7367/9678 [16:17:15<4:29:14,  6.99s/it] 76%|███████▌  | 7368/9678 [16:17:22<4:25:31,  6.90s/it] 76%|███████▌  | 7369/9678 [16:17:29<4:30:23,  7.03s/it] 76%|███████▌  | 7370/9678 [16:17:36<4:37:12,  7.21s/it]                                                        {'loss': 0.6382, 'grad_norm': 0.8779295682907104, 'learning_rate': 6.823890855576261e-05, 'epoch': 0.76}
+ 76%|███████▌  | 7370/9678 [16:17:36<4:37:12,  7.21s/it] 76%|███████▌  | 7371/9678 [16:17:43<4:28:42,  6.99s/it] 76%|███████▌  | 7372/9678 [16:17:50<4:34:26,  7.14s/it] 76%|███████▌  | 7373/9678 [16:17:58<4:33:40,  7.12s/it] 76%|███████▌  | 7374/9678 [16:18:05<4:41:50,  7.34s/it] 76%|███████▌  | 7375/9678 [16:18:14<4:52:08,  7.61s/it] 76%|███████▌  | 7376/9678 [16:18:23<5:06:33,  7.99s/it] 76%|███████▌  | 7377/9678 [16:18:29<4:48:26,  7.52s/it] 76%|███████▌  | 7378/9678 [16:18:39<5:15:29,  8.23s/it] 76%|███████▌  | 7379/9678 [16:18:46<5:07:56,  8.04s/it] 76%|███████▋  | 7380/9678 [16:18:55<5:09:13,  8.07s/it]                                                        {'loss': 0.6453, 'grad_norm': 0.9512449502944946, 'learning_rate': 6.76770572279167e-05, 'epoch': 0.76}
+ 76%|███████▋  | 7380/9678 [16:18:55<5:09:13,  8.07s/it] 76%|███████▋  | 7381/9678 [16:19:02<5:03:10,  7.92s/it] 76%|███████▋  | 7382/9678 [16:19:10<5:00:57,  7.86s/it] 76%|███████▋  | 7383/9678 [16:19:16<4:38:41,  7.29s/it] 76%|███████▋  | 7384/9678 [16:19:23<4:37:02,  7.25s/it] 76%|███████▋  | 7385/9678 [16:19:31<4:48:38,  7.55s/it] 76%|███████▋  | 7386/9678 [16:19:39<4:51:01,  7.62s/it] 76%|███████▋  | 7387/9678 [16:19:46<4:44:06,  7.44s/it] 76%|███████▋  | 7388/9678 [16:19:53<4:40:26,  7.35s/it] 76%|███████▋  | 7389/9678 [16:20:00<4:39:09,  7.32s/it] 76%|███████▋  | 7390/9678 [16:20:09<4:53:23,  7.69s/it]                                                        {'loss': 0.6539, 'grad_norm': 0.782164990901947, 'learning_rate': 6.711716618408281e-05, 'epoch': 0.76}
+ 76%|███████▋  | 7390/9678 [16:20:09<4:53:23,  7.69s/it] 76%|███████▋  | 7391/9678 [16:20:17<4:54:26,  7.72s/it] 76%|███████▋  | 7392/9678 [16:20:26<5:16:51,  8.32s/it] 76%|███████▋  | 7393/9678 [16:20:32<4:50:07,  7.62s/it] 76%|███████▋  | 7394/9678 [16:20:41<5:02:54,  7.96s/it] 76%|███████▋  | 7395/9678 [16:20:51<5:19:40,  8.40s/it] 76%|███████▋  | 7396/9678 [16:20:59<5:14:06,  8.26s/it] 76%|███████▋  | 7397/9678 [16:21:07<5:19:34,  8.41s/it] 76%|███████▋  | 7398/9678 [16:21:14<5:04:18,  8.01s/it] 76%|███████▋  | 7399/9678 [16:21:24<5:26:06,  8.59s/it] 76%|███████▋  | 7400/9678 [16:21:31<5:03:31,  7.99s/it]                                                        {'loss': 0.6142, 'grad_norm': 1.7972410917282104, 'learning_rate': 6.655924144404906e-05, 'epoch': 0.76}
+ 76%|███████▋  | 7400/9678 [16:21:31<5:03:31,  7.99s/it] 76%|███████▋  | 7401/9678 [16:21:39<4:59:48,  7.90s/it] 76%|███████▋  | 7402/9678 [16:21:48<5:11:05,  8.20s/it] 76%|███████▋  | 7403/9678 [16:21:55<5:08:24,  8.13s/it] 77%|███████▋  | 7404/9678 [16:22:05<5:23:58,  8.55s/it] 77%|███████▋  | 7405/9678 [16:22:13<5:11:55,  8.23s/it] 77%|███████▋  | 7406/9678 [16:22:21<5:16:49,  8.37s/it] 77%|███████▋  | 7407/9678 [16:22:27<4:50:59,  7.69s/it] 77%|███████▋  | 7408/9678 [16:22:36<5:04:54,  8.06s/it] 77%|███████▋  | 7409/9678 [16:22:44<5:01:38,  7.98s/it] 77%|███████▋  | 7410/9678 [16:22:53<5:13:04,  8.28s/it]                                                        {'loss': 0.7511, 'grad_norm': 0.9399009346961975, 'learning_rate': 6.600328900646222e-05, 'epoch': 0.77}
+ 77%|███████▋  | 7410/9678 [16:22:53<5:13:04,  8.28s/it] 77%|███████▋  | 7411/9678 [16:22:59<4:52:03,  7.73s/it] 77%|███████▋  | 7412/9678 [16:23:08<4:56:16,  7.84s/it] 77%|███████▋  | 7413/9678 [16:23:16<5:00:34,  7.96s/it] 77%|███████▋  | 7414/9678 [16:23:23<4:54:27,  7.80s/it] 77%|███████▋  | 7415/9678 [16:23:32<5:00:41,  7.97s/it] 77%|███████▋  | 7416/9678 [16:23:39<4:54:48,  7.82s/it] 77%|███████▋  | 7417/9678 [16:23:48<5:12:01,  8.28s/it] 77%|███████▋  | 7418/9678 [16:23:57<5:13:18,  8.32s/it] 77%|███████▋  | 7419/9678 [16:24:05<5:13:54,  8.34s/it] 77%|███████▋  | 7420/9678 [16:24:12<4:59:57,  7.97s/it]                                                        {'loss': 0.5901, 'grad_norm': 2.6008989810943604, 'learning_rate': 6.544931484876368e-05, 'epoch': 0.77}
+ 77%|███████▋  | 7420/9678 [16:24:12<4:59:57,  7.97s/it] 77%|███████▋  | 7421/9678 [16:24:22<5:19:47,  8.50s/it] 77%|███████▋  | 7422/9678 [16:24:31<5:26:21,  8.68s/it] 77%|███████▋  | 7423/9678 [16:24:39<5:16:32,  8.42s/it] 77%|███████▋  | 7424/9678 [16:24:47<5:09:37,  8.24s/it] 77%|███████▋  | 7425/9678 [16:24:54<5:01:13,  8.02s/it] 77%|███████▋  | 7426/9678 [16:25:02<4:59:13,  7.97s/it] 77%|███████▋  | 7427/9678 [16:25:10<4:57:25,  7.93s/it] 77%|███████▋  | 7428/9678 [16:25:18<4:55:27,  7.88s/it] 77%|███████▋  | 7429/9678 [16:25:25<4:49:26,  7.72s/it] 77%|███████▋  | 7430/9678 [16:25:33<4:51:52,  7.79s/it]                                                        {'loss': 0.6217, 'grad_norm': 1.3178836107254028, 'learning_rate': 6.489732492712466e-05, 'epoch': 0.77}
+ 77%|███████▋  | 7430/9678 [16:25:33<4:51:52,  7.79s/it] 77%|███████▋  | 7431/9678 [16:25:40<4:41:06,  7.51s/it] 77%|███████▋  | 7432/9678 [16:25:49<4:59:42,  8.01s/it] 77%|███████▋  | 7433/9678 [16:25:56<4:52:28,  7.82s/it] 77%|███████▋  | 7434/9678 [16:26:05<4:57:07,  7.94s/it] 77%|███████▋  | 7435/9678 [16:26:14<5:13:39,  8.39s/it] 77%|███████▋  | 7436/9678 [16:26:23<5:23:03,  8.65s/it] 77%|███████▋  | 7437/9678 [16:26:31<5:09:40,  8.29s/it] 77%|███████▋  | 7438/9678 [16:26:39<5:13:50,  8.41s/it] 77%|███████▋  | 7439/9678 [16:26:48<5:11:44,  8.35s/it] 77%|███████▋  | 7440/9678 [16:26:55<5:04:48,  8.17s/it]                                                        {'loss': 0.6472, 'grad_norm': 1.1651490926742554, 'learning_rate': 6.434732517638254e-05, 'epoch': 0.77}
+ 77%|███████▋  | 7440/9678 [16:26:55<5:04:48,  8.17s/it] 77%|███████▋  | 7441/9678 [16:27:03<4:52:40,  7.85s/it] 77%|███████▋  | 7442/9678 [16:27:09<4:41:55,  7.57s/it] 77%|███████▋  | 7443/9678 [16:27:17<4:46:26,  7.69s/it] 77%|███████▋  | 7444/9678 [16:27:26<4:55:51,  7.95s/it] 77%|███████▋  | 7445/9678 [16:27:34<4:53:48,  7.89s/it] 77%|███████▋  | 7446/9678 [16:27:43<5:05:46,  8.22s/it] 77%|███████▋  | 7447/9678 [16:27:52<5:12:20,  8.40s/it] 77%|███████▋  | 7448/9678 [16:28:00<5:16:12,  8.51s/it] 77%|███████▋  | 7449/9678 [16:28:07<5:00:40,  8.09s/it] 77%|███████▋  | 7450/9678 [16:28:15<4:53:19,  7.90s/it]                                                        {'loss': 0.6595, 'grad_norm': 1.072582721710205, 'learning_rate': 6.37993215099771e-05, 'epoch': 0.77}
+ 77%|███████▋  | 7450/9678 [16:28:15<4:53:19,  7.90s/it] 77%|███████▋  | 7451/9678 [16:28:25<5:17:24,  8.55s/it] 77%|███████▋  | 7452/9678 [16:28:33<5:05:56,  8.25s/it] 77%|███████▋  | 7453/9678 [16:28:40<4:56:50,  8.00s/it] 77%|███████▋  | 7454/9678 [16:28:50<5:14:48,  8.49s/it] 77%|███████▋  | 7455/9678 [16:28:57<4:58:02,  8.04s/it] 77%|███████▋  | 7456/9678 [16:29:04<4:49:06,  7.81s/it] 77%|███████▋  | 7457/9678 [16:29:14<5:12:09,  8.43s/it] 77%|███████▋  | 7458/9678 [16:29:21<4:55:56,  8.00s/it] 77%|███████▋  | 7459/9678 [16:29:30<5:06:17,  8.28s/it] 77%|███████▋  | 7460/9678 [16:29:35<4:38:41,  7.54s/it]                                                        {'loss': 0.7025, 'grad_norm': 1.5162521600723267, 'learning_rate': 6.325331981988653e-05, 'epoch': 0.77}
+ 77%|███████▋  | 7460/9678 [16:29:35<4:38:41,  7.54s/it] 77%|███████▋  | 7461/9678 [16:29:44<4:49:48,  7.84s/it] 77%|███████▋  | 7462/9678 [16:29:53<5:07:41,  8.33s/it] 77%|███████▋  | 7463/9678 [16:30:01<4:58:13,  8.08s/it] 77%|███████▋  | 7464/9678 [16:30:11<5:14:32,  8.52s/it] 77%|███████▋  | 7465/9678 [16:30:19<5:18:37,  8.64s/it] 77%|███████▋  | 7466/9678 [16:30:27<5:11:52,  8.46s/it] 77%|███████▋  | 7467/9678 [16:30:34<4:52:56,  7.95s/it] 77%|███████▋  | 7468/9678 [16:30:41<4:41:11,  7.63s/it] 77%|███████▋  | 7469/9678 [16:30:48<4:33:04,  7.42s/it] 77%|███████▋  | 7470/9678 [16:30:57<4:51:05,  7.91s/it]                                                        {'loss': 0.7168, 'grad_norm': 0.804498016834259, 'learning_rate': 6.27093259765645e-05, 'epoch': 0.77}
+ 77%|███████▋  | 7470/9678 [16:30:57<4:51:05,  7.91s/it] 77%|███████▋  | 7471/9678 [16:31:05<4:53:21,  7.98s/it] 77%|███████▋  | 7472/9678 [16:31:14<5:01:41,  8.21s/it] 77%|███████▋  | 7473/9678 [16:31:24<5:20:01,  8.71s/it] 77%|███████▋  | 7474/9678 [16:31:32<5:12:38,  8.51s/it] 77%|███████▋  | 7475/9678 [16:31:40<5:11:33,  8.49s/it] 77%|███████▋  | 7476/9678 [16:31:47<4:50:48,  7.92s/it] 77%|███████▋  | 7477/9678 [16:31:56<4:59:03,  8.15s/it] 77%|███████▋  | 7478/9678 [16:32:04<5:05:00,  8.32s/it] 77%|███████▋  | 7479/9678 [16:32:14<5:15:27,  8.61s/it] 77%|███████▋  | 7480/9678 [16:32:21<5:01:44,  8.24s/it]                                                        {'loss': 0.6158, 'grad_norm': 1.0188984870910645, 'learning_rate': 6.216734582887678e-05, 'epoch': 0.77}
+ 77%|███████▋  | 7480/9678 [16:32:21<5:01:44,  8.24s/it] 77%|███████▋  | 7481/9678 [16:32:28<4:47:14,  7.84s/it] 77%|███████▋  | 7482/9678 [16:32:35<4:41:03,  7.68s/it] 77%|███████▋  | 7483/9678 [16:32:42<4:35:21,  7.53s/it] 77%|███████▋  | 7484/9678 [16:32:50<4:40:21,  7.67s/it] 77%|███████▋  | 7485/9678 [16:32:57<4:26:19,  7.29s/it] 77%|███████▋  | 7486/9678 [16:33:04<4:20:20,  7.13s/it] 77%|███████▋  | 7487/9678 [16:33:12<4:38:33,  7.63s/it] 77%|███████▋  | 7488/9678 [16:33:20<4:33:24,  7.49s/it] 77%|███████▋  | 7489/9678 [16:33:26<4:24:52,  7.26s/it] 77%|███████▋  | 7490/9678 [16:33:34<4:26:59,  7.32s/it]                                                        {'loss': 0.5752, 'grad_norm': 0.9018194675445557, 'learning_rate': 6.162738520403871e-05, 'epoch': 0.77}
+ 77%|███████▋  | 7490/9678 [16:33:34<4:26:59,  7.32s/it] 77%|███████▋  | 7491/9678 [16:33:41<4:26:09,  7.30s/it] 77%|███████▋  | 7492/9678 [16:33:47<4:11:58,  6.92s/it] 77%|███████▋  | 7493/9678 [16:33:56<4:30:23,  7.42s/it] 77%|███████▋  | 7494/9678 [16:34:05<4:48:12,  7.92s/it] 77%|███████▋  | 7495/9678 [16:34:12<4:43:06,  7.78s/it] 77%|███████▋  | 7496/9678 [16:34:18<4:24:11,  7.26s/it] 77%|███████▋  | 7497/9678 [16:34:25<4:23:27,  7.25s/it] 77%|███████▋  | 7498/9678 [16:34:35<4:44:04,  7.82s/it] 77%|███████▋  | 7499/9678 [16:34:43<4:54:07,  8.10s/it] 77%|███████▋  | 7500/9678 [16:34:50<4:41:52,  7.77s/it]                                                        {'loss': 0.6934, 'grad_norm': 0.6925551891326904, 'learning_rate': 6.108944990755202e-05, 'epoch': 0.77}
+ 77%|███████▋  | 7500/9678 [16:34:50<4:41:52,  7.77s/it] 78%|███████▊  | 7501/9678 [16:34:59<4:55:25,  8.14s/it] 78%|███████▊  | 7502/9678 [16:35:07<4:48:52,  7.97s/it] 78%|███████▊  | 7503/9678 [16:35:15<4:55:53,  8.16s/it] 78%|███████▊  | 7504/9678 [16:35:24<5:00:32,  8.29s/it] 78%|███████▊  | 7505/9678 [16:35:32<4:53:32,  8.11s/it] 78%|███████▊  | 7506/9678 [16:35:40<4:59:58,  8.29s/it] 78%|███████▊  | 7507/9678 [16:35:49<4:59:20,  8.27s/it] 78%|███████▊  | 7508/9678 [16:35:56<4:46:43,  7.93s/it] 78%|███████▊  | 7509/9678 [16:36:04<4:49:15,  8.00s/it] 78%|███████▊  | 7510/9678 [16:36:12<4:50:47,  8.05s/it]                                                        {'loss': 0.6985, 'grad_norm': 1.3633153438568115, 'learning_rate': 6.0553545723142864e-05, 'epoch': 0.78}
+ 78%|███████▊  | 7510/9678 [16:36:12<4:50:47,  8.05s/it] 78%|███████▊  | 7511/9678 [16:36:22<5:09:29,  8.57s/it] 78%|███████▊  | 7512/9678 [16:36:31<5:13:39,  8.69s/it] 78%|███████▊  | 7513/9678 [16:36:41<5:23:58,  8.98s/it] 78%|███████▊  | 7514/9678 [16:36:50<5:26:35,  9.06s/it] 78%|███████▊  | 7515/9678 [16:36:58<5:21:35,  8.92s/it] 78%|███████▊  | 7516/9678 [16:37:06<5:09:39,  8.59s/it] 78%|███████▊  | 7517/9678 [16:37:13<4:54:18,  8.17s/it] 78%|███████▊  | 7518/9678 [16:37:23<5:12:01,  8.67s/it] 78%|███████▊  | 7519/9678 [16:37:30<4:49:08,  8.04s/it] 78%|███████▊  | 7520/9678 [16:37:38<4:51:23,  8.10s/it]                                                        {'loss': 0.6031, 'grad_norm': 1.114071249961853, 'learning_rate': 6.001967841269937e-05, 'epoch': 0.78}
+ 78%|███████▊  | 7520/9678 [16:37:38<4:51:23,  8.10s/it] 78%|███████▊  | 7521/9678 [16:37:47<4:56:09,  8.24s/it] 78%|███████▊  | 7522/9678 [16:37:55<4:53:54,  8.18s/it] 78%|███████▊  | 7523/9678 [16:38:02<4:48:19,  8.03s/it] 78%|███████▊  | 7524/9678 [16:38:12<5:07:17,  8.56s/it] 78%|███████▊  | 7525/9678 [16:38:19<4:45:17,  7.95s/it] 78%|███████▊  | 7526/9678 [16:38:27<4:45:41,  7.97s/it] 78%|███████▊  | 7527/9678 [16:38:35<4:47:33,  8.02s/it] 78%|███████▊  | 7528/9678 [16:38:44<5:03:10,  8.46s/it] 78%|███████▊  | 7529/9678 [16:38:52<4:55:55,  8.26s/it] 78%|███████▊  | 7530/9678 [16:39:00<4:48:50,  8.07s/it]                                                        {'loss': 0.6645, 'grad_norm': 0.7959581613540649, 'learning_rate': 5.9487853716209794e-05, 'epoch': 0.78}
+ 78%|███████▊  | 7530/9678 [16:39:00<4:48:50,  8.07s/it] 78%|███████▊  | 7531/9678 [16:39:08<4:53:19,  8.20s/it] 78%|███████▊  | 7532/9678 [16:39:16<4:49:49,  8.10s/it] 78%|███████▊  | 7533/9678 [16:39:25<4:57:04,  8.31s/it] 78%|███████▊  | 7534/9678 [16:39:32<4:43:04,  7.92s/it] 78%|███████▊  | 7535/9678 [16:39:39<4:29:00,  7.53s/it] 78%|███████▊  | 7536/9678 [16:39:47<4:40:36,  7.86s/it] 78%|███████▊  | 7537/9678 [16:39:55<4:41:46,  7.90s/it] 78%|███████▊  | 7538/9678 [16:40:04<4:50:19,  8.14s/it] 78%|███████▊  | 7539/9678 [16:40:11<4:38:26,  7.81s/it] 78%|███████▊  | 7540/9678 [16:40:19<4:37:48,  7.80s/it]                                                        {'loss': 0.7458, 'grad_norm': 0.8598949313163757, 'learning_rate': 5.89580773517008e-05, 'epoch': 0.78}
+ 78%|███████▊  | 7540/9678 [16:40:19<4:37:48,  7.80s/it] 78%|███████▊  | 7541/9678 [16:40:28<4:49:43,  8.13s/it] 78%|███████▊  | 7542/9678 [16:40:36<4:57:06,  8.35s/it] 78%|███████▊  | 7543/9678 [16:40:45<4:56:28,  8.33s/it] 78%|███████▊  | 7544/9678 [16:40:51<4:39:30,  7.86s/it] 78%|███████▊  | 7545/9678 [16:41:00<4:49:04,  8.13s/it] 78%|███████▊  | 7546/9678 [16:41:07<4:34:41,  7.73s/it] 78%|███████▊  | 7547/9678 [16:41:14<4:31:46,  7.65s/it] 78%|███████▊  | 7548/9678 [16:41:25<4:57:38,  8.38s/it] 78%|███████▊  | 7549/9678 [16:41:32<4:48:54,  8.14s/it] 78%|███████▊  | 7550/9678 [16:41:40<4:50:42,  8.20s/it]                                                        {'loss': 0.6635, 'grad_norm': 1.4160740375518799, 'learning_rate': 5.843035501517596e-05, 'epoch': 0.78}
+ 78%|███████▊  | 7550/9678 [16:41:40<4:50:42,  8.20s/it] 78%|███████▊  | 7551/9678 [16:41:49<4:58:14,  8.41s/it] 78%|███████▊  | 7552/9678 [16:41:57<4:52:56,  8.27s/it] 78%|███████▊  | 7553/9678 [16:42:06<5:01:24,  8.51s/it] 78%|███████▊  | 7554/9678 [16:42:15<5:01:02,  8.50s/it] 78%|███████▊  | 7555/9678 [16:42:22<4:51:21,  8.23s/it] 78%|███████▊  | 7556/9678 [16:42:33<5:11:05,  8.80s/it] 78%|███████▊  | 7557/9678 [16:42:40<4:59:38,  8.48s/it] 78%|███████▊  | 7558/9678 [16:42:49<5:03:08,  8.58s/it] 78%|███████▊  | 7559/9678 [16:42:57<4:59:37,  8.48s/it] 78%|███████▊  | 7560/9678 [16:43:05<4:47:30,  8.14s/it]                                                        {'loss': 0.6052, 'grad_norm': 1.0915048122406006, 'learning_rate': 5.790469238055465e-05, 'epoch': 0.78}
+ 78%|███████▊  | 7560/9678 [16:43:05<4:47:30,  8.14s/it] 78%|███████▊  | 7561/9678 [16:43:12<4:40:15,  7.94s/it] 78%|███████▊  | 7562/9678 [16:43:18<4:18:03,  7.32s/it] 78%|███████▊  | 7563/9678 [16:43:26<4:26:02,  7.55s/it] 78%|███████▊  | 7564/9678 [16:43:34<4:27:20,  7.59s/it] 78%|███████▊  | 7565/9678 [16:43:42<4:32:48,  7.75s/it] 78%|███████▊  | 7566/9678 [16:43:51<4:48:59,  8.21s/it] 78%|███████▊  | 7567/9678 [16:43:59<4:47:39,  8.18s/it] 78%|███████▊  | 7568/9678 [16:44:08<4:56:34,  8.43s/it] 78%|███████▊  | 7569/9678 [16:44:17<4:57:07,  8.45s/it] 78%|███████▊  | 7570/9678 [16:44:24<4:41:34,  8.01s/it]                                                        {'loss': 0.7007, 'grad_norm': 0.8317732214927673, 'learning_rate': 5.738109509961076e-05, 'epoch': 0.78}
+ 78%|███████▊  | 7570/9678 [16:44:24<4:41:34,  8.01s/it] 78%|███████▊  | 7571/9678 [16:44:32<4:43:57,  8.09s/it] 78%|███████▊  | 7572/9678 [16:44:40<4:37:21,  7.90s/it] 78%|███████▊  | 7573/9678 [16:44:46<4:22:53,  7.49s/it] 78%|███████▊  | 7574/9678 [16:44:53<4:19:05,  7.39s/it] 78%|███████▊  | 7575/9678 [16:45:02<4:30:39,  7.72s/it] 78%|███████▊  | 7576/9678 [16:45:11<4:45:49,  8.16s/it] 78%|███████▊  | 7577/9678 [16:45:18<4:35:27,  7.87s/it] 78%|███████▊  | 7578/9678 [16:45:26<4:35:30,  7.87s/it] 78%|███████▊  | 7579/9678 [16:45:34<4:36:51,  7.91s/it] 78%|███████▊  | 7580/9678 [16:45:41<4:27:28,  7.65s/it]                                                        {'loss': 0.5915, 'grad_norm': 0.9893842339515686, 'learning_rate': 5.685956880191218e-05, 'epoch': 0.78}
+ 78%|███████▊  | 7580/9678 [16:45:41<4:27:28,  7.65s/it] 78%|███████▊  | 7581/9678 [16:45:49<4:29:11,  7.70s/it] 78%|███████▊  | 7582/9678 [16:45:57<4:33:33,  7.83s/it] 78%|███████▊  | 7583/9678 [16:46:03<4:16:01,  7.33s/it] 78%|███████▊  | 7584/9678 [16:46:11<4:25:21,  7.60s/it] 78%|███████▊  | 7585/9678 [16:46:18<4:15:26,  7.32s/it] 78%|███████▊  | 7586/9678 [16:46:26<4:20:23,  7.47s/it] 78%|███████▊  | 7587/9678 [16:46:32<4:07:39,  7.11s/it] 78%|███████▊  | 7588/9678 [16:46:39<4:08:44,  7.14s/it] 78%|███████▊  | 7589/9678 [16:46:48<4:24:24,  7.59s/it] 78%|███████▊  | 7590/9678 [16:46:55<4:17:27,  7.40s/it]                                                        {'loss': 0.6921, 'grad_norm': 1.2170053720474243, 'learning_rate': 5.634011909476008e-05, 'epoch': 0.78}
+ 78%|███████▊  | 7590/9678 [16:46:55<4:17:27,  7.40s/it] 78%|███████▊  | 7591/9678 [16:47:02<4:17:59,  7.42s/it] 78%|███████▊  | 7592/9678 [16:47:10<4:18:26,  7.43s/it] 78%|███████▊  | 7593/9678 [16:47:17<4:13:16,  7.29s/it] 78%|███████▊  | 7594/9678 [16:47:28<4:53:32,  8.45s/it] 78%|███████▊  | 7595/9678 [16:47:37<4:53:31,  8.46s/it] 78%|███████▊  | 7596/9678 [16:47:46<5:04:48,  8.78s/it] 78%|███████▊  | 7597/9678 [16:47:55<5:06:15,  8.83s/it] 79%|███████▊  | 7598/9678 [16:48:02<4:49:17,  8.35s/it] 79%|███████▊  | 7599/9678 [16:48:13<5:17:45,  9.17s/it] 79%|███████▊  | 7600/9678 [16:48:21<5:06:47,  8.86s/it]                                                        {'loss': 0.6338, 'grad_norm': 1.261479377746582, 'learning_rate': 5.582275156312885e-05, 'epoch': 0.79}
+ 79%|███████▊  | 7600/9678 [16:48:21<5:06:47,  8.86s/it] 79%|███████▊  | 7601/9678 [16:48:29<4:49:47,  8.37s/it] 79%|███████▊  | 7602/9678 [16:48:38<4:56:47,  8.58s/it] 79%|███████▊  | 7603/9678 [16:48:47<5:00:26,  8.69s/it] 79%|███████▊  | 7604/9678 [16:48:54<4:50:03,  8.39s/it] 79%|███████▊  | 7605/9678 [16:49:03<4:54:23,  8.52s/it] 79%|███████▊  | 7606/9678 [16:49:13<5:05:04,  8.83s/it] 79%|███████▊  | 7607/9678 [16:49:23<5:15:14,  9.13s/it] 79%|███████▊  | 7608/9678 [16:49:32<5:19:41,  9.27s/it] 79%|███████▊  | 7609/9678 [16:49:41<5:14:02,  9.11s/it] 79%|███████▊  | 7610/9678 [16:49:48<4:57:39,  8.64s/it]                                                        {'loss': 0.637, 'grad_norm': 1.0150582790374756, 'learning_rate': 5.5307471769605875e-05, 'epoch': 0.79}
+ 79%|███████▊  | 7610/9678 [16:49:48<4:57:39,  8.64s/it] 79%|███████▊  | 7611/9678 [16:49:57<4:56:47,  8.62s/it] 79%|███████▊  | 7612/9678 [16:50:05<4:46:11,  8.31s/it] 79%|███████▊  | 7613/9678 [16:50:12<4:38:19,  8.09s/it] 79%|███████▊  | 7614/9678 [16:50:20<4:33:05,  7.94s/it] 79%|███████▊  | 7615/9678 [16:50:30<4:53:00,  8.52s/it] 79%|███████▊  | 7616/9678 [16:50:38<4:52:08,  8.50s/it] 79%|███████▊  | 7617/9678 [16:50:46<4:45:46,  8.32s/it] 79%|███████▊  | 7618/9678 [16:50:55<4:53:31,  8.55s/it] 79%|███████▊  | 7619/9678 [16:51:03<4:41:45,  8.21s/it] 79%|███████▊  | 7620/9678 [16:51:08<4:14:47,  7.43s/it]                                                        {'loss': 0.6243, 'grad_norm': 1.148558497428894, 'learning_rate': 5.479428525433167e-05, 'epoch': 0.79}
+ 79%|███████▊  | 7620/9678 [16:51:08<4:14:47,  7.43s/it] 79%|███████▊  | 7621/9678 [16:51:16<4:16:33,  7.48s/it] 79%|███████▉  | 7622/9678 [16:51:24<4:25:56,  7.76s/it] 79%|███████▉  | 7623/9678 [16:51:32<4:25:12,  7.74s/it] 79%|███████▉  | 7624/9678 [16:51:38<4:12:35,  7.38s/it] 79%|███████▉  | 7625/9678 [16:51:47<4:29:39,  7.88s/it] 79%|███████▉  | 7626/9678 [16:51:55<4:27:35,  7.82s/it] 79%|███████▉  | 7627/9678 [16:52:02<4:16:08,  7.49s/it] 79%|███████▉  | 7628/9678 [16:52:10<4:21:17,  7.65s/it] 79%|███████▉  | 7629/9678 [16:52:20<4:50:30,  8.51s/it] 79%|███████▉  | 7630/9678 [16:52:30<4:58:34,  8.75s/it]                                                        {'loss': 0.579, 'grad_norm': 0.6112420558929443, 'learning_rate': 5.4283197534940684e-05, 'epoch': 0.79}
+ 79%|███████▉  | 7630/9678 [16:52:30<4:58:34,  8.75s/it] 79%|███████▉  | 7631/9678 [16:52:38<4:50:36,  8.52s/it] 79%|███████▉  | 7632/9678 [16:52:45<4:35:38,  8.08s/it] 79%|███████▉  | 7633/9678 [16:52:52<4:32:27,  7.99s/it] 79%|███████▉  | 7634/9678 [16:52:59<4:13:26,  7.44s/it] 79%|███████▉  | 7635/9678 [16:53:08<4:29:53,  7.93s/it] 79%|███████▉  | 7636/9678 [16:53:15<4:23:51,  7.75s/it] 79%|███████▉  | 7637/9678 [16:53:23<4:24:43,  7.78s/it] 79%|███████▉  | 7638/9678 [16:53:31<4:28:58,  7.91s/it] 79%|███████▉  | 7639/9678 [16:53:39<4:33:36,  8.05s/it] 79%|███████▉  | 7640/9678 [16:53:47<4:26:08,  7.84s/it]                                                        {'loss': 0.6978, 'grad_norm': 1.1648898124694824, 'learning_rate': 5.377421410650149e-05, 'epoch': 0.79}
+ 79%|███████▉  | 7640/9678 [16:53:47<4:26:08,  7.84s/it] 79%|███████▉  | 7641/9678 [16:53:55<4:28:40,  7.91s/it] 79%|███████▉  | 7642/9678 [16:54:02<4:23:49,  7.77s/it] 79%|███████▉  | 7643/9678 [16:54:10<4:23:41,  7.77s/it] 79%|███████▉  | 7644/9678 [16:54:18<4:20:55,  7.70s/it] 79%|███████▉  | 7645/9678 [16:54:27<4:36:28,  8.16s/it] 79%|███████▉  | 7646/9678 [16:54:34<4:30:30,  7.99s/it] 79%|███████▉  | 7647/9678 [16:54:43<4:30:51,  8.00s/it] 79%|███████▉  | 7648/9678 [16:54:51<4:36:59,  8.19s/it] 79%|███████▉  | 7649/9678 [16:54:58<4:24:20,  7.82s/it] 79%|███████▉  | 7650/9678 [16:55:05<4:18:25,  7.65s/it]                                                        {'loss': 0.5724, 'grad_norm': 1.3245562314987183, 'learning_rate': 5.326734044145801e-05, 'epoch': 0.79}
+ 79%|███████▉  | 7650/9678 [16:55:05<4:18:25,  7.65s/it] 79%|███████▉  | 7651/9678 [16:55:12<4:11:17,  7.44s/it] 79%|███████▉  | 7652/9678 [16:55:18<3:54:40,  6.95s/it] 79%|███████▉  | 7653/9678 [16:55:24<3:43:14,  6.61s/it] 79%|███████▉  | 7654/9678 [16:55:33<4:11:09,  7.45s/it] 79%|███████▉  | 7655/9678 [16:55:41<4:14:39,  7.55s/it] 79%|███████▉  | 7656/9678 [16:55:49<4:13:53,  7.53s/it] 79%|███████▉  | 7657/9678 [16:55:56<4:09:19,  7.40s/it] 79%|███████▉  | 7658/9678 [16:56:03<4:04:24,  7.26s/it] 79%|███████▉  | 7659/9678 [16:56:10<4:00:54,  7.16s/it] 79%|███████▉  | 7660/9678 [16:56:17<4:06:12,  7.32s/it]                                                        {'loss': 0.7884, 'grad_norm': 1.0554862022399902, 'learning_rate': 5.276258198957051e-05, 'epoch': 0.79}
+ 79%|███████▉  | 7660/9678 [16:56:17<4:06:12,  7.32s/it] 79%|███████▉  | 7661/9678 [16:56:24<4:04:02,  7.26s/it] 79%|███████▉  | 7662/9678 [16:56:34<4:25:15,  7.89s/it] 79%|███████▉  | 7663/9678 [16:56:41<4:21:57,  7.80s/it] 79%|███████▉  | 7664/9678 [16:56:48<4:11:54,  7.50s/it] 79%|███████▉  | 7665/9678 [16:56:55<4:00:46,  7.18s/it] 79%|███████▉  | 7666/9678 [16:57:01<3:52:46,  6.94s/it] 79%|███████▉  | 7667/9678 [16:57:10<4:12:28,  7.53s/it] 79%|███████▉  | 7668/9678 [16:57:19<4:26:10,  7.95s/it] 79%|███████▉  | 7669/9678 [16:57:26<4:21:40,  7.81s/it] 79%|███████▉  | 7670/9678 [16:57:33<4:11:34,  7.52s/it]                                                        {'loss': 0.7309, 'grad_norm': 1.1452159881591797, 'learning_rate': 5.225994417785726e-05, 'epoch': 0.79}
+ 79%|███████▉  | 7670/9678 [16:57:33<4:11:34,  7.52s/it] 79%|███████▉  | 7671/9678 [16:57:41<4:18:49,  7.74s/it] 79%|███████▉  | 7672/9678 [16:57:48<4:06:25,  7.37s/it] 79%|███████▉  | 7673/9678 [16:57:55<4:04:37,  7.32s/it] 79%|███████▉  | 7674/9678 [16:58:02<4:02:25,  7.26s/it] 79%|███████▉  | 7675/9678 [16:58:09<3:59:10,  7.16s/it] 79%|███████▉  | 7676/9678 [16:58:18<4:15:21,  7.65s/it] 79%|███████▉  | 7677/9678 [16:58:26<4:19:37,  7.78s/it] 79%|███████▉  | 7678/9678 [16:58:34<4:18:56,  7.77s/it] 79%|███████▉  | 7679/9678 [16:58:41<4:17:56,  7.74s/it] 79%|███████▉  | 7680/9678 [16:58:49<4:21:06,  7.84s/it]                                                        {'loss': 0.6804, 'grad_norm': 0.7298494577407837, 'learning_rate': 5.175943241053582e-05, 'epoch': 0.79}
+ 79%|███████▉  | 7680/9678 [16:58:49<4:21:06,  7.84s/it] 79%|███████▉  | 7681/9678 [16:58:58<4:24:33,  7.95s/it] 79%|███████▉  | 7682/9678 [16:59:06<4:28:09,  8.06s/it] 79%|███████▉  | 7683/9678 [16:59:15<4:32:31,  8.20s/it] 79%|███████▉  | 7684/9678 [16:59:22<4:23:01,  7.91s/it] 79%|███████▉  | 7685/9678 [16:59:33<4:58:39,  8.99s/it] 79%|███████▉  | 7686/9678 [16:59:42<4:53:49,  8.85s/it] 79%|███████▉  | 7687/9678 [16:59:49<4:37:17,  8.36s/it] 79%|███████▉  | 7688/9678 [16:59:58<4:41:51,  8.50s/it] 79%|███████▉  | 7689/9678 [17:00:06<4:35:42,  8.32s/it] 79%|███████▉  | 7690/9678 [17:00:13<4:20:37,  7.87s/it]                                                        {'loss': 0.6306, 'grad_norm': 1.0335783958435059, 'learning_rate': 5.1261052068965306e-05, 'epoch': 0.79}
+ 79%|███████▉  | 7690/9678 [17:00:13<4:20:37,  7.87s/it] 79%|███████▉  | 7691/9678 [17:00:21<4:30:45,  8.18s/it] 79%|███████▉  | 7692/9678 [17:00:29<4:27:22,  8.08s/it] 79%|███████▉  | 7693/9678 [17:00:39<4:45:37,  8.63s/it] 79%|███████▉  | 7694/9678 [17:00:48<4:49:44,  8.76s/it] 80%|███████▉  | 7695/9678 [17:00:55<4:33:35,  8.28s/it] 80%|███████▉  | 7696/9678 [17:01:01<4:07:45,  7.50s/it] 80%|███████▉  | 7697/9678 [17:01:11<4:26:47,  8.08s/it] 80%|███████▉  | 7698/9678 [17:01:17<4:10:46,  7.60s/it] 80%|███████▉  | 7699/9678 [17:01:23<3:58:19,  7.23s/it] 80%|███████▉  | 7700/9678 [17:01:33<4:22:30,  7.96s/it]                                                        {'loss': 0.6118, 'grad_norm': 0.6662817001342773, 'learning_rate': 5.0764808511588155e-05, 'epoch': 0.8}
+ 80%|███████▉  | 7700/9678 [17:01:33<4:22:30,  7.96s/it] 80%|███████▉  | 7701/9678 [17:01:42<4:32:13,  8.26s/it] 80%|███████▉  | 7702/9678 [17:01:50<4:26:58,  8.11s/it] 80%|███████▉  | 7703/9678 [17:01:57<4:20:42,  7.92s/it] 80%|███████▉  | 7704/9678 [17:02:05<4:22:13,  7.97s/it] 80%|███████▉  | 7705/9678 [17:02:11<4:02:05,  7.36s/it] 80%|███████▉  | 7706/9678 [17:02:18<3:52:44,  7.08s/it] 80%|███████▉  | 7707/9678 [17:02:25<3:56:57,  7.21s/it] 80%|███████▉  | 7708/9678 [17:02:32<3:56:59,  7.22s/it] 80%|███████▉  | 7709/9678 [17:02:41<4:13:37,  7.73s/it] 80%|███████▉  | 7710/9678 [17:02:49<4:09:51,  7.62s/it]                                                        {'loss': 0.6764, 'grad_norm': 0.8202494978904724, 'learning_rate': 5.027070707387296e-05, 'epoch': 0.8}
+ 80%|███████▉  | 7710/9678 [17:02:49<4:09:51,  7.62s/it] 80%|███████▉  | 7711/9678 [17:02:56<4:10:22,  7.64s/it] 80%|███████▉  | 7712/9678 [17:03:06<4:24:42,  8.08s/it] 80%|███████▉  | 7713/9678 [17:03:13<4:14:53,  7.78s/it] 80%|███████▉  | 7714/9678 [17:03:21<4:18:44,  7.90s/it] 80%|███████▉  | 7715/9678 [17:03:28<4:07:28,  7.56s/it] 80%|███████▉  | 7716/9678 [17:03:34<4:00:43,  7.36s/it] 80%|███████▉  | 7717/9678 [17:03:42<3:57:34,  7.27s/it] 80%|███████▉  | 7718/9678 [17:03:48<3:53:20,  7.14s/it] 80%|███████▉  | 7719/9678 [17:03:54<3:40:51,  6.76s/it] 80%|███████▉  | 7720/9678 [17:04:01<3:37:53,  6.68s/it]                                                        {'loss': 0.7725, 'grad_norm': 1.5033270120620728, 'learning_rate': 4.977875306825672e-05, 'epoch': 0.8}
+ 80%|███████▉  | 7720/9678 [17:04:01<3:37:53,  6.68s/it] 80%|███████▉  | 7721/9678 [17:04:08<3:44:04,  6.87s/it] 80%|███████▉  | 7722/9678 [17:04:16<3:56:49,  7.26s/it] 80%|███████▉  | 7723/9678 [17:04:25<4:14:38,  7.81s/it] 80%|███████▉  | 7724/9678 [17:04:34<4:21:11,  8.02s/it] 80%|███████▉  | 7725/9678 [17:04:42<4:20:03,  7.99s/it] 80%|███████▉  | 7726/9678 [17:04:49<4:10:29,  7.70s/it] 80%|███████▉  | 7727/9678 [17:04:56<4:08:01,  7.63s/it] 80%|███████▉  | 7728/9678 [17:05:04<4:08:14,  7.64s/it] 80%|███████▉  | 7729/9678 [17:05:12<4:11:43,  7.75s/it] 80%|███████▉  | 7730/9678 [17:05:22<4:33:58,  8.44s/it]                                                        {'loss': 0.685, 'grad_norm': 0.7202991843223572, 'learning_rate': 4.928895178408782e-05, 'epoch': 0.8}
+ 80%|███████▉  | 7730/9678 [17:05:22<4:33:58,  8.44s/it] 80%|███████▉  | 7731/9678 [17:05:29<4:21:38,  8.06s/it] 80%|███████▉  | 7732/9678 [17:05:37<4:21:47,  8.07s/it] 80%|███████▉  | 7733/9678 [17:05:46<4:32:55,  8.42s/it] 80%|███████▉  | 7734/9678 [17:05:55<4:29:07,  8.31s/it] 80%|███████▉  | 7735/9678 [17:06:03<4:27:12,  8.25s/it] 80%|███████▉  | 7736/9678 [17:06:11<4:25:17,  8.20s/it] 80%|███████▉  | 7737/9678 [17:06:19<4:29:16,  8.32s/it] 80%|███████▉  | 7738/9678 [17:06:27<4:19:23,  8.02s/it] 80%|███████▉  | 7739/9678 [17:06:36<4:32:25,  8.43s/it] 80%|███████▉  | 7740/9678 [17:06:45<4:33:26,  8.47s/it]                                                        {'loss': 0.6536, 'grad_norm': 0.8215998411178589, 'learning_rate': 4.880130848756925e-05, 'epoch': 0.8}
+ 80%|███████▉  | 7740/9678 [17:06:45<4:33:26,  8.47s/it] 80%|███████▉  | 7741/9678 [17:06:54<4:39:47,  8.67s/it] 80%|███████▉  | 7742/9678 [17:07:02<4:32:18,  8.44s/it] 80%|████████  | 7743/9678 [17:07:11<4:39:25,  8.66s/it] 80%|████████  | 7744/9678 [17:07:19<4:32:58,  8.47s/it] 80%|████████  | 7745/9678 [17:07:27<4:31:04,  8.41s/it] 80%|████████  | 7746/9678 [17:07:35<4:21:41,  8.13s/it] 80%|████████  | 7747/9678 [17:07:41<4:09:40,  7.76s/it] 80%|████████  | 7748/9678 [17:07:49<4:06:30,  7.66s/it] 80%|████████  | 7749/9678 [17:07:56<4:00:05,  7.47s/it] 80%|████████  | 7750/9678 [17:08:03<4:00:44,  7.49s/it]                                                        {'loss': 0.6238, 'grad_norm': 1.0507868528366089, 'learning_rate': 4.8315828421701986e-05, 'epoch': 0.8}
+ 80%|████████  | 7750/9678 [17:08:03<4:00:44,  7.49s/it] 80%|████████  | 7751/9678 [17:08:12<4:09:30,  7.77s/it] 80%|████████  | 7752/9678 [17:08:20<4:13:27,  7.90s/it] 80%|████████  | 7753/9678 [17:08:26<3:57:32,  7.40s/it] 80%|████████  | 7754/9678 [17:08:35<4:07:30,  7.72s/it] 80%|████████  | 7755/9678 [17:08:43<4:12:13,  7.87s/it] 80%|████████  | 7756/9678 [17:08:51<4:10:53,  7.83s/it] 80%|████████  | 7757/9678 [17:08:57<4:00:04,  7.50s/it] 80%|████████  | 7758/9678 [17:09:04<3:53:35,  7.30s/it] 80%|████████  | 7759/9678 [17:09:12<3:54:31,  7.33s/it] 80%|████████  | 7760/9678 [17:09:20<4:03:51,  7.63s/it]                                                        {'loss': 0.6302, 'grad_norm': 1.0970897674560547, 'learning_rate': 4.783251680622847e-05, 'epoch': 0.8}
+ 80%|████████  | 7760/9678 [17:09:20<4:03:51,  7.63s/it] 80%|████████  | 7761/9678 [17:09:29<4:12:57,  7.92s/it] 80%|████████  | 7762/9678 [17:09:39<4:34:47,  8.61s/it] 80%|████████  | 7763/9678 [17:09:47<4:33:26,  8.57s/it] 80%|████████  | 7764/9678 [17:09:55<4:23:58,  8.28s/it] 80%|████████  | 7765/9678 [17:10:02<4:13:29,  7.95s/it] 80%|████████  | 7766/9678 [17:10:12<4:30:20,  8.48s/it] 80%|████████  | 7767/9678 [17:10:17<4:02:28,  7.61s/it] 80%|████████  | 7768/9678 [17:10:28<4:27:34,  8.41s/it] 80%|████████  | 7769/9678 [17:10:36<4:29:42,  8.48s/it] 80%|████████  | 7770/9678 [17:10:44<4:26:49,  8.39s/it]                                                        {'loss': 0.5465, 'grad_norm': 1.2945756912231445, 'learning_rate': 4.7351378837576565e-05, 'epoch': 0.8}
+ 80%|████████  | 7770/9678 [17:10:44<4:26:49,  8.39s/it] 80%|████████  | 7771/9678 [17:10:53<4:29:16,  8.47s/it] 80%|████████  | 7772/9678 [17:11:00<4:12:31,  7.95s/it] 80%|████████  | 7773/9678 [17:11:08<4:16:36,  8.08s/it] 80%|████████  | 7774/9678 [17:11:14<3:58:42,  7.52s/it] 80%|████████  | 7775/9678 [17:11:23<4:05:16,  7.73s/it] 80%|████████  | 7776/9678 [17:11:30<4:01:55,  7.63s/it] 80%|████████  | 7777/9678 [17:11:38<4:01:39,  7.63s/it] 80%|████████  | 7778/9678 [17:11:46<4:11:49,  7.95s/it] 80%|████████  | 7779/9678 [17:11:54<4:07:42,  7.83s/it] 80%|████████  | 7780/9678 [17:12:02<4:11:11,  7.94s/it]                                                        {'loss': 0.6698, 'grad_norm': 1.6131089925765991, 'learning_rate': 4.687241968880393e-05, 'epoch': 0.8}
+ 80%|████████  | 7780/9678 [17:12:02<4:11:11,  7.94s/it] 80%|████████  | 7781/9678 [17:12:10<4:07:38,  7.83s/it] 80%|████████  | 7782/9678 [17:12:17<4:04:05,  7.72s/it] 80%|████████  | 7783/9678 [17:12:24<3:50:35,  7.30s/it] 80%|████████  | 7784/9678 [17:12:31<3:55:01,  7.45s/it] 80%|████████  | 7785/9678 [17:12:39<3:52:19,  7.36s/it] 80%|████████  | 7786/9678 [17:12:45<3:39:32,  6.96s/it] 80%|████████  | 7787/9678 [17:12:53<3:56:18,  7.50s/it] 80%|████████  | 7788/9678 [17:13:01<3:56:04,  7.49s/it] 80%|████████  | 7789/9678 [17:13:07<3:42:20,  7.06s/it] 80%|████████  | 7790/9678 [17:13:13<3:37:33,  6.91s/it]                                                        {'loss': 0.6425, 'grad_norm': 1.0525102615356445, 'learning_rate': 4.639564450954201e-05, 'epoch': 0.8}
+ 80%|████████  | 7790/9678 [17:13:13<3:37:33,  6.91s/it] 81%|████████  | 7791/9678 [17:13:19<3:28:30,  6.63s/it] 81%|████████  | 7792/9678 [17:13:26<3:26:12,  6.56s/it] 81%|████████  | 7793/9678 [17:13:34<3:38:33,  6.96s/it] 81%|████████  | 7794/9678 [17:13:42<3:53:04,  7.42s/it] 81%|████████  | 7795/9678 [17:13:50<3:52:33,  7.41s/it] 81%|████████  | 7796/9678 [17:13:57<3:56:44,  7.55s/it] 81%|████████  | 7797/9678 [17:14:04<3:51:48,  7.39s/it] 81%|████████  | 7798/9678 [17:14:13<4:02:30,  7.74s/it] 81%|████████  | 7799/9678 [17:14:19<3:46:21,  7.23s/it] 81%|████████  | 7800/9678 [17:14:26<3:43:23,  7.14s/it]                                                        {'loss': 0.5235, 'grad_norm': 1.0598100423812866, 'learning_rate': 4.5921058425940745e-05, 'epoch': 0.81}
+ 81%|████████  | 7800/9678 [17:14:26<3:43:23,  7.14s/it] 81%|████████  | 7801/9678 [17:14:34<3:51:20,  7.39s/it] 81%|████████  | 7802/9678 [17:14:42<3:59:12,  7.65s/it] 81%|████████  | 7803/9678 [17:14:48<3:45:51,  7.23s/it] 81%|████████  | 7804/9678 [17:14:54<3:33:40,  6.84s/it] 81%|████████  | 7805/9678 [17:15:01<3:35:24,  6.90s/it] 81%|████████  | 7806/9678 [17:15:09<3:40:38,  7.07s/it] 81%|████████  | 7807/9678 [17:15:16<3:42:34,  7.14s/it] 81%|████████  | 7808/9678 [17:15:24<3:49:06,  7.35s/it] 81%|████████  | 7809/9678 [17:15:32<3:51:45,  7.44s/it] 81%|████████  | 7810/9678 [17:15:38<3:45:24,  7.24s/it]                                                        {'loss': 0.7243, 'grad_norm': 1.4403691291809082, 'learning_rate': 4.544866654061364e-05, 'epoch': 0.81}
+ 81%|████████  | 7810/9678 [17:15:38<3:45:24,  7.24s/it] 81%|████████  | 7811/9678 [17:15:46<3:49:13,  7.37s/it] 81%|████████  | 7812/9678 [17:15:54<3:58:34,  7.67s/it] 81%|████████  | 7813/9678 [17:16:01<3:46:37,  7.29s/it] 81%|████████  | 7814/9678 [17:16:09<3:55:32,  7.58s/it] 81%|████████  | 7815/9678 [17:16:18<4:02:56,  7.82s/it] 81%|████████  | 7816/9678 [17:16:25<4:01:36,  7.79s/it] 81%|████████  | 7817/9678 [17:16:35<4:18:22,  8.33s/it] 81%|████████  | 7818/9678 [17:16:44<4:22:39,  8.47s/it] 81%|████████  | 7819/9678 [17:16:53<4:31:34,  8.77s/it] 81%|████████  | 7820/9678 [17:17:02<4:32:38,  8.80s/it]                                                        {'loss': 0.6382, 'grad_norm': 0.995022714138031, 'learning_rate': 4.497847393258292e-05, 'epoch': 0.81}
+ 81%|████████  | 7820/9678 [17:17:02<4:32:38,  8.80s/it] 81%|████████  | 7821/9678 [17:17:11<4:32:00,  8.79s/it] 81%|████████  | 7822/9678 [17:17:19<4:28:28,  8.68s/it] 81%|████████  | 7823/9678 [17:17:27<4:22:14,  8.48s/it] 81%|████████  | 7824/9678 [17:17:35<4:12:19,  8.17s/it] 81%|████████  | 7825/9678 [17:17:44<4:19:59,  8.42s/it] 81%|████████  | 7826/9678 [17:17:52<4:23:25,  8.53s/it] 81%|████████  | 7827/9678 [17:18:00<4:13:58,  8.23s/it] 81%|████████  | 7828/9678 [17:18:09<4:16:59,  8.33s/it] 81%|████████  | 7829/9678 [17:18:15<4:01:38,  7.84s/it] 81%|████████  | 7830/9678 [17:18:23<4:01:35,  7.84s/it]                                                        {'loss': 0.644, 'grad_norm': 1.2074267864227295, 'learning_rate': 4.451048565722468e-05, 'epoch': 0.81}
+ 81%|████████  | 7830/9678 [17:18:23<4:01:35,  7.84s/it] 81%|████████  | 7831/9678 [17:18:30<3:53:05,  7.57s/it] 81%|████████  | 7832/9678 [17:18:36<3:36:37,  7.04s/it] 81%|████████  | 7833/9678 [17:18:43<3:40:28,  7.17s/it] 81%|████████  | 7834/9678 [17:18:52<3:52:58,  7.58s/it] 81%|████████  | 7835/9678 [17:18:57<3:34:31,  6.98s/it] 81%|████████  | 7836/9678 [17:19:06<3:53:27,  7.60s/it] 81%|████████  | 7837/9678 [17:19:13<3:45:59,  7.37s/it] 81%|████████  | 7838/9678 [17:19:19<3:33:58,  6.98s/it] 81%|████████  | 7839/9678 [17:19:28<3:45:39,  7.36s/it] 81%|████████  | 7840/9678 [17:19:36<3:53:53,  7.63s/it]                                                        {'loss': 0.6955, 'grad_norm': 1.038830041885376, 'learning_rate': 4.404470674621463e-05, 'epoch': 0.81}
+ 81%|████████  | 7840/9678 [17:19:36<3:53:53,  7.63s/it] 81%|████████  | 7841/9678 [17:19:44<3:56:06,  7.71s/it] 81%|████████  | 7842/9678 [17:19:52<4:02:10,  7.91s/it] 81%|████████  | 7843/9678 [17:20:01<4:10:02,  8.18s/it] 81%|████████  | 7844/9678 [17:20:10<4:19:48,  8.50s/it] 81%|████████  | 7845/9678 [17:20:19<4:18:26,  8.46s/it] 81%|████████  | 7846/9678 [17:20:27<4:18:43,  8.47s/it] 81%|████████  | 7847/9678 [17:20:35<4:14:50,  8.35s/it] 81%|████████  | 7848/9678 [17:20:43<4:10:32,  8.21s/it] 81%|████████  | 7849/9678 [17:20:53<4:28:25,  8.81s/it] 81%|████████  | 7850/9678 [17:21:01<4:23:19,  8.64s/it]                                                        {'loss': 0.5929, 'grad_norm': 1.028713345527649, 'learning_rate': 4.3581142207474225e-05, 'epoch': 0.81}
+ 81%|████████  | 7850/9678 [17:21:01<4:23:19,  8.64s/it] 81%|████████  | 7851/9678 [17:21:09<4:15:50,  8.40s/it] 81%|████████  | 7852/9678 [17:21:16<4:02:43,  7.98s/it] 81%|████████  | 7853/9678 [17:21:24<4:00:16,  7.90s/it] 81%|████████  | 7854/9678 [17:21:32<4:04:23,  8.04s/it] 81%|████████  | 7855/9678 [17:21:39<3:53:51,  7.70s/it] 81%|████████  | 7856/9678 [17:21:46<3:40:32,  7.26s/it] 81%|████████  | 7857/9678 [17:21:55<3:57:03,  7.81s/it] 81%|████████  | 7858/9678 [17:22:03<4:00:21,  7.92s/it] 81%|████████  | 7859/9678 [17:22:10<3:50:55,  7.62s/it] 81%|████████  | 7860/9678 [17:22:18<3:54:31,  7.74s/it]                                                        {'loss': 0.6807, 'grad_norm': 1.214220404624939, 'learning_rate': 4.311979702511645e-05, 'epoch': 0.81}
+ 81%|████████  | 7860/9678 [17:22:18<3:54:31,  7.74s/it] 81%|████████  | 7861/9678 [17:22:29<4:26:57,  8.82s/it] 81%|████████  | 7862/9678 [17:22:36<4:11:29,  8.31s/it] 81%|████████  | 7863/9678 [17:22:45<4:18:47,  8.56s/it] 81%|████████▏ | 7864/9678 [17:22:56<4:36:34,  9.15s/it] 81%|████████▏ | 7865/9678 [17:23:04<4:23:12,  8.71s/it] 81%|████████▏ | 7866/9678 [17:23:11<4:08:54,  8.24s/it] 81%|████████▏ | 7867/9678 [17:23:18<4:03:02,  8.05s/it] 81%|████████▏ | 7868/9678 [17:23:26<3:58:38,  7.91s/it] 81%|████████▏ | 7869/9678 [17:23:34<3:58:53,  7.92s/it] 81%|████████▏ | 7870/9678 [17:23:42<4:03:49,  8.09s/it]                                                        {'loss': 0.5622, 'grad_norm': 0.91230708360672, 'learning_rate': 4.266067615939234e-05, 'epoch': 0.81}
+ 81%|████████▏ | 7870/9678 [17:23:42<4:03:49,  8.09s/it] 81%|████████▏ | 7871/9678 [17:23:51<4:10:28,  8.32s/it] 81%|████████▏ | 7872/9678 [17:23:59<4:09:01,  8.27s/it] 81%|████████▏ | 7873/9678 [17:24:07<4:05:29,  8.16s/it] 81%|████████▏ | 7874/9678 [17:24:15<4:02:49,  8.08s/it] 81%|████████▏ | 7875/9678 [17:24:21<3:43:39,  7.44s/it] 81%|████████▏ | 7876/9678 [17:24:28<3:37:22,  7.24s/it] 81%|████████▏ | 7877/9678 [17:24:36<3:43:28,  7.44s/it] 81%|████████▏ | 7878/9678 [17:24:45<4:00:39,  8.02s/it] 81%|████████▏ | 7879/9678 [17:24:54<4:10:49,  8.37s/it] 81%|████████▏ | 7880/9678 [17:25:03<4:14:43,  8.50s/it]                                                        {'loss': 0.7191, 'grad_norm': 0.7656465172767639, 'learning_rate': 4.220378454663784e-05, 'epoch': 0.81}
+ 81%|████████▏ | 7880/9678 [17:25:03<4:14:43,  8.50s/it] 81%|█��██████▏ | 7881/9678 [17:25:11<4:06:46,  8.24s/it] 81%|████████▏ | 7882/9678 [17:25:17<3:48:05,  7.62s/it] 81%|████████▏ | 7883/9678 [17:25:26<4:04:04,  8.16s/it] 81%|████████▏ | 7884/9678 [17:25:35<4:09:51,  8.36s/it] 81%|████████▏ | 7885/9678 [17:25:43<4:03:57,  8.16s/it] 81%|████████▏ | 7886/9678 [17:25:51<4:02:53,  8.13s/it] 81%|████████▏ | 7887/9678 [17:26:00<4:14:06,  8.51s/it] 82%|████████▏ | 7888/9678 [17:26:09<4:11:44,  8.44s/it] 82%|████████▏ | 7889/9678 [17:26:17<4:13:33,  8.50s/it] 82%|████████▏ | 7890/9678 [17:26:25<4:09:28,  8.37s/it]                                                        {'loss': 0.6268, 'grad_norm': 0.9677980542182922, 'learning_rate': 4.1749127099220684e-05, 'epoch': 0.82}
+ 82%|████████▏ | 7890/9678 [17:26:25<4:09:28,  8.37s/it] 82%|████████▏ | 7891/9678 [17:26:37<4:35:28,  9.25s/it] 82%|████████▏ | 7892/9678 [17:26:43<4:06:16,  8.27s/it] 82%|████████▏ | 7893/9678 [17:26:50<4:01:45,  8.13s/it] 82%|████████▏ | 7894/9678 [17:26:58<3:59:51,  8.07s/it] 82%|████████▏ | 7895/9678 [17:27:06<3:59:33,  8.06s/it] 82%|████████▏ | 7896/9678 [17:27:14<3:58:03,  8.02s/it] 82%|████████▏ | 7897/9678 [17:27:23<4:01:36,  8.14s/it] 82%|████████▏ | 7898/9678 [17:27:31<4:00:41,  8.11s/it] 82%|████████▏ | 7899/9678 [17:27:37<3:45:16,  7.60s/it] 82%|████████▏ | 7900/9678 [17:27:45<3:50:53,  7.79s/it]                                                        {'loss': 0.608, 'grad_norm': 0.8608049750328064, 'learning_rate': 4.129670870548738e-05, 'epoch': 0.82}
+ 82%|████████▏ | 7900/9678 [17:27:45<3:50:53,  7.79s/it] 82%|████████▏ | 7901/9678 [17:27:53<3:48:38,  7.72s/it] 82%|████████▏ | 7902/9678 [17:28:01<3:49:20,  7.75s/it] 82%|████████▏ | 7903/9678 [17:28:07<3:40:16,  7.45s/it] 82%|████████▏ | 7904/9678 [17:28:17<4:01:38,  8.17s/it] 82%|████████▏ | 7905/9678 [17:28:25<4:00:32,  8.14s/it] 82%|████████▏ | 7906/9678 [17:28:34<4:05:58,  8.33s/it] 82%|████████▏ | 7907/9678 [17:28:43<4:11:56,  8.54s/it] 82%|████████▏ | 7908/9678 [17:28:53<4:21:24,  8.86s/it] 82%|████████▏ | 7909/9678 [17:29:00<4:10:16,  8.49s/it] 82%|████████▏ | 7910/9678 [17:29:08<4:05:34,  8.33s/it]                                                        {'loss': 0.6626, 'grad_norm': 1.3923230171203613, 'learning_rate': 4.084653422971077e-05, 'epoch': 0.82}
+ 82%|████████▏ | 7910/9678 [17:29:08<4:05:34,  8.33s/it] 82%|████████▏ | 7911/9678 [17:29:16<4:01:23,  8.20s/it] 82%|████████▏ | 7912/9678 [17:29:25<4:01:52,  8.22s/it] 82%|████████▏ | 7913/9678 [17:29:32<3:56:02,  8.02s/it] 82%|████████▏ | 7914/9678 [17:29:40<3:57:11,  8.07s/it] 82%|████████▏ | 7915/9678 [17:29:49<4:06:41,  8.40s/it] 82%|████████▏ | 7916/9678 [17:29:59<4:16:36,  8.74s/it] 82%|████████▏ | 7917/9678 [17:30:06<3:58:28,  8.13s/it] 82%|████████▏ | 7918/9678 [17:30:15<4:05:42,  8.38s/it] 82%|████████▏ | 7919/9678 [17:30:23<4:09:13,  8.50s/it] 82%|████████▏ | 7920/9678 [17:30:33<4:17:32,  8.79s/it]                                                        {'loss': 0.5827, 'grad_norm': 1.0703678131103516, 'learning_rate': 4.039860851203775e-05, 'epoch': 0.82}
+ 82%|████████▏ | 7920/9678 [17:30:33<4:17:32,  8.79s/it] 82%|████████▏ | 7921/9678 [17:30:40<4:02:27,  8.28s/it] 82%|████████▏ | 7922/9678 [17:30:47<3:49:31,  7.84s/it] 82%|████████▏ | 7923/9678 [17:30:56<4:03:49,  8.34s/it] 82%|████████▏ | 7924/9678 [17:31:04<3:57:31,  8.12s/it] 82%|████████▏ | 7925/9678 [17:31:14<4:10:36,  8.58s/it] 82%|████████▏ | 7926/9678 [17:31:20<3:54:39,  8.04s/it] 82%|████████▏ | 7927/9678 [17:31:30<4:08:08,  8.50s/it] 82%|████████▏ | 7928/9678 [17:31:36<3:48:57,  7.85s/it] 82%|████████▏ | 7929/9678 [17:31:45<3:52:30,  7.98s/it] 82%|████████▏ | 7930/9678 [17:31:52<3:50:41,  7.92s/it]                                                        {'loss': 0.7703, 'grad_norm': 0.9771378040313721, 'learning_rate': 3.9952936368437275e-05, 'epoch': 0.82}
+ 82%|████████▏ | 7930/9678 [17:31:52<3:50:41,  7.92s/it] 82%|████████▏ | 7931/9678 [17:31:59<3:39:06,  7.53s/it] 82%|████████▏ | 7932/9678 [17:32:06<3:37:37,  7.48s/it] 82%|████████▏ | 7933/9678 [17:32:13<3:33:02,  7.33s/it] 82%|████████▏ | 7934/9678 [17:32:21<3:36:00,  7.43s/it] 82%|████████▏ | 7935/9678 [17:32:28<3:33:04,  7.33s/it] 82%|████████▏ | 7936/9678 [17:32:36<3:41:03,  7.61s/it] 82%|████████▏ | 7937/9678 [17:32:45<3:48:29,  7.87s/it] 82%|████████▏ | 7938/9678 [17:32:52<3:46:33,  7.81s/it] 82%|████████▏ | 7939/9678 [17:33:02<4:01:12,  8.32s/it] 82%|████████▏ | 7940/9678 [17:33:10<3:54:45,  8.10s/it]                                                        {'loss': 0.6425, 'grad_norm': 1.0725332498550415, 'learning_rate': 3.950952259064841e-05, 'epoch': 0.82}
+ 82%|████████▏ | 7940/9678 [17:33:10<3:54:45,  8.10s/it] 82%|████████▏ | 7941/9678 [17:33:17<3:52:35,  8.03s/it] 82%|████████▏ | 7942/9678 [17:33:25<3:50:30,  7.97s/it] 82%|████████▏ | 7943/9678 [17:33:33<3:46:23,  7.83s/it] 82%|████████▏ | 7944/9678 [17:33:40<3:40:42,  7.64s/it] 82%|████████▏ | 7945/9678 [17:33:48<3:45:22,  7.80s/it] 82%|████████▏ | 7946/9678 [17:33:54<3:30:14,  7.28s/it] 82%|████████▏ | 7947/9678 [17:34:02<3:33:53,  7.41s/it] 82%|████████▏ | 7948/9678 [17:34:08<3:23:32,  7.06s/it] 82%|████████▏ | 7949/9678 [17:34:14<3:13:59,  6.73s/it] 82%|████████▏ | 7950/9678 [17:34:21<3:15:30,  6.79s/it]                                                        {'loss': 0.6658, 'grad_norm': 1.1629067659378052, 'learning_rate': 3.9068371946128945e-05, 'epoch': 0.82}
+ 82%|████████▏ | 7950/9678 [17:34:21<3:15:30,  6.79s/it] 82%|████████▏ | 7951/9678 [17:34:29<3:23:56,  7.09s/it] 82%|████████▏ | 7952/9678 [17:34:37<3:31:21,  7.35s/it] 82%|████████▏ | 7953/9678 [17:34:46<3:46:30,  7.88s/it] 82%|████████▏ | 7954/9678 [17:34:53<3:38:05,  7.59s/it] 82%|████████▏ | 7955/9678 [17:35:03<3:56:50,  8.25s/it] 82%|████████▏ | 7956/9678 [17:35:10<3:52:30,  8.10s/it] 82%|████████▏ | 7957/9678 [17:35:19<3:57:22,  8.28s/it] 82%|████████▏ | 7958/9678 [17:35:29<4:14:38,  8.88s/it] 82%|████████▏ | 7959/9678 [17:35:36<3:59:13,  8.35s/it] 82%|████████▏ | 7960/9678 [17:35:44<3:49:05,  8.00s/it]                                                        {'loss': 0.5883, 'grad_norm': 0.9839202165603638, 'learning_rate': 3.862948917800424e-05, 'epoch': 0.82}
+ 82%|████████▏ | 7960/9678 [17:35:44<3:49:05,  8.00s/it] 82%|████████▏ | 7961/9678 [17:35:52<3:54:56,  8.21s/it] 82%|████████▏ | 7962/9678 [17:36:01<3:59:32,  8.38s/it] 82%|████████▏ | 7963/9678 [17:36:08<3:43:36,  7.82s/it] 82%|████████▏ | 7964/9678 [17:36:14<3:32:18,  7.43s/it] 82%|████████▏ | 7965/9678 [17:36:22<3:36:58,  7.60s/it] 82%|████████▏ | 7966/9678 [17:36:31<3:48:37,  8.01s/it] 82%|████████▏ | 7967/9678 [17:36:40<3:51:53,  8.13s/it] 82%|████████▏ | 7968/9678 [17:36:48<3:58:52,  8.38s/it] 82%|████████▏ | 7969/9678 [17:36:55<3:46:03,  7.94s/it] 82%|████████▏ | 7970/9678 [17:37:03<3:41:09,  7.77s/it]                                                        {'loss': 0.6664, 'grad_norm': 0.8677191138267517, 'learning_rate': 3.8192879005015974e-05, 'epoch': 0.82}
+ 82%|████████▏ | 7970/9678 [17:37:03<3:41:09,  7.77s/it] 82%|████████▏ | 7971/9678 [17:37:13<3:59:30,  8.42s/it] 82%|████████▏ | 7972/9678 [17:37:22<4:05:33,  8.64s/it] 82%|████████▏ | 7973/9678 [17:37:30<4:03:13,  8.56s/it] 82%|████████▏ | 7974/9678 [17:37:38<3:58:39,  8.40s/it] 82%|████████▏ | 7975/9678 [17:37:49<4:17:13,  9.06s/it] 82%|████████▏ | 7976/9678 [17:38:00<4:33:35,  9.64s/it] 82%|████████▏ | 7977/9678 [17:38:07<4:10:47,  8.85s/it] 82%|████████▏ | 7978/9678 [17:38:14<3:56:43,  8.36s/it] 82%|████████▏ | 7979/9678 [17:38:22<3:49:48,  8.12s/it] 82%|████████▏ | 7980/9678 [17:38:30<3:55:59,  8.34s/it]                                                        {'loss': 0.5629, 'grad_norm': 0.8415852189064026, 'learning_rate': 3.775854612147153e-05, 'epoch': 0.82}
+ 82%|████████▏ | 7980/9678 [17:38:30<3:55:59,  8.34s/it] 82%|████████▏ | 7981/9678 [17:38:39<3:55:48,  8.34s/it] 82%|████████▏ | 7982/9678 [17:38:45<3:34:21,  7.58s/it] 82%|████████▏ | 7983/9678 [17:38:51<3:27:02,  7.33s/it] 82%|████████▏ | 7984/9678 [17:38:57<3:16:25,  6.96s/it] 83%|████████▎ | 7985/9678 [17:39:06<3:29:29,  7.42s/it] 83%|████████▎ | 7986/9678 [17:39:14<3:38:28,  7.75s/it] 83%|████████▎ | 7987/9678 [17:39:23<3:44:03,  7.95s/it] 83%|████████▎ | 7988/9678 [17:39:31<3:49:14,  8.14s/it] 83%|████████▎ | 7989/9678 [17:39:39<3:45:44,  8.02s/it] 83%|████████▎ | 7990/9678 [17:39:48<3:49:38,  8.16s/it]                                                        {'loss': 0.5575, 'grad_norm': 0.7151034474372864, 'learning_rate': 3.7326495197193555e-05, 'epoch': 0.83}
+ 83%|████████▎ | 7990/9678 [17:39:48<3:49:38,  8.16s/it] 83%|████████▎ | 7991/9678 [17:39:56<3:52:39,  8.27s/it] 83%|████████▎ | 7992/9678 [17:40:06<4:08:36,  8.85s/it] 83%|████████▎ | 7993/9678 [17:40:15<4:03:52,  8.68s/it] 83%|████████▎ | 7994/9678 [17:40:23<3:56:03,  8.41s/it] 83%|████████▎ | 7995/9678 [17:40:30<3:47:58,  8.13s/it] 83%|████████▎ | 7996/9678 [17:40:38<3:48:25,  8.15s/it] 83%|████████▎ | 7997/9678 [17:40:46<3:46:38,  8.09s/it] 83%|████████▎ | 7998/9678 [17:40:56<3:57:45,  8.49s/it] 83%|████████▎ | 7999/9678 [17:41:03<3:48:38,  8.17s/it] 83%|████████▎ | 8000/9678 [17:41:11<3:43:28,  7.99s/it]                                                        {'loss': 0.6356, 'grad_norm': 1.2307301759719849, 'learning_rate': 3.689673087746975e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8000/9678 [17:41:11<3:43:28,  7.99s/it] 83%|████████▎ | 8001/9678 [17:41:19<3:44:19,  8.03s/it] 83%|████████▎ | 8002/9678 [17:41:27<3:50:55,  8.27s/it] 83%|████████▎ | 8003/9678 [17:41:36<3:55:33,  8.44s/it] 83%|████████▎ | 8004/9678 [17:41:43<3:42:40,  7.98s/it] 83%|████████▎ | 8005/9678 [17:41:51<3:42:51,  7.99s/it] 83%|████████▎ | 8006/9678 [17:42:00<3:48:21,  8.19s/it] 83%|████████▎ | 8007/9678 [17:42:07<3:39:56,  7.90s/it] 83%|████████▎ | 8008/9678 [17:42:15<3:37:37,  7.82s/it] 83%|████████▎ | 8009/9678 [17:42:23<3:42:50,  8.01s/it] 83%|████████▎ | 8010/9678 [17:42:31<3:42:15,  7.99s/it]                                                        {'loss': 0.7123, 'grad_norm': 2.110441207885742, 'learning_rate': 3.646925778300286e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8010/9678 [17:42:31<3:42:15,  7.99s/it] 83%|████████▎ | 8011/9678 [17:42:39<3:36:52,  7.81s/it] 83%|████████▎ | 8012/9678 [17:42:45<3:28:36,  7.51s/it] 83%|████████▎ | 8013/9678 [17:42:52<3:17:51,  7.13s/it] 83%|████████▎ | 8014/9678 [17:42:59<3:22:05,  7.29s/it] 83%|████████▎ | 8015/9678 [17:43:06<3:16:36,  7.09s/it] 83%|████████▎ | 8016/9678 [17:43:15<3:29:35,  7.57s/it] 83%|████████▎ | 8017/9678 [17:43:22<3:30:26,  7.60s/it] 83%|████████▎ | 8018/9678 [17:43:30<3:33:01,  7.70s/it] 83%|████████▎ | 8019/9678 [17:43:40<3:53:00,  8.43s/it] 83%|████████▎ | 8020/9678 [17:43:50<3:59:31,  8.67s/it]                                                        {'loss': 0.6165, 'grad_norm': 0.47642096877098083, 'learning_rate': 3.604408050986105e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8020/9678 [17:43:50<3:59:31,  8.67s/it] 83%|████████▎ | 8021/9678 [17:43:58<3:53:57,  8.47s/it] 83%|████████▎ | 8022/9678 [17:44:05<3:48:34,  8.28s/it] 83%|████████▎ | 8023/9678 [17:44:14<3:54:53,  8.52s/it] 83%|████████▎ | 8024/9678 [17:44:22<3:46:41,  8.22s/it] 83%|████████▎ | 8025/9678 [17:44:32<3:57:24,  8.62s/it] 83%|████████▎ | 8026/9678 [17:44:39<3:48:21,  8.29s/it] 83%|████████▎ | 8027/9678 [17:44:48<3:57:05,  8.62s/it] 83%|████████▎ | 8028/9678 [17:44:57<3:58:25,  8.67s/it] 83%|████████▎ | 8029/9678 [17:45:05<3:49:42,  8.36s/it] 83%|████████▎ | 8030/9678 [17:45:14<3:55:15,  8.57s/it]                                                        {'loss': 0.6196, 'grad_norm': 0.69282066822052, 'learning_rate': 3.5621203629428386e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8030/9678 [17:45:14<3:55:15,  8.57s/it] 83%|████████▎ | 8031/9678 [17:45:23<3:57:14,  8.64s/it] 83%|████████▎ | 8032/9678 [17:45:29<3:40:55,  8.05s/it] 83%|████████▎ | 8033/9678 [17:45:37<3:35:59,  7.88s/it] 83%|████████▎ | 8034/9678 [17:45:44<3:30:46,  7.69s/it] 83%|████████▎ | 8035/9678 [17:45:52<3:31:55,  7.74s/it] 83%|████████▎ | 8036/9678 [17:46:01<3:42:14,  8.12s/it] 83%|████████▎ | 8037/9678 [17:46:09<3:40:23,  8.06s/it] 83%|��███████▎ | 8038/9678 [17:46:19<3:53:02,  8.53s/it] 83%|████████▎ | 8039/9678 [17:46:26<3:41:14,  8.10s/it] 83%|████████▎ | 8040/9678 [17:46:34<3:40:47,  8.09s/it]                                                        {'loss': 0.749, 'grad_norm': 1.5054296255111694, 'learning_rate': 3.520063168835605e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8040/9678 [17:46:34<3:40:47,  8.09s/it] 83%|████████▎ | 8041/9678 [17:46:40<3:28:17,  7.63s/it] 83%|████████▎ | 8042/9678 [17:46:47<3:18:16,  7.27s/it] 83%|████████▎ | 8043/9678 [17:46:53<3:07:50,  6.89s/it] 83%|████████▎ | 8044/9678 [17:47:01<3:20:10,  7.35s/it] 83%|████████▎ | 8045/9678 [17:47:10<3:34:49,  7.89s/it] 83%|████████▎ | 8046/9678 [17:47:20<3:47:12,  8.35s/it] 83%|████████▎ | 8047/9678 [17:47:28<3:45:02,  8.28s/it] 83%|████████▎ | 8048/9678 [17:47:37<3:52:11,  8.55s/it] 83%|████████▎ | 8049/9678 [17:47:46<3:55:38,  8.68s/it] 83%|████████▎ | 8050/9678 [17:47:55<3:54:14,  8.63s/it]                                                        {'loss': 0.6056, 'grad_norm': 1.0589144229888916, 'learning_rate': 3.478236920851283e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8050/9678 [17:47:55<3:54:14,  8.63s/it] 83%|████████▎ | 8051/9678 [17:48:04<3:58:58,  8.81s/it] 83%|████████▎ | 8052/9678 [17:48:12<3:50:44,  8.51s/it] 83%|████████▎ | 8053/9678 [17:48:19<3:38:45,  8.08s/it] 83%|████████▎ | 8054/9678 [17:48:27<3:44:31,  8.30s/it] 83%|████████▎ | 8055/9678 [17:48:36<3:45:00,  8.32s/it] 83%|████████▎ | 8056/9678 [17:48:44<3:44:23,  8.30s/it] 83%|████████▎ | 8057/9678 [17:48:51<3:31:40,  7.83s/it] 83%|████████▎ | 8058/9678 [17:48:57<3:18:14,  7.34s/it] 83%|████████▎ | 8059/9678 [17:49:05<3:22:32,  7.51s/it] 83%|████████▎ | 8060/9678 [17:49:12<3:22:45,  7.52s/it]                                                        {'loss': 0.6502, 'grad_norm': 0.8430522680282593, 'learning_rate': 3.4366420686937044e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8060/9678 [17:49:12<3:22:45,  7.52s/it] 83%|████████▎ | 8061/9678 [17:49:19<3:17:18,  7.32s/it] 83%|████████▎ | 8062/9678 [17:49:27<3:19:27,  7.41s/it] 83%|████████▎ | 8063/9678 [17:49:34<3:20:13,  7.44s/it] 83%|████████▎ | 8064/9678 [17:49:43<3:27:29,  7.71s/it] 83%|████████▎ | 8065/9678 [17:49:51<3:27:46,  7.73s/it] 83%|████████▎ | 8066/9678 [17:49:59<3:30:23,  7.83s/it] 83%|████████▎ | 8067/9678 [17:50:07<3:33:24,  7.95s/it] 83%|████████▎ | 8068/9678 [17:50:14<3:26:04,  7.68s/it] 83%|████████▎ | 8069/9678 [17:50:23<3:39:27,  8.18s/it] 83%|████████▎ | 8070/9678 [17:50:30<3:23:55,  7.61s/it]                                                        {'loss': 0.6363, 'grad_norm': 0.8304775357246399, 'learning_rate': 3.395279059578798e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8070/9678 [17:50:30<3:23:55,  7.61s/it] 83%|████████▎ | 8071/9678 [17:50:36<3:16:00,  7.32s/it] 83%|████████▎ | 8072/9678 [17:50:43<3:09:38,  7.09s/it] 83%|████████▎ | 8073/9678 [17:50:50<3:10:22,  7.12s/it] 83%|████████▎ | 8074/9678 [17:50:56<3:03:58,  6.88s/it] 83%|████████▎ | 8075/9678 [17:51:04<3:07:34,  7.02s/it] 83%|████████▎ | 8076/9678 [17:51:11<3:08:33,  7.06s/it] 83%|████████▎ | 8077/9678 [17:51:19<3:19:10,  7.46s/it] 83%|████████▎ | 8078/9678 [17:51:27<3:19:59,  7.50s/it] 83%|████████▎ | 8079/9678 [17:51:35<3:23:09,  7.62s/it] 83%|████████▎ | 8080/9678 [17:51:41<3:14:01,  7.28s/it]                                                        {'loss': 0.751, 'grad_norm': 0.5285193920135498, 'learning_rate': 3.3541483382297734e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8080/9678 [17:51:41<3:14:01,  7.28s/it] 83%|████████▎ | 8081/9678 [17:51:48<3:12:54,  7.25s/it] 84%|████████▎ | 8082/9678 [17:51:56<3:13:56,  7.29s/it] 84%|████████▎ | 8083/9678 [17:52:03<3:16:25,  7.39s/it] 84%|████████▎ | 8084/9678 [17:52:11<3:17:29,  7.43s/it] 84%|████████▎ | 8085/9678 [17:52:20<3:31:28,  7.97s/it] 84%|████████▎ | 8086/9678 [17:52:28<3:29:39,  7.90s/it] 84%|████████▎ | 8087/9678 [17:52:37<3:40:17,  8.31s/it] 84%|████████▎ | 8088/9678 [17:52:46<3:47:38,  8.59s/it] 84%|████████▎ | 8089/9678 [17:52:53<3:36:36,  8.18s/it] 84%|████████▎ | 8090/9678 [17:53:01<3:33:37,  8.07s/it]                                                        {'loss': 0.5978, 'grad_norm': 0.9843568205833435, 'learning_rate': 3.313250346872362e-05, 'epoch': 0.84}
+ 84%|████████▎ | 8090/9678 [17:53:01<3:33:37,  8.07s/it] 84%|████████▎ | 8091/9678 [17:53:09<3:31:21,  7.99s/it] 84%|████████▎ | 8092/9678 [17:53:16<3:24:52,  7.75s/it] 84%|████████▎ | 8093/9678 [17:53:24<3:26:51,  7.83s/it] 84%|████████▎ | 8094/9678 [17:53:31<3:18:06,  7.50s/it] 84%|████████▎ | 8095/9678 [17:53:41<3:34:02,  8.11s/it] 84%|████████▎ | 8096/9678 [17:53:50<3:41:08,  8.39s/it] 84%|████████▎ | 8097/9678 [17:53:57<3:32:56,  8.08s/it] 84%|████████▎ | 8098/9678 [17:54:05<3:28:26,  7.92s/it] 84%|████████▎ | 8099/9678 [17:54:12<3:27:14,  7.87s/it] 84%|████████▎ | 8100/9678 [17:54:20<3:24:36,  7.78s/it]                                                        {'loss': 0.528, 'grad_norm': 1.0727510452270508, 'learning_rate': 3.272585525230032e-05, 'epoch': 0.84}
+ 84%|████████▎ | 8100/9678 [17:54:20<3:24:36,  7.78s/it] 84%|████████▎ | 8101/9678 [17:54:27<3:22:03,  7.69s/it] 84%|████████▎ | 8102/9678 [17:54:35<3:20:22,  7.63s/it] 84%|████████▎ | 8103/9678 [17:54:43<3:24:23,  7.79s/it] 84%|████████▎ | 8104/9678 [17:54:51<3:28:29,  7.95s/it] 84%|████████▎ | 8105/9678 [17:54:58<3:21:34,  7.69s/it] 84%|████████▍ | 8106/9678 [17:55:07<3:32:12,  8.10s/it] 84%|████████▍ | 8107/9678 [17:55:15<3:25:56,  7.87s/it] 84%|████████▍ | 8108/9678 [17:55:23<3:26:52,  7.91s/it] 84%|████████▍ | 8109/9678 [17:55:33<3:44:40,  8.59s/it] 84%|████████▍ | 8110/9678 [17:55:41<3:36:52,  8.30s/it]                                                        {'loss': 0.5649, 'grad_norm': 0.9402909874916077, 'learning_rate': 3.232154310519298e-05, 'epoch': 0.84}
+ 84%|████████▍ | 8110/9678 [17:55:41<3:36:52,  8.30s/it] 84%|████████▍ | 8111/9678 [17:55:51<3:51:26,  8.86s/it] 84%|████████▍ | 8112/9678 [17:55:57<3:32:50,  8.15s/it] 84%|████████▍ | 8113/9678 [17:56:05<3:26:32,  7.92s/it] 84%|████████▍ | 8114/9678 [17:56:14<3:34:15,  8.22s/it] 84%|████████▍ | 8115/9678 [17:56:21<3:27:43,  7.97s/it] 84%|████████▍ | 8116/9678 [17:56:29<3:28:39,  8.02s/it] 84%|████████▍ | 8117/9678 [17:56:38<3:37:11,  8.35s/it] 84%|████████▍ | 8118/9678 [17:56:47<3:37:25,  8.36s/it] 84%|████████▍ | 8119/9678 [17:56:53<3:24:13,  7.86s/it] 84%|████████▍ | 8120/9678 [17:57:01<3:22:35,  7.80s/it]                                                        {'loss': 0.6619, 'grad_norm': 0.6825330257415771, 'learning_rate': 3.1919571374449894e-05, 'epoch': 0.84}
+ 84%|████████▍ | 8120/9678 [17:57:01<3:22:35,  7.80s/it] 84%|████████▍ | 8121/9678 [17:57:10<3:31:45,  8.16s/it] 84%|████████▍ | 8122/9678 [17:57:20<3:50:06,  8.87s/it] 84%|████████▍ | 8123/9678 [17:57:29<3:47:02,  8.76s/it] 84%|████████▍ | 8124/9678 [17:57:35<3:24:01,  7.88s/it] 84%|████████▍ | 8125/9678 [17:57:44<3:34:33,  8.29s/it] 84%|████████▍ | 8126/9678 [17:57:53<3:36:31,  8.37s/it] 84%|████████▍ | 8127/9678 [17:58:03<3:48:54,  8.85s/it] 84%|████████▍ | 8128/9678 [17:58:09<3:30:30,  8.15s/it] 84%|████████▍ | 8129/9678 [17:58:18<3:33:30,  8.27s/it] 84%|████████▍ | 8130/9678 [17:58:27<3:41:14,  8.58s/it]                                                        {'loss': 0.7536, 'grad_norm': 1.605404019355774, 'learning_rate': 3.151994438195582e-05, 'epoch': 0.84}
+ 84%|████████▍ | 8130/9678 [17:58:27<3:41:14,  8.58s/it] 84%|████████▍ | 8131/9678 [17:58:34<3:31:38,  8.21s/it] 84%|████████▍ | 8132/9678 [17:58:44<3:44:36,  8.72s/it] 84%|████████▍ | 8133/9678 [17:58:51<3:31:26,  8.21s/it] 84%|████████▍ | 8134/9678 [17:58:59<3:29:48,  8.15s/it] 84%|████████▍ | 8135/9678 [17:59:07<3:24:52,  7.97s/it] 84%|████████▍ | 8136/9678 [17:59:15<3:26:36,  8.04s/it] 84%|████████▍ | 8137/9678 [17:59:22<3:17:27,  7.69s/it] 84%|████████▍ | 8138/9678 [17:59:30<3:20:03,  7.79s/it] 84%|████████▍ | 8139/9678 [17:59:37<3:14:53,  7.60s/it] 84%|████████▍ | 8140/9678 [17:59:44<3:11:21,  7.47s/it]                                                        {'loss': 0.7271, 'grad_norm': 0.9325007796287537, 'learning_rate': 3.112266642438566e-05, 'epoch': 0.84}
+ 84%|████████▍ | 8140/9678 [17:59:44<3:11:21,  7.47s/it] 84%|████████▍ | 8141/9678 [17:59:53<3:18:07,  7.73s/it] 84%|████████▍ | 8142/9678 [18:00:00<3:19:26,  7.79s/it] 84%|████████▍ | 8143/9678 [18:00:07<3:11:25,  7.48s/it] 84%|████████▍ | 8144/9678 [18:00:15<3:13:09,  7.55s/it] 84%|████████▍ | 8145/9678 [18:00:23<3:17:44,  7.74s/it] 84%|████████▍ | 8146/9678 [18:00:32<3:24:07,  7.99s/it] 84%|████████▍ | 8147/9678 [18:00:39<3:18:10,  7.77s/it] 84%|████████▍ | 8148/9678 [18:00:46<3:13:38,  7.59s/it] 84%|████████▍ | 8149/9678 [18:00:55<3:19:54,  7.84s/it] 84%|████████▍ | 8150/9678 [18:01:02<3:16:38,  7.72s/it]                                                        {'loss': 0.6664, 'grad_norm': 1.083452820777893, 'learning_rate': 3.072774177315807e-05, 'epoch': 0.84}
+ 84%|████████▍ | 8150/9678 [18:01:02<3:16:38,  7.72s/it] 84%|████████▍ | 8151/9678 [18:01:08<3:06:22,  7.32s/it] 84%|████████▍ | 8152/9678 [18:01:15<3:03:01,  7.20s/it] 84%|████████▍ | 8153/9678 [18:01:25<3:21:14,  7.92s/it] 84%|████████▍ | 8154/9678 [18:01:32<3:12:51,  7.59s/it] 84%|████████▍ | 8155/9678 [18:01:39<3:06:40,  7.35s/it] 84%|████████▍ | 8156/9678 [18:01:48<3:20:13,  7.89s/it] 84%|████████▍ | 8157/9678 [18:01:54<3:10:03,  7.50s/it] 84%|████████▍ | 8158/9678 [18:02:01<3:03:38,  7.25s/it] 84%|████████▍ | 8159/9678 [18:02:08<3:04:19,  7.28s/it] 84%|████████▍ | 8160/9678 [18:02:17<3:12:16,  7.60s/it]                                                        {'loss': 0.5289, 'grad_norm': 0.6602939963340759, 'learning_rate': 3.0335174674389732e-05, 'epoch': 0.84}
+ 84%|████████▍ | 8160/9678 [18:02:17<3:12:16,  7.60s/it] 84%|████████▍ | 8161/9678 [18:02:25<3:20:27,  7.93s/it] 84%|████████▍ | 8162/9678 [18:02:34<3:27:09,  8.20s/it] 84%|████████▍ | 8163/9678 [18:02:42<3:22:00,  8.00s/it] 84%|████████▍ | 8164/9678 [18:02:49<3:13:03,  7.65s/it] 84%|████████▍ | 8165/9678 [18:02:56<3:13:46,  7.68s/it] 84%|████████▍ | 8166/9678 [18:03:06<3:26:56,  8.21s/it] 84%|████████▍ | 8167/9678 [18:03:14<3:23:50,  8.09s/it] 84%|████████▍ | 8168/9678 [18:03:21<3:22:07,  8.03s/it] 84%|████████▍ | 8169/9678 [18:03:30<3:23:29,  8.09s/it] 84%|████████▍ | 8170/9678 [18:03:38<3:23:07,  8.08s/it]                                                        {'loss': 0.5557, 'grad_norm': 1.497051477432251, 'learning_rate': 2.9944969348849493e-05, 'epoch': 0.84}
+ 84%|████████▍ | 8170/9678 [18:03:38<3:23:07,  8.08s/it] 84%|████████▍ | 8171/9678 [18:03:45<3:17:18,  7.86s/it] 84%|████████▍ | 8172/9678 [18:03:52<3:13:59,  7.73s/it] 84%|████████▍ | 8173/9678 [18:04:02<3:24:33,  8.16s/it] 84%|████████▍ | 8174/9678 [18:04:08<3:10:52,  7.61s/it] 84%|████████▍ | 8175/9678 [18:04:16<3:15:38,  7.81s/it] 84%|████████▍ | 8176/9678 [18:04:25<3:20:35,  8.01s/it] 84%|████████▍ | 8177/9678 [18:04:34<3:26:45,  8.26s/it] 85%|████████▍ | 8178/9678 [18:04:43<3:37:59,  8.72s/it] 85%|████████▍ | 8179/9678 [18:04:51<3:31:17,  8.46s/it] 85%|████████▍ | 8180/9678 [18:04:58<3:22:09,  8.10s/it]                                                        {'loss': 0.5932, 'grad_norm': 0.7010759115219116, 'learning_rate': 2.9557129991913235e-05, 'epoch': 0.85}
+ 85%|████████▍ | 8180/9678 [18:04:58<3:22:09,  8.10s/it] 85%|████████▍ | 8181/9678 [18:05:07<3:28:38,  8.36s/it] 85%|████████▍ | 8182/9678 [18:05:17<3:33:57,  8.58s/it] 85%|████████▍ | 8183/9678 [18:05:26<3:39:42,  8.82s/it] 85%|████████▍ | 8184/9678 [18:05:32<3:21:32,  8.09s/it] 85%|████████▍ | 8185/9678 [18:05:41<3:27:57,  8.36s/it] 85%|████████▍ | 8186/9678 [18:05:49<3:23:15,  8.17s/it] 85%|████████▍ | 8187/9678 [18:05:56<3:13:14,  7.78s/it] 85%|████████▍ | 8188/9678 [18:06:04<3:17:43,  7.96s/it] 85%|████████▍ | 8189/9678 [18:06:11<3:12:02,  7.74s/it] 85%|████████▍ | 8190/9678 [18:06:18<3:01:11,  7.31s/it]                                                        {'loss': 0.5421, 'grad_norm': 0.93887859582901, 'learning_rate': 2.917166077351846e-05, 'epoch': 0.85}
+ 85%|████████▍ | 8190/9678 [18:06:18<3:01:11,  7.31s/it] 85%|████████▍ | 8191/9678 [18:06:25<3:02:56,  7.38s/it] 85%|████████▍ | 8192/9678 [18:06:35<3:17:57,  7.99s/it] 85%|████████▍ | 8193/9678 [18:06:44<3:23:37,  8.23s/it] 85%|████████▍ | 8194/9678 [18:06:52<3:21:45,  8.16s/it] 85%|████████▍ | 8195/9678 [18:07:00<3:23:04,  8.22s/it] 85%|████████▍ | 8196/9678 [18:07:07<3:13:44,  7.84s/it] 85%|████████▍ | 8197/9678 [18:07:14<3:07:56,  7.61s/it] 85%|████████▍ | 8198/9678 [18:07:22<3:07:46,  7.61s/it] 85%|████████▍ | 8199/9678 [18:07:30<3:14:06,  7.87s/it] 85%|████████▍ | 8200/9678 [18:07:40<3:31:37,  8.59s/it]                                                        {'loss': 0.5551, 'grad_norm': 1.242521047592163, 'learning_rate': 2.8788565838119757e-05, 'epoch': 0.85}
+ 85%|████████▍ | 8200/9678 [18:07:40<3:31:37,  8.59s/it] 85%|████████▍ | 8201/9678 [18:07:48<3:25:03,  8.33s/it] 85%|████████▍ | 8202/9678 [18:07:56<3:22:22,  8.23s/it] 85%|████████▍ | 8203/9678 [18:08:04<3:17:38,  8.04s/it] 85%|████████▍ | 8204/9678 [18:08:11<3:11:46,  7.81s/it] 85%|████████▍ | 8205/9678 [18:08:18<3:05:59,  7.58s/it] 85%|████████▍ | 8206/9678 [18:08:27<3:13:49,  7.90s/it] 85%|████████▍ | 8207/9678 [18:08:35<3:16:21,  8.01s/it] 85%|████████▍ | 8208/9678 [18:08:44<3:24:02,  8.33s/it] 85%|████████▍ | 8209/9678 [18:08:53<3:28:17,  8.51s/it] 85%|████████▍ | 8210/9678 [18:09:00<3:20:11,  8.18s/it]                                                        {'loss': 0.5647, 'grad_norm': 1.1588674783706665, 'learning_rate': 2.840784930464399e-05, 'epoch': 0.85}
+ 85%|████████▍ | 8210/9678 [18:09:00<3:20:11,  8.18s/it] 85%|████████▍ | 8211/9678 [18:09:07<3:09:17,  7.74s/it] 85%|████████▍ | 8212/9678 [18:09:15<3:10:55,  7.81s/it] 85%|████████▍ | 8213/9678 [18:09:23<3:10:22,  7.80s/it] 85%|████████▍ | 8214/9678 [18:09:31<3:13:28,  7.93s/it] 85%|████████▍ | 8215/9678 [18:09:38<3:08:59,  7.75s/it] 85%|████████▍ | 8216/9678 [18:09:45<3:01:09,  7.43s/it] 85%|████████▍ | 8217/9678 [18:09:53<3:02:41,  7.50s/it] 85%|████████▍ | 8218/9678 [18:10:02<3:17:35,  8.12s/it] 85%|████████▍ | 8219/9678 [18:10:10<3:12:30,  7.92s/it] 85%|████████▍ | 8220/9678 [18:10:19<3:26:14,  8.49s/it]                                                        {'loss': 0.6187, 'grad_norm': 1.381052851676941, 'learning_rate': 2.8029515266446232e-05, 'epoch': 0.85}
+ 85%|████████▍ | 8220/9678 [18:10:19<3:26:14,  8.49s/it] 85%|████████▍ | 8221/9678 [18:10:30<3:37:30,  8.96s/it] 85%|████████▍ | 8222/9678 [18:10:40<3:50:15,  9.49s/it] 85%|████████▍ | 8223/9678 [18:10:48<3:37:00,  8.95s/it] 85%|████████▍ | 8224/9678 [18:10:56<3:29:33,  8.65s/it] 85%|████████▍ | 8225/9678 [18:11:02<3:08:03,  7.77s/it] 85%|████████▍ | 8226/9678 [18:11:08<3:00:38,  7.46s/it] 85%|████████▌ | 8227/9678 [18:11:16<3:03:19,  7.58s/it] 85%|████████▌ | 8228/9678 [18:11:25<3:09:54,  7.86s/it] 85%|████████▌ | 8229/9678 [18:11:33<3:11:45,  7.94s/it] 85%|████████▌ | 8230/9678 [18:11:40<3:04:02,  7.63s/it]                                                        {'loss': 0.6038, 'grad_norm': 1.1169166564941406, 'learning_rate': 2.765356779126557e-05, 'epoch': 0.85}
+ 85%|████████▌ | 8230/9678 [18:11:40<3:04:02,  7.63s/it] 85%|████████▌ | 8231/9678 [18:11:48<3:11:04,  7.92s/it] 85%|████████▌ | 8232/9678 [18:11:57<3:16:23,  8.15s/it] 85%|████████▌ | 8233/9678 [18:12:05<3:17:21,  8.19s/it] 85%|████████▌ | 8234/9678 [18:12:12<3:06:56,  7.77s/it] 85%|████████▌ | 8235/9678 [18:12:20<3:05:20,  7.71s/it] 85%|████████▌ | 8236/9678 [18:12:28<3:12:53,  8.03s/it] 85%|████████▌ | 8237/9678 [18:12:37<3:18:03,  8.25s/it] 85%|████████▌ | 8238/9678 [18:12:44<3:07:08,  7.80s/it] 85%|████████▌ | 8239/9678 [18:12:53<3:13:23,  8.06s/it] 85%|████████▌ | 8240/9678 [18:13:01<3:14:02,  8.10s/it]                                                        {'loss': 0.7017, 'grad_norm': 1.2974213361740112, 'learning_rate': 2.7280010921181487e-05, 'epoch': 0.85}
+ 85%|████████▌ | 8240/9678 [18:13:01<3:14:02,  8.10s/it] 85%|████████▌ | 8241/9678 [18:13:07<3:00:36,  7.54s/it] 85%|████████▌ | 8242/9678 [18:13:14<2:59:18,  7.49s/it] 85%|████████▌ | 8243/9678 [18:13:23<3:10:07,  7.95s/it] 85%|████��███▌ | 8244/9678 [18:13:32<3:14:50,  8.15s/it] 85%|████████▌ | 8245/9678 [18:13:41<3:18:20,  8.30s/it] 85%|████████▌ | 8246/9678 [18:13:49<3:17:10,  8.26s/it] 85%|████████▌ | 8247/9678 [18:13:57<3:13:32,  8.11s/it] 85%|████████▌ | 8248/9678 [18:14:07<3:27:23,  8.70s/it] 85%|████████▌ | 8249/9678 [18:14:15<3:26:10,  8.66s/it] 85%|████████▌ | 8250/9678 [18:14:24<3:27:11,  8.71s/it]                                                        {'loss': 0.5887, 'grad_norm': 0.9372439384460449, 'learning_rate': 2.690884867257032e-05, 'epoch': 0.85}
+ 85%|████████▌ | 8250/9678 [18:14:24<3:27:11,  8.71s/it] 85%|████████▌ | 8251/9678 [18:14:32<3:18:11,  8.33s/it] 85%|████████▌ | 8252/9678 [18:14:39<3:08:53,  7.95s/it] 85%|████████▌ | 8253/9678 [18:14:46<3:02:09,  7.67s/it] 85%|████████▌ | 8254/9678 [18:14:53<3:02:00,  7.67s/it] 85%|████████▌ | 8255/9678 [18:15:02<3:08:32,  7.95s/it] 85%|████████▌ | 8256/9678 [18:15:11<3:13:18,  8.16s/it] 85%|████████▌ | 8257/9678 [18:15:19<3:17:31,  8.34s/it] 85%|████████▌ | 8258/9678 [18:15:27<3:10:11,  8.04s/it] 85%|████████▌ | 8259/9678 [18:15:33<3:01:11,  7.66s/it] 85%|████████▌ | 8260/9678 [18:15:41<3:01:59,  7.70s/it]                                                        {'loss': 0.5159, 'grad_norm': 0.8471134305000305, 'learning_rate': 2.6540085036062227e-05, 'epoch': 0.85}
+ 85%|████████▌ | 8260/9678 [18:15:41<3:01:59,  7.70s/it] 85%|████████▌ | 8261/9678 [18:15:49<3:05:28,  7.85s/it] 85%|████████▌ | 8262/9678 [18:15:58<3:07:12,  7.93s/it] 85%|████████▌ | 8263/9678 [18:16:06<3:08:31,  7.99s/it] 85%|████████▌ | 8264/9678 [18:16:13<3:01:32,  7.70s/it] 85%|████████▌ | 8265/9678 [18:16:20<2:58:50,  7.59s/it] 85%|████████▌ | 8266/9678 [18:16:28<2:58:20,  7.58s/it] 85%|████████▌ | 8267/9678 [18:16:35<2:54:44,  7.43s/it] 85%|████████▌ | 8268/9678 [18:16:41<2:48:57,  7.19s/it] 85%|████████▌ | 8269/9678 [18:16:51<3:05:48,  7.91s/it] 85%|████████▌ | 8270/9678 [18:16:59<3:04:39,  7.87s/it]                                                        {'loss': 0.6389, 'grad_norm': 1.077082633972168, 'learning_rate': 2.617372397649814e-05, 'epoch': 0.85}
+ 85%|████████▌ | 8270/9678 [18:16:59<3:04:39,  7.87s/it] 85%|████████▌ | 8271/9678 [18:17:06<2:57:50,  7.58s/it] 85%|████████▌ | 8272/9678 [18:17:16<3:19:55,  8.53s/it] 85%|████████▌ | 8273/9678 [18:17:24<3:10:34,  8.14s/it] 85%|████████▌ | 8274/9678 [18:17:32<3:12:51,  8.24s/it] 86%|████████▌ | 8275/9678 [18:17:39<3:04:34,  7.89s/it] 86%|████████▌ | 8276/9678 [18:17:48<3:09:03,  8.09s/it] 86%|████████▌ | 8277/9678 [18:17:56<3:14:02,  8.31s/it] 86%|████████▌ | 8278/9678 [18:18:07<3:28:45,  8.95s/it] 86%|████████▌ | 8279/9678 [18:18:15<3:19:52,  8.57s/it] 86%|████████▌ | 8280/9678 [18:18:22<3:13:33,  8.31s/it]                                                        {'loss': 0.6233, 'grad_norm': 1.1442515850067139, 'learning_rate': 2.5809769432886986e-05, 'epoch': 0.86}
+ 86%|████████▌ | 8280/9678 [18:18:22<3:13:33,  8.31s/it] 86%|████████▌ | 8281/9678 [18:18:32<3:25:55,  8.84s/it] 86%|████████▌ | 8282/9678 [18:18:39<3:12:06,  8.26s/it] 86%|████████▌ | 8283/9678 [18:18:47<3:07:15,  8.05s/it] 86%|████████▌ | 8284/9678 [18:18:54<2:58:15,  7.67s/it] 86%|████████▌ | 8285/9678 [18:19:03<3:08:32,  8.12s/it] 86%|████████▌ | 8286/9678 [18:19:10<3:04:49,  7.97s/it] 86%|████████▌ | 8287/9678 [18:19:19<3:08:32,  8.13s/it] 86%|████████▌ | 8288/9678 [18:19:27<3:10:44,  8.23s/it] 86%|████████▌ | 8289/9678 [18:19:35<3:08:16,  8.13s/it] 86%|████████▌ | 8290/9678 [18:19:45<3:20:48,  8.68s/it]                                                        {'loss': 0.6336, 'grad_norm': 1.59578537940979, 'learning_rate': 2.5448225318363828e-05, 'epoch': 0.86}
+ 86%|████████▌ | 8290/9678 [18:19:45<3:20:48,  8.68s/it] 86%|████████▌ | 8291/9678 [18:19:53<3:13:39,  8.38s/it] 86%|████████▌ | 8292/9678 [18:20:00<3:07:02,  8.10s/it] 86%|████████▌ | 8293/9678 [18:20:07<2:58:15,  7.72s/it] 86%|████████▌ | 8294/9678 [18:20:14<2:52:58,  7.50s/it] 86%|████████▌ | 8295/9678 [18:20:22<2:51:43,  7.45s/it] 86%|████████▌ | 8296/9678 [18:20:27<2:36:14,  6.78s/it] 86%|████████▌ | 8297/9678 [18:20:35<2:46:40,  7.24s/it] 86%|████████▌ | 8298/9678 [18:20:44<2:55:43,  7.64s/it] 86%|████████▌ | 8299/9678 [18:20:52<3:01:40,  7.90s/it] 86%|████████▌ | 8300/9678 [18:21:00<3:02:38,  7.95s/it]                                                        {'loss': 0.6106, 'grad_norm': 0.7789118885993958, 'learning_rate': 2.5089095520147266e-05, 'epoch': 0.86}
+ 86%|████████▌ | 8300/9678 [18:21:00<3:02:38,  7.95s/it] 86%|████████▌ | 8301/9678 [18:21:07<2:54:54,  7.62s/it] 86%|████████▌ | 8302/9678 [18:21:15<2:54:15,  7.60s/it] 86%|████████▌ | 8303/9678 [18:21:24<3:07:00,  8.16s/it] 86%|████████▌ | 8304/9678 [18:21:30<2:52:55,  7.55s/it] 86%|████████▌ | 8305/9678 [18:21:38<2:51:59,  7.52s/it] 86%|████████▌ | 8306/9678 [18:21:44<2:40:52,  7.04s/it] 86%|████████▌ | 8307/9678 [18:21:53<2:56:20,  7.72s/it] 86%|████████▌ | 8308/9678 [18:22:00<2:54:36,  7.65s/it] 86%|████████▌ | 8309/9678 [18:22:09<3:00:44,  7.92s/it] 86%|████████▌ | 8310/9678 [18:22:15<2:51:06,  7.50s/it]                                                        {'loss': 0.6226, 'grad_norm': 0.8877026438713074, 'learning_rate': 2.4732383899497972e-05, 'epoch': 0.86}
+ 86%|████████▌ | 8310/9678 [18:22:15<2:51:06,  7.50s/it] 86%|████████▌ | 8311/9678 [18:22:23<2:48:07,  7.38s/it] 86%|████████▌ | 8312/9678 [18:22:33<3:06:02,  8.17s/it] 86%|████████▌ | 8313/9678 [18:22:39<2:54:35,  7.67s/it] 86%|████████▌ | 8314/9678 [18:22:47<2:53:27,  7.63s/it] 86%|████████▌ | 8315/9678 [18:22:54<2:51:44,  7.56s/it] 86%|████████▌ | 8316/9678 [18:23:00<2:42:36,  7.16s/it] 86%|████████▌ | 8317/9678 [18:23:10<2:58:38,  7.88s/it] 86%|████████▌ | 8318/9678 [18:23:17<2:54:07,  7.68s/it] 86%|████████▌ | 8319/9678 [18:23:26<2:59:28,  7.92s/it] 86%|████████▌ | 8320/9678 [18:23:34<3:00:51,  7.99s/it]                                                        {'loss': 0.5998, 'grad_norm': 0.9339987635612488, 'learning_rate': 2.4378094291676978e-05, 'epoch': 0.86}
+ 86%|████████▌ | 8320/9678 [18:23:34<3:00:51,  7.99s/it] 86%|████████▌ | 8321/9678 [18:23:40<2:47:16,  7.40s/it] 86%|████████▌ | 8322/9678 [18:23:48<2:50:16,  7.53s/it] 86%|████████▌ | 8323/9678 [18:23:57<3:02:17,  8.07s/it] 86%|████████▌ | 8324/9678 [18:24:05<3:04:39,  8.18s/it] 86%|████████▌ | 8325/9678 [18:24:11<2:49:53,  7.53s/it] 86%|████████▌ | 8326/9678 [18:24:19<2:54:02,  7.72s/it] 86%|████████▌ | 8327/9678 [18:24:27<2:52:29,  7.66s/it] 86%|████████▌ | 8328/9678 [18:24:35<2:52:16,  7.66s/it] 86%|████████▌ | 8329/9678 [18:24:43<2:57:45,  7.91s/it] 86%|████████▌ | 8330/9678 [18:24:52<3:03:19,  8.16s/it]                                                        {'loss': 0.5463, 'grad_norm': 0.45565560460090637, 'learning_rate': 2.4026230505904633e-05, 'epoch': 0.86}
+ 86%|████████▌ | 8330/9678 [18:24:52<3:03:19,  8.16s/it] 86%|████████▌ | 8331/9678 [18:24:59<2:54:44,  7.78s/it] 86%|████████▌ | 8332/9678 [18:25:05<2:43:41,  7.30s/it] 86%|████████▌ | 8333/9678 [18:25:14<2:58:44,  7.97s/it] 86%|████████▌ | 8334/9678 [18:25:21<2:47:41,  7.49s/it] 86%|████████▌ | 8335/9678 [18:25:27<2:39:40,  7.13s/it] 86%|████████▌ | 8336/9678 [18:25:34<2:38:58,  7.11s/it] 86%|████████▌ | 8337/9678 [18:25:42<2:45:54,  7.42s/it] 86%|████████▌ | 8338/9678 [18:25:51<2:51:03,  7.66s/it] 86%|████████▌ | 8339/9678 [18:25:57<2:40:38,  7.20s/it] 86%|████████▌ | 8340/9678 [18:26:06<2:52:29,  7.73s/it]                                                        {'loss': 0.6507, 'grad_norm': 0.7657277584075928, 'learning_rate': 2.367679632531955e-05, 'epoch': 0.86}
+ 86%|████████▌ | 8340/9678 [18:26:06<2:52:29,  7.73s/it] 86%|████████▌ | 8341/9678 [18:26:13<2:46:59,  7.49s/it] 86%|████████▌ | 8342/9678 [18:26:21<2:50:35,  7.66s/it] 86%|████████▌ | 8343/9678 [18:26:30<2:59:36,  8.07s/it] 86%|████████▌ | 8344/9678 [18:26:36<2:44:37,  7.40s/it] 86%|████████▌ | 8345/9678 [18:26:44<2:50:19,  7.67s/it] 86%|████████▌ | 8346/9678 [18:26:51<2:50:11,  7.67s/it] 86%|████████▌ | 8347/9678 [18:27:00<2:52:38,  7.78s/it] 86%|████████▋ | 8348/9678 [18:27:07<2:52:21,  7.78s/it] 86%|████████▋ | 8349/9678 [18:27:17<3:05:16,  8.36s/it] 86%|████████▋ | 8350/9678 [18:27:27<3:17:20,  8.92s/it]                                                        {'loss': 0.5541, 'grad_norm': 1.4094293117523193, 'learning_rate': 2.3329795506937728e-05, 'epoch': 0.86}
+ 86%|████████▋ | 8350/9678 [18:27:27<3:17:20,  8.92s/it] 86%|████████▋ | 8351/9678 [18:27:34<3:02:03,  8.23s/it] 86%|████████▋ | 8352/9678 [18:27:40<2:50:59,  7.74s/it] 86%|████████▋ | 8353/9678 [18:27:48<2:48:00,  7.61s/it] 86%|████████▋ | 8354/9678 [18:27:55<2:47:27,  7.59s/it] 86%|████████▋ | 8355/9678 [18:28:05<3:02:08,  8.26s/it] 86%|████████▋ | 8356/9678 [18:28:12<2:51:10,  7.77s/it] 86%|████████▋ | 8357/9678 [18:28:21<2:57:33,  8.06s/it] 86%|████████▋ | 8358/9678 [18:28:27<2:47:05,  7.60s/it] 86%|████████▋ | 8359/9678 [18:28:37<3:01:45,  8.27s/it] 86%|████████▋ | 8360/9678 [18:28:44<2:51:57,  7.83s/it]                                                        {'loss': 0.6416, 'grad_norm': 0.5916699171066284, 'learning_rate': 2.2985231781612466e-05, 'epoch': 0.86}
+ 86%|████████▋ | 8360/9678 [18:28:44<2:51:57,  7.83s/it] 86%|████████▋ | 8361/9678 [18:28:51<2:47:26,  7.63s/it] 86%|████████▋ | 8362/9678 [18:29:00<3:00:33,  8.23s/it] 86%|████████▋ | 8363/9678 [18:29:10<3:08:00,  8.58s/it] 86%|████████▋ | 8364/9678 [18:29:18<3:05:12,  8.46s/it] 86%|████████▋ | 8365/9678 [18:29:27<3:07:24,  8.56s/it] 86%|████████▋ | 8366/9678 [18:29:34<2:57:25,  8.11s/it] 86%|████████▋ | 8367/9678 [18:29:42<2:56:34,  8.08s/it] 86%|████████▋ | 8368/9678 [18:29:52<3:10:44,  8.74s/it] 86%|████████▋ | 8369/9678 [18:29:58<2:51:41,  7.87s/it] 86%|████████▋ | 8370/9678 [18:30:07<3:00:57,  8.30s/it]                                                        {'loss': 0.6413, 'grad_norm': 0.7877978086471558, 'learning_rate': 2.2643108853994317e-05, 'epoch': 0.86}
+ 86%|████████▋ | 8370/9678 [18:30:07<3:00:57,  8.30s/it] 86%|████████▋ | 8371/9678 [18:30:15<2:58:35,  8.20s/it] 87%|████████▋ | 8372/9678 [18:30:23<2:55:13,  8.05s/it] 87%|████████▋ | 8373/9678 [18:30:33<3:06:12,  8.56s/it] 87%|████████▋ | 8374/9678 [18:30:40<3:00:54,  8.32s/it] 87%|████████▋ | 8375/9678 [18:30:48<2:57:59,  8.20s/it] 87%|████████▋ | 8376/9678 [18:30:56<2:54:30,  8.04s/it] 87%|████████▋ | 8377/9678 [18:31:05<3:00:25,  8.32s/it] 87%|████████▋ | 8378/9678 [18:31:13<2:59:31,  8.29s/it] 87%|████████▋ | 8379/9678 [18:31:21<2:53:27,  8.01s/it] 87%|████████▋ | 8380/9678 [18:31:28<2:47:01,  7.72s/it]                                                        {'loss': 0.6255, 'grad_norm': 1.3543034791946411, 'learning_rate': 2.2303430402490805e-05, 'epoch': 0.87}
+ 87%|████████▋ | 8380/9678 [18:31:28<2:47:01,  7.72s/it] 87%|████████▋ | 8381/9678 [18:31:36<2:48:00,  7.77s/it] 87%|████████▋ | 8382/9678 [18:31:42<2:38:12,  7.32s/it] 87%|████████▋ | 8383/9678 [18:31:51<2:47:20,  7.75s/it] 87%|████████▋ | 8384/9678 [18:31:59<2:54:39,  8.10s/it] 87%|████████▋ | 8385/9678 [18:32:07<2:48:38,  7.83s/it] 87%|████████▋ | 8386/9678 [18:32:14<2:46:20,  7.73s/it] 87%|████████▋ | 8387/9678 [18:32:22<2:44:59,  7.67s/it] 87%|████████▋ | 8388/9678 [18:32:30<2:48:01,  7.81s/it] 87%|████████▋ | 8389/9678 [18:32:37<2:46:09,  7.73s/it] 87%|████████▋ | 8390/9678 [18:32:44<2:36:54,  7.31s/it]                                                        {'loss': 0.6086, 'grad_norm': 1.2339602708816528, 'learning_rate': 2.1966200079227257e-05, 'epoch': 0.87}
+ 87%|████████▋ | 8390/9678 [18:32:44<2:36:54,  7.31s/it] 87%|████████▋ | 8391/9678 [18:32:52<2:41:15,  7.52s/it] 87%|████████▋ | 8392/9678 [18:32:58<2:30:43,  7.03s/it] 87%|████████▋ | 8393/9678 [18:33:07<2:47:24,  7.82s/it] 87%|████████▋ | 8394/9678 [18:33:13<2:36:40,  7.32s/it] 87%|████████▋ | 8395/9678 [18:33:23<2:49:27,  7.93s/it] 87%|████████▋ | 8396/9678 [18:33:32<2:56:38,  8.27s/it] 87%|████████▋ | 8397/9678 [18:33:38<2:43:01,  7.64s/it] 87%|████████▋ | 8398/9678 [18:33:46<2:47:36,  7.86s/it] 87%|████████▋ | 8399/9678 [18:33:54<2:45:32,  7.77s/it] 87%|████████▋ | 8400/9678 [18:34:02<2:47:14,  7.85s/it]                                                        {'loss': 0.6084, 'grad_norm': 1.563103199005127, 'learning_rate': 2.1631421510007575e-05, 'epoch': 0.87}
+ 87%|████████▋ | 8400/9678 [18:34:02<2:47:14,  7.85s/it] 87%|████████▋ | 8401/9678 [18:34:10<2:47:55,  7.89s/it] 87%|████████▋ | 8402/9678 [18:34:18<2:47:19,  7.87s/it] 87%|████████▋ | 8403/9678 [18:34:25<2:44:08,  7.72s/it] 87%|████████▋ | 8404/9678 [18:34:34<2:48:49,  7.95s/it] 87%|████████▋ | 8405/9678 [18:34:43<2:55:21,  8.26s/it] 87%|████████▋ | 8406/9678 [18:34:52<3:02:17,  8.60s/it] 87%|████████▋ | 8407/9678 [18:35:01<3:07:23,  8.85s/it] 87%|████████▋ | 8408/9678 [18:35:10<3:03:04,  8.65s/it] 87%|████████▋ | 8409/9678 [18:35:18<2:58:47,  8.45s/it] 87%|████████▋ | 8410/9678 [18:35:27<3:03:04,  8.66s/it]                                                        {'loss': 0.5604, 'grad_norm': 1.1265037059783936, 'learning_rate': 2.129909829427479e-05, 'epoch': 0.87}
+ 87%|████████▋ | 8410/9678 [18:35:27<3:03:04,  8.66s/it] 87%|████████▋ | 8411/9678 [18:35:34<2:54:57,  8.29s/it] 87%|████████▋ | 8412/9678 [18:35:40<2:42:07,  7.68s/it] 87%|████████▋ | 8413/9678 [18:35:50<2:50:47,  8.10s/it] 87%|████████▋ | 8414/9678 [18:35:58<2:53:20,  8.23s/it] 87%|████████▋ | 8415/9678 [18:36:07<2:54:35,  8.29s/it] 87%|████████▋ | 8416/9678 [18:36:14<2:51:05,  8.13s/it] 87%|████████▋ | 8417/9678 [18:36:22<2:48:00,  7.99s/it] 87%|████████▋ | 8418/9678 [18:36:30<2:47:19,  7.97s/it] 87%|████████▋ | 8419/9678 [18:36:37<2:43:24,  7.79s/it] 87%|████████▋ | 8420/9678 [18:36:47<2:58:20,  8.51s/it]                                                        {'loss': 0.6835, 'grad_norm': 1.4551678895950317, 'learning_rate': 2.0969234005072916e-05, 'epoch': 0.87}
+ 87%|████████▋ | 8420/9678 [18:36:47<2:58:20,  8.51s/it] 87%|████████▋ | 8421/9678 [18:36:54<2:48:08,  8.03s/it] 87%|████████▋ | 8422/9678 [18:37:02<2:46:17,  7.94s/it] 87%|████████▋ | 8423/9678 [18:37:09<2:37:29,  7.53s/it] 87%|████████▋ | 8424/9678 [18:37:17<2:42:57,  7.80s/it] 87%|████████▋ | 8425/9678 [18:37:25<2:42:43,  7.79s/it] 87%|████████▋ | 8426/9678 [18:37:34<2:51:12,  8.21s/it] 87%|████████▋ | 8427/9678 [18:37:41<2:43:34,  7.85s/it] 87%|████████▋ | 8428/9678 [18:37:49<2:44:10,  7.88s/it] 87%|████████▋ | 8429/9678 [18:37:56<2:37:27,  7.56s/it] 87%|████████▋ | 8430/9678 [18:38:05<2:45:30,  7.96s/it]                                                        {'loss': 0.6, 'grad_norm': 0.9663675427436829, 'learning_rate': 2.064183218900817e-05, 'epoch': 0.87}
+ 87%|████████▋ | 8430/9678 [18:38:05<2:45:30,  7.96s/it] 87%|████████▋ | 8431/9678 [18:38:12<2:39:19,  7.67s/it] 87%|████████▋ | 8432/9678 [18:38:19<2:35:47,  7.50s/it] 87%|████████▋ | 8433/9678 [18:38:26<2:32:09,  7.33s/it] 87%|████████▋ | 8434/9678 [18:38:35<2:43:38,  7.89s/it] 87%|████████▋ | 8435/9678 [18:38:44<2:51:09,  8.26s/it] 87%|████████▋ | 8436/9678 [18:38:51<2:42:27,  7.85s/it] 87%|████████▋ | 8437/9678 [18:38:59<2:41:10,  7.79s/it] 87%|████████▋ | 8438/9678 [18:39:06<2:38:23,  7.66s/it] 87%|████████▋ | 8439/9678 [18:39:15<2:44:47,  7.98s/it] 87%|████████▋ | 8440/9678 [18:39:22<2:41:54,  7.85s/it]                                                        {'loss': 0.6471, 'grad_norm': 1.2805395126342773, 'learning_rate': 2.0316896366211118e-05, 'epoch': 0.87}
+ 87%|████████▋ | 8440/9678 [18:39:22<2:41:54,  7.85s/it] 87%|████████▋ | 8441/9678 [18:39:30<2:38:36,  7.69s/it] 87%|████████▋ | 8442/9678 [18:39:36<2:30:35,  7.31s/it] 87%|████████▋ | 8443/9678 [18:39:44<2:33:41,  7.47s/it] 87%|████████▋ | 8444/9678 [18:39:53<2:44:07,  7.98s/it] 87%|████████▋ | 8445/9678 [18:40:01<2:42:51,  7.92s/it] 87%|████████▋ | 8446/9678 [18:40:09<2:42:41,  7.92s/it] 87%|████████▋ | 8447/9678 [18:40:17<2:48:00,  8.19s/it] 87%|████████▋ | 8448/9678 [18:40:26<2:49:08,  8.25s/it] 87%|████████▋ | 8449/9678 [18:40:33<2:40:13,  7.82s/it] 87%|████████▋ | 8450/9678 [18:40:39<2:33:48,  7.51s/it]                                                        {'loss': 0.6104, 'grad_norm': 0.9442639946937561, 'learning_rate': 1.9994430030298496e-05, 'epoch': 0.87}
+ 87%|████████▋ | 8450/9678 [18:40:40<2:33:48,  7.51s/it] 87%|████████▋ | 8451/9678 [18:40:47<2:36:30,  7.65s/it] 87%|████████▋ | 8452/9678 [18:40:55<2:33:59,  7.54s/it] 87%|████████▋ | 8453/9678 [18:41:03<2:35:14,  7.60s/it] 87%|████████▋ | 8454/9678 [18:41:10<2:35:50,  7.64s/it] 87%|████████▋ | 8455/9678 [18:41:18<2:38:22,  7.77s/it] 87%|████████▋ | 8456/9678 [18:41:26<2:36:01,  7.66s/it] 87%|████████▋ | 8457/9678 [18:41:33<2:32:09,  7.48s/it] 87%|████████▋ | 8458/9678 [18:41:43<2:47:16,  8.23s/it] 87%|████████▋ | 8459/9678 [18:41:50<2:39:57,  7.87s/it] 87%|████████▋ | 8460/9678 [18:41:59<2:45:03,  8.13s/it]                                                        {'loss': 0.6629, 'grad_norm': 1.5761253833770752, 'learning_rate': 1.967443664833596e-05, 'epoch': 0.87}
+ 87%|████████▋ | 8460/9678 [18:41:59<2:45:03,  8.13s/it] 87%|████████▋ | 8461/9678 [18:42:07<2:48:41,  8.32s/it] 87%|████████▋ | 8462/9678 [18:42:14<2:40:01,  7.90s/it] 87%|████████▋ | 8463/9678 [18:42:22<2:41:44,  7.99s/it] 87%|████████▋ | 8464/9678 [18:42:32<2:50:02,  8.40s/it] 87%|████████▋ | 8465/9678 [18:42:39<2:41:00,  7.96s/it] 87%|████████▋ | 8466/9678 [18:42:47<2:44:44,  8.16s/it] 87%|████████▋ | 8467/9678 [18:42:55<2:40:44,  7.96s/it] 87%|████████▋ | 8468/9678 [18:43:03<2:41:30,  8.01s/it] 88%|████████▊ | 8469/9678 [18:43:10<2:34:02,  7.64s/it] 88%|████████▊ | 8470/9678 [18:43:17<2:33:29,  7.62s/it]                                                        {'loss': 0.6161, 'grad_norm': 1.1689879894256592, 'learning_rate': 1.9356919660800553e-05, 'epoch': 0.88}
+ 88%|████████▊ | 8470/9678 [18:43:17<2:33:29,  7.62s/it] 88%|████████▊ | 8471/9678 [18:43:27<2:47:00,  8.30s/it] 88%|████████▊ | 8472/9678 [18:43:34<2:38:12,  7.87s/it] 88%|████████▊ | 8473/9678 [18:43:42<2:39:30,  7.94s/it] 88%|████████▊ | 8474/9678 [18:43:50<2:39:21,  7.94s/it] 88%|████████▊ | 8475/9678 [18:43:58<2:37:46,  7.87s/it] 88%|████████▊ | 8476/9678 [18:44:06<2:38:54,  7.93s/it] 88%|████████▊ | 8477/9678 [18:44:14<2:39:22,  7.96s/it] 88%|████████▊ | 8478/9678 [18:44:22<2:41:27,  8.07s/it] 88%|████████▊ | 8479/9678 [18:44:32<2:50:58,  8.56s/it] 88%|████████▊ | 8480/9678 [18:44:39<2:43:58,  8.21s/it]                                                        {'loss': 0.574, 'grad_norm': 1.1315240859985352, 'learning_rate': 1.9041882481543955e-05, 'epoch': 0.88}
+ 88%|████████▊ | 8480/9678 [18:44:39<2:43:58,  8.21s/it] 88%|████████▊ | 8481/9678 [18:44:47<2:40:24,  8.04s/it] 88%|████████▊ | 8482/9678 [18:44:55<2:41:11,  8.09s/it] 88%|████████▊ | 8483/9678 [18:45:02<2:31:38,  7.61s/it] 88%|████████▊ | 8484/9678 [18:45:11<2:41:43,  8.13s/it] 88%|████████▊ | 8485/9678 [18:45:19<2:38:11,  7.96s/it] 88%|████████▊ | 8486/9678 [18:45:26<2:36:55,  7.90s/it] 88%|████████▊ | 8487/9678 [18:45:34<2:33:17,  7.72s/it] 88%|████████▊ | 8488/9678 [18:45:40<2:27:10,  7.42s/it] 88%|████████▊ | 8489/9678 [18:45:47<2:20:14,  7.08s/it] 88%|████████▊ | 8490/9678 [18:45:56<2:36:17,  7.89s/it]                                                        {'loss': 0.6021, 'grad_norm': 1.0627079010009766, 'learning_rate': 1.8729328497755578e-05, 'epoch': 0.88}
+ 88%|████████▊ | 8490/9678 [18:45:56<2:36:17,  7.89s/it] 88%|████████▊ | 8491/9678 [18:46:03<2:28:54,  7.53s/it] 88%|████████▊ | 8492/9678 [18:46:11<2:30:15,  7.60s/it] 88%|████████▊ | 8493/9678 [18:46:19<2:32:11,  7.71s/it] 88%|████████▊ | 8494/9678 [18:46:30<2:50:49,  8.66s/it] 88%|████████▊ | 8495/9678 [18:46:38<2:46:48,  8.46s/it] 88%|████████▊ | 8496/9678 [18:46:46<2:44:49,  8.37s/it] 88%|████████▊ | 8497/9678 [18:46:54<2:45:45,  8.42s/it] 88%|████████▊ | 8498/9678 [18:47:02<2:39:22,  8.10s/it] 88%|████████▊ | 8499/9678 [18:47:11<2:43:06,  8.30s/it] 88%|████████▊ | 8500/9678 [18:47:18<2:37:14,  8.01s/it]                                                        {'loss': 0.5026, 'grad_norm': 0.9222522377967834, 'learning_rate': 1.8419261069926197e-05, 'epoch': 0.88}
+ 88%|████████▊ | 8500/9678 [18:47:18<2:37:14,  8.01s/it] 88%|████████▊ | 8501/9678 [18:47:27<2:43:46,  8.35s/it] 88%|████████▊ | 8502/9678 [18:47:35<2:39:55,  8.16s/it] 88%|████████▊ | 8503/9678 [18:47:44<2:47:23,  8.55s/it] 88%|████████▊ | 8504/9678 [18:47:51<2:37:19,  8.04s/it] 88%|████████▊ | 8505/9678 [18:48:02<2:52:22,  8.82s/it] 88%|████████▊ | 8506/9678 [18:48:09<2:46:16,  8.51s/it] 88%|████████▊ | 8507/9678 [18:48:18<2:45:00,  8.45s/it] 88%|████████▊ | 8508/9678 [18:48:26<2:44:26,  8.43s/it] 88%|████████▊ | 8509/9678 [18:48:35<2:46:47,  8.56s/it] 88%|████████▊ | 8510/9678 [18:48:44<2:48:13,  8.64s/it]                                                        {'loss': 0.5853, 'grad_norm': 0.92143315076828, 'learning_rate': 1.8111683531812002e-05, 'epoch': 0.88}
+ 88%|████████▊ | 8510/9678 [18:48:44<2:48:13,  8.64s/it] 88%|████████▊ | 8511/9678 [18:48:52<2:44:11,  8.44s/it] 88%|████████▊ | 8512/9678 [18:49:00<2:44:15,  8.45s/it] 88%|████████▊ | 8513/9678 [18:49:07<2:35:50,  8.03s/it] 88%|████████▊ | 8514/9678 [18:49:17<2:43:30,  8.43s/it] 88%|████████▊ | 8515/9678 [18:49:24<2:38:16,  8.17s/it] 88%|████████▊ | 8516/9678 [18:49:31<2:29:54,  7.74s/it] 88%|████████▊ | 8517/9678 [18:49:39<2:29:25,  7.72s/it] 88%|████████▊ | 8518/9678 [18:49:44<2:17:28,  7.11s/it] 88%|████████▊ | 8519/9678 [18:49:53<2:25:03,  7.51s/it] 88%|████████▊ | 8520/9678 [18:50:01<2:27:22,  7.64s/it]                                                        {'loss': 0.5239, 'grad_norm': 1.042581558227539, 'learning_rate': 1.7806599190398455e-05, 'epoch': 0.88}
+ 88%|████████▊ | 8520/9678 [18:50:01<2:27:22,  7.64s/it] 88%|████████▊ | 8521/9678 [18:50:09<2:29:25,  7.75s/it] 88%|████████▊ | 8522/9678 [18:50:18<2:37:08,  8.16s/it] 88%|████████▊ | 8523/9678 [18:50:25<2:31:23,  7.86s/it] 88%|████████▊ | 8524/9678 [18:50:32<2:27:59,  7.69s/it] 88%|████████▊ | 8525/9678 [18:50:40<2:26:34,  7.63s/it] 88%|████████▊ | 8526/9678 [18:50:48<2:28:30,  7.74s/it] 88%|████████▊ | 8527/9678 [18:50:53<2:15:03,  7.04s/it] 88%|████████▊ | 8528/9678 [18:51:01<2:16:27,  7.12s/it] 88%|████████▊ | 8529/9678 [18:51:11<2:32:53,  7.98s/it] 88%|████████▊ | 8530/9678 [18:51:18<2:30:01,  7.84s/it]                                                        {'loss': 0.571, 'grad_norm': 1.405364751815796, 'learning_rate': 1.750401132586496e-05, 'epoch': 0.88}
+ 88%|████████▊ | 8530/9678 [18:51:18<2:30:01,  7.84s/it] 88%|████████▊ | 8531/9678 [18:51:24<2:20:30,  7.35s/it] 88%|████████▊ | 8532/9678 [18:51:32<2:23:35,  7.52s/it] 88%|████████▊ | 8533/9678 [18:51:41<2:31:13,  7.92s/it] 88%|████████▊ | 8534/9678 [18:51:49<2:33:56,  8.07s/it] 88%|████████▊ | 8535/9678 [18:51:58<2:38:52,  8.34s/it] 88%|████████▊ | 8536/9678 [18:52:07<2:38:03,  8.30s/it] 88%|████████▊ | 8537/9678 [18:52:19<2:58:43,  9.40s/it] 88%|████████▊ | 8538/9678 [18:52:25<2:42:34,  8.56s/it] 88%|████████▊ | 8539/9678 [18:52:32<2:34:28,  8.14s/it] 88%|████████▊ | 8540/9678 [18:52:39<2:26:49,  7.74s/it]                                                        {'loss': 0.5704, 'grad_norm': 1.2399895191192627, 'learning_rate': 1.720392319154948e-05, 'epoch': 0.88}
+ 88%|████████▊ | 8540/9678 [18:52:39<2:26:49,  7.74s/it] 88%|████████▊ | 8541/9678 [18:52:47<2:27:01,  7.76s/it] 88%|████████▊ | 8542/9678 [18:52:57<2:42:48,  8.60s/it] 88%|████████▊ | 8543/9678 [18:53:06<2:42:14,  8.58s/it] 88%|████████▊ | 8544/9678 [18:53:14<2:39:54,  8.46s/it] 88%|████████▊ | 8545/9678 [18:53:22<2:38:23,  8.39s/it] 88%|████████▊ | 8546/9678 [18:53:33<2:48:51,  8.95s/it] 88%|████████▊ | 8547/9678 [18:53:40<2:40:26,  8.51s/it] 88%|████████▊ | 8548/9678 [18:53:46<2:26:06,  7.76s/it] 88%|████████▊ | 8549/9678 [18:53:55<2:34:07,  8.19s/it] 88%|████████▊ | 8550/9678 [18:54:03<2:29:43,  7.96s/it]                                                        {'loss': 0.5944, 'grad_norm': 0.9870766401290894, 'learning_rate': 1.6906338013913585e-05, 'epoch': 0.88}
+ 88%|████████▊ | 8550/9678 [18:54:03<2:29:43,  7.96s/it] 88%|████████▊ | 8551/9678 [18:54:10<2:25:23,  7.74s/it] 88%|████████▊ | 8552/9678 [18:54:18<2:24:56,  7.72s/it] 88%|████████▊ | 8553/9678 [18:54:25<2:19:45,  7.45s/it] 88%|████████▊ | 8554/9678 [18:54:33<2:23:35,  7.67s/it] 88%|████████▊ | 8555/9678 [18:54:44<2:42:00,  8.66s/it] 88%|████████▊ | 8556/9678 [18:54:50<2:30:40,  8.06s/it] 88%|████████▊ | 8557/9678 [18:54:58<2:27:26,  7.89s/it] 88%|████████▊ | 8558/9678 [18:55:05<2:23:54,  7.71s/it] 88%|████████▊ | 8559/9678 [18:55:13<2:27:23,  7.90s/it] 88%|████████▊ | 8560/9678 [18:55:21<2:27:34,  7.92s/it]                                                        {'loss': 0.5861, 'grad_norm': 0.8951932787895203, 'learning_rate': 1.6611258992507817e-05, 'epoch': 0.88}
+ 88%|████████▊ | 8560/9678 [18:55:21<2:27:34,  7.92s/it] 88%|████████▊ | 8561/9678 [18:55:29<2:23:25,  7.70s/it] 88%|████████▊ | 8562/9678 [18:55:37<2:28:05,  7.96s/it] 88%|████████▊ | 8563/9678 [18:55:44<2:19:13,  7.49s/it] 88%|████████▊ | 8564/9678 [18:55:50<2:14:25,  7.24s/it] 88%|████████▊ | 8565/9678 [18:55:58<2:17:23,  7.41s/it] 89%|████████▊ | 8566/9678 [18:56:06<2:21:27,  7.63s/it] 89%|████████▊ | 8567/9678 [18:56:14<2:22:38,  7.70s/it] 89%|████████▊ | 8568/9678 [18:56:25<2:41:05,  8.71s/it] 89%|████████▊ | 8569/9678 [18:56:33<2:35:48,  8.43s/it] 89%|████████▊ | 8570/9678 [18:56:41<2:33:27,  8.31s/it]                                                        {'loss': 0.6643, 'grad_norm': 1.8214749097824097, 'learning_rate': 1.6318689299937213e-05, 'epoch': 0.89}
+ 89%|████████▊ | 8570/9678 [18:56:41<2:33:27,  8.31s/it] 89%|████████▊ | 8571/9678 [18:56:50<2:34:50,  8.39s/it] 89%|████████▊ | 8572/9678 [18:57:00<2:44:17,  8.91s/it] 89%|████████▊ | 8573/9678 [18:57:09<2:46:31,  9.04s/it] 89%|████████▊ | 8574/9678 [18:57:17<2:40:14,  8.71s/it] 89%|████████▊ | 8575/9678 [18:57:26<2:41:30,  8.79s/it] 89%|████████▊ | 8576/9678 [18:57:34<2:40:10,  8.72s/it] 89%|████████▊ | 8577/9678 [18:57:43<2:36:58,  8.55s/it] 89%|████████▊ | 8578/9678 [18:57:52<2:39:31,  8.70s/it] 89%|████████▊ | 8579/9678 [18:58:01<2:42:11,  8.85s/it] 89%|████████▊ | 8580/9678 [18:58:09<2:36:53,  8.57s/it]                                                        {'loss': 0.5645, 'grad_norm': 0.8029395341873169, 'learning_rate': 1.6028632081827173e-05, 'epoch': 0.89}
+ 89%|████████▊ | 8580/9678 [18:58:09<2:36:53,  8.57s/it] 89%|████████▊ | 8581/9678 [18:58:18<2:37:35,  8.62s/it] 89%|████████▊ | 8582/9678 [18:58:25<2:29:16,  8.17s/it] 89%|████████▊ | 8583/9678 [18:58:32<2:22:37,  7.81s/it] 89%|████████▊ | 8584/9678 [18:58:39<2:20:30,  7.71s/it] 89%|████████▊ | 8585/9678 [18:58:48<2:28:10,  8.13s/it] 89%|████████▊ | 8586/9678 [18:58:56<2:24:14,  7.93s/it] 89%|████████▊ | 8587/9678 [18:59:04<2:24:23,  7.94s/it] 89%|████████▊ | 8588/9678 [18:59:12<2:24:28,  7.95s/it] 89%|████████▊ | 8589/9678 [18:59:18<2:18:26,  7.63s/it] 89%|████████▉ | 8590/9678 [18:59:25<2:14:51,  7.44s/it]                                                        {'loss': 0.5996, 'grad_norm': 0.43516650795936584, 'learning_rate': 1.574109045678987e-05, 'epoch': 0.89}
+ 89%|████████▉ | 8590/9678 [18:59:25<2:14:51,  7.44s/it] 89%|████████▉ | 8591/9678 [18:59:32<2:12:29,  7.31s/it] 89%|████████▉ | 8592/9678 [18:59:40<2:14:14,  7.42s/it] 89%|████████▉ | 8593/9678 [18:59:48<2:16:37,  7.56s/it] 89%|████████▉ | 8594/9678 [18:59:56<2:17:30,  7.61s/it] 89%|████████▉ | 8595/9678 [19:00:03<2:17:43,  7.63s/it] 89%|████████▉ | 8596/9678 [19:00:11<2:18:34,  7.68s/it] 89%|████████▉ | 8597/9678 [19:00:18<2:11:53,  7.32s/it] 89%|████████▉ | 8598/9678 [19:00:26<2:16:38,  7.59s/it] 89%|████████▉ | 8599/9678 [19:00:33<2:12:39,  7.38s/it] 89%|████████▉ | 8600/9678 [19:00:39<2:08:08,  7.13s/it]                                                        {'loss': 0.6781, 'grad_norm': 1.673608422279358, 'learning_rate': 1.545606751639034e-05, 'epoch': 0.89}
+ 89%|████████▉ | 8600/9678 [19:00:39<2:08:08,  7.13s/it] 89%|████████▉ | 8601/9678 [19:00:47<2:11:51,  7.35s/it] 89%|████████▉ | 8602/9678 [19:00:54<2:06:36,  7.06s/it] 89%|████████▉ | 8603/9678 [19:01:02<2:13:44,  7.46s/it] 89%|████████▉ | 8604/9678 [19:01:09<2:10:00,  7.26s/it] 89%|████████▉ | 8605/9678 [19:01:18<2:22:40,  7.98s/it] 89%|████████▉ | 8606/9678 [19:01:25<2:15:46,  7.60s/it] 89%|███��████▉ | 8607/9678 [19:01:34<2:21:20,  7.92s/it] 89%|████████▉ | 8608/9678 [19:01:42<2:21:42,  7.95s/it] 89%|████████▉ | 8609/9678 [19:01:49<2:19:50,  7.85s/it] 89%|████████▉ | 8610/9678 [19:01:57<2:16:46,  7.68s/it]                                                        {'loss': 0.5522, 'grad_norm': 1.0479223728179932, 'learning_rate': 1.5173566325113575e-05, 'epoch': 0.89}
+ 89%|████████▉ | 8610/9678 [19:01:57<2:16:46,  7.68s/it] 89%|████████▉ | 8611/9678 [19:02:03<2:09:04,  7.26s/it] 89%|████████▉ | 8612/9678 [19:02:10<2:09:42,  7.30s/it] 89%|████████▉ | 8613/9678 [19:02:18<2:09:00,  7.27s/it] 89%|████████▉ | 8614/9678 [19:02:25<2:11:48,  7.43s/it] 89%|████████▉ | 8615/9678 [19:02:33<2:12:06,  7.46s/it] 89%|████████▉ | 8616/9678 [19:02:41<2:14:34,  7.60s/it] 89%|████████▉ | 8617/9678 [19:02:49<2:18:00,  7.80s/it] 89%|████████▉ | 8618/9678 [19:02:56<2:14:44,  7.63s/it] 89%|████████▉ | 8619/9678 [19:03:06<2:25:46,  8.26s/it] 89%|████████▉ | 8620/9678 [19:03:13<2:18:56,  7.88s/it]                                                        {'loss': 0.5926, 'grad_norm': 1.2102528810501099, 'learning_rate': 1.4893589920331352e-05, 'epoch': 0.89}
+ 89%|████████▉ | 8620/9678 [19:03:13<2:18:56,  7.88s/it] 89%|████████▉ | 8621/9678 [19:03:21<2:18:36,  7.87s/it] 89%|████████▉ | 8622/9678 [19:03:28<2:15:17,  7.69s/it] 89%|████████▉ | 8623/9678 [19:03:36<2:13:43,  7.61s/it] 89%|████████▉ | 8624/9678 [19:03:44<2:16:40,  7.78s/it] 89%|████████▉ | 8625/9678 [19:03:51<2:14:48,  7.68s/it] 89%|████████▉ | 8626/9678 [19:03:59<2:12:56,  7.58s/it] 89%|████████▉ | 8627/9678 [19:04:06<2:11:02,  7.48s/it] 89%|████████▉ | 8628/9678 [19:04:14<2:13:25,  7.62s/it] 89%|████████▉ | 8629/9678 [19:04:21<2:10:27,  7.46s/it] 89%|████████▉ | 8630/9678 [19:04:29<2:11:28,  7.53s/it]                                                        {'loss': 0.5393, 'grad_norm': 1.0137587785720825, 'learning_rate': 1.4616141312269737e-05, 'epoch': 0.89}
+ 89%|████████▉ | 8630/9678 [19:04:29<2:11:28,  7.53s/it] 89%|████████▉ | 8631/9678 [19:04:38<2:19:48,  8.01s/it] 89%|████████▉ | 8632/9678 [19:04:46<2:21:56,  8.14s/it] 89%|████████▉ | 8633/9678 [19:04:54<2:21:53,  8.15s/it] 89%|████████▉ | 8634/9678 [19:05:03<2:23:56,  8.27s/it] 89%|████████▉ | 8635/9678 [19:05:10<2:20:11,  8.07s/it] 89%|████████▉ | 8636/9678 [19:05:19<2:21:00,  8.12s/it] 89%|████████▉ | 8637/9678 [19:05:27<2:24:11,  8.31s/it] 89%|████████▉ | 8638/9678 [19:05:34<2:15:46,  7.83s/it] 89%|████████▉ | 8639/9678 [19:05:42<2:13:57,  7.74s/it] 89%|████████▉ | 8640/9678 [19:05:49<2:09:54,  7.51s/it]                                                        {'loss': 0.6629, 'grad_norm': 2.0007264614105225, 'learning_rate': 1.4341223483976624e-05, 'epoch': 0.89}
+ 89%|████████▉ | 8640/9678 [19:05:49<2:09:54,  7.51s/it] 89%|████████▉ | 8641/9678 [19:05:57<2:12:54,  7.69s/it] 89%|████████▉ | 8642/9678 [19:06:05<2:15:11,  7.83s/it] 89%|████████▉ | 8643/9678 [19:06:12<2:11:54,  7.65s/it] 89%|████████▉ | 8644/9678 [19:06:20<2:12:02,  7.66s/it] 89%|████████▉ | 8645/9678 [19:06:27<2:09:45,  7.54s/it] 89%|████████▉ | 8646/9678 [19:06:35<2:12:57,  7.73s/it] 89%|████████▉ | 8647/9678 [19:06:45<2:20:41,  8.19s/it] 89%|████████▉ | 8648/9678 [19:06:51<2:14:01,  7.81s/it] 89%|████████▉ | 8649/9678 [19:07:00<2:17:30,  8.02s/it] 89%|████████▉ | 8650/9678 [19:07:07<2:14:20,  7.84s/it]                                                        {'loss': 0.6255, 'grad_norm': 0.966791570186615, 'learning_rate': 1.406883939128964e-05, 'epoch': 0.89}
+ 89%|████████▉ | 8650/9678 [19:07:07<2:14:20,  7.84s/it] 89%|████████▉ | 8651/9678 [19:07:16<2:15:50,  7.94s/it] 89%|████████▉ | 8652/9678 [19:07:23<2:10:55,  7.66s/it] 89%|████████▉ | 8653/9678 [19:07:30<2:11:44,  7.71s/it] 89%|████████▉ | 8654/9678 [19:07:38<2:13:16,  7.81s/it] 89%|████████▉ | 8655/9678 [19:07:46<2:10:29,  7.65s/it] 89%|████████▉ | 8656/9678 [19:07:56<2:21:13,  8.29s/it] 89%|████████▉ | 8657/9678 [19:08:02<2:13:04,  7.82s/it] 89%|████████▉ | 8658/9678 [19:08:10<2:13:47,  7.87s/it] 89%|████████▉ | 8659/9678 [19:08:20<2:25:26,  8.56s/it] 89%|████████▉ | 8660/9678 [19:08:27<2:16:40,  8.06s/it]                                                        {'loss': 0.6226, 'grad_norm': 1.436010479927063, 'learning_rate': 1.3798991962804541e-05, 'epoch': 0.89}
+ 89%|████████▉ | 8660/9678 [19:08:27<2:16:40,  8.06s/it] 89%|████████▉ | 8661/9678 [19:08:37<2:25:32,  8.59s/it] 90%|████████▉ | 8662/9678 [19:08:44<2:18:18,  8.17s/it] 90%|████████▉ | 8663/9678 [19:08:53<2:21:44,  8.38s/it] 90%|████████▉ | 8664/9678 [19:09:00<2:14:13,  7.94s/it] 90%|████████▉ | 8665/9678 [19:09:07<2:09:17,  7.66s/it] 90%|████████▉ | 8666/9678 [19:09:14<2:05:33,  7.44s/it] 90%|████████▉ | 8667/9678 [19:09:21<2:05:11,  7.43s/it] 90%|████████▉ | 8668/9678 [19:09:30<2:10:21,  7.74s/it] 90%|████████▉ | 8669/9678 [19:09:37<2:06:20,  7.51s/it] 90%|████████▉ | 8670/9678 [19:09:45<2:09:28,  7.71s/it]                                                        {'loss': 0.6685, 'grad_norm': 1.060235857963562, 'learning_rate': 1.3531684099843483e-05, 'epoch': 0.9}
+ 90%|████████▉ | 8670/9678 [19:09:45<2:09:28,  7.71s/it] 90%|████████▉ | 8671/9678 [19:09:53<2:09:47,  7.73s/it] 90%|████████▉ | 8672/9678 [19:10:00<2:08:38,  7.67s/it] 90%|████████▉ | 8673/9678 [19:10:08<2:06:05,  7.53s/it] 90%|████████▉ | 8674/9678 [19:10:15<2:05:29,  7.50s/it] 90%|████████▉ | 8675/9678 [19:10:22<2:03:05,  7.36s/it] 90%|████████▉ | 8676/9678 [19:10:31<2:10:33,  7.82s/it] 90%|████████▉ | 8677/9678 [19:10:40<2:16:01,  8.15s/it] 90%|████████▉ | 8678/9678 [19:10:49<2:18:55,  8.34s/it] 90%|████████▉ | 8679/9678 [19:10:55<2:10:43,  7.85s/it] 90%|████████▉ | 8680/9678 [19:11:03<2:09:00,  7.76s/it]                                                        {'loss': 0.5681, 'grad_norm': 0.578377902507782, 'learning_rate': 1.3266918676423962e-05, 'epoch': 0.9}
+ 90%|████████▉ | 8680/9678 [19:11:03<2:09:00,  7.76s/it] 90%|████████▉ | 8681/9678 [19:11:10<2:07:02,  7.65s/it] 90%|████████▉ | 8682/9678 [19:11:17<2:03:42,  7.45s/it] 90%|████████▉ | 8683/9678 [19:11:25<2:06:57,  7.66s/it] 90%|████████▉ | 8684/9678 [19:11:33<2:07:01,  7.67s/it] 90%|████████▉ | 8685/9678 [19:11:41<2:10:06,  7.86s/it] 90%|████████▉ | 8686/9678 [19:11:50<2:15:59,  8.23s/it] 90%|████████▉ | 8687/9678 [19:11:58<2:14:50,  8.16s/it] 90%|████████▉ | 8688/9678 [19:12:05<2:08:16,  7.77s/it] 90%|████████▉ | 8689/9678 [19:12:12<2:03:40,  7.50s/it] 90%|████████▉ | 8690/9678 [19:12:21<2:08:16,  7.79s/it]                                                        {'loss': 0.587, 'grad_norm': 0.5564404726028442, 'learning_rate': 1.300469853922795e-05, 'epoch': 0.9}
+ 90%|████████▉ | 8690/9678 [19:12:21<2:08:16,  7.79s/it] 90%|████████▉ | 8691/9678 [19:12:29<2:09:13,  7.86s/it] 90%|████████▉ | 8692/9678 [19:12:38<2:16:38,  8.31s/it] 90%|████████▉ | 8693/9678 [19:12:47<2:17:04,  8.35s/it] 90%|████████▉ | 8694/9678 [19:12:54<2:12:42,  8.09s/it] 90%|████████▉ | 8695/9678 [19:13:02<2:10:01,  7.94s/it] 90%|████████▉ | 8696/9678 [19:13:12<2:20:51,  8.61s/it] 90%|████████▉ | 8697/9678 [19:13:21<2:21:57,  8.68s/it] 90%|████████▉ | 8698/9678 [19:13:29<2:18:52,  8.50s/it] 90%|████████▉ | 8699/9678 [19:13:36<2:12:21,  8.11s/it] 90%|████████▉ | 8700/9678 [19:13:43<2:06:26,  7.76s/it]                                                        {'loss': 0.65, 'grad_norm': 0.9987608194351196, 'learning_rate': 1.2745026507571145e-05, 'epoch': 0.9}
+ 90%|████████▉ | 8700/9678 [19:13:43<2:06:26,  7.76s/it] 90%|████████▉ | 8701/9678 [19:13:50<2:02:46,  7.54s/it] 90%|████████▉ | 8702/9678 [19:13:56<1:58:12,  7.27s/it] 90%|████████▉ | 8703/9678 [19:14:03<1:53:15,  6.97s/it] 90%|████████▉ | 8704/9678 [19:14:11<1:57:10,  7.22s/it] 90%|████████▉ | 8705/9678 [19:14:18<1:57:43,  7.26s/it] 90%|████████▉ | 8706/9678 [19:14:25<1:55:40,  7.14s/it] 90%|████████▉ | 8707/9678 [19:14:33<2:00:20,  7.44s/it] 90%|████████▉ | 8708/9678 [19:14:42<2:07:48,  7.91s/it] 90%|████████▉ | 8709/9678 [19:14:50<2:07:36,  7.90s/it] 90%|████████▉ | 8710/9678 [19:14:57<2:01:47,  7.55s/it]                                                        {'loss': 0.6024, 'grad_norm': 1.4747377634048462, 'learning_rate': 1.2487905373372799e-05, 'epoch': 0.9}
+ 90%|████████▉ | 8710/9678 [19:14:57<2:01:47,  7.55s/it] 90%|█████████ | 8711/9678 [19:15:05<2:07:48,  7.93s/it] 90%|█████████ | 8712/9678 [19:15:13<2:06:19,  7.85s/it] 90%|█████████ | 8713/9678 [19:15:21<2:06:37,  7.87s/it] 90%|█████████ | 8714/9678 [19:15:28<2:03:50,  7.71s/it] 90%|█████████ | 8715/9678 [19:15:36<2:02:23,  7.63s/it] 90%|█████████ | 8716/9678 [19:15:45<2:08:24,  8.01s/it] 90%|█████████ | 8717/9678 [19:15:54<2:12:36,  8.28s/it] 90%|█████████ | 8718/9678 [19:16:00<2:06:13,  7.89s/it] 90%|█████████ | 8719/9678 [19:16:09<2:07:21,  7.97s/it] 90%|█████████ | 8720/9678 [19:16:18<2:11:59,  8.27s/it]                                                        {'loss': 0.6037, 'grad_norm': 0.7746207118034363, 'learning_rate': 1.223333790112563e-05, 'epoch': 0.9}
+ 90%|█████████ | 8720/9678 [19:16:18<2:11:59,  8.27s/it] 90%|█████████ | 8721/9678 [19:16:25<2:09:52,  8.14s/it] 90%|█████████ | 8722/9678 [19:16:33<2:05:35,  7.88s/it] 90%|█████████ | 8723/9678 [19:16:41<2:07:09,  7.99s/it] 90%|█████████ | 8724/9678 [19:16:50<2:12:17,  8.32s/it] 90%|█████████ | 8725/9678 [19:16:58<2:08:10,  8.07s/it] 90%|█████████ | 8726/9678 [19:17:05<2:05:07,  7.89s/it] 90%|█████████ | 8727/9678 [19:17:13<2:03:14,  7.78s/it] 90%|█████████ | 8728/9678 [19:17:21<2:07:01,  8.02s/it] 90%|█████████ | 8729/9678 [19:17:30<2:12:26,  8.37s/it] 90%|█████████ | 8730/9678 [19:17:41<2:21:51,  8.98s/it]                                                        {'loss': 0.6469, 'grad_norm': 1.0953818559646606, 'learning_rate': 1.1981326827866124e-05, 'epoch': 0.9}
+ 90%|█████████ | 8730/9678 [19:17:41<2:21:51,  8.98s/it] 90%|█████████ | 8731/9678 [19:17:48<2:12:42,  8.41s/it] 90%|█████████ | 8732/9678 [19:17:56<2:12:39,  8.41s/it] 90%|█████████ | 8733/9678 [19:18:05<2:15:21,  8.59s/it] 90%|█████████ | 8734/9678 [19:18:13<2:11:42,  8.37s/it] 90%|█████████ | 8735/9678 [19:18:22<2:13:21,  8.48s/it] 90%|█████████ | 8736/9678 [19:18:29<2:08:51,  8.21s/it] 90%|█████████ | 8737/9678 [19:18:37<2:05:20,  7.99s/it] 90%|█████████ | 8738/9678 [19:18:44<2:01:40,  7.77s/it] 90%|█████████ | 8739/9678 [19:18:52<2:03:56,  7.92s/it] 90%|█████████ | 8740/9678 [19:19:01<2:06:12,  8.07s/it]                                                        {'loss': 0.591, 'grad_norm': 1.1232373714447021, 'learning_rate': 1.1731874863145143e-05, 'epoch': 0.9}
+ 90%|█████████ | 8740/9678 [19:19:01<2:06:12,  8.07s/it] 90%|█████████ | 8741/9678 [19:19:08<2:02:29,  7.84s/it] 90%|█████████ | 8742/9678 [19:19:16<2:02:48,  7.87s/it] 90%|█████████ | 8743/9678 [19:19:24<2:05:09,  8.03s/it] 90%|█████████ | 8744/9678 [19:19:32<2:03:37,  7.94s/it] 90%|█████████ | 8745/9678 [19:19:39<1:58:44,  7.64s/it] 90%|█████████ | 8746/9678 [19:19:47<1:59:24,  7.69s/it] 90%|█████████ | 8747/9678 [19:19:56<2:06:19,  8.14s/it] 90%|█████████ | 8748/9678 [19:20:04<2:03:22,  7.96s/it] 90%|█████████ | 8749/9678 [19:20:10<1:57:41,  7.60s/it] 90%|█████████ | 8750/9678 [19:20:19<2:02:34,  7.92s/it]                                                        {'loss': 0.6622, 'grad_norm': 2.062878131866455, 'learning_rate': 1.148498468899864e-05, 'epoch': 0.9}
+ 90%|█████████ | 8750/9678 [19:20:19<2:02:34,  7.92s/it] 90%|█████████ | 8751/9678 [19:20:27<2:00:25,  7.79s/it] 90%|█████████ | 8752/9678 [19:20:36<2:06:28,  8.20s/it] 90%|█████████ | 8753/9678 [19:20:43<2:01:16,  7.87s/it] 90%|█████████ | 8754/9678 [19:20:51<2:04:35,  8.09s/it] 90%|█████████ | 8755/9678 [19:20:58<1:57:29,  7.64s/it] 90%|█████████ | 8756/9678 [19:21:07<2:01:14,  7.89s/it] 90%|█████████ | 8757/9678 [19:21:17<2:15:06,  8.80s/it] 90%|█████████ | 8758/9678 [19:21:24<2:02:33,  7.99s/it] 91%|█████████ | 8759/9678 [19:21:31<2:02:02,  7.97s/it] 91%|█████████ | 8760/9678 [19:21:40<2:04:21,  8.13s/it]                                                        {'loss': 0.762, 'grad_norm': 1.1355712413787842, 'learning_rate': 1.1240658959918965e-05, 'epoch': 0.91}
+ 91%|█████████ | 8760/9678 [19:21:40<2:04:21,  8.13s/it] 91%|█���███████ | 8761/9678 [19:21:46<1:56:43,  7.64s/it] 91%|█████████ | 8762/9678 [19:21:56<2:03:07,  8.07s/it] 91%|█████████ | 8763/9678 [19:22:04<2:05:13,  8.21s/it] 91%|█████████ | 8764/9678 [19:22:14<2:13:06,  8.74s/it] 91%|█████████ | 8765/9678 [19:22:22<2:07:46,  8.40s/it] 91%|█████████ | 8766/9678 [19:22:29<2:04:15,  8.17s/it] 91%|█████████ | 8767/9678 [19:22:39<2:08:59,  8.50s/it] 91%|█████████ | 8768/9678 [19:22:46<2:06:05,  8.31s/it] 91%|█████████ | 8769/9678 [19:22:54<2:02:39,  8.10s/it] 91%|█████████ | 8770/9678 [19:23:02<2:02:20,  8.08s/it]                                                        {'loss': 0.6976, 'grad_norm': 1.6199957132339478, 'learning_rate': 1.0998900302826382e-05, 'epoch': 0.91}
+ 91%|█████████ | 8770/9678 [19:23:02<2:02:20,  8.08s/it] 91%|█████████ | 8771/9678 [19:23:09<1:56:56,  7.74s/it] 91%|█████████ | 8772/9678 [19:23:17<1:56:33,  7.72s/it] 91%|█████████ | 8773/9678 [19:23:25<1:59:38,  7.93s/it] 91%|█████████ | 8774/9678 [19:23:32<1:56:18,  7.72s/it] 91%|█████████ | 8775/9678 [19:23:41<1:59:53,  7.97s/it] 91%|█████████ | 8776/9678 [19:23:47<1:52:34,  7.49s/it] 91%|█████████ | 8777/9678 [19:23:56<1:56:27,  7.76s/it] 91%|█████████ | 8778/9678 [19:24:02<1:51:05,  7.41s/it] 91%|█████████ | 8779/9678 [19:24:10<1:52:39,  7.52s/it] 91%|█████████ | 8780/9678 [19:24:17<1:51:42,  7.46s/it]                                                        {'loss': 0.5116, 'grad_norm': 1.111836552619934, 'learning_rate': 1.0759711317040649e-05, 'epoch': 0.91}
+ 91%|█████████ | 8780/9678 [19:24:17<1:51:42,  7.46s/it] 91%|█████████ | 8781/9678 [19:24:26<1:57:13,  7.84s/it] 91%|█████████ | 8782/9678 [19:24:34<1:58:45,  7.95s/it] 91%|█████████ | 8783/9678 [19:24:42<1:56:59,  7.84s/it] 91%|█████████ | 8784/9678 [19:24:49<1:56:01,  7.79s/it] 91%|█████████ | 8785/9678 [19:24:57<1:55:04,  7.73s/it] 91%|█████████ | 8786/9678 [19:25:03<1:48:25,  7.29s/it] 91%|█████████ | 8787/9678 [19:25:11<1:51:32,  7.51s/it] 91%|█████████ | 8788/9678 [19:25:18<1:48:32,  7.32s/it] 91%|█████████ | 8789/9678 [19:25:26<1:48:43,  7.34s/it] 91%|█████████ | 8790/9678 [19:25:34<1:52:05,  7.57s/it]                                                        {'loss': 0.5384, 'grad_norm': 1.650025725364685, 'learning_rate': 1.0523094574253101e-05, 'epoch': 0.91}
+ 91%|█████████ | 8790/9678 [19:25:34<1:52:05,  7.57s/it] 91%|█████████ | 8791/9678 [19:25:41<1:51:14,  7.52s/it] 91%|█████████ | 8792/9678 [19:25:49<1:51:13,  7.53s/it] 91%|█████████ | 8793/9678 [19:25:56<1:50:07,  7.47s/it] 91%|█████████ | 8794/9678 [19:26:03<1:49:43,  7.45s/it] 91%|█████████ | 8795/9678 [19:26:11<1:48:22,  7.36s/it] 91%|█████████ | 8796/9678 [19:26:21<2:02:41,  8.35s/it] 91%|█████████ | 8797/9678 [19:26:29<1:58:46,  8.09s/it] 91%|█████████ | 8798/9678 [19:26:36<1:55:06,  7.85s/it] 91%|█████████ | 8799/9678 [19:26:44<1:53:47,  7.77s/it] 91%|█████████ | 8800/9678 [19:26:52<1:54:25,  7.82s/it]                                                        {'loss': 0.5526, 'grad_norm': 0.9917317628860474, 'learning_rate': 1.0289052618499218e-05, 'epoch': 0.91}
+ 91%|█████████ | 8800/9678 [19:26:52<1:54:25,  7.82s/it] 91%|█████████ | 8801/9678 [19:26:59<1:51:53,  7.65s/it] 91%|█████████ | 8802/9678 [19:27:06<1:51:40,  7.65s/it] 91%|█████████ | 8803/9678 [19:27:14<1:51:15,  7.63s/it] 91%|█████████ | 8804/9678 [19:27:21<1:49:57,  7.55s/it] 91%|█████████ | 8805/9678 [19:27:29<1:48:03,  7.43s/it] 91%|█████████ | 8806/9678 [19:27:36<1:49:00,  7.50s/it] 91%|█████████ | 8807/9678 [19:27:44<1:50:05,  7.58s/it] 91%|█████████ | 8808/9678 [19:27:51<1:46:41,  7.36s/it] 91%|█████████ | 8809/9678 [19:27:59<1:49:09,  7.54s/it] 91%|█████████ | 8810/9678 [19:28:07<1:50:38,  7.65s/it]                                                        {'loss': 0.6995, 'grad_norm': 0.618635356426239, 'learning_rate': 1.005758796613096e-05, 'epoch': 0.91}
+ 91%|█████████ | 8810/9678 [19:28:07<1:50:38,  7.65s/it] 91%|█████████ | 8811/9678 [19:28:14<1:48:40,  7.52s/it] 91%|█████████ | 8812/9678 [19:28:22<1:51:22,  7.72s/it] 91%|█████████ | 8813/9678 [19:28:31<1:55:55,  8.04s/it] 91%|█████████ | 8814/9678 [19:28:38<1:53:16,  7.87s/it] 91%|█████████ | 8815/9678 [19:28:46<1:52:40,  7.83s/it] 91%|█████████ | 8816/9678 [19:28:54<1:52:18,  7.82s/it] 91%|█████████ | 8817/9678 [19:29:03<1:56:53,  8.15s/it] 91%|█████████ | 8818/9678 [19:29:11<1:58:20,  8.26s/it] 91%|█████████ | 8819/9678 [19:29:17<1:48:48,  7.60s/it] 91%|█████████ | 8820/9678 [19:29:25<1:50:09,  7.70s/it]                                                        {'loss': 0.6453, 'grad_norm': 1.289839506149292, 'learning_rate': 9.828703105789983e-06, 'epoch': 0.91}
+ 91%|█████████ | 8820/9678 [19:29:25<1:50:09,  7.70s/it] 91%|█████████ | 8821/9678 [19:29:33<1:51:42,  7.82s/it] 91%|█████████ | 8822/9678 [19:29:42<1:54:02,  7.99s/it] 91%|█████████ | 8823/9678 [19:29:48<1:45:06,  7.38s/it] 91%|█████████ | 8824/9678 [19:29:57<1:51:56,  7.86s/it] 91%|█████████ | 8825/9678 [19:30:03<1:46:28,  7.49s/it] 91%|█████████ | 8826/9678 [19:30:12<1:50:55,  7.81s/it] 91%|█████████ | 8827/9678 [19:30:21<1:58:10,  8.33s/it] 91%|█████████ | 8828/9678 [19:30:32<2:07:33,  9.00s/it] 91%|█████████ | 8829/9678 [19:30:40<2:02:33,  8.66s/it] 91%|█████████ | 8830/9678 [19:30:47<1:54:56,  8.13s/it]                                                        {'loss': 0.5949, 'grad_norm': 1.1484878063201904, 'learning_rate': 9.602400498380542e-06, 'epoch': 0.91}
+ 91%|█████████ | 8830/9678 [19:30:47<1:54:56,  8.13s/it] 91%|█████████ | 8831/9678 [19:30:53<1:47:11,  7.59s/it] 91%|█████████▏| 8832/9678 [19:31:01<1:47:35,  7.63s/it] 91%|█████████▏| 8833/9678 [19:31:08<1:44:18,  7.41s/it] 91%|█████████▏| 8834/9678 [19:31:16<1:47:33,  7.65s/it] 91%|█████████▏| 8835/9678 [19:31:24<1:49:23,  7.79s/it] 91%|█████████▏| 8836/9678 [19:31:33<1:53:55,  8.12s/it] 91%|█████████▏| 8837/9678 [19:31:44<2:07:42,  9.11s/it] 91%|█████████▏| 8838/9678 [19:31:53<2:04:56,  8.92s/it] 91%|█████████▏| 8839/9678 [19:32:00<1:58:58,  8.51s/it] 91%|█████████▏| 8840/9678 [19:32:06<1:48:34,  7.77s/it]                                                        {'loss': 0.633, 'grad_norm': 1.1618013381958008, 'learning_rate': 9.378682577043524e-06, 'epoch': 0.91}
+ 91%|█████████▏| 8840/9678 [19:32:06<1:48:34,  7.77s/it] 91%|█████████▏| 8841/9678 [19:32:14<1:47:14,  7.69s/it] 91%|█████████▏| 8842/9678 [19:32:22<1:46:43,  7.66s/it] 91%|█████████▏| 8843/9678 [19:32:30<1:50:30,  7.94s/it] 91%|█████████▏| 8844/9678 [19:32:37<1:45:52,  7.62s/it] 91%|█████████▏| 8845/9678 [19:32:46<1:49:32,  7.89s/it] 91%|█████████▏| 8846/9678 [19:32:52<1:45:16,  7.59s/it] 91%|█████████▏| 8847/9678 [19:33:00<1:44:21,  7.54s/it] 91%|█████████▏| 8848/9678 [19:33:09<1:50:44,  8.01s/it] 91%|█████████▏| 8849/9678 [19:33:16<1:47:48,  7.80s/it] 91%|█████████▏| 8850/9678 [19:33:24<1:45:45,  7.66s/it]                                                        {'loss': 0.6921, 'grad_norm': 0.8447564840316772, 'learning_rate': 9.157551747129844e-06, 'epoch': 0.91}
+ 91%|█████████▏| 8850/9678 [19:33:24<1:45:45,  7.66s/it] 91%|█████████▏| 8851/9678 [19:33:32<1:49:19,  7.93s/it] 91%|█████████▏| 8852/9678 [19:33:39<1:45:44,  7.68s/it] 91%|█████████▏| 8853/9678 [19:33:47<1:45:32,  7.68s/it] 91%|█████████▏| 8854/9678 [19:33:56<1:52:59,  8.23s/it] 91%|█████████▏| 8855/9678 [19:34:05<1:55:50,  8.44s/it] 92%|█████████▏| 8856/9678 [19:34:12<1:48:43,  7.94s/it] 92%|█████████▏| 8857/9678 [19:34:19<1:45:53,  7.74s/it] 92%|█████████▏| 8858/9678 [19:34:28<1:48:35,  7.95s/it] 92%|█████████▏| 8859/9678 [19:34:35<1:44:38,  7.67s/it] 92%|█████████▏| 8860/9678 [19:34:43<1:45:00,  7.70s/it]                                                        {'loss': 0.5906, 'grad_norm': 2.2064759731292725, 'learning_rate': 8.939010386174783e-06, 'epoch': 0.92}
+ 92%|█████████▏| 8860/9678 [19:34:43<1:45:00,  7.70s/it] 92%|█████████▏| 8861/9678 [19:34:52<1:49:51,  8.07s/it] 92%|█████████▏| 8862/9678 [19:34:59<1:48:59,  8.01s/it] 92%|█████████▏| 8863/9678 [19:35:06<1:42:08,  7.52s/it] 92%|█████████▏| 8864/9678 [19:35:14<1:42:43,  7.57s/it] 92%|█████████▏| 8865/9678 [19:35:21<1:44:09,  7.69s/it] 92%|█████████▏| 8866/9678 [19:35:30<1:46:32,  7.87s/it] 92%|█████████▏| 8867/9678 [19:35:39<1:51:05,  8.22s/it] 92%|█████████▏| 8868/9678 [19:35:46<1:47:10,  7.94s/it] 92%|█████████▏| 8869/9678 [19:35:53<1:41:29,  7.53s/it] 92%|█████████▏| 8870/9678 [19:36:00<1:39:40,  7.40s/it]                                                        {'loss': 0.6567, 'grad_norm': 1.3931576013565063, 'learning_rate': 8.723060843872393e-06, 'epoch': 0.92}
+ 92%|█████████▏| 8870/9678 [19:36:00<1:39:40,  7.40s/it] 92%|█████████▏| 8871/9678 [19:36:07<1:39:30,  7.40s/it] 92%|█████████▏| 8872/9678 [19:36:15<1:42:40,  7.64s/it] 92%|█████████▏| 8873/9678 [19:36:23<1:41:57,  7.60s/it] 92%|█████████▏| 8874/9678 [19:36:31<1:44:42,  7.81s/it] 92%|█████████▏| 8875/9678 [19:36:41<1:54:02,  8.52s/it] 92%|█████████▏| 8876/9678 [19:36:50<1:55:17,  8.63s/it] 92%|█████████▏| 8877/9678 [19:36:57<1:46:52,  8.01s/it] 92%|█████████▏| 8878/9678 [19:37:03<1:39:20,  7.45s/it] 92%|█████████▏| 8879/9678 [19:37:09<1:35:38,  7.18s/it] 92%|█████████▏| 8880/9678 [19:37:16<1:34:00,  7.07s/it]                                                        {'loss': 0.6287, 'grad_norm': 0.8289423584938049, 'learning_rate': 8.50970544205032e-06, 'epoch': 0.92}
+ 92%|█████████▏| 8880/9678 [19:37:16<1:34:00,  7.07s/it] 92%|█████████▏| 8881/9678 [19:37:26<1:43:00,  7.75s/it] 92%|█████████▏| 8882/9678 [19:37:33<1:41:12,  7.63s/it] 92%|█████████▏| 8883/9678 [19:37:41<1:44:17,  7.87s/it] 92%|█████████▏| 8884/9678 [19:37:49<1:44:32,  7.90s/it] 92%|█████████▏| 8885/9678 [19:38:00<1:53:52,  8.62s/it] 92%|█████████▏| 8886/9678 [19:38:07<1:48:11,  8.20s/it] 92%|█████████▏| 8887/9678 [19:38:13<1:38:53,  7.50s/it] 92%|█████████▏| 8888/9678 [19:38:20<1:39:18,  7.54s/it] 92%|█████████▏| 8889/9678 [19:38:29<1:41:49,  7.74s/it] 92%|█████████▏| 8890/9678 [19:38:37<1:44:51,  7.98s/it]                                                        {'loss': 0.541, 'grad_norm': 0.911371111869812, 'learning_rate': 8.298946474644575e-06, 'epoch': 0.92}
+ 92%|█████████▏| 8890/9678 [19:38:37<1:44:51,  7.98s/it] 92%|█████████▏| 8891/9678 [19:38:46<1:47:33,  8.20s/it] 92%|█████████▏| 8892/9678 [19:38:53<1:43:36,  7.91s/it] 92%|█████████▏| 8893/9678 [19:39:03<1:49:39,  8.38s/it] 92%|█████████▏| 8894/9678 [19:39:10<1:46:40,  8.16s/it] 92%|█████████▏| 8895/9678 [19:39:17<1:42:23,  7.85s/it] 92%|█████████▏| 8896/9678 [19:39:24<1:38:37,  7.57s/it] 92%|█████████▏| 8897/9678 [19:39:33<1:41:22,  7.79s/it] 92%|█████████▏| 8898/9678 [19:39:40<1:40:03,  7.70s/it] 92%|█████████▏| 8899/9678 [19:39:50<1:49:39,  8.45s/it] 92%|█████████▏| 8900/9678 [19:39:59<1:51:50,  8.62s/it]                                                        {'loss': 0.6585, 'grad_norm': 1.081002950668335, 'learning_rate': 8.090786207675171e-06, 'epoch': 0.92}
+ 92%|█████████▏| 8900/9678 [19:39:59<1:51:50,  8.62s/it] 92%|█████████▏| 8901/9678 [19:40:09<1:54:36,  8.85s/it] 92%|█████████▏| 8902/9678 [19:40:15<1:43:41,  8.02s/it] 92%|█████████▏| 8903/9678 [19:40:23<1:46:28,  8.24s/it] 92%|█████████▏| 8904/9678 [19:40:30<1:40:05,  7.76s/it] 92%|█████████▏| 8905/9678 [19:40:37<1:35:01,  7.38s/it] 92%|█████████▏| 8906/9678 [19:40:44<1:34:57,  7.38s/it] 92%|█████████▏| 8907/9678 [19:40:51<1:33:56,  7.31s/it] 92%|█████████▏| 8908/9678 [19:40:59<1:36:05,  7.49s/it] 92%|█████████▏| 8909/9678 [19:41:06<1:33:55,  7.33s/it] 92%|█████████▏| 8910/9678 [19:41:14<1:38:17,  7.68s/it]                                                        {'loss': 0.644, 'grad_norm': 1.1589564085006714, 'learning_rate': 7.885226879221691e-06, 'epoch': 0.92}
+ 92%|█████████▏| 8910/9678 [19:41:14<1:38:17,  7.68s/it] 92%|█████████▏| 8911/9678 [19:41:22<1:37:34,  7.63s/it] 92%|█████████▏| 8912/9678 [19:41:30<1:39:22,  7.78s/it] 92%|█████████▏| 8913/9678 [19:41:38<1:40:46,  7.90s/it] 92%|█████████▏| 8914/9678 [19:41:46<1:41:03,  7.94s/it] 92%|█████████▏| 8915/9678 [19:41:54<1:41:30,  7.98s/it] 92%|█████████▏| 8916/9678 [19:42:01<1:35:34,  7.53s/it] 92%|█████████▏| 8917/9678 [19:42:09<1:36:17,  7.59s/it] 92%|█████████▏| 8918/9678 [19:42:16<1:36:05,  7.59s/it] 92%|█████████▏| 8919/9678 [19:42:23<1:33:34,  7.40s/it] 92%|█████████▏| 8920/9678 [19:42:30<1:30:26,  7.16s/it]                                                        {'loss': 0.525, 'grad_norm': 0.6146034002304077, 'learning_rate': 7.682270699399057e-06, 'epoch': 0.92}
+ 92%|█████████▏| 8920/9678 [19:42:30<1:30:26,  7.16s/it] 92%|█████████▏| 8921/9678 [19:42:36<1:27:39,  6.95s/it] 92%|█████████▏| 8922/9678 [19:42:43<1:27:25,  6.94s/it] 92%|█████████▏| 8923/9678 [19:42:51<1:30:07,  7.16s/it] 92%|█████████▏| 8924/9678 [19:42:59<1:33:39,  7.45s/it] 92%|█████████▏| 8925/9678 [19:43:07<1:37:14,  7.75s/it] 92%|█████████▏| 8926/9678 [19:43:15<1:38:10,  7.83s/it] 92%|█████████▏| 8927/9678 [19:43:22<1:31:37,  7.32s/it] 92%|█████████▏| 8928/9678 [19:43:30<1:34:21,  7.55s/it] 92%|█████████▏| 8929/9678 [19:43:39<1:40:00,  8.01s/it] 92%|█████████▏| 8930/9678 [19:43:46<1:37:27,  7.82s/it]                                                        {'loss': 0.5737, 'grad_norm': 0.8697605729103088, 'learning_rate': 7.481919850333946e-06, 'epoch': 0.92}
+ 92%|█████████▏| 8930/9678 [19:43:46<1:37:27,  7.82s/it] 92%|█████████▏| 8931/9678 [19:43:53<1:33:40,  7.52s/it] 92%|█████████▏| 8932/9678 [19:44:00<1:32:18,  7.42s/it] 92%|█████████▏| 8933/9678 [19:44:08<1:32:41,  7.47s/it] 92%|█████████▏| 8934/9678 [19:44:18<1:41:37,  8.20s/it] 92%|█████████▏| 8935/9678 [19:44:27<1:47:34,  8.69s/it] 92%|█████████▏| 8936/9678 [19:44:36<1:45:42,  8.55s/it] 92%|█████████▏| 8937/9678 [19:44:44<1:45:34,  8.55s/it] 92%|█████████▏| 8938/9678 [19:44:52<1:42:12,  8.29s/it] 92%|█████████▏| 8939/9678 [19:45:01<1:44:32,  8.49s/it] 92%|█████████▏| 8940/9678 [19:45:09<1:42:00,  8.29s/it]                                                        {'loss': 0.5475, 'grad_norm': 1.1086236238479614, 'learning_rate': 7.284176486141214e-06, 'epoch': 0.92}
+ 92%|█████████▏| 8940/9678 [19:45:09<1:42:00,  8.29s/it] 92%|█████████▏| 8941/9678 [19:45:17<1:43:15,  8.41s/it] 92%|█████████▏| 8942/9678 [19:45:25<1:41:55,  8.31s/it] 92%|█████████▏| 8943/9678 [19:45:32<1:37:09,  7.93s/it] 92%|█████████▏| 8944/9678 [19:45:39<1:33:06,  7.61s/it] 92%|█████████▏| 8945/9678 [19:45:45<1:27:25,  7.16s/it] 92%|█████████▏| 8946/9678 [19:45:54<1:31:12,  7.48s/it] 92%|█████████▏| 8947/9678 [19:46:00<1:28:31,  7.27s/it] 92%|█████████▏| 8948/9678 [19:46:08<1:28:37,  7.28s/it] 92%|█████████▏| 8949/9678 [19:46:17<1:34:24,  7.77s/it] 92%|█████████▏| 8950/9678 [19:46:25<1:36:45,  7.98s/it]                                                        {'loss': 0.6598, 'grad_norm': 1.8016564846038818, 'learning_rate': 7.0890427329008964e-06, 'epoch': 0.92}
+ 92%|█████████▏| 8950/9678 [19:46:25<1:36:45,  7.98s/it] 92%|█████████▏| 8951/9678 [19:46:34<1:39:15,  8.19s/it] 92%|█████████▏| 8952/9678 [19:46:40<1:32:56,  7.68s/it] 93%|█████████▎| 8953/9678 [19:46:47<1:28:14,  7.30s/it] 93%|█████████▎| 8954/9678 [19:46:55<1:32:46,  7.69s/it] 93%|█████████▎| 8955/9678 [19:47:04<1:34:52,  7.87s/it] 93%|█████████▎| 8956/9678 [19:47:13<1:38:36,  8.20s/it] 93%|█████████▎| 8957/9678 [19:47:23<1:45:18,  8.76s/it] 93%|█████████▎| 8958/9678 [19:47:29<1:36:23,  8.03s/it] 93%|█████████▎| 8959/9678 [19:47:38<1:38:09,  8.19s/it] 93%|█████████▎| 8960/9678 [19:47:45<1:35:00,  7.94s/it]                                                        {'loss': 0.634, 'grad_norm': 1.1818935871124268, 'learning_rate': 6.896520688635111e-06, 'epoch': 0.93}
+ 93%|█████████▎| 8960/9678 [19:47:45<1:35:00,  7.94s/it] 93%|█████████▎| 8961/9678 [19:47:53<1:34:33,  7.91s/it] 93%|█████████▎| 8962/9678 [19:48:00<1:32:50,  7.78s/it] 93%|█████████▎| 8963/9678 [19:48:10<1:38:36,  8.27s/it] 93%|█████████▎| 8964/9678 [19:48:17<1:36:32,  8.11s/it] 93%|█████████▎| 8965/9678 [19:48:26<1:39:41,  8.39s/it] 93%|█████████▎| 8966/9678 [19:48:34<1:36:58,  8.17s/it] 93%|█████████▎| 8967/9678 [19:48:41<1:32:46,  7.83s/it] 93%|█████████▎| 8968/9678 [19:48:50<1:35:06,  8.04s/it] 93%|█████████▎| 8969/9678 [19:48:56<1:29:21,  7.56s/it] 93%|█████████▎| 8970/9678 [19:49:06<1:36:03,  8.14s/it]                                                        {'loss': 0.6006, 'grad_norm': 1.2800990343093872, 'learning_rate': 6.706612423285685e-06, 'epoch': 0.93}
+ 93%|█████████▎| 8970/9678 [19:49:06<1:36:03,  8.14s/it] 93%|█████████▎| 8971/9678 [19:49:14<1:38:07,  8.33s/it] 93%|█████████▎| 8972/9678 [19:49:22<1:35:20,  8.10s/it] 93%|█████████▎| 8973/9678 [19:49:32<1:40:29,  8.55s/it] 93%|█████████▎| 8974/9678 [19:49:41<1:43:32,  8.82s/it] 93%|█████████▎| 8975/9678 [19:49:49<1:40:58,  8.62s/it] 93%|█████████▎| 8976/9678 [19:49:56<1:35:46,  8.19s/it] 93%|█████████▎| 8977/9678 [19:50:04<1:35:36,  8.18s/it] 93%|█████████▎| 8978/9678 [19:50:12<1:33:24,  8.01s/it] 93%|█████████▎| 8979/9678 [19:50:19<1:30:24,  7.76s/it] 93%|█████████▎| 8980/9678 [19:50:27<1:31:08,  7.84s/it]                                                        {'loss': 0.5678, 'grad_norm': 1.0055065155029297, 'learning_rate': 6.519319978691845e-06, 'epoch': 0.93}
+ 93%|█████████▎| 8980/9678 [19:50:27<1:31:08,  7.84s/it] 93%|█████████▎| 8981/9678 [19:50:34<1:27:55,  7.57s/it] 93%|█████████▎| 8982/9678 [19:50:43<1:32:28,  7.97s/it] 93%|█████████▎| 8983/9678 [19:50:51<1:32:27,  7.98s/it] 93%|█████████▎| 8984/9678 [19:50:58<1:29:28,  7.74s/it] 93%|█████████▎| 8985/9678 [19:51:06<1:28:38,  7.67s/it] 93%|█████████▎| 8986/9678 [19:51:12<1:24:19,  7.31s/it] 93%|█████████▎| 8987/9678 [19:51:19<1:23:19,  7.24s/it] 93%|█████████▎| 8988/9678 [19:51:28<1:28:15,  7.67s/it] 93%|█████████▎| 8989/9678 [19:51:35<1:26:36,  7.54s/it] 93%|█████████▎| 8990/9678 [19:51:41<1:19:05,  6.90s/it]                                                        {'loss': 0.6205, 'grad_norm': 2.050903081893921, 'learning_rate': 6.334645368568315e-06, 'epoch': 0.93}
+ 93%|█████████▎| 8990/9678 [19:51:41<1:19:05,  6.90s/it] 93%|█████████▎| 8991/9678 [19:51:50<1:28:07,  7.70s/it] 93%|█████████▎| 8992/9678 [19:51:57<1:24:00,  7.35s/it] 93%|█████████▎| 8993/9678 [19:52:03<1:18:29,  6.88s/it] 93%|█████████▎| 8994/9678 [19:52:10<1:19:55,  7.01s/it] 93%|█████████▎| 8995/9678 [19:52:19<1:25:44,  7.53s/it] 93%|█████████▎| 8996/9678 [19:52:25<1:22:04,  7.22s/it] 93%|█████████▎| 8997/9678 [19:52:33<1:23:28,  7.35s/it] 93%|█████████▎| 8998/9678 [19:52:41<1:25:03,  7.51s/it] 93%|█████████▎| 8999/9678 [19:52:49<1:28:34,  7.83s/it] 93%|█████████▎| 9000/9678 [19:52:58<1:30:20,  8.00s/it]                                                        {'loss': 0.5148, 'grad_norm': 1.3951302766799927, 'learning_rate': 6.152590578483497e-06, 'epoch': 0.93}
+ 93%|█████████▎| 9000/9678 [19:52:58<1:30:20,  8.00s/it] 93%|█████████▎| 9001/9678 [19:53:06<1:32:04,  8.16s/it] 93%|█████████▎| 9002/9678 [19:53:14<1:31:12,  8.10s/it] 93%|█████████▎| 9003/9678 [19:53:21<1:28:23,  7.86s/it] 93%|█████████▎| 9004/9678 [19:53:28<1:23:52,  7.47s/it] 93%|█████████▎| 9005/9678 [19:53:37<1:29:01,  7.94s/it] 93%|█████████▎| 9006/9678 [19:53:45<1:30:28,  8.08s/it] 93%|█████████▎| 9007/9678 [19:53:53<1:29:47,  8.03s/it] 93%|█████████▎| 9008/9678 [19:54:02<1:30:39,  8.12s/it] 93%|█████████▎| 9009/9678 [19:54:11<1:35:13,  8.54s/it] 93%|█████████▎| 9010/9678 [19:54:20<1:34:51,  8.52s/it]                                                        {'loss': 0.6931, 'grad_norm': 2.197643995285034, 'learning_rate': 5.973157565838327e-06, 'epoch': 0.93}
+ 93%|█████████▎| 9010/9678 [19:54:20<1:34:51,  8.52s/it] 93%|█████████▎| 9011/9678 [19:54:28<1:35:04,  8.55s/it] 93%|█████████▎| 9012/9678 [19:54:35<1:30:28,  8.15s/it] 93%|█████████▎| 9013/9678 [19:54:44<1:30:02,  8.12s/it] 93%|█████████▎| 9014/9678 [19:54:51<1:27:59,  7.95s/it] 93%|█████████▎| 9015/9678 [19:54:59<1:26:53,  7.86s/it] 93%|█████████▎| 9016/9678 [19:55:09<1:34:26,  8.56s/it] 93%|█████████▎| 9017/9678 [19:55:19<1:38:55,  8.98s/it] 93%|█████████▎| 9018/9678 [19:55:28<1:37:47,  8.89s/it] 93%|█████████▎| 9019/9678 [19:55:35<1:32:36,  8.43s/it] 93%|█████████▎| 9020/9678 [19:55:43<1:31:49,  8.37s/it]                                                        {'loss': 0.5684, 'grad_norm': 1.161935567855835, 'learning_rate': 5.796348259845096e-06, 'epoch': 0.93}
+ 93%|█████████▎| 9020/9678 [19:55:43<1:31:49,  8.37s/it] 93%|█████████▎| 9021/9678 [19:55:53<1:35:06,  8.68s/it] 93%|█████████▎| 9022/9678 [19:56:01<1:34:26,  8.64s/it] 93%|█████████▎| 9023/9678 [19:56:09<1:31:02,  8.34s/it] 93%|█████████▎| 9024/9678 [19:56:16<1:27:33,  8.03s/it] 93%|█████████▎| 9025/9678 [19:56:23<1:24:25,  7.76s/it] 93%|█████████▎| 9026/9678 [19:56:31<1:23:44,  7.71s/it] 93%|█████████▎| 9027/9678 [19:56:40<1:28:23,  8.15s/it] 93%|█████████▎| 9028/9678 [19:56:47<1:26:22,  7.97s/it] 93%|█████████▎| 9029/9678 [19:56:56<1:28:23,  8.17s/it] 93%|█████████▎| 9030/9678 [19:57:03<1:25:10,  7.89s/it]                                                        {'loss': 0.6114, 'grad_norm': 1.7656304836273193, 'learning_rate': 5.622164561506826e-06, 'epoch': 0.93}
+ 93%|█████████▎| 9030/9678 [19:57:03<1:25:10,  7.89s/it] 93%|█████████▎| 9031/9678 [19:57:11<1:23:52,  7.78s/it] 93%|█████████▎| 9032/9678 [19:57:19<1:25:03,  7.90s/it] 93%|█████████▎| 9033/9678 [19:57:27<1:25:20,  7.94s/it] 93%|█████████▎| 9034/9678 [19:57:35<1:25:48,  7.99s/it] 93%|█████████▎| 9035/9678 [19:57:43<1:25:00,  7.93s/it] 93%|█████████▎| 9036/9678 [19:57:50<1:22:13,  7.68s/it] 93%|█████████▎| 9037/9678 [19:57:58<1:21:57,  7.67s/it] 93%|█████████▎| 9038/9678 [19:58:05<1:20:24,  7.54s/it] 93%|█████████▎| 9039/9678 [19:58:12<1:17:29,  7.28s/it] 93%|█████████▎| 9040/9678 [19:58:18<1:14:36,  7.02s/it]                                                        {'loss': 0.5743, 'grad_norm': 0.9781146049499512, 'learning_rate': 5.450608343596647e-06, 'epoch': 0.93}
+ 93%|█████████▎| 9040/9678 [19:58:18<1:14:36,  7.02s/it] 93%|█████████▎| 9041/9678 [19:58:26<1:16:50,  7.24s/it] 93%|█████████▎| 9042/9678 [19:58:34<1:19:08,  7.47s/it] 93%|█████████▎| 9043/9678 [19:58:43<1:23:06,  7.85s/it] 93%|█████████▎| 9044/9678 [19:58:51<1:25:45,  8.12s/it] 93%|█████████▎| 9045/9678 [19:59:00<1:28:38,  8.40s/it] 93%|█████████▎| 9046/9678 [19:59:09<1:29:15,  8.47s/it] 93%|█████████▎| 9047/9678 [19:59:16<1:23:02,  7.90s/it] 93%|█████████▎| 9048/9678 [19:59:27<1:34:14,  8.98s/it] 94%|█████████▎| 9049/9678 [19:59:34<1:26:54,  8.29s/it] 94%|█████████▎| 9050/9678 [19:59:42<1:26:11,  8.23s/it]                                                        {'loss': 0.5756, 'grad_norm': 0.7141128182411194, 'learning_rate': 5.281681450637843e-06, 'epoch': 0.94}
+ 94%|█████████▎| 9050/9678 [19:59:42<1:26:11,  8.23s/it] 94%|█████████▎| 9051/9678 [19:59:48<1:20:36,  7.71s/it] 94%|█████████▎| 9052/9678 [19:59:56<1:21:17,  7.79s/it] 94%|█████████▎| 9053/9678 [20:00:05<1:24:35,  8.12s/it] 94%|█████████▎| 9054/9678 [20:00:13<1:24:34,  8.13s/it] 94%|█████████▎| 9055/9678 [20:00:21<1:21:38,  7.86s/it] 94%|█████████▎| 9056/9678 [20:00:29<1:21:53,  7.90s/it] 94%|█████████▎| 9057/9678 [20:00:38<1:25:53,  8.30s/it] 94%|█████████▎| 9058/9678 [20:00:47<1:28:28,  8.56s/it] 94%|█████████▎| 9059/9678 [20:00:56<1:30:36,  8.78s/it] 94%|█████████▎| 9060/9678 [20:01:04<1:25:57,  8.35s/it]                                                        {'loss': 0.5679, 'grad_norm': 1.8938722610473633, 'learning_rate': 5.115385698883979e-06, 'epoch': 0.94}
+ 94%|█████████▎| 9060/9678 [20:01:04<1:25:57,  8.35s/it] 94%|█████████▎| 9061/9678 [20:01:12<1:26:24,  8.40s/it] 94%|█████████▎| 9062/9678 [20:01:20<1:24:10,  8.20s/it] 94%|█████████▎| 9063/9678 [20:01:27<1:21:29,  7.95s/it] 94%|█████████▎| 9064/9678 [20:01:34<1:17:21,  7.56s/it] 94%|█████████▎| 9065/9678 [20:01:43<1:22:00,  8.03s/it] 94%|█████████▎| 9066/9678 [20:01:50<1:19:51,  7.83s/it] 94%|█████████▎| 9067/9678 [20:01:59<1:20:55,  7.95s/it] 94%|█████████▎| 9068/9678 [20:02:08<1:23:56,  8.26s/it] 94%|█████████▎| 9069/9678 [20:02:17<1:27:30,  8.62s/it] 94%|█████████▎| 9070/9678 [20:02:25<1:24:02,  8.29s/it]                                                        {'loss': 0.744, 'grad_norm': 1.8188812732696533, 'learning_rate': 4.951722876299275e-06, 'epoch': 0.94}
+ 94%|█████████▎| 9070/9678 [20:02:25<1:24:02,  8.29s/it] 94%|█████████▎| 9071/9678 [20:02:33<1:23:52,  8.29s/it] 94%|█████████▎| 9072/9678 [20:02:41<1:24:23,  8.36s/it] 94%|█████████▎| 9073/9678 [20:02:48<1:19:12,  7.85s/it] 94%|█████████▍| 9074/9678 [20:02:54<1:14:34,  7.41s/it] 94%|█████████▍| 9075/9678 [20:03:02<1:13:46,  7.34s/it] 94%|█████████▍| 9076/9678 [20:03:10<1:16:20,  7.61s/it] 94%|█████████▍| 9077/9678 [20:03:18<1:17:37,  7.75s/it] 94%|█████████▍| 9078/9678 [20:03:25<1:15:43,  7.57s/it] 94%|█████████▍| 9079/9678 [20:03:34<1:19:01,  7.92s/it] 94%|█████████▍| 9080/9678 [20:03:42<1:19:48,  8.01s/it]                                                        {'loss': 0.6274, 'grad_norm': 0.8902860879898071, 'learning_rate': 4.790694742539487e-06, 'epoch': 0.94}
+ 94%|█████████▍| 9080/9678 [20:03:42<1:19:48,  8.01s/it] 94%|█████████▍| 9081/9678 [20:03:49<1:16:48,  7.72s/it] 94%|█████████▍| 9082/9678 [20:03:56<1:15:39,  7.62s/it] 94%|█████████▍| 9083/9678 [20:04:05<1:17:33,  7.82s/it] 94%|█████████▍| 9084/9678 [20:04:12<1:16:53,  7.77s/it] 94%|█████████▍| 9085/9678 [20:04:22<1:21:50,  8.28s/it] 94%|█████████▍| 9086/9678 [20:04:30<1:22:06,  8.32s/it] 94%|█████████▍| 9087/9678 [20:04:39<1:22:34,  8.38s/it] 94%|█████████▍| 9088/9678 [20:04:45<1:16:43,  7.80s/it] 94%|█████████▍| 9089/9678 [20:04:52<1:13:38,  7.50s/it] 94%|█████████▍| 9090/9678 [20:05:00<1:13:49,  7.53s/it]                                                        {'loss': 0.6173, 'grad_norm': 2.0708553791046143, 'learning_rate': 4.632303028932943e-06, 'epoch': 0.94}
+ 94%|█████████▍| 9090/9678 [20:05:00<1:13:49,  7.53s/it] 94%|█████████▍| 9091/9678 [20:05:07<1:12:08,  7.37s/it] 94%|█████████▍| 9092/9678 [20:05:15<1:15:00,  7.68s/it] 94%|█████████▍| 9093/9678 [20:05:24<1:19:50,  8.19s/it] 94%|█████████▍| 9094/9678 [20:05:34<1:23:43,  8.60s/it] 94%|█████████▍| 9095/9678 [20:05:41<1:19:43,  8.21s/it] 94%|█████████▍| 9096/9678 [20:05:48<1:16:40,  7.90s/it] 94%|█████████▍| 9097/9678 [20:05:56<1:14:43,  7.72s/it] 94%|█████████▍| 9098/9678 [20:06:04<1:15:08,  7.77s/it] 94%|█████████▍| 9099/9678 [20:06:12<1:15:21,  7.81s/it] 94%|█████████▍| 9100/9678 [20:06:21<1:20:32,  8.36s/it]                                                        {'loss': 0.6267, 'grad_norm': 1.710466742515564, 'learning_rate': 4.476549438461958e-06, 'epoch': 0.94}
+ 94%|█████████▍| 9100/9678 [20:06:21<1:20:32,  8.36s/it] 94%|█████████▍| 9101/9678 [20:06:31<1:23:48,  8.72s/it] 94%|█████████▍| 9102/9678 [20:06:39<1:21:09,  8.45s/it] 94%|█████████▍| 9103/9678 [20:06:49<1:25:43,  8.94s/it] 94%|█████████▍| 9104/9678 [20:06:57<1:23:45,  8.75s/it] 94%|█████████▍| 9105/9678 [20:07:05<1:21:55,  8.58s/it] 94%|█████████▍| 9106/9678 [20:07:12<1:18:04,  8.19s/it] 94%|█████████▍| 9107/9678 [20:07:19<1:14:12,  7.80s/it] 94%|█████████▍| 9108/9678 [20:07:28<1:16:02,  8.00s/it] 94%|█████████▍| 9109/9678 [20:07:36<1:15:25,  7.95s/it] 94%|█████████▍| 9110/9678 [20:07:44<1:16:58,  8.13s/it]                                                        {'loss': 0.7292, 'grad_norm': 0.8895155787467957, 'learning_rate': 4.323435645744445e-06, 'epoch': 0.94}
+ 94%|█████████▍| 9110/9678 [20:07:44<1:16:58,  8.13s/it] 94%|█████████▍| 9111/9678 [20:07:52<1:14:55,  7.93s/it] 94%|█████████▍| 9112/9678 [20:08:00<1:16:03,  8.06s/it] 94%|█████████▍| 9113/9678 [20:08:08<1:14:28,  7.91s/it] 94%|█████████▍| 9114/9678 [20:08:14<1:08:58,  7.34s/it] 94%|█████████▍| 9115/9678 [20:08:20<1:07:33,  7.20s/it] 94%|█████████▍| 9116/9678 [20:08:30<1:13:12,  7.82s/it] 94%|█████████▍| 9117/9678 [20:08:38<1:15:10,  8.04s/it] 94%|█████████▍| 9118/9678 [20:08:45<1:11:13,  7.63s/it] 94%|███��█████▍| 9119/9678 [20:08:52<1:08:22,  7.34s/it] 94%|█████████▍| 9120/9678 [20:08:59<1:07:49,  7.29s/it]                                                        {'loss': 0.6778, 'grad_norm': 1.9920309782028198, 'learning_rate': 4.172963297015997e-06, 'epoch': 0.94}
+ 94%|█████████▍| 9120/9678 [20:08:59<1:07:49,  7.29s/it] 94%|█████████▍| 9121/9678 [20:09:07<1:09:24,  7.48s/it] 94%|█████████▍| 9122/9678 [20:09:13<1:06:40,  7.20s/it] 94%|█████████▍| 9123/9678 [20:09:20<1:06:30,  7.19s/it] 94%|█████████▍| 9124/9678 [20:09:30<1:11:54,  7.79s/it] 94%|█████████▍| 9125/9678 [20:09:38<1:14:12,  8.05s/it] 94%|█████████▍| 9126/9678 [20:09:45<1:09:34,  7.56s/it] 94%|█████████▍| 9127/9678 [20:09:53<1:10:46,  7.71s/it] 94%|█████████▍| 9128/9678 [20:10:00<1:09:12,  7.55s/it] 94%|█████████▍| 9129/9678 [20:10:06<1:05:10,  7.12s/it] 94%|█████████▍| 9130/9678 [20:10:13<1:05:06,  7.13s/it]                                                        {'loss': 0.5764, 'grad_norm': 1.4172946214675903, 'learning_rate': 4.025134010112258e-06, 'epoch': 0.94}
+ 94%|█████████▍| 9130/9678 [20:10:13<1:05:06,  7.13s/it] 94%|█████████▍| 9131/9678 [20:10:20<1:05:19,  7.17s/it] 94%|█████████▍| 9132/9678 [20:10:30<1:11:10,  7.82s/it] 94%|█████████▍| 9133/9678 [20:10:37<1:08:18,  7.52s/it] 94%|█████████▍| 9134/9678 [20:10:44<1:07:27,  7.44s/it] 94%|█████████▍| 9135/9678 [20:10:53<1:12:18,  7.99s/it] 94%|█████████▍| 9136/9678 [20:11:03<1:17:08,  8.54s/it] 94%|█████████▍| 9137/9678 [20:11:10<1:13:13,  8.12s/it] 94%|█████████▍| 9138/9678 [20:11:19<1:15:26,  8.38s/it] 94%|█████████▍| 9139/9678 [20:11:28<1:16:10,  8.48s/it] 94%|█████████▍| 9140/9678 [20:11:37<1:16:56,  8.58s/it]                                                        {'loss': 0.5936, 'grad_norm': 0.9763116836547852, 'learning_rate': 3.879949374451269e-06, 'epoch': 0.94}
+ 94%|█████████▍| 9140/9678 [20:11:37<1:16:56,  8.58s/it] 94%|█████████▍| 9141/9678 [20:11:44<1:14:01,  8.27s/it] 94%|█████████▍| 9142/9678 [20:11:52<1:13:10,  8.19s/it] 94%|█████████▍| 9143/9678 [20:12:02<1:16:38,  8.59s/it] 94%|█████████▍| 9144/9678 [20:12:09<1:14:18,  8.35s/it] 94%|█████████▍| 9145/9678 [20:12:18<1:14:37,  8.40s/it] 95%|█████████▍| 9146/9678 [20:12:25<1:11:01,  8.01s/it] 95%|█████████▍| 9147/9678 [20:12:32<1:07:07,  7.58s/it] 95%|█████████▍| 9148/9678 [20:12:41<1:10:39,  8.00s/it] 95%|█████████▍| 9149/9678 [20:12:50<1:15:01,  8.51s/it] 95%|█████████▍| 9150/9678 [20:12:58<1:11:54,  8.17s/it]                                                        {'loss': 0.6432, 'grad_norm': 0.7206150889396667, 'learning_rate': 3.737410951016623e-06, 'epoch': 0.95}
+ 95%|█████████▍| 9150/9678 [20:12:58<1:11:54,  8.17s/it] 95%|█████████▍| 9151/9678 [20:13:04<1:07:10,  7.65s/it] 95%|█████████▍| 9152/9678 [20:13:12<1:06:47,  7.62s/it] 95%|█████████▍| 9153/9678 [20:13:23<1:17:15,  8.83s/it] 95%|█████████▍| 9154/9678 [20:13:30<1:10:43,  8.10s/it] 95%|█████████▍| 9155/9678 [20:13:38<1:11:47,  8.24s/it] 95%|█████████▍| 9156/9678 [20:13:47<1:12:31,  8.34s/it] 95%|█████████▍| 9157/9678 [20:13:55<1:10:39,  8.14s/it] 95%|█████████▍| 9158/9678 [20:14:03<1:10:13,  8.10s/it] 95%|█████████▍| 9159/9678 [20:14:09<1:06:22,  7.67s/it] 95%|█████████▍| 9160/9678 [20:14:18<1:09:39,  8.07s/it]                                                        {'loss': 0.6962, 'grad_norm': 1.7434405088424683, 'learning_rate': 3.5975202723405874e-06, 'epoch': 0.95}
+ 95%|█████████▍| 9160/9678 [20:14:18<1:09:39,  8.07s/it] 95%|█████████▍| 9161/9678 [20:14:25<1:05:43,  7.63s/it] 95%|█████████▍| 9162/9678 [20:14:33<1:06:30,  7.73s/it] 95%|█████████▍| 9163/9678 [20:14:41<1:07:52,  7.91s/it] 95%|█████████▍| 9164/9678 [20:14:51<1:12:25,  8.45s/it] 95%|█████████▍| 9165/9678 [20:14:59<1:12:37,  8.49s/it] 95%|█████████▍| 9166/9678 [20:15:09<1:14:47,  8.76s/it] 95%|█████████▍| 9167/9678 [20:15:16<1:09:20,  8.14s/it] 95%|█████████▍| 9168/9678 [20:15:24<1:11:10,  8.37s/it] 95%|█████████▍| 9169/9678 [20:15:32<1:07:57,  8.01s/it] 95%|█████████▍| 9170/9678 [20:15:40<1:08:01,  8.04s/it]                                                        {'loss': 0.6048, 'grad_norm': 1.5172473192214966, 'learning_rate': 3.4602788424876464e-06, 'epoch': 0.95}
+ 95%|█████████▍| 9170/9678 [20:15:40<1:08:01,  8.04s/it] 95%|█████████▍| 9171/9678 [20:15:46<1:04:16,  7.61s/it] 95%|█████████▍| 9172/9678 [20:15:52<59:48,  7.09s/it]   95%|█████████▍| 9173/9678 [20:16:01<1:05:02,  7.73s/it] 95%|█████████▍| 9174/9678 [20:16:10<1:07:17,  8.01s/it] 95%|█████████▍| 9175/9678 [20:16:19<1:08:31,  8.17s/it] 95%|█████████▍| 9176/9678 [20:16:25<1:05:00,  7.77s/it] 95%|█████████▍| 9177/9678 [20:16:32<1:01:39,  7.39s/it] 95%|█████████▍| 9178/9678 [20:16:41<1:06:32,  7.98s/it] 95%|█████████▍| 9179/9678 [20:16:50<1:08:22,  8.22s/it] 95%|█████████▍| 9180/9678 [20:17:00<1:12:15,  8.71s/it]                                                        {'loss': 0.5865, 'grad_norm': 1.1150609254837036, 'learning_rate': 3.3256881370383183e-06, 'epoch': 0.95}
+ 95%|█████████▍| 9180/9678 [20:17:00<1:12:15,  8.71s/it] 95%|█████████▍| 9181/9678 [20:17:10<1:15:15,  9.09s/it] 95%|█████████▍| 9182/9678 [20:17:19<1:14:26,  9.00s/it] 95%|█████████▍| 9183/9678 [20:17:27<1:13:19,  8.89s/it] 95%|█████████▍| 9184/9678 [20:17:37<1:16:04,  9.24s/it] 95%|█████████▍| 9185/9678 [20:17:45<1:11:40,  8.72s/it] 95%|█████████▍| 9186/9678 [20:17:52<1:07:54,  8.28s/it] 95%|█████████▍| 9187/9678 [20:18:01<1:09:42,  8.52s/it] 95%|█████████▍| 9188/9678 [20:18:08<1:05:27,  8.02s/it] 95%|█████████▍| 9189/9678 [20:18:15<1:03:36,  7.80s/it] 95%|█████████▍| 9190/9678 [20:18:24<1:05:58,  8.11s/it]                                                        {'loss': 0.7075, 'grad_norm': 0.8272204995155334, 'learning_rate': 3.1937496030732536e-06, 'epoch': 0.95}
+ 95%|█████████▍| 9190/9678 [20:18:24<1:05:58,  8.11s/it] 95%|█████████▍| 9191/9678 [20:18:32<1:04:10,  7.91s/it] 95%|█████████▍| 9192/9678 [20:18:40<1:05:21,  8.07s/it] 95%|█████████▍| 9193/9678 [20:18:50<1:10:04,  8.67s/it] 95%|█████████▍| 9194/9678 [20:18:59<1:10:59,  8.80s/it] 95%|█████████▌| 9195/9678 [20:19:09<1:13:24,  9.12s/it] 95%|█████████▌| 9196/9678 [20:19:17<1:10:51,  8.82s/it] 95%|█████████▌| 9197/9678 [20:19:25<1:07:22,  8.40s/it] 95%|█████████▌| 9198/9678 [20:19:34<1:10:17,  8.79s/it] 95%|█████████▌| 9199/9678 [20:19:42<1:07:06,  8.41s/it] 95%|█████████▌| 9200/9678 [20:19:49<1:05:01,  8.16s/it]                                                        {'loss': 0.5166, 'grad_norm': 0.9530496597290039, 'learning_rate': 3.0644646591577174e-06, 'epoch': 0.95}
+ 95%|█████████▌| 9200/9678 [20:19:49<1:05:01,  8.16s/it] 95%|█████████▌| 9201/9678 [20:19:57<1:04:28,  8.11s/it] 95%|█████████▌| 9202/9678 [20:20:07<1:08:05,  8.58s/it] 95%|█████████▌| 9203/9678 [20:20:14<1:03:41,  8.05s/it] 95%|█████████▌| 9204/9678 [20:20:20<59:47,  7.57s/it]   95%|█████████▌| 9205/9678 [20:20:30<1:04:39,  8.20s/it] 95%|█████████▌| 9206/9678 [20:20:38<1:02:53,  8.00s/it] 95%|█████████▌| 9207/9678 [20:20:44<59:56,  7.64s/it]   95%|█████████▌| 9208/9678 [20:20:52<1:00:52,  7.77s/it] 95%|█████████▌| 9209/9678 [20:21:01<1:03:36,  8.14s/it] 95%|█████████▌| 9210/9678 [20:21:09<1:02:43,  8.04s/it]                                                        {'loss': 0.5569, 'grad_norm': 0.7508150935173035, 'learning_rate': 2.9378346953264633e-06, 'epoch': 0.95}
+ 95%|█████████▌| 9210/9678 [20:21:09<1:02:43,  8.04s/it] 95%|█████████▌| 9211/9678 [20:21:17<1:01:52,  7.95s/it] 95%|█████████▌| 9212/9678 [20:21:25<1:01:19,  7.90s/it] 95%|█████████▌| 9213/9678 [20:21:34<1:03:34,  8.20s/it] 95%|█████████▌| 9214/9678 [20:21:41<1:00:57,  7.88s/it] 95%|█████████▌| 9215/9678 [20:21:48<59:32,  7.72s/it]   95%|█████████▌| 9216/9678 [20:21:56<1:00:42,  7.88s/it] 95%|█████████▌| 9217/9678 [20:22:02<54:58,  7.16s/it]   95%|█████████▌| 9218/9678 [20:22:10<57:38,  7.52s/it] 95%|█████████▌| 9219/9678 [20:22:19<59:09,  7.73s/it] 95%|█████████▌| 9220/9678 [20:22:27<1:00:39,  7.95s/it]                                                        {'loss': 0.6117, 'grad_norm': 1.5538454055786133, 'learning_rate': 2.8138610730684686e-06, 'epoch': 0.95}
+ 95%|█████████▌| 9220/9678 [20:22:27<1:00:39,  7.95s/it] 95%|█████████▌| 9221/9678 [20:22:35<59:39,  7.83s/it]   95%|█████████▌| 9222/9678 [20:22:43<1:00:02,  7.90s/it] 95%|█████████▌| 9223/9678 [20:22:50<58:56,  7.77s/it]   95%|█████████▌| 9224/9678 [20:22:58<59:22,  7.85s/it] 95%|█████████▌| 9225/9678 [20:23:05<57:51,  7.66s/it] 95%|█████████▌| 9226/9678 [20:23:13<56:56,  7.56s/it] 95%|█████████▌| 9227/9678 [20:23:19<53:11,  7.08s/it] 95%|█████████▌| 9228/9678 [20:23:27<55:05,  7.35s/it] 95%|█████████▌| 9229/9678 [20:23:34<54:29,  7.28s/it] 95%|█████████▌| 9230/9678 [20:23:42<57:03,  7.64s/it]                                                      {'loss': 0.5843, 'grad_norm': 1.6959922313690186, 'learning_rate': 2.692545125312612e-06, 'epoch': 0.95}
+ 95%|█████████▌| 9230/9678 [20:23:42<57:03,  7.64s/it] 95%|█████████▌| 9231/9678 [20:23:51<58:40,  7.88s/it] 95%|█████████▌| 9232/9678 [20:24:00<1:03:00,  8.48s/it] 95%|█████████▌| 9233/9678 [20:24:08<1:01:03,  8.23s/it] 95%|█████████▌| 9234/9678 [20:24:17<1:01:43,  8.34s/it] 95%|█████████▌| 9235/9678 [20:24:22<55:27,  7.51s/it]   95%|█████████▌| 9236/9678 [20:24:32<59:04,  8.02s/it] 95%|█████████▌| 9237/9678 [20:24:39<58:05,  7.90s/it] 95%|█████████▌| 9238/9678 [20:24:46<55:57,  7.63s/it] 95%|█████████▌| 9239/9678 [20:24:54<57:20,  7.84s/it] 95%|█████████▌| 9240/9678 [20:25:02<56:22,  7.72s/it]                                                      {'loss': 0.6021, 'grad_norm': 1.9940367937088013, 'learning_rate': 2.573888156413212e-06, 'epoch': 0.95}
+ 95%|█████████▌| 9240/9678 [20:25:02<56:22,  7.72s/it] 95%|█████████▌| 9241/9678 [20:25:11<58:20,  8.01s/it] 95%|█████████▌| 9242/9678 [20:25:19<59:52,  8.24s/it] 96%|█████████▌| 9243/9678 [20:25:27<58:07,  8.02s/it] 96%|█████████▌| 9244/9678 [20:25:36<1:00:07,  8.31s/it] 96%|█████████▌| 9245/9678 [20:25:44<59:10,  8.20s/it]   96%|█████████▌| 9246/9678 [20:25:50<55:16,  7.68s/it] 96%|█████████▌| 9247/9678 [20:25:57<53:45,  7.48s/it] 96%|█████████▌| 9248/9678 [20:26:04<52:47,  7.37s/it] 96%|█████████▌| 9249/9678 [20:26:10<49:46,  6.96s/it] 96%|█████████▌| 9250/9678 [20:26:21<56:22,  7.90s/it]                                                      {'loss': 0.525, 'grad_norm': 1.3337304592132568, 'learning_rate': 2.4578914421359288e-06, 'epoch': 0.96}
+ 96%|█████████▌| 9250/9678 [20:26:21<56:22,  7.90s/it] 96%|█████████▌| 9251/9678 [20:26:28<55:49,  7.84s/it] 96%|█████████▌| 9252/9678 [20:26:36<55:40,  7.84s/it] 96%|█████████▌| 9253/9678 [20:26:43<53:45,  7.59s/it] 96%|█████████▌| 9254/9678 [20:26:51<53:51,  7.62s/it] 96%|█████████▌| 9255/9678 [20:26:58<53:03,  7.52s/it] 96%|█████████▌| 9256/9678 [20:27:08<57:21,  8.15s/it] 96%|█████████▌| 9257/9678 [20:27:14<53:08,  7.57s/it] 96%|█████████▌| 9258/9678 [20:27:21<53:03,  7.58s/it] 96%|█████████▌| 9259/9678 [20:27:29<53:06,  7.60s/it] 96%|█████████▌| 9260/9678 [20:27:36<52:07,  7.48s/it]                                                      {'loss': 0.6227, 'grad_norm': 0.8987991213798523, 'learning_rate': 2.344556229644218e-06, 'epoch': 0.96}
+ 96%|█████████▌| 9260/9678 [20:27:36<52:07,  7.48s/it] 96%|█████████▌| 9261/9678 [20:27:45<54:01,  7.77s/it] 96%|█████████▌| 9262/9678 [20:27:55<58:10,  8.39s/it] 96%|█████████▌| 9263/9678 [20:28:03<58:05,  8.40s/it] 96%|█████████▌| 9264/9678 [20:28:12<59:34,  8.64s/it] 96%|█████████▌| 9265/9678 [20:28:20<58:33,  8.51s/it] 96%|█████████▌| 9266/9678 [20:28:27<54:54,  8.00s/it] 96%|█████████▌| 9267/9678 [20:28:35<54:53,  8.01s/it] 96%|█████████▌| 9268/9678 [20:28:43<53:26,  7.82s/it] 96%|█████████▌| 9269/9678 [20:28:51<54:12,  7.95s/it] 96%|█████████▌| 9270/9678 [20:28:59<55:15,  8.13s/it]                                                      {'loss': 0.5019, 'grad_norm': 0.8351725339889526, 'learning_rate': 2.233883737485731e-06, 'epoch': 0.96}
+ 96%|█████████▌| 9270/9678 [20:28:59<55:15,  8.13s/it] 96%|█████████▌| 9271/9678 [20:29:08<56:38,  8.35s/it] 96%|█████████▌| 9272/9678 [20:29:16<54:51,  8.11s/it] 96%|█████████▌| 9273/9678 [20:29:24<54:34,  8.08s/it] 96%|█████████▌| 9274/9678 [20:29:32<53:45,  7.98s/it] 96%|█████████▌| 9275/9678 [20:29:40<53:33,  7.98s/it] 96%|█████████▌| 9276/9678 [20:29:50<57:39,  8.61s/it] 96%|█████████▌| 9277/9678 [20:29:59<58:48,  8.80s/it] 96%|█████████▌| 9278/9678 [20:30:08<58:16,  8.74s/it] 96%|█████████▌| 9279/9678 [20:30:14<53:13,  8.00s/it] 96%|█████████▌| 9280/9678 [20:30:21<51:17,  7.73s/it]                                                      {'loss': 0.6226, 'grad_norm': 0.8255094289779663, 'learning_rate': 2.1258751555794654e-06, 'epoch': 0.96}
+ 96%|█████████▌| 9280/9678 [20:30:21<51:17,  7.73s/it] 96%|█████████▌| 9281/9678 [20:30:28<50:28,  7.63s/it] 96%|█████████▌| 9282/9678 [20:30:36<50:52,  7.71s/it] 96%|█████████▌| 9283/9678 [20:30:44<50:03,  7.60s/it] 96%|█████████▌| 9284/9678 [20:30:51<48:49,  7.43s/it] 96%|█████████▌| 9285/9678 [20:30:58<49:21,  7.54s/it] 96%|█████████▌| 9286/9678 [20:31:06<49:53,  7.64s/it] 96%|█████████▌| 9287/9678 [20:31:14<49:51,  7.65s/it] 96%|█████████▌| 9288/9678 [20:31:24<53:45,  8.27s/it] 96%|█████████▌| 9289/9678 [20:31:32<53:47,  8.30s/it] 96%|█████████▌| 9290/9678 [20:31:42<56:23,  8.72s/it]                                                      {'loss': 0.4691, 'grad_norm': 0.882256269454956, 'learning_rate': 2.020531645202689e-06, 'epoch': 0.96}
+ 96%|█████████▌| 9290/9678 [20:31:42<56:23,  8.72s/it] 96%|█████████▌| 9291/9678 [20:31:48<52:23,  8.12s/it] 96%|█████████▌| 9292/9678 [20:31:59<56:42,  8.82s/it] 96%|█████████▌| 9293/9678 [20:32:05<50:41,  7.90s/it] 96%|█████████▌| 9294/9678 [20:32:12<49:28,  7.73s/it] 96%|█████████▌| 9295/9678 [20:32:20<49:32,  7.76s/it] 96%|█████████▌| 9296/9678 [20:32:29<52:23,  8.23s/it] 96%|█████████▌| 9297/9678 [20:32:38<54:24,  8.57s/it] 96%|█████████▌| 9298/9678 [20:32:48<55:42,  8.80s/it] 96%|█████████▌| 9299/9678 [20:32:55<52:54,  8.38s/it] 96%|█████████▌| 9300/9678 [20:33:02<50:08,  7.96s/it]                                                      {'loss': 0.6947, 'grad_norm': 1.3614681959152222, 'learning_rate': 1.9178543389786475e-06, 'epoch': 0.96}
+ 96%|█████████▌| 9300/9678 [20:33:02<50:08,  7.96s/it] 96%|█████████▌| 9301/9678 [20:33:09<48:21,  7.70s/it] 96%|█████████▌| 9302/9678 [20:33:17<48:48,  7.79s/it] 96%|█████████▌| 9303/9678 [20:33:25<48:33,  7.77s/it] 96%|█████████▌| 9304/9678 [20:33:33<49:42,  7.97s/it] 96%|█████████▌| 9305/9678 [20:33:42<51:05,  8.22s/it] 96%|█████████▌| 9306/9678 [20:33:50<49:24,  7.97s/it] 96%|█████████▌| 9307/9678 [20:33:57<48:42,  7.88s/it] 96%|█████████▌| 9308/9678 [20:34:03<44:26,  7.21s/it] 96%|█████████▌| 9309/9678 [20:34:10<44:47,  7.28s/it] 96%|█████████▌| 9310/9678 [20:34:18<44:23,  7.24s/it]                                                      {'loss': 0.5705, 'grad_norm': 1.0351027250289917, 'learning_rate': 1.8178443408642386e-06, 'epoch': 0.96}
+ 96%|█████████▌| 9310/9678 [20:34:18<44:23,  7.24s/it] 96%|█████████▌| 9311/9678 [20:34:24<43:15,  7.07s/it] 96%|█████████▌| 9312/9678 [20:34:32<44:04,  7.23s/it] 96%|█████████▌| 9313/9678 [20:34:41<47:31,  7.81s/it] 96%|█████████▌| 9314/9678 [20:34:50<49:15,  8.12s/it] 96%|█████████▌| 9315/9678 [20:34:57<47:54,  7.92s/it] 96%|█████████▋| 9316/9678 [20:35:04<45:34,  7.55s/it] 96%|█████████▋| 9317/9678 [20:35:11<45:21,  7.54s/it] 96%|█████████▋| 9318/9678 [20:35:19<44:59,  7.50s/it] 96%|█████████▋| 9319/9678 [20:35:27<45:45,  7.65s/it] 96%|█████████▋| 9320/9678 [20:35:34<45:09,  7.57s/it]                                                      {'loss': 0.659, 'grad_norm': 1.4347681999206543, 'learning_rate': 1.7205027261383565e-06, 'epoch': 0.96}
+ 96%|█████████▋| 9320/9678 [20:35:34<45:09,  7.57s/it] 96%|█████████▋| 9321/9678 [20:35:42<45:19,  7.62s/it] 96%|█████████▋| 9322/9678 [20:35:50<45:48,  7.72s/it] 96%|█████████▋| 9323/9678 [20:36:00<50:11,  8.48s/it] 96%|█████████▋| 9324/9678 [20:36:08<49:36,  8.41s/it] 96%|█████████▋| 9325/9678 [20:36:17<48:56,  8.32s/it] 96%|█████████▋| 9326/9678 [20:36:25<48:16,  8.23s/it] 96%|█████████▋| 9327/9678 [20:36:31<44:36,  7.63s/it] 96%|█████████▋| 9328/9678 [20:36:39<44:46,  7.68s/it] 96%|█████████▋| 9329/9678 [20:36:45<43:06,  7.41s/it] 96%|█████████▋| 9330/9678 [20:36:54<45:35,  7.86s/it]                                                      {'loss': 0.5753, 'grad_norm': 0.7792657017707825, 'learning_rate': 1.625830541390122e-06, 'epoch': 0.96}
+ 96%|█████████▋| 9330/9678 [20:36:54<45:35,  7.86s/it] 96%|█████████▋| 9331/9678 [20:37:03<47:38,  8.24s/it] 96%|█████████▋| 9332/9678 [20:37:14<51:57,  9.01s/it] 96%|█████████▋| 9333/9678 [20:37:21<47:56,  8.34s/it] 96%|█████████▋| 9334/9678 [20:37:29<46:55,  8.19s/it] 96%|█████████▋| 9335/9678 [20:37:37<46:04,  8.06s/it] 96%|█████████▋| 9336/9678 [20:37:44<44:47,  7.86s/it] 96%|█████████▋| 9337/9678 [20:37:51<42:56,  7.55s/it] 96%|█████████▋| 9338/9678 [20:37:58<41:54,  7.40s/it] 96%|█████████▋| 9339/9678 [20:38:06<42:16,  7.48s/it] 97%|█████████▋| 9340/9678 [20:38:14<43:46,  7.77s/it]                                                      {'loss': 0.626, 'grad_norm': 2.364046812057495, 'learning_rate': 1.5338288045076697e-06, 'epoch': 0.97}
+ 97%|█████████▋| 9340/9678 [20:38:14<43:46,  7.77s/it] 97%|█████████▋| 9341/9678 [20:38:22<43:30,  7.75s/it] 97%|█████████▋| 9342/9678 [20:38:27<39:51,  7.12s/it] 97%|█████████▋| 9343/9678 [20:38:35<40:52,  7.32s/it] 97%|█████████▋| 9344/9678 [20:38:44<43:10,  7.75s/it] 97%|█████████▋| 9345/9678 [20:38:52<42:51,  7.72s/it] 97%|█████████▋| 9346/9678 [20:39:00<43:24,  7.84s/it] 97%|█████████▋| 9347/9678 [20:39:08<43:46,  7.94s/it] 97%|█████████▋| 9348/9678 [20:39:16<43:39,  7.94s/it] 97%|█████████▋| 9349/9678 [20:39:23<41:53,  7.64s/it] 97%|█████████▋| 9350/9678 [20:39:31<43:22,  7.93s/it]                                                      {'loss': 0.5726, 'grad_norm': 0.6518005728721619, 'learning_rate': 1.4444985046673798e-06, 'epoch': 0.97}
+ 97%|█████████▋| 9350/9678 [20:39:31<43:22,  7.93s/it] 97%|█████████▋| 9351/9678 [20:39:40<45:11,  8.29s/it] 97%|█████████▋| 9352/9678 [20:39:48<43:59,  8.10s/it] 97%|█████████▋| 9353/9678 [20:39:58<46:38,  8.61s/it] 97%|█████████▋| 9354/9678 [20:40:05<44:27,  8.23s/it] 97%|█████████▋| 9355/9678 [20:40:13<43:07,  8.01s/it] 97%|█████████▋| 9356/9678 [20:40:19<40:40,  7.58s/it] 97%|█████████▋| 9357/9678 [20:40:28<41:50,  7.82s/it] 97%|█████████▋| 9358/9678 [20:40:36<42:32,  7.98s/it] 97%|█████████▋| 9359/9678 [20:40:45<44:20,  8.34s/it] 97%|█████████▋| 9360/9678 [20:40:51<40:09,  7.58s/it]                                                      {'loss': 0.6068, 'grad_norm': 0.8066127896308899, 'learning_rate': 1.3578406023229962e-06, 'epoch': 0.97}
+ 97%|█████████▋| 9360/9678 [20:40:51<40:09,  7.58s/it] 97%|█████████▋| 9361/9678 [20:40:59<39:59,  7.57s/it] 97%|█████████▋| 9362/9678 [20:41:05<37:35,  7.14s/it] 97%|█████████▋| 9363/9678 [20:41:11<36:13,  6.90s/it] 97%|█████████▋| 9364/9678 [20:41:17<34:21,  6.57s/it] 97%|█████████▋| 9365/9678 [20:41:24<35:58,  6.90s/it] 97%|█████████▋| 9366/9678 [20:41:32<37:35,  7.23s/it] 97%|█████████▋| 9367/9678 [20:41:40<38:15,  7.38s/it] 97%|█████████▋| 9368/9678 [20:41:48<38:11,  7.39s/it] 97%|█████████▋| 9369/9678 [20:41:56<40:11,  7.80s/it] 97%|█████████▋| 9370/9678 [20:42:03<38:29,  7.50s/it]                                                      {'loss': 0.5854, 'grad_norm': 0.918552815914154, 'learning_rate': 1.2738560291954415e-06, 'epoch': 0.97}
+ 97%|█████████▋| 9370/9678 [20:42:03<38:29,  7.50s/it] 97%|█████████▋| 9371/9678 [20:42:10<37:46,  7.38s/it] 97%|█████████▋| 9372/9678 [20:42:17<36:25,  7.14s/it] 97%|█████████▋| 9373/9678 [20:42:25<38:21,  7.55s/it] 97%|█████████▋| 9374/9678 [20:42:31<35:28,  7.00s/it] 97%|█████████▋| 9375/9678 [20:42:39<36:42,  7.27s/it] 97%|█████████▋| 9376/9678 [20:42:49<40:53,  8.12s/it] 97%|█████████▋| 9377/9678 [20:42:57<40:35,  8.09s/it] 97%|█████████▋| 9378/9678 [20:43:04<38:56,  7.79s/it] 97%|█████████▋| 9379/9678 [20:43:13<40:32,  8.14s/it] 97%|█████████▋| 9380/9678 [20:43:22<41:34,  8.37s/it]                                                      {'loss': 0.5582, 'grad_norm': 0.840164840221405, 'learning_rate': 1.1925456882627417e-06, 'epoch': 0.97}
+ 97%|█████████▋| 9380/9678 [20:43:22<41:34,  8.37s/it] 97%|█████████▋| 9381/9678 [20:43:31<42:23,  8.56s/it] 97%|█████████▋| 9382/9678 [20:43:37<38:45,  7.86s/it] 97%|█████████▋| 9383/9678 [20:43:45<38:32,  7.84s/it] 97%|█████████▋| 9384/9678 [20:43:53<38:50,  7.93s/it] 97%|█████████▋| 9385/9678 [20:44:02<39:30,  8.09s/it] 97%|█████████▋| 9386/9678 [20:44:10<39:56,  8.21s/it] 97%|█████████▋| 9387/9678 [20:44:18<38:58,  8.04s/it] 97%|█████████▋| 9388/9678 [20:44:26<38:37,  7.99s/it] 97%|█████████▋| 9389/9678 [20:44:34<38:32,  8.00s/it] 97%|█████████▋| 9390/9678 [20:44:43<39:56,  8.32s/it]                                                      {'loss': 0.6132, 'grad_norm': 1.3730981349945068, 'learning_rate': 1.113910453750394e-06, 'epoch': 0.97}
+ 97%|█████████▋| 9390/9678 [20:44:43<39:56,  8.32s/it] 97%|█████████▋| 9391/9678 [20:44:50<37:30,  7.84s/it] 97%|█████████▋| 9392/9678 [20:44:58<37:56,  7.96s/it] 97%|█████████▋| 9393/9678 [20:45:06<37:42,  7.94s/it] 97%|█████████▋| 9394/9678 [20:45:15<39:17,  8.30s/it] 97%|█████████▋| 9395/9678 [20:45:23<38:24,  8.14s/it] 97%|█████████▋| 9396/9678 [20:45:31<38:53,  8.27s/it] 97%|█████████▋| 9397/9678 [20:45:39<38:35,  8.24s/it] 97%|█████████▋| 9398/9678 [20:45:48<39:37,  8.49s/it] 97%|█████████▋| 9399/9678 [20:45:59<41:56,  9.02s/it] 97%|█████████▋| 9400/9678 [20:46:07<40:21,  8.71s/it]                                                      {'loss': 0.552, 'grad_norm': 0.9575563669204712, 'learning_rate': 1.0379511711219313e-06, 'epoch': 0.97}
+ 97%|█████████▋| 9400/9678 [20:46:07<40:21,  8.71s/it] 97%|█████████▋| 9401/9678 [20:46:16<40:46,  8.83s/it] 97%|█████████▋| 9402/9678 [20:46:24<40:02,  8.70s/it] 97%|█████████▋| 9403/9678 [20:46:32<38:39,  8.44s/it] 97%|█████████▋| 9404/9678 [20:46:39<36:12,  7.93s/it] 97%|█████████▋| 9405/9678 [20:46:45<33:36,  7.39s/it] 97%|█████████▋| 9406/9678 [20:46:53<34:07,  7.53s/it] 97%|█████████▋| 9407/9678 [20:47:00<33:43,  7.47s/it] 97%|█████████▋| 9408/9678 [20:47:11<37:49,  8.41s/it] 97%|█████████▋| 9409/9678 [20:47:18<36:48,  8.21s/it] 97%|█████████▋| 9410/9678 [20:47:27<36:58,  8.28s/it]                                                      {'loss': 0.6279, 'grad_norm': 1.423699975013733, 'learning_rate': 9.646686570697061e-07, 'epoch': 0.97}
+ 97%|█████████▋| 9410/9678 [20:47:27<36:58,  8.28s/it] 97%|█████████▋| 9411/9678 [20:47:34<35:34,  8.00s/it] 97%|█████████▋| 9412/9678 [20:47:42<35:56,  8.11s/it] 97%|█████████▋| 9413/9678 [20:47:49<33:14,  7.53s/it] 97%|█████████▋| 9414/9678 [20:47:59<36:56,  8.39s/it] 97%|█████████▋| 9415/9678 [20:48:06<34:48,  7.94s/it] 97%|█████████▋| 9416/9678 [20:48:14<34:40,  7.94s/it] 97%|█████████▋| 9417/9678 [20:48:22<34:09,  7.85s/it] 97%|█████████▋| 9418/9678 [20:48:30<34:32,  7.97s/it] 97%|█████████▋| 9419/9678 [20:48:38<34:07,  7.91s/it] 97%|█████████▋| 9420/9678 [20:48:43<31:06,  7.23s/it]                                                      {'loss': 0.6182, 'grad_norm': 1.0341185331344604, 'learning_rate': 8.9406369950637e-07, 'epoch': 0.97}
+ 97%|█████████▋| 9420/9678 [20:48:43<31:06,  7.23s/it] 97%|█████████▋| 9421/9678 [20:48:50<30:39,  7.16s/it] 97%|█████████▋| 9422/9678 [20:48:58<31:30,  7.39s/it] 97%|█████████▋| 9423/9678 [20:49:06<31:32,  7.42s/it] 97%|█████████▋| 9424/9678 [20:49:14<32:36,  7.70s/it] 97%|█████████▋| 9425/9678 [20:49:22<33:17,  7.90s/it] 97%|█████████▋| 9426/9678 [20:49:30<32:28,  7.73s/it] 97%|█████████▋| 9427/9678 [20:49:37<31:19,  7.49s/it] 97%|█████████▋| 9428/9678 [20:49:42<29:11,  7.01s/it] 97%|█████████▋| 9429/9678 [20:49:50<29:33,  7.12s/it] 97%|█████████▋| 9430/9678 [20:49:59<32:24,  7.84s/it]                                                      {'loss': 0.6104, 'grad_norm': 0.9466649889945984, 'learning_rate': 8.261370575561866e-07, 'epoch': 0.97}
+ 97%|█████████▋| 9430/9678 [20:49:59<32:24,  7.84s/it] 97%|█████████▋| 9431/9678 [20:50:07<32:12,  7.82s/it] 97%|█████████▋| 9432/9678 [20:50:15<31:30,  7.69s/it] 97%|█████████▋| 9433/9678 [20:50:23<31:56,  7.82s/it] 97%|█████████▋| 9434/9678 [20:50:30<31:14,  7.68s/it] 97%|█████████▋| 9435/9678 [20:50:38<31:00,  7.66s/it] 97%|█████████▋| 9436/9678 [20:50:46<31:45,  7.87s/it] 98%|█████████▊| 9437/9678 [20:50:55<32:35,  8.12s/it] 98%|█████████▊| 9438/9678 [20:51:01<30:47,  7.70s/it] 98%|█████████▊| 9439/9678 [20:51:08<29:41,  7.45s/it] 98%|█████████▊| 9440/9678 [20:51:16<30:08,  7.60s/it]                                                      {'loss': 0.6099, 'grad_norm': 1.4443756341934204, 'learning_rate': 7.608894615468709e-07, 'epoch': 0.98}
+ 98%|█████████▊| 9440/9678 [20:51:16<30:08,  7.60s/it] 98%|█████████▊| 9441/9678 [20:51:24<30:30,  7.72s/it] 98%|█████████▊| 9442/9678 [20:51:34<33:08,  8.42s/it] 98%|█████████▊| 9443/9678 [20:51:41<30:44,  7.85s/it] 98%|█████████▊| 9444/9678 [20:51:50<32:42,  8.39s/it] 98%|█████████▊| 9445/9678 [20:51:58<32:04,  8.26s/it] 98%|█████████▊| 9446/9678 [20:52:06<30:49,  7.97s/it] 98%|█████████▊| 9447/9678 [20:52:13<29:38,  7.70s/it] 98%|█████████▊| 9448/9678 [20:52:19<27:54,  7.28s/it] 98%|█████████▊| 9449/9678 [20:52:25<26:22,  6.91s/it] 98%|█████████▊| 9450/9678 [20:52:34<28:59,  7.63s/it]                                                      {'loss': 0.621, 'grad_norm': 1.057411551475525, 'learning_rate': 6.983216130019288e-07, 'epoch': 0.98}
+ 98%|█████████▊| 9450/9678 [20:52:34<28:59,  7.63s/it] 98%|█████████▊| 9451/9678 [20:52:44<30:42,  8.12s/it] 98%|█████████▊| 9452/9678 [20:52:52<30:31,  8.11s/it] 98%|█████████▊| 9453/9678 [20:52:59<29:37,  7.90s/it] 98%|█████████▊| 9454/9678 [20:53:06<28:26,  7.62s/it] 98%|█████████▊| 9455/9678 [20:53:15<29:35,  7.96s/it] 98%|█████████▊| 9456/9678 [20:53:23<29:48,  8.06s/it] 98%|█████████▊| 9457/9678 [20:53:32<30:11,  8.20s/it] 98%|█████████▊| 9458/9678 [20:53:41<30:55,  8.44s/it] 98%|█████████▊| 9459/9678 [20:53:48<29:15,  8.02s/it] 98%|█████████▊| 9460/9678 [20:53:56<29:02,  7.99s/it]                                                      {'loss': 0.6057, 'grad_norm': 1.0595217943191528, 'learning_rate': 6.384341846329134e-07, 'epoch': 0.98}
+ 98%|█████████▊| 9460/9678 [20:53:56<29:02,  7.99s/it] 98%|█████████▊| 9461/9678 [20:54:04<28:47,  7.96s/it] 98%|█████████▊| 9462/9678 [20:54:14<30:46,  8.55s/it] 98%|█████████▊| 9463/9678 [20:54:21<29:05,  8.12s/it] 98%|█████████▊| 9464/9678 [20:54:28<28:36,  8.02s/it] 98%|█████████▊| 9465/9678 [20:54:37<29:32,  8.32s/it] 98%|█████████▊| 9466/9678 [20:54:47<30:55,  8.75s/it] 98%|█████████▊| 9467/9678 [20:54:56<30:25,  8.65s/it] 98%|█████████▊| 9468/9678 [20:55:02<27:48,  7.95s/it] 98%|█████████▊| 9469/9678 [20:55:09<27:05,  7.78s/it] 98%|█████████▊| 9470/9678 [20:55:17<26:31,  7.65s/it]                                                      {'loss': 0.5873, 'grad_norm': 1.049188494682312, 'learning_rate': 5.812278203322918e-07, 'epoch': 0.98}
+ 98%|█████████▊| 9470/9678 [20:55:17<26:31,  7.65s/it] 98%|█████████▊| 9471/9678 [20:55:23<25:27,  7.38s/it] 98%|█████████▊| 9472/9678 [20:55:29<23:44,  6.91s/it] 98%|█████████▊| 9473/9678 [20:55:35<22:32,  6.60s/it] 98%|█████████▊| 9474/9678 [20:55:43<23:37,  6.95s/it] 98%|█████████▊| 9475/9678 [20:55:52<25:13,  7.46s/it] 98%|█████████▊| 9476/9678 [20:56:00<25:49,  7.67s/it] 98%|█████████▊| 9477/9678 [20:56:08<25:53,  7.73s/it] 98%|█████████▊| 9478/9678 [20:56:15<25:02,  7.51s/it] 98%|█████████▊| 9479/9678 [20:56:23<25:24,  7.66s/it] 98%|█████████▊| 9480/9678 [20:56:31<25:57,  7.87s/it]                                                      {'loss': 0.6586, 'grad_norm': 1.212692379951477, 'learning_rate': 5.267031351664786e-07, 'epoch': 0.98}
+ 98%|█████████▊| 9480/9678 [20:56:31<25:57,  7.87s/it] 98%|█████████▊| 9481/9678 [20:56:39<25:48,  7.86s/it] 98%|█████████▊| 9482/9678 [20:56:47<26:24,  8.08s/it] 98%|█████████▊| 9483/9678 [20:56:55<25:28,  7.84s/it] 98%|█████████▊| 9484/9678 [20:57:02<24:56,  7.72s/it] 98%|█████████▊| 9485/9678 [20:57:09<24:28,  7.61s/it] 98%|█████████▊| 9486/9678 [20:57:20<27:11,  8.50s/it] 98%|█████████▊| 9487/9678 [20:57:28<26:17,  8.26s/it] 98%|█████████▊| 9488/9678 [20:57:34<24:45,  7.82s/it] 98%|█████████▊| 9489/9678 [20:57:43<25:18,  8.03s/it] 98%|█████████▊| 9490/9678 [20:57:50<24:14,  7.74s/it]                                                      {'loss': 0.5165, 'grad_norm': 0.6824125647544861, 'learning_rate': 4.7486071536925745e-07, 'epoch': 0.98}
+ 98%|█████████▊| 9490/9678 [20:57:50<24:14,  7.74s/it] 98%|█████████▊| 9491/9678 [20:57:57<23:27,  7.52s/it] 98%|█████████▊| 9492/9678 [20:58:05<23:53,  7.70s/it] 98%|█████████▊| 9493/9678 [20:58:12<23:13,  7.53s/it] 98%|█████████▊| 9494/9678 [20:58:19<22:18,  7.28s/it] 98%|█████████▊| 9495/9678 [20:58:27<23:10,  7.60s/it] 98%|█████████▊| 9496/9678 [20:58:36<23:41,  7.81s/it] 98%|█████████▊| 9497/9678 [20:58:44<24:02,  7.97s/it] 98%|█████████▊| 9498/9678 [20:58:53<25:11,  8.40s/it] 98%|█████████▊| 9499/9678 [20:59:00<23:20,  7.83s/it] 98%|█████████▊| 9500/9678 [20:59:08<23:53,  8.05s/it]                                                      {'loss': 0.568, 'grad_norm': 0.6535896062850952, 'learning_rate': 4.257011183354809e-07, 'epoch': 0.98}
+ 98%|█████████▊| 9500/9678 [20:59:08<23:53,  8.05s/it] 98%|█████████▊| 9501/9678 [20:59:15<22:48,  7.73s/it] 98%|█████████▊| 9502/9678 [20:59:26<25:01,  8.53s/it] 98%|█████████▊| 9503/9678 [20:59:33<23:53,  8.19s/it] 98%|█████████▊| 9504/9678 [20:59:42<24:01,  8.29s/it] 98%|█████████▊| 9505/9678 [20:59:50<23:56,  8.31s/it] 98%|█████████▊| 9506/9678 [20:59:58<23:49,  8.31s/it] 98%|█████████▊| 9507/9678 [21:00:08<24:40,  8.66s/it] 98%|█████████▊| 9508/9678 [21:00:15<22:56,  8.10s/it] 98%|█████████▊| 9509/9678 [21:00:22<22:15,  7.90s/it] 98%|█████████▊| 9510/9678 [21:00:31<23:13,  8.29s/it]                                                      {'loss': 0.5708, 'grad_norm': 1.9366480112075806, 'learning_rate': 3.792248726150471e-07, 'epoch': 0.98}
+ 98%|█████████▊| 9510/9678 [21:00:31<23:13,  8.29s/it] 98%|█████████▊| 9511/9678 [21:00:39<22:49,  8.20s/it] 98%|█████████▊| 9512/9678 [21:00:47<22:26,  8.11s/it] 98%|█████████▊| 9513/9678 [21:00:54<21:32,  7.83s/it] 98%|█████████▊| 9514/9678 [21:01:02<21:36,  7.90s/it] 98%|█████████▊| 9515/9678 [21:01:11<21:54,  8.07s/it] 98%|█████████▊| 9516/9678 [21:01:19<21:23,  7.92s/it] 98%|█████████▊| 9517/9678 [21:01:25<20:25,  7.61s/it] 98%|█████████▊| 9518/9678 [21:01:34<21:15,  7.97s/it] 98%|█████████▊| 9519/9678 [21:01:42<20:43,  7.82s/it] 98%|█████████▊| 9520/9678 [21:01:48<19:30,  7.41s/it]                                                      {'loss': 0.499, 'grad_norm': 0.8946526646614075, 'learning_rate': 3.354324779071827e-07, 'epoch': 0.98}
+ 98%|█████████▊| 9520/9678 [21:01:48<19:30,  7.41s/it] 98%|█████████▊| 9521/9678 [21:01:55<18:40,  7.14s/it] 98%|█████████▊| 9522/9678 [21:02:04<20:37,  7.93s/it] 98%|█████████▊| 9523/9678 [21:02:12<20:14,  7.84s/it] 98%|█████████▊| 9524/9678 [21:02:19<19:24,  7.56s/it] 98%|█████████▊| 9525/9678 [21:02:27<19:25,  7.62s/it] 98%|█████████▊| 9526/9678 [21:02:34<19:03,  7.52s/it] 98%|█████████▊| 9527/9678 [21:02:42<19:35,  7.79s/it] 98%|█████████▊| 9528/9678 [21:02:51<19:42,  7.88s/it] 98%|█████████▊| 9529/9678 [21:02:59<20:06,  8.10s/it] 98%|█████████▊| 9530/9678 [21:03:07<19:47,  8.03s/it]                                                      {'loss': 0.6079, 'grad_norm': 1.2145295143127441, 'learning_rate': 2.9432440505522406e-07, 'epoch': 0.98}
+ 98%|█████████▊| 9530/9678 [21:03:07<19:47,  8.03s/it] 98%|█████████▊| 9531/9678 [21:03:15<19:48,  8.09s/it] 98%|█████████▊| 9532/9678 [21:03:23<19:47,  8.13s/it] 99%|█████████▊| 9533/9678 [21:03:31<19:19,  7.99s/it] 99%|█████████▊| 9534/9678 [21:03:41<20:31,  8.55s/it] 99%|█████████▊| 9535/9678 [21:03:48<19:01,  7.98s/it] 99%|█████████▊| 9536/9678 [21:03:54<18:06,  7.65s/it] 99%|█████████▊| 9537/9678 [21:04:03<18:23,  7.83s/it] 99%|█████████▊| 9538/9678 [21:04:12<19:11,  8.22s/it] 99%|█████████▊| 9539/9678 [21:04:21<19:48,  8.55s/it] 99%|█████████▊| 9540/9678 [21:04:29<19:18,  8.39s/it]                                                      {'loss': 0.5659, 'grad_norm': 0.948176383972168, 'learning_rate': 2.559010960413444e-07, 'epoch': 0.99}
+ 99%|█████████▊| 9540/9678 [21:04:29<19:18,  8.39s/it] 99%|█████████▊| 9541/9678 [21:04:37<18:30,  8.10s/it] 99%|█████████▊| 9542/9678 [21:04:45<18:24,  8.12s/it] 99%|█████████▊| 9543/9678 [21:04:52<17:47,  7.90s/it] 99%|█████████▊| 9544/9678 [21:04:59<17:14,  7.72s/it] 99%|█████████▊| 9545/9678 [21:05:07<17:05,  7.71s/it] 99%|█████████▊| 9546/9678 [21:05:16<17:44,  8.07s/it] 99%|█████████▊| 9547/9678 [21:05:25<18:19,  8.40s/it] 99%|█████████▊| 9548/9678 [21:05:35<19:12,  8.86s/it] 99%|█████████▊| 9549/9678 [21:05:44<19:13,  8.94s/it] 99%|█████████▊| 9550/9678 [21:05:51<17:22,  8.15s/it]                                                      {'loss': 0.6056, 'grad_norm': 0.8348559141159058, 'learning_rate': 2.201629639819458e-07, 'epoch': 0.99}
+ 99%|█████████▊| 9550/9678 [21:05:51<17:22,  8.15s/it] 99%|█████████▊| 9551/9678 [21:05:58<16:34,  7.83s/it] 99%|█████████▊| 9552/9678 [21:06:04<15:16,  7.27s/it] 99%|█████████▊| 9553/9678 [21:06:10<14:49,  7.11s/it] 99%|█████████▊| 9554/9678 [21:06:19<15:35,  7.54s/it] 99%|█████████▊| 9555/9678 [21:06:25<14:20,  7.00s/it] 99%|█████████▊| 9556/9678 [21:06:33<15:09,  7.45s/it] 99%|█████████▊| 9557/9678 [21:06:40<14:35,  7.23s/it] 99%|█████████▉| 9558/9678 [21:06:48<15:03,  7.53s/it] 99%|█████████▉| 9559/9678 [21:06:57<15:43,  7.93s/it] 99%|█████████▉| 9560/9678 [21:07:05<15:45,  8.01s/it]                                                      {'loss': 0.521, 'grad_norm': 1.4996442794799805, 'learning_rate': 1.87110393123191e-07, 'epoch': 0.99}
+ 99%|█████████▉| 9560/9678 [21:07:05<15:45,  8.01s/it] 99%|█████████▉| 9561/9678 [21:07:12<15:01,  7.71s/it] 99%|█████████▉| 9562/9678 [21:07:20<14:47,  7.65s/it] 99%|█████████▉| 9563/9678 [21:07:28<15:02,  7.85s/it] 99%|█████████▉| 9564/9678 [21:07:36<15:05,  7.95s/it] 99%|█████████▉| 9565/9678 [21:07:43<14:35,  7.74s/it] 99%|█████████▉| 9566/9678 [21:07:52<14:53,  7.98s/it] 99%|█████████▉| 9567/9678 [21:07:59<14:14,  7.70s/it] 99%|█████████▉| 9568/9678 [21:08:06<13:53,  7.57s/it] 99%|█████████▉| 9569/9678 [21:08:15<14:14,  7.84s/it] 99%|█████████▉| 9570/9678 [21:08:24<14:58,  8.32s/it]                                                      {'loss': 0.6173, 'grad_norm': 0.999030590057373, 'learning_rate': 1.567437388368398e-07, 'epoch': 0.99}
+ 99%|█████████▉| 9570/9678 [21:08:24<14:58,  8.32s/it] 99%|█████████▉| 9571/9678 [21:08:33<15:12,  8.53s/it] 99%|█████████▉| 9572/9678 [21:08:43<15:58,  9.04s/it] 99%|█████████▉| 9573/9678 [21:08:51<14:58,  8.56s/it] 99%|█████████▉| 9574/9678 [21:08:59<14:44,  8.50s/it] 99%|█████████▉| 9575/9678 [21:09:09<15:16,  8.90s/it] 99%|█████████▉| 9576/9678 [21:09:18<14:57,  8.80s/it] 99%|█████████▉| 9577/9678 [21:09:27<15:18,  9.09s/it] 99%|█████████▉| 9578/9678 [21:09:36<14:53,  8.93s/it] 99%|█████████▉| 9579/9678 [21:09:43<13:37,  8.26s/it] 99%|█████████▉| 9580/9678 [21:09:53<14:15,  8.73s/it]                                                      {'loss': 0.6978, 'grad_norm': 2.4354379177093506, 'learning_rate': 1.2906332761647433e-07, 'epoch': 0.99}
+ 99%|█████████▉| 9580/9678 [21:09:53<14:15,  8.73s/it] 99%|█████████▉| 9581/9678 [21:10:01<13:51,  8.58s/it] 99%|█████████▉| 9582/9678 [21:10:09<13:28,  8.42s/it] 99%|█████████▉| 9583/9678 [21:10:16<12:38,  7.98s/it] 99%|█████████▉| 9584/9678 [21:10:23<12:02,  7.68s/it] 99%|█████████▉| 9585/9678 [21:10:31<11:56,  7.70s/it] 99%|█████████▉| 9586/9678 [21:10:38<11:56,  7.79s/it] 99%|█████████▉| 9587/9678 [21:10:46<11:42,  7.72s/it] 99%|█████████▉| 9588/9678 [21:10:55<12:06,  8.08s/it] 99%|█████████▉| 9589/9678 [21:11:04<12:23,  8.36s/it] 99%|█████████▉| 9590/9678 [21:11:13<12:26,  8.48s/it]                                                      {'loss': 0.5733, 'grad_norm': 1.067911148071289, 'learning_rate': 1.0406945707391868e-07, 'epoch': 0.99}
+ 99%|█████████▉| 9590/9678 [21:11:13<12:26,  8.48s/it] 99%|█████████▉| 9591/9678 [21:11:20<11:56,  8.24s/it] 99%|█████████▉| 9592/9678 [21:11:28<11:18,  7.89s/it] 99%|█████████▉| 9593/9678 [21:11:35<11:10,  7.89s/it] 99%|█████████▉| 9594/9678 [21:11:42<10:32,  7.53s/it] 99%|█████████▉| 9595/9678 [21:11:51<10:52,  7.86s/it] 99%|█████████▉| 9596/9678 [21:12:00<11:31,  8.43s/it] 99%|█████████▉| 9597/9678 [21:12:08<11:13,  8.31s/it] 99%|█████████▉| 9598/9678 [21:12:17<11:00,  8.26s/it] 99%|█████████▉| 9599/9678 [21:12:24<10:24,  7.90s/it] 99%|█████████▉| 9600/9678 [21:12:31<09:52,  7.59s/it]                                                      {'loss': 0.602, 'grad_norm': 0.8200865387916565, 'learning_rate': 8.176239593610246e-08, 'epoch': 0.99}
+ 99%|█████████▉| 9600/9678 [21:12:31<09:52,  7.59s/it] 99%|█████████▉| 9601/9678 [21:12:39<10:12,  7.95s/it] 99%|█████████▉| 9602/9678 [21:12:48<10:16,  8.11s/it] 99%|█████████▉| 9603/9678 [21:12:56<10:02,  8.04s/it] 99%|█████████▉| 9604/9678 [21:13:03<09:42,  7.88s/it] 99%|█████████▉| 9605/9678 [21:13:11<09:43,  7.99s/it] 99%|█████████▉| 9606/9678 [21:13:21<10:06,  8.42s/it] 99%|█████████▉| 9607/9678 [21:13:28<09:31,  8.05s/it] 99%|█████████▉| 9608/9678 [21:13:37<09:43,  8.33s/it] 99%|█████████▉| 9609/9678 [21:13:46<09:49,  8.54s/it] 99%|█████████▉| 9610/9678 [21:13:56<10:03,  8.88s/it]                                                      {'loss': 0.6507, 'grad_norm': 0.7436734437942505, 'learning_rate': 6.214238404214645e-08, 'epoch': 0.99}
+ 99%|█████████▉| 9610/9678 [21:13:56<10:03,  8.88s/it] 99%|█████████▉| 9611/9678 [21:14:04<09:51,  8.83s/it] 99%|█████████▉| 9612/9678 [21:14:12<09:21,  8.51s/it] 99%|█████████▉| 9613/9678 [21:14:19<08:42,  8.04s/it] 99%|█████████▉| 9614/9678 [21:14:27<08:22,  7.85s/it] 99%|█████████▉| 9615/9678 [21:14:33<07:47,  7.42s/it] 99%|█████████▉| 9616/9678 [21:14:42<08:07,  7.86s/it] 99%|█████████▉| 9617/9678 [21:14:50<08:03,  7.93s/it] 99%|█████████▉| 9618/9678 [21:14:58<07:58,  7.98s/it] 99%|█████████▉| 9619/9678 [21:15:05<07:39,  7.79s/it] 99%|█████████▉| 9620/9678 [21:15:14<07:36,  7.87s/it]                                                      {'loss': 0.6224, 'grad_norm': 1.0331168174743652, 'learning_rate': 4.520963234083686e-08, 'epoch': 0.99}
+ 99%|█████████▉| 9620/9678 [21:15:14<07:36,  7.87s/it] 99%|█████████▉| 9621/9678 [21:15:23<07:49,  8.24s/it] 99%|█████████▉| 9622/9678 [21:15:30<07:35,  8.13s/it] 99%|█████████▉| 9623/9678 [21:15:40<07:44,  8.45s/it] 99%|█████████▉| 9624/9678 [21:15:48<07:33,  8.40s/it] 99%|█████████▉| 9625/9678 [21:15:55<07:04,  8.01s/it] 99%|█████████▉| 9626/9678 [21:16:02<06:39,  7.67s/it] 99%|█████████▉| 9627/9678 [21:16:11<06:48,  8.01s/it] 99%|█████████▉| 9628/9678 [21:16:19<06:51,  8.23s/it] 99%|█████████▉| 9629/9678 [21:16:28<06:41,  8.20s/it]100%|█████████▉| 9630/9678 [21:16:35<06:28,  8.09s/it]                                                      {'loss': 0.6278, 'grad_norm': 1.3714491128921509, 'learning_rate': 3.09643228882106e-08, 'epoch': 1.0}
+100%|█████████▉| 9630/9678 [21:16:35<06:28,  8.09s/it]100%|█████████▉| 9631/9678 [21:16:44<06:22,  8.14s/it]100%|█████████▉| 9632/9678 [21:16:52<06:17,  8.20s/it]100%|█████████▉| 9633/9678 [21:16:59<05:50,  7.79s/it]100%|█████████▉| 9634/9678 [21:17:08<06:00,  8.20s/it]100%|█████████▉| 9635/9678 [21:17:16<05:51,  8.17s/it]100%|█████████▉| 9636/9678 [21:17:25<05:57,  8.52s/it]100%|█████████▉| 9637/9678 [21:17:32<05:21,  7.85s/it]100%|█████████▉| 9638/9678 [21:17:38<04:50,  7.26s/it]100%|█████████▉| 9639/9678 [21:17:45<04:41,  7.22s/it]100%|█████████▉| 9640/9678 [21:17:52<04:29,  7.10s/it]                                                      {'loss': 0.6508, 'grad_norm': 1.478288173675537, 'learning_rate': 1.940660884577894e-08, 'epoch': 1.0}
+100%|█████████▉| 9640/9678 [21:17:52<04:29,  7.10s/it]100%|█████████▉| 9641/9678 [21:17:59<04:30,  7.31s/it]100%|█████████▉| 9642/9678 [21:18:06<04:17,  7.15s/it]100%|█████████▉| 9643/9678 [21:18:16<04:38,  7.95s/it]100%|█████████▉| 9644/9678 [21:18:25<04:44,  8.36s/it]100%|█████████▉| 9645/9678 [21:18:32<04:24,  8.01s/it]100%|█████████▉| 9646/9678 [21:18:42<04:26,  8.32s/it]100%|█████████▉| 9647/9678 [21:18:47<03:49,  7.39s/it]100%|█████████▉| 9648/9678 [21:18:54<03:43,  7.46s/it]100%|█████████▉| 9649/9678 [21:19:03<03:42,  7.67s/it]100%|█████████▉| 9650/9678 [21:19:11<03:39,  7.83s/it]                                                      {'loss': 0.5287, 'grad_norm': 1.7626447677612305, 'learning_rate': 1.053661447877885e-08, 'epoch': 1.0}
+100%|█████████▉| 9650/9678 [21:19:11<03:39,  7.83s/it]100%|█████████▉| 9651/9678 [21:19:18<03:26,  7.67s/it]100%|█████████▉| 9652/9678 [21:19:28<03:34,  8.24s/it]100%|█████████▉| 9653/9678 [21:19:37<03:36,  8.68s/it]100%|█████████▉| 9654/9678 [21:19:45<03:24,  8.50s/it]100%|█████████▉| 9655/9678 [21:19:52<02:59,  7.80s/it]100%|█████████▉| 9656/9678 [21:20:00<02:54,  7.91s/it]100%|█████████▉| 9657/9678 [21:20:07<02:43,  7.81s/it]100%|█████████▉| 9658/9678 [21:20:15<02:33,  7.70s/it]100%|█████████▉| 9659/9678 [21:20:21<02:18,  7.28s/it]100%|█████████▉| 9660/9678 [21:20:30<02:19,  7.77s/it]                                                      {'loss': 0.6035, 'grad_norm': 1.4299039840698242, 'learning_rate': 4.354435154813042e-09, 'epoch': 1.0}
+100%|█████████▉| 9660/9678 [21:20:30<02:19,  7.77s/it]100%|█████████▉| 9661/9678 [21:20:37<02:06,  7.43s/it]100%|█████████▉| 9662/9678 [21:20:43<01:55,  7.21s/it]100%|█████████▉| 9663/9678 [21:20:52<01:55,  7.68s/it]100%|█████████▉| 9664/9678 [21:21:01<01:52,  8.06s/it]100%|█████████▉| 9665/9678 [21:21:08<01:39,  7.65s/it]100%|█████████▉| 9666/9678 [21:21:14<01:28,  7.36s/it]100%|█████████▉| 9667/9678 [21:21:21<01:18,  7.09s/it]100%|█████████▉| 9668/9678 [21:21:28<01:10,  7.09s/it]100%|█████████▉| 9669/9678 [21:21:35<01:04,  7.14s/it]100%|█████████▉| 9670/9678 [21:21:43<00:58,  7.30s/it]                                                      {'loss': 0.6028, 'grad_norm': 0.8753514885902405, 'learning_rate': 8.601373429339976e-10, 'epoch': 1.0}
+100%|█████████▉| 9670/9678 [21:21:43<00:58,  7.30s/it]100%|█████████▉| 9671/9678 [21:21:52<00:53,  7.71s/it]100%|█████████▉| 9672/9678 [21:21:59<00:45,  7.64s/it]100%|█████████▉| 9673/9678 [21:22:08<00:39,  7.94s/it]100%|█████████▉| 9674/9678 [21:22:15<00:30,  7.71s/it]100%|█████████▉| 9675/9678 [21:22:22<00:22,  7.63s/it]100%|█████████▉| 9676/9678 [21:22:30<00:15,  7.66s/it]100%|█████████▉| 9677/9678 [21:22:39<00:08,  8.04s/it]100%|██████████| 9678/9678 [21:22:47<00:00,  8.13s/it]
+  0%|          | 0/1549 [00:00<?, ?it/s][A
+  0%|          | 2/1549 [00:04<53:04,  2.06s/it][A
+  0%|          | 3/1549 [00:06<1:00:05,  2.33s/it][A
+  0%|          | 4/1549 [00:10<1:16:54,  2.99s/it][A
+  0%|          | 5/1549 [00:17<1:44:41,  4.07s/it][A
+  0%|          | 6/1549 [00:21<1:47:42,  4.19s/it][A
+  0%|          | 7/1549 [00:25<1:47:20,  4.18s/it][A
+  1%|          | 8/1549 [00:29<1:43:57,  4.05s/it][A
+  1%|          | 9/1549 [00:34<1:51:03,  4.33s/it][A
+  1%|          | 10/1549 [00:39<1:59:05,  4.64s/it][A
+  1%|          | 11/1549 [00:45<2:09:24,  5.05s/it][A
+  1%|          | 12/1549 [00:50<2:05:41,  4.91s/it][A
+  1%|          | 13/1549 [00:53<1:55:24,  4.51s/it][A
+  1%|          | 14/1549 [01:00<2:14:50,  5.27s/it][A
+  1%|          | 15/1549 [01:07<2:24:27,  5.65s/it][A
+  1%|          | 16/1549 [01:10<2:02:23,  4.79s/it][A
+  1%|          | 17/1549 [01:17<2:21:43,  5.55s/it][A
+  1%|          | 18/1549 [01:19<1:57:24,  4.60s/it][A
+  1%|          | 19/1549 [01:26<2:09:11,  5.07s/it][A
+  1%|▏         | 20/1549 [01:32<2:17:56,  5.41s/it][A
+  1%|▏         | 21/1549 [01:36<2:05:36,  4.93s/it][A
+  1%|▏         | 22/1549 [01:41<2:11:18,  5.16s/it][A
+  1%|▏         | 23/1549 [01:45<2:01:50,  4.79s/it][A
+  2%|▏         | 24/1549 [01:50<2:04:52,  4.91s/it][A
+  2%|▏         | 25/1549 [01:55<2:00:17,  4.74s/it][A
+  2%|▏         | 26/1549 [02:00<2:03:51,  4.88s/it][A
+  2%|▏         | 27/1549 [02:03<1:47:49,  4.25s/it][A
+  2%|▏         | 28/1549 [02:08<1:56:43,  4.60s/it][A
+  2%|▏         | 29/1549 [02:13<1:56:44,  4.61s/it][A
+  2%|▏         | 30/1549 [02:21<2:22:36,  5.63s/it][A
+  2%|▏         | 31/1549 [02:26<2:17:26,  5.43s/it][A
+  2%|▏         | 32/1549 [02:29<2:00:13,  4.76s/it][A
+  2%|▏         | 33/1549 [02:34<2:00:46,  4.78s/it][A
+  2%|▏         | 34/1549 [02:38<1:57:36,  4.66s/it][A
+  2%|▏         | 35/1549 [02:43<1:59:53,  4.75s/it][A
+  2%|▏         | 36/1549 [02:48<2:03:10,  4.88s/it][A
+  2%|▏         | 37/1549 [02:53<1:58:01,  4.68s/it][A
+  2%|▏         | 38/1549 [03:00<2:16:31,  5.42s/it][A
+  3%|▎         | 39/1549 [03:03<2:03:41,  4.91s/it][A
+  3%|▎         | 40/1549 [03:10<2:14:51,  5.36s/it][A
+  3%|▎         | 41/1549 [03:16<2:20:54,  5.61s/it][A
+  3%|▎         | 42/1549 [03:19<2:00:27,  4.80s/it][A
+  3%|▎         | 43/1549 [03:23<1:55:56,  4.62s/it][A
+  3%|▎         | 44/1549 [03:28<1:58:07,  4.71s/it][A
+  3%|▎         | 45/1549 [03:31<1:45:01,  4.19s/it][A
+  3%|▎         | 46/1549 [03:38<2:03:16,  4.92s/it][A
+  3%|▎         | 47/1549 [03:43<2:10:00,  5.19s/it][A
+  3%|▎         | 48/1549 [03:47<1:58:38,  4.74s/it][A
+  3%|▎         | 49/1549 [03:52<1:57:07,  4.68s/it][A
+  3%|▎         | 50/1549 [03:54<1:42:56,  4.12s/it][A
+  3%|▎         | 51/1549 [04:01<1:58:24,  4.74s/it][A
+  3%|▎         | 52/1549 [04:05<1:58:39,  4.76s/it][A
+  3%|▎         | 53/1549 [04:10<1:54:45,  4.60s/it][A
+  3%|▎         | 54/1549 [04:13<1:47:53,  4.33s/it][A
+  4%|▎         | 55/1549 [04:18<1:52:13,  4.51s/it][A
+  4%|▎         | 56/1549 [04:23<1:56:04,  4.66s/it][A
+  4%|▎         | 57/1549 [04:28<1:52:37,  4.53s/it][A
+  4%|▎         | 58/1549 [04:33<1:59:36,  4.81s/it][A
+  4%|▍         | 59/1549 [04:39<2:08:25,  5.17s/it][A
+  4%|▍         | 60/1549 [04:43<2:00:35,  4.86s/it][A
+  4%|▍         | 61/1549 [04:47<1:49:10,  4.40s/it][A
+  4%|▍         | 62/1549 [04:52<1:54:37,  4.62s/it][A
+  4%|▍         | 63/1549 [04:57<2:01:20,  4.90s/it][A
+  4%|▍         | 64/1549 [05:01<1:53:03,  4.57s/it][A
+  4%|▍         | 65/1549 [05:06<1:54:06,  4.61s/it][A
+  4%|▍         | 66/1549 [05:11<1:57:57,  4.77s/it][A
+  4%|▍         | 67/1549 [05:16<1:58:41,  4.81s/it][A
+  4%|▍         | 68/1549 [05:22<2:05:56,  5.10s/it][A
+  4%|▍         | 69/1549 [05:26<1:59:44,  4.85s/it][A
+  5%|▍         | 70/1549 [05:32<2:10:39,  5.30s/it][A
+  5%|▍         | 71/1549 [05:36<1:58:07,  4.80s/it][A
+  5%|▍         | 72/1549 [05:41<1:58:56,  4.83s/it][A
+  5%|▍         | 73/1549 [05:45<1:56:57,  4.75s/it][A
+  5%|▍         | 74/1549 [05:50<1:58:04,  4.80s/it][A
+  5%|▍         | 75/1549 [05:53<1:46:04,  4.32s/it][A
+  5%|▍         | 76/1549 [05:58<1:47:51,  4.39s/it][A
+  5%|▍         | 77/1549 [06:04<1:59:47,  4.88s/it][A
+  5%|▌         | 78/1549 [06:08<1:52:58,  4.61s/it][A
+  5%|▌         | 79/1549 [06:14<2:00:10,  4.91s/it][A
+  5%|▌         | 80/1549 [06:18<1:55:56,  4.74s/it][A
+  5%|▌         | 81/1549 [06:21<1:46:27,  4.35s/it][A
+  5%|▌         | 82/1549 [06:28<2:06:12,  5.16s/it][A
+  5%|▌         | 83/1549 [06:32<1:54:27,  4.68s/it][A
+  5%|▌         | 84/1549 [06:35<1:44:41,  4.29s/it][A
+  5%|▌         | 85/1549 [06:41<1:56:20,  4.77s/it][A
+  6%|▌         | 86/1549 [06:47<2:02:17,  5.02s/it][A
+  6%|▌         | 87/1549 [06:51<1:56:07,  4.77s/it][A
+  6%|▌         | 88/1549 [06:57<2:07:40,  5.24s/it][A
+  6%|▌         | 89/1549 [07:03<2:09:56,  5.34s/it][A
+  6%|▌         | 90/1549 [07:06<1:55:30,  4.75s/it][A
+  6%|▌         | 91/1549 [07:11<1:53:32,  4.67s/it][A
+  6%|▌         | 92/1549 [07:16<1:56:59,  4.82s/it][A
+  6%|▌         | 93/1549 [07:21<1:59:48,  4.94s/it][A
+  6%|▌         | 94/1549 [07:24<1:48:03,  4.46s/it][A
+  6%|▌         | 95/1549 [07:28<1:44:27,  4.31s/it][A
+  6%|▌         | 96/1549 [07:31<1:32:20,  3.81s/it][A
+  6%|▋         | 97/1549 [07:37<1:48:11,  4.47s/it][A
+  6%|▋         | 98/1549 [07:40<1:38:47,  4.08s/it][A
+  6%|▋         | 99/1549 [07:48<2:03:20,  5.10s/it][A
+  6%|▋         | 100/1549 [07:52<1:57:38,  4.87s/it][A
+  7%|▋         | 101/1549 [07:55<1:39:54,  4.14s/it][A
+  7%|▋         | 102/1549 [08:00<1:46:12,  4.40s/it][A
+  7%|▋         | 103/1549 [08:04<1:46:50,  4.43s/it][A
+  7%|▋         | 104/1549 [08:08<1:42:05,  4.24s/it][A
+  7%|▋         | 105/1549 [08:13<1:52:00,  4.65s/it][A
+  7%|▋         | 106/1549 [08:19<1:57:11,  4.87s/it][A
+  7%|▋         | 107/1549 [08:22<1:44:20,  4.34s/it][A
+  7%|▋         | 108/1549 [08:27<1:52:53,  4.70s/it][A
+  7%|▋         | 109/1549 [08:34<2:09:23,  5.39s/it][A
+  7%|▋         | 110/1549 [08:38<1:55:04,  4.80s/it][A
+  7%|▋         | 111/1549 [08:43<2:00:06,  5.01s/it][A
+  7%|▋         | 112/1549 [08:47<1:53:26,  4.74s/it][A
+  7%|▋         | 113/1549 [08:52<1:49:55,  4.59s/it][A
+  7%|▋         | 114/1549 [08:56<1:48:42,  4.55s/it][A
+  7%|▋         | 115/1549 [09:01<1:50:33,  4.63s/it][A
+  7%|▋         | 116/1549 [09:06<1:50:36,  4.63s/it][A
+  8%|▊         | 117/1549 [09:09<1:44:34,  4.38s/it][A
+  8%|▊         | 118/1549 [09:15<1:52:27,  4.72s/it][A
+  8%|▊         | 119/1549 [09:18<1:41:24,  4.25s/it][A
+  8%|▊         | 120/1549 [09:25<2:03:01,  5.17s/it][A
+  8%|▊         | 121/1549 [09:29<1:48:59,  4.58s/it][A
+  8%|▊         | 122/1549 [09:32<1:41:24,  4.26s/it][A
+  8%|▊         | 123/1549 [09:38<1:56:01,  4.88s/it][A
+  8%|▊         | 124/1549 [09:44<1:57:25,  4.94s/it][A
+  8%|▊         | 125/1549 [09:49<2:02:46,  5.17s/it][A
+  8%|▊         | 126/1549 [09:52<1:45:45,  4.46s/it][A
+  8%|▊         | 127/1549 [09:57<1:48:14,  4.57s/it][A
+  8%|▊         | 128/1549 [10:02<1:51:33,  4.71s/it][A
+  8%|▊         | 129/1549 [10:07<1:57:29,  4.96s/it][A
+  8%|▊         | 130/1549 [10:12<1:53:30,  4.80s/it][A
+  8%|▊         | 131/1549 [10:15<1:44:59,  4.44s/it][A
+  9%|▊         | 132/1549 [10:19<1:35:59,  4.06s/it][A
+  9%|▊         | 133/1549 [10:23<1:39:33,  4.22s/it][A
+  9%|▊         | 134/1549 [10:30<1:55:25,  4.89s/it][A
+  9%|▊         | 135/1549 [10:34<1:51:01,  4.71s/it][A
+  9%|▉         | 136/1549 [10:38<1:48:31,  4.61s/it][A
+  9%|▉         | 137/1549 [10:43<1:51:04,  4.72s/it][A
+  9%|▉         | 138/1549 [10:47<1:42:01,  4.34s/it][A
+  9%|▉         | 139/1549 [10:53<1:53:47,  4.84s/it][A
+  9%|▉         | 140/1549 [11:00<2:06:48,  5.40s/it][A
+  9%|▉         | 141/1549 [11:03<1:52:04,  4.78s/it][A
+  9%|▉         | 142/1549 [11:06<1:37:15,  4.15s/it][A
+  9%|▉         | 143/1549 [11:10<1:38:42,  4.21s/it][A
+  9%|▉         | 144/1549 [11:15<1:47:25,  4.59s/it][A
+  9%|▉         | 145/1549 [11:18<1:34:09,  4.02s/it][A
+  9%|▉         | 146/1549 [11:23<1:38:31,  4.21s/it][A
+  9%|▉         | 147/1549 [11:29<1:53:24,  4.85s/it][A
+ 10%|▉         | 148/1549 [11:34<1:51:54,  4.79s/it][A
+ 10%|▉         | 149/1549 [11:39<1:52:22,  4.82s/it][A
+ 10%|▉         | 150/1549 [11:44<1:53:53,  4.88s/it][A
+ 10%|▉         | 151/1549 [11:48<1:50:49,  4.76s/it][A
+ 10%|▉         | 152/1549 [11:50<1:30:45,  3.90s/it][A
+ 10%|▉         | 153/1549 [11:55<1:41:11,  4.35s/it][A
+ 10%|▉         | 154/1549 [12:02<1:58:26,  5.09s/it][A
+ 10%|█         | 155/1549 [12:05<1:42:12,  4.40s/it][A
+ 10%|█         | 156/1549 [12:09<1:39:32,  4.29s/it][A
+ 10%|█         | 157/1549 [12:13<1:39:15,  4.28s/it][A
+ 10%|█         | 158/1549 [12:20<1:56:04,  5.01s/it][A
+ 10%|█         | 159/1549 [12:25<1:54:01,  4.92s/it][A
+ 10%|█         | 160/1549 [12:30<1:54:23,  4.94s/it][A
+ 10%|█         | 161/1549 [12:33<1:45:07,  4.54s/it][A
+ 10%|█         | 162/1549 [12:38<1:46:52,  4.62s/it][A
+ 11%|█         | 163/1549 [12:42<1:42:53,  4.45s/it][A
+ 11%|█         | 164/1549 [12:48<1:50:12,  4.77s/it][A
+ 11%|█         | 165/1549 [12:52<1:45:54,  4.59s/it][A
+ 11%|█         | 166/1549 [12:58<1:53:25,  4.92s/it][A
+ 11%|█         | 167/1549 [13:03<1:57:36,  5.11s/it][A
+ 11%|█         | 168/1549 [13:08<1:59:27,  5.19s/it][A
+ 11%|█         | 169/1549 [13:12<1:50:01,  4.78s/it][A
+ 11%|█         | 170/1549 [13:16<1:44:37,  4.55s/it][A
+ 11%|█         | 171/1549 [13:21<1:42:32,  4.46s/it][A
+ 11%|█         | 172/1549 [13:24<1:38:23,  4.29s/it][A
+ 11%|█         | 173/1549 [13:26<1:21:47,  3.57s/it][A
+ 11%|█         | 174/1549 [13:30<1:23:49,  3.66s/it][A
+ 11%|█▏        | 175/1549 [13:34<1:21:46,  3.57s/it][A
+ 11%|█▏        | 176/1549 [13:40<1:44:27,  4.56s/it][A
+ 11%|█▏        | 177/1549 [13:43<1:33:47,  4.10s/it][A
+ 11%|█▏        | 178/1549 [13:48<1:33:20,  4.09s/it][A
+ 12%|█▏        | 179/1549 [13:53<1:40:28,  4.40s/it][A
+ 12%|█▏        | 180/1549 [13:56<1:32:45,  4.07s/it][A
+ 12%|█▏        | 181/1549 [14:00<1:35:33,  4.19s/it][A
+ 12%|█▏        | 182/1549 [14:06<1:42:12,  4.49s/it][A
+ 12%|█▏        | 183/1549 [14:10<1:39:40,  4.38s/it][A
+ 12%|█▏        | 184/1549 [14:14<1:41:03,  4.44s/it][A
+ 12%|█▏        | 185/1549 [14:17<1:25:50,  3.78s/it][A
+ 12%|█▏        | 186/1549 [14:22<1:35:40,  4.21s/it][A
+ 12%|█▏        | 187/1549 [14:28<1:49:49,  4.84s/it][A
+ 12%|█▏        | 188/1549 [14:31<1:36:59,  4.28s/it][A
+ 12%|█▏        | 189/1549 [14:37<1:46:00,  4.68s/it][A
+ 12%|█▏        | 190/1549 [14:42<1:47:35,  4.75s/it][A
+ 12%|█▏        | 191/1549 [14:47<1:52:00,  4.95s/it][A
+ 12%|█▏        | 192/1549 [14:49<1:33:41,  4.14s/it][A
+ 12%|█▏        | 193/1549 [14:53<1:33:35,  4.14s/it][A
+ 13%|█▎        | 194/1549 [14:59<1:42:30,  4.54s/it][A
+ 13%|█▎        | 195/1549 [15:04<1:49:11,  4.84s/it][A
+ 13%|█▎        | 196/1549 [15:07<1:31:46,  4.07s/it][A
+ 13%|█▎        | 197/1549 [15:13<1:44:01,  4.62s/it][A
+ 13%|█▎        | 198/1549 [15:18<1:50:14,  4.90s/it][A
+ 13%|█▎        | 199/1549 [15:24<1:54:04,  5.07s/it][A
+ 13%|█▎        | 200/1549 [15:27<1:42:40,  4.57s/it][A
+ 13%|█▎        | 201/1549 [15:29<1:27:33,  3.90s/it][A
+ 13%|█▎        | 202/1549 [15:34<1:35:35,  4.26s/it][A
+ 13%|█▎        | 203/1549 [15:38<1:31:04,  4.06s/it][A
+ 13%|█▎        | 204/1549 [15:46<1:54:32,  5.11s/it][A
+ 13%|█▎        | 205/1549 [15:51<1:57:50,  5.26s/it][A
+ 13%|█▎        | 206/1549 [15:56<1:53:11,  5.06s/it][A
+ 13%|█▎        | 207/1549 [15:58<1:34:17,  4.22s/it][A
+ 13%|█▎        | 208/1549 [16:02<1:34:21,  4.22s/it][A
+ 13%|█▎        | 209/1549 [16:08<1:44:14,  4.67s/it][A
+ 14%|█▎        | 210/1549 [16:11<1:33:17,  4.18s/it][A
+ 14%|█▎        | 211/1549 [16:18<1:53:38,  5.10s/it][A
+ 14%|█▎        | 212/1549 [16:24<1:59:12,  5.35s/it][A
+ 14%|█▍        | 213/1549 [16:29<1:53:05,  5.08s/it][A
+ 14%|█▍        | 214/1549 [16:31<1:31:42,  4.12s/it][A
+ 14%|█▍        | 215/1549 [16:38<1:51:22,  5.01s/it][A
+ 14%|█▍        | 216/1549 [16:41<1:38:31,  4.43s/it][A
+ 14%|█▍        | 217/1549 [16:45<1:38:46,  4.45s/it][A
+ 14%|█▍        | 218/1549 [16:49<1:34:47,  4.27s/it][A
+ 14%|█▍        | 219/1549 [16:55<1:42:51,  4.64s/it][A
+ 14%|█▍        | 220/1549 [16:58<1:36:54,  4.38s/it][A
+ 14%|█▍        | 221/1549 [17:03<1:38:01,  4.43s/it][A
+ 14%|█▍        | 222/1549 [17:07<1:36:31,  4.36s/it][A
+ 14%|█▍        | 223/1549 [17:13<1:48:38,  4.92s/it][A
+ 14%|█▍        | 224/1549 [17:16<1:34:00,  4.26s/it][A
+ 15%|█▍        | 225/1549 [17:22<1:47:32,  4.87s/it][A
+ 15%|█▍        | 226/1549 [17:26<1:42:03,  4.63s/it][A
+ 15%|█▍        | 227/1549 [17:30<1:37:35,  4.43s/it][A
+ 15%|█▍        | 228/1549 [17:33<1:24:32,  3.84s/it][A
+ 15%|█▍        | 229/1549 [17:39<1:37:00,  4.41s/it][A
+ 15%|█▍        | 230/1549 [17:45<1:47:50,  4.91s/it][A
+ 15%|█▍        | 231/1549 [17:50<1:48:21,  4.93s/it][A
+ 15%|█▍        | 232/1549 [17:52<1:32:39,  4.22s/it][A
+ 15%|█▌        | 233/1549 [17:58<1:43:52,  4.74s/it][A
+ 15%|█▌        | 234/1549 [18:03<1:43:01,  4.70s/it][A
+ 15%|█▌        | 235/1549 [18:07<1:39:51,  4.56s/it][A
+ 15%|█▌        | 236/1549 [18:10<1:32:44,  4.24s/it][A
+ 15%|█▌        | 237/1549 [18:15<1:32:00,  4.21s/it][A
+ 15%|█▌        | 238/1549 [18:19<1:32:48,  4.25s/it][A
+ 15%|█▌        | 239/1549 [18:25<1:43:59,  4.76s/it][A
+ 15%|█▌        | 240/1549 [18:29<1:37:07,  4.45s/it][A
+ 16%|█▌        | 241/1549 [18:33<1:36:47,  4.44s/it][A
+ 16%|█▌        | 242/1549 [18:37<1:33:01,  4.27s/it][A
+ 16%|█▌        | 243/1549 [18:43<1:43:36,  4.76s/it][A
+ 16%|█▌        | 244/1549 [18:47<1:37:03,  4.46s/it][A
+ 16%|█▌        | 245/1549 [18:49<1:25:12,  3.92s/it][A
+ 16%|█▌        | 246/1549 [18:56<1:45:41,  4.87s/it][A
+ 16%|█▌        | 247/1549 [18:59<1:34:15,  4.34s/it][A
+ 16%|█▌        | 248/1549 [19:03<1:27:18,  4.03s/it][A
+ 16%|█▌        | 249/1549 [19:08<1:36:23,  4.45s/it][A
+ 16%|█▌        | 250/1549 [19:12<1:33:59,  4.34s/it][A
+ 16%|█▌        | 251/1549 [19:16<1:31:21,  4.22s/it][A
+ 16%|█▋        | 252/1549 [19:23<1:50:35,  5.12s/it][A
+ 16%|█▋        | 253/1549 [19:30<1:59:25,  5.53s/it][A
+ 16%|█▋        | 254/1549 [19:33<1:40:44,  4.67s/it][A
+ 16%|█▋        | 255/1549 [19:37<1:39:25,  4.61s/it][A
+ 17%|█▋        | 256/1549 [19:40<1:27:23,  4.06s/it][A
+ 17%|█▋        | 257/1549 [19:46<1:40:36,  4.67s/it][A
+ 17%|█▋        | 258/1549 [19:52<1:50:12,  5.12s/it][A
+ 17%|█▋        | 259/1549 [19:57<1:47:48,  5.01s/it][A
+ 17%|█▋        | 260/1549 [20:01<1:44:58,  4.89s/it][A
+ 17%|█▋        | 261/1549 [20:07<1:47:09,  4.99s/it][A
+ 17%|█▋        | 262/1549 [20:11<1:40:25,  4.68s/it][A
+ 17%|█▋        | 263/1549 [20:15<1:41:49,  4.75s/it][A
+ 17%|█▋        | 264/1549 [20:21<1:49:27,  5.11s/it][A
+ 17%|█▋        | 265/1549 [20:24<1:35:14,  4.45s/it][A
+ 17%|█▋        | 266/1549 [20:29<1:37:40,  4.57s/it][A
+ 17%|█▋        | 267/1549 [20:34<1:37:15,  4.55s/it][A
+ 17%|█▋        | 268/1549 [20:38<1:33:20,  4.37s/it][A
+ 17%|█▋        | 269/1549 [20:42<1:33:46,  4.40s/it][A
+ 17%|█▋        | 270/1549 [20:47<1:39:59,  4.69s/it][A
+ 17%|█▋        | 271/1549 [20:51<1:35:29,  4.48s/it][A
+ 18%|█▊        | 272/1549 [20:56<1:33:50,  4.41s/it][A
+ 18%|█▊        | 273/1549 [20:59<1:24:26,  3.97s/it][A
+ 18%|█▊        | 274/1549 [21:02<1:22:40,  3.89s/it][A
+ 18%|█▊        | 275/1549 [21:09<1:42:43,  4.84s/it][A
+ 18%|█▊        | 276/1549 [21:12<1:29:03,  4.20s/it][A
+ 18%|█▊        | 277/1549 [21:17<1:30:46,  4.28s/it][A
+ 18%|█▊        | 278/1549 [21:21<1:34:12,  4.45s/it][A
+ 18%|█▊        | 279/1549 [21:26<1:34:45,  4.48s/it][A
+ 18%|█▊        | 280/1549 [21:30<1:31:22,  4.32s/it][A
+ 18%|█▊        | 281/1549 [21:33<1:22:06,  3.89s/it][A
+ 18%|█▊        | 282/1549 [21:37<1:24:34,  4.01s/it][A
+ 18%|█▊        | 283/1549 [21:44<1:40:30,  4.76s/it][A
+ 18%|█▊        | 284/1549 [21:45<1:21:05,  3.85s/it][A
+ 18%|█▊        | 285/1549 [21:56<2:01:06,  5.75s/it][A
+ 18%|█▊        | 286/1549 [21:58<1:41:30,  4.82s/it][A
+ 19%|█▊        | 287/1549 [22:02<1:35:08,  4.52s/it][A
+ 19%|█▊        | 288/1549 [22:06<1:30:17,  4.30s/it][A
+ 19%|█▊        | 289/1549 [22:11<1:33:47,  4.47s/it][A
+ 19%|█▊        | 290/1549 [22:14<1:25:31,  4.08s/it][A
+ 19%|█▉        | 291/1549 [22:19<1:35:22,  4.55s/it][A
+ 19%|█▉        | 292/1549 [22:24<1:33:42,  4.47s/it][A
+ 19%|█▉        | 293/1549 [22:28<1:35:09,  4.55s/it][A
+ 19%|█▉        | 294/1549 [22:31<1:24:03,  4.02s/it][A
+ 19%|█▉        | 295/1549 [22:36<1:31:26,  4.38s/it][A
+ 19%|█▉        | 296/1549 [22:40<1:23:25,  3.99s/it][A
+ 19%|█▉        | 297/1549 [22:45<1:32:33,  4.44s/it][A
+ 19%|█▉        | 298/1549 [22:51<1:39:40,  4.78s/it][A
+ 19%|█▉        | 299/1549 [22:58<1:53:18,  5.44s/it][A
+ 19%|█▉        | 300/1549 [23:00<1:34:06,  4.52s/it][A
+ 19%|█▉        | 301/1549 [23:04<1:33:41,  4.50s/it][A
+ 19%|█▉        | 302/1549 [23:09<1:33:03,  4.48s/it][A
+ 20%|█▉        | 303/1549 [23:13<1:33:25,  4.50s/it][A
+ 20%|█▉        | 304/1549 [23:19<1:38:07,  4.73s/it][A
+ 20%|█▉        | 305/1549 [23:23<1:37:46,  4.72s/it][A
+ 20%|█▉        | 306/1549 [23:28<1:35:58,  4.63s/it][A
+ 20%|█▉        | 307/1549 [23:31<1:30:07,  4.35s/it][A
+ 20%|█▉        | 308/1549 [23:38<1:42:33,  4.96s/it][A
+ 20%|█▉        | 309/1549 [23:41<1:30:20,  4.37s/it][A
+ 20%|██        | 310/1549 [23:45<1:30:06,  4.36s/it][A
+ 20%|██        | 311/1549 [23:49<1:24:51,  4.11s/it][A
+ 20%|██        | 312/1549 [23:53<1:25:37,  4.15s/it][A
+ 20%|██        | 313/1549 [23:59<1:39:40,  4.84s/it][A
+ 20%|██        | 314/1549 [24:04<1:39:55,  4.85s/it][A
+ 20%|██        | 315/1549 [24:07<1:26:44,  4.22s/it][A
+ 20%|██        | 316/1549 [24:11<1:24:47,  4.13s/it][A
+ 20%|██        | 317/1549 [24:17<1:35:33,  4.65s/it][A
+ 21%|██        | 318/1549 [24:21<1:33:05,  4.54s/it][A
+ 21%|██        | 319/1549 [24:25<1:28:20,  4.31s/it][A
+ 21%|██        | 320/1549 [24:30<1:35:51,  4.68s/it][A
+ 21%|██        | 321/1549 [24:36<1:39:15,  4.85s/it][A
+ 21%|██        | 322/1549 [24:40<1:37:21,  4.76s/it][A
+ 21%|██        | 323/1549 [24:44<1:30:31,  4.43s/it][A
+ 21%|██        | 324/1549 [24:48<1:30:42,  4.44s/it][A
+ 21%|██        | 325/1549 [24:51<1:17:28,  3.80s/it][A
+ 21%|██        | 326/1549 [24:57<1:33:53,  4.61s/it][A
+ 21%|██        | 327/1549 [25:01<1:29:11,  4.38s/it][A
+ 21%|██        | 328/1549 [25:06<1:31:41,  4.51s/it][A
+ 21%|██        | 329/1549 [25:09<1:25:50,  4.22s/it][A
+ 21%|██▏       | 330/1549 [25:14<1:27:49,  4.32s/it][A
+ 21%|██▏       | 331/1549 [25:17<1:20:22,  3.96s/it][A
+ 21%|██▏       | 332/1549 [25:20<1:14:31,  3.67s/it][A
+ 21%|██▏       | 333/1549 [25:27<1:32:27,  4.56s/it][A
+ 22%|██▏       | 334/1549 [25:29<1:21:22,  4.02s/it][A
+ 22%|██▏       | 335/1549 [25:36<1:38:58,  4.89s/it][A
+ 22%|██▏       | 336/1549 [25:40<1:29:47,  4.44s/it][A
+ 22%|██▏       | 337/1549 [25:44<1:28:16,  4.37s/it][A
+ 22%|██▏       | 338/1549 [25:48<1:23:29,  4.14s/it][A
+ 22%|██▏       | 339/1549 [25:53<1:30:49,  4.50s/it][A
+ 22%|██▏       | 340/1549 [25:56<1:25:05,  4.22s/it][A
+ 22%|██▏       | 341/1549 [26:01<1:26:02,  4.27s/it][A
+ 22%|██▏       | 342/1549 [26:06<1:28:50,  4.42s/it][A
+ 22%|██▏       | 343/1549 [26:10<1:30:00,  4.48s/it][A
+ 22%|██▏       | 344/1549 [26:15<1:34:06,  4.69s/it][A
+ 22%|██▏       | 345/1549 [26:18<1:22:24,  4.11s/it][A
+ 22%|██▏       | 346/1549 [26:22<1:20:44,  4.03s/it][A
+ 22%|██▏       | 347/1549 [26:26<1:20:27,  4.02s/it][A
+ 22%|██▏       | 348/1549 [26:31<1:24:51,  4.24s/it][A
+ 23%|██▎       | 349/1549 [26:34<1:19:30,  3.98s/it][A
+ 23%|██▎       | 350/1549 [26:37<1:15:59,  3.80s/it][A
+ 23%|██▎       | 351/1549 [26:40<1:10:57,  3.55s/it][A
+ 23%|██▎       | 352/1549 [26:49<1:42:31,  5.14s/it][A
+ 23%|██▎       | 353/1549 [26:52<1:30:23,  4.53s/it][A
+ 23%|██▎       | 354/1549 [26:57<1:27:57,  4.42s/it][A
+ 23%|██▎       | 355/1549 [27:00<1:20:08,  4.03s/it][A
+ 23%|██▎       | 356/1549 [27:02<1:12:25,  3.64s/it][A
+ 23%|██▎       | 357/1549 [27:10<1:33:20,  4.70s/it][A
+ 23%|██▎       | 358/1549 [27:12<1:17:08,  3.89s/it][A
+ 23%|██▎       | 359/1549 [27:17<1:24:16,  4.25s/it][A
+ 23%|██▎       | 360/1549 [27:19<1:10:21,  3.55s/it][A
+ 23%|██▎       | 361/1549 [27:25<1:25:52,  4.34s/it][A
+ 23%|██▎       | 362/1549 [27:27<1:15:48,  3.83s/it][A
+ 23%|██▎       | 363/1549 [27:34<1:33:07,  4.71s/it][A
+ 23%|██▎       | 364/1549 [27:38<1:25:41,  4.34s/it][A
+ 24%|██▎       | 365/1549 [27:43<1:32:24,  4.68s/it][A
+ 24%|██▎       | 366/1549 [27:46<1:22:35,  4.19s/it][A
+ 24%|██▎       | 367/1549 [27:53<1:37:39,  4.96s/it][A
+ 24%|██▍       | 368/1549 [27:56<1:24:07,  4.27s/it][A
+ 24%|██▍       | 369/1549 [28:00<1:23:48,  4.26s/it][A
+ 24%|██▍       | 370/1549 [28:04<1:25:02,  4.33s/it][A
+ 24%|██▍       | 371/1549 [28:07<1:13:28,  3.74s/it][A
+ 24%|██▍       | 372/1549 [28:11<1:18:04,  3.98s/it][A
+ 24%|██▍       | 373/1549 [28:15<1:17:15,  3.94s/it][A
+ 24%|██▍       | 374/1549 [28:21<1:29:16,  4.56s/it][A
+ 24%|██▍       | 375/1549 [28:24<1:21:56,  4.19s/it][A
+ 24%|██▍       | 376/1549 [28:27<1:10:32,  3.61s/it][A
+ 24%|██▍       | 377/1549 [28:32<1:20:27,  4.12s/it][A
+ 24%|██▍       | 378/1549 [28:35<1:16:09,  3.90s/it][A
+ 24%|██▍       | 379/1549 [28:40<1:21:29,  4.18s/it][A
+ 25%|██▍       | 380/1549 [28:42<1:09:19,  3.56s/it][A
+ 25%|██▍       | 381/1549 [28:47<1:15:19,  3.87s/it][A
+ 25%|██▍       | 382/1549 [28:52<1:22:17,  4.23s/it][A
+ 25%|██▍       | 383/1549 [28:55<1:15:20,  3.88s/it][A
+ 25%|██▍       | 384/1549 [28:58<1:07:37,  3.48s/it][A
+ 25%|██▍       | 385/1549 [29:04<1:25:52,  4.43s/it][A
+ 25%|██▍       | 386/1549 [29:07<1:14:56,  3.87s/it][A
+ 25%|██▍       | 387/1549 [29:11<1:16:44,  3.96s/it][A
+ 25%|██▌       | 388/1549 [29:14<1:10:41,  3.65s/it][A
+ 25%|██▌       | 389/1549 [29:17<1:08:30,  3.54s/it][A
+ 25%|██▌       | 390/1549 [29:21<1:10:28,  3.65s/it][A
+ 25%|██▌       | 391/1549 [29:24<1:07:19,  3.49s/it][A
+ 25%|██▌       | 392/1549 [29:28<1:11:32,  3.71s/it][A
+ 25%|██▌       | 393/1549 [29:36<1:31:57,  4.77s/it][A
+ 25%|██▌       | 394/1549 [29:39<1:22:24,  4.28s/it][A
+ 26%|██▌       | 395/1549 [29:46<1:36:30,  5.02s/it][A
+ 26%|██▌       | 396/1549 [29:49<1:24:57,  4.42s/it][A
+ 26%|██▌       | 397/1549 [29:55<1:34:48,  4.94s/it][A
+ 26%|██▌       | 398/1549 [29:57<1:19:20,  4.14s/it][A
+ 26%|██▌       | 399/1549 [30:02<1:24:11,  4.39s/it][A
+ 26%|██▌       | 400/1549 [30:05<1:17:56,  4.07s/it][A
+ 26%|██▌       | 401/1549 [30:10<1:20:55,  4.23s/it][A
+ 26%|██▌       | 402/1549 [30:16<1:30:21,  4.73s/it][A
+ 26%|██▌       | 403/1549 [30:18<1:17:55,  4.08s/it][A
+ 26%|██▌       | 404/1549 [30:23<1:23:36,  4.38s/it][A
+ 26%|██▌       | 405/1549 [30:26<1:12:16,  3.79s/it][A
+ 26%|██▌       | 406/1549 [30:30<1:15:48,  3.98s/it][A
+ 26%|██▋       | 407/1549 [30:34<1:17:00,  4.05s/it][A
+ 26%|██▋       | 408/1549 [30:41<1:31:36,  4.82s/it][A
+ 26%|██▋       | 409/1549 [30:45<1:23:32,  4.40s/it][A
+ 26%|██▋       | 410/1549 [30:49<1:22:22,  4.34s/it][A
+ 27%|██▋       | 411/1549 [30:51<1:13:20,  3.87s/it][A
+ 27%|██▋       | 412/1549 [30:56<1:16:37,  4.04s/it][A
+ 27%|██▋       | 413/1549 [31:02<1:26:37,  4.58s/it][A
+ 27%|██▋       | 414/1549 [31:05<1:20:58,  4.28s/it][A
+ 27%|██▋       | 415/1549 [31:10<1:23:30,  4.42s/it][A
+ 27%|██▋       | 416/1549 [31:13<1:14:49,  3.96s/it][A
+ 27%|██▋       | 417/1549 [31:19<1:24:36,  4.48s/it][A
+ 27%|██▋       | 418/1549 [31:23<1:22:15,  4.36s/it][A
+ 27%|██▋       | 419/1549 [31:26<1:17:20,  4.11s/it][A
+ 27%|██▋       | 420/1549 [31:29<1:08:57,  3.66s/it][A
+ 27%|██▋       | 421/1549 [31:32<1:04:31,  3.43s/it][A
+ 27%|██▋       | 422/1549 [31:37<1:11:48,  3.82s/it][A
+ 27%|██▋       | 423/1549 [31:39<1:03:11,  3.37s/it][A
+ 27%|██▋       | 424/1549 [31:43<1:06:36,  3.55s/it][A
+ 27%|██▋       | 425/1549 [31:46<1:05:14,  3.48s/it][A
+ 28%|██▊       | 426/1549 [31:51<1:12:39,  3.88s/it][A
+ 28%|██▊       | 427/1549 [31:54<1:09:58,  3.74s/it][A
+ 28%|██▊       | 428/1549 [31:58<1:08:18,  3.66s/it][A
+ 28%|██▊       | 429/1549 [32:06<1:34:11,  5.05s/it][A
+ 28%|██▊       | 430/1549 [32:10<1:27:58,  4.72s/it][A
+ 28%|██▊       | 431/1549 [32:14<1:21:26,  4.37s/it][A
+ 28%|██▊       | 432/1549 [32:16<1:12:31,  3.90s/it][A
+ 28%|██▊       | 433/1549 [32:20<1:10:01,  3.76s/it][A
+ 28%|██▊       | 434/1549 [32:29<1:38:43,  5.31s/it][A
+ 28%|██▊       | 435/1549 [32:32<1:27:30,  4.71s/it][A
+ 28%|██▊       | 436/1549 [32:35<1:16:03,  4.10s/it][A
+ 28%|██▊       | 437/1549 [32:41<1:28:29,  4.77s/it][A
+ 28%|██▊       | 438/1549 [32:46<1:27:36,  4.73s/it][A
+ 28%|██▊       | 439/1549 [32:51<1:27:42,  4.74s/it][A
+ 28%|██▊       | 440/1549 [32:54<1:22:20,  4.46s/it][A
+ 28%|██▊       | 441/1549 [32:56<1:09:11,  3.75s/it][A
+ 29%|██▊       | 442/1549 [33:03<1:23:34,  4.53s/it][A
+ 29%|██▊       | 443/1549 [33:07<1:23:00,  4.50s/it][A
+ 29%|██▊       | 444/1549 [33:12<1:27:13,  4.74s/it][A
+ 29%|██▊       | 445/1549 [33:16<1:17:40,  4.22s/it][A
+ 29%|██▉       | 446/1549 [33:20<1:21:51,  4.45s/it][A
+ 29%|██▉       | 447/1549 [33:23<1:11:43,  3.91s/it][A
+ 29%|██▉       | 448/1549 [33:27<1:09:10,  3.77s/it][A
+ 29%|██▉       | 449/1549 [33:32<1:16:33,  4.18s/it][A
+ 29%|██▉       | 450/1549 [33:36<1:15:39,  4.13s/it][A
+ 29%|██▉       | 451/1549 [33:39<1:10:46,  3.87s/it][A
+ 29%|██▉       | 452/1549 [33:43<1:12:52,  3.99s/it][A
+ 29%|██▉       | 453/1549 [33:46<1:05:06,  3.56s/it][A
+ 29%|██▉       | 454/1549 [33:53<1:23:51,  4.60s/it][A
+ 29%|██▉       | 455/1549 [33:58<1:28:12,  4.84s/it][A
+ 29%|██▉       | 456/1549 [34:00<1:12:11,  3.96s/it][A
+ 30%|██▉       | 457/1549 [34:04<1:10:23,  3.87s/it][A
+ 30%|██▉       | 458/1549 [34:11<1:28:33,  4.87s/it][A
+ 30%|██▉       | 459/1549 [34:13<1:12:19,  3.98s/it][A
+ 30%|██▉       | 460/1549 [34:17<1:13:48,  4.07s/it][A
+ 30%|██▉       | 461/1549 [34:19<1:01:59,  3.42s/it][A
+ 30%|██▉       | 462/1549 [34:25<1:17:13,  4.26s/it][A
+ 30%|██▉       | 463/1549 [34:29<1:16:00,  4.20s/it][A
+ 30%|██▉       | 464/1549 [34:33<1:15:11,  4.16s/it][A
+ 30%|███       | 465/1549 [34:37<1:11:16,  3.95s/it][A
+ 30%|███       | 466/1549 [34:41<1:09:32,  3.85s/it][A
+ 30%|███       | 467/1549 [34:45<1:12:47,  4.04s/it][A
+ 30%|███       | 468/1549 [34:49<1:10:05,  3.89s/it][A
+ 30%|███       | 469/1549 [34:53<1:13:54,  4.11s/it][A
+ 30%|███       | 470/1549 [34:58<1:17:10,  4.29s/it][A
+ 30%|███       | 471/1549 [35:00<1:07:42,  3.77s/it][A
+ 30%|███       | 472/1549 [35:04<1:06:30,  3.70s/it][A
+ 31%|███       | 473/1549 [35:09<1:12:44,  4.06s/it][A
+ 31%|███       | 474/1549 [35:11<1:00:50,  3.40s/it][A
+ 31%|███       | 475/1549 [35:17<1:14:22,  4.16s/it][A
+ 31%|███       | 476/1549 [35:21<1:16:13,  4.26s/it][A
+ 31%|███       | 477/1549 [35:24<1:07:53,  3.80s/it][A
+ 31%|███       | 478/1549 [35:28<1:07:48,  3.80s/it][A
+ 31%|███       | 479/1549 [35:31<1:06:46,  3.74s/it][A
+ 31%|███       | 480/1549 [35:34<1:03:49,  3.58s/it][A
+ 31%|███       | 481/1549 [35:38<1:05:11,  3.66s/it][A
+ 31%|███       | 482/1549 [35:44<1:14:39,  4.20s/it][A
+ 31%|███       | 483/1549 [35:48<1:12:29,  4.08s/it][A
+ 31%|███       | 484/1549 [35:54<1:22:47,  4.66s/it][A
+ 31%|███▏      | 485/1549 [35:58<1:18:37,  4.43s/it][A
+ 31%|███▏      | 486/1549 [36:02<1:17:20,  4.37s/it][A
+ 31%|███▏      | 487/1549 [36:07<1:20:54,  4.57s/it][A
+ 32%|███▏      | 488/1549 [36:10<1:11:12,  4.03s/it][A
+ 32%|███▏      | 489/1549 [36:16<1:26:35,  4.90s/it][A
+ 32%|███▏      | 490/1549 [36:20<1:17:28,  4.39s/it][A
+ 32%|███▏      | 491/1549 [36:22<1:06:39,  3.78s/it][A
+ 32%|███▏      | 492/1549 [36:26<1:05:58,  3.74s/it][A
+ 32%|███▏      | 493/1549 [36:30<1:09:22,  3.94s/it][A
+ 32%|███▏      | 494/1549 [36:34<1:07:32,  3.84s/it][A
+ 32%|███▏      | 495/1549 [36:37<1:03:04,  3.59s/it][A
+ 32%|███▏      | 496/1549 [36:42<1:10:27,  4.02s/it][A
+ 32%|███▏      | 497/1549 [36:47<1:16:38,  4.37s/it][A
+ 32%|███▏      | 498/1549 [36:52<1:21:53,  4.67s/it][A
+ 32%|███▏      | 499/1549 [36:56<1:14:14,  4.24s/it][A
+ 32%|███▏      | 500/1549 [37:00<1:14:19,  4.25s/it][A
+ 32%|███▏      | 501/1549 [37:03<1:10:13,  4.02s/it][A
+ 32%|███▏      | 502/1549 [37:06<1:02:15,  3.57s/it][A
+ 32%|███▏      | 503/1549 [37:09<1:02:21,  3.58s/it][A
+ 33%|███▎      | 504/1549 [37:13<1:04:55,  3.73s/it][A
+ 33%|███▎      | 505/1549 [37:16<58:34,  3.37s/it]  [A
+ 33%|███▎      | 506/1549 [37:19<58:36,  3.37s/it][A
+ 33%|███▎      | 507/1549 [37:22<56:01,  3.23s/it][A
+ 33%|███▎      | 508/1549 [37:26<59:43,  3.44s/it][A
+ 33%|███▎      | 509/1549 [37:31<1:08:50,  3.97s/it][A
+ 33%|███▎      | 510/1549 [37:36<1:10:32,  4.07s/it][A
+ 33%|���██▎      | 511/1549 [37:40<1:11:49,  4.15s/it][A
+ 33%|███▎      | 512/1549 [37:44<1:12:14,  4.18s/it][A
+ 33%|███▎      | 513/1549 [37:49<1:14:26,  4.31s/it][A
+ 33%|███▎      | 514/1549 [37:53<1:11:40,  4.15s/it][A
+ 33%|███▎      | 515/1549 [37:57<1:10:43,  4.10s/it][A
+ 33%|███▎      | 516/1549 [38:04<1:28:04,  5.12s/it][A
+ 33%|███▎      | 517/1549 [38:07<1:17:05,  4.48s/it][A
+ 33%|███▎      | 518/1549 [38:12<1:17:35,  4.52s/it][A
+ 34%|███▎      | 519/1549 [38:15<1:11:20,  4.16s/it][A
+ 34%|███▎      | 520/1549 [38:20<1:16:36,  4.47s/it][A
+ 34%|███▎      | 521/1549 [38:22<1:03:55,  3.73s/it][A
+ 34%|███▎      | 522/1549 [38:29<1:18:21,  4.58s/it][A
+ 34%|███▍      | 523/1549 [38:31<1:06:06,  3.87s/it][A
+ 34%|███▍      | 524/1549 [38:37<1:16:31,  4.48s/it][A
+ 34%|███▍      | 525/1549 [38:42<1:18:33,  4.60s/it][A
+ 34%|███▍      | 526/1549 [38:45<1:10:06,  4.11s/it][A
+ 34%|███▍      | 527/1549 [38:50<1:14:42,  4.39s/it][A
+ 34%|███▍      | 528/1549 [38:53<1:07:31,  3.97s/it][A
+ 34%|███▍      | 529/1549 [38:57<1:07:20,  3.96s/it][A
+ 34%|███▍      | 530/1549 [39:01<1:09:32,  4.09s/it][A
+ 34%|███▍      | 531/1549 [39:06<1:10:51,  4.18s/it][A
+ 34%|███▍      | 532/1549 [39:10<1:11:32,  4.22s/it][A
+ 34%|███▍      | 533/1549 [39:13<1:06:10,  3.91s/it][A
+ 34%|███▍      | 534/1549 [39:17<1:08:20,  4.04s/it][A
+ 35%|███▍      | 535/1549 [39:20<1:01:15,  3.62s/it][A
+ 35%|███▍      | 536/1549 [39:24<1:02:15,  3.69s/it][A
+ 35%|███▍      | 537/1549 [39:28<1:05:18,  3.87s/it][A
+ 35%|███▍      | 538/1549 [39:31<1:01:58,  3.68s/it][A
+ 35%|███▍      | 539/1549 [39:34<55:29,  3.30s/it]  [A
+ 35%|███▍      | 540/1549 [39:37<55:43,  3.31s/it][A
+ 35%|███▍      | 541/1549 [39:44<1:14:39,  4.44s/it][A
+ 35%|███▍      | 542/1549 [39:47<1:08:15,  4.07s/it][A
+ 35%|███▌      | 543/1549 [39:51<1:04:45,  3.86s/it][A
+ 35%|███▌      | 544/1549 [39:57<1:18:32,  4.69s/it][A
+ 35%|███▌      | 545/1549 [40:01<1:14:13,  4.44s/it][A
+ 35%|███▌      | 546/1549 [40:04<1:04:36,  3.87s/it][A
+ 35%|███▌      | 547/1549 [40:07<1:01:00,  3.65s/it][A
+ 35%|███▌      | 548/1549 [40:10<56:48,  3.40s/it]  [A
+ 35%|███▌      | 549/1549 [40:13<55:36,  3.34s/it][A
+ 36%|███▌      | 550/1549 [40:18<1:02:06,  3.73s/it][A
+ 36%|███▌      | 551/1549 [40:21<1:01:29,  3.70s/it][A
+ 36%|███▌      | 552/1549 [40:24<58:01,  3.49s/it]  [A
+ 36%|███▌      | 553/1549 [40:28<59:36,  3.59s/it][A
+ 36%|███▌      | 554/1549 [40:30<53:35,  3.23s/it][A
+ 36%|███▌      | 555/1549 [40:37<1:08:10,  4.12s/it][A
+ 36%|███▌      | 556/1549 [40:41<1:07:41,  4.09s/it][A
+ 36%|███▌      | 557/1549 [40:43<56:58,  3.45s/it]  [A
+ 36%|███▌      | 558/1549 [40:47<1:01:28,  3.72s/it][A
+ 36%|███▌      | 559/1549 [40:50<56:19,  3.41s/it]  [A
+ 36%|███▌      | 560/1549 [40:54<1:02:55,  3.82s/it][A
+ 36%|███▌      | 561/1549 [40:59<1:06:12,  4.02s/it][A
+ 36%|███▋      | 562/1549 [41:03<1:04:50,  3.94s/it][A
+ 36%|███▋      | 563/1549 [41:06<1:01:27,  3.74s/it][A
+ 36%|███▋      | 564/1549 [41:08<55:00,  3.35s/it]  [A
+ 36%|███▋      | 565/1549 [41:14<1:06:51,  4.08s/it][A
+ 37%|███▋      | 566/1549 [41:18<1:04:05,  3.91s/it][A
+ 37%|███▋      | 567/1549 [41:21<1:00:34,  3.70s/it][A
+ 37%|███▋      | 568/1549 [41:24<57:34,  3.52s/it]  [A
+ 37%|███▋      | 569/1549 [41:26<51:59,  3.18s/it][A
+ 37%|███▋      | 570/1549 [41:31<56:43,  3.48s/it][A
+ 37%|███▋      | 571/1549 [41:35<1:00:28,  3.71s/it][A
+ 37%|███▋      | 572/1549 [41:40<1:07:39,  4.16s/it][A
+ 37%|███▋      | 573/1549 [41:44<1:06:01,  4.06s/it][A
+ 37%|███▋      | 574/1549 [41:50<1:14:36,  4.59s/it][A
+ 37%|███▋      | 575/1549 [41:53<1:09:58,  4.31s/it][A
+ 37%|███▋      | 576/1549 [41:56<1:03:54,  3.94s/it][A
+ 37%|███▋      | 577/1549 [41:59<56:40,  3.50s/it]  [A
+ 37%|███▋      | 578/1549 [42:03<59:59,  3.71s/it][A
+ 37%|███▋      | 579/1549 [42:05<53:06,  3.28s/it][A
+ 37%|███▋      | 580/1549 [42:09<53:54,  3.34s/it][A
+ 38%|███▊      | 581/1549 [42:12<53:12,  3.30s/it][A
+ 38%|███▊      | 582/1549 [42:17<59:14,  3.68s/it][A
+ 38%|███▊      | 583/1549 [42:19<54:43,  3.40s/it][A
+ 38%|███▊      | 584/1549 [42:25<1:06:02,  4.11s/it][A
+ 38%|███▊      | 585/1549 [42:29<1:03:56,  3.98s/it][A
+ 38%|███▊      | 586/1549 [42:33<1:04:28,  4.02s/it][A
+ 38%|███▊      | 587/1549 [42:35<54:16,  3.39s/it]  [A
+ 38%|███▊      | 588/1549 [42:40<1:01:22,  3.83s/it][A
+ 38%|███▊      | 589/1549 [42:43<57:42,  3.61s/it]  [A
+ 38%|███▊      | 590/1549 [42:46<56:04,  3.51s/it][A
+ 38%|███▊      | 591/1549 [42:50<58:44,  3.68s/it][A
+ 38%|███▊      | 592/1549 [42:54<1:01:26,  3.85s/it][A
+ 38%|███▊      | 593/1549 [43:00<1:10:07,  4.40s/it][A
+ 38%|███▊      | 594/1549 [43:05<1:12:04,  4.53s/it][A
+ 38%|███▊      | 595/1549 [43:08<1:03:02,  3.97s/it][A
+ 38%|███▊      | 596/1549 [43:11<1:00:37,  3.82s/it][A
+ 39%|███▊      | 597/1549 [43:16<1:06:59,  4.22s/it][A
+ 39%|███▊      | 598/1549 [43:18<57:46,  3.65s/it]  [A
+ 39%|███▊      | 599/1549 [43:22<57:26,  3.63s/it][A
+ 39%|███▊      | 600/1549 [43:26<1:00:56,  3.85s/it][A
+ 39%|███▉      | 601/1549 [43:29<55:22,  3.51s/it]  [A
+ 39%|███▉      | 602/1549 [43:31<48:16,  3.06s/it][A
+ 39%|███▉      | 603/1549 [43:35<52:42,  3.34s/it][A
+ 39%|███▉      | 604/1549 [43:39<57:16,  3.64s/it][A
+ 39%|███▉      | 605/1549 [43:41<49:18,  3.13s/it][A
+ 39%|███▉      | 606/1549 [43:45<49:38,  3.16s/it][A
+ 39%|███▉      | 607/1549 [43:49<57:21,  3.65s/it][A
+ 39%|███▉      | 608/1549 [43:54<1:01:18,  3.91s/it][A
+ 39%|███▉      | 609/1549 [43:58<59:41,  3.81s/it]  [A
+ 39%|███▉      | 610/1549 [44:01<55:58,  3.58s/it][A
+ 39%|███▉      | 611/1549 [44:02<47:38,  3.05s/it][A
+ 40%|███▉      | 612/1549 [44:09<1:06:00,  4.23s/it][A
+ 40%|███▉      | 613/1549 [44:13<1:01:08,  3.92s/it][A
+ 40%|███▉      | 614/1549 [44:17<1:05:08,  4.18s/it][A
+ 40%|███▉      | 615/1549 [44:20<57:27,  3.69s/it]  [A
+ 40%|███▉      | 616/1549 [44:26<1:09:05,  4.44s/it][A
+ 40%|███▉      | 617/1549 [44:28<58:57,  3.80s/it]  [A
+ 40%|███▉      | 618/1549 [44:32<56:05,  3.61s/it][A
+ 40%|███▉      | 619/1549 [44:38<1:10:18,  4.54s/it][A
+ 40%|████      | 620/1549 [44:40<57:36,  3.72s/it]  [A
+ 40%|████      | 621/1549 [44:43<53:01,  3.43s/it][A
+ 40%|████      | 622/1549 [44:47<56:11,  3.64s/it][A
+ 40%|████      | 623/1549 [44:51<56:19,  3.65s/it][A
+ 40%|████      | 624/1549 [44:54<54:10,  3.51s/it][A
+ 40%|████      | 625/1549 [45:00<1:06:23,  4.31s/it][A
+ 40%|████      | 626/1549 [45:04<1:03:00,  4.10s/it][A
+ 40%|████      | 627/1549 [45:08<1:03:27,  4.13s/it][A
+ 41%|████      | 628/1549 [45:10<53:55,  3.51s/it]  [A
+ 41%|████      | 629/1549 [45:13<53:16,  3.47s/it][A
+ 41%|████      | 630/1549 [45:15<46:28,  3.03s/it][A
+ 41%|████      | 631/1549 [45:19<47:54,  3.13s/it][A
+ 41%|████      | 632/1549 [45:22<49:31,  3.24s/it][A
+ 41%|████      | 633/1549 [45:25<49:41,  3.25s/it][A
+ 41%|████      | 634/1549 [45:32<1:02:30,  4.10s/it][A
+ 41%|████      | 635/1549 [45:35<1:01:23,  4.03s/it][A
+ 41%|████      | 636/1549 [45:38<53:25,  3.51s/it]  [A
+ 41%|████      | 637/1549 [45:43<59:42,  3.93s/it][A
+ 41%|████      | 638/1549 [45:49<1:08:51,  4.54s/it][A
+ 41%|████▏     | 639/1549 [45:51<59:01,  3.89s/it]  [A
+ 41%|████▏     | 640/1549 [45:55<1:00:27,  3.99s/it][A
+ 41%|████▏     | 641/1549 [45:58<54:27,  3.60s/it]  [A
+ 41%|████▏     | 642/1549 [46:02<56:24,  3.73s/it][A
+ 42%|████▏     | 643/1549 [46:08<1:05:15,  4.32s/it][A
+ 42%|████▏     | 644/1549 [46:10<57:14,  3.80s/it]  [A
+ 42%|████▏     | 645/1549 [46:14<58:26,  3.88s/it][A
+ 42%|████▏     | 646/1549 [46:19<1:01:22,  4.08s/it][A
+ 42%|████▏     | 647/1549 [46:22<56:01,  3.73s/it]  [A
+ 42%|████▏     | 648/1549 [46:26<1:00:00,  4.00s/it][A
+ 42%|████▏     | 649/1549 [46:29<55:07,  3.67s/it]  [A
+ 42%|████▏     | 650/1549 [46:32<51:18,  3.42s/it][A
+ 42%|████▏     | 651/1549 [46:35<49:43,  3.32s/it][A
+ 42%|████▏     | 652/1549 [46:39<52:29,  3.51s/it][A
+ 42%|████▏     | 653/1549 [46:42<49:08,  3.29s/it][A
+ 42%|████▏     | 654/1549 [46:47<56:09,  3.77s/it][A
+ 42%|████▏     | 655/1549 [46:52<1:01:57,  4.16s/it][A
+ 42%|████▏     | 656/1549 [46:57<1:05:17,  4.39s/it][A
+ 42%|████▏     | 657/1549 [46:59<56:39,  3.81s/it]  [A
+ 42%|████▏     | 658/1549 [47:02<52:25,  3.53s/it][A
+ 43%|████▎     | 659/1549 [47:07<58:56,  3.97s/it][A
+ 43%|████▎     | 660/1549 [47:10<53:16,  3.60s/it][A
+ 43%|████▎     | 661/1549 [47:12<47:49,  3.23s/it][A
+ 43%|████▎     | 662/1549 [47:18<59:33,  4.03s/it][A
+ 43%|████▎     | 663/1549 [47:21<54:39,  3.70s/it][A
+ 43%|████▎     | 664/1549 [47:26<1:01:41,  4.18s/it][A
+ 43%|████▎     | 665/1549 [47:29<56:00,  3.80s/it]  [A
+ 43%|████▎     | 666/1549 [47:34<59:18,  4.03s/it][A
+ 43%|████▎     | 667/1549 [47:37<53:40,  3.65s/it][A
+ 43%|████▎     | 668/1549 [47:39<47:03,  3.21s/it][A
+ 43%|████▎     | 669/1549 [47:42<46:52,  3.20s/it][A
+ 43%|████▎     | 670/1549 [47:47<57:23,  3.92s/it][A
+ 43%|████▎     | 671/1549 [47:50<49:31,  3.38s/it][A
+ 43%|████▎     | 672/1549 [47:57<1:08:20,  4.68s/it][A
+ 43%|████▎     | 673/1549 [48:01<1:05:17,  4.47s/it][A
+ 44%|████▎     | 674/1549 [48:04<57:17,  3.93s/it]  [A
+ 44%|████▎     | 675/1549 [48:07<54:09,  3.72s/it][A
+ 44%|████▎     | 676/1549 [48:11<53:20,  3.67s/it][A
+ 44%|████▎     | 677/1549 [48:14<53:19,  3.67s/it][A
+ 44%|████▍     | 678/1549 [48:17<48:35,  3.35s/it][A
+ 44%|████▍     | 679/1549 [48:20<46:53,  3.23s/it][A
+ 44%|████▍     | 680/1549 [48:23<47:01,  3.25s/it][A
+ 44%|████▍     | 681/1549 [48:27<47:56,  3.31s/it][A
+ 44%|████▍     | 682/1549 [48:30<49:16,  3.41s/it][A
+ 44%|████▍     | 683/1549 [48:33<46:08,  3.20s/it][A
+ 44%|████▍     | 684/1549 [48:36<46:02,  3.19s/it][A
+ 44%|████▍     | 685/1549 [48:40<47:46,  3.32s/it][A
+ 44%|████▍     | 686/1549 [48:44<51:33,  3.59s/it][A
+ 44%|████▍     | 687/1549 [48:48<52:58,  3.69s/it][A
+ 44%|████▍     | 688/1549 [48:51<49:15,  3.43s/it][A
+ 44%|████▍     | 689/1549 [48:58<1:03:57,  4.46s/it][A
+ 45%|████▍     | 690/1549 [49:01<57:44,  4.03s/it]  [A
+ 45%|████▍     | 691/1549 [49:04<56:19,  3.94s/it][A
+ 45%|████▍     | 692/1549 [49:07<49:11,  3.44s/it][A
+ 45%|████▍     | 693/1549 [49:09<45:22,  3.18s/it][A
+ 45%|████▍     | 694/1549 [49:13<48:32,  3.41s/it][A
+ 45%|████▍     | 695/1549 [49:17<50:43,  3.56s/it][A
+ 45%|████▍     | 696/1549 [49:21<52:21,  3.68s/it][A
+ 45%|████▍     | 697/1549 [49:23<46:25,  3.27s/it][A
+ 45%|████▌     | 698/1549 [49:27<49:30,  3.49s/it][A
+ 45%|████▌     | 699/1549 [49:31<49:47,  3.51s/it][A
+ 45%|████▌     | 700/1549 [49:33<45:10,  3.19s/it][A
+ 45%|████▌     | 701/1549 [49:37<45:33,  3.22s/it][A
+ 45%|████▌     | 702/1549 [49:41<48:46,  3.45s/it][A
+ 45%|████▌     | 703/1549 [49:45<52:01,  3.69s/it][A
+ 45%|████▌     | 704/1549 [49:47<45:06,  3.20s/it][A
+ 46%|████▌     | 705/1549 [49:51<48:11,  3.43s/it][A
+ 46%|████▌     | 706/1549 [49:53<43:59,  3.13s/it][A
+ 46%|████▌     | 707/1549 [49:57<47:33,  3.39s/it][A
+ 46%|████▌     | 708/1549 [50:00<45:23,  3.24s/it][A
+ 46%|████▌     | 709/1549 [50:04<48:33,  3.47s/it][A
+ 46%|████▌     | 710/1549 [50:08<47:46,  3.42s/it][A
+ 46%|████▌     | 711/1549 [50:11<49:38,  3.55s/it][A
+ 46%|████▌     | 712/1549 [50:15<48:38,  3.49s/it][A
+ 46%|████▌     | 713/1549 [50:22<1:03:04,  4.53s/it][A
+ 46%|████▌     | 714/1549 [50:24<54:53,  3.94s/it]  [A
+ 46%|████▌     | 715/1549 [50:28<52:44,  3.79s/it][A
+ 46%|████▌     | 716/1549 [50:30<47:50,  3.45s/it][A
+ 46%|████▋     | 717/1549 [50:34<49:51,  3.60s/it][A
+ 46%|████▋     | 718/1549 [50:37<45:40,  3.30s/it][A
+ 46%|████▋     | 719/1549 [50:41<50:35,  3.66s/it][A
+ 46%|████▋     | 720/1549 [50:45<49:32,  3.59s/it][A
+ 47%|████▋     | 721/1549 [50:48<46:25,  3.36s/it][A
+ 47%|████▋     | 722/1549 [50:52<50:19,  3.65s/it][A
+ 47%|████▋     | 723/1549 [50:57<54:19,  3.95s/it][A
+ 47%|████▋     | 724/1549 [51:00<53:13,  3.87s/it][A
+ 47%|████▋     | 725/1549 [51:06<58:17,  4.24s/it][A
+ 47%|████▋     | 726/1549 [51:09<53:54,  3.93s/it][A
+ 47%|████▋     | 727/1549 [51:13<53:51,  3.93s/it][A
+ 47%|████▋     | 728/1549 [51:16<52:38,  3.85s/it][A
+ 47%|████▋     | 729/1549 [51:19<49:38,  3.63s/it][A
+ 47%|████▋     | 730/1549 [51:22<45:05,  3.30s/it][A
+ 47%|████▋     | 731/1549 [51:26<47:32,  3.49s/it][A
+ 47%|████▋     | 732/1549 [51:30<48:31,  3.56s/it][A
+ 47%|████▋     | 733/1549 [51:33<46:03,  3.39s/it][A
+ 47%|████▋     | 734/1549 [51:36<45:00,  3.31s/it][A
+ 47%|████▋     | 735/1549 [51:39<44:43,  3.30s/it][A
+ 48%|████▊     | 736/1549 [51:45<53:48,  3.97s/it][A
+ 48%|████▊     | 737/1549 [51:49<55:00,  4.06s/it][A
+ 48%|████▊     | 738/1549 [51:53<55:09,  4.08s/it][A
+ 48%|████▊     | 739/1549 [51:55<46:43,  3.46s/it][A
+ 48%|████▊     | 740/1549 [52:02<59:11,  4.39s/it][A
+ 48%|████▊     | 741/1549 [52:04<49:51,  3.70s/it][A
+ 48%|████▊     | 742/1549 [52:07<47:34,  3.54s/it][A
+ 48%|████▊     | 743/1549 [52:12<52:40,  3.92s/it][A
+ 48%|████▊     | 744/1549 [52:14<46:21,  3.46s/it][A
+ 48%|████▊     | 745/1549 [52:18<47:41,  3.56s/it][A
+ 48%|████▊     | 746/1549 [52:20<42:50,  3.20s/it][A
+ 48%|████▊     | 747/1549 [52:23<42:52,  3.21s/it][A
+ 48%|████▊     | 748/1549 [52:26<40:02,  3.00s/it][A
+ 48%|████▊     | 749/1549 [52:30<44:21,  3.33s/it][A
+ 48%|████▊     | 750/1549 [52:34<48:21,  3.63s/it][A
+ 48%|████▊     | 751/1549 [52:38<48:02,  3.61s/it][A
+ 49%|████▊     | 752/1549 [52:41<44:09,  3.32s/it][A
+ 49%|████▊     | 753/1549 [52:45<47:41,  3.59s/it][A
+ 49%|████▊     | 754/1549 [52:48<45:39,  3.45s/it][A
+ 49%|████▊     | 755/1549 [52:51<44:09,  3.34s/it][A
+ 49%|████▉     | 756/1549 [52:56<49:04,  3.71s/it][A
+ 49%|████▉     | 757/1549 [52:59<47:32,  3.60s/it][A
+ 49%|████▉     | 758/1549 [53:01<40:35,  3.08s/it][A
+ 49%|████▉     | 759/1549 [53:04<42:17,  3.21s/it][A
+ 49%|████▉     | 760/1549 [53:10<52:43,  4.01s/it][A
+ 49%|████▉     | 761/1549 [53:13<49:27,  3.77s/it][A
+ 49%|████▉     | 762/1549 [53:15<43:10,  3.29s/it][A
+ 49%|████▉     | 763/1549 [53:20<46:43,  3.57s/it][A
+ 49%|████▉     | 764/1549 [53:22<40:50,  3.12s/it][A
+ 49%|████▉     | 765/1549 [53:26<43:41,  3.34s/it][A
+ 49%|████▉     | 766/1549 [53:30<49:02,  3.76s/it][A
+ 50%|████▉     | 767/1549 [53:34<48:17,  3.71s/it][A
+ 50%|████▉     | 768/1549 [53:36<40:41,  3.13s/it][A
+ 50%|████▉     | 769/1549 [53:40<46:17,  3.56s/it][A
+ 50%|████▉     | 770/1549 [53:46<53:47,  4.14s/it][A
+ 50%|████▉     | 771/1549 [53:48<46:29,  3.59s/it][A
+ 50%|████▉     | 772/1549 [53:51<42:54,  3.31s/it][A
+ 50%|████▉     | 773/1549 [53:55<45:01,  3.48s/it][A
+ 50%|████▉     | 774/1549 [53:57<41:40,  3.23s/it][A
+ 50%|█████     | 775/1549 [54:02<48:23,  3.75s/it][A
+ 50%|█████     | 776/1549 [54:06<50:06,  3.89s/it][A
+ 50%|█████     | 777/1549 [54:09<44:55,  3.49s/it][A
+ 50%|█████     | 778/1549 [54:13<46:02,  3.58s/it][A
+ 50%|█████     | 779/1549 [54:16<43:46,  3.41s/it][A
+ 50%|█████     | 780/1549 [54:19<43:20,  3.38s/it][A
+ 50%|█████     | 781/1549 [54:23<43:58,  3.44s/it][A
+ 50%|█████     | 782/1549 [54:27<46:36,  3.65s/it][A
+ 51%|█████     | 783/1549 [54:30<43:23,  3.40s/it][A
+ 51%|█████     | 784/1549 [54:32<37:59,  2.98s/it][A
+ 51%|█████     | 785/1549 [54:37<47:02,  3.69s/it][A
+ 51%|█████     | 786/1549 [54:40<42:32,  3.35s/it][A
+ 51%|█████     | 787/1549 [54:42<39:55,  3.14s/it][A
+ 51%|█████     | 788/1549 [54:45<38:09,  3.01s/it][A
+ 51%|█████     | 789/1549 [54:48<37:32,  2.96s/it][A
+ 51%|█████     | 790/1549 [54:52<41:38,  3.29s/it][A
+ 51%|█████     | 791/1549 [54:55<41:37,  3.30s/it][A
+ 51%|█████     | 792/1549 [54:59<42:11,  3.34s/it][A
+ 51%|█████     | 793/1549 [55:02<40:31,  3.22s/it][A
+ 51%|█████▏    | 794/1549 [55:07<49:46,  3.96s/it][A
+ 51%|█████▏    | 795/1549 [55:10<43:49,  3.49s/it][A
+ 51%|█████▏    | 796/1549 [55:13<43:22,  3.46s/it][A
+ 51%|█████▏    | 797/1549 [55:16<40:25,  3.23s/it][A
+ 52%|█████▏    | 798/1549 [55:21<47:35,  3.80s/it][A
+ 52%|█████▏    | 799/1549 [55:22<39:38,  3.17s/it][A
+ 52%|█████▏    | 800/1549 [55:27<43:04,  3.45s/it][A
+ 52%|█████▏    | 801/1549 [55:29<38:06,  3.06s/it][A
+ 52%|█████▏    | 802/1549 [55:32<40:37,  3.26s/it][A
+ 52%|█████▏    | 803/1549 [55:35<36:58,  2.97s/it][A
+ 52%|█████▏    | 804/1549 [55:38<36:40,  2.95s/it][A
+ 52%|█████▏    | 805/1549 [55:40<35:27,  2.86s/it][A
+ 52%|█████▏    | 806/1549 [55:45<42:55,  3.47s/it][A
+ 52%|█████▏    | 807/1549 [55:48<39:10,  3.17s/it][A
+ 52%|█████▏    | 808/1549 [55:51<41:13,  3.34s/it][A
+ 52%|█████▏    | 809/1549 [55:55<41:19,  3.35s/it][A
+ 52%|█████▏    | 810/1549 [55:59<42:52,  3.48s/it][A
+ 52%|█████▏    | 811/1549 [56:01<37:26,  3.04s/it][A
+ 52%|█████▏    | 812/1549 [56:04<39:43,  3.23s/it][A
+ 52%|█████▏    | 813/1549 [56:06<35:08,  2.86s/it][A
+ 53%|█████▎    | 814/1549 [56:10<38:58,  3.18s/it][A
+ 53%|█████▎    | 815/1549 [56:13<36:38,  2.99s/it][A
+ 53%|█████▎    | 816/1549 [56:17<40:49,  3.34s/it][A
+ 53%|█████▎    | 817/1549 [56:20<38:49,  3.18s/it][A
+ 53%|█████▎    | 818/1549 [56:23<40:43,  3.34s/it][A
+ 53%|█████▎    | 819/1549 [56:27<41:48,  3.44s/it][A
+ 53%|█████▎    | 820/1549 [56:30<40:48,  3.36s/it][A
+ 53%|█████▎    | 821/1549 [56:34<42:05,  3.47s/it][A
+ 53%|█████▎    | 822/1549 [56:37<41:29,  3.42s/it][A
+ 53%|█████▎    | 823/1549 [56:40<39:00,  3.22s/it][A
+ 53%|█████▎    | 824/1549 [56:43<37:28,  3.10s/it][A
+ 53%|█████▎    | 825/1549 [56:47<42:08,  3.49s/it][A
+ 53%|█████▎    | 826/1549 [56:52<46:50,  3.89s/it][A
+ 53%|█████▎    | 827/1549 [56:54<39:19,  3.27s/it][A
+ 53%|█████▎    | 828/1549 [56:59<46:38,  3.88s/it][A
+ 54%|█████▎    | 829/1549 [57:02<43:55,  3.66s/it][A
+ 54%|█████▎    | 830/1549 [57:05<39:55,  3.33s/it][A
+ 54%|█████▎    | 831/1549 [57:10<46:47,  3.91s/it][A
+ 54%|█████▎    | 832/1549 [57:14<45:16,  3.79s/it][A
+ 54%|█████▍    | 833/1549 [57:17<43:53,  3.68s/it][A
+ 54%|█████▍    | 834/1549 [57:22<46:37,  3.91s/it][A
+ 54%|█████▍    | 835/1549 [57:24<40:17,  3.39s/it][A
+ 54%|█████▍    | 836/1549 [57:28<41:29,  3.49s/it][A
+ 54%|█████▍    | 837/1549 [57:31<40:03,  3.38s/it][A
+ 54%|█████▍    | 838/1549 [57:34<41:31,  3.50s/it][A
+ 54%|█████▍    | 839/1549 [57:38<41:35,  3.51s/it][A
+ 54%|█████▍    | 840/1549 [57:43<47:36,  4.03s/it][A
+ 54%|█████▍    | 841/1549 [57:45<40:19,  3.42s/it][A
+ 54%|█████▍    | 842/1549 [57:50<44:54,  3.81s/it][A
+ 54%|█████▍    | 843/1549 [57:52<39:47,  3.38s/it][A
+ 54%|█████▍    | 844/1549 [57:55<36:28,  3.10s/it][A
+ 55%|█████▍    | 845/1549 [57:58<38:25,  3.27s/it][A
+ 55%|█████▍    | 846/1549 [58:01<34:21,  2.93s/it][A
+ 55%|█████▍    | 847/1549 [58:05<39:19,  3.36s/it][A
+ 55%|█████▍    | 848/1549 [58:07<35:48,  3.07s/it][A
+ 55%|█████▍    | 849/1549 [58:10<35:55,  3.08s/it][A
+ 55%|█████▍    | 850/1549 [58:13<35:24,  3.04s/it][A
+ 55%|█████▍    | 851/1549 [58:17<36:10,  3.11s/it][A
+ 55%|█████▌    | 852/1549 [58:20<38:44,  3.34s/it][A
+ 55%|█████▌    | 853/1549 [58:23<35:00,  3.02s/it][A
+ 55%|█████▌    | 854/1549 [58:25<31:48,  2.75s/it][A
+ 55%|█████▌    | 855/1549 [58:28<33:11,  2.87s/it][A
+ 55%|█████▌    | 856/1549 [58:32<36:40,  3.18s/it][A
+ 55%|█████▌    | 857/1549 [58:35<36:22,  3.15s/it][A
+ 55%|█████▌    | 858/1549 [58:40<42:30,  3.69s/it][A
+ 55%|█████▌    | 859/1549 [58:43<38:32,  3.35s/it][A
+ 56%|█████▌    | 860/1549 [58:45<35:05,  3.06s/it][A
+ 56%|█████▌    | 861/1549 [58:50<42:24,  3.70s/it][A
+ 56%|█████▌    | 862/1549 [58:52<37:24,  3.27s/it][A
+ 56%|█████▌    | 863/1549 [58:55<35:01,  3.06s/it][A
+ 56%|█████▌    | 864/1549 [58:58<34:20,  3.01s/it][A
+ 56%|█████▌    | 865/1549 [59:01<34:24,  3.02s/it][A
+ 56%|█████▌    | 866/1549 [59:05<37:11,  3.27s/it][A
+ 56%|█████▌    | 867/1549 [59:08<38:35,  3.39s/it][A
+ 56%|█████▌    | 868/1549 [59:10<33:48,  2.98s/it][A
+ 56%|█████▌    | 869/1549 [59:14<34:59,  3.09s/it][A
+ 56%|█████▌    | 870/1549 [59:16<33:33,  2.97s/it][A
+ 56%|█████▌    | 871/1549 [59:21<40:20,  3.57s/it][A
+ 56%|█████▋    | 872/1549 [59:24<36:04,  3.20s/it][A
+ 56%|█████▋    | 873/1549 [59:27<36:56,  3.28s/it][A
+ 56%|█████▋    | 874/1549 [59:29<33:29,  2.98s/it][A
+ 56%|█████▋    | 875/1549 [59:32<31:09,  2.77s/it][A
+ 57%|█████▋    | 876/1549 [59:35<32:06,  2.86s/it][A
+ 57%|█████▋    | 877/1549 [59:37<30:20,  2.71s/it][A
+ 57%|█████▋    | 878/1549 [59:41<35:29,  3.17s/it][A
+ 57%|█████▋    | 879/1549 [59:43<31:38,  2.83s/it][A
+ 57%|█████▋    | 880/1549 [59:47<33:08,  2.97s/it][A
+ 57%|█████▋    | 881/1549 [59:51<36:33,  3.28s/it][A
+ 57%|█████▋    | 882/1549 [59:53<32:55,  2.96s/it][A
+ 57%|█████▋    | 883/1549 [59:56<32:13,  2.90s/it][A
+ 57%|█████▋    | 884/1549 [59:58<30:20,  2.74s/it][A
+ 57%|█████▋    | 885/1549 [1:00:02<33:06,  2.99s/it][A
+ 57%|█████▋    | 886/1549 [1:00:04<30:28,  2.76s/it][A
+ 57%|█████▋    | 887/1549 [1:00:09<36:34,  3.31s/it][A
+ 57%|█████▋    | 888/1549 [1:00:12<36:45,  3.34s/it][A
+ 57%|█████▋    | 889/1549 [1:00:17<42:20,  3.85s/it][A
+ 57%|█████▋    | 890/1549 [1:00:20<41:11,  3.75s/it][A
+ 58%|█████▊    | 891/1549 [1:00:23<37:47,  3.45s/it][A
+ 58%|█████▊    | 892/1549 [1:00:25<33:19,  3.04s/it][A
+ 58%|█████▊    | 893/1549 [1:00:29<35:36,  3.26s/it][A
+ 58%|█████▊    | 894/1549 [1:00:32<34:58,  3.20s/it][A
+ 58%|█████▊    | 895/1549 [1:00:37<39:11,  3.60s/it][A
+ 58%|█████▊    | 896/1549 [1:00:41<41:30,  3.81s/it][A
+ 58%|█████▊    | 897/1549 [1:00:45<43:36,  4.01s/it][A
+ 58%|█████▊    | 898/1549 [1:00:49<40:21,  3.72s/it][A
+ 58%|█████▊    | 899/1549 [1:00:51<37:02,  3.42s/it][A
+ 58%|█████▊    | 900/1549 [1:00:54<33:20,  3.08s/it][A
+ 58%|█████▊    | 901/1549 [1:00:58<38:43,  3.59s/it][A
+ 58%|█████▊    | 902/1549 [1:01:01<36:55,  3.42s/it][A
+ 58%|█████▊    | 903/1549 [1:01:05<36:36,  3.40s/it][A
+ 58%|█████▊    | 904/1549 [1:01:08<37:43,  3.51s/it][A
+ 58%|█████▊    | 905/1549 [1:01:12<36:25,  3.39s/it][A
+ 58%|█████▊    | 906/1549 [1:01:14<31:54,  2.98s/it][A
+ 59%|█████▊    | 907/1549 [1:01:18<37:44,  3.53s/it][A
+ 59%|█████▊    | 908/1549 [1:01:21<33:36,  3.15s/it][A
+ 59%|█████▊    | 909/1549 [1:01:24<32:59,  3.09s/it][A
+ 59%|█████▊    | 910/1549 [1:01:28<35:55,  3.37s/it][A
+ 59%|█████▉    | 911/1549 [1:01:32<37:35,  3.54s/it][A
+ 59%|█████▉    | 912/1549 [1:01:34<33:04,  3.12s/it][A
+ 59%|█████▉    | 913/1549 [1:01:36<31:40,  2.99s/it][A
+ 59%|█████▉    | 914/1549 [1:01:39<29:23,  2.78s/it][A
+ 59%|█████▉    | 915/1549 [1:01:42<30:04,  2.85s/it][A
+ 59%|█████▉    | 916/1549 [1:01:46<35:12,  3.34s/it][A
+ 59%|█████▉    | 917/1549 [1:01:48<31:31,  2.99s/it][A
+ 59%|█████▉    | 918/1549 [1:01:52<32:46,  3.12s/it][A
+ 59%|█████▉    | 919/1549 [1:01:56<35:32,  3.38s/it][A
+ 59%|█████▉    | 920/1549 [1:01:58<32:34,  3.11s/it][A
+ 59%|█████▉    | 921/1549 [1:02:01<32:13,  3.08s/it][A
+ 60%|█████▉    | 922/1549 [1:02:05<33:24,  3.20s/it][A
+ 60%|█████▉    | 923/1549 [1:02:07<29:57,  2.87s/it][A
+ 60%|█████▉    | 924/1549 [1:02:10<31:13,  3.00s/it][A
+ 60%|█████▉    | 925/1549 [1:02:14<32:51,  3.16s/it][A
+ 60%|█████▉    | 926/1549 [1:02:17<33:56,  3.27s/it][A
+ 60%|█████▉    | 927/1549 [1:02:20<31:32,  3.04s/it][A
+ 60%|█████▉    | 928/1549 [1:02:24<36:47,  3.56s/it][A
+ 60%|█████▉    | 929/1549 [1:02:27<32:27,  3.14s/it][A
+ 60%|██████    | 930/1549 [1:02:30<32:55,  3.19s/it][A
+ 60%|██████    | 931/1549 [1:02:32<29:05,  2.82s/it][A
+ 60%|██████    | 932/1549 [1:02:36<31:52,  3.10s/it][A
+ 60%|██████    | 933/1549 [1:02:39<33:52,  3.30s/it][A
+ 60%|██████    | 934/1549 [1:02:43<35:50,  3.50s/it][A
+ 60%|██████    | 935/1549 [1:02:46<32:34,  3.18s/it][A
+ 60%|██████    | 936/1549 [1:02:48<30:18,  2.97s/it][A
+ 60%|██████    | 937/1549 [1:02:52<32:29,  3.18s/it][A
+ 61%|██████    | 938/1549 [1:02:54<28:13,  2.77s/it][A
+ 61%|██████    | 939/1549 [1:02:57<30:48,  3.03s/it][A
+ 61%|██████    | 940/1549 [1:02:59<27:37,  2.72s/it][A
+ 61%|██████    | 941/1549 [1:03:04<32:41,  3.23s/it][A
+ 61%|██████    | 942/1549 [1:03:08<35:52,  3.55s/it][A
+ 61%|██████    | 943/1549 [1:03:10<31:05,  3.08s/it][A
+ 61%|██████    | 944/1549 [1:03:13<29:13,  2.90s/it][A
+ 61%|██████    | 945/1549 [1:03:19<40:49,  4.05s/it][A
+ 61%|██████    | 946/1549 [1:03:22<36:06,  3.59s/it][A
+ 61%|██████    | 947/1549 [1:03:24<31:58,  3.19s/it][A
+ 61%|██████    | 948/1549 [1:03:29<36:47,  3.67s/it][A
+ 61%|██████▏   | 949/1549 [1:03:32<33:59,  3.40s/it][A
+ 61%|██████▏   | 950/1549 [1:03:34<31:30,  3.16s/it][A
+ 61%|██████▏   | 951/1549 [1:03:38<32:27,  3.26s/it][A
+ 61%|██████▏   | 952/1549 [1:03:41<33:15,  3.34s/it][A
+ 62%|██████▏   | 953/1549 [1:03:46<36:41,  3.69s/it][A
+ 62%|██████▏   | 954/1549 [1:03:48<32:19,  3.26s/it][A
+ 62%|██████▏   | 955/1549 [1:03:51<32:39,  3.30s/it][A
+ 62%|██████▏   | 956/1549 [1:03:55<34:06,  3.45s/it][A
+ 62%|██████▏   | 957/1549 [1:03:58<32:52,  3.33s/it][A
+ 62%|██████▏   | 958/1549 [1:04:04<39:41,  4.03s/it][A
+ 62%|██████▏   | 959/1549 [1:04:06<33:23,  3.40s/it][A
+ 62%|██████▏   | 960/1549 [1:04:09<32:16,  3.29s/it][A
+ 62%|██████▏   | 961/1549 [1:04:11<28:04,  2.86s/it][A
+ 62%|██████▏   | 962/1549 [1:04:15<31:26,  3.21s/it][A
+ 62%|██████▏   | 963/1549 [1:04:18<30:02,  3.08s/it][A
+ 62%|██████▏   | 964/1549 [1:04:21<29:51,  3.06s/it][A
+ 62%|██████▏   | 965/1549 [1:04:23<28:39,  2.94s/it][A
+ 62%|██████▏   | 966/1549 [1:04:25<26:03,  2.68s/it][A
+ 62%|██████▏   | 967/1549 [1:04:29<29:54,  3.08s/it][A
+ 62%|██████▏   | 968/1549 [1:04:33<31:21,  3.24s/it][A
+ 63%|██████▎   | 969/1549 [1:04:35<27:40,  2.86s/it][A
+ 63%|██████▎   | 970/1549 [1:04:38<27:46,  2.88s/it][A
+ 63%|██████▎   | 971/1549 [1:04:41<29:46,  3.09s/it][A
+ 63%|██████▎   | 972/1549 [1:04:45<29:48,  3.10s/it][A
+ 63%|██████▎   | 973/1549 [1:04:47<27:56,  2.91s/it][A
+ 63%|██████▎   | 974/1549 [1:04:50<28:00,  2.92s/it][A
+ 63%|██████▎   | 975/1549 [1:04:53<29:30,  3.09s/it][A
+ 63%|██████▎   | 976/1549 [1:04:57<30:57,  3.24s/it][A
+ 63%|██████▎   | 977/1549 [1:04:59<28:16,  2.97s/it][A
+ 63%|██████▎   | 978/1549 [1:05:03<28:49,  3.03s/it][A
+ 63%|██████▎   | 979/1549 [1:05:05<27:49,  2.93s/it][A
+ 63%|██████▎   | 980/1549 [1:05:10<34:06,  3.60s/it][A
+ 63%|██████▎   | 981/1549 [1:05:13<30:28,  3.22s/it][A
+ 63%|██████▎   | 982/1549 [1:05:17<32:45,  3.47s/it][A
+ 63%|██████▎   | 983/1549 [1:05:19<29:27,  3.12s/it][A
+ 64%|██████▎   | 984/1549 [1:05:22<28:40,  3.05s/it][A
+ 64%|██████▎   | 985/1549 [1:05:26<31:37,  3.36s/it][A
+ 64%|██████▎   | 986/1549 [1:05:28<27:08,  2.89s/it][A
+ 64%|██████▎   | 987/1549 [1:05:32<29:25,  3.14s/it][A
+ 64%|██████▍   | 988/1549 [1:05:35<31:32,  3.37s/it][A
+ 64%|██████▍   | 989/1549 [1:05:38<29:42,  3.18s/it][A
+ 64%|██████▍   | 990/1549 [1:05:41<29:49,  3.20s/it][A
+ 64%|██████▍   | 991/1549 [1:05:46<34:15,  3.68s/it][A
+ 64%|██████▍   | 992/1549 [1:05:49<31:15,  3.37s/it][A
+ 64%|██████▍   | 993/1549 [1:05:53<33:26,  3.61s/it][A
+ 64%|██████▍   | 994/1549 [1:05:55<29:56,  3.24s/it][A
+ 64%|██████▍   | 995/1549 [1:05:58<26:43,  2.89s/it][A
+ 64%|██████▍   | 996/1549 [1:06:01<29:33,  3.21s/it][A
+ 64%|██████▍   | 997/1549 [1:06:04<26:22,  2.87s/it][A
+ 64%|██████▍   | 998/1549 [1:06:08<31:12,  3.40s/it][A
+ 64%|██████▍   | 999/1549 [1:06:11<28:41,  3.13s/it][A
+ 65%|██████▍   | 1000/1549 [1:06:15<31:13,  3.41s/it][A
+ 65%|██████▍   | 1001/1549 [1:06:17<28:34,  3.13s/it][A
+ 65%|██████▍   | 1002/1549 [1:06:20<27:37,  3.03s/it][A
+ 65%|██████▍   | 1003/1549 [1:06:23<27:47,  3.05s/it][A
+ 65%|██████▍   | 1004/1549 [1:06:27<29:48,  3.28s/it][A
+ 65%|██████▍   | 1005/1549 [1:06:30<29:22,  3.24s/it][A
+ 65%|██████▍   | 1006/1549 [1:06:34<31:35,  3.49s/it][A
+ 65%|██████▌   | 1007/1549 [1:06:38<31:39,  3.50s/it][A
+ 65%|██████▌   | 1008/1549 [1:06:42<32:44,  3.63s/it][A
+ 65%|██████▌   | 1009/1549 [1:06:44<30:15,  3.36s/it][A
+ 65%|██████▌   | 1010/1549 [1:06:47<28:18,  3.15s/it][A
+ 65%|██████▌   | 1011/1549 [1:06:50<29:06,  3.25s/it][A
+ 65%|██████▌   | 1012/1549 [1:06:53<27:31,  3.08s/it][A
+ 65%|██████▌   | 1013/1549 [1:06:57<28:54,  3.24s/it][A
+ 65%|██████▌   | 1014/1549 [1:06:59<25:37,  2.87s/it][A
+ 66%|██████▌   | 1015/1549 [1:07:02<26:12,  2.94s/it][A
+ 66%|██████▌   | 1016/1549 [1:07:04<24:52,  2.80s/it][A
+ 66%|██████▌   | 1017/1549 [1:07:07<23:39,  2.67s/it][A
+ 66%|██████▌   | 1018/1549 [1:07:10<23:56,  2.70s/it][A
+ 66%|██████▌   | 1019/1549 [1:07:14<29:28,  3.34s/it][A
+ 66%|██████▌   | 1020/1549 [1:07:18<29:04,  3.30s/it][A
+ 66%|██████▌   | 1021/1549 [1:07:21<29:10,  3.31s/it][A
+ 66%|██████▌   | 1022/1549 [1:07:25<30:41,  3.49s/it][A
+ 66%|██████▌   | 1023/1549 [1:07:28<29:43,  3.39s/it][A
+ 66%|██████▌   | 1024/1549 [1:07:30<27:04,  3.09s/it][A
+ 66%|██████▌   | 1025/1549 [1:07:33<27:07,  3.11s/it][A
+ 66%|██████▌   | 1026/1549 [1:07:36<24:43,  2.84s/it][A
+ 66%|██████▋   | 1027/1549 [1:07:39<26:06,  3.00s/it][A
+ 66%|██████▋   | 1028/1549 [1:07:42<25:53,  2.98s/it][A
+ 66%|██████▋   | 1029/1549 [1:07:45<25:58,  3.00s/it][A
+ 66%|██████▋   | 1030/1549 [1:07:47<24:23,  2.82s/it][A
+ 67%|██████▋   | 1031/1549 [1:07:49<22:05,  2.56s/it][A
+ 67%|██████▋   | 1032/1549 [1:07:53<23:49,  2.76s/it][A
+ 67%|██████▋   | 1033/1549 [1:07:55<22:31,  2.62s/it][A
+ 67%|██████▋   | 1034/1549 [1:07:59<25:41,  2.99s/it][A
+ 67%|██████▋   | 1035/1549 [1:08:02<25:39,  2.99s/it][A
+ 67%|██████▋   | 1036/1549 [1:08:05<25:40,  3.00s/it][A
+ 67%|██████▋   | 1037/1549 [1:08:07<23:14,  2.72s/it][A
+ 67%|██████▋   | 1038/1549 [1:08:10<22:57,  2.70s/it][A
+ 67%|��█████▋   | 1039/1549 [1:08:15<30:52,  3.63s/it][A
+ 67%|██████▋   | 1040/1549 [1:08:18<29:30,  3.48s/it][A
+ 67%|██████▋   | 1041/1549 [1:08:22<29:26,  3.48s/it][A
+ 67%|██████▋   | 1042/1549 [1:08:25<28:27,  3.37s/it][A
+ 67%|██████▋   | 1043/1549 [1:08:28<26:35,  3.15s/it][A
+ 67%|██████▋   | 1044/1549 [1:08:32<28:18,  3.36s/it][A
+ 67%|██████▋   | 1045/1549 [1:08:34<26:42,  3.18s/it][A
+ 68%|██████▊   | 1046/1549 [1:08:36<23:14,  2.77s/it][A
+ 68%|██████▊   | 1047/1549 [1:08:40<26:05,  3.12s/it][A
+ 68%|██████▊   | 1048/1549 [1:08:44<28:17,  3.39s/it][A
+ 68%|██████▊   | 1049/1549 [1:08:46<24:45,  2.97s/it][A
+ 68%|██████▊   | 1050/1549 [1:08:49<24:34,  2.95s/it][A
+ 68%|██████▊   | 1051/1549 [1:08:53<27:43,  3.34s/it][A
+ 68%|██████▊   | 1052/1549 [1:08:56<25:08,  3.04s/it][A
+ 68%|██████▊   | 1053/1549 [1:08:58<24:08,  2.92s/it][A
+ 68%|██████▊   | 1054/1549 [1:09:00<22:18,  2.70s/it][A
+ 68%|██████▊   | 1055/1549 [1:09:04<24:51,  3.02s/it][A
+ 68%|██████▊   | 1056/1549 [1:09:07<24:26,  2.97s/it][A
+ 68%|██████▊   | 1057/1549 [1:09:10<23:36,  2.88s/it][A
+ 68%|██████▊   | 1058/1549 [1:09:13<23:50,  2.91s/it][A
+ 68%|██████▊   | 1059/1549 [1:09:15<21:43,  2.66s/it][A
+ 68%|██████▊   | 1060/1549 [1:09:18<23:37,  2.90s/it][A
+ 68%|██████▊   | 1061/1549 [1:09:20<21:49,  2.68s/it][A
+ 69%|██████▊   | 1062/1549 [1:09:24<22:56,  2.83s/it][A
+ 69%|██████▊   | 1063/1549 [1:09:27<25:10,  3.11s/it][A
+ 69%|██████▊   | 1064/1549 [1:09:29<22:07,  2.74s/it][A
+ 69%|██████▉   | 1065/1549 [1:09:31<20:57,  2.60s/it][A
+ 69%|██████▉   | 1066/1549 [1:09:34<20:50,  2.59s/it][A
+ 69%|██████▉   | 1067/1549 [1:09:37<22:41,  2.83s/it][A
+ 69%|██████▉   | 1068/1549 [1:09:41<24:49,  3.10s/it][A
+ 69%|██████▉   | 1069/1549 [1:09:43<21:39,  2.71s/it][A
+ 69%|██████▉   | 1070/1549 [1:09:46<22:08,  2.77s/it][A
+ 69%|██████▉   | 1071/1549 [1:09:49<23:58,  3.01s/it][A
+ 69%|██████▉   | 1072/1549 [1:09:52<22:28,  2.83s/it][A
+ 69%|██████▉   | 1073/1549 [1:09:54<21:49,  2.75s/it][A
+ 69%|██████▉   | 1074/1549 [1:09:57<22:24,  2.83s/it][A
+ 69%|██████▉   | 1075/1549 [1:10:01<24:23,  3.09s/it][A
+ 69%|██████▉   | 1076/1549 [1:10:04<23:41,  3.01s/it][A
+ 70%|██████▉   | 1077/1549 [1:10:06<22:36,  2.87s/it][A
+ 70%|██████▉   | 1078/1549 [1:10:10<23:34,  3.00s/it][A
+ 70%|██████▉   | 1079/1549 [1:10:13<23:30,  3.00s/it][A
+ 70%|██████▉   | 1080/1549 [1:10:15<22:06,  2.83s/it][A
+ 70%|██████▉   | 1081/1549 [1:10:18<21:52,  2.81s/it][A
+ 70%|██████▉   | 1082/1549 [1:10:20<19:17,  2.48s/it][A
+ 70%|██████▉   | 1083/1549 [1:10:23<20:40,  2.66s/it][A
+ 70%|██████▉   | 1084/1549 [1:10:26<22:44,  2.94s/it][A
+ 70%|███████   | 1085/1549 [1:10:29<21:28,  2.78s/it][A
+ 70%|███████   | 1086/1549 [1:10:32<23:23,  3.03s/it][A
+ 70%|███████   | 1087/1549 [1:10:34<20:30,  2.66s/it][A
+ 70%|███████   | 1088/1549 [1:10:38<22:06,  2.88s/it][A
+ 70%|███████   | 1089/1549 [1:10:40<21:30,  2.80s/it][A
+ 70%|███████   | 1090/1549 [1:10:44<23:46,  3.11s/it][A
+ 70%|███████   | 1091/1549 [1:10:46<20:56,  2.74s/it][A
+ 70%|███████   | 1092/1549 [1:10:49<21:05,  2.77s/it][A
+ 71%|███████   | 1093/1549 [1:10:53<23:31,  3.09s/it][A
+ 71%|███████   | 1094/1549 [1:10:54<20:20,  2.68s/it][A
+ 71%|███████   | 1095/1549 [1:10:57<19:38,  2.60s/it][A
+ 71%|███████   | 1096/1549 [1:11:00<20:15,  2.68s/it][A
+ 71%|███████   | 1097/1549 [1:11:02<20:41,  2.75s/it][A
+ 71%|███████   | 1098/1549 [1:11:05<19:02,  2.53s/it][A
+ 71%|███████   | 1099/1549 [1:11:08<21:01,  2.80s/it][A
+ 71%|███████   | 1100/1549 [1:11:12<24:45,  3.31s/it][A
+ 71%|███████   | 1101/1549 [1:11:14<21:24,  2.87s/it][A
+ 71%|███████   | 1102/1549 [1:11:18<22:52,  3.07s/it][A
+ 71%|███████   | 1103/1549 [1:11:21<22:41,  3.05s/it][A
+ 71%|███████▏  | 1104/1549 [1:11:23<21:37,  2.92s/it][A
+ 71%|███████▏  | 1105/1549 [1:11:26<20:32,  2.78s/it][A
+ 71%|███████▏  | 1106/1549 [1:11:30<22:27,  3.04s/it][A
+ 71%|███████▏  | 1107/1549 [1:11:32<21:54,  2.97s/it][A
+ 72%|███████▏  | 1108/1549 [1:11:35<20:53,  2.84s/it][A
+ 72%|��██████▏  | 1109/1549 [1:11:38<22:03,  3.01s/it][A
+ 72%|███████▏  | 1110/1549 [1:11:40<19:21,  2.65s/it][A
+ 72%|███████▏  | 1111/1549 [1:11:45<23:49,  3.26s/it][A
+ 72%|███████▏  | 1112/1549 [1:11:49<26:07,  3.59s/it][A
+ 72%|███████▏  | 1113/1549 [1:11:52<24:16,  3.34s/it][A
+ 72%|███████▏  | 1114/1549 [1:11:54<21:41,  2.99s/it][A
+ 72%|███████▏  | 1115/1549 [1:11:56<18:59,  2.62s/it][A
+ 72%|███████▏  | 1116/1549 [1:12:00<21:14,  2.94s/it][A
+ 72%|███████▏  | 1117/1549 [1:12:03<22:13,  3.09s/it][A
+ 72%|███████▏  | 1118/1549 [1:12:05<20:04,  2.80s/it][A
+ 72%|███████▏  | 1119/1549 [1:12:08<19:35,  2.73s/it][A
+ 72%|███████▏  | 1120/1549 [1:12:11<21:14,  2.97s/it][A
+ 72%|███████▏  | 1121/1549 [1:12:13<18:15,  2.56s/it][A
+ 72%|███████▏  | 1122/1549 [1:12:15<18:26,  2.59s/it][A
+ 72%|███████▏  | 1123/1549 [1:12:20<22:15,  3.13s/it][A
+ 73%|███████▎  | 1124/1549 [1:12:24<23:24,  3.31s/it][A
+ 73%|███████▎  | 1125/1549 [1:12:26<21:14,  3.01s/it][A
+ 73%|███████▎  | 1126/1549 [1:12:29<21:11,  3.01s/it][A
+ 73%|███████▎  | 1127/1549 [1:12:32<20:27,  2.91s/it][A
+ 73%|███████▎  | 1128/1549 [1:12:34<18:53,  2.69s/it][A
+ 73%|███████▎  | 1129/1549 [1:12:36<18:52,  2.70s/it][A
+ 73%|███████▎  | 1130/1549 [1:12:39<19:23,  2.78s/it][A
+ 73%|███████▎  | 1131/1549 [1:12:42<19:14,  2.76s/it][A
+ 73%|███████▎  | 1132/1549 [1:12:45<18:56,  2.73s/it][A
+ 73%|███████▎  | 1133/1549 [1:12:48<20:53,  3.01s/it][A
+ 73%|███████▎  | 1134/1549 [1:12:50<18:29,  2.67s/it][A
+ 73%|███████▎  | 1135/1549 [1:12:54<21:14,  3.08s/it][A
+ 73%|███████▎  | 1136/1549 [1:12:57<20:35,  2.99s/it][A
+ 73%|███████▎  | 1137/1549 [1:13:00<19:25,  2.83s/it][A
+ 73%|███████▎  | 1138/1549 [1:13:03<19:36,  2.86s/it][A
+ 74%|███████▎  | 1139/1549 [1:13:04<17:00,  2.49s/it][A
+ 74%|███████▎  | 1140/1549 [1:13:08<18:48,  2.76s/it][A
+ 74%|███████▎  | 1141/1549 [1:13:11<20:46,  3.05s/it][A
+ 74%|███████▎  | 1142/1549 [1:13:14<20:58,  3.09s/it][A
+ 74%|███████▍  | 1143/1549 [1:13:18<21:05,  3.12s/it][A
+ 74%|███████▍  | 1144/1549 [1:13:20<18:51,  2.79s/it][A
+ 74%|███████▍  | 1145/1549 [1:13:22<18:46,  2.79s/it][A
+ 74%|███████▍  | 1146/1549 [1:13:26<20:28,  3.05s/it][A
+ 74%|███████▍  | 1147/1549 [1:13:29<20:28,  3.06s/it][A
+ 74%|███████▍  | 1148/1549 [1:13:32<20:44,  3.10s/it][A
+ 74%|███████▍  | 1149/1549 [1:13:35<19:44,  2.96s/it][A
+ 74%|███████▍  | 1150/1549 [1:13:38<19:20,  2.91s/it][A
+ 74%|███████▍  | 1151/1549 [1:13:41<20:00,  3.02s/it][A
+ 74%|███████▍  | 1152/1549 [1:13:45<21:45,  3.29s/it][A
+ 74%|███████▍  | 1153/1549 [1:13:47<19:31,  2.96s/it][A
+ 74%|███████▍  | 1154/1549 [1:13:51<21:17,  3.23s/it][A
+ 75%|███████▍  | 1155/1549 [1:13:53<18:49,  2.87s/it][A
+ 75%|███████▍  | 1156/1549 [1:13:56<18:48,  2.87s/it][A
+ 75%|███████▍  | 1157/1549 [1:13:58<17:35,  2.69s/it][A
+ 75%|███████▍  | 1158/1549 [1:14:00<16:09,  2.48s/it][A
+ 75%|███████▍  | 1159/1549 [1:14:03<16:30,  2.54s/it][A
+ 75%|███████▍  | 1160/1549 [1:14:06<17:49,  2.75s/it][A
+ 75%|███████▍  | 1161/1549 [1:14:10<20:15,  3.13s/it][A
+ 75%|███████▌  | 1162/1549 [1:14:13<19:33,  3.03s/it][A
+ 75%|███████▌  | 1163/1549 [1:14:16<19:16,  3.00s/it][A
+ 75%|███████▌  | 1164/1549 [1:14:20<21:37,  3.37s/it][A
+ 75%|███████▌  | 1165/1549 [1:14:24<21:38,  3.38s/it][A
+ 75%|███████▌  | 1166/1549 [1:14:26<19:31,  3.06s/it][A
+ 75%|███████▌  | 1167/1549 [1:14:28<18:01,  2.83s/it][A
+ 75%|███████▌  | 1168/1549 [1:14:32<19:04,  3.00s/it][A
+ 75%|███████▌  | 1169/1549 [1:14:34<18:00,  2.84s/it][A
+ 76%|███████▌  | 1170/1549 [1:14:37<18:37,  2.95s/it][A
+ 76%|███████▌  | 1171/1549 [1:14:40<17:41,  2.81s/it][A
+ 76%|███████▌  | 1172/1549 [1:14:42<16:41,  2.66s/it][A
+ 76%|███████▌  | 1173/1549 [1:14:45<16:55,  2.70s/it][A
+ 76%|███████▌  | 1174/1549 [1:14:47<16:52,  2.70s/it][A
+ 76%|███████▌  | 1175/1549 [1:14:50<17:07,  2.75s/it][A
+ 76%|███████▌  | 1176/1549 [1:14:53<16:35,  2.67s/it][A
+ 76%|███████���  | 1177/1549 [1:14:56<16:42,  2.69s/it][A
+ 76%|███████▌  | 1178/1549 [1:14:59<17:51,  2.89s/it][A
+ 76%|███████▌  | 1179/1549 [1:15:01<16:00,  2.60s/it][A
+ 76%|███████▌  | 1180/1549 [1:15:04<17:13,  2.80s/it][A
+ 76%|███████▌  | 1181/1549 [1:15:07<17:20,  2.83s/it][A
+ 76%|███████▋  | 1182/1549 [1:15:10<17:34,  2.87s/it][A
+ 76%|███████▋  | 1183/1549 [1:15:12<16:33,  2.71s/it][A
+ 76%|███████▋  | 1184/1549 [1:15:14<15:31,  2.55s/it][A
+ 77%|███████▋  | 1185/1549 [1:15:17<15:40,  2.58s/it][A
+ 77%|███████▋  | 1186/1549 [1:15:19<14:39,  2.42s/it][A
+ 77%|███████▋  | 1187/1549 [1:15:22<15:38,  2.59s/it][A
+ 77%|███████▋  | 1188/1549 [1:15:24<14:47,  2.46s/it][A
+ 77%|███████▋  | 1189/1549 [1:15:29<18:21,  3.06s/it][A
+ 77%|███████▋  | 1190/1549 [1:15:31<17:39,  2.95s/it][A
+ 77%|███████▋  | 1191/1549 [1:15:35<18:05,  3.03s/it][A
+ 77%|███████▋  | 1192/1549 [1:15:37<16:51,  2.83s/it][A
+ 77%|███████▋  | 1193/1549 [1:15:40<16:12,  2.73s/it][A
+ 77%|███████▋  | 1194/1549 [1:15:42<15:14,  2.58s/it][A
+ 77%|███████▋  | 1195/1549 [1:15:44<15:01,  2.55s/it][A
+ 77%|███████▋  | 1196/1549 [1:15:47<15:58,  2.71s/it][A
+ 77%|███████▋  | 1197/1549 [1:15:50<16:00,  2.73s/it][A
+ 77%|███████▋  | 1198/1549 [1:15:53<15:40,  2.68s/it][A
+ 77%|███████▋  | 1199/1549 [1:15:55<14:32,  2.49s/it][A
+ 77%|███████▋  | 1200/1549 [1:15:57<14:14,  2.45s/it][A
+ 78%|███████▊  | 1201/1549 [1:16:00<14:22,  2.48s/it][A
+ 78%|███████▊  | 1202/1549 [1:16:03<15:40,  2.71s/it][A
+ 78%|███████▊  | 1203/1549 [1:16:05<15:24,  2.67s/it][A
+ 78%|███████▊  | 1204/1549 [1:16:08<15:47,  2.75s/it][A
+ 78%|███████▊  | 1205/1549 [1:16:11<16:09,  2.82s/it][A
+ 78%|███████▊  | 1206/1549 [1:16:14<15:10,  2.65s/it][A
+ 78%|███████▊  | 1207/1549 [1:16:16<14:45,  2.59s/it][A
+ 78%|███████▊  | 1208/1549 [1:16:18<13:06,  2.31s/it][A
+ 78%|███████▊  | 1209/1549 [1:16:22<16:58,  3.00s/it][A
+ 78%|███████▊  | 1210/1549 [1:16:25<17:03,  3.02s/it][A
+ 78%|███████▊  | 1211/1549 [1:16:27<14:47,  2.63s/it][A
+ 78%|███████▊  | 1212/1549 [1:16:30<14:23,  2.56s/it][A
+ 78%|███████▊  | 1213/1549 [1:16:33<15:02,  2.69s/it][A
+ 78%|███████▊  | 1214/1549 [1:16:34<13:39,  2.45s/it][A
+ 78%|███████▊  | 1215/1549 [1:16:38<14:55,  2.68s/it][A
+ 79%|███████▊  | 1216/1549 [1:16:41<16:31,  2.98s/it][A
+ 79%|███████▊  | 1217/1549 [1:16:43<15:06,  2.73s/it][A
+ 79%|███████▊  | 1218/1549 [1:16:45<13:47,  2.50s/it][A
+ 79%|███████▊  | 1219/1549 [1:16:48<13:14,  2.41s/it][A
+ 79%|███████▉  | 1220/1549 [1:16:51<14:00,  2.56s/it][A
+ 79%|███████▉  | 1221/1549 [1:16:53<14:12,  2.60s/it][A
+ 79%|███████▉  | 1222/1549 [1:16:56<15:01,  2.76s/it][A
+ 79%|███████▉  | 1223/1549 [1:17:00<16:22,  3.01s/it][A
+ 79%|███████▉  | 1224/1549 [1:17:02<14:29,  2.67s/it][A
+ 79%|███████▉  | 1225/1549 [1:17:04<14:22,  2.66s/it][A
+ 79%|███████▉  | 1226/1549 [1:17:08<15:01,  2.79s/it][A
+ 79%|███████▉  | 1227/1549 [1:17:10<14:27,  2.69s/it][A
+ 79%|███████▉  | 1228/1549 [1:17:12<13:51,  2.59s/it][A
+ 79%|███████▉  | 1229/1549 [1:17:16<15:11,  2.85s/it][A
+ 79%|███████▉  | 1230/1549 [1:17:18<13:26,  2.53s/it][A
+ 79%|███████▉  | 1231/1549 [1:17:20<13:08,  2.48s/it][A
+ 80%|███████▉  | 1232/1549 [1:17:22<12:51,  2.44s/it][A
+ 80%|███████▉  | 1233/1549 [1:17:25<13:07,  2.49s/it][A
+ 80%|███████▉  | 1234/1549 [1:17:27<12:49,  2.44s/it][A
+ 80%|███████▉  | 1235/1549 [1:17:31<14:40,  2.80s/it][A
+ 80%|███████▉  | 1236/1549 [1:17:33<14:12,  2.72s/it][A
+ 80%|███████▉  | 1237/1549 [1:17:36<13:28,  2.59s/it][A
+ 80%|███████▉  | 1238/1549 [1:17:38<13:41,  2.64s/it][A
+ 80%|███████▉  | 1239/1549 [1:17:41<12:50,  2.48s/it][A
+ 80%|████████  | 1240/1549 [1:17:44<13:38,  2.65s/it][A
+ 80%|████████  | 1241/1549 [1:17:46<12:43,  2.48s/it][A
+ 80%|████████  | 1242/1549 [1:17:49<13:39,  2.67s/it][A
+ 80%|████████  | 1243/1549 [1:17:52<14:03,  2.76s/it][A
+ 80%|████████  | 1244/1549 [1:17:55<14:29,  2.85s/it][A
+ 80%|████████  | 1245/1549 [1:17:58<14:15,  2.81s/it][A
+ 80%|████████  | 1246/1549 [1:18:00<13:38,  2.70s/it][A
+ 81%|████████  | 1247/1549 [1:18:03<13:31,  2.69s/it][A
+ 81%|████████  | 1248/1549 [1:18:05<13:28,  2.69s/it][A
+ 81%|████████  | 1249/1549 [1:18:08<12:52,  2.58s/it][A
+ 81%|████████  | 1250/1549 [1:18:10<12:58,  2.60s/it][A
+ 81%|████████  | 1251/1549 [1:18:14<14:30,  2.92s/it][A
+ 81%|████████  | 1252/1549 [1:18:16<13:40,  2.76s/it][A
+ 81%|████████  | 1253/1549 [1:18:19<13:32,  2.75s/it][A
+ 81%|████████  | 1254/1549 [1:18:22<13:42,  2.79s/it][A
+ 81%|████████  | 1255/1549 [1:18:25<14:23,  2.94s/it][A
+ 81%|████████  | 1256/1549 [1:18:28<13:38,  2.79s/it][A
+ 81%|████████  | 1257/1549 [1:18:30<12:48,  2.63s/it][A
+ 81%|████████  | 1258/1549 [1:18:33<12:49,  2.64s/it][A
+ 81%|████████▏ | 1259/1549 [1:18:35<11:52,  2.46s/it][A
+ 81%|████████▏ | 1260/1549 [1:18:37<12:08,  2.52s/it][A
+ 81%|████████▏ | 1261/1549 [1:18:39<11:20,  2.36s/it][A
+ 81%|████████▏ | 1262/1549 [1:18:42<11:20,  2.37s/it][A
+ 82%|████████▏ | 1263/1549 [1:18:44<11:19,  2.38s/it][A
+ 82%|████████▏ | 1264/1549 [1:18:46<10:42,  2.26s/it][A
+ 82%|████████▏ | 1265/1549 [1:18:50<12:38,  2.67s/it][A
+ 82%|████████▏ | 1266/1549 [1:18:53<12:48,  2.72s/it][A
+ 82%|████████▏ | 1267/1549 [1:18:55<11:45,  2.50s/it][A
+ 82%|████████▏ | 1268/1549 [1:18:57<11:14,  2.40s/it][A
+ 82%|████████▏ | 1269/1549 [1:18:59<11:29,  2.46s/it][A
+ 82%|████████▏ | 1270/1549 [1:19:01<10:36,  2.28s/it][A
+ 82%|████████▏ | 1271/1549 [1:19:03<10:16,  2.22s/it][A
+ 82%|████████▏ | 1272/1549 [1:19:05<10:06,  2.19s/it][A
+ 82%|████████▏ | 1273/1549 [1:19:08<11:11,  2.43s/it][A
+ 82%|████████▏ | 1274/1549 [1:19:10<10:33,  2.30s/it][A
+ 82%|████████▏ | 1275/1549 [1:19:13<10:52,  2.38s/it][A
+ 82%|████████▏ | 1276/1549 [1:19:15<10:39,  2.34s/it][A
+ 82%|████████▏ | 1277/1549 [1:19:18<11:39,  2.57s/it][A
+ 83%|████████▎ | 1278/1549 [1:19:21<11:25,  2.53s/it][A
+ 83%|████████▎ | 1279/1549 [1:19:23<10:48,  2.40s/it][A
+ 83%|████████▎ | 1280/1549 [1:19:26<12:14,  2.73s/it][A
+ 83%|████████▎ | 1281/1549 [1:19:28<11:19,  2.54s/it][A
+ 83%|████████▎ | 1282/1549 [1:19:30<10:37,  2.39s/it][A
+ 83%|████████▎ | 1283/1549 [1:19:33<11:21,  2.56s/it][A
+ 83%|████████▎ | 1284/1549 [1:19:37<12:44,  2.89s/it][A
+ 83%|████████▎ | 1285/1549 [1:19:39<11:40,  2.65s/it][A
+ 83%|████████▎ | 1286/1549 [1:19:42<11:11,  2.55s/it][A
+ 83%|████████▎ | 1287/1549 [1:19:45<12:28,  2.86s/it][A
+ 83%|████████▎ | 1288/1549 [1:19:49<13:21,  3.07s/it][A
+ 83%|████████▎ | 1289/1549 [1:19:51<12:43,  2.94s/it][A
+ 83%|████████▎ | 1290/1549 [1:19:53<11:12,  2.60s/it][A
+ 83%|████████▎ | 1291/1549 [1:19:56<11:33,  2.69s/it][A
+ 83%|████████▎ | 1292/1549 [1:19:58<10:49,  2.53s/it][A
+ 83%|████████▎ | 1293/1549 [1:20:01<11:47,  2.76s/it][A
+ 84%|████████▎ | 1294/1549 [1:20:03<10:45,  2.53s/it][A
+ 84%|████████▎ | 1295/1549 [1:20:05<09:47,  2.31s/it][A
+ 84%|████████▎ | 1296/1549 [1:20:07<09:28,  2.25s/it][A
+ 84%|████████▎ | 1297/1549 [1:20:10<10:15,  2.44s/it][A
+ 84%|████████▍ | 1298/1549 [1:20:13<10:22,  2.48s/it][A
+ 84%|████████▍ | 1299/1549 [1:20:15<10:09,  2.44s/it][A
+ 84%|████████▍ | 1300/1549 [1:20:18<10:13,  2.46s/it][A
+ 84%|████████▍ | 1301/1549 [1:20:20<09:56,  2.41s/it][A
+ 84%|████████▍ | 1302/1549 [1:20:24<11:36,  2.82s/it][A
+ 84%|████████▍ | 1303/1549 [1:20:26<10:18,  2.51s/it][A
+ 84%|████████▍ | 1304/1549 [1:20:29<11:05,  2.72s/it][A
+ 84%|████████▍ | 1305/1549 [1:20:31<10:41,  2.63s/it][A
+ 84%|████████▍ | 1306/1549 [1:20:34<10:22,  2.56s/it][A
+ 84%|████████▍ | 1307/1549 [1:20:36<10:22,  2.57s/it][A
+ 84%|████████▍ | 1308/1549 [1:20:40<11:28,  2.86s/it][A
+ 85%|████████▍ | 1309/1549 [1:20:41<10:03,  2.52s/it][A
+ 85%|████████▍ | 1310/1549 [1:20:45<11:53,  2.98s/it][A
+ 85%|████████▍ | 1311/1549 [1:20:49<12:09,  3.07s/it][A
+ 85%|████████▍ | 1312/1549 [1:20:52<12:23,  3.14s/it][A
+ 85%|████████▍ | 1313/1549 [1:20:54<10:53,  2.77s/it][A
+ 85%|████████▍ | 1314/1549 [1:20:56<10:06,  2.58s/it][A
+ 85%|████████▍ | 1315/1549 [1:20:59<10:04,  2.58s/it][A
+ 85%|████████▍ | 1316/1549 [1:21:01<10:07,  2.61s/it][A
+ 85%|████████▌ | 1317/1549 [1:21:04<09:54,  2.56s/it][A
+ 85%|████████▌ | 1318/1549 [1:21:06<09:06,  2.36s/it][A
+ 85%|████████▌ | 1319/1549 [1:21:08<09:19,  2.43s/it][A
+ 85%|████████▌ | 1320/1549 [1:21:11<10:10,  2.66s/it][A
+ 85%|████████▌ | 1321/1549 [1:21:14<09:29,  2.50s/it][A
+ 85%|████████▌ | 1322/1549 [1:21:17<09:58,  2.64s/it][A
+ 85%|████████▌ | 1323/1549 [1:21:19<10:13,  2.71s/it][A
+ 85%|████████▌ | 1324/1549 [1:21:22<09:46,  2.61s/it][A
+ 86%|████████▌ | 1325/1549 [1:21:24<09:07,  2.44s/it][A
+ 86%|████████▌ | 1326/1549 [1:21:27<09:23,  2.53s/it][A
+ 86%|████████▌ | 1327/1549 [1:21:29<08:52,  2.40s/it][A
+ 86%|████████▌ | 1328/1549 [1:21:31<08:47,  2.39s/it][A
+ 86%|████████▌ | 1329/1549 [1:21:35<10:03,  2.74s/it][A
+ 86%|████████▌ | 1330/1549 [1:21:37<09:30,  2.60s/it][A
+ 86%|████████▌ | 1331/1549 [1:21:43<12:49,  3.53s/it][A
+ 86%|████████▌ | 1332/1549 [1:21:45<11:12,  3.10s/it][A
+ 86%|████████▌ | 1333/1549 [1:21:47<10:07,  2.81s/it][A
+ 86%|████████▌ | 1334/1549 [1:21:49<09:26,  2.64s/it][A
+ 86%|████████▌ | 1335/1549 [1:21:52<09:29,  2.66s/it][A
+ 86%|████████▌ | 1336/1549 [1:21:55<09:41,  2.73s/it][A
+ 86%|████████▋ | 1337/1549 [1:21:57<09:33,  2.70s/it][A
+ 86%|████████▋ | 1338/1549 [1:21:59<08:34,  2.44s/it][A
+ 86%|████████▋ | 1339/1549 [1:22:02<09:11,  2.63s/it][A
+ 87%|████████▋ | 1340/1549 [1:22:04<08:21,  2.40s/it][A
+ 87%|████████▋ | 1341/1549 [1:22:06<08:11,  2.36s/it][A
+ 87%|████████▋ | 1342/1549 [1:22:10<09:55,  2.88s/it][A
+ 87%|████████▋ | 1343/1549 [1:22:13<09:05,  2.65s/it][A
+ 87%|████████▋ | 1344/1549 [1:22:15<08:47,  2.57s/it][A
+ 87%|████████▋ | 1345/1549 [1:22:18<09:18,  2.74s/it][A
+ 87%|████████▋ | 1346/1549 [1:22:20<08:27,  2.50s/it][A
+ 87%|████████▋ | 1347/1549 [1:22:22<08:00,  2.38s/it][A
+ 87%|████████▋ | 1348/1549 [1:22:25<08:21,  2.50s/it][A
+ 87%|████████▋ | 1349/1549 [1:22:28<08:29,  2.55s/it][A
+ 87%|████████▋ | 1350/1549 [1:22:30<08:05,  2.44s/it][A
+ 87%|████████▋ | 1351/1549 [1:22:32<08:10,  2.48s/it][A
+ 87%|████████▋ | 1352/1549 [1:22:35<08:40,  2.64s/it][A
+ 87%|████████▋ | 1353/1549 [1:22:38<08:17,  2.54s/it][A
+ 87%|████████▋ | 1354/1549 [1:22:40<08:31,  2.62s/it][A
+ 87%|████████▋ | 1355/1549 [1:22:43<08:02,  2.49s/it][A
+ 88%|████████▊ | 1356/1549 [1:22:45<07:48,  2.43s/it][A
+ 88%|████████▊ | 1357/1549 [1:22:47<07:42,  2.41s/it][A
+ 88%|████████▊ | 1358/1549 [1:22:50<07:38,  2.40s/it][A
+ 88%|████████▊ | 1359/1549 [1:22:52<07:29,  2.36s/it][A
+ 88%|████████▊ | 1360/1549 [1:22:54<07:10,  2.28s/it][A
+ 88%|████████▊ | 1361/1549 [1:22:56<07:14,  2.31s/it][A
+ 88%|████████▊ | 1362/1549 [1:22:59<07:23,  2.37s/it][A
+ 88%|████████▊ | 1363/1549 [1:23:02<08:02,  2.59s/it][A
+ 88%|████████▊ | 1364/1549 [1:23:04<07:25,  2.41s/it][A
+ 88%|████████▊ | 1365/1549 [1:23:06<06:48,  2.22s/it][A
+ 88%|████████▊ | 1366/1549 [1:23:09<07:34,  2.48s/it][A
+ 88%|████████▊ | 1367/1549 [1:23:11<06:59,  2.31s/it][A
+ 88%|████████▊ | 1368/1549 [1:23:13<06:45,  2.24s/it][A
+ 88%|████████▊ | 1369/1549 [1:23:16<07:34,  2.52s/it][A
+ 88%|████████▊ | 1370/1549 [1:23:19<07:46,  2.61s/it][A
+ 89%|████████▊ | 1371/1549 [1:23:22<07:55,  2.67s/it][A
+ 89%|████████▊ | 1372/1549 [1:23:23<07:05,  2.40s/it][A
+ 89%|████████▊ | 1373/1549 [1:23:27<07:55,  2.70s/it][A
+ 89%|████████▊ | 1374/1549 [1:23:28<07:00,  2.40s/it][A
+ 89%|████████▉ | 1375/1549 [1:23:30<06:31,  2.25s/it][A
+ 89%|████████▉ | 1376/1549 [1:23:33<06:52,  2.38s/it][A
+ 89%|████████▉ | 1377/1549 [1:23:35<06:26,  2.25s/it][A
+ 89%|████████▉ | 1378/1549 [1:23:38<06:57,  2.44s/it][A
+ 89%|████████▉ | 1379/1549 [1:23:40<06:27,  2.28s/it][A
+ 89%|████████▉ | 1380/1549 [1:23:43<07:06,  2.52s/it][A
+ 89%|████████▉ | 1381/1549 [1:23:45<06:34,  2.35s/it][A
+ 89%|████████▉ | 1382/1549 [1:23:47<06:13,  2.24s/it][A
+ 89%|████████▉ | 1383/1549 [1:23:50<06:34,  2.38s/it][A
+ 89%|████████▉ | 1384/1549 [1:23:52<06:45,  2.46s/it][A
+ 89%|████████▉ | 1385/1549 [1:23:55<06:38,  2.43s/it][A
+ 89%|████████▉ | 1386/1549 [1:23:56<06:04,  2.23s/it][A
+ 90%|████████▉ | 1387/1549 [1:23:59<06:13,  2.30s/it][A
+ 90%|████████▉ | 1388/1549 [1:24:01<06:07,  2.28s/it][A
+ 90%|████████▉ | 1389/1549 [1:24:04<06:34,  2.47s/it][A
+ 90%|████████▉ | 1390/1549 [1:24:06<06:01,  2.28s/it][A
+ 90%|████████▉ | 1391/1549 [1:24:08<05:42,  2.17s/it][A
+ 90%|████████▉ | 1392/1549 [1:24:10<05:33,  2.13s/it][A
+ 90%|████████▉ | 1393/1549 [1:24:12<05:50,  2.25s/it][A
+ 90%|████████▉ | 1394/1549 [1:24:15<06:22,  2.47s/it][A
+ 90%|█████████ | 1395/1549 [1:24:18<06:28,  2.52s/it][A
+ 90%|█████████ | 1396/1549 [1:24:20<05:49,  2.28s/it][A
+ 90%|█████████ | 1397/1549 [1:24:22<06:02,  2.39s/it][A
+ 90%|█████████ | 1398/1549 [1:24:24<05:35,  2.22s/it][A
+ 90%|█████████ | 1399/1549 [1:24:27<05:47,  2.32s/it][A
+ 90%|█████████ | 1400/1549 [1:24:29<05:31,  2.22s/it][A
+ 90%|█████████ | 1401/1549 [1:24:32<06:22,  2.59s/it][A
+ 91%|█████████ | 1402/1549 [1:24:34<06:01,  2.46s/it][A
+ 91%|█████████ | 1403/1549 [1:24:37<06:32,  2.69s/it][A
+ 91%|█████████ | 1404/1549 [1:24:39<05:57,  2.47s/it][A
+ 91%|█████████ | 1405/1549 [1:24:42<06:00,  2.50s/it][A
+ 91%|█████████ | 1406/1549 [1:24:44<05:39,  2.38s/it][A
+ 91%|█████████ | 1407/1549 [1:24:46<05:40,  2.40s/it][A
+ 91%|█████████ | 1408/1549 [1:24:49<05:28,  2.33s/it][A
+ 91%|█████████ | 1409/1549 [1:24:51<05:28,  2.34s/it][A
+ 91%|█████████ | 1410/1549 [1:24:53<05:30,  2.38s/it][A
+ 91%|█████████ | 1411/1549 [1:24:57<06:14,  2.72s/it][A
+ 91%|█████████ | 1412/1549 [1:24:59<05:50,  2.56s/it][A
+ 91%|█████████ | 1413/1549 [1:25:02<05:51,  2.59s/it][A
+ 91%|█████████▏| 1414/1549 [1:25:04<05:25,  2.41s/it][A
+ 91%|█████████▏| 1415/1549 [1:25:06<05:12,  2.34s/it][A
+ 91%|█████████▏| 1416/1549 [1:25:08<05:07,  2.31s/it][A
+ 91%|█████████▏| 1417/1549 [1:25:10<04:36,  2.10s/it][A
+ 92%|█████████▏| 1418/1549 [1:25:12<04:47,  2.19s/it][A
+ 92%|█████████▏| 1419/1549 [1:25:15<05:01,  2.32s/it][A
+ 92%|█████████▏| 1420/1549 [1:25:18<05:48,  2.70s/it][A
+ 92%|█████████▏| 1421/1549 [1:25:21<05:22,  2.52s/it][A
+ 92%|█████████▏| 1422/1549 [1:25:22<04:58,  2.35s/it][A
+ 92%|█████████▏| 1423/1549 [1:25:25<04:48,  2.29s/it][A
+ 92%|█████████▏| 1424/1549 [1:25:28<05:36,  2.69s/it][A
+ 92%|█████████▏| 1425/1549 [1:25:31<05:34,  2.69s/it][A
+ 92%|█████████▏| 1426/1549 [1:25:33<05:09,  2.51s/it][A
+ 92%|█████████▏| 1427/1549 [1:25:35<04:45,  2.34s/it][A
+ 92%|█████████▏| 1428/1549 [1:25:37<04:26,  2.21s/it][A
+ 92%|█████████▏| 1429/1549 [1:25:39<04:25,  2.22s/it][A
+ 92%|█████████▏| 1430/1549 [1:25:41<04:23,  2.21s/it][A
+ 92%|█████████▏| 1431/1549 [1:25:43<04:16,  2.17s/it][A
+ 92%|█████████▏| 1432/1549 [1:25:46<04:43,  2.42s/it][A
+ 93%|█████████▎| 1433/1549 [1:25:48<04:27,  2.31s/it][A
+ 93%|█████████▎| 1434/1549 [1:25:51<04:43,  2.47s/it][A
+ 93%|█████████▎| 1435/1549 [1:25:54<04:50,  2.54s/it][A
+ 93%|█████████▎| 1436/1549 [1:25:56<04:32,  2.41s/it][A
+ 93%|█████████▎| 1437/1549 [1:25:59<04:29,  2.41s/it][A
+ 93%|█████████▎| 1438/1549 [1:26:00<04:09,  2.25s/it][A
+ 93%|█████████▎| 1439/1549 [1:26:03<04:19,  2.35s/it][A
+ 93%|█████████▎| 1440/1549 [1:26:06<04:22,  2.41s/it][A
+ 93%|█████████▎| 1441/1549 [1:26:07<04:00,  2.23s/it][A
+ 93%|█████████▎| 1442/1549 [1:26:09<03:55,  2.20s/it][A
+ 93%|█████████▎| 1443/1549 [1:26:12<04:02,  2.29s/it][A
+ 93%|█████████▎| 1444/1549 [1:26:14<03:44,  2.14s/it][A
+ 93%|█████████▎| 1445/1549 [1:26:17<04:14,  2.45s/it][A
+ 93%|█████████▎| 1446/1549 [1:26:19<03:46,  2.20s/it][A
+ 93%|█████████▎| 1447/1549 [1:26:21<04:03,  2.39s/it][A
+ 93%|█████████▎| 1448/1549 [1:26:23<03:40,  2.18s/it][A
+ 94%|█████████▎| 1449/1549 [1:26:26<03:49,  2.30s/it][A
+ 94%|█████████▎| 1450/1549 [1:26:28<04:02,  2.45s/it][A
+ 94%|█████████▎| 1451/1549 [1:26:30<03:40,  2.25s/it][A
+ 94%|█████████▎| 1452/1549 [1:26:34<04:13,  2.62s/it][A
+ 94%|█████████▍| 1453/1549 [1:26:36<03:57,  2.48s/it][A
+ 94%|█████████▍| 1454/1549 [1:26:38<03:47,  2.39s/it][A
+ 94%|█████████▍| 1455/1549 [1:26:40<03:39,  2.34s/it][A
+ 94%|█████████▍| 1456/1549 [1:26:42<03:29,  2.25s/it][A
+ 94%|█████████▍| 1457/1549 [1:26:45<03:36,  2.36s/it][A
+ 94%|█████████▍| 1458/1549 [1:26:47<03:28,  2.29s/it][A
+ 94%|█████████▍| 1459/1549 [1:26:49<03:09,  2.10s/it][A
+ 94%|█████████▍| 1460/1549 [1:26:52<03:25,  2.31s/it][A
+ 94%|█████████▍| 1461/1549 [1:26:54<03:16,  2.23s/it][A
+ 94%|█████████▍| 1462/1549 [1:26:55<03:00,  2.08s/it][A
+ 94%|█████████▍| 1463/1549 [1:26:58<03:24,  2.38s/it][A
+ 95%|█████████▍| 1464/1549 [1:27:00<03:07,  2.21s/it][A
+ 95%|█████████▍| 1465/1549 [1:27:02<02:55,  2.09s/it][A
+ 95%|█████████▍| 1466/1549 [1:27:04<02:53,  2.09s/it][A
+ 95%|█████████▍| 1467/1549 [1:27:06<02:57,  2.16s/it][A
+ 95%|█████████▍| 1468/1549 [1:27:08<02:47,  2.07s/it][A
+ 95%|█████████▍| 1469/1549 [1:27:11<02:51,  2.14s/it][A
+ 95%|█████████▍| 1470/1549 [1:27:13<02:44,  2.08s/it][A
+ 95%|█████████▍| 1471/1549 [1:27:16<03:04,  2.37s/it][A
+ 95%|█████████▌| 1472/1549 [1:27:17<02:47,  2.18s/it][A
+ 95%|█████████▌| 1473/1549 [1:27:20<02:55,  2.31s/it][A
+ 95%|█████████▌| 1474/1549 [1:27:22<02:54,  2.33s/it][A
+ 95%|█████████▌| 1475/1549 [1:27:24<02:49,  2.28s/it][A
+ 95%|█████████▌| 1476/1549 [1:27:26<02:39,  2.19s/it][A
+ 95%|█████████▌| 1477/1549 [1:27:29<02:54,  2.42s/it][A
+ 95%|█████████▌| 1478/1549 [1:27:31<02:39,  2.24s/it][A
+ 95%|█████████▌| 1479/1549 [1:27:33<02:27,  2.10s/it][A
+ 96%|█████████▌| 1480/1549 [1:27:35<02:30,  2.17s/it][A
+ 96%|█████████▌| 1481/1549 [1:27:38<02:33,  2.26s/it][A
+ 96%|█████████▌| 1482/1549 [1:27:40<02:25,  2.17s/it][A
+ 96%|█████████▌| 1483/1549 [1:27:42<02:17,  2.09s/it][A
+ 96%|█████████▌| 1484/1549 [1:27:45<02:40,  2.47s/it][A
+ 96%|█████████▌| 1485/1549 [1:27:47<02:25,  2.27s/it][A
+ 96%|█████████▌| 1486/1549 [1:27:50<02:33,  2.44s/it][A
+ 96%|█████████▌| 1487/1549 [1:27:52<02:24,  2.33s/it][A
+ 96%|█████████▌| 1488/1549 [1:27:55<02:44,  2.70s/it][A
+ 96%|█████████▌| 1489/1549 [1:27:57<02:31,  2.52s/it][A
+ 96%|█████████▌| 1490/1549 [1:28:00<02:26,  2.49s/it][A
+ 96%|█████████▋| 1491/1549 [1:28:02<02:16,  2.35s/it][A
+ 96%|█████████▋| 1492/1549 [1:28:04<02:08,  2.26s/it][A
+ 96%|█████████▋| 1493/1549 [1:28:06<02:08,  2.29s/it][A
+ 96%|█████████▋| 1494/1549 [1:28:08<01:59,  2.17s/it][A
+ 97%|█████████▋| 1495/1549 [1:28:10<01:50,  2.06s/it][A
+ 97%|█████████▋| 1496/1549 [1:28:12<01:50,  2.09s/it][A
+ 97%|█████████▋| 1497/1549 [1:28:14<01:46,  2.05s/it][A
+ 97%|█████████▋| 1498/1549 [1:28:16<01:50,  2.17s/it][A
+ 97%|█████████▋| 1499/1549 [1:28:19<01:49,  2.20s/it][A
+ 97%|█████████▋| 1500/1549 [1:28:20<01:38,  2.02s/it][A
+ 97%|█████████▋| 1501/1549 [1:28:23<01:39,  2.07s/it][A
+ 97%|█████████▋| 1502/1549 [1:28:25<01:39,  2.12s/it][A
+ 97%|█████████▋| 1503/1549 [1:28:27<01:36,  2.09s/it][A
+ 97%|█████████▋| 1504/1549 [1:28:29<01:34,  2.10s/it][A
+ 97%|█████████▋| 1505/1549 [1:28:31<01:36,  2.19s/it][A
+ 97%|█████████▋| 1506/1549 [1:28:35<01:49,  2.55s/it][A
+ 97%|█████████▋| 1507/1549 [1:28:36<01:35,  2.28s/it][A
+ 97%|█████████▋| 1508/1549 [1:28:39<01:32,  2.26s/it][A
+ 97%|█████████▋| 1509/1549 [1:28:41<01:31,  2.28s/it][A
+ 97%|█████████▋| 1510/1549 [1:28:43<01:29,  2.30s/it][A
+ 98%|█████████▊| 1511/1549 [1:28:45<01:23,  2.19s/it][A
+ 98%|█████████▊| 1512/1549 [1:28:47<01:16,  2.07s/it][A
+ 98%|█████████▊| 1513/1549 [1:28:49<01:12,  2.02s/it][A
+ 98%|█████████▊| 1514/1549 [1:28:51<01:13,  2.10s/it][A
+ 98%|█████████▊| 1515/1549 [1:28:53<01:10,  2.08s/it][A
+ 98%|█████████▊| 1516/1549 [1:28:55<01:05,  1.97s/it][A
+ 98%|█████████▊| 1517/1549 [1:28:57<01:04,  2.02s/it][A
+ 98%|█████████▊| 1518/1549 [1:28:59<01:02,  2.02s/it][A
+ 98%|█████████▊| 1519/1549 [1:29:01<00:57,  1.92s/it][A
+ 98%|█████████▊| 1520/1549 [1:29:03<00:56,  1.95s/it][A
+ 98%|█████████▊| 1521/1549 [1:29:05<00:55,  1.97s/it][A
+ 98%|█████████▊| 1522/1549 [1:29:07<00:53,  1.97s/it][A
+ 98%|█████████▊| 1523/1549 [1:29:09<00:51,  1.98s/it][A
+ 98%|█████████▊| 1524/1549 [1:29:11<00:51,  2.07s/it][A
+ 98%|█████████▊| 1525/1549 [1:29:13<00:47,  1.96s/it][A
+ 99%|█████████▊| 1526/1549 [1:29:15<00:46,  2.03s/it][A
+ 99%|█████████▊| 1527/1549 [1:29:17<00:44,  2.01s/it][A
+ 99%|█████████▊| 1528/1549 [1:29:19<00:42,  2.01s/it][A
+ 99%|█████████▊| 1529/1549 [1:29:21<00:37,  1.89s/it][A
+ 99%|█████████▉| 1530/1549 [1:29:23<00:38,  2.02s/it][A
+ 99%|█████████▉| 1531/1549 [1:29:25<00:35,  1.98s/it][A
+ 99%|█████████▉| 1532/1549 [1:29:26<00:32,  1.89s/it][A
+ 99%|█████████▉| 1533/1549 [1:29:29<00:32,  2.04s/it][A
+ 99%|█████████▉| 1534/1549 [1:29:31<00:29,  1.98s/it][A
+ 99%|█████████▉| 1535/1549 [1:29:33<00:28,  2.07s/it][A
+ 99%|█████████▉| 1536/1549 [1:29:35<00:25,  1.96s/it][A
+ 99%|█████████▉| 1537/1549 [1:29:37<00:24,  2.05s/it][A
+ 99%|█████████▉| 1538/1549 [1:29:39<00:21,  1.97s/it][A
+ 99%|█████████▉| 1539/1549 [1:29:41<00:19,  1.96s/it][A
+ 99%|█████████▉| 1540/1549 [1:29:43<00:18,  2.11s/it][A
+ 99%|█████████▉| 1541/1549 [1:29:45<00:16,  2.04s/it][A
+100%|█████████▉| 1542/1549 [1:29:47<00:14,  2.03s/it][A
+100%|█████████▉| 1543/1549 [1:29:49<00:11,  1.97s/it][A
+100%|█████████▉| 1544/1549 [1:29:50<00:09,  1.89s/it][A
+100%|█████████▉| 1545/1549 [1:29:53<00:08,  2.04s/it][A
+100%|█████████▉| 1546/1549 [1:29:55<00:05,  1.93s/it][A
+100%|█████████▉| 1547/1549 [1:29:56<00:03,  1.91s/it][A
+100%|█████████▉| 1548/1549 [1:29:58<00:01,  1.83s/it][A
+100%|██████████| 1549/1549 [1:30:00<00:00,  1.81s/it][A                                                      
+                                                     [A{'eval_loss': 2.729660987854004, 'eval_runtime': 5409.1379, 'eval_samples_per_second': 9.159, 'eval_steps_per_second': 0.286, 'epoch': 1.0}
+100%|██████████| 9678/9678 [22:54:00<00:00,  8.13s/it]
+100%|██████████| 1549/1549 [1:30:03<00:00,  1.81s/it][A
+                                                     [A/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/deepspeed/runtime/checkpoint_engine/torch_checkpoint_engine.py:28: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  partition = torch.load(path, map_location=map_location)
+/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/deepspeed/runtime/checkpoint_engine/torch_checkpoint_engine.py:28: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  partition = torch.load(path, map_location=map_location)
+/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/deepspeed/runtime/checkpoint_engine/torch_checkpoint_engine.py:28: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  partition = torch.load(path, map_location=map_location)
+/opt/saturncloud/envs/saturn/lib/python3.12/site-packages/deepspeed/runtime/checkpoint_engine/torch_checkpoint_engine.py:28: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  partition = torch.load(path, map_location=map_location)
+                                                      {'train_runtime': 82593.2232, 'train_samples_per_second': 7.499, 'train_steps_per_second': 0.117, 'train_loss': 0.9993063533914609, 'epoch': 1.0}
+100%|██████████| 9678/9678 [22:56:39<00:00,  8.13s/it]100%|██████████| 9678/9678 [22:56:39<00:00,  8.53s/it]
+rqllama pre-train finished.