nohup: ignoring input

*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
*****************************************
Set TORCH_CUDA_ARCH_LIST to 9.0
/workspace/hanrui/syxin_old/Specforge/specforge/modeling/draft/llama3_eagle.py:29: UserWarning: flash_attn is not found, falling back to flex_attention. Please install flash_attn if you want to use the flash attention backend.
  warnings.warn(
Set TORCH_CUDA_ARCH_LIST to 9.0
Set TORCH_CUDA_ARCH_LIST to 9.0
Set TORCH_CUDA_ARCH_LIST to 9.0
Set TORCH_CUDA_ARCH_LIST to 9.0
Set TORCH_CUDA_ARCH_LIST to 9.0
Set TORCH_CUDA_ARCH_LIST to 9.0
/workspace/hanrui/syxin_old/Specforge/specforge/modeling/draft/llama3_eagle.py:29: UserWarning: flash_attn is not found, falling back to flex_attention. Please install flash_attn if you want to use the flash attention backend.
  warnings.warn(
/workspace/hanrui/syxin_old/Specforge/specforge/modeling/draft/llama3_eagle.py:29: UserWarning: flash_attn is not found, falling back to flex_attention. Please install flash_attn if you want to use the flash attention backend.
  warnings.warn(
Set TORCH_CUDA_ARCH_LIST to 9.0
/workspace/hanrui/syxin_old/Specforge/specforge/modeling/draft/llama3_eagle.py:29: UserWarning: flash_attn is not found, falling back to flex_attention. Please install flash_attn if you want to use the flash attention backend.
  warnings.warn(
/workspace/hanrui/syxin_old/Specforge/specforge/modeling/draft/llama3_eagle.py:29: UserWarning: flash_attn is not found, falling back to flex_attention. Please install flash_attn if you want to use the flash attention backend.
  warnings.warn(
/workspace/hanrui/syxin_old/Specforge/specforge/modeling/draft/llama3_eagle.py:29: UserWarning: flash_attn is not found, falling back to flex_attention. Please install flash_attn if you want to use the flash attention backend.
  warnings.warn(
/workspace/hanrui/syxin_old/Specforge/specforge/modeling/draft/llama3_eagle.py:29: UserWarning: flash_attn is not found, falling back to flex_attention. Please install flash_attn if you want to use the flash attention backend.
  warnings.warn(
/workspace/hanrui/syxin_old/Specforge/specforge/modeling/draft/llama3_eagle.py:29: UserWarning: flash_attn is not found, falling back to flex_attention. Please install flash_attn if you want to use the flash attention backend.
  warnings.warn(
`torch_dtype` is deprecated! Use `dtype` instead!
The following generation flags are not valid and may be ignored: ['output_hidden_states']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
`torch_dtype` is deprecated! Use `dtype` instead!
The following generation flags are not valid and may be ignored: ['output_hidden_states']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]`torch_dtype` is deprecated! Use `dtype` instead!
The following generation flags are not valid and may be ignored: ['output_hidden_states']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
`torch_dtype` is deprecated! Use `dtype` instead!
The following generation flags are not valid and may be ignored: ['output_hidden_states']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
`torch_dtype` is deprecated! Use `dtype` instead!
`torch_dtype` is deprecated! Use `dtype` instead!
The following generation flags are not valid and may be ignored: ['output_hidden_states']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
The following generation flags are not valid and may be ignored: ['output_hidden_states']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
`torch_dtype` is deprecated! Use `dtype` instead!
`torch_dtype` is deprecated! Use `dtype` instead!
The following generation flags are not valid and may be ignored: ['output_hidden_states']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
The following generation flags are not valid and may be ignored: ['output_hidden_states']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:  20%|██        | 1/5 [00:02<00:09,  2.43s/it]Loading checkpoint shards:  20%|██        | 1/5 [00:02<00:10,  2.56s/it]Loading checkpoint shards:  20%|██        | 1/5 [00:02<00:10,  2.52s/it]Loading checkpoint shards:  20%|██        | 1/5 [00:02<00:10,  2.55s/it]Loading checkpoint shards:  20%|██        | 1/5 [00:02<00:10,  2.57s/it]Loading checkpoint shards:  20%|██        | 1/5 [00:02<00:09,  2.50s/it]Loading checkpoint shards:  20%|██        | 1/5 [00:02<00:10,  2.52s/it]Loading checkpoint shards:  20%|██        | 1/5 [00:02<00:10,  2.70s/it]Loading checkpoint shards:  40%|████      | 2/5 [00:04<00:07,  2.41s/it]Loading checkpoint shards:  40%|████      | 2/5 [00:05<00:07,  2.52s/it]Loading checkpoint shards:  40%|████      | 2/5 [00:05<00:07,  2.58s/it]Loading checkpoint shards:  40%|████      | 2/5 [00:05<00:07,  2.60s/it]Loading checkpoint shards:  40%|████      | 2/5 [00:05<00:07,  2.59s/it]Loading checkpoint shards:  40%|████      | 2/5 [00:05<00:07,  2.58s/it]Loading checkpoint shards:  40%|████      | 2/5 [00:05<00:07,  2.57s/it]Loading checkpoint shards:  40%|████      | 2/5 [00:05<00:08,  2.80s/it]Loading checkpoint shards:  60%|██████    | 3/5 [00:07<00:04,  2.38s/it]Loading checkpoint shards:  60%|██████    | 3/5 [00:07<00:04,  2.49s/it]Loading checkpoint shards:  60%|██████    | 3/5 [00:07<00:04,  2.49s/it]Loading checkpoint shards:  60%|██████    | 3/5 [00:07<00:05,  2.52s/it]Loading checkpoint shards:  60%|██████    | 3/5 [00:07<00:05,  2.51s/it]Loading checkpoint shards:  60%|██████    | 3/5 [00:07<00:05,  2.53s/it]Loading checkpoint shards:  60%|██████    | 3/5 [00:07<00:05,  2.51s/it]Loading checkpoint shards:  60%|██████    | 3/5 [00:08<00:05,  2.71s/it]Loading checkpoint shards:  80%|████████  | 4/5 [00:08<00:02,  2.14s/it]Loading checkpoint shards:  80%|████████  | 4/5 [00:09<00:02,  2.26s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:09<00:00,  1.59s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:09<00:00,  1.91s/it]
Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 5/5 [00:00<00:00, 138.33it/s]
Loading checkpoint shards:  80%|████████  | 4/5 [00:09<00:02,  2.23s/it]Loading checkpoint shards:  80%|████████  | 4/5 [00:09<00:02,  2.23s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  1.73s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  2.04s/it]
Loading checkpoint shards:  80%|████████  | 4/5 [00:09<00:02,  2.30s/it]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:  80%|████████  | 4/5 [00:09<00:02,  2.31s/it]Loading checkpoint shards:  80%|████████  | 4/5 [00:09<00:02,  2.32s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:00<00:00, 134.33it/s]
Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  1.67s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  2.01s/it]
Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  1.67s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  2.01s/it]
Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 5/5 [00:00<00:00, 133.65it/s]
Loading checkpoint shards: 100%|██████████| 5/5 [00:00<00:00, 138.59it/s]
Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  1.72s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  2.05s/it]
Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  1.72s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  2.06s/it]
Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  1.73s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  2.06s/it]
Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:  80%|████████  | 4/5 [00:10<00:02,  2.47s/it]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 5/5 [00:00<00:00, 138.20it/s]
Loading checkpoint shards: 100%|██████████| 5/5 [00:00<00:00, 139.54it/s]
Loading checkpoint shards: 100%|██████████| 5/5 [00:00<00:00, 134.23it/s]
Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  1.82s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  2.19s/it]
Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 5/5 [00:00<00:00, 134.21it/s]
trainable params: 15,335,424 || all params: 8,206,070,784 || trainable%: 0.1869
trainable params: 15,335,424 || all params: 8,206,070,784 || trainable%: 0.1869
trainable params: 15,335,424 || all params: 8,206,070,784 || trainable%: 0.1869
trainable params: 15,335,424 || all params: 8,206,070,784 || trainable%: 0.1869
trainable params: 15,335,424 || all params: 8,206,070,784 || trainable%: 0.1869
trainable params: 15,335,424 || all params: 8,206,070,784 || trainable%: 0.1869
trainable params: 15,335,424 || all params: 8,206,070,784 || trainable%: 0.1869
trainable params: 15,335,424 || all params: 8,206,070,784 || trainable%: 0.1869
dataset is cached at /tmp/specforge_cache/processed_dataset/b2b7bdc9eb8a4170c0d33f03d2bf640b.pkl
/workspace/hanrui/specforge/lib/python3.11/site-packages/torch/distributed/distributed_c10d.py:4876: UserWarning: barrier(): using the device under current context. You can specify `device_id` in `init_process_group` to mute this warning.
  warnings.warn(  # warn only once
[rank0]:[W310 08:22:07.434083485 ProcessGroupNCCL.cpp:5072] Guessing device ID based on global rank. This can cause a hang if rank to GPU mapping is heterogeneous. You can specify device_id in init_process_group()
dataset is cached at /tmp/specforge_cache/processed_dataset/b2b7bdc9eb8a4170c0d33f03d2bf640b.pkldataset is cached at /tmp/specforge_cache/processed_dataset/b2b7bdc9eb8a4170c0d33f03d2bf640b.pkldataset is cached at /tmp/specforge_cache/processed_dataset/b2b7bdc9eb8a4170c0d33f03d2bf640b.pkl


dataset is cached at /tmp/specforge_cache/processed_dataset/b2b7bdc9eb8a4170c0d33f03d2bf640b.pkl
dataset is cached at /tmp/specforge_cache/processed_dataset/b2b7bdc9eb8a4170c0d33f03d2bf640b.pkl
dataset is cached at /tmp/specforge_cache/processed_dataset/b2b7bdc9eb8a4170c0d33f03d2bf640b.pkl
dataset is cached at /tmp/specforge_cache/processed_dataset/b2b7bdc9eb8a4170c0d33f03d2bf640b.pkl
Epoch 0:   0%|          | 0/12384 [00:00<?, ?it/s]Epoch 0:   0%|          | 0/12384 [00:08<?, ?it/s, loss=11.4616, acc=0.0002, iter_time=7.95s]Epoch 0:   0%|          | 1/12384 [00:08<28:52:24,  8.39s/it, loss=11.4616, acc=0.0002, iter_time=7.95s]Epoch 0:   0%|          | 1/12384 [00:16<28:52:24,  8.39s/it, loss=10.6726, acc=0.0003, iter_time=6.47s]Epoch 0:   0%|          | 2/12384 [00:16<27:23:24,  7.96s/it, loss=10.6726, acc=0.0003, iter_time=6.47s]Epoch 0:   0%|          | 2/12384 [00:23<27:23:24,  7.96s/it, loss=10.4985, acc=0.0011, iter_time=8.86s]Epoch 0:   0%|          | 3/12384 [00:23<26:55:47,  7.83s/it, loss=10.4985, acc=0.0011, iter_time=8.86s]Epoch 0:   0%|          | 3/12384 [00:31<26:55:47,  7.83s/it, loss=12.4512, acc=0.0002, iter_time=4.60s]Epoch 0:   0%|          | 4/12384 [00:31<26:42:04,  7.76s/it, loss=12.4512, acc=0.0002, iter_time=4.60s]Epoch 0:   0%|          | 4/12384 [00:39<26:42:04,  7.76s/it, loss=10.6913, acc=0.0007, iter_time=10.74s]Epoch 0:   0%|          | 5/12384 [00:39<26:37:07,  7.74s/it, loss=10.6913, acc=0.0007, iter_time=10.74s]Epoch 0:   0%|          | 5/12384 [00:46<26:37:07,  7.74s/it, loss=10.7935, acc=0.0006, iter_time=7.67s] Epoch 0:   0%|          | 6/12384 [00:46<26:30:41,  7.71s/it, loss=10.7935, acc=0.0006, iter_time=7.67s]Epoch 0:   0%|          | 6/12384 [00:54<26:30:41,  7.71s/it, loss=12.5651, acc=0.0002, iter_time=7.69s]Epoch 0:   0%|          | 7/12384 [00:54<26:29:17,  7.70s/it, loss=12.5651, acc=0.0002, iter_time=7.69s]Epoch 0:   0%|          | 7/12384 [01:02<26:29:17,  7.70s/it, loss=11.6807, acc=0.0003, iter_time=8.32s]Epoch 0:   0%|          | 8/12384 [01:02<26:39:38,  7.76s/it, loss=11.6807, acc=0.0003, iter_time=8.32s]Epoch 0:   0%|          | 8/12384 [01:09<26:39:38,  7.76s/it, loss=11.3789, acc=0.0005, iter_time=4.95s]Epoch 0:   0%|          | 9/12384 [01:09<26:32:57,  7.72s/it, loss=11.3789, acc=0.0005, iter_time=4.95s]Epoch 0:   0%|          | 9/12384 [01:17<26:32:57,  7.72s/it, loss=10.5343, acc=0.0003, iter_time=10.35s]Epoch 0:   0%|          | 10/12384 [01:17<26:52:52,  7.82s/it, loss=10.5343, acc=0.0003, iter_time=10.35s]Epoch 0:   0%|          | 10/12384 [01:25<26:52:52,  7.82s/it, loss=11.6157, acc=0.0004, iter_time=7.60s] Epoch 0:   0%|          | 11/12384 [01:25<26:39:20,  7.76s/it, loss=11.6157, acc=0.0004, iter_time=7.60s]Epoch 0:   0%|          | 11/12384 [01:33<26:39:20,  7.76s/it, loss=11.2005, acc=0.0002, iter_time=7.61s]Epoch 0:   0%|          | 12/12384 [01:33<26:30:56,  7.72s/it, loss=11.2005, acc=0.0002, iter_time=7.61s]Epoch 0:   0%|          | 12/12384 [01:40<26:30:56,  7.72s/it, loss=11.8510, acc=0.0011, iter_time=5.03s]Epoch 0:   0%|          | 13/12384 [01:40<26:28:03,  7.70s/it, loss=11.8510, acc=0.0011, iter_time=5.03s]Epoch 0:   0%|          | 13/12384 [01:48<26:28:03,  7.70s/it, loss=12.6667, acc=0.0004, iter_time=8.56s]Epoch 0:   0%|          | 14/12384 [01:48<26:24:01,  7.68s/it, loss=12.6667, acc=0.0004, iter_time=8.56s]Epoch 0:   0%|          | 14/12384 [01:56<26:24:01,  7.68s/it, loss=11.3266, acc=0.0002, iter_time=9.36s]Epoch 0:   0%|          | 15/12384 [01:56<26:21:37,  7.67s/it, loss=11.3266, acc=0.0002, iter_time=9.36s]Epoch 0:   0%|          | 15/12384 [02:03<26:21:37,  7.67s/it, loss=12.2026, acc=0.0000, iter_time=7.61s]Epoch 0:   0%|          | 16/12384 [02:03<26:18:20,  7.66s/it, loss=12.2026, acc=0.0000, iter_time=7.61s]Epoch 0:   0%|          | 16/12384 [02:11<26:18:20,  7.66s/it, loss=10.7707, acc=0.0003, iter_time=6.47s]Epoch 0:   0%|          | 17/12384 [02:11<26:16:34,  7.65s/it, loss=10.7707, acc=0.0003, iter_time=6.47s]Epoch 0:   0%|          | 17/12384 [02:19<26:16:34,  7.65s/it, loss=10.9714, acc=0.0001, iter_time=8.84s]Epoch 0:   0%|          | 18/12384 [02:19<26:15:13,  7.64s/it, loss=10.9714, acc=0.0001, iter_time=8.84s]Epoch 0:   0%|          | 18/12384 [02:26<26:15:13,  7.64s/it, loss=11.0658, acc=0.0002, iter_time=6.42s]Epoch 0:   0%|          | 19/12384 [02:26<26:18:08,  7.66s/it, loss=11.0658, acc=0.0002, iter_time=6.42s]Epoch 0:   0%|          | 19/12384 [02:34<26:18:08,  7.66s/it, loss=10.9882, acc=0.0011, iter_time=8.88s]Epoch 0:   0%|          | 20/12384 [02:34<26:18:16,  7.66s/it, loss=10.9882, acc=0.0011, iter_time=8.88s]Epoch 0:   0%|          | 20/12384 [02:42<26:18:16,  7.66s/it, loss=11.3002, acc=0.0000, iter_time=7.65s]Epoch 0:   0%|          | 21/12384 [02:42<26:14:15,  7.64s/it, loss=11.3002, acc=0.0000, iter_time=7.65s]Epoch 0:   0%|          | 21/12384 [02:49<26:14:15,  7.64s/it, loss=10.9236, acc=0.0005, iter_time=7.62s]Epoch 0:   0%|          | 22/12384 [02:49<26:14:09,  7.64s/it, loss=10.9236, acc=0.0005, iter_time=7.62s]Epoch 0:   0%|          | 22/12384 [02:57<26:14:09,  7.64s/it, loss=11.6876, acc=0.0004, iter_time=7.64s]Epoch 0:   0%|          | 23/12384 [02:57<26:13:31,  7.64s/it, loss=11.6876, acc=0.0004, iter_time=7.64s]Epoch 0:   0%|          | 23/12384 [03:04<26:13:31,  7.64s/it, loss=10.1433, acc=0.0008, iter_time=8.02s]Epoch 0:   0%|          | 24/12384 [03:04<26:12:22,  7.63s/it, loss=10.1433, acc=0.0008, iter_time=8.02s]Epoch 0:   0%|          | 24/12384 [03:12<26:12:22,  7.63s/it, loss=11.4336, acc=0.0007, iter_time=7.26s]Epoch 0:   0%|          | 25/12384 [03:12<26:12:18,  7.63s/it, loss=11.4336, acc=0.0007, iter_time=7.26s]Epoch 0:   0%|          | 25/12384 [03:20<26:12:18,  7.63s/it, loss=11.4074, acc=0.0004, iter_time=7.63s]Epoch 0:   0%|          | 26/12384 [03:20<26:12:54,  7.64s/it, loss=11.4074, acc=0.0004, iter_time=7.63s]Epoch 0:   0%|          | 26/12384 [03:27<26:12:54,  7.64s/it, loss=11.0375, acc=0.0009, iter_time=7.64s]Epoch 0:   0%|          | 27/12384 [03:27<26:12:45,  7.64s/it, loss=11.0375, acc=0.0009, iter_time=7.64s]Epoch 0:   0%|          | 27/12384 [03:35<26:12:45,  7.64s/it, loss=13.4672, acc=0.0000, iter_time=4.34s]Epoch 0:   0%|          | 28/12384 [03:35<26:12:58,  7.64s/it, loss=13.4672, acc=0.0000, iter_time=4.34s]Epoch 0:   0%|          | 28/12384 [03:43<26:12:58,  7.64s/it, loss=10.7064, acc=0.0000, iter_time=10.95s]Epoch 0:   0%|          | 29/12384 [03:43<26:15:30,  7.65s/it, loss=10.7064, acc=0.0000, iter_time=10.95s]Epoch 0:   0%|          | 29/12384 [03:50<26:15:30,  7.65s/it, loss=10.6316, acc=0.0007, iter_time=7.05s] Epoch 0:   0%|          | 30/12384 [03:50<26:15:49,  7.65s/it, loss=10.6316, acc=0.0007, iter_time=7.05s]Epoch 0:   0%|          | 30/12384 [03:58<26:15:49,  7.65s/it, loss=10.6725, acc=0.0005, iter_time=8.31s]Epoch 0:   0%|          | 31/12384 [03:58<26:18:34,  7.67s/it, loss=10.6725, acc=0.0005, iter_time=8.31s]Epoch 0:   0%|          | 31/12384 [04:06<26:18:34,  7.67s/it, loss=11.1389, acc=0.0004, iter_time=8.08s]Epoch 0:   0%|          | 32/12384 [04:06<26:18:20,  7.67s/it, loss=11.1389, acc=0.0004, iter_time=8.08s]Epoch 0:   0%|          | 32/12384 [04:13<26:18:20,  7.67s/it, loss=11.0649, acc=0.0006, iter_time=7.25s]Epoch 0:   0%|          | 33/12384 [04:13<26:16:12,  7.66s/it, loss=11.0649, acc=0.0006, iter_time=7.25s]Epoch 0:   0%|          | 33/12384 [04:21<26:16:12,  7.66s/it, loss=10.9385, acc=0.0015, iter_time=7.64s]Epoch 0:   0%|          | 34/12384 [04:21<26:16:33,  7.66s/it, loss=10.9385, acc=0.0015, iter_time=7.64s]Epoch 0:   0%|          | 34/12384 [04:29<26:16:33,  7.66s/it, loss=11.5272, acc=0.0016, iter_time=5.92s]Epoch 0:   0%|          | 35/12384 [04:29<26:15:45,  7.66s/it, loss=11.5272, acc=0.0016, iter_time=5.92s]Epoch 0:   0%|          | 35/12384 [04:37<26:15:45,  7.66s/it, loss=10.9093, acc=0.0003, iter_time=9.69s]Epoch 0:   0%|          | 36/12384 [04:37<26:32:15,  7.74s/it, loss=10.9093, acc=0.0003, iter_time=9.69s]Epoch 0:   0%|          | 36/12384 [04:45<26:32:15,  7.74s/it, loss=12.0866, acc=0.0007, iter_time=7.66s]Epoch 0:   0%|          | 37/12384 [04:45<26:49:10,  7.82s/it, loss=12.0866, acc=0.0007, iter_time=7.66s]Epoch 0:   0%|          | 37/12384 [04:52<26:49:10,  7.82s/it, loss=12.0058, acc=0.0010, iter_time=4.01s]Epoch 0:   0%|          | 38/12384 [04:52<26:39:22,  7.77s/it, loss=12.0058, acc=0.0010, iter_time=4.01s]Epoch 0:   0%|          | 38/12384 [05:00<26:39:22,  7.77s/it, loss=11.0774, acc=0.0005, iter_time=11.59s]Epoch 0:   0%|          | 39/12384 [05:00<26:30:19,  7.73s/it, loss=11.0774, acc=0.0005, iter_time=11.59s]Epoch 0:   0%|          | 39/12384 [05:07<26:30:19,  7.73s/it, loss=11.2613, acc=0.0001, iter_time=8.04s] Epoch 0:   0%|          | 40/12384 [05:07<26:25:19,  7.71s/it, loss=11.2613, acc=0.0001, iter_time=8.04s]Epoch 0:   0%|          | 40/12384 [05:15<26:25:19,  7.71s/it, loss=10.6729, acc=0.0005, iter_time=7.24s]Epoch 0:   0%|          | 41/12384 [05:15<26:20:47,  7.68s/it, loss=10.6729, acc=0.0005, iter_time=7.24s]Epoch 0:   0%|          | 41/12384 [05:23<26:20:47,  7.68s/it, loss=10.2672, acc=0.0007, iter_time=7.62s]Epoch 0:   0%|          | 42/12384 [05:23<26:15:46,  7.66s/it, loss=10.2672, acc=0.0007, iter_time=7.62s]Epoch 0:   0%|          | 42/12384 [05:30<26:15:46,  7.66s/it, loss=11.5034, acc=0.0001, iter_time=7.04s]Epoch 0:   0%|          | 43/12384 [05:30<26:15:27,  7.66s/it, loss=11.5034, acc=0.0001, iter_time=7.04s]Epoch 0:   0%|          | 43/12384 [05:38<26:15:27,  7.66s/it, loss=11.4143, acc=0.0005, iter_time=8.24s]Epoch 0:   0%|          | 44/12384 [05:38<26:12:08,  7.64s/it, loss=11.4143, acc=0.0005, iter_time=8.24s]Epoch 0:   0%|          | 44/12384 [05:46<26:12:08,  7.64s/it, loss=11.8333, acc=0.0000, iter_time=7.62s]Epoch 0:   0%|          | 45/12384 [05:46<26:10:39,  7.64s/it, loss=11.8333, acc=0.0000, iter_time=7.62s]Epoch 0:   0%|          | 45/12384 [05:53<26:10:39,  7.64s/it, loss=12.4923, acc=0.0009, iter_time=4.75s]Epoch 0:   0%|          | 46/12384 [05:53<26:10:04,  7.64s/it, loss=12.4923, acc=0.0009, iter_time=4.75s]Epoch 0:   0%|          | 46/12384 [06:01<26:10:04,  7.64s/it, loss=10.7213, acc=0.0009, iter_time=10.48s]Epoch 0:   0%|          | 47/12384 [06:01<26:09:32,  7.63s/it, loss=10.7213, acc=0.0009, iter_time=10.48s]Epoch 0:   0%|          | 47/12384 [06:08<26:09:32,  7.63s/it, loss=11.5314, acc=0.0005, iter_time=8.04s] Epoch 0:   0%|          | 48/12384 [06:08<26:08:16,  7.63s/it, loss=11.5314, acc=0.0005, iter_time=8.04s]Epoch 0:   0%|          | 48/12384 [06:16<26:08:16,  7.63s/it, loss=12.5196, acc=0.0004, iter_time=5.45s]Epoch 0:   0%|          | 49/12384 [06:16<26:10:43,  7.64s/it, loss=12.5196, acc=0.0004, iter_time=5.45s]Epoch 0:   0%|          | 49/12384 [06:24<26:10:43,  7.64s/it, loss=12.3785, acc=0.0006, iter_time=9.85s]Epoch 0:   0%|          | 50/12384 [06:24<26:09:30,  7.64s/it, loss=12.3785, acc=0.0006, iter_time=9.85s]Epoch 0:   0%|          | 50/12384 [06:31<26:09:30,  7.64s/it, loss=11.2568, acc=0.0005, iter_time=4.59s]Epoch 0:   0%|          | 51/12384 [06:31<26:09:54,  7.64s/it, loss=11.2568, acc=0.0005, iter_time=4.59s]Epoch 0:   0%|          | 51/12384 [06:39<26:09:54,  7.64s/it, loss=12.6810, acc=0.0005, iter_time=9.62s]Epoch 0:   0%|          | 52/12384 [06:39<26:08:42,  7.63s/it, loss=12.6810, acc=0.0005, iter_time=9.62s]Epoch 0:   0%|          | 52/12384 [06:47<26:08:42,  7.63s/it, loss=11.2767, acc=0.0006, iter_time=8.28s]Epoch 0:   0%|          | 53/12384 [06:47<26:07:18,  7.63s/it, loss=11.2767, acc=0.0006, iter_time=8.28s]Epoch 0:   0%|          | 53/12384 [06:54<26:07:18,  7.63s/it, loss=12.0088, acc=0.0004, iter_time=4.82s]Epoch 0:   0%|          | 54/12384 [06:54<26:06:35,  7.62s/it, loss=12.0088, acc=0.0004, iter_time=4.82s]Epoch 0:   0%|          | 54/12384 [07:02<26:06:35,  7.62s/it, loss=12.1385, acc=0.0004, iter_time=10.43s]Epoch 0:   0%|          | 55/12384 [07:02<26:07:25,  7.63s/it, loss=12.1385, acc=0.0004, iter_time=10.43s]Epoch 0:   0%|          | 55/12384 [07:10<26:07:25,  7.63s/it, loss=10.7962, acc=0.0001, iter_time=8.01s] Epoch 0:   0%|          | 56/12384 [07:10<26:12:48,  7.65s/it, loss=10.7962, acc=0.0001, iter_time=8.01s]Epoch 0:   0%|          | 56/12384 [07:17<26:12:48,  7.65s/it, loss=11.5871, acc=0.0005, iter_time=6.45s]Epoch 0:   0%|          | 57/12384 [07:17<26:10:12,  7.64s/it, loss=11.5871, acc=0.0005, iter_time=6.45s]Epoch 0:   0%|          | 57/12384 [07:25<26:10:12,  7.64s/it, loss=14.1009, acc=0.0005, iter_time=5.16s]Epoch 0:   0%|          | 58/12384 [07:25<26:10:08,  7.64s/it, loss=14.1009, acc=0.0005, iter_time=5.16s]Epoch 0:   0%|          | 58/12384 [07:33<26:10:08,  7.64s/it, loss=10.7893, acc=0.0008, iter_time=10.96s]Epoch 0:   0%|          | 59/12384 [07:33<26:08:22,  7.64s/it, loss=10.7893, acc=0.0008, iter_time=10.96s]Epoch 0:   0%|          | 59/12384 [07:40<26:08:22,  7.64s/it, loss=10.9049, acc=0.0003, iter_time=7.62s] Epoch 0:   0%|          | 60/12384 [07:40<26:05:26,  7.62s/it, loss=10.9049, acc=0.0003, iter_time=7.62s]Epoch 0:   0%|          | 60/12384 [07:48<26:05:26,  7.62s/it, loss=11.4199, acc=0.0004, iter_time=6.67s]Epoch 0:   0%|          | 61/12384 [07:48<26:09:03,  7.64s/it, loss=11.4199, acc=0.0004, iter_time=6.67s]Epoch 0:   0%|          | 61/12384 [07:56<26:09:03,  7.64s/it, loss=13.1510, acc=0.0002, iter_time=7.12s]Epoch 0:   1%|          | 62/12384 [07:56<26:28:37,  7.74s/it, loss=13.1510, acc=0.0002, iter_time=7.12s]Epoch 0:   1%|          | 62/12384 [08:03<26:28:37,  7.74s/it, loss=10.5607, acc=0.0006, iter_time=9.46s]Epoch 0:   1%|          | 63/12384 [08:03<26:21:20,  7.70s/it, loss=10.5607, acc=0.0006, iter_time=9.46s]Epoch 0:   1%|          | 63/12384 [08:11<26:21:20,  7.70s/it, loss=11.2135, acc=0.0007, iter_time=7.68s]Epoch 0:   1%|          | 64/12384 [08:11<26:17:46,  7.68s/it, loss=11.2135, acc=0.0007, iter_time=7.68s]Epoch 0:   1%|          | 64/12384 [08:19<26:17:46,  7.68s/it, loss=11.6287, acc=0.0007, iter_time=7.01s]Epoch 0:   1%|          | 65/12384 [08:19<26:14:43,  7.67s/it, loss=11.6287, acc=0.0007, iter_time=7.01s]Epoch 0:   1%|          | 65/12384 [08:26<26:14:43,  7.67s/it, loss=11.7011, acc=0.0006, iter_time=8.20s]Epoch 0:   1%|          | 66/12384 [08:26<26:13:16,  7.66s/it, loss=11.7011, acc=0.0006, iter_time=8.20s]Epoch 0:   1%|          | 66/12384 [08:34<26:13:16,  7.66s/it, loss=11.1116, acc=0.0009, iter_time=7.66s]Epoch 0:   1%|          | 67/12384 [08:34<26:10:08,  7.65s/it, loss=11.1116, acc=0.0009, iter_time=7.66s]Epoch 0:   1%|          | 67/12384 [08:42<26:10:08,  7.65s/it, loss=10.5857, acc=0.0003, iter_time=7.62s]Epoch 0:   1%|          | 68/12384 [08:42<26:08:44,  7.64s/it, loss=10.5857, acc=0.0003, iter_time=7.62s]Epoch 0:   1%|          | 68/12384 [08:49<26:08:44,  7.64s/it, loss=12.2984, acc=0.0002, iter_time=6.42s]Epoch 0:   1%|          | 69/12384 [08:49<26:10:22,  7.65s/it, loss=12.2984, acc=0.0002, iter_time=6.42s]Epoch 0:   1%|          | 69/12384 [08:57<26:10:22,  7.65s/it, loss=10.6612, acc=0.0003, iter_time=8.87s]Epoch 0:   1%|          | 70/12384 [08:57<26:10:57,  7.65s/it, loss=10.6612, acc=0.0003, iter_time=8.87s]Epoch 0:   1%|          | 70/12384 [09:05<26:10:57,  7.65s/it, loss=10.8825, acc=0.0005, iter_time=7.65s]Epoch 0:   1%|          | 71/12384 [09:05<26:10:27,  7.65s/it, loss=10.8825, acc=0.0005, iter_time=7.65s]Epoch 0:   1%|          | 71/12384 [09:12<26:10:27,  7.65s/it, loss=10.7391, acc=0.0006, iter_time=8.04s]Epoch 0:   1%|          | 72/12384 [09:12<26:08:05,  7.64s/it, loss=10.7391, acc=0.0006, iter_time=8.04s]Epoch 0:   1%|          | 72/12384 [09:20<26:08:05,  7.64s/it, loss=12.1920, acc=0.0007, iter_time=5.13s]Epoch 0:   1%|          | 73/12384 [09:20<26:11:50,  7.66s/it, loss=12.1920, acc=0.0007, iter_time=5.13s]Epoch 0:   1%|          | 73/12384 [09:27<26:11:50,  7.66s/it, loss=10.5516, acc=0.0004, iter_time=9.80s]Epoch 0:   1%|          | 74/12384 [09:27<26:10:12,  7.65s/it, loss=10.5516, acc=0.0004, iter_time=9.80s]Epoch 0:   1%|          | 74/12384 [09:35<26:10:12,  7.65s/it, loss=10.1934, acc=0.0006, iter_time=7.66s]Epoch 0:   1%|          | 75/12384 [09:35<26:13:17,  7.67s/it, loss=10.1934, acc=0.0006, iter_time=7.66s]Epoch 0:   1%|          | 75/12384 [09:43<26:13:17,  7.67s/it, loss=11.6410, acc=0.0000, iter_time=7.04s]Epoch 0:   1%|          | 76/12384 [09:43<26:09:20,  7.65s/it, loss=11.6410, acc=0.0000, iter_time=7.04s]Epoch 0:   1%|          | 76/12384 [09:50<26:09:20,  7.65s/it, loss=10.9323, acc=0.0004, iter_time=7.31s]Epoch 0:   1%|          | 77/12384 [09:50<26:07:08,  7.64s/it, loss=10.9323, acc=0.0004, iter_time=7.31s]Epoch 0:   1%|          | 77/12384 [09:58<26:07:08,  7.64s/it, loss=11.0105, acc=0.0003, iter_time=8.54s]Epoch 0:   1%|          | 78/12384 [09:58<26:05:41,  7.63s/it, loss=11.0105, acc=0.0003, iter_time=8.54s]Epoch 0:   1%|          | 78/12384 [10:06<26:05:41,  7.63s/it, loss=10.8721, acc=0.0004, iter_time=7.63s]Epoch 0:   1%|          | 79/12384 [10:06<26:05:22,  7.63s/it, loss=10.8721, acc=0.0004, iter_time=7.63s]Epoch 0:   1%|          | 79/12384 [10:13<26:05:22,  7.63s/it, loss=11.3602, acc=0.0013, iter_time=7.61s]Epoch 0:   1%|          | 80/12384 [10:13<26:05:57,  7.64s/it, loss=11.3602, acc=0.0013, iter_time=7.61s]Epoch 0:   1%|          | 80/12384 [10:21<26:05:57,  7.64s/it, loss=12.4490, acc=0.0004, iter_time=4.84s]Epoch 0:   1%|          | 81/12384 [10:21<26:05:10,  7.63s/it, loss=12.4490, acc=0.0004, iter_time=4.84s]Epoch 0:   1%|          | 81/12384 [10:29<26:05:10,  7.63s/it, loss=11.2284, acc=0.0006, iter_time=10.44s]Epoch 0:   1%|          | 82/12384 [10:29<26:04:56,  7.63s/it, loss=11.2284, acc=0.0006, iter_time=10.44s]Epoch 0:   1%|          | 82/12384 [10:36<26:04:56,  7.63s/it, loss=11.5251, acc=0.0009, iter_time=7.66s] Epoch 0:   1%|          | 83/12384 [10:36<26:05:22,  7.64s/it, loss=11.5251, acc=0.0009, iter_time=7.66s]Epoch 0:   1%|          | 83/12384 [10:44<26:05:22,  7.64s/it, loss=11.2945, acc=0.0005, iter_time=7.31s]Epoch 0:   1%|          | 84/12384 [10:44<26:05:29,  7.64s/it, loss=11.2945, acc=0.0005, iter_time=7.31s]Epoch 0:   1%|          | 84/12384 [10:51<26:05:29,  7.64s/it, loss=10.4840, acc=0.0002, iter_time=7.96s]Epoch 0:   1%|          | 85/12384 [10:51<26:04:50,  7.63s/it, loss=10.4840, acc=0.0002, iter_time=7.96s]Epoch 0:   1%|          | 85/12384 [10:59<26:04:50,  7.63s/it, loss=10.6111, acc=0.0000, iter_time=7.63s]Epoch 0:   1%|          | 86/12384 [10:59<26:04:25,  7.63s/it, loss=10.6111, acc=0.0000, iter_time=7.63s]Epoch 0:   1%|          | 86/12384 [11:07<26:04:25,  7.63s/it, loss=10.8529, acc=0.0007, iter_time=7.63s]Epoch 0:   1%|          | 87/12384 [11:07<26:06:07,  7.64s/it, loss=10.8529, acc=0.0007, iter_time=7.63s]Epoch 0:   1%|          | 87/12384 [11:14<26:06:07,  7.64s/it, loss=11.2738, acc=0.0003, iter_time=8.06s]Epoch 0:   1%|          | 88/12384 [11:14<26:05:24,  7.64s/it, loss=11.2738, acc=0.0003, iter_time=8.06s]Epoch 0:   1%|          | 88/12384 [11:22<26:05:24,  7.64s/it, loss=11.2256, acc=0.0007, iter_time=5.78s]Epoch 0:   1%|          | 89/12384 [11:22<26:25:48,  7.74s/it, loss=11.2256, acc=0.0007, iter_time=5.78s]Epoch 0:   1%|          | 89/12384 [11:30<26:25:48,  7.74s/it, loss=11.0972, acc=0.0007, iter_time=9.42s]Epoch 0:   1%|          | 90/12384 [11:30<26:19:15,  7.71s/it, loss=11.0972, acc=0.0007, iter_time=9.42s]Epoch 0:   1%|          | 90/12384 [11:38<26:19:15,  7.71s/it, loss=10.9571, acc=0.0001, iter_time=7.64s]Epoch 0:   1%|          | 91/12384 [11:38<26:13:34,  7.68s/it, loss=10.9571, acc=0.0001, iter_time=7.64s]Epoch 0:   1%|          | 91/12384 [11:45<26:13:34,  7.68s/it, loss=10.6801, acc=0.0009, iter_time=7.60s]Epoch 0:   1%|          | 92/12384 [11:45<26:09:53,  7.66s/it, loss=10.6801, acc=0.0009, iter_time=7.60s]Epoch 0:   1%|          | 92/12384 [11:53<26:09:53,  7.66s/it, loss=12.3925, acc=0.0003, iter_time=5.89s]Epoch 0:   1%|          | 93/12384 [11:53<26:09:45,  7.66s/it, loss=12.3925, acc=0.0003, iter_time=5.89s]Epoch 0:   1%|          | 93/12384 [12:01<26:09:45,  7.66s/it, loss=10.8816, acc=0.0004, iter_time=9.39s]Epoch 0:   1%|          | 94/12384 [12:01<26:08:02,  7.66s/it, loss=10.8816, acc=0.0004, iter_time=9.39s]Epoch 0:   1%|          | 94/12384 [12:08<26:08:02,  7.66s/it, loss=12.1385, acc=0.0006, iter_time=6.20s]Epoch 0:   1%|          | 95/12384 [12:08<26:08:16,  7.66s/it, loss=12.1385, acc=0.0006, iter_time=6.20s]Epoch 0:   1%|          | 95/12384 [12:16<26:08:16,  7.66s/it, loss=12.2838, acc=0.0003, iter_time=9.09s]Epoch 0:   1%|          | 96/12384 [12:16<26:07:25,  7.65s/it, loss=12.2838, acc=0.0003, iter_time=9.09s]Epoch 0:   1%|          | 96/12384 [12:23<26:07:25,  7.65s/it, loss=12.4777, acc=0.0002, iter_time=4.85s]Epoch 0:   1%|          | 97/12384 [12:23<26:06:29,  7.65s/it, loss=12.4777, acc=0.0002, iter_time=4.85s]Epoch 0:   1%|          | 97/12384 [12:31<26:06:29,  7.65s/it, loss=11.9554, acc=0.0004, iter_time=10.47s]Epoch 0:   1%|          | 98/12384 [12:31<26:04:05,  7.64s/it, loss=11.9554, acc=0.0004, iter_time=10.47s]Epoch 0:   1%|          | 98/12384 [12:39<26:04:05,  7.64s/it, loss=10.9768, acc=0.0004, iter_time=7.63s] Epoch 0:   1%|          | 99/12384 [12:39<26:04:48,  7.64s/it, loss=10.9768, acc=0.0004, iter_time=7.63s]Epoch 0:   1%|          | 99/12384 [12:46<26:04:48,  7.64s/it, loss=10.7849, acc=0.0000, iter_time=8.05s]Epoch 0:   1%|          | 100/12384 [12:46<26:03:52,  7.64s/it, loss=10.7849, acc=0.0000, iter_time=8.05s]Epoch 0:   1%|          | 100/12384 [12:54<26:03:52,  7.64s/it, loss=11.4376, acc=0.0003, iter_time=7.24s]Epoch 0:   1%|          | 101/12384 [12:54<26:03:53,  7.64s/it, loss=11.4376, acc=0.0003, iter_time=7.24s]Epoch 0:   1%|          | 101/12384 [13:02<26:03:53,  7.64s/it, loss=11.4607, acc=0.0003, iter_time=7.64s]Epoch 0:   1%|          | 102/12384 [13:02<26:05:40,  7.65s/it, loss=11.4607, acc=0.0003, iter_time=7.64s]Epoch 0:   1%|          | 102/12384 [13:09<26:05:40,  7.65s/it, loss=11.0372, acc=0.0003, iter_time=7.66s]Epoch 0:   1%|          | 103/12384 [13:09<26:04:55,  7.65s/it, loss=11.0372, acc=0.0003, iter_time=7.66s]Epoch 0:   1%|          | 103/12384 [13:17<26:04:55,  7.65s/it, loss=11.2025, acc=0.0004, iter_time=8.03s]Epoch 0:   1%|          | 104/12384 [13:17<26:04:11,  7.64s/it, loss=11.2025, acc=0.0004, iter_time=8.03s]Epoch 0:   1%|          | 104/12384 [13:25<26:04:11,  7.64s/it, loss=12.3039, acc=0.0006, iter_time=4.90s]Epoch 0:   1%|          | 105/12384 [13:25<26:04:23,  7.64s/it, loss=12.3039, acc=0.0006, iter_time=4.90s]Epoch 0:   1%|          | 105/12384 [13:32<26:04:23,  7.64s/it, loss=10.6288, acc=0.0004, iter_time=9.11s]Epoch 0:   1%|          | 106/12384 [13:32<26:06:49,  7.66s/it, loss=10.6288, acc=0.0004, iter_time=9.11s]Epoch 0:   1%|          | 106/12384 [13:40<26:06:49,  7.66s/it, loss=11.4025, acc=0.0003, iter_time=8.57s]Epoch 0:   1%|          | 107/12384 [13:40<26:11:31,  7.68s/it, loss=11.4025, acc=0.0003, iter_time=8.57s]Epoch 0:   1%|          | 107/12384 [13:48<26:11:31,  7.68s/it, loss=10.4986, acc=0.0008, iter_time=7.75s]Epoch 0:   1%|          | 108/12384 [13:48<26:08:36,  7.67s/it, loss=10.4986, acc=0.0008, iter_time=7.75s]Epoch 0:   1%|          | 108/12384 [13:55<26:08:36,  7.67s/it, loss=10.0305, acc=0.0009, iter_time=7.62s]Epoch 0:   1%|          | 109/12384 [13:55<26:06:18,  7.66s/it, loss=10.0305, acc=0.0009, iter_time=7.62s]Epoch 0:   1%|          | 109/12384 [14:03<26:06:18,  7.66s/it, loss=10.4411, acc=0.0003, iter_time=7.66s]Epoch 0:   1%|          | 110/12384 [14:03<26:05:16,  7.65s/it, loss=10.4411, acc=0.0003, iter_time=7.66s]Epoch 0:   1%|          | 110/12384 [14:11<26:05:16,  7.65s/it, loss=11.6141, acc=0.0005, iter_time=7.70s]Epoch 0:   1%|          | 111/12384 [14:11<26:08:19,  7.67s/it, loss=11.6141, acc=0.0005, iter_time=7.70s]Epoch 0:   1%|          | 111/12384 [14:18<26:08:19,  7.67s/it, loss=11.2663, acc=0.0000, iter_time=8.01s]Epoch 0:   1%|          | 112/12384 [14:18<26:06:23,  7.66s/it, loss=11.2663, acc=0.0000, iter_time=8.01s]Epoch 0:   1%|          | 112/12384 [14:26<26:06:23,  7.66s/it, loss=11.4721, acc=0.0005, iter_time=5.13s]Epoch 0:   1%|          | 113/12384 [14:26<26:04:23,  7.65s/it, loss=11.4721, acc=0.0005, iter_time=5.13s]Epoch 0:   1%|          | 113/12384 [14:34<26:04:23,  7.65s/it, loss=11.8473, acc=0.0004, iter_time=6.20s]Epoch 0:   1%|          | 114/12384 [14:34<26:02:36,  7.64s/it, loss=11.8473, acc=0.0004, iter_time=6.20s]Epoch 0:   1%|          | 114/12384 [14:41<26:02:36,  7.64s/it, loss=11.5466, acc=0.0006, iter_time=7.83s]Epoch 0:   1%|          | 115/12384 [14:41<26:01:00,  7.63s/it, loss=11.5466, acc=0.0006, iter_time=7.83s]Epoch 0:   1%|          | 115/12384 [14:49<26:01:00,  7.63s/it, loss=11.3700, acc=0.0006, iter_time=10.94s]Epoch 0:   1%|          | 116/12384 [14:49<26:23:31,  7.74s/it, loss=11.3700, acc=0.0006, iter_time=10.94s]Epoch 0:   1%|          | 116/12384 [14:57<26:23:31,  7.74s/it, loss=10.0672, acc=0.0009, iter_time=8.01s] Epoch 0:   1%|          | 117/12384 [14:57<26:14:58,  7.70s/it, loss=10.0672, acc=0.0009, iter_time=8.01s]Epoch 0:   1%|          | 117/12384 [15:04<26:14:58,  7.70s/it, loss=10.2974, acc=0.0002, iter_time=7.60s]Epoch 0:   1%|          | 118/12384 [15:04<26:12:54,  7.69s/it, loss=10.2974, acc=0.0002, iter_time=7.60s]Epoch 0:   1%|          | 118/12384 [15:12<26:12:54,  7.69s/it, loss=11.7279, acc=0.0002, iter_time=6.46s]Epoch 0:   1%|          | 119/12384 [15:12<26:11:26,  7.69s/it, loss=11.7279, acc=0.0002, iter_time=6.46s]Epoch 0:   1%|          | 119/12384 [15:20<26:11:26,  7.69s/it, loss=9.5479, acc=0.0020, iter_time=9.27s] Epoch 0:   1%|          | 120/12384 [15:20<26:11:33,  7.69s/it, loss=9.5479, acc=0.0020, iter_time=9.27s]Epoch 0:   1%|          | 120/12384 [15:27<26:11:33,  7.69s/it, loss=11.3597, acc=0.0003, iter_time=7.29s]Epoch 0:   1%|          | 121/12384 [15:27<26:06:25,  7.66s/it, loss=11.3597, acc=0.0003, iter_time=7.29s]Epoch 0:   1%|          | 121/12384 [15:35<26:06:25,  7.66s/it, loss=10.2827, acc=0.0015, iter_time=7.62s]Epoch 0:   1%|          | 122/12384 [15:35<26:04:38,  7.66s/it, loss=10.2827, acc=0.0015, iter_time=7.62s]Epoch 0:   1%|          | 122/12384 [15:43<26:04:38,  7.66s/it, loss=11.4825, acc=0.0000, iter_time=4.05s]Epoch 0:   1%|          | 123/12384 [15:43<26:01:14,  7.64s/it, loss=11.4825, acc=0.0000, iter_time=4.05s]Epoch 0:   1%|          | 123/12384 [15:50<26:01:14,  7.64s/it, loss=10.4938, acc=0.0008, iter_time=11.19s]Epoch 0:   1%|          | 124/12384 [15:50<26:02:12,  7.65s/it, loss=10.4938, acc=0.0008, iter_time=11.19s]Epoch 0:   1%|          | 124/12384 [15:58<26:02:12,  7.65s/it, loss=10.7784, acc=0.0002, iter_time=7.65s] Epoch 0:   1%|          | 125/12384 [15:58<25:59:50,  7.63s/it, loss=10.7784, acc=0.0002, iter_time=7.65s]Epoch 0:   1%|          | 125/12384 [16:06<25:59:50,  7.63s/it, loss=11.1809, acc=0.0004, iter_time=4.00s]Epoch 0:   1%|          | 126/12384 [16:06<26:03:43,  7.65s/it, loss=11.1809, acc=0.0004, iter_time=4.00s]Epoch 0:   1%|          | 126/12384 [16:13<26:03:43,  7.65s/it, loss=9.8621, acc=0.0010, iter_time=11.32s]Epoch 0:   1%|          | 127/12384 [16:13<26:04:01,  7.66s/it, loss=9.8621, acc=0.0010, iter_time=11.32s]Epoch 0:   1%|          | 127/12384 [16:21<26:04:01,  7.66s/it, loss=9.6572, acc=0.0019, iter_time=8.05s] Epoch 0:   1%|          | 128/12384 [16:21<26:03:51,  7.66s/it, loss=9.6572, acc=0.0019, iter_time=8.05s]Epoch 0:   1%|          | 128/12384 [16:29<26:03:51,  7.66s/it, loss=9.7301, acc=0.0003, iter_time=7.26s]Epoch 0:   1%|          | 129/12384 [16:29<26:03:13,  7.65s/it, loss=9.7301, acc=0.0003, iter_time=7.26s]Epoch 0:   1%|          | 129/12384 [16:36<26:03:13,  7.65s/it, loss=11.0160, acc=0.0008, iter_time=4.07s]Epoch 0:   1%|          | 130/12384 [16:36<26:01:29,  7.65s/it, loss=11.0160, acc=0.0008, iter_time=4.07s]Epoch 0:   1%|          | 130/12384 [16:44<26:01:29,  7.65s/it, loss=10.1317, acc=0.0012, iter_time=11.20s]Epoch 0:   1%|          | 131/12384 [16:44<25:58:40,  7.63s/it, loss=10.1317, acc=0.0012, iter_time=11.20s]Epoch 0:   1%|          | 131/12384 [16:51<25:58:40,  7.63s/it, loss=10.1372, acc=0.0007, iter_time=7.62s] Epoch 0:   1%|          | 132/12384 [16:51<25:58:53,  7.63s/it, loss=10.1372, acc=0.0007, iter_time=7.62s]Epoch 0:   1%|          | 132/12384 [16:59<25:58:53,  7.63s/it, loss=11.0534, acc=0.0004, iter_time=7.64s]Epoch 0:   1%|          | 133/12384 [16:59<25:57:38,  7.63s/it, loss=11.0534, acc=0.0004, iter_time=7.64s]Epoch 0:   1%|          | 133/12384 [17:07<25:57:38,  7.63s/it, loss=10.4665, acc=0.0001, iter_time=7.62s]Epoch 0:   1%|          | 134/12384 [17:07<25:57:10,  7.63s/it, loss=10.4665, acc=0.0001, iter_time=7.62s]Epoch 0:   1%|          | 134/12384 [17:14<25:57:10,  7.63s/it, loss=10.1935, acc=0.0002, iter_time=7.61s]Epoch 0:   1%|          | 135/12384 [17:14<25:57:13,  7.63s/it, loss=10.1935, acc=0.0002, iter_time=7.61s]Epoch 0:   1%|          | 135/12384 [17:22<25:57:13,  7.63s/it, loss=10.0622, acc=0.0014, iter_time=8.00s]Epoch 0:   1%|          | 136/12384 [17:22<25:55:40,  7.62s/it, loss=10.0622, acc=0.0014, iter_time=8.00s]Epoch 0:   1%|          | 136/12384 [17:30<25:55:40,  7.62s/it, loss=9.8737, acc=0.0004, iter_time=7.23s] Epoch 0:   1%|          | 137/12384 [17:30<25:55:40,  7.62s/it, loss=9.8737, acc=0.0004, iter_time=7.23s]Epoch 0:   1%|          | 137/12384 [17:37<25:55:40,  7.62s/it, loss=9.8373, acc=0.0002, iter_time=7.60s]Epoch 0:   1%|          | 138/12384 [17:37<25:57:43,  7.63s/it, loss=9.8373, acc=0.0002, iter_time=7.60s]Epoch 0:   1%|          | 138/12384 [17:45<25:57:43,  7.63s/it, loss=11.1797, acc=0.0004, iter_time=5.42s]Epoch 0:   1%|          | 139/12384 [17:45<25:57:27,  7.63s/it, loss=11.1797, acc=0.0004, iter_time=5.42s]Epoch 0:   1%|          | 139/12384 [17:52<25:57:27,  7.63s/it, loss=10.2283, acc=0.0009, iter_time=9.90s]Epoch 0:   1%|          | 140/12384 [17:52<25:57:42,  7.63s/it, loss=10.2283, acc=0.0009, iter_time=9.90s]Epoch 0:   1%|          | 140/12384 [18:00<25:57:42,  7.63s/it, loss=9.6406, acc=0.0007, iter_time=7.62s] Epoch 0:   1%|          | 141/12384 [18:00<25:56:35,  7.63s/it, loss=9.6406, acc=0.0007, iter_time=7.62s]Epoch 0:   1%|          | 141/12384 [18:08<25:56:35,  7.63s/it, loss=9.4581, acc=0.0005, iter_time=7.94s]Epoch 0:   1%|          | 142/12384 [18:08<26:15:45,  7.72s/it, loss=9.4581, acc=0.0005, iter_time=7.94s]Epoch 0:   1%|          | 142/12384 [18:16<26:15:45,  7.72s/it, loss=10.2313, acc=0.0004, iter_time=7.64s]Epoch 0:   1%|          | 143/12384 [18:16<26:10:37,  7.70s/it, loss=10.2313, acc=0.0004, iter_time=7.64s]Epoch 0:   1%|          | 143/12384 [18:23<26:10:37,  7.70s/it, loss=10.6638, acc=0.0008, iter_time=8.01s]Epoch 0:   1%|          | 144/12384 [18:23<26:04:59,  7.67s/it, loss=10.6638, acc=0.0008, iter_time=8.01s]Epoch 0:   1%|          | 144/12384 [18:31<26:04:59,  7.67s/it, loss=10.3811, acc=0.0003, iter_time=5.72s]Epoch 0:   1%|          | 145/12384 [18:31<26:04:45,  7.67s/it, loss=10.3811, acc=0.0003, iter_time=5.72s]Epoch 0:   1%|          | 145/12384 [18:39<26:04:45,  7.67s/it, loss=10.4208, acc=0.0005, iter_time=7.06s]Epoch 0:   1%|          | 146/12384 [18:39<26:03:27,  7.67s/it, loss=10.4208, acc=0.0005, iter_time=7.06s]Epoch 0:   1%|          | 146/12384 [18:46<26:03:27,  7.67s/it, loss=10.2973, acc=0.0005, iter_time=9.76s]Epoch 0:   1%|          | 147/12384 [18:46<26:03:35,  7.67s/it, loss=10.2973, acc=0.0005, iter_time=9.76s]Epoch 0:   1%|          | 147/12384 [18:54<26:03:35,  7.67s/it, loss=10.8811, acc=0.0005, iter_time=5.57s]Epoch 0:   1%|          | 148/12384 [18:54<26:01:39,  7.66s/it, loss=10.8811, acc=0.0005, iter_time=5.57s]Epoch 0:   1%|          | 148/12384 [19:02<26:01:39,  7.66s/it, loss=9.8736, acc=0.0004, iter_time=9.75s] Epoch 0:   1%|          | 149/12384 [19:02<26:01:06,  7.66s/it, loss=9.8736, acc=0.0004, iter_time=9.75s]Epoch 0:   1%|          | 149/12384 [19:09<26:01:06,  7.66s/it, loss=9.4176, acc=0.0008, iter_time=8.07s]Epoch 0:   1%|          | 150/12384 [19:09<25:59:58,  7.65s/it, loss=9.4176, acc=0.0008, iter_time=8.07s]Epoch 0:   1%|          | 150/12384 [19:17<25:59:58,  7.65s/it, loss=9.5935, acc=0.0012, iter_time=7.24s]Epoch 0:   1%|          | 151/12384 [19:17<26:00:40,  7.65s/it, loss=9.5935, acc=0.0012, iter_time=7.24s]Epoch 0:   1%|          | 151/12384 [19:24<26:00:40,  7.65s/it, loss=10.0799, acc=0.0001, iter_time=8.03s]Epoch 0:   1%|          | 152/12384 [19:24<25:57:28,  7.64s/it, loss=10.0799, acc=0.0001, iter_time=8.03s]Epoch 0:   1%|          | 152/12384 [19:32<25:57:28,  7.64s/it, loss=10.7032, acc=0.0000, iter_time=5.11s]Epoch 0:   1%|          | 153/12384 [19:32<25:58:43,  7.65s/it, loss=10.7032, acc=0.0000, iter_time=5.11s]Epoch 0:   1%|          | 153/12384 [19:40<25:58:43,  7.65s/it, loss=11.3994, acc=0.0005, iter_time=7.22s]Epoch 0:   1%|          | 154/12384 [19:40<25:57:32,  7.64s/it, loss=11.3994, acc=0.0005, iter_time=7.22s]Epoch 0:   1%|          | 154/12384 [19:47<25:57:32,  7.64s/it, loss=9.8630, acc=0.0006, iter_time=9.57s] Epoch 0:   1%|▏         | 155/12384 [19:47<25:57:18,  7.64s/it, loss=9.8630, acc=0.0006, iter_time=9.57s]Epoch 0:   1%|▏         | 155/12384 [19:55<25:57:18,  7.64s/it, loss=9.9163, acc=0.0012, iter_time=4.86s]Epoch 0:   1%|▏         | 156/12384 [19:55<25:54:38,  7.63s/it, loss=9.9163, acc=0.0012, iter_time=4.86s]Epoch 0:   1%|▏         | 156/12384 [20:03<25:54:38,  7.63s/it, loss=10.2178, acc=0.0009, iter_time=10.06s]Epoch 0:   1%|▏         | 157/12384 [20:03<25:54:09,  7.63s/it, loss=10.2178, acc=0.0009, iter_time=10.06s]Epoch 0:   1%|▏         | 157/12384 [20:10<25:54:09,  7.63s/it, loss=8.8109, acc=0.0006, iter_time=8.55s]  Epoch 0:   1%|▏         | 158/12384 [20:10<25:54:06,  7.63s/it, loss=8.8109, acc=0.0006, iter_time=8.55s]Epoch 0:   1%|▏         | 158/12384 [20:18<25:54:06,  7.63s/it, loss=9.9846, acc=0.0005, iter_time=7.64s]Epoch 0:   1%|▏         | 159/12384 [20:18<25:54:16,  7.63s/it, loss=9.9846, acc=0.0005, iter_time=7.64s]Epoch 0:   1%|▏         | 159/12384 [20:26<25:54:16,  7.63s/it, loss=10.0358, acc=0.0004, iter_time=8.01s]Epoch 0:   1%|▏         | 160/12384 [20:26<25:54:33,  7.63s/it, loss=10.0358, acc=0.0004, iter_time=8.01s]Epoch 0:   1%|▏         | 160/12384 [20:33<25:54:33,  7.63s/it, loss=10.1687, acc=0.0002, iter_time=4.45s]Epoch 0:   1%|▏         | 161/12384 [20:33<25:56:01,  7.64s/it, loss=10.1687, acc=0.0002, iter_time=4.45s]Epoch 0:   1%|▏         | 161/12384 [20:41<25:56:01,  7.64s/it, loss=9.5081, acc=0.0001, iter_time=9.61s] Epoch 0:   1%|▏         | 162/12384 [20:41<25:55:16,  7.64s/it, loss=9.5081, acc=0.0001, iter_time=9.61s]Epoch 0:   1%|▏         | 162/12384 [20:48<25:55:16,  7.64s/it, loss=10.1441, acc=0.0009, iter_time=8.48s]Epoch 0:   1%|▏         | 163/12384 [20:48<25:54:59,  7.63s/it, loss=10.1441, acc=0.0009, iter_time=8.48s]Epoch 0:   1%|▏         | 163/12384 [20:56<25:54:59,  7.63s/it, loss=9.8535, acc=0.0006, iter_time=5.60s] Epoch 0:   1%|▏         | 164/12384 [20:56<25:56:47,  7.64s/it, loss=9.8535, acc=0.0006, iter_time=5.60s]Epoch 0:   1%|▏         | 164/12384 [21:04<25:56:47,  7.64s/it, loss=9.5386, acc=0.0011, iter_time=8.18s]Epoch 0:   1%|▏         | 165/12384 [21:04<25:54:40,  7.63s/it, loss=9.5386, acc=0.0011, iter_time=8.18s]Epoch 0:   1%|▏         | 165/12384 [21:11<25:54:40,  7.63s/it, loss=10.1718, acc=0.0001, iter_time=7.61s]Epoch 0:   1%|▏         | 166/12384 [21:11<25:54:19,  7.63s/it, loss=10.1718, acc=0.0001, iter_time=7.61s]Epoch 0:   1%|▏         | 166/12384 [21:19<25:54:19,  7.63s/it, loss=9.0794, acc=0.0002, iter_time=9.46s] Epoch 0:   1%|▏         | 167/12384 [21:19<26:16:06,  7.74s/it, loss=9.0794, acc=0.0002, iter_time=9.46s]Epoch 0:   1%|▏         | 167/12384 [21:27<26:16:06,  7.74s/it, loss=10.0714, acc=0.0000, iter_time=7.65s]Epoch 0:   1%|▏         | 168/12384 [21:27<26:09:28,  7.71s/it, loss=10.0714, acc=0.0000, iter_time=7.65s]Epoch 0:   1%|▏         | 168/12384 [21:35<26:09:28,  7.71s/it, loss=9.7891, acc=0.0004, iter_time=4.80s] Epoch 0:   1%|▏         | 169/12384 [21:35<26:03:41,  7.68s/it, loss=9.7891, acc=0.0004, iter_time=4.80s]Epoch 0:   1%|▏         | 169/12384 [21:42<26:03:41,  7.68s/it, loss=11.7103, acc=0.0006, iter_time=7.71s]Epoch 0:   1%|▏         | 170/12384 [21:42<26:02:47,  7.68s/it, loss=11.7103, acc=0.0006, iter_time=7.71s]Epoch 0:   1%|▏         | 170/12384 [21:50<26:02:47,  7.68s/it, loss=9.3130, acc=0.0011, iter_time=10.46s]Epoch 0:   1%|▏         | 171/12384 [21:50<26:03:50,  7.68s/it, loss=9.3130, acc=0.0011, iter_time=10.46s]Epoch 0:   1%|▏         | 171/12384 [21:58<26:03:50,  7.68s/it, loss=9.5550, acc=0.0006, iter_time=7.13s] Epoch 0:   1%|▏         | 172/12384 [21:58<26:04:05,  7.68s/it, loss=9.5550, acc=0.0006, iter_time=7.13s]Epoch 0:   1%|▏         | 172/12384 [22:05<26:04:05,  7.68s/it, loss=8.9668, acc=0.0003, iter_time=8.24s]Epoch 0:   1%|▏         | 173/12384 [22:05<26:01:45,  7.67s/it, loss=8.9668, acc=0.0003, iter_time=8.24s]Epoch 0:   1%|▏         | 173/12384 [22:13<26:01:45,  7.67s/it, loss=11.1200, acc=0.0010, iter_time=6.44s]Epoch 0:   1%|▏         | 174/12384 [22:13<26:01:11,  7.67s/it, loss=11.1200, acc=0.0010, iter_time=6.44s]Epoch 0:   1%|▏         | 174/12384 [22:21<26:01:11,  7.67s/it, loss=9.4657, acc=0.0002, iter_time=7.11s] Epoch 0:   1%|▏         | 175/12384 [22:21<25:58:09,  7.66s/it, loss=9.4657, acc=0.0002, iter_time=7.11s]Epoch 0:   1%|▏         | 175/12384 [22:28<25:58:09,  7.66s/it, loss=9.2463, acc=0.0005, iter_time=9.79s]Epoch 0:   1%|▏         | 176/12384 [22:28<25:56:57,  7.65s/it, loss=9.2463, acc=0.0005, iter_time=9.79s]Epoch 0:   1%|▏         | 176/12384 [22:36<25:56:57,  7.65s/it, loss=9.1595, acc=0.0007, iter_time=7.24s]Epoch 0:   1%|▏         | 177/12384 [22:36<25:54:34,  7.64s/it, loss=9.1595, acc=0.0007, iter_time=7.24s]Epoch 0:   1%|▏         | 177/12384 [22:43<25:54:34,  7.64s/it, loss=9.4691, acc=0.0010, iter_time=5.81s]Epoch 0:   1%|▏         | 178/12384 [22:43<25:51:50,  7.63s/it, loss=9.4691, acc=0.0010, iter_time=5.81s]Epoch 0:   1%|▏         | 178/12384 [22:51<25:51:50,  7.63s/it, loss=9.2089, acc=0.0009, iter_time=9.41s]Epoch 0:   1%|▏         | 179/12384 [22:51<25:54:16,  7.64s/it, loss=9.2089, acc=0.0009, iter_time=9.41s]Epoch 0:   1%|▏         | 179/12384 [22:59<25:54:16,  7.64s/it, loss=9.3071, acc=0.0003, iter_time=7.67s]Epoch 0:   1%|▏         | 180/12384 [22:59<25:52:58,  7.64s/it, loss=9.3071, acc=0.0003, iter_time=7.67s]Epoch 0:   1%|▏         | 180/12384 [23:06<25:52:58,  7.64s/it, loss=9.2088, acc=0.0019, iter_time=7.62s]Epoch 0:   1%|▏         | 181/12384 [23:06<25:53:54,  7.64s/it, loss=9.2088, acc=0.0019, iter_time=7.62s]Epoch 0:   1%|▏         | 181/12384 [23:14<25:53:54,  7.64s/it, loss=9.0347, acc=0.0000, iter_time=5.58s]Epoch 0:   1%|▏         | 182/12384 [23:14<25:53:41,  7.64s/it, loss=9.0347, acc=0.0000, iter_time=5.58s]Epoch 0:   1%|▏         | 182/12384 [23:22<25:53:41,  7.64s/it, loss=8.9288, acc=0.0003, iter_time=7.97s]Epoch 0:   1%|▏         | 183/12384 [23:22<25:55:01,  7.65s/it, loss=8.9288, acc=0.0003, iter_time=7.97s]Epoch 0:   1%|▏         | 183/12384 [23:29<25:55:01,  7.65s/it, loss=9.0327, acc=0.0004, iter_time=9.80s]Epoch 0:   1%|▏         | 184/12384 [23:29<25:55:15,  7.65s/it, loss=9.0327, acc=0.0004, iter_time=9.80s]Epoch 0:   1%|▏         | 184/12384 [23:37<25:55:15,  7.65s/it, loss=9.1654, acc=0.0003, iter_time=7.26s]Epoch 0:   1%|▏         | 185/12384 [23:37<25:55:05,  7.65s/it, loss=9.1654, acc=0.0003, iter_time=7.26s]Epoch 0:   1%|▏         | 185/12384 [23:45<25:55:05,  7.65s/it, loss=8.8745, acc=0.0000, iter_time=4.37s]Epoch 0:   2%|▏         | 186/12384 [23:45<25:59:27,  7.67s/it, loss=8.8745, acc=0.0000, iter_time=4.37s]Epoch 0:   2%|▏         | 186/12384 [23:52<25:59:27,  7.67s/it, loss=8.9560, acc=0.0007, iter_time=11.00s]Epoch 0:   2%|▏         | 187/12384 [23:52<25:56:24,  7.66s/it, loss=8.9560, acc=0.0007, iter_time=11.00s]Epoch 0:   2%|▏         | 187/12384 [24:00<25:56:24,  7.66s/it, loss=8.7837, acc=0.0015, iter_time=7.64s] Epoch 0:   2%|▏         | 188/12384 [24:00<25:59:04,  7.67s/it, loss=8.7837, acc=0.0015, iter_time=7.64s]Epoch 0:   2%|▏         | 188/12384 [24:08<25:59:04,  7.67s/it, loss=9.0256, acc=0.0023, iter_time=5.96s]Epoch 0:   2%|▏         | 189/12384 [24:08<25:57:07,  7.66s/it, loss=9.0256, acc=0.0023, iter_time=5.96s]Epoch 0:   2%|▏         | 189/12384 [24:15<25:57:07,  7.66s/it, loss=9.4618, acc=0.0007, iter_time=9.04s]Epoch 0:   2%|▏         | 190/12384 [24:15<25:56:23,  7.66s/it, loss=9.4618, acc=0.0007, iter_time=9.04s]Epoch 0:   2%|▏         | 190/12384 [24:23<25:56:23,  7.66s/it, loss=8.8491, acc=0.0006, iter_time=7.97s]Epoch 0:   2%|▏         | 191/12384 [24:23<25:54:09,  7.65s/it, loss=8.8491, acc=0.0006, iter_time=7.97s]Epoch 0:   2%|▏         | 191/12384 [24:31<25:54:09,  7.65s/it, loss=9.3567, acc=0.0000, iter_time=7.60s]Epoch 0:   2%|▏         | 192/12384 [24:31<25:54:00,  7.65s/it, loss=9.3567, acc=0.0000, iter_time=7.60s]Epoch 0:   2%|▏         | 192/12384 [24:39<25:54:00,  7.65s/it, loss=8.7066, acc=0.0010, iter_time=7.97s]Epoch 0:   2%|▏         | 193/12384 [24:39<26:13:47,  7.75s/it, loss=8.7066, acc=0.0010, iter_time=7.97s]Epoch 0:   2%|▏         | 193/12384 [24:46<26:13:47,  7.75s/it, loss=9.0475, acc=0.0007, iter_time=7.68s]Epoch 0:   2%|▏         | 194/12384 [24:46<26:08:06,  7.72s/it, loss=9.0475, acc=0.0007, iter_time=7.68s]Epoch 0:   2%|▏         | 194/12384 [24:54<26:08:06,  7.72s/it, loss=9.0842, acc=0.0005, iter_time=5.57s]Epoch 0:   2%|▏         | 195/12384 [24:54<26:03:40,  7.70s/it, loss=9.0842, acc=0.0005, iter_time=5.57s]Epoch 0:   2%|▏         | 195/12384 [25:01<26:03:40,  7.70s/it, loss=8.1855, acc=0.0004, iter_time=9.71s]Epoch 0:   2%|▏         | 196/12384 [25:01<25:59:19,  7.68s/it, loss=8.1855, acc=0.0004, iter_time=9.71s]Epoch 0:   2%|▏         | 196/12384 [25:09<25:59:19,  7.68s/it, loss=8.0778, acc=0.0012, iter_time=7.63s]Epoch 0:   2%|▏         | 197/12384 [25:09<25:55:00,  7.66s/it, loss=8.0778, acc=0.0012, iter_time=7.63s]Epoch 0:   2%|▏         | 197/12384 [25:17<25:55:00,  7.66s/it, loss=8.8967, acc=0.0010, iter_time=7.35s]Epoch 0:   2%|▏         | 198/12384 [25:17<25:59:45,  7.68s/it, loss=8.8967, acc=0.0010, iter_time=7.35s]Epoch 0:   2%|▏         | 198/12384 [25:24<25:59:45,  7.68s/it, loss=9.0389, acc=0.0004, iter_time=7.99s]Epoch 0:   2%|▏         | 199/12384 [25:24<25:55:17,  7.66s/it, loss=9.0389, acc=0.0004, iter_time=7.99s]Epoch 0:   2%|▏         | 199/12384 [25:32<25:55:17,  7.66s/it, loss=9.1124, acc=0.0009, iter_time=8.07s]Epoch 0:   2%|▏         | 200/12384 [25:32<25:55:07,  7.66s/it, loss=9.1124, acc=0.0009, iter_time=8.07s]Epoch 0:   2%|▏         | 200/12384 [25:40<25:55:07,  7.66s/it, loss=8.4466, acc=0.0007, iter_time=6.24s]Epoch 0:   2%|▏         | 201/12384 [25:40<25:53:28,  7.65s/it, loss=8.4466, acc=0.0007, iter_time=6.24s]Epoch 0:   2%|▏         | 201/12384 [25:47<25:53:28,  7.65s/it, loss=8.7056, acc=0.0011, iter_time=8.61s]Epoch 0:   2%|▏         | 202/12384 [25:47<25:52:45,  7.65s/it, loss=8.7056, acc=0.0011, iter_time=8.61s]Epoch 0:   2%|▏         | 202/12384 [25:55<25:52:45,  7.65s/it, loss=8.5991, acc=0.0011, iter_time=7.66s]Epoch 0:   2%|▏         | 203/12384 [25:55<25:51:32,  7.64s/it, loss=8.5991, acc=0.0011, iter_time=7.66s]Epoch 0:   2%|▏         | 203/12384 [26:03<25:51:32,  7.64s/it, loss=8.7091, acc=0.0012, iter_time=7.30s]Epoch 0:   2%|▏         | 204/12384 [26:03<25:49:56,  7.64s/it, loss=8.7091, acc=0.0012, iter_time=7.30s]Epoch 0:   2%|▏         | 204/12384 [26:10<25:49:56,  7.64s/it, loss=8.7888, acc=0.0019, iter_time=7.01s]Epoch 0:   2%|▏         | 205/12384 [26:10<25:52:18,  7.65s/it, loss=8.7888, acc=0.0019, iter_time=7.01s]Epoch 0:   2%|▏         | 205/12384 [26:18<25:52:18,  7.65s/it, loss=9.4526, acc=0.0002, iter_time=5.57s]Epoch 0:   2%|▏         | 206/12384 [26:18<25:52:19,  7.65s/it, loss=9.4526, acc=0.0002, iter_time=5.57s]Epoch 0:   2%|▏         | 206/12384 [26:26<25:52:19,  7.65s/it, loss=8.4342, acc=0.0012, iter_time=10.67s]Epoch 0:   2%|▏         | 207/12384 [26:26<25:50:36,  7.64s/it, loss=8.4342, acc=0.0012, iter_time=10.67s]Epoch 0:   2%|▏         | 207/12384 [26:33<25:50:36,  7.64s/it, loss=8.3416, acc=0.0008, iter_time=7.58s] Epoch 0:   2%|▏         | 208/12384 [26:33<25:48:59,  7.63s/it, loss=8.3416, acc=0.0008, iter_time=7.58s]Epoch 0:   2%|▏         | 208/12384 [26:41<25:48:59,  7.63s/it, loss=8.3990, acc=0.0019, iter_time=5.93s]Epoch 0:   2%|▏         | 209/12384 [26:41<25:47:45,  7.63s/it, loss=8.3990, acc=0.0019, iter_time=5.93s]Epoch 0:   2%|▏         | 209/12384 [26:48<25:47:45,  7.63s/it, loss=8.1943, acc=0.0015, iter_time=6.07s]Epoch 0:   2%|▏         | 210/12384 [26:48<25:47:02,  7.62s/it, loss=8.1943, acc=0.0015, iter_time=6.07s]Epoch 0:   2%|▏         | 210/12384 [26:56<25:47:02,  7.62s/it, loss=8.5613, acc=0.0008, iter_time=10.91s]Epoch 0:   2%|▏         | 211/12384 [26:56<25:49:23,  7.64s/it, loss=8.5613, acc=0.0008, iter_time=10.91s]Epoch 0:   2%|▏         | 211/12384 [27:04<25:49:23,  7.64s/it, loss=8.1708, acc=0.0016, iter_time=7.68s] Epoch 0:   2%|▏         | 212/12384 [27:04<25:50:05,  7.64s/it, loss=8.1708, acc=0.0016, iter_time=7.68s]Epoch 0:   2%|▏         | 212/12384 [27:11<25:50:05,  7.64s/it, loss=8.1459, acc=0.0007, iter_time=7.64s]Epoch 0:   2%|▏         | 213/12384 [27:11<25:48:42,  7.63s/it, loss=8.1459, acc=0.0007, iter_time=7.64s]Epoch 0:   2%|▏         | 213/12384 [27:19<25:48:42,  7.63s/it, loss=8.5384, acc=0.0014, iter_time=4.30s]Epoch 0:   2%|▏         | 214/12384 [27:19<25:48:03,  7.63s/it, loss=8.5384, acc=0.0014, iter_time=4.30s]Epoch 0:   2%|▏         | 214/12384 [27:27<25:48:03,  7.63s/it, loss=8.1967, acc=0.0009, iter_time=10.94s]Epoch 0:   2%|▏         | 215/12384 [27:27<25:47:52,  7.63s/it, loss=8.1967, acc=0.0009, iter_time=10.94s]Epoch 0:   2%|▏         | 215/12384 [27:34<25:47:52,  7.63s/it, loss=9.2198, acc=0.0004, iter_time=7.59s] Epoch 0:   2%|▏         | 216/12384 [27:34<25:46:40,  7.63s/it, loss=9.2198, acc=0.0004, iter_time=7.59s]Epoch 0:   2%|▏         | 216/12384 [27:42<25:46:40,  7.63s/it, loss=8.2690, acc=0.0009, iter_time=4.80s]Epoch 0:   2%|▏         | 217/12384 [27:42<25:47:47,  7.63s/it, loss=8.2690, acc=0.0009, iter_time=4.80s]Epoch 0:   2%|▏         | 217/12384 [27:50<25:47:47,  7.63s/it, loss=7.8197, acc=0.0006, iter_time=8.26s]Epoch 0:   2%|▏         | 218/12384 [27:50<25:50:16,  7.65s/it, loss=7.8197, acc=0.0006, iter_time=8.26s]Epoch 0:   2%|▏         | 218/12384 [27:58<25:50:16,  7.65s/it, loss=8.0925, acc=0.0007, iter_time=10.22s]Epoch 0:   2%|▏         | 219/12384 [27:58<26:11:49,  7.75s/it, loss=8.0925, acc=0.0007, iter_time=10.22s]Epoch 0:   2%|▏         | 219/12384 [28:05<26:11:49,  7.75s/it, loss=8.1300, acc=0.0019, iter_time=7.70s] Epoch 0:   2%|▏         | 220/12384 [28:05<26:02:22,  7.71s/it, loss=8.1300, acc=0.0019, iter_time=7.70s]Epoch 0:   2%|▏         | 220/12384 [28:13<26:02:22,  7.71s/it, loss=7.9561, acc=0.0015, iter_time=7.61s]Epoch 0:   2%|▏         | 221/12384 [28:13<25:56:33,  7.68s/it, loss=7.9561, acc=0.0015, iter_time=7.61s]Epoch 0:   2%|▏         | 221/12384 [28:20<25:56:33,  7.68s/it, loss=8.0051, acc=0.0010, iter_time=7.60s]Epoch 0:   2%|▏         | 222/12384 [28:20<25:55:49,  7.68s/it, loss=8.0051, acc=0.0010, iter_time=7.60s]Epoch 0:   2%|▏         | 222/12384 [28:28<25:55:49,  7.68s/it, loss=8.2760, acc=0.0003, iter_time=7.68s]Epoch 0:   2%|▏         | 223/12384 [28:28<25:54:58,  7.67s/it, loss=8.2760, acc=0.0003, iter_time=7.68s]Epoch 0:   2%|▏         | 223/12384 [28:36<25:54:58,  7.67s/it, loss=8.1733, acc=0.0003, iter_time=8.06s]Epoch 0:   2%|▏         | 224/12384 [28:36<25:54:30,  7.67s/it, loss=8.1733, acc=0.0003, iter_time=8.06s]Epoch 0:   2%|▏         | 224/12384 [28:43<25:54:30,  7.67s/it, loss=8.0470, acc=0.0007, iter_time=7.27s]Epoch 0:   2%|▏         | 225/12384 [28:43<25:50:46,  7.65s/it, loss=8.0470, acc=0.0007, iter_time=7.27s]Epoch 0:   2%|▏         | 225/12384 [28:51<25:50:46,  7.65s/it, loss=7.5724, acc=0.0013, iter_time=7.62s]Epoch 0:   2%|▏         | 226/12384 [28:51<25:48:04,  7.64s/it, loss=7.5724, acc=0.0013, iter_time=7.62s]Epoch 0:   2%|▏         | 226/12384 [28:59<25:48:04,  7.64s/it, loss=8.4081, acc=0.0011, iter_time=6.12s]Epoch 0:   2%|▏         | 227/12384 [28:59<25:48:26,  7.64s/it, loss=8.4081, acc=0.0011, iter_time=6.12s]Epoch 0:   2%|▏         | 227/12384 [29:06<25:48:26,  7.64s/it, loss=8.6103, acc=0.0008, iter_time=9.11s]Epoch 0:   2%|▏         | 228/12384 [29:06<25:46:50,  7.63s/it, loss=8.6103, acc=0.0008, iter_time=9.11s]Epoch 0:   2%|▏         | 228/12384 [29:14<25:46:50,  7.63s/it, loss=7.8253, acc=0.0011, iter_time=7.64s]Epoch 0:   2%|▏         | 229/12384 [29:14<25:47:33,  7.64s/it, loss=7.8253, acc=0.0011, iter_time=7.64s]Epoch 0:   2%|▏         | 229/12384 [29:21<25:47:33,  7.64s/it, loss=8.3221, acc=0.0004, iter_time=7.64s]Epoch 0:   2%|▏         | 230/12384 [29:21<25:45:26,  7.63s/it, loss=8.3221, acc=0.0004, iter_time=7.64s]Epoch 0:   2%|▏         | 230/12384 [29:29<25:45:26,  7.63s/it, loss=7.7024, acc=0.0009, iter_time=7.58s]Epoch 0:   2%|▏         | 231/12384 [29:29<25:44:38,  7.63s/it, loss=7.7024, acc=0.0009, iter_time=7.58s]Epoch 0:   2%|▏         | 231/12384 [29:37<25:44:38,  7.63s/it, loss=7.7472, acc=0.0008, iter_time=8.02s]Epoch 0:   2%|▏         | 232/12384 [29:37<25:47:42,  7.64s/it, loss=7.7472, acc=0.0008, iter_time=8.02s]Epoch 0:   2%|▏         | 232/12384 [29:44<25:47:42,  7.64s/it, loss=7.7262, acc=0.0011, iter_time=7.31s]Epoch 0:   2%|▏         | 233/12384 [29:44<25:48:58,  7.65s/it, loss=7.7262, acc=0.0011, iter_time=7.31s]Epoch 0:   2%|▏         | 233/12384 [29:52<25:48:58,  7.65s/it, loss=7.4931, acc=0.0028, iter_time=7.41s]Epoch 0:   2%|▏         | 234/12384 [29:52<25:50:21,  7.66s/it, loss=7.4931, acc=0.0028, iter_time=7.41s]Epoch 0:   2%|▏         | 234/12384 [30:00<25:50:21,  7.66s/it, loss=7.4022, acc=0.0014, iter_time=7.93s]Epoch 0:   2%|▏         | 235/12384 [30:00<25:48:15,  7.65s/it, loss=7.4022, acc=0.0014, iter_time=7.93s]Epoch 0:   2%|▏         | 235/12384 [30:07<25:48:15,  7.65s/it, loss=7.7223, acc=0.0014, iter_time=7.59s]Epoch 0:   2%|▏         | 236/12384 [30:07<25:45:43,  7.63s/it, loss=7.7223, acc=0.0014, iter_time=7.59s]Epoch 0:   2%|▏         | 236/12384 [30:15<25:45:43,  7.63s/it, loss=7.8947, acc=0.0015, iter_time=4.31s]Epoch 0:   2%|▏         | 237/12384 [30:15<25:46:15,  7.64s/it, loss=7.8947, acc=0.0015, iter_time=4.31s]Epoch 0:   2%|▏         | 237/12384 [30:23<25:46:15,  7.64s/it, loss=7.7654, acc=0.0010, iter_time=9.74s]Epoch 0:   2%|▏         | 238/12384 [30:23<25:47:31,  7.64s/it, loss=7.7654, acc=0.0010, iter_time=9.74s]Epoch 0:   2%|▏         | 238/12384 [30:30<25:47:31,  7.64s/it, loss=7.4437, acc=0.0005, iter_time=8.88s]Epoch 0:   2%|▏         | 239/12384 [30:30<25:47:04,  7.64s/it, loss=7.4437, acc=0.0005, iter_time=8.88s]Epoch 0:   2%|▏         | 239/12384 [30:38<25:47:04,  7.64s/it, loss=7.7818, acc=0.0017, iter_time=7.71s]Epoch 0:   2%|▏         | 240/12384 [30:38<25:47:28,  7.65s/it, loss=7.7818, acc=0.0017, iter_time=7.71s]Epoch 0:   2%|▏         | 240/12384 [30:46<25:47:28,  7.65s/it, loss=7.3091, acc=0.0018, iter_time=7.57s]Epoch 0:   2%|▏         | 241/12384 [30:46<25:48:50,  7.65s/it, loss=7.3091, acc=0.0018, iter_time=7.57s]Epoch 0:   2%|▏         | 241/12384 [30:53<25:48:50,  7.65s/it, loss=7.3295, acc=0.0004, iter_time=7.66s]Epoch 0:   2%|▏         | 242/12384 [30:53<25:47:11,  7.65s/it, loss=7.3295, acc=0.0004, iter_time=7.66s]Epoch 0:   2%|▏         | 242/12384 [31:01<25:47:11,  7.65s/it, loss=7.2502, acc=0.0021, iter_time=5.10s]Epoch 0:   2%|▏         | 243/12384 [31:01<25:47:23,  7.65s/it, loss=7.2502, acc=0.0021, iter_time=5.10s]Epoch 0:   2%|▏         | 243/12384 [31:09<25:47:23,  7.65s/it, loss=7.8696, acc=0.0010, iter_time=10.20s]Epoch 0:   2%|▏         | 244/12384 [31:09<25:45:32,  7.64s/it, loss=7.8696, acc=0.0010, iter_time=10.20s]Epoch 0:   2%|▏         | 244/12384 [31:16<25:45:32,  7.64s/it, loss=7.1887, acc=0.0007, iter_time=6.46s] Epoch 0:   2%|▏         | 245/12384 [31:16<26:04:58,  7.74s/it, loss=7.1887, acc=0.0007, iter_time=6.46s]Epoch 0:   2%|▏         | 245/12384 [31:24<26:04:58,  7.74s/it, loss=7.3708, acc=0.0018, iter_time=9.11s]Epoch 0:   2%|▏         | 246/12384 [31:24<26:00:05,  7.71s/it, loss=7.3708, acc=0.0018, iter_time=9.11s]Epoch 0:   2%|▏         | 246/12384 [31:32<26:00:05,  7.71s/it, loss=7.8745, acc=0.0013, iter_time=7.66s]Epoch 0:   2%|▏         | 247/12384 [31:32<25:56:15,  7.69s/it, loss=7.8745, acc=0.0013, iter_time=7.66s]Epoch 0:   2%|▏         | 247/12384 [31:39<25:56:15,  7.69s/it, loss=7.2406, acc=0.0013, iter_time=7.64s]Epoch 0:   2%|▏         | 248/12384 [31:39<25:54:27,  7.69s/it, loss=7.2406, acc=0.0013, iter_time=7.64s]Epoch 0:   2%|▏         | 248/12384 [31:47<25:54:27,  7.69s/it, loss=7.3163, acc=0.0023, iter_time=7.34s]Epoch 0:   2%|▏         | 249/12384 [31:47<25:50:08,  7.66s/it, loss=7.3163, acc=0.0023, iter_time=7.34s]Epoch 0:   2%|▏         | 249/12384 [31:55<25:50:08,  7.66s/it, loss=7.6082, acc=0.0018, iter_time=8.41s]Epoch 0:   2%|▏         | 250/12384 [31:55<25:51:22,  7.67s/it, loss=7.6082, acc=0.0018, iter_time=8.41s]Epoch 0:   2%|▏         | 250/12384 [32:02<25:51:22,  7.67s/it, loss=7.2558, acc=0.0005, iter_time=7.23s]Epoch 0:   2%|▏         | 251/12384 [32:02<25:50:15,  7.67s/it, loss=7.2558, acc=0.0005, iter_time=7.23s]Epoch 0:   2%|▏         | 251/12384 [32:10<25:50:15,  7.67s/it, loss=7.6217, acc=0.0037, iter_time=7.64s]Epoch 0:   2%|▏         | 252/12384 [32:10<25:50:25,  7.67s/it, loss=7.6217, acc=0.0037, iter_time=7.64s]Epoch 0:   2%|▏         | 252/12384 [32:18<25:50:25,  7.67s/it, loss=7.3812, acc=0.0011, iter_time=7.77s]Epoch 0:   2%|▏         | 253/12384 [32:18<25:52:09,  7.68s/it, loss=7.3812, acc=0.0011, iter_time=7.77s]Epoch 0:   2%|▏         | 253/12384 [32:25<25:52:09,  7.68s/it, loss=7.3565, acc=0.0025, iter_time=7.60s]Epoch 0:   2%|▏         | 254/12384 [32:25<25:48:52,  7.66s/it, loss=7.3565, acc=0.0025, iter_time=7.60s]Epoch 0:   2%|▏         | 254/12384 [32:33<25:48:52,  7.66s/it, loss=7.2157, acc=0.0006, iter_time=7.65s]Epoch 0:   2%|▏         | 255/12384 [32:33<25:48:10,  7.66s/it, loss=7.2157, acc=0.0006, iter_time=7.65s]Epoch 0:   2%|▏         | 255/12384 [32:41<25:48:10,  7.66s/it, loss=7.7335, acc=0.0032, iter_time=8.03s]Epoch 0:   2%|▏         | 256/12384 [32:41<25:47:10,  7.65s/it, loss=7.7335, acc=0.0032, iter_time=8.03s]Epoch 0:   2%|▏         | 256/12384 [32:48<25:47:10,  7.65s/it, loss=7.2015, acc=0.0031, iter_time=7.33s]Epoch 0:   2%|▏         | 257/12384 [32:48<25:50:04,  7.67s/it, loss=7.2015, acc=0.0031, iter_time=7.33s]Epoch 0:   2%|▏         | 257/12384 [32:56<25:50:04,  7.67s/it, loss=7.1932, acc=0.0012, iter_time=4.10s]Epoch 0:   2%|▏         | 258/12384 [32:56<25:47:00,  7.65s/it, loss=7.1932, acc=0.0012, iter_time=4.10s]Epoch 0:   2%|▏         | 258/12384 [33:04<25:47:00,  7.65s/it, loss=7.2090, acc=0.0023, iter_time=8.53s]Epoch 0:   2%|▏         | 259/12384 [33:04<25:48:05,  7.66s/it, loss=7.2090, acc=0.0023, iter_time=8.53s]Epoch 0:   2%|▏         | 259/12384 [33:11<25:48:05,  7.66s/it, loss=7.0185, acc=0.0026, iter_time=8.88s]Epoch 0:   2%|▏         | 260/12384 [33:11<25:45:49,  7.65s/it, loss=7.0185, acc=0.0026, iter_time=8.88s]Epoch 0:   2%|▏         | 260/12384 [33:19<25:45:49,  7.65s/it, loss=6.9527, acc=0.0025, iter_time=9.03s]Epoch 0:   2%|▏         | 261/12384 [33:19<25:45:03,  7.65s/it, loss=6.9527, acc=0.0025, iter_time=9.03s]Epoch 0:   2%|▏         | 261/12384 [33:27<25:45:03,  7.65s/it, loss=7.0574, acc=0.0020, iter_time=7.67s]Epoch 0:   2%|▏         | 262/12384 [33:27<25:45:16,  7.65s/it, loss=7.0574, acc=0.0020, iter_time=7.67s]Epoch 0:   2%|▏         | 262/12384 [33:34<25:45:16,  7.65s/it, loss=7.2073, acc=0.0025, iter_time=7.63s]Epoch 0:   2%|▏         | 263/12384 [33:34<25:48:03,  7.66s/it, loss=7.2073, acc=0.0025, iter_time=7.63s]Epoch 0:   2%|▏         | 263/12384 [33:42<25:48:03,  7.66s/it, loss=7.3061, acc=0.0012, iter_time=8.09s]Epoch 0:   2%|▏         | 264/12384 [33:42<25:44:58,  7.65s/it, loss=7.3061, acc=0.0012, iter_time=8.09s]Epoch 0:   2%|▏         | 264/12384 [33:50<25:44:58,  7.65s/it, loss=7.0960, acc=0.0025, iter_time=7.21s]Epoch 0:   2%|▏         | 265/12384 [33:50<25:46:19,  7.66s/it, loss=7.0960, acc=0.0025, iter_time=7.21s]Epoch 0:   2%|▏         | 265/12384 [33:57<25:46:19,  7.66s/it, loss=6.9338, acc=0.0029, iter_time=5.62s]Epoch 0:   2%|▏         | 266/12384 [33:57<25:46:25,  7.66s/it, loss=6.9338, acc=0.0029, iter_time=5.62s]Epoch 0:   2%|▏         | 266/12384 [34:05<25:46:25,  7.66s/it, loss=6.8391, acc=0.0025, iter_time=9.73s]Epoch 0:   2%|▏         | 267/12384 [34:05<25:43:47,  7.64s/it, loss=6.8391, acc=0.0025, iter_time=9.73s]Epoch 0:   2%|▏         | 267/12384 [34:13<25:43:47,  7.64s/it, loss=7.1970, acc=0.0025, iter_time=5.53s]Epoch 0:   2%|▏         | 268/12384 [34:13<25:42:40,  7.64s/it, loss=7.1970, acc=0.0025, iter_time=5.53s]Epoch 0:   2%|▏         | 268/12384 [34:20<25:42:40,  7.64s/it, loss=7.0222, acc=0.0014, iter_time=7.73s]Epoch 0:   2%|▏         | 269/12384 [34:20<25:41:18,  7.63s/it, loss=7.0222, acc=0.0014, iter_time=7.73s]Epoch 0:   2%|▏         | 269/12384 [34:28<25:41:18,  7.63s/it, loss=6.9741, acc=0.0025, iter_time=9.60s]Epoch 0:   2%|▏         | 270/12384 [34:28<25:42:21,  7.64s/it, loss=6.9741, acc=0.0025, iter_time=9.60s]Epoch 0:   2%|▏         | 270/12384 [34:35<25:42:21,  7.64s/it, loss=7.2850, acc=0.0027, iter_time=7.68s]Epoch 0:   2%|▏         | 271/12384 [34:35<25:45:43,  7.66s/it, loss=7.2850, acc=0.0027, iter_time=7.68s]Epoch 0:   2%|▏         | 271/12384 [34:43<25:45:43,  7.66s/it, loss=7.3393, acc=0.0022, iter_time=8.00s]Epoch 0:   2%|▏         | 272/12384 [34:43<26:05:41,  7.76s/it, loss=7.3393, acc=0.0022, iter_time=8.00s]Epoch 0:   2%|▏         | 272/12384 [34:51<26:05:41,  7.76s/it, loss=6.7739, acc=0.0020, iter_time=7.68s]Epoch 0:   2%|▏         | 273/12384 [34:51<25:58:03,  7.72s/it, loss=6.7739, acc=0.0020, iter_time=7.68s]Epoch 0:   2%|▏         | 273/12384 [34:59<25:58:03,  7.72s/it, loss=6.9052, acc=0.0031, iter_time=7.63s]Epoch 0:   2%|▏         | 274/12384 [34:59<25:52:15,  7.69s/it, loss=6.9052, acc=0.0031, iter_time=7.63s]Epoch 0:   2%|▏         | 274/12384 [35:06<25:52:15,  7.69s/it, loss=6.9783, acc=0.0027, iter_time=7.61s]Epoch 0:   2%|▏         | 275/12384 [35:06<25:47:34,  7.67s/it, loss=6.9783, acc=0.0027, iter_time=7.61s]Epoch 0:   2%|▏         | 275/12384 [35:14<25:47:34,  7.67s/it, loss=7.3331, acc=0.0043, iter_time=7.61s]Epoch 0:   2%|▏         | 276/12384 [35:14<25:45:53,  7.66s/it, loss=7.3331, acc=0.0043, iter_time=7.61s]Epoch 0:   2%|▏         | 276/12384 [35:22<25:45:53,  7.66s/it, loss=6.9467, acc=0.0037, iter_time=7.65s]Epoch 0:   2%|▏         | 277/12384 [35:22<25:43:51,  7.65s/it, loss=6.9467, acc=0.0037, iter_time=7.65s]Epoch 0:   2%|▏         | 277/12384 [35:29<25:43:51,  7.65s/it, loss=6.8180, acc=0.0021, iter_time=7.61s]Epoch 0:   2%|▏         | 278/12384 [35:29<25:43:24,  7.65s/it, loss=6.8180, acc=0.0021, iter_time=7.61s]Epoch 0:   2%|▏         | 278/12384 [35:37<25:43:24,  7.65s/it, loss=6.8739, acc=0.0022, iter_time=7.66s]Epoch 0:   2%|▏         | 279/12384 [35:37<25:43:12,  7.65s/it, loss=6.8739, acc=0.0022, iter_time=7.66s]Epoch 0:   2%|▏         | 279/12384 [35:45<25:43:12,  7.65s/it, loss=7.0975, acc=0.0034, iter_time=7.73s]Epoch 0:   2%|▏         | 280/12384 [35:45<25:40:40,  7.64s/it, loss=7.0975, acc=0.0034, iter_time=7.73s]Epoch 0:   2%|▏         | 280/12384 [35:52<25:40:40,  7.64s/it, loss=7.0766, acc=0.0038, iter_time=7.50s]Epoch 0:   2%|▏         | 281/12384 [35:52<25:40:49,  7.64s/it, loss=7.0766, acc=0.0038, iter_time=7.50s]Epoch 0:   2%|▏         | 281/12384 [36:00<25:40:49,  7.64s/it, loss=6.6622, acc=0.0049, iter_time=7.04s]Epoch 0:   2%|▏         | 282/12384 [36:00<25:38:44,  7.63s/it, loss=6.6622, acc=0.0049, iter_time=7.04s]Epoch 0:   2%|▏         | 282/12384 [36:07<25:38:44,  7.63s/it, loss=7.0217, acc=0.0012, iter_time=5.96s]Epoch 0:   2%|▏         | 283/12384 [36:07<25:41:08,  7.64s/it, loss=7.0217, acc=0.0012, iter_time=5.96s]Epoch 0:   2%|▏         | 283/12384 [36:15<25:41:08,  7.64s/it, loss=6.9411, acc=0.0038, iter_time=9.92s]Epoch 0:   2%|▏         | 284/12384 [36:15<25:38:59,  7.63s/it, loss=6.9411, acc=0.0038, iter_time=9.92s]Epoch 0:   2%|▏         | 284/12384 [36:23<25:38:59,  7.63s/it, loss=7.3455, acc=0.0022, iter_time=7.63s]Epoch 0:   2%|▏         | 285/12384 [36:23<25:38:43,  7.63s/it, loss=7.3455, acc=0.0022, iter_time=7.63s]Epoch 0:   2%|▏         | 285/12384 [36:30<25:38:43,  7.63s/it, loss=6.8002, acc=0.0029, iter_time=7.63s]Epoch 0:   2%|▏         | 286/12384 [36:30<25:39:46,  7.64s/it, loss=6.8002, acc=0.0029, iter_time=7.63s]Epoch 0:   2%|▏         | 286/12384 [36:38<25:39:46,  7.64s/it, loss=6.7756, acc=0.0042, iter_time=7.65s]Epoch 0:   2%|▏         | 287/12384 [36:38<25:37:32,  7.63s/it, loss=6.7756, acc=0.0042, iter_time=7.65s]Epoch 0:   2%|▏         | 287/12384 [36:46<25:37:32,  7.63s/it, loss=7.3387, acc=0.0033, iter_time=7.99s]Epoch 0:   2%|▏         | 288/12384 [36:46<25:38:22,  7.63s/it, loss=7.3387, acc=0.0033, iter_time=7.99s]Epoch 0:   2%|▏         | 288/12384 [36:53<25:38:22,  7.63s/it, loss=6.7459, acc=0.0030, iter_time=6.96s]Epoch 0:   2%|▏         | 289/12384 [36:53<25:35:55,  7.62s/it, loss=6.7459, acc=0.0030, iter_time=6.96s]Epoch 0:   2%|▏         | 289/12384 [37:01<25:35:55,  7.62s/it, loss=6.3971, acc=0.0034, iter_time=7.90s]Epoch 0:   2%|▏         | 290/12384 [37:01<25:37:36,  7.63s/it, loss=6.3971, acc=0.0034, iter_time=7.90s]Epoch 0:   2%|▏         | 290/12384 [37:08<25:37:36,  7.63s/it, loss=6.7184, acc=0.0072, iter_time=7.63s]Epoch 0:   2%|▏         | 291/12384 [37:08<25:38:29,  7.63s/it, loss=6.7184, acc=0.0072, iter_time=7.63s]Epoch 0:   2%|▏         | 291/12384 [37:16<25:38:29,  7.63s/it, loss=6.7790, acc=0.0035, iter_time=7.64s]Epoch 0:   2%|▏         | 292/12384 [37:16<25:39:30,  7.64s/it, loss=6.7790, acc=0.0035, iter_time=7.64s]Epoch 0:   2%|▏         | 292/12384 [37:24<25:39:30,  7.64s/it, loss=6.5072, acc=0.0040, iter_time=7.66s]Epoch 0:   2%|▏         | 293/12384 [37:24<25:38:43,  7.64s/it, loss=6.5072, acc=0.0040, iter_time=7.66s]Epoch 0:   2%|▏         | 293/12384 [37:31<25:38:43,  7.64s/it, loss=6.6935, acc=0.0026, iter_time=5.07s]Epoch 0:   2%|▏         | 294/12384 [37:31<25:40:16,  7.64s/it, loss=6.6935, acc=0.0026, iter_time=5.07s]Epoch 0:   2%|▏         | 294/12384 [37:39<25:40:16,  7.64s/it, loss=6.3948, acc=0.0052, iter_time=8.13s]Epoch 0:   2%|▏         | 295/12384 [37:39<25:38:37,  7.64s/it, loss=6.3948, acc=0.0052, iter_time=8.13s]Epoch 0:   2%|▏         | 295/12384 [37:47<25:38:37,  7.64s/it, loss=6.7583, acc=0.0028, iter_time=9.71s]Epoch 0:   2%|▏         | 296/12384 [37:47<25:40:48,  7.65s/it, loss=6.7583, acc=0.0028, iter_time=9.71s]Epoch 0:   2%|▏         | 296/12384 [37:54<25:40:48,  7.65s/it, loss=6.1203, acc=0.0043, iter_time=7.66s]Epoch 0:   2%|▏         | 297/12384 [37:54<25:39:54,  7.64s/it, loss=6.1203, acc=0.0043, iter_time=7.66s]Epoch 0:   2%|▏         | 297/12384 [38:02<25:39:54,  7.64s/it, loss=7.0972, acc=0.0035, iter_time=7.96s]Epoch 0:   2%|▏         | 298/12384 [38:02<26:00:03,  7.74s/it, loss=7.0972, acc=0.0035, iter_time=7.96s]Epoch 0:   2%|▏         | 298/12384 [38:10<26:00:03,  7.74s/it, loss=6.2468, acc=0.0040, iter_time=7.07s]Epoch 0:   2%|▏         | 299/12384 [38:10<25:54:47,  7.72s/it, loss=6.2468, acc=0.0040, iter_time=7.07s]Epoch 0:   2%|▏         | 299/12384 [38:18<25:54:47,  7.72s/it, loss=6.3538, acc=0.0050, iter_time=8.72s]Epoch 0:   2%|▏         | 300/12384 [38:18<25:52:28,  7.71s/it, loss=6.3538, acc=0.0050, iter_time=8.72s]Epoch 0:   2%|▏         | 300/12384 [38:25<25:52:28,  7.71s/it, loss=5.8291, acc=0.0066, iter_time=4.60s]Epoch 0:   2%|▏         | 301/12384 [38:25<25:49:18,  7.69s/it, loss=5.8291, acc=0.0066, iter_time=4.60s]Epoch 0:   2%|▏         | 301/12384 [38:33<25:49:18,  7.69s/it, loss=6.3087, acc=0.0032, iter_time=10.30s]Epoch 0:   2%|▏         | 302/12384 [38:33<25:48:30,  7.69s/it, loss=6.3087, acc=0.0032, iter_time=10.30s]Epoch 0:   2%|▏         | 302/12384 [38:41<25:48:30,  7.69s/it, loss=6.6376, acc=0.0032, iter_time=5.61s] Epoch 0:   2%|▏         | 303/12384 [38:41<25:42:30,  7.66s/it, loss=6.6376, acc=0.0032, iter_time=5.61s]Epoch 0:   2%|▏         | 303/12384 [38:48<25:42:30,  7.66s/it, loss=6.8154, acc=0.0040, iter_time=10.00s]Epoch 0:   2%|▏         | 304/12384 [38:48<25:41:36,  7.66s/it, loss=6.8154, acc=0.0040, iter_time=10.00s]Epoch 0:   2%|▏         | 304/12384 [38:56<25:41:36,  7.66s/it, loss=5.8010, acc=0.0080, iter_time=4.22s] Epoch 0:   2%|▏         | 305/12384 [38:56<25:39:34,  7.65s/it, loss=5.8010, acc=0.0080, iter_time=4.22s]Epoch 0:   2%|▏         | 305/12384 [39:03<25:39:34,  7.65s/it, loss=6.6645, acc=0.0055, iter_time=10.67s]Epoch 0:   2%|▏         | 306/12384 [39:03<25:38:25,  7.64s/it, loss=6.6645, acc=0.0055, iter_time=10.67s]Epoch 0:   2%|▏         | 306/12384 [39:11<25:38:25,  7.64s/it, loss=6.6756, acc=0.0038, iter_time=5.32s] Epoch 0:   2%|▏         | 307/12384 [39:11<25:34:56,  7.63s/it, loss=6.6756, acc=0.0038, iter_time=5.32s]Epoch 0:   2%|▏         | 307/12384 [39:19<25:34:56,  7.63s/it, loss=6.4505, acc=0.0060, iter_time=9.92s]Epoch 0:   2%|▏         | 308/12384 [39:19<25:36:27,  7.63s/it, loss=6.4505, acc=0.0060, iter_time=9.92s]Epoch 0:   2%|▏         | 308/12384 [39:26<25:36:27,  7.63s/it, loss=6.1419, acc=0.0045, iter_time=4.76s]Epoch 0:   2%|▏         | 309/12384 [39:26<25:35:33,  7.63s/it, loss=6.1419, acc=0.0045, iter_time=4.76s]Epoch 0:   2%|▏         | 309/12384 [39:34<25:35:33,  7.63s/it, loss=5.9926, acc=0.0045, iter_time=6.99s]Epoch 0:   3%|▎         | 310/12384 [39:34<25:37:26,  7.64s/it, loss=5.9926, acc=0.0045, iter_time=6.99s]Epoch 0:   3%|▎         | 310/12384 [39:42<25:37:26,  7.64s/it, loss=6.0707, acc=0.0056, iter_time=11.17s]Epoch 0:   3%|▎         | 311/12384 [39:42<25:36:56,  7.64s/it, loss=6.0707, acc=0.0056, iter_time=11.17s]Epoch 0:   3%|▎         | 311/12384 [39:49<25:36:56,  7.64s/it, loss=6.5124, acc=0.0036, iter_time=7.74s] Epoch 0:   3%|▎         | 312/12384 [39:49<25:37:29,  7.64s/it, loss=6.5124, acc=0.0036, iter_time=7.74s]Epoch 0:   3%|▎         | 312/12384 [39:57<25:37:29,  7.64s/it, loss=5.6124, acc=0.0070, iter_time=5.01s]Epoch 0:   3%|▎         | 313/12384 [39:57<25:39:13,  7.65s/it, loss=5.6124, acc=0.0070, iter_time=5.01s]Epoch 0:   3%|▎         | 313/12384 [40:05<25:39:13,  7.65s/it, loss=6.2550, acc=0.0054, iter_time=10.20s]Epoch 0:   3%|▎         | 314/12384 [40:05<25:39:13,  7.65s/it, loss=6.2550, acc=0.0054, iter_time=10.20s]Epoch 0:   3%|▎         | 314/12384 [40:12<25:39:13,  7.65s/it, loss=5.9709, acc=0.0075, iter_time=5.64s] Epoch 0:   3%|▎         | 315/12384 [40:12<25:40:12,  7.66s/it, loss=5.9709, acc=0.0075, iter_time=5.64s]Epoch 0:   3%|▎         | 315/12384 [40:20<25:40:12,  7.66s/it, loss=6.4455, acc=0.0052, iter_time=9.69s]Epoch 0:   3%|▎         | 316/12384 [40:20<25:41:19,  7.66s/it, loss=6.4455, acc=0.0052, iter_time=9.69s]Epoch 0:   3%|▎         | 316/12384 [40:28<25:41:19,  7.66s/it, loss=5.5123, acc=0.0076, iter_time=5.37s]Epoch 0:   3%|▎         | 317/12384 [40:28<25:42:23,  7.67s/it, loss=5.5123, acc=0.0076, iter_time=5.37s]Epoch 0:   3%|▎         | 317/12384 [40:35<25:42:23,  7.67s/it, loss=5.9083, acc=0.0054, iter_time=10.00s]Epoch 0:   3%|▎         | 318/12384 [40:35<25:43:43,  7.68s/it, loss=5.9083, acc=0.0054, iter_time=10.00s]Epoch 0:   3%|▎         | 318/12384 [40:43<25:43:43,  7.68s/it, loss=5.7044, acc=0.0059, iter_time=4.80s] Epoch 0:   3%|▎         | 319/12384 [40:43<25:43:38,  7.68s/it, loss=5.7044, acc=0.0059, iter_time=4.80s]Epoch 0:   3%|▎         | 319/12384 [40:51<25:43:38,  7.68s/it, loss=6.1768, acc=0.0078, iter_time=10.52s]Epoch 0:   3%|▎         | 320/12384 [40:51<25:42:00,  7.67s/it, loss=6.1768, acc=0.0078, iter_time=10.52s]Epoch 0:   3%|▎         | 320/12384 [40:58<25:42:00,  7.67s/it, loss=5.7468, acc=0.0071, iter_time=7.68s] Epoch 0:   3%|▎         | 321/12384 [40:58<25:39:49,  7.66s/it, loss=5.7468, acc=0.0071, iter_time=7.68s]Epoch 0:   3%|▎         | 321/12384 [41:06<25:39:49,  7.66s/it, loss=5.8584, acc=0.0098, iter_time=4.80s]Epoch 0:   3%|▎         | 322/12384 [41:06<25:35:59,  7.64s/it, loss=5.8584, acc=0.0098, iter_time=4.80s]Epoch 0:   3%|▎         | 322/12384 [41:14<25:35:59,  7.64s/it, loss=6.2379, acc=0.0060, iter_time=10.44s]Epoch 0:   3%|▎         | 323/12384 [41:14<25:35:57,  7.64s/it, loss=6.2379, acc=0.0060, iter_time=10.44s]Epoch 0:   3%|▎         | 323/12384 [41:21<25:35:57,  7.64s/it, loss=5.9168, acc=0.0098, iter_time=7.30s] Epoch 0:   3%|▎         | 324/12384 [41:21<25:36:27,  7.64s/it, loss=5.9168, acc=0.0098, iter_time=7.30s]Epoch 0:   3%|▎         | 324/12384 [41:29<25:36:27,  7.64s/it, loss=5.6638, acc=0.0060, iter_time=8.30s]Epoch 0:   3%|▎         | 325/12384 [41:29<25:54:59,  7.74s/it, loss=5.6638, acc=0.0060, iter_time=8.30s]Epoch 0:   3%|▎         | 325/12384 [41:37<25:54:59,  7.74s/it, loss=5.8490, acc=0.0072, iter_time=7.62s]Epoch 0:   3%|▎         | 326/12384 [41:37<25:50:37,  7.72s/it, loss=5.8490, acc=0.0072, iter_time=7.62s]Epoch 0:   3%|▎         | 326/12384 [41:44<25:50:37,  7.72s/it, loss=5.6499, acc=0.0070, iter_time=7.66s]Epoch 0:   3%|▎         | 327/12384 [41:44<25:45:52,  7.69s/it, loss=5.6499, acc=0.0070, iter_time=7.66s]Epoch 0:   3%|▎         | 327/12384 [41:52<25:45:52,  7.69s/it, loss=5.8528, acc=0.0058, iter_time=8.03s]Epoch 0:   3%|▎         | 328/12384 [41:52<25:40:44,  7.67s/it, loss=5.8528, acc=0.0058, iter_time=8.03s]Epoch 0:   3%|▎         | 328/12384 [42:00<25:40:44,  7.67s/it, loss=5.3495, acc=0.0093, iter_time=7.22s]Epoch 0:   3%|▎         | 329/12384 [42:00<25:39:31,  7.66s/it, loss=5.3495, acc=0.0093, iter_time=7.22s]Epoch 0:   3%|▎         | 329/12384 [42:07<25:39:31,  7.66s/it, loss=5.3448, acc=0.0088, iter_time=7.64s]Epoch 0:   3%|▎         | 330/12384 [42:07<25:37:29,  7.65s/it, loss=5.3448, acc=0.0088, iter_time=7.64s]Epoch 0:   3%|▎         | 330/12384 [42:15<25:37:29,  7.65s/it, loss=5.8485, acc=0.0064, iter_time=7.66s]Epoch 0:   3%|▎         | 331/12384 [42:15<25:35:47,  7.65s/it, loss=5.8485, acc=0.0064, iter_time=7.66s]Epoch 0:   3%|▎         | 331/12384 [42:23<25:35:47,  7.65s/it, loss=5.9459, acc=0.0068, iter_time=7.62s]Epoch 0:   3%|▎         | 332/12384 [42:23<25:35:17,  7.64s/it, loss=5.9459, acc=0.0068, iter_time=7.62s]Epoch 0:   3%|▎         | 332/12384 [42:30<25:35:17,  7.64s/it, loss=5.4085, acc=0.0101, iter_time=7.63s]Epoch 0:   3%|▎         | 333/12384 [42:30<25:37:01,  7.65s/it, loss=5.4085, acc=0.0101, iter_time=7.63s]Epoch 0:   3%|▎         | 333/12384 [42:38<25:37:01,  7.65s/it, loss=5.3133, acc=0.0101, iter_time=5.07s]Epoch 0:   3%|▎         | 334/12384 [42:38<25:36:06,  7.65s/it, loss=5.3133, acc=0.0101, iter_time=5.07s]Epoch 0:   3%|▎         | 334/12384 [42:46<25:36:06,  7.65s/it, loss=5.3288, acc=0.0072, iter_time=10.25s]Epoch 0:   3%|▎         | 335/12384 [42:46<25:36:47,  7.65s/it, loss=5.3288, acc=0.0072, iter_time=10.25s]Epoch 0:   3%|▎         | 335/12384 [42:53<25:36:47,  7.65s/it, loss=5.7861, acc=0.0081, iter_time=8.04s] Epoch 0:   3%|▎         | 336/12384 [42:53<25:34:58,  7.64s/it, loss=5.7861, acc=0.0081, iter_time=8.04s]Epoch 0:   3%|▎         | 336/12384 [43:01<25:34:58,  7.64s/it, loss=5.7992, acc=0.0069, iter_time=7.23s]Epoch 0:   3%|▎         | 337/12384 [43:01<25:38:53,  7.66s/it, loss=5.7992, acc=0.0069, iter_time=7.23s]Epoch 0:   3%|▎         | 337/12384 [43:09<25:38:53,  7.66s/it, loss=6.0970, acc=0.0070, iter_time=7.73s]Epoch 0:   3%|▎         | 338/12384 [43:09<25:40:20,  7.67s/it, loss=6.0970, acc=0.0070, iter_time=7.73s]Epoch 0:   3%|▎         | 338/12384 [43:16<25:40:20,  7.67s/it, loss=5.6665, acc=0.0068, iter_time=7.69s]Epoch 0:   3%|▎         | 339/12384 [43:16<25:38:39,  7.66s/it, loss=5.6665, acc=0.0068, iter_time=7.69s]Epoch 0:   3%|▎         | 339/12384 [43:24<25:38:39,  7.66s/it, loss=5.7326, acc=0.0087, iter_time=5.86s]Epoch 0:   3%|▎         | 340/12384 [43:24<25:38:37,  7.66s/it, loss=5.7326, acc=0.0087, iter_time=5.86s]Epoch 0:   3%|▎         | 340/12384 [43:32<25:38:37,  7.66s/it, loss=5.4915, acc=0.0102, iter_time=9.45s]Epoch 0:   3%|▎         | 341/12384 [43:32<25:38:16,  7.66s/it, loss=5.4915, acc=0.0102, iter_time=9.45s]Epoch 0:   3%|▎         | 341/12384 [43:39<25:38:16,  7.66s/it, loss=5.7700, acc=0.0064, iter_time=7.67s]Epoch 0:   3%|▎         | 342/12384 [43:39<25:37:02,  7.66s/it, loss=5.7700, acc=0.0064, iter_time=7.67s]Epoch 0:   3%|▎         | 342/12384 [43:47<25:37:02,  7.66s/it, loss=5.6819, acc=0.0080, iter_time=7.63s]Epoch 0:   3%|▎         | 343/12384 [43:47<25:34:27,  7.65s/it, loss=5.6819, acc=0.0080, iter_time=7.63s]Epoch 0:   3%|▎         | 343/12384 [43:54<25:34:27,  7.65s/it, loss=5.4848, acc=0.0113, iter_time=8.01s]Epoch 0:   3%|▎         | 344/12384 [43:54<25:33:07,  7.64s/it, loss=5.4848, acc=0.0113, iter_time=8.01s]Epoch 0:   3%|▎         | 344/12384 [44:02<25:33:07,  7.64s/it, loss=5.6680, acc=0.0124, iter_time=7.25s]Epoch 0:   3%|▎         | 345/12384 [44:02<25:33:43,  7.64s/it, loss=5.6680, acc=0.0124, iter_time=7.25s]Epoch 0:   3%|▎         | 345/12384 [44:10<25:33:43,  7.64s/it, loss=5.4482, acc=0.0082, iter_time=7.64s]Epoch 0:   3%|▎         | 346/12384 [44:10<25:33:42,  7.64s/it, loss=5.4482, acc=0.0082, iter_time=7.64s]Epoch 0:   3%|▎         | 346/12384 [44:17<25:33:42,  7.64s/it, loss=5.3382, acc=0.0116, iter_time=7.65s]Epoch 0:   3%|▎         | 347/12384 [44:17<25:30:54,  7.63s/it, loss=5.3382, acc=0.0116, iter_time=7.65s]Epoch 0:   3%|▎         | 347/12384 [44:25<25:30:54,  7.63s/it, loss=5.9495, acc=0.0055, iter_time=7.62s]Epoch 0:   3%|▎         | 348/12384 [44:25<25:30:03,  7.63s/it, loss=5.9495, acc=0.0055, iter_time=7.62s]Epoch 0:   3%|▎         | 348/12384 [44:33<25:30:03,  7.63s/it, loss=5.5126, acc=0.0067, iter_time=7.60s]Epoch 0:   3%|▎         | 349/12384 [44:33<25:30:12,  7.63s/it, loss=5.5126, acc=0.0067, iter_time=7.60s]Epoch 0:   3%|▎         | 349/12384 [44:40<25:30:12,  7.63s/it, loss=5.4053, acc=0.0117, iter_time=8.02s]Epoch 0:   3%|▎         | 350/12384 [44:40<25:28:43,  7.62s/it, loss=5.4053, acc=0.0117, iter_time=8.02s]Epoch 0:   3%|▎         | 350/12384 [44:48<25:28:43,  7.62s/it, loss=5.0049, acc=0.0102, iter_time=7.57s]Epoch 0:   3%|▎         | 351/12384 [44:48<25:50:39,  7.73s/it, loss=5.0049, acc=0.0102, iter_time=7.57s]Epoch 0:   3%|▎         | 351/12384 [44:56<25:50:39,  7.73s/it, loss=4.9376, acc=0.0129, iter_time=7.60s]Epoch 0:   3%|▎         | 352/12384 [44:56<25:44:47,  7.70s/it, loss=4.9376, acc=0.0129, iter_time=7.60s]Epoch 0:   3%|▎         | 352/12384 [45:03<25:44:47,  7.70s/it, loss=5.2557, acc=0.0145, iter_time=7.66s]Epoch 0:   3%|▎         | 353/12384 [45:03<25:40:11,  7.68s/it, loss=5.2557, acc=0.0145, iter_time=7.66s]Epoch 0:   3%|▎         | 353/12384 [45:11<25:40:11,  7.68s/it, loss=4.6446, acc=0.0172, iter_time=7.64s]Epoch 0:   3%|▎         | 354/12384 [45:11<25:35:22,  7.66s/it, loss=4.6446, acc=0.0172, iter_time=7.64s]Epoch 0:   3%|▎         | 354/12384 [45:19<25:35:22,  7.66s/it, loss=4.7147, acc=0.0130, iter_time=7.60s]Epoch 0:   3%|▎         | 355/12384 [45:19<25:33:58,  7.65s/it, loss=4.7147, acc=0.0130, iter_time=7.60s]Epoch 0:   3%|▎         | 355/12384 [45:26<25:33:58,  7.65s/it, loss=5.1595, acc=0.0100, iter_time=3.61s]Epoch 0:   3%|▎         | 356/12384 [45:26<25:37:44,  7.67s/it, loss=5.1595, acc=0.0100, iter_time=3.61s]Epoch 0:   3%|▎         | 356/12384 [45:34<25:37:44,  7.67s/it, loss=5.1754, acc=0.0106, iter_time=11.74s]Epoch 0:   3%|▎         | 357/12384 [45:34<25:34:07,  7.65s/it, loss=5.1754, acc=0.0106, iter_time=11.74s]Epoch 0:   3%|▎         | 357/12384 [45:42<25:34:07,  7.65s/it, loss=5.2104, acc=0.0132, iter_time=7.60s] Epoch 0:   3%|▎         | 358/12384 [45:42<25:33:46,  7.65s/it, loss=5.2104, acc=0.0132, iter_time=7.60s]Epoch 0:   3%|▎         | 358/12384 [45:49<25:33:46,  7.65s/it, loss=5.5443, acc=0.0122, iter_time=7.68s]Epoch 0:   3%|▎         | 359/12384 [45:49<25:32:20,  7.65s/it, loss=5.5443, acc=0.0122, iter_time=7.68s]Epoch 0:   3%|▎         | 359/12384 [45:57<25:32:20,  7.65s/it, loss=4.6941, acc=0.0179, iter_time=7.56s]Epoch 0:   3%|▎         | 360/12384 [45:57<25:30:07,  7.64s/it, loss=4.6941, acc=0.0179, iter_time=7.56s]Epoch 0:   3%|▎         | 360/12384 [46:05<25:30:07,  7.64s/it, loss=5.2813, acc=0.0146, iter_time=7.65s]Epoch 0:   3%|▎         | 361/12384 [46:05<25:28:42,  7.63s/it, loss=5.2813, acc=0.0146, iter_time=7.65s]Epoch 0:   3%|▎         | 361/12384 [46:12<25:28:42,  7.63s/it, loss=4.4687, acc=0.0203, iter_time=5.53s]Epoch 0:   3%|▎         | 362/12384 [46:12<25:32:07,  7.65s/it, loss=4.4687, acc=0.0203, iter_time=5.53s]Epoch 0:   3%|▎         | 362/12384 [46:20<25:32:07,  7.65s/it, loss=4.8078, acc=0.0235, iter_time=9.80s]Epoch 0:   3%|▎         | 363/12384 [46:20<25:32:04,  7.65s/it, loss=4.8078, acc=0.0235, iter_time=9.80s]Epoch 0:   3%|▎         | 363/12384 [46:28<25:32:04,  7.65s/it, loss=4.4958, acc=0.0183, iter_time=7.63s]Epoch 0:   3%|▎         | 364/12384 [46:28<25:30:55,  7.64s/it, loss=4.4958, acc=0.0183, iter_time=7.63s]Epoch 0:   3%|▎         | 364/12384 [46:35<25:30:55,  7.64s/it, loss=5.0373, acc=0.0105, iter_time=7.66s]Epoch 0:   3%|▎         | 365/12384 [46:35<25:29:15,  7.63s/it, loss=5.0373, acc=0.0105, iter_time=7.66s]Epoch 0:   3%|▎         | 365/12384 [46:43<25:29:15,  7.63s/it, loss=4.6957, acc=0.0158, iter_time=7.60s]Epoch 0:   3%|▎         | 366/12384 [46:43<25:31:48,  7.65s/it, loss=4.6957, acc=0.0158, iter_time=7.60s]Epoch 0:   3%|▎         | 366/12384 [46:50<25:31:48,  7.65s/it, loss=4.7914, acc=0.0158, iter_time=7.70s]Epoch 0:   3%|▎         | 367/12384 [46:50<25:29:35,  7.64s/it, loss=4.7914, acc=0.0158, iter_time=7.70s]Epoch 0:   3%|▎         | 367/12384 [46:58<25:29:35,  7.64s/it, loss=4.8600, acc=0.0196, iter_time=7.59s]Epoch 0:   3%|▎         | 368/12384 [46:58<25:30:08,  7.64s/it, loss=4.8600, acc=0.0196, iter_time=7.59s]Epoch 0:   3%|▎         | 368/12384 [47:06<25:30:08,  7.64s/it, loss=4.6137, acc=0.0147, iter_time=7.68s]Epoch 0:   3%|▎         | 369/12384 [47:06<25:37:18,  7.68s/it, loss=4.6137, acc=0.0147, iter_time=7.68s]Epoch 0:   3%|▎         | 369/12384 [47:13<25:37:18,  7.68s/it, loss=4.9908, acc=0.0129, iter_time=7.73s]Epoch 0:   3%|▎         | 370/12384 [47:13<25:33:52,  7.66s/it, loss=4.9908, acc=0.0129, iter_time=7.73s]Epoch 0:   3%|▎         | 370/12384 [47:21<25:33:52,  7.66s/it, loss=4.8862, acc=0.0132, iter_time=7.66s]Epoch 0:   3%|▎         | 371/12384 [47:21<25:32:29,  7.65s/it, loss=4.8862, acc=0.0132, iter_time=7.66s]Epoch 0:   3%|▎         | 371/12384 [47:29<25:32:29,  7.65s/it, loss=4.9949, acc=0.0125, iter_time=7.61s]Epoch 0:   3%|▎         | 372/12384 [47:29<25:29:35,  7.64s/it, loss=4.9949, acc=0.0125, iter_time=7.61s]Epoch 0:   3%|▎         | 372/12384 [47:36<25:29:35,  7.64s/it, loss=4.9881, acc=0.0133, iter_time=7.64s]Epoch 0:   3%|▎         | 373/12384 [47:36<25:30:03,  7.64s/it, loss=4.9881, acc=0.0133, iter_time=7.64s]Epoch 0:   3%|▎         | 373/12384 [47:44<25:30:03,  7.64s/it, loss=4.7250, acc=0.0206, iter_time=4.32s]Epoch 0:   3%|▎         | 374/12384 [47:44<25:29:53,  7.64s/it, loss=4.7250, acc=0.0206, iter_time=4.32s]Epoch 0:   3%|▎         | 374/12384 [47:52<25:29:53,  7.64s/it, loss=5.1235, acc=0.0125, iter_time=10.95s]Epoch 0:   3%|▎         | 375/12384 [47:52<25:28:39,  7.64s/it, loss=5.1235, acc=0.0125, iter_time=10.95s]Epoch 0:   3%|▎         | 375/12384 [47:59<25:28:39,  7.64s/it, loss=5.1166, acc=0.0131, iter_time=8.01s] Epoch 0:   3%|▎         | 376/12384 [47:59<25:29:48,  7.64s/it, loss=5.1166, acc=0.0131, iter_time=8.01s]Epoch 0:   3%|▎         | 376/12384 [48:07<25:29:48,  7.64s/it, loss=5.0236, acc=0.0119, iter_time=7.56s]Epoch 0:   3%|▎         | 377/12384 [48:07<25:47:08,  7.73s/it, loss=5.0236, acc=0.0119, iter_time=7.56s]Epoch 0:   3%|▎         | 377/12384 [48:15<25:47:08,  7.73s/it, loss=4.2411, acc=0.0275, iter_time=4.34s]Epoch 0:   3%|▎         | 378/12384 [48:15<25:37:55,  7.69s/it, loss=4.2411, acc=0.0275, iter_time=4.34s]Epoch 0:   3%|▎         | 378/12384 [48:22<25:37:55,  7.69s/it, loss=4.5981, acc=0.0179, iter_time=10.23s]Epoch 0:   3%|▎         | 379/12384 [48:22<25:37:33,  7.68s/it, loss=4.5981, acc=0.0179, iter_time=10.23s]Epoch 0:   3%|▎         | 379/12384 [48:30<25:37:33,  7.68s/it, loss=5.0602, acc=0.0156, iter_time=7.47s] Epoch 0:   3%|▎         | 380/12384 [48:30<25:36:04,  7.68s/it, loss=5.0602, acc=0.0156, iter_time=7.47s]Epoch 0:   3%|▎         | 380/12384 [48:38<25:36:04,  7.68s/it, loss=4.7217, acc=0.0143, iter_time=8.51s]Epoch 0:   3%|▎         | 381/12384 [48:38<25:32:56,  7.66s/it, loss=4.7217, acc=0.0143, iter_time=8.51s]Epoch 0:   3%|▎         | 381/12384 [48:45<25:32:56,  7.66s/it, loss=4.8477, acc=0.0153, iter_time=7.63s]Epoch 0:   3%|▎         | 382/12384 [48:45<25:30:49,  7.65s/it, loss=4.8477, acc=0.0153, iter_time=7.63s]Epoch 0:   3%|▎         | 382/12384 [48:53<25:30:49,  7.65s/it, loss=4.2739, acc=0.0184, iter_time=7.65s]Epoch 0:   3%|▎         | 383/12384 [48:53<25:31:10,  7.66s/it, loss=4.2739, acc=0.0184, iter_time=7.65s]Epoch 0:   3%|▎         | 383/12384 [49:01<25:31:10,  7.66s/it, loss=4.7012, acc=0.0205, iter_time=8.04s]Epoch 0:   3%|▎         | 384/12384 [49:01<25:28:24,  7.64s/it, loss=4.7012, acc=0.0205, iter_time=8.04s]Epoch 0:   3%|▎         | 384/12384 [49:08<25:28:24,  7.64s/it, loss=4.2782, acc=0.0249, iter_time=7.27s]Epoch 0:   3%|▎         | 385/12384 [49:08<25:29:26,  7.65s/it, loss=4.2782, acc=0.0249, iter_time=7.27s]Epoch 0:   3%|▎         | 385/12384 [49:16<25:29:26,  7.65s/it, loss=4.4541, acc=0.0239, iter_time=7.62s]Epoch 0:   3%|▎         | 386/12384 [49:16<25:28:25,  7.64s/it, loss=4.4541, acc=0.0239, iter_time=7.62s]Epoch 0:   3%|▎         | 386/12384 [49:24<25:28:25,  7.64s/it, loss=4.2846, acc=0.0287, iter_time=6.77s]Epoch 0:   3%|▎         | 387/12384 [49:24<25:28:19,  7.64s/it, loss=4.2846, acc=0.0287, iter_time=6.77s]Epoch 0:   3%|▎         | 387/12384 [49:31<25:28:19,  7.64s/it, loss=4.1714, acc=0.0222, iter_time=8.50s]Epoch 0:   3%|▎         | 388/12384 [49:31<25:27:30,  7.64s/it, loss=4.1714, acc=0.0222, iter_time=8.50s]Epoch 0:   3%|▎         | 388/12384 [49:39<25:27:30,  7.64s/it, loss=4.2648, acc=0.0199, iter_time=7.63s]Epoch 0:   3%|▎         | 389/12384 [49:39<25:31:02,  7.66s/it, loss=4.2648, acc=0.0199, iter_time=7.63s]Epoch 0:   3%|▎         | 389/12384 [49:47<25:31:02,  7.66s/it, loss=4.3564, acc=0.0300, iter_time=7.40s]Epoch 0:   3%|▎         | 390/12384 [49:47<25:27:13,  7.64s/it, loss=4.3564, acc=0.0300, iter_time=7.40s]Epoch 0:   3%|▎         | 390/12384 [49:54<25:27:13,  7.64s/it, loss=4.5471, acc=0.0209, iter_time=7.91s]Epoch 0:   3%|▎         | 391/12384 [49:54<25:27:37,  7.64s/it, loss=4.5471, acc=0.0209, iter_time=7.91s]Epoch 0:   3%|▎         | 391/12384 [50:02<25:27:37,  7.64s/it, loss=4.4058, acc=0.0166, iter_time=8.04s]Epoch 0:   3%|▎         | 392/12384 [50:02<25:28:59,  7.65s/it, loss=4.4058, acc=0.0166, iter_time=8.04s]Epoch 0:   3%|▎         | 392/12384 [50:10<25:28:59,  7.65s/it, loss=4.1021, acc=0.0195, iter_time=7.38s]Epoch 0:   3%|▎         | 393/12384 [50:10<25:32:59,  7.67s/it, loss=4.1021, acc=0.0195, iter_time=7.38s]Epoch 0:   3%|▎         | 393/12384 [50:17<25:32:59,  7.67s/it, loss=4.2500, acc=0.0247, iter_time=6.98s]Epoch 0:   3%|▎         | 394/12384 [50:17<25:31:09,  7.66s/it, loss=4.2500, acc=0.0247, iter_time=6.98s]Epoch 0:   3%|▎         | 394/12384 [50:25<25:31:09,  7.66s/it, loss=4.0351, acc=0.0294, iter_time=5.35s]Epoch 0:   3%|▎         | 395/12384 [50:25<25:32:56,  7.67s/it, loss=4.0351, acc=0.0294, iter_time=5.35s]Epoch 0:   3%|▎         | 395/12384 [50:33<25:32:56,  7.67s/it, loss=4.0351, acc=0.0264, iter_time=10.65s]Epoch 0:   3%|▎         | 396/12384 [50:33<25:32:00,  7.67s/it, loss=4.0351, acc=0.0264, iter_time=10.65s]Epoch 0:   3%|▎         | 396/12384 [50:40<25:32:00,  7.67s/it, loss=3.8231, acc=0.0282, iter_time=7.63s] Epoch 0:   3%|▎         | 397/12384 [50:40<25:29:23,  7.66s/it, loss=3.8231, acc=0.0282, iter_time=7.63s]Epoch 0:   3%|▎         | 397/12384 [50:48<25:29:23,  7.66s/it, loss=4.3682, acc=0.0196, iter_time=7.65s]Epoch 0:   3%|▎         | 398/12384 [50:48<25:31:08,  7.66s/it, loss=4.3682, acc=0.0196, iter_time=7.65s]Epoch 0:   3%|▎         | 398/12384 [50:56<25:31:08,  7.66s/it, loss=3.7488, acc=0.0245, iter_time=6.43s]Epoch 0:   3%|▎         | 399/12384 [50:56<25:29:10,  7.66s/it, loss=3.7488, acc=0.0245, iter_time=6.43s]Epoch 0:   3%|▎         | 399/12384 [51:03<25:29:10,  7.66s/it, loss=4.3565, acc=0.0228, iter_time=9.42s]Epoch 0:   3%|▎         | 400/12384 [51:03<25:35:48,  7.69s/it, loss=4.3565, acc=0.0228, iter_time=9.42s]Epoch 0:   3%|▎         | 400/12384 [51:11<25:35:48,  7.69s/it, loss=3.7938, acc=0.0266, iter_time=7.20s]Epoch 0:   3%|▎         | 401/12384 [51:11<25:31:45,  7.67s/it, loss=3.7938, acc=0.0266, iter_time=7.20s]Epoch 0:   3%|▎         | 401/12384 [51:19<25:31:45,  7.67s/it, loss=4.2312, acc=0.0216, iter_time=7.64s]Epoch 0:   3%|▎         | 402/12384 [51:19<25:31:52,  7.67s/it, loss=4.2312, acc=0.0216, iter_time=7.64s]Epoch 0:   3%|▎         | 402/12384 [51:27<25:31:52,  7.67s/it, loss=3.9393, acc=0.0294, iter_time=8.02s]Epoch 0:   3%|▎         | 403/12384 [51:27<25:53:43,  7.78s/it, loss=3.9393, acc=0.0294, iter_time=8.02s]Epoch 0:   3%|▎         | 403/12384 [51:34<25:53:43,  7.78s/it, loss=4.2445, acc=0.0226, iter_time=6.81s]Epoch 0:   3%|▎         | 404/12384 [51:34<25:45:49,  7.74s/it, loss=4.2445, acc=0.0226, iter_time=6.81s]Epoch 0:   3%|▎         | 404/12384 [51:42<25:45:49,  7.74s/it, loss=3.7501, acc=0.0291, iter_time=7.12s]Epoch 0:   3%|▎         | 405/12384 [51:42<25:43:25,  7.73s/it, loss=3.7501, acc=0.0291, iter_time=7.12s]Epoch 0:   3%|▎         | 405/12384 [51:50<25:43:25,  7.73s/it, loss=3.5726, acc=0.0380, iter_time=7.14s]Epoch 0:   3%|▎         | 406/12384 [51:50<25:38:49,  7.71s/it, loss=3.5726, acc=0.0380, iter_time=7.14s]Epoch 0:   3%|▎         | 406/12384 [51:57<25:38:49,  7.71s/it, loss=4.2236, acc=0.0188, iter_time=9.66s]Epoch 0:   3%|▎         | 407/12384 [51:57<25:35:21,  7.69s/it, loss=4.2236, acc=0.0188, iter_time=9.66s]Epoch 0:   3%|▎         | 407/12384 [52:05<25:35:21,  7.69s/it, loss=3.8117, acc=0.0293, iter_time=8.06s]Epoch 0:   3%|▎         | 408/12384 [52:05<25:33:23,  7.68s/it, loss=3.8117, acc=0.0293, iter_time=8.06s]Epoch 0:   3%|▎         | 408/12384 [52:13<25:33:23,  7.68s/it, loss=3.6982, acc=0.0342, iter_time=7.23s]Epoch 0:   3%|▎         | 409/12384 [52:13<25:30:38,  7.67s/it, loss=3.6982, acc=0.0342, iter_time=7.23s]Epoch 0:   3%|▎         | 409/12384 [52:20<25:30:38,  7.67s/it, loss=3.5757, acc=0.0318, iter_time=7.67s]Epoch 0:   3%|▎         | 410/12384 [52:20<25:33:26,  7.68s/it, loss=3.5757, acc=0.0318, iter_time=7.67s]Epoch 0:   3%|▎         | 410/12384 [52:28<25:33:26,  7.68s/it, loss=3.8740, acc=0.0279, iter_time=7.70s]Epoch 0:   3%|▎         | 411/12384 [52:28<25:32:28,  7.68s/it, loss=3.8740, acc=0.0279, iter_time=7.70s]Epoch 0:   3%|▎         | 411/12384 [52:36<25:32:28,  7.68s/it, loss=3.5094, acc=0.0339, iter_time=7.09s]Epoch 0:   3%|▎         | 412/12384 [52:36<25:30:37,  7.67s/it, loss=3.5094, acc=0.0339, iter_time=7.09s]Epoch 0:   3%|▎         | 412/12384 [52:43<25:30:37,  7.67s/it, loss=3.2465, acc=0.0371, iter_time=4.61s]Epoch 0:   3%|▎         | 413/12384 [52:43<25:29:09,  7.66s/it, loss=3.2465, acc=0.0371, iter_time=4.61s]Epoch 0:   3%|▎         | 413/12384 [52:51<25:29:09,  7.66s/it, loss=2.8904, acc=0.0574, iter_time=8.40s]Epoch 0:   3%|▎         | 414/12384 [52:51<25:28:28,  7.66s/it, loss=2.8904, acc=0.0574, iter_time=8.40s]Epoch 0:   3%|▎         | 414/12384 [52:59<25:28:28,  7.66s/it, loss=3.6628, acc=0.0276, iter_time=10.50s]Epoch 0:   3%|▎         | 415/12384 [52:59<25:25:31,  7.65s/it, loss=3.6628, acc=0.0276, iter_time=10.50s]Epoch 0:   3%|▎         | 415/12384 [53:06<25:25:31,  7.65s/it, loss=3.8821, acc=0.0325, iter_time=8.01s] Epoch 0:   3%|▎         | 416/12384 [53:06<25:26:24,  7.65s/it, loss=3.8821, acc=0.0325, iter_time=8.01s]Epoch 0:   3%|▎         | 416/12384 [53:14<25:26:24,  7.65s/it, loss=3.2570, acc=0.0432, iter_time=4.50s]Epoch 0:   3%|▎         | 417/12384 [53:14<25:28:00,  7.66s/it, loss=3.2570, acc=0.0432, iter_time=4.50s]Epoch 0:   3%|▎         | 417/12384 [53:22<25:28:00,  7.66s/it, loss=3.5080, acc=0.0288, iter_time=10.45s]Epoch 0:   3%|▎         | 418/12384 [53:22<25:30:13,  7.67s/it, loss=3.5080, acc=0.0288, iter_time=10.45s]Epoch 0:   3%|▎         | 418/12384 [53:29<25:30:13,  7.67s/it, loss=3.0909, acc=0.0365, iter_time=7.70s] Epoch 0:   3%|▎         | 419/12384 [53:29<25:27:52,  7.66s/it, loss=3.0909, acc=0.0365, iter_time=7.70s]Epoch 0:   3%|▎         | 419/12384 [53:37<25:27:52,  7.66s/it, loss=3.4928, acc=0.0372, iter_time=7.65s]Epoch 0:   3%|▎         | 420/12384 [53:37<25:27:45,  7.66s/it, loss=3.4928, acc=0.0372, iter_time=7.65s]Epoch 0:   3%|▎         | 420/12384 [53:45<25:27:45,  7.66s/it, loss=3.4464, acc=0.0396, iter_time=7.65s]Epoch 0:   3%|▎         | 421/12384 [53:45<25:25:33,  7.65s/it, loss=3.4464, acc=0.0396, iter_time=7.65s]Epoch 0:   3%|▎         | 421/12384 [53:52<25:25:33,  7.65s/it, loss=3.3146, acc=0.0343, iter_time=7.63s]Epoch 0:   3%|▎         | 422/12384 [53:52<25:22:39,  7.64s/it, loss=3.3146, acc=0.0343, iter_time=7.63s]Epoch 0:   3%|▎         | 422/12384 [54:00<25:22:39,  7.64s/it, loss=3.3239, acc=0.0348, iter_time=6.66s]Epoch 0:   3%|▎         | 423/12384 [54:00<25:23:53,  7.64s/it, loss=3.3239, acc=0.0348, iter_time=6.66s]Epoch 0:   3%|▎         | 423/12384 [54:07<25:23:53,  7.64s/it, loss=3.2749, acc=0.0364, iter_time=8.56s]Epoch 0:   3%|▎         | 424/12384 [54:07<25:22:46,  7.64s/it, loss=3.2749, acc=0.0364, iter_time=8.56s]Epoch 0:   3%|▎         | 424/12384 [54:15<25:22:46,  7.64s/it, loss=3.0364, acc=0.0451, iter_time=7.66s]Epoch 0:   3%|▎         | 425/12384 [54:15<25:22:33,  7.64s/it, loss=3.0364, acc=0.0451, iter_time=7.66s]Epoch 0:   3%|▎         | 425/12384 [54:23<25:22:33,  7.64s/it, loss=3.0444, acc=0.0412, iter_time=7.65s]Epoch 0:   3%|▎         | 426/12384 [54:23<25:21:50,  7.64s/it, loss=3.0444, acc=0.0412, iter_time=7.65s]Epoch 0:   3%|▎         | 426/12384 [54:30<25:21:50,  7.64s/it, loss=3.2301, acc=0.0386, iter_time=7.72s]Epoch 0:   3%|▎         | 427/12384 [54:30<25:26:05,  7.66s/it, loss=3.2301, acc=0.0386, iter_time=7.72s]Epoch 0:   3%|▎         | 427/12384 [54:38<25:26:05,  7.66s/it, loss=3.2357, acc=0.0334, iter_time=7.62s]Epoch 0:   3%|▎         | 428/12384 [54:38<25:22:50,  7.64s/it, loss=3.2357, acc=0.0334, iter_time=7.62s]Epoch 0:   3%|▎         | 428/12384 [54:46<25:22:50,  7.64s/it, loss=3.1309, acc=0.0459, iter_time=5.59s]Epoch 0:   3%|▎         | 429/12384 [54:46<25:44:00,  7.75s/it, loss=3.1309, acc=0.0459, iter_time=5.59s]Epoch 0:   3%|▎         | 429/12384 [54:54<25:44:00,  7.75s/it, loss=2.9865, acc=0.0453, iter_time=10.01s]Epoch 0:   3%|▎         | 430/12384 [54:54<25:38:28,  7.72s/it, loss=2.9865, acc=0.0453, iter_time=10.01s]Epoch 0:   3%|▎         | 430/12384 [55:01<25:38:28,  7.72s/it, loss=3.1372, acc=0.0429, iter_time=7.65s] Epoch 0:   3%|▎         | 431/12384 [55:01<25:37:07,  7.72s/it, loss=3.1372, acc=0.0429, iter_time=7.65s]Epoch 0:   3%|▎         | 431/12384 [55:09<25:37:07,  7.72s/it, loss=3.2819, acc=0.0415, iter_time=8.11s]Epoch 0:   3%|▎         | 432/12384 [55:09<25:33:47,  7.70s/it, loss=3.2819, acc=0.0415, iter_time=8.11s]Epoch 0:   3%|▎         | 432/12384 [55:17<25:33:47,  7.70s/it, loss=3.0646, acc=0.0505, iter_time=7.26s]Epoch 0:   3%|▎         | 433/12384 [55:17<25:31:41,  7.69s/it, loss=3.0646, acc=0.0505, iter_time=7.26s]Epoch 0:   3%|▎         | 433/12384 [55:24<25:31:41,  7.69s/it, loss=3.4927, acc=0.0437, iter_time=7.74s]Epoch 0:   4%|▎         | 434/12384 [55:24<25:29:55,  7.68s/it, loss=3.4927, acc=0.0437, iter_time=7.74s]Epoch 0:   4%|▎         | 434/12384 [55:32<25:29:55,  7.68s/it, loss=3.1577, acc=0.0383, iter_time=7.62s]Epoch 0:   4%|▎         | 435/12384 [55:32<25:28:53,  7.68s/it, loss=3.1577, acc=0.0383, iter_time=7.62s]Epoch 0:   4%|▎         | 435/12384 [55:40<25:28:53,  7.68s/it, loss=2.9042, acc=0.0446, iter_time=7.64s]Epoch 0:   4%|▎         | 436/12384 [55:40<25:23:48,  7.65s/it, loss=2.9042, acc=0.0446, iter_time=7.64s]Epoch 0:   4%|▎         | 436/12384 [55:47<25:23:48,  7.65s/it, loss=2.8476, acc=0.0494, iter_time=7.62s]Epoch 0:   4%|▎         | 437/12384 [55:47<25:24:27,  7.66s/it, loss=2.8476, acc=0.0494, iter_time=7.62s]Epoch 0:   4%|▎         | 437/12384 [55:55<25:24:27,  7.66s/it, loss=2.5513, acc=0.0720, iter_time=4.37s]Epoch 0:   4%|▎         | 438/12384 [55:55<25:24:39,  7.66s/it, loss=2.5513, acc=0.0720, iter_time=4.37s]Epoch 0:   4%|▎         | 438/12384 [56:03<25:24:39,  7.66s/it, loss=3.1866, acc=0.0466, iter_time=10.93s]Epoch 0:   4%|▎         | 439/12384 [56:03<25:22:33,  7.65s/it, loss=3.1866, acc=0.0466, iter_time=10.93s]Epoch 0:   4%|▎         | 439/12384 [56:10<25:22:33,  7.65s/it, loss=3.7266, acc=0.0348, iter_time=8.02s] Epoch 0:   4%|▎         | 440/12384 [56:10<25:21:13,  7.64s/it, loss=3.7266, acc=0.0348, iter_time=8.02s]Epoch 0:   4%|▎         | 440/12384 [56:18<25:21:13,  7.64s/it, loss=2.6208, acc=0.0580, iter_time=4.90s]Epoch 0:   4%|▎         | 441/12384 [56:18<25:19:17,  7.63s/it, loss=2.6208, acc=0.0580, iter_time=4.90s]Epoch 0:   4%|▎         | 441/12384 [56:25<25:19:17,  7.63s/it, loss=2.8994, acc=0.0426, iter_time=9.96s]Epoch 0:   4%|▎         | 442/12384 [56:25<25:18:06,  7.63s/it, loss=2.8994, acc=0.0426, iter_time=9.96s]Epoch 0:   4%|▎         | 442/12384 [56:33<25:18:06,  7.63s/it, loss=2.9250, acc=0.0597, iter_time=5.03s]Epoch 0:   4%|▎         | 443/12384 [56:33<25:19:24,  7.63s/it, loss=2.9250, acc=0.0597, iter_time=5.03s]Epoch 0:   4%|▎         | 443/12384 [56:41<25:19:24,  7.63s/it, loss=3.0754, acc=0.0495, iter_time=9.93s]Epoch 0:   4%|▎         | 444/12384 [56:41<25:18:40,  7.63s/it, loss=3.0754, acc=0.0495, iter_time=9.93s]Epoch 0:   4%|▎         | 444/12384 [56:48<25:18:40,  7.63s/it, loss=2.9707, acc=0.0498, iter_time=7.93s]Epoch 0:   4%|▎         | 445/12384 [56:48<25:17:50,  7.63s/it, loss=2.9707, acc=0.0498, iter_time=7.93s]Epoch 0:   4%|▎         | 445/12384 [56:56<25:17:50,  7.63s/it, loss=2.7525, acc=0.0550, iter_time=7.62s]Epoch 0:   4%|▎         | 446/12384 [56:56<25:16:04,  7.62s/it, loss=2.7525, acc=0.0550, iter_time=7.62s]Epoch 0:   4%|▎         | 446/12384 [57:04<25:16:04,  7.62s/it, loss=3.1286, acc=0.0480, iter_time=7.60s]Epoch 0:   4%|▎         | 447/12384 [57:04<25:14:50,  7.61s/it, loss=3.1286, acc=0.0480, iter_time=7.60s]Epoch 0:   4%|▎         | 447/12384 [57:11<25:14:50,  7.61s/it, loss=2.8419, acc=0.0528, iter_time=7.54s]Epoch 0:   4%|▎         | 448/12384 [57:11<25:14:05,  7.61s/it, loss=2.8419, acc=0.0528, iter_time=7.54s]Epoch 0:   4%|▎         | 448/12384 [57:19<25:14:05,  7.61s/it, loss=2.3611, acc=0.0641, iter_time=7.65s]Epoch 0:   4%|▎         | 449/12384 [57:19<25:15:34,  7.62s/it, loss=2.3611, acc=0.0641, iter_time=7.65s]Epoch 0:   4%|▎         | 449/12384 [57:26<25:15:34,  7.62s/it, loss=2.8634, acc=0.0636, iter_time=8.04s]Epoch 0:   4%|▎         | 450/12384 [57:26<25:14:47,  7.62s/it, loss=2.8634, acc=0.0636, iter_time=8.04s]Epoch 0:   4%|▎         | 450/12384 [57:34<25:14:47,  7.62s/it, loss=2.6805, acc=0.0543, iter_time=7.21s]Epoch 0:   4%|▎         | 451/12384 [57:34<25:16:42,  7.63s/it, loss=2.6805, acc=0.0543, iter_time=7.21s]Epoch 0:   4%|▎         | 451/12384 [57:42<25:16:42,  7.63s/it, loss=2.7589, acc=0.0638, iter_time=7.65s]Epoch 0:   4%|▎         | 452/12384 [57:42<25:18:12,  7.63s/it, loss=2.7589, acc=0.0638, iter_time=7.65s]Epoch 0:   4%|▎         | 452/12384 [57:49<25:18:12,  7.63s/it, loss=2.5675, acc=0.0499, iter_time=7.38s]Epoch 0:   4%|▎         | 453/12384 [57:49<25:19:49,  7.64s/it, loss=2.5675, acc=0.0499, iter_time=7.38s]Epoch 0:   4%|▎         | 453/12384 [57:57<25:19:49,  7.64s/it, loss=2.9277, acc=0.0398, iter_time=7.96s]Epoch 0:   4%|▎         | 454/12384 [57:57<25:18:56,  7.64s/it, loss=2.9277, acc=0.0398, iter_time=7.96s]Epoch 0:   4%|▎         | 454/12384 [58:05<25:18:56,  7.64s/it, loss=2.5893, acc=0.0614, iter_time=7.62s]Epoch 0:   4%|▎         | 455/12384 [58:05<25:18:51,  7.64s/it, loss=2.5893, acc=0.0614, iter_time=7.62s]Epoch 0:   4%|▎         | 455/12384 [58:13<25:18:51,  7.64s/it, loss=2.7613, acc=0.0720, iter_time=8.34s]Epoch 0:   4%|▎         | 456/12384 [58:13<25:39:03,  7.74s/it, loss=2.7613, acc=0.0720, iter_time=8.34s]Epoch 0:   4%|▎         | 456/12384 [58:20<25:39:03,  7.74s/it, loss=2.6479, acc=0.0560, iter_time=7.30s]Epoch 0:   4%|▎         | 457/12384 [58:20<25:32:43,  7.71s/it, loss=2.6479, acc=0.0560, iter_time=7.30s]Epoch 0:   4%|▎         | 457/12384 [58:28<25:32:43,  7.71s/it, loss=2.1886, acc=0.0814, iter_time=5.28s]Epoch 0:   4%|▎         | 458/12384 [58:28<25:32:53,  7.71s/it, loss=2.1886, acc=0.0814, iter_time=5.28s]Epoch 0:   4%|▎         | 458/12384 [58:36<25:32:53,  7.71s/it, loss=2.3791, acc=0.0607, iter_time=10.05s]Epoch 0:   4%|▎         | 459/12384 [58:36<25:28:02,  7.69s/it, loss=2.3791, acc=0.0607, iter_time=10.05s]Epoch 0:   4%|▎         | 459/12384 [58:43<25:28:02,  7.69s/it, loss=2.1744, acc=0.0658, iter_time=7.66s] Epoch 0:   4%|▎         | 460/12384 [58:43<25:24:42,  7.67s/it, loss=2.1744, acc=0.0658, iter_time=7.66s]Epoch 0:   4%|▎         | 460/12384 [58:51<25:24:42,  7.67s/it, loss=2.9240, acc=0.0432, iter_time=7.63s]Epoch 0:   4%|▎         | 461/12384 [58:51<25:21:46,  7.66s/it, loss=2.9240, acc=0.0432, iter_time=7.63s]Epoch 0:   4%|▎         | 461/12384 [58:58<25:21:46,  7.66s/it, loss=2.4064, acc=0.0642, iter_time=7.63s]Epoch 0:   4%|▎         | 462/12384 [58:58<25:21:49,  7.66s/it, loss=2.4064, acc=0.0642, iter_time=7.63s]Epoch 0:   4%|▎         | 462/12384 [59:06<25:21:49,  7.66s/it, loss=2.2047, acc=0.0689, iter_time=5.08s]Epoch 0:   4%|▎         | 463/12384 [59:06<25:19:56,  7.65s/it, loss=2.2047, acc=0.0689, iter_time=5.08s]Epoch 0:   4%|▎         | 463/12384 [59:14<25:19:56,  7.65s/it, loss=2.6974, acc=0.0564, iter_time=10.58s]Epoch 0:   4%|▎         | 464/12384 [59:14<25:23:11,  7.67s/it, loss=2.6974, acc=0.0564, iter_time=10.58s]Epoch 0:   4%|▎         | 464/12384 [59:21<25:23:11,  7.67s/it, loss=2.0215, acc=0.0805, iter_time=4.25s] Epoch 0:   4%|▍         | 465/12384 [59:21<25:21:02,  7.66s/it, loss=2.0215, acc=0.0805, iter_time=4.25s]Epoch 0:   4%|▍         | 465/12384 [59:29<25:21:02,  7.66s/it, loss=2.1350, acc=0.0804, iter_time=8.90s]Epoch 0:   4%|▍         | 466/12384 [59:29<25:20:03,  7.65s/it, loss=2.1350, acc=0.0804, iter_time=8.90s]Epoch 0:   4%|▍         | 466/12384 [59:37<25:20:03,  7.65s/it, loss=1.8644, acc=0.0877, iter_time=7.17s]Epoch 0:   4%|▍         | 467/12384 [59:37<25:19:16,  7.65s/it, loss=1.8644, acc=0.0877, iter_time=7.17s]Epoch 0:   4%|▍         | 467/12384 [59:44<25:19:16,  7.65s/it, loss=2.3691, acc=0.0603, iter_time=9.93s]Epoch 0:   4%|▍         | 468/12384 [59:44<25:17:20,  7.64s/it, loss=2.3691, acc=0.0603, iter_time=9.93s]Epoch 0:   4%|▍         | 468/12384 [59:52<25:17:20,  7.64s/it, loss=2.5097, acc=0.0765, iter_time=7.62s]Epoch 0:   4%|▍         | 469/12384 [59:52<25:16:52,  7.64s/it, loss=2.5097, acc=0.0765, iter_time=7.62s]Epoch 0:   4%|▍         | 469/12384 [1:00:00<25:16:52,  7.64s/it, loss=2.3412, acc=0.0614, iter_time=7.64s]Epoch 0:   4%|▍         | 470/12384 [1:00:00<25:17:42,  7.64s/it, loss=2.3412, acc=0.0614, iter_time=7.64s]Epoch 0:   4%|▍         | 470/12384 [1:00:07<25:17:42,  7.64s/it, loss=2.4188, acc=0.0616, iter_time=7.63s]Epoch 0:   4%|▍         | 471/12384 [1:00:07<25:17:57,  7.65s/it, loss=2.4188, acc=0.0616, iter_time=7.63s]Epoch 0:   4%|▍         | 471/12384 [1:00:15<25:17:57,  7.65s/it, loss=2.3378, acc=0.0728, iter_time=7.60s]Epoch 0:   4%|▍         | 472/12384 [1:00:15<25:16:22,  7.64s/it, loss=2.3378, acc=0.0728, iter_time=7.60s]Epoch 0:   4%|▍         | 472/12384 [1:00:23<25:16:22,  7.64s/it, loss=2.0764, acc=0.0804, iter_time=7.69s]Epoch 0:   4%|▍         | 473/12384 [1:00:23<25:15:48,  7.64s/it, loss=2.0764, acc=0.0804, iter_time=7.69s]Epoch 0:   4%|▍         | 473/12384 [1:00:30<25:15:48,  7.64s/it, loss=1.9360, acc=0.0943, iter_time=6.75s]Epoch 0:   4%|▍         | 474/12384 [1:00:30<25:17:34,  7.65s/it, loss=1.9360, acc=0.0943, iter_time=6.75s]Epoch 0:   4%|▍         | 474/12384 [1:00:38<25:17:34,  7.65s/it, loss=1.9062, acc=0.0851, iter_time=7.92s]Epoch 0:   4%|▍         | 475/12384 [1:00:38<25:15:16,  7.63s/it, loss=1.9062, acc=0.0851, iter_time=7.92s]Epoch 0:   4%|▍         | 475/12384 [1:00:45<25:15:16,  7.63s/it, loss=2.1786, acc=0.0661, iter_time=8.23s]Epoch 0:   4%|▍         | 476/12384 [1:00:45<25:16:11,  7.64s/it, loss=2.1786, acc=0.0661, iter_time=8.23s]Epoch 0:   4%|▍         | 476/12384 [1:00:53<25:16:11,  7.64s/it, loss=2.6808, acc=0.0632, iter_time=5.05s]Epoch 0:   4%|▍         | 477/12384 [1:00:53<25:20:18,  7.66s/it, loss=2.6808, acc=0.0632, iter_time=5.05s]Epoch 0:   4%|▍         | 477/12384 [1:01:01<25:20:18,  7.66s/it, loss=2.1899, acc=0.0762, iter_time=10.31s]Epoch 0:   4%|▍         | 478/12384 [1:01:01<25:21:22,  7.67s/it, loss=2.1899, acc=0.0762, iter_time=10.31s]Epoch 0:   4%|▍         | 478/12384 [1:01:08<25:21:22,  7.67s/it, loss=2.0382, acc=0.0792, iter_time=7.67s] Epoch 0:   4%|▍         | 479/12384 [1:01:08<25:17:54,  7.65s/it, loss=2.0382, acc=0.0792, iter_time=7.67s]Epoch 0:   4%|▍         | 479/12384 [1:01:16<25:17:54,  7.65s/it, loss=2.1239, acc=0.0640, iter_time=8.01s]Epoch 0:   4%|▍         | 480/12384 [1:01:16<25:17:39,  7.65s/it, loss=2.1239, acc=0.0640, iter_time=8.01s]Epoch 0:   4%|▍         | 480/12384 [1:01:24<25:17:39,  7.65s/it, loss=1.8730, acc=0.0906, iter_time=5.69s]Epoch 0:   4%|▍         | 481/12384 [1:01:24<25:16:10,  7.64s/it, loss=1.8730, acc=0.0906, iter_time=5.69s]Epoch 0:   4%|▍         | 481/12384 [1:01:32<25:16:10,  7.64s/it, loss=1.7140, acc=0.1096, iter_time=6.45s]Epoch 0:   4%|▍         | 482/12384 [1:01:32<25:38:55,  7.76s/it, loss=1.7140, acc=0.1096, iter_time=6.45s]Epoch 0:   4%|▍         | 482/12384 [1:01:39<25:38:55,  7.76s/it, loss=1.8818, acc=0.1072, iter_time=7.94s]Epoch 0:   4%|▍         | 483/12384 [1:01:39<25:33:20,  7.73s/it, loss=1.8818, acc=0.1072, iter_time=7.94s]Epoch 0:   4%|▍         | 483/12384 [1:01:47<25:33:20,  7.73s/it, loss=1.8504, acc=0.0905, iter_time=9.27s]Epoch 0:   4%|▍         | 484/12384 [1:01:47<25:29:08,  7.71s/it, loss=1.8504, acc=0.0905, iter_time=9.27s]Epoch 0:   4%|▍         | 484/12384 [1:01:55<25:29:08,  7.71s/it, loss=2.3645, acc=0.0783, iter_time=8.87s]Epoch 0:   4%|▍         | 485/12384 [1:01:55<25:24:33,  7.69s/it, loss=2.3645, acc=0.0783, iter_time=8.87s]Epoch 0:   4%|▍         | 485/12384 [1:02:02<25:24:33,  7.69s/it, loss=2.0253, acc=0.0711, iter_time=7.64s]Epoch 0:   4%|▍         | 486/12384 [1:02:02<25:21:34,  7.67s/it, loss=2.0253, acc=0.0711, iter_time=7.64s]Epoch 0:   4%|▍         | 486/12384 [1:02:10<25:21:34,  7.67s/it, loss=1.8402, acc=0.0922, iter_time=7.62s]Epoch 0:   4%|▍         | 487/12384 [1:02:10<25:18:25,  7.66s/it, loss=1.8402, acc=0.0922, iter_time=7.62s]Epoch 0:   4%|▍         | 487/12384 [1:02:18<25:18:25,  7.66s/it, loss=2.3611, acc=0.0677, iter_time=8.05s]Epoch 0:   4%|▍         | 488/12384 [1:02:18<25:17:37,  7.65s/it, loss=2.3611, acc=0.0677, iter_time=8.05s]Epoch 0:   4%|▍         | 488/12384 [1:02:25<25:17:37,  7.65s/it, loss=1.8946, acc=0.1047, iter_time=7.23s]Epoch 0:   4%|▍         | 489/12384 [1:02:25<25:15:22,  7.64s/it, loss=1.8946, acc=0.1047, iter_time=7.23s]Epoch 0:   4%|▍         | 489/12384 [1:02:33<25:15:22,  7.64s/it, loss=1.8590, acc=0.0874, iter_time=7.63s]Epoch 0:   4%|▍         | 490/12384 [1:02:33<25:15:18,  7.64s/it, loss=1.8590, acc=0.0874, iter_time=7.63s]Epoch 0:   4%|▍         | 490/12384 [1:02:41<25:15:18,  7.64s/it, loss=1.9773, acc=0.1019, iter_time=7.66s]Epoch 0:   4%|▍         | 491/12384 [1:02:41<25:16:13,  7.65s/it, loss=1.9773, acc=0.1019, iter_time=7.66s]Epoch 0:   4%|▍         | 491/12384 [1:02:48<25:16:13,  7.65s/it, loss=1.5691, acc=0.1026, iter_time=7.74s]Epoch 0:   4%|▍         | 492/12384 [1:02:48<25:19:21,  7.67s/it, loss=1.5691, acc=0.1026, iter_time=7.74s]Epoch 0:   4%|▍         | 492/12384 [1:02:56<25:19:21,  7.67s/it, loss=1.7926, acc=0.0978, iter_time=7.63s]Epoch 0:   4%|▍         | 493/12384 [1:02:56<25:16:38,  7.65s/it, loss=1.7926, acc=0.0978, iter_time=7.63s]Epoch 0:   4%|▍         | 493/12384 [1:03:04<25:16:38,  7.65s/it, loss=2.1797, acc=0.0721, iter_time=7.62s]Epoch 0:   4%|▍         | 494/12384 [1:03:04<25:17:48,  7.66s/it, loss=2.1797, acc=0.0721, iter_time=7.62s]Epoch 0:   4%|▍         | 494/12384 [1:03:11<25:17:48,  7.66s/it, loss=2.0808, acc=0.0790, iter_time=7.67s]Epoch 0:   4%|▍         | 495/12384 [1:03:11<25:17:14,  7.66s/it, loss=2.0808, acc=0.0790, iter_time=7.67s]Epoch 0:   4%|▍         | 495/12384 [1:03:19<25:17:14,  7.66s/it, loss=2.2031, acc=0.0782, iter_time=8.10s]Epoch 0:   4%|▍         | 496/12384 [1:03:19<25:18:08,  7.66s/it, loss=2.2031, acc=0.0782, iter_time=8.10s]Epoch 0:   4%|▍         | 496/12384 [1:03:27<25:18:08,  7.66s/it, loss=1.7503, acc=0.1270, iter_time=6.93s]Epoch 0:   4%|▍         | 497/12384 [1:03:27<25:17:23,  7.66s/it, loss=1.7503, acc=0.1270, iter_time=6.93s]Epoch 0:   4%|▍         | 497/12384 [1:03:34<25:17:23,  7.66s/it, loss=1.7370, acc=0.0869, iter_time=7.92s]Epoch 0:   4%|▍         | 498/12384 [1:03:34<25:15:02,  7.65s/it, loss=1.7370, acc=0.0869, iter_time=7.92s]Epoch 0:   4%|▍         | 498/12384 [1:03:42<25:15:02,  7.65s/it, loss=2.2853, acc=0.0846, iter_time=7.66s]Epoch 0:   4%|▍         | 499/12384 [1:03:42<25:13:21,  7.64s/it, loss=2.2853, acc=0.0846, iter_time=7.66s]Epoch 0:   4%|▍         | 499/12384 [1:03:49<25:13:21,  7.64s/it, loss=1.5637, acc=0.0990, iter_time=8.00s]Epoch 0:   4%|▍         | 500/12384 [1:03:50<25:25:18,  7.70s/it, loss=1.5637, acc=0.0990, iter_time=8.00s]Epoch 0:   4%|▍         | 500/12384 [1:03:57<25:25:18,  7.70s/it, loss=1.9870, acc=0.0964, iter_time=7.46s]Epoch 0:   4%|▍         | 501/12384 [1:03:57<25:20:35,  7.68s/it, loss=1.9870, acc=0.0964, iter_time=7.46s]Epoch 0:   4%|▍         | 501/12384 [1:04:05<25:20:35,  7.68s/it, loss=1.5320, acc=0.1148, iter_time=6.78s]Epoch 0:   4%|▍         | 502/12384 [1:04:05<25:19:51,  7.67s/it, loss=1.5320, acc=0.1148, iter_time=6.78s]Epoch 0:   4%|▍         | 502/12384 [1:04:13<25:19:51,  7.67s/it, loss=1.6261, acc=0.0951, iter_time=7.55s]Epoch 0:   4%|▍         | 503/12384 [1:04:13<25:17:47,  7.66s/it, loss=1.6261, acc=0.0951, iter_time=7.55s]Epoch 0:   4%|▍         | 503/12384 [1:04:20<25:17:47,  7.66s/it, loss=1.4938, acc=0.1099, iter_time=8.54s]Epoch 0:   4%|▍         | 504/12384 [1:04:20<25:14:29,  7.65s/it, loss=1.4938, acc=0.1099, iter_time=8.54s]Epoch 0:   4%|▍         | 504/12384 [1:04:28<25:14:29,  7.65s/it, loss=1.7771, acc=0.1023, iter_time=7.67s]Epoch 0:   4%|▍         | 505/12384 [1:04:28<25:12:02,  7.64s/it, loss=1.7771, acc=0.1023, iter_time=7.67s]Epoch 0:   4%|▍         | 505/12384 [1:04:35<25:12:02,  7.64s/it, loss=1.6810, acc=0.1148, iter_time=7.60s]Epoch 0:   4%|▍         | 506/12384 [1:04:35<25:10:43,  7.63s/it, loss=1.6810, acc=0.1148, iter_time=7.60s]Epoch 0:   4%|▍         | 506/12384 [1:04:43<25:10:43,  7.63s/it, loss=1.5150, acc=0.1185, iter_time=7.63s]Epoch 0:   4%|▍         | 507/12384 [1:04:43<25:12:23,  7.64s/it, loss=1.5150, acc=0.1185, iter_time=7.63s]Epoch 0:   4%|▍         | 507/12384 [1:04:51<25:12:23,  7.64s/it, loss=1.5239, acc=0.1060, iter_time=7.66s]Epoch 0:   4%|▍         | 508/12384 [1:04:51<25:10:50,  7.63s/it, loss=1.5239, acc=0.1060, iter_time=7.66s]Epoch 0:   4%|▍         | 508/12384 [1:04:59<25:10:50,  7.63s/it, loss=1.5047, acc=0.1262, iter_time=7.95s]Epoch 0:   4%|▍         | 509/12384 [1:04:59<25:30:52,  7.73s/it, loss=1.5047, acc=0.1262, iter_time=7.95s]Epoch 0:   4%|▍         | 509/12384 [1:05:06<25:30:52,  7.73s/it, loss=1.8039, acc=0.1183, iter_time=7.66s]Epoch 0:   4%|▍         | 510/12384 [1:05:06<25:24:40,  7.70s/it, loss=1.8039, acc=0.1183, iter_time=7.66s]Epoch 0:   4%|▍         | 510/12384 [1:05:14<25:24:40,  7.70s/it, loss=1.6836, acc=0.1040, iter_time=7.60s]Epoch 0:   4%|▍         | 511/12384 [1:05:14<25:18:24,  7.67s/it, loss=1.6836, acc=0.1040, iter_time=7.60s]Epoch 0:   4%|▍         | 511/12384 [1:05:22<25:18:24,  7.67s/it, loss=1.4030, acc=0.1384, iter_time=7.70s]Epoch 0:   4%|▍         | 512/12384 [1:05:22<25:20:09,  7.68s/it, loss=1.4030, acc=0.1384, iter_time=7.70s]Epoch 0:   4%|▍         | 512/12384 [1:05:29<25:20:09,  7.68s/it, loss=1.4032, acc=0.1294, iter_time=7.60s]Epoch 0:   4%|▍         | 513/12384 [1:05:29<25:16:35,  7.67s/it, loss=1.4032, acc=0.1294, iter_time=7.60s]Epoch 0:   4%|▍         | 513/12384 [1:05:37<25:16:35,  7.67s/it, loss=1.3707, acc=0.1583, iter_time=7.66s]Epoch 0:   4%|▍         | 514/12384 [1:05:37<25:16:22,  7.66s/it, loss=1.3707, acc=0.1583, iter_time=7.66s]Epoch 0:   4%|▍         | 514/12384 [1:05:45<25:16:22,  7.66s/it, loss=1.1802, acc=0.1476, iter_time=7.70s]Epoch 0:   4%|▍         | 515/12384 [1:05:45<25:17:33,  7.67s/it, loss=1.1802, acc=0.1476, iter_time=7.70s]Epoch 0:   4%|▍         | 515/12384 [1:05:52<25:17:33,  7.67s/it, loss=1.4299, acc=0.1386, iter_time=5.39s]Epoch 0:   4%|▍         | 516/12384 [1:05:52<25:16:08,  7.67s/it, loss=1.4299, acc=0.1386, iter_time=5.39s]Epoch 0:   4%|▍         | 516/12384 [1:06:00<25:16:08,  7.67s/it, loss=1.4811, acc=0.1189, iter_time=7.71s]Epoch 0:   4%|▍         | 517/12384 [1:06:00<25:21:03,  7.69s/it, loss=1.4811, acc=0.1189, iter_time=7.71s]Epoch 0:   4%|▍         | 517/12384 [1:06:08<25:21:03,  7.69s/it, loss=1.3481, acc=0.1673, iter_time=7.67s]Epoch 0:   4%|▍         | 518/12384 [1:06:08<25:17:24,  7.67s/it, loss=1.3481, acc=0.1673, iter_time=7.67s]Epoch 0:   4%|▍         | 518/12384 [1:06:15<25:17:24,  7.67s/it, loss=1.5646, acc=0.1122, iter_time=9.89s]Epoch 0:   4%|▍         | 519/12384 [1:06:15<25:16:26,  7.67s/it, loss=1.5646, acc=0.1122, iter_time=9.89s]Epoch 0:   4%|▍         | 519/12384 [1:06:23<25:16:26,  7.67s/it, loss=1.2987, acc=0.1386, iter_time=8.08s]Epoch 0:   4%|▍         | 520/12384 [1:06:23<25:15:20,  7.66s/it, loss=1.2987, acc=0.1386, iter_time=8.08s]Epoch 0:   4%|▍         | 520/12384 [1:06:31<25:15:20,  7.66s/it, loss=1.3657, acc=0.1161, iter_time=6.35s]Epoch 0:   4%|▍         | 521/12384 [1:06:31<25:15:28,  7.66s/it, loss=1.3657, acc=0.1161, iter_time=6.35s]Epoch 0:   4%|▍         | 521/12384 [1:06:38<25:15:28,  7.66s/it, loss=1.2062, acc=0.1535, iter_time=8.55s]Epoch 0:   4%|▍         | 522/12384 [1:06:38<25:13:49,  7.66s/it, loss=1.2062, acc=0.1535, iter_time=8.55s]Epoch 0:   4%|▍         | 522/12384 [1:06:46<25:13:49,  7.66s/it, loss=1.2758, acc=0.1454, iter_time=7.65s]Epoch 0:   4%|▍         | 523/12384 [1:06:46<25:12:01,  7.65s/it, loss=1.2758, acc=0.1454, iter_time=7.65s]Epoch 0:   4%|▍         | 523/12384 [1:06:53<25:12:01,  7.65s/it, loss=1.2117, acc=0.1257, iter_time=5.83s]Epoch 0:   4%|▍         | 524/12384 [1:06:53<25:11:32,  7.65s/it, loss=1.2117, acc=0.1257, iter_time=5.83s]Epoch 0:   4%|▍         | 524/12384 [1:07:01<25:11:32,  7.65s/it, loss=1.4545, acc=0.1447, iter_time=8.59s]Epoch 0:   4%|▍         | 525/12384 [1:07:01<25:16:09,  7.67s/it, loss=1.4545, acc=0.1447, iter_time=8.59s]Epoch 0:   4%|▍         | 525/12384 [1:07:09<25:16:09,  7.67s/it, loss=1.0486, acc=0.1929, iter_time=7.63s]Epoch 0:   4%|▍         | 526/12384 [1:07:09<25:14:50,  7.66s/it, loss=1.0486, acc=0.1929, iter_time=7.63s]Epoch 0:   4%|▍         | 526/12384 [1:07:16<25:14:50,  7.66s/it, loss=1.2718, acc=0.1351, iter_time=8.60s]Epoch 0:   4%|▍         | 527/12384 [1:07:16<25:12:15,  7.65s/it, loss=1.2718, acc=0.1351, iter_time=8.60s]Epoch 0:   4%|▍         | 527/12384 [1:07:24<25:12:15,  7.65s/it, loss=1.2497, acc=0.1386, iter_time=8.01s]Epoch 0:   4%|▍         | 528/12384 [1:07:24<25:11:41,  7.65s/it, loss=1.2497, acc=0.1386, iter_time=8.01s]Epoch 0:   4%|▍         | 528/12384 [1:07:32<25:11:41,  7.65s/it, loss=1.0450, acc=0.2315, iter_time=5.73s]Epoch 0:   4%|▍         | 529/12384 [1:07:32<25:11:20,  7.65s/it, loss=1.0450, acc=0.2315, iter_time=5.73s]Epoch 0:   4%|▍         | 529/12384 [1:07:39<25:11:20,  7.65s/it, loss=1.1168, acc=0.1592, iter_time=8.55s]Epoch 0:   4%|▍         | 530/12384 [1:07:39<25:10:04,  7.64s/it, loss=1.1168, acc=0.1592, iter_time=8.55s]Epoch 0:   4%|▍         | 530/12384 [1:07:47<25:10:04,  7.64s/it, loss=1.1135, acc=0.1942, iter_time=7.33s]Epoch 0:   4%|▍         | 531/12384 [1:07:47<25:10:01,  7.64s/it, loss=1.1135, acc=0.1942, iter_time=7.33s]Epoch 0:   4%|▍         | 531/12384 [1:07:55<25:10:01,  7.64s/it, loss=1.1992, acc=0.1433, iter_time=8.58s]Epoch 0:   4%|▍         | 532/12384 [1:07:55<25:13:53,  7.66s/it, loss=1.1992, acc=0.1433, iter_time=8.58s]Epoch 0:   4%|▍         | 532/12384 [1:08:02<25:13:53,  7.66s/it, loss=1.0983, acc=0.1781, iter_time=6.61s]Epoch 0:   4%|▍         | 533/12384 [1:08:02<25:11:17,  7.65s/it, loss=1.0983, acc=0.1781, iter_time=6.61s]Epoch 0:   4%|▍         | 533/12384 [1:08:10<25:11:17,  7.65s/it, loss=1.1803, acc=0.1655, iter_time=8.71s]Epoch 0:   4%|▍         | 534/12384 [1:08:10<25:11:47,  7.65s/it, loss=1.1803, acc=0.1655, iter_time=8.71s]Epoch 0:   4%|▍         | 534/12384 [1:08:18<25:11:47,  7.65s/it, loss=1.3010, acc=0.1560, iter_time=7.15s]Epoch 0:   4%|▍         | 535/12384 [1:08:18<25:30:05,  7.75s/it, loss=1.3010, acc=0.1560, iter_time=7.15s]Epoch 0:   4%|▍         | 535/12384 [1:08:26<25:30:05,  7.75s/it, loss=1.3130, acc=0.1668, iter_time=8.47s]Epoch 0:   4%|▍         | 536/12384 [1:08:26<25:24:29,  7.72s/it, loss=1.3130, acc=0.1668, iter_time=8.47s]Epoch 0:   4%|▍         | 536/12384 [1:08:33<25:24:29,  7.72s/it, loss=1.0739, acc=0.1849, iter_time=7.67s]Epoch 0:   4%|▍         | 537/12384 [1:08:33<25:18:47,  7.69s/it, loss=1.0739, acc=0.1849, iter_time=7.67s]Epoch 0:   4%|▍         | 537/12384 [1:08:41<25:18:47,  7.69s/it, loss=0.9642, acc=0.2393, iter_time=7.07s]Epoch 0:   4%|▍         | 538/12384 [1:08:41<25:17:07,  7.68s/it, loss=0.9642, acc=0.2393, iter_time=7.07s]Epoch 0:   4%|▍         | 538/12384 [1:08:49<25:17:07,  7.68s/it, loss=1.1014, acc=0.1750, iter_time=8.22s]Epoch 0:   4%|▍         | 539/12384 [1:08:49<25:14:01,  7.67s/it, loss=1.1014, acc=0.1750, iter_time=8.22s]Epoch 0:   4%|▍         | 539/12384 [1:08:56<25:14:01,  7.67s/it, loss=1.0269, acc=0.1964, iter_time=7.65s]Epoch 0:   4%|▍         | 540/12384 [1:08:56<25:13:27,  7.67s/it, loss=1.0269, acc=0.1964, iter_time=7.65s]Epoch 0:   4%|▍         | 540/12384 [1:09:04<25:13:27,  7.67s/it, loss=1.0619, acc=0.2396, iter_time=5.85s]Epoch 0:   4%|▍         | 541/12384 [1:09:04<25:16:54,  7.69s/it, loss=1.0619, acc=0.2396, iter_time=5.85s]Epoch 0:   4%|▍         | 541/12384 [1:09:12<25:16:54,  7.69s/it, loss=1.0353, acc=0.2250, iter_time=9.52s]Epoch 0:   4%|▍         | 542/12384 [1:09:12<25:14:13,  7.67s/it, loss=1.0353, acc=0.2250, iter_time=9.52s]Epoch 0:   4%|▍         | 542/12384 [1:09:19<25:14:13,  7.67s/it, loss=1.2098, acc=0.1728, iter_time=7.64s]Epoch 0:   4%|▍         | 543/12384 [1:09:19<25:11:36,  7.66s/it, loss=1.2098, acc=0.1728, iter_time=7.64s]Epoch 0:   4%|▍         | 543/12384 [1:09:27<25:11:36,  7.66s/it, loss=1.0547, acc=0.1759, iter_time=8.02s]Epoch 0:   4%|▍         | 544/12384 [1:09:27<25:09:47,  7.65s/it, loss=1.0547, acc=0.1759, iter_time=8.02s]Epoch 0:   4%|▍         | 544/12384 [1:09:35<25:09:47,  7.65s/it, loss=0.9190, acc=0.2185, iter_time=3.87s]Epoch 0:   4%|▍         | 545/12384 [1:09:35<25:09:37,  7.65s/it, loss=0.9190, acc=0.2185, iter_time=3.87s]Epoch 0:   4%|▍         | 545/12384 [1:09:42<25:09:37,  7.65s/it, loss=1.3871, acc=0.1515, iter_time=11.01s]Epoch 0:   4%|▍         | 546/12384 [1:09:42<25:07:06,  7.64s/it, loss=1.3871, acc=0.1515, iter_time=11.01s]Epoch 0:   4%|▍         | 546/12384 [1:09:50<25:07:06,  7.64s/it, loss=0.8361, acc=0.2270, iter_time=7.65s] Epoch 0:   4%|▍         | 547/12384 [1:09:50<25:06:51,  7.64s/it, loss=0.8361, acc=0.2270, iter_time=7.65s]Epoch 0:   4%|▍         | 547/12384 [1:09:57<25:06:51,  7.64s/it, loss=1.1352, acc=0.1755, iter_time=7.30s]Epoch 0:   4%|▍         | 548/12384 [1:09:57<25:07:55,  7.64s/it, loss=1.1352, acc=0.1755, iter_time=7.30s]Epoch 0:   4%|▍         | 548/12384 [1:10:05<25:07:55,  7.64s/it, loss=1.0154, acc=0.2016, iter_time=7.96s]Epoch 0:   4%|▍         | 549/12384 [1:10:05<25:05:44,  7.63s/it, loss=1.0154, acc=0.2016, iter_time=7.96s]Epoch 0:   4%|▍         | 549/12384 [1:10:13<25:05:44,  7.63s/it, loss=1.0715, acc=0.2152, iter_time=8.04s]Epoch 0:   4%|▍         | 550/12384 [1:10:13<25:06:09,  7.64s/it, loss=1.0715, acc=0.2152, iter_time=8.04s]Epoch 0:   4%|▍         | 550/12384 [1:10:20<25:06:09,  7.64s/it, loss=0.9247, acc=0.2230, iter_time=5.12s]Epoch 0:   4%|▍         | 551/12384 [1:10:20<25:05:22,  7.63s/it, loss=0.9247, acc=0.2230, iter_time=5.12s]Epoch 0:   4%|▍         | 551/12384 [1:10:28<25:05:22,  7.63s/it, loss=0.9215, acc=0.2149, iter_time=10.11s]Epoch 0:   4%|▍         | 552/12384 [1:10:28<25:04:53,  7.63s/it, loss=0.9215, acc=0.2149, iter_time=10.11s]Epoch 0:   4%|▍         | 552/12384 [1:10:36<25:04:53,  7.63s/it, loss=0.8211, acc=0.2492, iter_time=7.23s] Epoch 0:   4%|▍         | 553/12384 [1:10:36<25:04:05,  7.63s/it, loss=0.8211, acc=0.2492, iter_time=7.23s]Epoch 0:   4%|▍         | 553/12384 [1:10:43<25:04:05,  7.63s/it, loss=1.0839, acc=0.2324, iter_time=7.66s]Epoch 0:   4%|▍         | 554/12384 [1:10:43<25:04:50,  7.63s/it, loss=1.0839, acc=0.2324, iter_time=7.66s]Epoch 0:   4%|▍         | 554/12384 [1:10:51<25:04:50,  7.63s/it, loss=0.9729, acc=0.2124, iter_time=7.31s]Epoch 0:   4%|▍         | 555/12384 [1:10:51<25:03:22,  7.63s/it, loss=0.9729, acc=0.2124, iter_time=7.31s]Epoch 0:   4%|▍         | 555/12384 [1:10:58<25:03:22,  7.63s/it, loss=0.7429, acc=0.2806, iter_time=5.57s]Epoch 0:   4%|▍         | 556/12384 [1:10:58<25:03:14,  7.63s/it, loss=0.7429, acc=0.2806, iter_time=5.57s]Epoch 0:   4%|▍         | 556/12384 [1:11:06<25:03:14,  7.63s/it, loss=0.9001, acc=0.2481, iter_time=9.97s]Epoch 0:   4%|▍         | 557/12384 [1:11:06<25:03:57,  7.63s/it, loss=0.9001, acc=0.2481, iter_time=9.97s]Epoch 0:   4%|▍         | 557/12384 [1:11:14<25:03:57,  7.63s/it, loss=0.8742, acc=0.2299, iter_time=7.64s]Epoch 0:   5%|▍         | 558/12384 [1:11:14<25:04:17,  7.63s/it, loss=0.8742, acc=0.2299, iter_time=7.64s]Epoch 0:   5%|▍         | 558/12384 [1:11:21<25:04:17,  7.63s/it, loss=0.8940, acc=0.2662, iter_time=7.63s]Epoch 0:   5%|▍         | 559/12384 [1:11:21<25:04:39,  7.63s/it, loss=0.8940, acc=0.2662, iter_time=7.63s]Epoch 0:   5%|▍         | 559/12384 [1:11:29<25:04:39,  7.63s/it, loss=0.7924, acc=0.2755, iter_time=7.65s]Epoch 0:   5%|▍         | 560/12384 [1:11:29<25:07:08,  7.65s/it, loss=0.7924, acc=0.2755, iter_time=7.65s]Epoch 0:   5%|▍         | 560/12384 [1:11:37<25:07:08,  7.65s/it, loss=0.7921, acc=0.3057, iter_time=7.98s]Epoch 0:   5%|▍         | 561/12384 [1:11:37<25:26:43,  7.75s/it, loss=0.7921, acc=0.3057, iter_time=7.98s]Epoch 0:   5%|▍         | 561/12384 [1:11:45<25:26:43,  7.75s/it, loss=0.6653, acc=0.3116, iter_time=7.69s]Epoch 0:   5%|▍         | 562/12384 [1:11:45<25:20:26,  7.72s/it, loss=0.6653, acc=0.3116, iter_time=7.69s]Epoch 0:   5%|▍         | 562/12384 [1:11:52<25:20:26,  7.72s/it, loss=0.7885, acc=0.2770, iter_time=7.10s]Epoch 0:   5%|▍         | 563/12384 [1:11:52<25:16:42,  7.70s/it, loss=0.7885, acc=0.2770, iter_time=7.10s]Epoch 0:   5%|▍         | 563/12384 [1:12:00<25:16:42,  7.70s/it, loss=0.6566, acc=0.3586, iter_time=6.40s]Epoch 0:   5%|▍         | 564/12384 [1:12:00<25:14:28,  7.69s/it, loss=0.6566, acc=0.3586, iter_time=6.40s]Epoch 0:   5%|▍         | 564/12384 [1:12:08<25:14:28,  7.69s/it, loss=0.6048, acc=0.3385, iter_time=7.36s]Epoch 0:   5%|▍         | 565/12384 [1:12:08<25:10:16,  7.67s/it, loss=0.6048, acc=0.3385, iter_time=7.36s]Epoch 0:   5%|▍         | 565/12384 [1:12:15<25:10:16,  7.67s/it, loss=0.7702, acc=0.2858, iter_time=9.73s]Epoch 0:   5%|▍         | 566/12384 [1:12:15<25:08:33,  7.66s/it, loss=0.7702, acc=0.2858, iter_time=9.73s]Epoch 0:   5%|▍         | 566/12384 [1:12:23<25:08:33,  7.66s/it, loss=0.6689, acc=0.3683, iter_time=3.88s]Epoch 0:   5%|▍         | 567/12384 [1:12:23<25:07:46,  7.66s/it, loss=0.6689, acc=0.3683, iter_time=3.88s]Epoch 0:   5%|▍         | 567/12384 [1:12:31<25:07:46,  7.66s/it, loss=0.8656, acc=0.2532, iter_time=11.79s]Epoch 0:   5%|▍         | 568/12384 [1:12:31<25:07:39,  7.66s/it, loss=0.8656, acc=0.2532, iter_time=11.79s]Epoch 0:   5%|▍         | 568/12384 [1:12:38<25:07:39,  7.66s/it, loss=0.5556, acc=0.4360, iter_time=5.19s] Epoch 0:   5%|▍         | 569/12384 [1:12:38<25:10:33,  7.67s/it, loss=0.5556, acc=0.4360, iter_time=5.19s]Epoch 0:   5%|▍         | 569/12384 [1:12:46<25:10:33,  7.67s/it, loss=0.6650, acc=0.3469, iter_time=9.78s]Epoch 0:   5%|▍         | 570/12384 [1:12:46<25:06:09,  7.65s/it, loss=0.6650, acc=0.3469, iter_time=9.78s]Epoch 0:   5%|▍         | 570/12384 [1:12:53<25:06:09,  7.65s/it, loss=0.6787, acc=0.3174, iter_time=7.60s]Epoch 0:   5%|▍         | 571/12384 [1:12:53<25:02:46,  7.63s/it, loss=0.6787, acc=0.3174, iter_time=7.60s]Epoch 0:   5%|▍         | 571/12384 [1:13:01<25:02:46,  7.63s/it, loss=0.6823, acc=0.3189, iter_time=6.18s]Epoch 0:   5%|▍         | 572/12384 [1:13:01<25:02:20,  7.63s/it, loss=0.6823, acc=0.3189, iter_time=6.18s]Epoch 0:   5%|▍         | 572/12384 [1:13:09<25:02:20,  7.63s/it, loss=0.6189, acc=0.3393, iter_time=9.04s]Epoch 0:   5%|▍         | 573/12384 [1:13:09<25:00:04,  7.62s/it, loss=0.6189, acc=0.3393, iter_time=9.04s]Epoch 0:   5%|▍         | 573/12384 [1:13:16<25:00:04,  7.62s/it, loss=0.6919, acc=0.3102, iter_time=7.62s]Epoch 0:   5%|▍         | 574/12384 [1:13:16<25:01:22,  7.63s/it, loss=0.6919, acc=0.3102, iter_time=7.62s]Epoch 0:   5%|▍         | 574/12384 [1:13:24<25:01:22,  7.63s/it, loss=0.6962, acc=0.2823, iter_time=7.64s]Epoch 0:   5%|▍         | 575/12384 [1:13:24<25:01:18,  7.63s/it, loss=0.6962, acc=0.2823, iter_time=7.64s]Epoch 0:   5%|▍         | 575/12384 [1:13:32<25:01:18,  7.63s/it, loss=0.7182, acc=0.2974, iter_time=8.01s]Epoch 0:   5%|▍         | 576/12384 [1:13:32<24:59:54,  7.62s/it, loss=0.7182, acc=0.2974, iter_time=8.01s]Epoch 0:   5%|▍         | 576/12384 [1:13:39<24:59:54,  7.62s/it, loss=0.7195, acc=0.3184, iter_time=6.00s]Epoch 0:   5%|▍         | 577/12384 [1:13:39<25:01:44,  7.63s/it, loss=0.7195, acc=0.3184, iter_time=6.00s]Epoch 0:   5%|▍         | 577/12384 [1:13:47<25:01:44,  7.63s/it, loss=0.5484, acc=0.3960, iter_time=5.53s]Epoch 0:   5%|▍         | 578/12384 [1:13:47<25:00:46,  7.63s/it, loss=0.5484, acc=0.3960, iter_time=5.53s]Epoch 0:   5%|▍         | 578/12384 [1:13:55<25:00:46,  7.63s/it, loss=0.5956, acc=0.4156, iter_time=8.19s]Epoch 0:   5%|▍         | 579/12384 [1:13:55<25:04:22,  7.65s/it, loss=0.5956, acc=0.4156, iter_time=8.19s]Epoch 0:   5%|▍         | 579/12384 [1:14:02<25:04:22,  7.65s/it, loss=0.5682, acc=0.3444, iter_time=10.49s]Epoch 0:   5%|▍         | 580/12384 [1:14:02<25:02:46,  7.64s/it, loss=0.5682, acc=0.3444, iter_time=10.49s]Epoch 0:   5%|▍         | 580/12384 [1:14:10<25:02:46,  7.64s/it, loss=0.5496, acc=0.4052, iter_time=7.59s] Epoch 0:   5%|▍         | 581/12384 [1:14:10<25:00:41,  7.63s/it, loss=0.5496, acc=0.4052, iter_time=7.59s]Epoch 0:   5%|▍         | 581/12384 [1:14:17<25:00:41,  7.63s/it, loss=0.6160, acc=0.3355, iter_time=7.62s]Epoch 0:   5%|▍         | 582/12384 [1:14:17<25:02:43,  7.64s/it, loss=0.6160, acc=0.3355, iter_time=7.62s]Epoch 0:   5%|▍         | 582/12384 [1:14:25<25:02:43,  7.64s/it, loss=0.7119, acc=0.3244, iter_time=7.65s]Epoch 0:   5%|▍         | 583/12384 [1:14:25<25:02:10,  7.64s/it, loss=0.7119, acc=0.3244, iter_time=7.65s]Epoch 0:   5%|▍         | 583/12384 [1:14:33<25:02:10,  7.64s/it, loss=0.6709, acc=0.3242, iter_time=8.04s]Epoch 0:   5%|▍         | 584/12384 [1:14:33<25:02:46,  7.64s/it, loss=0.6709, acc=0.3242, iter_time=8.04s]Epoch 0:   5%|▍         | 584/12384 [1:14:40<25:02:46,  7.64s/it, loss=0.6783, acc=0.3475, iter_time=6.95s]Epoch 0:   5%|▍         | 585/12384 [1:14:40<25:03:34,  7.65s/it, loss=0.6783, acc=0.3475, iter_time=6.95s]Epoch 0:   5%|▍         | 585/12384 [1:14:48<25:03:34,  7.65s/it, loss=0.5960, acc=0.4014, iter_time=7.95s]Epoch 0:   5%|▍         | 586/12384 [1:14:48<25:00:06,  7.63s/it, loss=0.5960, acc=0.4014, iter_time=7.95s]Epoch 0:   5%|▍         | 586/12384 [1:14:56<25:00:06,  7.63s/it, loss=0.3958, acc=0.5014, iter_time=5.40s]Epoch 0:   5%|▍         | 587/12384 [1:14:56<25:19:14,  7.73s/it, loss=0.3958, acc=0.5014, iter_time=5.40s]Epoch 0:   5%|▍         | 587/12384 [1:15:04<25:19:14,  7.73s/it, loss=0.5950, acc=0.3516, iter_time=10.16s]Epoch 0:   5%|▍         | 588/12384 [1:15:04<25:13:55,  7.70s/it, loss=0.5950, acc=0.3516, iter_time=10.16s]Epoch 0:   5%|▍         | 588/12384 [1:15:11<25:13:55,  7.70s/it, loss=0.4965, acc=0.4395, iter_time=7.63s] Epoch 0:   5%|▍         | 589/12384 [1:15:11<25:09:42,  7.68s/it, loss=0.4965, acc=0.4395, iter_time=7.63s]Epoch 0:   5%|▍         | 589/12384 [1:15:19<25:09:42,  7.68s/it, loss=0.5482, acc=0.4071, iter_time=7.35s]Epoch 0:   5%|▍         | 590/12384 [1:15:19<25:07:35,  7.67s/it, loss=0.5482, acc=0.4071, iter_time=7.35s]Epoch 0:   5%|▍         | 590/12384 [1:15:26<25:07:35,  7.67s/it, loss=0.5106, acc=0.4397, iter_time=7.93s]Epoch 0:   5%|▍         | 591/12384 [1:15:26<25:04:16,  7.65s/it, loss=0.5106, acc=0.4397, iter_time=7.93s]Epoch 0:   5%|▍         | 591/12384 [1:15:34<25:04:16,  7.65s/it, loss=0.5197, acc=0.4329, iter_time=7.61s]Epoch 0:   5%|▍         | 592/12384 [1:15:34<25:04:07,  7.65s/it, loss=0.5197, acc=0.4329, iter_time=7.61s]Epoch 0:   5%|▍         | 592/12384 [1:15:42<25:04:07,  7.65s/it, loss=0.4506, acc=0.4788, iter_time=5.93s]Epoch 0:   5%|▍         | 593/12384 [1:15:42<25:03:26,  7.65s/it, loss=0.4506, acc=0.4788, iter_time=5.93s]Epoch 0:   5%|▍         | 593/12384 [1:15:49<25:03:26,  7.65s/it, loss=0.4671, acc=0.4699, iter_time=6.23s]Epoch 0:   5%|▍         | 594/12384 [1:15:49<25:03:28,  7.65s/it, loss=0.4671, acc=0.4699, iter_time=6.23s]Epoch 0:   5%|▍         | 594/12384 [1:15:57<25:03:28,  7.65s/it, loss=0.3762, acc=0.4901, iter_time=9.68s]Epoch 0:   5%|▍         | 595/12384 [1:15:57<25:02:26,  7.65s/it, loss=0.3762, acc=0.4901, iter_time=9.68s]Epoch 0:   5%|▍         | 595/12384 [1:16:05<25:02:26,  7.65s/it, loss=0.6318, acc=0.4473, iter_time=8.77s]Epoch 0:   5%|▍         | 596/12384 [1:16:05<25:02:30,  7.65s/it, loss=0.6318, acc=0.4473, iter_time=8.77s]Epoch 0:   5%|▍         | 596/12384 [1:16:12<25:02:30,  7.65s/it, loss=0.4220, acc=0.5015, iter_time=7.72s]Epoch 0:   5%|▍         | 597/12384 [1:16:12<25:05:04,  7.66s/it, loss=0.4220, acc=0.5015, iter_time=7.72s]Epoch 0:   5%|▍         | 597/12384 [1:16:20<25:05:04,  7.66s/it, loss=0.4720, acc=0.4488, iter_time=7.02s]Epoch 0:   5%|▍         | 598/12384 [1:16:20<25:02:10,  7.65s/it, loss=0.4720, acc=0.4488, iter_time=7.02s]Epoch 0:   5%|▍         | 598/12384 [1:16:28<25:02:10,  7.65s/it, loss=0.4471, acc=0.4765, iter_time=8.24s]Epoch 0:   5%|▍         | 599/12384 [1:16:28<25:02:04,  7.65s/it, loss=0.4471, acc=0.4765, iter_time=8.24s]Epoch 0:   5%|▍         | 599/12384 [1:16:35<25:02:04,  7.65s/it, loss=0.4545, acc=0.4907, iter_time=8.04s]Epoch 0:   5%|▍         | 600/12384 [1:16:35<25:01:31,  7.65s/it, loss=0.4545, acc=0.4907, iter_time=8.04s]Epoch 0:   5%|▍         | 600/12384 [1:16:43<25:01:31,  7.65s/it, loss=0.3590, acc=0.5658, iter_time=7.21s]Epoch 0:   5%|▍         | 601/12384 [1:16:43<24:58:57,  7.63s/it, loss=0.3590, acc=0.5658, iter_time=7.21s]Epoch 0:   5%|▍         | 601/12384 [1:16:51<24:58:57,  7.63s/it, loss=0.3608, acc=0.5635, iter_time=4.77s]Epoch 0:   5%|▍         | 602/12384 [1:16:51<24:59:41,  7.64s/it, loss=0.3608, acc=0.5635, iter_time=4.77s]Epoch 0:   5%|▍         | 602/12384 [1:16:58<24:59:41,  7.64s/it, loss=0.4167, acc=0.4805, iter_time=10.47s]Epoch 0:   5%|▍         | 603/12384 [1:16:58<24:59:09,  7.64s/it, loss=0.4167, acc=0.4805, iter_time=10.47s]Epoch 0:   5%|▍         | 603/12384 [1:17:06<24:59:09,  7.64s/it, loss=0.3339, acc=0.5512, iter_time=7.66s] Epoch 0:   5%|▍         | 604/12384 [1:17:06<25:00:31,  7.64s/it, loss=0.3339, acc=0.5512, iter_time=7.66s]Epoch 0:   5%|▍         | 604/12384 [1:17:13<25:00:31,  7.64s/it, loss=0.3723, acc=0.6058, iter_time=6.45s]Epoch 0:   5%|▍         | 605/12384 [1:17:13<24:58:34,  7.63s/it, loss=0.3723, acc=0.6058, iter_time=6.45s]Epoch 0:   5%|▍         | 605/12384 [1:17:21<24:58:34,  7.63s/it, loss=0.4356, acc=0.4972, iter_time=8.80s]Epoch 0:   5%|▍         | 606/12384 [1:17:21<24:58:41,  7.63s/it, loss=0.4356, acc=0.4972, iter_time=8.80s]Epoch 0:   5%|▍         | 606/12384 [1:17:29<24:58:41,  7.63s/it, loss=0.3879, acc=0.5585, iter_time=7.63s]Epoch 0:   5%|▍         | 607/12384 [1:17:29<24:59:41,  7.64s/it, loss=0.3879, acc=0.5585, iter_time=7.63s]Epoch 0:   5%|▍         | 607/12384 [1:17:36<24:59:41,  7.64s/it, loss=0.4014, acc=0.5559, iter_time=7.64s]Epoch 0:   5%|▍         | 608/12384 [1:17:36<25:00:20,  7.64s/it, loss=0.4014, acc=0.5559, iter_time=7.64s]Epoch 0:   5%|▍         | 608/12384 [1:17:44<25:00:20,  7.64s/it, loss=0.3320, acc=0.5873, iter_time=7.68s]Epoch 0:   5%|▍         | 609/12384 [1:17:44<24:58:37,  7.64s/it, loss=0.3320, acc=0.5873, iter_time=7.68s]Epoch 0:   5%|▍         | 609/12384 [1:17:52<24:58:37,  7.64s/it, loss=0.4512, acc=0.5488, iter_time=4.07s]Epoch 0:   5%|▍         | 610/12384 [1:17:52<24:59:21,  7.64s/it, loss=0.4512, acc=0.5488, iter_time=4.07s]Epoch 0:   5%|▍         | 610/12384 [1:17:59<24:59:21,  7.64s/it, loss=0.3436, acc=0.5503, iter_time=11.19s]Epoch 0:   5%|▍         | 611/12384 [1:17:59<25:00:45,  7.65s/it, loss=0.3436, acc=0.5503, iter_time=11.19s]Epoch 0:   5%|▍         | 611/12384 [1:18:07<25:00:45,  7.65s/it, loss=0.2757, acc=0.6474, iter_time=7.72s] Epoch 0:   5%|▍         | 612/12384 [1:18:07<25:01:53,  7.65s/it, loss=0.2757, acc=0.6474, iter_time=7.72s]Epoch 0:   5%|▍         | 612/12384 [1:18:15<25:01:53,  7.65s/it, loss=0.3746, acc=0.5754, iter_time=7.92s]Epoch 0:   5%|▍         | 613/12384 [1:18:15<25:19:13,  7.74s/it, loss=0.3746, acc=0.5754, iter_time=7.92s]Epoch 0:   5%|▍         | 613/12384 [1:18:23<25:19:13,  7.74s/it, loss=0.3046, acc=0.5813, iter_time=6.71s]Epoch 0:   5%|▍         | 614/12384 [1:18:23<25:12:10,  7.71s/it, loss=0.3046, acc=0.5813, iter_time=6.71s]Epoch 0:   5%|▍         | 614/12384 [1:18:30<25:12:10,  7.71s/it, loss=0.3546, acc=0.5911, iter_time=5.79s]Epoch 0:   5%|▍         | 615/12384 [1:18:30<25:07:42,  7.69s/it, loss=0.3546, acc=0.5911, iter_time=5.79s]Epoch 0:   5%|▍         | 615/12384 [1:18:38<25:07:42,  7.69s/it, loss=0.2801, acc=0.6547, iter_time=10.86s]Epoch 0:   5%|▍         | 616/12384 [1:18:38<25:06:35,  7.68s/it, loss=0.2801, acc=0.6547, iter_time=10.86s]Epoch 0:   5%|▍         | 616/12384 [1:18:45<25:06:35,  7.68s/it, loss=0.3847, acc=0.5504, iter_time=7.21s] Epoch 0:   5%|▍         | 617/12384 [1:18:45<25:03:00,  7.66s/it, loss=0.3847, acc=0.5504, iter_time=7.21s]Epoch 0:   5%|▍         | 617/12384 [1:18:53<25:03:00,  7.66s/it, loss=0.2462, acc=0.6632, iter_time=5.85s]Epoch 0:   5%|▍         | 618/12384 [1:18:53<25:01:59,  7.66s/it, loss=0.2462, acc=0.6632, iter_time=5.85s]Epoch 0:   5%|▍         | 618/12384 [1:19:01<25:01:59,  7.66s/it, loss=0.3307, acc=0.6648, iter_time=9.42s]Epoch 0:   5%|▍         | 619/12384 [1:19:01<25:00:27,  7.65s/it, loss=0.3307, acc=0.6648, iter_time=9.42s]Epoch 0:   5%|▍         | 619/12384 [1:19:08<25:00:27,  7.65s/it, loss=0.3192, acc=0.5956, iter_time=7.64s]Epoch 0:   5%|▌         | 620/12384 [1:19:08<24:56:30,  7.63s/it, loss=0.3192, acc=0.5956, iter_time=7.64s]Epoch 0:   5%|▌         | 620/12384 [1:19:16<24:56:30,  7.63s/it, loss=0.2890, acc=0.6224, iter_time=7.60s]Epoch 0:   5%|▌         | 621/12384 [1:19:16<24:55:58,  7.63s/it, loss=0.2890, acc=0.6224, iter_time=7.60s]Epoch 0:   5%|▌         | 621/12384 [1:19:24<24:55:58,  7.63s/it, loss=0.2759, acc=0.6690, iter_time=7.63s]Epoch 0:   5%|▌         | 622/12384 [1:19:24<24:57:59,  7.64s/it, loss=0.2759, acc=0.6690, iter_time=7.63s]Epoch 0:   5%|▌         | 622/12384 [1:19:31<24:57:59,  7.64s/it, loss=0.2857, acc=0.6261, iter_time=7.66s]Epoch 0:   5%|▌         | 623/12384 [1:19:31<24:57:50,  7.64s/it, loss=0.2857, acc=0.6261, iter_time=7.66s]Epoch 0:   5%|▌         | 623/12384 [1:19:39<24:57:50,  7.64s/it, loss=0.2741, acc=0.6090, iter_time=8.04s]Epoch 0:   5%|▌         | 624/12384 [1:19:39<25:00:58,  7.66s/it, loss=0.2741, acc=0.6090, iter_time=8.04s]Epoch 0:   5%|▌         | 624/12384 [1:19:47<25:00:58,  7.66s/it, loss=0.3084, acc=0.5810, iter_time=7.30s]Epoch 0:   5%|▌         | 625/12384 [1:19:47<24:59:33,  7.65s/it, loss=0.3084, acc=0.5810, iter_time=7.30s]Epoch 0:   5%|▌         | 625/12384 [1:19:54<24:59:33,  7.65s/it, loss=0.2274, acc=0.7522, iter_time=4.04s]Epoch 0:   5%|▌         | 626/12384 [1:19:54<24:56:39,  7.64s/it, loss=0.2274, acc=0.7522, iter_time=4.04s]Epoch 0:   5%|▌         | 626/12384 [1:20:02<24:56:39,  7.64s/it, loss=0.2724, acc=0.6851, iter_time=11.17s]Epoch 0:   5%|▌         | 627/12384 [1:20:02<24:55:59,  7.63s/it, loss=0.2724, acc=0.6851, iter_time=11.17s]Epoch 0:   5%|▌         | 627/12384 [1:20:09<24:55:59,  7.63s/it, loss=0.2737, acc=0.6208, iter_time=7.65s] Epoch 0:   5%|▌         | 628/12384 [1:20:09<24:54:54,  7.63s/it, loss=0.2737, acc=0.6208, iter_time=7.65s]Epoch 0:   5%|▌         | 628/12384 [1:20:17<24:54:54,  7.63s/it, loss=0.2697, acc=0.6223, iter_time=7.62s]Epoch 0:   5%|▌         | 629/12384 [1:20:17<24:54:39,  7.63s/it, loss=0.2697, acc=0.6223, iter_time=7.62s]Epoch 0:   5%|▌         | 629/12384 [1:20:25<24:54:39,  7.63s/it, loss=0.3092, acc=0.6069, iter_time=7.65s]Epoch 0:   5%|▌         | 630/12384 [1:20:25<24:56:20,  7.64s/it, loss=0.3092, acc=0.6069, iter_time=7.65s]Epoch 0:   5%|▌         | 630/12384 [1:20:32<24:56:20,  7.64s/it, loss=0.2454, acc=0.6816, iter_time=7.64s]Epoch 0:   5%|▌         | 631/12384 [1:20:32<24:56:58,  7.64s/it, loss=0.2454, acc=0.6816, iter_time=7.64s]Epoch 0:   5%|▌         | 631/12384 [1:20:40<24:56:58,  7.64s/it, loss=0.3183, acc=0.5691, iter_time=8.04s]Epoch 0:   5%|▌         | 632/12384 [1:20:40<24:56:56,  7.64s/it, loss=0.3183, acc=0.5691, iter_time=8.04s]Epoch 0:   5%|▌         | 632/12384 [1:20:48<24:56:56,  7.64s/it, loss=0.2355, acc=0.6794, iter_time=7.25s]Epoch 0:   5%|▌         | 633/12384 [1:20:48<24:56:52,  7.64s/it, loss=0.2355, acc=0.6794, iter_time=7.25s]Epoch 0:   5%|▌         | 633/12384 [1:20:55<24:56:52,  7.64s/it, loss=0.2374, acc=0.6964, iter_time=7.63s]Epoch 0:   5%|▌         | 634/12384 [1:20:55<24:57:06,  7.64s/it, loss=0.2374, acc=0.6964, iter_time=7.63s]Epoch 0:   5%|▌         | 634/12384 [1:21:03<24:57:06,  7.64s/it, loss=0.2305, acc=0.6784, iter_time=7.66s]Epoch 0:   5%|▌         | 635/12384 [1:21:03<24:58:33,  7.65s/it, loss=0.2305, acc=0.6784, iter_time=7.66s]Epoch 0:   5%|▌         | 635/12384 [1:21:11<24:58:33,  7.65s/it, loss=0.1761, acc=0.7745, iter_time=7.67s]Epoch 0:   5%|▌         | 636/12384 [1:21:11<24:59:50,  7.66s/it, loss=0.1761, acc=0.7745, iter_time=7.67s]Epoch 0:   5%|▌         | 636/12384 [1:21:18<24:59:50,  7.66s/it, loss=0.1990, acc=0.7060, iter_time=7.68s]Epoch 0:   5%|▌         | 637/12384 [1:21:18<24:57:25,  7.65s/it, loss=0.1990, acc=0.7060, iter_time=7.68s]Epoch 0:   5%|▌         | 637/12384 [1:21:26<24:57:25,  7.65s/it, loss=0.2891, acc=0.6542, iter_time=7.66s]Epoch 0:   5%|▌         | 638/12384 [1:21:26<25:01:05,  7.67s/it, loss=0.2891, acc=0.6542, iter_time=7.66s]Epoch 0:   5%|▌         | 638/12384 [1:21:35<25:01:05,  7.67s/it, loss=0.2287, acc=0.6787, iter_time=8.48s]Epoch 0:   5%|▌         | 639/12384 [1:21:35<25:54:06,  7.94s/it, loss=0.2287, acc=0.6787, iter_time=8.48s]Epoch 0:   5%|▌         | 639/12384 [1:21:43<25:54:06,  7.94s/it, loss=0.2104, acc=0.7418, iter_time=8.11s]Epoch 0:   5%|▌         | 640/12384 [1:21:43<25:58:16,  7.96s/it, loss=0.2104, acc=0.7418, iter_time=8.11s]Epoch 0:   5%|▌         | 640/12384 [1:21:50<25:58:16,  7.96s/it, loss=0.2158, acc=0.6936, iter_time=7.65s]Epoch 0:   5%|▌         | 641/12384 [1:21:50<25:42:47,  7.88s/it, loss=0.2158, acc=0.6936, iter_time=7.65s]Epoch 0:   5%|▌         | 641/12384 [1:21:58<25:42:47,  7.88s/it, loss=0.1843, acc=0.7471, iter_time=7.73s]Epoch 0:   5%|▌         | 642/12384 [1:21:58<25:26:42,  7.80s/it, loss=0.1843, acc=0.7471, iter_time=7.73s]Epoch 0:   5%|▌         | 642/12384 [1:22:06<25:26:42,  7.80s/it, loss=0.2027, acc=0.7683, iter_time=6.67s]Epoch 0:   5%|▌         | 643/12384 [1:22:06<25:17:14,  7.75s/it, loss=0.2027, acc=0.7683, iter_time=6.67s]Epoch 0:   5%|▌         | 643/12384 [1:22:13<25:17:14,  7.75s/it, loss=0.1985, acc=0.7134, iter_time=8.56s]Epoch 0:   5%|▌         | 644/12384 [1:22:13<25:08:42,  7.71s/it, loss=0.1985, acc=0.7134, iter_time=8.56s]Epoch 0:   5%|▌         | 644/12384 [1:22:21<25:08:42,  7.71s/it, loss=0.1784, acc=0.7264, iter_time=7.64s]Epoch 0:   5%|▌         | 645/12384 [1:22:21<25:04:52,  7.69s/it, loss=0.1784, acc=0.7264, iter_time=7.64s]Epoch 0:   5%|▌         | 645/12384 [1:22:28<25:04:52,  7.69s/it, loss=0.1879, acc=0.7621, iter_time=7.62s]Epoch 0:   5%|▌         | 646/12384 [1:22:28<25:00:38,  7.67s/it, loss=0.1879, acc=0.7621, iter_time=7.62s]Epoch 0:   5%|▌         | 646/12384 [1:22:36<25:00:38,  7.67s/it, loss=0.1737, acc=0.7515, iter_time=7.63s]Epoch 0:   5%|▌         | 647/12384 [1:22:36<24:58:09,  7.66s/it, loss=0.1737, acc=0.7515, iter_time=7.63s]Epoch 0:   5%|▌         | 647/12384 [1:22:44<24:58:09,  7.66s/it, loss=0.1593, acc=0.7533, iter_time=8.02s]Epoch 0:   5%|▌         | 648/12384 [1:22:44<24:54:37,  7.64s/it, loss=0.1593, acc=0.7533, iter_time=8.02s]Epoch 0:   5%|▌         | 648/12384 [1:22:51<24:54:37,  7.64s/it, loss=0.1462, acc=0.7813, iter_time=7.21s]Epoch 0:   5%|▌         | 649/12384 [1:22:51<24:52:36,  7.63s/it, loss=0.1462, acc=0.7813, iter_time=7.21s]Epoch 0:   5%|▌         | 649/12384 [1:22:59<24:52:36,  7.63s/it, loss=0.5466, acc=0.6792, iter_time=8.10s]Epoch 0:   5%|▌         | 650/12384 [1:22:59<24:56:29,  7.65s/it, loss=0.5466, acc=0.6792, iter_time=8.10s]Epoch 0:   5%|▌         | 650/12384 [1:23:07<24:56:29,  7.65s/it, loss=0.1704, acc=0.7695, iter_time=7.24s]Epoch 0:   5%|▌         | 651/12384 [1:23:07<24:59:51,  7.67s/it, loss=0.1704, acc=0.7695, iter_time=7.24s]Epoch 0:   5%|▌         | 651/12384 [1:23:14<24:59:51,  7.67s/it, loss=0.1583, acc=0.7768, iter_time=7.70s]Epoch 0:   5%|▌         | 652/12384 [1:23:14<24:57:30,  7.66s/it, loss=0.1583, acc=0.7768, iter_time=7.70s]Epoch 0:   5%|▌         | 652/12384 [1:23:22<24:57:30,  7.66s/it, loss=0.2298, acc=0.7080, iter_time=7.64s]Epoch 0:   5%|▌         | 653/12384 [1:23:22<24:55:59,  7.65s/it, loss=0.2298, acc=0.7080, iter_time=7.64s]Epoch 0:   5%|▌         | 653/12384 [1:23:30<24:55:59,  7.65s/it, loss=0.1883, acc=0.7259, iter_time=4.84s]Epoch 0:   5%|▌         | 654/12384 [1:23:30<24:54:47,  7.65s/it, loss=0.1883, acc=0.7259, iter_time=4.84s]Epoch 0:   5%|▌         | 654/12384 [1:23:37<24:54:47,  7.65s/it, loss=0.1999, acc=0.7265, iter_time=10.41s]Epoch 0:   5%|▌         | 655/12384 [1:23:37<24:53:51,  7.64s/it, loss=0.1999, acc=0.7265, iter_time=10.41s]Epoch 0:   5%|▌         | 655/12384 [1:23:45<24:53:51,  7.64s/it, loss=0.1884, acc=0.7112, iter_time=8.01s] Epoch 0:   5%|▌         | 656/12384 [1:23:45<24:58:08,  7.66s/it, loss=0.1884, acc=0.7112, iter_time=8.01s]Epoch 0:   5%|▌         | 656/12384 [1:23:53<24:58:08,  7.66s/it, loss=0.1850, acc=0.7239, iter_time=7.35s]Epoch 0:   5%|▌         | 657/12384 [1:23:53<24:54:59,  7.65s/it, loss=0.1850, acc=0.7239, iter_time=7.35s]Epoch 0:   5%|▌         | 657/12384 [1:24:00<24:54:59,  7.65s/it, loss=0.1589, acc=0.7934, iter_time=7.59s]Epoch 0:   5%|▌         | 658/12384 [1:24:00<24:51:10,  7.63s/it, loss=0.1589, acc=0.7934, iter_time=7.59s]Epoch 0:   5%|▌         | 658/12384 [1:24:08<24:51:10,  7.63s/it, loss=0.1807, acc=0.7450, iter_time=7.62s]Epoch 0:   5%|▌         | 659/12384 [1:24:08<24:53:02,  7.64s/it, loss=0.1807, acc=0.7450, iter_time=7.62s]Epoch 0:   5%|▌         | 659/12384 [1:24:15<24:53:02,  7.64s/it, loss=0.1695, acc=0.7443, iter_time=6.70s]Epoch 0:   5%|▌         | 660/12384 [1:24:15<24:52:43,  7.64s/it, loss=0.1695, acc=0.7443, iter_time=6.70s]Epoch 0:   5%|▌         | 660/12384 [1:24:23<24:52:43,  7.64s/it, loss=0.1544, acc=0.7608, iter_time=8.60s]Epoch 0:   5%|▌         | 661/12384 [1:24:23<24:52:39,  7.64s/it, loss=0.1544, acc=0.7608, iter_time=8.60s]Epoch 0:   5%|▌         | 661/12384 [1:24:31<24:52:39,  7.64s/it, loss=0.1465, acc=0.7956, iter_time=7.64s]Epoch 0:   5%|▌         | 662/12384 [1:24:31<24:52:13,  7.64s/it, loss=0.1465, acc=0.7956, iter_time=7.64s]Epoch 0:   5%|▌         | 662/12384 [1:24:38<24:52:13,  7.64s/it, loss=0.2700, acc=0.7387, iter_time=4.85s]Epoch 0:   5%|▌         | 663/12384 [1:24:38<24:52:28,  7.64s/it, loss=0.2700, acc=0.7387, iter_time=4.85s]Epoch 0:   5%|▌         | 663/12384 [1:24:46<24:52:28,  7.64s/it, loss=0.1463, acc=0.7929, iter_time=10.38s]Epoch 0:   5%|▌         | 664/12384 [1:24:46<24:51:12,  7.63s/it, loss=0.1463, acc=0.7929, iter_time=10.38s]Epoch 0:   5%|▌         | 664/12384 [1:24:54<24:51:12,  7.63s/it, loss=0.2011, acc=0.7511, iter_time=7.66s] Epoch 0:   5%|▌         | 665/12384 [1:24:54<24:49:41,  7.63s/it, loss=0.2011, acc=0.7511, iter_time=7.66s]Epoch 0:   5%|▌         | 665/12384 [1:25:01<24:49:41,  7.63s/it, loss=0.1036, acc=0.8381, iter_time=7.92s]Epoch 0:   5%|▌         | 666/12384 [1:25:01<25:06:07,  7.71s/it, loss=0.1036, acc=0.8381, iter_time=7.92s]Epoch 0:   5%|▌         | 666/12384 [1:25:09<25:06:07,  7.71s/it, loss=0.1327, acc=0.8042, iter_time=4.23s]Epoch 0:   5%|▌         | 667/12384 [1:25:09<25:00:36,  7.68s/it, loss=0.1327, acc=0.8042, iter_time=4.23s]Epoch 0:   5%|▌         | 667/12384 [1:25:17<25:00:36,  7.68s/it, loss=0.1302, acc=0.8088, iter_time=10.99s]Epoch 0:   5%|▌         | 668/12384 [1:25:17<24:56:54,  7.67s/it, loss=0.1302, acc=0.8088, iter_time=10.99s]Epoch 0:   5%|▌         | 668/12384 [1:25:24<24:56:54,  7.67s/it, loss=0.0870, acc=0.8783, iter_time=7.63s] Epoch 0:   5%|▌         | 669/12384 [1:25:24<24:54:18,  7.65s/it, loss=0.0870, acc=0.8783, iter_time=7.63s]Epoch 0:   5%|▌         | 669/12384 [1:25:32<24:54:18,  7.65s/it, loss=0.1286, acc=0.8579, iter_time=5.56s]Epoch 0:   5%|▌         | 670/12384 [1:25:32<24:52:04,  7.64s/it, loss=0.1286, acc=0.8579, iter_time=5.56s]Epoch 0:   5%|▌         | 670/12384 [1:25:40<24:52:04,  7.64s/it, loss=0.1241, acc=0.8032, iter_time=9.44s]Epoch 0:   5%|▌         | 671/12384 [1:25:40<24:49:59,  7.63s/it, loss=0.1241, acc=0.8032, iter_time=9.44s]Epoch 0:   5%|▌         | 671/12384 [1:25:47<24:49:59,  7.63s/it, loss=0.1622, acc=0.8018, iter_time=7.83s]Epoch 0:   5%|▌         | 672/12384 [1:25:47<24:50:36,  7.64s/it, loss=0.1622, acc=0.8018, iter_time=7.83s]Epoch 0:   5%|▌         | 672/12384 [1:25:55<24:50:36,  7.64s/it, loss=0.1058, acc=0.8327, iter_time=6.69s]Epoch 0:   5%|▌         | 673/12384 [1:25:55<24:48:24,  7.63s/it, loss=0.1058, acc=0.8327, iter_time=6.69s]Epoch 0:   5%|▌         | 673/12384 [1:26:02<24:48:24,  7.63s/it, loss=0.1210, acc=0.8160, iter_time=5.04s]Epoch 0:   5%|▌         | 674/12384 [1:26:02<24:46:49,  7.62s/it, loss=0.1210, acc=0.8160, iter_time=5.04s]Epoch 0:   5%|▌         | 674/12384 [1:26:10<24:46:49,  7.62s/it, loss=0.1089, acc=0.8183, iter_time=11.10s]Epoch 0:   5%|▌         | 675/12384 [1:26:10<24:46:43,  7.62s/it, loss=0.1089, acc=0.8183, iter_time=11.10s]Epoch 0:   5%|▌         | 675/12384 [1:26:18<24:46:43,  7.62s/it, loss=0.1180, acc=0.8083, iter_time=7.63s] Epoch 0:   5%|▌         | 676/12384 [1:26:18<24:47:31,  7.62s/it, loss=0.1180, acc=0.8083, iter_time=7.63s]Epoch 0:   5%|▌         | 676/12384 [1:26:25<24:47:31,  7.62s/it, loss=0.1031, acc=0.8541, iter_time=7.63s]Epoch 0:   5%|▌         | 677/12384 [1:26:25<24:45:33,  7.61s/it, loss=0.1031, acc=0.8541, iter_time=7.63s]Epoch 0:   5%|▌         | 677/12384 [1:26:33<24:45:33,  7.61s/it, loss=0.1068, acc=0.8435, iter_time=7.60s]Epoch 0:   5%|▌         | 678/12384 [1:26:33<24:46:14,  7.62s/it, loss=0.1068, acc=0.8435, iter_time=7.60s]Epoch 0:   5%|▌         | 678/12384 [1:26:41<24:46:14,  7.62s/it, loss=0.2316, acc=0.7498, iter_time=5.90s]Epoch 0:   5%|▌         | 679/12384 [1:26:41<24:50:06,  7.64s/it, loss=0.2316, acc=0.7498, iter_time=5.90s]Epoch 0:   5%|▌         | 679/12384 [1:26:48<24:50:06,  7.64s/it, loss=0.1292, acc=0.8201, iter_time=9.40s]Epoch 0:   5%|▌         | 680/12384 [1:26:48<24:50:21,  7.64s/it, loss=0.1292, acc=0.8201, iter_time=9.40s]Epoch 0:   5%|▌         | 680/12384 [1:26:56<24:50:21,  7.64s/it, loss=0.1082, acc=0.8327, iter_time=7.72s]Epoch 0:   5%|▌         | 681/12384 [1:26:56<24:51:59,  7.65s/it, loss=0.1082, acc=0.8327, iter_time=7.72s]Epoch 0:   5%|▌         | 681/12384 [1:27:04<24:51:59,  7.65s/it, loss=0.1277, acc=0.8374, iter_time=4.84s]Epoch 0:   6%|▌         | 682/12384 [1:27:04<24:50:16,  7.64s/it, loss=0.1277, acc=0.8374, iter_time=4.84s]Epoch 0:   6%|▌         | 682/12384 [1:27:11<24:50:16,  7.64s/it, loss=0.1247, acc=0.7995, iter_time=10.39s]Epoch 0:   6%|▌         | 683/12384 [1:27:11<24:50:26,  7.64s/it, loss=0.1247, acc=0.7995, iter_time=10.39s]Epoch 0:   6%|▌         | 683/12384 [1:27:19<24:50:26,  7.64s/it, loss=0.1036, acc=0.8508, iter_time=6.42s] Epoch 0:   6%|▌         | 684/12384 [1:27:19<24:49:39,  7.64s/it, loss=0.1036, acc=0.8508, iter_time=6.42s]Epoch 0:   6%|▌         | 684/12384 [1:27:26<24:49:39,  7.64s/it, loss=0.1177, acc=0.8069, iter_time=7.94s]Epoch 0:   6%|▌         | 685/12384 [1:27:26<24:47:02,  7.63s/it, loss=0.1177, acc=0.8069, iter_time=7.94s]Epoch 0:   6%|▌         | 685/12384 [1:27:34<24:47:02,  7.63s/it, loss=0.1126, acc=0.8421, iter_time=8.53s]Epoch 0:   6%|▌         | 686/12384 [1:27:34<24:48:19,  7.63s/it, loss=0.1126, acc=0.8421, iter_time=8.53s]Epoch 0:   6%|▌         | 686/12384 [1:27:42<24:48:19,  7.63s/it, loss=0.1070, acc=0.8501, iter_time=7.64s]Epoch 0:   6%|▌         | 687/12384 [1:27:42<24:50:35,  7.65s/it, loss=0.1070, acc=0.8501, iter_time=7.64s]Epoch 0:   6%|▌         | 687/12384 [1:27:49<24:50:35,  7.65s/it, loss=0.1305, acc=0.7891, iter_time=8.06s]Epoch 0:   6%|▌         | 688/12384 [1:27:49<24:48:56,  7.64s/it, loss=0.1305, acc=0.7891, iter_time=8.06s]Epoch 0:   6%|▌         | 688/12384 [1:27:57<24:48:56,  7.64s/it, loss=0.0905, acc=0.8557, iter_time=7.36s]Epoch 0:   6%|▌         | 689/12384 [1:27:57<24:53:38,  7.66s/it, loss=0.0905, acc=0.8557, iter_time=7.36s]Epoch 0:   6%|▌         | 689/12384 [1:28:05<24:53:38,  7.66s/it, loss=0.0984, acc=0.8304, iter_time=6.40s]Epoch 0:   6%|▌         | 690/12384 [1:28:05<24:51:24,  7.65s/it, loss=0.0984, acc=0.8304, iter_time=6.40s]Epoch 0:   6%|▌         | 690/12384 [1:28:12<24:51:24,  7.65s/it, loss=0.0924, acc=0.8252, iter_time=8.84s]Epoch 0:   6%|▌         | 691/12384 [1:28:12<24:51:44,  7.65s/it, loss=0.0924, acc=0.8252, iter_time=8.84s]Epoch 0:   6%|▌         | 691/12384 [1:28:20<24:51:44,  7.65s/it, loss=0.0950, acc=0.8587, iter_time=7.66s]Epoch 0:   6%|▌         | 692/12384 [1:28:20<24:49:29,  7.64s/it, loss=0.0950, acc=0.8587, iter_time=7.66s]Epoch 0:   6%|▌         | 692/12384 [1:28:28<24:49:29,  7.64s/it, loss=0.1179, acc=0.7997, iter_time=7.94s]Epoch 0:   6%|▌         | 693/12384 [1:28:28<25:08:25,  7.74s/it, loss=0.1179, acc=0.7997, iter_time=7.94s]Epoch 0:   6%|▌         | 693/12384 [1:28:36<25:08:25,  7.74s/it, loss=0.0900, acc=0.8538, iter_time=7.08s]Epoch 0:   6%|▌         | 694/12384 [1:28:36<25:00:02,  7.70s/it, loss=0.0900, acc=0.8538, iter_time=7.08s]Epoch 0:   6%|▌         | 694/12384 [1:28:43<25:00:02,  7.70s/it, loss=0.0796, acc=0.8855, iter_time=4.61s]Epoch 0:   6%|▌         | 695/12384 [1:28:43<24:53:38,  7.67s/it, loss=0.0796, acc=0.8855, iter_time=4.61s]Epoch 0:   6%|▌         | 695/12384 [1:28:51<24:53:38,  7.67s/it, loss=0.0898, acc=0.8556, iter_time=11.22s]Epoch 0:   6%|▌         | 696/12384 [1:28:51<24:49:06,  7.64s/it, loss=0.0898, acc=0.8556, iter_time=11.22s]Epoch 0:   6%|▌         | 696/12384 [1:28:58<24:49:06,  7.64s/it, loss=0.0742, acc=0.9220, iter_time=4.88s] Epoch 0:   6%|▌         | 697/12384 [1:28:58<24:47:54,  7.64s/it, loss=0.0742, acc=0.9220, iter_time=4.88s]Epoch 0:   6%|▌         | 697/12384 [1:29:06<24:47:54,  7.64s/it, loss=0.0700, acc=0.9074, iter_time=8.46s]Epoch 0:   6%|▌         | 698/12384 [1:29:06<24:49:52,  7.65s/it, loss=0.0700, acc=0.9074, iter_time=8.46s]Epoch 0:   6%|▌         | 698/12384 [1:29:14<24:49:52,  7.65s/it, loss=0.1078, acc=0.8478, iter_time=8.52s]Epoch 0:   6%|▌         | 699/12384 [1:29:14<24:46:45,  7.63s/it, loss=0.1078, acc=0.8478, iter_time=8.52s]Epoch 0:   6%|▌         | 699/12384 [1:29:21<24:46:45,  7.63s/it, loss=0.0870, acc=0.8846, iter_time=8.96s]Epoch 0:   6%|▌         | 700/12384 [1:29:21<24:45:54,  7.63s/it, loss=0.0870, acc=0.8846, iter_time=8.96s]Epoch 0:   6%|▌         | 700/12384 [1:29:29<24:45:54,  7.63s/it, loss=0.0963, acc=0.8636, iter_time=7.20s]Epoch 0:   6%|▌         | 701/12384 [1:29:29<24:44:46,  7.63s/it, loss=0.0963, acc=0.8636, iter_time=7.20s]Epoch 0:   6%|▌         | 701/12384 [1:29:36<24:44:46,  7.63s/it, loss=0.0899, acc=0.8464, iter_time=7.63s]Epoch 0:   6%|▌         | 702/12384 [1:29:36<24:44:36,  7.63s/it, loss=0.0899, acc=0.8464, iter_time=7.63s]Epoch 0:   6%|▌         | 702/12384 [1:29:44<24:44:36,  7.63s/it, loss=0.0659, acc=0.8993, iter_time=7.62s]Epoch 0:   6%|▌         | 703/12384 [1:29:44<24:44:40,  7.63s/it, loss=0.0659, acc=0.8993, iter_time=7.62s]Epoch 0:   6%|▌         | 703/12384 [1:29:52<24:44:40,  7.63s/it, loss=0.0636, acc=0.9133, iter_time=7.61s]Epoch 0:   6%|▌         | 704/12384 [1:29:52<24:45:31,  7.63s/it, loss=0.0636, acc=0.9133, iter_time=7.61s]Epoch 0:   6%|▌         | 704/12384 [1:29:59<24:45:31,  7.63s/it, loss=0.0882, acc=0.8802, iter_time=5.10s]Epoch 0:   6%|▌         | 705/12384 [1:29:59<24:45:50,  7.63s/it, loss=0.0882, acc=0.8802, iter_time=5.10s]Epoch 0:   6%|▌         | 705/12384 [1:30:07<24:45:50,  7.63s/it, loss=0.0552, acc=0.9215, iter_time=10.19s]Epoch 0:   6%|▌         | 706/12384 [1:30:07<24:44:24,  7.63s/it, loss=0.0552, acc=0.9215, iter_time=10.19s]Epoch 0:   6%|▌         | 706/12384 [1:30:15<24:44:24,  7.63s/it, loss=0.0729, acc=0.8890, iter_time=7.63s] Epoch 0:   6%|▌         | 707/12384 [1:30:15<24:45:26,  7.63s/it, loss=0.0729, acc=0.8890, iter_time=7.63s]Epoch 0:   6%|▌         | 707/12384 [1:30:22<24:45:26,  7.63s/it, loss=0.0743, acc=0.8881, iter_time=7.62s]Epoch 0:   6%|▌         | 708/12384 [1:30:22<24:44:36,  7.63s/it, loss=0.0743, acc=0.8881, iter_time=7.62s]Epoch 0:   6%|▌         | 708/12384 [1:30:30<24:44:36,  7.63s/it, loss=0.0683, acc=0.8922, iter_time=7.65s]Epoch 0:   6%|▌         | 709/12384 [1:30:30<24:43:40,  7.62s/it, loss=0.0683, acc=0.8922, iter_time=7.65s]Epoch 0:   6%|▌         | 709/12384 [1:30:38<24:43:40,  7.62s/it, loss=0.0779, acc=0.8605, iter_time=4.74s]Epoch 0:   6%|▌         | 710/12384 [1:30:38<24:44:15,  7.63s/it, loss=0.0779, acc=0.8605, iter_time=4.74s]Epoch 0:   6%|▌         | 710/12384 [1:30:45<24:44:15,  7.63s/it, loss=0.0851, acc=0.8623, iter_time=10.49s]Epoch 0:   6%|▌         | 711/12384 [1:30:45<24:45:14,  7.63s/it, loss=0.0851, acc=0.8623, iter_time=10.49s]Epoch 0:   6%|▌         | 711/12384 [1:30:53<24:45:14,  7.63s/it, loss=0.1700, acc=0.8449, iter_time=8.04s] Epoch 0:   6%|▌         | 712/12384 [1:30:53<24:45:44,  7.64s/it, loss=0.1700, acc=0.8449, iter_time=8.04s]Epoch 0:   6%|▌         | 712/12384 [1:31:00<24:45:44,  7.64s/it, loss=0.1078, acc=0.8213, iter_time=7.23s]Epoch 0:   6%|▌         | 713/12384 [1:31:00<24:45:00,  7.63s/it, loss=0.1078, acc=0.8213, iter_time=7.23s]Epoch 0:   6%|▌         | 713/12384 [1:31:08<24:45:00,  7.63s/it, loss=0.0854, acc=0.8348, iter_time=7.01s]Epoch 0:   6%|▌         | 714/12384 [1:31:08<24:45:39,  7.64s/it, loss=0.0854, acc=0.8348, iter_time=7.01s]Epoch 0:   6%|▌         | 714/12384 [1:31:16<24:45:39,  7.64s/it, loss=0.0721, acc=0.8963, iter_time=8.30s]Epoch 0:   6%|▌         | 715/12384 [1:31:16<24:46:52,  7.65s/it, loss=0.0721, acc=0.8963, iter_time=8.30s]Epoch 0:   6%|▌         | 715/12384 [1:31:23<24:46:52,  7.65s/it, loss=0.0602, acc=0.9016, iter_time=7.66s]Epoch 0:   6%|▌         | 716/12384 [1:31:23<24:44:33,  7.63s/it, loss=0.0602, acc=0.9016, iter_time=7.66s]Epoch 0:   6%|▌         | 716/12384 [1:31:31<24:44:33,  7.63s/it, loss=0.0475, acc=0.9400, iter_time=7.61s]Epoch 0:   6%|▌         | 717/12384 [1:31:31<24:43:56,  7.63s/it, loss=0.0475, acc=0.9400, iter_time=7.61s]Epoch 0:   6%|▌         | 717/12384 [1:31:39<24:43:56,  7.63s/it, loss=0.0821, acc=0.8669, iter_time=5.83s]Epoch 0:   6%|▌         | 718/12384 [1:31:39<24:47:11,  7.65s/it, loss=0.0821, acc=0.8669, iter_time=5.83s]Epoch 0:   6%|▌         | 718/12384 [1:31:47<24:47:11,  7.65s/it, loss=0.0577, acc=0.9257, iter_time=9.48s]Epoch 0:   6%|▌         | 719/12384 [1:31:47<25:02:04,  7.73s/it, loss=0.0577, acc=0.9257, iter_time=9.48s]Epoch 0:   6%|▌         | 719/12384 [1:31:54<25:02:04,  7.73s/it, loss=0.0791, acc=0.8718, iter_time=8.29s]Epoch 0:   6%|▌         | 720/12384 [1:31:54<24:57:03,  7.70s/it, loss=0.0791, acc=0.8718, iter_time=8.29s]Epoch 0:   6%|▌         | 720/12384 [1:32:02<24:57:03,  7.70s/it, loss=0.1032, acc=0.8775, iter_time=7.24s]Epoch 0:   6%|▌         | 721/12384 [1:32:02<24:51:42,  7.67s/it, loss=0.1032, acc=0.8775, iter_time=7.24s]Epoch 0:   6%|▌         | 721/12384 [1:32:09<24:51:42,  7.67s/it, loss=0.0505, acc=0.9189, iter_time=6.42s]Epoch 0:   6%|▌         | 722/12384 [1:32:09<24:47:12,  7.65s/it, loss=0.0505, acc=0.9189, iter_time=6.42s]Epoch 0:   6%|▌         | 722/12384 [1:32:17<24:47:12,  7.65s/it, loss=0.0540, acc=0.9087, iter_time=8.80s]Epoch 0:   6%|▌         | 723/12384 [1:32:17<24:45:45,  7.64s/it, loss=0.0540, acc=0.9087, iter_time=8.80s]Epoch 0:   6%|▌         | 723/12384 [1:32:25<24:45:45,  7.64s/it, loss=0.0382, acc=0.9305, iter_time=7.64s]Epoch 0:   6%|▌         | 724/12384 [1:32:25<24:44:41,  7.64s/it, loss=0.0382, acc=0.9305, iter_time=7.64s]Epoch 0:   6%|▌         | 724/12384 [1:32:32<24:44:41,  7.64s/it, loss=0.0724, acc=0.8542, iter_time=4.25s]Epoch 0:   6%|▌         | 725/12384 [1:32:32<24:45:24,  7.64s/it, loss=0.0724, acc=0.8542, iter_time=4.25s]Epoch 0:   6%|▌         | 725/12384 [1:32:40<24:45:24,  7.64s/it, loss=0.0610, acc=0.9049, iter_time=11.01s]Epoch 0:   6%|▌         | 726/12384 [1:32:40<24:43:10,  7.63s/it, loss=0.0610, acc=0.9049, iter_time=11.01s]Epoch 0:   6%|▌         | 726/12384 [1:32:48<24:43:10,  7.63s/it, loss=0.0618, acc=0.9024, iter_time=7.63s] Epoch 0:   6%|▌         | 727/12384 [1:32:48<24:41:11,  7.62s/it, loss=0.0618, acc=0.9024, iter_time=7.63s]Epoch 0:   6%|▌         | 727/12384 [1:32:55<24:41:11,  7.62s/it, loss=0.0476, acc=0.9378, iter_time=7.57s]Epoch 0:   6%|▌         | 728/12384 [1:32:55<24:41:34,  7.63s/it, loss=0.0476, acc=0.9378, iter_time=7.57s]Epoch 0:   6%|▌         | 728/12384 [1:33:03<24:41:34,  7.63s/it, loss=0.0640, acc=0.8811, iter_time=7.68s]Epoch 0:   6%|▌         | 729/12384 [1:33:03<24:41:03,  7.62s/it, loss=0.0640, acc=0.8811, iter_time=7.68s]Epoch 0:   6%|▌         | 729/12384 [1:33:10<24:41:03,  7.62s/it, loss=0.0732, acc=0.8555, iter_time=7.59s]Epoch 0:   6%|▌         | 730/12384 [1:33:10<24:40:30,  7.62s/it, loss=0.0732, acc=0.8555, iter_time=7.59s]Epoch 0:   6%|▌         | 730/12384 [1:33:18<24:40:30,  7.62s/it, loss=0.1067, acc=0.8770, iter_time=4.56s]Epoch 0:   6%|▌         | 731/12384 [1:33:18<24:42:32,  7.63s/it, loss=0.1067, acc=0.8770, iter_time=4.56s]Epoch 0:   6%|▌         | 731/12384 [1:33:26<24:42:32,  7.63s/it, loss=0.0435, acc=0.9228, iter_time=7.91s]Epoch 0:   6%|▌         | 732/12384 [1:33:26<24:49:14,  7.67s/it, loss=0.0435, acc=0.9228, iter_time=7.91s]Epoch 0:   6%|▌         | 732/12384 [1:33:33<24:49:14,  7.67s/it, loss=0.0788, acc=0.8607, iter_time=10.56s]Epoch 0:   6%|▌         | 733/12384 [1:33:33<24:47:25,  7.66s/it, loss=0.0788, acc=0.8607, iter_time=10.56s]Epoch 0:   6%|▌         | 733/12384 [1:33:41<24:47:25,  7.66s/it, loss=0.0610, acc=0.8936, iter_time=6.16s] Epoch 0:   6%|▌         | 734/12384 [1:33:41<24:46:09,  7.65s/it, loss=0.0610, acc=0.8936, iter_time=6.16s]Epoch 0:   6%|▌         | 734/12384 [1:33:49<24:46:09,  7.65s/it, loss=0.0510, acc=0.9132, iter_time=7.92s]Epoch 0:   6%|▌         | 735/12384 [1:33:49<24:45:02,  7.65s/it, loss=0.0510, acc=0.9132, iter_time=7.92s]Epoch 0:   6%|▌         | 735/12384 [1:33:56<24:45:02,  7.65s/it, loss=0.0514, acc=0.9083, iter_time=9.25s]Epoch 0:   6%|▌         | 736/12384 [1:33:56<24:46:00,  7.65s/it, loss=0.0514, acc=0.9083, iter_time=9.25s]Epoch 0:   6%|▌         | 736/12384 [1:34:04<24:46:00,  7.65s/it, loss=0.0416, acc=0.9112, iter_time=4.95s]Epoch 0:   6%|▌         | 737/12384 [1:34:04<24:42:48,  7.64s/it, loss=0.0416, acc=0.9112, iter_time=4.95s]Epoch 0:   6%|▌         | 737/12384 [1:34:12<24:42:48,  7.64s/it, loss=0.0671, acc=0.9069, iter_time=9.90s]Epoch 0:   6%|▌         | 738/12384 [1:34:12<24:42:37,  7.64s/it, loss=0.0671, acc=0.9069, iter_time=9.90s]Epoch 0:   6%|▌         | 738/12384 [1:34:19<24:42:37,  7.64s/it, loss=0.0615, acc=0.8817, iter_time=7.66s]Epoch 0:   6%|▌         | 739/12384 [1:34:19<24:44:39,  7.65s/it, loss=0.0615, acc=0.8817, iter_time=7.66s]Epoch 0:   6%|▌         | 739/12384 [1:34:27<24:44:39,  7.65s/it, loss=0.0525, acc=0.9135, iter_time=5.90s]Epoch 0:   6%|▌         | 740/12384 [1:34:27<24:47:19,  7.66s/it, loss=0.0525, acc=0.9135, iter_time=5.90s]Epoch 0:   6%|▌         | 740/12384 [1:34:35<24:47:19,  7.66s/it, loss=0.2883, acc=0.8236, iter_time=9.47s]Epoch 0:   6%|▌         | 741/12384 [1:34:35<24:44:20,  7.65s/it, loss=0.2883, acc=0.8236, iter_time=9.47s]Epoch 0:   6%|▌         | 741/12384 [1:34:42<24:44:20,  7.65s/it, loss=0.0424, acc=0.9257, iter_time=7.59s]Epoch 0:   6%|▌         | 742/12384 [1:34:42<24:42:15,  7.64s/it, loss=0.0424, acc=0.9257, iter_time=7.59s]Epoch 0:   6%|▌         | 742/12384 [1:34:50<24:42:15,  7.64s/it, loss=0.1948, acc=0.8517, iter_time=7.62s]Epoch 0:   6%|▌         | 743/12384 [1:34:50<24:41:33,  7.64s/it, loss=0.1948, acc=0.8517, iter_time=7.62s]Epoch 0:   6%|▌         | 743/12384 [1:34:58<24:41:33,  7.64s/it, loss=0.0475, acc=0.9171, iter_time=8.04s]Epoch 0:   6%|▌         | 744/12384 [1:34:58<24:40:17,  7.63s/it, loss=0.0475, acc=0.9171, iter_time=8.04s]Epoch 0:   6%|▌         | 744/12384 [1:35:05<24:40:17,  7.63s/it, loss=0.0418, acc=0.9287, iter_time=7.52s]Epoch 0:   6%|▌         | 745/12384 [1:35:05<24:58:51,  7.73s/it, loss=0.0418, acc=0.9287, iter_time=7.52s]Epoch 0:   6%|▌         | 745/12384 [1:35:13<24:58:51,  7.73s/it, loss=0.0360, acc=0.9375, iter_time=7.68s]Epoch 0:   6%|▌         | 746/12384 [1:35:13<24:57:01,  7.72s/it, loss=0.0360, acc=0.9375, iter_time=7.68s]Epoch 0:   6%|▌         | 746/12384 [1:35:21<24:57:01,  7.72s/it, loss=0.0492, acc=0.9099, iter_time=7.68s]Epoch 0:   6%|▌         | 747/12384 [1:35:21<24:51:00,  7.69s/it, loss=0.0492, acc=0.9099, iter_time=7.68s]Epoch 0:   6%|▌         | 747/12384 [1:35:28<24:51:00,  7.69s/it, loss=0.0421, acc=0.9237, iter_time=7.61s]Epoch 0:   6%|▌         | 748/12384 [1:35:28<24:47:09,  7.67s/it, loss=0.0421, acc=0.9237, iter_time=7.61s]Epoch 0:   6%|▌         | 748/12384 [1:35:36<24:47:09,  7.67s/it, loss=0.0499, acc=0.9035, iter_time=7.03s]Epoch 0:   6%|▌         | 749/12384 [1:35:36<24:42:50,  7.65s/it, loss=0.0499, acc=0.9035, iter_time=7.03s]Epoch 0:   6%|▌         | 749/12384 [1:35:44<24:42:50,  7.65s/it, loss=0.0404, acc=0.9213, iter_time=8.59s]Epoch 0:   6%|▌         | 750/12384 [1:35:44<24:41:44,  7.64s/it, loss=0.0404, acc=0.9213, iter_time=8.59s]Epoch 0:   6%|▌         | 750/12384 [1:35:51<24:41:44,  7.64s/it, loss=0.0422, acc=0.9309, iter_time=4.63s]Epoch 0:   6%|▌         | 751/12384 [1:35:51<24:39:00,  7.63s/it, loss=0.0422, acc=0.9309, iter_time=4.63s]Epoch 0:   6%|▌         | 751/12384 [1:35:59<24:39:00,  7.63s/it, loss=0.0383, acc=0.9451, iter_time=10.54s]Epoch 0:   6%|▌         | 752/12384 [1:35:59<24:39:12,  7.63s/it, loss=0.0383, acc=0.9451, iter_time=10.54s]Epoch 0:   6%|▌         | 752/12384 [1:36:06<24:39:12,  7.63s/it, loss=0.0451, acc=0.9196, iter_time=7.27s] Epoch 0:   6%|▌         | 753/12384 [1:36:06<24:39:29,  7.63s/it, loss=0.0451, acc=0.9196, iter_time=7.27s]Epoch 0:   6%|▌         | 753/12384 [1:36:14<24:39:29,  7.63s/it, loss=0.0458, acc=0.9211, iter_time=7.64s]Epoch 0:   6%|▌         | 754/12384 [1:36:14<24:40:17,  7.64s/it, loss=0.0458, acc=0.9211, iter_time=7.64s]Epoch 0:   6%|▌         | 754/12384 [1:36:22<24:40:17,  7.64s/it, loss=0.0374, acc=0.9325, iter_time=7.64s]Epoch 0:   6%|▌         | 755/12384 [1:36:22<24:40:36,  7.64s/it, loss=0.0374, acc=0.9325, iter_time=7.64s]Epoch 0:   6%|▌         | 755/12384 [1:36:29<24:40:36,  7.64s/it, loss=0.2386, acc=0.8100, iter_time=7.64s]Epoch 0:   6%|▌         | 756/12384 [1:36:29<24:39:46,  7.64s/it, loss=0.2386, acc=0.8100, iter_time=7.64s]Epoch 0:   6%|▌         | 756/12384 [1:36:37<24:39:46,  7.64s/it, loss=0.0359, acc=0.9196, iter_time=6.43s]Epoch 0:   6%|▌         | 757/12384 [1:36:37<24:36:51,  7.62s/it, loss=0.0359, acc=0.9196, iter_time=6.43s]Epoch 0:   6%|▌         | 757/12384 [1:36:45<24:36:51,  7.62s/it, loss=0.0413, acc=0.9169, iter_time=5.04s]Epoch 0:   6%|▌         | 758/12384 [1:36:45<24:36:17,  7.62s/it, loss=0.0413, acc=0.9169, iter_time=5.04s]Epoch 0:   6%|▌         | 758/12384 [1:36:52<24:36:17,  7.62s/it, loss=0.0432, acc=0.9119, iter_time=11.35s]Epoch 0:   6%|▌         | 759/12384 [1:36:52<24:34:29,  7.61s/it, loss=0.0432, acc=0.9119, iter_time=11.35s]Epoch 0:   6%|▌         | 759/12384 [1:37:00<24:34:29,  7.61s/it, loss=0.0478, acc=0.9104, iter_time=7.99s] Epoch 0:   6%|▌         | 760/12384 [1:37:00<24:36:19,  7.62s/it, loss=0.0478, acc=0.9104, iter_time=7.99s]Epoch 0:   6%|▌         | 760/12384 [1:37:07<24:36:19,  7.62s/it, loss=0.0376, acc=0.9337, iter_time=7.24s]Epoch 0:   6%|▌         | 761/12384 [1:37:07<24:37:37,  7.63s/it, loss=0.0376, acc=0.9337, iter_time=7.24s]Epoch 0:   6%|▌         | 761/12384 [1:37:15<24:37:37,  7.63s/it, loss=0.0319, acc=0.9420, iter_time=7.67s]Epoch 0:   6%|▌         | 762/12384 [1:37:15<24:36:26,  7.62s/it, loss=0.0319, acc=0.9420, iter_time=7.67s]Epoch 0:   6%|▌         | 762/12384 [1:37:23<24:36:26,  7.62s/it, loss=0.0306, acc=0.9524, iter_time=7.58s]Epoch 0:   6%|▌         | 763/12384 [1:37:23<24:34:05,  7.61s/it, loss=0.0306, acc=0.9524, iter_time=7.58s]Epoch 0:   6%|▌         | 763/12384 [1:37:30<24:34:05,  7.61s/it, loss=0.0217, acc=0.9687, iter_time=4.47s]Epoch 0:   6%|▌         | 764/12384 [1:37:30<24:36:08,  7.62s/it, loss=0.0217, acc=0.9687, iter_time=4.47s]Epoch 0:   6%|▌         | 764/12384 [1:37:38<24:36:08,  7.62s/it, loss=0.0435, acc=0.9098, iter_time=10.17s]Epoch 0:   6%|▌         | 765/12384 [1:37:38<24:34:32,  7.61s/it, loss=0.0435, acc=0.9098, iter_time=10.17s]Epoch 0:   6%|▌         | 765/12384 [1:37:46<24:34:32,  7.61s/it, loss=0.0369, acc=0.9183, iter_time=6.73s] Epoch 0:   6%|▌         | 766/12384 [1:37:46<24:35:48,  7.62s/it, loss=0.0369, acc=0.9183, iter_time=6.73s]Epoch 0:   6%|▌         | 766/12384 [1:37:53<24:35:48,  7.62s/it, loss=0.0226, acc=0.9585, iter_time=6.53s]Epoch 0:   6%|▌         | 767/12384 [1:37:53<24:35:49,  7.62s/it, loss=0.0226, acc=0.9585, iter_time=6.53s]Epoch 0:   6%|▌         | 767/12384 [1:38:01<24:35:49,  7.62s/it, loss=0.0323, acc=0.9444, iter_time=10.59s]Epoch 0:   6%|▌         | 768/12384 [1:38:01<24:38:55,  7.64s/it, loss=0.0323, acc=0.9444, iter_time=10.59s]Epoch 0:   6%|▌         | 768/12384 [1:38:09<24:38:55,  7.64s/it, loss=0.0343, acc=0.9373, iter_time=7.30s] Epoch 0:   6%|▌         | 769/12384 [1:38:09<24:38:52,  7.64s/it, loss=0.0343, acc=0.9373, iter_time=7.30s]Epoch 0:   6%|▌         | 769/12384 [1:38:16<24:38:52,  7.64s/it, loss=0.0251, acc=0.9559, iter_time=7.65s]Epoch 0:   6%|▌         | 770/12384 [1:38:16<24:38:04,  7.64s/it, loss=0.0251, acc=0.9559, iter_time=7.65s]Epoch 0:   6%|▌         | 770/12384 [1:38:24<24:38:04,  7.64s/it, loss=0.0246, acc=0.9612, iter_time=7.94s]Epoch 0:   6%|▌         | 771/12384 [1:38:24<24:59:50,  7.75s/it, loss=0.0246, acc=0.9612, iter_time=7.94s]Epoch 0:   6%|▌         | 771/12384 [1:38:32<24:59:50,  7.75s/it, loss=0.0601, acc=0.8999, iter_time=7.70s]Epoch 0:   6%|▌         | 772/12384 [1:38:32<24:51:15,  7.71s/it, loss=0.0601, acc=0.8999, iter_time=7.70s]Epoch 0:   6%|▌         | 772/12384 [1:38:39<24:51:15,  7.71s/it, loss=0.0359, acc=0.9443, iter_time=7.60s]Epoch 0:   6%|▌         | 773/12384 [1:38:39<24:44:39,  7.67s/it, loss=0.0359, acc=0.9443, iter_time=7.60s]Epoch 0:   6%|▌         | 773/12384 [1:38:47<24:44:39,  7.67s/it, loss=0.0329, acc=0.9437, iter_time=7.58s]Epoch 0:   6%|▋         | 774/12384 [1:38:47<24:40:25,  7.65s/it, loss=0.0329, acc=0.9437, iter_time=7.58s]Epoch 0:   6%|▋         | 774/12384 [1:38:55<24:40:25,  7.65s/it, loss=0.0413, acc=0.9204, iter_time=7.63s]Epoch 0:   6%|▋         | 775/12384 [1:38:55<24:38:11,  7.64s/it, loss=0.0413, acc=0.9204, iter_time=7.63s]Epoch 0:   6%|▋         | 775/12384 [1:39:02<24:38:11,  7.64s/it, loss=0.0435, acc=0.9154, iter_time=7.64s]Epoch 0:   6%|▋         | 776/12384 [1:39:02<24:41:52,  7.66s/it, loss=0.0435, acc=0.9154, iter_time=7.64s]Epoch 0:   6%|▋         | 776/12384 [1:39:10<24:41:52,  7.66s/it, loss=0.0415, acc=0.9187, iter_time=7.66s]Epoch 0:   6%|▋         | 777/12384 [1:39:10<24:45:14,  7.68s/it, loss=0.0415, acc=0.9187, iter_time=7.66s]Epoch 0:   6%|▋         | 777/12384 [1:39:18<24:45:14,  7.68s/it, loss=0.0216, acc=0.9552, iter_time=7.74s]Epoch 0:   6%|▋         | 778/12384 [1:39:18<24:42:22,  7.66s/it, loss=0.0216, acc=0.9552, iter_time=7.74s]Epoch 0:   6%|▋         | 778/12384 [1:39:25<24:42:22,  7.66s/it, loss=0.0148, acc=0.9775, iter_time=7.63s]Epoch 0:   6%|▋         | 779/12384 [1:39:25<24:40:21,  7.65s/it, loss=0.0148, acc=0.9775, iter_time=7.63s]Epoch 0:   6%|▋         | 779/12384 [1:39:33<24:40:21,  7.65s/it, loss=0.0324, acc=0.9460, iter_time=7.65s]Epoch 0:   6%|▋         | 780/12384 [1:39:33<24:38:24,  7.64s/it, loss=0.0324, acc=0.9460, iter_time=7.65s]Epoch 0:   6%|▋         | 780/12384 [1:39:40<24:38:24,  7.64s/it, loss=0.0238, acc=0.9511, iter_time=7.60s]Epoch 0:   6%|▋         | 781/12384 [1:39:40<24:36:47,  7.64s/it, loss=0.0238, acc=0.9511, iter_time=7.60s]Epoch 0:   6%|▋         | 781/12384 [1:39:48<24:36:47,  7.64s/it, loss=0.0370, acc=0.9297, iter_time=7.65s]Epoch 0:   6%|▋         | 782/12384 [1:39:48<24:36:28,  7.64s/it, loss=0.0370, acc=0.9297, iter_time=7.65s]Epoch 0:   6%|▋         | 782/12384 [1:39:56<24:36:28,  7.64s/it, loss=0.0324, acc=0.9425, iter_time=7.60s]Epoch 0:   6%|▋         | 783/12384 [1:39:56<24:37:43,  7.64s/it, loss=0.0324, acc=0.9425, iter_time=7.60s]Epoch 0:   6%|▋         | 783/12384 [1:40:03<24:37:43,  7.64s/it, loss=0.0326, acc=0.9294, iter_time=8.04s]Epoch 0:   6%|▋         | 784/12384 [1:40:03<24:37:34,  7.64s/it, loss=0.0326, acc=0.9294, iter_time=8.04s]Epoch 0:   6%|▋         | 784/12384 [1:40:11<24:37:34,  7.64s/it, loss=0.0227, acc=0.9600, iter_time=7.24s]Epoch 0:   6%|▋         | 785/12384 [1:40:11<24:35:05,  7.63s/it, loss=0.0227, acc=0.9600, iter_time=7.24s]Epoch 0:   6%|▋         | 785/12384 [1:40:19<24:35:05,  7.63s/it, loss=0.0224, acc=0.9444, iter_time=4.49s]Epoch 0:   6%|▋         | 786/12384 [1:40:19<24:34:26,  7.63s/it, loss=0.0224, acc=0.9444, iter_time=4.49s]Epoch 0:   6%|▋         | 786/12384 [1:40:26<24:34:26,  7.63s/it, loss=0.0280, acc=0.9426, iter_time=7.69s]Epoch 0:   6%|▋         | 787/12384 [1:40:26<24:33:20,  7.62s/it, loss=0.0280, acc=0.9426, iter_time=7.69s]Epoch 0:   6%|▋         | 787/12384 [1:40:34<24:33:20,  7.62s/it, loss=0.0509, acc=0.9484, iter_time=10.66s]Epoch 0:   6%|▋         | 788/12384 [1:40:34<24:33:31,  7.62s/it, loss=0.0509, acc=0.9484, iter_time=10.66s]Epoch 0:   6%|▋         | 788/12384 [1:40:42<24:33:31,  7.62s/it, loss=0.0369, acc=0.9292, iter_time=5.66s] Epoch 0:   6%|▋         | 789/12384 [1:40:42<24:34:25,  7.63s/it, loss=0.0369, acc=0.9292, iter_time=5.66s]Epoch 0:   6%|▋         | 789/12384 [1:40:49<24:34:25,  7.63s/it, loss=0.0209, acc=0.9621, iter_time=9.60s]Epoch 0:   6%|▋         | 790/12384 [1:40:49<24:33:11,  7.62s/it, loss=0.0209, acc=0.9621, iter_time=9.60s]Epoch 0:   6%|▋         | 790/12384 [1:40:57<24:33:11,  7.62s/it, loss=0.0131, acc=0.9784, iter_time=7.63s]Epoch 0:   6%|▋         | 791/12384 [1:40:57<24:33:43,  7.63s/it, loss=0.0131, acc=0.9784, iter_time=7.63s]Epoch 0:   6%|▋         | 791/12384 [1:41:04<24:33:43,  7.63s/it, loss=0.0366, acc=0.9400, iter_time=8.03s]Epoch 0:   6%|▋         | 792/12384 [1:41:04<24:36:42,  7.64s/it, loss=0.0366, acc=0.9400, iter_time=8.03s]Epoch 0:   6%|▋         | 792/12384 [1:41:12<24:36:42,  7.64s/it, loss=0.0259, acc=0.9537, iter_time=7.29s]Epoch 0:   6%|▋         | 793/12384 [1:41:12<24:35:23,  7.64s/it, loss=0.0259, acc=0.9537, iter_time=7.29s]Epoch 0:   6%|▋         | 793/12384 [1:41:20<24:35:23,  7.64s/it, loss=0.0289, acc=0.9530, iter_time=7.62s]Epoch 0:   6%|▋         | 794/12384 [1:41:20<24:34:26,  7.63s/it, loss=0.0289, acc=0.9530, iter_time=7.62s]Epoch 0:   6%|▋         | 794/12384 [1:41:27<24:34:26,  7.63s/it, loss=0.0270, acc=0.9490, iter_time=7.63s]Epoch 0:   6%|▋         | 795/12384 [1:41:27<24:32:28,  7.62s/it, loss=0.0270, acc=0.9490, iter_time=7.63s]Epoch 0:   6%|▋         | 795/12384 [1:41:35<24:32:28,  7.62s/it, loss=0.0203, acc=0.9541, iter_time=6.98s]Epoch 0:   6%|▋         | 796/12384 [1:41:35<24:34:21,  7.63s/it, loss=0.0203, acc=0.9541, iter_time=6.98s]Epoch 0:   6%|▋         | 796/12384 [1:41:43<24:34:21,  7.63s/it, loss=0.0223, acc=0.9582, iter_time=7.37s]Epoch 0:   6%|▋         | 797/12384 [1:41:43<24:55:27,  7.74s/it, loss=0.0223, acc=0.9582, iter_time=7.37s]Epoch 0:   6%|▋         | 797/12384 [1:41:51<24:55:27,  7.74s/it, loss=0.0206, acc=0.9566, iter_time=7.97s]Epoch 0:   6%|▋         | 798/12384 [1:41:51<24:49:17,  7.71s/it, loss=0.0206, acc=0.9566, iter_time=7.97s]Epoch 0:   6%|▋         | 798/12384 [1:41:58<24:49:17,  7.71s/it, loss=0.0391, acc=0.9308, iter_time=8.58s]Epoch 0:   6%|▋         | 799/12384 [1:41:58<24:44:52,  7.69s/it, loss=0.0391, acc=0.9308, iter_time=8.58s]Epoch 0:   6%|▋         | 799/12384 [1:42:06<24:44:52,  7.69s/it, loss=0.0208, acc=0.9563, iter_time=8.09s]Epoch 0:   6%|▋         | 800/12384 [1:42:06<24:42:33,  7.68s/it, loss=0.0208, acc=0.9563, iter_time=8.09s]Epoch 0:   6%|▋         | 800/12384 [1:42:14<24:42:33,  7.68s/it, loss=0.0147, acc=0.9859, iter_time=6.97s]Epoch 0:   6%|▋         | 801/12384 [1:42:14<24:38:48,  7.66s/it, loss=0.0147, acc=0.9859, iter_time=6.97s]Epoch 0:   6%|▋         | 801/12384 [1:42:21<24:38:48,  7.66s/it, loss=0.0229, acc=0.9482, iter_time=7.84s]Epoch 0:   6%|▋         | 802/12384 [1:42:21<24:36:18,  7.65s/it, loss=0.0229, acc=0.9482, iter_time=7.84s]Epoch 0:   6%|▋         | 802/12384 [1:42:29<24:36:18,  7.65s/it, loss=0.0218, acc=0.9426, iter_time=7.63s]Epoch 0:   6%|▋         | 803/12384 [1:42:29<24:33:55,  7.64s/it, loss=0.0218, acc=0.9426, iter_time=7.63s]Epoch 0:   6%|▋         | 803/12384 [1:42:36<24:33:55,  7.64s/it, loss=0.0136, acc=0.9779, iter_time=4.58s]Epoch 0:   6%|▋         | 804/12384 [1:42:36<24:31:23,  7.62s/it, loss=0.0136, acc=0.9779, iter_time=4.58s]Epoch 0:   6%|▋         | 804/12384 [1:42:44<24:31:23,  7.62s/it, loss=0.1282, acc=0.8586, iter_time=10.63s]Epoch 0:   7%|▋         | 805/12384 [1:42:44<24:32:52,  7.63s/it, loss=0.1282, acc=0.8586, iter_time=10.63s]Epoch 0:   7%|▋         | 805/12384 [1:42:52<24:32:52,  7.63s/it, loss=0.0136, acc=0.9759, iter_time=5.35s] Epoch 0:   7%|▋         | 806/12384 [1:42:52<24:31:08,  7.62s/it, loss=0.0136, acc=0.9759, iter_time=5.35s]Epoch 0:   7%|▋         | 806/12384 [1:42:59<24:31:08,  7.62s/it, loss=0.0248, acc=0.9474, iter_time=9.89s]Epoch 0:   7%|▋         | 807/12384 [1:42:59<24:30:53,  7.62s/it, loss=0.0248, acc=0.9474, iter_time=9.89s]Epoch 0:   7%|▋         | 807/12384 [1:43:07<24:30:53,  7.62s/it, loss=0.0343, acc=0.9413, iter_time=8.01s]Epoch 0:   7%|▋         | 808/12384 [1:43:07<24:31:35,  7.63s/it, loss=0.0343, acc=0.9413, iter_time=8.01s]Epoch 0:   7%|▋         | 808/12384 [1:43:14<24:31:35,  7.63s/it, loss=0.0203, acc=0.9623, iter_time=7.24s]Epoch 0:   7%|▋         | 809/12384 [1:43:14<24:29:47,  7.62s/it, loss=0.0203, acc=0.9623, iter_time=7.24s]Epoch 0:   7%|▋         | 809/12384 [1:43:22<24:29:47,  7.62s/it, loss=0.0209, acc=0.9636, iter_time=7.31s]Epoch 0:   7%|▋         | 810/12384 [1:43:22<24:30:05,  7.62s/it, loss=0.0209, acc=0.9636, iter_time=7.31s]Epoch 0:   7%|▋         | 810/12384 [1:43:30<24:30:05,  7.62s/it, loss=0.0101, acc=0.9779, iter_time=7.62s]Epoch 0:   7%|▋         | 811/12384 [1:43:30<24:29:12,  7.62s/it, loss=0.0101, acc=0.9779, iter_time=7.62s]Epoch 0:   7%|▋         | 811/12384 [1:43:37<24:29:12,  7.62s/it, loss=0.0137, acc=0.9719, iter_time=7.92s]Epoch 0:   7%|▋         | 812/12384 [1:43:37<24:29:00,  7.62s/it, loss=0.0137, acc=0.9719, iter_time=7.92s]Epoch 0:   7%|▋         | 812/12384 [1:43:45<24:29:00,  7.62s/it, loss=0.0200, acc=0.9688, iter_time=6.11s]Epoch 0:   7%|▋         | 813/12384 [1:43:45<24:28:13,  7.61s/it, loss=0.0200, acc=0.9688, iter_time=6.11s]Epoch 0:   7%|▋         | 813/12384 [1:43:53<24:28:13,  7.61s/it, loss=0.0177, acc=0.9663, iter_time=9.11s]Epoch 0:   7%|▋         | 814/12384 [1:43:53<24:31:41,  7.63s/it, loss=0.0177, acc=0.9663, iter_time=9.11s]Epoch 0:   7%|▋         | 814/12384 [1:44:00<24:31:41,  7.63s/it, loss=0.0262, acc=0.9547, iter_time=7.69s]Epoch 0:   7%|▋         | 815/12384 [1:44:00<24:31:52,  7.63s/it, loss=0.0262, acc=0.9547, iter_time=7.69s]Epoch 0:   7%|▋         | 815/12384 [1:44:08<24:31:52,  7.63s/it, loss=0.0173, acc=0.9666, iter_time=8.01s]Epoch 0:   7%|▋         | 816/12384 [1:44:08<24:30:53,  7.63s/it, loss=0.0173, acc=0.9666, iter_time=8.01s]Epoch 0:   7%|▋         | 816/12384 [1:44:16<24:30:53,  7.63s/it, loss=0.0208, acc=0.9611, iter_time=7.25s]Epoch 0:   7%|▋         | 817/12384 [1:44:16<24:32:36,  7.64s/it, loss=0.0208, acc=0.9611, iter_time=7.25s]Epoch 0:   7%|▋         | 817/12384 [1:44:23<24:32:36,  7.64s/it, loss=0.0165, acc=0.9687, iter_time=7.67s]Epoch 0:   7%|▋         | 818/12384 [1:44:23<24:32:21,  7.64s/it, loss=0.0165, acc=0.9687, iter_time=7.67s]Epoch 0:   7%|▋         | 818/12384 [1:44:31<24:32:21,  7.64s/it, loss=0.0184, acc=0.9669, iter_time=7.34s]Epoch 0:   7%|▋         | 819/12384 [1:44:31<24:32:55,  7.64s/it, loss=0.0184, acc=0.9669, iter_time=7.34s]Epoch 0:   7%|▋         | 819/12384 [1:44:38<24:32:55,  7.64s/it, loss=0.0115, acc=0.9805, iter_time=7.94s]Epoch 0:   7%|▋         | 820/12384 [1:44:38<24:33:14,  7.64s/it, loss=0.0115, acc=0.9805, iter_time=7.94s]Epoch 0:   7%|▋         | 820/12384 [1:44:46<24:33:14,  7.64s/it, loss=0.0213, acc=0.9653, iter_time=7.65s]Epoch 0:   7%|▋         | 821/12384 [1:44:46<24:33:30,  7.65s/it, loss=0.0213, acc=0.9653, iter_time=7.65s]Epoch 0:   7%|▋         | 821/12384 [1:44:54<24:33:30,  7.65s/it, loss=0.0548, acc=0.9306, iter_time=7.63s]Epoch 0:   7%|▋         | 822/12384 [1:44:54<24:30:32,  7.63s/it, loss=0.0548, acc=0.9306, iter_time=7.63s]Epoch 0:   7%|▋         | 822/12384 [1:45:01<24:30:32,  7.63s/it, loss=0.0178, acc=0.9735, iter_time=7.62s]Epoch 0:   7%|▋         | 823/12384 [1:45:01<24:30:45,  7.63s/it, loss=0.0178, acc=0.9735, iter_time=7.62s]Epoch 0:   7%|▋         | 823/12384 [1:45:09<24:30:45,  7.63s/it, loss=0.0151, acc=0.9684, iter_time=8.33s]Epoch 0:   7%|▋         | 824/12384 [1:45:09<24:54:14,  7.76s/it, loss=0.0151, acc=0.9684, iter_time=8.33s]Epoch 0:   7%|▋         | 824/12384 [1:45:17<24:54:14,  7.76s/it, loss=0.0110, acc=0.9790, iter_time=7.35s]Epoch 0:   7%|▋         | 825/12384 [1:45:17<24:45:43,  7.71s/it, loss=0.0110, acc=0.9790, iter_time=7.35s]Epoch 0:   7%|▋         | 825/12384 [1:45:25<24:45:43,  7.71s/it, loss=0.0301, acc=0.9566, iter_time=7.61s]Epoch 0:   7%|▋         | 826/12384 [1:45:25<24:41:51,  7.69s/it, loss=0.0301, acc=0.9566, iter_time=7.61s]Epoch 0:   7%|▋         | 826/12384 [1:45:32<24:41:51,  7.69s/it, loss=0.0191, acc=0.9618, iter_time=7.65s]Epoch 0:   7%|▋         | 827/12384 [1:45:32<24:39:56,  7.68s/it, loss=0.0191, acc=0.9618, iter_time=7.65s]Epoch 0:   7%|▋         | 827/12384 [1:45:40<24:39:56,  7.68s/it, loss=0.0231, acc=0.9660, iter_time=7.66s]Epoch 0:   7%|▋         | 828/12384 [1:45:40<24:37:35,  7.67s/it, loss=0.0231, acc=0.9660, iter_time=7.66s]Epoch 0:   7%|▋         | 828/12384 [1:45:48<24:37:35,  7.67s/it, loss=0.0083, acc=0.9900, iter_time=4.25s]Epoch 0:   7%|▋         | 829/12384 [1:45:48<24:37:24,  7.67s/it, loss=0.0083, acc=0.9900, iter_time=4.25s]Epoch 0:   7%|▋         | 829/12384 [1:45:55<24:37:24,  7.67s/it, loss=0.0175, acc=0.9750, iter_time=11.07s]Epoch 0:   7%|▋         | 830/12384 [1:45:55<24:35:23,  7.66s/it, loss=0.0175, acc=0.9750, iter_time=11.07s]Epoch 0:   7%|▋         | 830/12384 [1:46:03<24:35:23,  7.66s/it, loss=0.0138, acc=0.9700, iter_time=5.81s] Epoch 0:   7%|▋         | 831/12384 [1:46:03<24:32:21,  7.65s/it, loss=0.0138, acc=0.9700, iter_time=5.81s]Epoch 0:   7%|▋         | 831/12384 [1:46:10<24:32:21,  7.65s/it, loss=0.0289, acc=0.9414, iter_time=9.79s]Epoch 0:   7%|▋         | 832/12384 [1:46:10<24:31:03,  7.64s/it, loss=0.0289, acc=0.9414, iter_time=9.79s]Epoch 0:   7%|▋         | 832/12384 [1:46:18<24:31:03,  7.64s/it, loss=0.0426, acc=0.9357, iter_time=7.28s]Epoch 0:   7%|▋         | 833/12384 [1:46:18<24:30:12,  7.64s/it, loss=0.0426, acc=0.9357, iter_time=7.28s]Epoch 0:   7%|▋         | 833/12384 [1:46:26<24:30:12,  7.64s/it, loss=0.0132, acc=0.9743, iter_time=7.62s]Epoch 0:   7%|▋         | 834/12384 [1:46:26<24:28:12,  7.63s/it, loss=0.0132, acc=0.9743, iter_time=7.62s]Epoch 0:   7%|▋         | 834/12384 [1:46:33<24:28:12,  7.63s/it, loss=0.0149, acc=0.9719, iter_time=7.60s]Epoch 0:   7%|▋         | 835/12384 [1:46:33<24:31:57,  7.65s/it, loss=0.0149, acc=0.9719, iter_time=7.60s]Epoch 0:   7%|▋         | 835/12384 [1:46:41<24:31:57,  7.65s/it, loss=0.0825, acc=0.8881, iter_time=7.70s]Epoch 0:   7%|▋         | 836/12384 [1:46:41<24:31:48,  7.65s/it, loss=0.0825, acc=0.8881, iter_time=7.70s]Epoch 0:   7%|▋         | 836/12384 [1:46:49<24:31:48,  7.65s/it, loss=0.0171, acc=0.9772, iter_time=7.65s]Epoch 0:   7%|▋         | 837/12384 [1:46:49<24:29:26,  7.64s/it, loss=0.0171, acc=0.9772, iter_time=7.65s]Epoch 0:   7%|▋         | 837/12384 [1:46:56<24:29:26,  7.64s/it, loss=0.0180, acc=0.9716, iter_time=7.30s]Epoch 0:   7%|▋         | 838/12384 [1:46:56<24:31:59,  7.65s/it, loss=0.0180, acc=0.9716, iter_time=7.30s]Epoch 0:   7%|▋         | 838/12384 [1:47:04<24:31:59,  7.65s/it, loss=0.0183, acc=0.9586, iter_time=8.00s]Epoch 0:   7%|▋         | 839/12384 [1:47:04<24:30:42,  7.64s/it, loss=0.0183, acc=0.9586, iter_time=8.00s]Epoch 0:   7%|▋         | 839/12384 [1:47:12<24:30:42,  7.64s/it, loss=0.0253, acc=0.9593, iter_time=8.01s]Epoch 0:   7%|▋         | 840/12384 [1:47:12<24:28:48,  7.63s/it, loss=0.0253, acc=0.9593, iter_time=8.01s]Epoch 0:   7%|▋         | 840/12384 [1:47:19<24:28:48,  7.63s/it, loss=0.0115, acc=0.9781, iter_time=6.90s]Epoch 0:   7%|▋         | 841/12384 [1:47:19<24:27:11,  7.63s/it, loss=0.0115, acc=0.9781, iter_time=6.90s]Epoch 0:   7%|▋         | 841/12384 [1:47:27<24:27:11,  7.63s/it, loss=0.0146, acc=0.9697, iter_time=3.73s]Epoch 0:   7%|▋         | 842/12384 [1:47:27<24:25:26,  7.62s/it, loss=0.0146, acc=0.9697, iter_time=3.73s]Epoch 0:   7%|▋         | 842/12384 [1:47:34<24:25:26,  7.62s/it, loss=0.0187, acc=0.9620, iter_time=11.78s]Epoch 0:   7%|▋         | 843/12384 [1:47:34<24:24:37,  7.61s/it, loss=0.0187, acc=0.9620, iter_time=11.78s]Epoch 0:   7%|▋         | 843/12384 [1:47:42<24:24:37,  7.61s/it, loss=0.0183, acc=0.9614, iter_time=7.62s] Epoch 0:   7%|▋         | 844/12384 [1:47:42<24:26:51,  7.63s/it, loss=0.0183, acc=0.9614, iter_time=7.62s]Epoch 0:   7%|▋         | 844/12384 [1:47:50<24:26:51,  7.63s/it, loss=0.0190, acc=0.9616, iter_time=7.65s]Epoch 0:   7%|▋         | 845/12384 [1:47:50<24:25:37,  7.62s/it, loss=0.0190, acc=0.9616, iter_time=7.65s]Epoch 0:   7%|▋         | 845/12384 [1:47:57<24:25:37,  7.62s/it, loss=0.0199, acc=0.9600, iter_time=7.62s]Epoch 0:   7%|▋         | 846/12384 [1:47:57<24:25:50,  7.62s/it, loss=0.0199, acc=0.9600, iter_time=7.62s]Epoch 0:   7%|▋         | 846/12384 [1:48:05<24:25:50,  7.62s/it, loss=0.0185, acc=0.9690, iter_time=7.63s]Epoch 0:   7%|▋         | 847/12384 [1:48:05<24:27:53,  7.63s/it, loss=0.0185, acc=0.9690, iter_time=7.63s]Epoch 0:   7%|▋         | 847/12384 [1:48:13<24:27:53,  7.63s/it, loss=0.0248, acc=0.9542, iter_time=8.02s]Epoch 0:   7%|▋         | 848/12384 [1:48:13<24:25:41,  7.62s/it, loss=0.0248, acc=0.9542, iter_time=8.02s]Epoch 0:   7%|▋         | 848/12384 [1:48:20<24:25:41,  7.62s/it, loss=0.0102, acc=0.9843, iter_time=6.91s]Epoch 0:   7%|▋         | 849/12384 [1:48:20<24:25:20,  7.62s/it, loss=0.0102, acc=0.9843, iter_time=6.91s]Epoch 0:   7%|▋         | 849/12384 [1:48:28<24:25:20,  7.62s/it, loss=0.0156, acc=0.9599, iter_time=8.69s]Epoch 0:   7%|▋         | 850/12384 [1:48:28<24:45:13,  7.73s/it, loss=0.0156, acc=0.9599, iter_time=8.69s]Epoch 0:   7%|▋         | 850/12384 [1:48:36<24:45:13,  7.73s/it, loss=0.0109, acc=0.9779, iter_time=4.39s]Epoch 0:   7%|▋         | 851/12384 [1:48:36<24:40:36,  7.70s/it, loss=0.0109, acc=0.9779, iter_time=4.39s]Epoch 0:   7%|▋         | 851/12384 [1:48:43<24:40:36,  7.70s/it, loss=0.0097, acc=0.9877, iter_time=10.13s]Epoch 0:   7%|▋         | 852/12384 [1:48:43<24:34:49,  7.67s/it, loss=0.0097, acc=0.9877, iter_time=10.13s]Epoch 0:   7%|▋         | 852/12384 [1:48:51<24:34:49,  7.67s/it, loss=0.0090, acc=0.9889, iter_time=7.93s] Epoch 0:   7%|▋         | 853/12384 [1:48:51<24:32:00,  7.66s/it, loss=0.0090, acc=0.9889, iter_time=7.93s]Epoch 0:   7%|▋         | 853/12384 [1:48:59<24:32:00,  7.66s/it, loss=0.0139, acc=0.9684, iter_time=7.64s]Epoch 0:   7%|▋         | 854/12384 [1:48:59<24:30:48,  7.65s/it, loss=0.0139, acc=0.9684, iter_time=7.64s]Epoch 0:   7%|▋         | 854/12384 [1:49:06<24:30:48,  7.65s/it, loss=0.0155, acc=0.9751, iter_time=7.05s]Epoch 0:   7%|▋         | 855/12384 [1:49:06<24:31:08,  7.66s/it, loss=0.0155, acc=0.9751, iter_time=7.05s]Epoch 0:   7%|▋         | 855/12384 [1:49:14<24:31:08,  7.66s/it, loss=0.0106, acc=0.9826, iter_time=8.23s]Epoch 0:   7%|▋         | 856/12384 [1:49:14<24:30:33,  7.65s/it, loss=0.0106, acc=0.9826, iter_time=8.23s]Epoch 0:   7%|▋         | 856/12384 [1:49:22<24:30:33,  7.65s/it, loss=0.0139, acc=0.9761, iter_time=4.62s]Epoch 0:   7%|▋         | 857/12384 [1:49:22<24:29:09,  7.65s/it, loss=0.0139, acc=0.9761, iter_time=4.62s]Epoch 0:   7%|▋         | 857/12384 [1:49:29<24:29:09,  7.65s/it, loss=0.0123, acc=0.9790, iter_time=10.65s]Epoch 0:   7%|▋         | 858/12384 [1:49:29<24:27:52,  7.64s/it, loss=0.0123, acc=0.9790, iter_time=10.65s]Epoch 0:   7%|▋         | 858/12384 [1:49:37<24:27:52,  7.64s/it, loss=0.0113, acc=0.9809, iter_time=7.63s] Epoch 0:   7%|▋         | 859/12384 [1:49:37<24:25:10,  7.63s/it, loss=0.0113, acc=0.9809, iter_time=7.63s]Epoch 0:   7%|▋         | 859/12384 [1:49:44<24:25:10,  7.63s/it, loss=0.0244, acc=0.9623, iter_time=7.63s]Epoch 0:   7%|▋         | 860/12384 [1:49:44<24:25:51,  7.63s/it, loss=0.0244, acc=0.9623, iter_time=7.63s]Epoch 0:   7%|▋         | 860/12384 [1:49:52<24:25:51,  7.63s/it, loss=0.0264, acc=0.9585, iter_time=7.64s]Epoch 0:   7%|▋         | 861/12384 [1:49:52<24:25:31,  7.63s/it, loss=0.0264, acc=0.9585, iter_time=7.64s]Epoch 0:   7%|▋         | 861/12384 [1:50:00<24:25:31,  7.63s/it, loss=0.0170, acc=0.9770, iter_time=7.30s]Epoch 0:   7%|▋         | 862/12384 [1:50:00<24:24:35,  7.63s/it, loss=0.0170, acc=0.9770, iter_time=7.30s]Epoch 0:   7%|▋         | 862/12384 [1:50:07<24:24:35,  7.63s/it, loss=0.0183, acc=0.9607, iter_time=7.92s]Epoch 0:   7%|▋         | 863/12384 [1:50:07<24:22:44,  7.62s/it, loss=0.0183, acc=0.9607, iter_time=7.92s]Epoch 0:   7%|▋         | 863/12384 [1:50:15<24:22:44,  7.62s/it, loss=0.0102, acc=0.9789, iter_time=8.00s]Epoch 0:   7%|▋         | 864/12384 [1:50:15<24:27:43,  7.64s/it, loss=0.0102, acc=0.9789, iter_time=8.00s]Epoch 0:   7%|▋         | 864/12384 [1:50:23<24:27:43,  7.64s/it, loss=0.0188, acc=0.9524, iter_time=7.31s]Epoch 0:   7%|▋         | 865/12384 [1:50:23<24:31:50,  7.67s/it, loss=0.0188, acc=0.9524, iter_time=7.31s]Epoch 0:   7%|▋         | 865/12384 [1:50:30<24:31:50,  7.67s/it, loss=0.0153, acc=0.9746, iter_time=4.41s]Epoch 0:   7%|▋         | 866/12384 [1:50:30<24:28:25,  7.65s/it, loss=0.0153, acc=0.9746, iter_time=4.41s]Epoch 0:   7%|▋         | 866/12384 [1:50:38<24:28:25,  7.65s/it, loss=0.0112, acc=0.9766, iter_time=10.92s]Epoch 0:   7%|▋         | 867/12384 [1:50:38<24:29:13,  7.65s/it, loss=0.0112, acc=0.9766, iter_time=10.92s]Epoch 0:   7%|▋         | 867/12384 [1:50:46<24:29:13,  7.65s/it, loss=0.0185, acc=0.9797, iter_time=7.67s] Epoch 0:   7%|▋         | 868/12384 [1:50:46<24:29:22,  7.66s/it, loss=0.0185, acc=0.9797, iter_time=7.67s]Epoch 0:   7%|▋         | 868/12384 [1:50:53<24:29:22,  7.66s/it, loss=0.0243, acc=0.9345, iter_time=5.87s]Epoch 0:   7%|▋         | 869/12384 [1:50:53<24:29:02,  7.65s/it, loss=0.0243, acc=0.9345, iter_time=5.87s]Epoch 0:   7%|▋         | 869/12384 [1:51:01<24:29:02,  7.65s/it, loss=0.0124, acc=0.9805, iter_time=9.45s]Epoch 0:   7%|▋         | 870/12384 [1:51:01<24:29:59,  7.66s/it, loss=0.0124, acc=0.9805, iter_time=9.45s]Epoch 0:   7%|▋         | 870/12384 [1:51:09<24:29:59,  7.66s/it, loss=0.0180, acc=0.9692, iter_time=7.66s]Epoch 0:   7%|▋         | 871/12384 [1:51:09<24:29:34,  7.66s/it, loss=0.0180, acc=0.9692, iter_time=7.66s]Epoch 0:   7%|▋         | 871/12384 [1:51:16<24:29:34,  7.66s/it, loss=0.0118, acc=0.9705, iter_time=8.04s]Epoch 0:   7%|▋         | 872/12384 [1:51:16<24:26:10,  7.64s/it, loss=0.0118, acc=0.9705, iter_time=8.04s]Epoch 0:   7%|▋         | 872/12384 [1:51:24<24:26:10,  7.64s/it, loss=0.0069, acc=0.9855, iter_time=7.21s]Epoch 0:   7%|▋         | 873/12384 [1:51:24<24:25:22,  7.64s/it, loss=0.0069, acc=0.9855, iter_time=7.21s]Epoch 0:   7%|▋         | 873/12384 [1:51:32<24:25:22,  7.64s/it, loss=0.0156, acc=0.9652, iter_time=7.65s]Epoch 0:   7%|▋         | 874/12384 [1:51:32<24:25:17,  7.64s/it, loss=0.0156, acc=0.9652, iter_time=7.65s]Epoch 0:   7%|▋         | 874/12384 [1:51:39<24:25:17,  7.64s/it, loss=0.0104, acc=0.9822, iter_time=6.18s]Epoch 0:   7%|▋         | 875/12384 [1:51:39<24:22:57,  7.63s/it, loss=0.0104, acc=0.9822, iter_time=6.18s]Epoch 0:   7%|▋         | 875/12384 [1:51:47<24:22:57,  7.63s/it, loss=0.0386, acc=0.9483, iter_time=6.50s]Epoch 0:   7%|▋         | 876/12384 [1:51:47<24:22:17,  7.62s/it, loss=0.0386, acc=0.9483, iter_time=6.50s]Epoch 0:   7%|▋         | 876/12384 [1:51:55<24:22:17,  7.62s/it, loss=0.0079, acc=0.9851, iter_time=7.63s]Epoch 0:   7%|▋         | 877/12384 [1:51:55<24:41:25,  7.72s/it, loss=0.0079, acc=0.9851, iter_time=7.63s]Epoch 0:   7%|▋         | 877/12384 [1:52:02<24:41:25,  7.72s/it, loss=0.0182, acc=0.9646, iter_time=9.54s]Epoch 0:   7%|▋         | 878/12384 [1:52:02<24:35:23,  7.69s/it, loss=0.0182, acc=0.9646, iter_time=9.54s]Epoch 0:   7%|▋         | 878/12384 [1:52:10<24:35:23,  7.69s/it, loss=0.0433, acc=0.9516, iter_time=7.45s]Epoch 0:   7%|▋         | 879/12384 [1:52:10<24:32:25,  7.68s/it, loss=0.0433, acc=0.9516, iter_time=7.45s]Epoch 0:   7%|▋         | 879/12384 [1:52:18<24:32:25,  7.68s/it, loss=0.0351, acc=0.9565, iter_time=9.15s]Epoch 0:   7%|▋         | 880/12384 [1:52:18<24:29:23,  7.66s/it, loss=0.0351, acc=0.9565, iter_time=9.15s]Epoch 0:   7%|▋         | 880/12384 [1:52:25<24:29:23,  7.66s/it, loss=0.0080, acc=0.9885, iter_time=7.25s]Epoch 0:   7%|▋         | 881/12384 [1:52:25<24:25:23,  7.64s/it, loss=0.0080, acc=0.9885, iter_time=7.25s]Epoch 0:   7%|▋         | 881/12384 [1:52:33<24:25:23,  7.64s/it, loss=0.0067, acc=0.9919, iter_time=5.03s]Epoch 0:   7%|▋         | 882/12384 [1:52:33<24:25:18,  7.64s/it, loss=0.0067, acc=0.9919, iter_time=5.03s]Epoch 0:   7%|▋         | 882/12384 [1:52:41<24:25:18,  7.64s/it, loss=0.0187, acc=0.9653, iter_time=10.24s]Epoch 0:   7%|▋         | 883/12384 [1:52:41<24:27:27,  7.66s/it, loss=0.0187, acc=0.9653, iter_time=10.24s]Epoch 0:   7%|▋         | 883/12384 [1:52:48<24:27:27,  7.66s/it, loss=0.0916, acc=0.8901, iter_time=7.66s] Epoch 0:   7%|▋         | 884/12384 [1:52:48<24:27:57,  7.66s/it, loss=0.0916, acc=0.8901, iter_time=7.66s]Epoch 0:   7%|▋         | 884/12384 [1:52:56<24:27:57,  7.66s/it, loss=0.0093, acc=0.9872, iter_time=4.27s]Epoch 0:   7%|▋         | 885/12384 [1:52:56<24:26:06,  7.65s/it, loss=0.0093, acc=0.9872, iter_time=4.27s]Epoch 0:   7%|▋         | 885/12384 [1:53:03<24:26:06,  7.65s/it, loss=0.0097, acc=0.9795, iter_time=11.03s]Epoch 0:   7%|▋         | 886/12384 [1:53:03<24:24:13,  7.64s/it, loss=0.0097, acc=0.9795, iter_time=11.03s]Epoch 0:   7%|▋         | 886/12384 [1:53:11<24:24:13,  7.64s/it, loss=0.0123, acc=0.9842, iter_time=7.60s] Epoch 0:   7%|▋         | 887/12384 [1:53:11<24:22:34,  7.63s/it, loss=0.0123, acc=0.9842, iter_time=7.60s]Epoch 0:   7%|▋         | 887/12384 [1:53:19<24:22:34,  7.63s/it, loss=0.0123, acc=0.9846, iter_time=7.74s]Epoch 0:   7%|▋         | 888/12384 [1:53:19<24:22:31,  7.63s/it, loss=0.0123, acc=0.9846, iter_time=7.74s]Epoch 0:   7%|▋         | 888/12384 [1:53:26<24:22:31,  7.63s/it, loss=0.0083, acc=0.9848, iter_time=3.98s]Epoch 0:   7%|▋         | 889/12384 [1:53:26<24:21:08,  7.63s/it, loss=0.0083, acc=0.9848, iter_time=3.98s]Epoch 0:   7%|▋         | 889/12384 [1:53:34<24:21:08,  7.63s/it, loss=0.0099, acc=0.9743, iter_time=8.59s]Epoch 0:   7%|▋         | 890/12384 [1:53:34<24:21:46,  7.63s/it, loss=0.0099, acc=0.9743, iter_time=8.59s]Epoch 0:   7%|▋         | 890/12384 [1:53:42<24:21:46,  7.63s/it, loss=0.0048, acc=0.9982, iter_time=10.18s]Epoch 0:   7%|▋         | 891/12384 [1:53:42<24:21:03,  7.63s/it, loss=0.0048, acc=0.9982, iter_time=10.18s]Epoch 0:   7%|▋         | 891/12384 [1:53:49<24:21:03,  7.63s/it, loss=0.0110, acc=0.9736, iter_time=4.82s] Epoch 0:   7%|▋         | 892/12384 [1:53:49<24:19:20,  7.62s/it, loss=0.0110, acc=0.9736, iter_time=4.82s]Epoch 0:   7%|▋         | 892/12384 [1:53:57<24:19:20,  7.62s/it, loss=0.0163, acc=0.9813, iter_time=10.40s]Epoch 0:   7%|▋         | 893/12384 [1:53:57<24:17:30,  7.61s/it, loss=0.0163, acc=0.9813, iter_time=10.40s]Epoch 0:   7%|▋         | 893/12384 [1:54:04<24:17:30,  7.61s/it, loss=0.0304, acc=0.9713, iter_time=3.85s] Epoch 0:   7%|▋         | 894/12384 [1:54:04<24:19:22,  7.62s/it, loss=0.0304, acc=0.9713, iter_time=3.85s]Epoch 0:   7%|▋         | 894/12384 [1:54:12<24:19:22,  7.62s/it, loss=0.0085, acc=0.9878, iter_time=11.38s]Epoch 0:   7%|▋         | 895/12384 [1:54:12<24:18:12,  7.62s/it, loss=0.0085, acc=0.9878, iter_time=11.38s]Epoch 0:   7%|▋         | 895/12384 [1:54:20<24:18:12,  7.62s/it, loss=0.0163, acc=0.9603, iter_time=8.03s] Epoch 0:   7%|▋         | 896/12384 [1:54:20<24:18:28,  7.62s/it, loss=0.0163, acc=0.9603, iter_time=8.03s]Epoch 0:   7%|▋         | 896/12384 [1:54:27<24:18:28,  7.62s/it, loss=0.0134, acc=0.9753, iter_time=7.22s]Epoch 0:   7%|▋         | 897/12384 [1:54:27<24:20:59,  7.63s/it, loss=0.0134, acc=0.9753, iter_time=7.22s]Epoch 0:   7%|▋         | 897/12384 [1:54:35<24:20:59,  7.63s/it, loss=0.0070, acc=0.9910, iter_time=7.17s]Epoch 0:   7%|▋         | 898/12384 [1:54:35<24:25:03,  7.65s/it, loss=0.0070, acc=0.9910, iter_time=7.17s]Epoch 0:   7%|▋         | 898/12384 [1:54:43<24:25:03,  7.65s/it, loss=0.0069, acc=0.9903, iter_time=8.19s]Epoch 0:   7%|▋         | 899/12384 [1:54:43<24:23:12,  7.64s/it, loss=0.0069, acc=0.9903, iter_time=8.19s]Epoch 0:   7%|▋         | 899/12384 [1:54:50<24:23:12,  7.64s/it, loss=0.0056, acc=0.9915, iter_time=8.05s]Epoch 0:   7%|▋         | 900/12384 [1:54:50<24:22:19,  7.64s/it, loss=0.0056, acc=0.9915, iter_time=8.05s]Epoch 0:   7%|▋         | 900/12384 [1:54:58<24:22:19,  7.64s/it, loss=0.0070, acc=0.9881, iter_time=7.21s]Epoch 0:   7%|▋         | 901/12384 [1:54:58<24:24:29,  7.65s/it, loss=0.0070, acc=0.9881, iter_time=7.21s]Epoch 0:   7%|▋         | 901/12384 [1:55:06<24:24:29,  7.65s/it, loss=0.0109, acc=0.9777, iter_time=7.67s]Epoch 0:   7%|▋         | 902/12384 [1:55:06<24:21:26,  7.64s/it, loss=0.0109, acc=0.9777, iter_time=7.67s]Epoch 0:   7%|▋         | 902/12384 [1:55:13<24:21:26,  7.64s/it, loss=0.0091, acc=0.9803, iter_time=7.94s]Epoch 0:   7%|▋         | 903/12384 [1:55:13<24:41:11,  7.74s/it, loss=0.0091, acc=0.9803, iter_time=7.94s]Epoch 0:   7%|▋         | 903/12384 [1:55:21<24:41:11,  7.74s/it, loss=0.0026, acc=0.9954, iter_time=7.63s]Epoch 0:   7%|▋         | 904/12384 [1:55:21<24:35:18,  7.71s/it, loss=0.0026, acc=0.9954, iter_time=7.63s]Epoch 0:   7%|▋         | 904/12384 [1:55:29<24:35:18,  7.71s/it, loss=0.0046, acc=0.9914, iter_time=7.64s]Epoch 0:   7%|▋         | 905/12384 [1:55:29<24:30:44,  7.69s/it, loss=0.0046, acc=0.9914, iter_time=7.64s]Epoch 0:   7%|▋         | 905/12384 [1:55:36<24:30:44,  7.69s/it, loss=0.0099, acc=0.9801, iter_time=5.55s]Epoch 0:   7%|▋         | 906/12384 [1:55:36<24:27:25,  7.67s/it, loss=0.0099, acc=0.9801, iter_time=5.55s]Epoch 0:   7%|▋         | 906/12384 [1:55:44<24:27:25,  7.67s/it, loss=0.0061, acc=0.9900, iter_time=7.19s]Epoch 0:   7%|▋         | 907/12384 [1:55:44<24:23:42,  7.65s/it, loss=0.0061, acc=0.9900, iter_time=7.19s]Epoch 0:   7%|▋         | 907/12384 [1:55:52<24:23:42,  7.65s/it, loss=0.0144, acc=0.9691, iter_time=8.66s]Epoch 0:   7%|▋         | 908/12384 [1:55:52<24:23:25,  7.65s/it, loss=0.0144, acc=0.9691, iter_time=8.66s]Epoch 0:   7%|▋         | 908/12384 [1:55:59<24:23:25,  7.65s/it, loss=0.0047, acc=0.9894, iter_time=6.57s]Epoch 0:   7%|▋         | 909/12384 [1:55:59<24:21:01,  7.64s/it, loss=0.0047, acc=0.9894, iter_time=6.57s]Epoch 0:   7%|▋         | 909/12384 [1:56:07<24:21:01,  7.64s/it, loss=0.0067, acc=0.9882, iter_time=10.20s]Epoch 0:   7%|▋         | 910/12384 [1:56:07<24:21:33,  7.64s/it, loss=0.0067, acc=0.9882, iter_time=10.20s]Epoch 0:   7%|▋         | 910/12384 [1:56:15<24:21:33,  7.64s/it, loss=0.0257, acc=0.9608, iter_time=7.64s] Epoch 0:   7%|▋         | 911/12384 [1:56:15<24:20:38,  7.64s/it, loss=0.0257, acc=0.9608, iter_time=7.64s]Epoch 0:   7%|▋         | 911/12384 [1:56:22<24:20:38,  7.64s/it, loss=0.0071, acc=0.9838, iter_time=8.03s]Epoch 0:   7%|▋         | 912/12384 [1:56:22<24:19:40,  7.63s/it, loss=0.0071, acc=0.9838, iter_time=8.03s]Epoch 0:   7%|▋         | 912/12384 [1:56:30<24:19:40,  7.63s/it, loss=0.0060, acc=0.9953, iter_time=7.23s]Epoch 0:   7%|▋         | 913/12384 [1:56:30<24:20:15,  7.64s/it, loss=0.0060, acc=0.9953, iter_time=7.23s]Epoch 0:   7%|▋         | 913/12384 [1:56:37<24:20:15,  7.64s/it, loss=0.0149, acc=0.9700, iter_time=5.56s]Epoch 0:   7%|▋         | 914/12384 [1:56:37<24:22:47,  7.65s/it, loss=0.0149, acc=0.9700, iter_time=5.56s]Epoch 0:   7%|▋         | 914/12384 [1:56:45<24:22:47,  7.65s/it, loss=0.0048, acc=0.9880, iter_time=9.76s]Epoch 0:   7%|▋         | 915/12384 [1:56:45<24:23:39,  7.66s/it, loss=0.0048, acc=0.9880, iter_time=9.76s]Epoch 0:   7%|▋         | 915/12384 [1:56:53<24:23:39,  7.66s/it, loss=0.0040, acc=0.9897, iter_time=7.67s]Epoch 0:   7%|▋         | 916/12384 [1:56:53<24:20:39,  7.64s/it, loss=0.0040, acc=0.9897, iter_time=7.67s]Epoch 0:   7%|▋         | 916/12384 [1:57:00<24:20:39,  7.64s/it, loss=0.0328, acc=0.9407, iter_time=7.62s]Epoch 0:   7%|▋         | 917/12384 [1:57:00<24:20:57,  7.64s/it, loss=0.0328, acc=0.9407, iter_time=7.62s]Epoch 0:   7%|▋         | 917/12384 [1:57:08<24:20:57,  7.64s/it, loss=0.0061, acc=0.9846, iter_time=7.63s]Epoch 0:   7%|▋         | 918/12384 [1:57:08<24:19:24,  7.64s/it, loss=0.0061, acc=0.9846, iter_time=7.63s]Epoch 0:   7%|▋         | 918/12384 [1:57:16<24:19:24,  7.64s/it, loss=0.0317, acc=0.9741, iter_time=5.08s]Epoch 0:   7%|▋         | 919/12384 [1:57:16<24:19:35,  7.64s/it, loss=0.0317, acc=0.9741, iter_time=5.08s]Epoch 0:   7%|▋         | 919/12384 [1:57:23<24:19:35,  7.64s/it, loss=0.0099, acc=0.9790, iter_time=10.11s]Epoch 0:   7%|▋         | 920/12384 [1:57:23<24:16:38,  7.62s/it, loss=0.0099, acc=0.9790, iter_time=10.11s]Epoch 0:   7%|▋         | 920/12384 [1:57:31<24:16:38,  7.62s/it, loss=0.0050, acc=0.9933, iter_time=7.04s] Epoch 0:   7%|▋         | 921/12384 [1:57:31<24:17:59,  7.63s/it, loss=0.0050, acc=0.9933, iter_time=7.04s]Epoch 0:   7%|▋         | 921/12384 [1:57:39<24:17:59,  7.63s/it, loss=0.0143, acc=0.9628, iter_time=8.27s]Epoch 0:   7%|▋         | 922/12384 [1:57:39<24:15:17,  7.62s/it, loss=0.0143, acc=0.9628, iter_time=8.27s]Epoch 0:   7%|▋         | 922/12384 [1:57:46<24:15:17,  7.62s/it, loss=0.0085, acc=0.9817, iter_time=4.23s]Epoch 0:   7%|▋         | 923/12384 [1:57:46<24:15:32,  7.62s/it, loss=0.0085, acc=0.9817, iter_time=4.23s]Epoch 0:   7%|▋         | 923/12384 [1:57:54<24:15:32,  7.62s/it, loss=0.0057, acc=0.9899, iter_time=10.97s]Epoch 0:   7%|▋         | 924/12384 [1:57:54<24:14:32,  7.62s/it, loss=0.0057, acc=0.9899, iter_time=10.97s]Epoch 0:   7%|▋         | 924/12384 [1:58:01<24:14:32,  7.62s/it, loss=0.0348, acc=0.9716, iter_time=7.62s] Epoch 0:   7%|▋         | 925/12384 [1:58:01<24:14:53,  7.62s/it, loss=0.0348, acc=0.9716, iter_time=7.62s]Epoch 0:   7%|▋         | 925/12384 [1:58:09<24:14:53,  7.62s/it, loss=0.0068, acc=0.9897, iter_time=7.64s]Epoch 0:   7%|▋         | 926/12384 [1:58:09<24:16:13,  7.63s/it, loss=0.0068, acc=0.9897, iter_time=7.64s]Epoch 0:   7%|▋         | 926/12384 [1:58:17<24:16:13,  7.63s/it, loss=0.0071, acc=0.9885, iter_time=5.51s]Epoch 0:   7%|▋         | 927/12384 [1:58:17<24:14:21,  7.62s/it, loss=0.0071, acc=0.9885, iter_time=5.51s]Epoch 0:   7%|▋         | 927/12384 [1:58:24<24:14:21,  7.62s/it, loss=0.0071, acc=0.9841, iter_time=10.09s]Epoch 0:   7%|▋         | 928/12384 [1:58:24<24:19:26,  7.64s/it, loss=0.0071, acc=0.9841, iter_time=10.09s]Epoch 0:   7%|▋         | 928/12384 [1:58:32<24:19:26,  7.64s/it, loss=0.0101, acc=0.9736, iter_time=7.65s] Epoch 0:   8%|▊         | 929/12384 [1:58:32<24:38:19,  7.74s/it, loss=0.0101, acc=0.9736, iter_time=7.65s]Epoch 0:   8%|▊         | 929/12384 [1:58:40<24:38:19,  7.74s/it, loss=0.0028, acc=0.9978, iter_time=7.65s]Epoch 0:   8%|▊         | 930/12384 [1:58:40<24:30:26,  7.70s/it, loss=0.0028, acc=0.9978, iter_time=7.65s]Epoch 0:   8%|▊         | 930/12384 [1:58:48<24:30:26,  7.70s/it, loss=0.0289, acc=0.9722, iter_time=7.62s]Epoch 0:   8%|▊         | 931/12384 [1:58:48<24:27:47,  7.69s/it, loss=0.0289, acc=0.9722, iter_time=7.62s]Epoch 0:   8%|▊         | 931/12384 [1:58:55<24:27:47,  7.69s/it, loss=0.0086, acc=0.9780, iter_time=6.47s]Epoch 0:   8%|▊         | 932/12384 [1:58:55<24:23:26,  7.67s/it, loss=0.0086, acc=0.9780, iter_time=6.47s]Epoch 0:   8%|▊         | 932/12384 [1:59:03<24:23:26,  7.67s/it, loss=0.0093, acc=0.9876, iter_time=8.81s]Epoch 0:   8%|▊         | 933/12384 [1:59:03<24:21:39,  7.66s/it, loss=0.0093, acc=0.9876, iter_time=8.81s]Epoch 0:   8%|▊         | 933/12384 [1:59:10<24:21:39,  7.66s/it, loss=0.0111, acc=0.9763, iter_time=7.62s]Epoch 0:   8%|▊         | 934/12384 [1:59:10<24:18:29,  7.64s/it, loss=0.0111, acc=0.9763, iter_time=7.62s]Epoch 0:   8%|▊         | 934/12384 [1:59:18<24:18:29,  7.64s/it, loss=0.0127, acc=0.9751, iter_time=7.61s]Epoch 0:   8%|▊         | 935/12384 [1:59:18<24:22:24,  7.66s/it, loss=0.0127, acc=0.9751, iter_time=7.61s]Epoch 0:   8%|▊         | 935/12384 [1:59:26<24:22:24,  7.66s/it, loss=0.0039, acc=0.9964, iter_time=7.69s]Epoch 0:   8%|▊         | 936/12384 [1:59:26<24:20:33,  7.65s/it, loss=0.0039, acc=0.9964, iter_time=7.69s]Epoch 0:   8%|▊         | 936/12384 [1:59:33<24:20:33,  7.65s/it, loss=0.0041, acc=0.9931, iter_time=7.65s]Epoch 0:   8%|▊         | 937/12384 [1:59:33<24:18:13,  7.64s/it, loss=0.0041, acc=0.9931, iter_time=7.65s]Epoch 0:   8%|▊         | 937/12384 [1:59:41<24:18:13,  7.64s/it, loss=0.0169, acc=0.9569, iter_time=7.64s]Epoch 0:   8%|▊         | 938/12384 [1:59:41<24:17:14,  7.64s/it, loss=0.0169, acc=0.9569, iter_time=7.64s]Epoch 0:   8%|▊         | 938/12384 [1:59:49<24:17:14,  7.64s/it, loss=0.0282, acc=0.9559, iter_time=7.33s]Epoch 0:   8%|▊         | 939/12384 [1:59:49<24:17:52,  7.64s/it, loss=0.0282, acc=0.9559, iter_time=7.33s]Epoch 0:   8%|▊         | 939/12384 [1:59:56<24:17:52,  7.64s/it, loss=0.0076, acc=0.9813, iter_time=5.94s]Epoch 0:   8%|▊         | 940/12384 [1:59:56<24:21:19,  7.66s/it, loss=0.0076, acc=0.9813, iter_time=5.94s]Epoch 0:   8%|▊         | 940/12384 [2:00:04<24:21:19,  7.66s/it, loss=0.0069, acc=0.9862, iter_time=6.89s]Epoch 0:   8%|▊         | 941/12384 [2:00:04<24:19:46,  7.65s/it, loss=0.0069, acc=0.9862, iter_time=6.89s]Epoch 0:   8%|▊         | 941/12384 [2:00:12<24:19:46,  7.65s/it, loss=0.0056, acc=0.9913, iter_time=7.31s]Epoch 0:   8%|▊         | 942/12384 [2:00:12<24:18:49,  7.65s/it, loss=0.0056, acc=0.9913, iter_time=7.31s]Epoch 0:   8%|▊         | 942/12384 [2:00:19<24:18:49,  7.65s/it, loss=0.0028, acc=0.9981, iter_time=7.23s]Epoch 0:   8%|▊         | 943/12384 [2:00:19<24:17:59,  7.65s/it, loss=0.0028, acc=0.9981, iter_time=7.23s]Epoch 0:   8%|▊         | 943/12384 [2:00:27<24:17:59,  7.65s/it, loss=0.0162, acc=0.9659, iter_time=11.58s]Epoch 0:   8%|▊         | 944/12384 [2:00:27<24:19:31,  7.65s/it, loss=0.0162, acc=0.9659, iter_time=11.58s]Epoch 0:   8%|▊         | 944/12384 [2:00:35<24:19:31,  7.65s/it, loss=0.0048, acc=0.9966, iter_time=7.27s] Epoch 0:   8%|▊         | 945/12384 [2:00:35<24:18:15,  7.65s/it, loss=0.0048, acc=0.9966, iter_time=7.27s]Epoch 0:   8%|▊         | 945/12384 [2:00:42<24:18:15,  7.65s/it, loss=0.0056, acc=0.9894, iter_time=7.64s]Epoch 0:   8%|▊         | 946/12384 [2:00:42<24:20:59,  7.66s/it, loss=0.0056, acc=0.9894, iter_time=7.64s]Epoch 0:   8%|▊         | 946/12384 [2:00:50<24:20:59,  7.66s/it, loss=0.0072, acc=0.9839, iter_time=7.69s]Epoch 0:   8%|▊         | 947/12384 [2:00:50<24:21:03,  7.66s/it, loss=0.0072, acc=0.9839, iter_time=7.69s]Epoch 0:   8%|▊         | 947/12384 [2:00:58<24:21:03,  7.66s/it, loss=0.0051, acc=0.9963, iter_time=7.37s]Epoch 0:   8%|▊         | 948/12384 [2:00:58<24:20:27,  7.66s/it, loss=0.0051, acc=0.9963, iter_time=7.37s]Epoch 0:   8%|▊         | 948/12384 [2:01:05<24:20:27,  7.66s/it, loss=0.0054, acc=0.9898, iter_time=7.96s]Epoch 0:   8%|▊         | 949/12384 [2:01:05<24:19:33,  7.66s/it, loss=0.0054, acc=0.9898, iter_time=7.96s]Epoch 0:   8%|▊         | 949/12384 [2:01:13<24:19:33,  7.66s/it, loss=0.0045, acc=0.9898, iter_time=8.10s]Epoch 0:   8%|▊         | 950/12384 [2:01:13<24:20:07,  7.66s/it, loss=0.0045, acc=0.9898, iter_time=8.10s]Epoch 0:   8%|▊         | 950/12384 [2:01:21<24:20:07,  7.66s/it, loss=0.0064, acc=0.9899, iter_time=7.21s]Epoch 0:   8%|▊         | 951/12384 [2:01:21<24:19:20,  7.66s/it, loss=0.0064, acc=0.9899, iter_time=7.21s]Epoch 0:   8%|▊         | 951/12384 [2:01:28<24:19:20,  7.66s/it, loss=0.0126, acc=0.9777, iter_time=7.60s]Epoch 0:   8%|▊         | 952/12384 [2:01:28<24:16:31,  7.64s/it, loss=0.0126, acc=0.9777, iter_time=7.60s]Epoch 0:   8%|▊         | 952/12384 [2:01:36<24:16:31,  7.64s/it, loss=0.0079, acc=0.9837, iter_time=6.18s]Epoch 0:   8%|▊         | 953/12384 [2:01:36<24:14:29,  7.63s/it, loss=0.0079, acc=0.9837, iter_time=6.18s]Epoch 0:   8%|▊         | 953/12384 [2:01:43<24:14:29,  7.63s/it, loss=0.0069, acc=0.9834, iter_time=9.07s]Epoch 0:   8%|▊         | 954/12384 [2:01:43<24:11:46,  7.62s/it, loss=0.0069, acc=0.9834, iter_time=9.07s]Epoch 0:   8%|▊         | 954/12384 [2:01:51<24:11:46,  7.62s/it, loss=0.0086, acc=0.9863, iter_time=5.14s]Epoch 0:   8%|▊         | 955/12384 [2:01:51<24:31:54,  7.73s/it, loss=0.0086, acc=0.9863, iter_time=5.14s]Epoch 0:   8%|▊         | 955/12384 [2:01:59<24:31:54,  7.73s/it, loss=0.0138, acc=0.9684, iter_time=10.44s]Epoch 0:   8%|▊         | 956/12384 [2:01:59<24:25:35,  7.69s/it, loss=0.0138, acc=0.9684, iter_time=10.44s]Epoch 0:   8%|▊         | 956/12384 [2:02:07<24:25:35,  7.69s/it, loss=0.0067, acc=0.9871, iter_time=7.62s] Epoch 0:   8%|▊         | 957/12384 [2:02:07<24:21:12,  7.67s/it, loss=0.0067, acc=0.9871, iter_time=7.62s]Epoch 0:   8%|▊         | 957/12384 [2:02:14<24:21:12,  7.67s/it, loss=0.0045, acc=0.9881, iter_time=7.62s]Epoch 0:   8%|▊         | 958/12384 [2:02:14<24:19:15,  7.66s/it, loss=0.0045, acc=0.9881, iter_time=7.62s]Epoch 0:   8%|▊         | 958/12384 [2:02:22<24:19:15,  7.66s/it, loss=0.0051, acc=0.9858, iter_time=7.65s]Epoch 0:   8%|▊         | 959/12384 [2:02:22<24:16:33,  7.65s/it, loss=0.0051, acc=0.9858, iter_time=7.65s]Epoch 0:   8%|▊         | 959/12384 [2:02:29<24:16:33,  7.65s/it, loss=0.0079, acc=0.9799, iter_time=7.53s]Epoch 0:   8%|▊         | 960/12384 [2:02:29<24:13:12,  7.63s/it, loss=0.0079, acc=0.9799, iter_time=7.53s]Epoch 0:   8%|▊         | 960/12384 [2:02:37<24:13:12,  7.63s/it, loss=0.0177, acc=0.9659, iter_time=7.65s]Epoch 0:   8%|▊         | 961/12384 [2:02:37<24:11:44,  7.63s/it, loss=0.0177, acc=0.9659, iter_time=7.65s]Epoch 0:   8%|▊         | 961/12384 [2:02:45<24:11:44,  7.63s/it, loss=0.0062, acc=0.9867, iter_time=7.65s]Epoch 0:   8%|▊         | 962/12384 [2:02:45<24:11:46,  7.63s/it, loss=0.0062, acc=0.9867, iter_time=7.65s]Epoch 0:   8%|▊         | 962/12384 [2:02:52<24:11:46,  7.63s/it, loss=0.0075, acc=0.9800, iter_time=6.66s]Epoch 0:   8%|▊         | 963/12384 [2:02:52<24:13:43,  7.64s/it, loss=0.0075, acc=0.9800, iter_time=6.66s]Epoch 0:   8%|▊         | 963/12384 [2:03:00<24:13:43,  7.64s/it, loss=0.0128, acc=0.9723, iter_time=8.61s]Epoch 0:   8%|▊         | 964/12384 [2:03:00<24:13:56,  7.64s/it, loss=0.0128, acc=0.9723, iter_time=8.61s]Epoch 0:   8%|▊         | 964/12384 [2:03:08<24:13:56,  7.64s/it, loss=0.0050, acc=0.9939, iter_time=4.50s]Epoch 0:   8%|▊         | 965/12384 [2:03:08<24:13:56,  7.64s/it, loss=0.0050, acc=0.9939, iter_time=4.50s]Epoch 0:   8%|▊         | 965/12384 [2:03:15<24:13:56,  7.64s/it, loss=0.0042, acc=0.9962, iter_time=8.47s]Epoch 0:   8%|▊         | 966/12384 [2:03:15<24:11:58,  7.63s/it, loss=0.0042, acc=0.9962, iter_time=8.47s]Epoch 0:   8%|▊         | 966/12384 [2:03:23<24:11:58,  7.63s/it, loss=0.0046, acc=0.9878, iter_time=9.32s]Epoch 0:   8%|▊         | 967/12384 [2:03:23<24:11:51,  7.63s/it, loss=0.0046, acc=0.9878, iter_time=9.32s]Epoch 0:   8%|▊         | 967/12384 [2:03:31<24:11:51,  7.63s/it, loss=0.0041, acc=0.9892, iter_time=8.64s]Epoch 0:   8%|▊         | 968/12384 [2:03:31<24:16:11,  7.65s/it, loss=0.0041, acc=0.9892, iter_time=8.64s]Epoch 0:   8%|▊         | 968/12384 [2:03:38<24:16:11,  7.65s/it, loss=0.0117, acc=0.9770, iter_time=7.31s]Epoch 0:   8%|▊         | 969/12384 [2:03:38<24:14:42,  7.65s/it, loss=0.0117, acc=0.9770, iter_time=7.31s]Epoch 0:   8%|▊         | 969/12384 [2:03:46<24:14:42,  7.65s/it, loss=0.0022, acc=0.9920, iter_time=4.27s]Epoch 0:   8%|▊         | 970/12384 [2:03:46<24:12:02,  7.63s/it, loss=0.0022, acc=0.9920, iter_time=4.27s]Epoch 0:   8%|▊         | 970/12384 [2:03:53<24:12:02,  7.63s/it, loss=0.0055, acc=0.9921, iter_time=10.98s]Epoch 0:   8%|▊         | 971/12384 [2:03:53<24:12:16,  7.63s/it, loss=0.0055, acc=0.9921, iter_time=10.98s]Epoch 0:   8%|▊         | 971/12384 [2:04:01<24:12:16,  7.63s/it, loss=0.0067, acc=0.9879, iter_time=7.62s] Epoch 0:   8%|▊         | 972/12384 [2:04:01<24:11:08,  7.63s/it, loss=0.0067, acc=0.9879, iter_time=7.62s]Epoch 0:   8%|▊         | 972/12384 [2:04:09<24:11:08,  7.63s/it, loss=0.0050, acc=0.9938, iter_time=7.65s]Epoch 0:   8%|▊         | 973/12384 [2:04:09<24:10:53,  7.63s/it, loss=0.0050, acc=0.9938, iter_time=7.65s]Epoch 0:   8%|▊         | 973/12384 [2:04:16<24:10:53,  7.63s/it, loss=0.0055, acc=0.9927, iter_time=7.61s]Epoch 0:   8%|▊         | 974/12384 [2:04:16<24:11:04,  7.63s/it, loss=0.0055, acc=0.9927, iter_time=7.61s]Epoch 0:   8%|▊         | 974/12384 [2:04:24<24:11:04,  7.63s/it, loss=0.0124, acc=0.9897, iter_time=7.66s]Epoch 0:   8%|▊         | 975/12384 [2:04:24<24:11:32,  7.63s/it, loss=0.0124, acc=0.9897, iter_time=7.66s]Epoch 0:   8%|▊         | 975/12384 [2:04:32<24:11:32,  7.63s/it, loss=0.0121, acc=0.9766, iter_time=7.99s]Epoch 0:   8%|▊         | 976/12384 [2:04:32<24:11:18,  7.63s/it, loss=0.0121, acc=0.9766, iter_time=7.99s]Epoch 0:   8%|▊         | 976/12384 [2:04:39<24:11:18,  7.63s/it, loss=0.0060, acc=0.9853, iter_time=6.04s]Epoch 0:   8%|▊         | 977/12384 [2:04:39<24:11:24,  7.63s/it, loss=0.0060, acc=0.9853, iter_time=6.04s]Epoch 0:   8%|▊         | 977/12384 [2:04:47<24:11:24,  7.63s/it, loss=0.0064, acc=0.9838, iter_time=5.56s]Epoch 0:   8%|▊         | 978/12384 [2:04:47<24:13:29,  7.65s/it, loss=0.0064, acc=0.9838, iter_time=5.56s]Epoch 0:   8%|▊         | 978/12384 [2:04:55<24:13:29,  7.65s/it, loss=0.0102, acc=0.9818, iter_time=8.17s]Epoch 0:   8%|▊         | 979/12384 [2:04:55<24:12:27,  7.64s/it, loss=0.0102, acc=0.9818, iter_time=8.17s]Epoch 0:   8%|▊         | 979/12384 [2:05:02<24:12:27,  7.64s/it, loss=0.0152, acc=0.9760, iter_time=7.64s]Epoch 0:   8%|▊         | 980/12384 [2:05:02<24:12:53,  7.64s/it, loss=0.0152, acc=0.9760, iter_time=7.64s]Epoch 0:   8%|▊         | 980/12384 [2:05:10<24:12:53,  7.64s/it, loss=0.0098, acc=0.9809, iter_time=10.72s]Epoch 0:   8%|▊         | 981/12384 [2:05:10<24:31:40,  7.74s/it, loss=0.0098, acc=0.9809, iter_time=10.72s]Epoch 0:   8%|▊         | 981/12384 [2:05:18<24:31:40,  7.74s/it, loss=0.0065, acc=0.9818, iter_time=7.70s] Epoch 0:   8%|▊         | 982/12384 [2:05:18<24:24:43,  7.71s/it, loss=0.0065, acc=0.9818, iter_time=7.70s]Epoch 0:   8%|▊         | 982/12384 [2:05:25<24:24:43,  7.71s/it, loss=0.0123, acc=0.9675, iter_time=7.61s]Epoch 0:   8%|▊         | 983/12384 [2:05:25<24:18:41,  7.68s/it, loss=0.0123, acc=0.9675, iter_time=7.61s]Epoch 0:   8%|▊         | 983/12384 [2:05:33<24:18:41,  7.68s/it, loss=0.0034, acc=0.9942, iter_time=7.54s]Epoch 0:   8%|▊         | 984/12384 [2:05:33<24:14:16,  7.65s/it, loss=0.0034, acc=0.9942, iter_time=7.54s]Epoch 0:   8%|▊         | 984/12384 [2:05:41<24:14:16,  7.65s/it, loss=0.0045, acc=0.9879, iter_time=7.66s]Epoch 0:   8%|▊         | 985/12384 [2:05:41<24:11:22,  7.64s/it, loss=0.0045, acc=0.9879, iter_time=7.66s]Epoch 0:   8%|▊         | 985/12384 [2:05:48<24:11:22,  7.64s/it, loss=0.0083, acc=0.9807, iter_time=7.59s]Epoch 0:   8%|▊         | 986/12384 [2:05:48<24:10:31,  7.64s/it, loss=0.0083, acc=0.9807, iter_time=7.59s]Epoch 0:   8%|▊         | 986/12384 [2:05:56<24:10:31,  7.64s/it, loss=0.0047, acc=0.9907, iter_time=6.71s]Epoch 0:   8%|▊         | 987/12384 [2:05:56<24:12:32,  7.65s/it, loss=0.0047, acc=0.9907, iter_time=6.71s]Epoch 0:   8%|▊         | 987/12384 [2:06:04<24:12:32,  7.65s/it, loss=0.0027, acc=0.9948, iter_time=8.61s]Epoch 0:   8%|▊         | 988/12384 [2:06:04<24:11:33,  7.64s/it, loss=0.0027, acc=0.9948, iter_time=8.61s]Epoch 0:   8%|▊         | 988/12384 [2:06:11<24:11:33,  7.64s/it, loss=0.0072, acc=0.9799, iter_time=7.62s]Epoch 0:   8%|▊         | 989/12384 [2:06:11<24:09:29,  7.63s/it, loss=0.0072, acc=0.9799, iter_time=7.62s]Epoch 0:   8%|▊         | 989/12384 [2:06:19<24:09:29,  7.63s/it, loss=0.0042, acc=0.9847, iter_time=6.97s]Epoch 0:   8%|▊         | 990/12384 [2:06:19<24:09:25,  7.63s/it, loss=0.0042, acc=0.9847, iter_time=6.97s]Epoch 0:   8%|▊         | 990/12384 [2:06:26<24:09:25,  7.63s/it, loss=0.0053, acc=0.9882, iter_time=8.28s]Epoch 0:   8%|▊         | 991/12384 [2:06:26<24:08:06,  7.63s/it, loss=0.0053, acc=0.9882, iter_time=8.28s]Epoch 0:   8%|▊         | 991/12384 [2:06:34<24:08:06,  7.63s/it, loss=0.0059, acc=0.9857, iter_time=7.55s]Epoch 0:   8%|▊         | 992/12384 [2:06:34<24:07:14,  7.62s/it, loss=0.0059, acc=0.9857, iter_time=7.55s]Epoch 0:   8%|▊         | 992/12384 [2:06:42<24:07:14,  7.62s/it, loss=0.0017, acc=0.9995, iter_time=7.65s]Epoch 0:   8%|▊         | 993/12384 [2:06:42<24:06:18,  7.62s/it, loss=0.0017, acc=0.9995, iter_time=7.65s]Epoch 0:   8%|▊         | 993/12384 [2:06:49<24:06:18,  7.62s/it, loss=0.0124, acc=0.9837, iter_time=7.60s]Epoch 0:   8%|▊         | 994/12384 [2:06:49<24:06:58,  7.62s/it, loss=0.0124, acc=0.9837, iter_time=7.60s]Epoch 0:   8%|▊         | 994/12384 [2:06:57<24:06:58,  7.62s/it, loss=0.0210, acc=0.9684, iter_time=7.68s]Epoch 0:   8%|▊         | 995/12384 [2:06:57<24:08:26,  7.63s/it, loss=0.0210, acc=0.9684, iter_time=7.68s]Epoch 0:   8%|▊         | 995/12384 [2:07:04<24:08:26,  7.63s/it, loss=0.0028, acc=0.9942, iter_time=7.61s]Epoch 0:   8%|▊         | 996/12384 [2:07:04<24:06:30,  7.62s/it, loss=0.0028, acc=0.9942, iter_time=7.61s]Epoch 0:   8%|▊         | 996/12384 [2:07:12<24:06:30,  7.62s/it, loss=0.0053, acc=0.9909, iter_time=7.62s]Epoch 0:   8%|▊         | 997/12384 [2:07:12<24:07:22,  7.63s/it, loss=0.0053, acc=0.9909, iter_time=7.62s]Epoch 0:   8%|▊         | 997/12384 [2:07:20<24:07:22,  7.63s/it, loss=0.0038, acc=0.9914, iter_time=7.63s]Epoch 0:   8%|▊         | 998/12384 [2:07:20<24:06:39,  7.62s/it, loss=0.0038, acc=0.9914, iter_time=7.63s]Epoch 0:   8%|▊         | 998/12384 [2:07:27<24:06:39,  7.62s/it, loss=0.0072, acc=0.9869, iter_time=7.59s]Epoch 0:   8%|▊         | 999/12384 [2:07:27<24:06:45,  7.62s/it, loss=0.0072, acc=0.9869, iter_time=7.59s]Epoch 0:   8%|▊         | 999/12384 [2:07:35<24:06:45,  7.62s/it, loss=0.0031, acc=0.9893, iter_time=8.08s]Epoch 0:   8%|▊         | 1000/12384 [2:07:35<24:19:36,  7.69s/it, loss=0.0031, acc=0.9893, iter_time=8.08s]Epoch 0:   8%|▊         | 1000/12384 [2:07:43<24:19:36,  7.69s/it, loss=0.0037, acc=0.9923, iter_time=7.40s]Epoch 0:   8%|▊         | 1001/12384 [2:07:43<24:18:34,  7.69s/it, loss=0.0037, acc=0.9923, iter_time=7.40s]Epoch 0:   8%|▊         | 1001/12384 [2:07:51<24:18:34,  7.69s/it, loss=0.0036, acc=0.9895, iter_time=7.69s]Epoch 0:   8%|▊         | 1002/12384 [2:07:51<24:14:21,  7.67s/it, loss=0.0036, acc=0.9895, iter_time=7.69s]Epoch 0:   8%|▊         | 1002/12384 [2:07:58<24:14:21,  7.67s/it, loss=0.0148, acc=0.9791, iter_time=7.61s]Epoch 0:   8%|▊         | 1003/12384 [2:07:58<24:12:05,  7.66s/it, loss=0.0148, acc=0.9791, iter_time=7.61s]Epoch 0:   8%|▊         | 1003/12384 [2:08:06<24:12:05,  7.66s/it, loss=0.0058, acc=0.9831, iter_time=7.61s]Epoch 0:   8%|▊         | 1004/12384 [2:08:06<24:09:25,  7.64s/it, loss=0.0058, acc=0.9831, iter_time=7.61s]Epoch 0:   8%|▊         | 1004/12384 [2:08:13<24:09:25,  7.64s/it, loss=0.0033, acc=0.9912, iter_time=7.63s]Epoch 0:   8%|▊         | 1005/12384 [2:08:13<24:10:25,  7.65s/it, loss=0.0033, acc=0.9912, iter_time=7.63s]Epoch 0:   8%|▊         | 1005/12384 [2:08:21<24:10:25,  7.65s/it, loss=0.0048, acc=0.9879, iter_time=7.95s]Epoch 0:   8%|▊         | 1006/12384 [2:08:21<24:23:44,  7.72s/it, loss=0.0048, acc=0.9879, iter_time=7.95s]Epoch 0:   8%|▊         | 1006/12384 [2:08:29<24:23:44,  7.72s/it, loss=0.0050, acc=0.9908, iter_time=5.26s]Epoch 0:   8%|▊         | 1007/12384 [2:08:29<24:16:39,  7.68s/it, loss=0.0050, acc=0.9908, iter_time=5.26s]Epoch 0:   8%|▊         | 1007/12384 [2:08:37<24:16:39,  7.68s/it, loss=0.0141, acc=0.9724, iter_time=10.38s]Epoch 0:   8%|▊         | 1008/12384 [2:08:37<24:31:53,  7.76s/it, loss=0.0141, acc=0.9724, iter_time=10.38s]Epoch 0:   8%|▊         | 1008/12384 [2:08:45<24:31:53,  7.76s/it, loss=0.0036, acc=0.9910, iter_time=7.51s] Epoch 0:   8%|▊         | 1009/12384 [2:08:45<24:25:42,  7.73s/it, loss=0.0036, acc=0.9910, iter_time=7.51s]Epoch 0:   8%|▊         | 1009/12384 [2:08:52<24:25:42,  7.73s/it, loss=0.0130, acc=0.9754, iter_time=7.69s]Epoch 0:   8%|▊         | 1010/12384 [2:08:52<24:20:05,  7.70s/it, loss=0.0130, acc=0.9754, iter_time=7.69s]Epoch 0:   8%|▊         | 1010/12384 [2:09:00<24:20:05,  7.70s/it, loss=0.0031, acc=0.9924, iter_time=7.61s]Epoch 0:   8%|▊         | 1011/12384 [2:09:00<24:14:39,  7.67s/it, loss=0.0031, acc=0.9924, iter_time=7.61s]Epoch 0:   8%|▊         | 1011/12384 [2:09:07<24:14:39,  7.67s/it, loss=0.0112, acc=0.9841, iter_time=7.61s]Epoch 0:   8%|▊         | 1012/12384 [2:09:07<24:14:25,  7.67s/it, loss=0.0112, acc=0.9841, iter_time=7.61s]Epoch 0:   8%|▊         | 1012/12384 [2:09:15<24:14:25,  7.67s/it, loss=0.0066, acc=0.9865, iter_time=7.65s]Epoch 0:   8%|▊         | 1013/12384 [2:09:15<24:09:50,  7.65s/it, loss=0.0066, acc=0.9865, iter_time=7.65s]Epoch 0:   8%|▊         | 1013/12384 [2:09:23<24:09:50,  7.65s/it, loss=0.0024, acc=0.9921, iter_time=7.59s]Epoch 0:   8%|▊         | 1014/12384 [2:09:23<24:08:22,  7.64s/it, loss=0.0024, acc=0.9921, iter_time=7.59s]Epoch 0:   8%|▊         | 1014/12384 [2:09:30<24:08:22,  7.64s/it, loss=0.0065, acc=0.9930, iter_time=7.64s]Epoch 0:   8%|▊         | 1015/12384 [2:09:30<24:10:31,  7.66s/it, loss=0.0065, acc=0.9930, iter_time=7.64s]Epoch 0:   8%|▊         | 1015/12384 [2:09:38<24:10:31,  7.66s/it, loss=0.0042, acc=0.9923, iter_time=8.07s]Epoch 0:   8%|▊         | 1016/12384 [2:09:38<24:09:48,  7.65s/it, loss=0.0042, acc=0.9923, iter_time=8.07s]Epoch 0:   8%|▊         | 1016/12384 [2:09:46<24:09:48,  7.65s/it, loss=0.0075, acc=0.9877, iter_time=7.26s]Epoch 0:   8%|▊         | 1017/12384 [2:09:46<24:08:06,  7.64s/it, loss=0.0075, acc=0.9877, iter_time=7.26s]Epoch 0:   8%|▊         | 1017/12384 [2:09:53<24:08:06,  7.64s/it, loss=0.0109, acc=0.9815, iter_time=7.62s]Epoch 0:   8%|▊         | 1018/12384 [2:09:53<24:06:33,  7.64s/it, loss=0.0109, acc=0.9815, iter_time=7.62s]Epoch 0:   8%|▊         | 1018/12384 [2:10:01<24:06:33,  7.64s/it, loss=0.0056, acc=0.9881, iter_time=5.82s]Epoch 0:   8%|▊         | 1019/12384 [2:10:01<24:04:06,  7.62s/it, loss=0.0056, acc=0.9881, iter_time=5.82s]Epoch 0:   8%|▊         | 1019/12384 [2:10:08<24:04:06,  7.62s/it, loss=0.0039, acc=0.9879, iter_time=7.85s]Epoch 0:   8%|▊         | 1020/12384 [2:10:08<24:02:43,  7.62s/it, loss=0.0039, acc=0.9879, iter_time=7.85s]Epoch 0:   8%|▊         | 1020/12384 [2:10:16<24:02:43,  7.62s/it, loss=0.0122, acc=0.9763, iter_time=9.13s]Epoch 0:   8%|▊         | 1021/12384 [2:10:16<24:00:47,  7.61s/it, loss=0.0122, acc=0.9763, iter_time=9.13s]Epoch 0:   8%|▊         | 1021/12384 [2:10:24<24:00:47,  7.61s/it, loss=0.0047, acc=0.9898, iter_time=7.59s]Epoch 0:   8%|▊         | 1022/12384 [2:10:24<24:02:24,  7.62s/it, loss=0.0047, acc=0.9898, iter_time=7.59s]Epoch 0:   8%|▊         | 1022/12384 [2:10:31<24:02:24,  7.62s/it, loss=0.0020, acc=0.9959, iter_time=7.66s]Epoch 0:   8%|▊         | 1023/12384 [2:10:31<24:05:35,  7.63s/it, loss=0.0020, acc=0.9959, iter_time=7.66s]Epoch 0:   8%|▊         | 1023/12384 [2:10:39<24:05:35,  7.63s/it, loss=0.0020, acc=0.9976, iter_time=7.65s]Epoch 0:   8%|▊         | 1024/12384 [2:10:39<24:06:11,  7.64s/it, loss=0.0020, acc=0.9976, iter_time=7.65s]Epoch 0:   8%|▊         | 1024/12384 [2:10:47<24:06:11,  7.64s/it, loss=0.0025, acc=0.9925, iter_time=7.66s]Epoch 0:   8%|▊         | 1025/12384 [2:10:47<24:04:54,  7.63s/it, loss=0.0025, acc=0.9925, iter_time=7.66s]Epoch 0:   8%|▊         | 1025/12384 [2:10:54<24:04:54,  7.63s/it, loss=0.0031, acc=0.9926, iter_time=4.60s]Epoch 0:   8%|▊         | 1026/12384 [2:10:54<24:06:06,  7.64s/it, loss=0.0031, acc=0.9926, iter_time=4.60s]Epoch 0:   8%|▊         | 1026/12384 [2:11:02<24:06:06,  7.64s/it, loss=0.0125, acc=0.9719, iter_time=10.68s]Epoch 0:   8%|▊         | 1027/12384 [2:11:02<24:06:45,  7.64s/it, loss=0.0125, acc=0.9719, iter_time=10.68s]Epoch 0:   8%|▊         | 1027/12384 [2:11:10<24:06:45,  7.64s/it, loss=0.0014, acc=0.9990, iter_time=7.33s] Epoch 0:   8%|▊         | 1028/12384 [2:11:10<24:06:24,  7.64s/it, loss=0.0014, acc=0.9990, iter_time=7.33s]Epoch 0:   8%|▊         | 1028/12384 [2:11:17<24:06:24,  7.64s/it, loss=0.0025, acc=0.9945, iter_time=6.23s]Epoch 0:   8%|▊         | 1029/12384 [2:11:17<24:06:39,  7.64s/it, loss=0.0025, acc=0.9945, iter_time=6.23s]Epoch 0:   8%|▊         | 1029/12384 [2:11:25<24:06:39,  7.64s/it, loss=0.0064, acc=0.9901, iter_time=9.37s]Epoch 0:   8%|▊         | 1030/12384 [2:11:25<24:05:51,  7.64s/it, loss=0.0064, acc=0.9901, iter_time=9.37s]Epoch 0:   8%|▊         | 1030/12384 [2:11:32<24:05:51,  7.64s/it, loss=0.0037, acc=0.9942, iter_time=7.66s]Epoch 0:   8%|▊         | 1031/12384 [2:11:32<24:05:45,  7.64s/it, loss=0.0037, acc=0.9942, iter_time=7.66s]Epoch 0:   8%|▊         | 1031/12384 [2:11:40<24:05:45,  7.64s/it, loss=0.0344, acc=0.9582, iter_time=7.61s]Epoch 0:   8%|▊         | 1032/12384 [2:11:40<24:06:26,  7.65s/it, loss=0.0344, acc=0.9582, iter_time=7.61s]Epoch 0:   8%|▊         | 1032/12384 [2:11:48<24:06:26,  7.65s/it, loss=0.0038, acc=0.9897, iter_time=7.96s]Epoch 0:   8%|▊         | 1033/12384 [2:11:48<24:21:06,  7.72s/it, loss=0.0038, acc=0.9897, iter_time=7.96s]Epoch 0:   8%|▊         | 1033/12384 [2:11:56<24:21:06,  7.72s/it, loss=0.0090, acc=0.9823, iter_time=6.13s]Epoch 0:   8%|▊         | 1034/12384 [2:11:56<24:34:01,  7.79s/it, loss=0.0090, acc=0.9823, iter_time=6.13s]Epoch 0:   8%|▊         | 1034/12384 [2:12:04<24:34:01,  7.79s/it, loss=0.0085, acc=0.9762, iter_time=9.42s]Epoch 0:   8%|▊         | 1035/12384 [2:12:04<24:22:58,  7.73s/it, loss=0.0085, acc=0.9762, iter_time=9.42s]Epoch 0:   8%|▊         | 1035/12384 [2:12:11<24:22:58,  7.73s/it, loss=0.0046, acc=0.9904, iter_time=7.66s]Epoch 0:   8%|▊         | 1036/12384 [2:12:11<24:18:27,  7.71s/it, loss=0.0046, acc=0.9904, iter_time=7.66s]Epoch 0:   8%|▊         | 1036/12384 [2:12:19<24:18:27,  7.71s/it, loss=0.0035, acc=0.9900, iter_time=5.36s]Epoch 0:   8%|▊         | 1037/12384 [2:12:19<24:12:10,  7.68s/it, loss=0.0035, acc=0.9900, iter_time=5.36s]Epoch 0:   8%|▊         | 1037/12384 [2:12:26<24:12:10,  7.68s/it, loss=0.0055, acc=0.9900, iter_time=9.85s]Epoch 0:   8%|▊         | 1038/12384 [2:12:26<24:09:12,  7.66s/it, loss=0.0055, acc=0.9900, iter_time=9.85s]Epoch 0:   8%|▊         | 1038/12384 [2:12:34<24:09:12,  7.66s/it, loss=0.0053, acc=0.9886, iter_time=7.61s]Epoch 0:   8%|▊         | 1039/12384 [2:12:34<24:06:53,  7.65s/it, loss=0.0053, acc=0.9886, iter_time=7.61s]Epoch 0:   8%|▊         | 1039/12384 [2:12:42<24:06:53,  7.65s/it, loss=0.0073, acc=0.9914, iter_time=8.01s]Epoch 0:   8%|▊         | 1040/12384 [2:12:42<24:04:31,  7.64s/it, loss=0.0073, acc=0.9914, iter_time=8.01s]Epoch 0:   8%|▊         | 1040/12384 [2:12:49<24:04:31,  7.64s/it, loss=0.0017, acc=0.9949, iter_time=4.09s]Epoch 0:   8%|▊         | 1041/12384 [2:12:49<24:05:20,  7.65s/it, loss=0.0017, acc=0.9949, iter_time=4.09s]Epoch 0:   8%|▊         | 1041/12384 [2:12:57<24:05:20,  7.65s/it, loss=0.5570, acc=0.7423, iter_time=10.50s]Epoch 0:   8%|▊         | 1042/12384 [2:12:57<24:05:00,  7.64s/it, loss=0.5570, acc=0.7423, iter_time=10.50s]Epoch 0:   8%|▊         | 1042/12384 [2:13:05<24:05:00,  7.64s/it, loss=0.0054, acc=0.9913, iter_time=7.95s] Epoch 0:   8%|▊         | 1043/12384 [2:13:05<24:05:05,  7.65s/it, loss=0.0054, acc=0.9913, iter_time=7.95s]Epoch 0:   8%|▊         | 1043/12384 [2:13:12<24:05:05,  7.65s/it, loss=0.0042, acc=0.9910, iter_time=4.33s]Epoch 0:   8%|▊         | 1044/12384 [2:13:12<24:01:51,  7.63s/it, loss=0.0042, acc=0.9910, iter_time=4.33s]Epoch 0:   8%|▊         | 1044/12384 [2:13:20<24:01:51,  7.63s/it, loss=0.0046, acc=0.9945, iter_time=9.17s]Epoch 0:   8%|▊         | 1045/12384 [2:13:20<23:59:58,  7.62s/it, loss=0.0046, acc=0.9945, iter_time=9.17s]Epoch 0:   8%|▊         | 1045/12384 [2:13:28<23:59:58,  7.62s/it, loss=0.0008, acc=0.9980, iter_time=7.09s]Epoch 0:   8%|▊         | 1046/12384 [2:13:28<24:03:00,  7.64s/it, loss=0.0008, acc=0.9980, iter_time=7.09s]Epoch 0:   8%|▊         | 1046/12384 [2:13:35<24:03:00,  7.64s/it, loss=0.0017, acc=0.9987, iter_time=9.92s]Epoch 0:   8%|▊         | 1047/12384 [2:13:35<24:02:51,  7.64s/it, loss=0.0017, acc=0.9987, iter_time=9.92s]Epoch 0:   8%|▊         | 1047/12384 [2:13:43<24:02:51,  7.64s/it, loss=0.0029, acc=0.9876, iter_time=8.03s]Epoch 0:   8%|▊         | 1048/12384 [2:13:43<24:00:54,  7.63s/it, loss=0.0029, acc=0.9876, iter_time=8.03s]Epoch 0:   8%|▊         | 1048/12384 [2:13:50<24:00:54,  7.63s/it, loss=0.0029, acc=0.9957, iter_time=7.21s]Epoch 0:   8%|▊         | 1049/12384 [2:13:50<24:01:35,  7.63s/it, loss=0.0029, acc=0.9957, iter_time=7.21s]Epoch 0:   8%|▊         | 1049/12384 [2:13:58<24:01:35,  7.63s/it, loss=0.0153, acc=0.9740, iter_time=8.05s]Epoch 0:   8%|▊         | 1050/12384 [2:13:58<24:00:47,  7.63s/it, loss=0.0153, acc=0.9740, iter_time=8.05s]Epoch 0:   8%|▊         | 1050/12384 [2:14:06<24:00:47,  7.63s/it, loss=0.0118, acc=0.9700, iter_time=6.61s]Epoch 0:   8%|▊         | 1051/12384 [2:14:06<23:59:57,  7.62s/it, loss=0.0118, acc=0.9700, iter_time=6.61s]Epoch 0:   8%|▊         | 1051/12384 [2:14:13<23:59:57,  7.62s/it, loss=0.0067, acc=0.9849, iter_time=8.22s]Epoch 0:   8%|▊         | 1052/12384 [2:14:13<23:59:57,  7.62s/it, loss=0.0067, acc=0.9849, iter_time=8.22s]Epoch 0:   8%|▊         | 1052/12384 [2:14:21<23:59:57,  7.62s/it, loss=0.0013, acc=0.9975, iter_time=4.44s]Epoch 0:   9%|▊         | 1053/12384 [2:14:21<24:05:07,  7.65s/it, loss=0.0013, acc=0.9975, iter_time=4.44s]Epoch 0:   9%|▊         | 1053/12384 [2:14:29<24:05:07,  7.65s/it, loss=0.0042, acc=0.9887, iter_time=9.14s]Epoch 0:   9%|▊         | 1054/12384 [2:14:29<24:03:45,  7.65s/it, loss=0.0042, acc=0.9887, iter_time=9.14s]Epoch 0:   9%|▊         | 1054/12384 [2:14:36<24:03:45,  7.65s/it, loss=0.0031, acc=0.9946, iter_time=9.42s]Epoch 0:   9%|▊         | 1055/12384 [2:14:36<24:01:44,  7.64s/it, loss=0.0031, acc=0.9946, iter_time=9.42s]Epoch 0:   9%|▊         | 1055/12384 [2:14:44<24:01:44,  7.64s/it, loss=0.0053, acc=0.9915, iter_time=7.57s]Epoch 0:   9%|▊         | 1056/12384 [2:14:44<24:00:39,  7.63s/it, loss=0.0053, acc=0.9915, iter_time=7.57s]Epoch 0:   9%|▊         | 1056/12384 [2:14:51<24:00:39,  7.63s/it, loss=0.0066, acc=0.9869, iter_time=3.90s]Epoch 0:   9%|▊         | 1057/12384 [2:14:51<23:59:10,  7.62s/it, loss=0.0066, acc=0.9869, iter_time=3.90s]Epoch 0:   9%|▊         | 1057/12384 [2:14:59<23:59:10,  7.62s/it, loss=0.0075, acc=0.9860, iter_time=11.33s]Epoch 0:   9%|▊         | 1058/12384 [2:14:59<23:59:28,  7.63s/it, loss=0.0075, acc=0.9860, iter_time=11.33s]Epoch 0:   9%|▊         | 1058/12384 [2:15:07<23:59:28,  7.63s/it, loss=0.0016, acc=0.9973, iter_time=7.66s] Epoch 0:   9%|▊         | 1059/12384 [2:15:07<23:58:55,  7.62s/it, loss=0.0016, acc=0.9973, iter_time=7.66s]Epoch 0:   9%|▊         | 1059/12384 [2:15:15<23:58:55,  7.62s/it, loss=0.0038, acc=0.9930, iter_time=7.91s]Epoch 0:   9%|▊         | 1060/12384 [2:15:15<24:14:29,  7.71s/it, loss=0.0038, acc=0.9930, iter_time=7.91s]Epoch 0:   9%|▊         | 1060/12384 [2:15:23<24:14:29,  7.71s/it, loss=0.0093, acc=0.9816, iter_time=7.67s]Epoch 0:   9%|▊         | 1061/12384 [2:15:23<24:26:31,  7.77s/it, loss=0.0093, acc=0.9816, iter_time=7.67s]Epoch 0:   9%|▊         | 1061/12384 [2:15:30<24:26:31,  7.77s/it, loss=0.0259, acc=0.9664, iter_time=7.56s]Epoch 0:   9%|▊         | 1062/12384 [2:15:30<24:18:30,  7.73s/it, loss=0.0259, acc=0.9664, iter_time=7.56s]Epoch 0:   9%|▊         | 1062/12384 [2:15:38<24:18:30,  7.73s/it, loss=0.0054, acc=0.9909, iter_time=7.93s]Epoch 0:   9%|▊         | 1063/12384 [2:15:38<24:13:58,  7.71s/it, loss=0.0054, acc=0.9909, iter_time=7.93s]Epoch 0:   9%|▊         | 1063/12384 [2:15:45<24:13:58,  7.71s/it, loss=0.0047, acc=0.9945, iter_time=8.02s]Epoch 0:   9%|▊         | 1064/12384 [2:15:45<24:08:51,  7.68s/it, loss=0.0047, acc=0.9945, iter_time=8.02s]Epoch 0:   9%|▊         | 1064/12384 [2:15:53<24:08:51,  7.68s/it, loss=0.0019, acc=0.9982, iter_time=4.12s]Epoch 0:   9%|▊         | 1065/12384 [2:15:53<24:05:15,  7.66s/it, loss=0.0019, acc=0.9982, iter_time=4.12s]Epoch 0:   9%|▊         | 1065/12384 [2:16:01<24:05:15,  7.66s/it, loss=0.0088, acc=0.9754, iter_time=7.00s]Epoch 0:   9%|▊         | 1066/12384 [2:16:01<24:01:44,  7.64s/it, loss=0.0088, acc=0.9754, iter_time=7.00s]Epoch 0:   9%|▊         | 1066/12384 [2:16:08<24:01:44,  7.64s/it, loss=0.0053, acc=0.9916, iter_time=11.34s]Epoch 0:   9%|▊         | 1067/12384 [2:16:08<24:00:59,  7.64s/it, loss=0.0053, acc=0.9916, iter_time=11.34s]Epoch 0:   9%|▊         | 1067/12384 [2:16:16<24:00:59,  7.64s/it, loss=0.0053, acc=0.9881, iter_time=7.72s] Epoch 0:   9%|▊         | 1068/12384 [2:16:16<24:03:29,  7.65s/it, loss=0.0053, acc=0.9881, iter_time=7.72s]Epoch 0:   9%|▊         | 1068/12384 [2:16:24<24:03:29,  7.65s/it, loss=0.0033, acc=0.9901, iter_time=7.61s]Epoch 0:   9%|▊         | 1069/12384 [2:16:24<24:00:21,  7.64s/it, loss=0.0033, acc=0.9901, iter_time=7.61s]Epoch 0:   9%|▊         | 1069/12384 [2:16:31<24:00:21,  7.64s/it, loss=0.0090, acc=0.9896, iter_time=7.60s]Epoch 0:   9%|▊         | 1070/12384 [2:16:31<23:58:48,  7.63s/it, loss=0.0090, acc=0.9896, iter_time=7.60s]Epoch 0:   9%|▊         | 1070/12384 [2:16:39<23:58:48,  7.63s/it, loss=0.0053, acc=0.9913, iter_time=7.61s]Epoch 0:   9%|▊         | 1071/12384 [2:16:39<23:57:25,  7.62s/it, loss=0.0053, acc=0.9913, iter_time=7.61s]Epoch 0:   9%|▊         | 1071/12384 [2:16:46<23:57:25,  7.62s/it, loss=0.0068, acc=0.9760, iter_time=7.65s]Epoch 0:   9%|▊         | 1072/12384 [2:16:46<24:02:12,  7.65s/it, loss=0.0068, acc=0.9760, iter_time=7.65s]Epoch 0:   9%|▊         | 1072/12384 [2:16:54<24:02:12,  7.65s/it, loss=0.0065, acc=0.9832, iter_time=7.68s]Epoch 0:   9%|▊         | 1073/12384 [2:16:54<24:01:02,  7.64s/it, loss=0.0065, acc=0.9832, iter_time=7.68s]Epoch 0:   9%|▊         | 1073/12384 [2:17:02<24:01:02,  7.64s/it, loss=0.0020, acc=0.9961, iter_time=5.91s]Epoch 0:   9%|▊         | 1074/12384 [2:17:02<23:58:32,  7.63s/it, loss=0.0020, acc=0.9961, iter_time=5.91s]Epoch 0:   9%|▊         | 1074/12384 [2:17:09<23:58:32,  7.63s/it, loss=0.0044, acc=0.9916, iter_time=9.32s]Epoch 0:   9%|▊         | 1075/12384 [2:17:09<24:01:15,  7.65s/it, loss=0.0044, acc=0.9916, iter_time=9.32s]Epoch 0:   9%|▊         | 1075/12384 [2:17:17<24:01:15,  7.65s/it, loss=0.0024, acc=0.9923, iter_time=7.68s]Epoch 0:   9%|▊         | 1076/12384 [2:17:17<24:04:15,  7.66s/it, loss=0.0024, acc=0.9923, iter_time=7.68s]Epoch 0:   9%|▊         | 1076/12384 [2:17:25<24:04:15,  7.66s/it, loss=0.0029, acc=0.9968, iter_time=7.70s]Epoch 0:   9%|▊         | 1077/12384 [2:17:25<24:02:45,  7.66s/it, loss=0.0029, acc=0.9968, iter_time=7.70s]Epoch 0:   9%|▊         | 1077/12384 [2:17:32<24:02:45,  7.66s/it, loss=0.0078, acc=0.9792, iter_time=7.63s]Epoch 0:   9%|▊         | 1078/12384 [2:17:32<24:00:09,  7.64s/it, loss=0.0078, acc=0.9792, iter_time=7.63s]Epoch 0:   9%|▊         | 1078/12384 [2:17:40<24:00:09,  7.64s/it, loss=0.0087, acc=0.9875, iter_time=7.62s]Epoch 0:   9%|▊         | 1079/12384 [2:17:40<23:57:41,  7.63s/it, loss=0.0087, acc=0.9875, iter_time=7.62s]Epoch 0:   9%|▊         | 1079/12384 [2:17:48<23:57:41,  7.63s/it, loss=0.0031, acc=0.9944, iter_time=8.00s]Epoch 0:   9%|▊         | 1080/12384 [2:17:48<23:56:43,  7.63s/it, loss=0.0031, acc=0.9944, iter_time=8.00s]Epoch 0:   9%|▊         | 1080/12384 [2:17:55<23:56:43,  7.63s/it, loss=0.0123, acc=0.9817, iter_time=7.24s]Epoch 0:   9%|▊         | 1081/12384 [2:17:55<24:00:39,  7.65s/it, loss=0.0123, acc=0.9817, iter_time=7.24s]Epoch 0:   9%|▊         | 1081/12384 [2:18:03<24:00:39,  7.65s/it, loss=0.0037, acc=0.9943, iter_time=7.70s]Epoch 0:   9%|▊         | 1082/12384 [2:18:03<23:59:20,  7.64s/it, loss=0.0037, acc=0.9943, iter_time=7.70s]Epoch 0:   9%|▊         | 1082/12384 [2:18:11<23:59:20,  7.64s/it, loss=0.0018, acc=0.9940, iter_time=4.54s]Epoch 0:   9%|▊         | 1083/12384 [2:18:11<24:00:25,  7.65s/it, loss=0.0018, acc=0.9940, iter_time=4.54s]Epoch 0:   9%|▊         | 1083/12384 [2:18:18<24:00:25,  7.65s/it, loss=0.0023, acc=0.9947, iter_time=10.72s]Epoch 0:   9%|▉         | 1084/12384 [2:18:18<23:57:23,  7.63s/it, loss=0.0023, acc=0.9947, iter_time=10.72s]Epoch 0:   9%|▉         | 1084/12384 [2:18:26<23:57:23,  7.63s/it, loss=0.0039, acc=0.9896, iter_time=7.60s] Epoch 0:   9%|▉         | 1085/12384 [2:18:26<23:56:25,  7.63s/it, loss=0.0039, acc=0.9896, iter_time=7.60s]Epoch 0:   9%|▉         | 1085/12384 [2:18:33<23:56:25,  7.63s/it, loss=0.0028, acc=0.9967, iter_time=7.63s]Epoch 0:   9%|▉         | 1086/12384 [2:18:33<23:55:09,  7.62s/it, loss=0.0028, acc=0.9967, iter_time=7.63s]Epoch 0:   9%|▉         | 1086/12384 [2:18:41<23:55:09,  7.62s/it, loss=0.0044, acc=0.9905, iter_time=7.89s]Epoch 0:   9%|▉         | 1087/12384 [2:18:41<24:12:41,  7.72s/it, loss=0.0044, acc=0.9905, iter_time=7.89s]Epoch 0:   9%|▉         | 1087/12384 [2:18:49<24:12:41,  7.72s/it, loss=0.0036, acc=0.9913, iter_time=7.67s]Epoch 0:   9%|▉         | 1088/12384 [2:18:49<24:11:52,  7.71s/it, loss=0.0036, acc=0.9913, iter_time=7.67s]Epoch 0:   9%|▉         | 1088/12384 [2:18:57<24:11:52,  7.71s/it, loss=0.0069, acc=0.9895, iter_time=7.66s]Epoch 0:   9%|▉         | 1089/12384 [2:18:57<24:11:20,  7.71s/it, loss=0.0069, acc=0.9895, iter_time=7.66s]Epoch 0:   9%|▉         | 1089/12384 [2:19:04<24:11:20,  7.71s/it, loss=0.0073, acc=0.9904, iter_time=7.71s]Epoch 0:   9%|▉         | 1090/12384 [2:19:04<24:08:06,  7.69s/it, loss=0.0073, acc=0.9904, iter_time=7.71s]Epoch 0:   9%|▉         | 1090/12384 [2:19:12<24:08:06,  7.69s/it, loss=0.0017, acc=0.9979, iter_time=7.67s]Epoch 0:   9%|▉         | 1091/12384 [2:19:12<24:05:08,  7.68s/it, loss=0.0017, acc=0.9979, iter_time=7.67s]Epoch 0:   9%|▉         | 1091/12384 [2:19:20<24:05:08,  7.68s/it, loss=0.0028, acc=0.9936, iter_time=7.66s]Epoch 0:   9%|▉         | 1092/12384 [2:19:20<24:01:42,  7.66s/it, loss=0.0028, acc=0.9936, iter_time=7.66s]Epoch 0:   9%|▉         | 1092/12384 [2:19:27<24:01:42,  7.66s/it, loss=0.0009, acc=0.9965, iter_time=4.29s]Epoch 0:   9%|▉         | 1093/12384 [2:19:27<23:58:49,  7.65s/it, loss=0.0009, acc=0.9965, iter_time=4.29s]Epoch 0:   9%|▉         | 1093/12384 [2:19:35<23:58:49,  7.65s/it, loss=0.0037, acc=0.9918, iter_time=10.93s]Epoch 0:   9%|▉         | 1094/12384 [2:19:35<23:57:22,  7.64s/it, loss=0.0037, acc=0.9918, iter_time=10.93s]Epoch 0:   9%|▉         | 1094/12384 [2:19:43<23:57:22,  7.64s/it, loss=0.0014, acc=0.9980, iter_time=4.31s] Epoch 0:   9%|▉         | 1095/12384 [2:19:43<24:02:39,  7.67s/it, loss=0.0014, acc=0.9980, iter_time=4.31s]Epoch 0:   9%|▉         | 1095/12384 [2:19:50<24:02:39,  7.67s/it, loss=0.0019, acc=0.9985, iter_time=11.44s]Epoch 0:   9%|▉         | 1096/12384 [2:19:50<24:06:09,  7.69s/it, loss=0.0019, acc=0.9985, iter_time=11.44s]Epoch 0:   9%|▉         | 1096/12384 [2:19:58<24:06:09,  7.69s/it, loss=0.0028, acc=0.9901, iter_time=7.33s] Epoch 0:   9%|▉         | 1097/12384 [2:19:58<24:02:16,  7.67s/it, loss=0.0028, acc=0.9901, iter_time=7.33s]Epoch 0:   9%|▉         | 1097/12384 [2:20:06<24:02:16,  7.67s/it, loss=0.0053, acc=0.9867, iter_time=7.63s]Epoch 0:   9%|▉         | 1098/12384 [2:20:06<24:00:08,  7.66s/it, loss=0.0053, acc=0.9867, iter_time=7.63s]Epoch 0:   9%|▉         | 1098/12384 [2:20:13<24:00:08,  7.66s/it, loss=0.0036, acc=0.9950, iter_time=7.64s]Epoch 0:   9%|▉         | 1099/12384 [2:20:13<23:58:38,  7.65s/it, loss=0.0036, acc=0.9950, iter_time=7.64s]Epoch 0:   9%|▉         | 1099/12384 [2:20:21<23:58:38,  7.65s/it, loss=0.0021, acc=0.9967, iter_time=8.11s]Epoch 0:   9%|▉         | 1100/12384 [2:20:21<24:01:07,  7.66s/it, loss=0.0021, acc=0.9967, iter_time=8.11s]Epoch 0:   9%|▉         | 1100/12384 [2:20:29<24:01:07,  7.66s/it, loss=0.0107, acc=0.9828, iter_time=4.90s]Epoch 0:   9%|▉         | 1101/12384 [2:20:29<23:58:37,  7.65s/it, loss=0.0107, acc=0.9828, iter_time=4.90s]Epoch 0:   9%|▉         | 1101/12384 [2:20:36<23:58:37,  7.65s/it, loss=0.0031, acc=0.9938, iter_time=9.92s]Epoch 0:   9%|▉         | 1102/12384 [2:20:36<23:56:44,  7.64s/it, loss=0.0031, acc=0.9938, iter_time=9.92s]Epoch 0:   9%|▉         | 1102/12384 [2:20:44<23:56:44,  7.64s/it, loss=0.0047, acc=0.9906, iter_time=7.63s]Epoch 0:   9%|▉         | 1103/12384 [2:20:44<23:54:59,  7.63s/it, loss=0.0047, acc=0.9906, iter_time=7.63s]Epoch 0:   9%|▉         | 1103/12384 [2:20:51<23:54:59,  7.63s/it, loss=0.0013, acc=0.9977, iter_time=7.99s]Epoch 0:   9%|▉         | 1104/12384 [2:20:51<23:52:25,  7.62s/it, loss=0.0013, acc=0.9977, iter_time=7.99s]Epoch 0:   9%|▉         | 1104/12384 [2:20:59<23:52:25,  7.62s/it, loss=0.0027, acc=0.9968, iter_time=7.21s]Epoch 0:   9%|▉         | 1105/12384 [2:20:59<23:57:00,  7.64s/it, loss=0.0027, acc=0.9968, iter_time=7.21s]Epoch 0:   9%|▉         | 1105/12384 [2:21:07<23:57:00,  7.64s/it, loss=0.0031, acc=0.9918, iter_time=7.71s]Epoch 0:   9%|▉         | 1106/12384 [2:21:07<24:02:02,  7.67s/it, loss=0.0031, acc=0.9918, iter_time=7.71s]Epoch 0:   9%|▉         | 1106/12384 [2:21:14<24:02:02,  7.67s/it, loss=0.0142, acc=0.9920, iter_time=7.20s]Epoch 0:   9%|▉         | 1107/12384 [2:21:14<23:59:01,  7.66s/it, loss=0.0142, acc=0.9920, iter_time=7.20s]Epoch 0:   9%|▉         | 1107/12384 [2:21:22<23:59:01,  7.66s/it, loss=0.0018, acc=0.9979, iter_time=8.15s]Epoch 0:   9%|▉         | 1108/12384 [2:21:22<23:57:19,  7.65s/it, loss=0.0018, acc=0.9979, iter_time=8.15s]Epoch 0:   9%|▉         | 1108/12384 [2:21:30<23:57:19,  7.65s/it, loss=0.0028, acc=0.9922, iter_time=7.64s]Epoch 0:   9%|▉         | 1109/12384 [2:21:30<23:55:40,  7.64s/it, loss=0.0028, acc=0.9922, iter_time=7.64s]Epoch 0:   9%|▉         | 1109/12384 [2:21:37<23:55:40,  7.64s/it, loss=0.0025, acc=0.9972, iter_time=7.63s]Epoch 0:   9%|▉         | 1110/12384 [2:21:37<23:56:13,  7.64s/it, loss=0.0025, acc=0.9972, iter_time=7.63s]Epoch 0:   9%|▉         | 1110/12384 [2:21:45<23:56:13,  7.64s/it, loss=0.0018, acc=0.9967, iter_time=7.63s]Epoch 0:   9%|▉         | 1111/12384 [2:21:45<23:54:44,  7.64s/it, loss=0.0018, acc=0.9967, iter_time=7.63s]Epoch 0:   9%|▉         | 1111/12384 [2:21:53<23:54:44,  7.64s/it, loss=0.0011, acc=1.0000, iter_time=8.29s]Epoch 0:   9%|▉         | 1112/12384 [2:21:53<24:08:41,  7.71s/it, loss=0.0011, acc=1.0000, iter_time=8.29s]Epoch 0:   9%|▉         | 1112/12384 [2:22:01<24:08:41,  7.71s/it, loss=0.0023, acc=0.9968, iter_time=7.25s]Epoch 0:   9%|▉         | 1113/12384 [2:22:01<24:23:09,  7.79s/it, loss=0.0023, acc=0.9968, iter_time=7.25s]Epoch 0:   9%|▉         | 1113/12384 [2:22:08<24:23:09,  7.79s/it, loss=0.0052, acc=0.9896, iter_time=5.64s]Epoch 0:   9%|▉         | 1114/12384 [2:22:08<24:13:44,  7.74s/it, loss=0.0052, acc=0.9896, iter_time=5.64s]Epoch 0:   9%|▉         | 1114/12384 [2:22:16<24:13:44,  7.74s/it, loss=0.0067, acc=0.9904, iter_time=9.92s]Epoch 0:   9%|▉         | 1115/12384 [2:22:16<24:07:04,  7.70s/it, loss=0.0067, acc=0.9904, iter_time=9.92s]Epoch 0:   9%|▉         | 1115/12384 [2:22:24<24:07:04,  7.70s/it, loss=0.0036, acc=0.9925, iter_time=4.31s]Epoch 0:   9%|▉         | 1116/12384 [2:22:24<24:00:49,  7.67s/it, loss=0.0036, acc=0.9925, iter_time=4.31s]Epoch 0:   9%|▉         | 1116/12384 [2:22:31<24:00:49,  7.67s/it, loss=0.0171, acc=0.9720, iter_time=10.90s]Epoch 0:   9%|▉         | 1117/12384 [2:22:31<24:00:08,  7.67s/it, loss=0.0171, acc=0.9720, iter_time=10.90s]Epoch 0:   9%|▉         | 1117/12384 [2:22:39<24:00:08,  7.67s/it, loss=0.0036, acc=0.9873, iter_time=7.66s] Epoch 0:   9%|▉         | 1118/12384 [2:22:39<23:56:26,  7.65s/it, loss=0.0036, acc=0.9873, iter_time=7.66s]Epoch 0:   9%|▉         | 1118/12384 [2:22:46<23:56:26,  7.65s/it, loss=0.0045, acc=0.9943, iter_time=7.61s]Epoch 0:   9%|▉         | 1119/12384 [2:22:46<23:53:21,  7.63s/it, loss=0.0045, acc=0.9943, iter_time=7.61s]Epoch 0:   9%|▉         | 1119/12384 [2:22:54<23:53:21,  7.63s/it, loss=0.0036, acc=0.9881, iter_time=7.55s]Epoch 0:   9%|▉         | 1120/12384 [2:22:54<23:51:38,  7.63s/it, loss=0.0036, acc=0.9881, iter_time=7.55s]Epoch 0:   9%|▉         | 1120/12384 [2:23:02<23:51:38,  7.63s/it, loss=0.0032, acc=0.9953, iter_time=7.64s]Epoch 0:   9%|▉         | 1121/12384 [2:23:02<23:49:49,  7.62s/it, loss=0.0032, acc=0.9953, iter_time=7.64s]Epoch 0:   9%|▉         | 1121/12384 [2:23:09<23:49:49,  7.62s/it, loss=0.0044, acc=0.9883, iter_time=7.07s]Epoch 0:   9%|▉         | 1122/12384 [2:23:09<23:49:19,  7.61s/it, loss=0.0044, acc=0.9883, iter_time=7.07s]Epoch 0:   9%|▉         | 1122/12384 [2:23:17<23:49:19,  7.61s/it, loss=0.0035, acc=0.9950, iter_time=4.42s]Epoch 0:   9%|▉         | 1123/12384 [2:23:17<23:48:52,  7.61s/it, loss=0.0035, acc=0.9950, iter_time=4.42s]Epoch 0:   9%|▉         | 1123/12384 [2:23:25<23:48:52,  7.61s/it, loss=0.0019, acc=0.9946, iter_time=11.07s]Epoch 0:   9%|▉         | 1124/12384 [2:23:25<23:48:19,  7.61s/it, loss=0.0019, acc=0.9946, iter_time=11.07s]Epoch 0:   9%|▉         | 1124/12384 [2:23:32<23:48:19,  7.61s/it, loss=0.0025, acc=0.9956, iter_time=7.89s] Epoch 0:   9%|▉         | 1125/12384 [2:23:32<23:49:38,  7.62s/it, loss=0.0025, acc=0.9956, iter_time=7.89s]Epoch 0:   9%|▉         | 1125/12384 [2:23:40<23:49:38,  7.62s/it, loss=0.0030, acc=0.9933, iter_time=6.18s]Epoch 0:   9%|▉         | 1126/12384 [2:23:40<23:49:34,  7.62s/it, loss=0.0030, acc=0.9933, iter_time=6.18s]Epoch 0:   9%|▉         | 1126/12384 [2:23:47<23:49:34,  7.62s/it, loss=0.0015, acc=0.9988, iter_time=9.11s]Epoch 0:   9%|▉         | 1127/12384 [2:23:47<23:51:16,  7.63s/it, loss=0.0015, acc=0.9988, iter_time=9.11s]Epoch 0:   9%|▉         | 1127/12384 [2:23:55<23:51:16,  7.63s/it, loss=0.0020, acc=0.9968, iter_time=7.98s]Epoch 0:   9%|▉         | 1128/12384 [2:23:55<23:50:03,  7.62s/it, loss=0.0020, acc=0.9968, iter_time=7.98s]Epoch 0:   9%|▉         | 1128/12384 [2:24:03<23:50:03,  7.62s/it, loss=0.0019, acc=0.9998, iter_time=4.21s]Epoch 0:   9%|▉         | 1129/12384 [2:24:03<23:49:07,  7.62s/it, loss=0.0019, acc=0.9998, iter_time=4.21s]Epoch 0:   9%|▉         | 1129/12384 [2:24:10<23:49:07,  7.62s/it, loss=0.0021, acc=0.9953, iter_time=9.12s]Epoch 0:   9%|▉         | 1130/12384 [2:24:10<23:47:01,  7.61s/it, loss=0.0021, acc=0.9953, iter_time=9.12s]Epoch 0:   9%|▉         | 1130/12384 [2:24:18<23:47:01,  7.61s/it, loss=0.0048, acc=0.9911, iter_time=9.10s]Epoch 0:   9%|▉         | 1131/12384 [2:24:18<23:48:26,  7.62s/it, loss=0.0048, acc=0.9911, iter_time=9.10s]Epoch 0:   9%|▉         | 1131/12384 [2:24:25<23:48:26,  7.62s/it, loss=0.0023, acc=0.9956, iter_time=7.65s]Epoch 0:   9%|▉         | 1132/12384 [2:24:25<23:48:37,  7.62s/it, loss=0.0023, acc=0.9956, iter_time=7.65s]Epoch 0:   9%|▉         | 1132/12384 [2:24:33<23:48:37,  7.62s/it, loss=0.0060, acc=0.9853, iter_time=7.31s]Epoch 0:   9%|▉         | 1133/12384 [2:24:33<23:47:08,  7.61s/it, loss=0.0060, acc=0.9853, iter_time=7.31s]Epoch 0:   9%|▉         | 1133/12384 [2:24:41<23:47:08,  7.61s/it, loss=0.0062, acc=0.9846, iter_time=6.70s]Epoch 0:   9%|▉         | 1134/12384 [2:24:41<23:48:48,  7.62s/it, loss=0.0062, acc=0.9846, iter_time=6.70s]Epoch 0:   9%|▉         | 1134/12384 [2:24:48<23:48:48,  7.62s/it, loss=0.0059, acc=0.9877, iter_time=7.89s]Epoch 0:   9%|▉         | 1135/12384 [2:24:48<23:48:54,  7.62s/it, loss=0.0059, acc=0.9877, iter_time=7.89s]Epoch 0:   9%|▉         | 1135/12384 [2:24:56<23:48:54,  7.62s/it, loss=0.0018, acc=0.9956, iter_time=8.99s]Epoch 0:   9%|▉         | 1136/12384 [2:24:56<23:50:35,  7.63s/it, loss=0.0018, acc=0.9956, iter_time=8.99s]Epoch 0:   9%|▉         | 1136/12384 [2:25:04<23:50:35,  7.63s/it, loss=0.0028, acc=0.9941, iter_time=7.22s]Epoch 0:   9%|▉         | 1137/12384 [2:25:04<23:48:38,  7.62s/it, loss=0.0028, acc=0.9941, iter_time=7.22s]Epoch 0:   9%|▉         | 1137/12384 [2:25:11<23:48:38,  7.62s/it, loss=0.0018, acc=0.9974, iter_time=7.88s]Epoch 0:   9%|▉         | 1138/12384 [2:25:11<24:01:44,  7.69s/it, loss=0.0018, acc=0.9974, iter_time=7.88s]Epoch 0:   9%|▉         | 1138/12384 [2:25:19<24:01:44,  7.69s/it, loss=0.0086, acc=0.9795, iter_time=7.64s]Epoch 0:   9%|▉         | 1139/12384 [2:25:19<24:16:45,  7.77s/it, loss=0.0086, acc=0.9795, iter_time=7.64s]Epoch 0:   9%|▉         | 1139/12384 [2:25:27<24:16:45,  7.77s/it, loss=0.0016, acc=0.9998, iter_time=5.38s]Epoch 0:   9%|▉         | 1140/12384 [2:25:27<24:11:36,  7.75s/it, loss=0.0016, acc=0.9998, iter_time=5.38s]Epoch 0:   9%|▉         | 1140/12384 [2:25:35<24:11:36,  7.75s/it, loss=0.0015, acc=0.9978, iter_time=10.24s]Epoch 0:   9%|▉         | 1141/12384 [2:25:35<24:04:10,  7.71s/it, loss=0.0015, acc=0.9978, iter_time=10.24s]Epoch 0:   9%|▉         | 1141/12384 [2:25:42<24:04:10,  7.71s/it, loss=0.0026, acc=0.9950, iter_time=5.04s] Epoch 0:   9%|▉         | 1142/12384 [2:25:42<23:58:32,  7.68s/it, loss=0.0026, acc=0.9950, iter_time=5.04s]Epoch 0:   9%|▉         | 1142/12384 [2:25:50<23:58:32,  7.68s/it, loss=0.0012, acc=0.9982, iter_time=8.92s]Epoch 0:   9%|▉         | 1143/12384 [2:25:50<23:55:16,  7.66s/it, loss=0.0012, acc=0.9982, iter_time=8.92s]Epoch 0:   9%|▉         | 1143/12384 [2:25:58<23:55:16,  7.66s/it, loss=0.0024, acc=0.9909, iter_time=9.26s]Epoch 0:   9%|▉         | 1144/12384 [2:25:58<23:52:52,  7.65s/it, loss=0.0024, acc=0.9909, iter_time=9.26s]Epoch 0:   9%|▉         | 1144/12384 [2:26:05<23:52:52,  7.65s/it, loss=0.0043, acc=0.9876, iter_time=7.23s]Epoch 0:   9%|▉         | 1145/12384 [2:26:05<23:51:03,  7.64s/it, loss=0.0043, acc=0.9876, iter_time=7.23s]Epoch 0:   9%|▉         | 1145/12384 [2:26:13<23:51:03,  7.64s/it, loss=0.0021, acc=0.9979, iter_time=6.11s]Epoch 0:   9%|▉         | 1146/12384 [2:26:13<23:50:19,  7.64s/it, loss=0.0021, acc=0.9979, iter_time=6.11s]Epoch 0:   9%|▉         | 1146/12384 [2:26:21<23:50:19,  7.64s/it, loss=0.0052, acc=0.9965, iter_time=9.14s]Epoch 0:   9%|▉         | 1147/12384 [2:26:21<23:53:45,  7.66s/it, loss=0.0052, acc=0.9965, iter_time=9.14s]Epoch 0:   9%|▉         | 1147/12384 [2:26:28<23:53:45,  7.66s/it, loss=0.0020, acc=0.9983, iter_time=4.42s]Epoch 0:   9%|▉         | 1148/12384 [2:26:28<23:52:12,  7.65s/it, loss=0.0020, acc=0.9983, iter_time=4.42s]Epoch 0:   9%|▉         | 1148/12384 [2:26:36<23:52:12,  7.65s/it, loss=0.0030, acc=0.9913, iter_time=10.90s]Epoch 0:   9%|▉         | 1149/12384 [2:26:36<23:50:40,  7.64s/it, loss=0.0030, acc=0.9913, iter_time=10.90s]Epoch 0:   9%|▉         | 1149/12384 [2:26:43<23:50:40,  7.64s/it, loss=0.0054, acc=0.9857, iter_time=8.03s] Epoch 0:   9%|▉         | 1150/12384 [2:26:43<23:48:18,  7.63s/it, loss=0.0054, acc=0.9857, iter_time=8.03s]Epoch 0:   9%|▉         | 1150/12384 [2:26:51<23:48:18,  7.63s/it, loss=0.0021, acc=0.9958, iter_time=7.20s]Epoch 0:   9%|▉         | 1151/12384 [2:26:51<23:49:47,  7.64s/it, loss=0.0021, acc=0.9958, iter_time=7.20s]Epoch 0:   9%|▉         | 1151/12384 [2:26:59<23:49:47,  7.64s/it, loss=0.0022, acc=0.9931, iter_time=7.66s]Epoch 0:   9%|▉         | 1152/12384 [2:26:59<23:50:45,  7.64s/it, loss=0.0022, acc=0.9931, iter_time=7.66s]Epoch 0:   9%|▉         | 1152/12384 [2:27:06<23:50:45,  7.64s/it, loss=0.0062, acc=0.9890, iter_time=5.65s]Epoch 0:   9%|▉         | 1153/12384 [2:27:06<23:48:08,  7.63s/it, loss=0.0062, acc=0.9890, iter_time=5.65s]Epoch 0:   9%|▉         | 1153/12384 [2:27:14<23:48:08,  7.63s/it, loss=0.0012, acc=0.9975, iter_time=5.87s]Epoch 0:   9%|▉         | 1154/12384 [2:27:14<23:48:53,  7.63s/it, loss=0.0012, acc=0.9975, iter_time=5.87s]Epoch 0:   9%|▉         | 1154/12384 [2:27:22<23:48:53,  7.63s/it, loss=0.0010, acc=0.9977, iter_time=9.87s]Epoch 0:   9%|▉         | 1155/12384 [2:27:22<23:45:41,  7.62s/it, loss=0.0010, acc=0.9977, iter_time=9.87s]Epoch 0:   9%|▉         | 1155/12384 [2:27:29<23:45:41,  7.62s/it, loss=0.0004, acc=1.0000, iter_time=9.08s]Epoch 0:   9%|▉         | 1156/12384 [2:27:29<23:45:19,  7.62s/it, loss=0.0004, acc=1.0000, iter_time=9.08s]Epoch 0:   9%|▉         | 1156/12384 [2:27:37<23:45:19,  7.62s/it, loss=0.0033, acc=0.9963, iter_time=4.77s]Epoch 0:   9%|▉         | 1157/12384 [2:27:37<23:43:56,  7.61s/it, loss=0.0033, acc=0.9963, iter_time=4.77s]Epoch 0:   9%|▉         | 1157/12384 [2:27:44<23:43:56,  7.61s/it, loss=0.0025, acc=0.9946, iter_time=7.41s]Epoch 0:   9%|▉         | 1158/12384 [2:27:44<23:45:03,  7.62s/it, loss=0.0025, acc=0.9946, iter_time=7.41s]Epoch 0:   9%|▉         | 1158/12384 [2:27:52<23:45:03,  7.62s/it, loss=0.0033, acc=0.9901, iter_time=10.68s]Epoch 0:   9%|▉         | 1159/12384 [2:27:52<23:45:07,  7.62s/it, loss=0.0033, acc=0.9901, iter_time=10.68s]Epoch 0:   9%|▉         | 1159/12384 [2:28:00<23:45:07,  7.62s/it, loss=0.0082, acc=0.9832, iter_time=8.00s] Epoch 0:   9%|▉         | 1160/12384 [2:28:00<23:47:15,  7.63s/it, loss=0.0082, acc=0.9832, iter_time=8.00s]Epoch 0:   9%|▉         | 1160/12384 [2:28:07<23:47:15,  7.63s/it, loss=0.0026, acc=0.9970, iter_time=7.27s]Epoch 0:   9%|▉         | 1161/12384 [2:28:07<23:46:49,  7.63s/it, loss=0.0026, acc=0.9970, iter_time=7.27s]Epoch 0:   9%|▉         | 1161/12384 [2:28:15<23:46:49,  7.63s/it, loss=0.0020, acc=0.9977, iter_time=7.62s]Epoch 0:   9%|▉         | 1162/12384 [2:28:15<23:44:41,  7.62s/it, loss=0.0020, acc=0.9977, iter_time=7.62s]Epoch 0:   9%|▉         | 1162/12384 [2:28:22<23:44:41,  7.62s/it, loss=0.0059, acc=0.9853, iter_time=7.61s]Epoch 0:   9%|▉         | 1163/12384 [2:28:22<23:46:09,  7.63s/it, loss=0.0059, acc=0.9853, iter_time=7.61s]Epoch 0:   9%|▉         | 1163/12384 [2:28:30<23:46:09,  7.63s/it, loss=0.0030, acc=0.9947, iter_time=7.63s]Epoch 0:   9%|▉         | 1164/12384 [2:28:30<23:47:41,  7.63s/it, loss=0.0030, acc=0.9947, iter_time=7.63s]Epoch 0:   9%|▉         | 1164/12384 [2:28:38<23:47:41,  7.63s/it, loss=0.0025, acc=0.9942, iter_time=7.94s]Epoch 0:   9%|▉         | 1165/12384 [2:28:38<24:07:09,  7.74s/it, loss=0.0025, acc=0.9942, iter_time=7.94s]Epoch 0:   9%|▉         | 1165/12384 [2:28:46<24:07:09,  7.74s/it, loss=0.0023, acc=0.9957, iter_time=5.90s]Epoch 0:   9%|▉         | 1166/12384 [2:28:46<23:59:38,  7.70s/it, loss=0.0023, acc=0.9957, iter_time=5.90s]Epoch 0:   9%|▉         | 1166/12384 [2:28:53<23:59:38,  7.70s/it, loss=0.0065, acc=0.9885, iter_time=9.39s]Epoch 0:   9%|▉         | 1167/12384 [2:28:53<23:56:52,  7.69s/it, loss=0.0065, acc=0.9885, iter_time=9.39s]Epoch 0:   9%|▉         | 1167/12384 [2:29:01<23:56:52,  7.69s/it, loss=0.0015, acc=0.9978, iter_time=8.06s]Epoch 0:   9%|▉         | 1168/12384 [2:29:01<23:53:34,  7.67s/it, loss=0.0015, acc=0.9978, iter_time=8.06s]Epoch 0:   9%|▉         | 1168/12384 [2:29:09<23:53:34,  7.67s/it, loss=0.0033, acc=0.9889, iter_time=7.24s]Epoch 0:   9%|▉         | 1169/12384 [2:29:09<23:50:38,  7.65s/it, loss=0.0033, acc=0.9889, iter_time=7.24s]Epoch 0:   9%|▉         | 1169/12384 [2:29:16<23:50:38,  7.65s/it, loss=0.0009, acc=0.9990, iter_time=5.83s]Epoch 0:   9%|▉         | 1170/12384 [2:29:16<23:50:24,  7.65s/it, loss=0.0009, acc=0.9990, iter_time=5.83s]Epoch 0:   9%|▉         | 1170/12384 [2:29:24<23:50:24,  7.65s/it, loss=0.0049, acc=0.9915, iter_time=9.44s]Epoch 0:   9%|▉         | 1171/12384 [2:29:24<23:49:31,  7.65s/it, loss=0.0049, acc=0.9915, iter_time=9.44s]Epoch 0:   9%|▉         | 1171/12384 [2:29:32<23:49:31,  7.65s/it, loss=0.0081, acc=0.9851, iter_time=7.63s]Epoch 0:   9%|▉         | 1172/12384 [2:29:32<23:47:50,  7.64s/it, loss=0.0081, acc=0.9851, iter_time=7.63s]Epoch 0:   9%|▉         | 1172/12384 [2:29:39<23:47:50,  7.64s/it, loss=0.0085, acc=0.9846, iter_time=7.65s]Epoch 0:   9%|▉         | 1173/12384 [2:29:39<23:47:34,  7.64s/it, loss=0.0085, acc=0.9846, iter_time=7.65s]Epoch 0:   9%|▉         | 1173/12384 [2:29:47<23:47:34,  7.64s/it, loss=0.0014, acc=0.9965, iter_time=7.62s]Epoch 0:   9%|▉         | 1174/12384 [2:29:47<23:49:29,  7.65s/it, loss=0.0014, acc=0.9965, iter_time=7.62s]Epoch 0:   9%|▉         | 1174/12384 [2:29:54<23:49:29,  7.65s/it, loss=0.0007, acc=0.9991, iter_time=5.10s]Epoch 0:   9%|▉         | 1175/12384 [2:29:54<23:46:52,  7.64s/it, loss=0.0007, acc=0.9991, iter_time=5.10s]Epoch 0:   9%|▉         | 1175/12384 [2:30:02<23:46:52,  7.64s/it, loss=0.0024, acc=0.9959, iter_time=10.56s]Epoch 0:   9%|▉         | 1176/12384 [2:30:02<23:46:08,  7.63s/it, loss=0.0024, acc=0.9959, iter_time=10.56s]Epoch 0:   9%|▉         | 1176/12384 [2:30:10<23:46:08,  7.63s/it, loss=0.0026, acc=0.9958, iter_time=7.25s] Epoch 0:  10%|▉         | 1177/12384 [2:30:10<23:44:29,  7.63s/it, loss=0.0026, acc=0.9958, iter_time=7.25s]Epoch 0:  10%|▉         | 1177/12384 [2:30:17<23:44:29,  7.63s/it, loss=0.0034, acc=0.9929, iter_time=7.60s]Epoch 0:  10%|▉         | 1178/12384 [2:30:17<23:42:15,  7.62s/it, loss=0.0034, acc=0.9929, iter_time=7.60s]Epoch 0:  10%|▉         | 1178/12384 [2:30:25<23:42:15,  7.62s/it, loss=0.0028, acc=0.9944, iter_time=7.70s]Epoch 0:  10%|▉         | 1179/12384 [2:30:25<23:49:07,  7.65s/it, loss=0.0028, acc=0.9944, iter_time=7.70s]Epoch 0:  10%|▉         | 1179/12384 [2:30:33<23:49:07,  7.65s/it, loss=0.0004, acc=1.0000, iter_time=7.64s]Epoch 0:  10%|▉         | 1180/12384 [2:30:33<23:47:11,  7.64s/it, loss=0.0004, acc=1.0000, iter_time=7.64s]Epoch 0:  10%|▉         | 1180/12384 [2:30:40<23:47:11,  7.64s/it, loss=0.0013, acc=0.9968, iter_time=6.42s]Epoch 0:  10%|▉         | 1181/12384 [2:30:40<23:40:29,  7.61s/it, loss=0.0013, acc=0.9968, iter_time=6.42s]Epoch 0:  10%|▉         | 1181/12384 [2:30:48<23:40:29,  7.61s/it, loss=0.0040, acc=0.9933, iter_time=8.73s]Epoch 0:  10%|▉         | 1182/12384 [2:30:48<23:40:13,  7.61s/it, loss=0.0040, acc=0.9933, iter_time=8.73s]Epoch 0:  10%|▉         | 1182/12384 [2:30:55<23:40:13,  7.61s/it, loss=0.0040, acc=0.9918, iter_time=5.55s]Epoch 0:  10%|▉         | 1183/12384 [2:30:55<23:39:36,  7.60s/it, loss=0.0040, acc=0.9918, iter_time=5.55s]Epoch 0:  10%|▉         | 1183/12384 [2:31:03<23:39:36,  7.60s/it, loss=0.0035, acc=0.9963, iter_time=9.61s]Epoch 0:  10%|▉         | 1184/12384 [2:31:03<23:40:11,  7.61s/it, loss=0.0035, acc=0.9963, iter_time=9.61s]Epoch 0:  10%|▉         | 1184/12384 [2:31:11<23:40:11,  7.61s/it, loss=0.0059, acc=0.9922, iter_time=7.65s]Epoch 0:  10%|▉         | 1185/12384 [2:31:11<23:39:13,  7.60s/it, loss=0.0059, acc=0.9922, iter_time=7.65s]Epoch 0:  10%|▉         | 1185/12384 [2:31:18<23:39:13,  7.60s/it, loss=0.0024, acc=0.9944, iter_time=7.61s]Epoch 0:  10%|▉         | 1186/12384 [2:31:18<23:39:40,  7.61s/it, loss=0.0024, acc=0.9944, iter_time=7.61s]Epoch 0:  10%|▉         | 1186/12384 [2:31:26<23:39:40,  7.61s/it, loss=0.0068, acc=0.9873, iter_time=7.71s]Epoch 0:  10%|▉         | 1187/12384 [2:31:26<23:45:23,  7.64s/it, loss=0.0068, acc=0.9873, iter_time=7.71s]Epoch 0:  10%|▉         | 1187/12384 [2:31:34<23:45:23,  7.64s/it, loss=0.0028, acc=0.9921, iter_time=7.61s]Epoch 0:  10%|▉         | 1188/12384 [2:31:34<23:44:16,  7.63s/it, loss=0.0028, acc=0.9921, iter_time=7.61s]Epoch 0:  10%|▉         | 1188/12384 [2:31:41<23:44:16,  7.63s/it, loss=0.0046, acc=0.9948, iter_time=7.62s]Epoch 0:  10%|▉         | 1189/12384 [2:31:41<23:43:30,  7.63s/it, loss=0.0046, acc=0.9948, iter_time=7.62s]Epoch 0:  10%|▉         | 1189/12384 [2:31:49<23:43:30,  7.63s/it, loss=0.0006, acc=0.9994, iter_time=5.28s]Epoch 0:  10%|▉         | 1190/12384 [2:31:49<23:41:11,  7.62s/it, loss=0.0006, acc=0.9994, iter_time=5.28s]Epoch 0:  10%|▉         | 1190/12384 [2:31:56<23:41:11,  7.62s/it, loss=0.0019, acc=0.9951, iter_time=9.93s]Epoch 0:  10%|▉         | 1191/12384 [2:31:56<23:41:35,  7.62s/it, loss=0.0019, acc=0.9951, iter_time=9.93s]Epoch 0:  10%|▉         | 1191/12384 [2:32:04<23:41:35,  7.62s/it, loss=0.0023, acc=0.9951, iter_time=8.10s]Epoch 0:  10%|▉         | 1192/12384 [2:32:04<24:02:45,  7.73s/it, loss=0.0023, acc=0.9951, iter_time=8.10s]Epoch 0:  10%|▉         | 1192/12384 [2:32:12<24:02:45,  7.73s/it, loss=0.0045, acc=0.9965, iter_time=6.10s]Epoch 0:  10%|▉         | 1193/12384 [2:32:12<24:01:59,  7.73s/it, loss=0.0045, acc=0.9965, iter_time=6.10s]Epoch 0:  10%|▉         | 1193/12384 [2:32:20<24:01:59,  7.73s/it, loss=0.0010, acc=0.9997, iter_time=7.64s]Epoch 0:  10%|▉         | 1194/12384 [2:32:20<23:55:44,  7.70s/it, loss=0.0010, acc=0.9997, iter_time=7.64s]Epoch 0:  10%|▉         | 1194/12384 [2:32:27<23:55:44,  7.70s/it, loss=0.0057, acc=0.9928, iter_time=9.12s]Epoch 0:  10%|▉         | 1195/12384 [2:32:27<23:51:03,  7.67s/it, loss=0.0057, acc=0.9928, iter_time=9.12s]Epoch 0:  10%|▉         | 1195/12384 [2:32:35<23:51:03,  7.67s/it, loss=0.0006, acc=0.9986, iter_time=4.76s]Epoch 0:  10%|▉         | 1196/12384 [2:32:35<23:46:32,  7.65s/it, loss=0.0006, acc=0.9986, iter_time=4.76s]Epoch 0:  10%|▉         | 1196/12384 [2:32:43<23:46:32,  7.65s/it, loss=0.0022, acc=0.9961, iter_time=7.92s]Epoch 0:  10%|▉         | 1197/12384 [2:32:43<23:44:11,  7.64s/it, loss=0.0022, acc=0.9961, iter_time=7.92s]Epoch 0:  10%|▉         | 1197/12384 [2:32:50<23:44:11,  7.64s/it, loss=0.0095, acc=0.9842, iter_time=8.41s]Epoch 0:  10%|▉         | 1198/12384 [2:32:50<23:45:00,  7.64s/it, loss=0.0095, acc=0.9842, iter_time=8.41s]Epoch 0:  10%|▉         | 1198/12384 [2:32:58<23:45:00,  7.64s/it, loss=0.0017, acc=0.9975, iter_time=9.39s]Epoch 0:  10%|▉         | 1199/12384 [2:32:58<23:46:09,  7.65s/it, loss=0.0017, acc=0.9975, iter_time=9.39s]Epoch 0:  10%|▉         | 1199/12384 [2:33:05<23:46:09,  7.65s/it, loss=0.0046, acc=0.9872, iter_time=8.06s]Epoch 0:  10%|▉         | 1200/12384 [2:33:05<23:43:34,  7.64s/it, loss=0.0046, acc=0.9872, iter_time=8.06s]Epoch 0:  10%|▉         | 1200/12384 [2:33:13<23:43:34,  7.64s/it, loss=0.0009, acc=0.9962, iter_time=3.01s]Epoch 0:  10%|▉         | 1201/12384 [2:33:13<23:39:06,  7.61s/it, loss=0.0009, acc=0.9962, iter_time=3.01s]Epoch 0:  10%|▉         | 1201/12384 [2:33:21<23:39:06,  7.61s/it, loss=0.0045, acc=0.9904, iter_time=8.16s]Epoch 0:  10%|▉         | 1202/12384 [2:33:21<23:43:19,  7.64s/it, loss=0.0045, acc=0.9904, iter_time=8.16s]Epoch 0:  10%|▉         | 1202/12384 [2:33:28<23:43:19,  7.64s/it, loss=0.0034, acc=0.9887, iter_time=11.27s]Epoch 0:  10%|▉         | 1203/12384 [2:33:28<23:42:20,  7.63s/it, loss=0.0034, acc=0.9887, iter_time=11.27s]Epoch 0:  10%|▉         | 1203/12384 [2:33:36<23:42:20,  7.63s/it, loss=0.0030, acc=0.9949, iter_time=5.35s] Epoch 0:  10%|▉         | 1204/12384 [2:33:36<23:42:14,  7.63s/it, loss=0.0030, acc=0.9949, iter_time=5.35s]Epoch 0:  10%|▉         | 1204/12384 [2:33:44<23:42:14,  7.63s/it, loss=0.0010, acc=0.9977, iter_time=7.07s]Epoch 0:  10%|▉         | 1205/12384 [2:33:44<23:40:59,  7.63s/it, loss=0.0010, acc=0.9977, iter_time=7.07s]Epoch 0:  10%|▉         | 1205/12384 [2:33:51<23:40:59,  7.63s/it, loss=0.0027, acc=0.9942, iter_time=10.46s]Epoch 0:  10%|▉         | 1206/12384 [2:33:51<23:41:16,  7.63s/it, loss=0.0027, acc=0.9942, iter_time=10.46s]Epoch 0:  10%|▉         | 1206/12384 [2:33:59<23:41:16,  7.63s/it, loss=0.0029, acc=0.9945, iter_time=7.65s] Epoch 0:  10%|▉         | 1207/12384 [2:33:59<23:40:33,  7.63s/it, loss=0.0029, acc=0.9945, iter_time=7.65s]Epoch 0:  10%|▉         | 1207/12384 [2:34:06<23:40:33,  7.63s/it, loss=0.0035, acc=0.9897, iter_time=7.99s]Epoch 0:  10%|▉         | 1208/12384 [2:34:06<23:38:34,  7.62s/it, loss=0.0035, acc=0.9897, iter_time=7.99s]Epoch 0:  10%|▉         | 1208/12384 [2:34:14<23:38:34,  7.62s/it, loss=0.0007, acc=0.9981, iter_time=7.23s]Epoch 0:  10%|▉         | 1209/12384 [2:34:14<23:40:27,  7.63s/it, loss=0.0007, acc=0.9981, iter_time=7.23s]Epoch 0:  10%|▉         | 1209/12384 [2:34:22<23:40:27,  7.63s/it, loss=0.0037, acc=0.9939, iter_time=7.63s]Epoch 0:  10%|▉         | 1210/12384 [2:34:22<23:39:15,  7.62s/it, loss=0.0037, acc=0.9939, iter_time=7.63s]Epoch 0:  10%|▉         | 1210/12384 [2:34:29<23:39:15,  7.62s/it, loss=0.0051, acc=0.9901, iter_time=7.63s]Epoch 0:  10%|▉         | 1211/12384 [2:34:29<23:40:00,  7.63s/it, loss=0.0051, acc=0.9901, iter_time=7.63s]Epoch 0:  10%|▉         | 1211/12384 [2:34:37<23:40:00,  7.63s/it, loss=0.0013, acc=0.9969, iter_time=7.64s]Epoch 0:  10%|▉         | 1212/12384 [2:34:37<23:39:50,  7.63s/it, loss=0.0013, acc=0.9969, iter_time=7.64s]Epoch 0:  10%|▉         | 1212/12384 [2:34:45<23:39:50,  7.63s/it, loss=0.0008, acc=0.9986, iter_time=7.63s]Epoch 0:  10%|▉         | 1213/12384 [2:34:45<23:39:41,  7.63s/it, loss=0.0008, acc=0.9986, iter_time=7.63s]Epoch 0:  10%|▉         | 1213/12384 [2:34:52<23:39:41,  7.63s/it, loss=0.0086, acc=0.9859, iter_time=4.00s]Epoch 0:  10%|▉         | 1214/12384 [2:34:52<23:41:25,  7.64s/it, loss=0.0086, acc=0.9859, iter_time=4.00s]Epoch 0:  10%|▉         | 1214/12384 [2:35:00<23:41:25,  7.64s/it, loss=0.0026, acc=0.9962, iter_time=9.18s]Epoch 0:  10%|▉         | 1215/12384 [2:35:00<23:41:19,  7.64s/it, loss=0.0026, acc=0.9962, iter_time=9.18s]Epoch 0:  10%|▉         | 1215/12384 [2:35:08<23:41:19,  7.64s/it, loss=0.0024, acc=0.9972, iter_time=9.87s]Epoch 0:  10%|▉         | 1216/12384 [2:35:08<23:41:43,  7.64s/it, loss=0.0024, acc=0.9972, iter_time=9.87s]Epoch 0:  10%|▉         | 1216/12384 [2:35:15<23:41:43,  7.64s/it, loss=0.0049, acc=0.9911, iter_time=5.14s]Epoch 0:  10%|▉         | 1217/12384 [2:35:15<23:41:31,  7.64s/it, loss=0.0049, acc=0.9911, iter_time=5.14s]Epoch 0:  10%|▉         | 1217/12384 [2:35:23<23:41:31,  7.64s/it, loss=0.0006, acc=1.0000, iter_time=10.03s]Epoch 0:  10%|▉         | 1218/12384 [2:35:23<24:01:35,  7.75s/it, loss=0.0006, acc=1.0000, iter_time=10.03s]Epoch 0:  10%|▉         | 1218/12384 [2:35:31<24:01:35,  7.75s/it, loss=0.0005, acc=0.9992, iter_time=7.95s] Epoch 0:  10%|▉         | 1219/12384 [2:35:31<23:54:06,  7.71s/it, loss=0.0005, acc=0.9992, iter_time=7.95s]Epoch 0:  10%|▉         | 1219/12384 [2:35:39<23:54:06,  7.71s/it, loss=0.0037, acc=0.9884, iter_time=5.52s]Epoch 0:  10%|▉         | 1220/12384 [2:35:39<23:55:08,  7.71s/it, loss=0.0037, acc=0.9884, iter_time=5.52s]Epoch 0:  10%|▉         | 1220/12384 [2:35:46<23:55:08,  7.71s/it, loss=0.0015, acc=0.9915, iter_time=9.83s]Epoch 0:  10%|▉         | 1221/12384 [2:35:46<23:50:17,  7.69s/it, loss=0.0015, acc=0.9915, iter_time=9.83s]Epoch 0:  10%|▉         | 1221/12384 [2:35:54<23:50:17,  7.69s/it, loss=0.0010, acc=0.9999, iter_time=7.63s]Epoch 0:  10%|▉         | 1222/12384 [2:35:54<23:45:44,  7.66s/it, loss=0.0010, acc=0.9999, iter_time=7.63s]Epoch 0:  10%|▉         | 1222/12384 [2:36:01<23:45:44,  7.66s/it, loss=0.0045, acc=0.9887, iter_time=5.62s]Epoch 0:  10%|▉         | 1223/12384 [2:36:01<23:44:23,  7.66s/it, loss=0.0045, acc=0.9887, iter_time=5.62s]Epoch 0:  10%|▉         | 1223/12384 [2:36:09<23:44:23,  7.66s/it, loss=0.0045, acc=0.9916, iter_time=10.01s]Epoch 0:  10%|▉         | 1224/12384 [2:36:09<23:41:03,  7.64s/it, loss=0.0045, acc=0.9916, iter_time=10.01s]Epoch 0:  10%|▉         | 1224/12384 [2:36:17<23:41:03,  7.64s/it, loss=0.0026, acc=0.9983, iter_time=7.25s] Epoch 0:  10%|▉         | 1225/12384 [2:36:17<23:40:04,  7.64s/it, loss=0.0026, acc=0.9983, iter_time=7.25s]Epoch 0:  10%|▉         | 1225/12384 [2:36:24<23:40:04,  7.64s/it, loss=0.0013, acc=0.9985, iter_time=7.63s]Epoch 0:  10%|▉         | 1226/12384 [2:36:24<23:40:03,  7.64s/it, loss=0.0013, acc=0.9985, iter_time=7.63s]Epoch 0:  10%|▉         | 1226/12384 [2:36:32<23:40:03,  7.64s/it, loss=0.0016, acc=0.9919, iter_time=7.61s]Epoch 0:  10%|▉         | 1227/12384 [2:36:32<23:38:07,  7.63s/it, loss=0.0016, acc=0.9919, iter_time=7.61s]Epoch 0:  10%|▉         | 1227/12384 [2:36:40<23:38:07,  7.63s/it, loss=0.0051, acc=0.9953, iter_time=5.78s]Epoch 0:  10%|▉         | 1228/12384 [2:36:40<23:55:41,  7.72s/it, loss=0.0051, acc=0.9953, iter_time=5.78s]Epoch 0:  10%|▉         | 1228/12384 [2:36:48<23:55:41,  7.72s/it, loss=0.0035, acc=0.9960, iter_time=8.42s]Epoch 0:  10%|▉         | 1229/12384 [2:36:48<24:02:12,  7.76s/it, loss=0.0035, acc=0.9960, iter_time=8.42s]Epoch 0:  10%|▉         | 1229/12384 [2:36:55<24:02:12,  7.76s/it, loss=0.0021, acc=0.9960, iter_time=9.18s]Epoch 0:  10%|▉         | 1230/12384 [2:36:55<23:53:45,  7.71s/it, loss=0.0021, acc=0.9960, iter_time=9.18s]Epoch 0:  10%|▉         | 1230/12384 [2:37:03<23:53:45,  7.71s/it, loss=0.0004, acc=1.0000, iter_time=7.67s]Epoch 0:  10%|▉         | 1231/12384 [2:37:03<23:52:43,  7.71s/it, loss=0.0004, acc=1.0000, iter_time=7.67s]Epoch 0:  10%|▉         | 1231/12384 [2:37:11<23:52:43,  7.71s/it, loss=0.0009, acc=0.9971, iter_time=8.07s]Epoch 0:  10%|▉         | 1232/12384 [2:37:11<23:49:13,  7.69s/it, loss=0.0009, acc=0.9971, iter_time=8.07s]Epoch 0:  10%|▉         | 1232/12384 [2:37:18<23:49:13,  7.69s/it, loss=0.0057, acc=0.9894, iter_time=6.55s]Epoch 0:  10%|▉         | 1233/12384 [2:37:18<23:44:49,  7.67s/it, loss=0.0057, acc=0.9894, iter_time=6.55s]Epoch 0:  10%|▉         | 1233/12384 [2:37:26<23:44:49,  7.67s/it, loss=0.0028, acc=0.9957, iter_time=8.29s]Epoch 0:  10%|▉         | 1234/12384 [2:37:26<23:42:56,  7.66s/it, loss=0.0028, acc=0.9957, iter_time=8.29s]Epoch 0:  10%|▉         | 1234/12384 [2:37:33<23:42:56,  7.66s/it, loss=0.0017, acc=0.9926, iter_time=7.63s]Epoch 0:  10%|▉         | 1235/12384 [2:37:33<23:42:50,  7.66s/it, loss=0.0017, acc=0.9926, iter_time=7.63s]Epoch 0:  10%|▉         | 1235/12384 [2:37:41<23:42:50,  7.66s/it, loss=0.0025, acc=0.9932, iter_time=7.67s]Epoch 0:  10%|▉         | 1236/12384 [2:37:41<23:41:19,  7.65s/it, loss=0.0025, acc=0.9932, iter_time=7.67s]Epoch 0:  10%|▉         | 1236/12384 [2:37:49<23:41:19,  7.65s/it, loss=0.0009, acc=0.9973, iter_time=7.62s]Epoch 0:  10%|▉         | 1237/12384 [2:37:49<23:41:07,  7.65s/it, loss=0.0009, acc=0.9973, iter_time=7.62s]Epoch 0:  10%|▉         | 1237/12384 [2:37:56<23:41:07,  7.65s/it, loss=0.0013, acc=0.9989, iter_time=7.65s]Epoch 0:  10%|▉         | 1238/12384 [2:37:56<23:39:52,  7.64s/it, loss=0.0013, acc=0.9989, iter_time=7.65s]Epoch 0:  10%|▉         | 1238/12384 [2:38:04<23:39:52,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=4.30s]Epoch 0:  10%|█         | 1239/12384 [2:38:04<23:38:52,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=4.30s]Epoch 0:  10%|█         | 1239/12384 [2:38:12<23:38:52,  7.64s/it, loss=0.0027, acc=0.9915, iter_time=10.89s]Epoch 0:  10%|█         | 1240/12384 [2:38:12<23:37:56,  7.63s/it, loss=0.0027, acc=0.9915, iter_time=10.89s]Epoch 0:  10%|█         | 1240/12384 [2:38:19<23:37:56,  7.63s/it, loss=0.0016, acc=0.9968, iter_time=5.41s] Epoch 0:  10%|█         | 1241/12384 [2:38:19<23:37:42,  7.63s/it, loss=0.0016, acc=0.9968, iter_time=5.41s]Epoch 0:  10%|█         | 1241/12384 [2:38:27<23:37:42,  7.63s/it, loss=0.0018, acc=0.9977, iter_time=9.89s]Epoch 0:  10%|█         | 1242/12384 [2:38:27<23:37:44,  7.63s/it, loss=0.0018, acc=0.9977, iter_time=9.89s]Epoch 0:  10%|█         | 1242/12384 [2:38:35<23:37:44,  7.63s/it, loss=0.0014, acc=0.9955, iter_time=7.65s]Epoch 0:  10%|█         | 1243/12384 [2:38:35<23:39:41,  7.65s/it, loss=0.0014, acc=0.9955, iter_time=7.65s]Epoch 0:  10%|█         | 1243/12384 [2:38:42<23:39:41,  7.65s/it, loss=0.0013, acc=0.9973, iter_time=7.96s]Epoch 0:  10%|█         | 1244/12384 [2:38:42<23:53:40,  7.72s/it, loss=0.0013, acc=0.9973, iter_time=7.96s]Epoch 0:  10%|█         | 1244/12384 [2:38:50<23:53:40,  7.72s/it, loss=0.0019, acc=0.9973, iter_time=7.35s]Epoch 0:  10%|█         | 1245/12384 [2:38:50<24:05:31,  7.79s/it, loss=0.0019, acc=0.9973, iter_time=7.35s]Epoch 0:  10%|█         | 1245/12384 [2:38:58<24:05:31,  7.79s/it, loss=0.0016, acc=0.9977, iter_time=8.20s]Epoch 0:  10%|█         | 1246/12384 [2:38:58<23:57:00,  7.74s/it, loss=0.0016, acc=0.9977, iter_time=8.20s]Epoch 0:  10%|█         | 1246/12384 [2:39:06<23:57:00,  7.74s/it, loss=0.0050, acc=0.9893, iter_time=4.79s]Epoch 0:  10%|█         | 1247/12384 [2:39:06<23:51:46,  7.71s/it, loss=0.0050, acc=0.9893, iter_time=4.79s]Epoch 0:  10%|█         | 1247/12384 [2:39:13<23:51:46,  7.71s/it, loss=0.0004, acc=0.9991, iter_time=10.44s]Epoch 0:  10%|█         | 1248/12384 [2:39:13<23:46:12,  7.68s/it, loss=0.0004, acc=0.9991, iter_time=10.44s]Epoch 0:  10%|█         | 1248/12384 [2:39:21<23:46:12,  7.68s/it, loss=0.0011, acc=0.9985, iter_time=7.66s] Epoch 0:  10%|█         | 1249/12384 [2:39:21<23:42:36,  7.67s/it, loss=0.0011, acc=0.9985, iter_time=7.66s]Epoch 0:  10%|█         | 1249/12384 [2:39:29<23:42:36,  7.67s/it, loss=0.0050, acc=0.9874, iter_time=8.04s]Epoch 0:  10%|█         | 1250/12384 [2:39:29<23:40:32,  7.66s/it, loss=0.0050, acc=0.9874, iter_time=8.04s]Epoch 0:  10%|█         | 1250/12384 [2:39:36<23:40:32,  7.66s/it, loss=0.0013, acc=0.9988, iter_time=7.19s]Epoch 0:  10%|█         | 1251/12384 [2:39:36<23:36:45,  7.64s/it, loss=0.0013, acc=0.9988, iter_time=7.19s]Epoch 0:  10%|█         | 1251/12384 [2:39:44<23:36:45,  7.64s/it, loss=0.0021, acc=0.9985, iter_time=7.62s]Epoch 0:  10%|█         | 1252/12384 [2:39:44<23:38:53,  7.65s/it, loss=0.0021, acc=0.9985, iter_time=7.62s]Epoch 0:  10%|█         | 1252/12384 [2:39:52<23:38:53,  7.65s/it, loss=0.0027, acc=0.9948, iter_time=7.14s]Epoch 0:  10%|█         | 1253/12384 [2:39:52<23:40:12,  7.66s/it, loss=0.0027, acc=0.9948, iter_time=7.14s]Epoch 0:  10%|█         | 1253/12384 [2:39:59<23:40:12,  7.66s/it, loss=0.0023, acc=0.9969, iter_time=8.21s]Epoch 0:  10%|█         | 1254/12384 [2:39:59<23:37:50,  7.64s/it, loss=0.0023, acc=0.9969, iter_time=8.21s]Epoch 0:  10%|█         | 1254/12384 [2:40:07<23:37:50,  7.64s/it, loss=0.0040, acc=0.9939, iter_time=7.62s]Epoch 0:  10%|█         | 1255/12384 [2:40:07<23:37:31,  7.64s/it, loss=0.0040, acc=0.9939, iter_time=7.62s]Epoch 0:  10%|█         | 1255/12384 [2:40:14<23:37:31,  7.64s/it, loss=0.0046, acc=0.9950, iter_time=7.79s]Epoch 0:  10%|█         | 1256/12384 [2:40:14<23:37:21,  7.64s/it, loss=0.0046, acc=0.9950, iter_time=7.79s]Epoch 0:  10%|█         | 1256/12384 [2:40:22<23:37:21,  7.64s/it, loss=0.0023, acc=0.9920, iter_time=7.49s]Epoch 0:  10%|█         | 1257/12384 [2:40:22<23:37:52,  7.65s/it, loss=0.0023, acc=0.9920, iter_time=7.49s]Epoch 0:  10%|█         | 1257/12384 [2:40:31<23:37:52,  7.65s/it, loss=0.0018, acc=0.9976, iter_time=7.25s]Epoch 0:  10%|█         | 1258/12384 [2:40:31<24:32:45,  7.94s/it, loss=0.0018, acc=0.9976, iter_time=7.25s]Epoch 0:  10%|█         | 1258/12384 [2:40:39<24:32:45,  7.94s/it, loss=0.0068, acc=0.9937, iter_time=9.48s]Epoch 0:  10%|█         | 1259/12384 [2:40:39<24:39:00,  7.98s/it, loss=0.0068, acc=0.9937, iter_time=9.48s]Epoch 0:  10%|█         | 1259/12384 [2:40:46<24:39:00,  7.98s/it, loss=0.0009, acc=0.9995, iter_time=6.99s]Epoch 0:  10%|█         | 1260/12384 [2:40:46<24:20:12,  7.88s/it, loss=0.0009, acc=0.9995, iter_time=6.99s]Epoch 0:  10%|█         | 1260/12384 [2:40:54<24:20:12,  7.88s/it, loss=0.0020, acc=0.9966, iter_time=8.24s]Epoch 0:  10%|█         | 1261/12384 [2:40:54<24:03:57,  7.79s/it, loss=0.0020, acc=0.9966, iter_time=8.24s]Epoch 0:  10%|█         | 1261/12384 [2:41:02<24:03:57,  7.79s/it, loss=0.0032, acc=0.9925, iter_time=7.60s]Epoch 0:  10%|█         | 1262/12384 [2:41:02<23:56:23,  7.75s/it, loss=0.0032, acc=0.9925, iter_time=7.60s]Epoch 0:  10%|█         | 1262/12384 [2:41:09<23:56:23,  7.75s/it, loss=0.0014, acc=0.9984, iter_time=7.66s]Epoch 0:  10%|█         | 1263/12384 [2:41:09<23:50:14,  7.72s/it, loss=0.0014, acc=0.9984, iter_time=7.66s]Epoch 0:  10%|█         | 1263/12384 [2:41:17<23:50:14,  7.72s/it, loss=0.0015, acc=0.9954, iter_time=7.73s]Epoch 0:  10%|█         | 1264/12384 [2:41:17<23:45:33,  7.69s/it, loss=0.0015, acc=0.9954, iter_time=7.73s]Epoch 0:  10%|█         | 1264/12384 [2:41:25<23:45:33,  7.69s/it, loss=0.0032, acc=0.9940, iter_time=7.54s]Epoch 0:  10%|█         | 1265/12384 [2:41:25<23:41:28,  7.67s/it, loss=0.0032, acc=0.9940, iter_time=7.54s]Epoch 0:  10%|█         | 1265/12384 [2:41:33<23:41:28,  7.67s/it, loss=0.0019, acc=0.9945, iter_time=8.78s]Epoch 0:  10%|█         | 1266/12384 [2:41:33<24:46:07,  8.02s/it, loss=0.0019, acc=0.9945, iter_time=8.78s]Epoch 0:  10%|█         | 1266/12384 [2:41:41<24:46:07,  8.02s/it, loss=0.0023, acc=0.9930, iter_time=5.06s]Epoch 0:  10%|█         | 1267/12384 [2:41:41<24:24:09,  7.90s/it, loss=0.0023, acc=0.9930, iter_time=5.06s]Epoch 0:  10%|█         | 1267/12384 [2:41:49<24:24:09,  7.90s/it, loss=0.0022, acc=0.9947, iter_time=10.23s]Epoch 0:  10%|█         | 1268/12384 [2:41:49<24:08:42,  7.82s/it, loss=0.0022, acc=0.9947, iter_time=10.23s]Epoch 0:  10%|█         | 1268/12384 [2:41:56<24:08:42,  7.82s/it, loss=0.0020, acc=0.9968, iter_time=7.62s] Epoch 0:  10%|█         | 1269/12384 [2:41:56<23:57:01,  7.76s/it, loss=0.0020, acc=0.9968, iter_time=7.62s]Epoch 0:  10%|█         | 1269/12384 [2:42:04<23:57:01,  7.76s/it, loss=0.0016, acc=0.9966, iter_time=7.63s]Epoch 0:  10%|█         | 1270/12384 [2:42:04<23:48:42,  7.71s/it, loss=0.0016, acc=0.9966, iter_time=7.63s]Epoch 0:  10%|█         | 1270/12384 [2:42:12<23:48:42,  7.71s/it, loss=0.0022, acc=0.9952, iter_time=8.00s]Epoch 0:  10%|█         | 1271/12384 [2:42:12<24:04:42,  7.80s/it, loss=0.0022, acc=0.9952, iter_time=8.00s]Epoch 0:  10%|█         | 1271/12384 [2:42:19<24:04:42,  7.80s/it, loss=0.0109, acc=0.9800, iter_time=7.98s]Epoch 0:  10%|█         | 1272/12384 [2:42:19<23:55:40,  7.75s/it, loss=0.0109, acc=0.9800, iter_time=7.98s]Epoch 0:  10%|█         | 1272/12384 [2:42:27<23:55:40,  7.75s/it, loss=0.0036, acc=0.9902, iter_time=7.27s]Epoch 0:  10%|█         | 1273/12384 [2:42:27<23:50:17,  7.72s/it, loss=0.0036, acc=0.9902, iter_time=7.27s]Epoch 0:  10%|█         | 1273/12384 [2:42:35<23:50:17,  7.72s/it, loss=0.0007, acc=0.9990, iter_time=7.67s]Epoch 0:  10%|█         | 1274/12384 [2:42:35<23:44:53,  7.70s/it, loss=0.0007, acc=0.9990, iter_time=7.67s]Epoch 0:  10%|█         | 1274/12384 [2:42:42<23:44:53,  7.70s/it, loss=0.0225, acc=0.9631, iter_time=7.61s]Epoch 0:  10%|█         | 1275/12384 [2:42:42<23:41:11,  7.68s/it, loss=0.0225, acc=0.9631, iter_time=7.61s]Epoch 0:  10%|█         | 1275/12384 [2:42:50<23:41:11,  7.68s/it, loss=0.0045, acc=0.9963, iter_time=7.64s]Epoch 0:  10%|█         | 1276/12384 [2:42:50<23:40:05,  7.67s/it, loss=0.0045, acc=0.9963, iter_time=7.64s]Epoch 0:  10%|█         | 1276/12384 [2:42:58<23:40:05,  7.67s/it, loss=0.0020, acc=0.9943, iter_time=7.67s]Epoch 0:  10%|█         | 1277/12384 [2:42:58<23:40:02,  7.67s/it, loss=0.0020, acc=0.9943, iter_time=7.67s]Epoch 0:  10%|█         | 1277/12384 [2:43:05<23:40:02,  7.67s/it, loss=0.0007, acc=0.9991, iter_time=5.66s]Epoch 0:  10%|█         | 1278/12384 [2:43:05<23:34:18,  7.64s/it, loss=0.0007, acc=0.9991, iter_time=5.66s]Epoch 0:  10%|█         | 1278/12384 [2:43:13<23:34:18,  7.64s/it, loss=0.0024, acc=0.9970, iter_time=9.56s]Epoch 0:  10%|█         | 1279/12384 [2:43:13<23:33:08,  7.64s/it, loss=0.0024, acc=0.9970, iter_time=9.56s]Epoch 0:  10%|█         | 1279/12384 [2:43:21<23:33:08,  7.64s/it, loss=0.0004, acc=1.0000, iter_time=7.58s]Epoch 0:  10%|█         | 1280/12384 [2:43:21<23:32:11,  7.63s/it, loss=0.0004, acc=1.0000, iter_time=7.58s]Epoch 0:  10%|█         | 1280/12384 [2:43:28<23:32:11,  7.63s/it, loss=0.0018, acc=0.9980, iter_time=6.42s]Epoch 0:  10%|█         | 1281/12384 [2:43:28<23:33:36,  7.64s/it, loss=0.0018, acc=0.9980, iter_time=6.42s]Epoch 0:  10%|█         | 1281/12384 [2:43:36<23:33:36,  7.64s/it, loss=0.0370, acc=0.9481, iter_time=8.92s]Epoch 0:  10%|█         | 1282/12384 [2:43:36<23:32:31,  7.63s/it, loss=0.0370, acc=0.9481, iter_time=8.92s]Epoch 0:  10%|█         | 1282/12384 [2:43:43<23:32:31,  7.63s/it, loss=0.0005, acc=0.9993, iter_time=5.51s]Epoch 0:  10%|█         | 1283/12384 [2:43:43<23:33:03,  7.64s/it, loss=0.0005, acc=0.9993, iter_time=5.51s]Epoch 0:  10%|█         | 1283/12384 [2:43:51<23:33:03,  7.64s/it, loss=0.0015, acc=0.9951, iter_time=9.75s]Epoch 0:  10%|█         | 1284/12384 [2:43:51<23:33:22,  7.64s/it, loss=0.0015, acc=0.9951, iter_time=9.75s]Epoch 0:  10%|█         | 1284/12384 [2:43:59<23:33:22,  7.64s/it, loss=0.0038, acc=0.9940, iter_time=4.32s]Epoch 0:  10%|█         | 1285/12384 [2:43:59<23:34:37,  7.65s/it, loss=0.0038, acc=0.9940, iter_time=4.32s]Epoch 0:  10%|█         | 1285/12384 [2:44:06<23:34:37,  7.65s/it, loss=0.0010, acc=1.0000, iter_time=10.96s]Epoch 0:  10%|█         | 1286/12384 [2:44:06<23:33:08,  7.64s/it, loss=0.0010, acc=1.0000, iter_time=10.96s]Epoch 0:  10%|█         | 1286/12384 [2:44:14<23:33:08,  7.64s/it, loss=0.0007, acc=0.9979, iter_time=7.33s] Epoch 0:  10%|█         | 1287/12384 [2:44:14<23:33:29,  7.64s/it, loss=0.0007, acc=0.9979, iter_time=7.33s]Epoch 0:  10%|█         | 1287/12384 [2:44:22<23:33:29,  7.64s/it, loss=0.0015, acc=0.9954, iter_time=7.93s]Epoch 0:  10%|█         | 1288/12384 [2:44:22<23:33:00,  7.64s/it, loss=0.0015, acc=0.9954, iter_time=7.93s]Epoch 0:  10%|█         | 1288/12384 [2:44:29<23:33:00,  7.64s/it, loss=0.0015, acc=0.9969, iter_time=7.67s]Epoch 0:  10%|█         | 1289/12384 [2:44:29<23:31:30,  7.63s/it, loss=0.0015, acc=0.9969, iter_time=7.67s]Epoch 0:  10%|█         | 1289/12384 [2:44:37<23:31:30,  7.63s/it, loss=0.0031, acc=0.9954, iter_time=7.61s]Epoch 0:  10%|█         | 1290/12384 [2:44:37<23:29:38,  7.62s/it, loss=0.0031, acc=0.9954, iter_time=7.61s]Epoch 0:  10%|█         | 1290/12384 [2:44:45<23:29:38,  7.62s/it, loss=0.0005, acc=0.9983, iter_time=5.26s]Epoch 0:  10%|█         | 1291/12384 [2:44:45<23:30:09,  7.63s/it, loss=0.0005, acc=0.9983, iter_time=5.26s]Epoch 0:  10%|█         | 1291/12384 [2:44:52<23:30:09,  7.63s/it, loss=0.0014, acc=0.9966, iter_time=9.97s]Epoch 0:  10%|█         | 1292/12384 [2:44:52<23:28:58,  7.62s/it, loss=0.0014, acc=0.9966, iter_time=9.97s]Epoch 0:  10%|█         | 1292/12384 [2:45:00<23:28:58,  7.62s/it, loss=0.0007, acc=0.9974, iter_time=7.61s]Epoch 0:  10%|█         | 1293/12384 [2:45:00<23:27:26,  7.61s/it, loss=0.0007, acc=0.9974, iter_time=7.61s]Epoch 0:  10%|█         | 1293/12384 [2:45:07<23:27:26,  7.61s/it, loss=0.0015, acc=0.9986, iter_time=6.40s]Epoch 0:  10%|█         | 1294/12384 [2:45:07<23:28:17,  7.62s/it, loss=0.0015, acc=0.9986, iter_time=6.40s]Epoch 0:  10%|█         | 1294/12384 [2:45:15<23:28:17,  7.62s/it, loss=0.0008, acc=0.9999, iter_time=8.85s]Epoch 0:  10%|█         | 1295/12384 [2:45:15<23:27:38,  7.62s/it, loss=0.0008, acc=0.9999, iter_time=8.85s]Epoch 0:  10%|█         | 1295/12384 [2:45:23<23:27:38,  7.62s/it, loss=0.0011, acc=0.9996, iter_time=7.56s]Epoch 0:  10%|█         | 1296/12384 [2:45:23<23:27:46,  7.62s/it, loss=0.0011, acc=0.9996, iter_time=7.56s]Epoch 0:  10%|█         | 1296/12384 [2:45:31<23:27:46,  7.62s/it, loss=0.0014, acc=0.9974, iter_time=7.67s]Epoch 0:  10%|█         | 1297/12384 [2:45:31<23:44:33,  7.71s/it, loss=0.0014, acc=0.9974, iter_time=7.67s]Epoch 0:  10%|█         | 1297/12384 [2:45:38<23:44:33,  7.71s/it, loss=0.0012, acc=0.9978, iter_time=7.92s]Epoch 0:  10%|█         | 1298/12384 [2:45:38<23:41:19,  7.69s/it, loss=0.0012, acc=0.9978, iter_time=7.92s]Epoch 0:  10%|█         | 1298/12384 [2:45:46<23:41:19,  7.69s/it, loss=0.0009, acc=0.9982, iter_time=7.63s]Epoch 0:  10%|█         | 1299/12384 [2:45:46<23:35:49,  7.66s/it, loss=0.0009, acc=0.9982, iter_time=7.63s]Epoch 0:  10%|█         | 1299/12384 [2:45:53<23:35:49,  7.66s/it, loss=0.0009, acc=0.9992, iter_time=8.02s]Epoch 0:  10%|█         | 1300/12384 [2:45:53<23:33:25,  7.65s/it, loss=0.0009, acc=0.9992, iter_time=8.02s]Epoch 0:  10%|█         | 1300/12384 [2:46:01<23:33:25,  7.65s/it, loss=0.0020, acc=0.9980, iter_time=5.12s]Epoch 0:  11%|█         | 1301/12384 [2:46:01<23:34:20,  7.66s/it, loss=0.0020, acc=0.9980, iter_time=5.12s]Epoch 0:  11%|█         | 1301/12384 [2:46:09<23:34:20,  7.66s/it, loss=0.0051, acc=0.9890, iter_time=9.75s]Epoch 0:  11%|█         | 1302/12384 [2:46:09<23:30:35,  7.64s/it, loss=0.0051, acc=0.9890, iter_time=9.75s]Epoch 0:  11%|█         | 1302/12384 [2:46:16<23:30:35,  7.64s/it, loss=0.0028, acc=0.9950, iter_time=7.59s]Epoch 0:  11%|█         | 1303/12384 [2:46:16<23:28:46,  7.63s/it, loss=0.0028, acc=0.9950, iter_time=7.59s]Epoch 0:  11%|█         | 1303/12384 [2:46:24<23:28:46,  7.63s/it, loss=0.0018, acc=0.9936, iter_time=7.98s]Epoch 0:  11%|█         | 1304/12384 [2:46:24<23:27:47,  7.62s/it, loss=0.0018, acc=0.9936, iter_time=7.98s]Epoch 0:  11%|█         | 1304/12384 [2:46:32<23:27:47,  7.62s/it, loss=0.0009, acc=0.9979, iter_time=7.25s]Epoch 0:  11%|█         | 1305/12384 [2:46:32<23:28:32,  7.63s/it, loss=0.0009, acc=0.9979, iter_time=7.25s]Epoch 0:  11%|█         | 1305/12384 [2:46:39<23:28:32,  7.63s/it, loss=0.0008, acc=1.0000, iter_time=2.76s]Epoch 0:  11%|█         | 1306/12384 [2:46:39<23:26:14,  7.62s/it, loss=0.0008, acc=1.0000, iter_time=2.76s]Epoch 0:  11%|█         | 1306/12384 [2:46:47<23:26:14,  7.62s/it, loss=0.0011, acc=0.9978, iter_time=12.45s]Epoch 0:  11%|█         | 1307/12384 [2:46:47<23:27:06,  7.62s/it, loss=0.0011, acc=0.9978, iter_time=12.45s]Epoch 0:  11%|█         | 1307/12384 [2:46:54<23:27:06,  7.62s/it, loss=0.0003, acc=1.0000, iter_time=7.64s] Epoch 0:  11%|█         | 1308/12384 [2:46:54<23:27:42,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=7.64s]Epoch 0:  11%|█         | 1308/12384 [2:47:02<23:27:42,  7.63s/it, loss=0.0026, acc=0.9920, iter_time=7.64s]Epoch 0:  11%|█         | 1309/12384 [2:47:02<23:31:59,  7.65s/it, loss=0.0026, acc=0.9920, iter_time=7.64s]Epoch 0:  11%|█         | 1309/12384 [2:47:10<23:31:59,  7.65s/it, loss=0.0018, acc=0.9961, iter_time=7.69s]Epoch 0:  11%|█         | 1310/12384 [2:47:10<23:29:53,  7.64s/it, loss=0.0018, acc=0.9961, iter_time=7.69s]Epoch 0:  11%|█         | 1310/12384 [2:47:17<23:29:53,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=7.63s]Epoch 0:  11%|█         | 1311/12384 [2:47:17<23:27:24,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=7.63s]Epoch 0:  11%|█         | 1311/12384 [2:47:25<23:27:24,  7.63s/it, loss=0.0026, acc=0.9940, iter_time=7.61s]Epoch 0:  11%|█         | 1312/12384 [2:47:25<23:30:48,  7.65s/it, loss=0.0026, acc=0.9940, iter_time=7.61s]Epoch 0:  11%|█         | 1312/12384 [2:47:33<23:30:48,  7.65s/it, loss=0.0020, acc=0.9969, iter_time=7.67s]Epoch 0:  11%|█         | 1313/12384 [2:47:33<23:28:25,  7.63s/it, loss=0.0020, acc=0.9969, iter_time=7.67s]Epoch 0:  11%|█         | 1313/12384 [2:47:40<23:28:25,  7.63s/it, loss=0.0014, acc=0.9957, iter_time=7.61s]Epoch 0:  11%|█         | 1314/12384 [2:47:40<23:28:52,  7.64s/it, loss=0.0014, acc=0.9957, iter_time=7.61s]Epoch 0:  11%|█         | 1314/12384 [2:47:48<23:28:52,  7.64s/it, loss=0.0013, acc=0.9971, iter_time=7.64s]Epoch 0:  11%|█         | 1315/12384 [2:47:48<23:28:22,  7.63s/it, loss=0.0013, acc=0.9971, iter_time=7.64s]Epoch 0:  11%|█         | 1315/12384 [2:47:56<23:28:22,  7.63s/it, loss=0.0030, acc=0.9924, iter_time=7.64s]Epoch 0:  11%|█         | 1316/12384 [2:47:56<23:28:28,  7.64s/it, loss=0.0030, acc=0.9924, iter_time=7.64s]Epoch 0:  11%|█         | 1316/12384 [2:48:03<23:28:28,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=6.68s]Epoch 0:  11%|█         | 1317/12384 [2:48:03<23:25:45,  7.62s/it, loss=0.0003, acc=1.0000, iter_time=6.68s]Epoch 0:  11%|█         | 1317/12384 [2:48:11<23:25:45,  7.62s/it, loss=0.0025, acc=0.9951, iter_time=8.53s]Epoch 0:  11%|█         | 1318/12384 [2:48:11<23:26:19,  7.63s/it, loss=0.0025, acc=0.9951, iter_time=8.53s]Epoch 0:  11%|█         | 1318/12384 [2:48:18<23:26:19,  7.63s/it, loss=0.0006, acc=0.9979, iter_time=6.12s]Epoch 0:  11%|█         | 1319/12384 [2:48:18<23:25:14,  7.62s/it, loss=0.0006, acc=0.9979, iter_time=6.12s]Epoch 0:  11%|█         | 1319/12384 [2:48:26<23:25:14,  7.62s/it, loss=0.0042, acc=0.9955, iter_time=9.51s]Epoch 0:  11%|█         | 1320/12384 [2:48:26<23:29:52,  7.65s/it, loss=0.0042, acc=0.9955, iter_time=9.51s]Epoch 0:  11%|█         | 1320/12384 [2:48:34<23:29:52,  7.65s/it, loss=0.0033, acc=0.9970, iter_time=3.02s]Epoch 0:  11%|█         | 1321/12384 [2:48:34<23:27:46,  7.64s/it, loss=0.0033, acc=0.9970, iter_time=3.02s]Epoch 0:  11%|█         | 1321/12384 [2:48:41<23:27:46,  7.64s/it, loss=0.0052, acc=0.9919, iter_time=8.65s]Epoch 0:  11%|█         | 1322/12384 [2:48:41<23:30:44,  7.65s/it, loss=0.0052, acc=0.9919, iter_time=8.65s]Epoch 0:  11%|█         | 1322/12384 [2:48:49<23:30:44,  7.65s/it, loss=0.0019, acc=0.9965, iter_time=10.98s]Epoch 0:  11%|█         | 1323/12384 [2:48:49<23:50:43,  7.76s/it, loss=0.0019, acc=0.9965, iter_time=10.98s]Epoch 0:  11%|█         | 1323/12384 [2:48:57<23:50:43,  7.76s/it, loss=0.0040, acc=0.9948, iter_time=7.96s] Epoch 0:  11%|█         | 1324/12384 [2:48:57<23:40:56,  7.71s/it, loss=0.0040, acc=0.9948, iter_time=7.96s]Epoch 0:  11%|█         | 1324/12384 [2:49:05<23:40:56,  7.71s/it, loss=0.0020, acc=0.9962, iter_time=7.07s]Epoch 0:  11%|█         | 1325/12384 [2:49:05<23:35:45,  7.68s/it, loss=0.0020, acc=0.9962, iter_time=7.07s]Epoch 0:  11%|█         | 1325/12384 [2:49:12<23:35:45,  7.68s/it, loss=0.0021, acc=0.9964, iter_time=8.15s]Epoch 0:  11%|█         | 1326/12384 [2:49:12<23:35:09,  7.68s/it, loss=0.0021, acc=0.9964, iter_time=8.15s]Epoch 0:  11%|█         | 1326/12384 [2:49:20<23:35:09,  7.68s/it, loss=0.0052, acc=0.9894, iter_time=7.69s]Epoch 0:  11%|█         | 1327/12384 [2:49:20<23:33:00,  7.67s/it, loss=0.0052, acc=0.9894, iter_time=7.69s]Epoch 0:  11%|█         | 1327/12384 [2:49:27<23:33:00,  7.67s/it, loss=0.0020, acc=0.9931, iter_time=8.02s]Epoch 0:  11%|█         | 1328/12384 [2:49:27<23:29:15,  7.65s/it, loss=0.0020, acc=0.9931, iter_time=8.02s]Epoch 0:  11%|█         | 1328/12384 [2:49:35<23:29:15,  7.65s/it, loss=0.0017, acc=0.9981, iter_time=7.22s]Epoch 0:  11%|█         | 1329/12384 [2:49:35<23:27:27,  7.64s/it, loss=0.0017, acc=0.9981, iter_time=7.22s]Epoch 0:  11%|█         | 1329/12384 [2:49:43<23:27:27,  7.64s/it, loss=0.0023, acc=0.9969, iter_time=6.39s]Epoch 0:  11%|█         | 1330/12384 [2:49:43<23:25:25,  7.63s/it, loss=0.0023, acc=0.9969, iter_time=6.39s]Epoch 0:  11%|█         | 1330/12384 [2:49:50<23:25:25,  7.63s/it, loss=0.0037, acc=0.9956, iter_time=8.81s]Epoch 0:  11%|█         | 1331/12384 [2:49:50<23:24:30,  7.62s/it, loss=0.0037, acc=0.9956, iter_time=8.81s]Epoch 0:  11%|█         | 1331/12384 [2:49:58<23:24:30,  7.62s/it, loss=0.0016, acc=0.9969, iter_time=7.08s]Epoch 0:  11%|█         | 1332/12384 [2:49:58<23:29:17,  7.65s/it, loss=0.0016, acc=0.9969, iter_time=7.08s]Epoch 0:  11%|█         | 1332/12384 [2:50:06<23:29:17,  7.65s/it, loss=0.0008, acc=0.9974, iter_time=5.41s]Epoch 0:  11%|█         | 1333/12384 [2:50:06<23:34:26,  7.68s/it, loss=0.0008, acc=0.9974, iter_time=5.41s]Epoch 0:  11%|█         | 1333/12384 [2:50:13<23:34:26,  7.68s/it, loss=0.0003, acc=1.0000, iter_time=7.74s]Epoch 0:  11%|█         | 1334/12384 [2:50:13<23:34:02,  7.68s/it, loss=0.0003, acc=1.0000, iter_time=7.74s]Epoch 0:  11%|█         | 1334/12384 [2:50:21<23:34:02,  7.68s/it, loss=0.0009, acc=0.9973, iter_time=10.53s]Epoch 0:  11%|█         | 1335/12384 [2:50:21<23:32:08,  7.67s/it, loss=0.0009, acc=0.9973, iter_time=10.53s]Epoch 0:  11%|█         | 1335/12384 [2:50:29<23:32:08,  7.67s/it, loss=0.0017, acc=0.9960, iter_time=8.02s] Epoch 0:  11%|█         | 1336/12384 [2:50:29<23:28:59,  7.65s/it, loss=0.0017, acc=0.9960, iter_time=8.02s]Epoch 0:  11%|█         | 1336/12384 [2:50:36<23:28:59,  7.65s/it, loss=0.0069, acc=0.9884, iter_time=7.24s]Epoch 0:  11%|█         | 1337/12384 [2:50:36<23:30:32,  7.66s/it, loss=0.0069, acc=0.9884, iter_time=7.24s]Epoch 0:  11%|█         | 1337/12384 [2:50:44<23:30:32,  7.66s/it, loss=0.0005, acc=1.0000, iter_time=7.69s]Epoch 0:  11%|█         | 1338/12384 [2:50:44<23:30:14,  7.66s/it, loss=0.0005, acc=1.0000, iter_time=7.69s]Epoch 0:  11%|█         | 1338/12384 [2:50:52<23:30:14,  7.66s/it, loss=0.0011, acc=0.9988, iter_time=7.66s]Epoch 0:  11%|█         | 1339/12384 [2:50:52<23:28:57,  7.65s/it, loss=0.0011, acc=0.9988, iter_time=7.66s]Epoch 0:  11%|█         | 1339/12384 [2:50:59<23:28:57,  7.65s/it, loss=0.0009, acc=0.9997, iter_time=7.61s]Epoch 0:  11%|█         | 1340/12384 [2:50:59<23:28:07,  7.65s/it, loss=0.0009, acc=0.9997, iter_time=7.61s]Epoch 0:  11%|█         | 1340/12384 [2:51:07<23:28:07,  7.65s/it, loss=0.0023, acc=0.9950, iter_time=7.65s]Epoch 0:  11%|█         | 1341/12384 [2:51:07<23:24:54,  7.63s/it, loss=0.0023, acc=0.9950, iter_time=7.65s]Epoch 0:  11%|█         | 1341/12384 [2:51:15<23:24:54,  7.63s/it, loss=0.0028, acc=0.9939, iter_time=7.58s]Epoch 0:  11%|█         | 1342/12384 [2:51:15<23:22:27,  7.62s/it, loss=0.0028, acc=0.9939, iter_time=7.58s]Epoch 0:  11%|█         | 1342/12384 [2:51:22<23:22:27,  7.62s/it, loss=0.0016, acc=0.9969, iter_time=7.61s]Epoch 0:  11%|█         | 1343/12384 [2:51:22<23:23:32,  7.63s/it, loss=0.0016, acc=0.9969, iter_time=7.61s]Epoch 0:  11%|█         | 1343/12384 [2:51:30<23:23:32,  7.63s/it, loss=0.0018, acc=0.9928, iter_time=7.61s]Epoch 0:  11%|█         | 1344/12384 [2:51:30<23:23:42,  7.63s/it, loss=0.0018, acc=0.9928, iter_time=7.61s]Epoch 0:  11%|█         | 1344/12384 [2:51:37<23:23:42,  7.63s/it, loss=0.0014, acc=0.9959, iter_time=6.44s]Epoch 0:  11%|█         | 1345/12384 [2:51:37<23:22:20,  7.62s/it, loss=0.0014, acc=0.9959, iter_time=6.44s]Epoch 0:  11%|█         | 1345/12384 [2:51:45<23:22:20,  7.62s/it, loss=0.0056, acc=0.9839, iter_time=8.83s]Epoch 0:  11%|█         | 1346/12384 [2:51:45<23:27:06,  7.65s/it, loss=0.0056, acc=0.9839, iter_time=8.83s]Epoch 0:  11%|█         | 1346/12384 [2:51:53<23:27:06,  7.65s/it, loss=0.0010, acc=0.9984, iter_time=7.11s]Epoch 0:  11%|█         | 1347/12384 [2:51:53<23:28:31,  7.66s/it, loss=0.0010, acc=0.9984, iter_time=7.11s]Epoch 0:  11%|█         | 1347/12384 [2:52:00<23:28:31,  7.66s/it, loss=0.0010, acc=0.9986, iter_time=7.09s]Epoch 0:  11%|█         | 1348/12384 [2:52:00<23:25:39,  7.64s/it, loss=0.0010, acc=0.9986, iter_time=7.09s]Epoch 0:  11%|█         | 1348/12384 [2:52:08<23:25:39,  7.64s/it, loss=0.0025, acc=0.9925, iter_time=9.09s]Epoch 0:  11%|█         | 1349/12384 [2:52:08<23:42:32,  7.73s/it, loss=0.0025, acc=0.9925, iter_time=9.09s]Epoch 0:  11%|█         | 1349/12384 [2:52:16<23:42:32,  7.73s/it, loss=0.0016, acc=0.9970, iter_time=8.05s]Epoch 0:  11%|█         | 1350/12384 [2:52:16<23:35:11,  7.70s/it, loss=0.0016, acc=0.9970, iter_time=8.05s]Epoch 0:  11%|█         | 1350/12384 [2:52:24<23:35:11,  7.70s/it, loss=0.0138, acc=0.9784, iter_time=7.22s]Epoch 0:  11%|█         | 1351/12384 [2:52:24<23:30:48,  7.67s/it, loss=0.0138, acc=0.9784, iter_time=7.22s]Epoch 0:  11%|█         | 1351/12384 [2:52:31<23:30:48,  7.67s/it, loss=0.0063, acc=0.9920, iter_time=7.60s]Epoch 0:  11%|█         | 1352/12384 [2:52:31<23:29:17,  7.66s/it, loss=0.0063, acc=0.9920, iter_time=7.60s]Epoch 0:  11%|█         | 1352/12384 [2:52:39<23:29:17,  7.66s/it, loss=0.0010, acc=0.9994, iter_time=4.52s]Epoch 0:  11%|█         | 1353/12384 [2:52:39<23:29:04,  7.66s/it, loss=0.0010, acc=0.9994, iter_time=4.52s]Epoch 0:  11%|█         | 1353/12384 [2:52:47<23:29:04,  7.66s/it, loss=0.0004, acc=1.0000, iter_time=7.77s]Epoch 0:  11%|█         | 1354/12384 [2:52:47<23:28:17,  7.66s/it, loss=0.0004, acc=1.0000, iter_time=7.77s]Epoch 0:  11%|█         | 1354/12384 [2:52:54<23:28:17,  7.66s/it, loss=0.0013, acc=0.9980, iter_time=10.67s]Epoch 0:  11%|█         | 1355/12384 [2:52:54<23:26:51,  7.65s/it, loss=0.0013, acc=0.9980, iter_time=10.67s]Epoch 0:  11%|█         | 1355/12384 [2:53:02<23:26:51,  7.65s/it, loss=0.0019, acc=0.9979, iter_time=5.56s] Epoch 0:  11%|█         | 1356/12384 [2:53:02<23:26:20,  7.65s/it, loss=0.0019, acc=0.9979, iter_time=5.56s]Epoch 0:  11%|█         | 1356/12384 [2:53:09<23:26:20,  7.65s/it, loss=0.0033, acc=0.9935, iter_time=9.72s]Epoch 0:  11%|█         | 1357/12384 [2:53:09<23:24:06,  7.64s/it, loss=0.0033, acc=0.9935, iter_time=9.72s]Epoch 0:  11%|█         | 1357/12384 [2:53:17<23:24:06,  7.64s/it, loss=0.0008, acc=0.9971, iter_time=7.63s]Epoch 0:  11%|█         | 1358/12384 [2:53:17<23:23:38,  7.64s/it, loss=0.0008, acc=0.9971, iter_time=7.63s]Epoch 0:  11%|█         | 1358/12384 [2:53:25<23:23:38,  7.64s/it, loss=0.0016, acc=0.9977, iter_time=7.63s]Epoch 0:  11%|█         | 1359/12384 [2:53:25<23:20:57,  7.62s/it, loss=0.0016, acc=0.9977, iter_time=7.63s]Epoch 0:  11%|█         | 1359/12384 [2:53:32<23:20:57,  7.62s/it, loss=0.0008, acc=0.9981, iter_time=7.98s]Epoch 0:  11%|█         | 1360/12384 [2:53:32<23:20:22,  7.62s/it, loss=0.0008, acc=0.9981, iter_time=7.98s]Epoch 0:  11%|█         | 1360/12384 [2:53:40<23:20:22,  7.62s/it, loss=0.0043, acc=0.9899, iter_time=7.23s]Epoch 0:  11%|█         | 1361/12384 [2:53:40<23:20:19,  7.62s/it, loss=0.0043, acc=0.9899, iter_time=7.23s]Epoch 0:  11%|█         | 1361/12384 [2:53:48<23:20:19,  7.62s/it, loss=0.0013, acc=0.9979, iter_time=7.63s]Epoch 0:  11%|█         | 1362/12384 [2:53:48<23:19:55,  7.62s/it, loss=0.0013, acc=0.9979, iter_time=7.63s]Epoch 0:  11%|█         | 1362/12384 [2:53:55<23:19:55,  7.62s/it, loss=0.0033, acc=0.9928, iter_time=7.37s]Epoch 0:  11%|█         | 1363/12384 [2:53:55<23:20:20,  7.62s/it, loss=0.0033, acc=0.9928, iter_time=7.37s]Epoch 0:  11%|█         | 1363/12384 [2:54:03<23:20:20,  7.62s/it, loss=0.0121, acc=0.9796, iter_time=7.87s]Epoch 0:  11%|█         | 1364/12384 [2:54:03<23:18:55,  7.62s/it, loss=0.0121, acc=0.9796, iter_time=7.87s]Epoch 0:  11%|█         | 1364/12384 [2:54:10<23:18:55,  7.62s/it, loss=0.0008, acc=0.9981, iter_time=7.61s]Epoch 0:  11%|█         | 1365/12384 [2:54:10<23:20:06,  7.62s/it, loss=0.0008, acc=0.9981, iter_time=7.61s]Epoch 0:  11%|█         | 1365/12384 [2:54:18<23:20:06,  7.62s/it, loss=0.0041, acc=0.9914, iter_time=7.72s]Epoch 0:  11%|█         | 1366/12384 [2:54:18<23:23:20,  7.64s/it, loss=0.0041, acc=0.9914, iter_time=7.72s]Epoch 0:  11%|█         | 1366/12384 [2:54:26<23:23:20,  7.64s/it, loss=0.0021, acc=0.9929, iter_time=5.82s]Epoch 0:  11%|█         | 1367/12384 [2:54:26<23:27:25,  7.66s/it, loss=0.0021, acc=0.9929, iter_time=5.82s]Epoch 0:  11%|█         | 1367/12384 [2:54:33<23:27:25,  7.66s/it, loss=0.0012, acc=0.9947, iter_time=9.90s]Epoch 0:  11%|█         | 1368/12384 [2:54:33<23:26:38,  7.66s/it, loss=0.0012, acc=0.9947, iter_time=9.90s]Epoch 0:  11%|█         | 1368/12384 [2:54:41<23:26:38,  7.66s/it, loss=0.0060, acc=0.9860, iter_time=7.27s]Epoch 0:  11%|█         | 1369/12384 [2:54:41<23:26:07,  7.66s/it, loss=0.0060, acc=0.9860, iter_time=7.27s]Epoch 0:  11%|█         | 1369/12384 [2:54:49<23:26:07,  7.66s/it, loss=0.0057, acc=0.9873, iter_time=7.63s]Epoch 0:  11%|█         | 1370/12384 [2:54:49<23:23:50,  7.65s/it, loss=0.0057, acc=0.9873, iter_time=7.63s]Epoch 0:  11%|█         | 1370/12384 [2:54:56<23:23:50,  7.65s/it, loss=0.0010, acc=0.9993, iter_time=7.64s]Epoch 0:  11%|█         | 1371/12384 [2:54:56<23:23:21,  7.65s/it, loss=0.0010, acc=0.9993, iter_time=7.64s]Epoch 0:  11%|█         | 1371/12384 [2:55:04<23:23:21,  7.65s/it, loss=0.0004, acc=0.9988, iter_time=7.63s]Epoch 0:  11%|█         | 1372/12384 [2:55:04<23:22:13,  7.64s/it, loss=0.0004, acc=0.9988, iter_time=7.63s]Epoch 0:  11%|█         | 1372/12384 [2:55:12<23:22:13,  7.64s/it, loss=0.0032, acc=0.9937, iter_time=5.56s]Epoch 0:  11%|█         | 1373/12384 [2:55:12<23:20:45,  7.63s/it, loss=0.0032, acc=0.9937, iter_time=5.56s]Epoch 0:  11%|█         | 1373/12384 [2:55:19<23:20:45,  7.63s/it, loss=0.0027, acc=0.9947, iter_time=9.92s]Epoch 0:  11%|█         | 1374/12384 [2:55:19<23:31:56,  7.69s/it, loss=0.0027, acc=0.9947, iter_time=9.92s]Epoch 0:  11%|█         | 1374/12384 [2:55:27<23:31:56,  7.69s/it, loss=0.0007, acc=0.9998, iter_time=7.58s]Epoch 0:  11%|█         | 1375/12384 [2:55:27<23:28:09,  7.67s/it, loss=0.0007, acc=0.9998, iter_time=7.58s]Epoch 0:  11%|█         | 1375/12384 [2:55:35<23:28:09,  7.67s/it, loss=0.0004, acc=1.0000, iter_time=8.12s]Epoch 0:  11%|█         | 1376/12384 [2:55:35<23:46:18,  7.77s/it, loss=0.0004, acc=1.0000, iter_time=8.12s]Epoch 0:  11%|█         | 1376/12384 [2:55:43<23:46:18,  7.77s/it, loss=0.0007, acc=0.9998, iter_time=4.93s]Epoch 0:  11%|█         | 1377/12384 [2:55:43<23:40:00,  7.74s/it, loss=0.0007, acc=0.9998, iter_time=4.93s]Epoch 0:  11%|█         | 1377/12384 [2:55:50<23:40:00,  7.74s/it, loss=0.0032, acc=0.9939, iter_time=10.27s]Epoch 0:  11%|█         | 1378/12384 [2:55:50<23:35:33,  7.72s/it, loss=0.0032, acc=0.9939, iter_time=10.27s]Epoch 0:  11%|█         | 1378/12384 [2:55:58<23:35:33,  7.72s/it, loss=0.0039, acc=0.9865, iter_time=7.67s] Epoch 0:  11%|█         | 1379/12384 [2:55:58<23:30:03,  7.69s/it, loss=0.0039, acc=0.9865, iter_time=7.67s]Epoch 0:  11%|█         | 1379/12384 [2:56:06<23:30:03,  7.69s/it, loss=0.0002, acc=1.0000, iter_time=6.68s]Epoch 0:  11%|█         | 1380/12384 [2:56:06<23:27:23,  7.67s/it, loss=0.0002, acc=1.0000, iter_time=6.68s]Epoch 0:  11%|█         | 1380/12384 [2:56:13<23:27:23,  7.67s/it, loss=0.0021, acc=0.9973, iter_time=8.59s]Epoch 0:  11%|█         | 1381/12384 [2:56:13<23:26:17,  7.67s/it, loss=0.0021, acc=0.9973, iter_time=8.59s]Epoch 0:  11%|█         | 1381/12384 [2:56:21<23:26:17,  7.67s/it, loss=0.0019, acc=0.9953, iter_time=5.34s]Epoch 0:  11%|█         | 1382/12384 [2:56:21<23:26:31,  7.67s/it, loss=0.0019, acc=0.9953, iter_time=5.34s]Epoch 0:  11%|█         | 1382/12384 [2:56:29<23:26:31,  7.67s/it, loss=0.0061, acc=0.9972, iter_time=9.72s]Epoch 0:  11%|█         | 1383/12384 [2:56:29<23:25:36,  7.67s/it, loss=0.0061, acc=0.9972, iter_time=9.72s]Epoch 0:  11%|█         | 1383/12384 [2:56:36<23:25:36,  7.67s/it, loss=0.0016, acc=0.9940, iter_time=8.27s]Epoch 0:  11%|█         | 1384/12384 [2:56:36<23:23:08,  7.65s/it, loss=0.0016, acc=0.9940, iter_time=8.27s]Epoch 0:  11%|█         | 1384/12384 [2:56:44<23:23:08,  7.65s/it, loss=0.0016, acc=0.9941, iter_time=7.24s]Epoch 0:  11%|█         | 1385/12384 [2:56:44<23:23:42,  7.66s/it, loss=0.0016, acc=0.9941, iter_time=7.24s]Epoch 0:  11%|█         | 1385/12384 [2:56:52<23:23:42,  7.66s/it, loss=0.0007, acc=1.0000, iter_time=7.68s]Epoch 0:  11%|█         | 1386/12384 [2:56:52<23:23:45,  7.66s/it, loss=0.0007, acc=1.0000, iter_time=7.68s]Epoch 0:  11%|█         | 1386/12384 [2:56:59<23:23:45,  7.66s/it, loss=0.0016, acc=0.9959, iter_time=7.67s]Epoch 0:  11%|█         | 1387/12384 [2:56:59<23:22:35,  7.65s/it, loss=0.0016, acc=0.9959, iter_time=7.67s]Epoch 0:  11%|█         | 1387/12384 [2:57:07<23:22:35,  7.65s/it, loss=0.0024, acc=0.9940, iter_time=6.70s]Epoch 0:  11%|█         | 1388/12384 [2:57:07<23:21:27,  7.65s/it, loss=0.0024, acc=0.9940, iter_time=6.70s]Epoch 0:  11%|█         | 1388/12384 [2:57:15<23:21:27,  7.65s/it, loss=0.0030, acc=0.9943, iter_time=8.58s]Epoch 0:  11%|█         | 1389/12384 [2:57:15<23:21:08,  7.65s/it, loss=0.0030, acc=0.9943, iter_time=8.58s]Epoch 0:  11%|█         | 1389/12384 [2:57:22<23:21:08,  7.65s/it, loss=0.0060, acc=0.9835, iter_time=5.33s]Epoch 0:  11%|█         | 1390/12384 [2:57:22<23:21:16,  7.65s/it, loss=0.0060, acc=0.9835, iter_time=5.33s]Epoch 0:  11%|█         | 1390/12384 [2:57:30<23:21:16,  7.65s/it, loss=0.0015, acc=0.9946, iter_time=9.97s]Epoch 0:  11%|█         | 1391/12384 [2:57:30<23:20:13,  7.64s/it, loss=0.0015, acc=0.9946, iter_time=9.97s]Epoch 0:  11%|█         | 1391/12384 [2:57:37<23:20:13,  7.64s/it, loss=0.0061, acc=0.9859, iter_time=7.57s]Epoch 0:  11%|█         | 1392/12384 [2:57:37<23:18:32,  7.63s/it, loss=0.0061, acc=0.9859, iter_time=7.57s]Epoch 0:  11%|█         | 1392/12384 [2:57:45<23:18:32,  7.63s/it, loss=0.0007, acc=0.9968, iter_time=7.64s]Epoch 0:  11%|█         | 1393/12384 [2:57:45<23:18:39,  7.64s/it, loss=0.0007, acc=0.9968, iter_time=7.64s]Epoch 0:  11%|█         | 1393/12384 [2:57:53<23:18:39,  7.64s/it, loss=0.0011, acc=0.9962, iter_time=5.86s]Epoch 0:  11%|█▏        | 1394/12384 [2:57:53<23:18:13,  7.63s/it, loss=0.0011, acc=0.9962, iter_time=5.86s]Epoch 0:  11%|█▏        | 1394/12384 [2:58:00<23:18:13,  7.63s/it, loss=0.0013, acc=0.9985, iter_time=9.44s]Epoch 0:  11%|█▏        | 1395/12384 [2:58:00<23:16:59,  7.63s/it, loss=0.0013, acc=0.9985, iter_time=9.44s]Epoch 0:  11%|█▏        | 1395/12384 [2:58:08<23:16:59,  7.63s/it, loss=0.0034, acc=0.9940, iter_time=7.62s]Epoch 0:  11%|█▏        | 1396/12384 [2:58:08<23:17:17,  7.63s/it, loss=0.0034, acc=0.9940, iter_time=7.62s]Epoch 0:  11%|█▏        | 1396/12384 [2:58:16<23:17:17,  7.63s/it, loss=0.0015, acc=0.9980, iter_time=7.61s]Epoch 0:  11%|█▏        | 1397/12384 [2:58:16<23:15:04,  7.62s/it, loss=0.0015, acc=0.9980, iter_time=7.61s]Epoch 0:  11%|█▏        | 1397/12384 [2:58:23<23:15:04,  7.62s/it, loss=0.0027, acc=0.9903, iter_time=6.09s]Epoch 0:  11%|█▏        | 1398/12384 [2:58:23<23:13:33,  7.61s/it, loss=0.0027, acc=0.9903, iter_time=6.09s]Epoch 0:  11%|█▏        | 1398/12384 [2:58:31<23:13:33,  7.61s/it, loss=0.0011, acc=0.9960, iter_time=9.10s]Epoch 0:  11%|█▏        | 1399/12384 [2:58:31<23:16:42,  7.63s/it, loss=0.0011, acc=0.9960, iter_time=9.10s]Epoch 0:  11%|█▏        | 1399/12384 [2:58:38<23:16:42,  7.63s/it, loss=0.0051, acc=0.9938, iter_time=8.07s]Epoch 0:  11%|█▏        | 1400/12384 [2:58:38<23:15:07,  7.62s/it, loss=0.0051, acc=0.9938, iter_time=8.07s]Epoch 0:  11%|█▏        | 1400/12384 [2:58:46<23:15:07,  7.62s/it, loss=0.0021, acc=0.9899, iter_time=7.51s]Epoch 0:  11%|█▏        | 1401/12384 [2:58:46<23:30:28,  7.71s/it, loss=0.0021, acc=0.9899, iter_time=7.51s]Epoch 0:  11%|█▏        | 1401/12384 [2:58:54<23:30:28,  7.71s/it, loss=0.0022, acc=0.9952, iter_time=7.64s]Epoch 0:  11%|█▏        | 1402/12384 [2:58:54<23:44:02,  7.78s/it, loss=0.0022, acc=0.9952, iter_time=7.64s]Epoch 0:  11%|█▏        | 1402/12384 [2:59:02<23:44:02,  7.78s/it, loss=0.0016, acc=0.9975, iter_time=4.63s]Epoch 0:  11%|█▏        | 1403/12384 [2:59:02<23:33:59,  7.73s/it, loss=0.0016, acc=0.9975, iter_time=4.63s]Epoch 0:  11%|█▏        | 1403/12384 [2:59:09<23:33:59,  7.73s/it, loss=0.0006, acc=0.9989, iter_time=8.28s]Epoch 0:  11%|█▏        | 1404/12384 [2:59:09<23:27:31,  7.69s/it, loss=0.0006, acc=0.9989, iter_time=8.28s]Epoch 0:  11%|█▏        | 1404/12384 [2:59:17<23:27:31,  7.69s/it, loss=0.0010, acc=0.9990, iter_time=9.60s]Epoch 0:  11%|█▏        | 1405/12384 [2:59:17<23:25:23,  7.68s/it, loss=0.0010, acc=0.9990, iter_time=9.60s]Epoch 0:  11%|█▏        | 1405/12384 [2:59:25<23:25:23,  7.68s/it, loss=0.0004, acc=0.9985, iter_time=8.27s]Epoch 0:  11%|█▏        | 1406/12384 [2:59:25<23:23:02,  7.67s/it, loss=0.0004, acc=0.9985, iter_time=8.27s]Epoch 0:  11%|█▏        | 1406/12384 [2:59:32<23:23:02,  7.67s/it, loss=0.0011, acc=0.9982, iter_time=7.64s]Epoch 0:  11%|█▏        | 1407/12384 [2:59:32<23:22:28,  7.67s/it, loss=0.0011, acc=0.9982, iter_time=7.64s]Epoch 0:  11%|█▏        | 1407/12384 [2:59:40<23:22:28,  7.67s/it, loss=0.0006, acc=1.0000, iter_time=8.05s]Epoch 0:  11%|█▏        | 1408/12384 [2:59:40<23:25:01,  7.68s/it, loss=0.0006, acc=1.0000, iter_time=8.05s]Epoch 0:  11%|█▏        | 1408/12384 [2:59:48<23:25:01,  7.68s/it, loss=0.0032, acc=0.9934, iter_time=7.33s]Epoch 0:  11%|█▏        | 1409/12384 [2:59:48<23:21:49,  7.66s/it, loss=0.0032, acc=0.9934, iter_time=7.33s]Epoch 0:  11%|█▏        | 1409/12384 [2:59:55<23:21:49,  7.66s/it, loss=0.0015, acc=0.9966, iter_time=7.32s]Epoch 0:  11%|█▏        | 1410/12384 [2:59:55<23:21:03,  7.66s/it, loss=0.0015, acc=0.9966, iter_time=7.32s]Epoch 0:  11%|█▏        | 1410/12384 [3:00:03<23:21:03,  7.66s/it, loss=0.0012, acc=0.9982, iter_time=7.95s]Epoch 0:  11%|█▏        | 1411/12384 [3:00:03<23:20:15,  7.66s/it, loss=0.0012, acc=0.9982, iter_time=7.95s]Epoch 0:  11%|█▏        | 1411/12384 [3:00:11<23:20:15,  7.66s/it, loss=0.0020, acc=0.9994, iter_time=7.64s]Epoch 0:  11%|█▏        | 1412/12384 [3:00:11<23:18:34,  7.65s/it, loss=0.0020, acc=0.9994, iter_time=7.64s]Epoch 0:  11%|█▏        | 1412/12384 [3:00:18<23:18:34,  7.65s/it, loss=0.0019, acc=0.9947, iter_time=7.63s]Epoch 0:  11%|█▏        | 1413/12384 [3:00:18<23:15:54,  7.63s/it, loss=0.0019, acc=0.9947, iter_time=7.63s]Epoch 0:  11%|█▏        | 1413/12384 [3:00:26<23:15:54,  7.63s/it, loss=0.0021, acc=0.9964, iter_time=4.76s]Epoch 0:  11%|█▏        | 1414/12384 [3:00:26<23:17:34,  7.64s/it, loss=0.0021, acc=0.9964, iter_time=4.76s]Epoch 0:  11%|█▏        | 1414/12384 [3:00:34<23:17:34,  7.64s/it, loss=0.0006, acc=0.9998, iter_time=10.50s]Epoch 0:  11%|█▏        | 1415/12384 [3:00:34<23:18:40,  7.65s/it, loss=0.0006, acc=0.9998, iter_time=10.50s]Epoch 0:  11%|█▏        | 1415/12384 [3:00:41<23:18:40,  7.65s/it, loss=0.0006, acc=0.9977, iter_time=8.05s] Epoch 0:  11%|█▏        | 1416/12384 [3:00:41<23:17:56,  7.65s/it, loss=0.0006, acc=0.9977, iter_time=8.05s]Epoch 0:  11%|█▏        | 1416/12384 [3:00:49<23:17:56,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.26s]Epoch 0:  11%|█▏        | 1417/12384 [3:00:49<23:16:17,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.26s]Epoch 0:  11%|█▏        | 1417/12384 [3:00:56<23:16:17,  7.64s/it, loss=0.0051, acc=0.9926, iter_time=5.57s]Epoch 0:  11%|█▏        | 1418/12384 [3:00:56<23:15:03,  7.63s/it, loss=0.0051, acc=0.9926, iter_time=5.57s]Epoch 0:  11%|█▏        | 1418/12384 [3:01:04<23:15:03,  7.63s/it, loss=0.0020, acc=0.9930, iter_time=8.49s]Epoch 0:  11%|█▏        | 1419/12384 [3:01:04<23:15:50,  7.64s/it, loss=0.0020, acc=0.9930, iter_time=8.49s]Epoch 0:  11%|█▏        | 1419/12384 [3:01:12<23:15:50,  7.64s/it, loss=0.0010, acc=0.9988, iter_time=8.83s]Epoch 0:  11%|█▏        | 1420/12384 [3:01:12<23:13:23,  7.63s/it, loss=0.0010, acc=0.9988, iter_time=8.83s]Epoch 0:  11%|█▏        | 1420/12384 [3:01:19<23:13:23,  7.63s/it, loss=0.0003, acc=0.9995, iter_time=7.59s]Epoch 0:  11%|█▏        | 1421/12384 [3:01:19<23:12:43,  7.62s/it, loss=0.0003, acc=0.9995, iter_time=7.59s]Epoch 0:  11%|█▏        | 1421/12384 [3:01:27<23:12:43,  7.62s/it, loss=0.0063, acc=0.9903, iter_time=7.62s]Epoch 0:  11%|█▏        | 1422/12384 [3:01:27<23:14:12,  7.63s/it, loss=0.0063, acc=0.9903, iter_time=7.62s]Epoch 0:  11%|█▏        | 1422/12384 [3:01:35<23:14:12,  7.63s/it, loss=0.0008, acc=0.9993, iter_time=7.67s]Epoch 0:  11%|█▏        | 1423/12384 [3:01:35<23:13:05,  7.63s/it, loss=0.0008, acc=0.9993, iter_time=7.67s]Epoch 0:  11%|█▏        | 1423/12384 [3:01:42<23:13:05,  7.63s/it, loss=0.0028, acc=0.9919, iter_time=7.98s]Epoch 0:  11%|█▏        | 1424/12384 [3:01:42<23:12:42,  7.62s/it, loss=0.0028, acc=0.9919, iter_time=7.98s]Epoch 0:  11%|█▏        | 1424/12384 [3:01:50<23:12:42,  7.62s/it, loss=0.0028, acc=0.9949, iter_time=7.24s]Epoch 0:  12%|█▏        | 1425/12384 [3:01:50<23:11:21,  7.62s/it, loss=0.0028, acc=0.9949, iter_time=7.24s]Epoch 0:  12%|█▏        | 1425/12384 [3:01:57<23:11:21,  7.62s/it, loss=0.0007, acc=0.9964, iter_time=7.62s]Epoch 0:  12%|█▏        | 1426/12384 [3:01:57<23:12:19,  7.62s/it, loss=0.0007, acc=0.9964, iter_time=7.62s]Epoch 0:  12%|█▏        | 1426/12384 [3:02:05<23:12:19,  7.62s/it, loss=0.0003, acc=0.9998, iter_time=6.40s]Epoch 0:  12%|█▏        | 1427/12384 [3:02:05<23:12:11,  7.62s/it, loss=0.0003, acc=0.9998, iter_time=6.40s]Epoch 0:  12%|█▏        | 1427/12384 [3:02:13<23:12:11,  7.62s/it, loss=0.0009, acc=0.9981, iter_time=6.83s]Epoch 0:  12%|█▏        | 1428/12384 [3:02:13<23:11:27,  7.62s/it, loss=0.0009, acc=0.9981, iter_time=6.83s]Epoch 0:  12%|█▏        | 1428/12384 [3:02:21<23:11:27,  7.62s/it, loss=0.0012, acc=0.9981, iter_time=9.67s]Epoch 0:  12%|█▏        | 1429/12384 [3:02:21<23:31:37,  7.73s/it, loss=0.0012, acc=0.9981, iter_time=9.67s]Epoch 0:  12%|█▏        | 1429/12384 [3:02:28<23:31:37,  7.73s/it, loss=0.0014, acc=0.9982, iter_time=7.96s]Epoch 0:  12%|█▏        | 1430/12384 [3:02:28<23:25:29,  7.70s/it, loss=0.0014, acc=0.9982, iter_time=7.96s]Epoch 0:  12%|█▏        | 1430/12384 [3:02:36<23:25:29,  7.70s/it, loss=0.0027, acc=0.9930, iter_time=7.63s]Epoch 0:  12%|█▏        | 1431/12384 [3:02:36<23:21:29,  7.68s/it, loss=0.0027, acc=0.9930, iter_time=7.63s]Epoch 0:  12%|█▏        | 1431/12384 [3:02:44<23:21:29,  7.68s/it, loss=0.0011, acc=0.9973, iter_time=7.57s]Epoch 0:  12%|█▏        | 1432/12384 [3:02:44<23:18:01,  7.66s/it, loss=0.0011, acc=0.9973, iter_time=7.57s]Epoch 0:  12%|█▏        | 1432/12384 [3:02:51<23:18:01,  7.66s/it, loss=0.0040, acc=0.9944, iter_time=7.64s]Epoch 0:  12%|█▏        | 1433/12384 [3:02:51<23:13:51,  7.64s/it, loss=0.0040, acc=0.9944, iter_time=7.64s]Epoch 0:  12%|█▏        | 1433/12384 [3:02:59<23:13:51,  7.64s/it, loss=0.0021, acc=0.9966, iter_time=7.62s]Epoch 0:  12%|█▏        | 1434/12384 [3:02:59<23:15:20,  7.65s/it, loss=0.0021, acc=0.9966, iter_time=7.62s]Epoch 0:  12%|█▏        | 1434/12384 [3:03:06<23:15:20,  7.65s/it, loss=0.0005, acc=0.9998, iter_time=4.50s]Epoch 0:  12%|█▏        | 1435/12384 [3:03:06<23:13:16,  7.64s/it, loss=0.0005, acc=0.9998, iter_time=4.50s]Epoch 0:  12%|█▏        | 1435/12384 [3:03:14<23:13:16,  7.64s/it, loss=0.0005, acc=1.0000, iter_time=10.75s]Epoch 0:  12%|█▏        | 1436/12384 [3:03:14<23:14:10,  7.64s/it, loss=0.0005, acc=1.0000, iter_time=10.75s]Epoch 0:  12%|█▏        | 1436/12384 [3:03:22<23:14:10,  7.64s/it, loss=0.0034, acc=0.9931, iter_time=7.65s] Epoch 0:  12%|█▏        | 1437/12384 [3:03:22<23:12:35,  7.63s/it, loss=0.0034, acc=0.9931, iter_time=7.65s]Epoch 0:  12%|█▏        | 1437/12384 [3:03:29<23:12:35,  7.63s/it, loss=0.0005, acc=0.9977, iter_time=7.62s]Epoch 0:  12%|█▏        | 1438/12384 [3:03:29<23:10:44,  7.62s/it, loss=0.0005, acc=0.9977, iter_time=7.62s]Epoch 0:  12%|█▏        | 1438/12384 [3:03:37<23:10:44,  7.62s/it, loss=0.0027, acc=0.9941, iter_time=7.62s]Epoch 0:  12%|█▏        | 1439/12384 [3:03:37<23:10:54,  7.62s/it, loss=0.0027, acc=0.9941, iter_time=7.62s]Epoch 0:  12%|█▏        | 1439/12384 [3:03:45<23:10:54,  7.62s/it, loss=0.0031, acc=0.9954, iter_time=8.01s]Epoch 0:  12%|█▏        | 1440/12384 [3:03:45<23:10:25,  7.62s/it, loss=0.0031, acc=0.9954, iter_time=8.01s]Epoch 0:  12%|█▏        | 1440/12384 [3:03:52<23:10:25,  7.62s/it, loss=0.0094, acc=0.9850, iter_time=7.22s]Epoch 0:  12%|█▏        | 1441/12384 [3:03:52<23:08:47,  7.61s/it, loss=0.0094, acc=0.9850, iter_time=7.22s]Epoch 0:  12%|█▏        | 1441/12384 [3:04:00<23:08:47,  7.61s/it, loss=0.0019, acc=0.9966, iter_time=7.62s]Epoch 0:  12%|█▏        | 1442/12384 [3:04:00<23:10:23,  7.62s/it, loss=0.0019, acc=0.9966, iter_time=7.62s]Epoch 0:  12%|█▏        | 1442/12384 [3:04:07<23:10:23,  7.62s/it, loss=0.0021, acc=0.9978, iter_time=7.64s]Epoch 0:  12%|█▏        | 1443/12384 [3:04:07<23:10:14,  7.62s/it, loss=0.0021, acc=0.9978, iter_time=7.64s]Epoch 0:  12%|█▏        | 1443/12384 [3:04:15<23:10:14,  7.62s/it, loss=0.0011, acc=0.9958, iter_time=7.61s]Epoch 0:  12%|█▏        | 1444/12384 [3:04:15<23:11:39,  7.63s/it, loss=0.0011, acc=0.9958, iter_time=7.61s]Epoch 0:  12%|█▏        | 1444/12384 [3:04:23<23:11:39,  7.63s/it, loss=0.0011, acc=0.9987, iter_time=6.79s]Epoch 0:  12%|█▏        | 1445/12384 [3:04:23<23:10:07,  7.62s/it, loss=0.0011, acc=0.9987, iter_time=6.79s]Epoch 0:  12%|█▏        | 1445/12384 [3:04:30<23:10:07,  7.62s/it, loss=0.0044, acc=0.9944, iter_time=8.46s]Epoch 0:  12%|█▏        | 1446/12384 [3:04:30<23:13:12,  7.64s/it, loss=0.0044, acc=0.9944, iter_time=8.46s]Epoch 0:  12%|█▏        | 1446/12384 [3:04:38<23:13:12,  7.64s/it, loss=0.0004, acc=0.9998, iter_time=7.69s]Epoch 0:  12%|█▏        | 1447/12384 [3:04:38<23:10:50,  7.63s/it, loss=0.0004, acc=0.9998, iter_time=7.69s]Epoch 0:  12%|█▏        | 1447/12384 [3:04:46<23:10:50,  7.63s/it, loss=0.0019, acc=0.9938, iter_time=7.84s]Epoch 0:  12%|█▏        | 1448/12384 [3:04:46<23:16:35,  7.66s/it, loss=0.0019, acc=0.9938, iter_time=7.84s]Epoch 0:  12%|█▏        | 1448/12384 [3:04:53<23:16:35,  7.66s/it, loss=0.0006, acc=0.9987, iter_time=5.50s]Epoch 0:  12%|█▏        | 1449/12384 [3:04:53<23:15:42,  7.66s/it, loss=0.0006, acc=0.9987, iter_time=5.50s]Epoch 0:  12%|█▏        | 1449/12384 [3:05:01<23:15:42,  7.66s/it, loss=0.0007, acc=0.9996, iter_time=10.08s]Epoch 0:  12%|█▏        | 1450/12384 [3:05:01<23:14:28,  7.65s/it, loss=0.0007, acc=0.9996, iter_time=10.08s]Epoch 0:  12%|█▏        | 1450/12384 [3:05:09<23:14:28,  7.65s/it, loss=0.0008, acc=0.9987, iter_time=7.22s] Epoch 0:  12%|█▏        | 1451/12384 [3:05:09<23:13:06,  7.65s/it, loss=0.0008, acc=0.9987, iter_time=7.22s]Epoch 0:  12%|█▏        | 1451/12384 [3:05:16<23:13:06,  7.65s/it, loss=0.0007, acc=0.9985, iter_time=7.63s]Epoch 0:  12%|█▏        | 1452/12384 [3:05:16<23:11:34,  7.64s/it, loss=0.0007, acc=0.9985, iter_time=7.63s]Epoch 0:  12%|█▏        | 1452/12384 [3:05:24<23:11:34,  7.64s/it, loss=0.0014, acc=0.9968, iter_time=7.60s]Epoch 0:  12%|█▏        | 1453/12384 [3:05:24<23:10:29,  7.63s/it, loss=0.0014, acc=0.9968, iter_time=7.60s]Epoch 0:  12%|█▏        | 1453/12384 [3:05:31<23:10:29,  7.63s/it, loss=0.0010, acc=0.9983, iter_time=6.71s]Epoch 0:  12%|█▏        | 1454/12384 [3:05:31<23:08:18,  7.62s/it, loss=0.0010, acc=0.9983, iter_time=6.71s]Epoch 0:  12%|█▏        | 1454/12384 [3:05:39<23:08:18,  7.62s/it, loss=0.0004, acc=0.9981, iter_time=7.68s]Epoch 0:  12%|█▏        | 1455/12384 [3:05:39<23:29:52,  7.74s/it, loss=0.0004, acc=0.9981, iter_time=7.68s]Epoch 0:  12%|█▏        | 1455/12384 [3:05:47<23:29:52,  7.74s/it, loss=0.0004, acc=0.9999, iter_time=9.24s]Epoch 0:  12%|█▏        | 1456/12384 [3:05:47<23:21:42,  7.70s/it, loss=0.0004, acc=0.9999, iter_time=9.24s]Epoch 0:  12%|█▏        | 1456/12384 [3:05:55<23:21:42,  7.70s/it, loss=0.0004, acc=0.9986, iter_time=6.27s]Epoch 0:  12%|█▏        | 1457/12384 [3:05:55<23:18:49,  7.68s/it, loss=0.0004, acc=0.9986, iter_time=6.27s]Epoch 0:  12%|█▏        | 1457/12384 [3:06:02<23:18:49,  7.68s/it, loss=0.0035, acc=0.9884, iter_time=8.58s]Epoch 0:  12%|█▏        | 1458/12384 [3:06:02<23:15:22,  7.66s/it, loss=0.0035, acc=0.9884, iter_time=8.58s]Epoch 0:  12%|█▏        | 1458/12384 [3:06:10<23:15:22,  7.66s/it, loss=0.0033, acc=0.9933, iter_time=5.30s]Epoch 0:  12%|█▏        | 1459/12384 [3:06:10<23:12:52,  7.65s/it, loss=0.0033, acc=0.9933, iter_time=5.30s]Epoch 0:  12%|█▏        | 1459/12384 [3:06:18<23:12:52,  7.65s/it, loss=0.0028, acc=0.9899, iter_time=9.96s]Epoch 0:  12%|█▏        | 1460/12384 [3:06:18<23:09:56,  7.63s/it, loss=0.0028, acc=0.9899, iter_time=9.96s]Epoch 0:  12%|█▏        | 1460/12384 [3:06:25<23:09:56,  7.63s/it, loss=0.0006, acc=0.9972, iter_time=6.10s]Epoch 0:  12%|█▏        | 1461/12384 [3:06:25<23:08:45,  7.63s/it, loss=0.0006, acc=0.9972, iter_time=6.10s]Epoch 0:  12%|█▏        | 1461/12384 [3:06:33<23:08:45,  7.63s/it, loss=0.0017, acc=0.9976, iter_time=9.11s]Epoch 0:  12%|█▏        | 1462/12384 [3:06:33<23:07:25,  7.62s/it, loss=0.0017, acc=0.9976, iter_time=9.11s]Epoch 0:  12%|█▏        | 1462/12384 [3:06:40<23:07:25,  7.62s/it, loss=0.0008, acc=0.9980, iter_time=7.63s]Epoch 0:  12%|█▏        | 1463/12384 [3:06:40<23:07:26,  7.62s/it, loss=0.0008, acc=0.9980, iter_time=7.63s]Epoch 0:  12%|█▏        | 1463/12384 [3:06:48<23:07:26,  7.62s/it, loss=0.0009, acc=0.9993, iter_time=7.54s]Epoch 0:  12%|█▏        | 1464/12384 [3:06:48<23:05:49,  7.61s/it, loss=0.0009, acc=0.9993, iter_time=7.54s]Epoch 0:  12%|█▏        | 1464/12384 [3:06:56<23:05:49,  7.61s/it, loss=0.0005, acc=0.9993, iter_time=7.64s]Epoch 0:  12%|█▏        | 1465/12384 [3:06:56<23:04:37,  7.61s/it, loss=0.0005, acc=0.9993, iter_time=7.64s]Epoch 0:  12%|█▏        | 1465/12384 [3:07:03<23:04:37,  7.61s/it, loss=0.0023, acc=0.9963, iter_time=7.40s]Epoch 0:  12%|█▏        | 1466/12384 [3:07:03<23:07:39,  7.63s/it, loss=0.0023, acc=0.9963, iter_time=7.40s]Epoch 0:  12%|█▏        | 1466/12384 [3:07:11<23:07:39,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=6.17s]Epoch 0:  12%|█▏        | 1467/12384 [3:07:11<23:08:13,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=6.17s]Epoch 0:  12%|█▏        | 1467/12384 [3:07:19<23:08:13,  7.63s/it, loss=0.0012, acc=0.9984, iter_time=9.43s]Epoch 0:  12%|█▏        | 1468/12384 [3:07:19<23:14:28,  7.66s/it, loss=0.0012, acc=0.9984, iter_time=9.43s]Epoch 0:  12%|█▏        | 1468/12384 [3:07:26<23:14:28,  7.66s/it, loss=0.0016, acc=0.9978, iter_time=7.67s]Epoch 0:  12%|█▏        | 1469/12384 [3:07:26<23:11:32,  7.65s/it, loss=0.0016, acc=0.9978, iter_time=7.67s]Epoch 0:  12%|█▏        | 1469/12384 [3:07:34<23:11:32,  7.65s/it, loss=0.0013, acc=0.9975, iter_time=5.29s]Epoch 0:  12%|█▏        | 1470/12384 [3:07:34<23:12:45,  7.66s/it, loss=0.0013, acc=0.9975, iter_time=5.29s]Epoch 0:  12%|█▏        | 1470/12384 [3:07:42<23:12:45,  7.66s/it, loss=0.0006, acc=0.9992, iter_time=9.99s]Epoch 0:  12%|█▏        | 1471/12384 [3:07:42<23:10:19,  7.64s/it, loss=0.0006, acc=0.9992, iter_time=9.99s]Epoch 0:  12%|█▏        | 1471/12384 [3:07:49<23:10:19,  7.64s/it, loss=0.0015, acc=0.9968, iter_time=8.00s]Epoch 0:  12%|█▏        | 1472/12384 [3:07:49<23:08:20,  7.63s/it, loss=0.0015, acc=0.9968, iter_time=8.00s]Epoch 0:  12%|█▏        | 1472/12384 [3:07:57<23:08:20,  7.63s/it, loss=0.0008, acc=0.9966, iter_time=7.23s]Epoch 0:  12%|█▏        | 1473/12384 [3:07:57<23:07:32,  7.63s/it, loss=0.0008, acc=0.9966, iter_time=7.23s]Epoch 0:  12%|█▏        | 1473/12384 [3:08:04<23:07:32,  7.63s/it, loss=0.0014, acc=0.9954, iter_time=7.64s]Epoch 0:  12%|█▏        | 1474/12384 [3:08:04<23:07:26,  7.63s/it, loss=0.0014, acc=0.9954, iter_time=7.64s]Epoch 0:  12%|█▏        | 1474/12384 [3:08:12<23:07:26,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=5.84s]Epoch 0:  12%|█▏        | 1475/12384 [3:08:12<23:10:48,  7.65s/it, loss=0.0003, acc=1.0000, iter_time=5.84s]Epoch 0:  12%|█▏        | 1475/12384 [3:08:20<23:10:48,  7.65s/it, loss=0.0021, acc=0.9938, iter_time=9.18s]Epoch 0:  12%|█▏        | 1476/12384 [3:08:20<23:08:50,  7.64s/it, loss=0.0021, acc=0.9938, iter_time=9.18s]Epoch 0:  12%|█▏        | 1476/12384 [3:08:27<23:08:50,  7.64s/it, loss=0.0011, acc=0.9961, iter_time=4.68s]Epoch 0:  12%|█▏        | 1477/12384 [3:08:27<23:10:21,  7.65s/it, loss=0.0011, acc=0.9961, iter_time=4.68s]Epoch 0:  12%|█▏        | 1477/12384 [3:08:35<23:10:21,  7.65s/it, loss=0.0003, acc=1.0000, iter_time=10.96s]Epoch 0:  12%|█▏        | 1478/12384 [3:08:35<23:12:34,  7.66s/it, loss=0.0003, acc=1.0000, iter_time=10.96s]Epoch 0:  12%|█▏        | 1478/12384 [3:08:43<23:12:34,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=7.65s] Epoch 0:  12%|█▏        | 1479/12384 [3:08:43<23:09:25,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.65s]Epoch 0:  12%|█▏        | 1479/12384 [3:08:51<23:09:25,  7.64s/it, loss=0.0020, acc=0.9936, iter_time=8.50s]Epoch 0:  12%|█▏        | 1480/12384 [3:08:51<23:35:32,  7.79s/it, loss=0.0020, acc=0.9936, iter_time=8.50s]Epoch 0:  12%|█▏        | 1480/12384 [3:08:59<23:35:32,  7.79s/it, loss=0.0027, acc=0.9929, iter_time=5.77s]Epoch 0:  12%|█▏        | 1481/12384 [3:08:59<23:44:54,  7.84s/it, loss=0.0027, acc=0.9929, iter_time=5.77s]Epoch 0:  12%|█▏        | 1481/12384 [3:09:06<23:44:54,  7.84s/it, loss=0.0005, acc=0.9999, iter_time=8.86s]Epoch 0:  12%|█▏        | 1482/12384 [3:09:06<23:33:27,  7.78s/it, loss=0.0005, acc=0.9999, iter_time=8.86s]Epoch 0:  12%|█▏        | 1482/12384 [3:09:14<23:33:27,  7.78s/it, loss=0.0023, acc=0.9971, iter_time=6.13s]Epoch 0:  12%|█▏        | 1483/12384 [3:09:14<23:25:20,  7.74s/it, loss=0.0023, acc=0.9971, iter_time=6.13s]Epoch 0:  12%|█▏        | 1483/12384 [3:09:22<23:25:20,  7.74s/it, loss=0.0136, acc=0.9805, iter_time=9.65s]Epoch 0:  12%|█▏        | 1484/12384 [3:09:22<23:21:42,  7.72s/it, loss=0.0136, acc=0.9805, iter_time=9.65s]Epoch 0:  12%|█▏        | 1484/12384 [3:09:29<23:21:42,  7.72s/it, loss=0.0017, acc=0.9970, iter_time=7.70s]Epoch 0:  12%|█▏        | 1485/12384 [3:09:29<23:21:54,  7.72s/it, loss=0.0017, acc=0.9970, iter_time=7.70s]Epoch 0:  12%|█▏        | 1485/12384 [3:09:37<23:21:54,  7.72s/it, loss=0.0021, acc=0.9939, iter_time=4.72s]Epoch 0:  12%|█▏        | 1486/12384 [3:09:37<23:17:19,  7.69s/it, loss=0.0021, acc=0.9939, iter_time=4.72s]Epoch 0:  12%|█▏        | 1486/12384 [3:09:45<23:17:19,  7.69s/it, loss=0.0008, acc=0.9964, iter_time=10.64s]Epoch 0:  12%|█▏        | 1487/12384 [3:09:45<23:13:58,  7.68s/it, loss=0.0008, acc=0.9964, iter_time=10.64s]Epoch 0:  12%|█▏        | 1487/12384 [3:09:52<23:13:58,  7.68s/it, loss=0.0022, acc=0.9957, iter_time=8.04s] Epoch 0:  12%|█▏        | 1488/12384 [3:09:52<23:12:30,  7.67s/it, loss=0.0022, acc=0.9957, iter_time=8.04s]Epoch 0:  12%|█▏        | 1488/12384 [3:10:00<23:12:30,  7.67s/it, loss=0.0035, acc=0.9887, iter_time=7.24s]Epoch 0:  12%|█▏        | 1489/12384 [3:10:00<23:09:56,  7.65s/it, loss=0.0035, acc=0.9887, iter_time=7.24s]Epoch 0:  12%|█▏        | 1489/12384 [3:10:08<23:09:56,  7.65s/it, loss=0.0028, acc=0.9943, iter_time=7.66s]Epoch 0:  12%|█▏        | 1490/12384 [3:10:08<23:09:10,  7.65s/it, loss=0.0028, acc=0.9943, iter_time=7.66s]Epoch 0:  12%|█▏        | 1490/12384 [3:10:15<23:09:10,  7.65s/it, loss=0.0006, acc=0.9988, iter_time=7.62s]Epoch 0:  12%|█▏        | 1491/12384 [3:10:15<23:06:42,  7.64s/it, loss=0.0006, acc=0.9988, iter_time=7.62s]Epoch 0:  12%|█▏        | 1491/12384 [3:10:23<23:06:42,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=7.60s]Epoch 0:  12%|█▏        | 1492/12384 [3:10:23<23:06:10,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=7.60s]Epoch 0:  12%|█▏        | 1492/12384 [3:10:31<23:06:10,  7.64s/it, loss=0.0126, acc=0.9808, iter_time=7.37s]Epoch 0:  12%|█▏        | 1493/12384 [3:10:31<23:07:24,  7.64s/it, loss=0.0126, acc=0.9808, iter_time=7.37s]Epoch 0:  12%|█▏        | 1493/12384 [3:10:38<23:07:24,  7.64s/it, loss=0.0022, acc=0.9956, iter_time=6.76s]Epoch 0:  12%|█▏        | 1494/12384 [3:10:38<23:07:30,  7.64s/it, loss=0.0022, acc=0.9956, iter_time=6.76s]Epoch 0:  12%|█▏        | 1494/12384 [3:10:46<23:07:30,  7.64s/it, loss=0.0007, acc=0.9998, iter_time=5.76s]Epoch 0:  12%|█▏        | 1495/12384 [3:10:46<23:06:24,  7.64s/it, loss=0.0007, acc=0.9998, iter_time=5.76s]Epoch 0:  12%|█▏        | 1495/12384 [3:10:53<23:06:24,  7.64s/it, loss=0.0030, acc=0.9960, iter_time=11.09s]Epoch 0:  12%|█▏        | 1496/12384 [3:10:53<23:06:48,  7.64s/it, loss=0.0030, acc=0.9960, iter_time=11.09s]Epoch 0:  12%|█▏        | 1496/12384 [3:11:01<23:06:48,  7.64s/it, loss=0.0012, acc=0.9962, iter_time=7.24s] Epoch 0:  12%|█▏        | 1497/12384 [3:11:01<23:06:21,  7.64s/it, loss=0.0012, acc=0.9962, iter_time=7.24s]Epoch 0:  12%|█▏        | 1497/12384 [3:11:09<23:06:21,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=6.72s]Epoch 0:  12%|█▏        | 1498/12384 [3:11:09<23:04:51,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=6.72s]Epoch 0:  12%|█▏        | 1498/12384 [3:11:16<23:04:51,  7.63s/it, loss=0.0013, acc=0.9961, iter_time=7.33s]Epoch 0:  12%|█▏        | 1499/12384 [3:11:16<23:05:24,  7.64s/it, loss=0.0013, acc=0.9961, iter_time=7.33s]Epoch 0:  12%|█▏        | 1499/12384 [3:11:24<23:05:24,  7.64s/it, loss=0.0004, acc=1.0000, iter_time=9.29s]Epoch 0:  12%|█▏        | 1500/12384 [3:11:24<23:16:06,  7.70s/it, loss=0.0004, acc=1.0000, iter_time=9.29s]Epoch 0:  12%|█▏        | 1500/12384 [3:11:32<23:16:06,  7.70s/it, loss=0.0019, acc=0.9970, iter_time=5.91s]Epoch 0:  12%|█▏        | 1501/12384 [3:11:32<23:10:47,  7.67s/it, loss=0.0019, acc=0.9970, iter_time=5.91s]Epoch 0:  12%|█▏        | 1501/12384 [3:11:39<23:10:47,  7.67s/it, loss=0.0025, acc=0.9960, iter_time=9.13s]Epoch 0:  12%|█▏        | 1502/12384 [3:11:39<23:12:44,  7.68s/it, loss=0.0025, acc=0.9960, iter_time=9.13s]Epoch 0:  12%|█▏        | 1502/12384 [3:11:47<23:12:44,  7.68s/it, loss=0.0012, acc=0.9977, iter_time=7.72s]Epoch 0:  12%|█▏        | 1503/12384 [3:11:47<23:10:18,  7.67s/it, loss=0.0012, acc=0.9977, iter_time=7.72s]Epoch 0:  12%|█▏        | 1503/12384 [3:11:55<23:10:18,  7.67s/it, loss=0.0003, acc=1.0000, iter_time=7.56s]Epoch 0:  12%|█▏        | 1504/12384 [3:11:55<23:07:27,  7.65s/it, loss=0.0003, acc=1.0000, iter_time=7.56s]Epoch 0:  12%|█▏        | 1504/12384 [3:12:02<23:07:27,  7.65s/it, loss=0.0004, acc=1.0000, iter_time=7.67s]Epoch 0:  12%|█▏        | 1505/12384 [3:12:02<23:08:35,  7.66s/it, loss=0.0004, acc=1.0000, iter_time=7.67s]Epoch 0:  12%|█▏        | 1505/12384 [3:12:10<23:08:35,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=7.68s]Epoch 0:  12%|█▏        | 1506/12384 [3:12:10<23:10:07,  7.67s/it, loss=0.0002, acc=1.0000, iter_time=7.68s]Epoch 0:  12%|█▏        | 1506/12384 [3:12:18<23:10:07,  7.67s/it, loss=0.0021, acc=0.9969, iter_time=4.86s]Epoch 0:  12%|█▏        | 1507/12384 [3:12:18<23:25:05,  7.75s/it, loss=0.0021, acc=0.9969, iter_time=4.86s]Epoch 0:  12%|█▏        | 1507/12384 [3:12:26<23:25:05,  7.75s/it, loss=0.0007, acc=0.9990, iter_time=9.26s]Epoch 0:  12%|█▏        | 1508/12384 [3:12:26<23:17:48,  7.71s/it, loss=0.0007, acc=0.9990, iter_time=9.26s]Epoch 0:  12%|█▏        | 1508/12384 [3:12:33<23:17:48,  7.71s/it, loss=0.0008, acc=0.9986, iter_time=9.12s]Epoch 0:  12%|█▏        | 1509/12384 [3:12:33<23:12:32,  7.68s/it, loss=0.0008, acc=0.9986, iter_time=9.12s]Epoch 0:  12%|█▏        | 1509/12384 [3:12:41<23:12:32,  7.68s/it, loss=0.0013, acc=0.9969, iter_time=4.76s]Epoch 0:  12%|█▏        | 1510/12384 [3:12:41<23:09:02,  7.66s/it, loss=0.0013, acc=0.9969, iter_time=4.76s]Epoch 0:  12%|█▏        | 1510/12384 [3:12:49<23:09:02,  7.66s/it, loss=0.0007, acc=0.9972, iter_time=10.48s]Epoch 0:  12%|█▏        | 1511/12384 [3:12:49<23:08:10,  7.66s/it, loss=0.0007, acc=0.9972, iter_time=10.48s]Epoch 0:  12%|█▏        | 1511/12384 [3:12:56<23:08:10,  7.66s/it, loss=0.0009, acc=0.9984, iter_time=8.06s] Epoch 0:  12%|█▏        | 1512/12384 [3:12:56<23:08:56,  7.67s/it, loss=0.0009, acc=0.9984, iter_time=8.06s]Epoch 0:  12%|█▏        | 1512/12384 [3:13:04<23:08:56,  7.67s/it, loss=0.0002, acc=1.0000, iter_time=6.16s]Epoch 0:  12%|█▏        | 1513/12384 [3:13:04<23:07:30,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=6.16s]Epoch 0:  12%|█▏        | 1513/12384 [3:13:12<23:07:30,  7.66s/it, loss=0.0005, acc=0.9994, iter_time=8.88s]Epoch 0:  12%|█▏        | 1514/12384 [3:13:12<23:12:22,  7.69s/it, loss=0.0005, acc=0.9994, iter_time=8.88s]Epoch 0:  12%|█▏        | 1514/12384 [3:13:19<23:12:22,  7.69s/it, loss=0.0022, acc=0.9975, iter_time=7.63s]Epoch 0:  12%|█▏        | 1515/12384 [3:13:19<23:08:29,  7.66s/it, loss=0.0022, acc=0.9975, iter_time=7.63s]Epoch 0:  12%|█▏        | 1515/12384 [3:13:27<23:08:29,  7.66s/it, loss=0.0019, acc=0.9969, iter_time=7.62s]Epoch 0:  12%|█▏        | 1516/12384 [3:13:27<23:06:06,  7.65s/it, loss=0.0019, acc=0.9969, iter_time=7.62s]Epoch 0:  12%|█▏        | 1516/12384 [3:13:34<23:06:06,  7.65s/it, loss=0.0150, acc=0.9878, iter_time=7.63s]Epoch 0:  12%|█▏        | 1517/12384 [3:13:34<23:05:12,  7.65s/it, loss=0.0150, acc=0.9878, iter_time=7.63s]Epoch 0:  12%|█▏        | 1517/12384 [3:13:42<23:05:12,  7.65s/it, loss=0.0009, acc=0.9995, iter_time=4.04s]Epoch 0:  12%|█▏        | 1518/12384 [3:13:42<23:05:17,  7.65s/it, loss=0.0009, acc=0.9995, iter_time=4.04s]Epoch 0:  12%|█▏        | 1518/12384 [3:13:50<23:05:17,  7.65s/it, loss=0.0018, acc=0.9972, iter_time=11.22s]Epoch 0:  12%|█▏        | 1519/12384 [3:13:50<23:03:27,  7.64s/it, loss=0.0018, acc=0.9972, iter_time=11.22s]Epoch 0:  12%|█▏        | 1519/12384 [3:13:57<23:03:27,  7.64s/it, loss=0.0075, acc=0.9868, iter_time=7.63s] Epoch 0:  12%|█▏        | 1520/12384 [3:13:57<23:04:11,  7.64s/it, loss=0.0075, acc=0.9868, iter_time=7.63s]Epoch 0:  12%|█▏        | 1520/12384 [3:14:05<23:04:11,  7.64s/it, loss=0.0009, acc=0.9977, iter_time=7.66s]Epoch 0:  12%|█▏        | 1521/12384 [3:14:05<23:06:29,  7.66s/it, loss=0.0009, acc=0.9977, iter_time=7.66s]Epoch 0:  12%|█▏        | 1521/12384 [3:14:13<23:06:29,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=7.73s]Epoch 0:  12%|█▏        | 1522/12384 [3:14:13<23:04:56,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.73s]Epoch 0:  12%|█▏        | 1522/12384 [3:14:20<23:04:56,  7.65s/it, loss=0.0009, acc=0.9973, iter_time=7.64s]Epoch 0:  12%|█▏        | 1523/12384 [3:14:20<23:04:30,  7.65s/it, loss=0.0009, acc=0.9973, iter_time=7.64s]Epoch 0:  12%|█▏        | 1523/12384 [3:14:28<23:04:30,  7.65s/it, loss=0.0015, acc=0.9973, iter_time=5.06s]Epoch 0:  12%|█▏        | 1524/12384 [3:14:28<23:02:57,  7.64s/it, loss=0.0015, acc=0.9973, iter_time=5.06s]Epoch 0:  12%|█▏        | 1524/12384 [3:14:36<23:02:57,  7.64s/it, loss=0.0007, acc=0.9992, iter_time=10.18s]Epoch 0:  12%|█▏        | 1525/12384 [3:14:36<23:03:16,  7.64s/it, loss=0.0007, acc=0.9992, iter_time=10.18s]Epoch 0:  12%|█▏        | 1525/12384 [3:14:43<23:03:16,  7.64s/it, loss=0.0009, acc=0.9974, iter_time=7.64s] Epoch 0:  12%|█▏        | 1526/12384 [3:14:43<23:04:36,  7.65s/it, loss=0.0009, acc=0.9974, iter_time=7.64s]Epoch 0:  12%|█▏        | 1526/12384 [3:14:51<23:04:36,  7.65s/it, loss=0.0006, acc=1.0000, iter_time=7.67s]Epoch 0:  12%|█▏        | 1527/12384 [3:14:51<23:02:04,  7.64s/it, loss=0.0006, acc=1.0000, iter_time=7.67s]Epoch 0:  12%|█▏        | 1527/12384 [3:14:59<23:02:04,  7.64s/it, loss=0.0004, acc=1.0000, iter_time=8.00s]Epoch 0:  12%|█▏        | 1528/12384 [3:14:59<23:00:12,  7.63s/it, loss=0.0004, acc=1.0000, iter_time=8.00s]Epoch 0:  12%|█▏        | 1528/12384 [3:15:06<23:00:12,  7.63s/it, loss=0.0005, acc=0.9997, iter_time=5.68s]Epoch 0:  12%|█▏        | 1529/12384 [3:15:06<22:58:58,  7.62s/it, loss=0.0005, acc=0.9997, iter_time=5.68s]Epoch 0:  12%|█▏        | 1529/12384 [3:15:14<22:58:58,  7.62s/it, loss=0.0013, acc=0.9963, iter_time=7.34s]Epoch 0:  12%|█▏        | 1530/12384 [3:15:14<23:00:16,  7.63s/it, loss=0.0013, acc=0.9963, iter_time=7.34s]Epoch 0:  12%|█▏        | 1530/12384 [3:15:21<23:00:16,  7.63s/it, loss=0.0008, acc=0.9983, iter_time=9.45s]Epoch 0:  12%|█▏        | 1531/12384 [3:15:21<23:02:13,  7.64s/it, loss=0.0008, acc=0.9983, iter_time=9.45s]Epoch 0:  12%|█▏        | 1531/12384 [3:15:29<23:02:13,  7.64s/it, loss=0.0010, acc=0.9979, iter_time=5.89s]Epoch 0:  12%|█▏        | 1532/12384 [3:15:29<23:00:17,  7.63s/it, loss=0.0010, acc=0.9979, iter_time=5.89s]Epoch 0:  12%|█▏        | 1532/12384 [3:15:37<23:00:17,  7.63s/it, loss=0.0004, acc=0.9985, iter_time=9.64s]Epoch 0:  12%|█▏        | 1533/12384 [3:15:37<23:17:42,  7.73s/it, loss=0.0004, acc=0.9985, iter_time=9.64s]Epoch 0:  12%|█▏        | 1533/12384 [3:15:45<23:17:42,  7.73s/it, loss=0.0029, acc=0.9919, iter_time=7.68s]Epoch 0:  12%|█▏        | 1534/12384 [3:15:45<23:10:12,  7.69s/it, loss=0.0029, acc=0.9919, iter_time=7.68s]Epoch 0:  12%|█▏        | 1534/12384 [3:15:52<23:10:12,  7.69s/it, loss=0.0009, acc=0.9962, iter_time=6.68s]Epoch 0:  12%|█▏        | 1535/12384 [3:15:52<23:05:38,  7.66s/it, loss=0.0009, acc=0.9962, iter_time=6.68s]Epoch 0:  12%|█▏        | 1535/12384 [3:16:00<23:05:38,  7.66s/it, loss=0.0023, acc=0.9937, iter_time=8.92s]Epoch 0:  12%|█▏        | 1536/12384 [3:16:00<23:03:56,  7.65s/it, loss=0.0023, acc=0.9937, iter_time=8.92s]Epoch 0:  12%|█▏        | 1536/12384 [3:16:07<23:03:56,  7.65s/it, loss=0.0012, acc=1.0000, iter_time=7.24s]Epoch 0:  12%|█▏        | 1537/12384 [3:16:07<23:03:24,  7.65s/it, loss=0.0012, acc=1.0000, iter_time=7.24s]Epoch 0:  12%|█▏        | 1537/12384 [3:16:15<23:03:24,  7.65s/it, loss=0.0012, acc=0.9967, iter_time=7.35s]Epoch 0:  12%|█▏        | 1538/12384 [3:16:15<23:00:34,  7.64s/it, loss=0.0012, acc=0.9967, iter_time=7.35s]Epoch 0:  12%|█▏        | 1538/12384 [3:16:23<23:00:34,  7.64s/it, loss=0.0006, acc=0.9982, iter_time=7.90s]Epoch 0:  12%|█▏        | 1539/12384 [3:16:23<22:59:31,  7.63s/it, loss=0.0006, acc=0.9982, iter_time=7.90s]Epoch 0:  12%|█▏        | 1539/12384 [3:16:30<22:59:31,  7.63s/it, loss=0.0005, acc=1.0000, iter_time=7.62s]Epoch 0:  12%|█▏        | 1540/12384 [3:16:30<22:58:35,  7.63s/it, loss=0.0005, acc=1.0000, iter_time=7.62s]Epoch 0:  12%|█▏        | 1540/12384 [3:16:38<22:58:35,  7.63s/it, loss=0.0024, acc=0.9947, iter_time=7.61s]Epoch 0:  12%|█▏        | 1541/12384 [3:16:38<22:56:39,  7.62s/it, loss=0.0024, acc=0.9947, iter_time=7.61s]Epoch 0:  12%|█▏        | 1541/12384 [3:16:46<22:56:39,  7.62s/it, loss=0.0049, acc=0.9881, iter_time=7.60s]Epoch 0:  12%|█▏        | 1542/12384 [3:16:46<22:56:55,  7.62s/it, loss=0.0049, acc=0.9881, iter_time=7.60s]Epoch 0:  12%|█▏        | 1542/12384 [3:16:53<22:56:55,  7.62s/it, loss=0.0007, acc=0.9980, iter_time=7.62s]Epoch 0:  12%|█▏        | 1543/12384 [3:16:53<22:56:57,  7.62s/it, loss=0.0007, acc=0.9980, iter_time=7.62s]Epoch 0:  12%|█▏        | 1543/12384 [3:17:01<22:56:57,  7.62s/it, loss=0.0010, acc=0.9980, iter_time=8.13s]Epoch 0:  12%|█▏        | 1544/12384 [3:17:01<23:02:32,  7.65s/it, loss=0.0010, acc=0.9980, iter_time=8.13s]Epoch 0:  12%|█▏        | 1544/12384 [3:17:09<23:02:32,  7.65s/it, loss=0.0014, acc=0.9992, iter_time=7.23s]Epoch 0:  12%|█▏        | 1545/12384 [3:17:09<23:02:22,  7.65s/it, loss=0.0014, acc=0.9992, iter_time=7.23s]Epoch 0:  12%|█▏        | 1545/12384 [3:17:16<23:02:22,  7.65s/it, loss=0.0048, acc=0.9919, iter_time=7.66s]Epoch 0:  12%|█▏        | 1546/12384 [3:17:16<23:02:57,  7.66s/it, loss=0.0048, acc=0.9919, iter_time=7.66s]Epoch 0:  12%|█▏        | 1546/12384 [3:17:24<23:02:57,  7.66s/it, loss=0.0003, acc=0.9997, iter_time=6.71s]Epoch 0:  12%|█▏        | 1547/12384 [3:17:24<23:01:48,  7.65s/it, loss=0.0003, acc=0.9997, iter_time=6.71s]Epoch 0:  12%|█▏        | 1547/12384 [3:17:31<23:01:48,  7.65s/it, loss=0.0013, acc=0.9988, iter_time=8.60s]Epoch 0:  12%|█▎        | 1548/12384 [3:17:31<23:01:00,  7.65s/it, loss=0.0013, acc=0.9988, iter_time=8.60s]Epoch 0:  12%|█▎        | 1548/12384 [3:17:39<23:01:00,  7.65s/it, loss=0.0007, acc=0.9980, iter_time=7.61s]Epoch 0:  13%|█▎        | 1549/12384 [3:17:39<22:59:30,  7.64s/it, loss=0.0007, acc=0.9980, iter_time=7.61s]Epoch 0:  13%|█▎        | 1549/12384 [3:17:47<22:59:30,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=8.09s]Epoch 0:  13%|█▎        | 1550/12384 [3:17:47<23:01:30,  7.65s/it, loss=0.0003, acc=1.0000, iter_time=8.09s]Epoch 0:  13%|█▎        | 1550/12384 [3:17:54<23:01:30,  7.65s/it, loss=0.0006, acc=0.9977, iter_time=4.15s]Epoch 0:  13%|█▎        | 1551/12384 [3:17:54<23:01:58,  7.65s/it, loss=0.0006, acc=0.9977, iter_time=4.15s]Epoch 0:  13%|█▎        | 1551/12384 [3:18:02<23:01:58,  7.65s/it, loss=0.0007, acc=0.9989, iter_time=11.10s]Epoch 0:  13%|█▎        | 1552/12384 [3:18:02<23:00:29,  7.65s/it, loss=0.0007, acc=0.9989, iter_time=11.10s]Epoch 0:  13%|█▎        | 1552/12384 [3:18:10<23:00:29,  7.65s/it, loss=0.0006, acc=0.9980, iter_time=4.62s] Epoch 0:  13%|█▎        | 1553/12384 [3:18:10<23:00:36,  7.65s/it, loss=0.0006, acc=0.9980, iter_time=4.62s]Epoch 0:  13%|█▎        | 1553/12384 [3:18:17<23:00:36,  7.65s/it, loss=0.0007, acc=0.9998, iter_time=7.69s]Epoch 0:  13%|█▎        | 1554/12384 [3:18:17<23:01:50,  7.66s/it, loss=0.0007, acc=0.9998, iter_time=7.69s]Epoch 0:  13%|█▎        | 1554/12384 [3:18:25<23:01:50,  7.66s/it, loss=0.0211, acc=0.9780, iter_time=8.81s]Epoch 0:  13%|█▎        | 1555/12384 [3:18:25<22:59:00,  7.64s/it, loss=0.0211, acc=0.9780, iter_time=8.81s]Epoch 0:  13%|█▎        | 1555/12384 [3:18:33<22:59:00,  7.64s/it, loss=0.0010, acc=0.9978, iter_time=9.05s]Epoch 0:  13%|█▎        | 1556/12384 [3:18:33<22:57:38,  7.63s/it, loss=0.0010, acc=0.9978, iter_time=9.05s]Epoch 0:  13%|█▎        | 1556/12384 [3:18:40<22:57:38,  7.63s/it, loss=0.0010, acc=0.9950, iter_time=4.84s]Epoch 0:  13%|█▎        | 1557/12384 [3:18:40<22:55:52,  7.62s/it, loss=0.0010, acc=0.9950, iter_time=4.84s]Epoch 0:  13%|█▎        | 1557/12384 [3:18:48<22:55:52,  7.62s/it, loss=0.0012, acc=0.9998, iter_time=7.08s]Epoch 0:  13%|█▎        | 1558/12384 [3:18:48<22:55:40,  7.62s/it, loss=0.0012, acc=0.9998, iter_time=7.08s]Epoch 0:  13%|█▎        | 1558/12384 [3:18:55<22:55:40,  7.62s/it, loss=0.0007, acc=0.9967, iter_time=7.53s]Epoch 0:  13%|█▎        | 1559/12384 [3:18:55<22:56:06,  7.63s/it, loss=0.0007, acc=0.9967, iter_time=7.53s]Epoch 0:  13%|█▎        | 1559/12384 [3:19:03<22:56:06,  7.63s/it, loss=0.0005, acc=0.9983, iter_time=11.71s]Epoch 0:  13%|█▎        | 1560/12384 [3:19:03<23:11:11,  7.71s/it, loss=0.0005, acc=0.9983, iter_time=11.71s]Epoch 0:  13%|█▎        | 1560/12384 [3:19:11<23:11:11,  7.71s/it, loss=0.0009, acc=0.9979, iter_time=7.21s] Epoch 0:  13%|█▎        | 1561/12384 [3:19:11<23:06:16,  7.69s/it, loss=0.0009, acc=0.9979, iter_time=7.21s]Epoch 0:  13%|█▎        | 1561/12384 [3:19:19<23:06:16,  7.69s/it, loss=0.0013, acc=0.9957, iter_time=5.10s]Epoch 0:  13%|█▎        | 1562/12384 [3:19:19<23:01:29,  7.66s/it, loss=0.0013, acc=0.9957, iter_time=5.10s]Epoch 0:  13%|█▎        | 1562/12384 [3:19:26<23:01:29,  7.66s/it, loss=0.0006, acc=0.9981, iter_time=10.14s]Epoch 0:  13%|█▎        | 1563/12384 [3:19:26<22:59:33,  7.65s/it, loss=0.0006, acc=0.9981, iter_time=10.14s]Epoch 0:  13%|█▎        | 1563/12384 [3:19:34<22:59:33,  7.65s/it, loss=0.0033, acc=0.9926, iter_time=4.61s] Epoch 0:  13%|█▎        | 1564/12384 [3:19:34<22:58:37,  7.64s/it, loss=0.0033, acc=0.9926, iter_time=4.61s]Epoch 0:  13%|█▎        | 1564/12384 [3:19:41<22:58:37,  7.64s/it, loss=0.0080, acc=0.9841, iter_time=10.64s]Epoch 0:  13%|█▎        | 1565/12384 [3:19:41<22:56:46,  7.64s/it, loss=0.0080, acc=0.9841, iter_time=10.64s]Epoch 0:  13%|█▎        | 1565/12384 [3:19:49<22:56:46,  7.64s/it, loss=0.0042, acc=0.9969, iter_time=7.63s] Epoch 0:  13%|█▎        | 1566/12384 [3:19:49<22:56:44,  7.64s/it, loss=0.0042, acc=0.9969, iter_time=7.63s]Epoch 0:  13%|█▎        | 1566/12384 [3:19:57<22:56:44,  7.64s/it, loss=0.0015, acc=0.9952, iter_time=5.84s]Epoch 0:  13%|█▎        | 1567/12384 [3:19:57<22:55:26,  7.63s/it, loss=0.0015, acc=0.9952, iter_time=5.84s]Epoch 0:  13%|█▎        | 1567/12384 [3:20:04<22:55:26,  7.63s/it, loss=0.0007, acc=0.9999, iter_time=9.78s]Epoch 0:  13%|█▎        | 1568/12384 [3:20:04<22:53:18,  7.62s/it, loss=0.0007, acc=0.9999, iter_time=9.78s]Epoch 0:  13%|█▎        | 1568/12384 [3:20:12<22:53:18,  7.62s/it, loss=0.0009, acc=0.9978, iter_time=3.86s]Epoch 0:  13%|█▎        | 1569/12384 [3:20:12<22:56:36,  7.64s/it, loss=0.0009, acc=0.9978, iter_time=3.86s]Epoch 0:  13%|█▎        | 1569/12384 [3:20:20<22:56:36,  7.64s/it, loss=0.0008, acc=0.9954, iter_time=9.60s]Epoch 0:  13%|█▎        | 1570/12384 [3:20:20<22:57:19,  7.64s/it, loss=0.0008, acc=0.9954, iter_time=9.60s]Epoch 0:  13%|█▎        | 1570/12384 [3:20:27<22:57:19,  7.64s/it, loss=0.0051, acc=0.9882, iter_time=7.57s]Epoch 0:  13%|█▎        | 1571/12384 [3:20:27<22:57:35,  7.64s/it, loss=0.0051, acc=0.9882, iter_time=7.57s]Epoch 0:  13%|█▎        | 1571/12384 [3:20:35<22:57:35,  7.64s/it, loss=0.0013, acc=0.9959, iter_time=9.16s]Epoch 0:  13%|█▎        | 1572/12384 [3:20:35<22:55:31,  7.63s/it, loss=0.0013, acc=0.9959, iter_time=9.16s]Epoch 0:  13%|█▎        | 1572/12384 [3:20:43<22:55:31,  7.63s/it, loss=0.0010, acc=0.9984, iter_time=7.62s]Epoch 0:  13%|█▎        | 1573/12384 [3:20:43<22:53:17,  7.62s/it, loss=0.0010, acc=0.9984, iter_time=7.62s]Epoch 0:  13%|█▎        | 1573/12384 [3:20:50<22:53:17,  7.62s/it, loss=0.0005, acc=0.9993, iter_time=4.76s]Epoch 0:  13%|█▎        | 1574/12384 [3:20:50<22:53:55,  7.63s/it, loss=0.0005, acc=0.9993, iter_time=4.76s]Epoch 0:  13%|█▎        | 1574/12384 [3:20:58<22:53:55,  7.63s/it, loss=0.0005, acc=0.9997, iter_time=10.49s]Epoch 0:  13%|█▎        | 1575/12384 [3:20:58<22:56:57,  7.64s/it, loss=0.0005, acc=0.9997, iter_time=10.49s]Epoch 0:  13%|█▎        | 1575/12384 [3:21:05<22:56:57,  7.64s/it, loss=0.0028, acc=0.9960, iter_time=8.08s] Epoch 0:  13%|█▎        | 1576/12384 [3:21:05<22:56:33,  7.64s/it, loss=0.0028, acc=0.9960, iter_time=8.08s]Epoch 0:  13%|█▎        | 1576/12384 [3:21:13<22:56:33,  7.64s/it, loss=0.0037, acc=0.9941, iter_time=7.23s]Epoch 0:  13%|█▎        | 1577/12384 [3:21:13<22:56:12,  7.64s/it, loss=0.0037, acc=0.9941, iter_time=7.23s]Epoch 0:  13%|█▎        | 1577/12384 [3:21:21<22:56:12,  7.64s/it, loss=0.0005, acc=0.9979, iter_time=7.63s]Epoch 0:  13%|█▎        | 1578/12384 [3:21:21<22:54:41,  7.63s/it, loss=0.0005, acc=0.9979, iter_time=7.63s]Epoch 0:  13%|█▎        | 1578/12384 [3:21:28<22:54:41,  7.63s/it, loss=0.0009, acc=0.9978, iter_time=6.66s]Epoch 0:  13%|█▎        | 1579/12384 [3:21:28<22:53:32,  7.63s/it, loss=0.0009, acc=0.9978, iter_time=6.66s]Epoch 0:  13%|█▎        | 1579/12384 [3:21:36<22:53:32,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=8.27s]Epoch 0:  13%|█▎        | 1580/12384 [3:21:36<22:51:45,  7.62s/it, loss=0.0003, acc=1.0000, iter_time=8.27s]Epoch 0:  13%|█▎        | 1580/12384 [3:21:44<22:51:45,  7.62s/it, loss=0.0041, acc=0.9935, iter_time=6.18s]Epoch 0:  13%|█▎        | 1581/12384 [3:21:44<22:50:30,  7.61s/it, loss=0.0041, acc=0.9935, iter_time=6.18s]Epoch 0:  13%|█▎        | 1581/12384 [3:21:51<22:50:30,  7.61s/it, loss=0.0013, acc=0.9954, iter_time=9.33s]Epoch 0:  13%|█▎        | 1582/12384 [3:21:51<22:51:13,  7.62s/it, loss=0.0013, acc=0.9954, iter_time=9.33s]Epoch 0:  13%|█▎        | 1582/12384 [3:21:59<22:51:13,  7.62s/it, loss=0.0008, acc=0.9990, iter_time=7.63s]Epoch 0:  13%|█▎        | 1583/12384 [3:21:59<22:51:47,  7.62s/it, loss=0.0008, acc=0.9990, iter_time=7.63s]Epoch 0:  13%|█▎        | 1583/12384 [3:22:06<22:51:47,  7.62s/it, loss=0.0012, acc=0.9966, iter_time=8.01s]Epoch 0:  13%|█▎        | 1584/12384 [3:22:06<22:52:57,  7.63s/it, loss=0.0012, acc=0.9966, iter_time=8.01s]Epoch 0:  13%|█▎        | 1584/12384 [3:22:14<22:52:57,  7.63s/it, loss=0.0004, acc=1.0000, iter_time=7.29s]Epoch 0:  13%|█▎        | 1585/12384 [3:22:14<22:54:10,  7.63s/it, loss=0.0004, acc=1.0000, iter_time=7.29s]Epoch 0:  13%|█▎        | 1585/12384 [3:22:22<22:54:10,  7.63s/it, loss=0.0015, acc=0.9975, iter_time=5.60s]Epoch 0:  13%|█▎        | 1586/12384 [3:22:22<23:11:30,  7.73s/it, loss=0.0015, acc=0.9975, iter_time=5.60s]Epoch 0:  13%|█▎        | 1586/12384 [3:22:30<23:11:30,  7.73s/it, loss=0.0004, acc=0.9998, iter_time=9.96s]Epoch 0:  13%|█▎        | 1587/12384 [3:22:30<23:05:37,  7.70s/it, loss=0.0004, acc=0.9998, iter_time=9.96s]Epoch 0:  13%|█▎        | 1587/12384 [3:22:37<23:05:37,  7.70s/it, loss=0.0005, acc=0.9980, iter_time=7.70s]Epoch 0:  13%|█▎        | 1588/12384 [3:22:37<23:04:33,  7.69s/it, loss=0.0005, acc=0.9980, iter_time=7.70s]Epoch 0:  13%|█▎        | 1588/12384 [3:22:45<23:04:33,  7.69s/it, loss=0.0005, acc=0.9972, iter_time=6.11s]Epoch 0:  13%|█▎        | 1589/12384 [3:22:45<23:02:00,  7.68s/it, loss=0.0005, acc=0.9972, iter_time=6.11s]Epoch 0:  13%|█▎        | 1589/12384 [3:22:53<23:02:00,  7.68s/it, loss=0.0051, acc=0.9887, iter_time=9.14s]Epoch 0:  13%|█▎        | 1590/12384 [3:22:53<22:57:25,  7.66s/it, loss=0.0051, acc=0.9887, iter_time=9.14s]Epoch 0:  13%|█▎        | 1590/12384 [3:23:00<22:57:25,  7.66s/it, loss=0.0006, acc=0.9992, iter_time=7.62s]Epoch 0:  13%|█▎        | 1591/12384 [3:23:00<23:00:08,  7.67s/it, loss=0.0006, acc=0.9992, iter_time=7.62s]Epoch 0:  13%|█▎        | 1591/12384 [3:23:08<23:00:08,  7.67s/it, loss=0.0019, acc=0.9985, iter_time=7.65s]Epoch 0:  13%|█▎        | 1592/12384 [3:23:08<22:57:23,  7.66s/it, loss=0.0019, acc=0.9985, iter_time=7.65s]Epoch 0:  13%|█▎        | 1592/12384 [3:23:16<22:57:23,  7.66s/it, loss=0.0057, acc=0.9909, iter_time=7.66s]Epoch 0:  13%|█▎        | 1593/12384 [3:23:16<22:56:01,  7.65s/it, loss=0.0057, acc=0.9909, iter_time=7.66s]Epoch 0:  13%|█▎        | 1593/12384 [3:23:23<22:56:01,  7.65s/it, loss=0.0022, acc=0.9970, iter_time=7.64s]Epoch 0:  13%|█▎        | 1594/12384 [3:23:23<22:54:34,  7.64s/it, loss=0.0022, acc=0.9970, iter_time=7.64s]Epoch 0:  13%|█▎        | 1594/12384 [3:23:31<22:54:34,  7.64s/it, loss=0.0005, acc=0.9996, iter_time=5.52s]Epoch 0:  13%|█▎        | 1595/12384 [3:23:31<22:56:24,  7.65s/it, loss=0.0005, acc=0.9996, iter_time=5.52s]Epoch 0:  13%|█▎        | 1595/12384 [3:23:39<22:56:24,  7.65s/it, loss=0.0004, acc=1.0000, iter_time=9.78s]Epoch 0:  13%|█▎        | 1596/12384 [3:23:39<22:54:38,  7.65s/it, loss=0.0004, acc=1.0000, iter_time=9.78s]Epoch 0:  13%|█▎        | 1596/12384 [3:23:46<22:54:38,  7.65s/it, loss=0.0013, acc=0.9976, iter_time=7.62s]Epoch 0:  13%|█▎        | 1597/12384 [3:23:46<22:54:46,  7.65s/it, loss=0.0013, acc=0.9976, iter_time=7.62s]Epoch 0:  13%|█▎        | 1597/12384 [3:23:54<22:54:46,  7.65s/it, loss=0.0027, acc=0.9962, iter_time=5.05s]Epoch 0:  13%|█▎        | 1598/12384 [3:23:54<22:52:44,  7.64s/it, loss=0.0027, acc=0.9962, iter_time=5.05s]Epoch 0:  13%|█▎        | 1598/12384 [3:24:01<22:52:44,  7.64s/it, loss=0.0005, acc=0.9994, iter_time=7.71s]Epoch 0:  13%|█▎        | 1599/12384 [3:24:01<22:54:51,  7.65s/it, loss=0.0005, acc=0.9994, iter_time=7.71s]Epoch 0:  13%|█▎        | 1599/12384 [3:24:09<22:54:51,  7.65s/it, loss=0.0029, acc=0.9943, iter_time=10.60s]Epoch 0:  13%|█▎        | 1600/12384 [3:24:09<22:53:36,  7.64s/it, loss=0.0029, acc=0.9943, iter_time=10.60s]Epoch 0:  13%|█▎        | 1600/12384 [3:24:17<22:53:36,  7.64s/it, loss=0.0007, acc=0.9980, iter_time=7.20s] Epoch 0:  13%|█▎        | 1601/12384 [3:24:17<22:50:58,  7.63s/it, loss=0.0007, acc=0.9980, iter_time=7.20s]Epoch 0:  13%|█▎        | 1601/12384 [3:24:24<22:50:58,  7.63s/it, loss=0.0022, acc=0.9979, iter_time=7.61s]Epoch 0:  13%|█▎        | 1602/12384 [3:24:24<22:50:03,  7.62s/it, loss=0.0022, acc=0.9979, iter_time=7.61s]Epoch 0:  13%|█▎        | 1602/12384 [3:24:32<22:50:03,  7.62s/it, loss=0.0007, acc=0.9977, iter_time=7.61s]Epoch 0:  13%|█▎        | 1603/12384 [3:24:32<22:50:23,  7.63s/it, loss=0.0007, acc=0.9977, iter_time=7.61s]Epoch 0:  13%|█▎        | 1603/12384 [3:24:40<22:50:23,  7.63s/it, loss=0.0016, acc=0.9905, iter_time=4.61s]Epoch 0:  13%|█▎        | 1604/12384 [3:24:40<22:59:01,  7.68s/it, loss=0.0016, acc=0.9905, iter_time=4.61s]Epoch 0:  13%|█▎        | 1604/12384 [3:24:47<22:59:01,  7.68s/it, loss=0.0010, acc=0.9991, iter_time=10.81s]Epoch 0:  13%|█▎        | 1605/12384 [3:24:47<22:59:29,  7.68s/it, loss=0.0010, acc=0.9991, iter_time=10.81s]Epoch 0:  13%|█▎        | 1605/12384 [3:24:55<22:59:29,  7.68s/it, loss=0.0037, acc=0.9920, iter_time=7.69s] Epoch 0:  13%|█▎        | 1606/12384 [3:24:55<22:58:01,  7.67s/it, loss=0.0037, acc=0.9920, iter_time=7.69s]Epoch 0:  13%|█▎        | 1606/12384 [3:25:03<22:58:01,  7.67s/it, loss=0.0025, acc=0.9956, iter_time=7.66s]Epoch 0:  13%|█▎        | 1607/12384 [3:25:03<22:56:18,  7.66s/it, loss=0.0025, acc=0.9956, iter_time=7.66s]Epoch 0:  13%|█▎        | 1607/12384 [3:25:10<22:56:18,  7.66s/it, loss=0.0010, acc=0.9992, iter_time=8.02s]Epoch 0:  13%|█▎        | 1608/12384 [3:25:10<22:55:38,  7.66s/it, loss=0.0010, acc=0.9992, iter_time=8.02s]Epoch 0:  13%|█▎        | 1608/12384 [3:25:18<22:55:38,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=7.26s]Epoch 0:  13%|█▎        | 1609/12384 [3:25:18<22:54:02,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.26s]Epoch 0:  13%|█▎        | 1609/12384 [3:25:26<22:54:02,  7.65s/it, loss=0.0033, acc=0.9928, iter_time=7.64s]Epoch 0:  13%|█▎        | 1610/12384 [3:25:26<22:52:26,  7.64s/it, loss=0.0033, acc=0.9928, iter_time=7.64s]Epoch 0:  13%|█▎        | 1610/12384 [3:25:33<22:52:26,  7.64s/it, loss=0.0009, acc=0.9998, iter_time=4.09s]Epoch 0:  13%|█▎        | 1611/12384 [3:25:33<22:52:51,  7.65s/it, loss=0.0009, acc=0.9998, iter_time=4.09s]Epoch 0:  13%|█▎        | 1611/12384 [3:25:41<22:52:51,  7.65s/it, loss=0.0007, acc=0.9997, iter_time=11.18s]Epoch 0:  13%|█▎        | 1612/12384 [3:25:41<22:51:08,  7.64s/it, loss=0.0007, acc=0.9997, iter_time=11.18s]Epoch 0:  13%|█▎        | 1612/12384 [3:25:49<22:51:08,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=7.94s] Epoch 0:  13%|█▎        | 1613/12384 [3:25:49<23:12:34,  7.76s/it, loss=0.0003, acc=1.0000, iter_time=7.94s]Epoch 0:  13%|█▎        | 1613/12384 [3:25:57<23:12:34,  7.76s/it, loss=0.0050, acc=0.9920, iter_time=7.71s]Epoch 0:  13%|█▎        | 1614/12384 [3:25:57<23:05:10,  7.72s/it, loss=0.0050, acc=0.9920, iter_time=7.71s]Epoch 0:  13%|█▎        | 1614/12384 [3:26:04<23:05:10,  7.72s/it, loss=0.0006, acc=0.9984, iter_time=7.62s]Epoch 0:  13%|█▎        | 1615/12384 [3:26:04<22:59:45,  7.69s/it, loss=0.0006, acc=0.9984, iter_time=7.62s]Epoch 0:  13%|█▎        | 1615/12384 [3:26:12<22:59:45,  7.69s/it, loss=0.0011, acc=0.9966, iter_time=7.99s]Epoch 0:  13%|█▎        | 1616/12384 [3:26:12<22:55:11,  7.66s/it, loss=0.0011, acc=0.9966, iter_time=7.99s]Epoch 0:  13%|█▎        | 1616/12384 [3:26:19<22:55:11,  7.66s/it, loss=0.0033, acc=0.9960, iter_time=7.23s]Epoch 0:  13%|█▎        | 1617/12384 [3:26:19<22:53:37,  7.65s/it, loss=0.0033, acc=0.9960, iter_time=7.23s]Epoch 0:  13%|█▎        | 1617/12384 [3:26:27<22:53:37,  7.65s/it, loss=0.0006, acc=0.9975, iter_time=7.64s]Epoch 0:  13%|█▎        | 1618/12384 [3:26:27<22:55:24,  7.67s/it, loss=0.0006, acc=0.9975, iter_time=7.64s]Epoch 0:  13%|█▎        | 1618/12384 [3:26:35<22:55:24,  7.67s/it, loss=0.0003, acc=1.0000, iter_time=4.83s]Epoch 0:  13%|█▎        | 1619/12384 [3:26:35<22:53:44,  7.66s/it, loss=0.0003, acc=1.0000, iter_time=4.83s]Epoch 0:  13%|█▎        | 1619/12384 [3:26:42<22:53:44,  7.66s/it, loss=0.0040, acc=0.9900, iter_time=10.22s]Epoch 0:  13%|█▎        | 1620/12384 [3:26:42<22:53:00,  7.65s/it, loss=0.0040, acc=0.9900, iter_time=10.22s]Epoch 0:  13%|█▎        | 1620/12384 [3:26:50<22:53:00,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=4.39s] Epoch 0:  13%|█▎        | 1621/12384 [3:26:50<22:52:43,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=4.39s]Epoch 0:  13%|█▎        | 1621/12384 [3:26:58<22:52:43,  7.65s/it, loss=0.0013, acc=0.9965, iter_time=7.15s]Epoch 0:  13%|█▎        | 1622/12384 [3:26:58<22:51:56,  7.65s/it, loss=0.0013, acc=0.9965, iter_time=7.15s]Epoch 0:  13%|█▎        | 1622/12384 [3:27:05<22:51:56,  7.65s/it, loss=0.0041, acc=0.9894, iter_time=8.60s]Epoch 0:  13%|█▎        | 1623/12384 [3:27:05<22:50:39,  7.64s/it, loss=0.0041, acc=0.9894, iter_time=8.60s]Epoch 0:  13%|█▎        | 1623/12384 [3:27:13<22:50:39,  7.64s/it, loss=0.0009, acc=0.9983, iter_time=10.73s]Epoch 0:  13%|█▎        | 1624/12384 [3:27:13<22:53:37,  7.66s/it, loss=0.0009, acc=0.9983, iter_time=10.73s]Epoch 0:  13%|█▎        | 1624/12384 [3:27:21<22:53:37,  7.66s/it, loss=0.0004, acc=0.9989, iter_time=5.31s] Epoch 0:  13%|█▎        | 1625/12384 [3:27:21<22:50:47,  7.64s/it, loss=0.0004, acc=0.9989, iter_time=5.31s]Epoch 0:  13%|█▎        | 1625/12384 [3:27:28<22:50:47,  7.64s/it, loss=0.0005, acc=0.9993, iter_time=9.95s]Epoch 0:  13%|█▎        | 1626/12384 [3:27:28<22:49:14,  7.64s/it, loss=0.0005, acc=0.9993, iter_time=9.95s]Epoch 0:  13%|█▎        | 1626/12384 [3:27:36<22:49:14,  7.64s/it, loss=0.0032, acc=0.9947, iter_time=6.50s]Epoch 0:  13%|█▎        | 1627/12384 [3:27:36<22:47:16,  7.63s/it, loss=0.0032, acc=0.9947, iter_time=6.50s]Epoch 0:  13%|█▎        | 1627/12384 [3:27:43<22:47:16,  7.63s/it, loss=0.0011, acc=0.9979, iter_time=8.73s]Epoch 0:  13%|█▎        | 1628/12384 [3:27:43<22:45:29,  7.62s/it, loss=0.0011, acc=0.9979, iter_time=8.73s]Epoch 0:  13%|█▎        | 1628/12384 [3:27:51<22:45:29,  7.62s/it, loss=0.0011, acc=0.9975, iter_time=7.61s]Epoch 0:  13%|█▎        | 1629/12384 [3:27:51<22:44:32,  7.61s/it, loss=0.0011, acc=0.9975, iter_time=7.61s]Epoch 0:  13%|█▎        | 1629/12384 [3:27:59<22:44:32,  7.61s/it, loss=0.0002, acc=0.9999, iter_time=7.59s]Epoch 0:  13%|█▎        | 1630/12384 [3:27:59<22:45:03,  7.62s/it, loss=0.0002, acc=0.9999, iter_time=7.59s]Epoch 0:  13%|█▎        | 1630/12384 [3:28:06<22:45:03,  7.62s/it, loss=0.0002, acc=1.0000, iter_time=7.62s]Epoch 0:  13%|█▎        | 1631/12384 [3:28:06<22:45:05,  7.62s/it, loss=0.0002, acc=1.0000, iter_time=7.62s]Epoch 0:  13%|█▎        | 1631/12384 [3:28:14<22:45:05,  7.62s/it, loss=0.0061, acc=0.9873, iter_time=7.61s]Epoch 0:  13%|█▎        | 1632/12384 [3:28:14<22:46:33,  7.63s/it, loss=0.0061, acc=0.9873, iter_time=7.61s]Epoch 0:  13%|█▎        | 1632/12384 [3:28:22<22:46:33,  7.63s/it, loss=0.0006, acc=0.9977, iter_time=5.04s]Epoch 0:  13%|█▎        | 1633/12384 [3:28:22<22:46:23,  7.63s/it, loss=0.0006, acc=0.9977, iter_time=5.04s]Epoch 0:  13%|█▎        | 1633/12384 [3:28:29<22:46:23,  7.63s/it, loss=0.0004, acc=0.9996, iter_time=10.24s]Epoch 0:  13%|█▎        | 1634/12384 [3:28:29<22:46:01,  7.62s/it, loss=0.0004, acc=0.9996, iter_time=10.24s]Epoch 0:  13%|█▎        | 1634/12384 [3:28:37<22:46:01,  7.62s/it, loss=0.0006, acc=0.9991, iter_time=7.61s] Epoch 0:  13%|█▎        | 1635/12384 [3:28:37<22:45:36,  7.62s/it, loss=0.0006, acc=0.9991, iter_time=7.61s]Epoch 0:  13%|█▎        | 1635/12384 [3:28:44<22:45:36,  7.62s/it, loss=0.0010, acc=0.9962, iter_time=5.55s]Epoch 0:  13%|█▎        | 1636/12384 [3:28:44<22:45:11,  7.62s/it, loss=0.0010, acc=0.9962, iter_time=5.55s]Epoch 0:  13%|█▎        | 1636/12384 [3:28:52<22:45:11,  7.62s/it, loss=0.0028, acc=0.9894, iter_time=9.70s]Epoch 0:  13%|█▎        | 1637/12384 [3:28:52<22:44:03,  7.62s/it, loss=0.0028, acc=0.9894, iter_time=9.70s]Epoch 0:  13%|█▎        | 1637/12384 [3:29:00<22:44:03,  7.62s/it, loss=0.0014, acc=0.9971, iter_time=7.61s]Epoch 0:  13%|█▎        | 1638/12384 [3:29:00<22:44:45,  7.62s/it, loss=0.0014, acc=0.9971, iter_time=7.61s]Epoch 0:  13%|█▎        | 1638/12384 [3:29:08<22:44:45,  7.62s/it, loss=0.0010, acc=0.9967, iter_time=7.96s]Epoch 0:  13%|█▎        | 1639/12384 [3:29:08<23:04:34,  7.73s/it, loss=0.0010, acc=0.9967, iter_time=7.96s]Epoch 0:  13%|█▎        | 1639/12384 [3:29:15<23:04:34,  7.73s/it, loss=0.0004, acc=0.9998, iter_time=8.03s]Epoch 0:  13%|█▎        | 1640/12384 [3:29:15<23:00:18,  7.71s/it, loss=0.0004, acc=0.9998, iter_time=8.03s]Epoch 0:  13%|█▎        | 1640/12384 [3:29:23<23:00:18,  7.71s/it, loss=0.0013, acc=0.9970, iter_time=6.33s]Epoch 0:  13%|█▎        | 1641/12384 [3:29:23<22:53:58,  7.67s/it, loss=0.0013, acc=0.9970, iter_time=6.33s]Epoch 0:  13%|█▎        | 1641/12384 [3:29:30<22:53:58,  7.67s/it, loss=0.0004, acc=0.9979, iter_time=6.73s]Epoch 0:  13%|█▎        | 1642/12384 [3:29:30<22:49:37,  7.65s/it, loss=0.0004, acc=0.9979, iter_time=6.73s]Epoch 0:  13%|█▎        | 1642/12384 [3:29:38<22:49:37,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.34s]Epoch 0:  13%|█▎        | 1643/12384 [3:29:38<22:47:35,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.34s]Epoch 0:  13%|█▎        | 1643/12384 [3:29:46<22:47:35,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=5.84s]Epoch 0:  13%|█▎        | 1644/12384 [3:29:46<22:47:35,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=5.84s]Epoch 0:  13%|█▎        | 1644/12384 [3:29:53<22:47:35,  7.64s/it, loss=0.0009, acc=0.9970, iter_time=9.22s]Epoch 0:  13%|█▎        | 1645/12384 [3:29:53<22:47:55,  7.64s/it, loss=0.0009, acc=0.9970, iter_time=9.22s]Epoch 0:  13%|█▎        | 1645/12384 [3:30:01<22:47:55,  7.64s/it, loss=0.0016, acc=0.9929, iter_time=6.84s]Epoch 0:  13%|█▎        | 1646/12384 [3:30:01<22:47:12,  7.64s/it, loss=0.0016, acc=0.9929, iter_time=6.84s]Epoch 0:  13%|█▎        | 1646/12384 [3:30:09<22:47:12,  7.64s/it, loss=0.0028, acc=0.9952, iter_time=9.76s]Epoch 0:  13%|█▎        | 1647/12384 [3:30:09<22:46:32,  7.64s/it, loss=0.0028, acc=0.9952, iter_time=9.76s]Epoch 0:  13%|█▎        | 1647/12384 [3:30:16<22:46:32,  7.64s/it, loss=0.0043, acc=0.9931, iter_time=8.54s]Epoch 0:  13%|█▎        | 1648/12384 [3:30:16<22:45:12,  7.63s/it, loss=0.0043, acc=0.9931, iter_time=8.54s]Epoch 0:  13%|█▎        | 1648/12384 [3:30:24<22:45:12,  7.63s/it, loss=0.0085, acc=0.9804, iter_time=4.62s]Epoch 0:  13%|█▎        | 1649/12384 [3:30:24<22:48:40,  7.65s/it, loss=0.0085, acc=0.9804, iter_time=4.62s]Epoch 0:  13%|█▎        | 1649/12384 [3:30:32<22:48:40,  7.65s/it, loss=0.0005, acc=0.9961, iter_time=11.15s]Epoch 0:  13%|█▎        | 1650/12384 [3:30:32<22:47:24,  7.64s/it, loss=0.0005, acc=0.9961, iter_time=11.15s]Epoch 0:  13%|█▎        | 1650/12384 [3:30:39<22:47:24,  7.64s/it, loss=0.0027, acc=0.9919, iter_time=7.20s] Epoch 0:  13%|█▎        | 1651/12384 [3:30:39<22:46:08,  7.64s/it, loss=0.0027, acc=0.9919, iter_time=7.20s]Epoch 0:  13%|█▎        | 1651/12384 [3:30:47<22:46:08,  7.64s/it, loss=0.0033, acc=0.9895, iter_time=7.63s]Epoch 0:  13%|█▎        | 1652/12384 [3:30:47<22:49:42,  7.66s/it, loss=0.0033, acc=0.9895, iter_time=7.63s]Epoch 0:  13%|█▎        | 1652/12384 [3:30:55<22:49:42,  7.66s/it, loss=0.0012, acc=0.9998, iter_time=5.12s]Epoch 0:  13%|█▎        | 1653/12384 [3:30:55<22:47:25,  7.65s/it, loss=0.0012, acc=0.9998, iter_time=5.12s]Epoch 0:  13%|█▎        | 1653/12384 [3:31:02<22:47:25,  7.65s/it, loss=0.0003, acc=1.0000, iter_time=8.16s]Epoch 0:  13%|█▎        | 1654/12384 [3:31:02<22:45:15,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=8.16s]Epoch 0:  13%|█▎        | 1654/12384 [3:31:10<22:45:15,  7.63s/it, loss=0.0006, acc=0.9980, iter_time=8.72s]Epoch 0:  13%|█▎        | 1655/12384 [3:31:10<22:45:43,  7.64s/it, loss=0.0006, acc=0.9980, iter_time=8.72s]Epoch 0:  13%|█▎        | 1655/12384 [3:31:17<22:45:43,  7.64s/it, loss=0.0014, acc=0.9987, iter_time=9.02s]Epoch 0:  13%|█▎        | 1656/12384 [3:31:17<22:47:03,  7.65s/it, loss=0.0014, acc=0.9987, iter_time=9.02s]Epoch 0:  13%|█▎        | 1656/12384 [3:31:25<22:47:03,  7.65s/it, loss=0.0010, acc=0.9989, iter_time=7.24s]Epoch 0:  13%|█▎        | 1657/12384 [3:31:25<22:45:31,  7.64s/it, loss=0.0010, acc=0.9989, iter_time=7.24s]Epoch 0:  13%|█▎        | 1657/12384 [3:31:33<22:45:31,  7.64s/it, loss=0.0026, acc=0.9958, iter_time=4.31s]Epoch 0:  13%|█▎        | 1658/12384 [3:31:33<22:45:51,  7.64s/it, loss=0.0026, acc=0.9958, iter_time=4.31s]Epoch 0:  13%|█▎        | 1658/12384 [3:31:40<22:45:51,  7.64s/it, loss=0.0015, acc=0.9970, iter_time=9.70s]Epoch 0:  13%|█▎        | 1659/12384 [3:31:40<22:45:10,  7.64s/it, loss=0.0015, acc=0.9970, iter_time=9.70s]Epoch 0:  13%|█▎        | 1659/12384 [3:31:48<22:45:10,  7.64s/it, loss=0.0010, acc=0.9990, iter_time=8.92s]Epoch 0:  13%|█▎        | 1660/12384 [3:31:48<22:45:49,  7.64s/it, loss=0.0010, acc=0.9990, iter_time=8.92s]Epoch 0:  13%|█▎        | 1660/12384 [3:31:56<22:45:49,  7.64s/it, loss=0.0003, acc=0.9995, iter_time=7.61s]Epoch 0:  13%|█▎        | 1661/12384 [3:31:56<22:45:47,  7.64s/it, loss=0.0003, acc=0.9995, iter_time=7.61s]Epoch 0:  13%|█▎        | 1661/12384 [3:32:03<22:45:47,  7.64s/it, loss=0.0023, acc=0.9972, iter_time=7.63s]Epoch 0:  13%|█▎        | 1662/12384 [3:32:03<22:44:21,  7.63s/it, loss=0.0023, acc=0.9972, iter_time=7.63s]Epoch 0:  13%|█▎        | 1662/12384 [3:32:11<22:44:21,  7.63s/it, loss=0.0004, acc=0.9986, iter_time=7.63s]Epoch 0:  13%|█▎        | 1663/12384 [3:32:11<22:43:25,  7.63s/it, loss=0.0004, acc=0.9986, iter_time=7.63s]Epoch 0:  13%|█▎        | 1663/12384 [3:32:18<22:43:25,  7.63s/it, loss=0.0030, acc=0.9895, iter_time=8.00s]Epoch 0:  13%|█▎        | 1664/12384 [3:32:18<22:42:33,  7.63s/it, loss=0.0030, acc=0.9895, iter_time=8.00s]Epoch 0:  13%|█▎        | 1664/12384 [3:32:26<22:42:33,  7.63s/it, loss=0.0007, acc=0.9980, iter_time=6.28s]Epoch 0:  13%|█▎        | 1665/12384 [3:32:26<23:03:26,  7.74s/it, loss=0.0007, acc=0.9980, iter_time=6.28s]Epoch 0:  13%|█▎        | 1665/12384 [3:32:34<23:03:26,  7.74s/it, loss=0.0078, acc=0.9933, iter_time=8.98s]Epoch 0:  13%|█▎        | 1666/12384 [3:32:34<22:57:53,  7.71s/it, loss=0.0078, acc=0.9933, iter_time=8.98s]Epoch 0:  13%|█▎        | 1666/12384 [3:32:42<22:57:53,  7.71s/it, loss=0.0013, acc=0.9975, iter_time=7.62s]Epoch 0:  13%|█▎        | 1667/12384 [3:32:42<22:53:18,  7.69s/it, loss=0.0013, acc=0.9975, iter_time=7.62s]Epoch 0:  13%|█▎        | 1667/12384 [3:32:49<22:53:18,  7.69s/it, loss=0.0013, acc=0.9971, iter_time=7.64s]Epoch 0:  13%|█▎        | 1668/12384 [3:32:49<22:48:25,  7.66s/it, loss=0.0013, acc=0.9971, iter_time=7.64s]Epoch 0:  13%|█▎        | 1668/12384 [3:32:57<22:48:25,  7.66s/it, loss=0.0027, acc=0.9915, iter_time=7.60s]Epoch 0:  13%|█▎        | 1669/12384 [3:32:57<22:46:03,  7.65s/it, loss=0.0027, acc=0.9915, iter_time=7.60s]Epoch 0:  13%|█▎        | 1669/12384 [3:33:05<22:46:03,  7.65s/it, loss=0.0003, acc=1.0000, iter_time=7.63s]Epoch 0:  13%|█▎        | 1670/12384 [3:33:05<22:43:52,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=7.63s]Epoch 0:  13%|█▎        | 1670/12384 [3:33:12<22:43:52,  7.64s/it, loss=0.0015, acc=0.9982, iter_time=5.26s]Epoch 0:  13%|█▎        | 1671/12384 [3:33:12<22:44:01,  7.64s/it, loss=0.0015, acc=0.9982, iter_time=5.26s]Epoch 0:  13%|█▎        | 1671/12384 [3:33:20<22:44:01,  7.64s/it, loss=0.0023, acc=0.9957, iter_time=10.36s]Epoch 0:  14%|█▎        | 1672/12384 [3:33:20<22:43:54,  7.64s/it, loss=0.0023, acc=0.9957, iter_time=10.36s]Epoch 0:  14%|█▎        | 1672/12384 [3:33:27<22:43:54,  7.64s/it, loss=0.0003, acc=0.9998, iter_time=7.24s] Epoch 0:  14%|█▎        | 1673/12384 [3:33:27<22:42:38,  7.63s/it, loss=0.0003, acc=0.9998, iter_time=7.24s]Epoch 0:  14%|█▎        | 1673/12384 [3:33:35<22:42:38,  7.63s/it, loss=0.0028, acc=0.9923, iter_time=7.63s]Epoch 0:  14%|█▎        | 1674/12384 [3:33:35<22:41:35,  7.63s/it, loss=0.0028, acc=0.9923, iter_time=7.63s]Epoch 0:  14%|█▎        | 1674/12384 [3:33:43<22:41:35,  7.63s/it, loss=0.0018, acc=0.9952, iter_time=3.87s]Epoch 0:  14%|█▎        | 1675/12384 [3:33:43<22:42:51,  7.64s/it, loss=0.0018, acc=0.9952, iter_time=3.87s]Epoch 0:  14%|█▎        | 1675/12384 [3:33:50<22:42:51,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=8.10s]Epoch 0:  14%|█▎        | 1676/12384 [3:33:50<22:42:13,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=8.10s]Epoch 0:  14%|█▎        | 1676/12384 [3:33:58<22:42:13,  7.63s/it, loss=0.0006, acc=0.9981, iter_time=9.72s]Epoch 0:  14%|█▎        | 1677/12384 [3:33:58<22:40:57,  7.63s/it, loss=0.0006, acc=0.9981, iter_time=9.72s]Epoch 0:  14%|█▎        | 1677/12384 [3:34:06<22:40:57,  7.63s/it, loss=0.0133, acc=0.9850, iter_time=8.82s]Epoch 0:  14%|█▎        | 1678/12384 [3:34:06<22:39:33,  7.62s/it, loss=0.0133, acc=0.9850, iter_time=8.82s]Epoch 0:  14%|█▎        | 1678/12384 [3:34:13<22:39:33,  7.62s/it, loss=0.0004, acc=0.9999, iter_time=7.62s]Epoch 0:  14%|█▎        | 1679/12384 [3:34:13<22:40:00,  7.62s/it, loss=0.0004, acc=0.9999, iter_time=7.62s]Epoch 0:  14%|█▎        | 1679/12384 [3:34:21<22:40:00,  7.62s/it, loss=0.0002, acc=1.0000, iter_time=8.02s]Epoch 0:  14%|█▎        | 1680/12384 [3:34:21<22:40:23,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=8.02s]Epoch 0:  14%|█▎        | 1680/12384 [3:34:28<22:40:23,  7.63s/it, loss=0.0015, acc=0.9982, iter_time=6.12s]Epoch 0:  14%|█▎        | 1681/12384 [3:34:28<22:40:11,  7.63s/it, loss=0.0015, acc=0.9982, iter_time=6.12s]Epoch 0:  14%|█▎        | 1681/12384 [3:34:36<22:40:11,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=8.74s]Epoch 0:  14%|█▎        | 1682/12384 [3:34:36<22:40:36,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=8.74s]Epoch 0:  14%|█▎        | 1682/12384 [3:34:44<22:40:36,  7.63s/it, loss=0.0003, acc=0.9987, iter_time=7.63s]Epoch 0:  14%|█▎        | 1683/12384 [3:34:44<22:39:50,  7.62s/it, loss=0.0003, acc=0.9987, iter_time=7.63s]Epoch 0:  14%|█▎        | 1683/12384 [3:34:51<22:39:50,  7.62s/it, loss=0.0031, acc=0.9975, iter_time=7.63s]Epoch 0:  14%|█▎        | 1684/12384 [3:34:51<22:40:31,  7.63s/it, loss=0.0031, acc=0.9975, iter_time=7.63s]Epoch 0:  14%|█▎        | 1684/12384 [3:34:59<22:40:31,  7.63s/it, loss=0.0008, acc=0.9973, iter_time=6.47s]Epoch 0:  14%|█▎        | 1685/12384 [3:34:59<22:40:01,  7.63s/it, loss=0.0008, acc=0.9973, iter_time=6.47s]Epoch 0:  14%|█▎        | 1685/12384 [3:35:07<22:40:01,  7.63s/it, loss=0.0004, acc=1.0000, iter_time=8.78s]Epoch 0:  14%|█▎        | 1686/12384 [3:35:07<22:39:20,  7.62s/it, loss=0.0004, acc=1.0000, iter_time=8.78s]Epoch 0:  14%|█▎        | 1686/12384 [3:35:14<22:39:20,  7.62s/it, loss=0.0015, acc=0.9972, iter_time=7.08s]Epoch 0:  14%|█▎        | 1687/12384 [3:35:14<22:40:44,  7.63s/it, loss=0.0015, acc=0.9972, iter_time=7.08s]Epoch 0:  14%|█▎        | 1687/12384 [3:35:22<22:40:44,  7.63s/it, loss=0.0020, acc=0.9973, iter_time=8.55s]Epoch 0:  14%|█▎        | 1688/12384 [3:35:22<22:38:06,  7.62s/it, loss=0.0020, acc=0.9973, iter_time=8.55s]Epoch 0:  14%|█▎        | 1688/12384 [3:35:29<22:38:06,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=7.22s]Epoch 0:  14%|█▎        | 1689/12384 [3:35:29<22:37:41,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=7.22s]Epoch 0:  14%|█▎        | 1689/12384 [3:35:37<22:37:41,  7.62s/it, loss=0.0002, acc=1.0000, iter_time=7.62s]Epoch 0:  14%|█▎        | 1690/12384 [3:35:37<22:39:35,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=7.62s]Epoch 0:  14%|█▎        | 1690/12384 [3:35:45<22:39:35,  7.63s/it, loss=0.0016, acc=0.9976, iter_time=7.97s]Epoch 0:  14%|█▎        | 1691/12384 [3:35:45<22:58:02,  7.73s/it, loss=0.0016, acc=0.9976, iter_time=7.97s]Epoch 0:  14%|█▎        | 1691/12384 [3:35:53<22:58:02,  7.73s/it, loss=0.0008, acc=0.9981, iter_time=7.68s]Epoch 0:  14%|█▎        | 1692/12384 [3:35:53<22:52:25,  7.70s/it, loss=0.0008, acc=0.9981, iter_time=7.68s]Epoch 0:  14%|█▎        | 1692/12384 [3:36:00<22:52:25,  7.70s/it, loss=0.0002, acc=1.0000, iter_time=7.60s]Epoch 0:  14%|█▎        | 1693/12384 [3:36:00<22:49:08,  7.68s/it, loss=0.0002, acc=1.0000, iter_time=7.60s]Epoch 0:  14%|█▎        | 1693/12384 [3:36:08<22:49:08,  7.68s/it, loss=0.0006, acc=0.9978, iter_time=7.66s]Epoch 0:  14%|█▎        | 1694/12384 [3:36:08<22:46:06,  7.67s/it, loss=0.0006, acc=0.9978, iter_time=7.66s]Epoch 0:  14%|█▎        | 1694/12384 [3:36:16<22:46:06,  7.67s/it, loss=0.0032, acc=0.9913, iter_time=6.12s]Epoch 0:  14%|█▎        | 1695/12384 [3:36:16<22:45:08,  7.66s/it, loss=0.0032, acc=0.9913, iter_time=6.12s]Epoch 0:  14%|█▎        | 1695/12384 [3:36:23<22:45:08,  7.66s/it, loss=0.0004, acc=1.0000, iter_time=9.52s]Epoch 0:  14%|█▎        | 1696/12384 [3:36:23<22:42:45,  7.65s/it, loss=0.0004, acc=1.0000, iter_time=9.52s]Epoch 0:  14%|█▎        | 1696/12384 [3:36:31<22:42:45,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=6.32s]Epoch 0:  14%|█▎        | 1697/12384 [3:36:31<22:45:55,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=6.32s]Epoch 0:  14%|█▎        | 1697/12384 [3:36:39<22:45:55,  7.67s/it, loss=0.0022, acc=0.9965, iter_time=8.32s]Epoch 0:  14%|█▎        | 1698/12384 [3:36:39<22:42:35,  7.65s/it, loss=0.0022, acc=0.9965, iter_time=8.32s]Epoch 0:  14%|█▎        | 1698/12384 [3:36:46<22:42:35,  7.65s/it, loss=0.0006, acc=0.9975, iter_time=7.91s]Epoch 0:  14%|█▎        | 1699/12384 [3:36:46<22:39:54,  7.64s/it, loss=0.0006, acc=0.9975, iter_time=7.91s]Epoch 0:  14%|█▎        | 1699/12384 [3:36:54<22:39:54,  7.64s/it, loss=0.0003, acc=0.9982, iter_time=8.03s]Epoch 0:  14%|█▎        | 1700/12384 [3:36:54<22:39:20,  7.63s/it, loss=0.0003, acc=0.9982, iter_time=8.03s]Epoch 0:  14%|█▎        | 1700/12384 [3:37:01<22:39:20,  7.63s/it, loss=0.0024, acc=0.9943, iter_time=7.21s]Epoch 0:  14%|█▎        | 1701/12384 [3:37:01<22:39:27,  7.64s/it, loss=0.0024, acc=0.9943, iter_time=7.21s]Epoch 0:  14%|█▎        | 1701/12384 [3:37:09<22:39:27,  7.64s/it, loss=0.0011, acc=0.9969, iter_time=7.66s]Epoch 0:  14%|█▎        | 1702/12384 [3:37:09<22:39:32,  7.64s/it, loss=0.0011, acc=0.9969, iter_time=7.66s]Epoch 0:  14%|█▎        | 1702/12384 [3:37:17<22:39:32,  7.64s/it, loss=0.0010, acc=0.9969, iter_time=7.63s]Epoch 0:  14%|█▍        | 1703/12384 [3:37:17<22:38:23,  7.63s/it, loss=0.0010, acc=0.9969, iter_time=7.63s]Epoch 0:  14%|█▍        | 1703/12384 [3:37:24<22:38:23,  7.63s/it, loss=0.0017, acc=0.9983, iter_time=7.57s]Epoch 0:  14%|█▍        | 1704/12384 [3:37:24<22:37:54,  7.63s/it, loss=0.0017, acc=0.9983, iter_time=7.57s]Epoch 0:  14%|█▍        | 1704/12384 [3:37:32<22:37:54,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=7.13s]Epoch 0:  14%|█▍        | 1705/12384 [3:37:32<22:37:02,  7.62s/it, loss=0.0003, acc=1.0000, iter_time=7.13s]Epoch 0:  14%|█▍        | 1705/12384 [3:37:40<22:37:02,  7.62s/it, loss=0.0007, acc=0.9984, iter_time=8.16s]Epoch 0:  14%|█▍        | 1706/12384 [3:37:40<22:35:50,  7.62s/it, loss=0.0007, acc=0.9984, iter_time=8.16s]Epoch 0:  14%|█▍        | 1706/12384 [3:37:47<22:35:50,  7.62s/it, loss=0.0011, acc=0.9977, iter_time=7.60s]Epoch 0:  14%|█▍        | 1707/12384 [3:37:47<22:36:40,  7.62s/it, loss=0.0011, acc=0.9977, iter_time=7.60s]Epoch 0:  14%|█▍        | 1707/12384 [3:37:55<22:36:40,  7.62s/it, loss=0.0027, acc=0.9970, iter_time=6.14s]Epoch 0:  14%|█▍        | 1708/12384 [3:37:55<22:34:27,  7.61s/it, loss=0.0027, acc=0.9970, iter_time=6.14s]Epoch 0:  14%|█▍        | 1708/12384 [3:38:02<22:34:27,  7.61s/it, loss=0.0005, acc=0.9982, iter_time=7.56s]Epoch 0:  14%|█▍        | 1709/12384 [3:38:02<22:34:25,  7.61s/it, loss=0.0005, acc=0.9982, iter_time=7.56s]Epoch 0:  14%|█▍        | 1709/12384 [3:38:10<22:34:25,  7.61s/it, loss=0.0014, acc=0.9979, iter_time=7.70s]Epoch 0:  14%|█▍        | 1710/12384 [3:38:10<22:39:47,  7.64s/it, loss=0.0014, acc=0.9979, iter_time=7.70s]Epoch 0:  14%|█▍        | 1710/12384 [3:38:18<22:39:47,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=7.37s]Epoch 0:  14%|█▍        | 1711/12384 [3:38:18<22:37:40,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=7.37s]Epoch 0:  14%|█▍        | 1711/12384 [3:38:25<22:37:40,  7.63s/it, loss=0.0045, acc=0.9931, iter_time=9.78s]Epoch 0:  14%|█▍        | 1712/12384 [3:38:25<22:41:04,  7.65s/it, loss=0.0045, acc=0.9931, iter_time=9.78s]Epoch 0:  14%|█▍        | 1712/12384 [3:38:33<22:41:04,  7.65s/it, loss=0.0008, acc=0.9988, iter_time=7.29s]Epoch 0:  14%|█▍        | 1713/12384 [3:38:33<22:38:24,  7.64s/it, loss=0.0008, acc=0.9988, iter_time=7.29s]Epoch 0:  14%|█▍        | 1713/12384 [3:38:41<22:38:24,  7.64s/it, loss=0.0005, acc=0.9997, iter_time=5.36s]Epoch 0:  14%|█▍        | 1714/12384 [3:38:41<22:39:52,  7.65s/it, loss=0.0005, acc=0.9997, iter_time=5.36s]Epoch 0:  14%|█▍        | 1714/12384 [3:38:48<22:39:52,  7.65s/it, loss=0.0007, acc=0.9960, iter_time=9.93s]Epoch 0:  14%|█▍        | 1715/12384 [3:38:48<22:39:56,  7.65s/it, loss=0.0007, acc=0.9960, iter_time=9.93s]Epoch 0:  14%|█▍        | 1715/12384 [3:38:56<22:39:56,  7.65s/it, loss=0.0005, acc=0.9988, iter_time=6.22s]Epoch 0:  14%|█▍        | 1716/12384 [3:38:56<22:40:25,  7.65s/it, loss=0.0005, acc=0.9988, iter_time=6.22s]Epoch 0:  14%|█▍        | 1716/12384 [3:39:04<22:40:25,  7.65s/it, loss=0.0004, acc=1.0000, iter_time=9.39s]Epoch 0:  14%|█▍        | 1717/12384 [3:39:04<22:59:14,  7.76s/it, loss=0.0004, acc=1.0000, iter_time=9.39s]Epoch 0:  14%|█▍        | 1717/12384 [3:39:12<22:59:14,  7.76s/it, loss=0.0009, acc=0.9999, iter_time=7.71s]Epoch 0:  14%|█▍        | 1718/12384 [3:39:12<22:52:20,  7.72s/it, loss=0.0009, acc=0.9999, iter_time=7.71s]Epoch 0:  14%|█▍        | 1718/12384 [3:39:19<22:52:20,  7.72s/it, loss=0.0001, acc=1.0000, iter_time=4.34s]Epoch 0:  14%|█▍        | 1719/12384 [3:39:19<22:46:00,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=4.34s]Epoch 0:  14%|█▍        | 1719/12384 [3:39:27<22:46:00,  7.68s/it, loss=0.0013, acc=0.9983, iter_time=11.28s]Epoch 0:  14%|█▍        | 1720/12384 [3:39:27<22:43:02,  7.67s/it, loss=0.0013, acc=0.9983, iter_time=11.28s]Epoch 0:  14%|█▍        | 1720/12384 [3:39:34<22:43:02,  7.67s/it, loss=0.0039, acc=0.9931, iter_time=3.73s] Epoch 0:  14%|█▍        | 1721/12384 [3:39:34<22:40:36,  7.66s/it, loss=0.0039, acc=0.9931, iter_time=3.73s]Epoch 0:  14%|█▍        | 1721/12384 [3:39:42<22:40:36,  7.66s/it, loss=0.0003, acc=0.9998, iter_time=9.96s]Epoch 0:  14%|█▍        | 1722/12384 [3:39:42<22:38:37,  7.65s/it, loss=0.0003, acc=0.9998, iter_time=9.96s]Epoch 0:  14%|█▍        | 1722/12384 [3:39:50<22:38:37,  7.65s/it, loss=0.0128, acc=0.9713, iter_time=8.82s]Epoch 0:  14%|█▍        | 1723/12384 [3:39:50<22:38:43,  7.65s/it, loss=0.0128, acc=0.9713, iter_time=8.82s]Epoch 0:  14%|█▍        | 1723/12384 [3:39:57<22:38:43,  7.65s/it, loss=0.0003, acc=0.9998, iter_time=7.09s]Epoch 0:  14%|█▍        | 1724/12384 [3:39:57<22:38:47,  7.65s/it, loss=0.0003, acc=0.9998, iter_time=7.09s]Epoch 0:  14%|█▍        | 1724/12384 [3:40:05<22:38:47,  7.65s/it, loss=0.0010, acc=1.0000, iter_time=8.19s]Epoch 0:  14%|█▍        | 1725/12384 [3:40:05<22:36:52,  7.64s/it, loss=0.0010, acc=1.0000, iter_time=8.19s]Epoch 0:  14%|█▍        | 1725/12384 [3:40:13<22:36:52,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=5.31s]Epoch 0:  14%|█▍        | 1726/12384 [3:40:13<22:36:05,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=5.31s]Epoch 0:  14%|█▍        | 1726/12384 [3:40:20<22:36:05,  7.63s/it, loss=0.0012, acc=0.9972, iter_time=10.10s]Epoch 0:  14%|█▍        | 1727/12384 [3:40:20<22:44:06,  7.68s/it, loss=0.0012, acc=0.9972, iter_time=10.10s]Epoch 0:  14%|█▍        | 1727/12384 [3:40:28<22:44:06,  7.68s/it, loss=0.0022, acc=0.9962, iter_time=7.84s] Epoch 0:  14%|█▍        | 1728/12384 [3:40:28<22:54:03,  7.74s/it, loss=0.0022, acc=0.9962, iter_time=7.84s]Epoch 0:  14%|█▍        | 1728/12384 [3:40:36<22:54:03,  7.74s/it, loss=0.0008, acc=0.9980, iter_time=5.70s]Epoch 0:  14%|█▍        | 1729/12384 [3:40:36<22:55:51,  7.75s/it, loss=0.0008, acc=0.9980, iter_time=5.70s]Epoch 0:  14%|█▍        | 1729/12384 [3:40:44<22:55:51,  7.75s/it, loss=0.0006, acc=0.9994, iter_time=9.84s]Epoch 0:  14%|█▍        | 1730/12384 [3:40:44<22:54:17,  7.74s/it, loss=0.0006, acc=0.9994, iter_time=9.84s]Epoch 0:  14%|█▍        | 1730/12384 [3:40:52<22:54:17,  7.74s/it, loss=0.0007, acc=0.9983, iter_time=7.76s]Epoch 0:  14%|█▍        | 1731/12384 [3:40:52<22:56:12,  7.75s/it, loss=0.0007, acc=0.9983, iter_time=7.76s]Epoch 0:  14%|█▍        | 1731/12384 [3:40:59<22:56:12,  7.75s/it, loss=0.0012, acc=0.9969, iter_time=7.76s]Epoch 0:  14%|█▍        | 1732/12384 [3:40:59<22:58:46,  7.77s/it, loss=0.0012, acc=0.9969, iter_time=7.76s]Epoch 0:  14%|█▍        | 1732/12384 [3:41:07<22:58:46,  7.77s/it, loss=0.0001, acc=1.0000, iter_time=7.16s]Epoch 0:  14%|█▍        | 1733/12384 [3:41:07<23:00:06,  7.77s/it, loss=0.0001, acc=1.0000, iter_time=7.16s]Epoch 0:  14%|█▍        | 1733/12384 [3:41:15<23:00:06,  7.77s/it, loss=0.0001, acc=0.9998, iter_time=5.34s]Epoch 0:  14%|█▍        | 1734/12384 [3:41:15<23:01:20,  7.78s/it, loss=0.0001, acc=0.9998, iter_time=5.34s]Epoch 0:  14%|█▍        | 1734/12384 [3:41:23<23:01:20,  7.78s/it, loss=0.0016, acc=0.9975, iter_time=8.05s]Epoch 0:  14%|█▍        | 1735/12384 [3:41:23<23:02:09,  7.79s/it, loss=0.0016, acc=0.9975, iter_time=8.05s]Epoch 0:  14%|█▍        | 1735/12384 [3:41:31<23:02:09,  7.79s/it, loss=0.0017, acc=0.9965, iter_time=10.99s]Epoch 0:  14%|█▍        | 1736/12384 [3:41:31<23:01:56,  7.79s/it, loss=0.0017, acc=0.9965, iter_time=10.99s]Epoch 0:  14%|█▍        | 1736/12384 [3:41:38<23:01:56,  7.79s/it, loss=0.0003, acc=0.9999, iter_time=7.50s] Epoch 0:  14%|█▍        | 1737/12384 [3:41:38<23:03:27,  7.80s/it, loss=0.0003, acc=0.9999, iter_time=7.50s]Epoch 0:  14%|█▍        | 1737/12384 [3:41:46<23:03:27,  7.80s/it, loss=0.0001, acc=1.0000, iter_time=7.75s]Epoch 0:  14%|█▍        | 1738/12384 [3:41:46<23:04:52,  7.81s/it, loss=0.0001, acc=1.0000, iter_time=7.75s]Epoch 0:  14%|█▍        | 1738/12384 [3:41:54<23:04:52,  7.81s/it, loss=0.0006, acc=0.9982, iter_time=7.54s]Epoch 0:  14%|█▍        | 1739/12384 [3:41:54<23:02:54,  7.79s/it, loss=0.0006, acc=0.9982, iter_time=7.54s]Epoch 0:  14%|█▍        | 1739/12384 [3:42:02<23:02:54,  7.79s/it, loss=0.0007, acc=0.9994, iter_time=8.07s]Epoch 0:  14%|█▍        | 1740/12384 [3:42:02<23:03:58,  7.80s/it, loss=0.0007, acc=0.9994, iter_time=8.07s]Epoch 0:  14%|█▍        | 1740/12384 [3:42:10<23:03:58,  7.80s/it, loss=0.0002, acc=0.9998, iter_time=7.85s]Epoch 0:  14%|█▍        | 1741/12384 [3:42:10<23:05:46,  7.81s/it, loss=0.0002, acc=0.9998, iter_time=7.85s]Epoch 0:  14%|█▍        | 1741/12384 [3:42:17<23:05:46,  7.81s/it, loss=0.0039, acc=0.9914, iter_time=4.48s]Epoch 0:  14%|█▍        | 1742/12384 [3:42:17<23:02:34,  7.80s/it, loss=0.0039, acc=0.9914, iter_time=4.48s]Epoch 0:  14%|█▍        | 1742/12384 [3:42:25<23:02:34,  7.80s/it, loss=0.0001, acc=1.0000, iter_time=9.76s]Epoch 0:  14%|█▍        | 1743/12384 [3:42:25<23:03:44,  7.80s/it, loss=0.0001, acc=1.0000, iter_time=9.76s]Epoch 0:  14%|█▍        | 1743/12384 [3:42:33<23:03:44,  7.80s/it, loss=0.0023, acc=0.9954, iter_time=9.54s]Epoch 0:  14%|█▍        | 1744/12384 [3:42:33<23:25:28,  7.93s/it, loss=0.0023, acc=0.9954, iter_time=9.54s]Epoch 0:  14%|█▍        | 1744/12384 [3:42:41<23:25:28,  7.93s/it, loss=0.0022, acc=0.9948, iter_time=7.75s]Epoch 0:  14%|█▍        | 1745/12384 [3:42:41<23:16:25,  7.88s/it, loss=0.0022, acc=0.9948, iter_time=7.75s]Epoch 0:  14%|█▍        | 1745/12384 [3:42:49<23:16:25,  7.88s/it, loss=0.0006, acc=0.9994, iter_time=7.85s]Epoch 0:  14%|█▍        | 1746/12384 [3:42:49<23:12:17,  7.85s/it, loss=0.0006, acc=0.9994, iter_time=7.85s]Epoch 0:  14%|█▍        | 1746/12384 [3:42:57<23:12:17,  7.85s/it, loss=0.0018, acc=0.9937, iter_time=7.75s]Epoch 0:  14%|█▍        | 1747/12384 [3:42:57<23:09:45,  7.84s/it, loss=0.0018, acc=0.9937, iter_time=7.75s]Epoch 0:  14%|█▍        | 1747/12384 [3:43:05<23:09:45,  7.84s/it, loss=0.0006, acc=0.9974, iter_time=7.83s]Epoch 0:  14%|█▍        | 1748/12384 [3:43:05<23:08:43,  7.83s/it, loss=0.0006, acc=0.9974, iter_time=7.83s]Epoch 0:  14%|█▍        | 1748/12384 [3:43:12<23:08:43,  7.83s/it, loss=0.0024, acc=0.9947, iter_time=7.81s]Epoch 0:  14%|█▍        | 1749/12384 [3:43:12<23:06:45,  7.82s/it, loss=0.0024, acc=0.9947, iter_time=7.81s]Epoch 0:  14%|█▍        | 1749/12384 [3:43:20<23:06:45,  7.82s/it, loss=0.0003, acc=0.9999, iter_time=8.27s]Epoch 0:  14%|█▍        | 1750/12384 [3:43:20<23:06:22,  7.82s/it, loss=0.0003, acc=0.9999, iter_time=8.27s]Epoch 0:  14%|█▍        | 1750/12384 [3:43:28<23:06:22,  7.82s/it, loss=0.0006, acc=0.9997, iter_time=7.42s]Epoch 0:  14%|█▍        | 1751/12384 [3:43:28<23:07:47,  7.83s/it, loss=0.0006, acc=0.9997, iter_time=7.42s]Epoch 0:  14%|█▍        | 1751/12384 [3:43:36<23:07:47,  7.83s/it, loss=0.0003, acc=0.9993, iter_time=7.79s]Epoch 0:  14%|█▍        | 1752/12384 [3:43:36<23:06:34,  7.82s/it, loss=0.0003, acc=0.9993, iter_time=7.79s]Epoch 0:  14%|█▍        | 1752/12384 [3:43:44<23:06:34,  7.82s/it, loss=0.0001, acc=1.0000, iter_time=7.90s]Epoch 0:  14%|█▍        | 1753/12384 [3:43:44<23:11:13,  7.85s/it, loss=0.0001, acc=1.0000, iter_time=7.90s]Epoch 0:  14%|█▍        | 1753/12384 [3:43:52<23:11:13,  7.85s/it, loss=0.0024, acc=0.9939, iter_time=6.94s]Epoch 0:  14%|█▍        | 1754/12384 [3:43:52<23:28:14,  7.95s/it, loss=0.0024, acc=0.9939, iter_time=6.94s]Epoch 0:  14%|█▍        | 1754/12384 [3:44:00<23:28:14,  7.95s/it, loss=0.0014, acc=0.9977, iter_time=8.44s]Epoch 0:  14%|█▍        | 1755/12384 [3:44:00<23:20:30,  7.91s/it, loss=0.0014, acc=0.9977, iter_time=8.44s]Epoch 0:  14%|█▍        | 1755/12384 [3:44:08<23:20:30,  7.91s/it, loss=0.0008, acc=0.9980, iter_time=7.78s]Epoch 0:  14%|█▍        | 1756/12384 [3:44:08<23:14:59,  7.88s/it, loss=0.0008, acc=0.9980, iter_time=7.78s]Epoch 0:  14%|█▍        | 1756/12384 [3:44:16<23:14:59,  7.88s/it, loss=0.0001, acc=1.0000, iter_time=8.54s]Epoch 0:  14%|█▍        | 1757/12384 [3:44:16<23:16:59,  7.89s/it, loss=0.0001, acc=1.0000, iter_time=8.54s]Epoch 0:  14%|█▍        | 1757/12384 [3:44:23<23:16:59,  7.89s/it, loss=0.0002, acc=1.0000, iter_time=7.28s]Epoch 0:  14%|█▍        | 1758/12384 [3:44:23<23:12:50,  7.86s/it, loss=0.0002, acc=1.0000, iter_time=7.28s]Epoch 0:  14%|█▍        | 1758/12384 [3:44:31<23:12:50,  7.86s/it, loss=0.0007, acc=0.9974, iter_time=8.09s]Epoch 0:  14%|█▍        | 1759/12384 [3:44:31<23:12:35,  7.86s/it, loss=0.0007, acc=0.9974, iter_time=8.09s]Epoch 0:  14%|█▍        | 1759/12384 [3:44:39<23:12:35,  7.86s/it, loss=0.0018, acc=0.9956, iter_time=8.11s]Epoch 0:  14%|█▍        | 1760/12384 [3:44:39<23:09:14,  7.85s/it, loss=0.0018, acc=0.9956, iter_time=8.11s]Epoch 0:  14%|█▍        | 1760/12384 [3:44:47<23:09:14,  7.85s/it, loss=0.0004, acc=0.9991, iter_time=5.90s]Epoch 0:  14%|█▍        | 1761/12384 [3:44:47<23:19:35,  7.91s/it, loss=0.0004, acc=0.9991, iter_time=5.90s]Epoch 0:  14%|█▍        | 1761/12384 [3:44:55<23:19:35,  7.91s/it, loss=0.0005, acc=0.9976, iter_time=8.25s]Epoch 0:  14%|█▍        | 1762/12384 [3:44:55<23:12:07,  7.86s/it, loss=0.0005, acc=0.9976, iter_time=8.25s]Epoch 0:  14%|█▍        | 1762/12384 [3:45:03<23:12:07,  7.86s/it, loss=0.0002, acc=1.0000, iter_time=9.50s]Epoch 0:  14%|█▍        | 1763/12384 [3:45:03<23:09:11,  7.85s/it, loss=0.0002, acc=1.0000, iter_time=9.50s]Epoch 0:  14%|█▍        | 1763/12384 [3:45:10<23:09:11,  7.85s/it, loss=0.0007, acc=0.9982, iter_time=4.94s]Epoch 0:  14%|█▍        | 1764/12384 [3:45:10<23:08:14,  7.84s/it, loss=0.0007, acc=0.9982, iter_time=4.94s]Epoch 0:  14%|█▍        | 1764/12384 [3:45:18<23:08:14,  7.84s/it, loss=0.0006, acc=0.9982, iter_time=10.69s]Epoch 0:  14%|█▍        | 1765/12384 [3:45:18<23:08:06,  7.84s/it, loss=0.0006, acc=0.9982, iter_time=10.69s]Epoch 0:  14%|█▍        | 1765/12384 [3:45:26<23:08:06,  7.84s/it, loss=0.0001, acc=1.0000, iter_time=5.71s] Epoch 0:  14%|█▍        | 1766/12384 [3:45:26<23:06:33,  7.84s/it, loss=0.0001, acc=1.0000, iter_time=5.71s]Epoch 0:  14%|█▍        | 1766/12384 [3:45:34<23:06:33,  7.84s/it, loss=0.0002, acc=0.9998, iter_time=9.05s]Epoch 0:  14%|█▍        | 1767/12384 [3:45:34<23:05:36,  7.83s/it, loss=0.0002, acc=0.9998, iter_time=9.05s]Epoch 0:  14%|█▍        | 1767/12384 [3:45:42<23:05:36,  7.83s/it, loss=0.0001, acc=1.0000, iter_time=9.10s]Epoch 0:  14%|█▍        | 1768/12384 [3:45:42<23:08:10,  7.85s/it, loss=0.0001, acc=1.0000, iter_time=9.10s]Epoch 0:  14%|█▍        | 1768/12384 [3:45:50<23:08:10,  7.85s/it, loss=0.0003, acc=0.9994, iter_time=6.85s]Epoch 0:  14%|█▍        | 1769/12384 [3:45:50<23:04:41,  7.83s/it, loss=0.0003, acc=0.9994, iter_time=6.85s]Epoch 0:  14%|█▍        | 1769/12384 [3:45:58<23:04:41,  7.83s/it, loss=0.0004, acc=0.9997, iter_time=8.80s]Epoch 0:  14%|█▍        | 1770/12384 [3:45:58<23:24:37,  7.94s/it, loss=0.0004, acc=0.9997, iter_time=8.80s]Epoch 0:  14%|█▍        | 1770/12384 [3:46:06<23:24:37,  7.94s/it, loss=0.0004, acc=0.9998, iter_time=7.86s]Epoch 0:  14%|█▍        | 1771/12384 [3:46:06<23:16:48,  7.90s/it, loss=0.0004, acc=0.9998, iter_time=7.86s]Epoch 0:  14%|█▍        | 1771/12384 [3:46:13<23:16:48,  7.90s/it, loss=0.0007, acc=0.9953, iter_time=7.87s]Epoch 0:  14%|█▍        | 1772/12384 [3:46:13<23:17:09,  7.90s/it, loss=0.0007, acc=0.9953, iter_time=7.87s]Epoch 0:  14%|█▍        | 1772/12384 [3:46:21<23:17:09,  7.90s/it, loss=0.0025, acc=0.9956, iter_time=7.79s]Epoch 0:  14%|█▍        | 1773/12384 [3:46:21<23:16:44,  7.90s/it, loss=0.0025, acc=0.9956, iter_time=7.79s]Epoch 0:  14%|█▍        | 1773/12384 [3:46:29<23:16:44,  7.90s/it, loss=0.0004, acc=1.0000, iter_time=7.95s]Epoch 0:  14%|█▍        | 1774/12384 [3:46:29<23:12:54,  7.88s/it, loss=0.0004, acc=1.0000, iter_time=7.95s]Epoch 0:  14%|█▍        | 1774/12384 [3:46:37<23:12:54,  7.88s/it, loss=0.0030, acc=0.9984, iter_time=6.09s]Epoch 0:  14%|█▍        | 1775/12384 [3:46:37<23:08:46,  7.85s/it, loss=0.0030, acc=0.9984, iter_time=6.09s]Epoch 0:  14%|█▍        | 1775/12384 [3:46:45<23:08:46,  7.85s/it, loss=0.0011, acc=0.9989, iter_time=9.50s]Epoch 0:  14%|█▍        | 1776/12384 [3:46:45<23:07:33,  7.85s/it, loss=0.0011, acc=0.9989, iter_time=9.50s]Epoch 0:  14%|█▍        | 1776/12384 [3:46:53<23:07:33,  7.85s/it, loss=0.0014, acc=0.9959, iter_time=7.89s]Epoch 0:  14%|█▍        | 1777/12384 [3:46:53<23:06:48,  7.84s/it, loss=0.0014, acc=0.9959, iter_time=7.89s]Epoch 0:  14%|█▍        | 1777/12384 [3:47:01<23:06:48,  7.84s/it, loss=0.0004, acc=1.0000, iter_time=7.80s]Epoch 0:  14%|█▍        | 1778/12384 [3:47:01<23:08:36,  7.86s/it, loss=0.0004, acc=1.0000, iter_time=7.80s]Epoch 0:  14%|█▍        | 1778/12384 [3:47:08<23:08:36,  7.86s/it, loss=0.0004, acc=0.9999, iter_time=7.94s]Epoch 0:  14%|█▍        | 1779/12384 [3:47:08<23:09:00,  7.86s/it, loss=0.0004, acc=0.9999, iter_time=7.94s]Epoch 0:  14%|█▍        | 1779/12384 [3:47:16<23:09:00,  7.86s/it, loss=0.0003, acc=0.9998, iter_time=7.16s]Epoch 0:  14%|█▍        | 1780/12384 [3:47:16<23:04:48,  7.84s/it, loss=0.0003, acc=0.9998, iter_time=7.16s]Epoch 0:  14%|█▍        | 1780/12384 [3:47:24<23:04:48,  7.84s/it, loss=0.0029, acc=0.9959, iter_time=8.36s]Epoch 0:  14%|█▍        | 1781/12384 [3:47:24<23:02:08,  7.82s/it, loss=0.0029, acc=0.9959, iter_time=8.36s]Epoch 0:  14%|█▍        | 1781/12384 [3:47:32<23:02:08,  7.82s/it, loss=0.0003, acc=0.9996, iter_time=7.17s]Epoch 0:  14%|█▍        | 1782/12384 [3:47:32<23:00:41,  7.81s/it, loss=0.0003, acc=0.9996, iter_time=7.17s]Epoch 0:  14%|█▍        | 1782/12384 [3:47:40<23:00:41,  7.81s/it, loss=0.0002, acc=0.9990, iter_time=8.58s]Epoch 0:  14%|█▍        | 1783/12384 [3:47:40<23:04:46,  7.84s/it, loss=0.0002, acc=0.9990, iter_time=8.58s]Epoch 0:  14%|█▍        | 1783/12384 [3:47:47<23:04:46,  7.84s/it, loss=0.0015, acc=0.9984, iter_time=7.61s]Epoch 0:  14%|█▍        | 1784/12384 [3:47:47<22:55:30,  7.79s/it, loss=0.0015, acc=0.9984, iter_time=7.61s]Epoch 0:  14%|█▍        | 1784/12384 [3:47:55<22:55:30,  7.79s/it, loss=0.0077, acc=0.9807, iter_time=7.64s]Epoch 0:  14%|█▍        | 1785/12384 [3:47:55<22:46:32,  7.74s/it, loss=0.0077, acc=0.9807, iter_time=7.64s]Epoch 0:  14%|█▍        | 1785/12384 [3:48:03<22:46:32,  7.74s/it, loss=0.0001, acc=1.0000, iter_time=6.46s]Epoch 0:  14%|█▍        | 1786/12384 [3:48:03<22:41:12,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=6.46s]Epoch 0:  14%|█▍        | 1786/12384 [3:48:10<22:41:12,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=5.22s]Epoch 0:  14%|█▍        | 1787/12384 [3:48:10<22:38:02,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=5.22s]Epoch 0:  14%|█▍        | 1787/12384 [3:48:18<22:38:02,  7.69s/it, loss=0.0005, acc=0.9996, iter_time=10.07s]Epoch 0:  14%|█▍        | 1788/12384 [3:48:18<22:35:55,  7.68s/it, loss=0.0005, acc=0.9996, iter_time=10.07s]Epoch 0:  14%|█▍        | 1788/12384 [3:48:26<22:35:55,  7.68s/it, loss=0.0015, acc=0.9947, iter_time=8.82s] Epoch 0:  14%|█▍        | 1789/12384 [3:48:26<22:31:41,  7.65s/it, loss=0.0015, acc=0.9947, iter_time=8.82s]Epoch 0:  14%|█▍        | 1789/12384 [3:48:33<22:31:41,  7.65s/it, loss=0.0004, acc=1.0000, iter_time=7.62s]Epoch 0:  14%|█▍        | 1790/12384 [3:48:33<22:30:12,  7.65s/it, loss=0.0004, acc=1.0000, iter_time=7.62s]Epoch 0:  14%|█▍        | 1790/12384 [3:48:41<22:30:12,  7.65s/it, loss=0.0006, acc=0.9992, iter_time=7.64s]Epoch 0:  14%|█▍        | 1791/12384 [3:48:41<22:29:33,  7.64s/it, loss=0.0006, acc=0.9992, iter_time=7.64s]Epoch 0:  14%|█▍        | 1791/12384 [3:48:48<22:29:33,  7.64s/it, loss=0.0028, acc=0.9943, iter_time=8.02s]Epoch 0:  14%|█▍        | 1792/12384 [3:48:48<22:33:12,  7.67s/it, loss=0.0028, acc=0.9943, iter_time=8.02s]Epoch 0:  14%|█▍        | 1792/12384 [3:48:56<22:33:12,  7.67s/it, loss=0.0006, acc=0.9999, iter_time=7.32s]Epoch 0:  14%|█▍        | 1793/12384 [3:48:56<22:30:13,  7.65s/it, loss=0.0006, acc=0.9999, iter_time=7.32s]Epoch 0:  14%|█▍        | 1793/12384 [3:49:04<22:30:13,  7.65s/it, loss=0.0009, acc=0.9980, iter_time=5.63s]Epoch 0:  14%|█▍        | 1794/12384 [3:49:04<22:31:36,  7.66s/it, loss=0.0009, acc=0.9980, iter_time=5.63s]Epoch 0:  14%|█▍        | 1794/12384 [3:49:12<22:31:36,  7.66s/it, loss=0.0004, acc=0.9986, iter_time=9.79s]Epoch 0:  14%|█▍        | 1795/12384 [3:49:12<22:35:26,  7.68s/it, loss=0.0004, acc=0.9986, iter_time=9.79s]Epoch 0:  14%|█▍        | 1795/12384 [3:49:19<22:35:26,  7.68s/it, loss=0.0036, acc=0.9935, iter_time=7.61s]Epoch 0:  15%|█▍        | 1796/12384 [3:49:19<22:31:52,  7.66s/it, loss=0.0036, acc=0.9935, iter_time=7.61s]Epoch 0:  15%|█▍        | 1796/12384 [3:49:27<22:31:52,  7.66s/it, loss=0.0019, acc=0.9972, iter_time=6.20s]Epoch 0:  15%|█▍        | 1797/12384 [3:49:27<22:52:26,  7.78s/it, loss=0.0019, acc=0.9972, iter_time=6.20s]Epoch 0:  15%|█▍        | 1797/12384 [3:49:35<22:52:26,  7.78s/it, loss=0.0027, acc=0.9931, iter_time=7.16s]Epoch 0:  15%|█▍        | 1798/12384 [3:49:35<22:45:24,  7.74s/it, loss=0.0027, acc=0.9931, iter_time=7.16s]Epoch 0:  15%|█▍        | 1798/12384 [3:49:42<22:45:24,  7.74s/it, loss=0.0003, acc=1.0000, iter_time=8.44s]Epoch 0:  15%|█▍        | 1799/12384 [3:49:42<22:39:07,  7.70s/it, loss=0.0003, acc=1.0000, iter_time=8.44s]Epoch 0:  15%|█▍        | 1799/12384 [3:49:50<22:39:07,  7.70s/it, loss=0.0003, acc=1.0000, iter_time=9.64s]Epoch 0:  15%|█▍        | 1800/12384 [3:49:50<22:40:22,  7.71s/it, loss=0.0003, acc=1.0000, iter_time=9.64s]Epoch 0:  15%|█▍        | 1800/12384 [3:49:58<22:40:22,  7.71s/it, loss=0.0003, acc=0.9998, iter_time=7.23s]Epoch 0:  15%|█▍        | 1801/12384 [3:49:58<22:41:26,  7.72s/it, loss=0.0003, acc=0.9998, iter_time=7.23s]Epoch 0:  15%|█▍        | 1801/12384 [3:50:06<22:41:26,  7.72s/it, loss=0.0002, acc=0.9978, iter_time=6.78s]Epoch 0:  15%|█▍        | 1802/12384 [3:50:06<22:36:15,  7.69s/it, loss=0.0002, acc=0.9978, iter_time=6.78s]Epoch 0:  15%|█▍        | 1802/12384 [3:50:13<22:36:15,  7.69s/it, loss=0.0006, acc=0.9969, iter_time=7.07s]Epoch 0:  15%|█▍        | 1803/12384 [3:50:13<22:35:02,  7.68s/it, loss=0.0006, acc=0.9969, iter_time=7.07s]Epoch 0:  15%|█▍        | 1803/12384 [3:50:21<22:35:02,  7.68s/it, loss=0.0010, acc=0.9975, iter_time=9.16s]Epoch 0:  15%|█▍        | 1804/12384 [3:50:21<22:33:40,  7.68s/it, loss=0.0010, acc=0.9975, iter_time=9.16s]Epoch 0:  15%|█▍        | 1804/12384 [3:50:28<22:33:40,  7.68s/it, loss=0.0005, acc=0.9983, iter_time=7.37s]Epoch 0:  15%|█▍        | 1805/12384 [3:50:28<22:30:29,  7.66s/it, loss=0.0005, acc=0.9983, iter_time=7.37s]Epoch 0:  15%|█▍        | 1805/12384 [3:50:36<22:30:29,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=7.62s]Epoch 0:  15%|█▍        | 1806/12384 [3:50:36<22:30:26,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=7.62s]Epoch 0:  15%|█▍        | 1806/12384 [3:50:44<22:30:26,  7.66s/it, loss=0.0006, acc=0.9973, iter_time=8.08s]Epoch 0:  15%|█▍        | 1807/12384 [3:50:44<22:36:42,  7.70s/it, loss=0.0006, acc=0.9973, iter_time=8.08s]Epoch 0:  15%|█▍        | 1807/12384 [3:50:52<22:36:42,  7.70s/it, loss=0.0022, acc=0.9913, iter_time=8.05s]Epoch 0:  15%|█▍        | 1808/12384 [3:50:52<22:33:57,  7.68s/it, loss=0.0022, acc=0.9913, iter_time=8.05s]Epoch 0:  15%|█▍        | 1808/12384 [3:50:59<22:33:57,  7.68s/it, loss=0.0011, acc=0.9975, iter_time=7.30s]Epoch 0:  15%|█▍        | 1809/12384 [3:50:59<22:32:59,  7.68s/it, loss=0.0011, acc=0.9975, iter_time=7.30s]Epoch 0:  15%|█▍        | 1809/12384 [3:51:07<22:32:59,  7.68s/it, loss=0.0002, acc=0.9998, iter_time=7.61s]Epoch 0:  15%|█▍        | 1810/12384 [3:51:07<22:29:42,  7.66s/it, loss=0.0002, acc=0.9998, iter_time=7.61s]Epoch 0:  15%|█▍        | 1810/12384 [3:51:14<22:29:42,  7.66s/it, loss=0.0033, acc=0.9906, iter_time=7.63s]Epoch 0:  15%|█▍        | 1811/12384 [3:51:14<22:28:04,  7.65s/it, loss=0.0033, acc=0.9906, iter_time=7.63s]Epoch 0:  15%|█▍        | 1811/12384 [3:51:22<22:28:04,  7.65s/it, loss=0.0009, acc=0.9976, iter_time=7.66s]Epoch 0:  15%|█▍        | 1812/12384 [3:51:22<22:27:44,  7.65s/it, loss=0.0009, acc=0.9976, iter_time=7.66s]Epoch 0:  15%|█▍        | 1812/12384 [3:51:30<22:27:44,  7.65s/it, loss=0.0002, acc=0.9999, iter_time=7.63s]Epoch 0:  15%|█▍        | 1813/12384 [3:51:30<22:27:28,  7.65s/it, loss=0.0002, acc=0.9999, iter_time=7.63s]Epoch 0:  15%|█▍        | 1813/12384 [3:51:37<22:27:28,  7.65s/it, loss=0.0015, acc=1.0000, iter_time=7.62s]Epoch 0:  15%|█▍        | 1814/12384 [3:51:37<22:25:19,  7.64s/it, loss=0.0015, acc=1.0000, iter_time=7.62s]Epoch 0:  15%|█▍        | 1814/12384 [3:51:45<22:25:19,  7.64s/it, loss=0.0005, acc=0.9999, iter_time=7.72s]Epoch 0:  15%|█▍        | 1815/12384 [3:51:45<22:33:20,  7.68s/it, loss=0.0005, acc=0.9999, iter_time=7.72s]Epoch 0:  15%|█▍        | 1815/12384 [3:51:53<22:33:20,  7.68s/it, loss=0.0013, acc=0.9975, iter_time=8.07s]Epoch 0:  15%|█▍        | 1816/12384 [3:51:53<22:29:58,  7.66s/it, loss=0.0013, acc=0.9975, iter_time=8.07s]Epoch 0:  15%|█▍        | 1816/12384 [3:52:00<22:29:58,  7.66s/it, loss=0.0018, acc=0.9935, iter_time=7.23s]Epoch 0:  15%|█▍        | 1817/12384 [3:52:00<22:27:13,  7.65s/it, loss=0.0018, acc=0.9935, iter_time=7.23s]Epoch 0:  15%|█▍        | 1817/12384 [3:52:08<22:27:13,  7.65s/it, loss=0.0002, acc=0.9998, iter_time=7.63s]Epoch 0:  15%|█▍        | 1818/12384 [3:52:08<22:26:06,  7.64s/it, loss=0.0002, acc=0.9998, iter_time=7.63s]Epoch 0:  15%|█▍        | 1818/12384 [3:52:16<22:26:06,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.39s]Epoch 0:  15%|█▍        | 1819/12384 [3:52:16<22:24:22,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=7.39s]Epoch 0:  15%|█▍        | 1819/12384 [3:52:23<22:24:22,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=7.86s]Epoch 0:  15%|█▍        | 1820/12384 [3:52:23<22:23:22,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=7.86s]Epoch 0:  15%|█▍        | 1820/12384 [3:52:31<22:23:22,  7.63s/it, loss=0.0008, acc=0.9997, iter_time=7.63s]Epoch 0:  15%|█▍        | 1821/12384 [3:52:31<22:25:28,  7.64s/it, loss=0.0008, acc=0.9997, iter_time=7.63s]Epoch 0:  15%|█▍        | 1821/12384 [3:52:39<22:25:28,  7.64s/it, loss=0.0005, acc=0.9979, iter_time=7.67s]Epoch 0:  15%|█▍        | 1822/12384 [3:52:39<22:25:30,  7.64s/it, loss=0.0005, acc=0.9979, iter_time=7.67s]Epoch 0:  15%|█▍        | 1822/12384 [3:52:47<22:25:30,  7.64s/it, loss=0.0032, acc=0.9905, iter_time=7.32s]Epoch 0:  15%|█▍        | 1823/12384 [3:52:47<22:45:21,  7.76s/it, loss=0.0032, acc=0.9905, iter_time=7.32s]Epoch 0:  15%|█▍        | 1823/12384 [3:52:54<22:45:21,  7.76s/it, loss=0.0001, acc=1.0000, iter_time=8.71s]Epoch 0:  15%|█▍        | 1824/12384 [3:52:54<22:42:28,  7.74s/it, loss=0.0001, acc=1.0000, iter_time=8.71s]Epoch 0:  15%|█▍        | 1824/12384 [3:53:02<22:42:28,  7.74s/it, loss=0.0006, acc=0.9988, iter_time=7.32s]Epoch 0:  15%|█▍        | 1825/12384 [3:53:02<22:36:33,  7.71s/it, loss=0.0006, acc=0.9988, iter_time=7.32s]Epoch 0:  15%|█▍        | 1825/12384 [3:53:10<22:36:33,  7.71s/it, loss=0.0020, acc=0.9928, iter_time=7.64s]Epoch 0:  15%|█▍        | 1826/12384 [3:53:10<22:31:40,  7.68s/it, loss=0.0020, acc=0.9928, iter_time=7.64s]Epoch 0:  15%|█▍        | 1826/12384 [3:53:17<22:31:40,  7.68s/it, loss=0.0028, acc=0.9947, iter_time=7.61s]Epoch 0:  15%|█▍        | 1827/12384 [3:53:17<22:29:02,  7.67s/it, loss=0.0028, acc=0.9947, iter_time=7.61s]Epoch 0:  15%|█▍        | 1827/12384 [3:53:25<22:29:02,  7.67s/it, loss=0.0008, acc=0.9974, iter_time=5.63s]Epoch 0:  15%|█▍        | 1828/12384 [3:53:25<22:31:10,  7.68s/it, loss=0.0008, acc=0.9974, iter_time=5.63s]Epoch 0:  15%|█▍        | 1828/12384 [3:53:33<22:31:10,  7.68s/it, loss=0.0004, acc=0.9997, iter_time=9.71s]Epoch 0:  15%|█▍        | 1829/12384 [3:53:33<22:28:01,  7.66s/it, loss=0.0004, acc=0.9997, iter_time=9.71s]Epoch 0:  15%|█▍        | 1829/12384 [3:53:40<22:28:01,  7.66s/it, loss=0.0006, acc=1.0000, iter_time=6.44s]Epoch 0:  15%|█▍        | 1830/12384 [3:53:40<22:27:40,  7.66s/it, loss=0.0006, acc=1.0000, iter_time=6.44s]Epoch 0:  15%|█▍        | 1830/12384 [3:53:48<22:27:40,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=8.96s]Epoch 0:  15%|█▍        | 1831/12384 [3:53:48<22:30:49,  7.68s/it, loss=0.0002, acc=1.0000, iter_time=8.96s]Epoch 0:  15%|█▍        | 1831/12384 [3:53:56<22:30:49,  7.68s/it, loss=0.0002, acc=1.0000, iter_time=7.57s]Epoch 0:  15%|█▍        | 1832/12384 [3:53:56<22:27:57,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=7.57s]Epoch 0:  15%|█▍        | 1832/12384 [3:54:03<22:27:57,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=6.47s]Epoch 0:  15%|█▍        | 1833/12384 [3:54:03<22:26:22,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=6.47s]Epoch 0:  15%|█▍        | 1833/12384 [3:54:11<22:26:22,  7.66s/it, loss=0.0003, acc=0.9999, iter_time=8.85s]Epoch 0:  15%|█▍        | 1834/12384 [3:54:11<22:24:13,  7.64s/it, loss=0.0003, acc=0.9999, iter_time=8.85s]Epoch 0:  15%|█▍        | 1834/12384 [3:54:18<22:24:13,  7.64s/it, loss=0.0005, acc=0.9994, iter_time=6.38s]Epoch 0:  15%|█▍        | 1835/12384 [3:54:18<22:23:38,  7.64s/it, loss=0.0005, acc=0.9994, iter_time=6.38s]Epoch 0:  15%|█▍        | 1835/12384 [3:54:26<22:23:38,  7.64s/it, loss=0.0016, acc=0.9992, iter_time=8.55s]Epoch 0:  15%|█▍        | 1836/12384 [3:54:26<22:19:57,  7.62s/it, loss=0.0016, acc=0.9992, iter_time=8.55s]Epoch 0:  15%|█▍        | 1836/12384 [3:54:34<22:19:57,  7.62s/it, loss=0.0005, acc=1.0000, iter_time=7.97s]Epoch 0:  15%|█▍        | 1837/12384 [3:54:34<22:23:53,  7.65s/it, loss=0.0005, acc=1.0000, iter_time=7.97s]Epoch 0:  15%|█▍        | 1837/12384 [3:54:41<22:23:53,  7.65s/it, loss=0.0013, acc=0.9972, iter_time=7.60s]Epoch 0:  15%|█▍        | 1838/12384 [3:54:41<22:22:03,  7.64s/it, loss=0.0013, acc=0.9972, iter_time=7.60s]Epoch 0:  15%|█▍        | 1838/12384 [3:54:49<22:22:03,  7.64s/it, loss=0.0014, acc=0.9968, iter_time=5.35s]Epoch 0:  15%|█▍        | 1839/12384 [3:54:49<22:20:34,  7.63s/it, loss=0.0014, acc=0.9968, iter_time=5.35s]Epoch 0:  15%|█▍        | 1839/12384 [3:54:57<22:20:34,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=9.87s]Epoch 0:  15%|█▍        | 1840/12384 [3:54:57<22:21:24,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=9.87s]Epoch 0:  15%|█▍        | 1840/12384 [3:55:04<22:21:24,  7.63s/it, loss=0.0005, acc=0.9995, iter_time=6.70s]Epoch 0:  15%|█▍        | 1841/12384 [3:55:04<22:21:49,  7.64s/it, loss=0.0005, acc=0.9995, iter_time=6.70s]Epoch 0:  15%|█▍        | 1841/12384 [3:55:12<22:21:49,  7.64s/it, loss=0.0005, acc=0.9996, iter_time=8.60s]Epoch 0:  15%|█▍        | 1842/12384 [3:55:12<22:19:42,  7.62s/it, loss=0.0005, acc=0.9996, iter_time=8.60s]Epoch 0:  15%|█▍        | 1842/12384 [3:55:19<22:19:42,  7.62s/it, loss=0.0021, acc=0.9944, iter_time=5.26s]Epoch 0:  15%|█▍        | 1843/12384 [3:55:19<22:20:46,  7.63s/it, loss=0.0021, acc=0.9944, iter_time=5.26s]Epoch 0:  15%|█▍        | 1843/12384 [3:55:27<22:20:46,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.13s]Epoch 0:  15%|█▍        | 1844/12384 [3:55:27<22:21:45,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.13s]Epoch 0:  15%|█▍        | 1844/12384 [3:55:35<22:21:45,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=8.42s]Epoch 0:  15%|█▍        | 1845/12384 [3:55:35<22:20:19,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=8.42s]Epoch 0:  15%|█▍        | 1845/12384 [3:55:44<22:20:19,  7.63s/it, loss=0.0006, acc=0.9985, iter_time=7.97s]Epoch 0:  15%|█▍        | 1846/12384 [3:55:44<23:25:11,  8.00s/it, loss=0.0006, acc=0.9985, iter_time=7.97s]Epoch 0:  15%|█▍        | 1846/12384 [3:55:51<23:25:11,  8.00s/it, loss=0.0019, acc=0.9927, iter_time=10.60s]Epoch 0:  15%|█▍        | 1847/12384 [3:55:51<23:06:42,  7.90s/it, loss=0.0019, acc=0.9927, iter_time=10.60s]Epoch 0:  15%|█▍        | 1847/12384 [3:55:59<23:06:42,  7.90s/it, loss=0.0001, acc=1.0000, iter_time=8.58s] Epoch 0:  15%|█▍        | 1848/12384 [3:55:59<23:18:52,  7.97s/it, loss=0.0001, acc=1.0000, iter_time=8.58s]Epoch 0:  15%|█▍        | 1848/12384 [3:56:07<23:18:52,  7.97s/it, loss=0.0002, acc=1.0000, iter_time=7.57s]Epoch 0:  15%|█▍        | 1849/12384 [3:56:07<23:24:22,  8.00s/it, loss=0.0002, acc=1.0000, iter_time=7.57s]Epoch 0:  15%|█▍        | 1849/12384 [3:56:15<23:24:22,  8.00s/it, loss=0.0013, acc=0.9980, iter_time=8.12s]Epoch 0:  15%|█▍        | 1850/12384 [3:56:15<23:04:17,  7.88s/it, loss=0.0013, acc=0.9980, iter_time=8.12s]Epoch 0:  15%|█▍        | 1850/12384 [3:56:23<23:04:17,  7.88s/it, loss=0.0005, acc=0.9987, iter_time=7.22s]Epoch 0:  15%|█▍        | 1851/12384 [3:56:23<22:50:11,  7.81s/it, loss=0.0005, acc=0.9987, iter_time=7.22s]Epoch 0:  15%|█▍        | 1851/12384 [3:56:30<22:50:11,  7.81s/it, loss=0.0088, acc=0.9897, iter_time=7.70s]Epoch 0:  15%|█▍        | 1852/12384 [3:56:30<22:43:38,  7.77s/it, loss=0.0088, acc=0.9897, iter_time=7.70s]Epoch 0:  15%|█▍        | 1852/12384 [3:56:38<22:43:38,  7.77s/it, loss=0.0016, acc=0.9961, iter_time=7.72s]Epoch 0:  15%|█▍        | 1853/12384 [3:56:38<22:41:01,  7.75s/it, loss=0.0016, acc=0.9961, iter_time=7.72s]Epoch 0:  15%|█▍        | 1853/12384 [3:56:46<22:41:01,  7.75s/it, loss=0.0006, acc=0.9979, iter_time=7.71s]Epoch 0:  15%|█▍        | 1854/12384 [3:56:46<22:38:31,  7.74s/it, loss=0.0006, acc=0.9979, iter_time=7.71s]Epoch 0:  15%|█▍        | 1854/12384 [3:56:53<22:38:31,  7.74s/it, loss=0.0009, acc=0.9983, iter_time=5.69s]Epoch 0:  15%|█▍        | 1855/12384 [3:56:53<22:32:16,  7.71s/it, loss=0.0009, acc=0.9983, iter_time=5.69s]Epoch 0:  15%|█▍        | 1855/12384 [3:57:01<22:32:16,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=9.47s]Epoch 0:  15%|█▍        | 1856/12384 [3:57:01<22:26:12,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=9.47s]Epoch 0:  15%|█▍        | 1856/12384 [3:57:09<22:26:12,  7.67s/it, loss=0.0005, acc=0.9979, iter_time=7.65s]Epoch 0:  15%|█▍        | 1857/12384 [3:57:09<22:23:42,  7.66s/it, loss=0.0005, acc=0.9979, iter_time=7.65s]Epoch 0:  15%|█▍        | 1857/12384 [3:57:16<22:23:42,  7.66s/it, loss=0.0003, acc=0.9993, iter_time=5.30s]Epoch 0:  15%|█▌        | 1858/12384 [3:57:16<22:22:01,  7.65s/it, loss=0.0003, acc=0.9993, iter_time=5.30s]Epoch 0:  15%|█▌        | 1858/12384 [3:57:24<22:22:01,  7.65s/it, loss=0.0005, acc=0.9974, iter_time=9.66s]Epoch 0:  15%|█▌        | 1859/12384 [3:57:24<22:20:52,  7.64s/it, loss=0.0005, acc=0.9974, iter_time=9.66s]Epoch 0:  15%|█▌        | 1859/12384 [3:57:32<22:20:52,  7.64s/it, loss=0.0010, acc=0.9964, iter_time=7.62s]Epoch 0:  15%|█▌        | 1860/12384 [3:57:32<22:18:57,  7.63s/it, loss=0.0010, acc=0.9964, iter_time=7.62s]Epoch 0:  15%|█▌        | 1860/12384 [3:57:39<22:18:57,  7.63s/it, loss=0.0005, acc=0.9997, iter_time=6.70s]Epoch 0:  15%|█▌        | 1861/12384 [3:57:39<22:18:08,  7.63s/it, loss=0.0005, acc=0.9997, iter_time=6.70s]Epoch 0:  15%|█▌        | 1861/12384 [3:57:47<22:18:08,  7.63s/it, loss=0.0065, acc=0.9889, iter_time=8.84s]Epoch 0:  15%|█▌        | 1862/12384 [3:57:47<22:17:40,  7.63s/it, loss=0.0065, acc=0.9889, iter_time=8.84s]Epoch 0:  15%|█▌        | 1862/12384 [3:57:54<22:17:40,  7.63s/it, loss=0.0028, acc=0.9897, iter_time=7.04s]Epoch 0:  15%|█▌        | 1863/12384 [3:57:54<22:17:08,  7.63s/it, loss=0.0028, acc=0.9897, iter_time=7.04s]Epoch 0:  15%|█▌        | 1863/12384 [3:58:02<22:17:08,  7.63s/it, loss=0.0004, acc=0.9998, iter_time=8.16s]Epoch 0:  15%|█▌        | 1864/12384 [3:58:02<22:16:13,  7.62s/it, loss=0.0004, acc=0.9998, iter_time=8.16s]Epoch 0:  15%|█▌        | 1864/12384 [3:58:10<22:16:13,  7.62s/it, loss=0.0003, acc=1.0000, iter_time=7.76s]Epoch 0:  15%|█▌        | 1865/12384 [3:58:10<22:20:10,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=7.76s]Epoch 0:  15%|█▌        | 1865/12384 [3:58:17<22:20:10,  7.64s/it, loss=0.0011, acc=0.9965, iter_time=7.68s]Epoch 0:  15%|█▌        | 1866/12384 [3:58:17<22:21:24,  7.65s/it, loss=0.0011, acc=0.9965, iter_time=7.68s]Epoch 0:  15%|█▌        | 1866/12384 [3:58:25<22:21:24,  7.65s/it, loss=0.0008, acc=0.9974, iter_time=7.72s]Epoch 0:  15%|█▌        | 1867/12384 [3:58:25<22:24:40,  7.67s/it, loss=0.0008, acc=0.9974, iter_time=7.72s]Epoch 0:  15%|█▌        | 1867/12384 [3:58:33<22:24:40,  7.67s/it, loss=0.0056, acc=0.9869, iter_time=4.66s]Epoch 0:  15%|█▌        | 1868/12384 [3:58:33<22:24:17,  7.67s/it, loss=0.0056, acc=0.9869, iter_time=4.66s]Epoch 0:  15%|█▌        | 1868/12384 [3:58:41<22:24:17,  7.67s/it, loss=0.0013, acc=0.9977, iter_time=10.81s]Epoch 0:  15%|█▌        | 1869/12384 [3:58:41<22:31:24,  7.71s/it, loss=0.0013, acc=0.9977, iter_time=10.81s]Epoch 0:  15%|█▌        | 1869/12384 [3:58:48<22:31:24,  7.71s/it, loss=0.0009, acc=0.9983, iter_time=7.69s] Epoch 0:  15%|█▌        | 1870/12384 [3:58:48<22:33:55,  7.73s/it, loss=0.0009, acc=0.9983, iter_time=7.69s]Epoch 0:  15%|█▌        | 1870/12384 [3:58:56<22:33:55,  7.73s/it, loss=0.0006, acc=0.9995, iter_time=6.27s]Epoch 0:  15%|█▌        | 1871/12384 [3:58:56<22:27:42,  7.69s/it, loss=0.0006, acc=0.9995, iter_time=6.27s]Epoch 0:  15%|█▌        | 1871/12384 [3:59:04<22:27:42,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=9.53s]Epoch 0:  15%|█▌        | 1872/12384 [3:59:04<22:29:30,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=9.53s]Epoch 0:  15%|█▌        | 1872/12384 [3:59:11<22:29:30,  7.70s/it, loss=0.0003, acc=0.9987, iter_time=4.37s]Epoch 0:  15%|█▌        | 1873/12384 [3:59:11<22:27:31,  7.69s/it, loss=0.0003, acc=0.9987, iter_time=4.37s]Epoch 0:  15%|█▌        | 1873/12384 [3:59:19<22:27:31,  7.69s/it, loss=0.0008, acc=0.9980, iter_time=10.50s]Epoch 0:  15%|█▌        | 1874/12384 [3:59:19<22:24:08,  7.67s/it, loss=0.0008, acc=0.9980, iter_time=10.50s]Epoch 0:  15%|█▌        | 1874/12384 [3:59:27<22:24:08,  7.67s/it, loss=0.0005, acc=0.9998, iter_time=7.75s] Epoch 0:  15%|█▌        | 1875/12384 [3:59:27<22:41:02,  7.77s/it, loss=0.0005, acc=0.9998, iter_time=7.75s]Epoch 0:  15%|█▌        | 1875/12384 [3:59:35<22:41:02,  7.77s/it, loss=0.0013, acc=0.9948, iter_time=8.00s]Epoch 0:  15%|█▌        | 1876/12384 [3:59:35<22:38:26,  7.76s/it, loss=0.0013, acc=0.9948, iter_time=8.00s]Epoch 0:  15%|█▌        | 1876/12384 [3:59:42<22:38:26,  7.76s/it, loss=0.0009, acc=0.9979, iter_time=7.61s]Epoch 0:  15%|█▌        | 1877/12384 [3:59:42<22:30:41,  7.71s/it, loss=0.0009, acc=0.9979, iter_time=7.61s]Epoch 0:  15%|█▌        | 1877/12384 [3:59:50<22:30:41,  7.71s/it, loss=0.0002, acc=1.0000, iter_time=6.42s]Epoch 0:  15%|█▌        | 1878/12384 [3:59:50<22:29:09,  7.71s/it, loss=0.0002, acc=1.0000, iter_time=6.42s]Epoch 0:  15%|█▌        | 1878/12384 [3:59:58<22:29:09,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=8.87s]Epoch 0:  15%|█▌        | 1879/12384 [3:59:58<22:26:05,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=8.87s]Epoch 0:  15%|█▌        | 1879/12384 [4:00:05<22:26:05,  7.69s/it, loss=0.0003, acc=1.0000, iter_time=8.03s]Epoch 0:  15%|█▌        | 1880/12384 [4:00:05<22:22:04,  7.67s/it, loss=0.0003, acc=1.0000, iter_time=8.03s]Epoch 0:  15%|█▌        | 1880/12384 [4:00:13<22:22:04,  7.67s/it, loss=0.0002, acc=1.0000, iter_time=7.22s]Epoch 0:  15%|█▌        | 1881/12384 [4:00:13<22:19:20,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.22s]Epoch 0:  15%|█▌        | 1881/12384 [4:00:20<22:19:20,  7.65s/it, loss=0.0010, acc=0.9985, iter_time=6.42s]Epoch 0:  15%|█▌        | 1882/12384 [4:00:20<22:17:42,  7.64s/it, loss=0.0010, acc=0.9985, iter_time=6.42s]Epoch 0:  15%|█▌        | 1882/12384 [4:00:28<22:17:42,  7.64s/it, loss=0.0019, acc=0.9958, iter_time=8.83s]Epoch 0:  15%|█▌        | 1883/12384 [4:00:28<22:17:15,  7.64s/it, loss=0.0019, acc=0.9958, iter_time=8.83s]Epoch 0:  15%|█▌        | 1883/12384 [4:00:36<22:17:15,  7.64s/it, loss=0.0006, acc=0.9999, iter_time=7.64s]Epoch 0:  15%|█▌        | 1884/12384 [4:00:36<22:15:04,  7.63s/it, loss=0.0006, acc=0.9999, iter_time=7.64s]Epoch 0:  15%|█▌        | 1884/12384 [4:00:43<22:15:04,  7.63s/it, loss=0.0012, acc=0.9973, iter_time=7.59s]Epoch 0:  15%|█▌        | 1885/12384 [4:00:43<22:14:50,  7.63s/it, loss=0.0012, acc=0.9973, iter_time=7.59s]Epoch 0:  15%|█▌        | 1885/12384 [4:00:51<22:14:50,  7.63s/it, loss=0.0010, acc=0.9984, iter_time=7.63s]Epoch 0:  15%|█▌        | 1886/12384 [4:00:51<22:17:48,  7.65s/it, loss=0.0010, acc=0.9984, iter_time=7.63s]Epoch 0:  15%|█▌        | 1886/12384 [4:00:59<22:17:48,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.80s]Epoch 0:  15%|█▌        | 1887/12384 [4:00:59<22:26:22,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=7.80s]Epoch 0:  15%|█▌        | 1887/12384 [4:01:06<22:26:22,  7.70s/it, loss=0.0003, acc=1.0000, iter_time=8.08s]Epoch 0:  15%|█▌        | 1888/12384 [4:01:06<22:22:04,  7.67s/it, loss=0.0003, acc=1.0000, iter_time=8.08s]Epoch 0:  15%|█▌        | 1888/12384 [4:01:14<22:22:04,  7.67s/it, loss=0.0005, acc=0.9999, iter_time=6.92s]Epoch 0:  15%|█▌        | 1889/12384 [4:01:14<22:21:10,  7.67s/it, loss=0.0005, acc=0.9999, iter_time=6.92s]Epoch 0:  15%|█▌        | 1889/12384 [4:01:22<22:21:10,  7.67s/it, loss=0.0008, acc=0.9991, iter_time=7.99s]Epoch 0:  15%|█▌        | 1890/12384 [4:01:22<22:18:31,  7.65s/it, loss=0.0008, acc=0.9991, iter_time=7.99s]Epoch 0:  15%|█▌        | 1890/12384 [4:01:29<22:18:31,  7.65s/it, loss=0.0002, acc=0.9993, iter_time=6.49s]Epoch 0:  15%|█▌        | 1891/12384 [4:01:29<22:15:38,  7.64s/it, loss=0.0002, acc=0.9993, iter_time=6.49s]Epoch 0:  15%|█▌        | 1891/12384 [4:01:37<22:15:38,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=6.69s]Epoch 0:  15%|█▌        | 1892/12384 [4:01:37<22:15:05,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=6.69s]Epoch 0:  15%|█▌        | 1892/12384 [4:01:45<22:15:05,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=6.74s]Epoch 0:  15%|█▌        | 1893/12384 [4:01:45<22:22:16,  7.68s/it, loss=0.0003, acc=1.0000, iter_time=6.74s]Epoch 0:  15%|█▌        | 1893/12384 [4:01:52<22:22:16,  7.68s/it, loss=0.0003, acc=0.9998, iter_time=10.67s]Epoch 0:  15%|█▌        | 1894/12384 [4:01:52<22:18:47,  7.66s/it, loss=0.0003, acc=0.9998, iter_time=10.67s]Epoch 0:  15%|█▌        | 1894/12384 [4:02:00<22:18:47,  7.66s/it, loss=0.0005, acc=0.9984, iter_time=7.63s] Epoch 0:  15%|█▌        | 1895/12384 [4:02:00<22:17:55,  7.65s/it, loss=0.0005, acc=0.9984, iter_time=7.63s]Epoch 0:  15%|█▌        | 1895/12384 [4:02:08<22:17:55,  7.65s/it, loss=0.0008, acc=0.9979, iter_time=8.05s]Epoch 0:  15%|█▌        | 1896/12384 [4:02:08<22:18:01,  7.65s/it, loss=0.0008, acc=0.9979, iter_time=8.05s]Epoch 0:  15%|█▌        | 1896/12384 [4:02:15<22:18:01,  7.65s/it, loss=0.0007, acc=0.9965, iter_time=7.25s]Epoch 0:  15%|█▌        | 1897/12384 [4:02:15<22:17:06,  7.65s/it, loss=0.0007, acc=0.9965, iter_time=7.25s]Epoch 0:  15%|█▌        | 1897/12384 [4:02:23<22:17:06,  7.65s/it, loss=0.0055, acc=0.9911, iter_time=4.79s]Epoch 0:  15%|█▌        | 1898/12384 [4:02:23<22:14:52,  7.64s/it, loss=0.0055, acc=0.9911, iter_time=4.79s]Epoch 0:  15%|█▌        | 1898/12384 [4:02:31<22:14:52,  7.64s/it, loss=0.0006, acc=1.0000, iter_time=8.96s]Epoch 0:  15%|█▌        | 1899/12384 [4:02:31<22:16:15,  7.65s/it, loss=0.0006, acc=1.0000, iter_time=8.96s]Epoch 0:  15%|█▌        | 1899/12384 [4:02:38<22:16:15,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=9.63s]Epoch 0:  15%|█▌        | 1900/12384 [4:02:38<22:17:22,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=9.63s]Epoch 0:  15%|█▌        | 1900/12384 [4:02:46<22:17:22,  7.65s/it, loss=0.0002, acc=0.9998, iter_time=7.48s]Epoch 0:  15%|█▌        | 1901/12384 [4:02:46<22:32:45,  7.74s/it, loss=0.0002, acc=0.9998, iter_time=7.48s]Epoch 0:  15%|█▌        | 1901/12384 [4:02:54<22:32:45,  7.74s/it, loss=0.0009, acc=0.9982, iter_time=4.90s]Epoch 0:  15%|█▌        | 1902/12384 [4:02:54<22:27:06,  7.71s/it, loss=0.0009, acc=0.9982, iter_time=4.90s]Epoch 0:  15%|█▌        | 1902/12384 [4:03:02<22:27:06,  7.71s/it, loss=0.0058, acc=0.9907, iter_time=10.42s]Epoch 0:  15%|█▌        | 1903/12384 [4:03:02<22:25:23,  7.70s/it, loss=0.0058, acc=0.9907, iter_time=10.42s]Epoch 0:  15%|█▌        | 1903/12384 [4:03:09<22:25:23,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=8.06s] Epoch 0:  15%|█▌        | 1904/12384 [4:03:09<22:20:17,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=8.06s]Epoch 0:  15%|█▌        | 1904/12384 [4:03:17<22:20:17,  7.67s/it, loss=0.0003, acc=1.0000, iter_time=7.20s]Epoch 0:  15%|█▌        | 1905/12384 [4:03:17<22:14:56,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=7.20s]Epoch 0:  15%|█▌        | 1905/12384 [4:03:24<22:14:56,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.62s]Epoch 0:  15%|█▌        | 1906/12384 [4:03:24<22:13:10,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=7.62s]Epoch 0:  15%|█▌        | 1906/12384 [4:03:32<22:13:10,  7.63s/it, loss=0.0033, acc=0.9937, iter_time=4.75s]Epoch 0:  15%|█▌        | 1907/12384 [4:03:32<22:14:40,  7.64s/it, loss=0.0033, acc=0.9937, iter_time=4.75s]Epoch 0:  15%|█▌        | 1907/12384 [4:03:40<22:14:40,  7.64s/it, loss=0.0009, acc=0.9985, iter_time=10.53s]Epoch 0:  15%|█▌        | 1908/12384 [4:03:40<22:13:16,  7.64s/it, loss=0.0009, acc=0.9985, iter_time=10.53s]Epoch 0:  15%|█▌        | 1908/12384 [4:03:47<22:13:16,  7.64s/it, loss=0.0089, acc=0.9913, iter_time=7.62s] Epoch 0:  15%|█▌        | 1909/12384 [4:03:47<22:13:31,  7.64s/it, loss=0.0089, acc=0.9913, iter_time=7.62s]Epoch 0:  15%|█▌        | 1909/12384 [4:03:55<22:13:31,  7.64s/it, loss=0.0002, acc=0.9995, iter_time=4.78s]Epoch 0:  15%|█▌        | 1910/12384 [4:03:55<22:12:21,  7.63s/it, loss=0.0002, acc=0.9995, iter_time=4.78s]Epoch 0:  15%|█▌        | 1910/12384 [4:04:03<22:12:21,  7.63s/it, loss=0.0007, acc=0.9994, iter_time=10.51s]Epoch 0:  15%|█▌        | 1911/12384 [4:04:03<22:12:55,  7.64s/it, loss=0.0007, acc=0.9994, iter_time=10.51s]Epoch 0:  15%|█▌        | 1911/12384 [4:04:10<22:12:55,  7.64s/it, loss=0.0006, acc=0.9993, iter_time=7.57s] Epoch 0:  15%|█▌        | 1912/12384 [4:04:10<22:12:22,  7.63s/it, loss=0.0006, acc=0.9993, iter_time=7.57s]Epoch 0:  15%|█▌        | 1912/12384 [4:04:18<22:12:22,  7.63s/it, loss=0.0007, acc=0.9965, iter_time=4.14s]Epoch 0:  15%|█▌        | 1913/12384 [4:04:18<22:13:53,  7.64s/it, loss=0.0007, acc=0.9965, iter_time=4.14s]Epoch 0:  15%|█▌        | 1913/12384 [4:04:25<22:13:53,  7.64s/it, loss=0.0011, acc=0.9995, iter_time=9.97s]Epoch 0:  15%|█▌        | 1914/12384 [4:04:25<22:14:11,  7.65s/it, loss=0.0011, acc=0.9995, iter_time=9.97s]Epoch 0:  15%|█▌        | 1914/12384 [4:04:33<22:14:11,  7.65s/it, loss=0.0031, acc=0.9896, iter_time=8.87s]Epoch 0:  15%|█▌        | 1915/12384 [4:04:33<22:12:03,  7.63s/it, loss=0.0031, acc=0.9896, iter_time=8.87s]Epoch 0:  15%|█▌        | 1915/12384 [4:04:41<22:12:03,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.60s]Epoch 0:  15%|█▌        | 1916/12384 [4:04:41<22:15:18,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.60s]Epoch 0:  15%|█▌        | 1916/12384 [4:04:48<22:15:18,  7.65s/it, loss=0.0006, acc=0.9999, iter_time=7.72s]Epoch 0:  15%|█▌        | 1917/12384 [4:04:48<22:13:26,  7.64s/it, loss=0.0006, acc=0.9999, iter_time=7.72s]Epoch 0:  15%|█▌        | 1917/12384 [4:04:56<22:13:26,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=6.12s]Epoch 0:  15%|█▌        | 1918/12384 [4:04:56<22:11:57,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=6.12s]Epoch 0:  15%|█▌        | 1918/12384 [4:05:04<22:11:57,  7.64s/it, loss=0.0014, acc=0.9978, iter_time=9.21s]Epoch 0:  15%|█▌        | 1919/12384 [4:05:04<22:18:12,  7.67s/it, loss=0.0014, acc=0.9978, iter_time=9.21s]Epoch 0:  15%|█▌        | 1919/12384 [4:05:11<22:18:12,  7.67s/it, loss=0.0009, acc=0.9955, iter_time=8.03s]Epoch 0:  16%|█▌        | 1920/12384 [4:05:11<22:16:31,  7.66s/it, loss=0.0009, acc=0.9955, iter_time=8.03s]Epoch 0:  16%|█▌        | 1920/12384 [4:05:19<22:16:31,  7.66s/it, loss=0.0006, acc=0.9974, iter_time=7.35s]Epoch 0:  16%|█▌        | 1921/12384 [4:05:19<22:18:38,  7.68s/it, loss=0.0006, acc=0.9974, iter_time=7.35s]Epoch 0:  16%|█▌        | 1921/12384 [4:05:27<22:18:38,  7.68s/it, loss=0.0004, acc=0.9984, iter_time=7.65s]Epoch 0:  16%|█▌        | 1922/12384 [4:05:27<22:16:31,  7.67s/it, loss=0.0004, acc=0.9984, iter_time=7.65s]Epoch 0:  16%|█▌        | 1922/12384 [4:05:34<22:16:31,  7.67s/it, loss=0.0010, acc=0.9977, iter_time=7.62s]Epoch 0:  16%|█▌        | 1923/12384 [4:05:34<22:14:41,  7.66s/it, loss=0.0010, acc=0.9977, iter_time=7.62s]Epoch 0:  16%|█▌        | 1923/12384 [4:05:42<22:14:41,  7.66s/it, loss=0.0015, acc=0.9953, iter_time=3.81s]Epoch 0:  16%|█▌        | 1924/12384 [4:05:42<22:14:22,  7.65s/it, loss=0.0015, acc=0.9953, iter_time=3.81s]Epoch 0:  16%|█▌        | 1924/12384 [4:05:50<22:14:22,  7.65s/it, loss=0.0015, acc=0.9976, iter_time=11.48s]Epoch 0:  16%|█▌        | 1925/12384 [4:05:50<22:19:12,  7.68s/it, loss=0.0015, acc=0.9976, iter_time=11.48s]Epoch 0:  16%|█▌        | 1925/12384 [4:05:57<22:19:12,  7.68s/it, loss=0.0018, acc=0.9983, iter_time=7.74s] Epoch 0:  16%|█▌        | 1926/12384 [4:05:57<22:17:39,  7.67s/it, loss=0.0018, acc=0.9983, iter_time=7.74s]Epoch 0:  16%|█▌        | 1926/12384 [4:06:05<22:17:39,  7.67s/it, loss=0.0007, acc=0.9996, iter_time=4.61s]Epoch 0:  16%|█▌        | 1927/12384 [4:06:05<22:16:06,  7.67s/it, loss=0.0007, acc=0.9996, iter_time=4.61s]Epoch 0:  16%|█▌        | 1927/12384 [4:06:13<22:16:06,  7.67s/it, loss=0.0002, acc=1.0000, iter_time=11.38s]Epoch 0:  16%|█▌        | 1928/12384 [4:06:13<22:30:39,  7.75s/it, loss=0.0002, acc=1.0000, iter_time=11.38s]Epoch 0:  16%|█▌        | 1928/12384 [4:06:21<22:30:39,  7.75s/it, loss=0.0020, acc=0.9942, iter_time=7.23s] Epoch 0:  16%|█▌        | 1929/12384 [4:06:21<22:23:05,  7.71s/it, loss=0.0020, acc=0.9942, iter_time=7.23s]Epoch 0:  16%|█▌        | 1929/12384 [4:06:28<22:23:05,  7.71s/it, loss=0.0022, acc=0.9954, iter_time=7.64s]Epoch 0:  16%|█▌        | 1930/12384 [4:06:28<22:19:33,  7.69s/it, loss=0.0022, acc=0.9954, iter_time=7.64s]Epoch 0:  16%|█▌        | 1930/12384 [4:06:36<22:19:33,  7.69s/it, loss=0.0006, acc=0.9994, iter_time=7.63s]Epoch 0:  16%|█▌        | 1931/12384 [4:06:36<22:17:43,  7.68s/it, loss=0.0006, acc=0.9994, iter_time=7.63s]Epoch 0:  16%|█▌        | 1931/12384 [4:06:44<22:17:43,  7.68s/it, loss=0.0006, acc=0.9998, iter_time=7.35s]Epoch 0:  16%|█▌        | 1932/12384 [4:06:44<22:14:33,  7.66s/it, loss=0.0006, acc=0.9998, iter_time=7.35s]Epoch 0:  16%|█▌        | 1932/12384 [4:06:51<22:14:33,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.93s]Epoch 0:  16%|█▌        | 1933/12384 [4:06:51<22:13:47,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.93s]Epoch 0:  16%|█▌        | 1933/12384 [4:06:59<22:13:47,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=7.65s]Epoch 0:  16%|█▌        | 1934/12384 [4:06:59<22:14:58,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=7.65s]Epoch 0:  16%|█▌        | 1934/12384 [4:07:07<22:14:58,  7.66s/it, loss=0.0009, acc=0.9995, iter_time=7.07s]Epoch 0:  16%|█▌        | 1935/12384 [4:07:07<22:13:37,  7.66s/it, loss=0.0009, acc=0.9995, iter_time=7.07s]Epoch 0:  16%|█▌        | 1935/12384 [4:07:14<22:13:37,  7.66s/it, loss=0.0005, acc=1.0000, iter_time=8.62s]Epoch 0:  16%|█▌        | 1936/12384 [4:07:14<22:15:40,  7.67s/it, loss=0.0005, acc=1.0000, iter_time=8.62s]Epoch 0:  16%|█▌        | 1936/12384 [4:07:22<22:15:40,  7.67s/it, loss=0.0006, acc=0.9981, iter_time=6.11s]Epoch 0:  16%|█▌        | 1937/12384 [4:07:22<22:11:57,  7.65s/it, loss=0.0006, acc=0.9981, iter_time=6.11s]Epoch 0:  16%|█▌        | 1937/12384 [4:07:29<22:11:57,  7.65s/it, loss=0.0001, acc=0.9998, iter_time=7.60s]Epoch 0:  16%|█▌        | 1938/12384 [4:07:29<22:10:10,  7.64s/it, loss=0.0001, acc=0.9998, iter_time=7.60s]Epoch 0:  16%|█▌        | 1938/12384 [4:07:37<22:10:10,  7.64s/it, loss=0.0016, acc=0.9985, iter_time=8.87s]Epoch 0:  16%|█▌        | 1939/12384 [4:07:37<22:08:42,  7.63s/it, loss=0.0016, acc=0.9985, iter_time=8.87s]Epoch 0:  16%|█▌        | 1939/12384 [4:07:45<22:08:42,  7.63s/it, loss=0.0006, acc=0.9991, iter_time=7.63s]Epoch 0:  16%|█▌        | 1940/12384 [4:07:45<22:10:12,  7.64s/it, loss=0.0006, acc=0.9991, iter_time=7.63s]Epoch 0:  16%|█▌        | 1940/12384 [4:07:52<22:10:12,  7.64s/it, loss=0.0003, acc=0.9998, iter_time=6.40s]Epoch 0:  16%|█▌        | 1941/12384 [4:07:52<22:09:36,  7.64s/it, loss=0.0003, acc=0.9998, iter_time=6.40s]Epoch 0:  16%|█▌        | 1941/12384 [4:08:00<22:09:36,  7.64s/it, loss=0.0019, acc=0.9960, iter_time=8.83s]Epoch 0:  16%|█▌        | 1942/12384 [4:08:00<22:08:45,  7.64s/it, loss=0.0019, acc=0.9960, iter_time=8.83s]Epoch 0:  16%|█▌        | 1942/12384 [4:08:08<22:08:45,  7.64s/it, loss=0.0012, acc=0.9983, iter_time=7.64s]Epoch 0:  16%|█▌        | 1943/12384 [4:08:08<22:08:28,  7.63s/it, loss=0.0012, acc=0.9983, iter_time=7.64s]Epoch 0:  16%|█▌        | 1943/12384 [4:08:15<22:08:28,  7.63s/it, loss=0.0018, acc=0.9950, iter_time=7.61s]Epoch 0:  16%|█▌        | 1944/12384 [4:08:15<22:09:24,  7.64s/it, loss=0.0018, acc=0.9950, iter_time=7.61s]Epoch 0:  16%|█▌        | 1944/12384 [4:08:23<22:09:24,  7.64s/it, loss=0.0006, acc=0.9975, iter_time=4.80s]Epoch 0:  16%|█▌        | 1945/12384 [4:08:23<22:11:04,  7.65s/it, loss=0.0006, acc=0.9975, iter_time=4.80s]Epoch 0:  16%|█▌        | 1945/12384 [4:08:31<22:11:04,  7.65s/it, loss=0.0016, acc=0.9941, iter_time=8.20s]Epoch 0:  16%|█▌        | 1946/12384 [4:08:31<22:09:29,  7.64s/it, loss=0.0016, acc=0.9941, iter_time=8.20s]Epoch 0:  16%|█▌        | 1946/12384 [4:08:38<22:09:29,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=9.94s]Epoch 0:  16%|█▌        | 1947/12384 [4:08:38<22:08:00,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=9.94s]Epoch 0:  16%|█▌        | 1947/12384 [4:08:46<22:08:00,  7.63s/it, loss=0.0028, acc=0.9932, iter_time=7.64s]Epoch 0:  16%|█▌        | 1948/12384 [4:08:46<22:08:19,  7.64s/it, loss=0.0028, acc=0.9932, iter_time=7.64s]Epoch 0:  16%|█▌        | 1948/12384 [4:08:53<22:08:19,  7.64s/it, loss=0.0011, acc=0.9975, iter_time=6.44s]Epoch 0:  16%|█▌        | 1949/12384 [4:08:53<22:07:14,  7.63s/it, loss=0.0011, acc=0.9975, iter_time=6.44s]Epoch 0:  16%|█▌        | 1949/12384 [4:09:01<22:07:14,  7.63s/it, loss=0.0010, acc=0.9976, iter_time=9.22s]Epoch 0:  16%|█▌        | 1950/12384 [4:09:01<22:06:02,  7.63s/it, loss=0.0010, acc=0.9976, iter_time=9.22s]Epoch 0:  16%|█▌        | 1950/12384 [4:09:09<22:06:02,  7.63s/it, loss=0.0012, acc=0.9975, iter_time=7.21s]Epoch 0:  16%|█▌        | 1951/12384 [4:09:09<22:05:53,  7.63s/it, loss=0.0012, acc=0.9975, iter_time=7.21s]Epoch 0:  16%|█▌        | 1951/12384 [4:09:16<22:05:53,  7.63s/it, loss=0.0020, acc=0.9984, iter_time=8.02s]Epoch 0:  16%|█▌        | 1952/12384 [4:09:16<22:05:05,  7.62s/it, loss=0.0020, acc=0.9984, iter_time=8.02s]Epoch 0:  16%|█▌        | 1952/12384 [4:09:24<22:05:05,  7.62s/it, loss=0.0002, acc=1.0000, iter_time=7.23s]Epoch 0:  16%|█▌        | 1953/12384 [4:09:24<22:10:12,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.23s]Epoch 0:  16%|█▌        | 1953/12384 [4:09:32<22:10:12,  7.65s/it, loss=0.0006, acc=0.9966, iter_time=6.84s]Epoch 0:  16%|█▌        | 1954/12384 [4:09:32<22:27:12,  7.75s/it, loss=0.0006, acc=0.9966, iter_time=6.84s]Epoch 0:  16%|█▌        | 1954/12384 [4:09:40<22:27:12,  7.75s/it, loss=0.0016, acc=0.9979, iter_time=7.73s]Epoch 0:  16%|█▌        | 1955/12384 [4:09:40<22:21:00,  7.72s/it, loss=0.0016, acc=0.9979, iter_time=7.73s]Epoch 0:  16%|█▌        | 1955/12384 [4:09:47<22:21:00,  7.72s/it, loss=0.0001, acc=0.9998, iter_time=5.24s]Epoch 0:  16%|█▌        | 1956/12384 [4:09:47<22:20:44,  7.71s/it, loss=0.0001, acc=0.9998, iter_time=5.24s]Epoch 0:  16%|█▌        | 1956/12384 [4:09:55<22:20:44,  7.71s/it, loss=0.0005, acc=0.9980, iter_time=8.93s]Epoch 0:  16%|█▌        | 1957/12384 [4:09:55<22:19:44,  7.71s/it, loss=0.0005, acc=0.9980, iter_time=8.93s]Epoch 0:  16%|█▌        | 1957/12384 [4:10:03<22:19:44,  7.71s/it, loss=0.0009, acc=0.9999, iter_time=9.39s]Epoch 0:  16%|█▌        | 1958/12384 [4:10:03<22:13:21,  7.67s/it, loss=0.0009, acc=0.9999, iter_time=9.39s]Epoch 0:  16%|█▌        | 1958/12384 [4:10:10<22:13:21,  7.67s/it, loss=0.0110, acc=0.9852, iter_time=6.98s]Epoch 0:  16%|█▌        | 1959/12384 [4:10:10<22:09:47,  7.65s/it, loss=0.0110, acc=0.9852, iter_time=6.98s]Epoch 0:  16%|█▌        | 1959/12384 [4:10:18<22:09:47,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=8.80s]Epoch 0:  16%|█▌        | 1960/12384 [4:10:18<22:09:09,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=8.80s]Epoch 0:  16%|█▌        | 1960/12384 [4:10:26<22:09:09,  7.65s/it, loss=0.0004, acc=0.9988, iter_time=7.65s]Epoch 0:  16%|█▌        | 1961/12384 [4:10:26<22:11:04,  7.66s/it, loss=0.0004, acc=0.9988, iter_time=7.65s]Epoch 0:  16%|█▌        | 1961/12384 [4:10:33<22:11:04,  7.66s/it, loss=0.0009, acc=0.9980, iter_time=6.77s]Epoch 0:  16%|█▌        | 1962/12384 [4:10:33<22:10:19,  7.66s/it, loss=0.0009, acc=0.9980, iter_time=6.77s]Epoch 0:  16%|█▌        | 1962/12384 [4:10:41<22:10:19,  7.66s/it, loss=0.0237, acc=0.9555, iter_time=8.60s]Epoch 0:  16%|█▌        | 1963/12384 [4:10:41<22:09:29,  7.65s/it, loss=0.0237, acc=0.9555, iter_time=8.60s]Epoch 0:  16%|█▌        | 1963/12384 [4:10:49<22:09:29,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=4.85s]Epoch 0:  16%|█▌        | 1964/12384 [4:10:49<22:09:08,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=4.85s]Epoch 0:  16%|█▌        | 1964/12384 [4:10:56<22:09:08,  7.65s/it, loss=0.0012, acc=0.9981, iter_time=10.44s]Epoch 0:  16%|█▌        | 1965/12384 [4:10:56<22:08:21,  7.65s/it, loss=0.0012, acc=0.9981, iter_time=10.44s]Epoch 0:  16%|█▌        | 1965/12384 [4:11:04<22:08:21,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.70s] Epoch 0:  16%|█▌        | 1966/12384 [4:11:04<22:12:08,  7.67s/it, loss=0.0002, acc=1.0000, iter_time=7.70s]Epoch 0:  16%|█▌        | 1966/12384 [4:11:12<22:12:08,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  16%|█▌        | 1967/12384 [4:11:12<22:13:45,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  16%|█▌        | 1967/12384 [4:11:19<22:13:45,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=7.74s]Epoch 0:  16%|█▌        | 1968/12384 [4:11:19<22:13:45,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=7.74s]Epoch 0:  16%|█▌        | 1968/12384 [4:11:27<22:13:45,  7.68s/it, loss=0.0007, acc=0.9980, iter_time=7.66s]Epoch 0:  16%|█▌        | 1969/12384 [4:11:27<22:10:42,  7.67s/it, loss=0.0007, acc=0.9980, iter_time=7.66s]Epoch 0:  16%|█▌        | 1969/12384 [4:11:35<22:10:42,  7.67s/it, loss=0.0019, acc=0.9948, iter_time=7.64s]Epoch 0:  16%|█▌        | 1970/12384 [4:11:35<22:08:00,  7.65s/it, loss=0.0019, acc=0.9948, iter_time=7.64s]Epoch 0:  16%|█▌        | 1970/12384 [4:11:42<22:08:00,  7.65s/it, loss=0.0022, acc=0.9961, iter_time=4.32s]Epoch 0:  16%|█▌        | 1971/12384 [4:11:42<22:05:39,  7.64s/it, loss=0.0022, acc=0.9961, iter_time=4.32s]Epoch 0:  16%|█▌        | 1971/12384 [4:11:50<22:05:39,  7.64s/it, loss=0.0010, acc=0.9983, iter_time=10.90s]Epoch 0:  16%|█▌        | 1972/12384 [4:11:50<22:04:31,  7.63s/it, loss=0.0010, acc=0.9983, iter_time=10.90s]Epoch 0:  16%|█▌        | 1972/12384 [4:11:57<22:04:31,  7.63s/it, loss=0.0008, acc=0.9980, iter_time=7.33s] Epoch 0:  16%|█▌        | 1973/12384 [4:11:57<22:02:45,  7.62s/it, loss=0.0008, acc=0.9980, iter_time=7.33s]Epoch 0:  16%|█▌        | 1973/12384 [4:12:05<22:02:45,  7.62s/it, loss=0.0005, acc=0.9998, iter_time=7.88s]Epoch 0:  16%|█▌        | 1974/12384 [4:12:05<22:02:15,  7.62s/it, loss=0.0005, acc=0.9998, iter_time=7.88s]Epoch 0:  16%|█▌        | 1974/12384 [4:12:13<22:02:15,  7.62s/it, loss=0.0036, acc=0.9948, iter_time=6.69s]Epoch 0:  16%|█▌        | 1975/12384 [4:12:13<22:03:26,  7.63s/it, loss=0.0036, acc=0.9948, iter_time=6.69s]Epoch 0:  16%|█▌        | 1975/12384 [4:12:20<22:03:26,  7.63s/it, loss=0.0004, acc=0.9984, iter_time=8.97s]Epoch 0:  16%|█▌        | 1976/12384 [4:12:20<22:05:14,  7.64s/it, loss=0.0004, acc=0.9984, iter_time=8.97s]Epoch 0:  16%|█▌        | 1976/12384 [4:12:28<22:05:14,  7.64s/it, loss=0.0004, acc=0.9994, iter_time=6.97s]Epoch 0:  16%|█▌        | 1977/12384 [4:12:28<22:04:47,  7.64s/it, loss=0.0004, acc=0.9994, iter_time=6.97s]Epoch 0:  16%|█▌        | 1977/12384 [4:12:36<22:04:47,  7.64s/it, loss=0.0004, acc=0.9996, iter_time=7.95s]Epoch 0:  16%|█▌        | 1978/12384 [4:12:36<22:03:52,  7.63s/it, loss=0.0004, acc=0.9996, iter_time=7.95s]Epoch 0:  16%|█▌        | 1978/12384 [4:12:43<22:03:52,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.63s]Epoch 0:  16%|█▌        | 1979/12384 [4:12:43<22:03:04,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.63s]Epoch 0:  16%|█▌        | 1979/12384 [4:12:51<22:03:04,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=7.61s]Epoch 0:  16%|█▌        | 1980/12384 [4:12:51<22:04:35,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=7.61s]Epoch 0:  16%|█▌        | 1980/12384 [4:12:59<22:04:35,  7.64s/it, loss=0.0006, acc=0.9991, iter_time=7.98s]Epoch 0:  16%|█▌        | 1981/12384 [4:12:59<22:24:27,  7.75s/it, loss=0.0006, acc=0.9991, iter_time=7.98s]Epoch 0:  16%|█▌        | 1981/12384 [4:13:07<22:24:27,  7.75s/it, loss=0.0004, acc=0.9991, iter_time=7.76s]Epoch 0:  16%|█▌        | 1982/12384 [4:13:07<22:20:20,  7.73s/it, loss=0.0004, acc=0.9991, iter_time=7.76s]Epoch 0:  16%|█▌        | 1982/12384 [4:13:14<22:20:20,  7.73s/it, loss=0.0002, acc=1.0000, iter_time=7.61s]Epoch 0:  16%|█▌        | 1983/12384 [4:13:14<22:13:17,  7.69s/it, loss=0.0002, acc=1.0000, iter_time=7.61s]Epoch 0:  16%|█▌        | 1983/12384 [4:13:22<22:13:17,  7.69s/it, loss=0.0002, acc=0.9998, iter_time=8.10s]Epoch 0:  16%|█▌        | 1984/12384 [4:13:22<22:14:39,  7.70s/it, loss=0.0002, acc=0.9998, iter_time=8.10s]Epoch 0:  16%|█▌        | 1984/12384 [4:13:29<22:14:39,  7.70s/it, loss=0.0007, acc=0.9972, iter_time=6.29s]Epoch 0:  16%|█▌        | 1985/12384 [4:13:29<22:10:48,  7.68s/it, loss=0.0007, acc=0.9972, iter_time=6.29s]Epoch 0:  16%|█▌        | 1985/12384 [4:13:37<22:10:48,  7.68s/it, loss=0.0004, acc=0.9997, iter_time=8.55s]Epoch 0:  16%|█▌        | 1986/12384 [4:13:37<22:06:18,  7.65s/it, loss=0.0004, acc=0.9997, iter_time=8.55s]Epoch 0:  16%|█▌        | 1986/12384 [4:13:45<22:06:18,  7.65s/it, loss=0.0003, acc=0.9997, iter_time=7.31s]Epoch 0:  16%|█▌        | 1987/12384 [4:13:45<22:06:29,  7.66s/it, loss=0.0003, acc=0.9997, iter_time=7.31s]Epoch 0:  16%|█▌        | 1987/12384 [4:13:52<22:06:29,  7.66s/it, loss=0.0005, acc=1.0000, iter_time=7.96s]Epoch 0:  16%|█▌        | 1988/12384 [4:13:52<22:05:58,  7.65s/it, loss=0.0005, acc=1.0000, iter_time=7.96s]Epoch 0:  16%|█▌        | 1988/12384 [4:14:00<22:05:58,  7.65s/it, loss=0.0003, acc=1.0000, iter_time=3.67s]Epoch 0:  16%|█▌        | 1989/12384 [4:14:00<22:05:35,  7.65s/it, loss=0.0003, acc=1.0000, iter_time=3.67s]Epoch 0:  16%|█▌        | 1989/12384 [4:14:08<22:05:35,  7.65s/it, loss=0.0003, acc=0.9998, iter_time=11.65s]Epoch 0:  16%|█▌        | 1990/12384 [4:14:08<22:06:24,  7.66s/it, loss=0.0003, acc=0.9998, iter_time=11.65s]Epoch 0:  16%|█▌        | 1990/12384 [4:14:15<22:06:24,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=6.23s] Epoch 0:  16%|█▌        | 1991/12384 [4:14:15<22:07:12,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=6.23s]Epoch 0:  16%|█▌        | 1991/12384 [4:14:23<22:07:12,  7.66s/it, loss=0.0002, acc=0.9998, iter_time=9.47s]Epoch 0:  16%|█▌        | 1992/12384 [4:14:23<22:06:01,  7.66s/it, loss=0.0002, acc=0.9998, iter_time=9.47s]Epoch 0:  16%|█▌        | 1992/12384 [4:14:31<22:06:01,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=4.13s]Epoch 0:  16%|█▌        | 1993/12384 [4:14:31<22:04:59,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=4.13s]Epoch 0:  16%|█▌        | 1993/12384 [4:14:38<22:04:59,  7.65s/it, loss=0.0002, acc=0.9998, iter_time=8.47s]Epoch 0:  16%|█▌        | 1994/12384 [4:14:38<22:05:31,  7.65s/it, loss=0.0002, acc=0.9998, iter_time=8.47s]Epoch 0:  16%|█▌        | 1994/12384 [4:14:46<22:05:31,  7.65s/it, loss=0.0002, acc=0.9998, iter_time=9.99s]Epoch 0:  16%|█▌        | 1995/12384 [4:14:46<22:05:20,  7.65s/it, loss=0.0002, acc=0.9998, iter_time=9.99s]Epoch 0:  16%|█▌        | 1995/12384 [4:14:54<22:05:20,  7.65s/it, loss=0.0005, acc=1.0000, iter_time=7.60s]Epoch 0:  16%|█▌        | 1996/12384 [4:14:54<22:01:50,  7.63s/it, loss=0.0005, acc=1.0000, iter_time=7.60s]Epoch 0:  16%|█▌        | 1996/12384 [4:15:01<22:01:50,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=7.64s]Epoch 0:  16%|█▌        | 1997/12384 [4:15:01<22:01:59,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.64s]Epoch 0:  16%|█▌        | 1997/12384 [4:15:09<22:01:59,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=4.57s]Epoch 0:  16%|█▌        | 1998/12384 [4:15:09<22:03:39,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=4.57s]Epoch 0:  16%|█▌        | 1998/12384 [4:15:16<22:03:39,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=10.70s]Epoch 0:  16%|█▌        | 1999/12384 [4:15:16<22:00:35,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=10.70s]Epoch 0:  16%|█▌        | 1999/12384 [4:15:24<22:00:35,  7.63s/it, loss=0.0004, acc=0.9998, iter_time=8.03s] Epoch 0:  16%|█▌        | 2000/12384 [4:15:24<22:10:48,  7.69s/it, loss=0.0004, acc=0.9998, iter_time=8.03s]Epoch 0:  16%|█▌        | 2000/12384 [4:15:32<22:10:48,  7.69s/it, loss=0.0011, acc=0.9961, iter_time=7.11s]Epoch 0:  16%|█▌        | 2001/12384 [4:15:32<22:08:41,  7.68s/it, loss=0.0011, acc=0.9961, iter_time=7.11s]Epoch 0:  16%|█▌        | 2001/12384 [4:15:40<22:08:41,  7.68s/it, loss=0.0001, acc=0.9998, iter_time=7.41s]Epoch 0:  16%|█▌        | 2002/12384 [4:15:40<22:07:36,  7.67s/it, loss=0.0001, acc=0.9998, iter_time=7.41s]Epoch 0:  16%|█▌        | 2002/12384 [4:15:47<22:07:36,  7.67s/it, loss=0.0008, acc=0.9977, iter_time=8.22s]Epoch 0:  16%|█▌        | 2003/12384 [4:15:47<22:05:49,  7.66s/it, loss=0.0008, acc=0.9977, iter_time=8.22s]Epoch 0:  16%|█▌        | 2003/12384 [4:15:55<22:05:49,  7.66s/it, loss=0.0028, acc=0.9974, iter_time=7.63s]Epoch 0:  16%|█▌        | 2004/12384 [4:15:55<22:03:53,  7.65s/it, loss=0.0028, acc=0.9974, iter_time=7.63s]Epoch 0:  16%|█▌        | 2004/12384 [4:16:02<22:03:53,  7.65s/it, loss=0.0013, acc=0.9964, iter_time=7.61s]Epoch 0:  16%|█▌        | 2005/12384 [4:16:02<22:01:33,  7.64s/it, loss=0.0013, acc=0.9964, iter_time=7.61s]Epoch 0:  16%|█▌        | 2005/12384 [4:16:10<22:01:33,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.89s]Epoch 0:  16%|█▌        | 2006/12384 [4:16:10<22:13:24,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=7.89s]Epoch 0:  16%|█▌        | 2006/12384 [4:16:18<22:13:24,  7.71s/it, loss=0.0004, acc=0.9995, iter_time=7.66s]Epoch 0:  16%|█▌        | 2007/12384 [4:16:18<22:27:46,  7.79s/it, loss=0.0004, acc=0.9995, iter_time=7.66s]Epoch 0:  16%|█▌        | 2007/12384 [4:16:26<22:27:46,  7.79s/it, loss=0.0003, acc=1.0000, iter_time=8.30s]Epoch 0:  16%|█▌        | 2008/12384 [4:16:26<22:19:24,  7.75s/it, loss=0.0003, acc=1.0000, iter_time=8.30s]Epoch 0:  16%|█▌        | 2008/12384 [4:16:34<22:19:24,  7.75s/it, loss=0.0008, acc=0.9988, iter_time=7.26s]Epoch 0:  16%|█▌        | 2009/12384 [4:16:34<22:12:16,  7.70s/it, loss=0.0008, acc=0.9988, iter_time=7.26s]Epoch 0:  16%|█▌        | 2009/12384 [4:16:41<22:12:16,  7.70s/it, loss=0.0106, acc=0.9933, iter_time=4.32s]Epoch 0:  16%|█▌        | 2010/12384 [4:16:41<22:09:06,  7.69s/it, loss=0.0106, acc=0.9933, iter_time=4.32s]Epoch 0:  16%|█▌        | 2010/12384 [4:16:49<22:09:06,  7.69s/it, loss=0.0006, acc=0.9983, iter_time=10.94s]Epoch 0:  16%|█▌        | 2011/12384 [4:16:49<22:04:38,  7.66s/it, loss=0.0006, acc=0.9983, iter_time=10.94s]Epoch 0:  16%|█▌        | 2011/12384 [4:16:56<22:04:38,  7.66s/it, loss=0.0019, acc=0.9972, iter_time=7.60s] Epoch 0:  16%|█▌        | 2012/12384 [4:16:56<22:02:41,  7.65s/it, loss=0.0019, acc=0.9972, iter_time=7.60s]Epoch 0:  16%|█▌        | 2012/12384 [4:17:04<22:02:41,  7.65s/it, loss=0.0006, acc=0.9987, iter_time=6.43s]Epoch 0:  16%|█▋        | 2013/12384 [4:17:04<22:03:10,  7.66s/it, loss=0.0006, acc=0.9987, iter_time=6.43s]Epoch 0:  16%|█▋        | 2013/12384 [4:17:12<22:03:10,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=6.24s]Epoch 0:  16%|█▋        | 2014/12384 [4:17:12<22:01:19,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=6.24s]Epoch 0:  16%|█▋        | 2014/12384 [4:17:19<22:01:19,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=10.40s]Epoch 0:  16%|█▋        | 2015/12384 [4:17:19<22:07:21,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=10.40s]Epoch 0:  16%|█▋        | 2015/12384 [4:17:27<22:07:21,  7.68s/it, loss=0.0017, acc=0.9963, iter_time=7.65s] Epoch 0:  16%|█▋        | 2016/12384 [4:17:27<22:07:43,  7.68s/it, loss=0.0017, acc=0.9963, iter_time=7.65s]Epoch 0:  16%|█▋        | 2016/12384 [4:17:35<22:07:43,  7.68s/it, loss=0.0007, acc=0.9967, iter_time=7.34s]Epoch 0:  16%|█▋        | 2017/12384 [4:17:35<22:04:46,  7.67s/it, loss=0.0007, acc=0.9967, iter_time=7.34s]Epoch 0:  16%|█▋        | 2017/12384 [4:17:42<22:04:46,  7.67s/it, loss=0.0003, acc=1.0000, iter_time=7.00s]Epoch 0:  16%|█▋        | 2018/12384 [4:17:42<22:04:33,  7.67s/it, loss=0.0003, acc=1.0000, iter_time=7.00s]Epoch 0:  16%|█▋        | 2018/12384 [4:17:50<22:04:33,  7.67s/it, loss=0.0019, acc=0.9958, iter_time=8.63s]Epoch 0:  16%|█▋        | 2019/12384 [4:17:50<22:04:42,  7.67s/it, loss=0.0019, acc=0.9958, iter_time=8.63s]Epoch 0:  16%|█▋        | 2019/12384 [4:17:58<22:04:42,  7.67s/it, loss=0.0002, acc=1.0000, iter_time=7.64s]Epoch 0:  16%|█▋        | 2020/12384 [4:17:58<22:04:45,  7.67s/it, loss=0.0002, acc=1.0000, iter_time=7.64s]Epoch 0:  16%|█▋        | 2020/12384 [4:18:05<22:04:45,  7.67s/it, loss=0.0004, acc=1.0000, iter_time=7.68s]Epoch 0:  16%|█▋        | 2021/12384 [4:18:05<22:01:19,  7.65s/it, loss=0.0004, acc=1.0000, iter_time=7.68s]Epoch 0:  16%|█▋        | 2021/12384 [4:18:13<22:01:19,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=4.76s]Epoch 0:  16%|█▋        | 2022/12384 [4:18:13<22:01:05,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=4.76s]Epoch 0:  16%|█▋        | 2022/12384 [4:18:21<22:01:05,  7.65s/it, loss=0.0002, acc=0.9990, iter_time=10.50s]Epoch 0:  16%|█▋        | 2023/12384 [4:18:21<22:00:32,  7.65s/it, loss=0.0002, acc=0.9990, iter_time=10.50s]Epoch 0:  16%|█▋        | 2023/12384 [4:18:28<22:00:32,  7.65s/it, loss=0.0016, acc=0.9940, iter_time=8.04s] Epoch 0:  16%|█▋        | 2024/12384 [4:18:28<22:00:13,  7.65s/it, loss=0.0016, acc=0.9940, iter_time=8.04s]Epoch 0:  16%|█▋        | 2024/12384 [4:18:36<22:00:13,  7.65s/it, loss=0.0006, acc=0.9985, iter_time=7.27s]Epoch 0:  16%|█▋        | 2025/12384 [4:18:36<22:04:21,  7.67s/it, loss=0.0006, acc=0.9985, iter_time=7.27s]Epoch 0:  16%|█▋        | 2025/12384 [4:18:44<22:04:21,  7.67s/it, loss=0.0017, acc=0.9965, iter_time=7.72s]Epoch 0:  16%|█▋        | 2026/12384 [4:18:44<22:04:00,  7.67s/it, loss=0.0017, acc=0.9965, iter_time=7.72s]Epoch 0:  16%|█▋        | 2026/12384 [4:18:51<22:04:00,  7.67s/it, loss=0.0033, acc=0.9953, iter_time=7.66s]Epoch 0:  16%|█▋        | 2027/12384 [4:18:51<22:03:18,  7.67s/it, loss=0.0033, acc=0.9953, iter_time=7.66s]Epoch 0:  16%|█▋        | 2027/12384 [4:18:59<22:03:18,  7.67s/it, loss=0.0007, acc=0.9979, iter_time=7.68s]Epoch 0:  16%|█▋        | 2028/12384 [4:18:59<22:02:29,  7.66s/it, loss=0.0007, acc=0.9979, iter_time=7.68s]Epoch 0:  16%|█▋        | 2028/12384 [4:19:07<22:02:29,  7.66s/it, loss=0.0007, acc=0.9980, iter_time=7.65s]Epoch 0:  16%|█▋        | 2029/12384 [4:19:07<22:02:47,  7.66s/it, loss=0.0007, acc=0.9980, iter_time=7.65s]Epoch 0:  16%|█▋        | 2029/12384 [4:19:14<22:02:47,  7.66s/it, loss=0.0022, acc=0.9895, iter_time=7.66s]Epoch 0:  16%|█▋        | 2030/12384 [4:19:14<21:59:39,  7.65s/it, loss=0.0022, acc=0.9895, iter_time=7.66s]Epoch 0:  16%|█▋        | 2030/12384 [4:19:22<21:59:39,  7.65s/it, loss=0.0003, acc=0.9979, iter_time=7.60s]Epoch 0:  16%|█▋        | 2031/12384 [4:19:22<21:57:51,  7.64s/it, loss=0.0003, acc=0.9979, iter_time=7.60s]Epoch 0:  16%|█▋        | 2031/12384 [4:19:30<21:57:51,  7.64s/it, loss=0.0012, acc=0.9958, iter_time=8.33s]Epoch 0:  16%|█▋        | 2032/12384 [4:19:30<22:12:37,  7.72s/it, loss=0.0012, acc=0.9958, iter_time=8.33s]Epoch 0:  16%|█▋        | 2032/12384 [4:19:38<22:12:37,  7.72s/it, loss=0.0001, acc=1.0000, iter_time=3.68s]Epoch 0:  16%|█▋        | 2033/12384 [4:19:38<22:26:28,  7.80s/it, loss=0.0001, acc=1.0000, iter_time=3.68s]Epoch 0:  16%|█▋        | 2033/12384 [4:19:46<22:26:28,  7.80s/it, loss=0.0003, acc=0.9998, iter_time=9.83s]Epoch 0:  16%|█▋        | 2034/12384 [4:19:46<22:19:54,  7.77s/it, loss=0.0003, acc=0.9998, iter_time=9.83s]Epoch 0:  16%|█▋        | 2034/12384 [4:19:53<22:19:54,  7.77s/it, loss=0.0080, acc=0.9892, iter_time=9.38s]Epoch 0:  16%|█▋        | 2035/12384 [4:19:53<22:12:00,  7.72s/it, loss=0.0080, acc=0.9892, iter_time=9.38s]Epoch 0:  16%|█▋        | 2035/12384 [4:20:01<22:12:00,  7.72s/it, loss=0.0016, acc=0.9959, iter_time=7.31s]Epoch 0:  16%|█▋        | 2036/12384 [4:20:01<22:08:40,  7.70s/it, loss=0.0016, acc=0.9959, iter_time=7.31s]Epoch 0:  16%|█▋        | 2036/12384 [4:20:09<22:08:40,  7.70s/it, loss=0.0002, acc=1.0000, iter_time=6.52s]Epoch 0:  16%|█▋        | 2037/12384 [4:20:09<22:07:42,  7.70s/it, loss=0.0002, acc=1.0000, iter_time=6.52s]Epoch 0:  16%|█▋        | 2037/12384 [4:20:16<22:07:42,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=6.10s]Epoch 0:  16%|█▋        | 2038/12384 [4:20:16<22:04:05,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=6.10s]Epoch 0:  16%|█▋        | 2038/12384 [4:20:24<22:04:05,  7.68s/it, loss=0.0006, acc=0.9980, iter_time=10.83s]Epoch 0:  16%|█▋        | 2039/12384 [4:20:24<22:09:00,  7.71s/it, loss=0.0006, acc=0.9980, iter_time=10.83s]Epoch 0:  16%|█▋        | 2039/12384 [4:20:32<22:09:00,  7.71s/it, loss=0.0002, acc=1.0000, iter_time=7.99s] Epoch 0:  16%|█▋        | 2040/12384 [4:20:32<22:03:05,  7.67s/it, loss=0.0002, acc=1.0000, iter_time=7.99s]Epoch 0:  16%|█▋        | 2040/12384 [4:20:39<22:03:05,  7.67s/it, loss=0.0014, acc=0.9969, iter_time=7.20s]Epoch 0:  16%|█▋        | 2041/12384 [4:20:39<22:01:32,  7.67s/it, loss=0.0014, acc=0.9969, iter_time=7.20s]Epoch 0:  16%|█▋        | 2041/12384 [4:20:47<22:01:32,  7.67s/it, loss=0.0009, acc=0.9990, iter_time=6.79s]Epoch 0:  16%|█▋        | 2042/12384 [4:20:47<21:59:26,  7.65s/it, loss=0.0009, acc=0.9990, iter_time=6.79s]Epoch 0:  16%|█▋        | 2042/12384 [4:20:54<21:59:26,  7.65s/it, loss=0.0007, acc=0.9980, iter_time=8.49s]Epoch 0:  16%|█▋        | 2043/12384 [4:20:54<21:56:41,  7.64s/it, loss=0.0007, acc=0.9980, iter_time=8.49s]Epoch 0:  16%|█▋        | 2043/12384 [4:21:02<21:56:41,  7.64s/it, loss=0.0015, acc=0.9952, iter_time=7.59s]Epoch 0:  17%|█▋        | 2044/12384 [4:21:02<21:55:31,  7.63s/it, loss=0.0015, acc=0.9952, iter_time=7.59s]Epoch 0:  17%|█▋        | 2044/12384 [4:21:10<21:55:31,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=7.34s]Epoch 0:  17%|█▋        | 2045/12384 [4:21:10<21:57:28,  7.65s/it, loss=0.0003, acc=1.0000, iter_time=7.34s]Epoch 0:  17%|█▋        | 2045/12384 [4:21:17<21:57:28,  7.65s/it, loss=0.0004, acc=0.9998, iter_time=5.98s]Epoch 0:  17%|█▋        | 2046/12384 [4:21:17<21:55:06,  7.63s/it, loss=0.0004, acc=0.9998, iter_time=5.98s]Epoch 0:  17%|█▋        | 2046/12384 [4:21:25<21:55:06,  7.63s/it, loss=0.0002, acc=0.9986, iter_time=9.59s]Epoch 0:  17%|█▋        | 2047/12384 [4:21:25<21:55:26,  7.64s/it, loss=0.0002, acc=0.9986, iter_time=9.59s]Epoch 0:  17%|█▋        | 2047/12384 [4:21:33<21:55:26,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=8.02s]Epoch 0:  17%|█▋        | 2048/12384 [4:21:33<21:53:39,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=8.02s]Epoch 0:  17%|█▋        | 2048/12384 [4:21:40<21:53:39,  7.63s/it, loss=0.0020, acc=0.9946, iter_time=7.24s]Epoch 0:  17%|█▋        | 2049/12384 [4:21:40<21:55:14,  7.64s/it, loss=0.0020, acc=0.9946, iter_time=7.24s]Epoch 0:  17%|█▋        | 2049/12384 [4:21:48<21:55:14,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=8.11s]Epoch 0:  17%|█▋        | 2050/12384 [4:21:48<21:57:11,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=8.11s]Epoch 0:  17%|█▋        | 2050/12384 [4:21:56<21:57:11,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.21s]Epoch 0:  17%|█▋        | 2051/12384 [4:21:56<21:56:52,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.21s]Epoch 0:  17%|█▋        | 2051/12384 [4:22:03<21:56:52,  7.65s/it, loss=0.0006, acc=0.9985, iter_time=7.75s]Epoch 0:  17%|█▋        | 2052/12384 [4:22:03<22:06:01,  7.70s/it, loss=0.0006, acc=0.9985, iter_time=7.75s]Epoch 0:  17%|█▋        | 2052/12384 [4:22:11<22:06:01,  7.70s/it, loss=0.0001, acc=0.9995, iter_time=7.75s]Epoch 0:  17%|█▋        | 2053/12384 [4:22:11<22:05:49,  7.70s/it, loss=0.0001, acc=0.9995, iter_time=7.75s]Epoch 0:  17%|█▋        | 2053/12384 [4:22:19<22:05:49,  7.70s/it, loss=0.0018, acc=0.9981, iter_time=7.70s]Epoch 0:  17%|█▋        | 2054/12384 [4:22:19<22:03:20,  7.69s/it, loss=0.0018, acc=0.9981, iter_time=7.70s]Epoch 0:  17%|█▋        | 2054/12384 [4:22:26<22:03:20,  7.69s/it, loss=0.0010, acc=0.9964, iter_time=4.82s]Epoch 0:  17%|█▋        | 2055/12384 [4:22:26<22:01:18,  7.68s/it, loss=0.0010, acc=0.9964, iter_time=4.82s]Epoch 0:  17%|█▋        | 2055/12384 [4:22:34<22:01:18,  7.68s/it, loss=0.0008, acc=0.9981, iter_time=10.84s]Epoch 0:  17%|█▋        | 2056/12384 [4:22:34<21:57:53,  7.66s/it, loss=0.0008, acc=0.9981, iter_time=10.84s]Epoch 0:  17%|█▋        | 2056/12384 [4:22:42<21:57:53,  7.66s/it, loss=0.0001, acc=0.9999, iter_time=7.22s] Epoch 0:  17%|█▋        | 2057/12384 [4:22:42<21:55:39,  7.64s/it, loss=0.0001, acc=0.9999, iter_time=7.22s]Epoch 0:  17%|█▋        | 2057/12384 [4:22:49<21:55:39,  7.64s/it, loss=0.0003, acc=0.9999, iter_time=7.61s]Epoch 0:  17%|█▋        | 2058/12384 [4:22:49<21:54:56,  7.64s/it, loss=0.0003, acc=0.9999, iter_time=7.61s]Epoch 0:  17%|█▋        | 2058/12384 [4:22:57<21:54:56,  7.64s/it, loss=0.0124, acc=0.9792, iter_time=7.95s]Epoch 0:  17%|█▋        | 2059/12384 [4:22:57<22:13:56,  7.75s/it, loss=0.0124, acc=0.9792, iter_time=7.95s]Epoch 0:  17%|█▋        | 2059/12384 [4:23:05<22:13:56,  7.75s/it, loss=0.0002, acc=1.0000, iter_time=6.21s]Epoch 0:  17%|█▋        | 2060/12384 [4:23:05<22:06:13,  7.71s/it, loss=0.0002, acc=1.0000, iter_time=6.21s]Epoch 0:  17%|█▋        | 2060/12384 [4:23:12<22:06:13,  7.71s/it, loss=0.0168, acc=0.9786, iter_time=9.10s]Epoch 0:  17%|█▋        | 2061/12384 [4:23:12<22:02:27,  7.69s/it, loss=0.0168, acc=0.9786, iter_time=9.10s]Epoch 0:  17%|█▋        | 2061/12384 [4:23:20<22:02:27,  7.69s/it, loss=0.0002, acc=1.0000, iter_time=7.66s]Epoch 0:  17%|█▋        | 2062/12384 [4:23:20<22:00:58,  7.68s/it, loss=0.0002, acc=1.0000, iter_time=7.66s]Epoch 0:  17%|█▋        | 2062/12384 [4:23:28<22:00:58,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=7.63s]Epoch 0:  17%|█▋        | 2063/12384 [4:23:28<21:57:34,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.63s]Epoch 0:  17%|█▋        | 2063/12384 [4:23:35<21:57:34,  7.66s/it, loss=0.0004, acc=0.9998, iter_time=7.99s]Epoch 0:  17%|█▋        | 2064/12384 [4:23:35<21:59:06,  7.67s/it, loss=0.0004, acc=0.9998, iter_time=7.99s]Epoch 0:  17%|█▋        | 2064/12384 [4:23:43<21:59:06,  7.67s/it, loss=0.0017, acc=0.9990, iter_time=7.31s]Epoch 0:  17%|█▋        | 2065/12384 [4:23:43<21:56:02,  7.65s/it, loss=0.0017, acc=0.9990, iter_time=7.31s]Epoch 0:  17%|█▋        | 2065/12384 [4:23:51<21:56:02,  7.65s/it, loss=0.0009, acc=0.9958, iter_time=7.63s]Epoch 0:  17%|█▋        | 2066/12384 [4:23:51<21:55:53,  7.65s/it, loss=0.0009, acc=0.9958, iter_time=7.63s]Epoch 0:  17%|█▋        | 2066/12384 [4:23:58<21:55:53,  7.65s/it, loss=0.0006, acc=0.9994, iter_time=7.64s]Epoch 0:  17%|█▋        | 2067/12384 [4:23:58<21:54:21,  7.64s/it, loss=0.0006, acc=0.9994, iter_time=7.64s]Epoch 0:  17%|█▋        | 2067/12384 [4:24:06<21:54:21,  7.64s/it, loss=0.0020, acc=0.9943, iter_time=7.63s]Epoch 0:  17%|█▋        | 2068/12384 [4:24:06<21:52:42,  7.63s/it, loss=0.0020, acc=0.9943, iter_time=7.63s]Epoch 0:  17%|█▋        | 2068/12384 [4:24:14<21:52:42,  7.63s/it, loss=0.0008, acc=0.9972, iter_time=7.61s]Epoch 0:  17%|█▋        | 2069/12384 [4:24:14<21:52:45,  7.64s/it, loss=0.0008, acc=0.9972, iter_time=7.61s]Epoch 0:  17%|█▋        | 2069/12384 [4:24:21<21:52:45,  7.64s/it, loss=0.0008, acc=0.9986, iter_time=7.66s]Epoch 0:  17%|█▋        | 2070/12384 [4:24:21<21:52:55,  7.64s/it, loss=0.0008, acc=0.9986, iter_time=7.66s]Epoch 0:  17%|█▋        | 2070/12384 [4:24:29<21:52:55,  7.64s/it, loss=0.0005, acc=0.9963, iter_time=6.70s]Epoch 0:  17%|█▋        | 2071/12384 [4:24:29<21:52:46,  7.64s/it, loss=0.0005, acc=0.9963, iter_time=6.70s]Epoch 0:  17%|█▋        | 2071/12384 [4:24:36<21:52:46,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=8.95s]Epoch 0:  17%|█▋        | 2072/12384 [4:24:36<21:51:37,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=8.95s]Epoch 0:  17%|█▋        | 2072/12384 [4:24:44<21:51:37,  7.63s/it, loss=0.0007, acc=0.9979, iter_time=7.24s]Epoch 0:  17%|█▋        | 2073/12384 [4:24:44<21:52:08,  7.64s/it, loss=0.0007, acc=0.9979, iter_time=7.24s]Epoch 0:  17%|█▋        | 2073/12384 [4:24:52<21:52:08,  7.64s/it, loss=0.0004, acc=1.0000, iter_time=7.63s]Epoch 0:  17%|█▋        | 2074/12384 [4:24:52<21:50:30,  7.63s/it, loss=0.0004, acc=1.0000, iter_time=7.63s]Epoch 0:  17%|█▋        | 2074/12384 [4:24:59<21:50:30,  7.63s/it, loss=0.0010, acc=0.9999, iter_time=7.62s]Epoch 0:  17%|█▋        | 2075/12384 [4:24:59<21:50:29,  7.63s/it, loss=0.0010, acc=0.9999, iter_time=7.62s]Epoch 0:  17%|█▋        | 2075/12384 [4:25:07<21:50:29,  7.63s/it, loss=0.0004, acc=1.0000, iter_time=7.63s]Epoch 0:  17%|█▋        | 2076/12384 [4:25:07<21:49:31,  7.62s/it, loss=0.0004, acc=1.0000, iter_time=7.63s]Epoch 0:  17%|█▋        | 2076/12384 [4:25:15<21:49:31,  7.62s/it, loss=0.0005, acc=0.9984, iter_time=7.64s]Epoch 0:  17%|█▋        | 2077/12384 [4:25:15<21:50:56,  7.63s/it, loss=0.0005, acc=0.9984, iter_time=7.64s]Epoch 0:  17%|█▋        | 2077/12384 [4:25:22<21:50:56,  7.63s/it, loss=0.0011, acc=0.9990, iter_time=7.62s]Epoch 0:  17%|█▋        | 2078/12384 [4:25:22<21:49:58,  7.63s/it, loss=0.0011, acc=0.9990, iter_time=7.62s]Epoch 0:  17%|█▋        | 2078/12384 [4:25:30<21:49:58,  7.63s/it, loss=0.0018, acc=0.9956, iter_time=7.63s]Epoch 0:  17%|█▋        | 2079/12384 [4:25:30<21:52:03,  7.64s/it, loss=0.0018, acc=0.9956, iter_time=7.63s]Epoch 0:  17%|█▋        | 2079/12384 [4:25:37<21:52:03,  7.64s/it, loss=0.0004, acc=1.0000, iter_time=8.04s]Epoch 0:  17%|█▋        | 2080/12384 [4:25:37<21:50:24,  7.63s/it, loss=0.0004, acc=1.0000, iter_time=8.04s]Epoch 0:  17%|█▋        | 2080/12384 [4:25:45<21:50:24,  7.63s/it, loss=0.0006, acc=0.9966, iter_time=7.21s]Epoch 0:  17%|█▋        | 2081/12384 [4:25:45<21:54:14,  7.65s/it, loss=0.0006, acc=0.9966, iter_time=7.21s]Epoch 0:  17%|█▋        | 2081/12384 [4:25:53<21:54:14,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=6.17s]Epoch 0:  17%|█▋        | 2082/12384 [4:25:53<21:52:49,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=6.17s]Epoch 0:  17%|█▋        | 2082/12384 [4:26:00<21:52:49,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=9.15s]Epoch 0:  17%|█▋        | 2083/12384 [4:26:00<21:53:07,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=9.15s]Epoch 0:  17%|█▋        | 2083/12384 [4:26:08<21:53:07,  7.65s/it, loss=0.0006, acc=0.9991, iter_time=7.68s]Epoch 0:  17%|█▋        | 2084/12384 [4:26:08<21:53:54,  7.65s/it, loss=0.0006, acc=0.9991, iter_time=7.68s]Epoch 0:  17%|█▋        | 2084/12384 [4:26:16<21:53:54,  7.65s/it, loss=0.0054, acc=0.9774, iter_time=6.48s]Epoch 0:  17%|█▋        | 2085/12384 [4:26:16<22:10:00,  7.75s/it, loss=0.0054, acc=0.9774, iter_time=6.48s]Epoch 0:  17%|█▋        | 2085/12384 [4:26:24<22:10:00,  7.75s/it, loss=0.0002, acc=0.9998, iter_time=8.55s]Epoch 0:  17%|█▋        | 2086/12384 [4:26:24<22:01:45,  7.70s/it, loss=0.0002, acc=0.9998, iter_time=8.55s]Epoch 0:  17%|█▋        | 2086/12384 [4:26:31<22:01:45,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=8.18s]Epoch 0:  17%|█▋        | 2087/12384 [4:26:31<21:59:05,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=8.18s]Epoch 0:  17%|█▋        | 2087/12384 [4:26:39<21:59:05,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=7.66s]Epoch 0:  17%|█▋        | 2088/12384 [4:26:39<21:57:50,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=7.66s]Epoch 0:  17%|█▋        | 2088/12384 [4:26:47<21:57:50,  7.68s/it, loss=0.0004, acc=0.9984, iter_time=7.05s]Epoch 0:  17%|█▋        | 2089/12384 [4:26:47<21:55:16,  7.67s/it, loss=0.0004, acc=0.9984, iter_time=7.05s]Epoch 0:  17%|█▋        | 2089/12384 [4:26:54<21:55:16,  7.67s/it, loss=0.0004, acc=0.9984, iter_time=8.25s]Epoch 0:  17%|█▋        | 2090/12384 [4:26:54<21:54:53,  7.66s/it, loss=0.0004, acc=0.9984, iter_time=8.25s]Epoch 0:  17%|█▋        | 2090/12384 [4:27:02<21:54:53,  7.66s/it, loss=0.0007, acc=0.9988, iter_time=4.59s]Epoch 0:  17%|█▋        | 2091/12384 [4:27:02<21:52:36,  7.65s/it, loss=0.0007, acc=0.9988, iter_time=4.59s]Epoch 0:  17%|█▋        | 2091/12384 [4:27:10<21:52:36,  7.65s/it, loss=0.0008, acc=0.9981, iter_time=7.64s]Epoch 0:  17%|█▋        | 2092/12384 [4:27:10<21:54:39,  7.66s/it, loss=0.0008, acc=0.9981, iter_time=7.64s]Epoch 0:  17%|█▋        | 2092/12384 [4:27:17<21:54:39,  7.66s/it, loss=0.0010, acc=0.9992, iter_time=10.51s]Epoch 0:  17%|█▋        | 2093/12384 [4:27:17<21:53:19,  7.66s/it, loss=0.0010, acc=0.9992, iter_time=10.51s]Epoch 0:  17%|█▋        | 2093/12384 [4:27:25<21:53:19,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.86s] Epoch 0:  17%|█▋        | 2094/12384 [4:27:25<21:50:49,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.86s]Epoch 0:  17%|█▋        | 2094/12384 [4:27:33<21:50:49,  7.64s/it, loss=0.0001, acc=0.9998, iter_time=5.83s]Epoch 0:  17%|█▋        | 2095/12384 [4:27:33<21:51:15,  7.65s/it, loss=0.0001, acc=0.9998, iter_time=5.83s]Epoch 0:  17%|█▋        | 2095/12384 [4:27:40<21:51:15,  7.65s/it, loss=0.0012, acc=0.9955, iter_time=9.43s]Epoch 0:  17%|█▋        | 2096/12384 [4:27:40<21:51:13,  7.65s/it, loss=0.0012, acc=0.9955, iter_time=9.43s]Epoch 0:  17%|█▋        | 2096/12384 [4:27:48<21:51:13,  7.65s/it, loss=0.0053, acc=0.9871, iter_time=7.65s]Epoch 0:  17%|█▋        | 2097/12384 [4:27:48<21:48:55,  7.63s/it, loss=0.0053, acc=0.9871, iter_time=7.65s]Epoch 0:  17%|█▋        | 2097/12384 [4:27:55<21:48:55,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=5.01s]Epoch 0:  17%|█▋        | 2098/12384 [4:27:55<21:49:28,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=5.01s]Epoch 0:  17%|█▋        | 2098/12384 [4:28:03<21:49:28,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=10.26s]Epoch 0:  17%|█▋        | 2099/12384 [4:28:03<21:48:05,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=10.26s]Epoch 0:  17%|█▋        | 2099/12384 [4:28:11<21:48:05,  7.63s/it, loss=0.0025, acc=0.9951, iter_time=8.00s] Epoch 0:  17%|█▋        | 2100/12384 [4:28:11<21:46:24,  7.62s/it, loss=0.0025, acc=0.9951, iter_time=8.00s]Epoch 0:  17%|█▋        | 2100/12384 [4:28:18<21:46:24,  7.62s/it, loss=0.0016, acc=0.9949, iter_time=7.22s]Epoch 0:  17%|█▋        | 2101/12384 [4:28:18<21:47:21,  7.63s/it, loss=0.0016, acc=0.9949, iter_time=7.22s]Epoch 0:  17%|█▋        | 2101/12384 [4:28:26<21:47:21,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.64s]Epoch 0:  17%|█▋        | 2102/12384 [4:28:26<21:47:15,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.64s]Epoch 0:  17%|█▋        | 2102/12384 [4:28:34<21:47:15,  7.63s/it, loss=0.0004, acc=0.9988, iter_time=7.62s]Epoch 0:  17%|█▋        | 2103/12384 [4:28:34<21:47:19,  7.63s/it, loss=0.0004, acc=0.9988, iter_time=7.62s]Epoch 0:  17%|█▋        | 2103/12384 [4:28:41<21:47:19,  7.63s/it, loss=0.0020, acc=0.9977, iter_time=7.62s]Epoch 0:  17%|█▋        | 2104/12384 [4:28:41<21:48:25,  7.64s/it, loss=0.0020, acc=0.9977, iter_time=7.62s]Epoch 0:  17%|█▋        | 2104/12384 [4:28:49<21:48:25,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.01s]Epoch 0:  17%|█▋        | 2105/12384 [4:28:49<21:46:15,  7.62s/it, loss=0.0002, acc=1.0000, iter_time=7.01s]Epoch 0:  17%|█▋        | 2105/12384 [4:28:56<21:46:15,  7.62s/it, loss=0.0004, acc=0.9997, iter_time=8.24s]Epoch 0:  17%|█▋        | 2106/12384 [4:28:56<21:45:51,  7.62s/it, loss=0.0004, acc=0.9997, iter_time=8.24s]Epoch 0:  17%|█▋        | 2106/12384 [4:29:04<21:45:51,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=7.61s]Epoch 0:  17%|█▋        | 2107/12384 [4:29:04<21:46:43,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.61s]Epoch 0:  17%|█▋        | 2107/12384 [4:29:12<21:46:43,  7.63s/it, loss=0.0007, acc=0.9978, iter_time=7.67s]Epoch 0:  17%|█▋        | 2108/12384 [4:29:12<21:48:01,  7.64s/it, loss=0.0007, acc=0.9978, iter_time=7.67s]Epoch 0:  17%|█▋        | 2108/12384 [4:29:19<21:48:01,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.39s]Epoch 0:  17%|█▋        | 2109/12384 [4:29:19<21:49:49,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.39s]Epoch 0:  17%|█▋        | 2109/12384 [4:29:27<21:49:49,  7.65s/it, loss=0.0010, acc=0.9992, iter_time=6.73s]Epoch 0:  17%|█▋        | 2110/12384 [4:29:27<21:47:58,  7.64s/it, loss=0.0010, acc=0.9992, iter_time=6.73s]Epoch 0:  17%|█▋        | 2110/12384 [4:29:35<21:47:58,  7.64s/it, loss=0.0007, acc=0.9998, iter_time=6.99s]Epoch 0:  17%|█▋        | 2111/12384 [4:29:35<21:46:22,  7.63s/it, loss=0.0007, acc=0.9998, iter_time=6.99s]Epoch 0:  17%|█▋        | 2111/12384 [4:29:43<21:46:22,  7.63s/it, loss=0.0005, acc=0.9983, iter_time=9.87s]Epoch 0:  17%|█▋        | 2112/12384 [4:29:43<22:04:32,  7.74s/it, loss=0.0005, acc=0.9983, iter_time=9.87s]Epoch 0:  17%|█▋        | 2112/12384 [4:29:50<22:04:32,  7.74s/it, loss=0.0002, acc=1.0000, iter_time=7.53s]Epoch 0:  17%|█▋        | 2113/12384 [4:29:50<21:58:25,  7.70s/it, loss=0.0002, acc=1.0000, iter_time=7.53s]Epoch 0:  17%|█▋        | 2113/12384 [4:29:58<21:58:25,  7.70s/it, loss=0.0001, acc=0.9999, iter_time=7.65s]Epoch 0:  17%|█▋        | 2114/12384 [4:29:58<21:56:59,  7.69s/it, loss=0.0001, acc=0.9999, iter_time=7.65s]Epoch 0:  17%|█▋        | 2114/12384 [4:30:06<21:56:59,  7.69s/it, loss=0.0002, acc=0.9983, iter_time=7.46s]Epoch 0:  17%|█▋        | 2115/12384 [4:30:06<21:54:41,  7.68s/it, loss=0.0002, acc=0.9983, iter_time=7.46s]Epoch 0:  17%|█▋        | 2115/12384 [4:30:13<21:54:41,  7.68s/it, loss=0.0002, acc=0.9999, iter_time=7.96s]Epoch 0:  17%|█▋        | 2116/12384 [4:30:13<21:55:33,  7.69s/it, loss=0.0002, acc=0.9999, iter_time=7.96s]Epoch 0:  17%|█▋        | 2116/12384 [4:30:21<21:55:33,  7.69s/it, loss=0.0005, acc=0.9994, iter_time=5.71s]Epoch 0:  17%|█▋        | 2117/12384 [4:30:21<21:52:44,  7.67s/it, loss=0.0005, acc=0.9994, iter_time=5.71s]Epoch 0:  17%|█▋        | 2117/12384 [4:30:29<21:52:44,  7.67s/it, loss=0.0022, acc=0.9939, iter_time=9.58s]Epoch 0:  17%|█▋        | 2118/12384 [4:30:29<21:51:47,  7.67s/it, loss=0.0022, acc=0.9939, iter_time=9.58s]Epoch 0:  17%|█▋        | 2118/12384 [4:30:36<21:51:47,  7.67s/it, loss=0.0004, acc=0.9987, iter_time=5.66s]Epoch 0:  17%|█▋        | 2119/12384 [4:30:36<21:49:33,  7.65s/it, loss=0.0004, acc=0.9987, iter_time=5.66s]Epoch 0:  17%|█▋        | 2119/12384 [4:30:44<21:49:33,  7.65s/it, loss=0.0003, acc=0.9986, iter_time=9.53s]Epoch 0:  17%|█▋        | 2120/12384 [4:30:44<21:47:46,  7.64s/it, loss=0.0003, acc=0.9986, iter_time=9.53s]Epoch 0:  17%|█▋        | 2120/12384 [4:30:52<21:47:46,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.77s]Epoch 0:  17%|█▋        | 2121/12384 [4:30:52<21:50:59,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.77s]Epoch 0:  17%|█▋        | 2121/12384 [4:30:59<21:50:59,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.60s]Epoch 0:  17%|█▋        | 2122/12384 [4:30:59<21:48:18,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.60s]Epoch 0:  17%|█▋        | 2122/12384 [4:31:07<21:48:18,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=7.61s]Epoch 0:  17%|█▋        | 2123/12384 [4:31:07<21:47:19,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=7.61s]Epoch 0:  17%|█▋        | 2123/12384 [4:31:14<21:47:19,  7.64s/it, loss=0.0005, acc=0.9995, iter_time=5.65s]Epoch 0:  17%|█▋        | 2124/12384 [4:31:14<21:46:57,  7.64s/it, loss=0.0005, acc=0.9995, iter_time=5.65s]Epoch 0:  17%|█▋        | 2124/12384 [4:31:22<21:46:57,  7.64s/it, loss=0.0008, acc=0.9982, iter_time=9.69s]Epoch 0:  17%|█▋        | 2125/12384 [4:31:22<21:47:46,  7.65s/it, loss=0.0008, acc=0.9982, iter_time=9.69s]Epoch 0:  17%|█▋        | 2125/12384 [4:31:30<21:47:46,  7.65s/it, loss=0.0004, acc=0.9972, iter_time=7.69s]Epoch 0:  17%|█▋        | 2126/12384 [4:31:30<21:50:25,  7.66s/it, loss=0.0004, acc=0.9972, iter_time=7.69s]Epoch 0:  17%|█▋        | 2126/12384 [4:31:37<21:50:25,  7.66s/it, loss=0.0022, acc=0.9934, iter_time=7.72s]Epoch 0:  17%|█▋        | 2127/12384 [4:31:37<21:50:50,  7.67s/it, loss=0.0022, acc=0.9934, iter_time=7.72s]Epoch 0:  17%|█▋        | 2127/12384 [4:31:45<21:50:50,  7.67s/it, loss=0.0006, acc=0.9980, iter_time=8.14s]Epoch 0:  17%|█▋        | 2128/12384 [4:31:45<21:56:56,  7.70s/it, loss=0.0006, acc=0.9980, iter_time=8.14s]Epoch 0:  17%|█▋        | 2128/12384 [4:31:53<21:56:56,  7.70s/it, loss=0.0002, acc=1.0000, iter_time=7.32s]Epoch 0:  17%|█▋        | 2129/12384 [4:31:53<21:57:06,  7.71s/it, loss=0.0002, acc=1.0000, iter_time=7.32s]Epoch 0:  17%|█▋        | 2129/12384 [4:32:01<21:57:06,  7.71s/it, loss=0.0002, acc=1.0000, iter_time=7.72s]Epoch 0:  17%|█▋        | 2130/12384 [4:32:01<21:57:19,  7.71s/it, loss=0.0002, acc=1.0000, iter_time=7.72s]Epoch 0:  17%|█▋        | 2130/12384 [4:32:08<21:57:19,  7.71s/it, loss=0.0002, acc=1.0000, iter_time=7.73s]Epoch 0:  17%|█▋        | 2131/12384 [4:32:08<21:58:32,  7.72s/it, loss=0.0002, acc=1.0000, iter_time=7.73s]Epoch 0:  17%|█▋        | 2131/12384 [4:32:16<21:58:32,  7.72s/it, loss=0.0020, acc=0.9962, iter_time=7.69s]Epoch 0:  17%|█▋        | 2132/12384 [4:32:16<21:56:54,  7.71s/it, loss=0.0020, acc=0.9962, iter_time=7.69s]Epoch 0:  17%|█▋        | 2132/12384 [4:32:24<21:56:54,  7.71s/it, loss=0.0003, acc=0.9997, iter_time=7.72s]Epoch 0:  17%|█▋        | 2133/12384 [4:32:24<21:57:27,  7.71s/it, loss=0.0003, acc=0.9997, iter_time=7.72s]Epoch 0:  17%|█▋        | 2133/12384 [4:32:31<21:57:27,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=6.48s]Epoch 0:  17%|█▋        | 2134/12384 [4:32:31<21:54:34,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=6.48s]Epoch 0:  17%|█▋        | 2134/12384 [4:32:39<21:54:34,  7.70s/it, loss=0.0013, acc=0.9968, iter_time=8.85s]Epoch 0:  17%|█▋        | 2135/12384 [4:32:39<21:53:44,  7.69s/it, loss=0.0013, acc=0.9968, iter_time=8.85s]Epoch 0:  17%|█▋        | 2135/12384 [4:32:47<21:53:44,  7.69s/it, loss=0.0007, acc=0.9997, iter_time=7.56s]Epoch 0:  17%|█▋        | 2136/12384 [4:32:47<21:49:32,  7.67s/it, loss=0.0007, acc=0.9997, iter_time=7.56s]Epoch 0:  17%|█▋        | 2136/12384 [4:32:54<21:49:32,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=5.86s]Epoch 0:  17%|█▋        | 2137/12384 [4:32:54<21:47:18,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=5.86s]Epoch 0:  17%|█▋        | 2137/12384 [4:33:02<21:47:18,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=9.75s]Epoch 0:  17%|█▋        | 2138/12384 [4:33:02<22:05:33,  7.76s/it, loss=0.0002, acc=1.0000, iter_time=9.75s]Epoch 0:  17%|█▋        | 2138/12384 [4:33:10<22:05:33,  7.76s/it, loss=0.0002, acc=0.9996, iter_time=4.08s]Epoch 0:  17%|█▋        | 2139/12384 [4:33:10<22:00:06,  7.73s/it, loss=0.0002, acc=0.9996, iter_time=4.08s]Epoch 0:  17%|█▋        | 2139/12384 [4:33:18<22:00:06,  7.73s/it, loss=0.0002, acc=1.0000, iter_time=11.35s]Epoch 0:  17%|█▋        | 2140/12384 [4:33:18<21:57:12,  7.72s/it, loss=0.0002, acc=1.0000, iter_time=11.35s]Epoch 0:  17%|█▋        | 2140/12384 [4:33:25<21:57:12,  7.72s/it, loss=0.0003, acc=0.9999, iter_time=7.74s] Epoch 0:  17%|█▋        | 2141/12384 [4:33:25<21:58:41,  7.72s/it, loss=0.0003, acc=0.9999, iter_time=7.74s]Epoch 0:  17%|█▋        | 2141/12384 [4:33:33<21:58:41,  7.72s/it, loss=0.0023, acc=0.9967, iter_time=7.72s]Epoch 0:  17%|█▋        | 2142/12384 [4:33:33<21:58:18,  7.72s/it, loss=0.0023, acc=0.9967, iter_time=7.72s]Epoch 0:  17%|█▋        | 2142/12384 [4:33:41<21:58:18,  7.72s/it, loss=0.0001, acc=0.9998, iter_time=4.81s]Epoch 0:  17%|█▋        | 2143/12384 [4:33:41<21:53:26,  7.70s/it, loss=0.0001, acc=0.9998, iter_time=4.81s]Epoch 0:  17%|█▋        | 2143/12384 [4:33:49<21:53:26,  7.70s/it, loss=0.0003, acc=0.9989, iter_time=10.90s]Epoch 0:  17%|█▋        | 2144/12384 [4:33:49<21:53:16,  7.69s/it, loss=0.0003, acc=0.9989, iter_time=10.90s]Epoch 0:  17%|█▋        | 2144/12384 [4:33:56<21:53:16,  7.69s/it, loss=0.0000, acc=1.0000, iter_time=4.18s] Epoch 0:  17%|█▋        | 2145/12384 [4:33:56<21:48:31,  7.67s/it, loss=0.0000, acc=1.0000, iter_time=4.18s]Epoch 0:  17%|█▋        | 2145/12384 [4:34:04<21:48:31,  7.67s/it, loss=0.0027, acc=0.9913, iter_time=10.71s]Epoch 0:  17%|█▋        | 2146/12384 [4:34:04<21:48:30,  7.67s/it, loss=0.0027, acc=0.9913, iter_time=10.71s]Epoch 0:  17%|█▋        | 2146/12384 [4:34:11<21:48:30,  7.67s/it, loss=0.0004, acc=0.9996, iter_time=7.61s] Epoch 0:  17%|█▋        | 2147/12384 [4:34:11<21:45:39,  7.65s/it, loss=0.0004, acc=0.9996, iter_time=7.61s]Epoch 0:  17%|█▋        | 2147/12384 [4:34:19<21:45:39,  7.65s/it, loss=0.0005, acc=0.9993, iter_time=7.61s]Epoch 0:  17%|█▋        | 2148/12384 [4:34:19<21:43:07,  7.64s/it, loss=0.0005, acc=0.9993, iter_time=7.61s]Epoch 0:  17%|█▋        | 2148/12384 [4:34:27<21:43:07,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.58s]Epoch 0:  17%|█▋        | 2149/12384 [4:34:27<21:42:26,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.58s]Epoch 0:  17%|█▋        | 2149/12384 [4:34:34<21:42:26,  7.64s/it, loss=0.0005, acc=0.9998, iter_time=8.09s]Epoch 0:  17%|█▋        | 2150/12384 [4:34:34<21:43:07,  7.64s/it, loss=0.0005, acc=0.9998, iter_time=8.09s]Epoch 0:  17%|█▋        | 2150/12384 [4:34:42<21:43:07,  7.64s/it, loss=0.0004, acc=0.9994, iter_time=7.21s]Epoch 0:  17%|█▋        | 2151/12384 [4:34:42<21:42:54,  7.64s/it, loss=0.0004, acc=0.9994, iter_time=7.21s]Epoch 0:  17%|█▋        | 2151/12384 [4:34:50<21:42:54,  7.64s/it, loss=0.0005, acc=0.9976, iter_time=7.60s]Epoch 0:  17%|█▋        | 2152/12384 [4:34:50<21:41:46,  7.63s/it, loss=0.0005, acc=0.9976, iter_time=7.60s]Epoch 0:  17%|█▋        | 2152/12384 [4:34:57<21:41:46,  7.63s/it, loss=0.0013, acc=0.9983, iter_time=7.65s]Epoch 0:  17%|█▋        | 2153/12384 [4:34:57<21:41:52,  7.63s/it, loss=0.0013, acc=0.9983, iter_time=7.65s]Epoch 0:  17%|█▋        | 2153/12384 [4:35:05<21:41:52,  7.63s/it, loss=0.0007, acc=0.9977, iter_time=6.48s]Epoch 0:  17%|█▋        | 2154/12384 [4:35:05<21:41:19,  7.63s/it, loss=0.0007, acc=0.9977, iter_time=6.48s]Epoch 0:  17%|█▋        | 2154/12384 [4:35:12<21:41:19,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=6.78s]Epoch 0:  17%|█▋        | 2155/12384 [4:35:12<21:40:52,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=6.78s]Epoch 0:  17%|█▋        | 2155/12384 [4:35:20<21:40:52,  7.63s/it, loss=0.0007, acc=0.9982, iter_time=9.82s]Epoch 0:  17%|█▋        | 2156/12384 [4:35:20<21:48:46,  7.68s/it, loss=0.0007, acc=0.9982, iter_time=9.82s]Epoch 0:  17%|█▋        | 2156/12384 [4:35:28<21:48:46,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=7.70s]Epoch 0:  17%|█▋        | 2157/12384 [4:35:28<21:50:02,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=7.70s]Epoch 0:  17%|█▋        | 2157/12384 [4:35:36<21:50:02,  7.69s/it, loss=0.0007, acc=0.9963, iter_time=7.71s]Epoch 0:  17%|█▋        | 2158/12384 [4:35:36<21:50:40,  7.69s/it, loss=0.0007, acc=0.9963, iter_time=7.71s]Epoch 0:  17%|█▋        | 2158/12384 [4:35:43<21:50:40,  7.69s/it, loss=0.0032, acc=0.9922, iter_time=7.67s]Epoch 0:  17%|█▋        | 2159/12384 [4:35:43<21:49:26,  7.68s/it, loss=0.0032, acc=0.9922, iter_time=7.67s]Epoch 0:  17%|█▋        | 2159/12384 [4:35:51<21:49:26,  7.68s/it, loss=0.0002, acc=1.0000, iter_time=8.17s]Epoch 0:  17%|█▋        | 2160/12384 [4:35:51<21:54:20,  7.71s/it, loss=0.0002, acc=1.0000, iter_time=8.17s]Epoch 0:  17%|█▋        | 2160/12384 [4:35:59<21:54:20,  7.71s/it, loss=0.0006, acc=0.9963, iter_time=7.34s]Epoch 0:  17%|█▋        | 2161/12384 [4:35:59<21:55:04,  7.72s/it, loss=0.0006, acc=0.9963, iter_time=7.34s]Epoch 0:  17%|█▋        | 2161/12384 [4:36:07<21:55:04,  7.72s/it, loss=0.0006, acc=0.9978, iter_time=7.71s]Epoch 0:  17%|█▋        | 2162/12384 [4:36:07<21:54:00,  7.71s/it, loss=0.0006, acc=0.9978, iter_time=7.71s]Epoch 0:  17%|█▋        | 2162/12384 [4:36:14<21:54:00,  7.71s/it, loss=0.0021, acc=0.9954, iter_time=6.98s]Epoch 0:  17%|█▋        | 2163/12384 [4:36:14<21:55:18,  7.72s/it, loss=0.0021, acc=0.9954, iter_time=6.98s]Epoch 0:  17%|█▋        | 2163/12384 [4:36:22<21:55:18,  7.72s/it, loss=0.0001, acc=1.0000, iter_time=8.35s]Epoch 0:  17%|█▋        | 2164/12384 [4:36:22<21:51:15,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=8.35s]Epoch 0:  17%|█▋        | 2164/12384 [4:36:30<21:51:15,  7.70s/it, loss=0.0004, acc=1.0000, iter_time=7.68s]Epoch 0:  17%|█▋        | 2165/12384 [4:36:30<22:05:42,  7.78s/it, loss=0.0004, acc=1.0000, iter_time=7.68s]Epoch 0:  17%|█▋        | 2165/12384 [4:36:38<22:05:42,  7.78s/it, loss=0.0001, acc=1.0000, iter_time=8.06s]Epoch 0:  17%|█▋        | 2166/12384 [4:36:38<22:03:57,  7.77s/it, loss=0.0001, acc=1.0000, iter_time=8.06s]Epoch 0:  17%|█▋        | 2166/12384 [4:36:45<22:03:57,  7.77s/it, loss=0.0001, acc=1.0000, iter_time=7.82s]Epoch 0:  17%|█▋        | 2167/12384 [4:36:45<22:03:38,  7.77s/it, loss=0.0001, acc=1.0000, iter_time=7.82s]Epoch 0:  17%|█▋        | 2167/12384 [4:36:53<22:03:38,  7.77s/it, loss=0.0005, acc=0.9996, iter_time=7.57s]Epoch 0:  18%|█▊        | 2168/12384 [4:36:53<21:56:24,  7.73s/it, loss=0.0005, acc=0.9996, iter_time=7.57s]Epoch 0:  18%|█▊        | 2168/12384 [4:37:01<21:56:24,  7.73s/it, loss=0.0000, acc=1.0000, iter_time=7.03s]Epoch 0:  18%|█▊        | 2169/12384 [4:37:01<21:51:14,  7.70s/it, loss=0.0000, acc=1.0000, iter_time=7.03s]Epoch 0:  18%|█▊        | 2169/12384 [4:37:08<21:51:14,  7.70s/it, loss=0.0004, acc=0.9979, iter_time=8.27s]Epoch 0:  18%|█▊        | 2170/12384 [4:37:08<21:48:22,  7.69s/it, loss=0.0004, acc=0.9979, iter_time=8.27s]Epoch 0:  18%|█▊        | 2170/12384 [4:37:16<21:48:22,  7.69s/it, loss=0.0000, acc=1.0000, iter_time=7.66s]Epoch 0:  18%|█▊        | 2171/12384 [4:37:16<21:44:58,  7.67s/it, loss=0.0000, acc=1.0000, iter_time=7.66s]Epoch 0:  18%|█▊        | 2171/12384 [4:37:24<21:44:58,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=5.87s]Epoch 0:  18%|█▊        | 2172/12384 [4:37:24<21:44:49,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=5.87s]Epoch 0:  18%|█▊        | 2172/12384 [4:37:31<21:44:49,  7.67s/it, loss=0.0012, acc=0.9960, iter_time=9.09s]Epoch 0:  18%|█▊        | 2173/12384 [4:37:31<21:44:14,  7.66s/it, loss=0.0012, acc=0.9960, iter_time=9.09s]Epoch 0:  18%|█▊        | 2173/12384 [4:37:39<21:44:14,  7.66s/it, loss=0.0015, acc=0.9965, iter_time=7.96s]Epoch 0:  18%|█▊        | 2174/12384 [4:37:39<21:40:47,  7.64s/it, loss=0.0015, acc=0.9965, iter_time=7.96s]Epoch 0:  18%|█▊        | 2174/12384 [4:37:46<21:40:47,  7.64s/it, loss=0.0004, acc=0.9998, iter_time=4.82s]Epoch 0:  18%|█▊        | 2175/12384 [4:37:46<21:38:52,  7.63s/it, loss=0.0004, acc=0.9998, iter_time=4.82s]Epoch 0:  18%|█▊        | 2175/12384 [4:37:54<21:38:52,  7.63s/it, loss=0.0006, acc=0.9989, iter_time=10.78s]Epoch 0:  18%|█▊        | 2176/12384 [4:37:54<21:42:44,  7.66s/it, loss=0.0006, acc=0.9989, iter_time=10.78s]Epoch 0:  18%|█▊        | 2176/12384 [4:38:02<21:42:44,  7.66s/it, loss=0.0002, acc=0.9999, iter_time=7.33s] Epoch 0:  18%|█▊        | 2177/12384 [4:38:02<21:46:22,  7.68s/it, loss=0.0002, acc=0.9999, iter_time=7.33s]Epoch 0:  18%|█▊        | 2177/12384 [4:38:10<21:46:22,  7.68s/it, loss=0.0002, acc=1.0000, iter_time=7.74s]Epoch 0:  18%|█▊        | 2178/12384 [4:38:10<21:50:10,  7.70s/it, loss=0.0002, acc=1.0000, iter_time=7.74s]Epoch 0:  18%|█▊        | 2178/12384 [4:38:17<21:50:10,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=6.53s]Epoch 0:  18%|█▊        | 2179/12384 [4:38:17<21:47:28,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=6.53s]Epoch 0:  18%|█▊        | 2179/12384 [4:38:25<21:47:28,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=8.56s]Epoch 0:  18%|█▊        | 2180/12384 [4:38:25<21:43:43,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=8.56s]Epoch 0:  18%|█▊        | 2180/12384 [4:38:33<21:43:43,  7.67s/it, loss=0.0001, acc=0.9993, iter_time=6.42s]Epoch 0:  18%|█▊        | 2181/12384 [4:38:33<21:43:53,  7.67s/it, loss=0.0001, acc=0.9993, iter_time=6.42s]Epoch 0:  18%|█▊        | 2181/12384 [4:38:40<21:43:53,  7.67s/it, loss=0.0004, acc=0.9977, iter_time=9.15s]Epoch 0:  18%|█▊        | 2182/12384 [4:38:40<21:39:51,  7.64s/it, loss=0.0004, acc=0.9977, iter_time=9.15s]Epoch 0:  18%|█▊        | 2182/12384 [4:38:48<21:39:51,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.61s]Epoch 0:  18%|█▊        | 2183/12384 [4:38:48<21:39:58,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.61s]Epoch 0:  18%|█▊        | 2183/12384 [4:38:55<21:39:58,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.60s]Epoch 0:  18%|█▊        | 2184/12384 [4:38:55<21:38:03,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.60s]Epoch 0:  18%|█▊        | 2184/12384 [4:39:03<21:38:03,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=4.28s]Epoch 0:  18%|█▊        | 2185/12384 [4:39:03<21:40:46,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=4.28s]Epoch 0:  18%|█▊        | 2185/12384 [4:39:11<21:40:46,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=11.07s]Epoch 0:  18%|█▊        | 2186/12384 [4:39:11<21:40:27,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=11.07s]Epoch 0:  18%|█▊        | 2186/12384 [4:39:18<21:40:27,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.68s] Epoch 0:  18%|█▊        | 2187/12384 [4:39:18<21:40:42,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.68s]Epoch 0:  18%|█▊        | 2187/12384 [4:39:26<21:40:42,  7.65s/it, loss=0.0001, acc=0.9999, iter_time=7.34s]Epoch 0:  18%|█▊        | 2188/12384 [4:39:26<21:37:58,  7.64s/it, loss=0.0001, acc=0.9999, iter_time=7.34s]Epoch 0:  18%|█▊        | 2188/12384 [4:39:34<21:37:58,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=7.93s]Epoch 0:  18%|█▊        | 2189/12384 [4:39:34<21:38:05,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=7.93s]Epoch 0:  18%|█▊        | 2189/12384 [4:39:42<21:38:05,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=7.98s]Epoch 0:  18%|█▊        | 2190/12384 [4:39:42<21:54:50,  7.74s/it, loss=0.0000, acc=1.0000, iter_time=7.98s]Epoch 0:  18%|█▊        | 2190/12384 [4:39:50<21:54:50,  7.74s/it, loss=0.0004, acc=0.9997, iter_time=7.70s]Epoch 0:  18%|█▊        | 2191/12384 [4:39:50<22:08:02,  7.82s/it, loss=0.0004, acc=0.9997, iter_time=7.70s]Epoch 0:  18%|█▊        | 2191/12384 [4:39:57<22:08:02,  7.82s/it, loss=0.0001, acc=1.0000, iter_time=8.30s]Epoch 0:  18%|█▊        | 2192/12384 [4:39:57<21:57:58,  7.76s/it, loss=0.0001, acc=1.0000, iter_time=8.30s]Epoch 0:  18%|█▊        | 2192/12384 [4:40:05<21:57:58,  7.76s/it, loss=0.0007, acc=0.9980, iter_time=7.22s]Epoch 0:  18%|█▊        | 2193/12384 [4:40:05<21:50:08,  7.71s/it, loss=0.0007, acc=0.9980, iter_time=7.22s]Epoch 0:  18%|█▊        | 2193/12384 [4:40:13<21:50:08,  7.71s/it, loss=0.0011, acc=0.9981, iter_time=7.73s]Epoch 0:  18%|█▊        | 2194/12384 [4:40:13<21:50:29,  7.72s/it, loss=0.0011, acc=0.9981, iter_time=7.73s]Epoch 0:  18%|█▊        | 2194/12384 [4:40:20<21:50:29,  7.72s/it, loss=0.0001, acc=1.0000, iter_time=7.37s]Epoch 0:  18%|█▊        | 2195/12384 [4:40:20<21:46:19,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=7.37s]Epoch 0:  18%|█▊        | 2195/12384 [4:40:28<21:46:19,  7.69s/it, loss=0.0003, acc=0.9998, iter_time=8.00s]Epoch 0:  18%|█▊        | 2196/12384 [4:40:28<21:48:29,  7.71s/it, loss=0.0003, acc=0.9998, iter_time=8.00s]Epoch 0:  18%|█▊        | 2196/12384 [4:40:36<21:48:29,  7.71s/it, loss=0.0006, acc=0.9979, iter_time=7.38s]Epoch 0:  18%|█▊        | 2197/12384 [4:40:36<21:46:45,  7.70s/it, loss=0.0006, acc=0.9979, iter_time=7.38s]Epoch 0:  18%|█▊        | 2197/12384 [4:40:43<21:46:45,  7.70s/it, loss=0.0000, acc=1.0000, iter_time=6.17s]Epoch 0:  18%|█▊        | 2198/12384 [4:40:43<21:43:46,  7.68s/it, loss=0.0000, acc=1.0000, iter_time=6.17s]Epoch 0:  18%|█▊        | 2198/12384 [4:40:51<21:43:46,  7.68s/it, loss=0.0016, acc=0.9944, iter_time=9.44s]Epoch 0:  18%|█▊        | 2199/12384 [4:40:51<21:43:20,  7.68s/it, loss=0.0016, acc=0.9944, iter_time=9.44s]Epoch 0:  18%|█▊        | 2199/12384 [4:40:59<21:43:20,  7.68s/it, loss=0.0012, acc=0.9976, iter_time=8.11s]Epoch 0:  18%|█▊        | 2200/12384 [4:40:59<21:44:59,  7.69s/it, loss=0.0012, acc=0.9976, iter_time=8.11s]Epoch 0:  18%|█▊        | 2200/12384 [4:41:06<21:44:59,  7.69s/it, loss=0.0014, acc=0.9973, iter_time=7.21s]Epoch 0:  18%|█▊        | 2201/12384 [4:41:06<21:44:30,  7.69s/it, loss=0.0014, acc=0.9973, iter_time=7.21s]Epoch 0:  18%|█▊        | 2201/12384 [4:41:14<21:44:30,  7.69s/it, loss=0.0003, acc=1.0000, iter_time=6.56s]Epoch 0:  18%|█▊        | 2202/12384 [4:41:14<21:39:51,  7.66s/it, loss=0.0003, acc=1.0000, iter_time=6.56s]Epoch 0:  18%|█▊        | 2202/12384 [4:41:22<21:39:51,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=6.18s]Epoch 0:  18%|█▊        | 2203/12384 [4:41:22<21:39:16,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=6.18s]Epoch 0:  18%|█▊        | 2203/12384 [4:41:29<21:39:16,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=7.89s]Epoch 0:  18%|█▊        | 2204/12384 [4:41:29<21:39:33,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=7.89s]Epoch 0:  18%|█▊        | 2204/12384 [4:41:37<21:39:33,  7.66s/it, loss=0.0005, acc=0.9973, iter_time=9.95s]Epoch 0:  18%|█▊        | 2205/12384 [4:41:37<21:35:58,  7.64s/it, loss=0.0005, acc=0.9973, iter_time=9.95s]Epoch 0:  18%|█▊        | 2205/12384 [4:41:45<21:35:58,  7.64s/it, loss=0.0030, acc=0.9909, iter_time=7.67s]Epoch 0:  18%|█▊        | 2206/12384 [4:41:45<21:37:03,  7.65s/it, loss=0.0030, acc=0.9909, iter_time=7.67s]Epoch 0:  18%|█▊        | 2206/12384 [4:41:52<21:37:03,  7.65s/it, loss=0.0005, acc=0.9997, iter_time=7.60s]Epoch 0:  18%|█▊        | 2207/12384 [4:41:52<21:40:48,  7.67s/it, loss=0.0005, acc=0.9997, iter_time=7.60s]Epoch 0:  18%|█▊        | 2207/12384 [4:42:00<21:40:48,  7.67s/it, loss=0.0014, acc=0.9955, iter_time=8.14s]Epoch 0:  18%|█▊        | 2208/12384 [4:42:00<21:40:57,  7.67s/it, loss=0.0014, acc=0.9955, iter_time=8.14s]Epoch 0:  18%|█▊        | 2208/12384 [4:42:08<21:40:57,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=5.47s]Epoch 0:  18%|█▊        | 2209/12384 [4:42:08<21:36:39,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=5.47s]Epoch 0:  18%|█▊        | 2209/12384 [4:42:15<21:36:39,  7.65s/it, loss=0.0006, acc=0.9974, iter_time=6.36s]Epoch 0:  18%|█▊        | 2210/12384 [4:42:15<21:36:30,  7.65s/it, loss=0.0006, acc=0.9974, iter_time=6.36s]Epoch 0:  18%|█▊        | 2210/12384 [4:42:23<21:36:30,  7.65s/it, loss=0.0007, acc=0.9986, iter_time=10.68s]Epoch 0:  18%|█▊        | 2211/12384 [4:42:23<21:36:44,  7.65s/it, loss=0.0007, acc=0.9986, iter_time=10.68s]Epoch 0:  18%|█▊        | 2211/12384 [4:42:31<21:36:44,  7.65s/it, loss=0.0003, acc=0.9997, iter_time=7.63s] Epoch 0:  18%|█▊        | 2212/12384 [4:42:31<21:37:47,  7.66s/it, loss=0.0003, acc=0.9997, iter_time=7.63s]Epoch 0:  18%|█▊        | 2212/12384 [4:42:38<21:37:47,  7.66s/it, loss=0.0005, acc=0.9996, iter_time=7.71s]Epoch 0:  18%|█▊        | 2213/12384 [4:42:38<21:36:29,  7.65s/it, loss=0.0005, acc=0.9996, iter_time=7.71s]Epoch 0:  18%|█▊        | 2213/12384 [4:42:46<21:36:29,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=6.67s]Epoch 0:  18%|█▊        | 2214/12384 [4:42:46<21:34:42,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=6.67s]Epoch 0:  18%|█▊        | 2214/12384 [4:42:54<21:34:42,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=8.88s]Epoch 0:  18%|█▊        | 2215/12384 [4:42:54<21:49:18,  7.73s/it, loss=0.0001, acc=1.0000, iter_time=8.88s]Epoch 0:  18%|█▊        | 2215/12384 [4:43:01<21:49:18,  7.73s/it, loss=0.0009, acc=0.9983, iter_time=8.01s]Epoch 0:  18%|█▊        | 2216/12384 [4:43:01<21:44:36,  7.70s/it, loss=0.0009, acc=0.9983, iter_time=8.01s]Epoch 0:  18%|█▊        | 2216/12384 [4:43:09<21:44:36,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=6.32s]Epoch 0:  18%|█▊        | 2217/12384 [4:43:09<21:55:17,  7.76s/it, loss=0.0001, acc=1.0000, iter_time=6.32s]Epoch 0:  18%|█▊        | 2217/12384 [4:43:17<21:55:17,  7.76s/it, loss=0.0009, acc=0.9967, iter_time=6.73s]Epoch 0:  18%|█▊        | 2218/12384 [4:43:17<21:48:50,  7.72s/it, loss=0.0009, acc=0.9967, iter_time=6.73s]Epoch 0:  18%|█▊        | 2218/12384 [4:43:25<21:48:50,  7.72s/it, loss=0.0001, acc=1.0000, iter_time=8.77s]Epoch 0:  18%|█▊        | 2219/12384 [4:43:25<21:44:53,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=8.77s]Epoch 0:  18%|█▊        | 2219/12384 [4:43:32<21:44:53,  7.70s/it, loss=0.0004, acc=1.0000, iter_time=5.84s]Epoch 0:  18%|█▊        | 2220/12384 [4:43:32<21:40:11,  7.68s/it, loss=0.0004, acc=1.0000, iter_time=5.84s]Epoch 0:  18%|█▊        | 2220/12384 [4:43:40<21:40:11,  7.68s/it, loss=0.0004, acc=0.9984, iter_time=7.37s]Epoch 0:  18%|█▊        | 2221/12384 [4:43:40<21:39:00,  7.67s/it, loss=0.0004, acc=0.9984, iter_time=7.37s]Epoch 0:  18%|█▊        | 2221/12384 [4:43:47<21:39:00,  7.67s/it, loss=0.0001, acc=0.9998, iter_time=8.32s]Epoch 0:  18%|█▊        | 2222/12384 [4:43:47<21:35:13,  7.65s/it, loss=0.0001, acc=0.9998, iter_time=8.32s]Epoch 0:  18%|█▊        | 2222/12384 [4:43:55<21:35:13,  7.65s/it, loss=0.0007, acc=0.9979, iter_time=9.00s]Epoch 0:  18%|█▊        | 2223/12384 [4:43:55<21:34:17,  7.64s/it, loss=0.0007, acc=0.9979, iter_time=9.00s]Epoch 0:  18%|█▊        | 2223/12384 [4:44:03<21:34:17,  7.64s/it, loss=0.0005, acc=1.0000, iter_time=8.93s]Epoch 0:  18%|█▊        | 2224/12384 [4:44:03<21:32:19,  7.63s/it, loss=0.0005, acc=1.0000, iter_time=8.93s]Epoch 0:  18%|█▊        | 2224/12384 [4:44:10<21:32:19,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=7.24s]Epoch 0:  18%|█▊        | 2225/12384 [4:44:10<21:30:39,  7.62s/it, loss=0.0003, acc=1.0000, iter_time=7.24s]Epoch 0:  18%|█▊        | 2225/12384 [4:44:18<21:30:39,  7.62s/it, loss=0.0005, acc=0.9984, iter_time=6.77s]Epoch 0:  18%|█▊        | 2226/12384 [4:44:18<21:31:37,  7.63s/it, loss=0.0005, acc=0.9984, iter_time=6.77s]Epoch 0:  18%|█▊        | 2226/12384 [4:44:26<21:31:37,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=8.51s]Epoch 0:  18%|█▊        | 2227/12384 [4:44:26<21:32:23,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=8.51s]Epoch 0:  18%|█▊        | 2227/12384 [4:44:33<21:32:23,  7.63s/it, loss=0.0003, acc=0.9998, iter_time=6.41s]Epoch 0:  18%|█▊        | 2228/12384 [4:44:33<21:30:06,  7.62s/it, loss=0.0003, acc=0.9998, iter_time=6.41s]Epoch 0:  18%|█▊        | 2228/12384 [4:44:41<21:30:06,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=5.43s]Epoch 0:  18%|█▊        | 2229/12384 [4:44:41<21:32:32,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=5.43s]Epoch 0:  18%|█▊        | 2229/12384 [4:44:48<21:32:32,  7.64s/it, loss=0.0005, acc=0.9975, iter_time=7.29s]Epoch 0:  18%|█▊        | 2230/12384 [4:44:48<21:30:19,  7.62s/it, loss=0.0005, acc=0.9975, iter_time=7.29s]Epoch 0:  18%|█▊        | 2230/12384 [4:44:56<21:30:19,  7.62s/it, loss=0.0006, acc=0.9988, iter_time=11.35s]Epoch 0:  18%|█▊        | 2231/12384 [4:44:56<21:29:02,  7.62s/it, loss=0.0006, acc=0.9988, iter_time=11.35s]Epoch 0:  18%|█▊        | 2231/12384 [4:45:04<21:29:02,  7.62s/it, loss=0.0002, acc=1.0000, iter_time=7.56s] Epoch 0:  18%|█▊        | 2232/12384 [4:45:04<21:29:15,  7.62s/it, loss=0.0002, acc=1.0000, iter_time=7.56s]Epoch 0:  18%|█▊        | 2232/12384 [4:45:11<21:29:15,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  18%|█▊        | 2233/12384 [4:45:11<21:30:28,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  18%|█▊        | 2233/12384 [4:45:19<21:30:28,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=6.22s]Epoch 0:  18%|█▊        | 2234/12384 [4:45:19<21:31:07,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=6.22s]Epoch 0:  18%|█▊        | 2234/12384 [4:45:26<21:31:07,  7.63s/it, loss=0.0007, acc=0.9986, iter_time=9.10s]Epoch 0:  18%|█▊        | 2235/12384 [4:45:26<21:29:50,  7.63s/it, loss=0.0007, acc=0.9986, iter_time=9.10s]Epoch 0:  18%|█▊        | 2235/12384 [4:45:34<21:29:50,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=6.10s]Epoch 0:  18%|█▊        | 2236/12384 [4:45:34<21:29:50,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=6.10s]Epoch 0:  18%|█▊        | 2236/12384 [4:45:42<21:29:50,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=9.12s]Epoch 0:  18%|█▊        | 2237/12384 [4:45:42<21:29:56,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=9.12s]Epoch 0:  18%|█▊        | 2237/12384 [4:45:49<21:29:56,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  18%|█▊        | 2238/12384 [4:45:49<21:28:40,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  18%|█▊        | 2238/12384 [4:45:57<21:28:40,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=7.59s]Epoch 0:  18%|█▊        | 2239/12384 [4:45:57<21:30:23,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.59s]Epoch 0:  18%|█▊        | 2239/12384 [4:46:05<21:30:23,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=8.07s]Epoch 0:  18%|█▊        | 2240/12384 [4:46:05<21:33:58,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=8.07s]Epoch 0:  18%|█▊        | 2240/12384 [4:46:13<21:33:58,  7.65s/it, loss=0.0004, acc=0.9985, iter_time=7.55s]Epoch 0:  18%|█▊        | 2241/12384 [4:46:13<21:44:06,  7.71s/it, loss=0.0004, acc=0.9985, iter_time=7.55s]Epoch 0:  18%|█▊        | 2241/12384 [4:46:20<21:44:06,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=7.61s]Epoch 0:  18%|█▊        | 2242/12384 [4:46:20<21:39:20,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=7.61s]Epoch 0:  18%|█▊        | 2242/12384 [4:46:28<21:39:20,  7.69s/it, loss=0.0002, acc=1.0000, iter_time=4.26s]Epoch 0:  18%|█▊        | 2243/12384 [4:46:28<21:54:36,  7.78s/it, loss=0.0002, acc=1.0000, iter_time=4.26s]Epoch 0:  18%|█▊        | 2243/12384 [4:46:36<21:54:36,  7.78s/it, loss=0.0005, acc=0.9990, iter_time=8.81s]Epoch 0:  18%|█▊        | 2244/12384 [4:46:36<21:48:11,  7.74s/it, loss=0.0005, acc=0.9990, iter_time=8.81s]Epoch 0:  18%|█▊        | 2244/12384 [4:46:43<21:48:11,  7.74s/it, loss=0.0002, acc=1.0000, iter_time=7.64s]Epoch 0:  18%|█▊        | 2245/12384 [4:46:43<21:41:26,  7.70s/it, loss=0.0002, acc=1.0000, iter_time=7.64s]Epoch 0:  18%|█▊        | 2245/12384 [4:46:51<21:41:26,  7.70s/it, loss=0.0001, acc=0.9998, iter_time=10.15s]Epoch 0:  18%|█▊        | 2246/12384 [4:46:51<21:37:38,  7.68s/it, loss=0.0001, acc=0.9998, iter_time=10.15s]Epoch 0:  18%|█▊        | 2246/12384 [4:46:59<21:37:38,  7.68s/it, loss=0.0066, acc=0.9912, iter_time=5.38s] Epoch 0:  18%|█▊        | 2247/12384 [4:46:59<21:32:38,  7.65s/it, loss=0.0066, acc=0.9912, iter_time=5.38s]Epoch 0:  18%|█▊        | 2247/12384 [4:47:06<21:32:38,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=9.81s]Epoch 0:  18%|█▊        | 2248/12384 [4:47:06<21:31:43,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=9.81s]Epoch 0:  18%|█▊        | 2248/12384 [4:47:14<21:31:43,  7.65s/it, loss=0.0009, acc=0.9975, iter_time=5.89s]Epoch 0:  18%|█▊        | 2249/12384 [4:47:14<21:28:42,  7.63s/it, loss=0.0009, acc=0.9975, iter_time=5.89s]Epoch 0:  18%|█▊        | 2249/12384 [4:47:22<21:28:42,  7.63s/it, loss=0.0020, acc=0.9934, iter_time=9.76s]Epoch 0:  18%|█▊        | 2250/12384 [4:47:22<21:27:40,  7.62s/it, loss=0.0020, acc=0.9934, iter_time=9.76s]Epoch 0:  18%|█▊        | 2250/12384 [4:47:29<21:27:40,  7.62s/it, loss=0.0006, acc=0.9995, iter_time=7.20s]Epoch 0:  18%|█▊        | 2251/12384 [4:47:29<21:26:48,  7.62s/it, loss=0.0006, acc=0.9995, iter_time=7.20s]Epoch 0:  18%|█▊        | 2251/12384 [4:47:37<21:26:48,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=5.50s]Epoch 0:  18%|█▊        | 2252/12384 [4:47:37<21:26:24,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=5.50s]Epoch 0:  18%|█▊        | 2252/12384 [4:47:44<21:26:24,  7.62s/it, loss=0.0002, acc=0.9983, iter_time=7.16s]Epoch 0:  18%|█▊        | 2253/12384 [4:47:44<21:28:18,  7.63s/it, loss=0.0002, acc=0.9983, iter_time=7.16s]Epoch 0:  18%|█▊        | 2253/12384 [4:47:52<21:28:18,  7.63s/it, loss=0.0000, acc=1.0000, iter_time=10.23s]Epoch 0:  18%|█▊        | 2254/12384 [4:47:52<21:28:44,  7.63s/it, loss=0.0000, acc=1.0000, iter_time=10.23s]Epoch 0:  18%|█▊        | 2254/12384 [4:48:00<21:28:44,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.63s] Epoch 0:  18%|█▊        | 2255/12384 [4:48:00<21:29:32,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.63s]Epoch 0:  18%|█▊        | 2255/12384 [4:48:07<21:29:32,  7.64s/it, loss=0.0003, acc=0.9988, iter_time=7.63s]Epoch 0:  18%|█▊        | 2256/12384 [4:48:07<21:29:38,  7.64s/it, loss=0.0003, acc=0.9988, iter_time=7.63s]Epoch 0:  18%|█▊        | 2256/12384 [4:48:15<21:29:38,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.67s]Epoch 0:  18%|█▊        | 2257/12384 [4:48:15<21:29:50,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.67s]Epoch 0:  18%|█▊        | 2257/12384 [4:48:23<21:29:50,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=5.60s]Epoch 0:  18%|█▊        | 2258/12384 [4:48:23<21:29:59,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=5.60s]Epoch 0:  18%|█▊        | 2258/12384 [4:48:30<21:29:59,  7.64s/it, loss=0.0007, acc=0.9986, iter_time=8.48s]Epoch 0:  18%|█▊        | 2259/12384 [4:48:30<21:29:52,  7.64s/it, loss=0.0007, acc=0.9986, iter_time=8.48s]Epoch 0:  18%|█▊        | 2259/12384 [4:48:38<21:29:52,  7.64s/it, loss=0.0001, acc=0.9999, iter_time=8.86s]Epoch 0:  18%|█▊        | 2260/12384 [4:48:38<21:32:33,  7.66s/it, loss=0.0001, acc=0.9999, iter_time=8.86s]Epoch 0:  18%|█▊        | 2260/12384 [4:48:46<21:32:33,  7.66s/it, loss=0.0004, acc=0.9980, iter_time=7.10s]Epoch 0:  18%|█▊        | 2261/12384 [4:48:46<21:29:07,  7.64s/it, loss=0.0004, acc=0.9980, iter_time=7.10s]Epoch 0:  18%|█▊        | 2261/12384 [4:48:53<21:29:07,  7.64s/it, loss=0.0016, acc=0.9958, iter_time=8.20s]Epoch 0:  18%|█▊        | 2262/12384 [4:48:53<21:30:14,  7.65s/it, loss=0.0016, acc=0.9958, iter_time=8.20s]Epoch 0:  18%|█▊        | 2262/12384 [4:49:01<21:30:14,  7.65s/it, loss=0.0007, acc=0.9979, iter_time=7.67s]Epoch 0:  18%|█▊        | 2263/12384 [4:49:01<21:28:34,  7.64s/it, loss=0.0007, acc=0.9979, iter_time=7.67s]Epoch 0:  18%|█▊        | 2263/12384 [4:49:09<21:28:34,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.61s]Epoch 0:  18%|█▊        | 2264/12384 [4:49:09<21:30:08,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.61s]Epoch 0:  18%|█▊        | 2264/12384 [4:49:16<21:30:08,  7.65s/it, loss=0.0011, acc=0.9992, iter_time=7.64s]Epoch 0:  18%|█▊        | 2265/12384 [4:49:16<21:29:26,  7.65s/it, loss=0.0011, acc=0.9992, iter_time=7.64s]Epoch 0:  18%|█▊        | 2265/12384 [4:49:24<21:29:26,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.79s]Epoch 0:  18%|█▊        | 2266/12384 [4:49:24<21:36:01,  7.69s/it, loss=0.0002, acc=1.0000, iter_time=7.79s]Epoch 0:  18%|█▊        | 2266/12384 [4:49:32<21:36:01,  7.69s/it, loss=0.0004, acc=1.0000, iter_time=7.97s]Epoch 0:  18%|█▊        | 2267/12384 [4:49:32<21:47:48,  7.76s/it, loss=0.0004, acc=1.0000, iter_time=7.97s]Epoch 0:  18%|█▊        | 2267/12384 [4:49:40<21:47:48,  7.76s/it, loss=0.0003, acc=0.9999, iter_time=7.63s]Epoch 0:  18%|█▊        | 2268/12384 [4:49:40<21:42:53,  7.73s/it, loss=0.0003, acc=0.9999, iter_time=7.63s]Epoch 0:  18%|█▊        | 2268/12384 [4:49:47<21:42:53,  7.73s/it, loss=0.0001, acc=1.0000, iter_time=7.67s]Epoch 0:  18%|█▊        | 2269/12384 [4:49:47<21:55:18,  7.80s/it, loss=0.0001, acc=1.0000, iter_time=7.67s]Epoch 0:  18%|█▊        | 2269/12384 [4:49:55<21:55:18,  7.80s/it, loss=0.0002, acc=1.0000, iter_time=7.97s]Epoch 0:  18%|█▊        | 2270/12384 [4:49:55<21:47:44,  7.76s/it, loss=0.0002, acc=1.0000, iter_time=7.97s]Epoch 0:  18%|█▊        | 2270/12384 [4:50:03<21:47:44,  7.76s/it, loss=0.0000, acc=1.0000, iter_time=7.64s]Epoch 0:  18%|█▊        | 2271/12384 [4:50:03<21:42:31,  7.73s/it, loss=0.0000, acc=1.0000, iter_time=7.64s]Epoch 0:  18%|█▊        | 2271/12384 [4:50:11<21:42:31,  7.73s/it, loss=0.0003, acc=0.9994, iter_time=8.14s]Epoch 0:  18%|█▊        | 2272/12384 [4:50:11<21:42:18,  7.73s/it, loss=0.0003, acc=0.9994, iter_time=8.14s]Epoch 0:  18%|█▊        | 2272/12384 [4:50:18<21:42:18,  7.73s/it, loss=0.0004, acc=0.9979, iter_time=5.46s]Epoch 0:  18%|█▊        | 2273/12384 [4:50:18<21:38:59,  7.71s/it, loss=0.0004, acc=0.9979, iter_time=5.46s]Epoch 0:  18%|█▊        | 2273/12384 [4:50:26<21:38:59,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=9.45s]Epoch 0:  18%|█▊        | 2274/12384 [4:50:26<21:34:56,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=9.45s]Epoch 0:  18%|█▊        | 2274/12384 [4:50:33<21:34:56,  7.69s/it, loss=0.0010, acc=0.9974, iter_time=7.64s]Epoch 0:  18%|█▊        | 2275/12384 [4:50:33<21:33:07,  7.68s/it, loss=0.0010, acc=0.9974, iter_time=7.64s]Epoch 0:  18%|█▊        | 2275/12384 [4:50:41<21:33:07,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=7.68s]Epoch 0:  18%|█▊        | 2276/12384 [4:50:41<21:31:07,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.68s]Epoch 0:  18%|█▊        | 2276/12384 [4:50:49<21:31:07,  7.66s/it, loss=0.0016, acc=0.9981, iter_time=7.63s]Epoch 0:  18%|█▊        | 2277/12384 [4:50:49<21:29:50,  7.66s/it, loss=0.0016, acc=0.9981, iter_time=7.63s]Epoch 0:  18%|█▊        | 2277/12384 [4:50:56<21:29:50,  7.66s/it, loss=0.0013, acc=0.9951, iter_time=7.61s]Epoch 0:  18%|█▊        | 2278/12384 [4:50:56<21:34:00,  7.68s/it, loss=0.0013, acc=0.9951, iter_time=7.61s]Epoch 0:  18%|█▊        | 2278/12384 [4:51:04<21:34:00,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=4.68s]Epoch 0:  18%|█▊        | 2279/12384 [4:51:04<21:29:43,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=4.68s]Epoch 0:  18%|█▊        | 2279/12384 [4:51:12<21:29:43,  7.66s/it, loss=0.0035, acc=0.9906, iter_time=11.05s]Epoch 0:  18%|█▊        | 2280/12384 [4:51:12<21:29:42,  7.66s/it, loss=0.0035, acc=0.9906, iter_time=11.05s]Epoch 0:  18%|█▊        | 2280/12384 [4:51:19<21:29:42,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=5.82s] Epoch 0:  18%|█▊        | 2281/12384 [4:51:19<21:27:37,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=5.82s]Epoch 0:  18%|█▊        | 2281/12384 [4:51:27<21:27:37,  7.65s/it, loss=0.0004, acc=0.9998, iter_time=9.15s]Epoch 0:  18%|█▊        | 2282/12384 [4:51:27<21:28:55,  7.66s/it, loss=0.0004, acc=0.9998, iter_time=9.15s]Epoch 0:  18%|█▊        | 2282/12384 [4:51:35<21:28:55,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=6.68s]Epoch 0:  18%|█▊        | 2283/12384 [4:51:35<21:27:38,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=6.68s]Epoch 0:  18%|█▊        | 2283/12384 [4:51:42<21:27:38,  7.65s/it, loss=0.0005, acc=0.9997, iter_time=8.57s]Epoch 0:  18%|█▊        | 2284/12384 [4:51:42<21:26:06,  7.64s/it, loss=0.0005, acc=0.9997, iter_time=8.57s]Epoch 0:  18%|█▊        | 2284/12384 [4:51:50<21:26:06,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=7.62s]Epoch 0:  18%|█▊        | 2285/12384 [4:51:50<21:24:48,  7.63s/it, loss=0.0000, acc=1.0000, iter_time=7.62s]Epoch 0:  18%|█▊        | 2285/12384 [4:51:58<21:24:48,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=7.62s]Epoch 0:  18%|█▊        | 2286/12384 [4:51:58<21:23:37,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=7.62s]Epoch 0:  18%|█▊        | 2286/12384 [4:52:05<21:23:37,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.61s]Epoch 0:  18%|█▊        | 2287/12384 [4:52:05<21:23:10,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.61s]Epoch 0:  18%|█▊        | 2287/12384 [4:52:13<21:23:10,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=8.00s]Epoch 0:  18%|█▊        | 2288/12384 [4:52:13<21:27:05,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=8.00s]Epoch 0:  18%|█▊        | 2288/12384 [4:52:20<21:27:05,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.32s]Epoch 0:  18%|█▊        | 2289/12384 [4:52:20<21:25:36,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.32s]Epoch 0:  18%|█▊        | 2289/12384 [4:52:28<21:25:36,  7.64s/it, loss=0.0002, acc=0.9998, iter_time=7.62s]Epoch 0:  18%|█▊        | 2290/12384 [4:52:28<21:26:02,  7.64s/it, loss=0.0002, acc=0.9998, iter_time=7.62s]Epoch 0:  18%|█▊        | 2290/12384 [4:52:36<21:26:02,  7.64s/it, loss=0.0002, acc=0.9984, iter_time=7.65s]Epoch 0:  18%|█▊        | 2291/12384 [4:52:36<21:24:03,  7.63s/it, loss=0.0002, acc=0.9984, iter_time=7.65s]Epoch 0:  18%|█▊        | 2291/12384 [4:52:43<21:24:03,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=7.62s]Epoch 0:  19%|█▊        | 2292/12384 [4:52:43<21:25:58,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.62s]Epoch 0:  19%|█▊        | 2292/12384 [4:52:51<21:25:58,  7.65s/it, loss=0.0006, acc=0.9990, iter_time=7.93s]Epoch 0:  19%|█▊        | 2293/12384 [4:52:51<21:36:59,  7.71s/it, loss=0.0006, acc=0.9990, iter_time=7.93s]Epoch 0:  19%|█▊        | 2293/12384 [4:52:59<21:36:59,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=5.29s]Epoch 0:  19%|█▊        | 2294/12384 [4:52:59<21:33:13,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=5.29s]Epoch 0:  19%|█▊        | 2294/12384 [4:53:07<21:33:13,  7.69s/it, loss=0.0012, acc=0.9977, iter_time=7.86s]Epoch 0:  19%|█▊        | 2295/12384 [4:53:07<21:30:13,  7.67s/it, loss=0.0012, acc=0.9977, iter_time=7.86s]Epoch 0:  19%|█▊        | 2295/12384 [4:53:15<21:30:13,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=10.01s]Epoch 0:  19%|█▊        | 2296/12384 [4:53:15<21:44:10,  7.76s/it, loss=0.0001, acc=1.0000, iter_time=10.01s]Epoch 0:  19%|█▊        | 2296/12384 [4:53:22<21:44:10,  7.76s/it, loss=0.0015, acc=0.9934, iter_time=5.40s] Epoch 0:  19%|█▊        | 2297/12384 [4:53:22<21:43:18,  7.75s/it, loss=0.0015, acc=0.9934, iter_time=5.40s]Epoch 0:  19%|█▊        | 2297/12384 [4:53:30<21:43:18,  7.75s/it, loss=0.0018, acc=0.9982, iter_time=10.10s]Epoch 0:  19%|█▊        | 2298/12384 [4:53:30<21:40:11,  7.73s/it, loss=0.0018, acc=0.9982, iter_time=10.10s]Epoch 0:  19%|█▊        | 2298/12384 [4:53:38<21:40:11,  7.73s/it, loss=0.0024, acc=0.9969, iter_time=7.60s] Epoch 0:  19%|█▊        | 2299/12384 [4:53:38<21:33:48,  7.70s/it, loss=0.0024, acc=0.9969, iter_time=7.60s]Epoch 0:  19%|█▊        | 2299/12384 [4:53:45<21:33:48,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=8.08s]Epoch 0:  19%|█▊        | 2300/12384 [4:53:45<21:33:06,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=8.08s]Epoch 0:  19%|█▊        | 2300/12384 [4:53:53<21:33:06,  7.69s/it, loss=0.0001, acc=0.9999, iter_time=7.22s]Epoch 0:  19%|█▊        | 2301/12384 [4:53:53<21:29:27,  7.67s/it, loss=0.0001, acc=0.9999, iter_time=7.22s]Epoch 0:  19%|█▊        | 2301/12384 [4:54:00<21:29:27,  7.67s/it, loss=0.0015, acc=0.9954, iter_time=7.63s]Epoch 0:  19%|█▊        | 2302/12384 [4:54:00<21:27:41,  7.66s/it, loss=0.0015, acc=0.9954, iter_time=7.63s]Epoch 0:  19%|█▊        | 2302/12384 [4:54:08<21:27:41,  7.66s/it, loss=0.0020, acc=0.9975, iter_time=5.92s]Epoch 0:  19%|█▊        | 2303/12384 [4:54:08<21:27:25,  7.66s/it, loss=0.0020, acc=0.9975, iter_time=5.92s]Epoch 0:  19%|█▊        | 2303/12384 [4:54:16<21:27:25,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=9.34s]Epoch 0:  19%|█▊        | 2304/12384 [4:54:16<21:25:57,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=9.34s]Epoch 0:  19%|█▊        | 2304/12384 [4:54:23<21:25:57,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=5.61s]Epoch 0:  19%|█▊        | 2305/12384 [4:54:23<21:25:43,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=5.61s]Epoch 0:  19%|█▊        | 2305/12384 [4:54:31<21:25:43,  7.65s/it, loss=0.0004, acc=0.9980, iter_time=9.09s]Epoch 0:  19%|█▊        | 2306/12384 [4:54:31<21:25:05,  7.65s/it, loss=0.0004, acc=0.9980, iter_time=9.09s]Epoch 0:  19%|█▊        | 2306/12384 [4:54:39<21:25:05,  7.65s/it, loss=0.0006, acc=0.9979, iter_time=5.26s]Epoch 0:  19%|█▊        | 2307/12384 [4:54:39<21:24:44,  7.65s/it, loss=0.0006, acc=0.9979, iter_time=5.26s]Epoch 0:  19%|█▊        | 2307/12384 [4:54:46<21:24:44,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.35s]Epoch 0:  19%|█▊        | 2308/12384 [4:54:46<21:22:42,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.35s]Epoch 0:  19%|█▊        | 2308/12384 [4:54:54<21:22:42,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=10.90s]Epoch 0:  19%|█▊        | 2309/12384 [4:54:54<21:27:07,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=10.90s]Epoch 0:  19%|█▊        | 2309/12384 [4:55:02<21:27:07,  7.67s/it, loss=0.0016, acc=0.9974, iter_time=6.88s] Epoch 0:  19%|█▊        | 2310/12384 [4:55:02<21:25:48,  7.66s/it, loss=0.0016, acc=0.9974, iter_time=6.88s]Epoch 0:  19%|█▊        | 2310/12384 [4:55:09<21:25:48,  7.66s/it, loss=0.0003, acc=1.0000, iter_time=8.61s]Epoch 0:  19%|█▊        | 2311/12384 [4:55:09<21:31:32,  7.69s/it, loss=0.0003, acc=1.0000, iter_time=8.61s]Epoch 0:  19%|█▊        | 2311/12384 [4:55:17<21:31:32,  7.69s/it, loss=0.0003, acc=1.0000, iter_time=8.12s]Epoch 0:  19%|█▊        | 2312/12384 [4:55:17<21:30:30,  7.69s/it, loss=0.0003, acc=1.0000, iter_time=8.12s]Epoch 0:  19%|█▊        | 2312/12384 [4:55:25<21:30:30,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=7.35s]Epoch 0:  19%|█▊        | 2313/12384 [4:55:25<21:33:02,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=7.35s]Epoch 0:  19%|█▊        | 2313/12384 [4:55:33<21:33:02,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=6.77s]Epoch 0:  19%|█▊        | 2314/12384 [4:55:33<21:28:22,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=6.77s]Epoch 0:  19%|█▊        | 2314/12384 [4:55:40<21:28:22,  7.68s/it, loss=0.0019, acc=0.9907, iter_time=7.54s]Epoch 0:  19%|█▊        | 2315/12384 [4:55:40<21:25:45,  7.66s/it, loss=0.0019, acc=0.9907, iter_time=7.54s]Epoch 0:  19%|█▊        | 2315/12384 [4:55:48<21:25:45,  7.66s/it, loss=0.0008, acc=0.9979, iter_time=6.53s]Epoch 0:  19%|█▊        | 2316/12384 [4:55:48<21:24:27,  7.65s/it, loss=0.0008, acc=0.9979, iter_time=6.53s]Epoch 0:  19%|█▊        | 2316/12384 [4:55:55<21:24:27,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.59s]Epoch 0:  19%|█▊        | 2317/12384 [4:55:55<21:24:17,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.59s]Epoch 0:  19%|█▊        | 2317/12384 [4:56:03<21:24:17,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=6.51s]Epoch 0:  19%|█▊        | 2318/12384 [4:56:03<21:23:30,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=6.51s]Epoch 0:  19%|█▊        | 2318/12384 [4:56:11<21:23:30,  7.65s/it, loss=0.0004, acc=0.9988, iter_time=7.80s]Epoch 0:  19%|█▊        | 2319/12384 [4:56:11<21:24:04,  7.65s/it, loss=0.0004, acc=0.9988, iter_time=7.80s]Epoch 0:  19%|█▊        | 2319/12384 [4:56:18<21:24:04,  7.65s/it, loss=0.0008, acc=0.9978, iter_time=10.66s]Epoch 0:  19%|█▊        | 2320/12384 [4:56:18<21:22:23,  7.65s/it, loss=0.0008, acc=0.9978, iter_time=10.66s]Epoch 0:  19%|█▊        | 2320/12384 [4:56:26<21:22:23,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=7.65s] Epoch 0:  19%|█▊        | 2321/12384 [4:56:26<21:19:55,  7.63s/it, loss=0.0000, acc=1.0000, iter_time=7.65s]Epoch 0:  19%|█▊        | 2321/12384 [4:56:34<21:19:55,  7.63s/it, loss=0.0013, acc=0.9958, iter_time=7.65s]Epoch 0:  19%|█▉        | 2322/12384 [4:56:34<21:37:44,  7.74s/it, loss=0.0013, acc=0.9958, iter_time=7.65s]Epoch 0:  19%|█▉        | 2322/12384 [4:56:42<21:37:44,  7.74s/it, loss=0.0000, acc=1.0000, iter_time=5.87s]Epoch 0:  19%|█▉        | 2323/12384 [4:56:42<21:33:08,  7.71s/it, loss=0.0000, acc=1.0000, iter_time=5.87s]Epoch 0:  19%|█▉        | 2323/12384 [4:56:49<21:33:08,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=9.71s]Epoch 0:  19%|█▉        | 2324/12384 [4:56:49<21:28:52,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=9.71s]Epoch 0:  19%|█▉        | 2324/12384 [4:56:57<21:28:52,  7.69s/it, loss=0.0005, acc=0.9998, iter_time=7.65s]Epoch 0:  19%|█▉        | 2325/12384 [4:56:57<21:27:37,  7.68s/it, loss=0.0005, acc=0.9998, iter_time=7.65s]Epoch 0:  19%|█▉        | 2325/12384 [4:57:05<21:27:37,  7.68s/it, loss=0.0008, acc=0.9973, iter_time=7.64s]Epoch 0:  19%|█▉        | 2326/12384 [4:57:05<21:24:47,  7.66s/it, loss=0.0008, acc=0.9973, iter_time=7.64s]Epoch 0:  19%|█▉        | 2326/12384 [4:57:12<21:24:47,  7.66s/it, loss=0.0002, acc=0.9998, iter_time=7.64s]Epoch 0:  19%|█▉        | 2327/12384 [4:57:12<21:23:06,  7.66s/it, loss=0.0002, acc=0.9998, iter_time=7.64s]Epoch 0:  19%|█▉        | 2327/12384 [4:57:20<21:23:06,  7.66s/it, loss=0.0011, acc=0.9985, iter_time=8.04s]Epoch 0:  19%|█▉        | 2328/12384 [4:57:20<21:21:41,  7.65s/it, loss=0.0011, acc=0.9985, iter_time=8.04s]Epoch 0:  19%|█▉        | 2328/12384 [4:57:27<21:21:41,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=5.74s]Epoch 0:  19%|█▉        | 2329/12384 [4:57:27<21:19:25,  7.63s/it, loss=0.0000, acc=1.0000, iter_time=5.74s]Epoch 0:  19%|█▉        | 2329/12384 [4:57:35<21:19:25,  7.63s/it, loss=0.0002, acc=0.9999, iter_time=9.09s]Epoch 0:  19%|█▉        | 2330/12384 [4:57:35<21:19:03,  7.63s/it, loss=0.0002, acc=0.9999, iter_time=9.09s]Epoch 0:  19%|█▉        | 2330/12384 [4:57:43<21:19:03,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  19%|█▉        | 2331/12384 [4:57:43<21:20:29,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  19%|█▉        | 2331/12384 [4:57:50<21:20:29,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  19%|█▉        | 2332/12384 [4:57:50<21:19:35,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  19%|█▉        | 2332/12384 [4:57:58<21:19:35,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=6.71s]Epoch 0:  19%|█▉        | 2333/12384 [4:57:58<21:17:19,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=6.71s]Epoch 0:  19%|█▉        | 2333/12384 [4:58:06<21:17:19,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=6.44s]Epoch 0:  19%|█▉        | 2334/12384 [4:58:06<21:17:23,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=6.44s]Epoch 0:  19%|█▉        | 2334/12384 [4:58:13<21:17:23,  7.63s/it, loss=0.0017, acc=0.9957, iter_time=9.73s]Epoch 0:  19%|█▉        | 2335/12384 [4:58:13<21:18:50,  7.64s/it, loss=0.0017, acc=0.9957, iter_time=9.73s]Epoch 0:  19%|█▉        | 2335/12384 [4:58:21<21:18:50,  7.64s/it, loss=0.0010, acc=0.9963, iter_time=8.04s]Epoch 0:  19%|█▉        | 2336/12384 [4:58:21<21:17:24,  7.63s/it, loss=0.0010, acc=0.9963, iter_time=8.04s]Epoch 0:  19%|█▉        | 2336/12384 [4:58:28<21:17:24,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=4.90s]Epoch 0:  19%|█▉        | 2337/12384 [4:58:28<21:16:46,  7.62s/it, loss=0.0003, acc=1.0000, iter_time=4.90s]Epoch 0:  19%|█▉        | 2337/12384 [4:58:36<21:16:46,  7.62s/it, loss=0.0000, acc=1.0000, iter_time=9.91s]Epoch 0:  19%|█▉        | 2338/12384 [4:58:36<21:15:05,  7.62s/it, loss=0.0000, acc=1.0000, iter_time=9.91s]Epoch 0:  19%|█▉        | 2338/12384 [4:58:44<21:15:05,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=7.61s]Epoch 0:  19%|█▉        | 2339/12384 [4:58:44<21:15:33,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=7.61s]Epoch 0:  19%|█▉        | 2339/12384 [4:58:51<21:15:33,  7.62s/it, loss=0.0002, acc=0.9998, iter_time=7.66s]Epoch 0:  19%|█▉        | 2340/12384 [4:58:51<21:19:30,  7.64s/it, loss=0.0002, acc=0.9998, iter_time=7.66s]Epoch 0:  19%|█▉        | 2340/12384 [4:58:59<21:19:30,  7.64s/it, loss=0.0006, acc=0.9978, iter_time=5.57s]Epoch 0:  19%|█▉        | 2341/12384 [4:58:59<21:18:57,  7.64s/it, loss=0.0006, acc=0.9978, iter_time=5.57s]Epoch 0:  19%|█▉        | 2341/12384 [4:59:07<21:18:57,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=6.20s]Epoch 0:  19%|█▉        | 2342/12384 [4:59:07<21:18:42,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=6.20s]Epoch 0:  19%|█▉        | 2342/12384 [4:59:14<21:18:42,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=11.16s]Epoch 0:  19%|█▉        | 2343/12384 [4:59:14<21:18:15,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=11.16s]Epoch 0:  19%|█▉        | 2343/12384 [4:59:22<21:18:15,  7.64s/it, loss=0.0004, acc=0.9991, iter_time=7.74s] Epoch 0:  19%|█▉        | 2344/12384 [4:59:22<21:16:49,  7.63s/it, loss=0.0004, acc=0.9991, iter_time=7.74s]Epoch 0:  19%|█▉        | 2344/12384 [4:59:30<21:16:49,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.51s]Epoch 0:  19%|█▉        | 2345/12384 [4:59:30<21:17:13,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.51s]Epoch 0:  19%|█▉        | 2345/12384 [4:59:37<21:17:13,  7.63s/it, loss=0.0011, acc=0.9975, iter_time=5.13s]Epoch 0:  19%|█▉        | 2346/12384 [4:59:37<21:19:06,  7.65s/it, loss=0.0011, acc=0.9975, iter_time=5.13s]Epoch 0:  19%|█▉        | 2346/12384 [4:59:45<21:19:06,  7.65s/it, loss=0.0004, acc=0.9974, iter_time=9.63s]Epoch 0:  19%|█▉        | 2347/12384 [4:59:45<21:19:09,  7.65s/it, loss=0.0004, acc=0.9974, iter_time=9.63s]Epoch 0:  19%|█▉        | 2347/12384 [4:59:53<21:19:09,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=8.30s]Epoch 0:  19%|█▉        | 2348/12384 [4:59:53<21:21:40,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=8.30s]Epoch 0:  19%|█▉        | 2348/12384 [5:00:00<21:21:40,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=7.67s]Epoch 0:  19%|█▉        | 2349/12384 [5:00:00<21:36:16,  7.75s/it, loss=0.0002, acc=1.0000, iter_time=7.67s]Epoch 0:  19%|█▉        | 2349/12384 [5:00:08<21:36:16,  7.75s/it, loss=0.0005, acc=0.9976, iter_time=8.32s]Epoch 0:  19%|█▉        | 2350/12384 [5:00:08<21:30:21,  7.72s/it, loss=0.0005, acc=0.9976, iter_time=8.32s]Epoch 0:  19%|█▉        | 2350/12384 [5:00:16<21:30:21,  7.72s/it, loss=0.0011, acc=0.9984, iter_time=7.22s]Epoch 0:  19%|█▉        | 2351/12384 [5:00:16<21:28:06,  7.70s/it, loss=0.0011, acc=0.9984, iter_time=7.22s]Epoch 0:  19%|█▉        | 2351/12384 [5:00:23<21:28:06,  7.70s/it, loss=0.0005, acc=0.9995, iter_time=8.07s]Epoch 0:  19%|█▉        | 2352/12384 [5:00:23<21:25:13,  7.69s/it, loss=0.0005, acc=0.9995, iter_time=8.07s]Epoch 0:  19%|█▉        | 2352/12384 [5:00:31<21:25:13,  7.69s/it, loss=0.0004, acc=0.9984, iter_time=3.07s]Epoch 0:  19%|█▉        | 2353/12384 [5:00:31<21:21:58,  7.67s/it, loss=0.0004, acc=0.9984, iter_time=3.07s]Epoch 0:  19%|█▉        | 2353/12384 [5:00:39<21:21:58,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=11.81s]Epoch 0:  19%|█▉        | 2354/12384 [5:00:39<21:20:24,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=11.81s]Epoch 0:  19%|█▉        | 2354/12384 [5:00:46<21:20:24,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=7.63s] Epoch 0:  19%|█▉        | 2355/12384 [5:00:46<21:18:20,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=7.63s]Epoch 0:  19%|█▉        | 2355/12384 [5:00:54<21:18:20,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.63s]Epoch 0:  19%|█▉        | 2356/12384 [5:00:54<21:18:51,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.63s]Epoch 0:  19%|█▉        | 2356/12384 [5:01:02<21:18:51,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.67s]Epoch 0:  19%|█▉        | 2357/12384 [5:01:02<21:19:08,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.67s]Epoch 0:  19%|█▉        | 2357/12384 [5:01:09<21:19:08,  7.65s/it, loss=0.0001, acc=0.9998, iter_time=4.61s]Epoch 0:  19%|█▉        | 2358/12384 [5:01:09<21:18:45,  7.65s/it, loss=0.0001, acc=0.9998, iter_time=4.61s]Epoch 0:  19%|█▉        | 2358/12384 [5:01:17<21:18:45,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=10.69s]Epoch 0:  19%|█▉        | 2359/12384 [5:01:17<21:17:27,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=10.69s]Epoch 0:  19%|█▉        | 2359/12384 [5:01:25<21:17:27,  7.65s/it, loss=0.0005, acc=0.9979, iter_time=7.60s] Epoch 0:  19%|█▉        | 2360/12384 [5:01:25<21:16:47,  7.64s/it, loss=0.0005, acc=0.9979, iter_time=7.60s]Epoch 0:  19%|█▉        | 2360/12384 [5:01:32<21:16:47,  7.64s/it, loss=0.0011, acc=0.9974, iter_time=7.65s]Epoch 0:  19%|█▉        | 2361/12384 [5:01:32<21:16:42,  7.64s/it, loss=0.0011, acc=0.9974, iter_time=7.65s]Epoch 0:  19%|█▉        | 2361/12384 [5:01:40<21:16:42,  7.64s/it, loss=0.0004, acc=1.0000, iter_time=7.65s]Epoch 0:  19%|█▉        | 2362/12384 [5:01:40<21:16:44,  7.64s/it, loss=0.0004, acc=1.0000, iter_time=7.65s]Epoch 0:  19%|█▉        | 2362/12384 [5:01:48<21:16:44,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.64s]Epoch 0:  19%|█▉        | 2363/12384 [5:01:48<21:17:19,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.64s]Epoch 0:  19%|█▉        | 2363/12384 [5:01:55<21:17:19,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.06s]Epoch 0:  19%|█▉        | 2364/12384 [5:01:55<21:15:27,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.06s]Epoch 0:  19%|█▉        | 2364/12384 [5:02:03<21:15:27,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=8.21s]Epoch 0:  19%|█▉        | 2365/12384 [5:02:03<21:13:19,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=8.21s]Epoch 0:  19%|█▉        | 2365/12384 [5:02:10<21:13:19,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.61s]Epoch 0:  19%|█▉        | 2366/12384 [5:02:10<21:12:07,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=7.61s]Epoch 0:  19%|█▉        | 2366/12384 [5:02:18<21:12:07,  7.62s/it, loss=0.0003, acc=0.9982, iter_time=4.48s]Epoch 0:  19%|█▉        | 2367/12384 [5:02:18<21:12:28,  7.62s/it, loss=0.0003, acc=0.9982, iter_time=4.48s]Epoch 0:  19%|█▉        | 2367/12384 [5:02:26<21:12:28,  7.62s/it, loss=0.0005, acc=0.9990, iter_time=11.14s]Epoch 0:  19%|█▉        | 2368/12384 [5:02:26<21:12:17,  7.62s/it, loss=0.0005, acc=0.9990, iter_time=11.14s]Epoch 0:  19%|█▉        | 2368/12384 [5:02:33<21:12:17,  7.62s/it, loss=0.0020, acc=0.9976, iter_time=7.25s] Epoch 0:  19%|█▉        | 2369/12384 [5:02:33<21:12:20,  7.62s/it, loss=0.0020, acc=0.9976, iter_time=7.25s]Epoch 0:  19%|█▉        | 2369/12384 [5:02:41<21:12:20,  7.62s/it, loss=0.0001, acc=0.9997, iter_time=7.64s]Epoch 0:  19%|█▉        | 2370/12384 [5:02:41<21:14:17,  7.64s/it, loss=0.0001, acc=0.9997, iter_time=7.64s]Epoch 0:  19%|█▉        | 2370/12384 [5:02:49<21:14:17,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.64s]Epoch 0:  19%|█▉        | 2371/12384 [5:02:49<21:14:42,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.64s]Epoch 0:  19%|█▉        | 2371/12384 [5:02:56<21:14:42,  7.64s/it, loss=0.0007, acc=0.9982, iter_time=5.65s]Epoch 0:  19%|█▉        | 2372/12384 [5:02:56<21:13:50,  7.63s/it, loss=0.0007, acc=0.9982, iter_time=5.65s]Epoch 0:  19%|█▉        | 2372/12384 [5:03:04<21:13:50,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=9.93s]Epoch 0:  19%|█▉        | 2373/12384 [5:03:04<21:27:51,  7.72s/it, loss=0.0001, acc=1.0000, iter_time=9.93s]Epoch 0:  19%|█▉        | 2373/12384 [5:03:12<21:27:51,  7.72s/it, loss=0.0003, acc=1.0000, iter_time=7.63s]Epoch 0:  19%|█▉        | 2374/12384 [5:03:12<21:25:48,  7.71s/it, loss=0.0003, acc=1.0000, iter_time=7.63s]Epoch 0:  19%|█▉        | 2374/12384 [5:03:20<21:25:48,  7.71s/it, loss=0.0001, acc=0.9999, iter_time=6.51s]Epoch 0:  19%|█▉        | 2375/12384 [5:03:20<21:41:27,  7.80s/it, loss=0.0001, acc=0.9999, iter_time=6.51s]Epoch 0:  19%|█▉        | 2375/12384 [5:03:27<21:41:27,  7.80s/it, loss=0.0003, acc=1.0000, iter_time=9.15s]Epoch 0:  19%|█▉        | 2376/12384 [5:03:27<21:33:40,  7.76s/it, loss=0.0003, acc=1.0000, iter_time=9.15s]Epoch 0:  19%|█▉        | 2376/12384 [5:03:35<21:33:40,  7.76s/it, loss=0.0012, acc=0.9973, iter_time=5.66s]Epoch 0:  19%|█▉        | 2377/12384 [5:03:35<21:28:43,  7.73s/it, loss=0.0012, acc=0.9973, iter_time=5.66s]Epoch 0:  19%|█▉        | 2377/12384 [5:03:43<21:28:43,  7.73s/it, loss=0.0004, acc=0.9995, iter_time=9.66s]Epoch 0:  19%|█▉        | 2378/12384 [5:03:43<21:25:21,  7.71s/it, loss=0.0004, acc=0.9995, iter_time=9.66s]Epoch 0:  19%|█▉        | 2378/12384 [5:03:50<21:25:21,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=7.66s]Epoch 0:  19%|█▉        | 2379/12384 [5:03:50<21:25:01,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=7.66s]Epoch 0:  19%|█▉        | 2379/12384 [5:03:58<21:25:01,  7.71s/it, loss=0.0003, acc=0.9986, iter_time=6.77s]Epoch 0:  19%|█▉        | 2380/12384 [5:03:58<21:21:22,  7.69s/it, loss=0.0003, acc=0.9986, iter_time=6.77s]Epoch 0:  19%|█▉        | 2380/12384 [5:04:06<21:21:22,  7.69s/it, loss=0.0003, acc=0.9997, iter_time=8.58s]Epoch 0:  19%|█▉        | 2381/12384 [5:04:06<21:19:21,  7.67s/it, loss=0.0003, acc=0.9997, iter_time=8.58s]Epoch 0:  19%|█▉        | 2381/12384 [5:04:13<21:19:21,  7.67s/it, loss=0.0001, acc=0.9998, iter_time=6.43s]Epoch 0:  19%|█▉        | 2382/12384 [5:04:13<21:17:16,  7.66s/it, loss=0.0001, acc=0.9998, iter_time=6.43s]Epoch 0:  19%|█▉        | 2382/12384 [5:04:21<21:17:16,  7.66s/it, loss=0.0006, acc=0.9998, iter_time=8.84s]Epoch 0:  19%|█▉        | 2383/12384 [5:04:21<21:19:30,  7.68s/it, loss=0.0006, acc=0.9998, iter_time=8.84s]Epoch 0:  19%|█▉        | 2383/12384 [5:04:29<21:19:30,  7.68s/it, loss=0.0000, acc=1.0000, iter_time=8.11s]Epoch 0:  19%|█▉        | 2384/12384 [5:04:29<21:17:18,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=8.11s]Epoch 0:  19%|█▉        | 2384/12384 [5:04:36<21:17:18,  7.66s/it, loss=0.0006, acc=0.9991, iter_time=5.70s]Epoch 0:  19%|█▉        | 2385/12384 [5:04:36<21:16:13,  7.66s/it, loss=0.0006, acc=0.9991, iter_time=5.70s]Epoch 0:  19%|█▉        | 2385/12384 [5:04:44<21:16:13,  7.66s/it, loss=0.0002, acc=0.9998, iter_time=9.16s]Epoch 0:  19%|█▉        | 2386/12384 [5:04:44<21:17:23,  7.67s/it, loss=0.0002, acc=0.9998, iter_time=9.16s]Epoch 0:  19%|█▉        | 2386/12384 [5:04:52<21:17:23,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=7.72s]Epoch 0:  19%|█▉        | 2387/12384 [5:04:52<21:15:19,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.72s]Epoch 0:  19%|█▉        | 2387/12384 [5:04:59<21:15:19,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.63s]Epoch 0:  19%|█▉        | 2388/12384 [5:04:59<21:17:02,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=7.63s]Epoch 0:  19%|█▉        | 2388/12384 [5:05:07<21:17:02,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=4.89s]Epoch 0:  19%|█▉        | 2389/12384 [5:05:07<21:17:19,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=4.89s]Epoch 0:  19%|█▉        | 2389/12384 [5:05:15<21:17:19,  7.67s/it, loss=0.0002, acc=0.9992, iter_time=10.45s]Epoch 0:  19%|█▉        | 2390/12384 [5:05:15<21:15:34,  7.66s/it, loss=0.0002, acc=0.9992, iter_time=10.45s]Epoch 0:  19%|█▉        | 2390/12384 [5:05:22<21:15:34,  7.66s/it, loss=0.0031, acc=0.9921, iter_time=7.65s] Epoch 0:  19%|█▉        | 2391/12384 [5:05:22<21:14:20,  7.65s/it, loss=0.0031, acc=0.9921, iter_time=7.65s]Epoch 0:  19%|█▉        | 2391/12384 [5:05:30<21:14:20,  7.65s/it, loss=0.0002, acc=0.9998, iter_time=8.01s]Epoch 0:  19%|█▉        | 2392/12384 [5:05:30<21:14:03,  7.65s/it, loss=0.0002, acc=0.9998, iter_time=8.01s]Epoch 0:  19%|█▉        | 2392/12384 [5:05:38<21:14:03,  7.65s/it, loss=0.0006, acc=0.9998, iter_time=7.26s]Epoch 0:  19%|█▉        | 2393/12384 [5:05:38<21:12:35,  7.64s/it, loss=0.0006, acc=0.9998, iter_time=7.26s]Epoch 0:  19%|█▉        | 2393/12384 [5:05:45<21:12:35,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  19%|█▉        | 2394/12384 [5:05:45<21:12:33,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  19%|█▉        | 2394/12384 [5:05:53<21:12:33,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.63s]Epoch 0:  19%|█▉        | 2395/12384 [5:05:53<21:12:25,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.63s]Epoch 0:  19%|█▉        | 2395/12384 [5:06:00<21:12:25,  7.64s/it, loss=0.0002, acc=0.9995, iter_time=7.64s]Epoch 0:  19%|█▉        | 2396/12384 [5:06:00<21:09:57,  7.63s/it, loss=0.0002, acc=0.9995, iter_time=7.64s]Epoch 0:  19%|█▉        | 2396/12384 [5:06:08<21:09:57,  7.63s/it, loss=0.0004, acc=0.9988, iter_time=7.61s]Epoch 0:  19%|█▉        | 2397/12384 [5:06:08<21:13:30,  7.65s/it, loss=0.0004, acc=0.9988, iter_time=7.61s]Epoch 0:  19%|█▉        | 2397/12384 [5:06:16<21:13:30,  7.65s/it, loss=0.0006, acc=0.9976, iter_time=7.70s]Epoch 0:  19%|█▉        | 2398/12384 [5:06:16<21:11:57,  7.64s/it, loss=0.0006, acc=0.9976, iter_time=7.70s]Epoch 0:  19%|█▉        | 2398/12384 [5:06:24<21:11:57,  7.64s/it, loss=0.0002, acc=0.9995, iter_time=7.93s]Epoch 0:  19%|█▉        | 2399/12384 [5:06:24<21:25:51,  7.73s/it, loss=0.0002, acc=0.9995, iter_time=7.93s]Epoch 0:  19%|█▉        | 2399/12384 [5:06:31<21:25:51,  7.73s/it, loss=0.0007, acc=0.9974, iter_time=8.05s]Epoch 0:  19%|█▉        | 2400/12384 [5:06:31<21:21:59,  7.70s/it, loss=0.0007, acc=0.9974, iter_time=8.05s]Epoch 0:  19%|█▉        | 2400/12384 [5:06:39<21:21:59,  7.70s/it, loss=0.0004, acc=0.9981, iter_time=7.24s]Epoch 0:  19%|█▉        | 2401/12384 [5:06:39<21:31:55,  7.76s/it, loss=0.0004, acc=0.9981, iter_time=7.24s]Epoch 0:  19%|█▉        | 2401/12384 [5:06:47<21:31:55,  7.76s/it, loss=0.0009, acc=0.9955, iter_time=7.88s]Epoch 0:  19%|█▉        | 2402/12384 [5:06:47<21:25:44,  7.73s/it, loss=0.0009, acc=0.9955, iter_time=7.88s]Epoch 0:  19%|█▉        | 2402/12384 [5:06:55<21:25:44,  7.73s/it, loss=0.0007, acc=0.9995, iter_time=7.71s]Epoch 0:  19%|█▉        | 2403/12384 [5:06:55<21:23:01,  7.71s/it, loss=0.0007, acc=0.9995, iter_time=7.71s]Epoch 0:  19%|█▉        | 2403/12384 [5:07:02<21:23:01,  7.71s/it, loss=0.0003, acc=0.9994, iter_time=7.64s]Epoch 0:  19%|█▉        | 2404/12384 [5:07:02<21:19:19,  7.69s/it, loss=0.0003, acc=0.9994, iter_time=7.64s]Epoch 0:  19%|█▉        | 2404/12384 [5:07:10<21:19:19,  7.69s/it, loss=0.0005, acc=0.9985, iter_time=7.62s]Epoch 0:  19%|█▉        | 2405/12384 [5:07:10<21:17:47,  7.68s/it, loss=0.0005, acc=0.9985, iter_time=7.62s]Epoch 0:  19%|█▉        | 2405/12384 [5:07:18<21:17:47,  7.68s/it, loss=0.0001, acc=0.9999, iter_time=7.77s]Epoch 0:  19%|█▉        | 2406/12384 [5:07:18<21:19:30,  7.69s/it, loss=0.0001, acc=0.9999, iter_time=7.77s]Epoch 0:  19%|█▉        | 2406/12384 [5:07:25<21:19:30,  7.69s/it, loss=0.0004, acc=0.9978, iter_time=7.61s]Epoch 0:  19%|█▉        | 2407/12384 [5:07:25<21:16:22,  7.68s/it, loss=0.0004, acc=0.9978, iter_time=7.61s]Epoch 0:  19%|█▉        | 2407/12384 [5:07:33<21:16:22,  7.68s/it, loss=0.0013, acc=0.9973, iter_time=7.61s]Epoch 0:  19%|█▉        | 2408/12384 [5:07:33<21:14:15,  7.66s/it, loss=0.0013, acc=0.9973, iter_time=7.61s]Epoch 0:  19%|█▉        | 2408/12384 [5:07:40<21:14:15,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  19%|█▉        | 2409/12384 [5:07:40<21:11:45,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  19%|█▉        | 2409/12384 [5:07:48<21:11:45,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=4.05s]Epoch 0:  19%|█▉        | 2410/12384 [5:07:48<21:09:10,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=4.05s]Epoch 0:  19%|█▉        | 2410/12384 [5:07:56<21:09:10,  7.63s/it, loss=0.0008, acc=0.9971, iter_time=9.10s]Epoch 0:  19%|█▉        | 2411/12384 [5:07:56<21:09:24,  7.64s/it, loss=0.0008, acc=0.9971, iter_time=9.10s]Epoch 0:  19%|█▉        | 2411/12384 [5:08:03<21:09:24,  7.64s/it, loss=0.0008, acc=0.9982, iter_time=9.72s]Epoch 0:  19%|█▉        | 2412/12384 [5:08:03<21:08:46,  7.63s/it, loss=0.0008, acc=0.9982, iter_time=9.72s]Epoch 0:  19%|█▉        | 2412/12384 [5:08:11<21:08:46,  7.63s/it, loss=0.0010, acc=0.9971, iter_time=7.65s]Epoch 0:  19%|█▉        | 2413/12384 [5:08:11<21:10:42,  7.65s/it, loss=0.0010, acc=0.9971, iter_time=7.65s]Epoch 0:  19%|█▉        | 2413/12384 [5:08:19<21:10:42,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=7.03s]Epoch 0:  19%|█▉        | 2414/12384 [5:08:19<21:10:11,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=7.03s]Epoch 0:  19%|█▉        | 2414/12384 [5:08:26<21:10:11,  7.64s/it, loss=0.0004, acc=0.9998, iter_time=8.28s]Epoch 0:  20%|█▉        | 2415/12384 [5:08:26<21:08:49,  7.64s/it, loss=0.0004, acc=0.9998, iter_time=8.28s]Epoch 0:  20%|█▉        | 2415/12384 [5:08:34<21:08:49,  7.64s/it, loss=0.0007, acc=0.9951, iter_time=8.02s]Epoch 0:  20%|█▉        | 2416/12384 [5:08:34<21:10:04,  7.64s/it, loss=0.0007, acc=0.9951, iter_time=8.02s]Epoch 0:  20%|█▉        | 2416/12384 [5:08:42<21:10:04,  7.64s/it, loss=0.0003, acc=0.9987, iter_time=7.27s]Epoch 0:  20%|█▉        | 2417/12384 [5:08:42<21:09:44,  7.64s/it, loss=0.0003, acc=0.9987, iter_time=7.27s]Epoch 0:  20%|█▉        | 2417/12384 [5:08:49<21:09:44,  7.64s/it, loss=0.0006, acc=0.9966, iter_time=7.65s]Epoch 0:  20%|█▉        | 2418/12384 [5:08:49<21:08:45,  7.64s/it, loss=0.0006, acc=0.9966, iter_time=7.65s]Epoch 0:  20%|█▉        | 2418/12384 [5:08:57<21:08:45,  7.64s/it, loss=0.0004, acc=0.9995, iter_time=7.63s]Epoch 0:  20%|█▉        | 2419/12384 [5:08:57<21:08:47,  7.64s/it, loss=0.0004, acc=0.9995, iter_time=7.63s]Epoch 0:  20%|█▉        | 2419/12384 [5:09:04<21:08:47,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  20%|█▉        | 2420/12384 [5:09:04<21:08:52,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  20%|█▉        | 2420/12384 [5:09:12<21:08:52,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=7.00s]Epoch 0:  20%|█▉        | 2421/12384 [5:09:12<21:07:05,  7.63s/it, loss=0.0000, acc=1.0000, iter_time=7.00s]Epoch 0:  20%|█▉        | 2421/12384 [5:09:20<21:07:05,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=8.24s]Epoch 0:  20%|█▉        | 2422/12384 [5:09:20<21:06:08,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=8.24s]Epoch 0:  20%|█▉        | 2422/12384 [5:09:27<21:06:08,  7.63s/it, loss=0.0000, acc=1.0000, iter_time=4.61s]Epoch 0:  20%|█▉        | 2423/12384 [5:09:27<21:06:18,  7.63s/it, loss=0.0000, acc=1.0000, iter_time=4.61s]Epoch 0:  20%|█▉        | 2423/12384 [5:09:35<21:06:18,  7.63s/it, loss=0.0008, acc=0.9979, iter_time=10.62s]Epoch 0:  20%|█▉        | 2424/12384 [5:09:35<21:06:42,  7.63s/it, loss=0.0008, acc=0.9979, iter_time=10.62s]Epoch 0:  20%|█▉        | 2424/12384 [5:09:43<21:06:42,  7.63s/it, loss=0.0018, acc=0.9978, iter_time=7.94s] Epoch 0:  20%|█▉        | 2425/12384 [5:09:43<21:18:53,  7.70s/it, loss=0.0018, acc=0.9978, iter_time=7.94s]Epoch 0:  20%|█▉        | 2425/12384 [5:09:51<21:18:53,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  20%|█▉        | 2426/12384 [5:09:51<21:16:04,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  20%|█▉        | 2426/12384 [5:09:58<21:16:04,  7.69s/it, loss=0.0006, acc=0.9998, iter_time=7.67s]Epoch 0:  20%|█▉        | 2427/12384 [5:09:58<21:27:08,  7.76s/it, loss=0.0006, acc=0.9998, iter_time=7.67s]Epoch 0:  20%|█▉        | 2427/12384 [5:10:06<21:27:08,  7.76s/it, loss=0.0023, acc=0.9939, iter_time=4.86s]Epoch 0:  20%|█▉        | 2428/12384 [5:10:06<21:20:31,  7.72s/it, loss=0.0023, acc=0.9939, iter_time=4.86s]Epoch 0:  20%|█▉        | 2428/12384 [5:10:14<21:20:31,  7.72s/it, loss=0.0001, acc=0.9999, iter_time=10.63s]Epoch 0:  20%|█▉        | 2429/12384 [5:10:14<21:15:59,  7.69s/it, loss=0.0001, acc=0.9999, iter_time=10.63s]Epoch 0:  20%|█▉        | 2429/12384 [5:10:21<21:15:59,  7.69s/it, loss=0.0003, acc=0.9980, iter_time=7.64s] Epoch 0:  20%|█▉        | 2430/12384 [5:10:21<21:11:56,  7.67s/it, loss=0.0003, acc=0.9980, iter_time=7.64s]Epoch 0:  20%|█▉        | 2430/12384 [5:10:29<21:11:56,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=7.64s]Epoch 0:  20%|█▉        | 2431/12384 [5:10:29<21:12:05,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=7.64s]Epoch 0:  20%|█▉        | 2431/12384 [5:10:37<21:12:05,  7.67s/it, loss=0.0079, acc=0.9976, iter_time=7.66s]Epoch 0:  20%|█▉        | 2432/12384 [5:10:37<21:12:10,  7.67s/it, loss=0.0079, acc=0.9976, iter_time=7.66s]Epoch 0:  20%|█▉        | 2432/12384 [5:10:44<21:12:10,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=7.64s]Epoch 0:  20%|█▉        | 2433/12384 [5:10:44<21:09:26,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.64s]Epoch 0:  20%|█▉        | 2433/12384 [5:10:52<21:09:26,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.65s]Epoch 0:  20%|█▉        | 2434/12384 [5:10:52<21:07:02,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.65s]Epoch 0:  20%|█▉        | 2434/12384 [5:11:00<21:07:02,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.61s]Epoch 0:  20%|█▉        | 2435/12384 [5:11:00<21:07:01,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.61s]Epoch 0:  20%|█▉        | 2435/12384 [5:11:07<21:07:01,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=7.63s]Epoch 0:  20%|█▉        | 2436/12384 [5:11:07<21:06:38,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=7.63s]Epoch 0:  20%|█▉        | 2436/12384 [5:11:15<21:06:38,  7.64s/it, loss=0.0007, acc=0.9977, iter_time=7.67s]Epoch 0:  20%|█▉        | 2437/12384 [5:11:15<21:07:45,  7.65s/it, loss=0.0007, acc=0.9977, iter_time=7.67s]Epoch 0:  20%|█▉        | 2437/12384 [5:11:22<21:07:45,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.64s]Epoch 0:  20%|█▉        | 2438/12384 [5:11:22<21:06:35,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.64s]Epoch 0:  20%|█▉        | 2438/12384 [5:11:30<21:06:35,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  20%|█▉        | 2439/12384 [5:11:30<21:10:38,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  20%|█▉        | 2439/12384 [5:11:38<21:10:38,  7.67s/it, loss=0.0003, acc=1.0000, iter_time=7.68s]Epoch 0:  20%|█▉        | 2440/12384 [5:11:38<21:08:08,  7.65s/it, loss=0.0003, acc=1.0000, iter_time=7.68s]Epoch 0:  20%|█▉        | 2440/12384 [5:11:45<21:08:08,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=7.66s]Epoch 0:  20%|█▉        | 2441/12384 [5:11:45<21:06:24,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=7.66s]Epoch 0:  20%|█▉        | 2441/12384 [5:11:53<21:06:24,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=7.01s]Epoch 0:  20%|█▉        | 2442/12384 [5:11:53<21:03:53,  7.63s/it, loss=0.0000, acc=1.0000, iter_time=7.01s]Epoch 0:  20%|█▉        | 2442/12384 [5:12:01<21:03:53,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=6.43s]Epoch 0:  20%|█▉        | 2443/12384 [5:12:01<21:05:43,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=6.43s]Epoch 0:  20%|█▉        | 2443/12384 [5:12:08<21:05:43,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=9.44s]Epoch 0:  20%|█▉        | 2444/12384 [5:12:08<21:04:25,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=9.44s]Epoch 0:  20%|█▉        | 2444/12384 [5:12:16<21:04:25,  7.63s/it, loss=0.0002, acc=0.9998, iter_time=7.63s]Epoch 0:  20%|█▉        | 2445/12384 [5:12:16<21:04:14,  7.63s/it, loss=0.0002, acc=0.9998, iter_time=7.63s]Epoch 0:  20%|█▉        | 2445/12384 [5:12:24<21:04:14,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  20%|█▉        | 2446/12384 [5:12:24<21:05:38,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  20%|█▉        | 2446/12384 [5:12:31<21:05:38,  7.64s/it, loss=0.0006, acc=0.9975, iter_time=6.82s]Epoch 0:  20%|█▉        | 2447/12384 [5:12:31<21:06:19,  7.65s/it, loss=0.0006, acc=0.9975, iter_time=6.82s]Epoch 0:  20%|█▉        | 2447/12384 [5:12:39<21:06:19,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=8.86s]Epoch 0:  20%|█▉        | 2448/12384 [5:12:39<21:05:14,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=8.86s]Epoch 0:  20%|█▉        | 2448/12384 [5:12:46<21:05:14,  7.64s/it, loss=0.0003, acc=0.9990, iter_time=7.25s]Epoch 0:  20%|█▉        | 2449/12384 [5:12:46<21:03:58,  7.63s/it, loss=0.0003, acc=0.9990, iter_time=7.25s]Epoch 0:  20%|█▉        | 2449/12384 [5:12:54<21:03:58,  7.63s/it, loss=0.0042, acc=0.9888, iter_time=8.03s]Epoch 0:  20%|█▉        | 2450/12384 [5:12:54<21:04:11,  7.64s/it, loss=0.0042, acc=0.9888, iter_time=8.03s]Epoch 0:  20%|█▉        | 2450/12384 [5:13:02<21:04:11,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.51s]Epoch 0:  20%|█▉        | 2451/12384 [5:13:02<21:17:09,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=7.51s]Epoch 0:  20%|█▉        | 2451/12384 [5:13:10<21:17:09,  7.71s/it, loss=0.0007, acc=0.9985, iter_time=5.50s]Epoch 0:  20%|█▉        | 2452/12384 [5:13:10<21:13:46,  7.69s/it, loss=0.0007, acc=0.9985, iter_time=5.50s]Epoch 0:  20%|█▉        | 2452/12384 [5:13:18<21:13:46,  7.69s/it, loss=0.0003, acc=1.0000, iter_time=9.18s]Epoch 0:  20%|█▉        | 2453/12384 [5:13:18<21:29:35,  7.79s/it, loss=0.0003, acc=1.0000, iter_time=9.18s]Epoch 0:  20%|█▉        | 2453/12384 [5:13:25<21:29:35,  7.79s/it, loss=0.0001, acc=1.0000, iter_time=8.60s]Epoch 0:  20%|█▉        | 2454/12384 [5:13:25<21:21:05,  7.74s/it, loss=0.0001, acc=1.0000, iter_time=8.60s]Epoch 0:  20%|█▉        | 2454/12384 [5:13:33<21:21:05,  7.74s/it, loss=0.0007, acc=0.9981, iter_time=5.55s]Epoch 0:  20%|█▉        | 2455/12384 [5:13:33<21:16:27,  7.71s/it, loss=0.0007, acc=0.9981, iter_time=5.55s]Epoch 0:  20%|█▉        | 2455/12384 [5:13:41<21:16:27,  7.71s/it, loss=0.0000, acc=1.0000, iter_time=9.71s]Epoch 0:  20%|█▉        | 2456/12384 [5:13:41<21:13:46,  7.70s/it, loss=0.0000, acc=1.0000, iter_time=9.71s]Epoch 0:  20%|█▉        | 2456/12384 [5:13:48<21:13:46,  7.70s/it, loss=0.0002, acc=1.0000, iter_time=7.68s]Epoch 0:  20%|█▉        | 2457/12384 [5:13:48<21:11:05,  7.68s/it, loss=0.0002, acc=1.0000, iter_time=7.68s]Epoch 0:  20%|█▉        | 2457/12384 [5:13:56<21:11:05,  7.68s/it, loss=0.0009, acc=0.9953, iter_time=5.84s]Epoch 0:  20%|█▉        | 2458/12384 [5:13:56<21:09:59,  7.68s/it, loss=0.0009, acc=0.9953, iter_time=5.84s]Epoch 0:  20%|█▉        | 2458/12384 [5:14:04<21:09:59,  7.68s/it, loss=0.0002, acc=0.9987, iter_time=9.48s]Epoch 0:  20%|█▉        | 2459/12384 [5:14:04<21:08:29,  7.67s/it, loss=0.0002, acc=0.9987, iter_time=9.48s]Epoch 0:  20%|█▉        | 2459/12384 [5:14:11<21:08:29,  7.67s/it, loss=0.0002, acc=0.9998, iter_time=7.68s]Epoch 0:  20%|█▉        | 2460/12384 [5:14:11<21:08:24,  7.67s/it, loss=0.0002, acc=0.9998, iter_time=7.68s]Epoch 0:  20%|█▉        | 2460/12384 [5:14:19<21:08:24,  7.67s/it, loss=0.0001, acc=0.9996, iter_time=7.64s]Epoch 0:  20%|█▉        | 2461/12384 [5:14:19<21:06:19,  7.66s/it, loss=0.0001, acc=0.9996, iter_time=7.64s]Epoch 0:  20%|█▉        | 2461/12384 [5:14:27<21:06:19,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  20%|█▉        | 2462/12384 [5:14:27<21:09:18,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  20%|█▉        | 2462/12384 [5:14:34<21:09:18,  7.68s/it, loss=0.0013, acc=0.9985, iter_time=7.41s]Epoch 0:  20%|█▉        | 2463/12384 [5:14:34<21:07:06,  7.66s/it, loss=0.0013, acc=0.9985, iter_time=7.41s]Epoch 0:  20%|█▉        | 2463/12384 [5:14:42<21:07:06,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.94s]Epoch 0:  20%|█▉        | 2464/12384 [5:14:42<21:07:27,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=7.94s]Epoch 0:  20%|█▉        | 2464/12384 [5:14:50<21:07:27,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=5.86s]Epoch 0:  20%|█▉        | 2465/12384 [5:14:50<21:05:24,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=5.86s]Epoch 0:  20%|█▉        | 2465/12384 [5:14:57<21:05:24,  7.65s/it, loss=0.0003, acc=0.9985, iter_time=9.44s]Epoch 0:  20%|█▉        | 2466/12384 [5:14:57<21:05:20,  7.65s/it, loss=0.0003, acc=0.9985, iter_time=9.44s]Epoch 0:  20%|█▉        | 2466/12384 [5:15:05<21:05:20,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=4.60s]Epoch 0:  20%|█▉        | 2467/12384 [5:15:05<21:05:36,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=4.60s]Epoch 0:  20%|█▉        | 2467/12384 [5:15:12<21:05:36,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=8.95s]Epoch 0:  20%|█▉        | 2468/12384 [5:15:12<21:05:46,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=8.95s]Epoch 0:  20%|█▉        | 2468/12384 [5:15:20<21:05:46,  7.66s/it, loss=0.0003, acc=1.0000, iter_time=9.42s]Epoch 0:  20%|█▉        | 2469/12384 [5:15:20<21:03:07,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=9.42s]Epoch 0:  20%|█▉        | 2469/12384 [5:15:28<21:03:07,  7.64s/it, loss=0.0004, acc=0.9992, iter_time=7.70s]Epoch 0:  20%|█▉        | 2470/12384 [5:15:28<21:05:39,  7.66s/it, loss=0.0004, acc=0.9992, iter_time=7.70s]Epoch 0:  20%|█▉        | 2470/12384 [5:15:35<21:05:39,  7.66s/it, loss=0.0005, acc=0.9977, iter_time=7.61s]Epoch 0:  20%|█▉        | 2471/12384 [5:15:35<21:04:22,  7.65s/it, loss=0.0005, acc=0.9977, iter_time=7.61s]Epoch 0:  20%|█▉        | 2471/12384 [5:15:43<21:04:22,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=8.01s]Epoch 0:  20%|█▉        | 2472/12384 [5:15:43<21:03:46,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=8.01s]Epoch 0:  20%|█▉        | 2472/12384 [5:15:51<21:03:46,  7.65s/it, loss=0.0004, acc=1.0000, iter_time=7.27s]Epoch 0:  20%|█▉        | 2473/12384 [5:15:51<21:02:11,  7.64s/it, loss=0.0004, acc=1.0000, iter_time=7.27s]Epoch 0:  20%|█▉        | 2473/12384 [5:15:58<21:02:11,  7.64s/it, loss=0.0009, acc=0.9980, iter_time=7.62s]Epoch 0:  20%|█▉        | 2474/12384 [5:15:58<21:01:32,  7.64s/it, loss=0.0009, acc=0.9980, iter_time=7.62s]Epoch 0:  20%|█▉        | 2474/12384 [5:16:06<21:01:32,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=6.10s]Epoch 0:  20%|█▉        | 2475/12384 [5:16:06<21:02:21,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=6.10s]Epoch 0:  20%|█▉        | 2475/12384 [5:16:14<21:02:21,  7.64s/it, loss=0.0001, acc=0.9995, iter_time=9.18s]Epoch 0:  20%|█▉        | 2476/12384 [5:16:14<21:04:05,  7.65s/it, loss=0.0001, acc=0.9995, iter_time=9.18s]Epoch 0:  20%|█▉        | 2476/12384 [5:16:21<21:04:05,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.69s]Epoch 0:  20%|██        | 2477/12384 [5:16:21<21:07:01,  7.67s/it, loss=0.0002, acc=1.0000, iter_time=7.69s]Epoch 0:  20%|██        | 2477/12384 [5:16:29<21:07:01,  7.67s/it, loss=0.0003, acc=1.0000, iter_time=4.68s]Epoch 0:  20%|██        | 2478/12384 [5:16:29<21:05:01,  7.66s/it, loss=0.0003, acc=1.0000, iter_time=4.68s]Epoch 0:  20%|██        | 2478/12384 [5:16:37<21:05:01,  7.66s/it, loss=0.0011, acc=0.9960, iter_time=10.66s]Epoch 0:  20%|██        | 2479/12384 [5:16:37<21:03:07,  7.65s/it, loss=0.0011, acc=0.9960, iter_time=10.66s]Epoch 0:  20%|██        | 2479/12384 [5:16:45<21:03:07,  7.65s/it, loss=0.0003, acc=1.0000, iter_time=8.11s] Epoch 0:  20%|██        | 2480/12384 [5:16:45<21:22:33,  7.77s/it, loss=0.0003, acc=1.0000, iter_time=8.11s]Epoch 0:  20%|██        | 2480/12384 [5:16:52<21:22:33,  7.77s/it, loss=0.0006, acc=0.9970, iter_time=7.60s]Epoch 0:  20%|██        | 2481/12384 [5:16:52<21:19:33,  7.75s/it, loss=0.0006, acc=0.9970, iter_time=7.60s]Epoch 0:  20%|██        | 2481/12384 [5:17:00<21:19:33,  7.75s/it, loss=0.0000, acc=1.0000, iter_time=7.70s]Epoch 0:  20%|██        | 2482/12384 [5:17:00<21:14:43,  7.72s/it, loss=0.0000, acc=1.0000, iter_time=7.70s]Epoch 0:  20%|██        | 2482/12384 [5:17:08<21:14:43,  7.72s/it, loss=0.0001, acc=1.0000, iter_time=4.30s]Epoch 0:  20%|██        | 2483/12384 [5:17:08<21:11:58,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=4.30s]Epoch 0:  20%|██        | 2483/12384 [5:17:15<21:11:58,  7.71s/it, loss=0.0051, acc=0.9972, iter_time=10.43s]Epoch 0:  20%|██        | 2484/12384 [5:17:15<21:12:11,  7.71s/it, loss=0.0051, acc=0.9972, iter_time=10.43s]Epoch 0:  20%|██        | 2484/12384 [5:17:23<21:12:11,  7.71s/it, loss=0.0002, acc=1.0000, iter_time=5.54s] Epoch 0:  20%|██        | 2485/12384 [5:17:23<21:07:36,  7.68s/it, loss=0.0002, acc=1.0000, iter_time=5.54s]Epoch 0:  20%|██        | 2485/12384 [5:17:31<21:07:36,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=10.40s]Epoch 0:  20%|██        | 2486/12384 [5:17:31<21:04:14,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=10.40s]Epoch 0:  20%|██        | 2486/12384 [5:17:38<21:04:14,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=7.61s] Epoch 0:  20%|██        | 2487/12384 [5:17:38<21:02:04,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=7.61s]Epoch 0:  20%|██        | 2487/12384 [5:17:46<21:02:04,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.59s]Epoch 0:  20%|██        | 2488/12384 [5:17:46<21:00:35,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.59s]Epoch 0:  20%|██        | 2488/12384 [5:17:54<21:00:35,  7.64s/it, loss=0.0003, acc=0.9991, iter_time=7.66s]Epoch 0:  20%|██        | 2489/12384 [5:17:54<21:02:02,  7.65s/it, loss=0.0003, acc=0.9991, iter_time=7.66s]Epoch 0:  20%|██        | 2489/12384 [5:18:01<21:02:02,  7.65s/it, loss=0.0012, acc=0.9982, iter_time=6.48s]Epoch 0:  20%|██        | 2490/12384 [5:18:01<21:00:49,  7.65s/it, loss=0.0012, acc=0.9982, iter_time=6.48s]Epoch 0:  20%|██        | 2490/12384 [5:18:09<21:00:49,  7.65s/it, loss=0.0002, acc=0.9992, iter_time=8.83s]Epoch 0:  20%|██        | 2491/12384 [5:18:09<21:04:05,  7.67s/it, loss=0.0002, acc=0.9992, iter_time=8.83s]Epoch 0:  20%|██        | 2491/12384 [5:18:17<21:04:05,  7.67s/it, loss=0.0001, acc=0.9998, iter_time=7.71s]Epoch 0:  20%|██        | 2492/12384 [5:18:17<21:01:27,  7.65s/it, loss=0.0001, acc=0.9998, iter_time=7.71s]Epoch 0:  20%|██        | 2492/12384 [5:18:24<21:01:27,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=7.63s]Epoch 0:  20%|██        | 2493/12384 [5:18:24<20:59:40,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=7.63s]Epoch 0:  20%|██        | 2493/12384 [5:18:32<20:59:40,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=5.81s]Epoch 0:  20%|██        | 2494/12384 [5:18:32<20:59:40,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=5.81s]Epoch 0:  20%|██        | 2494/12384 [5:18:39<20:59:40,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=9.45s]Epoch 0:  20%|██        | 2495/12384 [5:18:39<20:59:16,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=9.45s]Epoch 0:  20%|██        | 2495/12384 [5:18:47<20:59:16,  7.64s/it, loss=0.0004, acc=0.9982, iter_time=8.03s]Epoch 0:  20%|██        | 2496/12384 [5:18:47<20:58:48,  7.64s/it, loss=0.0004, acc=0.9982, iter_time=8.03s]Epoch 0:  20%|██        | 2496/12384 [5:18:55<20:58:48,  7.64s/it, loss=0.0005, acc=0.9987, iter_time=7.23s]Epoch 0:  20%|██        | 2497/12384 [5:18:55<20:58:25,  7.64s/it, loss=0.0005, acc=0.9987, iter_time=7.23s]Epoch 0:  20%|██        | 2497/12384 [5:19:02<20:58:25,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=4.32s]Epoch 0:  20%|██        | 2498/12384 [5:19:02<20:58:05,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=4.32s]Epoch 0:  20%|██        | 2498/12384 [5:19:10<20:58:05,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=9.15s]Epoch 0:  20%|██        | 2499/12384 [5:19:10<20:56:45,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=9.15s]Epoch 0:  20%|██        | 2499/12384 [5:19:18<20:56:45,  7.63s/it, loss=0.0012, acc=0.9991, iter_time=9.83s]Epoch 0:  20%|██        | 2500/12384 [5:19:18<21:06:46,  7.69s/it, loss=0.0012, acc=0.9991, iter_time=9.83s]Epoch 0:  20%|██        | 2500/12384 [5:19:25<21:06:46,  7.69s/it, loss=0.0013, acc=0.9951, iter_time=5.15s]Epoch 0:  20%|██        | 2501/12384 [5:19:25<21:04:06,  7.67s/it, loss=0.0013, acc=0.9951, iter_time=5.15s]Epoch 0:  20%|██        | 2501/12384 [5:19:33<21:04:06,  7.67s/it, loss=0.0009, acc=1.0000, iter_time=9.89s]Epoch 0:  20%|██        | 2502/12384 [5:19:33<21:01:38,  7.66s/it, loss=0.0009, acc=1.0000, iter_time=9.89s]Epoch 0:  20%|██        | 2502/12384 [5:19:41<21:01:38,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=7.66s]Epoch 0:  20%|██        | 2503/12384 [5:19:41<21:02:29,  7.67s/it, loss=0.0002, acc=1.0000, iter_time=7.66s]Epoch 0:  20%|██        | 2503/12384 [5:19:48<21:02:29,  7.67s/it, loss=0.0005, acc=0.9997, iter_time=8.02s]Epoch 0:  20%|██        | 2504/12384 [5:19:48<21:01:25,  7.66s/it, loss=0.0005, acc=0.9997, iter_time=8.02s]Epoch 0:  20%|██        | 2504/12384 [5:19:56<21:01:25,  7.66s/it, loss=0.0008, acc=0.9976, iter_time=7.25s]Epoch 0:  20%|██        | 2505/12384 [5:19:56<20:58:29,  7.64s/it, loss=0.0008, acc=0.9976, iter_time=7.25s]Epoch 0:  20%|██        | 2505/12384 [5:20:04<20:58:29,  7.64s/it, loss=0.0004, acc=0.9990, iter_time=7.04s]Epoch 0:  20%|██        | 2506/12384 [5:20:04<21:14:29,  7.74s/it, loss=0.0004, acc=0.9990, iter_time=7.04s]Epoch 0:  20%|██        | 2506/12384 [5:20:12<21:14:29,  7.74s/it, loss=0.0000, acc=1.0000, iter_time=8.55s]Epoch 0:  20%|██        | 2507/12384 [5:20:12<21:08:20,  7.70s/it, loss=0.0000, acc=1.0000, iter_time=8.55s]Epoch 0:  20%|██        | 2507/12384 [5:20:19<21:08:20,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=6.99s]Epoch 0:  20%|██        | 2508/12384 [5:20:19<21:09:16,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=6.99s]Epoch 0:  20%|██        | 2508/12384 [5:20:27<21:09:16,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=8.38s]Epoch 0:  20%|██        | 2509/12384 [5:20:27<21:05:24,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=8.38s]Epoch 0:  20%|██        | 2509/12384 [5:20:35<21:05:24,  7.69s/it, loss=0.0048, acc=0.9965, iter_time=7.61s]Epoch 0:  20%|██        | 2510/12384 [5:20:35<21:01:22,  7.66s/it, loss=0.0048, acc=0.9965, iter_time=7.61s]Epoch 0:  20%|██        | 2510/12384 [5:20:42<21:01:22,  7.66s/it, loss=0.0004, acc=0.9995, iter_time=4.75s]Epoch 0:  20%|██        | 2511/12384 [5:20:42<21:00:02,  7.66s/it, loss=0.0004, acc=0.9995, iter_time=4.75s]Epoch 0:  20%|██        | 2511/12384 [5:20:50<21:00:02,  7.66s/it, loss=0.0002, acc=0.9997, iter_time=10.56s]Epoch 0:  20%|██        | 2512/12384 [5:20:50<21:03:11,  7.68s/it, loss=0.0002, acc=0.9997, iter_time=10.56s]Epoch 0:  20%|██        | 2512/12384 [5:20:58<21:03:11,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=7.68s] Epoch 0:  20%|██        | 2513/12384 [5:20:58<20:59:57,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.68s]Epoch 0:  20%|██        | 2513/12384 [5:21:05<20:59:57,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=4.55s]Epoch 0:  20%|██        | 2514/12384 [5:21:05<20:54:06,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=4.55s]Epoch 0:  20%|██        | 2514/12384 [5:21:13<20:54:06,  7.62s/it, loss=0.0000, acc=1.0000, iter_time=10.62s]Epoch 0:  20%|██        | 2515/12384 [5:21:13<20:54:14,  7.63s/it, loss=0.0000, acc=1.0000, iter_time=10.62s]Epoch 0:  20%|██        | 2515/12384 [5:21:20<20:54:14,  7.63s/it, loss=0.0003, acc=0.9997, iter_time=6.72s] Epoch 0:  20%|██        | 2516/12384 [5:21:20<20:53:12,  7.62s/it, loss=0.0003, acc=0.9997, iter_time=6.72s]Epoch 0:  20%|██        | 2516/12384 [5:21:28<20:53:12,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=8.50s]Epoch 0:  20%|██        | 2517/12384 [5:21:28<20:52:26,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=8.50s]Epoch 0:  20%|██        | 2517/12384 [5:21:36<20:52:26,  7.62s/it, loss=0.0010, acc=0.9984, iter_time=7.62s]Epoch 0:  20%|██        | 2518/12384 [5:21:36<20:52:20,  7.62s/it, loss=0.0010, acc=0.9984, iter_time=7.62s]Epoch 0:  20%|██        | 2518/12384 [5:21:43<20:52:20,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=7.63s]Epoch 0:  20%|██        | 2519/12384 [5:21:43<20:52:57,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=7.63s]Epoch 0:  20%|██        | 2519/12384 [5:21:51<20:52:57,  7.62s/it, loss=0.0000, acc=1.0000, iter_time=8.04s]Epoch 0:  20%|██        | 2520/12384 [5:21:51<20:55:25,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=8.04s]Epoch 0:  20%|██        | 2520/12384 [5:21:58<20:55:25,  7.64s/it, loss=0.0003, acc=0.9986, iter_time=7.27s]Epoch 0:  20%|██        | 2521/12384 [5:21:58<20:55:17,  7.64s/it, loss=0.0003, acc=0.9986, iter_time=7.27s]Epoch 0:  20%|██        | 2521/12384 [5:22:06<20:55:17,  7.64s/it, loss=0.0004, acc=1.0000, iter_time=7.62s]Epoch 0:  20%|██        | 2522/12384 [5:22:06<20:54:50,  7.63s/it, loss=0.0004, acc=1.0000, iter_time=7.62s]Epoch 0:  20%|██        | 2522/12384 [5:22:14<20:54:50,  7.63s/it, loss=0.0043, acc=0.9953, iter_time=7.64s]Epoch 0:  20%|██        | 2523/12384 [5:22:14<20:54:26,  7.63s/it, loss=0.0043, acc=0.9953, iter_time=7.64s]Epoch 0:  20%|██        | 2523/12384 [5:22:21<20:54:26,  7.63s/it, loss=0.0003, acc=0.9990, iter_time=7.62s]Epoch 0:  20%|██        | 2524/12384 [5:22:21<20:54:32,  7.63s/it, loss=0.0003, acc=0.9990, iter_time=7.62s]Epoch 0:  20%|██        | 2524/12384 [5:22:29<20:54:32,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.63s]Epoch 0:  20%|██        | 2525/12384 [5:22:29<20:54:18,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.63s]Epoch 0:  20%|██        | 2525/12384 [5:22:37<20:54:18,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=4.25s]Epoch 0:  20%|██        | 2526/12384 [5:22:37<20:55:08,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=4.25s]Epoch 0:  20%|██        | 2526/12384 [5:22:44<20:55:08,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=11.04s]Epoch 0:  20%|██        | 2527/12384 [5:22:44<20:54:59,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=11.04s]Epoch 0:  20%|██        | 2527/12384 [5:22:52<20:54:59,  7.64s/it, loss=0.0002, acc=0.9998, iter_time=8.03s] Epoch 0:  20%|██        | 2528/12384 [5:22:52<20:55:31,  7.64s/it, loss=0.0002, acc=0.9998, iter_time=8.03s]Epoch 0:  20%|██        | 2528/12384 [5:23:00<20:55:31,  7.64s/it, loss=0.0057, acc=0.9915, iter_time=3.24s]Epoch 0:  20%|██        | 2529/12384 [5:23:00<20:57:11,  7.65s/it, loss=0.0057, acc=0.9915, iter_time=3.24s]Epoch 0:  20%|██        | 2529/12384 [5:23:07<20:57:11,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=8.43s]Epoch 0:  20%|██        | 2530/12384 [5:23:07<20:55:18,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=8.43s]Epoch 0:  20%|██        | 2530/12384 [5:23:15<20:55:18,  7.64s/it, loss=0.0011, acc=0.9967, iter_time=10.90s]Epoch 0:  20%|██        | 2531/12384 [5:23:15<20:57:22,  7.66s/it, loss=0.0011, acc=0.9967, iter_time=10.90s]Epoch 0:  20%|██        | 2531/12384 [5:23:23<20:57:22,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.68s] Epoch 0:  20%|██        | 2532/12384 [5:23:23<20:56:03,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.68s]Epoch 0:  20%|██        | 2532/12384 [5:23:31<20:56:03,  7.65s/it, loss=0.0019, acc=0.9966, iter_time=4.54s]Epoch 0:  20%|██        | 2533/12384 [5:23:31<21:13:13,  7.75s/it, loss=0.0019, acc=0.9966, iter_time=4.54s]Epoch 0:  20%|██        | 2533/12384 [5:23:38<21:13:13,  7.75s/it, loss=0.0002, acc=1.0000, iter_time=11.09s]Epoch 0:  20%|██        | 2534/12384 [5:23:38<21:05:53,  7.71s/it, loss=0.0002, acc=1.0000, iter_time=11.09s]Epoch 0:  20%|██        | 2534/12384 [5:23:46<21:05:53,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=5.30s] Epoch 0:  20%|██        | 2535/12384 [5:23:46<21:02:10,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=5.30s]Epoch 0:  20%|██        | 2535/12384 [5:23:54<21:02:10,  7.69s/it, loss=0.0024, acc=0.9950, iter_time=10.35s]Epoch 0:  20%|██        | 2536/12384 [5:23:54<21:00:53,  7.68s/it, loss=0.0024, acc=0.9950, iter_time=10.35s]Epoch 0:  20%|██        | 2536/12384 [5:24:01<21:00:53,  7.68s/it, loss=0.0005, acc=0.9998, iter_time=6.69s] Epoch 0:  20%|██        | 2537/12384 [5:24:01<20:58:51,  7.67s/it, loss=0.0005, acc=0.9998, iter_time=6.69s]Epoch 0:  20%|██        | 2537/12384 [5:24:09<20:58:51,  7.67s/it, loss=0.0003, acc=0.9999, iter_time=8.21s]Epoch 0:  20%|██        | 2538/12384 [5:24:09<20:55:14,  7.65s/it, loss=0.0003, acc=0.9999, iter_time=8.21s]Epoch 0:  20%|██        | 2538/12384 [5:24:16<20:55:14,  7.65s/it, loss=0.0007, acc=0.9980, iter_time=5.36s]Epoch 0:  21%|██        | 2539/12384 [5:24:16<20:53:43,  7.64s/it, loss=0.0007, acc=0.9980, iter_time=5.36s]Epoch 0:  21%|██        | 2539/12384 [5:24:24<20:53:43,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=9.59s]Epoch 0:  21%|██        | 2540/12384 [5:24:24<20:54:15,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=9.59s]Epoch 0:  21%|██        | 2540/12384 [5:24:32<20:54:15,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.95s]Epoch 0:  21%|██        | 2541/12384 [5:24:32<20:52:28,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.95s]Epoch 0:  21%|██        | 2541/12384 [5:24:39<20:52:28,  7.63s/it, loss=0.0005, acc=0.9985, iter_time=7.67s]Epoch 0:  21%|██        | 2542/12384 [5:24:39<20:56:55,  7.66s/it, loss=0.0005, acc=0.9985, iter_time=7.67s]Epoch 0:  21%|██        | 2542/12384 [5:24:47<20:56:55,  7.66s/it, loss=0.0006, acc=0.9998, iter_time=7.70s]Epoch 0:  21%|██        | 2543/12384 [5:24:47<20:56:32,  7.66s/it, loss=0.0006, acc=0.9998, iter_time=7.70s]Epoch 0:  21%|██        | 2543/12384 [5:24:55<20:56:32,  7.66s/it, loss=0.0021, acc=0.9942, iter_time=7.57s]Epoch 0:  21%|██        | 2544/12384 [5:24:55<20:54:25,  7.65s/it, loss=0.0021, acc=0.9942, iter_time=7.57s]Epoch 0:  21%|██        | 2544/12384 [5:25:02<20:54:25,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  21%|██        | 2545/12384 [5:25:02<20:54:17,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  21%|██        | 2545/12384 [5:25:10<20:54:17,  7.65s/it, loss=0.0066, acc=0.9922, iter_time=6.14s]Epoch 0:  21%|██        | 2546/12384 [5:25:10<20:52:14,  7.64s/it, loss=0.0066, acc=0.9922, iter_time=6.14s]Epoch 0:  21%|██        | 2546/12384 [5:25:18<20:52:14,  7.64s/it, loss=0.0003, acc=0.9986, iter_time=9.14s]Epoch 0:  21%|██        | 2547/12384 [5:25:18<20:51:21,  7.63s/it, loss=0.0003, acc=0.9986, iter_time=9.14s]Epoch 0:  21%|██        | 2547/12384 [5:25:25<20:51:21,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=7.58s]Epoch 0:  21%|██        | 2548/12384 [5:25:25<20:51:04,  7.63s/it, loss=0.0003, acc=1.0000, iter_time=7.58s]Epoch 0:  21%|██        | 2548/12384 [5:25:33<20:51:04,  7.63s/it, loss=0.0015, acc=0.9976, iter_time=7.66s]Epoch 0:  21%|██        | 2549/12384 [5:25:33<20:52:19,  7.64s/it, loss=0.0015, acc=0.9976, iter_time=7.66s]Epoch 0:  21%|██        | 2549/12384 [5:25:40<20:52:19,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=8.08s]Epoch 0:  21%|██        | 2550/12384 [5:25:40<20:51:45,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=8.08s]Epoch 0:  21%|██        | 2550/12384 [5:25:48<20:51:45,  7.64s/it, loss=0.0002, acc=0.9997, iter_time=7.22s]Epoch 0:  21%|██        | 2551/12384 [5:25:48<20:52:42,  7.64s/it, loss=0.0002, acc=0.9997, iter_time=7.22s]Epoch 0:  21%|██        | 2551/12384 [5:25:56<20:52:42,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=8.03s]Epoch 0:  21%|██        | 2552/12384 [5:25:56<20:50:03,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=8.03s]Epoch 0:  21%|██        | 2552/12384 [5:26:03<20:50:03,  7.63s/it, loss=0.0004, acc=0.9994, iter_time=6.04s]Epoch 0:  21%|██        | 2553/12384 [5:26:03<20:54:59,  7.66s/it, loss=0.0004, acc=0.9994, iter_time=6.04s]Epoch 0:  21%|██        | 2553/12384 [5:26:11<20:54:59,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=7.97s]Epoch 0:  21%|██        | 2554/12384 [5:26:11<20:52:48,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.97s]Epoch 0:  21%|██        | 2554/12384 [5:26:19<20:52:48,  7.65s/it, loss=0.0009, acc=0.9967, iter_time=8.57s]Epoch 0:  21%|██        | 2555/12384 [5:26:19<20:55:17,  7.66s/it, loss=0.0009, acc=0.9967, iter_time=8.57s]Epoch 0:  21%|██        | 2555/12384 [5:26:26<20:55:17,  7.66s/it, loss=0.0003, acc=1.0000, iter_time=7.40s]Epoch 0:  21%|██        | 2556/12384 [5:26:26<20:52:11,  7.64s/it, loss=0.0003, acc=1.0000, iter_time=7.40s]Epoch 0:  21%|██        | 2556/12384 [5:26:34<20:52:11,  7.64s/it, loss=0.0003, acc=0.9986, iter_time=7.88s]Epoch 0:  21%|██        | 2557/12384 [5:26:34<20:49:48,  7.63s/it, loss=0.0003, acc=0.9986, iter_time=7.88s]Epoch 0:  21%|██        | 2557/12384 [5:26:42<20:49:48,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=7.66s]Epoch 0:  21%|██        | 2558/12384 [5:26:42<20:51:44,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.66s]Epoch 0:  21%|██        | 2558/12384 [5:26:50<20:51:44,  7.64s/it, loss=0.0003, acc=0.9987, iter_time=7.65s]Epoch 0:  21%|██        | 2559/12384 [5:26:50<21:08:22,  7.75s/it, loss=0.0003, acc=0.9987, iter_time=7.65s]Epoch 0:  21%|██        | 2559/12384 [5:26:57<21:08:22,  7.75s/it, loss=0.0001, acc=1.0000, iter_time=7.89s]Epoch 0:  21%|██        | 2560/12384 [5:26:57<21:01:44,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=7.89s]Epoch 0:  21%|██        | 2560/12384 [5:27:05<21:01:44,  7.71s/it, loss=0.0012, acc=0.9972, iter_time=7.66s]Epoch 0:  21%|██        | 2561/12384 [5:27:05<20:59:56,  7.70s/it, loss=0.0012, acc=0.9972, iter_time=7.66s]Epoch 0:  21%|██        | 2561/12384 [5:27:12<20:59:56,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=7.66s]Epoch 0:  21%|██        | 2562/12384 [5:27:12<20:54:37,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.66s]Epoch 0:  21%|██        | 2562/12384 [5:27:20<20:54:37,  7.66s/it, loss=0.0006, acc=0.9979, iter_time=7.01s]Epoch 0:  21%|██        | 2563/12384 [5:27:20<20:53:33,  7.66s/it, loss=0.0006, acc=0.9979, iter_time=7.01s]Epoch 0:  21%|██        | 2563/12384 [5:27:28<20:53:33,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=8.24s]Epoch 0:  21%|██        | 2564/12384 [5:27:28<20:52:31,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=8.24s]Epoch 0:  21%|██        | 2564/12384 [5:27:35<20:52:31,  7.65s/it, loss=0.0009, acc=0.9979, iter_time=7.31s]Epoch 0:  21%|██        | 2565/12384 [5:27:35<20:51:49,  7.65s/it, loss=0.0009, acc=0.9979, iter_time=7.31s]Epoch 0:  21%|██        | 2565/12384 [5:27:43<20:51:49,  7.65s/it, loss=0.0021, acc=0.9964, iter_time=7.97s]Epoch 0:  21%|██        | 2566/12384 [5:27:43<20:49:39,  7.64s/it, loss=0.0021, acc=0.9964, iter_time=7.97s]Epoch 0:  21%|██        | 2566/12384 [5:27:51<20:49:39,  7.64s/it, loss=0.0001, acc=0.9999, iter_time=7.62s]Epoch 0:  21%|██        | 2567/12384 [5:27:51<20:49:13,  7.64s/it, loss=0.0001, acc=0.9999, iter_time=7.62s]Epoch 0:  21%|██        | 2567/12384 [5:27:58<20:49:13,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=8.03s]Epoch 0:  21%|██        | 2568/12384 [5:27:58<20:52:32,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=8.03s]Epoch 0:  21%|██        | 2568/12384 [5:28:06<20:52:32,  7.66s/it, loss=0.0002, acc=0.9998, iter_time=7.28s]Epoch 0:  21%|██        | 2569/12384 [5:28:06<20:51:19,  7.65s/it, loss=0.0002, acc=0.9998, iter_time=7.28s]Epoch 0:  21%|██        | 2569/12384 [5:28:14<20:51:19,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=6.17s]Epoch 0:  21%|██        | 2570/12384 [5:28:14<20:53:56,  7.67s/it, loss=0.0002, acc=1.0000, iter_time=6.17s]Epoch 0:  21%|██        | 2570/12384 [5:28:21<20:53:56,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=8.24s]Epoch 0:  21%|██        | 2571/12384 [5:28:21<20:51:54,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=8.24s]Epoch 0:  21%|██        | 2571/12384 [5:28:29<20:51:54,  7.65s/it, loss=0.0003, acc=0.9998, iter_time=7.36s]Epoch 0:  21%|██        | 2572/12384 [5:28:29<20:52:06,  7.66s/it, loss=0.0003, acc=0.9998, iter_time=7.36s]Epoch 0:  21%|██        | 2572/12384 [5:28:37<20:52:06,  7.66s/it, loss=0.0004, acc=0.9994, iter_time=8.86s]Epoch 0:  21%|██        | 2573/12384 [5:28:37<20:48:37,  7.64s/it, loss=0.0004, acc=0.9994, iter_time=8.86s]Epoch 0:  21%|██        | 2573/12384 [5:28:44<20:48:37,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  21%|██        | 2574/12384 [5:28:44<20:49:43,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  21%|██        | 2574/12384 [5:28:52<20:49:43,  7.64s/it, loss=0.0316, acc=0.9499, iter_time=7.64s]Epoch 0:  21%|██        | 2575/12384 [5:28:52<20:48:15,  7.64s/it, loss=0.0316, acc=0.9499, iter_time=7.64s]Epoch 0:  21%|██        | 2575/12384 [5:28:59<20:48:15,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=8.00s]Epoch 0:  21%|██        | 2576/12384 [5:28:59<20:48:45,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=8.00s]Epoch 0:  21%|██        | 2576/12384 [5:29:07<20:48:45,  7.64s/it, loss=0.0002, acc=0.9987, iter_time=7.00s]Epoch 0:  21%|██        | 2577/12384 [5:29:07<20:51:46,  7.66s/it, loss=0.0002, acc=0.9987, iter_time=7.00s]Epoch 0:  21%|██        | 2577/12384 [5:29:15<20:51:46,  7.66s/it, loss=0.0002, acc=0.9990, iter_time=7.96s]Epoch 0:  21%|██        | 2578/12384 [5:29:15<20:50:48,  7.65s/it, loss=0.0002, acc=0.9990, iter_time=7.96s]Epoch 0:  21%|██        | 2578/12384 [5:29:22<20:50:48,  7.65s/it, loss=0.0003, acc=0.9986, iter_time=7.64s]Epoch 0:  21%|██        | 2579/12384 [5:29:22<20:48:32,  7.64s/it, loss=0.0003, acc=0.9986, iter_time=7.64s]Epoch 0:  21%|██        | 2579/12384 [5:29:30<20:48:32,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  21%|██        | 2580/12384 [5:29:30<20:48:54,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  21%|██        | 2580/12384 [5:29:38<20:48:54,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=5.85s]Epoch 0:  21%|██        | 2581/12384 [5:29:38<20:49:10,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=5.85s]Epoch 0:  21%|██        | 2581/12384 [5:29:45<20:49:10,  7.65s/it, loss=0.0001, acc=0.9999, iter_time=9.44s]Epoch 0:  21%|██        | 2582/12384 [5:29:45<20:48:38,  7.64s/it, loss=0.0001, acc=0.9999, iter_time=9.44s]Epoch 0:  21%|██        | 2582/12384 [5:29:53<20:48:38,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.08s]Epoch 0:  21%|██        | 2583/12384 [5:29:53<20:50:22,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.08s]Epoch 0:  21%|██        | 2583/12384 [5:30:01<20:50:22,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=8.64s]Epoch 0:  21%|██        | 2584/12384 [5:30:01<20:51:37,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=8.64s]Epoch 0:  21%|██        | 2584/12384 [5:30:09<20:51:37,  7.66s/it, loss=0.0051, acc=0.9949, iter_time=7.32s]Epoch 0:  21%|██        | 2585/12384 [5:30:09<21:07:25,  7.76s/it, loss=0.0051, acc=0.9949, iter_time=7.32s]Epoch 0:  21%|██        | 2585/12384 [5:30:16<21:07:25,  7.76s/it, loss=0.0000, acc=1.0000, iter_time=6.18s]Epoch 0:  21%|██        | 2586/12384 [5:30:16<20:59:52,  7.72s/it, loss=0.0000, acc=1.0000, iter_time=6.18s]Epoch 0:  21%|██        | 2586/12384 [5:30:24<20:59:52,  7.72s/it, loss=0.0000, acc=1.0000, iter_time=9.39s]Epoch 0:  21%|██        | 2587/12384 [5:30:24<20:55:41,  7.69s/it, loss=0.0000, acc=1.0000, iter_time=9.39s]Epoch 0:  21%|██        | 2587/12384 [5:30:32<20:55:41,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  21%|██        | 2588/12384 [5:30:32<20:54:36,  7.68s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  21%|██        | 2588/12384 [5:30:39<20:54:36,  7.68s/it, loss=0.0016, acc=0.9970, iter_time=7.67s]Epoch 0:  21%|██        | 2589/12384 [5:30:39<20:52:42,  7.67s/it, loss=0.0016, acc=0.9970, iter_time=7.67s]Epoch 0:  21%|██        | 2589/12384 [5:30:47<20:52:42,  7.67s/it, loss=0.0000, acc=1.0000, iter_time=7.41s]Epoch 0:  21%|██        | 2590/12384 [5:30:47<20:48:22,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=7.41s]Epoch 0:  21%|██        | 2590/12384 [5:30:55<20:48:22,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.86s]Epoch 0:  21%|██        | 2591/12384 [5:30:55<20:47:50,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=7.86s]Epoch 0:  21%|██        | 2591/12384 [5:31:02<20:47:50,  7.65s/it, loss=0.0003, acc=0.9997, iter_time=8.01s]Epoch 0:  21%|██        | 2592/12384 [5:31:02<20:47:17,  7.64s/it, loss=0.0003, acc=0.9997, iter_time=8.01s]Epoch 0:  21%|██        | 2592/12384 [5:31:10<20:47:17,  7.64s/it, loss=0.0005, acc=0.9989, iter_time=7.25s]Epoch 0:  21%|██        | 2593/12384 [5:31:10<20:47:45,  7.65s/it, loss=0.0005, acc=0.9989, iter_time=7.25s]Epoch 0:  21%|██        | 2593/12384 [5:31:17<20:47:45,  7.65s/it, loss=0.0004, acc=0.9995, iter_time=7.65s]Epoch 0:  21%|██        | 2594/12384 [5:31:17<20:49:26,  7.66s/it, loss=0.0004, acc=0.9995, iter_time=7.65s]Epoch 0:  21%|██        | 2594/12384 [5:31:25<20:49:26,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=3.83s]Epoch 0:  21%|██        | 2595/12384 [5:31:25<20:49:45,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=3.83s]Epoch 0:  21%|██        | 2595/12384 [5:31:33<20:49:45,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=10.01s]Epoch 0:  21%|██        | 2596/12384 [5:31:33<20:49:14,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=10.01s]Epoch 0:  21%|██        | 2596/12384 [5:31:40<20:49:14,  7.66s/it, loss=0.0005, acc=0.9974, iter_time=7.37s] Epoch 0:  21%|██        | 2597/12384 [5:31:40<20:48:47,  7.66s/it, loss=0.0005, acc=0.9974, iter_time=7.37s]Epoch 0:  21%|██        | 2597/12384 [5:31:48<20:48:47,  7.66s/it, loss=0.0004, acc=0.9977, iter_time=9.43s]Epoch 0:  21%|██        | 2598/12384 [5:31:48<20:51:00,  7.67s/it, loss=0.0004, acc=0.9977, iter_time=9.43s]Epoch 0:  21%|██        | 2598/12384 [5:31:56<20:51:00,  7.67s/it, loss=0.0007, acc=0.9971, iter_time=7.71s]Epoch 0:  21%|██        | 2599/12384 [5:31:56<20:49:39,  7.66s/it, loss=0.0007, acc=0.9971, iter_time=7.71s]Epoch 0:  21%|██        | 2599/12384 [5:32:03<20:49:39,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=8.07s]Epoch 0:  21%|██        | 2600/12384 [5:32:03<20:48:37,  7.66s/it, loss=0.0002, acc=1.0000, iter_time=8.07s]Epoch 0:  21%|██        | 2600/12384 [5:32:11<20:48:37,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=6.35s]Epoch 0:  21%|██        | 2601/12384 [5:32:11<20:47:43,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=6.35s]Epoch 0:  21%|██        | 2601/12384 [5:32:19<20:47:43,  7.65s/it, loss=0.0006, acc=0.9975, iter_time=8.49s]Epoch 0:  21%|██        | 2602/12384 [5:32:19<20:50:00,  7.67s/it, loss=0.0006, acc=0.9975, iter_time=8.49s]Epoch 0:  21%|██        | 2602/12384 [5:32:26<20:50:00,  7.67s/it, loss=0.0021, acc=0.9964, iter_time=7.71s]Epoch 0:  21%|██        | 2603/12384 [5:32:26<20:46:27,  7.65s/it, loss=0.0021, acc=0.9964, iter_time=7.71s]Epoch 0:  21%|██        | 2603/12384 [5:32:34<20:46:27,  7.65s/it, loss=0.0008, acc=0.9979, iter_time=7.62s]Epoch 0:  21%|██        | 2604/12384 [5:32:34<20:48:24,  7.66s/it, loss=0.0008, acc=0.9979, iter_time=7.62s]Epoch 0:  21%|██        | 2604/12384 [5:32:42<20:48:24,  7.66s/it, loss=0.0002, acc=0.9991, iter_time=7.67s]Epoch 0:  21%|██        | 2605/12384 [5:32:42<20:47:33,  7.65s/it, loss=0.0002, acc=0.9991, iter_time=7.67s]Epoch 0:  21%|██        | 2605/12384 [5:32:49<20:47:33,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=7.64s]Epoch 0:  21%|██        | 2606/12384 [5:32:49<20:44:43,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=7.64s]Epoch 0:  21%|██        | 2606/12384 [5:32:57<20:44:43,  7.64s/it, loss=0.0004, acc=0.9998, iter_time=7.62s]Epoch 0:  21%|██        | 2607/12384 [5:32:57<20:44:52,  7.64s/it, loss=0.0004, acc=0.9998, iter_time=7.62s]Epoch 0:  21%|██        | 2607/12384 [5:33:05<20:44:52,  7.64s/it, loss=0.0005, acc=0.9983, iter_time=8.05s]Epoch 0:  21%|██        | 2608/12384 [5:33:05<20:45:16,  7.64s/it, loss=0.0005, acc=0.9983, iter_time=8.05s]Epoch 0:  21%|██        | 2608/12384 [5:33:12<20:45:16,  7.64s/it, loss=0.0017, acc=0.9954, iter_time=5.96s]Epoch 0:  21%|██        | 2609/12384 [5:33:12<20:43:21,  7.63s/it, loss=0.0017, acc=0.9954, iter_time=5.96s]Epoch 0:  21%|██        | 2609/12384 [5:33:20<20:43:21,  7.63s/it, loss=0.0006, acc=0.9992, iter_time=8.87s]Epoch 0:  21%|██        | 2610/12384 [5:33:20<20:42:49,  7.63s/it, loss=0.0006, acc=0.9992, iter_time=8.87s]Epoch 0:  21%|██        | 2610/12384 [5:33:28<20:42:49,  7.63s/it, loss=0.0001, acc=0.9998, iter_time=5.64s]Epoch 0:  21%|██        | 2611/12384 [5:33:28<20:58:12,  7.72s/it, loss=0.0001, acc=0.9998, iter_time=5.64s]Epoch 0:  21%|██        | 2611/12384 [5:33:35<20:58:12,  7.72s/it, loss=0.0001, acc=1.0000, iter_time=9.93s]Epoch 0:  21%|██        | 2612/12384 [5:33:35<20:53:25,  7.70s/it, loss=0.0001, acc=1.0000, iter_time=9.93s]Epoch 0:  21%|██        | 2612/12384 [5:33:43<20:53:25,  7.70s/it, loss=0.0006, acc=0.9986, iter_time=7.63s]Epoch 0:  21%|██        | 2613/12384 [5:33:43<20:48:39,  7.67s/it, loss=0.0006, acc=0.9986, iter_time=7.63s]Epoch 0:  21%|██        | 2613/12384 [5:33:51<20:48:39,  7.67s/it, loss=0.0001, acc=0.9998, iter_time=7.29s]Epoch 0:  21%|██        | 2614/12384 [5:33:51<20:46:16,  7.65s/it, loss=0.0001, acc=0.9998, iter_time=7.29s]Epoch 0:  21%|██        | 2614/12384 [5:33:58<20:46:16,  7.65s/it, loss=0.0001, acc=0.9998, iter_time=7.94s]Epoch 0:  21%|██        | 2615/12384 [5:33:58<20:45:22,  7.65s/it, loss=0.0001, acc=0.9998, iter_time=7.94s]Epoch 0:  21%|██        | 2615/12384 [5:34:06<20:45:22,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=8.02s]Epoch 0:  21%|██        | 2616/12384 [5:34:06<20:47:09,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=8.02s]Epoch 0:  21%|██        | 2616/12384 [5:34:14<20:47:09,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.30s]Epoch 0:  21%|██        | 2617/12384 [5:34:14<20:46:16,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.30s]Epoch 0:  21%|██        | 2617/12384 [5:34:21<20:46:16,  7.66s/it, loss=0.0006, acc=0.9983, iter_time=5.57s]Epoch 0:  21%|██        | 2618/12384 [5:34:21<20:45:22,  7.65s/it, loss=0.0006, acc=0.9983, iter_time=5.57s]Epoch 0:  21%|██        | 2618/12384 [5:34:29<20:45:22,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=9.71s]Epoch 0:  21%|██        | 2619/12384 [5:34:29<20:45:30,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=9.71s]Epoch 0:  21%|██        | 2619/12384 [5:34:37<20:45:30,  7.65s/it, loss=0.0024, acc=0.9961, iter_time=7.66s]Epoch 0:  21%|██        | 2620/12384 [5:34:37<20:43:49,  7.64s/it, loss=0.0024, acc=0.9961, iter_time=7.66s]Epoch 0:  21%|██        | 2620/12384 [5:34:44<20:43:49,  7.64s/it, loss=0.0013, acc=0.9957, iter_time=7.67s]Epoch 0:  21%|██        | 2621/12384 [5:34:44<20:44:01,  7.65s/it, loss=0.0013, acc=0.9957, iter_time=7.67s]Epoch 0:  21%|██        | 2621/12384 [5:34:52<20:44:01,  7.65s/it, loss=0.0006, acc=0.9996, iter_time=7.59s]Epoch 0:  21%|██        | 2622/12384 [5:34:52<20:43:45,  7.64s/it, loss=0.0006, acc=0.9996, iter_time=7.59s]Epoch 0:  21%|██        | 2622/12384 [5:35:00<20:43:45,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.75s]Epoch 0:  21%|██        | 2623/12384 [5:35:00<20:46:10,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.75s]Epoch 0:  21%|██        | 2623/12384 [5:35:07<20:46:10,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=8.06s]Epoch 0:  21%|██        | 2624/12384 [5:35:07<20:46:39,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=8.06s]Epoch 0:  21%|██        | 2624/12384 [5:35:15<20:46:39,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=5.50s]Epoch 0:  21%|██        | 2625/12384 [5:35:15<20:43:47,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=5.50s]Epoch 0:  21%|██        | 2625/12384 [5:35:22<20:43:47,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=5.88s]Epoch 0:  21%|██        | 2626/12384 [5:35:22<20:43:49,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=5.88s]Epoch 0:  21%|██        | 2626/12384 [5:35:30<20:43:49,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=10.55s]Epoch 0:  21%|██        | 2627/12384 [5:35:30<20:44:17,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=10.55s]Epoch 0:  21%|██        | 2627/12384 [5:35:38<20:44:17,  7.65s/it, loss=0.0001, acc=0.9998, iter_time=7.30s] Epoch 0:  21%|██        | 2628/12384 [5:35:38<20:44:52,  7.66s/it, loss=0.0001, acc=0.9998, iter_time=7.30s]Epoch 0:  21%|██        | 2628/12384 [5:35:45<20:44:52,  7.66s/it, loss=0.0003, acc=1.0000, iter_time=5.80s]Epoch 0:  21%|██        | 2629/12384 [5:35:45<20:44:23,  7.65s/it, loss=0.0003, acc=1.0000, iter_time=5.80s]Epoch 0:  21%|██        | 2629/12384 [5:35:53<20:44:23,  7.65s/it, loss=0.0006, acc=0.9990, iter_time=10.39s]Epoch 0:  21%|██        | 2630/12384 [5:35:53<20:41:27,  7.64s/it, loss=0.0006, acc=0.9990, iter_time=10.39s]Epoch 0:  21%|██        | 2630/12384 [5:36:01<20:41:27,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.62s] Epoch 0:  21%|██        | 2631/12384 [5:36:01<20:41:00,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.62s]Epoch 0:  21%|██        | 2631/12384 [5:36:08<20:41:00,  7.63s/it, loss=0.0009, acc=0.9979, iter_time=7.61s]Epoch 0:  21%|██▏       | 2632/12384 [5:36:08<20:41:45,  7.64s/it, loss=0.0009, acc=0.9979, iter_time=7.61s]Epoch 0:  21%|██▏       | 2632/12384 [5:36:16<20:41:45,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.33s]Epoch 0:  21%|██▏       | 2633/12384 [5:36:16<20:39:26,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=7.33s]Epoch 0:  21%|██▏       | 2633/12384 [5:36:24<20:39:26,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.29s]Epoch 0:  21%|██▏       | 2634/12384 [5:36:24<20:42:11,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.29s]Epoch 0:  21%|██▏       | 2634/12384 [5:36:31<20:42:11,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=8.32s]Epoch 0:  21%|██▏       | 2635/12384 [5:36:31<20:42:15,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=8.32s]Epoch 0:  21%|██▏       | 2635/12384 [5:36:39<20:42:15,  7.65s/it, loss=0.0039, acc=0.9901, iter_time=7.95s]Epoch 0:  21%|██▏       | 2636/12384 [5:36:39<20:54:16,  7.72s/it, loss=0.0039, acc=0.9901, iter_time=7.95s]Epoch 0:  21%|██▏       | 2636/12384 [5:36:47<20:54:16,  7.72s/it, loss=0.0008, acc=0.9986, iter_time=7.64s]Epoch 0:  21%|██▏       | 2637/12384 [5:36:47<21:05:35,  7.79s/it, loss=0.0008, acc=0.9986, iter_time=7.64s]Epoch 0:  21%|██▏       | 2637/12384 [5:36:55<21:05:35,  7.79s/it, loss=0.0009, acc=0.9998, iter_time=6.10s]Epoch 0:  21%|██▏       | 2638/12384 [5:36:55<20:56:44,  7.74s/it, loss=0.0009, acc=0.9998, iter_time=6.10s]Epoch 0:  21%|██▏       | 2638/12384 [5:37:02<20:56:44,  7.74s/it, loss=0.0081, acc=0.9851, iter_time=9.43s]Epoch 0:  21%|██▏       | 2639/12384 [5:37:02<20:52:45,  7.71s/it, loss=0.0081, acc=0.9851, iter_time=9.43s]Epoch 0:  21%|██▏       | 2639/12384 [5:37:10<20:52:45,  7.71s/it, loss=0.0010, acc=0.9975, iter_time=8.04s]Epoch 0:  21%|██▏       | 2640/12384 [5:37:10<20:48:40,  7.69s/it, loss=0.0010, acc=0.9975, iter_time=8.04s]Epoch 0:  21%|██▏       | 2640/12384 [5:37:16<20:48:40,  7.69s/it, loss=0.0029, acc=0.9933, iter_time=4.04s]Epoch 0:  21%|██▏       | 2641/12384 [5:37:16<19:39:46,  7.27s/it, loss=0.0029, acc=0.9933, iter_time=4.04s]Epoch 0:  21%|██▏       | 2641/12384 [5:37:24<19:39:46,  7.27s/it, loss=0.0002, acc=0.9999, iter_time=9.51s]Epoch 0:  21%|██▏       | 2642/12384 [5:37:24<20:00:36,  7.39s/it, loss=0.0002, acc=0.9999, iter_time=9.51s]Epoch 0:  21%|██▏       | 2642/12384 [5:37:32<20:00:36,  7.39s/it, loss=0.0053, acc=0.9917, iter_time=7.68s]Epoch 0:  21%|██▏       | 2643/12384 [5:37:32<20:11:03,  7.46s/it, loss=0.0053, acc=0.9917, iter_time=7.68s]Epoch 0:  21%|██▏       | 2643/12384 [5:37:39<20:11:03,  7.46s/it, loss=0.0003, acc=0.9998, iter_time=4.99s]Epoch 0:  21%|██▏       | 2644/12384 [5:37:39<20:22:37,  7.53s/it, loss=0.0003, acc=0.9998, iter_time=4.99s]Epoch 0:  21%|██▏       | 2644/12384 [5:37:47<20:22:37,  7.53s/it, loss=0.0003, acc=1.0000, iter_time=10.31s]Epoch 0:  21%|██▏       | 2645/12384 [5:37:47<20:32:35,  7.59s/it, loss=0.0003, acc=1.0000, iter_time=10.31s]Epoch 0:  21%|██▏       | 2645/12384 [5:37:55<20:32:35,  7.59s/it, loss=0.0003, acc=1.0000, iter_time=7.75s] Epoch 0:  21%|██▏       | 2646/12384 [5:37:55<20:35:56,  7.62s/it, loss=0.0003, acc=1.0000, iter_time=7.75s]Epoch 0:  21%|██▏       | 2646/12384 [5:38:02<20:35:56,  7.62s/it, loss=0.0002, acc=1.0000, iter_time=7.67s]Epoch 0:  21%|██▏       | 2647/12384 [5:38:02<20:35:31,  7.61s/it, loss=0.0002, acc=1.0000, iter_time=7.67s]Epoch 0:  21%|██▏       | 2647/12384 [5:38:10<20:35:31,  7.61s/it, loss=0.0001, acc=1.0000, iter_time=7.99s]Epoch 0:  21%|██▏       | 2648/12384 [5:38:10<20:35:53,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=7.99s]Epoch 0:  21%|██▏       | 2648/12384 [5:38:18<20:35:53,  7.62s/it, loss=0.0002, acc=0.9998, iter_time=5.46s]Epoch 0:  21%|██▏       | 2649/12384 [5:38:18<20:36:42,  7.62s/it, loss=0.0002, acc=0.9998, iter_time=5.46s]Epoch 0:  21%|██▏       | 2649/12384 [5:38:25<20:36:42,  7.62s/it, loss=0.0002, acc=0.9998, iter_time=9.87s]Epoch 0:  21%|██▏       | 2650/12384 [5:38:25<20:38:40,  7.64s/it, loss=0.0002, acc=0.9998, iter_time=9.87s]Epoch 0:  21%|██▏       | 2650/12384 [5:38:33<20:38:40,  7.64s/it, loss=0.0002, acc=0.9988, iter_time=7.21s]Epoch 0:  21%|██▏       | 2651/12384 [5:38:33<20:39:33,  7.64s/it, loss=0.0002, acc=0.9988, iter_time=7.21s]Epoch 0:  21%|██▏       | 2651/12384 [5:38:41<20:39:33,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.66s]Epoch 0:  21%|██▏       | 2652/12384 [5:38:41<20:40:24,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.66s]Epoch 0:  21%|██▏       | 2652/12384 [5:38:48<20:40:24,  7.65s/it, loss=0.0005, acc=0.9992, iter_time=4.52s]Epoch 0:  21%|██▏       | 2653/12384 [5:38:48<20:42:17,  7.66s/it, loss=0.0005, acc=0.9992, iter_time=4.52s]Epoch 0:  21%|██▏       | 2653/12384 [5:38:56<20:42:17,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=9.89s]Epoch 0:  21%|██▏       | 2654/12384 [5:38:56<20:41:53,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=9.89s]Epoch 0:  21%|██▏       | 2654/12384 [5:39:04<20:41:53,  7.66s/it, loss=0.0010, acc=0.9981, iter_time=8.59s]Epoch 0:  21%|██▏       | 2655/12384 [5:39:04<20:44:28,  7.67s/it, loss=0.0010, acc=0.9981, iter_time=8.59s]Epoch 0:  21%|██▏       | 2655/12384 [5:39:11<20:44:28,  7.67s/it, loss=0.0005, acc=0.9998, iter_time=8.10s]Epoch 0:  21%|██▏       | 2656/12384 [5:39:11<20:44:17,  7.67s/it, loss=0.0005, acc=0.9998, iter_time=8.10s]Epoch 0:  21%|██▏       | 2656/12384 [5:39:19<20:44:17,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=7.30s]Epoch 0:  21%|██▏       | 2657/12384 [5:39:19<20:43:01,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=7.30s]Epoch 0:  21%|██▏       | 2657/12384 [5:39:27<20:43:01,  7.67s/it, loss=0.0008, acc=0.9978, iter_time=7.63s]Epoch 0:  21%|██▏       | 2658/12384 [5:39:27<20:39:27,  7.65s/it, loss=0.0008, acc=0.9978, iter_time=7.63s]Epoch 0:  21%|██▏       | 2658/12384 [5:39:34<20:39:27,  7.65s/it, loss=0.0001, acc=0.9997, iter_time=7.60s]Epoch 0:  21%|██▏       | 2659/12384 [5:39:34<20:36:36,  7.63s/it, loss=0.0001, acc=0.9997, iter_time=7.60s]Epoch 0:  21%|██▏       | 2659/12384 [5:39:42<20:36:36,  7.63s/it, loss=0.0024, acc=0.9961, iter_time=7.60s]Epoch 0:  21%|██▏       | 2660/12384 [5:39:42<20:36:01,  7.63s/it, loss=0.0024, acc=0.9961, iter_time=7.60s]Epoch 0:  21%|██▏       | 2660/12384 [5:39:49<20:36:01,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=7.63s]Epoch 0:  21%|██▏       | 2661/12384 [5:39:49<20:37:34,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.63s]Epoch 0:  21%|██▏       | 2661/12384 [5:39:57<20:37:34,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.68s]Epoch 0:  21%|██▏       | 2662/12384 [5:39:57<20:37:24,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.68s]Epoch 0:  21%|██▏       | 2662/12384 [5:40:05<20:37:24,  7.64s/it, loss=0.0002, acc=0.9993, iter_time=5.26s]Epoch 0:  22%|██▏       | 2663/12384 [5:40:05<20:36:35,  7.63s/it, loss=0.0002, acc=0.9993, iter_time=5.26s]Epoch 0:  22%|██▏       | 2663/12384 [5:40:13<20:36:35,  7.63s/it, loss=0.0000, acc=1.0000, iter_time=10.30s]Epoch 0:  22%|██▏       | 2664/12384 [5:40:13<20:54:06,  7.74s/it, loss=0.0000, acc=1.0000, iter_time=10.30s]Epoch 0:  22%|██▏       | 2664/12384 [5:40:20<20:54:06,  7.74s/it, loss=0.0003, acc=0.9996, iter_time=7.66s] Epoch 0:  22%|██▏       | 2665/12384 [5:40:20<20:47:29,  7.70s/it, loss=0.0003, acc=0.9996, iter_time=7.66s]Epoch 0:  22%|██▏       | 2665/12384 [5:40:28<20:47:29,  7.70s/it, loss=0.0001, acc=0.9993, iter_time=7.62s]Epoch 0:  22%|██▏       | 2666/12384 [5:40:28<20:42:43,  7.67s/it, loss=0.0001, acc=0.9993, iter_time=7.62s]Epoch 0:  22%|██▏       | 2666/12384 [5:40:35<20:42:43,  7.67s/it, loss=0.0012, acc=0.9973, iter_time=7.58s]Epoch 0:  22%|██▏       | 2667/12384 [5:40:35<20:38:59,  7.65s/it, loss=0.0012, acc=0.9973, iter_time=7.58s]Epoch 0:  22%|██▏       | 2667/12384 [5:40:43<20:38:59,  7.65s/it, loss=0.0001, acc=0.9999, iter_time=7.63s]Epoch 0:  22%|██▏       | 2668/12384 [5:40:43<20:38:26,  7.65s/it, loss=0.0001, acc=0.9999, iter_time=7.63s]Epoch 0:  22%|██▏       | 2668/12384 [5:40:51<20:38:26,  7.65s/it, loss=0.0020, acc=0.9934, iter_time=7.62s]Epoch 0:  22%|██▏       | 2669/12384 [5:40:51<20:36:01,  7.63s/it, loss=0.0020, acc=0.9934, iter_time=7.62s]Epoch 0:  22%|██▏       | 2669/12384 [5:40:58<20:36:01,  7.63s/it, loss=0.0002, acc=0.9998, iter_time=7.60s]Epoch 0:  22%|██▏       | 2670/12384 [5:40:58<20:34:17,  7.62s/it, loss=0.0002, acc=0.9998, iter_time=7.60s]Epoch 0:  22%|██▏       | 2670/12384 [5:41:06<20:34:17,  7.62s/it, loss=0.0001, acc=1.0000, iter_time=5.88s]Epoch 0:  22%|██▏       | 2671/12384 [5:41:06<20:35:20,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=5.88s]Epoch 0:  22%|██▏       | 2671/12384 [5:41:14<20:35:20,  7.63s/it, loss=0.0002, acc=1.0000, iter_time=9.77s]Epoch 0:  22%|██▏       | 2672/12384 [5:41:14<20:36:50,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=9.77s]Epoch 0:  22%|██▏       | 2672/12384 [5:41:21<20:36:50,  7.64s/it, loss=0.0005, acc=1.0000, iter_time=5.47s]Epoch 0:  22%|██▏       | 2673/12384 [5:41:21<20:36:02,  7.64s/it, loss=0.0005, acc=1.0000, iter_time=5.47s]Epoch 0:  22%|██▏       | 2673/12384 [5:41:29<20:36:02,  7.64s/it, loss=0.0002, acc=0.9995, iter_time=8.49s]Epoch 0:  22%|██▏       | 2674/12384 [5:41:29<20:35:32,  7.63s/it, loss=0.0002, acc=0.9995, iter_time=8.49s]Epoch 0:  22%|██▏       | 2674/12384 [5:41:36<20:35:32,  7.63s/it, loss=0.0000, acc=1.0000, iter_time=8.56s]Epoch 0:  22%|██▏       | 2675/12384 [5:41:36<20:34:13,  7.63s/it, loss=0.0000, acc=1.0000, iter_time=8.56s]Epoch 0:  22%|██▏       | 2675/12384 [5:41:44<20:34:13,  7.63s/it, loss=0.0004, acc=0.9971, iter_time=4.80s]Epoch 0:  22%|██▏       | 2676/12384 [5:41:44<20:37:23,  7.65s/it, loss=0.0004, acc=0.9971, iter_time=4.80s]Epoch 0:  22%|██▏       | 2676/12384 [5:41:52<20:37:23,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=9.57s]Epoch 0:  22%|██▏       | 2677/12384 [5:41:52<20:36:33,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=9.57s]Epoch 0:  22%|██▏       | 2677/12384 [5:41:59<20:36:33,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=5.80s]Epoch 0:  22%|██▏       | 2678/12384 [5:41:59<20:34:50,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=5.80s]Epoch 0:  22%|██▏       | 2678/12384 [5:42:07<20:34:50,  7.63s/it, loss=0.0000, acc=1.0000, iter_time=8.05s]Epoch 0:  22%|██▏       | 2679/12384 [5:42:07<20:36:41,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=8.05s]Epoch 0:  22%|██▏       | 2679/12384 [5:42:15<20:36:41,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=10.40s]Epoch 0:  22%|██▏       | 2680/12384 [5:42:15<20:36:27,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=10.40s]Epoch 0:  22%|██▏       | 2680/12384 [5:42:22<20:36:27,  7.65s/it, loss=0.0022, acc=0.9950, iter_time=7.25s] Epoch 0:  22%|██▏       | 2681/12384 [5:42:22<20:34:18,  7.63s/it, loss=0.0022, acc=0.9950, iter_time=7.25s]Epoch 0:  22%|██▏       | 2681/12384 [5:42:30<20:34:18,  7.63s/it, loss=0.0006, acc=0.9991, iter_time=6.68s]Epoch 0:  22%|██▏       | 2682/12384 [5:42:30<20:34:02,  7.63s/it, loss=0.0006, acc=0.9991, iter_time=6.68s]Epoch 0:  22%|██▏       | 2682/12384 [5:42:38<20:34:02,  7.63s/it, loss=0.0002, acc=0.9996, iter_time=8.56s]Epoch 0:  22%|██▏       | 2683/12384 [5:42:38<20:34:19,  7.63s/it, loss=0.0002, acc=0.9996, iter_time=8.56s]Epoch 0:  22%|██▏       | 2683/12384 [5:42:45<20:34:19,  7.63s/it, loss=0.0001, acc=1.0000, iter_time=7.73s]Epoch 0:  22%|██▏       | 2684/12384 [5:42:45<20:37:28,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.73s]Epoch 0:  22%|██▏       | 2684/12384 [5:42:53<20:37:28,  7.65s/it, loss=0.0001, acc=0.9999, iter_time=7.03s]Epoch 0:  22%|██▏       | 2685/12384 [5:42:53<20:39:17,  7.67s/it, loss=0.0001, acc=0.9999, iter_time=7.03s]Epoch 0:  22%|██▏       | 2685/12384 [5:43:01<20:39:17,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=8.27s]Epoch 0:  22%|██▏       | 2686/12384 [5:43:01<20:38:04,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=8.27s]Epoch 0:  22%|██▏       | 2686/12384 [5:43:08<20:38:04,  7.66s/it, loss=0.0005, acc=0.9985, iter_time=7.68s]Epoch 0:  22%|██▏       | 2687/12384 [5:43:08<20:38:29,  7.66s/it, loss=0.0005, acc=0.9985, iter_time=7.68s]Epoch 0:  22%|██▏       | 2687/12384 [5:43:16<20:38:29,  7.66s/it, loss=0.0007, acc=0.9991, iter_time=7.63s]Epoch 0:  22%|██▏       | 2688/12384 [5:43:16<20:37:55,  7.66s/it, loss=0.0007, acc=0.9991, iter_time=7.63s]Epoch 0:  22%|██▏       | 2688/12384 [5:43:24<20:37:55,  7.66s/it, loss=0.0002, acc=0.9998, iter_time=7.64s]Epoch 0:  22%|██▏       | 2689/12384 [5:43:24<20:35:14,  7.64s/it, loss=0.0002, acc=0.9998, iter_time=7.64s]Epoch 0:  22%|██▏       | 2689/12384 [5:43:32<20:35:14,  7.64s/it, loss=0.0004, acc=0.9998, iter_time=5.11s]Epoch 0:  22%|██▏       | 2690/12384 [5:43:32<20:51:44,  7.75s/it, loss=0.0004, acc=0.9998, iter_time=5.11s]Epoch 0:  22%|██▏       | 2690/12384 [5:43:39<20:51:44,  7.75s/it, loss=0.0001, acc=1.0000, iter_time=6.53s]Epoch 0:  22%|██▏       | 2691/12384 [5:43:39<20:47:21,  7.72s/it, loss=0.0001, acc=1.0000, iter_time=6.53s]Epoch 0:  22%|██▏       | 2691/12384 [5:43:47<20:47:21,  7.72s/it, loss=0.0022, acc=0.9954, iter_time=11.64s]Epoch 0:  22%|██▏       | 2692/12384 [5:43:47<20:41:36,  7.69s/it, loss=0.0022, acc=0.9954, iter_time=11.64s]Epoch 0:  22%|██▏       | 2692/12384 [5:43:55<20:41:36,  7.69s/it, loss=0.0000, acc=1.0000, iter_time=7.60s] Epoch 0:  22%|██▏       | 2693/12384 [5:43:55<20:40:58,  7.68s/it, loss=0.0000, acc=1.0000, iter_time=7.60s]Epoch 0:  22%|██▏       | 2693/12384 [5:44:02<20:40:58,  7.68s/it, loss=0.0002, acc=0.9998, iter_time=6.82s]Epoch 0:  22%|██▏       | 2694/12384 [5:44:02<20:38:19,  7.67s/it, loss=0.0002, acc=0.9998, iter_time=6.82s]Epoch 0:  22%|██▏       | 2694/12384 [5:44:10<20:38:19,  7.67s/it, loss=0.0003, acc=0.9998, iter_time=7.93s]Epoch 0:  22%|██▏       | 2695/12384 [5:44:10<20:35:11,  7.65s/it, loss=0.0003, acc=0.9998, iter_time=7.93s]Epoch 0:  22%|██▏       | 2695/12384 [5:44:17<20:35:11,  7.65s/it, loss=0.0004, acc=0.9991, iter_time=8.55s]Epoch 0:  22%|██▏       | 2696/12384 [5:44:17<20:35:01,  7.65s/it, loss=0.0004, acc=0.9991, iter_time=8.55s]Epoch 0:  22%|██▏       | 2696/12384 [5:44:25<20:35:01,  7.65s/it, loss=0.0002, acc=1.0000, iter_time=4.00s]Epoch 0:  22%|██▏       | 2697/12384 [5:44:25<20:33:10,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=4.00s]Epoch 0:  22%|██▏       | 2697/12384 [5:44:33<20:33:10,  7.64s/it, loss=0.0003, acc=0.9998, iter_time=8.09s]Epoch 0:  22%|██▏       | 2698/12384 [5:44:33<20:35:25,  7.65s/it, loss=0.0003, acc=0.9998, iter_time=8.09s]Epoch 0:  22%|██▏       | 2698/12384 [5:44:40<20:35:25,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.93s]Epoch 0:  22%|██▏       | 2699/12384 [5:44:40<20:33:51,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.93s]Epoch 0:  22%|██▏       | 2699/12384 [5:44:48<20:33:51,  7.64s/it, loss=0.0048, acc=0.9951, iter_time=10.57s]Epoch 0:  22%|██▏       | 2700/12384 [5:44:48<20:32:35,  7.64s/it, loss=0.0048, acc=0.9951, iter_time=10.57s]Epoch 0:  22%|██▏       | 2700/12384 [5:44:56<20:32:35,  7.64s/it, loss=0.0002, acc=0.9996, iter_time=7.21s] Epoch 0:  22%|██▏       | 2701/12384 [5:44:56<20:32:01,  7.63s/it, loss=0.0002, acc=0.9996, iter_time=7.21s]Epoch 0:  22%|██▏       | 2701/12384 [5:45:03<20:32:01,  7.63s/it, loss=0.0002, acc=0.9999, iter_time=7.64s]Epoch 0:  22%|██▏       | 2702/12384 [5:45:03<20:32:50,  7.64s/it, loss=0.0002, acc=0.9999, iter_time=7.64s]Epoch 0:  22%|██▏       | 2702/12384 [5:45:11<20:32:50,  7.64s/it, loss=0.0000, acc=1.0000, iter_time=7.42s]Epoch 0:  22%|██▏       | 2703/12384 [5:45:11<20:30:38,  7.63s/it, loss=0.0000, acc=1.0000, iter_time=7.42s]Epoch 0:  22%|██▏       | 2703/12384 [5:45:18<20:30:38,  7.63s/it, loss=0.0015, acc=0.9963, iter_time=7.82s]Epoch 0:  22%|██▏       | 2704/12384 [5:45:18<20:32:14,  7.64s/it, loss=0.0015, acc=0.9963, iter_time=7.82s]Epoch 0:  22%|██▏       | 2704/12384 [5:45:26<20:32:14,  7.64s/it, loss=0.0001, acc=0.9988, iter_time=4.81s]Epoch 0:  22%|██▏       | 2705/12384 [5:45:26<20:32:37,  7.64s/it, loss=0.0001, acc=0.9988, iter_time=4.81s]Epoch 0:  22%|██▏       | 2705/12384 [5:45:34<20:32:37,  7.64s/it, loss=0.0008, acc=1.0000, iter_time=10.48s]Epoch 0:  22%|██▏       | 2706/12384 [5:45:34<20:31:07,  7.63s/it, loss=0.0008, acc=1.0000, iter_time=10.48s]Epoch 0:  22%|██▏       | 2706/12384 [5:45:41<20:31:07,  7.63s/it, loss=0.0004, acc=0.9990, iter_time=7.64s] Epoch 0:  22%|██▏       | 2707/12384 [5:45:41<20:31:50,  7.64s/it, loss=0.0004, acc=0.9990, iter_time=7.64s]Epoch 0:  22%|██▏       | 2707/12384 [5:45:49<20:31:50,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.65s]Epoch 0:  22%|██▏       | 2708/12384 [5:45:49<20:32:40,  7.64s/it, loss=0.0002, acc=1.0000, iter_time=7.65s]Epoch 0:  22%|██▏       | 2708/12384 [5:45:57<20:32:40,  7.64s/it, loss=0.0001, acc=1.0000, iter_time=7.66s]Epoch 0:  22%|██▏       | 2709/12384 [5:45:57<20:32:49,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.66s]Epoch 0:  22%|██▏       | 2709/12384 [5:46:04<20:32:49,  7.65s/it, loss=0.0002, acc=0.9992, iter_time=7.12s]Epoch 0:  22%|██▏       | 2710/12384 [5:46:04<20:32:08,  7.64s/it, loss=0.0002, acc=0.9992, iter_time=7.12s]Epoch 0:  22%|██▏       | 2710/12384 [5:46:12<20:32:08,  7.64s/it, loss=0.0063, acc=0.9969, iter_time=5.11s]Epoch 0:  22%|██▏       | 2711/12384 [5:46:12<20:34:46,  7.66s/it, loss=0.0063, acc=0.9969, iter_time=5.11s]Epoch 0:  22%|██▏       | 2711/12384 [5:46:20<20:34:46,  7.66s/it, loss=0.0000, acc=1.0000, iter_time=10.85s]Epoch 0:  22%|██▏       | 2712/12384 [5:46:20<20:32:41,  7.65s/it, loss=0.0000, acc=1.0000, iter_time=10.85s]Epoch 0:  22%|██▏       | 2712/12384 [5:46:27<20:32:41,  7.65s/it, loss=0.0001, acc=0.9998, iter_time=5.30s] Epoch 0:  22%|██▏       | 2713/12384 [5:46:27<20:38:36,  7.68s/it, loss=0.0001, acc=0.9998, iter_time=5.30s]Epoch 0:  22%|██▏       | 2713/12384 [5:46:35<20:38:36,  7.68s/it, loss=0.0005, acc=0.9962, iter_time=6.73s]Epoch 0:  22%|██▏       | 2714/12384 [5:46:35<20:36:39,  7.67s/it, loss=0.0005, acc=0.9962, iter_time=6.73s]Epoch 0:  22%|██▏       | 2714/12384 [5:46:43<20:36:39,  7.67s/it, loss=0.0001, acc=1.0000, iter_time=10.89s]Epoch 0:  22%|██▏       | 2715/12384 [5:46:43<20:34:54,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=10.89s]Epoch 0:  22%|██▏       | 2715/12384 [5:46:50<20:34:54,  7.66s/it, loss=0.0001, acc=1.0000, iter_time=7.12s] Epoch 0:  22%|██▏       | 2716/12384 [5:46:50<20:32:41,  7.65s/it, loss=0.0001, acc=1.0000, iter_time=7.12s]Epoch 0:  22%|██▏       | 2716/12384 [5:46:58<20:32:41,  7.65s/it, loss=0.0003, acc=0.9999, iter_time=7.33s]Epoch 0:  22%|██▏       | 2717/12384 [5:46:58<20:47:40,  7.74s/it, loss=0.0003, acc=0.9999, iter_time=7.33s]Epoch 0:  22%|██▏       | 2717/12384 [5:47:06<20:47:40,  7.74s/it, loss=0.0003, acc=0.9991, iter_time=8.79s]Epoch 0:  22%|██▏       | 2718/12384 [5:47:06<20:42:23,  7.71s/it, loss=0.0003, acc=0.9991, iter_time=8.79s]Epoch 0:  22%|██▏       | 2718/12384 [5:47:14<20:42:23,  7.71s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  22%|██▏       | 2719/12384 [5:47:14<20:38:47,  7.69s/it, loss=0.0001, acc=1.0000, iter_time=7.65s]Epoch 0:  22%|██▏       | 2719/12384 [5:47:21<20:38:47,  7.69s/it, loss=0.0004, acc=0.9978, iter_time=8.03s]Epoch 0:  22%|██▏       | 2720/12384 [5:47:21<20:36:57,  7.68s/it, loss=0.0004, acc=0.9978, iter_time=8.03s]W0310 14:09:33.982000 62051 site-packages/torch/distributed/elastic/agent/server/api.py:725] Received 15 death signal, shutting down workers
W0310 14:09:33.986000 62051 site-packages/torch/distributed/elastic/multiprocessing/api.py:908] Sending process 62184 closing signal SIGTERM
W0310 14:09:33.987000 62051 site-packages/torch/distributed/elastic/multiprocessing/api.py:908] Sending process 62185 closing signal SIGTERM
W0310 14:09:33.987000 62051 site-packages/torch/distributed/elastic/multiprocessing/api.py:908] Sending process 62186 closing signal SIGTERM
W0310 14:09:33.987000 62051 site-packages/torch/distributed/elastic/multiprocessing/api.py:908] Sending process 62187 closing signal SIGTERM
W0310 14:09:33.987000 62051 site-packages/torch/distributed/elastic/multiprocessing/api.py:908] Sending process 62188 closing signal SIGTERM
W0310 14:09:33.988000 62051 site-packages/torch/distributed/elastic/multiprocessing/api.py:908] Sending process 62189 closing signal SIGTERM
W0310 14:09:33.988000 62051 site-packages/torch/distributed/elastic/multiprocessing/api.py:908] Sending process 62190 closing signal SIGTERM
W0310 14:09:33.988000 62051 site-packages/torch/distributed/elastic/multiprocessing/api.py:908] Sending process 62191 closing signal SIGTERM
Traceback (most recent call last):
  File "<frozen runpy>", line 198, in _run_module_as_main
  File "<frozen runpy>", line 88, in _run_code
  File "/workspace/hanrui/specforge/lib/python3.11/site-packages/torch/distributed/run.py", line 940, in <module>
    main()
  File "/workspace/hanrui/specforge/lib/python3.11/site-packages/torch/distributed/elastic/multiprocessing/errors/__init__.py", line 357, in wrapper
    return f(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^
  File "/workspace/hanrui/specforge/lib/python3.11/site-packages/torch/distributed/run.py", line 936, in main
    run(args)
  File "/workspace/hanrui/specforge/lib/python3.11/site-packages/torch/distributed/run.py", line 927, in run
    elastic_launch(
  File "/workspace/hanrui/specforge/lib/python3.11/site-packages/torch/distributed/launcher/api.py", line 156, in __call__
    return launch_agent(self._config, self._entrypoint, list(args))
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/workspace/hanrui/specforge/lib/python3.11/site-packages/torch/distributed/launcher/api.py", line 284, in launch_agent
    result = agent.run()
             ^^^^^^^^^^^
  File "/workspace/hanrui/specforge/lib/python3.11/site-packages/torch/distributed/elastic/metrics/api.py", line 138, in wrapper
    result = f(*args, **kwargs)
             ^^^^^^^^^^^^^^^^^^
  File "/workspace/hanrui/specforge/lib/python3.11/site-packages/torch/distributed/elastic/agent/server/api.py", line 717, in run
    result = self._invoke_run(role)
             ^^^^^^^^^^^^^^^^^^^^^^
  File "/workspace/hanrui/specforge/lib/python3.11/site-packages/torch/distributed/elastic/agent/server/api.py", line 881, in _invoke_run
    time.sleep(monitor_interval)
  File "/workspace/hanrui/specforge/lib/python3.11/site-packages/torch/distributed/elastic/multiprocessing/api.py", line 85, in _terminate_process_handler
    raise SignalException(f"Process {os.getpid()} got signal: {sigval}", sigval=sigval)
torch.distributed.elastic.multiprocessing.api.SignalException: Process 62051 got signal: 15