diff --git a/.gitattributes b/.gitattributes
index a6344aac8c09253b3b630fb776ae94478aa0275b..5baa917cb79db4bb60739232316a2b2fe232802f 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -33,3 +33,9 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
+wandb/run-20250508_192410-bvjuhkx9/run-bvjuhkx9.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20250508_195305-eg5dmumm/run-eg5dmumm.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20250508_200345-11tfsh2x/run-11tfsh2x.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20250508_200812-r9ll1pfp/run-r9ll1pfp.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20250508_212154-is8630ik/run-is8630ik.wandb filter=lfs diff=lfs merge=lfs -text
diff --git a/README.md b/README.md
index 7b95401dc46245ac339fc25059d4a56d90b4cde5..0d31128190920e45b61115944d16e773c2ec94c3 100644
--- a/README.md
+++ b/README.md
@@ -1,3 +1,202 @@
----
-license: apache-2.0
----
+---
+base_model: meta-llama/Llama-3.1-8B-Instruct
+library_name: peft
+---
+
+# Model Card for Model ID
+
+<!-- Provide a quick summary of what the model is/does. -->
+
+
+
+## Model Details
+
+### Model Description
+
+<!-- Provide a longer summary of what this model is. -->
+
+
+
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+
+### Model Sources [optional]
+
+<!-- Provide the basic links for the model. -->
+
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+
+## Uses
+
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+
+### Direct Use
+
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+
+[More Information Needed]
+
+### Downstream Use [optional]
+
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+
+[More Information Needed]
+
+### Out-of-Scope Use
+
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+
+[More Information Needed]
+
+## Bias, Risks, and Limitations
+
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+
+[More Information Needed]
+
+### Recommendations
+
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+
+## How to Get Started with the Model
+
+Use the code below to get started with the model.
+
+[More Information Needed]
+
+## Training Details
+
+### Training Data
+
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+
+[More Information Needed]
+
+### Training Procedure
+
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+
+#### Preprocessing [optional]
+
+[More Information Needed]
+
+
+#### Training Hyperparameters
+
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+
+#### Speeds, Sizes, Times [optional]
+
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+
+[More Information Needed]
+
+## Evaluation
+
+<!-- This section describes the evaluation protocols and provides the results. -->
+
+### Testing Data, Factors & Metrics
+
+#### Testing Data
+
+<!-- This should link to a Dataset Card if possible. -->
+
+[More Information Needed]
+
+#### Factors
+
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+
+[More Information Needed]
+
+#### Metrics
+
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+
+[More Information Needed]
+
+### Results
+
+[More Information Needed]
+
+#### Summary
+
+
+
+## Model Examination [optional]
+
+<!-- Relevant interpretability work for the model goes here -->
+
+[More Information Needed]
+
+## Environmental Impact
+
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+
+## Technical Specifications [optional]
+
+### Model Architecture and Objective
+
+[More Information Needed]
+
+### Compute Infrastructure
+
+[More Information Needed]
+
+#### Hardware
+
+[More Information Needed]
+
+#### Software
+
+[More Information Needed]
+
+## Citation [optional]
+
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+
+**BibTeX:**
+
+[More Information Needed]
+
+**APA:**
+
+[More Information Needed]
+
+## Glossary [optional]
+
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+
+[More Information Needed]
+
+## More Information [optional]
+
+[More Information Needed]
+
+## Model Card Authors [optional]
+
+[More Information Needed]
+
+## Model Card Contact
+
+[More Information Needed]
+### Framework versions
+
+- PEFT 0.15.2
\ No newline at end of file
diff --git a/adapter_config.json b/adapter_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..7ff702fc023bc6dea1f65204bbc26da513ff19c1
--- /dev/null
+++ b/adapter_config.json
@@ -0,0 +1,43 @@
+{
+  "alpha_pattern": {},
+  "auto_mapping": {
+    "base_model_class": "LlamaForCausalLM",
+    "parent_library": "transformers.models.llama.modeling_llama"
+  },
+  "base_model_name_or_path": "meta-llama/Llama-3.1-8B-Instruct",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "up_proj",
+    "k_proj",
+    "v_proj",
+    "o_proj",
+    "lm_head",
+    "q_proj",
+    "down_proj"
+  ],
+  "task_type": null,
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}
\ No newline at end of file
diff --git a/adapter_model.safetensors b/adapter_model.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..047087c3d7feba1b654b4fa8ece48929310e9742
--- /dev/null
+++ b/adapter_model.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f80f97ba737f3c031e76d69dccad49a09d735bfb2e9091172f15f50637eb165
+size 1138873304
diff --git a/arguments.json b/arguments.json
new file mode 100644
index 0000000000000000000000000000000000000000..82e333b41396d3d8dbe6bec5ceb81299cf69f1e2
--- /dev/null
+++ b/arguments.json
@@ -0,0 +1,60 @@
+{
+    "model_name_or_path": "meta-llama/Llama-3.1-8B-Instruct",
+    "recompute_baseline": false,
+    "cache_dir": "/home/panda/pda-llm/cache/sft-tools",
+    "max_length": 2048,
+    "trust_remote_code": true,
+    "train_datasets": [
+        [
+            "tools",
+            {
+                "proportion": 1.0
+            }
+        ]
+    ],
+    "eval_datasets": null,
+    "safety_ratio_tol": 10.0,
+    "important_sft": false,
+    "resilient_coeff": 1.0,
+    "epochs": 3,
+    "per_device_train_batch_size": 1,
+    "per_device_eval_batch_size": 1,
+    "gradient_accumulation_steps": 48,
+    "gradient_checkpointing": true,
+    "lr": 0.0001,
+    "lr_scheduler_type": "cosine",
+    "lr_warmup_ratio": 0.1,
+    "weight_decay": 0.0,
+    "seed": 42,
+    "fp16": false,
+    "bf16": true,
+    "tf32": false,
+    "lora_r": 16,
+    "lora_alpha": 32,
+    "lora_dropout": 0.05,
+    "eval_strategy": "epoch",
+    "eval_interval": 1000000,
+    "need_eval": true,
+    "eval_split_ratio": null,
+    "output_dir": "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+    "log_type": "wandb",
+    "log_dir": "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+    "log_project": "TOOLS-SFT",
+    "log_run_name": "tools-sft-2025-05-08-21-21-54",
+    "save_16bit": false,
+    "save_interval": 1000000,
+    "local_rank": 0,
+    "zero_stage": 0,
+    "offload": "none",
+    "deepspeed": false,
+    "deepspeed_config": null,
+    "deepscale": false,
+    "deepscale_config": null,
+    "global_rank": 0,
+    "device": {
+        "type": "torch.device",
+        "repr": "device(type='cuda', index=0)"
+    },
+    "num_update_steps_per_epoch": 118,
+    "total_training_steps": 354
+}
\ No newline at end of file
diff --git a/arguments.pkl b/arguments.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..9b82c20ec24f03fb7ec807d239646ecdd7759dbc
--- /dev/null
+++ b/arguments.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fafb0bdf1ddeef98c143db9a23a20856b243c468bf8542e9bda3541f03d46598
+size 1225
diff --git a/config.json b/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..3c5ae56b84061071c386d25c1a237bba9d9d1ac4
--- /dev/null
+++ b/config.json
@@ -0,0 +1,37 @@
+{
+  "_attn_implementation_autoset": true,
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "eos_token_id": 128009,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "pad_token_id": 128256,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 128258
+}
diff --git a/environ.txt b/environ.txt
new file mode 100644
index 0000000000000000000000000000000000000000..c56f60a26290141251c926217d847567f0508db6
--- /dev/null
+++ b/environ.txt
@@ -0,0 +1,58 @@
+BROWSER=/home/panda/.vscode-server/cli/servers/Stable-4949701c880d4bdb949e3c0e6b400288da7f474b/server/bin/helpers/browser.sh
+COLORTERM=truecolor
+CONDA_DEFAULT_ENV=pda
+CONDA_EXE=/home/panda/miniconda3/bin/conda
+CONDA_PREFIX=/home/panda/miniconda3/envs/pda
+CONDA_PREFIX_1=/home/panda/miniconda3
+CONDA_PROMPT_MODIFIER=(pda) 
+CONDA_PYTHON_EXE=/home/panda/miniconda3/bin/python
+CONDA_SHLVL=2
+CROSS_RANK=0
+CROSS_SIZE=1
+CUDA_MODULE_LOADING=LAZY
+CUDA_VISIBLE_DEVICES=0,1
+DBUS_SESSION_BUS_ADDRESS=unix:path=/run/user/1008/bus
+GIT_ASKPASS=/home/panda/.vscode-server/cli/servers/Stable-4949701c880d4bdb949e3c0e6b400288da7f474b/server/extensions/git/dist/askpass.sh
+HOME=/home/panda
+LANG=en_US.UTF-8
+LOCAL_RANK=0
+LOCAL_SIZE=2
+LOGLEVEL=WARNING
+LOGNAME=panda
+MASTER_ADDR=127.0.0.1
+MASTER_PORT=35777
+MOTD_SHOWN=pam
+OLDPWD=/home/panda
+PATH=/home/panda/miniconda3/envs/pda/bin:/home/panda/miniconda3/condabin:/home/panda/.vscode-server/cli/servers/Stable-4949701c880d4bdb949e3c0e6b400288da7f474b/server/bin/remote-cli:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin:/home/panda/.vscode-server/data/User/globalStorage/github.copilot-chat/debugCommand
+PWD=/home/panda/pda-llm/scripts
+PYTHONHASHSEED=42
+PYTHONPATH=/home/panda/pda-llm
+RANK=0
+SHELL=/bin/sh
+SHLVL=4
+SSH_CLIENT=10.100.129.163 58321 22
+SSH_CONNECTION=10.100.129.163 58321 158.130.110.127 22
+SSL_CERT_DIR=/usr/lib/ssl/certs
+SSL_CERT_FILE=/usr/lib/ssl/certs/ca-certificates.crt
+TERM=screen
+TERM_PROGRAM=vscode
+TERM_PROGRAM_VERSION=1.99.2
+TMUX=/tmp//tmux-1008/default,750869,0
+TMUX_PANE=%0
+USER=panda
+VSCODE_GIT_ASKPASS_EXTRA_ARGS=
+VSCODE_GIT_ASKPASS_MAIN=/home/panda/.vscode-server/cli/servers/Stable-4949701c880d4bdb949e3c0e6b400288da7f474b/server/extensions/git/dist/askpass-main.js
+VSCODE_GIT_ASKPASS_NODE=/home/panda/.vscode-server/cli/servers/Stable-4949701c880d4bdb949e3c0e6b400288da7f474b/server/node
+VSCODE_GIT_IPC_HANDLE=/run/user/1008/vscode-git-3d8733097b.sock
+VSCODE_IPC_HOOK_CLI=/run/user/1008/vscode-ipc-6dd97596-0fde-4c4b-bbcb-61896b21f983.sock
+WANDB_API_KEY=6a71e7fad84fe1aa8f6ccaa01e4e02fcf4c7ffb4
+WANDB_ENTITY=alelab
+WANDB_MODE=online
+WANDB_SERVICE=2-1548317-tcp-localhost-45581
+WORLD_SIZE=2
+XDG_DATA_DIRS=/usr/local/share:/usr/share:/var/lib/snapd/desktop
+XDG_RUNTIME_DIR=/run/user/1008
+XDG_SESSION_CLASS=user
+XDG_SESSION_ID=1945
+XDG_SESSION_TYPE=tty
+_=/home/panda/miniconda3/envs/pda/bin/deepspeed
\ No newline at end of file
diff --git a/script.sh b/script.sh
new file mode 100644
index 0000000000000000000000000000000000000000..bb746e5446f0fc89a64740a039be8bcaafa1b6c0
--- /dev/null
+++ b/script.sh
@@ -0,0 +1,197 @@
+#!/usr/bin/env bash
+#
+# Copyright 2023-2024 PKU-Alignment Team. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+
+if [ -z "${BASH_VERSION}" ]; then
+	echo "Please use bash to run this script." >&2
+	exit 1
+fi
+
+set -x
+
+SCRIPT_DIR="$(cd "$(dirname "$0")" &>/dev/null && pwd)"
+ROOT_DIR="$(dirname "${SCRIPT_DIR}")"
+export PYTHONPATH="${ROOT_DIR}${PYTHONPATH:+:${PYTHONPATH}}"
+export LOGLEVEL="${LOGLEVEL:-WARNING}"
+export WANDB_MODE=online
+export WANDB_ENTITY="alelab"
+
+MODEL_NAME_OR_PATH="meta-llama/Llama-3.1-8B-Instruct"
+timestamp="$(date +%Y%m%d-%H%M%S)"
+unset HOSTFILE
+ZERO_STAGE=0
+OFFLOAD="none"
+IMPORTANT_SFT=False
+# GRIDSEARCH PARAMS
+SAFETY_RATIO_TOL=10
+RESILIENT_COEFF=1
+LEARNING_RATE=1e-4
+EPOCHS=3
+while [[ "$#" -gt 0 ]]; do
+	arg="$1"
+	shift
+	case "${arg}" in
+		--model_name_or_path)
+			MODEL_NAME_OR_PATH="$1"
+			shift
+			;;
+		--model_name_or_path=*)
+			MODEL_NAME_OR_PATH="${arg#*=}"
+			;;
+		--output_dir)
+			OUTPUT_DIR="$1"
+			shift
+			;;
+		--output_dir=*)
+			OUTPUT_DIR="${arg#*=}"
+			;;
+		--hostfile)
+			HOSTFILE="$1"
+			shift
+			;;
+		--hostfile=*)
+			HOSTFILE="${arg#*=}"
+			;;
+		--zero_stage)
+			ZERO_STAGE="$1"
+			shift
+			;;
+		--zero_stage=*)
+			ZERO_STAGE="${arg#*=}"
+			;;
+		--offload)
+			OFFLOAD="$1"
+			shift
+			;;
+		--offload=*)
+			OFFLOAD="${arg#*=}"
+			;;
+		--safety_ratio_tol)
+			SAFETY_RATIO_TOL="$1"
+			shift
+			;;
+		--safety_ratio_tol=*)
+			SAFETY_RATIO_TOL="${arg#*=}"
+			;;
+		--resilient_coeff)
+			RESILIENT_COEFF="$1"
+			shift
+			;;
+		--resilient_coeff=*)
+			RESILIENT_COEFF="${arg#*=}"
+			;;
+		--learning_rate)
+			LEARNING_RATE="$1"
+			shift
+			;;
+		--learning_rate=*)
+			LEARNING_RATE="${arg#*=}"
+			;;
+		--epochs)
+			EPOCHS="$1"
+			shift
+			;;
+		--epochs=*)
+			EPOCHS="${arg#*=}"
+			;;
+		--important_sft)
+			IMPORTANT_SFT="$1"
+			shift
+			;;
+		--important_sft=*)
+			IMPORTANT_SFT="${arg#*=}"
+			;;
+		*)
+			echo "Unknown parameter passed: '${arg}'" >&2
+			exit 1
+			;;
+	esac
+done
+
+OUTPUT_DIR="${ROOT_DIR}/output/sft-tools/run-${IMPORTANT_SFT}-${RESILIENT_COEFF}-${SAFETY_RATIO_TOL}"
+mkdir -p "${OUTPUT_DIR}"
+OUTPUT_DIR="$(cd "${OUTPUT_DIR}" &>/dev/null && pwd)"
+if [[ ! -f "${OUTPUT_DIR}/.gitignore" ]]; then
+	echo '*' >"${OUTPUT_DIR}/.gitignore"
+fi
+
+cp -f "$0" "${OUTPUT_DIR}/script.sh"
+
+export WANDB_API_KEY="6a71e7fad84fe1aa8f6ccaa01e4e02fcf4c7ffb4"
+if [[ -z "${WANDB_API_KEY}" ]]; then
+	export WANDB_MODE="offline"
+fi
+
+MASTER_PORT_START=10000
+MASTER_PORT_END=65535
+MASTER_PORT="$(
+	comm -23 \
+		<(seq "${MASTER_PORT_START}" "${MASTER_PORT_END}" | sort) \
+		<(ss -Htan | awk '{ print $4 }' | awk -F ':' '{ print $NF }' | sort -u) |
+		shuf | head -n 1
+)"
+
+DEEPSPEED_ARGS=()
+if [[ -n "${HOSTFILE+x}" ]]; then
+	DEEPSPEED_ARGS+=("--hostfile" "${HOSTFILE}")
+fi
+DEEPSPEED_ARGS+=("--master_port" "${MASTER_PORT}")
+
+exec 1> >(tee "${OUTPUT_DIR}/stdout.log" >&1) 2> >(tee "${OUTPUT_DIR}/stderr.log" >&2)
+echo "--------- Environment sanity check ---------"
+echo "shell:        $0 running under bash $BASH_VERSION"
+echo "conda env:    ${CONDA_DEFAULT_ENV:-<none>}"
+echo "python:       $(which python)"
+python - <<'PY'
+import sys, os
+print("sys.executable :", sys.executable)
+print("python version :", sys.version.split()[0])
+print("CONDA_PREFIX   :", os.environ.get("CONDA_PREFIX"))
+PY
+echo "deepspeed:    $(command -v deepspeed)"
+echo "--------------------------------------------"
+
+CUDA_VISIBLE_DEVICES=0,1 deepspeed "${DEEPSPEED_ARGS[@]}" \
+	--module safe_rlhf.algorithms.tools_ft \
+	--train_datasets "tools" \
+	--model_name_or_path "${MODEL_NAME_OR_PATH}" \
+	--cache_dir "${ROOT_DIR}/cache/sft-tools" \
+	--important_sft "${IMPORTANT_SFT}"	 \
+	--max_length 2048 \
+	--trust_remote_code True \
+	--epochs "${EPOCHS}"  \
+	--per_device_train_batch_size 1 \
+	--per_device_eval_batch_size 1 \
+	--gradient_accumulation_steps 48 \
+	--gradient_checkpointing \
+	--learning_rate  "${LEARNING_RATE}" \
+	--lr_scheduler_type cosine \
+	--lr_warmup_ratio 0.1 \
+	--weight_decay 0.0 \
+	--seed 42 \
+	--output_dir "${OUTPUT_DIR}" \
+	--log_type wandb \
+	--log_project TOOLS-SFT \
+	--zero_stage "${ZERO_STAGE}" \
+	--offload "${OFFLOAD}" \
+	--safety_ratio_tol "${SAFETY_RATIO_TOL}" \
+	--resilient_coeff "${RESILIENT_COEFF}" \
+	--lora_r "16" \
+	--lora_alpha "32" \
+	--lora_dropout "0.05" \
+	--bf16 True \
+	--fp16 False \
+	--tf32 False
diff --git a/special_tokens_map.json b/special_tokens_map.json
new file mode 100644
index 0000000000000000000000000000000000000000..6a2f43c3870b2266021ea201101ffffa6f244695
--- /dev/null
+++ b/special_tokens_map.json
@@ -0,0 +1,30 @@
+{
+  "bos_token": {
+    "content": "<|begin_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|eot_id|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}
diff --git a/stderr.log b/stderr.log
new file mode 100644
index 0000000000000000000000000000000000000000..29e67fe04f57eb052b3715b4aa4d5d2be3be2ebc
--- /dev/null
+++ b/stderr.log
@@ -0,0 +1,76 @@
++ echo '--------- Environment sanity check ---------'
++ echo 'shell:        ./sft-tools.sh running under bash 5.0.17(1)-release'
++ echo 'conda env:    pda'
+++ which python
++ echo 'python:       /home/panda/miniconda3/envs/pda/bin/python'
++ python -
+++ command -v deepspeed
++ echo 'deepspeed:    /home/panda/miniconda3/envs/pda/bin/deepspeed'
++ echo --------------------------------------------
++ CUDA_VISIBLE_DEVICES=0,1
++ deepspeed --master_port 35777 --module safe_rlhf.algorithms.tools_ft --train_datasets tools --model_name_or_path meta-llama/Llama-3.1-8B-Instruct --cache_dir /home/panda/pda-llm/cache/sft-tools --important_sft false --max_length 2048 --trust_remote_code True --epochs 3 --per_device_train_batch_size 1 --per_device_eval_batch_size 1 --gradient_accumulation_steps 48 --gradient_checkpointing --learning_rate 1e-4 --lr_scheduler_type cosine --lr_warmup_ratio 0.1 --weight_decay 0.0 --seed 42 --output_dir /home/panda/pda-llm/output/sft-tools/run-false-1-10 --log_type wandb --log_project TOOLS-SFT --zero_stage 0 --offload none --safety_ratio_tol 10 --resilient_coeff 1 --lora_r 16 --lora_alpha 32 --lora_dropout 0.05 --bf16 True --fp16 False --tf32 False
+[rank1]:[W508 20:43:10.558049870 ProcessGroupNCCL.cpp:4115] [PG ID 0 PG GUID 0 Rank 1]  using GPU 1 to perform barrier as devices used by this process are currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect.Specify device_ids in barrier() to force use of a particular device,or call init_process_group() with a device_id.
+[rank0]:[W508 20:43:10.580350715 ProcessGroupNCCL.cpp:4115] [PG ID 0 PG GUID 0 Rank 0]  using GPU 0 to perform barrier as devices used by this process are currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect.Specify device_ids in barrier() to force use of a particular device,or call init_process_group() with a device_id.
+Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 4/4 [00:00<00:00, 99.85it/s]
+Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 4/4 [00:00<00:00, 105.33it/s]
+The new embeddings will be initialized from a multivariate normal distribution that has old embeddings' mean and covariance. As described in this article: https://nlp.stanford.edu/~johnhew/vocab-expansion.html. To disable this, use `mean_resizing=False`
+The new embeddings will be initialized from a multivariate normal distribution that has old embeddings' mean and covariance. As described in this article: https://nlp.stanford.edu/~johnhew/vocab-expansion.html. To disable this, use `mean_resizing=False`
+The new lm_head weights will be initialized from a multivariate normal distribution that has old embeddings' mean and covariance. As described in this article: https://nlp.stanford.edu/~johnhew/vocab-expansion.html. To disable this, use `mean_resizing=False`
+The new lm_head weights will be initialized from a multivariate normal distribution that has old embeddings' mean and covariance. As described in this article: https://nlp.stanford.edu/~johnhew/vocab-expansion.html. To disable this, use `mean_resizing=False`
+Using /home/panda/.cache/torch_extensions/py311_cu124 as PyTorch extensions root...
+Detected CUDA files, patching ldflags
+Emitting ninja build file /home/panda/.cache/torch_extensions/py311_cu124/fused_adam/build.ninja...
+/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/torch/utils/cpp_extension.py:1964: UserWarning: TORCH_CUDA_ARCH_LIST is not set, all archs for visible cards are included for compilation. 
+If this is not desired, please set os.environ['TORCH_CUDA_ARCH_LIST'].
+  warnings.warn(
+Building extension module fused_adam...
+Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
+Loading extension module fused_adam...
+Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 4/4 [00:00<00:00, 103.39it/s]
+Computing baseline logprobs:   0%|          | 0/2825 [00:00<?, ?it/s]Computing baseline logprobs:   0%|          | 1/2825 [00:01<1:29:29,  1.90s/it]Computing baseline logprobs:   0%|          | 2/2825 [00:02<45:53,  1.03it/s]  Computing baseline logprobs:   0%|          | 3/2825 [00:03<50:05,  1.07s/it]Computing baseline logprobs:   0%|          | 4/2825 [00:04<56:46,  1.21s/it]Computing baseline logprobs:   0%|          | 5/2825 [00:05<55:55,  1.19s/it]Computing baseline logprobs:   0%|          | 6/2825 [00:07<1:01:58,  1.32s/it]Computing baseline logprobs:   0%|          | 7/2825 [00:08<1:02:02,  1.32s/it]Computing baseline logprobs:   0%|          | 8/2825 [00:10<1:01:53,  1.32s/it]Computing baseline logprobs:   0%|          | 9/2825 [00:11<1:03:56,  1.36s/it]Computing baseline logprobs:   0%|          | 10/2825 [00:13<1:06:48,  1.42s/it]Computing baseline logprobs:   0%|          | 11/2825 [00:14<1:08:46,  1.47s/it]Computing baseline logprobs:   0%|          | 12/2825 [00:16<1:10:09,  1.50s/it]Computing baseline logprobs:   0%|          | 13/2825 [00:17<1:11:16,  1.52s/it]Computing baseline logprobs:   0%|          | 14/2825 [00:19<1:09:35,  1.49s/it]Computing baseline logprobs:   1%|          | 15/2825 [00:20<1:10:41,  1.51s/it]Computing baseline logprobs:   1%|          | 16/2825 [00:22<1:08:45,  1.47s/it]Computing baseline logprobs:   1%|          | 17/2825 [00:23<1:10:47,  1.51s/it]Computing baseline logprobs:   1%|          | 18/2825 [00:25<1:10:16,  1.50s/it]Computing baseline logprobs:   1%|          | 19/2825 [00:26<1:07:50,  1.45s/it]Computing baseline logprobs:   1%|          | 20/2825 [00:28<1:06:50,  1.43s/it]Computing baseline logprobs:   1%|          | 21/2825 [00:29<1:08:08,  1.46s/it]Computing baseline logprobs:   1%|          | 22/2825 [00:30<1:07:12,  1.44s/it]Computing baseline logprobs:   1%|          | 23/2825 [00:32<1:04:42,  1.39s/it]Computing baseline logprobs:   1%|          | 24/2825 [00:33<1:07:03,  1.44s/it]Computing baseline logprobs:   1%|          | 25/2825 [00:35<1:07:47,  1.45s/it]Computing baseline logprobs:   1%|          | 26/2825 [00:36<1:10:10,  1.50s/it]Computing baseline logprobs:   1%|          | 27/2825 [00:38<1:09:56,  1.50s/it]Computing baseline logprobs:   1%|          | 28/2825 [00:40<1:11:42,  1.54s/it]Computing baseline logprobs:   1%|          | 29/2825 [00:41<1:11:02,  1.52s/it]Computing baseline logprobs:   1%|          | 30/2825 [00:43<1:12:31,  1.56s/it]Computing baseline logprobs:   1%|          | 31/2825 [00:44<1:12:01,  1.55s/it]Computing baseline logprobs:   1%|          | 32/2825 [00:46<1:10:32,  1.52s/it]Computing baseline logprobs:   1%|          | 33/2825 [00:47<1:11:39,  1.54s/it]Computing baseline logprobs:   1%|          | 34/2825 [00:49<1:11:31,  1.54s/it]Computing baseline logprobs:   1%|          | 35/2825 [00:50<1:05:37,  1.41s/it]Computing baseline logprobs:   1%|▏         | 36/2825 [00:51<1:00:22,  1.30s/it]Computing baseline logprobs:   1%|▏         | 37/2825 [00:52<1:03:15,  1.36s/it]Computing baseline logprobs:   1%|▏         | 38/2825 [00:54<1:02:29,  1.35s/it]Computing baseline logprobs:   1%|▏         | 39/2825 [00:55<1:05:59,  1.42s/it]Computing baseline logprobs:   1%|▏         | 40/2825 [00:57<1:08:18,  1.47s/it]Computing baseline logprobs:   1%|▏         | 41/2825 [00:58<1:06:27,  1.43s/it]Computing baseline logprobs:   1%|▏         | 42/2825 [01:00<1:04:28,  1.39s/it]Computing baseline logprobs:   2%|▏         | 43/2825 [01:01<1:07:20,  1.45s/it]Computing baseline logprobs:   2%|▏         | 44/2825 [01:03<1:08:14,  1.47s/it]Computing baseline logprobs:   2%|▏         | 45/2825 [01:04<1:04:24,  1.39s/it]Computing baseline logprobs:   2%|▏         | 46/2825 [01:05<1:07:18,  1.45s/it]Computing baseline logprobs:   2%|▏         | 47/2825 [01:07<1:09:19,  1.50s/it]Computing baseline logprobs:   2%|▏         | 48/2825 [01:09<1:11:28,  1.54s/it]Computing baseline logprobs:   2%|▏         | 49/2825 [01:10<1:11:12,  1.54s/it]Computing baseline logprobs:   2%|▏         | 50/2825 [01:12<1:08:33,  1.48s/it]Computing baseline logprobs:   2%|▏         | 51/2825 [01:13<1:10:38,  1.53s/it]Computing baseline logprobs:   2%|▏         | 52/2825 [01:15<1:10:18,  1.52s/it]Computing baseline logprobs:   2%|▏         | 53/2825 [01:16<1:11:02,  1.54s/it]Computing baseline logprobs:   2%|▏         | 54/2825 [01:18<1:07:02,  1.45s/it]Computing baseline logprobs:   2%|▏         | 55/2825 [01:19<1:05:02,  1.41s/it]Computing baseline logprobs:   2%|▏         | 56/2825 [01:20<1:07:34,  1.46s/it]Computing baseline logprobs:   2%|▏         | 57/2825 [01:22<1:06:44,  1.45s/it]Computing baseline logprobs:   2%|▏         | 58/2825 [01:23<1:06:58,  1.45s/it]Computing baseline logprobs:   2%|▏         | 59/2825 [01:25<1:07:35,  1.47s/it]Computing baseline logprobs:   2%|▏         | 60/2825 [01:26<1:08:25,  1.48s/it]Computing baseline logprobs:   2%|▏         | 61/2825 [01:28<1:05:57,  1.43s/it]Computing baseline logprobs:   2%|▏         | 62/2825 [01:29<1:02:55,  1.37s/it]Computing baseline logprobs:   2%|▏         | 63/2825 [01:30<1:06:06,  1.44s/it]Computing baseline logprobs:   2%|▏         | 64/2825 [01:32<1:08:20,  1.49s/it]Computing baseline logprobs:   2%|▏         | 65/2825 [01:34<1:10:06,  1.52s/it]Computing baseline logprobs:   2%|▏         | 66/2825 [01:35<1:09:09,  1.50s/it]Computing baseline logprobs:   2%|▏         | 67/2825 [01:37<1:08:39,  1.49s/it]Computing baseline logprobs:   2%|▏         | 68/2825 [01:38<1:06:30,  1.45s/it]Computing baseline logprobs:   2%|▏         | 69/2825 [01:39<1:05:46,  1.43s/it]Computing baseline logprobs:   2%|▏         | 70/2825 [01:41<1:08:03,  1.48s/it]Computing baseline logprobs:   3%|▎         | 71/2825 [01:43<1:09:34,  1.52s/it]Computing baseline logprobs:   3%|▎         | 72/2825 [01:44<1:07:53,  1.48s/it]Computing baseline logprobs:   3%|▎         | 73/2825 [01:46<1:09:29,  1.52s/it]Computing baseline logprobs:   3%|▎         | 74/2825 [01:47<1:10:13,  1.53s/it]Computing baseline logprobs:   3%|▎         | 75/2825 [01:48<1:07:10,  1.47s/it]Computing baseline logprobs:   3%|▎         | 76/2825 [01:50<1:05:25,  1.43s/it]Computing baseline logprobs:   3%|▎         | 77/2825 [01:51<1:05:35,  1.43s/it]Computing baseline logprobs:   3%|▎         | 78/2825 [01:52<1:01:03,  1.33s/it]Computing baseline logprobs:   3%|▎         | 79/2825 [01:54<1:04:20,  1.41s/it]Computing baseline logprobs:   3%|▎         | 80/2825 [01:55<1:03:22,  1.39s/it]Computing baseline logprobs:   3%|▎         | 81/2825 [01:57<1:06:16,  1.45s/it]Computing baseline logprobs:   3%|▎         | 82/2825 [01:58<1:08:16,  1.49s/it]Computing baseline logprobs:   3%|▎         | 83/2825 [02:00<1:06:58,  1.47s/it]Computing baseline logprobs:   3%|▎         | 84/2825 [02:01<1:08:48,  1.51s/it]Computing baseline logprobs:   3%|▎         | 85/2825 [02:03<1:10:03,  1.53s/it]Computing baseline logprobs:   3%|▎         | 86/2825 [02:05<1:10:45,  1.55s/it]Computing baseline logprobs:   3%|▎         | 87/2825 [02:06<1:08:23,  1.50s/it]Computing baseline logprobs:   3%|▎         | 88/2825 [02:08<1:09:43,  1.53s/it]Computing baseline logprobs:   3%|▎         | 89/2825 [02:09<1:09:46,  1.53s/it]Computing baseline logprobs:   3%|▎         | 90/2825 [02:11<1:08:32,  1.50s/it]Computing baseline logprobs:   3%|▎         | 91/2825 [02:12<1:09:08,  1.52s/it]Computing baseline logprobs:   3%|▎         | 92/2825 [02:14<1:10:14,  1.54s/it]Computing baseline logprobs:   3%|▎         | 93/2825 [02:15<1:11:30,  1.57s/it]Computing baseline logprobs:   3%|▎         | 94/2825 [02:17<1:09:27,  1.53s/it]Computing baseline logprobs:   3%|▎         | 95/2825 [02:18<1:06:46,  1.47s/it]Computing baseline logprobs:   3%|▎         | 96/2825 [02:20<1:07:51,  1.49s/it]Computing baseline logprobs:   3%|▎         | 97/2825 [02:21<1:05:27,  1.44s/it]Computing baseline logprobs:   3%|▎         | 98/2825 [02:22<1:02:03,  1.37s/it]Computing baseline logprobs:   4%|▎         | 99/2825 [02:24<1:04:34,  1.42s/it]Computing baseline logprobs:   4%|▎         | 100/2825 [02:25<1:05:19,  1.44s/it]Computing baseline logprobs:   4%|▎         | 101/2825 [02:27<1:05:36,  1.44s/it]Computing baseline logprobs:   4%|▎         | 102/2825 [02:28<1:07:38,  1.49s/it]Computing baseline logprobs:   4%|▎         | 103/2825 [02:30<1:09:01,  1.52s/it]Computing baseline logprobs:   4%|▎         | 104/2825 [02:31<1:06:43,  1.47s/it]Computing baseline logprobs:   4%|▎         | 105/2825 [02:32<1:02:46,  1.38s/it]Computing baseline logprobs:   4%|▍         | 106/2825 [02:34<1:00:56,  1.34s/it]Computing baseline logprobs:   4%|▍         | 107/2825 [02:35<1:04:23,  1.42s/it]Computing baseline logprobs:   4%|▍         | 108/2825 [02:37<1:06:48,  1.48s/it]Computing baseline logprobs:   4%|▍         | 109/2825 [02:38<1:08:56,  1.52s/it]Computing baseline logprobs:   4%|▍         | 110/2825 [02:40<1:07:41,  1.50s/it]Computing baseline logprobs:   4%|▍         | 111/2825 [02:41<1:02:23,  1.38s/it]Computing baseline logprobs:   4%|▍         | 112/2825 [02:42<58:21,  1.29s/it]  Computing baseline logprobs:   4%|▍         | 113/2825 [02:43<56:23,  1.25s/it]Computing baseline logprobs:   4%|▍         | 114/2825 [02:45<1:01:07,  1.35s/it]Computing baseline logprobs:   4%|▍         | 115/2825 [02:46<1:04:26,  1.43s/it]Computing baseline logprobs:   4%|▍         | 116/2825 [02:48<1:06:42,  1.48s/it]Computing baseline logprobs:   4%|▍         | 117/2825 [02:49<1:05:13,  1.45s/it]Computing baseline logprobs:   4%|▍         | 118/2825 [02:51<1:03:45,  1.41s/it]Computing baseline logprobs:   4%|▍         | 119/2825 [02:52<1:06:12,  1.47s/it]Computing baseline logprobs:   4%|▍         | 120/2825 [02:54<1:07:43,  1.50s/it]Computing baseline logprobs:   4%|▍         | 121/2825 [02:55<1:08:25,  1.52s/it]Computing baseline logprobs:   4%|▍         | 122/2825 [02:57<1:09:53,  1.55s/it]Computing baseline logprobs:   4%|▍         | 123/2825 [02:59<1:09:14,  1.54s/it]Computing baseline logprobs:   4%|▍         | 124/2825 [03:00<1:05:54,  1.46s/it]Computing baseline logprobs:   4%|▍         | 125/2825 [03:01<1:01:19,  1.36s/it]Computing baseline logprobs:   4%|▍         | 126/2825 [03:02<1:02:18,  1.39s/it]Computing baseline logprobs:   4%|▍         | 127/2825 [03:04<58:25,  1.30s/it]  Computing baseline logprobs:   5%|▍         | 128/2825 [03:05<55:27,  1.23s/it]Computing baseline logprobs:   5%|▍         | 129/2825 [03:06<50:39,  1.13s/it]Computing baseline logprobs:   5%|▍         | 130/2825 [03:07<50:48,  1.13s/it]Computing baseline logprobs:   5%|▍         | 131/2825 [03:08<54:01,  1.20s/it]Computing baseline logprobs:   5%|▍         | 132/2825 [03:09<52:23,  1.17s/it]Computing baseline logprobs:   5%|▍         | 133/2825 [03:10<48:59,  1.09s/it]Computing baseline logprobs:   5%|▍         | 134/2825 [03:11<48:49,  1.09s/it]Computing baseline logprobs:   5%|▍         | 135/2825 [03:12<47:34,  1.06s/it]Computing baseline logprobs:   5%|▍         | 136/2825 [03:13<47:57,  1.07s/it]Computing baseline logprobs:   5%|▍         | 137/2825 [03:14<44:30,  1.01it/s]Computing baseline logprobs:   5%|▍         | 138/2825 [03:15<44:07,  1.02it/s]Computing baseline logprobs:   5%|▍         | 139/2825 [03:16<42:20,  1.06it/s]Computing baseline logprobs:   5%|▍         | 140/2825 [03:17<40:33,  1.10it/s]Computing baseline logprobs:   5%|▍         | 141/2825 [03:18<40:10,  1.11it/s]Computing baseline logprobs:   5%|▌         | 142/2825 [03:18<39:58,  1.12it/s]Computing baseline logprobs:   5%|▌         | 143/2825 [03:20<43:33,  1.03it/s]Computing baseline logprobs:   5%|▌         | 144/2825 [03:21<46:57,  1.05s/it]Computing baseline logprobs:   5%|▌         | 145/2825 [03:22<46:28,  1.04s/it]Computing baseline logprobs:   5%|▌         | 146/2825 [03:23<49:11,  1.10s/it]Computing baseline logprobs:   5%|▌         | 147/2825 [03:24<46:50,  1.05s/it]Computing baseline logprobs:   5%|▌         | 148/2825 [03:25<43:52,  1.02it/s]Computing baseline logprobs:   5%|▌         | 149/2825 [03:26<42:01,  1.06it/s]Computing baseline logprobs:   5%|▌         | 150/2825 [03:27<41:41,  1.07it/s]Computing baseline logprobs:   5%|▌         | 151/2825 [03:27<40:59,  1.09it/s]Computing baseline logprobs:   5%|▌         | 152/2825 [03:28<41:25,  1.08it/s]Computing baseline logprobs:   5%|▌         | 153/2825 [03:29<40:15,  1.11it/s]Computing baseline logprobs:   5%|▌         | 154/2825 [03:30<38:32,  1.16it/s]Computing baseline logprobs:   5%|▌         | 155/2825 [03:31<38:06,  1.17it/s]Computing baseline logprobs:   6%|▌         | 156/2825 [03:32<42:37,  1.04it/s]Computing baseline logprobs:   6%|▌         | 157/2825 [03:34<49:09,  1.11s/it]Computing baseline logprobs:   6%|▌         | 158/2825 [03:34<46:25,  1.04s/it]Computing baseline logprobs:   6%|▌         | 159/2825 [03:35<45:00,  1.01s/it]Computing baseline logprobs:   6%|▌         | 160/2825 [03:36<44:04,  1.01it/s]Computing baseline logprobs:   6%|▌         | 161/2825 [03:37<42:09,  1.05it/s]Computing baseline logprobs:   6%|▌         | 162/2825 [03:38<41:40,  1.07it/s]Computing baseline logprobs:   6%|▌         | 163/2825 [03:39<42:33,  1.04it/s]Computing baseline logprobs:   6%|▌         | 164/2825 [03:40<46:26,  1.05s/it]Computing baseline logprobs:   6%|▌         | 165/2825 [03:41<45:09,  1.02s/it]Computing baseline logprobs:   6%|▌         | 166/2825 [03:42<44:11,  1.00it/s]Computing baseline logprobs:   6%|▌         | 167/2825 [03:43<41:46,  1.06it/s]Computing baseline logprobs:   6%|▌         | 168/2825 [03:44<39:37,  1.12it/s]Computing baseline logprobs:   6%|▌         | 169/2825 [03:45<37:29,  1.18it/s]Computing baseline logprobs:   6%|▌         | 170/2825 [03:46<38:56,  1.14it/s]Computing baseline logprobs:   6%|▌         | 171/2825 [03:46<38:48,  1.14it/s]Computing baseline logprobs:   6%|▌         | 172/2825 [03:47<38:02,  1.16it/s]Computing baseline logprobs:   6%|▌         | 173/2825 [03:48<39:49,  1.11it/s]Computing baseline logprobs:   6%|▌         | 174/2825 [03:49<42:35,  1.04it/s]Computing baseline logprobs:   6%|▌         | 175/2825 [03:50<44:10,  1.00s/it]Computing baseline logprobs:   6%|▌         | 176/2825 [03:51<45:24,  1.03s/it]Computing baseline logprobs:   6%|▋         | 177/2825 [03:52<42:10,  1.05it/s]Computing baseline logprobs:   6%|▋         | 178/2825 [03:53<40:12,  1.10it/s]Computing baseline logprobs:   6%|▋         | 179/2825 [03:54<37:53,  1.16it/s]Computing baseline logprobs:   6%|▋         | 180/2825 [03:55<38:59,  1.13it/s]Computing baseline logprobs:   6%|▋         | 181/2825 [03:56<40:43,  1.08it/s]Computing baseline logprobs:   6%|▋         | 182/2825 [03:57<38:53,  1.13it/s]Computing baseline logprobs:   6%|▋         | 183/2825 [03:57<38:20,  1.15it/s]Computing baseline logprobs:   7%|▋         | 184/2825 [03:58<41:11,  1.07it/s]Computing baseline logprobs:   7%|▋         | 185/2825 [03:59<39:02,  1.13it/s]Computing baseline logprobs:   7%|▋         | 186/2825 [04:00<38:46,  1.13it/s]Computing baseline logprobs:   7%|▋         | 187/2825 [04:01<38:11,  1.15it/s]Computing baseline logprobs:   7%|▋         | 188/2825 [04:02<37:58,  1.16it/s]Computing baseline logprobs:   7%|▋         | 189/2825 [04:03<39:27,  1.11it/s]Computing baseline logprobs:   7%|▋         | 190/2825 [04:04<40:18,  1.09it/s]Computing baseline logprobs:   7%|▋         | 191/2825 [04:05<38:05,  1.15it/s]Computing baseline logprobs:   7%|▋         | 192/2825 [04:05<36:40,  1.20it/s]Computing baseline logprobs:   7%|▋         | 193/2825 [04:06<37:03,  1.18it/s]Computing baseline logprobs:   7%|▋         | 194/2825 [04:07<38:04,  1.15it/s]Computing baseline logprobs:   7%|▋         | 195/2825 [04:08<39:20,  1.11it/s]Computing baseline logprobs:   7%|▋         | 196/2825 [04:09<40:16,  1.09it/s]Computing baseline logprobs:   7%|▋         | 197/2825 [04:10<37:49,  1.16it/s]Computing baseline logprobs:   7%|▋         | 198/2825 [04:11<39:13,  1.12it/s]Computing baseline logprobs:   7%|▋         | 199/2825 [04:11<36:45,  1.19it/s]Computing baseline logprobs:   7%|▋         | 200/2825 [04:12<36:38,  1.19it/s]Computing baseline logprobs:   7%|▋         | 201/2825 [04:13<36:23,  1.20it/s]Computing baseline logprobs:   7%|▋         | 202/2825 [04:14<38:51,  1.13it/s]Computing baseline logprobs:   7%|▋         | 203/2825 [04:16<45:52,  1.05s/it]Computing baseline logprobs:   7%|▋         | 204/2825 [04:17<47:05,  1.08s/it]Computing baseline logprobs:   7%|▋         | 205/2825 [04:18<52:21,  1.20s/it]Computing baseline logprobs:   7%|▋         | 206/2825 [04:20<55:14,  1.27s/it]Computing baseline logprobs:   7%|▋         | 207/2825 [04:21<52:01,  1.19s/it]Computing baseline logprobs:   7%|▋         | 208/2825 [04:22<51:16,  1.18s/it]Computing baseline logprobs:   7%|▋         | 209/2825 [04:23<47:10,  1.08s/it]Computing baseline logprobs:   7%|▋         | 210/2825 [04:24<52:56,  1.21s/it]Computing baseline logprobs:   7%|▋         | 211/2825 [04:25<55:04,  1.26s/it]Computing baseline logprobs:   8%|▊         | 212/2825 [04:27<52:38,  1.21s/it]Computing baseline logprobs:   8%|▊         | 213/2825 [04:28<56:47,  1.30s/it]Computing baseline logprobs:   8%|▊         | 214/2825 [04:29<57:25,  1.32s/it]Computing baseline logprobs:   8%|▊         | 215/2825 [04:30<53:26,  1.23s/it]Computing baseline logprobs:   8%|▊         | 216/2825 [04:32<56:46,  1.31s/it]Computing baseline logprobs:   8%|▊         | 217/2825 [04:33<52:22,  1.20s/it]Computing baseline logprobs:   8%|▊         | 218/2825 [04:34<48:31,  1.12s/it]Computing baseline logprobs:   8%|▊         | 219/2825 [04:35<50:15,  1.16s/it]Computing baseline logprobs:   8%|▊         | 220/2825 [04:37<55:16,  1.27s/it]Computing baseline logprobs:   8%|▊         | 221/2825 [04:38<56:55,  1.31s/it]Computing baseline logprobs:   8%|▊         | 222/2825 [04:39<52:37,  1.21s/it]Computing baseline logprobs:   8%|▊         | 223/2825 [04:41<58:17,  1.34s/it]Computing baseline logprobs:   8%|▊         | 224/2825 [04:42<1:00:41,  1.40s/it]Computing baseline logprobs:   8%|▊         | 225/2825 [04:44<1:00:11,  1.39s/it]Computing baseline logprobs:   8%|▊         | 226/2825 [04:45<1:00:20,  1.39s/it]Computing baseline logprobs:   8%|▊         | 227/2825 [04:46<54:24,  1.26s/it]  Computing baseline logprobs:   8%|▊         | 228/2825 [04:47<52:22,  1.21s/it]Computing baseline logprobs:   8%|▊         | 229/2825 [04:48<51:27,  1.19s/it]Computing baseline logprobs:   8%|▊         | 230/2825 [04:50<54:55,  1.27s/it]Computing baseline logprobs:   8%|▊         | 231/2825 [04:51<56:20,  1.30s/it]Computing baseline logprobs:   8%|▊         | 232/2825 [04:52<54:39,  1.26s/it]Computing baseline logprobs:   8%|▊         | 233/2825 [04:53<51:23,  1.19s/it]Computing baseline logprobs:   8%|▊         | 234/2825 [04:55<53:53,  1.25s/it]Computing baseline logprobs:   8%|▊         | 235/2825 [04:56<57:10,  1.32s/it]Computing baseline logprobs:   8%|▊         | 236/2825 [04:57<56:35,  1.31s/it]Computing baseline logprobs:   8%|▊         | 237/2825 [04:58<53:34,  1.24s/it]Computing baseline logprobs:   8%|▊         | 238/2825 [05:00<53:28,  1.24s/it]Computing baseline logprobs:   8%|▊         | 239/2825 [05:01<57:08,  1.33s/it]Computing baseline logprobs:   8%|▊         | 240/2825 [05:02<55:04,  1.28s/it]Computing baseline logprobs:   9%|▊         | 241/2825 [05:03<50:40,  1.18s/it]Computing baseline logprobs:   9%|▊         | 242/2825 [05:05<55:01,  1.28s/it]Computing baseline logprobs:   9%|▊         | 243/2825 [05:06<51:58,  1.21s/it]Computing baseline logprobs:   9%|▊         | 244/2825 [05:07<48:56,  1.14s/it]Computing baseline logprobs:   9%|▊         | 245/2825 [05:08<47:23,  1.10s/it]Computing baseline logprobs:   9%|▊         | 246/2825 [05:09<47:55,  1.11s/it]Computing baseline logprobs:   9%|▊         | 247/2825 [05:10<51:33,  1.20s/it]Computing baseline logprobs:   9%|▉         | 248/2825 [05:11<48:08,  1.12s/it]Computing baseline logprobs:   9%|▉         | 249/2825 [05:13<52:22,  1.22s/it]Computing baseline logprobs:   9%|▉         | 250/2825 [05:14<53:22,  1.24s/it]Computing baseline logprobs:   9%|▉         | 251/2825 [05:15<49:10,  1.15s/it]Computing baseline logprobs:   9%|▉         | 252/2825 [05:16<50:58,  1.19s/it]Computing baseline logprobs:   9%|▉         | 253/2825 [05:18<51:24,  1.20s/it]Computing baseline logprobs:   9%|▉         | 254/2825 [05:19<52:16,  1.22s/it]Computing baseline logprobs:   9%|▉         | 255/2825 [05:20<47:50,  1.12s/it]Computing baseline logprobs:   9%|▉         | 256/2825 [05:21<50:04,  1.17s/it]Computing baseline logprobs:   9%|▉         | 257/2825 [05:22<50:43,  1.19s/it]Computing baseline logprobs:   9%|▉         | 258/2825 [05:23<50:04,  1.17s/it]Computing baseline logprobs:   9%|▉         | 259/2825 [05:25<52:41,  1.23s/it]Computing baseline logprobs:   9%|▉         | 260/2825 [05:26<56:18,  1.32s/it]Computing baseline logprobs:   9%|▉         | 261/2825 [05:27<53:40,  1.26s/it]Computing baseline logprobs:   9%|▉         | 262/2825 [05:29<56:03,  1.31s/it]Computing baseline logprobs:   9%|▉         | 263/2825 [05:30<53:28,  1.25s/it]Computing baseline logprobs:   9%|▉         | 264/2825 [05:31<54:16,  1.27s/it]Computing baseline logprobs:   9%|▉         | 265/2825 [05:32<54:12,  1.27s/it]Computing baseline logprobs:   9%|▉         | 266/2825 [05:34<53:42,  1.26s/it]Computing baseline logprobs:   9%|▉         | 267/2825 [05:35<49:55,  1.17s/it]Computing baseline logprobs:   9%|▉         | 268/2825 [05:36<50:27,  1.18s/it]Computing baseline logprobs:  10%|▉         | 269/2825 [05:37<53:44,  1.26s/it]Computing baseline logprobs:  10%|▉         | 270/2825 [05:38<49:37,  1.17s/it]Computing baseline logprobs:  10%|▉         | 271/2825 [05:40<52:03,  1.22s/it]Computing baseline logprobs:  10%|▉         | 272/2825 [05:41<53:51,  1.27s/it]Computing baseline logprobs:  10%|▉         | 273/2825 [05:42<55:05,  1.30s/it]Computing baseline logprobs:  10%|▉         | 274/2825 [05:43<52:51,  1.24s/it]Computing baseline logprobs:  10%|▉         | 275/2825 [05:45<55:20,  1.30s/it]Computing baseline logprobs:  10%|▉         | 276/2825 [05:46<54:41,  1.29s/it]Computing baseline logprobs:  10%|▉         | 277/2825 [05:47<55:02,  1.30s/it]Computing baseline logprobs:  10%|▉         | 278/2825 [05:49<51:50,  1.22s/it]Computing baseline logprobs:  10%|▉         | 279/2825 [05:50<49:11,  1.16s/it]Computing baseline logprobs:  10%|▉         | 280/2825 [05:51<52:10,  1.23s/it]Computing baseline logprobs:  10%|▉         | 281/2825 [05:52<48:57,  1.15s/it]Computing baseline logprobs:  10%|▉         | 282/2825 [05:53<53:01,  1.25s/it]Computing baseline logprobs:  10%|█         | 283/2825 [05:54<49:17,  1.16s/it]Computing baseline logprobs:  10%|█         | 284/2825 [05:55<49:02,  1.16s/it]Computing baseline logprobs:  10%|█         | 285/2825 [05:57<51:24,  1.21s/it]Computing baseline logprobs:  10%|█         | 286/2825 [05:58<49:11,  1.16s/it]Computing baseline logprobs:  10%|█         | 287/2825 [05:59<48:21,  1.14s/it]Computing baseline logprobs:  10%|█         | 288/2825 [06:00<50:04,  1.18s/it]Computing baseline logprobs:  10%|█         | 289/2825 [06:02<52:29,  1.24s/it]Computing baseline logprobs:  10%|█         | 290/2825 [06:03<54:35,  1.29s/it]Computing baseline logprobs:  10%|█         | 291/2825 [06:04<53:33,  1.27s/it]Computing baseline logprobs:  10%|█         | 292/2825 [06:06<57:05,  1.35s/it]Computing baseline logprobs:  10%|█         | 293/2825 [06:07<55:16,  1.31s/it]Computing baseline logprobs:  10%|█         | 294/2825 [06:08<53:48,  1.28s/it]Computing baseline logprobs:  10%|█         | 295/2825 [06:10<57:34,  1.37s/it]Computing baseline logprobs:  10%|█         | 296/2825 [06:11<55:27,  1.32s/it]Computing baseline logprobs:  11%|█         | 297/2825 [06:12<50:01,  1.19s/it]Computing baseline logprobs:  11%|█         | 298/2825 [06:13<51:27,  1.22s/it]Computing baseline logprobs:  11%|█         | 299/2825 [06:15<54:36,  1.30s/it]Computing baseline logprobs:  11%|█         | 300/2825 [06:16<50:50,  1.21s/it]Computing baseline logprobs:  11%|█         | 301/2825 [06:17<52:33,  1.25s/it]Computing baseline logprobs:  11%|█         | 302/2825 [06:19<56:03,  1.33s/it]Computing baseline logprobs:  11%|█         | 303/2825 [06:20<54:38,  1.30s/it]Computing baseline logprobs:  11%|█         | 304/2825 [06:21<52:43,  1.25s/it]Computing baseline logprobs:  11%|█         | 305/2825 [06:22<46:44,  1.11s/it]Computing baseline logprobs:  11%|█         | 306/2825 [06:23<46:35,  1.11s/it]Computing baseline logprobs:  11%|█         | 307/2825 [06:24<44:07,  1.05s/it]Computing baseline logprobs:  11%|█         | 308/2825 [06:25<47:14,  1.13s/it]Computing baseline logprobs:  11%|█         | 309/2825 [06:26<46:18,  1.10s/it]Computing baseline logprobs:  11%|█         | 310/2825 [06:27<49:33,  1.18s/it]Computing baseline logprobs:  11%|█         | 311/2825 [06:28<47:25,  1.13s/it]Computing baseline logprobs:  11%|█         | 312/2825 [06:30<50:31,  1.21s/it]Computing baseline logprobs:  11%|█         | 313/2825 [06:31<48:20,  1.15s/it]Computing baseline logprobs:  11%|█         | 314/2825 [06:32<49:50,  1.19s/it]Computing baseline logprobs:  11%|█         | 315/2825 [06:33<50:26,  1.21s/it]Computing baseline logprobs:  11%|█         | 316/2825 [06:35<51:30,  1.23s/it]Computing baseline logprobs:  11%|█         | 317/2825 [06:36<50:55,  1.22s/it]Computing baseline logprobs:  11%|█▏        | 318/2825 [06:37<50:34,  1.21s/it]Computing baseline logprobs:  11%|█▏        | 319/2825 [06:39<55:48,  1.34s/it]Computing baseline logprobs:  11%|█▏        | 320/2825 [06:40<56:15,  1.35s/it]Computing baseline logprobs:  11%|█▏        | 321/2825 [06:41<52:09,  1.25s/it]Computing baseline logprobs:  11%|█▏        | 322/2825 [06:43<55:31,  1.33s/it]Computing baseline logprobs:  11%|█▏        | 323/2825 [06:44<52:51,  1.27s/it]Computing baseline logprobs:  11%|█▏        | 324/2825 [06:45<53:16,  1.28s/it]Computing baseline logprobs:  12%|█▏        | 325/2825 [06:47<57:10,  1.37s/it]Computing baseline logprobs:  12%|█▏        | 326/2825 [06:48<57:18,  1.38s/it]Computing baseline logprobs:  12%|█▏        | 327/2825 [06:49<48:13,  1.16s/it]Computing baseline logprobs:  12%|█▏        | 328/2825 [06:49<42:06,  1.01s/it]Computing baseline logprobs:  12%|█▏        | 329/2825 [06:50<42:15,  1.02s/it]Computing baseline logprobs:  12%|█▏        | 330/2825 [06:51<39:04,  1.06it/s]Computing baseline logprobs:  12%|█▏        | 331/2825 [06:52<36:58,  1.12it/s]Computing baseline logprobs:  12%|█▏        | 332/2825 [06:53<38:31,  1.08it/s]Computing baseline logprobs:  12%|█▏        | 333/2825 [06:54<37:06,  1.12it/s]Computing baseline logprobs:  12%|█▏        | 334/2825 [06:54<35:19,  1.18it/s]Computing baseline logprobs:  12%|█▏        | 335/2825 [06:55<33:26,  1.24it/s]Computing baseline logprobs:  12%|█▏        | 336/2825 [06:56<32:45,  1.27it/s]Computing baseline logprobs:  12%|█▏        | 337/2825 [06:57<33:36,  1.23it/s]Computing baseline logprobs:  12%|█▏        | 338/2825 [06:57<32:48,  1.26it/s]Computing baseline logprobs:  12%|█▏        | 339/2825 [06:58<32:11,  1.29it/s]Computing baseline logprobs:  12%|█▏        | 340/2825 [06:59<31:32,  1.31it/s]Computing baseline logprobs:  12%|█▏        | 341/2825 [07:00<31:20,  1.32it/s]Computing baseline logprobs:  12%|█▏        | 342/2825 [07:00<28:32,  1.45it/s]Computing baseline logprobs:  12%|█▏        | 343/2825 [07:01<29:00,  1.43it/s]Computing baseline logprobs:  12%|█▏        | 344/2825 [07:02<27:42,  1.49it/s]Computing baseline logprobs:  12%|█▏        | 345/2825 [07:02<27:48,  1.49it/s]Computing baseline logprobs:  12%|█▏        | 346/2825 [07:03<27:55,  1.48it/s]Computing baseline logprobs:  12%|█▏        | 347/2825 [07:04<29:22,  1.41it/s]Computing baseline logprobs:  12%|█▏        | 348/2825 [07:04<28:33,  1.45it/s]Computing baseline logprobs:  12%|█▏        | 349/2825 [07:05<31:17,  1.32it/s]Computing baseline logprobs:  12%|█▏        | 350/2825 [07:06<28:39,  1.44it/s]Computing baseline logprobs:  12%|█▏        | 351/2825 [07:06<27:21,  1.51it/s]Computing baseline logprobs:  12%|█▏        | 352/2825 [07:07<30:18,  1.36it/s]Computing baseline logprobs:  12%|█▏        | 353/2825 [07:08<28:48,  1.43it/s]Computing baseline logprobs:  13%|█▎        | 354/2825 [07:09<29:17,  1.41it/s]Computing baseline logprobs:  13%|█▎        | 355/2825 [07:10<32:44,  1.26it/s]Computing baseline logprobs:  13%|█▎        | 356/2825 [07:10<29:51,  1.38it/s]Computing baseline logprobs:  13%|█▎        | 357/2825 [07:11<27:18,  1.51it/s]Computing baseline logprobs:  13%|█▎        | 358/2825 [07:11<26:39,  1.54it/s]Computing baseline logprobs:  13%|█▎        | 359/2825 [07:12<25:51,  1.59it/s]Computing baseline logprobs:  13%|█▎        | 360/2825 [07:13<25:46,  1.59it/s]Computing baseline logprobs:  13%|█▎        | 361/2825 [07:13<25:23,  1.62it/s]Computing baseline logprobs:  13%|█▎        | 362/2825 [07:14<24:37,  1.67it/s]Computing baseline logprobs:  13%|█▎        | 363/2825 [07:14<24:13,  1.69it/s]Computing baseline logprobs:  13%|█▎        | 364/2825 [07:15<28:38,  1.43it/s]Computing baseline logprobs:  13%|█▎        | 365/2825 [07:16<32:00,  1.28it/s]Computing baseline logprobs:  13%|█▎        | 366/2825 [07:17<33:17,  1.23it/s]Computing baseline logprobs:  13%|█▎        | 367/2825 [07:18<37:00,  1.11it/s]Computing baseline logprobs:  13%|█▎        | 368/2825 [07:19<37:01,  1.11it/s]Computing baseline logprobs:  13%|█▎        | 369/2825 [07:20<34:07,  1.20it/s]Computing baseline logprobs:  13%|█▎        | 370/2825 [07:20<32:27,  1.26it/s]Computing baseline logprobs:  13%|█▎        | 371/2825 [07:21<28:32,  1.43it/s]Computing baseline logprobs:  13%|█▎        | 372/2825 [07:21<26:13,  1.56it/s]Computing baseline logprobs:  13%|█▎        | 373/2825 [07:22<25:39,  1.59it/s]Computing baseline logprobs:  13%|█▎        | 374/2825 [07:23<29:05,  1.40it/s]Computing baseline logprobs:  13%|█▎        | 375/2825 [07:24<31:17,  1.31it/s]Computing baseline logprobs:  13%|█▎        | 376/2825 [07:25<30:16,  1.35it/s]Computing baseline logprobs:  13%|█▎        | 377/2825 [07:25<27:38,  1.48it/s]Computing baseline logprobs:  13%|█▎        | 378/2825 [07:26<26:34,  1.54it/s]Computing baseline logprobs:  13%|█▎        | 379/2825 [07:26<25:55,  1.57it/s]Computing baseline logprobs:  13%|█▎        | 380/2825 [07:27<24:43,  1.65it/s]Computing baseline logprobs:  13%|█▎        | 381/2825 [07:28<26:45,  1.52it/s]Computing baseline logprobs:  14%|█▎        | 382/2825 [07:29<31:38,  1.29it/s]Computing baseline logprobs:  14%|█▎        | 383/2825 [07:30<33:22,  1.22it/s]Computing baseline logprobs:  14%|█▎        | 384/2825 [07:30<31:20,  1.30it/s]Computing baseline logprobs:  14%|█▎        | 385/2825 [07:31<29:47,  1.36it/s]Computing baseline logprobs:  14%|█▎        | 386/2825 [07:32<28:55,  1.41it/s]Computing baseline logprobs:  14%|█▎        | 387/2825 [07:32<26:16,  1.55it/s]Computing baseline logprobs:  14%|█▎        | 388/2825 [07:33<27:54,  1.45it/s]Computing baseline logprobs:  14%|█▍        | 389/2825 [07:34<29:34,  1.37it/s]Computing baseline logprobs:  14%|█▍        | 390/2825 [07:35<32:12,  1.26it/s]Computing baseline logprobs:  14%|█▍        | 391/2825 [07:35<31:39,  1.28it/s]Computing baseline logprobs:  14%|█▍        | 392/2825 [07:36<31:38,  1.28it/s]Computing baseline logprobs:  14%|█▍        | 393/2825 [07:37<30:29,  1.33it/s]Computing baseline logprobs:  14%|█▍        | 394/2825 [07:37<26:10,  1.55it/s]Computing baseline logprobs:  14%|█▍        | 395/2825 [07:38<24:35,  1.65it/s]Computing baseline logprobs:  14%|█▍        | 396/2825 [07:38<22:14,  1.82it/s]Computing baseline logprobs:  14%|█▍        | 397/2825 [07:39<23:21,  1.73it/s]Computing baseline logprobs:  14%|█▍        | 398/2825 [07:39<24:48,  1.63it/s]Computing baseline logprobs:  14%|█▍        | 399/2825 [07:40<26:29,  1.53it/s]Computing baseline logprobs:  14%|█▍        | 400/2825 [07:41<27:13,  1.48it/s]Computing baseline logprobs:  14%|█▍        | 401/2825 [07:42<29:04,  1.39it/s]Computing baseline logprobs:  14%|█▍        | 402/2825 [07:42<28:00,  1.44it/s]Computing baseline logprobs:  14%|█▍        | 403/2825 [07:43<26:43,  1.51it/s]Computing baseline logprobs:  14%|█▍        | 404/2825 [07:44<26:52,  1.50it/s]Computing baseline logprobs:  14%|█▍        | 405/2825 [07:44<25:46,  1.57it/s]Computing baseline logprobs:  14%|█▍        | 406/2825 [07:45<29:05,  1.39it/s]Computing baseline logprobs:  14%|█▍        | 407/2825 [07:46<27:37,  1.46it/s]Computing baseline logprobs:  14%|█▍        | 408/2825 [07:46<27:24,  1.47it/s]Computing baseline logprobs:  14%|█▍        | 409/2825 [07:47<26:07,  1.54it/s]Computing baseline logprobs:  15%|█▍        | 410/2825 [07:48<26:40,  1.51it/s]Computing baseline logprobs:  15%|█▍        | 411/2825 [07:48<28:40,  1.40it/s]Computing baseline logprobs:  15%|█▍        | 412/2825 [07:49<30:56,  1.30it/s]Computing baseline logprobs:  15%|█▍        | 413/2825 [07:50<29:20,  1.37it/s]Computing baseline logprobs:  15%|█▍        | 414/2825 [07:51<29:22,  1.37it/s]Computing baseline logprobs:  15%|█▍        | 415/2825 [07:51<27:29,  1.46it/s]Computing baseline logprobs:  15%|█▍        | 416/2825 [07:52<30:46,  1.30it/s]Computing baseline logprobs:  15%|█▍        | 417/2825 [07:53<35:20,  1.14it/s]Computing baseline logprobs:  15%|█▍        | 418/2825 [07:54<32:06,  1.25it/s]Computing baseline logprobs:  15%|█▍        | 419/2825 [07:55<31:29,  1.27it/s]Computing baseline logprobs:  15%|█▍        | 420/2825 [07:55<29:31,  1.36it/s]Computing baseline logprobs:  15%|█▍        | 421/2825 [07:56<31:44,  1.26it/s]Computing baseline logprobs:  15%|█▍        | 422/2825 [07:57<34:22,  1.17it/s]Computing baseline logprobs:  15%|█▍        | 423/2825 [07:58<34:00,  1.18it/s]Computing baseline logprobs:  15%|█▌        | 424/2825 [07:59<33:27,  1.20it/s]Computing baseline logprobs:  15%|█▌        | 425/2825 [08:00<30:51,  1.30it/s]Computing baseline logprobs:  15%|█▌        | 426/2825 [08:00<28:06,  1.42it/s]Computing baseline logprobs:  15%|█▌        | 427/2825 [08:01<28:54,  1.38it/s]Computing baseline logprobs:  15%|█▌        | 428/2825 [08:02<28:27,  1.40it/s]Computing baseline logprobs:  15%|█▌        | 429/2825 [08:02<29:20,  1.36it/s]Computing baseline logprobs:  15%|█▌        | 430/2825 [08:03<27:48,  1.44it/s]Computing baseline logprobs:  15%|█▌        | 431/2825 [08:04<28:22,  1.41it/s]Computing baseline logprobs:  15%|█▌        | 432/2825 [08:04<27:34,  1.45it/s]Computing baseline logprobs:  15%|█▌        | 433/2825 [08:05<26:06,  1.53it/s]Computing baseline logprobs:  15%|█▌        | 434/2825 [08:06<27:25,  1.45it/s]Computing baseline logprobs:  15%|█▌        | 435/2825 [08:06<26:42,  1.49it/s]Computing baseline logprobs:  15%|█▌        | 436/2825 [08:07<26:31,  1.50it/s]Computing baseline logprobs:  15%|█▌        | 437/2825 [08:08<30:54,  1.29it/s]Computing baseline logprobs:  16%|█▌        | 438/2825 [08:09<32:11,  1.24it/s]Computing baseline logprobs:  16%|█▌        | 439/2825 [08:10<31:29,  1.26it/s]Computing baseline logprobs:  16%|█▌        | 440/2825 [08:10<30:55,  1.29it/s]Computing baseline logprobs:  16%|█▌        | 441/2825 [08:11<29:59,  1.32it/s]Computing baseline logprobs:  16%|█▌        | 442/2825 [08:12<30:21,  1.31it/s]Computing baseline logprobs:  16%|█▌        | 443/2825 [08:12<27:52,  1.42it/s]Computing baseline logprobs:  16%|█▌        | 444/2825 [08:13<24:42,  1.61it/s]Computing baseline logprobs:  16%|█▌        | 445/2825 [08:14<27:43,  1.43it/s]Computing baseline logprobs:  16%|█▌        | 446/2825 [08:15<33:22,  1.19it/s]Computing baseline logprobs:  16%|█▌        | 447/2825 [08:16<33:38,  1.18it/s]Computing baseline logprobs:  16%|█▌        | 448/2825 [08:17<34:02,  1.16it/s]Computing baseline logprobs:  16%|█▌        | 449/2825 [08:17<31:38,  1.25it/s]Computing baseline logprobs:  16%|█▌        | 450/2825 [08:18<30:05,  1.32it/s]Computing baseline logprobs:  16%|█▌        | 451/2825 [08:19<30:07,  1.31it/s]Computing baseline logprobs:  16%|█▌        | 452/2825 [08:19<29:04,  1.36it/s]Computing baseline logprobs:  16%|█▌        | 453/2825 [08:20<28:21,  1.39it/s]Computing baseline logprobs:  16%|█▌        | 454/2825 [08:21<29:48,  1.33it/s]Computing baseline logprobs:  16%|█▌        | 455/2825 [08:22<30:08,  1.31it/s]Computing baseline logprobs:  16%|█▌        | 456/2825 [08:23<34:47,  1.13it/s]Computing baseline logprobs:  16%|█▌        | 457/2825 [08:24<35:14,  1.12it/s]Computing baseline logprobs:  16%|█▌        | 458/2825 [08:25<33:31,  1.18it/s]Computing baseline logprobs:  16%|█▌        | 459/2825 [08:25<30:59,  1.27it/s]Computing baseline logprobs:  16%|█▋        | 460/2825 [08:26<31:38,  1.25it/s]Computing baseline logprobs:  16%|█▋        | 461/2825 [08:27<29:11,  1.35it/s]Computing baseline logprobs:  16%|█▋        | 462/2825 [08:27<27:14,  1.45it/s]Computing baseline logprobs:  16%|█▋        | 463/2825 [08:28<26:54,  1.46it/s]Computing baseline logprobs:  16%|█▋        | 464/2825 [08:29<26:35,  1.48it/s]Computing baseline logprobs:  16%|█▋        | 465/2825 [08:29<25:41,  1.53it/s]Computing baseline logprobs:  16%|█▋        | 466/2825 [08:30<24:08,  1.63it/s]Computing baseline logprobs:  17%|█▋        | 467/2825 [08:30<23:53,  1.64it/s]Computing baseline logprobs:  17%|█▋        | 468/2825 [08:31<25:38,  1.53it/s]Computing baseline logprobs:  17%|█▋        | 469/2825 [08:32<31:33,  1.24it/s]Computing baseline logprobs:  17%|█▋        | 470/2825 [08:33<29:33,  1.33it/s]Computing baseline logprobs:  17%|█▋        | 471/2825 [08:34<30:21,  1.29it/s]Computing baseline logprobs:  17%|█▋        | 472/2825 [08:35<31:35,  1.24it/s]Computing baseline logprobs:  17%|█▋        | 473/2825 [08:36<34:10,  1.15it/s]Computing baseline logprobs:  17%|█▋        | 474/2825 [08:36<34:21,  1.14it/s]Computing baseline logprobs:  17%|█▋        | 475/2825 [08:37<35:20,  1.11it/s]Computing baseline logprobs:  17%|█▋        | 476/2825 [08:38<32:42,  1.20it/s]Computing baseline logprobs:  17%|█▋        | 477/2825 [08:39<28:44,  1.36it/s]Computing baseline logprobs:  17%|█▋        | 478/2825 [08:39<26:09,  1.50it/s]Computing baseline logprobs:  17%|█▋        | 479/2825 [08:40<27:30,  1.42it/s]Computing baseline logprobs:  17%|█▋        | 480/2825 [08:40<25:28,  1.53it/s]Computing baseline logprobs:  17%|█▋        | 481/2825 [08:41<25:16,  1.55it/s]Computing baseline logprobs:  17%|█▋        | 482/2825 [08:42<27:42,  1.41it/s]Computing baseline logprobs:  17%|█▋        | 483/2825 [08:43<28:22,  1.38it/s]Computing baseline logprobs:  17%|█▋        | 484/2825 [08:43<26:27,  1.48it/s]Computing baseline logprobs:  17%|█▋        | 485/2825 [08:44<29:26,  1.32it/s]Computing baseline logprobs:  17%|█▋        | 486/2825 [08:45<30:15,  1.29it/s]Computing baseline logprobs:  17%|█▋        | 487/2825 [08:46<31:31,  1.24it/s]Computing baseline logprobs:  17%|█▋        | 488/2825 [08:47<32:21,  1.20it/s]Computing baseline logprobs:  17%|█▋        | 489/2825 [08:47<30:48,  1.26it/s]Computing baseline logprobs:  17%|█▋        | 490/2825 [08:48<30:21,  1.28it/s]Computing baseline logprobs:  17%|█▋        | 491/2825 [08:49<28:07,  1.38it/s]Computing baseline logprobs:  17%|█▋        | 492/2825 [08:50<29:06,  1.34it/s]Computing baseline logprobs:  17%|█▋        | 493/2825 [08:50<28:04,  1.38it/s]Computing baseline logprobs:  17%|█▋        | 494/2825 [08:51<25:53,  1.50it/s]Computing baseline logprobs:  18%|█▊        | 495/2825 [08:51<25:28,  1.52it/s]Computing baseline logprobs:  18%|█▊        | 496/2825 [08:52<26:21,  1.47it/s]Computing baseline logprobs:  18%|█▊        | 497/2825 [08:53<26:06,  1.49it/s]Computing baseline logprobs:  18%|█▊        | 498/2825 [08:54<26:38,  1.46it/s]Computing baseline logprobs:  18%|█▊        | 499/2825 [08:55<29:49,  1.30it/s]Computing baseline logprobs:  18%|█▊        | 500/2825 [08:55<28:35,  1.36it/s]Computing baseline logprobs:  18%|█▊        | 501/2825 [08:56<32:30,  1.19it/s]Computing baseline logprobs:  18%|█▊        | 502/2825 [08:57<29:39,  1.31it/s]Computing baseline logprobs:  18%|█▊        | 503/2825 [08:57<26:59,  1.43it/s]Computing baseline logprobs:  18%|█▊        | 504/2825 [08:58<25:00,  1.55it/s]Computing baseline logprobs:  18%|█▊        | 505/2825 [08:58<23:49,  1.62it/s]Computing baseline logprobs:  18%|█▊        | 506/2825 [08:59<24:23,  1.58it/s]Computing baseline logprobs:  18%|█▊        | 507/2825 [09:00<23:38,  1.63it/s]Computing baseline logprobs:  18%|█▊        | 508/2825 [09:00<22:47,  1.69it/s]Computing baseline logprobs:  18%|█▊        | 509/2825 [09:01<21:38,  1.78it/s]Computing baseline logprobs:  18%|█▊        | 510/2825 [09:02<24:57,  1.55it/s]Computing baseline logprobs:  18%|█▊        | 511/2825 [09:02<23:45,  1.62it/s]Computing baseline logprobs:  18%|█▊        | 512/2825 [09:03<24:10,  1.59it/s]Computing baseline logprobs:  18%|█▊        | 513/2825 [09:03<23:11,  1.66it/s]Computing baseline logprobs:  18%|█▊        | 514/2825 [09:04<23:01,  1.67it/s]Computing baseline logprobs:  18%|█▊        | 515/2825 [09:05<24:29,  1.57it/s]Computing baseline logprobs:  18%|█▊        | 516/2825 [09:05<23:02,  1.67it/s]Computing baseline logprobs:  18%|█▊        | 517/2825 [09:06<24:01,  1.60it/s]Computing baseline logprobs:  18%|█▊        | 518/2825 [09:07<27:20,  1.41it/s]Computing baseline logprobs:  18%|█▊        | 519/2825 [09:08<32:00,  1.20it/s]Computing baseline logprobs:  18%|█▊        | 520/2825 [09:09<30:57,  1.24it/s]Computing baseline logprobs:  18%|█▊        | 521/2825 [09:09<30:07,  1.27it/s]Computing baseline logprobs:  18%|█▊        | 522/2825 [09:10<31:07,  1.23it/s]Computing baseline logprobs:  19%|█▊        | 523/2825 [09:11<35:16,  1.09it/s]Computing baseline logprobs:  19%|█▊        | 524/2825 [09:12<30:51,  1.24it/s]Computing baseline logprobs:  19%|█▊        | 525/2825 [09:13<30:18,  1.26it/s]Computing baseline logprobs:  19%|█▊        | 526/2825 [09:14<31:05,  1.23it/s]Computing baseline logprobs:  19%|█▊        | 527/2825 [09:14<29:22,  1.30it/s]Computing baseline logprobs:  19%|█▊        | 528/2825 [09:15<28:51,  1.33it/s]Computing baseline logprobs:  19%|█▊        | 529/2825 [09:16<31:09,  1.23it/s]Computing baseline logprobs:  19%|█▉        | 530/2825 [09:17<32:04,  1.19it/s]Computing baseline logprobs:  19%|█▉        | 531/2825 [09:17<29:44,  1.29it/s]Computing baseline logprobs:  19%|█▉        | 532/2825 [09:18<27:33,  1.39it/s]Computing baseline logprobs:  19%|█▉        | 533/2825 [09:19<25:50,  1.48it/s]Computing baseline logprobs:  19%|█▉        | 534/2825 [09:19<23:04,  1.65it/s]Computing baseline logprobs:  19%|█▉        | 535/2825 [09:20<21:59,  1.74it/s]Computing baseline logprobs:  19%|█▉        | 536/2825 [09:20<23:50,  1.60it/s]Computing baseline logprobs:  19%|█▉        | 537/2825 [09:21<22:55,  1.66it/s]Computing baseline logprobs:  19%|█▉        | 538/2825 [09:21<22:18,  1.71it/s]Computing baseline logprobs:  19%|█▉        | 539/2825 [09:22<25:23,  1.50it/s]Computing baseline logprobs:  19%|█▉        | 540/2825 [09:23<29:48,  1.28it/s]Computing baseline logprobs:  19%|█▉        | 541/2825 [09:24<32:59,  1.15it/s]Computing baseline logprobs:  19%|█▉        | 542/2825 [09:25<30:25,  1.25it/s]Computing baseline logprobs:  19%|█▉        | 543/2825 [09:26<29:26,  1.29it/s]Computing baseline logprobs:  19%|█▉        | 544/2825 [09:26<28:49,  1.32it/s]Computing baseline logprobs:  19%|█▉        | 545/2825 [09:27<30:29,  1.25it/s]Computing baseline logprobs:  19%|█▉        | 546/2825 [09:28<29:44,  1.28it/s]Computing baseline logprobs:  19%|█▉        | 547/2825 [09:29<30:42,  1.24it/s]Computing baseline logprobs:  19%|█▉        | 548/2825 [09:30<33:21,  1.14it/s]Computing baseline logprobs:  19%|█▉        | 549/2825 [09:31<34:35,  1.10it/s]Computing baseline logprobs:  19%|█▉        | 550/2825 [09:32<32:51,  1.15it/s]Computing baseline logprobs:  20%|█▉        | 551/2825 [09:32<31:37,  1.20it/s]Computing baseline logprobs:  20%|█▉        | 552/2825 [09:33<30:45,  1.23it/s]Computing baseline logprobs:  20%|█▉        | 553/2825 [09:34<29:32,  1.28it/s]Computing baseline logprobs:  20%|█▉        | 554/2825 [09:35<30:48,  1.23it/s]Computing baseline logprobs:  20%|█▉        | 555/2825 [09:36<31:52,  1.19it/s]Computing baseline logprobs:  20%|█▉        | 556/2825 [09:36<29:36,  1.28it/s]Computing baseline logprobs:  20%|█▉        | 557/2825 [09:37<28:17,  1.34it/s]Computing baseline logprobs:  20%|█▉        | 558/2825 [09:38<28:13,  1.34it/s]Computing baseline logprobs:  20%|█▉        | 559/2825 [09:39<28:38,  1.32it/s]Computing baseline logprobs:  20%|█▉        | 560/2825 [09:39<27:01,  1.40it/s]Computing baseline logprobs:  20%|█▉        | 561/2825 [09:40<24:11,  1.56it/s]Computing baseline logprobs:  20%|█▉        | 562/2825 [09:40<24:49,  1.52it/s]Computing baseline logprobs:  20%|█▉        | 563/2825 [09:41<28:25,  1.33it/s]Computing baseline logprobs:  20%|█▉        | 564/2825 [09:42<26:59,  1.40it/s]Computing baseline logprobs:  20%|██        | 565/2825 [09:43<24:52,  1.51it/s]Computing baseline logprobs:  20%|██        | 566/2825 [09:43<24:49,  1.52it/s]Computing baseline logprobs:  20%|██        | 567/2825 [09:44<24:46,  1.52it/s]Computing baseline logprobs:  20%|██        | 568/2825 [09:45<26:16,  1.43it/s]Computing baseline logprobs:  20%|██        | 569/2825 [09:45<27:32,  1.37it/s]Computing baseline logprobs:  20%|██        | 570/2825 [09:46<27:37,  1.36it/s]Computing baseline logprobs:  20%|██        | 571/2825 [09:47<26:13,  1.43it/s]Computing baseline logprobs:  20%|██        | 572/2825 [09:47<25:52,  1.45it/s]Computing baseline logprobs:  20%|██        | 573/2825 [09:48<26:24,  1.42it/s]Computing baseline logprobs:  20%|██        | 574/2825 [09:49<25:06,  1.49it/s]Computing baseline logprobs:  20%|██        | 575/2825 [09:50<26:52,  1.40it/s]Computing baseline logprobs:  20%|██        | 576/2825 [09:50<28:10,  1.33it/s]Computing baseline logprobs:  20%|██        | 577/2825 [09:51<28:01,  1.34it/s]Computing baseline logprobs:  20%|██        | 578/2825 [09:52<25:53,  1.45it/s]Computing baseline logprobs:  20%|██        | 579/2825 [09:52<25:46,  1.45it/s]Computing baseline logprobs:  21%|██        | 580/2825 [09:53<24:25,  1.53it/s]Computing baseline logprobs:  21%|██        | 581/2825 [09:54<25:31,  1.47it/s]Computing baseline logprobs:  21%|██        | 582/2825 [09:54<26:17,  1.42it/s]Computing baseline logprobs:  21%|██        | 583/2825 [09:55<25:27,  1.47it/s]Computing baseline logprobs:  21%|██        | 584/2825 [09:56<25:56,  1.44it/s]Computing baseline logprobs:  21%|██        | 585/2825 [09:57<27:35,  1.35it/s]Computing baseline logprobs:  21%|██        | 586/2825 [09:58<30:33,  1.22it/s]Computing baseline logprobs:  21%|██        | 587/2825 [09:59<30:33,  1.22it/s]Computing baseline logprobs:  21%|██        | 588/2825 [09:59<29:03,  1.28it/s]Computing baseline logprobs:  21%|██        | 589/2825 [10:00<28:11,  1.32it/s]Computing baseline logprobs:  21%|██        | 590/2825 [10:01<29:16,  1.27it/s]Computing baseline logprobs:  21%|██        | 591/2825 [10:02<31:08,  1.20it/s]Computing baseline logprobs:  21%|██        | 592/2825 [10:03<32:52,  1.13it/s]Computing baseline logprobs:  21%|██        | 593/2825 [10:04<32:34,  1.14it/s]Computing baseline logprobs:  21%|██        | 594/2825 [10:04<31:50,  1.17it/s]Computing baseline logprobs:  21%|██        | 595/2825 [10:05<28:47,  1.29it/s]Computing baseline logprobs:  21%|██        | 596/2825 [10:06<27:09,  1.37it/s]Computing baseline logprobs:  21%|██        | 597/2825 [10:06<26:27,  1.40it/s]Computing baseline logprobs:  21%|██        | 598/2825 [10:07<28:48,  1.29it/s]Computing baseline logprobs:  21%|██        | 599/2825 [10:08<28:55,  1.28it/s]Computing baseline logprobs:  21%|██        | 600/2825 [10:09<28:13,  1.31it/s]Computing baseline logprobs:  21%|██▏       | 601/2825 [10:09<27:19,  1.36it/s]Computing baseline logprobs:  21%|██▏       | 602/2825 [10:10<31:06,  1.19it/s]Computing baseline logprobs:  21%|██▏       | 603/2825 [10:11<30:48,  1.20it/s]Computing baseline logprobs:  21%|██▏       | 604/2825 [10:12<28:56,  1.28it/s]Computing baseline logprobs:  21%|██▏       | 605/2825 [10:13<31:01,  1.19it/s]Computing baseline logprobs:  21%|██▏       | 606/2825 [10:14<31:33,  1.17it/s]Computing baseline logprobs:  21%|██▏       | 607/2825 [10:14<29:51,  1.24it/s]Computing baseline logprobs:  22%|██▏       | 608/2825 [10:15<27:59,  1.32it/s]Computing baseline logprobs:  22%|██▏       | 609/2825 [10:16<29:36,  1.25it/s]Computing baseline logprobs:  22%|██▏       | 610/2825 [10:17<31:01,  1.19it/s]Computing baseline logprobs:  22%|██▏       | 611/2825 [10:18<32:43,  1.13it/s]Computing baseline logprobs:  22%|██▏       | 612/2825 [10:19<31:42,  1.16it/s]Computing baseline logprobs:  22%|██▏       | 613/2825 [10:19<29:58,  1.23it/s]Computing baseline logprobs:  22%|██▏       | 614/2825 [10:20<26:37,  1.38it/s]Computing baseline logprobs:  22%|██▏       | 615/2825 [10:21<25:50,  1.43it/s]Computing baseline logprobs:  22%|██▏       | 616/2825 [10:22<29:29,  1.25it/s]Computing baseline logprobs:  22%|██▏       | 617/2825 [10:22<29:30,  1.25it/s]Computing baseline logprobs:  22%|██▏       | 618/2825 [10:23<28:41,  1.28it/s]Computing baseline logprobs:  22%|██▏       | 619/2825 [10:24<28:37,  1.28it/s]Computing baseline logprobs:  22%|██▏       | 620/2825 [10:25<33:06,  1.11it/s]Computing baseline logprobs:  22%|██▏       | 621/2825 [10:26<32:40,  1.12it/s]Computing baseline logprobs:  22%|██▏       | 622/2825 [10:27<33:02,  1.11it/s]Computing baseline logprobs:  22%|██▏       | 623/2825 [10:28<30:53,  1.19it/s]Computing baseline logprobs:  22%|██▏       | 624/2825 [10:28<27:45,  1.32it/s]Computing baseline logprobs:  22%|██▏       | 625/2825 [10:29<29:18,  1.25it/s]Computing baseline logprobs:  22%|██▏       | 626/2825 [10:30<29:49,  1.23it/s]Computing baseline logprobs:  22%|██▏       | 627/2825 [10:31<29:32,  1.24it/s]Computing baseline logprobs:  22%|██▏       | 628/2825 [10:31<26:26,  1.38it/s]Computing baseline logprobs:  22%|██▏       | 629/2825 [10:32<26:53,  1.36it/s]Computing baseline logprobs:  22%|██▏       | 630/2825 [10:33<25:57,  1.41it/s]Computing baseline logprobs:  22%|██▏       | 631/2825 [10:33<24:05,  1.52it/s]Computing baseline logprobs:  22%|██▏       | 632/2825 [10:34<24:06,  1.52it/s]Computing baseline logprobs:  22%|██▏       | 633/2825 [10:35<26:26,  1.38it/s]Computing baseline logprobs:  22%|██▏       | 634/2825 [10:35<25:44,  1.42it/s]Computing baseline logprobs:  22%|██▏       | 635/2825 [10:36<27:25,  1.33it/s]Computing baseline logprobs:  23%|██▎       | 636/2825 [10:37<30:47,  1.18it/s]Computing baseline logprobs:  23%|██▎       | 637/2825 [10:38<30:28,  1.20it/s]Computing baseline logprobs:  23%|██▎       | 638/2825 [10:39<29:27,  1.24it/s]Computing baseline logprobs:  23%|██▎       | 639/2825 [10:40<31:08,  1.17it/s]Computing baseline logprobs:  23%|██▎       | 640/2825 [10:41<32:28,  1.12it/s]Computing baseline logprobs:  23%|██▎       | 641/2825 [10:42<30:36,  1.19it/s]Computing baseline logprobs:  23%|██▎       | 642/2825 [10:42<28:54,  1.26it/s]Computing baseline logprobs:  23%|██▎       | 643/2825 [10:43<32:11,  1.13it/s]Computing baseline logprobs:  23%|██▎       | 644/2825 [10:44<29:32,  1.23it/s]Computing baseline logprobs:  23%|██▎       | 645/2825 [10:45<28:28,  1.28it/s]Computing baseline logprobs:  23%|██▎       | 646/2825 [10:45<28:12,  1.29it/s]Computing baseline logprobs:  23%|██▎       | 647/2825 [10:46<26:32,  1.37it/s]Computing baseline logprobs:  23%|██▎       | 648/2825 [10:47<27:09,  1.34it/s]Computing baseline logprobs:  23%|██▎       | 649/2825 [10:48<26:33,  1.37it/s]Computing baseline logprobs:  23%|██▎       | 650/2825 [10:49<30:52,  1.17it/s]Computing baseline logprobs:  23%|██▎       | 651/2825 [10:49<27:46,  1.30it/s]Computing baseline logprobs:  23%|██▎       | 652/2825 [10:50<24:21,  1.49it/s]Computing baseline logprobs:  23%|██▎       | 653/2825 [10:50<23:39,  1.53it/s]Computing baseline logprobs:  23%|██▎       | 654/2825 [10:51<21:34,  1.68it/s]Computing baseline logprobs:  23%|██▎       | 655/2825 [10:51<21:30,  1.68it/s]Computing baseline logprobs:  23%|██▎       | 656/2825 [10:52<22:22,  1.62it/s]Computing baseline logprobs:  23%|██▎       | 657/2825 [10:53<22:21,  1.62it/s]Computing baseline logprobs:  23%|██▎       | 658/2825 [10:54<24:54,  1.45it/s]Computing baseline logprobs:  23%|██▎       | 659/2825 [10:55<28:23,  1.27it/s]Computing baseline logprobs:  23%|██▎       | 660/2825 [10:55<26:35,  1.36it/s]Computing baseline logprobs:  23%|██▎       | 661/2825 [10:56<24:48,  1.45it/s]Computing baseline logprobs:  23%|██▎       | 662/2825 [10:56<23:27,  1.54it/s]Computing baseline logprobs:  23%|██▎       | 663/2825 [10:57<24:32,  1.47it/s]Computing baseline logprobs:  24%|██▎       | 664/2825 [10:58<25:58,  1.39it/s]Computing baseline logprobs:  24%|██▎       | 665/2825 [10:59<27:42,  1.30it/s]Computing baseline logprobs:  24%|██▎       | 666/2825 [11:00<29:43,  1.21it/s]Computing baseline logprobs:  24%|██▎       | 667/2825 [11:01<29:16,  1.23it/s]Computing baseline logprobs:  24%|██▎       | 668/2825 [11:01<27:19,  1.32it/s]Computing baseline logprobs:  24%|██▎       | 669/2825 [11:02<27:50,  1.29it/s]Computing baseline logprobs:  24%|██▎       | 670/2825 [11:03<28:19,  1.27it/s]Computing baseline logprobs:  24%|██▍       | 671/2825 [11:04<28:27,  1.26it/s]Computing baseline logprobs:  24%|██▍       | 672/2825 [11:04<27:42,  1.30it/s]Computing baseline logprobs:  24%|██▍       | 673/2825 [11:05<26:03,  1.38it/s]Computing baseline logprobs:  24%|██▍       | 674/2825 [11:05<24:08,  1.49it/s]Computing baseline logprobs:  24%|██▍       | 675/2825 [11:06<22:25,  1.60it/s]Computing baseline logprobs:  24%|██▍       | 676/2825 [11:07<23:43,  1.51it/s]Computing baseline logprobs:  24%|██▍       | 677/2825 [11:08<27:30,  1.30it/s]Computing baseline logprobs:  24%|██▍       | 678/2825 [11:09<27:29,  1.30it/s]Computing baseline logprobs:  24%|██▍       | 679/2825 [11:09<27:26,  1.30it/s]Computing baseline logprobs:  24%|██▍       | 680/2825 [11:10<28:34,  1.25it/s]Computing baseline logprobs:  24%|██▍       | 681/2825 [11:11<28:20,  1.26it/s]Computing baseline logprobs:  24%|██▍       | 682/2825 [11:12<28:36,  1.25it/s]Computing baseline logprobs:  24%|██▍       | 683/2825 [11:13<29:12,  1.22it/s]Computing baseline logprobs:  24%|██▍       | 684/2825 [11:14<30:34,  1.17it/s]Computing baseline logprobs:  24%|██▍       | 685/2825 [11:15<31:45,  1.12it/s]Computing baseline logprobs:  24%|██▍       | 686/2825 [11:15<31:06,  1.15it/s]Computing baseline logprobs:  24%|██▍       | 687/2825 [11:16<27:25,  1.30it/s]Computing baseline logprobs:  24%|██▍       | 688/2825 [11:17<26:34,  1.34it/s]Computing baseline logprobs:  24%|██▍       | 689/2825 [11:17<25:08,  1.42it/s]Computing baseline logprobs:  24%|██▍       | 690/2825 [11:18<25:20,  1.40it/s]Computing baseline logprobs:  24%|██▍       | 691/2825 [11:19<24:32,  1.45it/s]Computing baseline logprobs:  24%|██▍       | 692/2825 [11:19<25:11,  1.41it/s]Computing baseline logprobs:  25%|██▍       | 693/2825 [11:20<24:43,  1.44it/s]Computing baseline logprobs:  25%|██▍       | 694/2825 [11:21<25:21,  1.40it/s]Computing baseline logprobs:  25%|██▍       | 695/2825 [11:22<26:52,  1.32it/s]Computing baseline logprobs:  25%|██▍       | 696/2825 [11:23<29:12,  1.22it/s]Computing baseline logprobs:  25%|██▍       | 697/2825 [11:23<29:16,  1.21it/s]Computing baseline logprobs:  25%|██▍       | 698/2825 [11:24<30:42,  1.15it/s]Computing baseline logprobs:  25%|██▍       | 699/2825 [11:25<28:34,  1.24it/s]Computing baseline logprobs:  25%|██▍       | 700/2825 [11:26<26:46,  1.32it/s]Computing baseline logprobs:  25%|██▍       | 701/2825 [11:26<24:46,  1.43it/s]Computing baseline logprobs:  25%|██▍       | 702/2825 [11:27<23:32,  1.50it/s]Computing baseline logprobs:  25%|██▍       | 703/2825 [11:28<24:00,  1.47it/s]Computing baseline logprobs:  25%|██▍       | 704/2825 [11:28<25:41,  1.38it/s]Computing baseline logprobs:  25%|██▍       | 705/2825 [11:29<27:04,  1.30it/s]Computing baseline logprobs:  25%|██▍       | 706/2825 [11:30<25:04,  1.41it/s]Computing baseline logprobs:  25%|██▌       | 707/2825 [11:30<23:23,  1.51it/s]Computing baseline logprobs:  25%|██▌       | 708/2825 [11:31<24:41,  1.43it/s]Computing baseline logprobs:  25%|██▌       | 709/2825 [11:32<26:31,  1.33it/s]Computing baseline logprobs:  25%|██▌       | 710/2825 [11:33<29:58,  1.18it/s]Computing baseline logprobs:  25%|██▌       | 711/2825 [11:34<29:12,  1.21it/s]Computing baseline logprobs:  25%|██▌       | 712/2825 [11:34<26:58,  1.31it/s]Computing baseline logprobs:  25%|██▌       | 713/2825 [11:35<24:58,  1.41it/s]Computing baseline logprobs:  25%|██▌       | 714/2825 [11:36<25:23,  1.39it/s]Computing baseline logprobs:  25%|██▌       | 715/2825 [11:36<24:34,  1.43it/s]Computing baseline logprobs:  25%|██▌       | 716/2825 [11:37<24:00,  1.46it/s]Computing baseline logprobs:  25%|██▌       | 717/2825 [11:38<24:16,  1.45it/s]Computing baseline logprobs:  25%|██▌       | 718/2825 [11:39<24:14,  1.45it/s]Computing baseline logprobs:  25%|██▌       | 719/2825 [11:39<23:10,  1.51it/s]Computing baseline logprobs:  25%|██▌       | 720/2825 [11:40<25:49,  1.36it/s]Computing baseline logprobs:  26%|██▌       | 721/2825 [11:41<24:09,  1.45it/s]Computing baseline logprobs:  26%|██▌       | 722/2825 [11:41<24:09,  1.45it/s]Computing baseline logprobs:  26%|██▌       | 723/2825 [11:42<28:14,  1.24it/s]Computing baseline logprobs:  26%|██▌       | 724/2825 [11:43<27:17,  1.28it/s]Computing baseline logprobs:  26%|██▌       | 725/2825 [11:44<28:18,  1.24it/s]Computing baseline logprobs:  26%|██▌       | 726/2825 [11:44<25:01,  1.40it/s]Computing baseline logprobs:  26%|██▌       | 727/2825 [11:45<21:58,  1.59it/s]Computing baseline logprobs:  26%|██▌       | 728/2825 [11:45<21:31,  1.62it/s]Computing baseline logprobs:  26%|██▌       | 729/2825 [11:46<20:03,  1.74it/s]Computing baseline logprobs:  26%|██▌       | 730/2825 [11:47<20:19,  1.72it/s]Computing baseline logprobs:  26%|██▌       | 731/2825 [11:47<22:32,  1.55it/s]Computing baseline logprobs:  26%|██▌       | 732/2825 [11:48<24:00,  1.45it/s]Computing baseline logprobs:  26%|██▌       | 733/2825 [11:49<25:59,  1.34it/s]Computing baseline logprobs:  26%|██▌       | 734/2825 [11:50<26:32,  1.31it/s]Computing baseline logprobs:  26%|██▌       | 735/2825 [11:51<27:30,  1.27it/s]Computing baseline logprobs:  26%|██▌       | 736/2825 [11:51<26:57,  1.29it/s]Computing baseline logprobs:  26%|██▌       | 737/2825 [11:52<25:30,  1.36it/s]Computing baseline logprobs:  26%|██▌       | 738/2825 [11:53<25:33,  1.36it/s]Computing baseline logprobs:  26%|██▌       | 739/2825 [11:53<23:51,  1.46it/s]Computing baseline logprobs:  26%|██▌       | 740/2825 [11:54<23:05,  1.51it/s]Computing baseline logprobs:  26%|██▌       | 741/2825 [11:55<22:02,  1.58it/s]Computing baseline logprobs:  26%|██▋       | 742/2825 [11:55<23:19,  1.49it/s]Computing baseline logprobs:  26%|██▋       | 743/2825 [11:56<24:00,  1.45it/s]Computing baseline logprobs:  26%|██▋       | 744/2825 [11:57<25:59,  1.33it/s]Computing baseline logprobs:  26%|██▋       | 745/2825 [11:58<26:04,  1.33it/s]Computing baseline logprobs:  26%|██▋       | 746/2825 [11:58<23:23,  1.48it/s]Computing baseline logprobs:  26%|██▋       | 747/2825 [11:59<22:12,  1.56it/s]Computing baseline logprobs:  26%|██▋       | 748/2825 [12:00<23:45,  1.46it/s]Computing baseline logprobs:  27%|██▋       | 749/2825 [12:00<24:29,  1.41it/s]Computing baseline logprobs:  27%|██▋       | 750/2825 [12:01<25:14,  1.37it/s]Computing baseline logprobs:  27%|██▋       | 751/2825 [12:02<27:57,  1.24it/s]Computing baseline logprobs:  27%|██▋       | 752/2825 [12:03<25:15,  1.37it/s]Computing baseline logprobs:  27%|██▋       | 753/2825 [12:03<24:22,  1.42it/s]Computing baseline logprobs:  27%|██▋       | 754/2825 [12:04<27:36,  1.25it/s]Computing baseline logprobs:  27%|██▋       | 755/2825 [12:05<30:00,  1.15it/s]Computing baseline logprobs:  27%|██▋       | 756/2825 [12:06<29:29,  1.17it/s]Computing baseline logprobs:  27%|██▋       | 757/2825 [12:07<28:05,  1.23it/s]Computing baseline logprobs:  27%|██▋       | 758/2825 [12:08<26:35,  1.30it/s]Computing baseline logprobs:  27%|██▋       | 759/2825 [12:08<26:04,  1.32it/s]Computing baseline logprobs:  27%|██▋       | 760/2825 [12:09<24:03,  1.43it/s]Computing baseline logprobs:  27%|██▋       | 761/2825 [12:09<22:03,  1.56it/s]Computing baseline logprobs:  27%|██▋       | 762/2825 [12:10<25:40,  1.34it/s]Computing baseline logprobs:  27%|██▋       | 763/2825 [12:11<23:40,  1.45it/s]Computing baseline logprobs:  27%|██▋       | 764/2825 [12:11<21:41,  1.58it/s]Computing baseline logprobs:  27%|██▋       | 765/2825 [12:12<20:55,  1.64it/s]Computing baseline logprobs:  27%|██▋       | 766/2825 [12:13<21:46,  1.58it/s]Computing baseline logprobs:  27%|██▋       | 767/2825 [12:14<26:49,  1.28it/s]Computing baseline logprobs:  27%|██▋       | 768/2825 [12:14<25:03,  1.37it/s]Computing baseline logprobs:  27%|██▋       | 769/2825 [12:15<23:48,  1.44it/s]Computing baseline logprobs:  27%|██▋       | 770/2825 [12:16<24:27,  1.40it/s]Computing baseline logprobs:  27%|██▋       | 771/2825 [12:16<22:06,  1.55it/s]Computing baseline logprobs:  27%|██▋       | 772/2825 [12:17<21:17,  1.61it/s]Computing baseline logprobs:  27%|██▋       | 773/2825 [12:17<20:42,  1.65it/s]Computing baseline logprobs:  27%|██▋       | 774/2825 [12:18<21:09,  1.62it/s]Computing baseline logprobs:  27%|██▋       | 775/2825 [12:19<22:14,  1.54it/s]Computing baseline logprobs:  27%|██▋       | 776/2825 [12:19<20:33,  1.66it/s]Computing baseline logprobs:  28%|██▊       | 777/2825 [12:20<21:02,  1.62it/s]Computing baseline logprobs:  28%|██▊       | 778/2825 [12:21<22:43,  1.50it/s]Computing baseline logprobs:  28%|██▊       | 779/2825 [12:21<22:41,  1.50it/s]Computing baseline logprobs:  28%|██▊       | 780/2825 [12:22<22:09,  1.54it/s]Computing baseline logprobs:  28%|██▊       | 781/2825 [12:23<22:46,  1.50it/s]Computing baseline logprobs:  28%|██▊       | 782/2825 [12:23<21:15,  1.60it/s]Computing baseline logprobs:  28%|██▊       | 783/2825 [12:24<21:35,  1.58it/s]Computing baseline logprobs:  28%|██▊       | 784/2825 [12:24<21:38,  1.57it/s]Computing baseline logprobs:  28%|██▊       | 785/2825 [12:25<20:18,  1.67it/s]Computing baseline logprobs:  28%|██▊       | 786/2825 [12:26<20:54,  1.63it/s]Computing baseline logprobs:  28%|██▊       | 787/2825 [12:26<22:49,  1.49it/s]Computing baseline logprobs:  28%|██▊       | 788/2825 [12:27<22:19,  1.52it/s]Computing baseline logprobs:  28%|██▊       | 789/2825 [12:28<25:40,  1.32it/s]Computing baseline logprobs:  28%|██▊       | 790/2825 [12:29<23:43,  1.43it/s]Computing baseline logprobs:  28%|██▊       | 791/2825 [12:29<23:29,  1.44it/s]Computing baseline logprobs:  28%|██▊       | 792/2825 [12:30<23:47,  1.42it/s]Computing baseline logprobs:  28%|██▊       | 793/2825 [12:31<22:56,  1.48it/s]Computing baseline logprobs:  28%|██▊       | 794/2825 [12:31<24:00,  1.41it/s]Computing baseline logprobs:  28%|██▊       | 795/2825 [12:32<25:32,  1.32it/s]Computing baseline logprobs:  28%|██▊       | 796/2825 [12:33<27:14,  1.24it/s]Computing baseline logprobs:  28%|██▊       | 797/2825 [12:34<27:16,  1.24it/s]Computing baseline logprobs:  28%|██▊       | 798/2825 [12:35<26:44,  1.26it/s]Computing baseline logprobs:  28%|██▊       | 799/2825 [12:35<26:24,  1.28it/s]Computing baseline logprobs:  28%|██▊       | 800/2825 [12:36<25:02,  1.35it/s]Computing baseline logprobs:  28%|██▊       | 801/2825 [12:37<24:49,  1.36it/s]Computing baseline logprobs:  28%|██▊       | 802/2825 [12:38<28:48,  1.17it/s]Computing baseline logprobs:  28%|██▊       | 803/2825 [12:39<26:49,  1.26it/s]Computing baseline logprobs:  28%|██▊       | 804/2825 [12:39<26:49,  1.26it/s]Computing baseline logprobs:  28%|██▊       | 805/2825 [12:40<26:13,  1.28it/s]Computing baseline logprobs:  29%|██▊       | 806/2825 [12:41<24:41,  1.36it/s]Computing baseline logprobs:  29%|██▊       | 807/2825 [12:42<25:50,  1.30it/s]Computing baseline logprobs:  29%|██▊       | 808/2825 [12:43<26:53,  1.25it/s]Computing baseline logprobs:  29%|██▊       | 809/2825 [12:43<25:18,  1.33it/s]Computing baseline logprobs:  29%|██▊       | 810/2825 [12:44<26:33,  1.26it/s]Computing baseline logprobs:  29%|██▊       | 811/2825 [12:45<29:03,  1.15it/s]Computing baseline logprobs:  29%|██▊       | 812/2825 [12:46<27:26,  1.22it/s]Computing baseline logprobs:  29%|██▉       | 813/2825 [12:47<27:13,  1.23it/s]Computing baseline logprobs:  29%|██▉       | 814/2825 [12:47<25:21,  1.32it/s]Computing baseline logprobs:  29%|██▉       | 815/2825 [12:48<23:13,  1.44it/s]Computing baseline logprobs:  29%|██▉       | 816/2825 [12:48<22:23,  1.50it/s]Computing baseline logprobs:  29%|██▉       | 817/2825 [12:49<23:51,  1.40it/s]Computing baseline logprobs:  29%|██▉       | 818/2825 [12:50<25:12,  1.33it/s]Computing baseline logprobs:  29%|██▉       | 819/2825 [12:51<22:59,  1.45it/s]Computing baseline logprobs:  29%|██▉       | 820/2825 [12:51<22:50,  1.46it/s]Computing baseline logprobs:  29%|██▉       | 821/2825 [12:52<22:52,  1.46it/s]Computing baseline logprobs:  29%|██▉       | 822/2825 [12:53<21:58,  1.52it/s]Computing baseline logprobs:  29%|██▉       | 823/2825 [12:53<21:00,  1.59it/s]Computing baseline logprobs:  29%|██▉       | 824/2825 [12:54<22:51,  1.46it/s]Computing baseline logprobs:  29%|██▉       | 825/2825 [12:55<22:40,  1.47it/s]Computing baseline logprobs:  29%|██▉       | 826/2825 [12:55<23:51,  1.40it/s]Computing baseline logprobs:  29%|██▉       | 827/2825 [12:56<23:43,  1.40it/s]Computing baseline logprobs:  29%|██▉       | 828/2825 [12:57<22:24,  1.49it/s]Computing baseline logprobs:  29%|██▉       | 829/2825 [12:58<24:50,  1.34it/s]Computing baseline logprobs:  29%|██▉       | 830/2825 [12:58<24:47,  1.34it/s]Computing baseline logprobs:  29%|██▉       | 831/2825 [12:59<23:33,  1.41it/s]Computing baseline logprobs:  29%|██▉       | 832/2825 [13:00<23:34,  1.41it/s]Computing baseline logprobs:  29%|██▉       | 833/2825 [13:00<23:08,  1.43it/s]Computing baseline logprobs:  30%|██▉       | 834/2825 [13:01<25:20,  1.31it/s]Computing baseline logprobs:  30%|██▉       | 835/2825 [13:02<24:10,  1.37it/s]Computing baseline logprobs:  30%|██▉       | 836/2825 [13:03<24:23,  1.36it/s]Computing baseline logprobs:  30%|██▉       | 837/2825 [13:03<22:37,  1.46it/s]Computing baseline logprobs:  30%|██▉       | 838/2825 [13:04<21:03,  1.57it/s]Computing baseline logprobs:  30%|██▉       | 839/2825 [13:05<23:33,  1.40it/s]Computing baseline logprobs:  30%|██▉       | 840/2825 [13:06<26:02,  1.27it/s]Computing baseline logprobs:  30%|██▉       | 841/2825 [13:06<23:25,  1.41it/s]Computing baseline logprobs:  30%|██▉       | 842/2825 [13:07<21:31,  1.54it/s]Computing baseline logprobs:  30%|██▉       | 843/2825 [13:07<22:28,  1.47it/s]Computing baseline logprobs:  30%|██▉       | 844/2825 [13:08<22:51,  1.44it/s]Computing baseline logprobs:  30%|██▉       | 845/2825 [13:09<24:09,  1.37it/s]Computing baseline logprobs:  30%|██▉       | 846/2825 [13:10<26:08,  1.26it/s]Computing baseline logprobs:  30%|██▉       | 847/2825 [13:11<25:42,  1.28it/s]Computing baseline logprobs:  30%|███       | 848/2825 [13:11<26:45,  1.23it/s]Computing baseline logprobs:  30%|███       | 849/2825 [13:12<27:30,  1.20it/s]Computing baseline logprobs:  30%|███       | 850/2825 [13:13<27:22,  1.20it/s]Computing baseline logprobs:  30%|███       | 851/2825 [13:14<26:22,  1.25it/s]Computing baseline logprobs:  30%|███       | 852/2825 [13:15<25:42,  1.28it/s]Computing baseline logprobs:  30%|███       | 853/2825 [13:15<25:52,  1.27it/s]Computing baseline logprobs:  30%|███       | 854/2825 [13:16<25:26,  1.29it/s]Computing baseline logprobs:  30%|███       | 855/2825 [13:17<27:17,  1.20it/s]Computing baseline logprobs:  30%|███       | 856/2825 [13:18<24:29,  1.34it/s]Computing baseline logprobs:  30%|███       | 857/2825 [13:19<27:14,  1.20it/s]Computing baseline logprobs:  30%|███       | 858/2825 [13:20<26:25,  1.24it/s]Computing baseline logprobs:  30%|███       | 859/2825 [13:20<24:50,  1.32it/s]Computing baseline logprobs:  30%|███       | 860/2825 [13:21<25:10,  1.30it/s]Computing baseline logprobs:  30%|███       | 861/2825 [13:22<24:58,  1.31it/s]Computing baseline logprobs:  31%|███       | 862/2825 [13:22<25:05,  1.30it/s]Computing baseline logprobs:  31%|███       | 863/2825 [13:23<25:01,  1.31it/s]Computing baseline logprobs:  31%|███       | 864/2825 [13:24<25:33,  1.28it/s]Computing baseline logprobs:  31%|███       | 865/2825 [13:25<25:14,  1.29it/s]Computing baseline logprobs:  31%|███       | 866/2825 [13:26<25:36,  1.27it/s]Computing baseline logprobs:  31%|███       | 867/2825 [13:26<25:10,  1.30it/s]Computing baseline logprobs:  31%|███       | 868/2825 [13:27<23:24,  1.39it/s]Computing baseline logprobs:  31%|███       | 869/2825 [13:28<22:15,  1.46it/s]Computing baseline logprobs:  31%|███       | 870/2825 [13:28<20:54,  1.56it/s]Computing baseline logprobs:  31%|███       | 871/2825 [13:29<21:26,  1.52it/s]Computing baseline logprobs:  31%|███       | 872/2825 [13:30<22:35,  1.44it/s]Computing baseline logprobs:  31%|███       | 873/2825 [13:30<22:23,  1.45it/s]Computing baseline logprobs:  31%|███       | 874/2825 [13:31<21:00,  1.55it/s]Computing baseline logprobs:  31%|███       | 875/2825 [13:31<19:45,  1.64it/s]Computing baseline logprobs:  31%|███       | 876/2825 [13:32<20:15,  1.60it/s]Computing baseline logprobs:  31%|███       | 877/2825 [13:33<21:41,  1.50it/s]Computing baseline logprobs:  31%|███       | 878/2825 [13:33<21:48,  1.49it/s]Computing baseline logprobs:  31%|███       | 879/2825 [13:34<20:15,  1.60it/s]Computing baseline logprobs:  31%|███       | 880/2825 [13:35<22:00,  1.47it/s]Computing baseline logprobs:  31%|███       | 881/2825 [13:36<23:51,  1.36it/s]Computing baseline logprobs:  31%|███       | 882/2825 [13:36<24:25,  1.33it/s]Computing baseline logprobs:  31%|███▏      | 883/2825 [13:37<24:01,  1.35it/s]Computing baseline logprobs:  31%|███▏      | 884/2825 [13:38<28:17,  1.14it/s]Computing baseline logprobs:  31%|███▏      | 885/2825 [13:39<30:34,  1.06it/s]Computing baseline logprobs:  31%|███▏      | 886/2825 [13:41<33:11,  1.03s/it]Computing baseline logprobs:  31%|███▏      | 887/2825 [13:41<30:18,  1.07it/s]Computing baseline logprobs:  31%|███▏      | 888/2825 [13:42<28:21,  1.14it/s]Computing baseline logprobs:  31%|███▏      | 889/2825 [13:43<28:05,  1.15it/s]Computing baseline logprobs:  32%|███▏      | 890/2825 [13:44<28:22,  1.14it/s]Computing baseline logprobs:  32%|███▏      | 891/2825 [13:44<24:48,  1.30it/s]Computing baseline logprobs:  32%|███▏      | 892/2825 [13:45<23:22,  1.38it/s]Computing baseline logprobs:  32%|███▏      | 893/2825 [13:46<24:22,  1.32it/s]Computing baseline logprobs:  32%|███▏      | 894/2825 [13:46<23:22,  1.38it/s]Computing baseline logprobs:  32%|███▏      | 895/2825 [13:47<23:58,  1.34it/s]Computing baseline logprobs:  32%|███▏      | 896/2825 [13:48<25:23,  1.27it/s]Computing baseline logprobs:  32%|███▏      | 897/2825 [13:49<23:22,  1.37it/s]Computing baseline logprobs:  32%|███▏      | 898/2825 [13:49<22:38,  1.42it/s]Computing baseline logprobs:  32%|███▏      | 899/2825 [13:50<25:29,  1.26it/s]Computing baseline logprobs:  32%|███▏      | 900/2825 [13:51<26:27,  1.21it/s]Computing baseline logprobs:  32%|███▏      | 901/2825 [13:52<25:51,  1.24it/s]Computing baseline logprobs:  32%|███▏      | 902/2825 [13:53<23:48,  1.35it/s]Computing baseline logprobs:  32%|███▏      | 903/2825 [13:53<24:21,  1.31it/s]Computing baseline logprobs:  32%|███▏      | 904/2825 [13:54<22:10,  1.44it/s]Computing baseline logprobs:  32%|███▏      | 905/2825 [13:54<19:39,  1.63it/s]Computing baseline logprobs:  32%|███▏      | 906/2825 [13:55<18:55,  1.69it/s]Computing baseline logprobs:  32%|███▏      | 907/2825 [13:56<21:12,  1.51it/s]Computing baseline logprobs:  32%|███▏      | 908/2825 [13:57<23:20,  1.37it/s]Computing baseline logprobs:  32%|███▏      | 909/2825 [13:57<22:57,  1.39it/s]Computing baseline logprobs:  32%|███▏      | 910/2825 [13:58<24:33,  1.30it/s]Computing baseline logprobs:  32%|███▏      | 911/2825 [13:59<24:57,  1.28it/s]Computing baseline logprobs:  32%|███▏      | 912/2825 [14:00<22:33,  1.41it/s]Computing baseline logprobs:  32%|███▏      | 913/2825 [14:00<23:35,  1.35it/s]Computing baseline logprobs:  32%|███▏      | 914/2825 [14:01<25:23,  1.25it/s]Computing baseline logprobs:  32%|███▏      | 915/2825 [14:02<28:23,  1.12it/s]Computing baseline logprobs:  32%|███▏      | 916/2825 [14:03<26:51,  1.18it/s]Computing baseline logprobs:  32%|███▏      | 917/2825 [14:04<27:01,  1.18it/s]Computing baseline logprobs:  32%|███▏      | 918/2825 [14:05<26:52,  1.18it/s]Computing baseline logprobs:  33%|███▎      | 919/2825 [14:06<25:37,  1.24it/s]Computing baseline logprobs:  33%|███▎      | 920/2825 [14:06<25:33,  1.24it/s]Computing baseline logprobs:  33%|███▎      | 921/2825 [14:07<23:51,  1.33it/s]Computing baseline logprobs:  33%|███▎      | 922/2825 [14:08<24:53,  1.27it/s]Computing baseline logprobs:  33%|███▎      | 923/2825 [14:09<24:52,  1.27it/s]Computing baseline logprobs:  33%|███▎      | 924/2825 [14:09<24:46,  1.28it/s]Computing baseline logprobs:  33%|███▎      | 925/2825 [14:10<24:09,  1.31it/s]Computing baseline logprobs:  33%|███▎      | 926/2825 [14:11<24:48,  1.28it/s]Computing baseline logprobs:  33%|███▎      | 927/2825 [14:12<25:15,  1.25it/s]Computing baseline logprobs:  33%|███▎      | 928/2825 [14:13<25:30,  1.24it/s]Computing baseline logprobs:  33%|███▎      | 929/2825 [14:14<27:22,  1.15it/s]Computing baseline logprobs:  33%|███▎      | 930/2825 [14:14<24:46,  1.27it/s]Computing baseline logprobs:  33%|███▎      | 931/2825 [14:15<24:20,  1.30it/s]Computing baseline logprobs:  33%|███▎      | 932/2825 [14:16<25:33,  1.23it/s]Computing baseline logprobs:  33%|███▎      | 933/2825 [14:17<23:51,  1.32it/s]Computing baseline logprobs:  33%|███▎      | 934/2825 [14:17<23:08,  1.36it/s]Computing baseline logprobs:  33%|███▎      | 935/2825 [14:18<25:22,  1.24it/s]Computing baseline logprobs:  33%|███▎      | 936/2825 [14:19<29:09,  1.08it/s]Computing baseline logprobs:  33%|███▎      | 937/2825 [14:20<29:35,  1.06it/s]Computing baseline logprobs:  33%|███▎      | 938/2825 [14:21<27:00,  1.16it/s]Computing baseline logprobs:  33%|███▎      | 939/2825 [14:22<26:52,  1.17it/s]Computing baseline logprobs:  33%|███▎      | 940/2825 [14:23<26:41,  1.18it/s]Computing baseline logprobs:  33%|███▎      | 941/2825 [14:23<24:59,  1.26it/s]Computing baseline logprobs:  33%|███▎      | 942/2825 [14:24<25:37,  1.23it/s]Computing baseline logprobs:  33%|███▎      | 943/2825 [14:25<26:39,  1.18it/s]Computing baseline logprobs:  33%|███▎      | 944/2825 [14:26<26:30,  1.18it/s]Computing baseline logprobs:  33%|███▎      | 945/2825 [14:27<27:05,  1.16it/s]Computing baseline logprobs:  33%|███▎      | 946/2825 [14:28<28:24,  1.10it/s]Computing baseline logprobs:  34%|███▎      | 947/2825 [14:29<27:29,  1.14it/s]Computing baseline logprobs:  34%|███▎      | 948/2825 [14:30<28:42,  1.09it/s]Computing baseline logprobs:  34%|███▎      | 949/2825 [14:31<27:43,  1.13it/s]Computing baseline logprobs:  34%|███▎      | 950/2825 [14:31<25:03,  1.25it/s]Computing baseline logprobs:  34%|███▎      | 951/2825 [14:32<24:59,  1.25it/s]Computing baseline logprobs:  34%|███▎      | 952/2825 [14:33<25:20,  1.23it/s]Computing baseline logprobs:  34%|███▎      | 953/2825 [14:33<23:56,  1.30it/s]Computing baseline logprobs:  34%|███▍      | 954/2825 [14:34<21:43,  1.44it/s]Computing baseline logprobs:  34%|███▍      | 955/2825 [14:35<21:20,  1.46it/s]Computing baseline logprobs:  34%|███▍      | 956/2825 [14:35<20:23,  1.53it/s]Computing baseline logprobs:  34%|███▍      | 957/2825 [14:36<22:08,  1.41it/s]Computing baseline logprobs:  34%|███▍      | 958/2825 [14:37<24:00,  1.30it/s]Computing baseline logprobs:  34%|███▍      | 959/2825 [14:38<26:32,  1.17it/s]Computing baseline logprobs:  34%|███▍      | 960/2825 [14:39<25:45,  1.21it/s]Computing baseline logprobs:  34%|███▍      | 961/2825 [14:40<26:34,  1.17it/s]Computing baseline logprobs:  34%|███▍      | 962/2825 [14:41<27:06,  1.15it/s]Computing baseline logprobs:  34%|███▍      | 963/2825 [14:42<27:26,  1.13it/s]Computing baseline logprobs:  34%|███▍      | 964/2825 [14:42<27:07,  1.14it/s]Computing baseline logprobs:  34%|███▍      | 965/2825 [14:43<27:42,  1.12it/s]Computing baseline logprobs:  34%|███▍      | 966/2825 [14:44<25:09,  1.23it/s]Computing baseline logprobs:  34%|███▍      | 967/2825 [14:45<25:28,  1.22it/s]Computing baseline logprobs:  34%|███▍      | 968/2825 [14:46<25:58,  1.19it/s]Computing baseline logprobs:  34%|███▍      | 969/2825 [14:47<27:48,  1.11it/s]Computing baseline logprobs:  34%|███▍      | 970/2825 [14:48<28:30,  1.08it/s]Computing baseline logprobs:  34%|███▍      | 971/2825 [14:48<25:18,  1.22it/s]Computing baseline logprobs:  34%|███▍      | 972/2825 [14:49<22:00,  1.40it/s]Computing baseline logprobs:  34%|███▍      | 973/2825 [14:49<20:33,  1.50it/s]Computing baseline logprobs:  34%|███▍      | 974/2825 [14:50<21:43,  1.42it/s]Computing baseline logprobs:  35%|███▍      | 975/2825 [14:51<23:46,  1.30it/s]Computing baseline logprobs:  35%|███▍      | 976/2825 [14:52<24:19,  1.27it/s]Computing baseline logprobs:  35%|███▍      | 977/2825 [14:53<24:03,  1.28it/s]Computing baseline logprobs:  35%|███▍      | 978/2825 [14:53<24:02,  1.28it/s]Computing baseline logprobs:  35%|███▍      | 979/2825 [14:54<24:18,  1.27it/s]Computing baseline logprobs:  35%|███▍      | 980/2825 [14:55<24:41,  1.25it/s]Computing baseline logprobs:  35%|███▍      | 981/2825 [14:56<24:18,  1.26it/s]Computing baseline logprobs:  35%|███▍      | 982/2825 [14:56<21:44,  1.41it/s]Computing baseline logprobs:  35%|███▍      | 983/2825 [14:57<20:28,  1.50it/s]Computing baseline logprobs:  35%|███▍      | 984/2825 [14:58<20:26,  1.50it/s]Computing baseline logprobs:  35%|███▍      | 985/2825 [14:58<21:25,  1.43it/s]Computing baseline logprobs:  35%|███▍      | 986/2825 [14:59<22:28,  1.36it/s]Computing baseline logprobs:  35%|███▍      | 987/2825 [15:00<23:06,  1.33it/s]Computing baseline logprobs:  35%|███▍      | 988/2825 [15:01<21:56,  1.40it/s]Computing baseline logprobs:  35%|███▌      | 989/2825 [15:01<23:13,  1.32it/s]Computing baseline logprobs:  35%|███▌      | 990/2825 [15:02<25:43,  1.19it/s]Computing baseline logprobs:  35%|███▌      | 991/2825 [15:03<25:38,  1.19it/s]Computing baseline logprobs:  35%|███▌      | 992/2825 [15:04<25:25,  1.20it/s]Computing baseline logprobs:  35%|███▌      | 993/2825 [15:05<25:18,  1.21it/s]Computing baseline logprobs:  35%|███▌      | 994/2825 [15:06<24:23,  1.25it/s]Computing baseline logprobs:  35%|███▌      | 995/2825 [15:06<22:38,  1.35it/s]Computing baseline logprobs:  35%|███▌      | 996/2825 [15:07<21:46,  1.40it/s]Computing baseline logprobs:  35%|███▌      | 997/2825 [15:08<23:18,  1.31it/s]Computing baseline logprobs:  35%|███▌      | 998/2825 [15:09<23:05,  1.32it/s]Computing baseline logprobs:  35%|███▌      | 999/2825 [15:09<22:57,  1.33it/s]Computing baseline logprobs:  35%|███▌      | 1000/2825 [15:10<23:41,  1.28it/s]Computing baseline logprobs:  35%|███▌      | 1001/2825 [15:11<23:28,  1.29it/s]Computing baseline logprobs:  35%|███▌      | 1002/2825 [15:12<22:08,  1.37it/s]Computing baseline logprobs:  36%|███▌      | 1003/2825 [15:12<21:37,  1.40it/s]Computing baseline logprobs:  36%|███▌      | 1004/2825 [15:13<20:33,  1.48it/s]Computing baseline logprobs:  36%|███▌      | 1005/2825 [15:13<20:09,  1.50it/s]Computing baseline logprobs:  36%|███▌      | 1006/2825 [15:14<20:57,  1.45it/s]Computing baseline logprobs:  36%|███▌      | 1007/2825 [15:15<21:43,  1.39it/s]Computing baseline logprobs:  36%|███▌      | 1008/2825 [15:16<20:49,  1.45it/s]Computing baseline logprobs:  36%|███▌      | 1009/2825 [15:16<22:21,  1.35it/s]Computing baseline logprobs:  36%|███▌      | 1010/2825 [15:17<24:31,  1.23it/s]Computing baseline logprobs:  36%|███▌      | 1011/2825 [15:18<24:04,  1.26it/s]Computing baseline logprobs:  36%|███▌      | 1012/2825 [15:19<22:47,  1.33it/s]Computing baseline logprobs:  36%|███▌      | 1013/2825 [15:20<22:37,  1.33it/s]Computing baseline logprobs:  36%|███▌      | 1014/2825 [15:20<23:37,  1.28it/s]Computing baseline logprobs:  36%|███▌      | 1015/2825 [15:21<23:23,  1.29it/s]Computing baseline logprobs:  36%|███▌      | 1016/2825 [15:22<22:20,  1.35it/s]Computing baseline logprobs:  36%|███▌      | 1017/2825 [15:23<21:58,  1.37it/s]Computing baseline logprobs:  36%|███▌      | 1018/2825 [15:23<21:26,  1.40it/s]Computing baseline logprobs:  36%|███▌      | 1019/2825 [15:24<20:37,  1.46it/s]Computing baseline logprobs:  36%|███▌      | 1020/2825 [15:25<20:20,  1.48it/s]Computing baseline logprobs:  36%|███▌      | 1021/2825 [15:25<19:21,  1.55it/s]Computing baseline logprobs:  36%|███▌      | 1022/2825 [15:26<19:05,  1.57it/s]Computing baseline logprobs:  36%|███▌      | 1023/2825 [15:26<17:13,  1.74it/s]Computing baseline logprobs:  36%|███▌      | 1024/2825 [15:27<16:22,  1.83it/s]Computing baseline logprobs:  36%|███▋      | 1025/2825 [15:27<18:39,  1.61it/s]Computing baseline logprobs:  36%|███▋      | 1026/2825 [15:28<19:58,  1.50it/s]Computing baseline logprobs:  36%|███▋      | 1027/2825 [15:29<19:35,  1.53it/s]Computing baseline logprobs:  36%|███▋      | 1028/2825 [15:30<20:31,  1.46it/s]Computing baseline logprobs:  36%|███▋      | 1029/2825 [15:30<18:39,  1.60it/s]Computing baseline logprobs:  36%|███▋      | 1030/2825 [15:31<18:40,  1.60it/s]Computing baseline logprobs:  36%|███▋      | 1031/2825 [15:31<19:08,  1.56it/s]Computing baseline logprobs:  37%|███▋      | 1032/2825 [15:32<21:16,  1.40it/s]Computing baseline logprobs:  37%|███▋      | 1033/2825 [15:33<22:31,  1.33it/s]Computing baseline logprobs:  37%|███▋      | 1034/2825 [15:34<22:01,  1.36it/s]Computing baseline logprobs:  37%|███▋      | 1035/2825 [15:35<26:14,  1.14it/s]Computing baseline logprobs:  37%|███▋      | 1036/2825 [15:36<25:21,  1.18it/s]Computing baseline logprobs:  37%|███▋      | 1037/2825 [15:37<25:38,  1.16it/s]Computing baseline logprobs:  37%|███▋      | 1038/2825 [15:37<24:16,  1.23it/s]Computing baseline logprobs:  37%|███▋      | 1039/2825 [15:38<25:45,  1.16it/s]Computing baseline logprobs:  37%|███▋      | 1040/2825 [15:39<23:52,  1.25it/s]Computing baseline logprobs:  37%|███▋      | 1041/2825 [15:40<22:57,  1.29it/s]Computing baseline logprobs:  37%|███▋      | 1042/2825 [15:40<22:36,  1.31it/s]Computing baseline logprobs:  37%|███▋      | 1043/2825 [15:41<19:38,  1.51it/s]Computing baseline logprobs:  37%|███▋      | 1044/2825 [15:41<17:24,  1.71it/s]Computing baseline logprobs:  37%|███▋      | 1045/2825 [15:42<17:59,  1.65it/s]Computing baseline logprobs:  37%|███▋      | 1046/2825 [15:43<18:38,  1.59it/s]Computing baseline logprobs:  37%|███▋      | 1047/2825 [15:43<17:23,  1.70it/s]Computing baseline logprobs:  37%|███▋      | 1048/2825 [15:44<17:40,  1.67it/s]Computing baseline logprobs:  37%|███▋      | 1049/2825 [15:44<17:29,  1.69it/s]Computing baseline logprobs:  37%|███▋      | 1050/2825 [15:45<19:30,  1.52it/s]Computing baseline logprobs:  37%|███▋      | 1051/2825 [15:46<25:45,  1.15it/s]Computing baseline logprobs:  37%|███▋      | 1052/2825 [15:47<24:22,  1.21it/s]Computing baseline logprobs:  37%|███▋      | 1053/2825 [15:48<24:13,  1.22it/s]Computing baseline logprobs:  37%|███▋      | 1054/2825 [15:49<23:30,  1.26it/s]Computing baseline logprobs:  37%|███▋      | 1055/2825 [15:49<22:25,  1.32it/s]Computing baseline logprobs:  37%|███▋      | 1056/2825 [15:50<22:56,  1.29it/s]Computing baseline logprobs:  37%|███▋      | 1057/2825 [15:51<23:11,  1.27it/s]Computing baseline logprobs:  37%|███▋      | 1058/2825 [15:52<24:24,  1.21it/s]Computing baseline logprobs:  37%|███▋      | 1059/2825 [15:53<24:24,  1.21it/s]Computing baseline logprobs:  38%|███▊      | 1060/2825 [15:54<23:23,  1.26it/s]Computing baseline logprobs:  38%|███▊      | 1061/2825 [15:54<21:52,  1.34it/s]Computing baseline logprobs:  38%|███▊      | 1062/2825 [15:55<22:07,  1.33it/s]Computing baseline logprobs:  38%|███▊      | 1063/2825 [15:56<23:30,  1.25it/s]Computing baseline logprobs:  38%|███▊      | 1064/2825 [15:56<21:20,  1.38it/s]Computing baseline logprobs:  38%|███▊      | 1065/2825 [15:57<21:55,  1.34it/s]Computing baseline logprobs:  38%|███▊      | 1066/2825 [15:58<21:54,  1.34it/s]Computing baseline logprobs:  38%|███▊      | 1067/2825 [15:59<22:13,  1.32it/s]Computing baseline logprobs:  38%|███▊      | 1068/2825 [16:00<23:21,  1.25it/s]Computing baseline logprobs:  38%|███▊      | 1069/2825 [16:00<21:29,  1.36it/s]Computing baseline logprobs:  38%|███▊      | 1070/2825 [16:01<21:56,  1.33it/s]Computing baseline logprobs:  38%|███▊      | 1071/2825 [16:02<22:31,  1.30it/s]Computing baseline logprobs:  38%|███▊      | 1072/2825 [16:03<22:56,  1.27it/s]Computing baseline logprobs:  38%|███▊      | 1073/2825 [16:03<23:10,  1.26it/s]Computing baseline logprobs:  38%|███▊      | 1074/2825 [16:04<22:54,  1.27it/s]Computing baseline logprobs:  38%|███▊      | 1075/2825 [16:05<21:50,  1.34it/s]Computing baseline logprobs:  38%|███▊      | 1076/2825 [16:06<21:12,  1.37it/s]Computing baseline logprobs:  38%|███▊      | 1077/2825 [16:06<18:28,  1.58it/s]Computing baseline logprobs:  38%|███▊      | 1078/2825 [16:07<18:49,  1.55it/s]Computing baseline logprobs:  38%|███▊      | 1079/2825 [16:07<19:18,  1.51it/s]Computing baseline logprobs:  38%|███▊      | 1080/2825 [16:08<18:59,  1.53it/s]Computing baseline logprobs:  38%|███▊      | 1081/2825 [16:09<19:14,  1.51it/s]Computing baseline logprobs:  38%|███▊      | 1082/2825 [16:09<19:59,  1.45it/s]Computing baseline logprobs:  38%|███▊      | 1083/2825 [16:10<20:38,  1.41it/s]Computing baseline logprobs:  38%|███▊      | 1084/2825 [16:11<21:39,  1.34it/s]Computing baseline logprobs:  38%|███▊      | 1085/2825 [16:12<21:07,  1.37it/s]Computing baseline logprobs:  38%|███▊      | 1086/2825 [16:12<19:17,  1.50it/s]Computing baseline logprobs:  38%|███▊      | 1087/2825 [16:13<21:46,  1.33it/s]Computing baseline logprobs:  39%|███▊      | 1088/2825 [16:14<20:45,  1.39it/s]Computing baseline logprobs:  39%|███▊      | 1089/2825 [16:15<21:41,  1.33it/s]Computing baseline logprobs:  39%|███▊      | 1090/2825 [16:15<20:58,  1.38it/s]Computing baseline logprobs:  39%|███▊      | 1091/2825 [16:16<21:25,  1.35it/s]Computing baseline logprobs:  39%|███▊      | 1092/2825 [16:17<20:46,  1.39it/s]Computing baseline logprobs:  39%|███▊      | 1093/2825 [16:18<22:59,  1.26it/s]Computing baseline logprobs:  39%|███▊      | 1094/2825 [16:19<24:56,  1.16it/s]Computing baseline logprobs:  39%|███▉      | 1095/2825 [16:20<24:46,  1.16it/s]Computing baseline logprobs:  39%|███▉      | 1096/2825 [16:21<25:26,  1.13it/s]Computing baseline logprobs:  39%|███▉      | 1097/2825 [16:22<26:59,  1.07it/s]Computing baseline logprobs:  39%|███▉      | 1098/2825 [16:22<23:48,  1.21it/s]Computing baseline logprobs:  39%|███▉      | 1099/2825 [16:23<22:10,  1.30it/s]Computing baseline logprobs:  39%|███▉      | 1100/2825 [16:23<21:40,  1.33it/s]Computing baseline logprobs:  39%|███▉      | 1101/2825 [16:24<21:46,  1.32it/s]Computing baseline logprobs:  39%|███▉      | 1102/2825 [16:25<23:58,  1.20it/s]Computing baseline logprobs:  39%|███▉      | 1103/2825 [16:26<22:12,  1.29it/s]Computing baseline logprobs:  39%|███▉      | 1104/2825 [16:27<22:06,  1.30it/s]Computing baseline logprobs:  39%|███▉      | 1105/2825 [16:27<22:06,  1.30it/s]Computing baseline logprobs:  39%|███▉      | 1106/2825 [16:28<22:44,  1.26it/s]Computing baseline logprobs:  39%|███▉      | 1107/2825 [16:29<23:57,  1.20it/s]Computing baseline logprobs:  39%|███▉      | 1108/2825 [16:30<24:06,  1.19it/s]Computing baseline logprobs:  39%|███▉      | 1109/2825 [16:31<22:49,  1.25it/s]Computing baseline logprobs:  39%|███▉      | 1110/2825 [16:31<21:25,  1.33it/s]Computing baseline logprobs:  39%|███▉      | 1111/2825 [16:32<20:59,  1.36it/s]Computing baseline logprobs:  39%|███▉      | 1112/2825 [16:33<22:08,  1.29it/s]Computing baseline logprobs:  39%|███▉      | 1113/2825 [16:34<23:56,  1.19it/s]Computing baseline logprobs:  39%|███▉      | 1114/2825 [16:35<24:31,  1.16it/s]Computing baseline logprobs:  39%|███▉      | 1115/2825 [16:36<23:41,  1.20it/s]Computing baseline logprobs:  40%|███▉      | 1116/2825 [16:36<21:58,  1.30it/s]Computing baseline logprobs:  40%|███▉      | 1117/2825 [16:37<19:55,  1.43it/s]Computing baseline logprobs:  40%|███▉      | 1118/2825 [16:37<19:32,  1.46it/s]Computing baseline logprobs:  40%|███▉      | 1119/2825 [16:38<19:30,  1.46it/s]Computing baseline logprobs:  40%|███▉      | 1120/2825 [16:39<20:07,  1.41it/s]Computing baseline logprobs:  40%|███▉      | 1121/2825 [16:40<23:19,  1.22it/s]Computing baseline logprobs:  40%|███▉      | 1122/2825 [16:41<23:02,  1.23it/s]Computing baseline logprobs:  40%|███▉      | 1123/2825 [16:42<25:40,  1.10it/s]Computing baseline logprobs:  40%|███▉      | 1124/2825 [16:43<24:38,  1.15it/s]Computing baseline logprobs:  40%|███▉      | 1125/2825 [16:44<24:44,  1.15it/s]Computing baseline logprobs:  40%|███▉      | 1126/2825 [16:44<22:37,  1.25it/s]Computing baseline logprobs:  40%|███▉      | 1127/2825 [16:45<22:12,  1.27it/s]Computing baseline logprobs:  40%|███▉      | 1128/2825 [16:46<21:10,  1.34it/s]Computing baseline logprobs:  40%|███▉      | 1129/2825 [16:46<20:59,  1.35it/s]Computing baseline logprobs:  40%|████      | 1130/2825 [16:47<19:27,  1.45it/s]Computing baseline logprobs:  40%|████      | 1131/2825 [16:47<18:27,  1.53it/s]Computing baseline logprobs:  40%|████      | 1132/2825 [16:48<18:35,  1.52it/s]Computing baseline logprobs:  40%|████      | 1133/2825 [16:49<20:27,  1.38it/s]Computing baseline logprobs:  40%|████      | 1134/2825 [16:50<23:41,  1.19it/s]Computing baseline logprobs:  40%|████      | 1135/2825 [16:51<22:12,  1.27it/s]Computing baseline logprobs:  40%|████      | 1136/2825 [16:51<20:31,  1.37it/s]Computing baseline logprobs:  40%|████      | 1137/2825 [16:52<20:28,  1.37it/s]Computing baseline logprobs:  40%|████      | 1138/2825 [16:53<19:41,  1.43it/s]Computing baseline logprobs:  40%|████      | 1139/2825 [16:54<20:13,  1.39it/s]Computing baseline logprobs:  40%|████      | 1140/2825 [16:54<20:37,  1.36it/s]Computing baseline logprobs:  40%|████      | 1141/2825 [16:55<20:50,  1.35it/s]Computing baseline logprobs:  40%|████      | 1142/2825 [16:56<21:59,  1.28it/s]Computing baseline logprobs:  40%|████      | 1143/2825 [16:57<22:49,  1.23it/s]Computing baseline logprobs:  40%|████      | 1144/2825 [16:58<22:26,  1.25it/s]Computing baseline logprobs:  41%|████      | 1145/2825 [16:58<21:51,  1.28it/s]Computing baseline logprobs:  41%|████      | 1146/2825 [16:59<22:02,  1.27it/s]Computing baseline logprobs:  41%|████      | 1147/2825 [17:00<23:26,  1.19it/s]Computing baseline logprobs:  41%|████      | 1148/2825 [17:01<22:21,  1.25it/s]Computing baseline logprobs:  41%|████      | 1149/2825 [17:02<22:48,  1.23it/s]Computing baseline logprobs:  41%|████      | 1150/2825 [17:02<22:17,  1.25it/s]Computing baseline logprobs:  41%|████      | 1151/2825 [17:03<20:51,  1.34it/s]Computing baseline logprobs:  41%|████      | 1152/2825 [17:04<21:21,  1.31it/s]Computing baseline logprobs:  41%|████      | 1153/2825 [17:05<21:39,  1.29it/s]Computing baseline logprobs:  41%|████      | 1154/2825 [17:05<20:39,  1.35it/s]Computing baseline logprobs:  41%|████      | 1155/2825 [17:06<20:47,  1.34it/s]Computing baseline logprobs:  41%|████      | 1156/2825 [17:07<19:32,  1.42it/s]Computing baseline logprobs:  41%|████      | 1157/2825 [17:07<19:51,  1.40it/s]Computing baseline logprobs:  41%|████      | 1158/2825 [17:08<18:16,  1.52it/s]Computing baseline logprobs:  41%|████      | 1159/2825 [17:09<18:35,  1.49it/s]Computing baseline logprobs:  41%|████      | 1160/2825 [17:09<19:40,  1.41it/s]Computing baseline logprobs:  41%|████      | 1161/2825 [17:10<18:21,  1.51it/s]Computing baseline logprobs:  41%|████      | 1162/2825 [17:11<20:03,  1.38it/s]Computing baseline logprobs:  41%|████      | 1163/2825 [17:12<21:27,  1.29it/s]Computing baseline logprobs:  41%|████      | 1164/2825 [17:13<22:40,  1.22it/s]Computing baseline logprobs:  41%|████      | 1165/2825 [17:13<22:23,  1.24it/s]Computing baseline logprobs:  41%|████▏     | 1166/2825 [17:14<22:40,  1.22it/s]Computing baseline logprobs:  41%|████▏     | 1167/2825 [17:15<21:38,  1.28it/s]Computing baseline logprobs:  41%|████▏     | 1168/2825 [17:16<21:29,  1.29it/s]Computing baseline logprobs:  41%|████▏     | 1169/2825 [17:17<21:14,  1.30it/s]Computing baseline logprobs:  41%|████▏     | 1170/2825 [17:17<21:57,  1.26it/s]Computing baseline logprobs:  41%|████▏     | 1171/2825 [17:18<22:18,  1.24it/s]Computing baseline logprobs:  41%|████▏     | 1172/2825 [17:19<21:03,  1.31it/s]Computing baseline logprobs:  42%|████▏     | 1173/2825 [17:19<19:12,  1.43it/s]Computing baseline logprobs:  42%|████▏     | 1174/2825 [17:20<18:51,  1.46it/s]Computing baseline logprobs:  42%|████▏     | 1175/2825 [17:21<20:27,  1.34it/s]Computing baseline logprobs:  42%|████▏     | 1176/2825 [17:22<20:36,  1.33it/s]Computing baseline logprobs:  42%|████▏     | 1177/2825 [17:22<19:48,  1.39it/s]Computing baseline logprobs:  42%|████▏     | 1178/2825 [17:23<20:32,  1.34it/s]Computing baseline logprobs:  42%|████▏     | 1179/2825 [17:24<21:40,  1.27it/s]Computing baseline logprobs:  42%|████▏     | 1180/2825 [17:25<21:30,  1.27it/s]Computing baseline logprobs:  42%|████▏     | 1181/2825 [17:25<19:15,  1.42it/s]Computing baseline logprobs:  42%|████▏     | 1182/2825 [17:26<20:19,  1.35it/s]Computing baseline logprobs:  42%|████▏     | 1183/2825 [17:27<20:56,  1.31it/s]Computing baseline logprobs:  42%|████▏     | 1184/2825 [17:28<22:50,  1.20it/s]Computing baseline logprobs:  42%|████▏     | 1185/2825 [17:29<22:00,  1.24it/s]Computing baseline logprobs:  42%|████▏     | 1186/2825 [17:30<22:44,  1.20it/s]Computing baseline logprobs:  42%|████▏     | 1187/2825 [17:31<23:43,  1.15it/s]Computing baseline logprobs:  42%|████▏     | 1188/2825 [17:31<22:46,  1.20it/s]Computing baseline logprobs:  42%|████▏     | 1189/2825 [17:32<21:19,  1.28it/s]Computing baseline logprobs:  42%|████▏     | 1190/2825 [17:33<21:58,  1.24it/s]Computing baseline logprobs:  42%|████▏     | 1191/2825 [17:34<22:01,  1.24it/s]Computing baseline logprobs:  42%|████▏     | 1192/2825 [17:35<26:21,  1.03it/s]Computing baseline logprobs:  42%|████▏     | 1193/2825 [17:36<24:56,  1.09it/s]Computing baseline logprobs:  42%|████▏     | 1194/2825 [17:36<21:36,  1.26it/s]Computing baseline logprobs:  42%|████▏     | 1195/2825 [17:37<19:49,  1.37it/s]Computing baseline logprobs:  42%|████▏     | 1196/2825 [17:38<19:50,  1.37it/s]Computing baseline logprobs:  42%|████▏     | 1197/2825 [17:38<18:12,  1.49it/s]Computing baseline logprobs:  42%|████▏     | 1198/2825 [17:39<17:46,  1.52it/s]Computing baseline logprobs:  42%|████▏     | 1199/2825 [17:40<19:06,  1.42it/s]Computing baseline logprobs:  42%|████▏     | 1200/2825 [17:40<19:20,  1.40it/s]Computing baseline logprobs:  43%|████▎     | 1201/2825 [17:41<18:58,  1.43it/s]Computing baseline logprobs:  43%|████▎     | 1202/2825 [17:42<18:48,  1.44it/s]Computing baseline logprobs:  43%|████▎     | 1203/2825 [17:43<20:00,  1.35it/s]Computing baseline logprobs:  43%|████▎     | 1204/2825 [17:44<23:30,  1.15it/s]Computing baseline logprobs:  43%|████▎     | 1205/2825 [17:44<21:23,  1.26it/s]Computing baseline logprobs:  43%|████▎     | 1206/2825 [17:45<19:37,  1.38it/s]Computing baseline logprobs:  43%|████▎     | 1207/2825 [17:46<19:45,  1.36it/s]Computing baseline logprobs:  43%|████▎     | 1208/2825 [17:46<19:01,  1.42it/s]Computing baseline logprobs:  43%|████▎     | 1209/2825 [17:47<18:40,  1.44it/s]Computing baseline logprobs:  43%|████▎     | 1210/2825 [17:48<18:45,  1.44it/s]Computing baseline logprobs:  43%|████▎     | 1211/2825 [17:48<18:05,  1.49it/s]Computing baseline logprobs:  43%|████▎     | 1212/2825 [17:49<16:33,  1.62it/s]Computing baseline logprobs:  43%|████▎     | 1213/2825 [17:49<15:48,  1.70it/s]Computing baseline logprobs:  43%|████▎     | 1214/2825 [17:50<16:26,  1.63it/s]Computing baseline logprobs:  43%|████▎     | 1215/2825 [17:51<16:23,  1.64it/s]Computing baseline logprobs:  43%|████▎     | 1216/2825 [17:51<15:45,  1.70it/s]Computing baseline logprobs:  43%|████▎     | 1217/2825 [17:52<17:02,  1.57it/s]Computing baseline logprobs:  43%|████▎     | 1218/2825 [17:53<19:32,  1.37it/s]Computing baseline logprobs:  43%|████▎     | 1219/2825 [17:53<19:19,  1.39it/s]Computing baseline logprobs:  43%|████▎     | 1220/2825 [17:54<20:57,  1.28it/s]Computing baseline logprobs:  43%|████▎     | 1221/2825 [17:55<21:44,  1.23it/s]Computing baseline logprobs:  43%|████▎     | 1222/2825 [17:56<21:08,  1.26it/s]Computing baseline logprobs:  43%|████▎     | 1223/2825 [17:57<21:06,  1.27it/s]Computing baseline logprobs:  43%|████▎     | 1224/2825 [17:58<21:09,  1.26it/s]Computing baseline logprobs:  43%|████▎     | 1225/2825 [17:58<21:34,  1.24it/s]Computing baseline logprobs:  43%|████▎     | 1226/2825 [17:59<21:14,  1.25it/s]Computing baseline logprobs:  43%|████▎     | 1227/2825 [18:00<20:28,  1.30it/s]Computing baseline logprobs:  43%|████▎     | 1228/2825 [18:01<19:50,  1.34it/s]Computing baseline logprobs:  44%|████▎     | 1229/2825 [18:01<20:13,  1.31it/s]Computing baseline logprobs:  44%|████▎     | 1230/2825 [18:02<21:55,  1.21it/s]Computing baseline logprobs:  44%|████▎     | 1231/2825 [18:03<22:43,  1.17it/s]Computing baseline logprobs:  44%|████▎     | 1232/2825 [18:04<20:49,  1.27it/s]Computing baseline logprobs:  44%|████▎     | 1233/2825 [18:04<18:32,  1.43it/s]Computing baseline logprobs:  44%|████▎     | 1234/2825 [18:05<17:32,  1.51it/s]Computing baseline logprobs:  44%|████▎     | 1235/2825 [18:06<17:13,  1.54it/s]Computing baseline logprobs:  44%|████▍     | 1236/2825 [18:06<18:35,  1.42it/s]Computing baseline logprobs:  44%|████▍     | 1237/2825 [18:07<19:35,  1.35it/s]Computing baseline logprobs:  44%|████▍     | 1238/2825 [18:08<19:53,  1.33it/s]Computing baseline logprobs:  44%|████▍     | 1239/2825 [18:09<19:49,  1.33it/s]Computing baseline logprobs:  44%|████▍     | 1240/2825 [18:09<18:32,  1.43it/s]Computing baseline logprobs:  44%|████▍     | 1241/2825 [18:10<18:22,  1.44it/s]Computing baseline logprobs:  44%|████▍     | 1242/2825 [18:11<17:49,  1.48it/s]Computing baseline logprobs:  44%|████▍     | 1243/2825 [18:12<18:47,  1.40it/s]Computing baseline logprobs:  44%|████▍     | 1244/2825 [18:12<18:46,  1.40it/s]Computing baseline logprobs:  44%|████▍     | 1245/2825 [18:13<20:02,  1.31it/s]Computing baseline logprobs:  44%|████▍     | 1246/2825 [18:14<18:21,  1.43it/s]Computing baseline logprobs:  44%|████▍     | 1247/2825 [18:14<17:26,  1.51it/s]Computing baseline logprobs:  44%|████▍     | 1248/2825 [18:15<18:47,  1.40it/s]Computing baseline logprobs:  44%|████▍     | 1249/2825 [18:16<19:18,  1.36it/s]Computing baseline logprobs:  44%|████▍     | 1250/2825 [18:16<17:07,  1.53it/s]Computing baseline logprobs:  44%|████▍     | 1251/2825 [18:17<15:53,  1.65it/s]Computing baseline logprobs:  44%|████▍     | 1252/2825 [18:17<15:47,  1.66it/s]Computing baseline logprobs:  44%|████▍     | 1253/2825 [18:18<17:41,  1.48it/s]Computing baseline logprobs:  44%|████▍     | 1254/2825 [18:19<19:34,  1.34it/s]Computing baseline logprobs:  44%|████▍     | 1255/2825 [18:20<18:21,  1.42it/s]Computing baseline logprobs:  44%|████▍     | 1256/2825 [18:20<17:19,  1.51it/s]Computing baseline logprobs:  44%|████▍     | 1257/2825 [18:21<17:41,  1.48it/s]Computing baseline logprobs:  45%|████▍     | 1258/2825 [18:22<19:27,  1.34it/s]Computing baseline logprobs:  45%|████▍     | 1259/2825 [18:23<20:40,  1.26it/s]Computing baseline logprobs:  45%|████▍     | 1260/2825 [18:24<21:20,  1.22it/s]Computing baseline logprobs:  45%|████▍     | 1261/2825 [18:25<21:36,  1.21it/s]Computing baseline logprobs:  45%|████▍     | 1262/2825 [18:26<22:18,  1.17it/s]Computing baseline logprobs:  45%|████▍     | 1263/2825 [18:26<20:38,  1.26it/s]Computing baseline logprobs:  45%|████▍     | 1264/2825 [18:27<19:34,  1.33it/s]Computing baseline logprobs:  45%|████▍     | 1265/2825 [18:28<20:35,  1.26it/s]Computing baseline logprobs:  45%|████▍     | 1266/2825 [18:29<23:02,  1.13it/s]Computing baseline logprobs:  45%|████▍     | 1267/2825 [18:29<21:17,  1.22it/s]Computing baseline logprobs:  45%|████▍     | 1268/2825 [18:30<20:59,  1.24it/s]Computing baseline logprobs:  45%|████▍     | 1269/2825 [18:31<21:46,  1.19it/s]Computing baseline logprobs:  45%|████▍     | 1270/2825 [18:32<23:32,  1.10it/s]Computing baseline logprobs:  45%|████▍     | 1271/2825 [18:33<20:52,  1.24it/s]Computing baseline logprobs:  45%|████▌     | 1272/2825 [18:33<18:45,  1.38it/s]Computing baseline logprobs:  45%|████▌     | 1273/2825 [18:34<18:44,  1.38it/s]Computing baseline logprobs:  45%|████▌     | 1274/2825 [18:35<17:24,  1.48it/s]Computing baseline logprobs:  45%|████▌     | 1275/2825 [18:35<17:52,  1.45it/s]Computing baseline logprobs:  45%|████▌     | 1276/2825 [18:36<16:09,  1.60it/s]Computing baseline logprobs:  45%|████▌     | 1277/2825 [18:36<15:39,  1.65it/s]Computing baseline logprobs:  45%|████▌     | 1278/2825 [18:37<16:42,  1.54it/s]Computing baseline logprobs:  45%|████▌     | 1279/2825 [18:38<17:05,  1.51it/s]Computing baseline logprobs:  45%|████▌     | 1280/2825 [18:39<17:47,  1.45it/s]Computing baseline logprobs:  45%|████▌     | 1281/2825 [18:39<16:46,  1.53it/s]Computing baseline logprobs:  45%|████▌     | 1282/2825 [18:40<20:33,  1.25it/s]Computing baseline logprobs:  45%|████▌     | 1283/2825 [18:41<23:07,  1.11it/s]Computing baseline logprobs:  45%|████▌     | 1284/2825 [18:42<23:40,  1.08it/s]Computing baseline logprobs:  45%|████▌     | 1285/2825 [18:43<24:24,  1.05it/s]Computing baseline logprobs:  46%|████▌     | 1286/2825 [18:44<25:14,  1.02it/s]Computing baseline logprobs:  46%|████▌     | 1287/2825 [18:45<21:46,  1.18it/s]Computing baseline logprobs:  46%|████▌     | 1288/2825 [18:46<19:30,  1.31it/s]Computing baseline logprobs:  46%|████▌     | 1289/2825 [18:46<20:01,  1.28it/s]Computing baseline logprobs:  46%|████▌     | 1290/2825 [18:47<21:11,  1.21it/s]Computing baseline logprobs:  46%|████▌     | 1291/2825 [18:48<19:55,  1.28it/s]Computing baseline logprobs:  46%|████▌     | 1292/2825 [18:49<18:55,  1.35it/s]Computing baseline logprobs:  46%|████▌     | 1293/2825 [18:49<18:02,  1.41it/s]Computing baseline logprobs:  46%|████▌     | 1294/2825 [18:50<18:07,  1.41it/s]Computing baseline logprobs:  46%|████▌     | 1295/2825 [18:51<18:45,  1.36it/s]Computing baseline logprobs:  46%|████▌     | 1296/2825 [18:51<17:24,  1.46it/s]Computing baseline logprobs:  46%|████▌     | 1297/2825 [18:52<17:00,  1.50it/s]Computing baseline logprobs:  46%|████▌     | 1298/2825 [18:53<18:48,  1.35it/s]Computing baseline logprobs:  46%|████▌     | 1299/2825 [18:54<18:25,  1.38it/s]Computing baseline logprobs:  46%|████▌     | 1300/2825 [18:54<17:28,  1.45it/s]Computing baseline logprobs:  46%|████▌     | 1301/2825 [18:55<17:46,  1.43it/s]Computing baseline logprobs:  46%|████▌     | 1302/2825 [18:56<17:45,  1.43it/s]Computing baseline logprobs:  46%|████▌     | 1303/2825 [18:56<17:45,  1.43it/s]Computing baseline logprobs:  46%|████▌     | 1304/2825 [18:57<17:36,  1.44it/s]Computing baseline logprobs:  46%|████▌     | 1305/2825 [18:58<19:37,  1.29it/s]Computing baseline logprobs:  46%|████▌     | 1306/2825 [18:59<20:42,  1.22it/s]Computing baseline logprobs:  46%|████▋     | 1307/2825 [19:00<20:22,  1.24it/s]Computing baseline logprobs:  46%|████▋     | 1308/2825 [19:01<22:34,  1.12it/s]Computing baseline logprobs:  46%|████▋     | 1309/2825 [19:02<22:06,  1.14it/s]Computing baseline logprobs:  46%|████▋     | 1310/2825 [19:02<19:49,  1.27it/s]Computing baseline logprobs:  46%|████▋     | 1311/2825 [19:03<18:14,  1.38it/s]Computing baseline logprobs:  46%|████▋     | 1312/2825 [19:03<18:29,  1.36it/s]Computing baseline logprobs:  46%|████▋     | 1313/2825 [19:04<18:09,  1.39it/s]Computing baseline logprobs:  47%|████▋     | 1314/2825 [19:05<17:56,  1.40it/s]Computing baseline logprobs:  47%|████▋     | 1315/2825 [19:05<17:02,  1.48it/s]Computing baseline logprobs:  47%|████▋     | 1316/2825 [19:06<18:12,  1.38it/s]Computing baseline logprobs:  47%|████▋     | 1317/2825 [19:07<18:29,  1.36it/s]Computing baseline logprobs:  47%|████▋     | 1318/2825 [19:08<18:35,  1.35it/s]Computing baseline logprobs:  47%|████▋     | 1319/2825 [19:09<18:11,  1.38it/s]Computing baseline logprobs:  47%|████▋     | 1320/2825 [19:09<19:02,  1.32it/s]Computing baseline logprobs:  47%|████▋     | 1321/2825 [19:10<18:57,  1.32it/s]Computing baseline logprobs:  47%|████▋     | 1322/2825 [19:11<17:24,  1.44it/s]Computing baseline logprobs:  47%|████▋     | 1323/2825 [19:11<16:38,  1.50it/s]Computing baseline logprobs:  47%|████▋     | 1324/2825 [19:12<16:25,  1.52it/s]Computing baseline logprobs:  47%|████▋     | 1325/2825 [19:13<16:19,  1.53it/s]Computing baseline logprobs:  47%|████▋     | 1326/2825 [19:13<16:08,  1.55it/s]Computing baseline logprobs:  47%|████▋     | 1327/2825 [19:14<18:14,  1.37it/s]Computing baseline logprobs:  47%|████▋     | 1328/2825 [19:15<18:01,  1.38it/s]Computing baseline logprobs:  47%|████▋     | 1329/2825 [19:15<17:40,  1.41it/s]Computing baseline logprobs:  47%|████▋     | 1330/2825 [19:16<18:08,  1.37it/s]Computing baseline logprobs:  47%|████▋     | 1331/2825 [19:17<20:22,  1.22it/s]Computing baseline logprobs:  47%|████▋     | 1332/2825 [19:18<19:59,  1.24it/s]Computing baseline logprobs:  47%|████▋     | 1333/2825 [19:19<19:10,  1.30it/s]Computing baseline logprobs:  47%|████▋     | 1334/2825 [19:20<19:47,  1.26it/s]Computing baseline logprobs:  47%|████▋     | 1335/2825 [19:20<19:48,  1.25it/s]Computing baseline logprobs:  47%|████▋     | 1336/2825 [19:21<18:48,  1.32it/s]Computing baseline logprobs:  47%|████▋     | 1337/2825 [19:22<19:19,  1.28it/s]Computing baseline logprobs:  47%|████▋     | 1338/2825 [19:23<19:48,  1.25it/s]Computing baseline logprobs:  47%|████▋     | 1339/2825 [19:24<21:31,  1.15it/s]Computing baseline logprobs:  47%|████▋     | 1340/2825 [19:25<20:40,  1.20it/s]Computing baseline logprobs:  47%|████▋     | 1341/2825 [19:25<18:21,  1.35it/s]Computing baseline logprobs:  48%|████▊     | 1342/2825 [19:26<17:06,  1.45it/s]Computing baseline logprobs:  48%|████▊     | 1343/2825 [19:26<17:33,  1.41it/s]Computing baseline logprobs:  48%|████▊     | 1344/2825 [19:27<18:15,  1.35it/s]Computing baseline logprobs:  48%|████▊     | 1345/2825 [19:28<19:21,  1.27it/s]Computing baseline logprobs:  48%|████▊     | 1346/2825 [19:29<19:20,  1.27it/s]Computing baseline logprobs:  48%|████▊     | 1347/2825 [19:29<18:04,  1.36it/s]Computing baseline logprobs:  48%|████▊     | 1348/2825 [19:30<18:20,  1.34it/s]Computing baseline logprobs:  48%|████▊     | 1349/2825 [19:31<17:48,  1.38it/s]Computing baseline logprobs:  48%|████▊     | 1350/2825 [19:32<18:05,  1.36it/s]Computing baseline logprobs:  48%|████▊     | 1351/2825 [19:32<18:35,  1.32it/s]Computing baseline logprobs:  48%|████▊     | 1352/2825 [19:33<19:12,  1.28it/s]Computing baseline logprobs:  48%|████▊     | 1353/2825 [19:34<19:59,  1.23it/s]Computing baseline logprobs:  48%|████▊     | 1354/2825 [19:35<21:38,  1.13it/s]Computing baseline logprobs:  48%|████▊     | 1355/2825 [19:36<21:45,  1.13it/s]Computing baseline logprobs:  48%|████▊     | 1356/2825 [19:37<19:47,  1.24it/s]Computing baseline logprobs:  48%|████▊     | 1357/2825 [19:37<18:50,  1.30it/s]Computing baseline logprobs:  48%|████▊     | 1358/2825 [19:38<19:15,  1.27it/s]Computing baseline logprobs:  48%|████▊     | 1359/2825 [19:39<18:57,  1.29it/s]Computing baseline logprobs:  48%|████▊     | 1360/2825 [19:40<19:26,  1.26it/s]Computing baseline logprobs:  48%|████▊     | 1361/2825 [19:41<19:40,  1.24it/s]Computing baseline logprobs:  48%|████▊     | 1362/2825 [19:41<18:20,  1.33it/s]Computing baseline logprobs:  48%|████▊     | 1363/2825 [19:42<17:21,  1.40it/s]Computing baseline logprobs:  48%|████▊     | 1364/2825 [19:43<17:57,  1.36it/s]Computing baseline logprobs:  48%|████▊     | 1365/2825 [19:43<17:19,  1.40it/s]Computing baseline logprobs:  48%|████▊     | 1366/2825 [19:44<17:20,  1.40it/s]Computing baseline logprobs:  48%|████▊     | 1367/2825 [19:45<15:52,  1.53it/s]Computing baseline logprobs:  48%|████▊     | 1368/2825 [19:45<17:00,  1.43it/s]Computing baseline logprobs:  48%|████▊     | 1369/2825 [19:46<17:34,  1.38it/s]Computing baseline logprobs:  48%|████▊     | 1370/2825 [19:47<18:21,  1.32it/s]Computing baseline logprobs:  49%|████▊     | 1371/2825 [19:48<18:11,  1.33it/s]Computing baseline logprobs:  49%|████▊     | 1372/2825 [19:49<18:00,  1.34it/s]Computing baseline logprobs:  49%|████▊     | 1373/2825 [19:49<18:56,  1.28it/s]Computing baseline logprobs:  49%|████▊     | 1374/2825 [19:50<18:02,  1.34it/s]Computing baseline logprobs:  49%|████▊     | 1375/2825 [19:51<17:09,  1.41it/s]Computing baseline logprobs:  49%|████▊     | 1376/2825 [19:51<16:27,  1.47it/s]Computing baseline logprobs:  49%|████▊     | 1377/2825 [19:52<19:11,  1.26it/s]Computing baseline logprobs:  49%|████▉     | 1378/2825 [19:53<21:22,  1.13it/s]Computing baseline logprobs:  49%|████▉     | 1379/2825 [19:54<20:46,  1.16it/s]Computing baseline logprobs:  49%|████▉     | 1380/2825 [19:55<19:09,  1.26it/s]Computing baseline logprobs:  49%|████▉     | 1381/2825 [19:56<18:13,  1.32it/s]Computing baseline logprobs:  49%|████▉     | 1382/2825 [19:56<17:55,  1.34it/s]Computing baseline logprobs:  49%|████▉     | 1383/2825 [19:57<17:31,  1.37it/s]Computing baseline logprobs:  49%|████▉     | 1384/2825 [19:58<19:44,  1.22it/s]Computing baseline logprobs:  49%|████▉     | 1385/2825 [19:59<19:28,  1.23it/s]Computing baseline logprobs:  49%|████▉     | 1386/2825 [19:59<18:05,  1.33it/s]Computing baseline logprobs:  49%|████▉     | 1387/2825 [20:00<17:12,  1.39it/s]Computing baseline logprobs:  49%|████▉     | 1388/2825 [20:01<18:08,  1.32it/s]Computing baseline logprobs:  49%|████▉     | 1389/2825 [20:02<19:54,  1.20it/s]Computing baseline logprobs:  49%|████▉     | 1390/2825 [20:03<19:27,  1.23it/s]Computing baseline logprobs:  49%|████▉     | 1391/2825 [20:03<17:06,  1.40it/s]Computing baseline logprobs:  49%|████▉     | 1392/2825 [20:04<15:36,  1.53it/s]Computing baseline logprobs:  49%|████▉     | 1393/2825 [20:04<16:20,  1.46it/s]Computing baseline logprobs:  49%|████▉     | 1394/2825 [20:05<16:01,  1.49it/s]Computing baseline logprobs:  49%|████▉     | 1395/2825 [20:06<16:30,  1.44it/s]Computing baseline logprobs:  49%|████▉     | 1396/2825 [20:06<16:03,  1.48it/s]Computing baseline logprobs:  49%|████▉     | 1397/2825 [20:07<16:11,  1.47it/s]Computing baseline logprobs:  49%|████▉     | 1398/2825 [20:08<14:27,  1.65it/s]Computing baseline logprobs:  50%|████▉     | 1399/2825 [20:08<15:08,  1.57it/s]Computing baseline logprobs:  50%|████▉     | 1400/2825 [20:09<16:00,  1.48it/s]Computing baseline logprobs:  50%|████▉     | 1401/2825 [20:10<16:06,  1.47it/s]Computing baseline logprobs:  50%|████▉     | 1402/2825 [20:11<18:08,  1.31it/s]Computing baseline logprobs:  50%|████▉     | 1403/2825 [20:12<20:07,  1.18it/s]Computing baseline logprobs:  50%|████▉     | 1404/2825 [20:13<20:23,  1.16it/s]Computing baseline logprobs:  50%|████▉     | 1405/2825 [20:13<18:05,  1.31it/s]Computing baseline logprobs:  50%|████▉     | 1406/2825 [20:14<16:32,  1.43it/s]Computing baseline logprobs:  50%|████▉     | 1407/2825 [20:14<16:50,  1.40it/s]Computing baseline logprobs:  50%|████▉     | 1408/2825 [20:15<17:21,  1.36it/s]Computing baseline logprobs:  50%|████▉     | 1409/2825 [20:16<18:13,  1.29it/s]Computing baseline logprobs:  50%|████▉     | 1410/2825 [20:17<17:27,  1.35it/s]Computing baseline logprobs:  50%|████▉     | 1411/2825 [20:18<18:48,  1.25it/s]Computing baseline logprobs:  50%|████▉     | 1412/2825 [20:19<20:45,  1.13it/s]Computing baseline logprobs:  50%|█████     | 1413/2825 [20:20<21:40,  1.09it/s]Computing baseline logprobs:  50%|█████     | 1414/2825 [20:20<19:19,  1.22it/s]Computing baseline logprobs:  50%|█████     | 1415/2825 [20:21<18:33,  1.27it/s]Computing baseline logprobs:  50%|█████     | 1416/2825 [20:22<16:41,  1.41it/s]Computing baseline logprobs:  50%|█████     | 1417/2825 [20:22<16:05,  1.46it/s]Computing baseline logprobs:  50%|█████     | 1418/2825 [20:23<15:13,  1.54it/s]Computing baseline logprobs:  50%|█████     | 1419/2825 [20:24<15:52,  1.48it/s]Computing baseline logprobs:  50%|█████     | 1420/2825 [20:24<16:38,  1.41it/s]Computing baseline logprobs:  50%|█████     | 1421/2825 [20:25<17:36,  1.33it/s]Computing baseline logprobs:  50%|█████     | 1422/2825 [20:26<18:02,  1.30it/s]Computing baseline logprobs:  50%|█████     | 1423/2825 [20:27<18:35,  1.26it/s]Computing baseline logprobs:  50%|█████     | 1424/2825 [20:28<18:27,  1.27it/s]Computing baseline logprobs:  50%|█████     | 1425/2825 [20:28<18:01,  1.29it/s]Computing baseline logprobs:  50%|█████     | 1426/2825 [20:29<17:31,  1.33it/s]Computing baseline logprobs:  51%|█████     | 1427/2825 [20:30<20:27,  1.14it/s]Computing baseline logprobs:  51%|█████     | 1428/2825 [20:31<20:44,  1.12it/s]Computing baseline logprobs:  51%|█████     | 1429/2825 [20:32<19:54,  1.17it/s]Computing baseline logprobs:  51%|█████     | 1430/2825 [20:33<19:23,  1.20it/s]Computing baseline logprobs:  51%|█████     | 1431/2825 [20:34<19:27,  1.19it/s]Computing baseline logprobs:  51%|█████     | 1432/2825 [20:34<18:28,  1.26it/s]Computing baseline logprobs:  51%|█████     | 1433/2825 [20:35<18:07,  1.28it/s]Computing baseline logprobs:  51%|█████     | 1434/2825 [20:36<19:04,  1.21it/s]Computing baseline logprobs:  51%|█████     | 1435/2825 [20:37<18:25,  1.26it/s]Computing baseline logprobs:  51%|█████     | 1436/2825 [20:37<17:37,  1.31it/s]Computing baseline logprobs:  51%|█████     | 1437/2825 [20:38<19:23,  1.19it/s]Computing baseline logprobs:  51%|█████     | 1438/2825 [20:39<18:19,  1.26it/s]Computing baseline logprobs:  51%|█████     | 1439/2825 [20:40<17:46,  1.30it/s]Computing baseline logprobs:  51%|█████     | 1440/2825 [20:40<16:23,  1.41it/s]Computing baseline logprobs:  51%|█████     | 1441/2825 [20:41<16:57,  1.36it/s]Computing baseline logprobs:  51%|█████     | 1442/2825 [20:42<17:04,  1.35it/s]Computing baseline logprobs:  51%|█████     | 1443/2825 [20:43<18:20,  1.26it/s]Computing baseline logprobs:  51%|█████     | 1444/2825 [20:44<18:25,  1.25it/s]Computing baseline logprobs:  51%|█████     | 1445/2825 [20:44<18:34,  1.24it/s]Computing baseline logprobs:  51%|█████     | 1446/2825 [20:45<19:24,  1.18it/s]Computing baseline logprobs:  51%|█████     | 1447/2825 [20:46<19:23,  1.18it/s]Computing baseline logprobs:  51%|█████▏    | 1448/2825 [20:47<18:25,  1.25it/s]Computing baseline logprobs:  51%|█████▏    | 1449/2825 [20:47<16:24,  1.40it/s]Computing baseline logprobs:  51%|█████▏    | 1450/2825 [20:48<15:27,  1.48it/s]Computing baseline logprobs:  51%|█████▏    | 1451/2825 [20:49<16:15,  1.41it/s]Computing baseline logprobs:  51%|█████▏    | 1452/2825 [20:49<15:44,  1.45it/s]Computing baseline logprobs:  51%|█████▏    | 1453/2825 [20:50<15:20,  1.49it/s]Computing baseline logprobs:  51%|█████▏    | 1454/2825 [20:51<15:44,  1.45it/s]Computing baseline logprobs:  52%|█████▏    | 1455/2825 [20:51<14:48,  1.54it/s]Computing baseline logprobs:  52%|█████▏    | 1456/2825 [20:52<15:24,  1.48it/s]Computing baseline logprobs:  52%|█████▏    | 1457/2825 [20:53<16:01,  1.42it/s]Computing baseline logprobs:  52%|█████▏    | 1458/2825 [20:53<14:54,  1.53it/s]Computing baseline logprobs:  52%|█████▏    | 1459/2825 [20:54<14:12,  1.60it/s]Computing baseline logprobs:  52%|█████▏    | 1460/2825 [20:55<14:30,  1.57it/s]Computing baseline logprobs:  52%|█████▏    | 1461/2825 [20:55<15:27,  1.47it/s]Computing baseline logprobs:  52%|█████▏    | 1462/2825 [20:56<16:25,  1.38it/s]Computing baseline logprobs:  52%|█████▏    | 1463/2825 [20:57<17:47,  1.28it/s]Computing baseline logprobs:  52%|█████▏    | 1464/2825 [20:58<17:26,  1.30it/s]Computing baseline logprobs:  52%|█████▏    | 1465/2825 [20:58<15:04,  1.50it/s]Computing baseline logprobs:  52%|█████▏    | 1466/2825 [20:59<15:12,  1.49it/s]Computing baseline logprobs:  52%|█████▏    | 1467/2825 [21:00<16:19,  1.39it/s]Computing baseline logprobs:  52%|█████▏    | 1468/2825 [21:01<15:59,  1.41it/s]Computing baseline logprobs:  52%|█████▏    | 1469/2825 [21:01<15:34,  1.45it/s]Computing baseline logprobs:  52%|█████▏    | 1470/2825 [21:02<16:02,  1.41it/s]Computing baseline logprobs:  52%|█████▏    | 1471/2825 [21:03<15:44,  1.43it/s]Computing baseline logprobs:  52%|█████▏    | 1472/2825 [21:03<16:49,  1.34it/s]Computing baseline logprobs:  52%|█████▏    | 1473/2825 [21:04<17:09,  1.31it/s]Computing baseline logprobs:  52%|█████▏    | 1474/2825 [21:05<16:00,  1.41it/s]Computing baseline logprobs:  52%|█████▏    | 1475/2825 [21:06<16:39,  1.35it/s]Computing baseline logprobs:  52%|█████▏    | 1476/2825 [21:07<18:42,  1.20it/s]Computing baseline logprobs:  52%|█████▏    | 1477/2825 [21:08<18:35,  1.21it/s]Computing baseline logprobs:  52%|█████▏    | 1478/2825 [21:08<18:41,  1.20it/s]Computing baseline logprobs:  52%|█████▏    | 1479/2825 [21:09<17:48,  1.26it/s]Computing baseline logprobs:  52%|█████▏    | 1480/2825 [21:10<18:11,  1.23it/s]Computing baseline logprobs:  52%|█████▏    | 1481/2825 [21:10<16:27,  1.36it/s]Computing baseline logprobs:  52%|█████▏    | 1482/2825 [21:11<15:42,  1.43it/s]Computing baseline logprobs:  52%|█████▏    | 1483/2825 [21:12<15:58,  1.40it/s]Computing baseline logprobs:  53%|█████▎    | 1484/2825 [21:13<17:20,  1.29it/s]Computing baseline logprobs:  53%|█████▎    | 1485/2825 [21:13<16:26,  1.36it/s]Computing baseline logprobs:  53%|█████▎    | 1486/2825 [21:14<16:09,  1.38it/s]Computing baseline logprobs:  53%|█████▎    | 1487/2825 [21:15<16:36,  1.34it/s]Computing baseline logprobs:  53%|█████▎    | 1488/2825 [21:16<16:26,  1.36it/s]Computing baseline logprobs:  53%|█████▎    | 1489/2825 [21:17<18:38,  1.19it/s]Computing baseline logprobs:  53%|█████▎    | 1490/2825 [21:18<19:19,  1.15it/s]Computing baseline logprobs:  53%|█████▎    | 1491/2825 [21:18<17:39,  1.26it/s]Computing baseline logprobs:  53%|█████▎    | 1492/2825 [21:19<19:13,  1.16it/s]Computing baseline logprobs:  53%|█████▎    | 1493/2825 [21:21<23:02,  1.04s/it]Computing baseline logprobs:  53%|█████▎    | 1494/2825 [21:22<22:36,  1.02s/it]Computing baseline logprobs:  53%|█████▎    | 1495/2825 [21:23<21:45,  1.02it/s]Computing baseline logprobs:  53%|█████▎    | 1496/2825 [21:24<21:43,  1.02it/s]Computing baseline logprobs:  53%|█████▎    | 1497/2825 [21:24<19:58,  1.11it/s]Computing baseline logprobs:  53%|█████▎    | 1498/2825 [21:25<18:24,  1.20it/s]Computing baseline logprobs:  53%|█████▎    | 1499/2825 [21:26<18:24,  1.20it/s]Computing baseline logprobs:  53%|█████▎    | 1500/2825 [21:27<17:43,  1.25it/s]Computing baseline logprobs:  53%|█████▎    | 1501/2825 [21:27<18:23,  1.20it/s]Computing baseline logprobs:  53%|█████▎    | 1502/2825 [21:28<16:49,  1.31it/s]Computing baseline logprobs:  53%|█████▎    | 1503/2825 [21:29<15:33,  1.42it/s]Computing baseline logprobs:  53%|█████▎    | 1504/2825 [21:29<15:19,  1.44it/s]Computing baseline logprobs:  53%|█████▎    | 1505/2825 [21:30<15:44,  1.40it/s]Computing baseline logprobs:  53%|█████▎    | 1506/2825 [21:31<15:25,  1.42it/s]Computing baseline logprobs:  53%|█████▎    | 1507/2825 [21:32<16:26,  1.34it/s]Computing baseline logprobs:  53%|█████▎    | 1508/2825 [21:32<14:32,  1.51it/s]Computing baseline logprobs:  53%|█████▎    | 1509/2825 [21:33<14:10,  1.55it/s]Computing baseline logprobs:  53%|█████▎    | 1510/2825 [21:33<15:03,  1.46it/s]Computing baseline logprobs:  53%|█████▎    | 1511/2825 [21:34<16:29,  1.33it/s]Computing baseline logprobs:  54%|█████▎    | 1512/2825 [21:35<15:22,  1.42it/s]Computing baseline logprobs:  54%|█████▎    | 1513/2825 [21:35<13:29,  1.62it/s]Computing baseline logprobs:  54%|█████▎    | 1514/2825 [21:36<12:56,  1.69it/s]Computing baseline logprobs:  54%|█████▎    | 1515/2825 [21:37<14:35,  1.50it/s]Computing baseline logprobs:  54%|█████▎    | 1516/2825 [21:38<16:51,  1.29it/s]Computing baseline logprobs:  54%|█████▎    | 1517/2825 [21:39<18:15,  1.19it/s]Computing baseline logprobs:  54%|█████▎    | 1518/2825 [21:39<16:58,  1.28it/s]Computing baseline logprobs:  54%|█████▍    | 1519/2825 [21:40<17:24,  1.25it/s]Computing baseline logprobs:  54%|█████▍    | 1520/2825 [21:41<17:50,  1.22it/s]Computing baseline logprobs:  54%|█████▍    | 1521/2825 [21:42<17:59,  1.21it/s]Computing baseline logprobs:  54%|█████▍    | 1522/2825 [21:43<17:34,  1.24it/s]Computing baseline logprobs:  54%|█████▍    | 1523/2825 [21:43<17:20,  1.25it/s]Computing baseline logprobs:  54%|█████▍    | 1524/2825 [21:44<16:49,  1.29it/s]Computing baseline logprobs:  54%|█████▍    | 1525/2825 [21:45<16:35,  1.31it/s]Computing baseline logprobs:  54%|█████▍    | 1526/2825 [21:46<15:37,  1.39it/s]Computing baseline logprobs:  54%|█████▍    | 1527/2825 [21:46<16:10,  1.34it/s]Computing baseline logprobs:  54%|█████▍    | 1528/2825 [21:47<16:24,  1.32it/s]Computing baseline logprobs:  54%|█████▍    | 1529/2825 [21:48<16:35,  1.30it/s]Computing baseline logprobs:  54%|█████▍    | 1530/2825 [21:49<15:32,  1.39it/s]Computing baseline logprobs:  54%|█████▍    | 1531/2825 [21:49<14:38,  1.47it/s]Computing baseline logprobs:  54%|█████▍    | 1532/2825 [21:50<16:47,  1.28it/s]Computing baseline logprobs:  54%|█████▍    | 1533/2825 [21:51<16:05,  1.34it/s]Computing baseline logprobs:  54%|█████▍    | 1534/2825 [21:51<14:15,  1.51it/s]Computing baseline logprobs:  54%|█████▍    | 1535/2825 [21:52<14:13,  1.51it/s]Computing baseline logprobs:  54%|█████▍    | 1536/2825 [21:53<15:20,  1.40it/s]Computing baseline logprobs:  54%|█████▍    | 1537/2825 [21:54<15:24,  1.39it/s]Computing baseline logprobs:  54%|█████▍    | 1538/2825 [21:55<17:19,  1.24it/s]Computing baseline logprobs:  54%|█████▍    | 1539/2825 [21:56<19:23,  1.10it/s]Computing baseline logprobs:  55%|█████▍    | 1540/2825 [21:56<18:19,  1.17it/s]Computing baseline logprobs:  55%|█████▍    | 1541/2825 [21:57<17:23,  1.23it/s]Computing baseline logprobs:  55%|█████▍    | 1542/2825 [21:58<19:47,  1.08it/s]Computing baseline logprobs:  55%|█████▍    | 1543/2825 [21:59<20:46,  1.03it/s]Computing baseline logprobs:  55%|█████▍    | 1544/2825 [22:00<18:15,  1.17it/s]Computing baseline logprobs:  55%|█████▍    | 1545/2825 [22:01<16:31,  1.29it/s]Computing baseline logprobs:  55%|█████▍    | 1546/2825 [22:01<16:04,  1.33it/s]Computing baseline logprobs:  55%|█████▍    | 1547/2825 [22:02<14:30,  1.47it/s]Computing baseline logprobs:  55%|█████▍    | 1548/2825 [22:02<13:25,  1.58it/s]Computing baseline logprobs:  55%|█████▍    | 1549/2825 [22:03<13:47,  1.54it/s]Computing baseline logprobs:  55%|█████▍    | 1550/2825 [22:04<14:07,  1.50it/s]Computing baseline logprobs:  55%|█████▍    | 1551/2825 [22:05<15:56,  1.33it/s]Computing baseline logprobs:  55%|█████▍    | 1552/2825 [22:06<18:40,  1.14it/s]Computing baseline logprobs:  55%|█████▍    | 1553/2825 [22:07<18:42,  1.13it/s]Computing baseline logprobs:  55%|█████▌    | 1554/2825 [22:08<18:19,  1.16it/s]Computing baseline logprobs:  55%|█████▌    | 1555/2825 [22:08<17:35,  1.20it/s]Computing baseline logprobs:  55%|█████▌    | 1556/2825 [22:09<14:56,  1.42it/s]Computing baseline logprobs:  55%|█████▌    | 1557/2825 [22:09<14:04,  1.50it/s]Computing baseline logprobs:  55%|█████▌    | 1558/2825 [22:10<14:00,  1.51it/s]Computing baseline logprobs:  55%|█████▌    | 1559/2825 [22:11<15:02,  1.40it/s]Computing baseline logprobs:  55%|█████▌    | 1560/2825 [22:11<14:42,  1.43it/s]Computing baseline logprobs:  55%|█████▌    | 1561/2825 [22:12<16:33,  1.27it/s]Computing baseline logprobs:  55%|█████▌    | 1562/2825 [22:13<15:36,  1.35it/s]Computing baseline logprobs:  55%|█████▌    | 1563/2825 [22:14<15:11,  1.38it/s]Computing baseline logprobs:  55%|█████▌    | 1564/2825 [22:14<14:30,  1.45it/s]Computing baseline logprobs:  55%|█████▌    | 1565/2825 [22:15<13:47,  1.52it/s]Computing baseline logprobs:  55%|█████▌    | 1566/2825 [22:15<13:02,  1.61it/s]Computing baseline logprobs:  55%|█████▌    | 1567/2825 [22:16<13:19,  1.57it/s]Computing baseline logprobs:  56%|█████▌    | 1568/2825 [22:17<13:24,  1.56it/s]Computing baseline logprobs:  56%|█████▌    | 1569/2825 [22:18<14:20,  1.46it/s]Computing baseline logprobs:  56%|█████▌    | 1570/2825 [22:18<15:17,  1.37it/s]Computing baseline logprobs:  56%|█████▌    | 1571/2825 [22:19<15:25,  1.35it/s]Computing baseline logprobs:  56%|█████▌    | 1572/2825 [22:20<14:32,  1.44it/s]Computing baseline logprobs:  56%|█████▌    | 1573/2825 [22:20<13:19,  1.57it/s]Computing baseline logprobs:  56%|█████▌    | 1574/2825 [22:21<12:11,  1.71it/s]Computing baseline logprobs:  56%|█████▌    | 1575/2825 [22:22<13:36,  1.53it/s]Computing baseline logprobs:  56%|█████▌    | 1576/2825 [22:22<15:12,  1.37it/s]Computing baseline logprobs:  56%|█████▌    | 1577/2825 [22:23<16:30,  1.26it/s]Computing baseline logprobs:  56%|█████▌    | 1578/2825 [22:24<17:05,  1.22it/s]Computing baseline logprobs:  56%|█████▌    | 1579/2825 [22:25<17:12,  1.21it/s]Computing baseline logprobs:  56%|█████▌    | 1580/2825 [22:26<16:32,  1.25it/s]Computing baseline logprobs:  56%|█████▌    | 1581/2825 [22:26<15:10,  1.37it/s]Computing baseline logprobs:  56%|█████▌    | 1582/2825 [22:27<14:57,  1.39it/s]Computing baseline logprobs:  56%|█████▌    | 1583/2825 [22:28<14:21,  1.44it/s]Computing baseline logprobs:  56%|█████▌    | 1584/2825 [22:29<15:11,  1.36it/s]Computing baseline logprobs:  56%|█████▌    | 1585/2825 [22:29<13:30,  1.53it/s]Computing baseline logprobs:  56%|█████▌    | 1586/2825 [22:30<12:31,  1.65it/s]Computing baseline logprobs:  56%|█████▌    | 1587/2825 [22:30<12:19,  1.67it/s]Computing baseline logprobs:  56%|█████▌    | 1588/2825 [22:31<12:08,  1.70it/s]Computing baseline logprobs:  56%|█████▌    | 1589/2825 [22:31<12:24,  1.66it/s]Computing baseline logprobs:  56%|█████▋    | 1590/2825 [22:32<12:25,  1.66it/s]Computing baseline logprobs:  56%|█████▋    | 1591/2825 [22:33<13:00,  1.58it/s]Computing baseline logprobs:  56%|█████▋    | 1592/2825 [22:33<12:59,  1.58it/s]Computing baseline logprobs:  56%|█████▋    | 1593/2825 [22:34<14:00,  1.47it/s]Computing baseline logprobs:  56%|█████▋    | 1594/2825 [22:35<14:31,  1.41it/s]Computing baseline logprobs:  56%|█████▋    | 1595/2825 [22:36<14:30,  1.41it/s]Computing baseline logprobs:  56%|█████▋    | 1596/2825 [22:36<15:29,  1.32it/s]Computing baseline logprobs:  57%|█████▋    | 1597/2825 [22:37<14:03,  1.46it/s]Computing baseline logprobs:  57%|█████▋    | 1598/2825 [22:38<13:46,  1.48it/s]Computing baseline logprobs:  57%|█████▋    | 1599/2825 [22:38<14:23,  1.42it/s]Computing baseline logprobs:  57%|█████▋    | 1600/2825 [22:39<14:52,  1.37it/s]Computing baseline logprobs:  57%|█████▋    | 1601/2825 [22:40<14:46,  1.38it/s]Computing baseline logprobs:  57%|█████▋    | 1602/2825 [22:40<14:27,  1.41it/s]Computing baseline logprobs:  57%|█████▋    | 1603/2825 [22:41<14:07,  1.44it/s]Computing baseline logprobs:  57%|█████▋    | 1604/2825 [22:42<14:33,  1.40it/s]Computing baseline logprobs:  57%|█████▋    | 1605/2825 [22:43<14:44,  1.38it/s]Computing baseline logprobs:  57%|█████▋    | 1606/2825 [22:43<15:18,  1.33it/s]Computing baseline logprobs:  57%|█████▋    | 1607/2825 [22:44<15:42,  1.29it/s]Computing baseline logprobs:  57%|█████▋    | 1608/2825 [22:45<15:43,  1.29it/s]Computing baseline logprobs:  57%|█████▋    | 1609/2825 [22:46<15:38,  1.30it/s]Computing baseline logprobs:  57%|█████▋    | 1610/2825 [22:47<15:32,  1.30it/s]Computing baseline logprobs:  57%|█████▋    | 1611/2825 [22:47<15:15,  1.33it/s]Computing baseline logprobs:  57%|█████▋    | 1612/2825 [22:48<14:55,  1.36it/s]Computing baseline logprobs:  57%|█████▋    | 1613/2825 [22:49<15:59,  1.26it/s]Computing baseline logprobs:  57%|█████▋    | 1614/2825 [22:50<14:55,  1.35it/s]Computing baseline logprobs:  57%|█████▋    | 1615/2825 [22:50<14:15,  1.41it/s]Computing baseline logprobs:  57%|█████▋    | 1616/2825 [22:51<14:24,  1.40it/s]Computing baseline logprobs:  57%|█████▋    | 1617/2825 [22:51<13:22,  1.51it/s]Computing baseline logprobs:  57%|█████▋    | 1618/2825 [22:52<13:10,  1.53it/s]Computing baseline logprobs:  57%|█████▋    | 1619/2825 [22:53<12:39,  1.59it/s]Computing baseline logprobs:  57%|█████▋    | 1620/2825 [22:53<13:45,  1.46it/s]Computing baseline logprobs:  57%|█████▋    | 1621/2825 [22:54<12:58,  1.55it/s]Computing baseline logprobs:  57%|█████▋    | 1622/2825 [22:55<12:49,  1.56it/s]Computing baseline logprobs:  57%|█████▋    | 1623/2825 [22:56<14:06,  1.42it/s]Computing baseline logprobs:  57%|█████▋    | 1624/2825 [22:56<14:01,  1.43it/s]Computing baseline logprobs:  58%|█████▊    | 1625/2825 [22:57<14:52,  1.35it/s]Computing baseline logprobs:  58%|█████▊    | 1626/2825 [22:58<15:24,  1.30it/s]Computing baseline logprobs:  58%|█████▊    | 1627/2825 [22:59<15:12,  1.31it/s]Computing baseline logprobs:  58%|█████▊    | 1628/2825 [22:59<14:14,  1.40it/s]Computing baseline logprobs:  58%|█████▊    | 1629/2825 [23:00<13:32,  1.47it/s]Computing baseline logprobs:  58%|█████▊    | 1630/2825 [23:00<12:02,  1.65it/s]Computing baseline logprobs:  58%|█████▊    | 1631/2825 [23:01<12:37,  1.58it/s]Computing baseline logprobs:  58%|█████▊    | 1632/2825 [23:02<13:37,  1.46it/s]Computing baseline logprobs:  58%|█████▊    | 1633/2825 [23:02<13:22,  1.49it/s]Computing baseline logprobs:  58%|█████▊    | 1634/2825 [23:03<13:07,  1.51it/s]Computing baseline logprobs:  58%|█████▊    | 1635/2825 [23:04<12:42,  1.56it/s]Computing baseline logprobs:  58%|█████▊    | 1636/2825 [23:04<12:16,  1.61it/s]Computing baseline logprobs:  58%|█████▊    | 1637/2825 [23:05<14:22,  1.38it/s]Computing baseline logprobs:  58%|█████▊    | 1638/2825 [23:06<16:21,  1.21it/s]Computing baseline logprobs:  58%|█████▊    | 1639/2825 [23:07<16:00,  1.24it/s]Computing baseline logprobs:  58%|█████▊    | 1640/2825 [23:07<13:44,  1.44it/s]Computing baseline logprobs:  58%|█████▊    | 1641/2825 [23:08<12:32,  1.57it/s]Computing baseline logprobs:  58%|█████▊    | 1642/2825 [23:08<11:03,  1.78it/s]Computing baseline logprobs:  58%|█████▊    | 1643/2825 [23:09<11:12,  1.76it/s]Computing baseline logprobs:  58%|█████▊    | 1644/2825 [23:10<11:40,  1.69it/s]Computing baseline logprobs:  58%|█████▊    | 1645/2825 [23:11<13:40,  1.44it/s]Computing baseline logprobs:  58%|█████▊    | 1646/2825 [23:12<16:46,  1.17it/s]Computing baseline logprobs:  58%|█████▊    | 1647/2825 [23:13<16:45,  1.17it/s]Computing baseline logprobs:  58%|█████▊    | 1648/2825 [23:13<15:39,  1.25it/s]Computing baseline logprobs:  58%|█████▊    | 1649/2825 [23:14<14:08,  1.39it/s]Computing baseline logprobs:  58%|█████▊    | 1650/2825 [23:15<14:08,  1.38it/s]Computing baseline logprobs:  58%|█████▊    | 1651/2825 [23:15<13:18,  1.47it/s]Computing baseline logprobs:  58%|█████▊    | 1652/2825 [23:16<15:26,  1.27it/s]Computing baseline logprobs:  59%|█████▊    | 1653/2825 [23:17<15:57,  1.22it/s]Computing baseline logprobs:  59%|█████▊    | 1654/2825 [23:18<15:17,  1.28it/s]Computing baseline logprobs:  59%|█████▊    | 1655/2825 [23:19<15:49,  1.23it/s]Computing baseline logprobs:  59%|█████▊    | 1656/2825 [23:19<14:57,  1.30it/s]Computing baseline logprobs:  59%|█████▊    | 1657/2825 [23:20<14:52,  1.31it/s]Computing baseline logprobs:  59%|█████▊    | 1658/2825 [23:21<15:41,  1.24it/s]Computing baseline logprobs:  59%|█████▊    | 1659/2825 [23:22<14:35,  1.33it/s]Computing baseline logprobs:  59%|█████▉    | 1660/2825 [23:22<13:08,  1.48it/s]Computing baseline logprobs:  59%|█████▉    | 1661/2825 [23:23<12:13,  1.59it/s]Computing baseline logprobs:  59%|█████▉    | 1662/2825 [23:23<12:20,  1.57it/s]Computing baseline logprobs:  59%|█████▉    | 1663/2825 [23:24<11:29,  1.68it/s]Computing baseline logprobs:  59%|█████▉    | 1664/2825 [23:24<11:12,  1.73it/s]Computing baseline logprobs:  59%|█████▉    | 1665/2825 [23:25<12:21,  1.56it/s]Computing baseline logprobs:  59%|█████▉    | 1666/2825 [23:26<13:17,  1.45it/s]Computing baseline logprobs:  59%|█████▉    | 1667/2825 [23:26<12:43,  1.52it/s]Computing baseline logprobs:  59%|█████▉    | 1668/2825 [23:27<13:11,  1.46it/s]Computing baseline logprobs:  59%|█████▉    | 1669/2825 [23:28<12:30,  1.54it/s]Computing baseline logprobs:  59%|█████▉    | 1670/2825 [23:28<12:18,  1.56it/s]Computing baseline logprobs:  59%|█████▉    | 1671/2825 [23:29<13:31,  1.42it/s]Computing baseline logprobs:  59%|█████▉    | 1672/2825 [23:30<14:09,  1.36it/s]Computing baseline logprobs:  59%|█████▉    | 1673/2825 [23:31<13:26,  1.43it/s]Computing baseline logprobs:  59%|█████▉    | 1674/2825 [23:31<13:04,  1.47it/s]Computing baseline logprobs:  59%|█████▉    | 1675/2825 [23:32<13:24,  1.43it/s]Computing baseline logprobs:  59%|█████▉    | 1676/2825 [23:33<14:35,  1.31it/s]Computing baseline logprobs:  59%|█████▉    | 1677/2825 [23:34<13:58,  1.37it/s]Computing baseline logprobs:  59%|█████▉    | 1678/2825 [23:34<13:45,  1.39it/s]Computing baseline logprobs:  59%|█████▉    | 1679/2825 [23:35<11:52,  1.61it/s]Computing baseline logprobs:  59%|█████▉    | 1680/2825 [23:35<11:31,  1.66it/s]Computing baseline logprobs:  60%|█████▉    | 1681/2825 [23:36<11:56,  1.60it/s]Computing baseline logprobs:  60%|█████▉    | 1682/2825 [23:37<12:22,  1.54it/s]Computing baseline logprobs:  60%|█████▉    | 1683/2825 [23:37<13:00,  1.46it/s]Computing baseline logprobs:  60%|█████▉    | 1684/2825 [23:38<12:22,  1.54it/s]Computing baseline logprobs:  60%|█████▉    | 1685/2825 [23:39<13:00,  1.46it/s]Computing baseline logprobs:  60%|█████▉    | 1686/2825 [23:39<13:12,  1.44it/s]Computing baseline logprobs:  60%|█████▉    | 1687/2825 [23:40<14:09,  1.34it/s]Computing baseline logprobs:  60%|█████▉    | 1688/2825 [23:41<13:49,  1.37it/s]Computing baseline logprobs:  60%|█████▉    | 1689/2825 [23:42<12:38,  1.50it/s]Computing baseline logprobs:  60%|█████▉    | 1690/2825 [23:42<12:32,  1.51it/s]Computing baseline logprobs:  60%|█████▉    | 1691/2825 [23:43<13:00,  1.45it/s]Computing baseline logprobs:  60%|█████▉    | 1692/2825 [23:44<12:32,  1.51it/s]Computing baseline logprobs:  60%|█████▉    | 1693/2825 [23:44<12:49,  1.47it/s]Computing baseline logprobs:  60%|█████▉    | 1694/2825 [23:45<12:09,  1.55it/s]Computing baseline logprobs:  60%|██████    | 1695/2825 [23:45<10:56,  1.72it/s]Computing baseline logprobs:  60%|██████    | 1696/2825 [23:46<10:51,  1.73it/s]Computing baseline logprobs:  60%|██████    | 1697/2825 [23:46<10:58,  1.71it/s]Computing baseline logprobs:  60%|██████    | 1698/2825 [23:47<10:20,  1.82it/s]Computing baseline logprobs:  60%|██████    | 1699/2825 [23:47<10:31,  1.78it/s]Computing baseline logprobs:  60%|██████    | 1700/2825 [23:48<10:19,  1.82it/s]Computing baseline logprobs:  60%|██████    | 1701/2825 [23:49<12:09,  1.54it/s]Computing baseline logprobs:  60%|██████    | 1702/2825 [23:50<14:16,  1.31it/s]Computing baseline logprobs:  60%|██████    | 1703/2825 [23:51<14:49,  1.26it/s]Computing baseline logprobs:  60%|██████    | 1704/2825 [23:52<15:28,  1.21it/s]Computing baseline logprobs:  60%|██████    | 1705/2825 [23:53<15:23,  1.21it/s]Computing baseline logprobs:  60%|██████    | 1706/2825 [23:54<16:38,  1.12it/s]Computing baseline logprobs:  60%|██████    | 1707/2825 [23:54<16:11,  1.15it/s]Computing baseline logprobs:  60%|██████    | 1708/2825 [23:55<16:48,  1.11it/s]Computing baseline logprobs:  60%|██████    | 1709/2825 [23:57<18:31,  1.00it/s]Computing baseline logprobs:  61%|██████    | 1710/2825 [23:57<16:17,  1.14it/s]Computing baseline logprobs:  61%|██████    | 1711/2825 [23:58<15:51,  1.17it/s]Computing baseline logprobs:  61%|██████    | 1712/2825 [23:59<14:59,  1.24it/s]Computing baseline logprobs:  61%|██████    | 1713/2825 [23:59<13:58,  1.33it/s]Computing baseline logprobs:  61%|██████    | 1714/2825 [24:00<15:11,  1.22it/s]Computing baseline logprobs:  61%|██████    | 1715/2825 [24:01<15:46,  1.17it/s]Computing baseline logprobs:  61%|██████    | 1716/2825 [24:02<14:28,  1.28it/s]Computing baseline logprobs:  61%|██████    | 1717/2825 [24:02<13:15,  1.39it/s]Computing baseline logprobs:  61%|██████    | 1718/2825 [24:03<12:24,  1.49it/s]Computing baseline logprobs:  61%|██████    | 1719/2825 [24:04<12:09,  1.52it/s]Computing baseline logprobs:  61%|██████    | 1720/2825 [24:04<12:43,  1.45it/s]Computing baseline logprobs:  61%|██████    | 1721/2825 [24:05<12:36,  1.46it/s]Computing baseline logprobs:  61%|██████    | 1722/2825 [24:06<13:14,  1.39it/s]Computing baseline logprobs:  61%|██████    | 1723/2825 [24:07<13:17,  1.38it/s]Computing baseline logprobs:  61%|██████    | 1724/2825 [24:07<14:02,  1.31it/s]Computing baseline logprobs:  61%|██████    | 1725/2825 [24:08<15:29,  1.18it/s]Computing baseline logprobs:  61%|██████    | 1726/2825 [24:09<14:15,  1.28it/s]Computing baseline logprobs:  61%|██████    | 1727/2825 [24:10<15:58,  1.15it/s]Computing baseline logprobs:  61%|██████    | 1728/2825 [24:11<15:19,  1.19it/s]Computing baseline logprobs:  61%|██████    | 1729/2825 [24:12<14:00,  1.30it/s]Computing baseline logprobs:  61%|██████    | 1730/2825 [24:12<13:42,  1.33it/s]Computing baseline logprobs:  61%|██████▏   | 1731/2825 [24:13<14:22,  1.27it/s]Computing baseline logprobs:  61%|██████▏   | 1732/2825 [24:14<14:11,  1.28it/s]Computing baseline logprobs:  61%|██████▏   | 1733/2825 [24:14<12:45,  1.43it/s]Computing baseline logprobs:  61%|██████▏   | 1734/2825 [24:15<12:12,  1.49it/s]Computing baseline logprobs:  61%|██████▏   | 1735/2825 [24:16<11:34,  1.57it/s]Computing baseline logprobs:  61%|██████▏   | 1736/2825 [24:16<11:30,  1.58it/s]Computing baseline logprobs:  61%|██████▏   | 1737/2825 [24:17<11:53,  1.53it/s]Computing baseline logprobs:  62%|██████▏   | 1738/2825 [24:18<13:03,  1.39it/s]Computing baseline logprobs:  62%|██████▏   | 1739/2825 [24:18<12:34,  1.44it/s]Computing baseline logprobs:  62%|██████▏   | 1740/2825 [24:19<14:38,  1.23it/s]Computing baseline logprobs:  62%|██████▏   | 1741/2825 [24:20<13:49,  1.31it/s]Computing baseline logprobs:  62%|██████▏   | 1742/2825 [24:21<13:03,  1.38it/s]Computing baseline logprobs:  62%|██████▏   | 1743/2825 [24:21<12:30,  1.44it/s]Computing baseline logprobs:  62%|██████▏   | 1744/2825 [24:22<11:51,  1.52it/s]Computing baseline logprobs:  62%|██████▏   | 1745/2825 [24:23<11:29,  1.57it/s]Computing baseline logprobs:  62%|██████▏   | 1746/2825 [24:23<11:19,  1.59it/s]Computing baseline logprobs:  62%|██████▏   | 1747/2825 [24:24<11:20,  1.58it/s]Computing baseline logprobs:  62%|██████▏   | 1748/2825 [24:25<11:46,  1.52it/s]Computing baseline logprobs:  62%|██████▏   | 1749/2825 [24:25<12:13,  1.47it/s]Computing baseline logprobs:  62%|██████▏   | 1750/2825 [24:26<11:40,  1.53it/s]Computing baseline logprobs:  62%|██████▏   | 1751/2825 [24:26<10:14,  1.75it/s]Computing baseline logprobs:  62%|██████▏   | 1752/2825 [24:27<09:44,  1.84it/s]Computing baseline logprobs:  62%|██████▏   | 1753/2825 [24:27<09:44,  1.83it/s]Computing baseline logprobs:  62%|██████▏   | 1754/2825 [24:28<09:33,  1.87it/s]Computing baseline logprobs:  62%|██████▏   | 1755/2825 [24:28<09:45,  1.83it/s]Computing baseline logprobs:  62%|██████▏   | 1756/2825 [24:29<11:00,  1.62it/s]Computing baseline logprobs:  62%|██████▏   | 1757/2825 [24:30<13:06,  1.36it/s]Computing baseline logprobs:  62%|██████▏   | 1758/2825 [24:31<13:30,  1.32it/s]Computing baseline logprobs:  62%|██████▏   | 1759/2825 [24:32<13:09,  1.35it/s]Computing baseline logprobs:  62%|██████▏   | 1760/2825 [24:32<13:34,  1.31it/s]Computing baseline logprobs:  62%|██████▏   | 1761/2825 [24:33<13:39,  1.30it/s]Computing baseline logprobs:  62%|██████▏   | 1762/2825 [24:34<13:36,  1.30it/s]Computing baseline logprobs:  62%|██████▏   | 1763/2825 [24:35<12:58,  1.36it/s]Computing baseline logprobs:  62%|██████▏   | 1764/2825 [24:36<13:48,  1.28it/s]Computing baseline logprobs:  62%|██████▏   | 1765/2825 [24:37<15:21,  1.15it/s]Computing baseline logprobs:  63%|██████▎   | 1766/2825 [24:37<15:12,  1.16it/s]Computing baseline logprobs:  63%|██████▎   | 1767/2825 [24:38<14:16,  1.24it/s]Computing baseline logprobs:  63%|██████▎   | 1768/2825 [24:39<13:43,  1.28it/s]Computing baseline logprobs:  63%|██████▎   | 1769/2825 [24:40<13:11,  1.33it/s]Computing baseline logprobs:  63%|██████▎   | 1770/2825 [24:40<13:15,  1.33it/s]Computing baseline logprobs:  63%|██████▎   | 1771/2825 [24:41<13:11,  1.33it/s]Computing baseline logprobs:  63%|██████▎   | 1772/2825 [24:42<12:37,  1.39it/s]Computing baseline logprobs:  63%|██████▎   | 1773/2825 [24:42<12:12,  1.44it/s]Computing baseline logprobs:  63%|██████▎   | 1774/2825 [24:43<12:14,  1.43it/s]Computing baseline logprobs:  63%|██████▎   | 1775/2825 [24:44<12:53,  1.36it/s]Computing baseline logprobs:  63%|██████▎   | 1776/2825 [24:45<13:12,  1.32it/s]Computing baseline logprobs:  63%|██████▎   | 1777/2825 [24:45<13:05,  1.33it/s]Computing baseline logprobs:  63%|██████▎   | 1778/2825 [24:46<12:33,  1.39it/s]Computing baseline logprobs:  63%|██████▎   | 1779/2825 [24:47<12:59,  1.34it/s]Computing baseline logprobs:  63%|██████▎   | 1780/2825 [24:47<12:10,  1.43it/s]Computing baseline logprobs:  63%|██████▎   | 1781/2825 [24:48<12:35,  1.38it/s]Computing baseline logprobs:  63%|██████▎   | 1782/2825 [24:49<13:49,  1.26it/s]Computing baseline logprobs:  63%|██████▎   | 1783/2825 [24:50<12:06,  1.43it/s]Computing baseline logprobs:  63%|██████▎   | 1784/2825 [24:51<13:37,  1.27it/s]Computing baseline logprobs:  63%|██████▎   | 1785/2825 [24:52<14:39,  1.18it/s]Computing baseline logprobs:  63%|██████▎   | 1786/2825 [24:52<13:33,  1.28it/s]Computing baseline logprobs:  63%|██████▎   | 1787/2825 [24:53<12:47,  1.35it/s]Computing baseline logprobs:  63%|██████▎   | 1788/2825 [24:54<12:33,  1.38it/s]Computing baseline logprobs:  63%|██████▎   | 1789/2825 [24:54<12:28,  1.38it/s]Computing baseline logprobs:  63%|██████▎   | 1790/2825 [24:56<14:59,  1.15it/s]Computing baseline logprobs:  63%|██████▎   | 1791/2825 [24:56<13:59,  1.23it/s]Computing baseline logprobs:  63%|██████▎   | 1792/2825 [24:57<13:15,  1.30it/s]Computing baseline logprobs:  63%|██████▎   | 1793/2825 [24:57<12:25,  1.38it/s]Computing baseline logprobs:  64%|██████▎   | 1794/2825 [24:58<12:21,  1.39it/s]Computing baseline logprobs:  64%|██████▎   | 1795/2825 [24:59<12:47,  1.34it/s]Computing baseline logprobs:  64%|██████▎   | 1796/2825 [25:00<12:23,  1.38it/s]Computing baseline logprobs:  64%|██████▎   | 1797/2825 [25:00<12:34,  1.36it/s]Computing baseline logprobs:  64%|██████▎   | 1798/2825 [25:01<12:24,  1.38it/s]Computing baseline logprobs:  64%|██████▎   | 1799/2825 [25:02<12:26,  1.37it/s]Computing baseline logprobs:  64%|██████▎   | 1800/2825 [25:02<11:21,  1.50it/s]Computing baseline logprobs:  64%|██████▍   | 1801/2825 [25:03<11:57,  1.43it/s]Computing baseline logprobs:  64%|██████▍   | 1802/2825 [25:04<13:00,  1.31it/s]Computing baseline logprobs:  64%|██████▍   | 1803/2825 [25:05<13:24,  1.27it/s]Computing baseline logprobs:  64%|██████▍   | 1804/2825 [25:06<13:10,  1.29it/s]Computing baseline logprobs:  64%|██████▍   | 1805/2825 [25:06<13:06,  1.30it/s]Computing baseline logprobs:  64%|██████▍   | 1806/2825 [25:07<12:59,  1.31it/s]Computing baseline logprobs:  64%|██████▍   | 1807/2825 [25:08<13:28,  1.26it/s]Computing baseline logprobs:  64%|██████▍   | 1808/2825 [25:09<13:43,  1.24it/s]Computing baseline logprobs:  64%|██████▍   | 1809/2825 [25:10<12:45,  1.33it/s]Computing baseline logprobs:  64%|██████▍   | 1810/2825 [25:10<11:56,  1.42it/s]Computing baseline logprobs:  64%|██████▍   | 1811/2825 [25:11<12:22,  1.37it/s]Computing baseline logprobs:  64%|██████▍   | 1812/2825 [25:12<12:06,  1.39it/s]Computing baseline logprobs:  64%|██████▍   | 1813/2825 [25:12<12:28,  1.35it/s]Computing baseline logprobs:  64%|██████▍   | 1814/2825 [25:13<11:59,  1.40it/s]Computing baseline logprobs:  64%|██████▍   | 1815/2825 [25:14<12:20,  1.36it/s]Computing baseline logprobs:  64%|██████▍   | 1816/2825 [25:15<13:30,  1.24it/s]Computing baseline logprobs:  64%|██████▍   | 1817/2825 [25:16<14:31,  1.16it/s]Computing baseline logprobs:  64%|██████▍   | 1818/2825 [25:17<13:54,  1.21it/s]Computing baseline logprobs:  64%|██████▍   | 1819/2825 [25:17<12:56,  1.30it/s]Computing baseline logprobs:  64%|██████▍   | 1820/2825 [25:18<12:58,  1.29it/s]Computing baseline logprobs:  64%|██████▍   | 1821/2825 [25:19<13:14,  1.26it/s]Computing baseline logprobs:  64%|██████▍   | 1822/2825 [25:20<13:10,  1.27it/s]Computing baseline logprobs:  65%|██████▍   | 1823/2825 [25:20<12:50,  1.30it/s]Computing baseline logprobs:  65%|██████▍   | 1824/2825 [25:21<12:46,  1.31it/s]Computing baseline logprobs:  65%|██████▍   | 1825/2825 [25:22<13:03,  1.28it/s]Computing baseline logprobs:  65%|██████▍   | 1826/2825 [25:23<13:27,  1.24it/s]Computing baseline logprobs:  65%|██████▍   | 1827/2825 [25:24<14:14,  1.17it/s]Computing baseline logprobs:  65%|██████▍   | 1828/2825 [25:24<13:27,  1.23it/s]Computing baseline logprobs:  65%|██████▍   | 1829/2825 [25:25<14:15,  1.16it/s]Computing baseline logprobs:  65%|██████▍   | 1830/2825 [25:26<13:50,  1.20it/s]Computing baseline logprobs:  65%|██████▍   | 1831/2825 [25:27<13:03,  1.27it/s]Computing baseline logprobs:  65%|██████▍   | 1832/2825 [25:28<13:09,  1.26it/s]Computing baseline logprobs:  65%|██████▍   | 1833/2825 [25:28<11:23,  1.45it/s]Computing baseline logprobs:  65%|██████▍   | 1834/2825 [25:29<11:05,  1.49it/s]Computing baseline logprobs:  65%|██████▍   | 1835/2825 [25:29<10:47,  1.53it/s]Computing baseline logprobs:  65%|██████▍   | 1836/2825 [25:30<11:32,  1.43it/s]Computing baseline logprobs:  65%|██████▌   | 1837/2825 [25:31<12:30,  1.32it/s]Computing baseline logprobs:  65%|██████▌   | 1838/2825 [25:32<11:44,  1.40it/s]Computing baseline logprobs:  65%|██████▌   | 1839/2825 [25:32<11:59,  1.37it/s]Computing baseline logprobs:  65%|██████▌   | 1840/2825 [25:33<11:51,  1.38it/s]Computing baseline logprobs:  65%|██████▌   | 1841/2825 [25:34<12:10,  1.35it/s]Computing baseline logprobs:  65%|██████▌   | 1842/2825 [25:35<11:48,  1.39it/s]Computing baseline logprobs:  65%|██████▌   | 1843/2825 [25:35<11:58,  1.37it/s]Computing baseline logprobs:  65%|██████▌   | 1844/2825 [25:36<10:45,  1.52it/s]Computing baseline logprobs:  65%|██████▌   | 1845/2825 [25:36<10:08,  1.61it/s]Computing baseline logprobs:  65%|██████▌   | 1846/2825 [25:37<10:40,  1.53it/s]Computing baseline logprobs:  65%|██████▌   | 1847/2825 [25:38<11:11,  1.46it/s]Computing baseline logprobs:  65%|██████▌   | 1848/2825 [25:39<11:40,  1.39it/s]Computing baseline logprobs:  65%|██████▌   | 1849/2825 [25:39<11:31,  1.41it/s]Computing baseline logprobs:  65%|██████▌   | 1850/2825 [25:40<10:53,  1.49it/s]Computing baseline logprobs:  66%|██████▌   | 1851/2825 [25:41<12:04,  1.34it/s]Computing baseline logprobs:  66%|██████▌   | 1852/2825 [25:42<13:42,  1.18it/s]Computing baseline logprobs:  66%|██████▌   | 1853/2825 [25:43<13:30,  1.20it/s]Computing baseline logprobs:  66%|██████▌   | 1854/2825 [25:44<13:21,  1.21it/s]Computing baseline logprobs:  66%|██████▌   | 1855/2825 [25:44<13:20,  1.21it/s]Computing baseline logprobs:  66%|██████▌   | 1856/2825 [25:45<12:32,  1.29it/s]Computing baseline logprobs:  66%|██████▌   | 1857/2825 [25:46<12:50,  1.26it/s]Computing baseline logprobs:  66%|██████▌   | 1858/2825 [25:47<13:18,  1.21it/s]Computing baseline logprobs:  66%|██████▌   | 1859/2825 [25:48<13:14,  1.22it/s]Computing baseline logprobs:  66%|██████▌   | 1860/2825 [25:48<12:46,  1.26it/s]Computing baseline logprobs:  66%|██████▌   | 1861/2825 [25:49<11:50,  1.36it/s]Computing baseline logprobs:  66%|██████▌   | 1862/2825 [25:50<11:52,  1.35it/s]Computing baseline logprobs:  66%|██████▌   | 1863/2825 [25:50<12:19,  1.30it/s]Computing baseline logprobs:  66%|██████▌   | 1864/2825 [25:51<11:55,  1.34it/s]Computing baseline logprobs:  66%|██████▌   | 1865/2825 [25:52<10:47,  1.48it/s]Computing baseline logprobs:  66%|██████▌   | 1866/2825 [25:52<10:42,  1.49it/s]Computing baseline logprobs:  66%|██████▌   | 1867/2825 [25:53<10:26,  1.53it/s]Computing baseline logprobs:  66%|██████▌   | 1868/2825 [25:54<10:15,  1.55it/s]Computing baseline logprobs:  66%|██████▌   | 1869/2825 [25:54<10:43,  1.49it/s]Computing baseline logprobs:  66%|██████▌   | 1870/2825 [25:55<11:13,  1.42it/s]Computing baseline logprobs:  66%|██████▌   | 1871/2825 [25:56<11:25,  1.39it/s]Computing baseline logprobs:  66%|██████▋   | 1872/2825 [25:56<10:56,  1.45it/s]Computing baseline logprobs:  66%|██████▋   | 1873/2825 [25:57<11:57,  1.33it/s]Computing baseline logprobs:  66%|██████▋   | 1874/2825 [25:58<12:58,  1.22it/s]Computing baseline logprobs:  66%|██████▋   | 1875/2825 [25:59<12:00,  1.32it/s]Computing baseline logprobs:  66%|██████▋   | 1876/2825 [26:00<11:02,  1.43it/s]Computing baseline logprobs:  66%|██████▋   | 1877/2825 [26:00<09:55,  1.59it/s]Computing baseline logprobs:  66%|██████▋   | 1878/2825 [26:01<09:44,  1.62it/s]Computing baseline logprobs:  67%|██████▋   | 1879/2825 [26:01<09:49,  1.60it/s]Computing baseline logprobs:  67%|██████▋   | 1880/2825 [26:02<09:57,  1.58it/s]Computing baseline logprobs:  67%|██████▋   | 1881/2825 [26:03<10:47,  1.46it/s]Computing baseline logprobs:  67%|██████▋   | 1882/2825 [26:03<11:11,  1.40it/s]Computing baseline logprobs:  67%|██████▋   | 1883/2825 [26:04<11:57,  1.31it/s]Computing baseline logprobs:  67%|██████▋   | 1884/2825 [26:05<12:59,  1.21it/s]Computing baseline logprobs:  67%|██████▋   | 1885/2825 [26:06<12:26,  1.26it/s]Computing baseline logprobs:  67%|██████▋   | 1886/2825 [26:07<11:52,  1.32it/s]Computing baseline logprobs:  67%|██████▋   | 1887/2825 [26:08<12:16,  1.27it/s]Computing baseline logprobs:  67%|██████▋   | 1888/2825 [26:08<12:36,  1.24it/s]Computing baseline logprobs:  67%|██████▋   | 1889/2825 [26:10<13:58,  1.12it/s]Computing baseline logprobs:  67%|██████▋   | 1890/2825 [26:10<13:55,  1.12it/s]Computing baseline logprobs:  67%|██████▋   | 1891/2825 [26:11<12:57,  1.20it/s]Computing baseline logprobs:  67%|██████▋   | 1892/2825 [26:12<12:29,  1.24it/s]Computing baseline logprobs:  67%|██████▋   | 1893/2825 [26:13<12:39,  1.23it/s]Computing baseline logprobs:  67%|██████▋   | 1894/2825 [26:13<12:39,  1.23it/s]Computing baseline logprobs:  67%|██████▋   | 1895/2825 [26:14<12:13,  1.27it/s]Computing baseline logprobs:  67%|██████▋   | 1896/2825 [26:15<11:32,  1.34it/s]Computing baseline logprobs:  67%|██████▋   | 1897/2825 [26:16<11:07,  1.39it/s]Computing baseline logprobs:  67%|██████▋   | 1898/2825 [26:16<10:48,  1.43it/s]Computing baseline logprobs:  67%|██████▋   | 1899/2825 [26:17<10:34,  1.46it/s]Computing baseline logprobs:  67%|██████▋   | 1900/2825 [26:18<10:58,  1.41it/s]Computing baseline logprobs:  67%|██████▋   | 1901/2825 [26:18<10:42,  1.44it/s]Computing baseline logprobs:  67%|██████▋   | 1902/2825 [26:19<10:28,  1.47it/s]Computing baseline logprobs:  67%|██████▋   | 1903/2825 [26:20<10:20,  1.49it/s]Computing baseline logprobs:  67%|██████▋   | 1904/2825 [26:20<10:30,  1.46it/s]Computing baseline logprobs:  67%|██████▋   | 1905/2825 [26:21<10:18,  1.49it/s]Computing baseline logprobs:  67%|██████▋   | 1906/2825 [26:22<10:24,  1.47it/s]Computing baseline logprobs:  68%|██████▊   | 1907/2825 [26:22<10:41,  1.43it/s]Computing baseline logprobs:  68%|██████▊   | 1908/2825 [26:23<10:23,  1.47it/s]Computing baseline logprobs:  68%|██████▊   | 1909/2825 [26:24<10:46,  1.42it/s]Computing baseline logprobs:  68%|██████▊   | 1910/2825 [26:24<10:47,  1.41it/s]Computing baseline logprobs:  68%|██████▊   | 1911/2825 [26:25<09:57,  1.53it/s]Computing baseline logprobs:  68%|██████▊   | 1912/2825 [26:26<09:21,  1.63it/s]Computing baseline logprobs:  68%|██████▊   | 1913/2825 [26:26<10:36,  1.43it/s]Computing baseline logprobs:  68%|██████▊   | 1914/2825 [26:27<10:29,  1.45it/s]Computing baseline logprobs:  68%|██████▊   | 1915/2825 [26:28<11:00,  1.38it/s]Computing baseline logprobs:  68%|██████▊   | 1916/2825 [26:29<11:10,  1.36it/s]Computing baseline logprobs:  68%|██████▊   | 1917/2825 [26:29<11:38,  1.30it/s]Computing baseline logprobs:  68%|██████▊   | 1918/2825 [26:30<11:40,  1.29it/s]Computing baseline logprobs:  68%|██████▊   | 1919/2825 [26:31<10:49,  1.40it/s]Computing baseline logprobs:  68%|██████▊   | 1920/2825 [26:32<10:54,  1.38it/s]Computing baseline logprobs:  68%|██████▊   | 1921/2825 [26:33<12:26,  1.21it/s]Computing baseline logprobs:  68%|██████▊   | 1922/2825 [26:33<12:22,  1.22it/s]Computing baseline logprobs:  68%|██████▊   | 1923/2825 [26:34<12:06,  1.24it/s]Computing baseline logprobs:  68%|██████▊   | 1924/2825 [26:35<11:37,  1.29it/s]Computing baseline logprobs:  68%|██████▊   | 1925/2825 [26:36<11:33,  1.30it/s]Computing baseline logprobs:  68%|██████▊   | 1926/2825 [26:36<11:26,  1.31it/s]Computing baseline logprobs:  68%|██████▊   | 1927/2825 [26:37<12:06,  1.24it/s]Computing baseline logprobs:  68%|██████▊   | 1928/2825 [26:38<12:10,  1.23it/s]Computing baseline logprobs:  68%|██████▊   | 1929/2825 [26:39<11:41,  1.28it/s]Computing baseline logprobs:  68%|██████▊   | 1930/2825 [26:40<11:15,  1.32it/s]Computing baseline logprobs:  68%|██████▊   | 1931/2825 [26:40<11:07,  1.34it/s]Computing baseline logprobs:  68%|██████▊   | 1932/2825 [26:41<10:44,  1.39it/s]Computing baseline logprobs:  68%|██████▊   | 1933/2825 [26:42<10:30,  1.42it/s]Computing baseline logprobs:  68%|██████▊   | 1934/2825 [26:42<10:16,  1.45it/s]Computing baseline logprobs:  68%|██████▊   | 1935/2825 [26:43<10:23,  1.43it/s]Computing baseline logprobs:  69%|██████▊   | 1936/2825 [26:44<12:07,  1.22it/s]Computing baseline logprobs:  69%|██████▊   | 1937/2825 [26:45<11:16,  1.31it/s]Computing baseline logprobs:  69%|██████▊   | 1938/2825 [26:45<10:12,  1.45it/s]Computing baseline logprobs:  69%|██████▊   | 1939/2825 [26:46<09:54,  1.49it/s]Computing baseline logprobs:  69%|██████▊   | 1940/2825 [26:47<10:07,  1.46it/s]Computing baseline logprobs:  69%|██████▊   | 1941/2825 [26:48<11:11,  1.32it/s]Computing baseline logprobs:  69%|██████▊   | 1942/2825 [26:48<11:42,  1.26it/s]Computing baseline logprobs:  69%|██████▉   | 1943/2825 [26:50<13:19,  1.10it/s]Computing baseline logprobs:  69%|██████▉   | 1944/2825 [26:51<14:54,  1.01s/it]Computing baseline logprobs:  69%|██████▉   | 1945/2825 [26:52<13:17,  1.10it/s]Computing baseline logprobs:  69%|██████▉   | 1946/2825 [26:52<13:08,  1.12it/s]Computing baseline logprobs:  69%|██████▉   | 1947/2825 [26:53<13:00,  1.13it/s]Computing baseline logprobs:  69%|██████▉   | 1948/2825 [26:54<11:44,  1.24it/s]Computing baseline logprobs:  69%|██████▉   | 1949/2825 [26:54<10:54,  1.34it/s]Computing baseline logprobs:  69%|██████▉   | 1950/2825 [26:55<09:47,  1.49it/s]Computing baseline logprobs:  69%|██████▉   | 1951/2825 [26:56<09:10,  1.59it/s]Computing baseline logprobs:  69%|██████▉   | 1952/2825 [26:56<07:51,  1.85it/s]Computing baseline logprobs:  69%|██████▉   | 1953/2825 [26:56<07:33,  1.92it/s]Computing baseline logprobs:  69%|██████▉   | 1954/2825 [26:57<09:24,  1.54it/s]Computing baseline logprobs:  69%|██████▉   | 1955/2825 [26:58<09:49,  1.48it/s]Computing baseline logprobs:  69%|██████▉   | 1956/2825 [26:59<10:21,  1.40it/s]Computing baseline logprobs:  69%|██████▉   | 1957/2825 [27:00<10:37,  1.36it/s]Computing baseline logprobs:  69%|██████▉   | 1958/2825 [27:00<10:59,  1.31it/s]Computing baseline logprobs:  69%|██████▉   | 1959/2825 [27:01<11:22,  1.27it/s]Computing baseline logprobs:  69%|██████▉   | 1960/2825 [27:02<11:09,  1.29it/s]Computing baseline logprobs:  69%|██████▉   | 1961/2825 [27:03<11:03,  1.30it/s]Computing baseline logprobs:  69%|██████▉   | 1962/2825 [27:04<11:39,  1.23it/s]Computing baseline logprobs:  69%|██████▉   | 1963/2825 [27:05<12:12,  1.18it/s]Computing baseline logprobs:  70%|██████▉   | 1964/2825 [27:06<12:49,  1.12it/s]Computing baseline logprobs:  70%|██████▉   | 1965/2825 [27:06<11:57,  1.20it/s]Computing baseline logprobs:  70%|██████▉   | 1966/2825 [27:07<11:34,  1.24it/s]Computing baseline logprobs:  70%|██████▉   | 1967/2825 [27:08<11:58,  1.19it/s]Computing baseline logprobs:  70%|██████▉   | 1968/2825 [27:09<13:08,  1.09it/s]Computing baseline logprobs:  70%|██████▉   | 1969/2825 [27:10<11:53,  1.20it/s]Computing baseline logprobs:  70%|██████▉   | 1970/2825 [27:10<11:24,  1.25it/s]Computing baseline logprobs:  70%|██████▉   | 1971/2825 [27:11<11:31,  1.24it/s]Computing baseline logprobs:  70%|██████▉   | 1972/2825 [27:12<10:32,  1.35it/s]Computing baseline logprobs:  70%|██████▉   | 1973/2825 [27:12<09:27,  1.50it/s]Computing baseline logprobs:  70%|██████▉   | 1974/2825 [27:13<09:11,  1.54it/s]Computing baseline logprobs:  70%|██████▉   | 1975/2825 [27:14<09:30,  1.49it/s]Computing baseline logprobs:  70%|██████▉   | 1976/2825 [27:14<09:40,  1.46it/s]Computing baseline logprobs:  70%|██████▉   | 1977/2825 [27:15<10:49,  1.31it/s]Computing baseline logprobs:  70%|███████   | 1978/2825 [27:16<10:14,  1.38it/s]Computing baseline logprobs:  70%|███████   | 1979/2825 [27:17<10:21,  1.36it/s]Computing baseline logprobs:  70%|███████   | 1980/2825 [27:17<10:27,  1.35it/s]Computing baseline logprobs:  70%|███████   | 1981/2825 [27:18<10:55,  1.29it/s]Computing baseline logprobs:  70%|███████   | 1982/2825 [27:19<11:06,  1.27it/s]Computing baseline logprobs:  70%|███████   | 1983/2825 [27:20<10:57,  1.28it/s]Computing baseline logprobs:  70%|███████   | 1984/2825 [27:21<11:38,  1.20it/s]Computing baseline logprobs:  70%|███████   | 1985/2825 [27:22<11:17,  1.24it/s]Computing baseline logprobs:  70%|███████   | 1986/2825 [27:23<11:57,  1.17it/s]Computing baseline logprobs:  70%|███████   | 1987/2825 [27:24<13:10,  1.06it/s]Computing baseline logprobs:  70%|███████   | 1988/2825 [27:25<12:41,  1.10it/s]Computing baseline logprobs:  70%|███████   | 1989/2825 [27:25<11:22,  1.22it/s]Computing baseline logprobs:  70%|███████   | 1990/2825 [27:26<10:27,  1.33it/s]Computing baseline logprobs:  70%|███████   | 1991/2825 [27:26<10:09,  1.37it/s]Computing baseline logprobs:  71%|███████   | 1992/2825 [27:27<10:24,  1.33it/s]Computing baseline logprobs:  71%|███████   | 1993/2825 [27:28<09:59,  1.39it/s]Computing baseline logprobs:  71%|███████   | 1994/2825 [27:29<09:59,  1.39it/s]Computing baseline logprobs:  71%|███████   | 1995/2825 [27:29<09:27,  1.46it/s]Computing baseline logprobs:  71%|███████   | 1996/2825 [27:30<09:36,  1.44it/s]Computing baseline logprobs:  71%|███████   | 1997/2825 [27:31<09:18,  1.48it/s]Computing baseline logprobs:  71%|███████   | 1998/2825 [27:31<08:44,  1.58it/s]Computing baseline logprobs:  71%|███████   | 1999/2825 [27:32<08:05,  1.70it/s]Computing baseline logprobs:  71%|███████   | 2000/2825 [27:32<08:01,  1.71it/s]Computing baseline logprobs:  71%|███████   | 2001/2825 [27:33<08:02,  1.71it/s]Computing baseline logprobs:  71%|███████   | 2002/2825 [27:33<07:53,  1.74it/s]Computing baseline logprobs:  71%|███████   | 2003/2825 [27:34<08:11,  1.67it/s]Computing baseline logprobs:  71%|███████   | 2004/2825 [27:35<09:03,  1.51it/s]Computing baseline logprobs:  71%|███████   | 2005/2825 [27:35<09:21,  1.46it/s]Computing baseline logprobs:  71%|███████   | 2006/2825 [27:36<08:58,  1.52it/s]Computing baseline logprobs:  71%|███████   | 2007/2825 [27:37<08:26,  1.61it/s]Computing baseline logprobs:  71%|███████   | 2008/2825 [27:37<08:30,  1.60it/s]Computing baseline logprobs:  71%|███████   | 2009/2825 [27:38<08:45,  1.55it/s]Computing baseline logprobs:  71%|███████   | 2010/2825 [27:39<09:09,  1.48it/s]Computing baseline logprobs:  71%|███████   | 2011/2825 [27:39<08:47,  1.54it/s]Computing baseline logprobs:  71%|███████   | 2012/2825 [27:40<09:19,  1.45it/s]Computing baseline logprobs:  71%|███████▏  | 2013/2825 [27:41<10:14,  1.32it/s]Computing baseline logprobs:  71%|███████▏  | 2014/2825 [27:42<10:52,  1.24it/s]Computing baseline logprobs:  71%|███████▏  | 2015/2825 [27:43<11:12,  1.20it/s]Computing baseline logprobs:  71%|███████▏  | 2016/2825 [27:43<10:06,  1.33it/s]Computing baseline logprobs:  71%|███████▏  | 2017/2825 [27:44<09:24,  1.43it/s]Computing baseline logprobs:  71%|███████▏  | 2018/2825 [27:45<09:40,  1.39it/s]Computing baseline logprobs:  71%|███████▏  | 2019/2825 [27:45<09:22,  1.43it/s]Computing baseline logprobs:  72%|███████▏  | 2020/2825 [27:46<08:51,  1.51it/s]Computing baseline logprobs:  72%|███████▏  | 2021/2825 [27:46<08:16,  1.62it/s]Computing baseline logprobs:  72%|███████▏  | 2022/2825 [27:47<08:24,  1.59it/s]Computing baseline logprobs:  72%|███████▏  | 2023/2825 [27:48<08:51,  1.51it/s]Computing baseline logprobs:  72%|███████▏  | 2024/2825 [27:48<08:26,  1.58it/s]Computing baseline logprobs:  72%|███████▏  | 2025/2825 [27:49<08:31,  1.57it/s]Computing baseline logprobs:  72%|███████▏  | 2026/2825 [27:50<08:56,  1.49it/s]Computing baseline logprobs:  72%|███████▏  | 2027/2825 [27:50<08:48,  1.51it/s]Computing baseline logprobs:  72%|███████▏  | 2028/2825 [27:51<08:54,  1.49it/s]Computing baseline logprobs:  72%|███████▏  | 2029/2825 [27:52<09:18,  1.42it/s]Computing baseline logprobs:  72%|███████▏  | 2030/2825 [27:53<09:07,  1.45it/s]Computing baseline logprobs:  72%|███████▏  | 2031/2825 [27:53<09:01,  1.47it/s]Computing baseline logprobs:  72%|███████▏  | 2032/2825 [27:54<09:28,  1.40it/s]Computing baseline logprobs:  72%|███████▏  | 2033/2825 [27:55<09:03,  1.46it/s]Computing baseline logprobs:  72%|███████▏  | 2034/2825 [27:55<08:27,  1.56it/s]Computing baseline logprobs:  72%|███████▏  | 2035/2825 [27:56<08:50,  1.49it/s]Computing baseline logprobs:  72%|███████▏  | 2036/2825 [27:56<08:21,  1.57it/s]Computing baseline logprobs:  72%|███████▏  | 2037/2825 [27:57<09:05,  1.44it/s]Computing baseline logprobs:  72%|███████▏  | 2038/2825 [27:58<10:27,  1.25it/s]Computing baseline logprobs:  72%|███████▏  | 2039/2825 [27:59<10:30,  1.25it/s]Computing baseline logprobs:  72%|███████▏  | 2040/2825 [28:00<10:26,  1.25it/s]Computing baseline logprobs:  72%|███████▏  | 2041/2825 [28:01<09:37,  1.36it/s]Computing baseline logprobs:  72%|███████▏  | 2042/2825 [28:01<09:18,  1.40it/s]Computing baseline logprobs:  72%|███████▏  | 2043/2825 [28:02<10:26,  1.25it/s]Computing baseline logprobs:  72%|███████▏  | 2044/2825 [28:03<10:11,  1.28it/s]Computing baseline logprobs:  72%|███████▏  | 2045/2825 [28:04<09:29,  1.37it/s]Computing baseline logprobs:  72%|███████▏  | 2046/2825 [28:04<08:54,  1.46it/s]Computing baseline logprobs:  72%|███████▏  | 2047/2825 [28:05<08:38,  1.50it/s]Computing baseline logprobs:  72%|███████▏  | 2048/2825 [28:06<09:04,  1.43it/s]Computing baseline logprobs:  73%|███████▎  | 2049/2825 [28:06<09:14,  1.40it/s]Computing baseline logprobs:  73%|███████▎  | 2050/2825 [28:07<08:44,  1.48it/s]Computing baseline logprobs:  73%|███████▎  | 2051/2825 [28:07<08:21,  1.54it/s]Computing baseline logprobs:  73%|███████▎  | 2052/2825 [28:08<08:43,  1.48it/s]Computing baseline logprobs:  73%|███████▎  | 2053/2825 [28:09<09:51,  1.31it/s]Computing baseline logprobs:  73%|███████▎  | 2054/2825 [28:10<09:47,  1.31it/s]Computing baseline logprobs:  73%|███████▎  | 2055/2825 [28:11<09:42,  1.32it/s]Computing baseline logprobs:  73%|███████▎  | 2056/2825 [28:11<09:33,  1.34it/s]Computing baseline logprobs:  73%|███████▎  | 2057/2825 [28:12<08:13,  1.56it/s]Computing baseline logprobs:  73%|███████▎  | 2058/2825 [28:12<08:14,  1.55it/s]Computing baseline logprobs:  73%|███████▎  | 2059/2825 [28:13<08:05,  1.58it/s]Computing baseline logprobs:  73%|███████▎  | 2060/2825 [28:14<07:50,  1.63it/s]Computing baseline logprobs:  73%|███████▎  | 2061/2825 [28:14<08:02,  1.58it/s]Computing baseline logprobs:  73%|███████▎  | 2062/2825 [28:15<10:15,  1.24it/s]Computing baseline logprobs:  73%|███████▎  | 2063/2825 [28:16<10:24,  1.22it/s]Computing baseline logprobs:  73%|███████▎  | 2064/2825 [28:18<12:03,  1.05it/s]Computing baseline logprobs:  73%|███████▎  | 2065/2825 [28:19<12:18,  1.03it/s]Computing baseline logprobs:  73%|███████▎  | 2066/2825 [28:19<10:38,  1.19it/s]Computing baseline logprobs:  73%|███████▎  | 2067/2825 [28:20<10:57,  1.15it/s]Computing baseline logprobs:  73%|███████▎  | 2068/2825 [28:21<11:05,  1.14it/s]Computing baseline logprobs:  73%|███████▎  | 2069/2825 [28:22<11:28,  1.10it/s]Computing baseline logprobs:  73%|███████▎  | 2070/2825 [28:23<10:36,  1.19it/s]Computing baseline logprobs:  73%|███████▎  | 2071/2825 [28:23<10:24,  1.21it/s]Computing baseline logprobs:  73%|███████▎  | 2072/2825 [28:24<09:19,  1.35it/s]Computing baseline logprobs:  73%|███████▎  | 2073/2825 [28:25<08:53,  1.41it/s]Computing baseline logprobs:  73%|███████▎  | 2074/2825 [28:25<09:12,  1.36it/s]Computing baseline logprobs:  73%|███████▎  | 2075/2825 [28:26<08:53,  1.41it/s]Computing baseline logprobs:  73%|███████▎  | 2076/2825 [28:27<08:57,  1.39it/s]Computing baseline logprobs:  74%|███████▎  | 2077/2825 [28:28<09:10,  1.36it/s]Computing baseline logprobs:  74%|███████▎  | 2078/2825 [28:28<09:03,  1.37it/s]Computing baseline logprobs:  74%|███████▎  | 2079/2825 [28:29<08:36,  1.44it/s]Computing baseline logprobs:  74%|███████▎  | 2080/2825 [28:29<08:03,  1.54it/s]Computing baseline logprobs:  74%|███████▎  | 2081/2825 [28:30<07:43,  1.60it/s]Computing baseline logprobs:  74%|███████▎  | 2082/2825 [28:30<06:57,  1.78it/s]Computing baseline logprobs:  74%|███████▎  | 2083/2825 [28:31<06:59,  1.77it/s]Computing baseline logprobs:  74%|███████▍  | 2084/2825 [28:32<06:57,  1.78it/s]Computing baseline logprobs:  74%|███████▍  | 2085/2825 [28:32<07:36,  1.62it/s]Computing baseline logprobs:  74%|███████▍  | 2086/2825 [28:33<07:10,  1.72it/s]Computing baseline logprobs:  74%|███████▍  | 2087/2825 [28:33<07:10,  1.72it/s]Computing baseline logprobs:  74%|███████▍  | 2088/2825 [28:34<07:48,  1.57it/s]Computing baseline logprobs:  74%|███████▍  | 2089/2825 [28:35<07:16,  1.69it/s]Computing baseline logprobs:  74%|███████▍  | 2090/2825 [28:35<07:34,  1.62it/s]Computing baseline logprobs:  74%|███████▍  | 2091/2825 [28:36<07:27,  1.64it/s]Computing baseline logprobs:  74%|███████▍  | 2092/2825 [28:37<07:22,  1.66it/s]Computing baseline logprobs:  74%|███████▍  | 2093/2825 [28:37<07:32,  1.62it/s]Computing baseline logprobs:  74%|███████▍  | 2094/2825 [28:38<08:19,  1.46it/s]Computing baseline logprobs:  74%|███████▍  | 2095/2825 [28:39<08:24,  1.45it/s]Computing baseline logprobs:  74%|███████▍  | 2096/2825 [28:39<08:11,  1.48it/s]Computing baseline logprobs:  74%|███████▍  | 2097/2825 [28:40<08:27,  1.43it/s]Computing baseline logprobs:  74%|███████▍  | 2098/2825 [28:41<08:12,  1.48it/s]Computing baseline logprobs:  74%|███████▍  | 2099/2825 [28:41<08:23,  1.44it/s]Computing baseline logprobs:  74%|███████▍  | 2100/2825 [28:42<09:07,  1.32it/s]Computing baseline logprobs:  74%|███████▍  | 2101/2825 [28:43<08:12,  1.47it/s]Computing baseline logprobs:  74%|███████▍  | 2102/2825 [28:44<08:17,  1.45it/s]Computing baseline logprobs:  74%|███████▍  | 2103/2825 [28:44<09:07,  1.32it/s]Computing baseline logprobs:  74%|███████▍  | 2104/2825 [28:45<09:20,  1.29it/s]Computing baseline logprobs:  75%|███████▍  | 2105/2825 [28:46<09:08,  1.31it/s]Computing baseline logprobs:  75%|███████▍  | 2106/2825 [28:47<08:32,  1.40it/s]Computing baseline logprobs:  75%|███████▍  | 2107/2825 [28:47<08:06,  1.48it/s]Computing baseline logprobs:  75%|███████▍  | 2108/2825 [28:48<08:07,  1.47it/s]Computing baseline logprobs:  75%|███████▍  | 2109/2825 [28:49<09:09,  1.30it/s]Computing baseline logprobs:  75%|███████▍  | 2110/2825 [28:50<09:40,  1.23it/s]Computing baseline logprobs:  75%|███████▍  | 2111/2825 [28:50<08:57,  1.33it/s]Computing baseline logprobs:  75%|███████▍  | 2112/2825 [28:51<09:03,  1.31it/s]Computing baseline logprobs:  75%|███████▍  | 2113/2825 [28:52<08:56,  1.33it/s]Computing baseline logprobs:  75%|███████▍  | 2114/2825 [28:53<08:45,  1.35it/s]Computing baseline logprobs:  75%|███████▍  | 2115/2825 [28:53<08:59,  1.32it/s]Computing baseline logprobs:  75%|███████▍  | 2116/2825 [28:54<08:57,  1.32it/s]Computing baseline logprobs:  75%|███████▍  | 2117/2825 [28:55<08:53,  1.33it/s]Computing baseline logprobs:  75%|███████▍  | 2118/2825 [28:56<08:26,  1.40it/s]Computing baseline logprobs:  75%|███████▌  | 2119/2825 [28:56<08:50,  1.33it/s]Computing baseline logprobs:  75%|███████▌  | 2120/2825 [28:57<08:55,  1.32it/s]Computing baseline logprobs:  75%|███████▌  | 2121/2825 [28:58<08:33,  1.37it/s]Computing baseline logprobs:  75%|███████▌  | 2122/2825 [28:59<08:52,  1.32it/s]Computing baseline logprobs:  75%|███████▌  | 2123/2825 [28:59<08:23,  1.39it/s]Computing baseline logprobs:  75%|███████▌  | 2124/2825 [29:00<07:46,  1.50it/s]Computing baseline logprobs:  75%|███████▌  | 2125/2825 [29:00<07:46,  1.50it/s]Computing baseline logprobs:  75%|███████▌  | 2126/2825 [29:01<08:12,  1.42it/s]Computing baseline logprobs:  75%|███████▌  | 2127/2825 [29:02<07:55,  1.47it/s]Computing baseline logprobs:  75%|███████▌  | 2128/2825 [29:03<07:52,  1.47it/s]Computing baseline logprobs:  75%|███████▌  | 2129/2825 [29:03<08:27,  1.37it/s]Computing baseline logprobs:  75%|███████▌  | 2130/2825 [29:04<07:41,  1.51it/s]Computing baseline logprobs:  75%|███████▌  | 2131/2825 [29:05<08:07,  1.42it/s]Computing baseline logprobs:  75%|███████▌  | 2132/2825 [29:06<09:22,  1.23it/s]Computing baseline logprobs:  76%|███████▌  | 2133/2825 [29:07<09:55,  1.16it/s]Computing baseline logprobs:  76%|███████▌  | 2134/2825 [29:07<09:02,  1.27it/s]Computing baseline logprobs:  76%|███████▌  | 2135/2825 [29:08<08:28,  1.36it/s]Computing baseline logprobs:  76%|███████▌  | 2136/2825 [29:09<08:01,  1.43it/s]Computing baseline logprobs:  76%|███████▌  | 2137/2825 [29:09<07:37,  1.51it/s]Computing baseline logprobs:  76%|███████▌  | 2138/2825 [29:10<06:52,  1.67it/s]Computing baseline logprobs:  76%|███████▌  | 2139/2825 [29:10<06:52,  1.66it/s]Computing baseline logprobs:  76%|███████▌  | 2140/2825 [29:11<07:43,  1.48it/s]Computing baseline logprobs:  76%|███████▌  | 2141/2825 [29:12<08:05,  1.41it/s]Computing baseline logprobs:  76%|███████▌  | 2142/2825 [29:12<07:30,  1.52it/s]Computing baseline logprobs:  76%|███████▌  | 2143/2825 [29:13<07:49,  1.45it/s]Computing baseline logprobs:  76%|███████▌  | 2144/2825 [29:14<08:45,  1.29it/s]Computing baseline logprobs:  76%|███████▌  | 2145/2825 [29:15<08:40,  1.31it/s]Computing baseline logprobs:  76%|███████▌  | 2146/2825 [29:16<08:05,  1.40it/s]Computing baseline logprobs:  76%|███████▌  | 2147/2825 [29:16<07:21,  1.54it/s]Computing baseline logprobs:  76%|███████▌  | 2148/2825 [29:17<07:47,  1.45it/s]Computing baseline logprobs:  76%|███████▌  | 2149/2825 [29:18<10:25,  1.08it/s]Computing baseline logprobs:  76%|███████▌  | 2150/2825 [29:19<10:04,  1.12it/s]Computing baseline logprobs:  76%|███████▌  | 2151/2825 [29:20<09:41,  1.16it/s]Computing baseline logprobs:  76%|███████▌  | 2152/2825 [29:21<09:54,  1.13it/s]Computing baseline logprobs:  76%|███████▌  | 2153/2825 [29:22<09:44,  1.15it/s]Computing baseline logprobs:  76%|███████▌  | 2154/2825 [29:22<09:17,  1.20it/s]Computing baseline logprobs:  76%|███████▋  | 2155/2825 [29:23<09:25,  1.19it/s]Computing baseline logprobs:  76%|███████▋  | 2156/2825 [29:24<09:40,  1.15it/s]Computing baseline logprobs:  76%|███████▋  | 2157/2825 [29:25<09:07,  1.22it/s]Computing baseline logprobs:  76%|███████▋  | 2158/2825 [29:26<10:10,  1.09it/s]Computing baseline logprobs:  76%|███████▋  | 2159/2825 [29:27<10:09,  1.09it/s]Computing baseline logprobs:  76%|███████▋  | 2160/2825 [29:28<10:10,  1.09it/s]Computing baseline logprobs:  76%|███████▋  | 2161/2825 [29:29<09:50,  1.13it/s]Computing baseline logprobs:  77%|███████▋  | 2162/2825 [29:29<08:58,  1.23it/s]Computing baseline logprobs:  77%|███████▋  | 2163/2825 [29:30<08:54,  1.24it/s]Computing baseline logprobs:  77%|███████▋  | 2164/2825 [29:31<08:33,  1.29it/s]Computing baseline logprobs:  77%|███████▋  | 2165/2825 [29:31<07:48,  1.41it/s]Computing baseline logprobs:  77%|███████▋  | 2166/2825 [29:32<07:24,  1.48it/s]Computing baseline logprobs:  77%|███████▋  | 2167/2825 [29:33<07:17,  1.51it/s]Computing baseline logprobs:  77%|███████▋  | 2168/2825 [29:34<08:21,  1.31it/s]Computing baseline logprobs:  77%|███████▋  | 2169/2825 [29:35<08:45,  1.25it/s]Computing baseline logprobs:  77%|███████▋  | 2170/2825 [29:35<08:10,  1.34it/s]Computing baseline logprobs:  77%|███████▋  | 2171/2825 [29:36<08:07,  1.34it/s]Computing baseline logprobs:  77%|███████▋  | 2172/2825 [29:37<08:20,  1.31it/s]Computing baseline logprobs:  77%|███████▋  | 2173/2825 [29:38<08:35,  1.26it/s]Computing baseline logprobs:  77%|███████▋  | 2174/2825 [29:38<08:48,  1.23it/s]Computing baseline logprobs:  77%|███████▋  | 2175/2825 [29:39<09:09,  1.18it/s]Computing baseline logprobs:  77%|███████▋  | 2176/2825 [29:40<09:15,  1.17it/s]Computing baseline logprobs:  77%|███████▋  | 2177/2825 [29:41<09:07,  1.18it/s]Computing baseline logprobs:  77%|███████▋  | 2178/2825 [29:42<09:16,  1.16it/s]Computing baseline logprobs:  77%|███████▋  | 2179/2825 [29:43<08:38,  1.25it/s]Computing baseline logprobs:  77%|███████▋  | 2180/2825 [29:43<08:39,  1.24it/s]Computing baseline logprobs:  77%|███████▋  | 2181/2825 [29:44<08:11,  1.31it/s]Computing baseline logprobs:  77%|███████▋  | 2182/2825 [29:45<07:46,  1.38it/s]Computing baseline logprobs:  77%|███████▋  | 2183/2825 [29:46<08:02,  1.33it/s]Computing baseline logprobs:  77%|███████▋  | 2184/2825 [29:46<08:05,  1.32it/s]Computing baseline logprobs:  77%|███████▋  | 2185/2825 [29:47<07:40,  1.39it/s]Computing baseline logprobs:  77%|███████▋  | 2186/2825 [29:48<07:16,  1.46it/s]Computing baseline logprobs:  77%|███████▋  | 2187/2825 [29:48<07:05,  1.50it/s]Computing baseline logprobs:  77%|███████▋  | 2188/2825 [29:49<07:49,  1.36it/s]Computing baseline logprobs:  77%|███████▋  | 2189/2825 [29:50<08:07,  1.30it/s]Computing baseline logprobs:  78%|███████▊  | 2190/2825 [29:51<07:54,  1.34it/s]Computing baseline logprobs:  78%|███████▊  | 2191/2825 [29:51<07:57,  1.33it/s]Computing baseline logprobs:  78%|███████▊  | 2192/2825 [29:52<08:01,  1.32it/s]Computing baseline logprobs:  78%|███████▊  | 2193/2825 [29:53<08:37,  1.22it/s]Computing baseline logprobs:  78%|███████▊  | 2194/2825 [29:54<09:02,  1.16it/s]Computing baseline logprobs:  78%|███████▊  | 2195/2825 [29:55<08:44,  1.20it/s]Computing baseline logprobs:  78%|███████▊  | 2196/2825 [29:55<08:15,  1.27it/s]Computing baseline logprobs:  78%|███████▊  | 2197/2825 [29:56<07:19,  1.43it/s]Computing baseline logprobs:  78%|███████▊  | 2198/2825 [29:57<06:51,  1.53it/s]Computing baseline logprobs:  78%|███████▊  | 2199/2825 [29:57<06:38,  1.57it/s]Computing baseline logprobs:  78%|███████▊  | 2200/2825 [29:58<06:43,  1.55it/s]Computing baseline logprobs:  78%|███████▊  | 2201/2825 [29:59<06:57,  1.50it/s]Computing baseline logprobs:  78%|███████▊  | 2202/2825 [29:59<07:02,  1.47it/s]Computing baseline logprobs:  78%|███████▊  | 2203/2825 [30:00<07:25,  1.40it/s]Computing baseline logprobs:  78%|███████▊  | 2204/2825 [30:01<07:24,  1.40it/s]Computing baseline logprobs:  78%|███████▊  | 2205/2825 [30:01<07:16,  1.42it/s]Computing baseline logprobs:  78%|███████▊  | 2206/2825 [30:02<07:33,  1.36it/s]Computing baseline logprobs:  78%|███████▊  | 2207/2825 [30:03<07:48,  1.32it/s]Computing baseline logprobs:  78%|███████▊  | 2208/2825 [30:04<07:48,  1.32it/s]Computing baseline logprobs:  78%|███████▊  | 2209/2825 [30:04<07:11,  1.43it/s]Computing baseline logprobs:  78%|███████▊  | 2210/2825 [30:05<06:38,  1.54it/s]Computing baseline logprobs:  78%|███████▊  | 2211/2825 [30:05<06:22,  1.60it/s]Computing baseline logprobs:  78%|███████▊  | 2212/2825 [30:06<06:07,  1.67it/s]Computing baseline logprobs:  78%|███████▊  | 2213/2825 [30:07<06:31,  1.56it/s]Computing baseline logprobs:  78%|███████▊  | 2214/2825 [30:08<07:03,  1.44it/s]Computing baseline logprobs:  78%|███████▊  | 2215/2825 [30:08<07:32,  1.35it/s]Computing baseline logprobs:  78%|███████▊  | 2216/2825 [30:09<07:59,  1.27it/s]Computing baseline logprobs:  78%|███████▊  | 2217/2825 [30:10<07:54,  1.28it/s]Computing baseline logprobs:  79%|███████▊  | 2218/2825 [30:11<07:47,  1.30it/s]Computing baseline logprobs:  79%|███████▊  | 2219/2825 [30:12<07:53,  1.28it/s]Computing baseline logprobs:  79%|███████▊  | 2220/2825 [30:12<07:45,  1.30it/s]Computing baseline logprobs:  79%|███████▊  | 2221/2825 [30:13<07:53,  1.28it/s]Computing baseline logprobs:  79%|███████▊  | 2222/2825 [30:14<07:59,  1.26it/s]Computing baseline logprobs:  79%|███████▊  | 2223/2825 [30:15<08:08,  1.23it/s]Computing baseline logprobs:  79%|███████▊  | 2224/2825 [30:16<07:50,  1.28it/s]Computing baseline logprobs:  79%|███████▉  | 2225/2825 [30:16<07:31,  1.33it/s]Computing baseline logprobs:  79%|███████▉  | 2226/2825 [30:17<07:49,  1.28it/s]Computing baseline logprobs:  79%|███████▉  | 2227/2825 [30:18<07:30,  1.33it/s]Computing baseline logprobs:  79%|███████▉  | 2228/2825 [30:18<07:08,  1.39it/s]Computing baseline logprobs:  79%|███████▉  | 2229/2825 [30:19<06:51,  1.45it/s]Computing baseline logprobs:  79%|███████▉  | 2230/2825 [30:20<06:57,  1.43it/s]Computing baseline logprobs:  79%|███████▉  | 2231/2825 [30:21<07:18,  1.35it/s]Computing baseline logprobs:  79%|███████▉  | 2232/2825 [30:21<06:50,  1.44it/s]Computing baseline logprobs:  79%|███████▉  | 2233/2825 [30:22<06:39,  1.48it/s]Computing baseline logprobs:  79%|███████▉  | 2234/2825 [30:23<07:02,  1.40it/s]Computing baseline logprobs:  79%|███████▉  | 2235/2825 [30:23<06:52,  1.43it/s]Computing baseline logprobs:  79%|███████▉  | 2236/2825 [30:24<06:44,  1.46it/s]Computing baseline logprobs:  79%|███████▉  | 2237/2825 [30:25<06:28,  1.51it/s]Computing baseline logprobs:  79%|███████▉  | 2238/2825 [30:25<06:14,  1.57it/s]Computing baseline logprobs:  79%|███████▉  | 2239/2825 [30:26<06:54,  1.41it/s]Computing baseline logprobs:  79%|███████▉  | 2240/2825 [30:27<07:39,  1.27it/s]Computing baseline logprobs:  79%|███████▉  | 2241/2825 [30:28<07:14,  1.34it/s]Computing baseline logprobs:  79%|███████▉  | 2242/2825 [30:28<07:03,  1.38it/s]Computing baseline logprobs:  79%|███████▉  | 2243/2825 [30:29<06:58,  1.39it/s]Computing baseline logprobs:  79%|███████▉  | 2244/2825 [30:30<06:58,  1.39it/s]Computing baseline logprobs:  79%|███████▉  | 2245/2825 [30:30<06:28,  1.49it/s]Computing baseline logprobs:  80%|███████▉  | 2246/2825 [30:31<06:33,  1.47it/s]Computing baseline logprobs:  80%|███████▉  | 2247/2825 [30:32<06:18,  1.53it/s]Computing baseline logprobs:  80%|███████▉  | 2248/2825 [30:32<06:21,  1.51it/s]Computing baseline logprobs:  80%|███████▉  | 2249/2825 [30:33<06:13,  1.54it/s]Computing baseline logprobs:  80%|███████▉  | 2250/2825 [30:34<06:14,  1.53it/s]Computing baseline logprobs:  80%|███████▉  | 2251/2825 [30:34<06:26,  1.49it/s]Computing baseline logprobs:  80%|███████▉  | 2252/2825 [30:35<06:18,  1.51it/s]Computing baseline logprobs:  80%|███████▉  | 2253/2825 [30:35<06:01,  1.58it/s]Computing baseline logprobs:  80%|███████▉  | 2254/2825 [30:36<05:43,  1.66it/s]Computing baseline logprobs:  80%|███████▉  | 2255/2825 [30:37<06:10,  1.54it/s]Computing baseline logprobs:  80%|███████▉  | 2256/2825 [30:37<06:25,  1.48it/s]Computing baseline logprobs:  80%|███████▉  | 2257/2825 [30:38<06:02,  1.57it/s]Computing baseline logprobs:  80%|███████▉  | 2258/2825 [30:39<05:50,  1.62it/s]Computing baseline logprobs:  80%|███████▉  | 2259/2825 [30:39<06:31,  1.45it/s]Computing baseline logprobs:  80%|████████  | 2260/2825 [30:40<06:54,  1.36it/s]Computing baseline logprobs:  80%|████████  | 2261/2825 [30:41<06:37,  1.42it/s]Computing baseline logprobs:  80%|████████  | 2262/2825 [30:42<06:26,  1.45it/s]Computing baseline logprobs:  80%|████████  | 2263/2825 [30:42<06:32,  1.43it/s]Computing baseline logprobs:  80%|████████  | 2264/2825 [30:43<06:09,  1.52it/s]Computing baseline logprobs:  80%|████████  | 2265/2825 [30:44<06:26,  1.45it/s]Computing baseline logprobs:  80%|████████  | 2266/2825 [30:44<06:34,  1.42it/s]Computing baseline logprobs:  80%|████████  | 2267/2825 [30:45<06:12,  1.50it/s]Computing baseline logprobs:  80%|████████  | 2268/2825 [30:46<05:54,  1.57it/s]Computing baseline logprobs:  80%|████████  | 2269/2825 [30:46<05:44,  1.61it/s]Computing baseline logprobs:  80%|████████  | 2270/2825 [30:47<06:14,  1.48it/s]Computing baseline logprobs:  80%|████████  | 2271/2825 [30:48<06:37,  1.39it/s]Computing baseline logprobs:  80%|████████  | 2272/2825 [30:48<06:13,  1.48it/s]Computing baseline logprobs:  80%|████████  | 2273/2825 [30:49<06:07,  1.50it/s]Computing baseline logprobs:  80%|████████  | 2274/2825 [30:50<07:04,  1.30it/s]Computing baseline logprobs:  81%|████████  | 2275/2825 [30:51<06:53,  1.33it/s]Computing baseline logprobs:  81%|████████  | 2276/2825 [30:51<06:17,  1.46it/s]Computing baseline logprobs:  81%|████████  | 2277/2825 [30:52<06:38,  1.38it/s]Computing baseline logprobs:  81%|████████  | 2278/2825 [30:53<06:33,  1.39it/s]Computing baseline logprobs:  81%|████████  | 2279/2825 [30:53<06:17,  1.45it/s]Computing baseline logprobs:  81%|████████  | 2280/2825 [30:54<05:50,  1.55it/s]Computing baseline logprobs:  81%|████████  | 2281/2825 [30:54<05:47,  1.57it/s]Computing baseline logprobs:  81%|████████  | 2282/2825 [30:55<05:47,  1.56it/s]Computing baseline logprobs:  81%|████████  | 2283/2825 [30:56<06:32,  1.38it/s]Computing baseline logprobs:  81%|████████  | 2284/2825 [30:57<07:43,  1.17it/s]Computing baseline logprobs:  81%|████████  | 2285/2825 [30:58<07:27,  1.21it/s]Computing baseline logprobs:  81%|████████  | 2286/2825 [30:59<06:51,  1.31it/s]Computing baseline logprobs:  81%|████████  | 2287/2825 [30:59<06:31,  1.37it/s]Computing baseline logprobs:  81%|████████  | 2288/2825 [31:00<06:23,  1.40it/s]Computing baseline logprobs:  81%|████████  | 2289/2825 [31:01<06:37,  1.35it/s]Computing baseline logprobs:  81%|████████  | 2290/2825 [31:01<06:19,  1.41it/s]Computing baseline logprobs:  81%|████████  | 2291/2825 [31:02<06:09,  1.44it/s]Computing baseline logprobs:  81%|████████  | 2292/2825 [31:03<06:17,  1.41it/s]Computing baseline logprobs:  81%|████████  | 2293/2825 [31:03<06:18,  1.41it/s]Computing baseline logprobs:  81%|████████  | 2294/2825 [31:04<05:58,  1.48it/s]Computing baseline logprobs:  81%|████████  | 2295/2825 [31:05<06:22,  1.38it/s]Computing baseline logprobs:  81%|████████▏ | 2296/2825 [31:06<07:02,  1.25it/s]Computing baseline logprobs:  81%|████████▏ | 2297/2825 [31:07<06:50,  1.29it/s]Computing baseline logprobs:  81%|████████▏ | 2298/2825 [31:07<06:33,  1.34it/s]Computing baseline logprobs:  81%|████████▏ | 2299/2825 [31:08<06:27,  1.36it/s]Computing baseline logprobs:  81%|████████▏ | 2300/2825 [31:09<05:51,  1.49it/s]Computing baseline logprobs:  81%|████████▏ | 2301/2825 [31:09<05:59,  1.46it/s]Computing baseline logprobs:  81%|████████▏ | 2302/2825 [31:10<05:29,  1.59it/s]Computing baseline logprobs:  82%|████████▏ | 2303/2825 [31:10<05:48,  1.50it/s]Computing baseline logprobs:  82%|████████▏ | 2304/2825 [31:11<06:07,  1.42it/s]Computing baseline logprobs:  82%|████████▏ | 2305/2825 [31:12<06:14,  1.39it/s]Computing baseline logprobs:  82%|████████▏ | 2306/2825 [31:13<06:24,  1.35it/s]Computing baseline logprobs:  82%|████████▏ | 2307/2825 [31:14<06:32,  1.32it/s]Computing baseline logprobs:  82%|████████▏ | 2308/2825 [31:15<06:58,  1.24it/s]Computing baseline logprobs:  82%|████████▏ | 2309/2825 [31:15<06:39,  1.29it/s]Computing baseline logprobs:  82%|████████▏ | 2310/2825 [31:16<06:34,  1.31it/s]Computing baseline logprobs:  82%|████████▏ | 2311/2825 [31:17<06:56,  1.23it/s]Computing baseline logprobs:  82%|████████▏ | 2312/2825 [31:18<06:53,  1.24it/s]Computing baseline logprobs:  82%|████████▏ | 2313/2825 [31:18<06:24,  1.33it/s]Computing baseline logprobs:  82%|████████▏ | 2314/2825 [31:19<06:33,  1.30it/s]Computing baseline logprobs:  82%|████████▏ | 2315/2825 [31:20<06:27,  1.32it/s]Computing baseline logprobs:  82%|████████▏ | 2316/2825 [31:20<05:56,  1.43it/s]Computing baseline logprobs:  82%|████████▏ | 2317/2825 [31:21<05:34,  1.52it/s]Computing baseline logprobs:  82%|████████▏ | 2318/2825 [31:22<05:39,  1.49it/s]Computing baseline logprobs:  82%|████████▏ | 2319/2825 [31:23<05:59,  1.41it/s]Computing baseline logprobs:  82%|████████▏ | 2320/2825 [31:23<05:49,  1.44it/s]Computing baseline logprobs:  82%|████████▏ | 2321/2825 [31:24<06:05,  1.38it/s]Computing baseline logprobs:  82%|████████▏ | 2322/2825 [31:25<06:31,  1.29it/s]Computing baseline logprobs:  82%|████████▏ | 2323/2825 [31:26<06:30,  1.28it/s]Computing baseline logprobs:  82%|████████▏ | 2324/2825 [31:26<06:16,  1.33it/s]Computing baseline logprobs:  82%|████████▏ | 2325/2825 [31:27<05:58,  1.39it/s]Computing baseline logprobs:  82%|████████▏ | 2326/2825 [31:28<05:36,  1.48it/s]Computing baseline logprobs:  82%|████████▏ | 2327/2825 [31:28<05:04,  1.64it/s]Computing baseline logprobs:  82%|████████▏ | 2328/2825 [31:29<05:03,  1.64it/s]Computing baseline logprobs:  82%|████████▏ | 2329/2825 [31:29<05:08,  1.61it/s]Computing baseline logprobs:  82%|████████▏ | 2330/2825 [31:30<05:10,  1.60it/s]Computing baseline logprobs:  83%|████████▎ | 2331/2825 [31:30<05:04,  1.62it/s]Computing baseline logprobs:  83%|████████▎ | 2332/2825 [31:31<04:43,  1.74it/s]Computing baseline logprobs:  83%|████████▎ | 2333/2825 [31:32<04:44,  1.73it/s]Computing baseline logprobs:  83%|████████▎ | 2334/2825 [31:32<05:32,  1.47it/s]Computing baseline logprobs:  83%|████████▎ | 2335/2825 [31:33<05:49,  1.40it/s]Computing baseline logprobs:  83%|████████▎ | 2336/2825 [31:34<05:38,  1.45it/s]Computing baseline logprobs:  83%|████████▎ | 2337/2825 [31:35<05:38,  1.44it/s]Computing baseline logprobs:  83%|████████▎ | 2338/2825 [31:36<06:12,  1.31it/s]Computing baseline logprobs:  83%|████████▎ | 2339/2825 [31:37<07:06,  1.14it/s]Computing baseline logprobs:  83%|████████▎ | 2340/2825 [31:37<06:56,  1.17it/s]Computing baseline logprobs:  83%|████████▎ | 2341/2825 [31:38<06:44,  1.20it/s]Computing baseline logprobs:  83%|████████▎ | 2342/2825 [31:39<06:19,  1.27it/s]Computing baseline logprobs:  83%|████████▎ | 2343/2825 [31:40<06:15,  1.28it/s]Computing baseline logprobs:  83%|████████▎ | 2344/2825 [31:40<05:35,  1.43it/s]Computing baseline logprobs:  83%|████████▎ | 2345/2825 [31:41<05:51,  1.37it/s]Computing baseline logprobs:  83%|████████▎ | 2346/2825 [31:42<05:42,  1.40it/s]Computing baseline logprobs:  83%|████████▎ | 2347/2825 [31:42<05:36,  1.42it/s]Computing baseline logprobs:  83%|████████▎ | 2348/2825 [31:43<05:22,  1.48it/s]Computing baseline logprobs:  83%|████████▎ | 2349/2825 [31:44<05:18,  1.49it/s]Computing baseline logprobs:  83%|████████▎ | 2350/2825 [31:45<06:03,  1.31it/s]Computing baseline logprobs:  83%|████████▎ | 2351/2825 [31:45<06:00,  1.32it/s]Computing baseline logprobs:  83%|████████▎ | 2352/2825 [31:46<06:10,  1.28it/s]Computing baseline logprobs:  83%|████████▎ | 2353/2825 [31:47<05:45,  1.37it/s]Computing baseline logprobs:  83%|████████▎ | 2354/2825 [31:47<05:12,  1.51it/s]Computing baseline logprobs:  83%|████████▎ | 2355/2825 [31:48<05:24,  1.45it/s]Computing baseline logprobs:  83%|████████▎ | 2356/2825 [31:49<05:18,  1.47it/s]Computing baseline logprobs:  83%|████████▎ | 2357/2825 [31:50<05:37,  1.39it/s]Computing baseline logprobs:  83%|████████▎ | 2358/2825 [31:50<05:45,  1.35it/s]Computing baseline logprobs:  84%|████████▎ | 2359/2825 [31:51<05:48,  1.34it/s]Computing baseline logprobs:  84%|████████▎ | 2360/2825 [31:52<05:55,  1.31it/s]Computing baseline logprobs:  84%|████████▎ | 2361/2825 [31:53<06:27,  1.20it/s]Computing baseline logprobs:  84%|████████▎ | 2362/2825 [31:54<06:03,  1.27it/s]Computing baseline logprobs:  84%|████████▎ | 2363/2825 [31:55<06:25,  1.20it/s]Computing baseline logprobs:  84%|████████▎ | 2364/2825 [31:56<07:10,  1.07it/s]Computing baseline logprobs:  84%|████████▎ | 2365/2825 [31:56<06:47,  1.13it/s]Computing baseline logprobs:  84%|████████▍ | 2366/2825 [31:57<06:53,  1.11it/s]Computing baseline logprobs:  84%|████████▍ | 2367/2825 [31:58<06:11,  1.23it/s]Computing baseline logprobs:  84%|████████▍ | 2368/2825 [31:59<05:40,  1.34it/s]Computing baseline logprobs:  84%|████████▍ | 2369/2825 [31:59<05:54,  1.29it/s]Computing baseline logprobs:  84%|████████▍ | 2370/2825 [32:00<06:11,  1.22it/s]Computing baseline logprobs:  84%|████████▍ | 2371/2825 [32:01<06:15,  1.21it/s]Computing baseline logprobs:  84%|████████▍ | 2372/2825 [32:02<06:20,  1.19it/s]Computing baseline logprobs:  84%|████████▍ | 2373/2825 [32:03<06:39,  1.13it/s]Computing baseline logprobs:  84%|████████▍ | 2374/2825 [32:04<06:24,  1.17it/s]Computing baseline logprobs:  84%|████████▍ | 2375/2825 [32:05<06:18,  1.19it/s]Computing baseline logprobs:  84%|████████▍ | 2376/2825 [32:05<05:59,  1.25it/s]Computing baseline logprobs:  84%|████████▍ | 2377/2825 [32:06<05:14,  1.42it/s]Computing baseline logprobs:  84%|████████▍ | 2378/2825 [32:06<05:03,  1.47it/s]Computing baseline logprobs:  84%|████████▍ | 2379/2825 [32:07<05:39,  1.31it/s]Computing baseline logprobs:  84%|████████▍ | 2380/2825 [32:08<06:10,  1.20it/s]Computing baseline logprobs:  84%|████████▍ | 2381/2825 [32:09<05:57,  1.24it/s]Computing baseline logprobs:  84%|████████▍ | 2382/2825 [32:10<05:32,  1.33it/s]Computing baseline logprobs:  84%|████████▍ | 2383/2825 [32:10<05:11,  1.42it/s]Computing baseline logprobs:  84%|████████▍ | 2384/2825 [32:11<05:26,  1.35it/s]Computing baseline logprobs:  84%|████████▍ | 2385/2825 [32:12<05:34,  1.32it/s]Computing baseline logprobs:  84%|████████▍ | 2386/2825 [32:13<05:37,  1.30it/s]Computing baseline logprobs:  84%|████████▍ | 2387/2825 [32:14<06:12,  1.18it/s]Computing baseline logprobs:  85%|████████▍ | 2388/2825 [32:15<05:53,  1.24it/s]Computing baseline logprobs:  85%|████████▍ | 2389/2825 [32:15<05:16,  1.38it/s]Computing baseline logprobs:  85%|████████▍ | 2390/2825 [32:16<05:27,  1.33it/s]Computing baseline logprobs:  85%|████████▍ | 2391/2825 [32:17<05:33,  1.30it/s]Computing baseline logprobs:  85%|████████▍ | 2392/2825 [32:17<05:34,  1.29it/s]Computing baseline logprobs:  85%|████████▍ | 2393/2825 [32:19<06:14,  1.15it/s]Computing baseline logprobs:  85%|████████▍ | 2394/2825 [32:19<06:08,  1.17it/s]Computing baseline logprobs:  85%|████████▍ | 2395/2825 [32:20<06:09,  1.16it/s]Computing baseline logprobs:  85%|████████▍ | 2396/2825 [32:21<06:12,  1.15it/s]Computing baseline logprobs:  85%|████████▍ | 2397/2825 [32:22<05:42,  1.25it/s]Computing baseline logprobs:  85%|████████▍ | 2398/2825 [32:22<05:22,  1.32it/s]Computing baseline logprobs:  85%|████████▍ | 2399/2825 [32:23<05:35,  1.27it/s]Computing baseline logprobs:  85%|████████▍ | 2400/2825 [32:24<05:53,  1.20it/s]Computing baseline logprobs:  85%|████████▍ | 2401/2825 [32:25<05:27,  1.29it/s]Computing baseline logprobs:  85%|████████▌ | 2402/2825 [32:25<05:08,  1.37it/s]Computing baseline logprobs:  85%|████████▌ | 2403/2825 [32:26<05:17,  1.33it/s]Computing baseline logprobs:  85%|████████▌ | 2404/2825 [32:27<05:19,  1.32it/s]Computing baseline logprobs:  85%|████████▌ | 2405/2825 [32:28<04:57,  1.41it/s]Computing baseline logprobs:  85%|████████▌ | 2406/2825 [32:28<04:59,  1.40it/s]Computing baseline logprobs:  85%|████████▌ | 2407/2825 [32:29<04:41,  1.48it/s]Computing baseline logprobs:  85%|████████▌ | 2408/2825 [32:30<04:50,  1.44it/s]Computing baseline logprobs:  85%|████████▌ | 2409/2825 [32:31<05:41,  1.22it/s]Computing baseline logprobs:  85%|████████▌ | 2410/2825 [32:32<06:05,  1.14it/s]Computing baseline logprobs:  85%|████████▌ | 2411/2825 [32:33<05:41,  1.21it/s]Computing baseline logprobs:  85%|████████▌ | 2412/2825 [32:33<05:11,  1.33it/s]Computing baseline logprobs:  85%|████████▌ | 2413/2825 [32:34<05:02,  1.36it/s]Computing baseline logprobs:  85%|████████▌ | 2414/2825 [32:34<04:34,  1.50it/s]Computing baseline logprobs:  85%|████████▌ | 2415/2825 [32:35<04:48,  1.42it/s]Computing baseline logprobs:  86%|████████▌ | 2416/2825 [32:36<05:23,  1.27it/s]Computing baseline logprobs:  86%|████████▌ | 2417/2825 [32:37<05:19,  1.28it/s]Computing baseline logprobs:  86%|████████▌ | 2418/2825 [32:38<05:25,  1.25it/s]Computing baseline logprobs:  86%|████████▌ | 2419/2825 [32:38<05:16,  1.28it/s]Computing baseline logprobs:  86%|████████▌ | 2420/2825 [32:39<04:50,  1.39it/s]Computing baseline logprobs:  86%|████████▌ | 2421/2825 [32:40<04:45,  1.42it/s]Computing baseline logprobs:  86%|████████▌ | 2422/2825 [32:40<04:51,  1.38it/s]Computing baseline logprobs:  86%|████████▌ | 2423/2825 [32:41<04:55,  1.36it/s]Computing baseline logprobs:  86%|████████▌ | 2424/2825 [32:42<05:09,  1.30it/s]Computing baseline logprobs:  86%|████████▌ | 2425/2825 [32:43<04:27,  1.49it/s]Computing baseline logprobs:  86%|████████▌ | 2426/2825 [32:43<04:28,  1.49it/s]Computing baseline logprobs:  86%|████████▌ | 2427/2825 [32:44<04:11,  1.58it/s]Computing baseline logprobs:  86%|████████▌ | 2428/2825 [32:44<03:54,  1.70it/s]Computing baseline logprobs:  86%|████████▌ | 2429/2825 [32:45<03:58,  1.66it/s]Computing baseline logprobs:  86%|████████▌ | 2430/2825 [32:46<04:13,  1.56it/s]Computing baseline logprobs:  86%|████████▌ | 2431/2825 [32:46<04:01,  1.63it/s]Computing baseline logprobs:  86%|████████▌ | 2432/2825 [32:47<03:50,  1.70it/s]Computing baseline logprobs:  86%|████████▌ | 2433/2825 [32:47<03:44,  1.74it/s]Computing baseline logprobs:  86%|████████▌ | 2434/2825 [32:48<04:05,  1.59it/s]Computing baseline logprobs:  86%|████████▌ | 2435/2825 [32:49<04:26,  1.46it/s]Computing baseline logprobs:  86%|████████▌ | 2436/2825 [32:50<04:37,  1.40it/s]Computing baseline logprobs:  86%|████████▋ | 2437/2825 [32:50<04:58,  1.30it/s]Computing baseline logprobs:  86%|████████▋ | 2438/2825 [32:51<04:51,  1.33it/s]Computing baseline logprobs:  86%|████████▋ | 2439/2825 [32:52<04:57,  1.30it/s]Computing baseline logprobs:  86%|████████▋ | 2440/2825 [32:53<05:03,  1.27it/s]Computing baseline logprobs:  86%|████████▋ | 2441/2825 [32:54<05:14,  1.22it/s]Computing baseline logprobs:  86%|████████▋ | 2442/2825 [32:54<04:56,  1.29it/s]Computing baseline logprobs:  86%|████████▋ | 2443/2825 [32:55<04:34,  1.39it/s]Computing baseline logprobs:  87%|████████▋ | 2444/2825 [32:55<04:00,  1.59it/s]Computing baseline logprobs:  87%|████████▋ | 2445/2825 [32:56<04:01,  1.57it/s]Computing baseline logprobs:  87%|████████▋ | 2446/2825 [32:57<03:52,  1.63it/s]Computing baseline logprobs:  87%|████████▋ | 2447/2825 [32:57<03:46,  1.67it/s]Computing baseline logprobs:  87%|████████▋ | 2448/2825 [32:58<04:13,  1.49it/s]Computing baseline logprobs:  87%|████████▋ | 2449/2825 [32:59<04:36,  1.36it/s]Computing baseline logprobs:  87%|████████▋ | 2450/2825 [33:00<04:47,  1.30it/s]Computing baseline logprobs:  87%|████████▋ | 2451/2825 [33:01<04:49,  1.29it/s]Computing baseline logprobs:  87%|████████▋ | 2452/2825 [33:01<04:50,  1.28it/s]Computing baseline logprobs:  87%|████████▋ | 2453/2825 [33:02<04:52,  1.27it/s]Computing baseline logprobs:  87%|████████▋ | 2454/2825 [33:03<04:53,  1.27it/s]Computing baseline logprobs:  87%|████████▋ | 2455/2825 [33:04<04:48,  1.28it/s]Computing baseline logprobs:  87%|████████▋ | 2456/2825 [33:04<04:45,  1.29it/s]Computing baseline logprobs:  87%|████████▋ | 2457/2825 [33:05<04:52,  1.26it/s]Computing baseline logprobs:  87%|████████▋ | 2458/2825 [33:06<05:03,  1.21it/s]Computing baseline logprobs:  87%|████████▋ | 2459/2825 [33:07<04:25,  1.38it/s]Computing baseline logprobs:  87%|████████▋ | 2460/2825 [33:07<04:32,  1.34it/s]Computing baseline logprobs:  87%|████████▋ | 2461/2825 [33:08<04:40,  1.30it/s]Computing baseline logprobs:  87%|████████▋ | 2462/2825 [33:09<04:48,  1.26it/s]Computing baseline logprobs:  87%|████████▋ | 2463/2825 [33:10<04:38,  1.30it/s]Computing baseline logprobs:  87%|████████▋ | 2464/2825 [33:10<04:23,  1.37it/s]Computing baseline logprobs:  87%|████████▋ | 2465/2825 [33:11<04:34,  1.31it/s]Computing baseline logprobs:  87%|████████▋ | 2466/2825 [33:12<04:48,  1.25it/s]Computing baseline logprobs:  87%|████████▋ | 2467/2825 [33:13<04:48,  1.24it/s]Computing baseline logprobs:  87%|████████▋ | 2468/2825 [33:14<04:44,  1.26it/s]Computing baseline logprobs:  87%|████████▋ | 2469/2825 [33:14<04:28,  1.33it/s]Computing baseline logprobs:  87%|████████▋ | 2470/2825 [33:15<04:33,  1.30it/s]Computing baseline logprobs:  87%|████████▋ | 2471/2825 [33:16<04:37,  1.28it/s]Computing baseline logprobs:  88%|████████▊ | 2472/2825 [33:17<05:39,  1.04it/s]Computing baseline logprobs:  88%|████████▊ | 2473/2825 [33:18<05:02,  1.17it/s]Computing baseline logprobs:  88%|████████▊ | 2474/2825 [33:19<04:36,  1.27it/s]Computing baseline logprobs:  88%|████████▊ | 2475/2825 [33:19<04:26,  1.31it/s]Computing baseline logprobs:  88%|████████▊ | 2476/2825 [33:20<04:32,  1.28it/s]Computing baseline logprobs:  88%|████████▊ | 2477/2825 [33:21<04:39,  1.24it/s]Computing baseline logprobs:  88%|████████▊ | 2478/2825 [33:22<04:34,  1.27it/s]Computing baseline logprobs:  88%|████████▊ | 2479/2825 [33:23<04:35,  1.26it/s]Computing baseline logprobs:  88%|████████▊ | 2480/2825 [33:23<04:38,  1.24it/s]Computing baseline logprobs:  88%|████████▊ | 2481/2825 [33:24<04:04,  1.41it/s]Computing baseline logprobs:  88%|████████▊ | 2482/2825 [33:25<03:56,  1.45it/s]Computing baseline logprobs:  88%|████████▊ | 2483/2825 [33:25<03:43,  1.53it/s]Computing baseline logprobs:  88%|████████▊ | 2484/2825 [33:26<03:19,  1.71it/s]Computing baseline logprobs:  88%|████████▊ | 2485/2825 [33:26<03:13,  1.76it/s]Computing baseline logprobs:  88%|████████▊ | 2486/2825 [33:27<03:07,  1.81it/s]Computing baseline logprobs:  88%|████████▊ | 2487/2825 [33:27<03:29,  1.61it/s]Computing baseline logprobs:  88%|████████▊ | 2488/2825 [33:29<04:15,  1.32it/s]Computing baseline logprobs:  88%|████████▊ | 2489/2825 [33:29<04:04,  1.37it/s]Computing baseline logprobs:  88%|████████▊ | 2490/2825 [33:30<03:57,  1.41it/s]Computing baseline logprobs:  88%|████████▊ | 2491/2825 [33:30<03:40,  1.52it/s]Computing baseline logprobs:  88%|████████▊ | 2492/2825 [33:31<03:31,  1.58it/s]Computing baseline logprobs:  88%|████████▊ | 2493/2825 [33:32<03:47,  1.46it/s]Computing baseline logprobs:  88%|████████▊ | 2494/2825 [33:33<04:22,  1.26it/s]Computing baseline logprobs:  88%|████████▊ | 2495/2825 [33:34<05:21,  1.03it/s]Computing baseline logprobs:  88%|████████▊ | 2496/2825 [33:35<05:09,  1.06it/s]Computing baseline logprobs:  88%|████████▊ | 2497/2825 [33:36<04:55,  1.11it/s]Computing baseline logprobs:  88%|████████▊ | 2498/2825 [33:36<04:19,  1.26it/s]Computing baseline logprobs:  88%|████████▊ | 2499/2825 [33:37<04:01,  1.35it/s]Computing baseline logprobs:  88%|████████▊ | 2500/2825 [33:38<04:17,  1.26it/s]Computing baseline logprobs:  89%|████████▊ | 2501/2825 [33:39<04:48,  1.12it/s]Computing baseline logprobs:  89%|████████▊ | 2502/2825 [33:40<04:51,  1.11it/s]Computing baseline logprobs:  89%|████████▊ | 2503/2825 [33:41<04:26,  1.21it/s]Computing baseline logprobs:  89%|████████▊ | 2504/2825 [33:41<04:19,  1.24it/s]Computing baseline logprobs:  89%|████████▊ | 2505/2825 [33:42<04:08,  1.29it/s]Computing baseline logprobs:  89%|████████▊ | 2506/2825 [33:43<03:45,  1.41it/s]Computing baseline logprobs:  89%|████████▊ | 2507/2825 [33:43<03:37,  1.46it/s]Computing baseline logprobs:  89%|████████▉ | 2508/2825 [33:44<03:44,  1.41it/s]Computing baseline logprobs:  89%|████████▉ | 2509/2825 [33:45<03:55,  1.34it/s]Computing baseline logprobs:  89%|████████▉ | 2510/2825 [33:46<04:05,  1.28it/s]Computing baseline logprobs:  89%|████████▉ | 2511/2825 [33:47<04:18,  1.22it/s]Computing baseline logprobs:  89%|████████▉ | 2512/2825 [33:47<03:56,  1.32it/s]Computing baseline logprobs:  89%|████████▉ | 2513/2825 [33:48<03:34,  1.45it/s]Computing baseline logprobs:  89%|████████▉ | 2514/2825 [33:49<03:49,  1.36it/s]Computing baseline logprobs:  89%|████████▉ | 2515/2825 [33:50<04:12,  1.23it/s]Computing baseline logprobs:  89%|████████▉ | 2516/2825 [33:51<04:15,  1.21it/s]Computing baseline logprobs:  89%|████████▉ | 2517/2825 [33:51<04:15,  1.21it/s]Computing baseline logprobs:  89%|████████▉ | 2518/2825 [33:52<04:03,  1.26it/s]Computing baseline logprobs:  89%|████████▉ | 2519/2825 [33:53<04:01,  1.27it/s]Computing baseline logprobs:  89%|████████▉ | 2520/2825 [33:54<03:55,  1.29it/s]Computing baseline logprobs:  89%|████████▉ | 2521/2825 [33:54<03:45,  1.35it/s]Computing baseline logprobs:  89%|████████▉ | 2522/2825 [33:55<04:06,  1.23it/s]Computing baseline logprobs:  89%|████████▉ | 2523/2825 [33:56<03:52,  1.30it/s]Computing baseline logprobs:  89%|████████▉ | 2524/2825 [33:57<03:56,  1.28it/s]Computing baseline logprobs:  89%|████████▉ | 2525/2825 [33:58<04:01,  1.24it/s]Computing baseline logprobs:  89%|████████▉ | 2526/2825 [33:58<03:47,  1.31it/s]Computing baseline logprobs:  89%|████████▉ | 2527/2825 [33:59<03:43,  1.33it/s]Computing baseline logprobs:  89%|████████▉ | 2528/2825 [34:00<03:34,  1.38it/s]Computing baseline logprobs:  90%|████████▉ | 2529/2825 [34:00<03:26,  1.43it/s]Computing baseline logprobs:  90%|████████▉ | 2530/2825 [34:01<03:20,  1.47it/s]Computing baseline logprobs:  90%|████████▉ | 2531/2825 [34:02<03:21,  1.46it/s]Computing baseline logprobs:  90%|████████▉ | 2532/2825 [34:02<03:21,  1.45it/s]Computing baseline logprobs:  90%|████████▉ | 2533/2825 [34:03<03:11,  1.53it/s]Computing baseline logprobs:  90%|████████▉ | 2534/2825 [34:04<03:36,  1.35it/s]Computing baseline logprobs:  90%|████████▉ | 2535/2825 [34:05<03:38,  1.33it/s]Computing baseline logprobs:  90%|████████▉ | 2536/2825 [34:05<03:29,  1.38it/s]Computing baseline logprobs:  90%|████████▉ | 2537/2825 [34:06<03:27,  1.39it/s]Computing baseline logprobs:  90%|████████▉ | 2538/2825 [34:07<03:34,  1.34it/s]Computing baseline logprobs:  90%|████████▉ | 2539/2825 [34:07<03:27,  1.38it/s]Computing baseline logprobs:  90%|████████▉ | 2540/2825 [34:08<03:06,  1.53it/s]Computing baseline logprobs:  90%|████████▉ | 2541/2825 [34:08<02:56,  1.60it/s]Computing baseline logprobs:  90%|████████▉ | 2542/2825 [34:09<02:59,  1.57it/s]Computing baseline logprobs:  90%|█████████ | 2543/2825 [34:10<03:31,  1.33it/s]Computing baseline logprobs:  90%|█████████ | 2544/2825 [34:11<03:31,  1.33it/s]Computing baseline logprobs:  90%|█████████ | 2545/2825 [34:12<03:40,  1.27it/s]Computing baseline logprobs:  90%|█████████ | 2546/2825 [34:13<03:43,  1.25it/s]Computing baseline logprobs:  90%|█████████ | 2547/2825 [34:13<03:38,  1.27it/s]Computing baseline logprobs:  90%|█████████ | 2548/2825 [34:14<03:43,  1.24it/s]Computing baseline logprobs:  90%|█████████ | 2549/2825 [34:15<03:42,  1.24it/s]Computing baseline logprobs:  90%|█████████ | 2550/2825 [34:16<03:28,  1.32it/s]Computing baseline logprobs:  90%|█████████ | 2551/2825 [34:16<03:31,  1.30it/s]Computing baseline logprobs:  90%|█████████ | 2552/2825 [34:17<03:39,  1.24it/s]Computing baseline logprobs:  90%|█████████ | 2553/2825 [34:18<03:36,  1.26it/s]Computing baseline logprobs:  90%|█████████ | 2554/2825 [34:19<03:38,  1.24it/s]Computing baseline logprobs:  90%|█████████ | 2555/2825 [34:20<03:41,  1.22it/s]Computing baseline logprobs:  90%|█████████ | 2556/2825 [34:21<03:42,  1.21it/s]Computing baseline logprobs:  91%|█████████ | 2557/2825 [34:21<03:19,  1.34it/s]Computing baseline logprobs:  91%|█████████ | 2558/2825 [34:22<03:07,  1.42it/s]Computing baseline logprobs:  91%|█████████ | 2559/2825 [34:22<03:00,  1.47it/s]Computing baseline logprobs:  91%|█████████ | 2560/2825 [34:23<02:46,  1.59it/s]Computing baseline logprobs:  91%|█████████ | 2561/2825 [34:24<02:42,  1.62it/s]Computing baseline logprobs:  91%|█████████ | 2562/2825 [34:24<02:45,  1.59it/s]Computing baseline logprobs:  91%|█████████ | 2563/2825 [34:25<02:46,  1.57it/s]Computing baseline logprobs:  91%|█████████ | 2564/2825 [34:26<02:50,  1.53it/s]Computing baseline logprobs:  91%|█████████ | 2565/2825 [34:26<03:00,  1.44it/s]Computing baseline logprobs:  91%|█████████ | 2566/2825 [34:27<03:04,  1.41it/s]Computing baseline logprobs:  91%|█████████ | 2567/2825 [34:28<02:58,  1.45it/s]Computing baseline logprobs:  91%|█████████ | 2568/2825 [34:28<02:54,  1.47it/s]Computing baseline logprobs:  91%|█████████ | 2569/2825 [34:29<03:02,  1.40it/s]Computing baseline logprobs:  91%|█████████ | 2570/2825 [34:30<03:12,  1.33it/s]Computing baseline logprobs:  91%|█████████ | 2571/2825 [34:31<02:59,  1.42it/s]Computing baseline logprobs:  91%|█████████ | 2572/2825 [34:31<02:49,  1.49it/s]Computing baseline logprobs:  91%|█████████ | 2573/2825 [34:32<02:44,  1.53it/s]Computing baseline logprobs:  91%|█████████ | 2574/2825 [34:32<02:34,  1.63it/s]Computing baseline logprobs:  91%|█████████ | 2575/2825 [34:33<02:42,  1.54it/s]Computing baseline logprobs:  91%|█████████ | 2576/2825 [34:34<02:35,  1.60it/s]Computing baseline logprobs:  91%|█████████ | 2577/2825 [34:34<02:31,  1.64it/s]Computing baseline logprobs:  91%|█████████▏| 2578/2825 [34:35<02:32,  1.62it/s]Computing baseline logprobs:  91%|█████████▏| 2579/2825 [34:36<02:51,  1.43it/s]Computing baseline logprobs:  91%|█████████▏| 2580/2825 [34:37<03:04,  1.33it/s]Computing baseline logprobs:  91%|█████████▏| 2581/2825 [34:37<02:59,  1.36it/s]Computing baseline logprobs:  91%|█████████▏| 2582/2825 [34:38<03:06,  1.30it/s]Computing baseline logprobs:  91%|█████████▏| 2583/2825 [34:39<03:08,  1.28it/s]Computing baseline logprobs:  91%|█████████▏| 2584/2825 [34:40<03:21,  1.19it/s]Computing baseline logprobs:  92%|█████████▏| 2585/2825 [34:41<03:27,  1.16it/s]Computing baseline logprobs:  92%|█████████▏| 2586/2825 [34:42<03:18,  1.20it/s]Computing baseline logprobs:  92%|█████████▏| 2587/2825 [34:42<03:20,  1.19it/s]Computing baseline logprobs:  92%|█████████▏| 2588/2825 [34:43<03:20,  1.18it/s]Computing baseline logprobs:  92%|█████████▏| 2589/2825 [34:44<03:00,  1.31it/s]Computing baseline logprobs:  92%|█████████▏| 2590/2825 [34:45<03:12,  1.22it/s]Computing baseline logprobs:  92%|█████████▏| 2591/2825 [34:46<03:39,  1.06it/s]Computing baseline logprobs:  92%|█████████▏| 2592/2825 [34:47<03:43,  1.04it/s]Computing baseline logprobs:  92%|█████████▏| 2593/2825 [34:48<03:29,  1.11it/s]Computing baseline logprobs:  92%|█████████▏| 2594/2825 [34:49<03:23,  1.14it/s]Computing baseline logprobs:  92%|█████████▏| 2595/2825 [34:50<03:49,  1.00it/s]Computing baseline logprobs:  92%|█████████▏| 2596/2825 [34:51<03:33,  1.07it/s]Computing baseline logprobs:  92%|█████████▏| 2597/2825 [34:51<03:12,  1.19it/s]Computing baseline logprobs:  92%|█████████▏| 2598/2825 [34:52<03:05,  1.22it/s]Computing baseline logprobs:  92%|█████████▏| 2599/2825 [34:53<02:56,  1.28it/s]Computing baseline logprobs:  92%|█████████▏| 2600/2825 [34:54<02:57,  1.27it/s]Computing baseline logprobs:  92%|█████████▏| 2601/2825 [34:54<03:01,  1.23it/s]Computing baseline logprobs:  92%|█████████▏| 2602/2825 [34:55<02:38,  1.41it/s]Computing baseline logprobs:  92%|█████████▏| 2603/2825 [34:56<02:42,  1.37it/s]Computing baseline logprobs:  92%|█████████▏| 2604/2825 [34:56<02:35,  1.42it/s]Computing baseline logprobs:  92%|█████████▏| 2605/2825 [34:57<02:25,  1.51it/s]Computing baseline logprobs:  92%|█████████▏| 2606/2825 [34:58<02:19,  1.57it/s]Computing baseline logprobs:  92%|█████████▏| 2607/2825 [34:58<02:28,  1.47it/s]Computing baseline logprobs:  92%|█████████▏| 2608/2825 [34:59<02:35,  1.39it/s]Computing baseline logprobs:  92%|█████████▏| 2609/2825 [35:00<02:46,  1.29it/s]Computing baseline logprobs:  92%|█████████▏| 2610/2825 [35:01<02:41,  1.33it/s]Computing baseline logprobs:  92%|█████████▏| 2611/2825 [35:01<02:34,  1.38it/s]Computing baseline logprobs:  92%|█████████▏| 2612/2825 [35:02<02:41,  1.32it/s]Computing baseline logprobs:  92%|█████████▏| 2613/2825 [35:03<02:40,  1.32it/s]Computing baseline logprobs:  93%|█████████▎| 2614/2825 [35:03<02:26,  1.44it/s]Computing baseline logprobs:  93%|█████████▎| 2615/2825 [35:04<02:26,  1.43it/s]Computing baseline logprobs:  93%|█████████▎| 2616/2825 [35:05<02:10,  1.60it/s]Computing baseline logprobs:  93%|█████████▎| 2617/2825 [35:05<02:21,  1.47it/s]Computing baseline logprobs:  93%|█████████▎| 2618/2825 [35:06<02:30,  1.38it/s]Computing baseline logprobs:  93%|█████████▎| 2619/2825 [35:07<02:38,  1.30it/s]Computing baseline logprobs:  93%|█████████▎| 2620/2825 [35:08<02:34,  1.33it/s]Computing baseline logprobs:  93%|█████████▎| 2621/2825 [35:09<02:29,  1.36it/s]Computing baseline logprobs:  93%|█████████▎| 2622/2825 [35:09<02:31,  1.34it/s]Computing baseline logprobs:  93%|█████████▎| 2623/2825 [35:10<02:23,  1.41it/s]Computing baseline logprobs:  93%|█████████▎| 2624/2825 [35:11<02:18,  1.45it/s]Computing baseline logprobs:  93%|█████████▎| 2625/2825 [35:11<02:26,  1.37it/s]Computing baseline logprobs:  93%|█████████▎| 2626/2825 [35:12<02:32,  1.30it/s]Computing baseline logprobs:  93%|█████████▎| 2627/2825 [35:13<02:57,  1.12it/s]Computing baseline logprobs:  93%|█████████▎| 2628/2825 [35:14<02:57,  1.11it/s]Computing baseline logprobs:  93%|█████████▎| 2629/2825 [35:15<02:41,  1.21it/s]Computing baseline logprobs:  93%|█████████▎| 2630/2825 [35:16<02:31,  1.29it/s]Computing baseline logprobs:  93%|█████████▎| 2631/2825 [35:16<02:30,  1.29it/s]Computing baseline logprobs:  93%|█████████▎| 2632/2825 [35:17<02:42,  1.19it/s]Computing baseline logprobs:  93%|█████████▎| 2633/2825 [35:18<02:30,  1.27it/s]Computing baseline logprobs:  93%|█████████▎| 2634/2825 [35:19<02:25,  1.31it/s]Computing baseline logprobs:  93%|█████████▎| 2635/2825 [35:19<02:14,  1.41it/s]Computing baseline logprobs:  93%|█████████▎| 2636/2825 [35:20<02:19,  1.36it/s]Computing baseline logprobs:  93%|█████████▎| 2637/2825 [35:21<02:13,  1.41it/s]Computing baseline logprobs:  93%|█████████▎| 2638/2825 [35:22<02:21,  1.32it/s]Computing baseline logprobs:  93%|█████████▎| 2639/2825 [35:23<02:34,  1.21it/s]Computing baseline logprobs:  93%|█████████▎| 2640/2825 [35:23<02:26,  1.26it/s]Computing baseline logprobs:  93%|█████████▎| 2641/2825 [35:24<02:31,  1.21it/s]Computing baseline logprobs:  94%|█████████▎| 2642/2825 [35:25<02:24,  1.27it/s]Computing baseline logprobs:  94%|█████████▎| 2643/2825 [35:26<02:21,  1.28it/s]Computing baseline logprobs:  94%|█████████▎| 2644/2825 [35:27<02:21,  1.28it/s]Computing baseline logprobs:  94%|█████████▎| 2645/2825 [35:28<02:36,  1.15it/s]Computing baseline logprobs:  94%|█████████▎| 2646/2825 [35:29<02:46,  1.08it/s]Computing baseline logprobs:  94%|█████████▎| 2647/2825 [35:29<02:34,  1.15it/s]Computing baseline logprobs:  94%|█████████▎| 2648/2825 [35:30<02:16,  1.30it/s]Computing baseline logprobs:  94%|█████████▍| 2649/2825 [35:31<02:10,  1.35it/s]Computing baseline logprobs:  94%|█████████▍| 2650/2825 [35:32<02:22,  1.22it/s]Computing baseline logprobs:  94%|█████████▍| 2651/2825 [35:32<02:17,  1.27it/s]Computing baseline logprobs:  94%|█████████▍| 2652/2825 [35:33<02:18,  1.25it/s]Computing baseline logprobs:  94%|█████████▍| 2653/2825 [35:34<02:15,  1.27it/s]Computing baseline logprobs:  94%|█████████▍| 2654/2825 [35:35<02:06,  1.35it/s]Computing baseline logprobs:  94%|█████████▍| 2655/2825 [35:35<02:07,  1.34it/s]Computing baseline logprobs:  94%|█████████▍| 2656/2825 [35:37<02:30,  1.13it/s]Computing baseline logprobs:  94%|█████████▍| 2657/2825 [35:37<02:24,  1.16it/s]Computing baseline logprobs:  94%|█████████▍| 2658/2825 [35:38<02:15,  1.23it/s]Computing baseline logprobs:  94%|█████████▍| 2659/2825 [35:39<02:11,  1.26it/s]Computing baseline logprobs:  94%|█████████▍| 2660/2825 [35:40<02:07,  1.29it/s]Computing baseline logprobs:  94%|█████████▍| 2661/2825 [35:40<02:02,  1.34it/s]Computing baseline logprobs:  94%|█████████▍| 2662/2825 [35:41<02:01,  1.34it/s]Computing baseline logprobs:  94%|█████████▍| 2663/2825 [35:42<01:58,  1.36it/s]Computing baseline logprobs:  94%|█████████▍| 2664/2825 [35:43<02:06,  1.28it/s]Computing baseline logprobs:  94%|█████████▍| 2665/2825 [35:43<01:57,  1.36it/s]Computing baseline logprobs:  94%|█████████▍| 2666/2825 [35:44<01:50,  1.44it/s]Computing baseline logprobs:  94%|█████████▍| 2667/2825 [35:45<01:50,  1.43it/s]Computing baseline logprobs:  94%|█████████▍| 2668/2825 [35:45<01:55,  1.36it/s]Computing baseline logprobs:  94%|█████████▍| 2669/2825 [35:46<02:03,  1.26it/s]Computing baseline logprobs:  95%|█████████▍| 2670/2825 [35:47<02:08,  1.20it/s]Computing baseline logprobs:  95%|█████████▍| 2671/2825 [35:48<02:06,  1.22it/s]Computing baseline logprobs:  95%|█████████▍| 2672/2825 [35:49<01:53,  1.34it/s]Computing baseline logprobs:  95%|█████████▍| 2673/2825 [35:49<01:45,  1.44it/s]Computing baseline logprobs:  95%|█████████▍| 2674/2825 [35:50<01:48,  1.39it/s]Computing baseline logprobs:  95%|█████████▍| 2675/2825 [35:51<01:48,  1.38it/s]Computing baseline logprobs:  95%|█████████▍| 2676/2825 [35:52<01:54,  1.30it/s]Computing baseline logprobs:  95%|█████████▍| 2677/2825 [35:52<01:54,  1.30it/s]Computing baseline logprobs:  95%|█████████▍| 2678/2825 [35:53<01:49,  1.35it/s]Computing baseline logprobs:  95%|█████████▍| 2679/2825 [35:54<01:46,  1.38it/s]Computing baseline logprobs:  95%|█████████▍| 2680/2825 [35:55<01:55,  1.25it/s]Computing baseline logprobs:  95%|█████████▍| 2681/2825 [35:55<01:56,  1.23it/s]Computing baseline logprobs:  95%|█████████▍| 2682/2825 [35:56<01:47,  1.33it/s]Computing baseline logprobs:  95%|█████████▍| 2683/2825 [35:57<01:33,  1.51it/s]Computing baseline logprobs:  95%|█████████▌| 2684/2825 [35:57<01:26,  1.64it/s]Computing baseline logprobs:  95%|█████████▌| 2685/2825 [35:58<01:20,  1.75it/s]Computing baseline logprobs:  95%|█████████▌| 2686/2825 [35:58<01:21,  1.70it/s]Computing baseline logprobs:  95%|█████████▌| 2687/2825 [35:59<01:30,  1.53it/s]Computing baseline logprobs:  95%|█████████▌| 2688/2825 [36:00<01:47,  1.27it/s]Computing baseline logprobs:  95%|█████████▌| 2689/2825 [36:01<01:45,  1.29it/s]Computing baseline logprobs:  95%|█████████▌| 2690/2825 [36:02<01:43,  1.30it/s]Computing baseline logprobs:  95%|█████████▌| 2691/2825 [36:02<01:41,  1.33it/s]Computing baseline logprobs:  95%|█████████▌| 2692/2825 [36:03<01:29,  1.49it/s]Computing baseline logprobs:  95%|█████████▌| 2693/2825 [36:03<01:22,  1.60it/s]Computing baseline logprobs:  95%|█████████▌| 2694/2825 [36:04<01:19,  1.64it/s]Computing baseline logprobs:  95%|█████████▌| 2695/2825 [36:05<01:22,  1.58it/s]Computing baseline logprobs:  95%|█████████▌| 2696/2825 [36:05<01:21,  1.58it/s]Computing baseline logprobs:  95%|█████████▌| 2697/2825 [36:06<01:21,  1.57it/s]Computing baseline logprobs:  96%|█████████▌| 2698/2825 [36:07<01:32,  1.38it/s]Computing baseline logprobs:  96%|█████████▌| 2699/2825 [36:08<01:39,  1.26it/s]Computing baseline logprobs:  96%|█████████▌| 2700/2825 [36:08<01:31,  1.37it/s]Computing baseline logprobs:  96%|█████████▌| 2701/2825 [36:09<01:27,  1.41it/s]Computing baseline logprobs:  96%|█████████▌| 2702/2825 [36:09<01:19,  1.54it/s]Computing baseline logprobs:  96%|█████████▌| 2703/2825 [36:10<01:22,  1.49it/s]Computing baseline logprobs:  96%|█████████▌| 2704/2825 [36:11<01:17,  1.56it/s]Computing baseline logprobs:  96%|█████████▌| 2705/2825 [36:11<01:17,  1.56it/s]Computing baseline logprobs:  96%|█████████▌| 2706/2825 [36:12<01:18,  1.53it/s]Computing baseline logprobs:  96%|█████████▌| 2707/2825 [36:13<01:14,  1.58it/s]Computing baseline logprobs:  96%|█████████▌| 2708/2825 [36:14<01:25,  1.36it/s]Computing baseline logprobs:  96%|█████████▌| 2709/2825 [36:15<01:34,  1.23it/s]Computing baseline logprobs:  96%|█████████▌| 2710/2825 [36:15<01:31,  1.25it/s]Computing baseline logprobs:  96%|█████████▌| 2711/2825 [36:16<01:28,  1.29it/s]Computing baseline logprobs:  96%|█████████▌| 2712/2825 [36:17<01:28,  1.28it/s]Computing baseline logprobs:  96%|█████████▌| 2713/2825 [36:17<01:20,  1.40it/s]Computing baseline logprobs:  96%|█████████▌| 2714/2825 [36:18<01:17,  1.43it/s]Computing baseline logprobs:  96%|█████████▌| 2715/2825 [36:19<01:24,  1.31it/s]Computing baseline logprobs:  96%|█████████▌| 2716/2825 [36:20<01:26,  1.26it/s]Computing baseline logprobs:  96%|█████████▌| 2717/2825 [36:21<01:21,  1.32it/s]Computing baseline logprobs:  96%|█████████▌| 2718/2825 [36:21<01:25,  1.26it/s]Computing baseline logprobs:  96%|█████████▌| 2719/2825 [36:22<01:30,  1.18it/s]Computing baseline logprobs:  96%|█████████▋| 2720/2825 [36:23<01:22,  1.27it/s]Computing baseline logprobs:  96%|█████████▋| 2721/2825 [36:24<01:24,  1.23it/s]Computing baseline logprobs:  96%|█████████▋| 2722/2825 [36:25<01:26,  1.18it/s]Computing baseline logprobs:  96%|█████████▋| 2723/2825 [36:25<01:19,  1.29it/s]Computing baseline logprobs:  96%|█████████▋| 2724/2825 [36:26<01:22,  1.22it/s]Computing baseline logprobs:  96%|█████████▋| 2725/2825 [36:27<01:28,  1.13it/s]Computing baseline logprobs:  96%|█████████▋| 2726/2825 [36:28<01:22,  1.19it/s]Computing baseline logprobs:  97%|█████████▋| 2727/2825 [36:29<01:13,  1.33it/s]Computing baseline logprobs:  97%|█████████▋| 2728/2825 [36:29<01:12,  1.33it/s]Computing baseline logprobs:  97%|█████████▋| 2729/2825 [36:30<01:10,  1.36it/s]Computing baseline logprobs:  97%|█████████▋| 2730/2825 [36:31<01:11,  1.32it/s]Computing baseline logprobs:  97%|█████████▋| 2731/2825 [36:32<01:09,  1.36it/s]Computing baseline logprobs:  97%|█████████▋| 2732/2825 [36:32<01:08,  1.35it/s]Computing baseline logprobs:  97%|█████████▋| 2733/2825 [36:33<01:06,  1.38it/s]Computing baseline logprobs:  97%|█████████▋| 2734/2825 [36:34<01:10,  1.28it/s]Computing baseline logprobs:  97%|█████████▋| 2735/2825 [36:35<01:06,  1.36it/s]Computing baseline logprobs:  97%|█████████▋| 2736/2825 [36:35<01:08,  1.31it/s]Computing baseline logprobs:  97%|█████████▋| 2737/2825 [36:36<01:09,  1.26it/s]Computing baseline logprobs:  97%|█████████▋| 2738/2825 [36:37<01:09,  1.25it/s]Computing baseline logprobs:  97%|█████████▋| 2739/2825 [36:38<01:05,  1.31it/s]Computing baseline logprobs:  97%|█████████▋| 2740/2825 [36:38<01:02,  1.36it/s]Computing baseline logprobs:  97%|█████████▋| 2741/2825 [36:39<00:59,  1.40it/s]Computing baseline logprobs:  97%|█████████▋| 2742/2825 [36:40<01:01,  1.35it/s]Computing baseline logprobs:  97%|█████████▋| 2743/2825 [36:41<01:03,  1.29it/s]Computing baseline logprobs:  97%|█████████▋| 2744/2825 [36:42<01:03,  1.27it/s]Computing baseline logprobs:  97%|█████████▋| 2745/2825 [36:42<01:02,  1.29it/s]Computing baseline logprobs:  97%|█████████▋| 2746/2825 [36:43<01:08,  1.16it/s]Computing baseline logprobs:  97%|█████████▋| 2747/2825 [36:44<01:06,  1.17it/s]Computing baseline logprobs:  97%|█████████▋| 2748/2825 [36:45<01:04,  1.19it/s]Computing baseline logprobs:  97%|█████████▋| 2749/2825 [36:46<01:07,  1.12it/s]Computing baseline logprobs:  97%|█████████▋| 2750/2825 [36:47<01:05,  1.15it/s]Computing baseline logprobs:  97%|█████████▋| 2751/2825 [36:48<01:01,  1.20it/s]Computing baseline logprobs:  97%|█████████▋| 2752/2825 [36:48<00:58,  1.25it/s]Computing baseline logprobs:  97%|█████████▋| 2753/2825 [36:49<00:56,  1.28it/s]Computing baseline logprobs:  97%|█████████▋| 2754/2825 [36:50<00:52,  1.36it/s]Computing baseline logprobs:  98%|█████████▊| 2755/2825 [36:51<00:53,  1.32it/s]Computing baseline logprobs:  98%|█████████▊| 2756/2825 [36:51<00:50,  1.36it/s]Computing baseline logprobs:  98%|█████████▊| 2757/2825 [36:52<00:44,  1.51it/s]Computing baseline logprobs:  98%|█████████▊| 2758/2825 [36:52<00:42,  1.58it/s]Computing baseline logprobs:  98%|█████████▊| 2759/2825 [36:53<00:41,  1.57it/s]Computing baseline logprobs:  98%|█████████▊| 2760/2825 [36:54<00:41,  1.58it/s]Computing baseline logprobs:  98%|█████████▊| 2761/2825 [36:54<00:44,  1.45it/s]Computing baseline logprobs:  98%|█████████▊| 2762/2825 [36:55<00:47,  1.32it/s]Computing baseline logprobs:  98%|█████████▊| 2763/2825 [36:56<00:47,  1.31it/s]Computing baseline logprobs:  98%|█████████▊| 2764/2825 [36:57<00:46,  1.32it/s]Computing baseline logprobs:  98%|█████████▊| 2765/2825 [36:58<00:49,  1.21it/s]Computing baseline logprobs:  98%|█████████▊| 2766/2825 [36:59<00:50,  1.17it/s]Computing baseline logprobs:  98%|█████████▊| 2767/2825 [36:59<00:46,  1.24it/s]Computing baseline logprobs:  98%|█████████▊| 2768/2825 [37:00<00:44,  1.28it/s]Computing baseline logprobs:  98%|█████████▊| 2769/2825 [37:01<00:39,  1.40it/s]Computing baseline logprobs:  98%|█████████▊| 2770/2825 [37:01<00:35,  1.53it/s]Computing baseline logprobs:  98%|█████████▊| 2771/2825 [37:02<00:39,  1.38it/s]Computing baseline logprobs:  98%|█████████▊| 2772/2825 [37:03<00:40,  1.32it/s]Computing baseline logprobs:  98%|█████████▊| 2773/2825 [37:04<00:39,  1.33it/s]Computing baseline logprobs:  98%|█████████▊| 2774/2825 [37:04<00:36,  1.41it/s]Computing baseline logprobs:  98%|█████████▊| 2775/2825 [37:05<00:37,  1.32it/s]Computing baseline logprobs:  98%|█████████▊| 2776/2825 [37:06<00:34,  1.40it/s]Computing baseline logprobs:  98%|█████████▊| 2777/2825 [37:07<00:37,  1.27it/s]Computing baseline logprobs:  98%|█████████▊| 2778/2825 [37:08<00:39,  1.18it/s]Computing baseline logprobs:  98%|█████████▊| 2779/2825 [37:08<00:35,  1.30it/s]Computing baseline logprobs:  98%|█████████▊| 2780/2825 [37:09<00:31,  1.44it/s]Computing baseline logprobs:  98%|█████████▊| 2781/2825 [37:10<00:32,  1.35it/s]Computing baseline logprobs:  98%|█████████▊| 2782/2825 [37:10<00:32,  1.31it/s]Computing baseline logprobs:  99%|█████████▊| 2783/2825 [37:11<00:32,  1.29it/s]Computing baseline logprobs:  99%|█████████▊| 2784/2825 [37:12<00:31,  1.30it/s]Computing baseline logprobs:  99%|█████████▊| 2785/2825 [37:13<00:28,  1.42it/s]Computing baseline logprobs:  99%|█████████▊| 2786/2825 [37:13<00:28,  1.39it/s]Computing baseline logprobs:  99%|█████████▊| 2787/2825 [37:14<00:31,  1.21it/s]Computing baseline logprobs:  99%|█████████▊| 2788/2825 [37:15<00:30,  1.23it/s]Computing baseline logprobs:  99%|█████████▊| 2789/2825 [37:16<00:27,  1.29it/s]Computing baseline logprobs:  99%|█████████▉| 2790/2825 [37:16<00:25,  1.40it/s]Computing baseline logprobs:  99%|█████████▉| 2791/2825 [37:17<00:23,  1.43it/s]Computing baseline logprobs:  99%|█████████▉| 2792/2825 [37:18<00:26,  1.24it/s]Computing baseline logprobs:  99%|█████████▉| 2793/2825 [37:19<00:26,  1.21it/s]Computing baseline logprobs:  99%|█████████▉| 2794/2825 [37:20<00:24,  1.24it/s]Computing baseline logprobs:  99%|█████████▉| 2795/2825 [37:20<00:23,  1.30it/s]Computing baseline logprobs:  99%|█████████▉| 2796/2825 [37:21<00:23,  1.24it/s]Computing baseline logprobs:  99%|█████████▉| 2797/2825 [37:22<00:20,  1.35it/s]Computing baseline logprobs:  99%|█████████▉| 2798/2825 [37:23<00:19,  1.40it/s]Computing baseline logprobs:  99%|█████████▉| 2799/2825 [37:24<00:20,  1.29it/s]Computing baseline logprobs:  99%|█████████▉| 2800/2825 [37:24<00:20,  1.24it/s]Computing baseline logprobs:  99%|█████████▉| 2801/2825 [37:25<00:19,  1.24it/s]Computing baseline logprobs:  99%|█████████▉| 2802/2825 [37:26<00:17,  1.29it/s]Computing baseline logprobs:  99%|█████████▉| 2803/2825 [37:27<00:16,  1.31it/s]Computing baseline logprobs:  99%|█████████▉| 2804/2825 [37:27<00:14,  1.47it/s]Computing baseline logprobs:  99%|█████████▉| 2805/2825 [37:28<00:12,  1.58it/s]Computing baseline logprobs:  99%|█████████▉| 2806/2825 [37:28<00:12,  1.50it/s]Computing baseline logprobs:  99%|█████████▉| 2807/2825 [37:29<00:12,  1.39it/s]Computing baseline logprobs:  99%|█████████▉| 2808/2825 [37:30<00:13,  1.27it/s]Computing baseline logprobs:  99%|█████████▉| 2809/2825 [37:31<00:13,  1.17it/s]Computing baseline logprobs:  99%|█████████▉| 2810/2825 [37:32<00:12,  1.19it/s]Computing baseline logprobs: 100%|█████████▉| 2811/2825 [37:33<00:11,  1.21it/s]Computing baseline logprobs: 100%|█████████▉| 2812/2825 [37:33<00:09,  1.30it/s]Computing baseline logprobs: 100%|█████████▉| 2813/2825 [37:34<00:08,  1.40it/s]Computing baseline logprobs: 100%|█████████▉| 2814/2825 [37:35<00:08,  1.32it/s]Computing baseline logprobs: 100%|█████████▉| 2815/2825 [37:36<00:07,  1.27it/s]Computing baseline logprobs: 100%|█████████▉| 2816/2825 [37:36<00:06,  1.42it/s]Computing baseline logprobs: 100%|█████████▉| 2817/2825 [37:37<00:05,  1.40it/s]Computing baseline logprobs: 100%|█████████▉| 2818/2825 [37:38<00:04,  1.48it/s]Computing baseline logprobs: 100%|█████████▉| 2819/2825 [37:38<00:04,  1.46it/s]Computing baseline logprobs: 100%|█████████▉| 2820/2825 [37:39<00:04,  1.21it/s]Computing baseline logprobs: 100%|█████████▉| 2821/2825 [37:40<00:03,  1.25it/s]Computing baseline logprobs: 100%|█████████▉| 2822/2825 [37:41<00:02,  1.32it/s]Computing baseline logprobs: 100%|█████████▉| 2823/2825 [37:41<00:01,  1.43it/s]Computing baseline logprobs: 100%|█████████▉| 2824/2825 [37:42<00:00,  1.55it/s]Computing baseline logprobs: 100%|██████████| 2825/2825 [37:43<00:00,  1.48it/s]Computing baseline logprobs: 100%|██████████| 2825/2825 [37:43<00:00,  1.25it/s]
+Using /home/panda/.cache/torch_extensions/py311_cu124 as PyTorch extensions root...
+Detected CUDA files, patching ldflags
+Emitting ninja build file /home/panda/.cache/torch_extensions/py311_cu124/fused_adam/build.ninja...
+/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/torch/utils/cpp_extension.py:1964: UserWarning: TORCH_CUDA_ARCH_LIST is not set, all archs for visible cards are included for compilation. 
+If this is not desired, please set os.environ['TORCH_CUDA_ARCH_LIST'].
+  warnings.warn(
+Building extension module fused_adam...
+Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
+Loading extension module fused_adam...
+wandb: Currently logged in as: iboero (alelab) to https://api.wandb.ai. Use `wandb login --relogin` to force relogin
+wandb: Tracking run with wandb version 0.19.10
+wandb: Run data is saved locally in /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_212154-is8630ik
+wandb: Run `wandb offline` to turn off syncing.
+wandb: Syncing run tools-sft-2025-05-08-21-21-54
+wandb: ⭐️ View project at https://wandb.ai/alelab/TOOLS-SFT
+wandb: 🚀 View run at https://wandb.ai/alelab/TOOLS-SFT/runs/is8630ik
+Training 1/3 epoch:   0%|          | 0/16950 [00:00<?, ?it/s]                                                             Training 1/3 epoch:   0%|          | 0/16950 [00:00<?, ?it/s]Training 1/3 epoch (loss 1.3208):   0%|          | 0/16950 [04:26<?, ?it/s]Training 1/3 epoch (loss 1.3208):   0%|          | 1/16950 [04:26<1252:33:22, 266.05s/it]Training 1/3 epoch (loss 0.6236):   0%|          | 1/16950 [04:26<1252:33:22, 266.05s/it]Training 1/3 epoch (loss 0.6236):   0%|          | 2/16950 [04:26<517:03:14, 109.83s/it] Training 1/3 epoch (loss 0.4329):   0%|          | 2/16950 [04:26<517:03:14, 109.83s/it]Training 1/3 epoch (loss 0.4329):   0%|          | 3/16950 [04:26<281:48:45, 59.86s/it] Training 1/3 epoch (loss 0.1863):   0%|          | 3/16950 [04:27<281:48:45, 59.86s/it]Training 1/3 epoch (loss 0.1863):   0%|          | 4/16950 [04:27<171:13:53, 36.38s/it]Training 1/3 epoch (loss 0.0754):   0%|          | 4/16950 [04:27<171:13:53, 36.38s/it]Training 1/3 epoch (loss 0.0754):   0%|          | 5/16950 [04:27<109:55:30, 23.35s/it]Training 1/3 epoch (loss 0.3067):   0%|          | 5/16950 [04:28<109:55:30, 23.35s/it]Training 1/3 epoch (loss 0.3067):   0%|          | 6/16950 [04:28<73:49:29, 15.69s/it] Training 1/3 epoch (loss 0.5680):   0%|          | 6/16950 [04:29<73:49:29, 15.69s/it]Training 1/3 epoch (loss 0.5680):   0%|          | 7/16950 [04:29<50:51:35, 10.81s/it]Training 1/3 epoch (loss 1.0891):   0%|          | 7/16950 [04:29<50:51:35, 10.81s/it]Training 1/3 epoch (loss 1.0891):   0%|          | 8/16950 [04:29<35:22:46,  7.52s/it]Training 1/3 epoch (loss 0.2437):   0%|          | 8/16950 [04:30<35:22:46,  7.52s/it]Training 1/3 epoch (loss 0.2437):   0%|          | 9/16950 [04:30<25:06:38,  5.34s/it]Training 1/3 epoch (loss 0.1504):   0%|          | 9/16950 [04:30<25:06:38,  5.34s/it]Training 1/3 epoch (loss 0.1504):   0%|          | 10/16950 [04:30<18:00:26,  3.83s/it]Training 1/3 epoch (loss 1.3241):   0%|          | 10/16950 [04:31<18:00:26,  3.83s/it]Training 1/3 epoch (loss 1.3241):   0%|          | 11/16950 [04:31<13:38:06,  2.90s/it]Training 1/3 epoch (loss 0.5124):   0%|          | 11/16950 [04:32<13:38:06,  2.90s/it]Training 1/3 epoch (loss 0.5124):   0%|          | 12/16950 [04:32<10:25:44,  2.22s/it]Training 1/3 epoch (loss 0.3966):   0%|          | 12/16950 [04:32<10:25:44,  2.22s/it]Training 1/3 epoch (loss 0.3966):   0%|          | 13/16950 [04:32<8:06:46,  1.72s/it] Training 1/3 epoch (loss 0.4127):   0%|          | 13/16950 [04:33<8:06:46,  1.72s/it]Training 1/3 epoch (loss 0.4127):   0%|          | 14/16950 [04:33<6:24:30,  1.36s/it]Training 1/3 epoch (loss 0.5140):   0%|          | 14/16950 [04:33<6:24:30,  1.36s/it]Training 1/3 epoch (loss 0.5140):   0%|          | 15/16950 [04:33<5:07:39,  1.09s/it]Training 1/3 epoch (loss 0.3728):   0%|          | 15/16950 [04:34<5:07:39,  1.09s/it]Training 1/3 epoch (loss 0.3728):   0%|          | 16/16950 [04:34<4:36:13,  1.02it/s]Training 1/3 epoch (loss 0.8215):   0%|          | 16/16950 [04:34<4:36:13,  1.02it/s]Training 1/3 epoch (loss 0.8215):   0%|          | 17/16950 [04:34<3:53:55,  1.21it/s]Training 1/3 epoch (loss 0.0548):   0%|          | 17/16950 [04:35<3:53:55,  1.21it/s]Training 1/3 epoch (loss 0.0548):   0%|          | 18/16950 [04:35<3:16:38,  1.44it/s]Training 1/3 epoch (loss 0.6591):   0%|          | 18/16950 [04:35<3:16:38,  1.44it/s]Training 1/3 epoch (loss 0.6591):   0%|          | 19/16950 [04:35<3:07:23,  1.51it/s]Training 1/3 epoch (loss 0.7609):   0%|          | 19/16950 [04:36<3:07:23,  1.51it/s]Training 1/3 epoch (loss 0.7609):   0%|          | 20/16950 [04:36<2:51:18,  1.65it/s]Training 1/3 epoch (loss 0.8728):   0%|          | 20/16950 [04:36<2:51:18,  1.65it/s]Training 1/3 epoch (loss 0.8728):   0%|          | 21/16950 [04:36<2:57:47,  1.59it/s]Training 1/3 epoch (loss 1.0239):   0%|          | 21/16950 [04:37<2:57:47,  1.59it/s]Training 1/3 epoch (loss 1.0239):   0%|          | 22/16950 [04:37<2:34:28,  1.83it/s]Training 1/3 epoch (loss 0.0804):   0%|          | 22/16950 [04:37<2:34:28,  1.83it/s]Training 1/3 epoch (loss 0.0804):   0%|          | 23/16950 [04:37<2:34:48,  1.82it/s]Training 1/3 epoch (loss 0.8471):   0%|          | 23/16950 [04:38<2:34:48,  1.82it/s]Training 1/3 epoch (loss 0.8471):   0%|          | 24/16950 [04:38<2:34:57,  1.82it/s]Training 1/3 epoch (loss 0.0289):   0%|          | 24/16950 [04:39<2:34:57,  1.82it/s]Training 1/3 epoch (loss 0.0289):   0%|          | 25/16950 [04:39<2:44:06,  1.72it/s]Training 1/3 epoch (loss 0.5658):   0%|          | 25/16950 [04:39<2:44:06,  1.72it/s]Training 1/3 epoch (loss 0.5658):   0%|          | 26/16950 [04:39<2:40:38,  1.76it/s]Training 1/3 epoch (loss 0.2926):   0%|          | 26/16950 [04:40<2:40:38,  1.76it/s]Training 1/3 epoch (loss 0.2926):   0%|          | 27/16950 [04:40<3:00:05,  1.57it/s]Training 1/3 epoch (loss 0.0848):   0%|          | 27/16950 [04:40<3:00:05,  1.57it/s]Training 1/3 epoch (loss 0.0848):   0%|          | 28/16950 [04:40<2:51:23,  1.65it/s]Training 1/3 epoch (loss 0.5456):   0%|          | 28/16950 [04:41<2:51:23,  1.65it/s]Training 1/3 epoch (loss 0.5456):   0%|          | 29/16950 [04:41<3:03:27,  1.54it/s]Training 1/3 epoch (loss 0.0044):   0%|          | 29/16950 [04:42<3:03:27,  1.54it/s]Training 1/3 epoch (loss 0.0044):   0%|          | 30/16950 [04:42<2:55:39,  1.61it/s]Training 1/3 epoch (loss 1.1634):   0%|          | 30/16950 [04:42<2:55:39,  1.61it/s]Training 1/3 epoch (loss 1.1634):   0%|          | 31/16950 [04:42<2:55:15,  1.61it/s]Training 1/3 epoch (loss 1.1602):   0%|          | 31/16950 [04:43<2:55:15,  1.61it/s]Training 1/3 epoch (loss 1.1602):   0%|          | 32/16950 [04:43<2:44:45,  1.71it/s]Training 1/3 epoch (loss 0.1757):   0%|          | 32/16950 [04:43<2:44:45,  1.71it/s]Training 1/3 epoch (loss 0.1757):   0%|          | 33/16950 [04:43<2:30:44,  1.87it/s]Training 1/3 epoch (loss 1.2400):   0%|          | 33/16950 [04:44<2:30:44,  1.87it/s]Training 1/3 epoch (loss 1.2400):   0%|          | 34/16950 [04:44<2:40:55,  1.75it/s]Training 1/3 epoch (loss 0.3942):   0%|          | 34/16950 [04:44<2:40:55,  1.75it/s]Training 1/3 epoch (loss 0.3942):   0%|          | 35/16950 [04:44<2:31:58,  1.85it/s]Training 1/3 epoch (loss 0.0547):   0%|          | 35/16950 [04:45<2:31:58,  1.85it/s]Training 1/3 epoch (loss 0.0547):   0%|          | 36/16950 [04:45<2:26:38,  1.92it/s]Training 1/3 epoch (loss 0.1528):   0%|          | 36/16950 [04:46<2:26:38,  1.92it/s]Training 1/3 epoch (loss 0.1528):   0%|          | 37/16950 [04:46<2:58:34,  1.58it/s]Training 1/3 epoch (loss 0.3316):   0%|          | 37/16950 [04:47<2:58:34,  1.58it/s]Training 1/3 epoch (loss 0.3316):   0%|          | 38/16950 [04:47<3:08:33,  1.49it/s]Training 1/3 epoch (loss 0.4020):   0%|          | 38/16950 [04:47<3:08:33,  1.49it/s]Training 1/3 epoch (loss 0.4020):   0%|          | 39/16950 [04:47<2:44:46,  1.71it/s]Training 1/3 epoch (loss 0.2359):   0%|          | 39/16950 [04:47<2:44:46,  1.71it/s]Training 1/3 epoch (loss 0.2359):   0%|          | 40/16950 [04:47<2:37:06,  1.79it/s]Training 1/3 epoch (loss 0.3294):   0%|          | 40/16950 [04:48<2:37:06,  1.79it/s]Training 1/3 epoch (loss 0.3294):   0%|          | 41/16950 [04:48<2:47:10,  1.69it/s]Training 1/3 epoch (loss 0.4213):   0%|          | 41/16950 [04:49<2:47:10,  1.69it/s]Training 1/3 epoch (loss 0.4213):   0%|          | 42/16950 [04:49<2:38:07,  1.78it/s]Training 1/3 epoch (loss 0.5660):   0%|          | 42/16950 [04:50<2:38:07,  1.78it/s]Training 1/3 epoch (loss 0.5660):   0%|          | 43/16950 [04:50<3:19:36,  1.41it/s]Training 1/3 epoch (loss 0.3551):   0%|          | 43/16950 [04:50<3:19:36,  1.41it/s]Training 1/3 epoch (loss 0.3551):   0%|          | 44/16950 [04:50<3:07:38,  1.50it/s]Training 1/3 epoch (loss 0.1717):   0%|          | 44/16950 [04:51<3:07:38,  1.50it/s]Training 1/3 epoch (loss 0.1717):   0%|          | 45/16950 [04:51<2:42:11,  1.74it/s]Training 1/3 epoch (loss 0.0323):   0%|          | 45/16950 [04:51<2:42:11,  1.74it/s]Training 1/3 epoch (loss 0.0323):   0%|          | 46/16950 [04:51<2:29:10,  1.89it/s]Training 1/3 epoch (loss 0.0960):   0%|          | 46/16950 [04:51<2:29:10,  1.89it/s]Training 1/3 epoch (loss 0.0960):   0%|          | 47/16950 [04:51<2:26:39,  1.92it/s]Training 1/3 epoch (loss 0.1001):   0%|          | 47/16950 [04:52<2:26:39,  1.92it/s]Training 1/3 epoch (loss 0.1001):   0%|          | 48/16950 [04:52<2:59:09,  1.57it/s]Training 1/3 epoch (loss 1.0600):   0%|          | 48/16950 [04:54<2:59:09,  1.57it/s]Training 1/3 epoch (loss 1.0600):   0%|          | 49/16950 [04:54<3:44:41,  1.25it/s]Training 1/3 epoch (loss 0.2309):   0%|          | 49/16950 [04:54<3:44:41,  1.25it/s]Training 1/3 epoch (loss 0.2309):   0%|          | 50/16950 [04:54<3:22:33,  1.39it/s]Training 1/3 epoch (loss 0.2182):   0%|          | 50/16950 [04:55<3:22:33,  1.39it/s]Training 1/3 epoch (loss 0.2182):   0%|          | 51/16950 [04:55<2:58:10,  1.58it/s]Training 1/3 epoch (loss 1.2219):   0%|          | 51/16950 [04:55<2:58:10,  1.58it/s]Training 1/3 epoch (loss 1.2219):   0%|          | 52/16950 [04:55<3:08:12,  1.50it/s]Training 1/3 epoch (loss 0.3873):   0%|          | 52/16950 [04:56<3:08:12,  1.50it/s]Training 1/3 epoch (loss 0.3873):   0%|          | 53/16950 [04:56<3:17:05,  1.43it/s]Training 1/3 epoch (loss 0.4909):   0%|          | 53/16950 [04:57<3:17:05,  1.43it/s]Training 1/3 epoch (loss 0.4909):   0%|          | 54/16950 [04:57<3:29:34,  1.34it/s]Training 1/3 epoch (loss 0.3993):   0%|          | 54/16950 [04:58<3:29:34,  1.34it/s]Training 1/3 epoch (loss 0.3993):   0%|          | 55/16950 [04:58<3:18:27,  1.42it/s]Training 1/3 epoch (loss 0.4008):   0%|          | 55/16950 [04:58<3:18:27,  1.42it/s]Training 1/3 epoch (loss 0.4008):   0%|          | 56/16950 [04:58<3:17:05,  1.43it/s]Training 1/3 epoch (loss 1.2540):   0%|          | 56/16950 [04:59<3:17:05,  1.43it/s]Training 1/3 epoch (loss 1.2540):   0%|          | 57/16950 [04:59<3:08:52,  1.49it/s]Training 1/3 epoch (loss 0.1423):   0%|          | 57/16950 [05:00<3:08:52,  1.49it/s]Training 1/3 epoch (loss 0.1423):   0%|          | 58/16950 [05:00<3:11:15,  1.47it/s]Training 1/3 epoch (loss 0.6576):   0%|          | 58/16950 [05:00<3:11:15,  1.47it/s]Training 1/3 epoch (loss 0.6576):   0%|          | 59/16950 [05:00<2:57:16,  1.59it/s]Training 1/3 epoch (loss 0.8233):   0%|          | 59/16950 [05:01<2:57:16,  1.59it/s]Training 1/3 epoch (loss 0.8233):   0%|          | 60/16950 [05:01<3:19:44,  1.41it/s]Training 1/3 epoch (loss 0.3318):   0%|          | 60/16950 [05:02<3:19:44,  1.41it/s]Training 1/3 epoch (loss 0.3318):   0%|          | 61/16950 [05:02<3:15:22,  1.44it/s]Training 1/3 epoch (loss 1.4159):   0%|          | 61/16950 [05:02<3:15:22,  1.44it/s]Training 1/3 epoch (loss 1.4159):   0%|          | 62/16950 [05:02<2:50:04,  1.65it/s]Training 1/3 epoch (loss 0.1354):   0%|          | 62/16950 [05:03<2:50:04,  1.65it/s]Training 1/3 epoch (loss 0.1354):   0%|          | 63/16950 [05:03<2:53:41,  1.62it/s]Training 1/3 epoch (loss 0.1490):   0%|          | 63/16950 [05:03<2:53:41,  1.62it/s]Training 1/3 epoch (loss 0.1490):   0%|          | 64/16950 [05:03<3:03:53,  1.53it/s]Training 1/3 epoch (loss 0.2284):   0%|          | 64/16950 [05:04<3:03:53,  1.53it/s]Training 1/3 epoch (loss 0.2284):   0%|          | 65/16950 [05:04<3:36:35,  1.30it/s]Training 1/3 epoch (loss 0.2085):   0%|          | 65/16950 [05:05<3:36:35,  1.30it/s]Training 1/3 epoch (loss 0.2085):   0%|          | 66/16950 [05:05<3:27:08,  1.36it/s]Training 1/3 epoch (loss 0.2738):   0%|          | 66/16950 [05:05<3:27:08,  1.36it/s]Training 1/3 epoch (loss 0.2738):   0%|          | 67/16950 [05:05<3:00:23,  1.56it/s]Training 1/3 epoch (loss 0.4527):   0%|          | 67/16950 [05:06<3:00:23,  1.56it/s]Training 1/3 epoch (loss 0.4527):   0%|          | 68/16950 [05:06<2:48:25,  1.67it/s]Training 1/3 epoch (loss 0.1560):   0%|          | 68/16950 [05:07<2:48:25,  1.67it/s]Training 1/3 epoch (loss 0.1560):   0%|          | 69/16950 [05:07<3:10:55,  1.47it/s]Training 1/3 epoch (loss 0.4211):   0%|          | 69/16950 [05:07<3:10:55,  1.47it/s]Training 1/3 epoch (loss 0.4211):   0%|          | 70/16950 [05:07<2:56:36,  1.59it/s]Training 1/3 epoch (loss 0.4272):   0%|          | 70/16950 [05:08<2:56:36,  1.59it/s]Training 1/3 epoch (loss 0.4272):   0%|          | 71/16950 [05:08<3:14:35,  1.45it/s]Training 1/3 epoch (loss 1.4489):   0%|          | 71/16950 [05:09<3:14:35,  1.45it/s]Training 1/3 epoch (loss 1.4489):   0%|          | 72/16950 [05:09<3:07:54,  1.50it/s]Training 1/3 epoch (loss 0.3094):   0%|          | 72/16950 [05:09<3:07:54,  1.50it/s]Training 1/3 epoch (loss 0.3094):   0%|          | 73/16950 [05:09<2:55:40,  1.60it/s]Training 1/3 epoch (loss 0.1003):   0%|          | 73/16950 [05:10<2:55:40,  1.60it/s]Training 1/3 epoch (loss 0.1003):   0%|          | 74/16950 [05:10<2:43:37,  1.72it/s]Training 1/3 epoch (loss 0.4769):   0%|          | 74/16950 [05:11<2:43:37,  1.72it/s]Training 1/3 epoch (loss 0.4769):   0%|          | 75/16950 [05:11<3:13:26,  1.45it/s]Training 1/3 epoch (loss 1.3482):   0%|          | 75/16950 [05:12<3:13:26,  1.45it/s]Training 1/3 epoch (loss 1.3482):   0%|          | 76/16950 [05:12<3:30:22,  1.34it/s]Training 1/3 epoch (loss 0.3726):   0%|          | 76/16950 [05:12<3:30:22,  1.34it/s]Training 1/3 epoch (loss 0.3726):   0%|          | 77/16950 [05:12<3:26:14,  1.36it/s]Training 1/3 epoch (loss 0.8968):   0%|          | 77/16950 [05:13<3:26:14,  1.36it/s]Training 1/3 epoch (loss 0.8968):   0%|          | 78/16950 [05:13<2:59:43,  1.56it/s]Training 1/3 epoch (loss 0.6054):   0%|          | 78/16950 [05:14<2:59:43,  1.56it/s]Training 1/3 epoch (loss 0.6054):   0%|          | 79/16950 [05:14<3:35:45,  1.30it/s]Training 1/3 epoch (loss 0.1630):   0%|          | 79/16950 [05:14<3:35:45,  1.30it/s]Training 1/3 epoch (loss 0.1630):   0%|          | 80/16950 [05:14<3:28:08,  1.35it/s]Training 1/3 epoch (loss 0.7475):   0%|          | 80/16950 [05:15<3:28:08,  1.35it/s]Training 1/3 epoch (loss 0.7475):   0%|          | 81/16950 [05:15<3:27:58,  1.35it/s]Training 1/3 epoch (loss 0.5109):   0%|          | 81/16950 [05:16<3:27:58,  1.35it/s]Training 1/3 epoch (loss 0.5109):   0%|          | 82/16950 [05:16<3:08:10,  1.49it/s]Training 1/3 epoch (loss 0.2798):   0%|          | 82/16950 [05:16<3:08:10,  1.49it/s]Training 1/3 epoch (loss 0.2798):   0%|          | 83/16950 [05:16<3:01:11,  1.55it/s]Training 1/3 epoch (loss 0.0010):   0%|          | 83/16950 [05:17<3:01:11,  1.55it/s]Training 1/3 epoch (loss 0.0010):   0%|          | 84/16950 [05:17<2:47:47,  1.68it/s]Training 1/3 epoch (loss 0.0387):   0%|          | 84/16950 [05:17<2:47:47,  1.68it/s]Training 1/3 epoch (loss 0.0387):   1%|          | 85/16950 [05:17<2:44:19,  1.71it/s]Training 1/3 epoch (loss 0.6278):   1%|          | 85/16950 [05:18<2:44:19,  1.71it/s]Training 1/3 epoch (loss 0.6278):   1%|          | 86/16950 [05:18<2:30:14,  1.87it/s]Training 1/3 epoch (loss 0.7723):   1%|          | 86/16950 [05:19<2:30:14,  1.87it/s]Training 1/3 epoch (loss 0.7723):   1%|          | 87/16950 [05:19<3:11:19,  1.47it/s]Training 1/3 epoch (loss 0.5343):   1%|          | 87/16950 [05:19<3:11:19,  1.47it/s]Training 1/3 epoch (loss 0.5343):   1%|          | 88/16950 [05:19<2:59:29,  1.57it/s]Training 1/3 epoch (loss 0.2027):   1%|          | 88/16950 [05:20<2:59:29,  1.57it/s]Training 1/3 epoch (loss 0.2027):   1%|          | 89/16950 [05:20<2:55:54,  1.60it/s]Training 1/3 epoch (loss 1.3188):   1%|          | 89/16950 [05:21<2:55:54,  1.60it/s]Training 1/3 epoch (loss 1.3188):   1%|          | 90/16950 [05:21<3:30:43,  1.33it/s]Training 1/3 epoch (loss 0.2086):   1%|          | 90/16950 [05:22<3:30:43,  1.33it/s]Training 1/3 epoch (loss 0.2086):   1%|          | 91/16950 [05:22<3:19:16,  1.41it/s]Training 1/3 epoch (loss 0.2061):   1%|          | 91/16950 [05:22<3:19:16,  1.41it/s]Training 1/3 epoch (loss 0.2061):   1%|          | 92/16950 [05:22<3:01:42,  1.55it/s]Training 1/3 epoch (loss 0.1501):   1%|          | 92/16950 [05:23<3:01:42,  1.55it/s]Training 1/3 epoch (loss 0.1501):   1%|          | 93/16950 [05:23<2:43:38,  1.72it/s]Training 1/3 epoch (loss 0.5924):   1%|          | 93/16950 [05:23<2:43:38,  1.72it/s]Training 1/3 epoch (loss 0.5924):   1%|          | 94/16950 [05:23<2:27:18,  1.91it/s]Training 1/3 epoch (loss 0.5981):   1%|          | 94/16950 [05:24<2:27:18,  1.91it/s]Training 1/3 epoch (loss 0.5981):   1%|          | 95/16950 [05:24<2:33:52,  1.83it/s]Training 1/3 epoch (loss 0.1146):   1%|          | 95/16950 [05:24<2:33:52,  1.83it/s]Training 1/3 epoch (loss 0.1146):   1%|          | 96/16950 [05:24<2:27:38,  1.90it/s]Training 1/3 epoch (loss 0.6906):   1%|          | 96/16950 [05:25<2:27:38,  1.90it/s]Training 1/3 epoch (loss 0.6906):   1%|          | 97/16950 [05:25<2:51:45,  1.64it/s]Training 1/3 epoch (loss 0.2207):   1%|          | 97/16950 [05:26<2:51:45,  1.64it/s]Training 1/3 epoch (loss 0.2207):   1%|          | 98/16950 [05:26<3:32:16,  1.32it/s]Training 1/3 epoch (loss 0.0302):   1%|          | 98/16950 [05:27<3:32:16,  1.32it/s]Training 1/3 epoch (loss 0.0302):   1%|          | 99/16950 [05:27<3:27:13,  1.36it/s]Training 1/3 epoch (loss 0.8791):   1%|          | 99/16950 [05:27<3:27:13,  1.36it/s]Training 1/3 epoch (loss 0.8791):   1%|          | 100/16950 [05:27<3:04:45,  1.52it/s]Training 1/3 epoch (loss 0.5889):   1%|          | 100/16950 [05:27<3:04:45,  1.52it/s]Training 1/3 epoch (loss 0.5889):   1%|          | 101/16950 [05:27<2:42:18,  1.73it/s]Training 1/3 epoch (loss 0.7948):   1%|          | 101/16950 [05:28<2:42:18,  1.73it/s]Training 1/3 epoch (loss 0.7948):   1%|          | 102/16950 [05:28<2:36:02,  1.80it/s]Training 1/3 epoch (loss 0.3336):   1%|          | 102/16950 [05:29<2:36:02,  1.80it/s]Training 1/3 epoch (loss 0.3336):   1%|          | 103/16950 [05:29<2:38:36,  1.77it/s]Training 1/3 epoch (loss 0.4433):   1%|          | 103/16950 [05:29<2:38:36,  1.77it/s]Training 1/3 epoch (loss 0.4433):   1%|          | 104/16950 [05:29<2:44:58,  1.70it/s]Training 1/3 epoch (loss 0.3983):   1%|          | 104/16950 [05:30<2:44:58,  1.70it/s]Training 1/3 epoch (loss 0.3983):   1%|          | 105/16950 [05:30<2:51:05,  1.64it/s]Training 1/3 epoch (loss 0.3130):   1%|          | 105/16950 [05:30<2:51:05,  1.64it/s]Training 1/3 epoch (loss 0.3130):   1%|          | 106/16950 [05:30<2:51:21,  1.64it/s]Training 1/3 epoch (loss 0.9948):   1%|          | 106/16950 [05:31<2:51:21,  1.64it/s]Training 1/3 epoch (loss 0.9948):   1%|          | 107/16950 [05:31<2:43:41,  1.71it/s]Training 1/3 epoch (loss 0.1796):   1%|          | 107/16950 [05:32<2:43:41,  1.71it/s]Training 1/3 epoch (loss 0.1796):   1%|          | 108/16950 [05:32<2:52:55,  1.62it/s]Training 1/3 epoch (loss 0.8103):   1%|          | 108/16950 [05:33<2:52:55,  1.62it/s]Training 1/3 epoch (loss 0.8103):   1%|          | 109/16950 [05:33<3:12:35,  1.46it/s]Training 1/3 epoch (loss 0.1815):   1%|          | 109/16950 [05:33<3:12:35,  1.46it/s]Training 1/3 epoch (loss 0.1815):   1%|          | 110/16950 [05:33<3:15:55,  1.43it/s]Training 1/3 epoch (loss 0.4881):   1%|          | 110/16950 [05:34<3:15:55,  1.43it/s]Training 1/3 epoch (loss 0.4881):   1%|          | 111/16950 [05:34<2:49:13,  1.66it/s]Training 1/3 epoch (loss 0.6934):   1%|          | 111/16950 [05:34<2:49:13,  1.66it/s]Training 1/3 epoch (loss 0.6934):   1%|          | 112/16950 [05:34<2:40:54,  1.74it/s]Training 1/3 epoch (loss 0.1215):   1%|          | 112/16950 [05:35<2:40:54,  1.74it/s]Training 1/3 epoch (loss 0.1215):   1%|          | 113/16950 [05:35<2:28:39,  1.89it/s]Training 1/3 epoch (loss 0.4641):   1%|          | 113/16950 [05:35<2:28:39,  1.89it/s]Training 1/3 epoch (loss 0.4641):   1%|          | 114/16950 [05:35<2:18:39,  2.02it/s]Training 1/3 epoch (loss 1.0700):   1%|          | 114/16950 [05:36<2:18:39,  2.02it/s]Training 1/3 epoch (loss 1.0700):   1%|          | 115/16950 [05:36<2:33:01,  1.83it/s]Training 1/3 epoch (loss 0.7321):   1%|          | 115/16950 [05:36<2:33:01,  1.83it/s]Training 1/3 epoch (loss 0.7321):   1%|          | 116/16950 [05:36<2:29:37,  1.88it/s]Training 1/3 epoch (loss 0.3158):   1%|          | 116/16950 [05:37<2:29:37,  1.88it/s]Training 1/3 epoch (loss 0.3158):   1%|          | 117/16950 [05:37<2:28:42,  1.89it/s]Training 1/3 epoch (loss 0.2842):   1%|          | 117/16950 [05:37<2:28:42,  1.89it/s]Training 1/3 epoch (loss 0.2842):   1%|          | 118/16950 [05:37<2:43:45,  1.71it/s]Training 1/3 epoch (loss 0.6788):   1%|          | 118/16950 [05:38<2:43:45,  1.71it/s]Training 1/3 epoch (loss 0.6788):   1%|          | 119/16950 [05:38<2:35:35,  1.80it/s]Training 1/3 epoch (loss 0.1144):   1%|          | 119/16950 [05:38<2:35:35,  1.80it/s]Training 1/3 epoch (loss 0.1144):   1%|          | 120/16950 [05:38<2:27:00,  1.91it/s]Training 1/3 epoch (loss 0.7379):   1%|          | 120/16950 [05:39<2:27:00,  1.91it/s]Training 1/3 epoch (loss 0.7379):   1%|          | 121/16950 [05:39<2:25:00,  1.93it/s]Training 1/3 epoch (loss 0.4541):   1%|          | 121/16950 [05:39<2:25:00,  1.93it/s]Training 1/3 epoch (loss 0.4541):   1%|          | 122/16950 [05:39<2:18:11,  2.03it/s]Training 1/3 epoch (loss 0.2617):   1%|          | 122/16950 [05:40<2:18:11,  2.03it/s]Training 1/3 epoch (loss 0.2617):   1%|          | 123/16950 [05:40<2:19:06,  2.02it/s]Training 1/3 epoch (loss 0.3857):   1%|          | 123/16950 [05:40<2:19:06,  2.02it/s]Training 1/3 epoch (loss 0.3857):   1%|          | 124/16950 [05:40<2:30:03,  1.87it/s]Training 1/3 epoch (loss 0.1633):   1%|          | 124/16950 [05:41<2:30:03,  1.87it/s]Training 1/3 epoch (loss 0.1633):   1%|          | 125/16950 [05:41<2:45:27,  1.69it/s]Training 1/3 epoch (loss 1.0158):   1%|          | 125/16950 [05:42<2:45:27,  1.69it/s]Training 1/3 epoch (loss 1.0158):   1%|          | 126/16950 [05:42<2:48:21,  1.67it/s]Training 1/3 epoch (loss 0.6825):   1%|          | 126/16950 [05:42<2:48:21,  1.67it/s]Training 1/3 epoch (loss 0.6825):   1%|          | 127/16950 [05:42<2:37:49,  1.78it/s]Training 1/3 epoch (loss 0.5133):   1%|          | 127/16950 [05:43<2:37:49,  1.78it/s]Training 1/3 epoch (loss 0.5133):   1%|          | 128/16950 [05:43<3:01:32,  1.54it/s]Training 1/3 epoch (loss 1.0503):   1%|          | 128/16950 [05:44<3:01:32,  1.54it/s]Training 1/3 epoch (loss 1.0503):   1%|          | 129/16950 [05:44<3:28:53,  1.34it/s]Training 1/3 epoch (loss 0.8724):   1%|          | 129/16950 [05:45<3:28:53,  1.34it/s]Training 1/3 epoch (loss 0.8724):   1%|          | 130/16950 [05:45<3:11:28,  1.46it/s]Training 1/3 epoch (loss 0.9315):   1%|          | 130/16950 [05:45<3:11:28,  1.46it/s]Training 1/3 epoch (loss 0.9315):   1%|          | 131/16950 [05:45<2:46:28,  1.68it/s]Training 1/3 epoch (loss 0.6212):   1%|          | 131/16950 [05:46<2:46:28,  1.68it/s]Training 1/3 epoch (loss 0.6212):   1%|          | 132/16950 [05:46<3:32:25,  1.32it/s]Training 1/3 epoch (loss 0.3517):   1%|          | 132/16950 [05:47<3:32:25,  1.32it/s]Training 1/3 epoch (loss 0.3517):   1%|          | 133/16950 [05:47<3:38:16,  1.28it/s]Training 1/3 epoch (loss 1.1620):   1%|          | 133/16950 [05:47<3:38:16,  1.28it/s]Training 1/3 epoch (loss 1.1620):   1%|          | 134/16950 [05:47<3:14:19,  1.44it/s]Training 1/3 epoch (loss 0.9672):   1%|          | 134/16950 [05:48<3:14:19,  1.44it/s]Training 1/3 epoch (loss 0.9672):   1%|          | 135/16950 [05:48<3:07:47,  1.49it/s]Training 1/3 epoch (loss 0.1178):   1%|          | 135/16950 [05:49<3:07:47,  1.49it/s]Training 1/3 epoch (loss 0.1178):   1%|          | 136/16950 [05:49<3:16:18,  1.43it/s]Training 1/3 epoch (loss 0.5323):   1%|          | 136/16950 [05:50<3:16:18,  1.43it/s]Training 1/3 epoch (loss 0.5323):   1%|          | 137/16950 [05:50<3:45:23,  1.24it/s]Training 1/3 epoch (loss 0.1213):   1%|          | 137/16950 [05:51<3:45:23,  1.24it/s]Training 1/3 epoch (loss 0.1213):   1%|          | 138/16950 [05:51<3:45:02,  1.25it/s]Training 1/3 epoch (loss 0.2405):   1%|          | 138/16950 [05:51<3:45:02,  1.25it/s]Training 1/3 epoch (loss 0.2405):   1%|          | 139/16950 [05:51<3:41:34,  1.26it/s]Training 1/3 epoch (loss 0.1292):   1%|          | 139/16950 [05:52<3:41:34,  1.26it/s]Training 1/3 epoch (loss 0.1292):   1%|          | 140/16950 [05:52<3:27:48,  1.35it/s]Training 1/3 epoch (loss 0.5192):   1%|          | 140/16950 [05:53<3:27:48,  1.35it/s]Training 1/3 epoch (loss 0.5192):   1%|          | 141/16950 [05:53<3:11:54,  1.46it/s]Training 1/3 epoch (loss 0.1100):   1%|          | 141/16950 [05:53<3:11:54,  1.46it/s]Training 1/3 epoch (loss 0.1100):   1%|          | 142/16950 [05:53<2:59:16,  1.56it/s]Training 1/3 epoch (loss 0.1068):   1%|          | 142/16950 [05:54<2:59:16,  1.56it/s]Training 1/3 epoch (loss 0.1068):   1%|          | 143/16950 [05:54<3:19:50,  1.40it/s]Training 1/3 epoch (loss 0.0729):   1%|          | 143/16950 [05:54<3:19:50,  1.40it/s]Training 1/3 epoch (loss 0.0729):   1%|          | 144/16950 [05:54<2:49:44,  1.65it/s]Training 1/3 epoch (loss 0.1601):   1%|          | 144/16950 [05:55<2:49:44,  1.65it/s]Training 1/3 epoch (loss 0.1601):   1%|          | 145/16950 [05:55<2:36:34,  1.79it/s]Training 1/3 epoch (loss 0.3984):   1%|          | 145/16950 [05:55<2:36:34,  1.79it/s]Training 1/3 epoch (loss 0.3984):   1%|          | 146/16950 [05:55<2:43:34,  1.71it/s]Training 1/3 epoch (loss 0.2964):   1%|          | 146/16950 [05:56<2:43:34,  1.71it/s]Training 1/3 epoch (loss 0.2964):   1%|          | 147/16950 [05:56<3:11:25,  1.46it/s]Training 1/3 epoch (loss 0.3884):   1%|          | 147/16950 [05:57<3:11:25,  1.46it/s]Training 1/3 epoch (loss 0.3884):   1%|          | 148/16950 [05:57<3:03:51,  1.52it/s]Training 1/3 epoch (loss 1.1435):   1%|          | 148/16950 [05:57<3:03:51,  1.52it/s]Training 1/3 epoch (loss 1.1435):   1%|          | 149/16950 [05:57<2:46:32,  1.68it/s]Training 1/3 epoch (loss 0.1425):   1%|          | 149/16950 [05:58<2:46:32,  1.68it/s]Training 1/3 epoch (loss 0.1425):   1%|          | 150/16950 [05:58<2:32:45,  1.83it/s]Training 1/3 epoch (loss 1.1815):   1%|          | 150/16950 [05:58<2:32:45,  1.83it/s]Training 1/3 epoch (loss 1.1815):   1%|          | 151/16950 [05:58<2:24:30,  1.94it/s]Training 1/3 epoch (loss 0.3938):   1%|          | 151/16950 [05:59<2:24:30,  1.94it/s]Training 1/3 epoch (loss 0.3938):   1%|          | 152/16950 [05:59<2:33:18,  1.83it/s]Training 1/3 epoch (loss 0.1642):   1%|          | 152/16950 [06:00<2:33:18,  1.83it/s]Training 1/3 epoch (loss 0.1642):   1%|          | 153/16950 [06:00<2:45:57,  1.69it/s]Training 1/3 epoch (loss 1.4131):   1%|          | 153/16950 [06:00<2:45:57,  1.69it/s]Training 1/3 epoch (loss 1.4131):   1%|          | 154/16950 [06:00<2:34:39,  1.81it/s]Training 1/3 epoch (loss 0.1585):   1%|          | 154/16950 [06:01<2:34:39,  1.81it/s]Training 1/3 epoch (loss 0.1585):   1%|          | 155/16950 [06:01<2:29:21,  1.87it/s]Training 1/3 epoch (loss 0.2770):   1%|          | 155/16950 [06:01<2:29:21,  1.87it/s]Training 1/3 epoch (loss 0.2770):   1%|          | 156/16950 [06:01<2:22:15,  1.97it/s]Training 1/3 epoch (loss 0.2426):   1%|          | 156/16950 [06:02<2:22:15,  1.97it/s]Training 1/3 epoch (loss 0.2426):   1%|          | 157/16950 [06:02<2:38:22,  1.77it/s]Training 1/3 epoch (loss 1.0280):   1%|          | 157/16950 [06:02<2:38:22,  1.77it/s]Training 1/3 epoch (loss 1.0280):   1%|          | 158/16950 [06:02<2:44:44,  1.70it/s]Training 1/3 epoch (loss 0.2783):   1%|          | 158/16950 [06:03<2:44:44,  1.70it/s]Training 1/3 epoch (loss 0.2783):   1%|          | 159/16950 [06:03<2:42:33,  1.72it/s]Training 1/3 epoch (loss 0.1408):   1%|          | 159/16950 [06:04<2:42:33,  1.72it/s]Training 1/3 epoch (loss 0.1408):   1%|          | 160/16950 [06:04<2:48:38,  1.66it/s]Training 1/3 epoch (loss 0.1014):   1%|          | 160/16950 [06:04<2:48:38,  1.66it/s]Training 1/3 epoch (loss 0.1014):   1%|          | 161/16950 [06:04<2:48:44,  1.66it/s]Training 1/3 epoch (loss 0.5640):   1%|          | 161/16950 [06:05<2:48:44,  1.66it/s]Training 1/3 epoch (loss 0.5640):   1%|          | 162/16950 [06:05<2:43:51,  1.71it/s]Training 1/3 epoch (loss 0.4453):   1%|          | 162/16950 [06:05<2:43:51,  1.71it/s]Training 1/3 epoch (loss 0.4453):   1%|          | 163/16950 [06:05<2:49:20,  1.65it/s]Training 1/3 epoch (loss 0.0888):   1%|          | 163/16950 [06:06<2:49:20,  1.65it/s]Training 1/3 epoch (loss 0.0888):   1%|          | 164/16950 [06:06<2:41:08,  1.74it/s]Training 1/3 epoch (loss 0.9310):   1%|          | 164/16950 [06:07<2:41:08,  1.74it/s]Training 1/3 epoch (loss 0.9310):   1%|          | 165/16950 [06:07<3:11:05,  1.46it/s]Training 1/3 epoch (loss 0.1256):   1%|          | 165/16950 [06:07<3:11:05,  1.46it/s]Training 1/3 epoch (loss 0.1256):   1%|          | 166/16950 [06:07<2:57:55,  1.57it/s]Training 1/3 epoch (loss 1.1091):   1%|          | 166/16950 [06:08<2:57:55,  1.57it/s]Training 1/3 epoch (loss 1.1091):   1%|          | 167/16950 [06:08<2:44:29,  1.70it/s]Training 1/3 epoch (loss 0.1190):   1%|          | 167/16950 [06:08<2:44:29,  1.70it/s]Training 1/3 epoch (loss 0.1190):   1%|          | 168/16950 [06:08<2:49:39,  1.65it/s]Training 1/3 epoch (loss 0.0652):   1%|          | 168/16950 [06:09<2:49:39,  1.65it/s]Training 1/3 epoch (loss 0.0652):   1%|          | 169/16950 [06:09<2:48:20,  1.66it/s]Training 1/3 epoch (loss 0.1669):   1%|          | 169/16950 [06:09<2:48:20,  1.66it/s]Training 1/3 epoch (loss 0.1669):   1%|          | 170/16950 [06:09<2:32:27,  1.83it/s]Training 1/3 epoch (loss 0.5653):   1%|          | 170/16950 [06:10<2:32:27,  1.83it/s]Training 1/3 epoch (loss 0.5653):   1%|          | 171/16950 [06:10<2:31:21,  1.85it/s]Training 1/3 epoch (loss 0.0889):   1%|          | 171/16950 [06:11<2:31:21,  1.85it/s]Training 1/3 epoch (loss 0.0889):   1%|          | 172/16950 [06:11<2:36:28,  1.79it/s]Training 1/3 epoch (loss 0.1233):   1%|          | 172/16950 [06:11<2:36:28,  1.79it/s]Training 1/3 epoch (loss 0.1233):   1%|          | 173/16950 [06:11<2:39:57,  1.75it/s]Training 1/3 epoch (loss 0.4574):   1%|          | 173/16950 [06:12<2:39:57,  1.75it/s]Training 1/3 epoch (loss 0.4574):   1%|          | 174/16950 [06:12<2:51:30,  1.63it/s]Training 1/3 epoch (loss 0.0890):   1%|          | 174/16950 [06:12<2:51:30,  1.63it/s]Training 1/3 epoch (loss 0.0890):   1%|          | 175/16950 [06:12<2:50:22,  1.64it/s]Training 1/3 epoch (loss 0.0857):   1%|          | 175/16950 [06:13<2:50:22,  1.64it/s]Training 1/3 epoch (loss 0.0857):   1%|          | 176/16950 [06:13<2:40:44,  1.74it/s]Training 1/3 epoch (loss 0.1797):   1%|          | 176/16950 [06:13<2:40:44,  1.74it/s]Training 1/3 epoch (loss 0.1797):   1%|          | 177/16950 [06:13<2:24:09,  1.94it/s]Training 1/3 epoch (loss 0.7261):   1%|          | 177/16950 [06:14<2:24:09,  1.94it/s]Training 1/3 epoch (loss 0.7261):   1%|          | 178/16950 [06:14<2:08:35,  2.17it/s]Training 1/3 epoch (loss 0.3989):   1%|          | 178/16950 [06:15<2:08:35,  2.17it/s]Training 1/3 epoch (loss 0.3989):   1%|          | 179/16950 [06:15<2:51:06,  1.63it/s]Training 1/3 epoch (loss 0.5575):   1%|          | 179/16950 [06:15<2:51:06,  1.63it/s]Training 1/3 epoch (loss 0.5575):   1%|          | 180/16950 [06:15<3:02:15,  1.53it/s]Training 1/3 epoch (loss 0.2137):   1%|          | 180/16950 [06:16<3:02:15,  1.53it/s]Training 1/3 epoch (loss 0.2137):   1%|          | 181/16950 [06:16<2:57:50,  1.57it/s]Training 1/3 epoch (loss 0.2816):   1%|          | 181/16950 [06:17<2:57:50,  1.57it/s]Training 1/3 epoch (loss 0.2816):   1%|          | 182/16950 [06:17<2:59:59,  1.55it/s]Training 1/3 epoch (loss 1.0013):   1%|          | 182/16950 [06:17<2:59:59,  1.55it/s]Training 1/3 epoch (loss 1.0013):   1%|          | 183/16950 [06:17<2:41:07,  1.73it/s]Training 1/3 epoch (loss 1.5005):   1%|          | 183/16950 [06:18<2:41:07,  1.73it/s]Training 1/3 epoch (loss 1.5005):   1%|          | 184/16950 [06:18<2:32:31,  1.83it/s]Training 1/3 epoch (loss 0.8053):   1%|          | 184/16950 [06:18<2:32:31,  1.83it/s]Training 1/3 epoch (loss 0.8053):   1%|          | 185/16950 [06:18<2:32:03,  1.84it/s]Training 1/3 epoch (loss 0.1814):   1%|          | 185/16950 [06:19<2:32:03,  1.84it/s]Training 1/3 epoch (loss 0.1814):   1%|          | 186/16950 [06:19<2:40:29,  1.74it/s]Training 1/3 epoch (loss 0.1720):   1%|          | 186/16950 [06:19<2:40:29,  1.74it/s]Training 1/3 epoch (loss 0.1720):   1%|          | 187/16950 [06:19<2:30:10,  1.86it/s]Training 1/3 epoch (loss 0.2375):   1%|          | 187/16950 [06:20<2:30:10,  1.86it/s]Training 1/3 epoch (loss 0.2375):   1%|          | 188/16950 [06:20<2:19:01,  2.01it/s]Training 1/3 epoch (loss 0.3142):   1%|          | 188/16950 [06:20<2:19:01,  2.01it/s]Training 1/3 epoch (loss 0.3142):   1%|          | 189/16950 [06:20<2:26:44,  1.90it/s]Training 1/3 epoch (loss 0.1262):   1%|          | 189/16950 [06:21<2:26:44,  1.90it/s]Training 1/3 epoch (loss 0.1262):   1%|          | 190/16950 [06:21<2:22:42,  1.96it/s]Training 1/3 epoch (loss 0.1767):   1%|          | 190/16950 [06:21<2:22:42,  1.96it/s]Training 1/3 epoch (loss 0.1767):   1%|          | 191/16950 [06:21<2:14:45,  2.07it/s]Training 1/3 epoch (loss 0.2153):   1%|          | 191/16950 [06:22<2:14:45,  2.07it/s]Training 1/3 epoch (loss 0.2153):   1%|          | 192/16950 [06:22<2:26:10,  1.91it/s]Training 1/3 epoch (loss 0.6511):   1%|          | 192/16950 [06:22<2:26:10,  1.91it/s]Training 1/3 epoch (loss 0.6511):   1%|          | 193/16950 [06:22<2:09:28,  2.16it/s]Training 1/3 epoch (loss 0.5449):   1%|          | 193/16950 [06:22<2:09:28,  2.16it/s]Training 1/3 epoch (loss 0.5449):   1%|          | 194/16950 [06:22<2:06:12,  2.21it/s]Training 1/3 epoch (loss 0.8544):   1%|          | 194/16950 [06:23<2:06:12,  2.21it/s]Training 1/3 epoch (loss 0.8544):   1%|          | 195/16950 [06:23<2:27:12,  1.90it/s]Training 1/3 epoch (loss 0.1630):   1%|          | 195/16950 [06:24<2:27:12,  1.90it/s]Training 1/3 epoch (loss 0.1630):   1%|          | 196/16950 [06:24<2:31:48,  1.84it/s]Training 1/3 epoch (loss 0.2983):   1%|          | 196/16950 [06:25<2:31:48,  1.84it/s]Training 1/3 epoch (loss 0.2983):   1%|          | 197/16950 [06:25<3:01:07,  1.54it/s]Training 1/3 epoch (loss 0.3110):   1%|          | 197/16950 [06:25<3:01:07,  1.54it/s]Training 1/3 epoch (loss 0.3110):   1%|          | 198/16950 [06:25<3:06:57,  1.49it/s]Training 1/3 epoch (loss 0.6811):   1%|          | 198/16950 [06:26<3:06:57,  1.49it/s]Training 1/3 epoch (loss 0.6811):   1%|          | 199/16950 [06:26<3:23:28,  1.37it/s]Training 1/3 epoch (loss 0.8727):   1%|          | 199/16950 [06:27<3:23:28,  1.37it/s]Training 1/3 epoch (loss 0.8727):   1%|          | 200/16950 [06:27<3:07:44,  1.49it/s]Training 1/3 epoch (loss 0.8127):   1%|          | 200/16950 [06:27<3:07:44,  1.49it/s]Training 1/3 epoch (loss 0.8127):   1%|          | 201/16950 [06:27<2:39:15,  1.75it/s]Training 1/3 epoch (loss 0.9846):   1%|          | 201/16950 [06:27<2:39:15,  1.75it/s]Training 1/3 epoch (loss 0.9846):   1%|          | 202/16950 [06:27<2:24:25,  1.93it/s]Training 1/3 epoch (loss 0.9268):   1%|          | 202/16950 [06:28<2:24:25,  1.93it/s]Training 1/3 epoch (loss 0.9268):   1%|          | 203/16950 [06:28<2:55:33,  1.59it/s]Training 1/3 epoch (loss 1.1549):   1%|          | 203/16950 [06:29<2:55:33,  1.59it/s]Training 1/3 epoch (loss 1.1549):   1%|          | 204/16950 [06:29<3:08:15,  1.48it/s]Training 1/3 epoch (loss 0.1492):   1%|          | 204/16950 [06:30<3:08:15,  1.48it/s]Training 1/3 epoch (loss 0.1492):   1%|          | 205/16950 [06:30<2:55:01,  1.59it/s]Training 1/3 epoch (loss 0.1268):   1%|          | 205/16950 [06:30<2:55:01,  1.59it/s]Training 1/3 epoch (loss 0.1268):   1%|          | 206/16950 [06:30<2:41:54,  1.72it/s]Training 1/3 epoch (loss 0.1088):   1%|          | 206/16950 [06:31<2:41:54,  1.72it/s]Training 1/3 epoch (loss 0.1088):   1%|          | 207/16950 [06:31<3:10:24,  1.47it/s]Training 1/3 epoch (loss 0.6665):   1%|          | 207/16950 [06:32<3:10:24,  1.47it/s]Training 1/3 epoch (loss 0.6665):   1%|          | 208/16950 [06:32<3:14:09,  1.44it/s]Training 1/3 epoch (loss 0.7068):   1%|          | 208/16950 [06:33<3:14:09,  1.44it/s]Training 1/3 epoch (loss 0.7068):   1%|          | 209/16950 [06:33<3:15:35,  1.43it/s]Training 1/3 epoch (loss 0.5252):   1%|          | 209/16950 [06:33<3:15:35,  1.43it/s]Training 1/3 epoch (loss 0.5252):   1%|          | 210/16950 [06:33<2:58:35,  1.56it/s]Training 1/3 epoch (loss 0.0633):   1%|          | 210/16950 [06:33<2:58:35,  1.56it/s]Training 1/3 epoch (loss 0.0633):   1%|          | 211/16950 [06:33<2:45:37,  1.68it/s]Training 1/3 epoch (loss 0.0705):   1%|          | 211/16950 [06:34<2:45:37,  1.68it/s]Training 1/3 epoch (loss 0.0705):   1%|▏         | 212/16950 [06:34<2:42:18,  1.72it/s]Training 1/3 epoch (loss 0.5876):   1%|▏         | 212/16950 [06:35<2:42:18,  1.72it/s]Training 1/3 epoch (loss 0.5876):   1%|▏         | 213/16950 [06:35<2:39:38,  1.75it/s]Training 1/3 epoch (loss 0.1943):   1%|▏         | 213/16950 [06:35<2:39:38,  1.75it/s]Training 1/3 epoch (loss 0.1943):   1%|▏         | 214/16950 [06:35<2:29:54,  1.86it/s]Training 1/3 epoch (loss 0.7124):   1%|▏         | 214/16950 [06:36<2:29:54,  1.86it/s]Training 1/3 epoch (loss 0.7124):   1%|▏         | 215/16950 [06:36<2:41:07,  1.73it/s]Training 1/3 epoch (loss 0.3046):   1%|▏         | 215/16950 [06:36<2:41:07,  1.73it/s]Training 1/3 epoch (loss 0.3046):   1%|▏         | 216/16950 [06:36<2:36:19,  1.78it/s]Training 1/3 epoch (loss 0.5112):   1%|▏         | 216/16950 [06:37<2:36:19,  1.78it/s]Training 1/3 epoch (loss 0.5112):   1%|▏         | 217/16950 [06:37<2:39:03,  1.75it/s]Training 1/3 epoch (loss 0.8464):   1%|▏         | 217/16950 [06:37<2:39:03,  1.75it/s]Training 1/3 epoch (loss 0.8464):   1%|▏         | 218/16950 [06:37<2:45:48,  1.68it/s]Training 1/3 epoch (loss 0.1173):   1%|▏         | 218/16950 [06:38<2:45:48,  1.68it/s]Training 1/3 epoch (loss 0.1173):   1%|▏         | 219/16950 [06:38<2:36:02,  1.79it/s]Training 1/3 epoch (loss 0.2048):   1%|▏         | 219/16950 [06:39<2:36:02,  1.79it/s]Training 1/3 epoch (loss 0.2048):   1%|▏         | 220/16950 [06:39<3:14:55,  1.43it/s]Training 1/3 epoch (loss 0.2781):   1%|▏         | 220/16950 [06:40<3:14:55,  1.43it/s]Training 1/3 epoch (loss 0.2781):   1%|▏         | 221/16950 [06:40<3:24:56,  1.36it/s]Training 1/3 epoch (loss 0.1031):   1%|▏         | 221/16950 [06:40<3:24:56,  1.36it/s]Training 1/3 epoch (loss 0.1031):   1%|▏         | 222/16950 [06:40<3:06:07,  1.50it/s]Training 1/3 epoch (loss 0.5169):   1%|▏         | 222/16950 [06:41<3:06:07,  1.50it/s]Training 1/3 epoch (loss 0.5169):   1%|▏         | 223/16950 [06:41<2:56:58,  1.58it/s]Training 1/3 epoch (loss 0.4032):   1%|▏         | 223/16950 [06:42<2:56:58,  1.58it/s]Training 1/3 epoch (loss 0.4032):   1%|▏         | 224/16950 [06:42<3:10:15,  1.47it/s]Training 1/3 epoch (loss 0.5862):   1%|▏         | 224/16950 [06:42<3:10:15,  1.47it/s]Training 1/3 epoch (loss 0.5862):   1%|▏         | 225/16950 [06:42<2:50:30,  1.63it/s]Training 1/3 epoch (loss 0.3838):   1%|▏         | 225/16950 [06:43<2:50:30,  1.63it/s]Training 1/3 epoch (loss 0.3838):   1%|▏         | 226/16950 [06:43<3:07:38,  1.49it/s]Training 1/3 epoch (loss 0.4915):   1%|▏         | 226/16950 [06:44<3:07:38,  1.49it/s]Training 1/3 epoch (loss 0.4915):   1%|▏         | 227/16950 [06:44<3:10:20,  1.46it/s]Training 1/3 epoch (loss 0.7115):   1%|▏         | 227/16950 [06:44<3:10:20,  1.46it/s]Training 1/3 epoch (loss 0.7115):   1%|▏         | 228/16950 [06:44<3:11:45,  1.45it/s]Training 1/3 epoch (loss 0.4715):   1%|▏         | 228/16950 [06:45<3:11:45,  1.45it/s]Training 1/3 epoch (loss 0.4715):   1%|▏         | 229/16950 [06:45<3:40:49,  1.26it/s]Training 1/3 epoch (loss 0.1166):   1%|▏         | 229/16950 [06:46<3:40:49,  1.26it/s]Training 1/3 epoch (loss 0.1166):   1%|▏         | 230/16950 [06:46<3:30:10,  1.33it/s]Training 1/3 epoch (loss 0.9198):   1%|▏         | 230/16950 [06:47<3:30:10,  1.33it/s]Training 1/3 epoch (loss 0.9198):   1%|▏         | 231/16950 [06:47<3:23:47,  1.37it/s]Training 1/3 epoch (loss 0.2164):   1%|▏         | 231/16950 [06:47<3:23:47,  1.37it/s]Training 1/3 epoch (loss 0.2164):   1%|▏         | 232/16950 [06:47<3:14:38,  1.43it/s]Training 1/3 epoch (loss 0.2680):   1%|▏         | 232/16950 [06:48<3:14:38,  1.43it/s]Training 1/3 epoch (loss 0.2680):   1%|▏         | 233/16950 [06:48<3:08:58,  1.47it/s]Training 1/3 epoch (loss 0.1572):   1%|▏         | 233/16950 [06:49<3:08:58,  1.47it/s]Training 1/3 epoch (loss 0.1572):   1%|▏         | 234/16950 [06:49<3:11:08,  1.46it/s]Training 1/3 epoch (loss 0.2757):   1%|▏         | 234/16950 [06:49<3:11:08,  1.46it/s]Training 1/3 epoch (loss 0.2757):   1%|▏         | 235/16950 [06:49<2:59:54,  1.55it/s]Training 1/3 epoch (loss 0.2015):   1%|▏         | 235/16950 [06:50<2:59:54,  1.55it/s]Training 1/3 epoch (loss 0.2015):   1%|▏         | 236/16950 [06:50<2:45:27,  1.68it/s]Training 1/3 epoch (loss 0.2058):   1%|▏         | 236/16950 [06:50<2:45:27,  1.68it/s]Training 1/3 epoch (loss 0.2058):   1%|▏         | 237/16950 [06:50<2:21:48,  1.96it/s]Training 1/3 epoch (loss 0.0998):   1%|▏         | 237/16950 [06:51<2:21:48,  1.96it/s]Training 1/3 epoch (loss 0.0998):   1%|▏         | 238/16950 [06:51<2:29:39,  1.86it/s]Training 1/3 epoch (loss 0.2731):   1%|▏         | 238/16950 [06:51<2:29:39,  1.86it/s]Training 1/3 epoch (loss 0.2731):   1%|▏         | 239/16950 [06:51<2:57:33,  1.57it/s]Training 1/3 epoch (loss 0.3340):   1%|▏         | 239/16950 [06:52<2:57:33,  1.57it/s]Training 1/3 epoch (loss 0.3340):   1%|▏         | 240/16950 [06:52<3:04:39,  1.51it/s]Training 1/3 epoch (loss 0.5815):   1%|▏         | 240/16950 [06:53<3:04:39,  1.51it/s]Training 1/3 epoch (loss 0.5815):   1%|▏         | 241/16950 [06:53<2:54:09,  1.60it/s]Training 1/3 epoch (loss 0.8589):   1%|▏         | 241/16950 [06:54<2:54:09,  1.60it/s]Training 1/3 epoch (loss 0.8589):   1%|▏         | 242/16950 [06:54<3:10:45,  1.46it/s]Training 1/3 epoch (loss 0.0082):   1%|▏         | 242/16950 [06:54<3:10:45,  1.46it/s]Training 1/3 epoch (loss 0.0082):   1%|▏         | 243/16950 [06:54<3:15:10,  1.43it/s]Training 1/3 epoch (loss 1.3108):   1%|▏         | 243/16950 [06:55<3:15:10,  1.43it/s]Training 1/3 epoch (loss 1.3108):   1%|▏         | 244/16950 [06:55<3:03:27,  1.52it/s]Training 1/3 epoch (loss 0.2228):   1%|▏         | 244/16950 [06:56<3:03:27,  1.52it/s]Training 1/3 epoch (loss 0.2228):   1%|▏         | 245/16950 [06:56<3:06:17,  1.49it/s]Training 1/3 epoch (loss 0.8960):   1%|▏         | 245/16950 [06:57<3:06:17,  1.49it/s]Training 1/3 epoch (loss 0.8960):   1%|▏         | 246/16950 [06:57<3:50:51,  1.21it/s]Training 1/3 epoch (loss 0.5824):   1%|▏         | 246/16950 [06:58<3:50:51,  1.21it/s]Training 1/3 epoch (loss 0.5824):   1%|▏         | 247/16950 [06:58<4:07:39,  1.12it/s]Training 1/3 epoch (loss 0.1384):   1%|▏         | 247/16950 [06:58<4:07:39,  1.12it/s]Training 1/3 epoch (loss 0.1384):   1%|▏         | 248/16950 [06:58<3:42:17,  1.25it/s]Training 1/3 epoch (loss 0.7001):   1%|▏         | 248/16950 [06:59<3:42:17,  1.25it/s]Training 1/3 epoch (loss 0.7001):   1%|▏         | 249/16950 [06:59<3:36:12,  1.29it/s]Training 1/3 epoch (loss 0.3458):   1%|▏         | 249/16950 [07:00<3:36:12,  1.29it/s]Training 1/3 epoch (loss 0.3458):   1%|▏         | 250/16950 [07:00<3:12:14,  1.45it/s]Training 1/3 epoch (loss 1.5329):   1%|▏         | 250/16950 [07:00<3:12:14,  1.45it/s]Training 1/3 epoch (loss 1.5329):   1%|▏         | 251/16950 [07:00<2:54:51,  1.59it/s]Training 1/3 epoch (loss 0.7562):   1%|▏         | 251/16950 [07:01<2:54:51,  1.59it/s]Training 1/3 epoch (loss 0.7562):   1%|▏         | 252/16950 [07:01<2:40:00,  1.74it/s]Training 1/3 epoch (loss 0.2315):   1%|▏         | 252/16950 [07:01<2:40:00,  1.74it/s]Training 1/3 epoch (loss 0.2315):   1%|▏         | 253/16950 [07:01<2:29:29,  1.86it/s]Training 1/3 epoch (loss 0.8211):   1%|▏         | 253/16950 [07:01<2:29:29,  1.86it/s]Training 1/3 epoch (loss 0.8211):   1%|▏         | 254/16950 [07:01<2:25:35,  1.91it/s]Training 1/3 epoch (loss 0.0768):   1%|▏         | 254/16950 [07:02<2:25:35,  1.91it/s]Training 1/3 epoch (loss 0.0768):   2%|▏         | 255/16950 [07:02<2:22:29,  1.95it/s]Training 1/3 epoch (loss 1.2987):   2%|▏         | 255/16950 [07:03<2:22:29,  1.95it/s]Training 1/3 epoch (loss 1.2987):   2%|▏         | 256/16950 [07:03<2:36:01,  1.78it/s]Training 1/3 epoch (loss 0.2370):   2%|▏         | 256/16950 [07:03<2:36:01,  1.78it/s]Training 1/3 epoch (loss 0.2370):   2%|▏         | 257/16950 [07:03<2:37:45,  1.76it/s]Training 1/3 epoch (loss 0.6377):   2%|▏         | 257/16950 [07:04<2:37:45,  1.76it/s]Training 1/3 epoch (loss 0.6377):   2%|▏         | 258/16950 [07:04<2:35:05,  1.79it/s]Training 1/3 epoch (loss 0.3816):   2%|▏         | 258/16950 [07:04<2:35:05,  1.79it/s]Training 1/3 epoch (loss 0.3816):   2%|▏         | 259/16950 [07:04<2:25:43,  1.91it/s]Training 1/3 epoch (loss 0.7436):   2%|▏         | 259/16950 [07:05<2:25:43,  1.91it/s]Training 1/3 epoch (loss 0.7436):   2%|▏         | 260/16950 [07:05<2:17:52,  2.02it/s]Training 1/3 epoch (loss 0.6103):   2%|▏         | 260/16950 [07:05<2:17:52,  2.02it/s]Training 1/3 epoch (loss 0.6103):   2%|▏         | 261/16950 [07:05<2:19:03,  2.00it/s]Training 1/3 epoch (loss 0.7936):   2%|▏         | 261/16950 [07:06<2:19:03,  2.00it/s]Training 1/3 epoch (loss 0.7936):   2%|▏         | 262/16950 [07:06<2:13:00,  2.09it/s]Training 1/3 epoch (loss 1.0309):   2%|▏         | 262/16950 [07:06<2:13:00,  2.09it/s]Training 1/3 epoch (loss 1.0309):   2%|▏         | 263/16950 [07:06<2:08:07,  2.17it/s]Training 1/3 epoch (loss 1.0045):   2%|▏         | 263/16950 [07:06<2:08:07,  2.17it/s]Training 1/3 epoch (loss 1.0045):   2%|▏         | 264/16950 [07:06<2:07:22,  2.18it/s]Training 1/3 epoch (loss 0.7921):   2%|▏         | 264/16950 [07:07<2:07:22,  2.18it/s]Training 1/3 epoch (loss 0.7921):   2%|▏         | 265/16950 [07:07<2:02:56,  2.26it/s]Training 1/3 epoch (loss 0.6592):   2%|▏         | 265/16950 [07:08<2:02:56,  2.26it/s]Training 1/3 epoch (loss 0.6592):   2%|▏         | 266/16950 [07:08<2:46:39,  1.67it/s]Training 1/3 epoch (loss 0.2997):   2%|▏         | 266/16950 [07:09<2:46:39,  1.67it/s]Training 1/3 epoch (loss 0.2997):   2%|▏         | 267/16950 [07:09<2:56:11,  1.58it/s]Training 1/3 epoch (loss 0.0343):   2%|▏         | 267/16950 [07:09<2:56:11,  1.58it/s]Training 1/3 epoch (loss 0.0343):   2%|▏         | 268/16950 [07:09<3:06:59,  1.49it/s]Training 1/3 epoch (loss 0.1541):   2%|▏         | 268/16950 [07:10<3:06:59,  1.49it/s]Training 1/3 epoch (loss 0.1541):   2%|▏         | 269/16950 [07:10<3:03:01,  1.52it/s]Training 1/3 epoch (loss 0.9903):   2%|▏         | 269/16950 [07:11<3:03:01,  1.52it/s]Training 1/3 epoch (loss 0.9903):   2%|▏         | 270/16950 [07:11<3:15:26,  1.42it/s]Training 1/3 epoch (loss 0.1580):   2%|▏         | 270/16950 [07:11<3:15:26,  1.42it/s]Training 1/3 epoch (loss 0.1580):   2%|▏         | 271/16950 [07:11<2:54:58,  1.59it/s]Training 1/3 epoch (loss 0.9002):   2%|▏         | 271/16950 [07:12<2:54:58,  1.59it/s]Training 1/3 epoch (loss 0.9002):   2%|▏         | 272/16950 [07:12<2:39:36,  1.74it/s]Training 1/3 epoch (loss 1.4474):   2%|▏         | 272/16950 [07:13<2:39:36,  1.74it/s]Training 1/3 epoch (loss 1.4474):   2%|▏         | 273/16950 [07:13<3:20:22,  1.39it/s]Training 1/3 epoch (loss 0.0710):   2%|▏         | 273/16950 [07:13<3:20:22,  1.39it/s]Training 1/3 epoch (loss 0.0710):   2%|▏         | 274/16950 [07:13<3:13:33,  1.44it/s]Training 1/3 epoch (loss 0.0365):   2%|▏         | 274/16950 [07:14<3:13:33,  1.44it/s]Training 1/3 epoch (loss 0.0365):   2%|▏         | 275/16950 [07:14<2:47:54,  1.66it/s]Training 1/3 epoch (loss 0.1894):   2%|▏         | 275/16950 [07:14<2:47:54,  1.66it/s]Training 1/3 epoch (loss 0.1894):   2%|▏         | 276/16950 [07:14<2:32:28,  1.82it/s]Training 1/3 epoch (loss 1.2570):   2%|▏         | 276/16950 [07:15<2:32:28,  1.82it/s]Training 1/3 epoch (loss 1.2570):   2%|▏         | 277/16950 [07:15<3:12:18,  1.44it/s]Training 1/3 epoch (loss 0.1756):   2%|▏         | 277/16950 [07:16<3:12:18,  1.44it/s]Training 1/3 epoch (loss 0.1756):   2%|▏         | 278/16950 [07:16<3:37:49,  1.28it/s]Training 1/3 epoch (loss 0.6551):   2%|▏         | 278/16950 [07:17<3:37:49,  1.28it/s]Training 1/3 epoch (loss 0.6551):   2%|▏         | 279/16950 [07:17<3:36:09,  1.29it/s]Training 1/3 epoch (loss 0.9106):   2%|▏         | 279/16950 [07:17<3:36:09,  1.29it/s]Training 1/3 epoch (loss 0.9106):   2%|▏         | 280/16950 [07:17<3:07:22,  1.48it/s]Training 1/3 epoch (loss 0.2789):   2%|▏         | 280/16950 [07:18<3:07:22,  1.48it/s]Training 1/3 epoch (loss 0.2789):   2%|▏         | 281/16950 [07:18<2:50:23,  1.63it/s]Training 1/3 epoch (loss 0.2434):   2%|▏         | 281/16950 [07:19<2:50:23,  1.63it/s]Training 1/3 epoch (loss 0.2434):   2%|▏         | 282/16950 [07:19<3:04:18,  1.51it/s]Training 1/3 epoch (loss 0.8281):   2%|▏         | 282/16950 [07:19<3:04:18,  1.51it/s]Training 1/3 epoch (loss 0.8281):   2%|▏         | 283/16950 [07:19<2:50:23,  1.63it/s]Training 1/3 epoch (loss 0.2172):   2%|▏         | 283/16950 [07:20<2:50:23,  1.63it/s]Training 1/3 epoch (loss 0.2172):   2%|▏         | 284/16950 [07:20<2:45:48,  1.68it/s]Training 1/3 epoch (loss 0.1042):   2%|▏         | 284/16950 [07:20<2:45:48,  1.68it/s]Training 1/3 epoch (loss 0.1042):   2%|▏         | 285/16950 [07:20<2:37:31,  1.76it/s]Training 1/3 epoch (loss 0.4708):   2%|▏         | 285/16950 [07:21<2:37:31,  1.76it/s]Training 1/3 epoch (loss 0.4708):   2%|▏         | 286/16950 [07:21<2:44:39,  1.69it/s]Training 1/3 epoch (loss 0.7426):   2%|▏         | 286/16950 [07:21<2:44:39,  1.69it/s]Training 1/3 epoch (loss 0.7426):   2%|▏         | 287/16950 [07:21<2:40:31,  1.73it/s]Training 1/3 epoch (loss 0.7794):   2%|▏         | 287/16950 [07:22<2:40:31,  1.73it/s]Training 1/3 epoch (loss 0.7794):   2%|▏         | 288/16950 [07:22<2:30:41,  1.84it/s]Training 1/3 epoch (loss 0.2473):   2%|▏         | 288/16950 [07:22<2:30:41,  1.84it/s]Training 1/3 epoch (loss 0.2473):   2%|▏         | 289/16950 [07:22<2:28:44,  1.87it/s]Training 1/3 epoch (loss 0.1447):   2%|▏         | 289/16950 [07:23<2:28:44,  1.87it/s]Training 1/3 epoch (loss 0.1447):   2%|▏         | 290/16950 [07:23<2:40:43,  1.73it/s]Training 1/3 epoch (loss 0.1240):   2%|▏         | 290/16950 [07:24<2:40:43,  1.73it/s]Training 1/3 epoch (loss 0.1240):   2%|▏         | 291/16950 [07:24<2:48:20,  1.65it/s]Training 1/3 epoch (loss 0.1079):   2%|▏         | 291/16950 [07:24<2:48:20,  1.65it/s]Training 1/3 epoch (loss 0.1079):   2%|▏         | 292/16950 [07:24<2:36:58,  1.77it/s]Training 1/3 epoch (loss 0.1099):   2%|▏         | 292/16950 [07:25<2:36:58,  1.77it/s]Training 1/3 epoch (loss 0.1099):   2%|▏         | 293/16950 [07:25<2:43:06,  1.70it/s]Training 1/3 epoch (loss 0.6859):   2%|▏         | 293/16950 [07:25<2:43:06,  1.70it/s]Training 1/3 epoch (loss 0.6859):   2%|▏         | 294/16950 [07:25<2:36:47,  1.77it/s]Training 1/3 epoch (loss 0.6650):   2%|▏         | 294/16950 [07:26<2:36:47,  1.77it/s]Training 1/3 epoch (loss 0.6650):   2%|▏         | 295/16950 [07:26<2:37:50,  1.76it/s]Training 1/3 epoch (loss 0.7107):   2%|▏         | 295/16950 [07:26<2:37:50,  1.76it/s]Training 1/3 epoch (loss 0.7107):   2%|▏         | 296/16950 [07:26<2:36:19,  1.78it/s]Training 1/3 epoch (loss 0.0968):   2%|▏         | 296/16950 [07:27<2:36:19,  1.78it/s]Training 1/3 epoch (loss 0.0968):   2%|▏         | 297/16950 [07:27<2:39:38,  1.74it/s]Training 1/3 epoch (loss 0.0543):   2%|▏         | 297/16950 [07:28<2:39:38,  1.74it/s]Training 1/3 epoch (loss 0.0543):   2%|▏         | 298/16950 [07:28<2:34:47,  1.79it/s]Training 1/3 epoch (loss 0.1183):   2%|▏         | 298/16950 [07:28<2:34:47,  1.79it/s]Training 1/3 epoch (loss 0.1183):   2%|▏         | 299/16950 [07:28<2:22:06,  1.95it/s]Training 1/3 epoch (loss 0.8536):   2%|▏         | 299/16950 [07:28<2:22:06,  1.95it/s]Training 1/3 epoch (loss 0.8536):   2%|▏         | 300/16950 [07:28<2:08:39,  2.16it/s]Training 1/3 epoch (loss 0.0826):   2%|▏         | 300/16950 [07:29<2:08:39,  2.16it/s]Training 1/3 epoch (loss 0.0826):   2%|▏         | 301/16950 [07:29<2:06:15,  2.20it/s]Training 1/3 epoch (loss 0.8909):   2%|▏         | 301/16950 [07:30<2:06:15,  2.20it/s]Training 1/3 epoch (loss 0.8909):   2%|▏         | 302/16950 [07:30<2:40:05,  1.73it/s]Training 1/3 epoch (loss 0.1973):   2%|▏         | 302/16950 [07:30<2:40:05,  1.73it/s]Training 1/3 epoch (loss 0.1973):   2%|▏         | 303/16950 [07:30<2:53:50,  1.60it/s]Training 1/3 epoch (loss 0.3225):   2%|▏         | 303/16950 [07:31<2:53:50,  1.60it/s]Training 1/3 epoch (loss 0.3225):   2%|▏         | 304/16950 [07:31<2:42:09,  1.71it/s]Training 1/3 epoch (loss 0.1385):   2%|▏         | 304/16950 [07:31<2:42:09,  1.71it/s]Training 1/3 epoch (loss 0.1385):   2%|▏         | 305/16950 [07:31<2:33:32,  1.81it/s]Training 1/3 epoch (loss 0.9268):   2%|▏         | 305/16950 [07:32<2:33:32,  1.81it/s]Training 1/3 epoch (loss 0.9268):   2%|▏         | 306/16950 [07:32<2:19:45,  1.98it/s]Training 1/3 epoch (loss 1.0539):   2%|▏         | 306/16950 [07:32<2:19:45,  1.98it/s]Training 1/3 epoch (loss 1.0539):   2%|▏         | 307/16950 [07:32<2:16:02,  2.04it/s]Training 1/3 epoch (loss 1.4321):   2%|▏         | 307/16950 [07:33<2:16:02,  2.04it/s]Training 1/3 epoch (loss 1.4321):   2%|▏         | 308/16950 [07:33<2:10:02,  2.13it/s]Training 1/3 epoch (loss 0.6445):   2%|▏         | 308/16950 [07:33<2:10:02,  2.13it/s]Training 1/3 epoch (loss 0.6445):   2%|▏         | 309/16950 [07:33<2:17:16,  2.02it/s]Training 1/3 epoch (loss 0.2431):   2%|▏         | 309/16950 [07:34<2:17:16,  2.02it/s]Training 1/3 epoch (loss 0.2431):   2%|▏         | 310/16950 [07:34<2:28:24,  1.87it/s]Training 1/3 epoch (loss 0.5833):   2%|▏         | 310/16950 [07:34<2:28:24,  1.87it/s]Training 1/3 epoch (loss 0.5833):   2%|▏         | 311/16950 [07:34<2:37:00,  1.77it/s]Training 1/3 epoch (loss 0.0665):   2%|▏         | 311/16950 [07:35<2:37:00,  1.77it/s]Training 1/3 epoch (loss 0.0665):   2%|▏         | 312/16950 [07:35<2:45:21,  1.68it/s]Training 1/3 epoch (loss 0.1633):   2%|▏         | 312/16950 [07:36<2:45:21,  1.68it/s]Training 1/3 epoch (loss 0.1633):   2%|▏         | 313/16950 [07:36<2:56:43,  1.57it/s]Training 1/3 epoch (loss 0.3083):   2%|▏         | 313/16950 [07:36<2:56:43,  1.57it/s]Training 1/3 epoch (loss 0.3083):   2%|▏         | 314/16950 [07:36<2:48:49,  1.64it/s]Training 1/3 epoch (loss 0.2435):   2%|▏         | 314/16950 [07:37<2:48:49,  1.64it/s]Training 1/3 epoch (loss 0.2435):   2%|▏         | 315/16950 [07:37<2:38:39,  1.75it/s]Training 1/3 epoch (loss 0.0830):   2%|▏         | 315/16950 [07:38<2:38:39,  1.75it/s]Training 1/3 epoch (loss 0.0830):   2%|▏         | 316/16950 [07:38<2:51:23,  1.62it/s]Training 1/3 epoch (loss 0.3663):   2%|▏         | 316/16950 [07:38<2:51:23,  1.62it/s]Training 1/3 epoch (loss 0.3663):   2%|▏         | 317/16950 [07:38<2:44:04,  1.69it/s]Training 1/3 epoch (loss 0.2865):   2%|▏         | 317/16950 [07:39<2:44:04,  1.69it/s]Training 1/3 epoch (loss 0.2865):   2%|▏         | 318/16950 [07:39<2:34:19,  1.80it/s]Training 1/3 epoch (loss 0.1887):   2%|▏         | 318/16950 [07:39<2:34:19,  1.80it/s]Training 1/3 epoch (loss 0.1887):   2%|▏         | 319/16950 [07:39<2:30:23,  1.84it/s]Training 1/3 epoch (loss 0.3017):   2%|▏         | 319/16950 [07:40<2:30:23,  1.84it/s]Training 1/3 epoch (loss 0.3017):   2%|▏         | 320/16950 [07:40<2:30:22,  1.84it/s]Training 1/3 epoch (loss 0.5766):   2%|▏         | 320/16950 [07:40<2:30:22,  1.84it/s]Training 1/3 epoch (loss 0.5766):   2%|▏         | 321/16950 [07:40<2:53:56,  1.59it/s]Training 1/3 epoch (loss 0.1401):   2%|▏         | 321/16950 [07:41<2:53:56,  1.59it/s]Training 1/3 epoch (loss 0.1401):   2%|▏         | 322/16950 [07:41<2:55:02,  1.58it/s]Training 1/3 epoch (loss 0.1039):   2%|▏         | 322/16950 [07:42<2:55:02,  1.58it/s]Training 1/3 epoch (loss 0.1039):   2%|▏         | 323/16950 [07:42<2:48:02,  1.65it/s]Training 1/3 epoch (loss 0.1976):   2%|▏         | 323/16950 [07:42<2:48:02,  1.65it/s]Training 1/3 epoch (loss 0.1976):   2%|▏         | 324/16950 [07:42<2:52:50,  1.60it/s]Training 1/3 epoch (loss 0.0299):   2%|▏         | 324/16950 [07:43<2:52:50,  1.60it/s]Training 1/3 epoch (loss 0.0299):   2%|▏         | 325/16950 [07:43<2:41:34,  1.71it/s]Training 1/3 epoch (loss 0.1592):   2%|▏         | 325/16950 [07:43<2:41:34,  1.71it/s]Training 1/3 epoch (loss 0.1592):   2%|▏         | 326/16950 [07:43<2:38:01,  1.75it/s]Training 1/3 epoch (loss 0.6578):   2%|▏         | 326/16950 [07:44<2:38:01,  1.75it/s]Training 1/3 epoch (loss 0.6578):   2%|▏         | 327/16950 [07:44<2:24:55,  1.91it/s]Training 1/3 epoch (loss 0.1113):   2%|▏         | 327/16950 [07:44<2:24:55,  1.91it/s]Training 1/3 epoch (loss 0.1113):   2%|▏         | 328/16950 [07:44<2:31:06,  1.83it/s]Training 1/3 epoch (loss 0.1657):   2%|▏         | 328/16950 [07:45<2:31:06,  1.83it/s]Training 1/3 epoch (loss 0.1657):   2%|▏         | 329/16950 [07:45<2:38:28,  1.75it/s]Training 1/3 epoch (loss 0.3647):   2%|▏         | 329/16950 [07:46<2:38:28,  1.75it/s]Training 1/3 epoch (loss 0.3647):   2%|▏         | 330/16950 [07:46<2:39:23,  1.74it/s]Training 1/3 epoch (loss 0.6461):   2%|▏         | 330/16950 [07:46<2:39:23,  1.74it/s]Training 1/3 epoch (loss 0.6461):   2%|▏         | 331/16950 [07:46<2:24:06,  1.92it/s]Training 1/3 epoch (loss 0.0094):   2%|▏         | 331/16950 [07:47<2:24:06,  1.92it/s]Training 1/3 epoch (loss 0.0094):   2%|▏         | 332/16950 [07:47<2:47:19,  1.66it/s]Training 1/3 epoch (loss 0.6310):   2%|▏         | 332/16950 [07:47<2:47:19,  1.66it/s]Training 1/3 epoch (loss 0.6310):   2%|▏         | 333/16950 [07:47<2:55:36,  1.58it/s]Training 1/3 epoch (loss 0.0617):   2%|▏         | 333/16950 [07:48<2:55:36,  1.58it/s]Training 1/3 epoch (loss 0.0617):   2%|▏         | 334/16950 [07:48<3:02:46,  1.52it/s]Training 1/3 epoch (loss 0.0474):   2%|▏         | 334/16950 [07:49<3:02:46,  1.52it/s]Training 1/3 epoch (loss 0.0474):   2%|▏         | 335/16950 [07:49<2:38:25,  1.75it/s]Training 1/3 epoch (loss 0.1969):   2%|▏         | 335/16950 [07:49<2:38:25,  1.75it/s]Training 1/3 epoch (loss 0.1969):   2%|▏         | 336/16950 [07:49<2:34:12,  1.80it/s]Training 1/3 epoch (loss 0.0562):   2%|▏         | 336/16950 [07:50<2:34:12,  1.80it/s]Training 1/3 epoch (loss 0.0562):   2%|▏         | 337/16950 [07:50<2:37:32,  1.76it/s]Training 1/3 epoch (loss 0.4884):   2%|▏         | 337/16950 [07:50<2:37:32,  1.76it/s]Training 1/3 epoch (loss 0.4884):   2%|▏         | 338/16950 [07:50<2:39:47,  1.73it/s]Training 1/3 epoch (loss 0.4183):   2%|▏         | 338/16950 [07:51<2:39:47,  1.73it/s]Training 1/3 epoch (loss 0.4183):   2%|▏         | 339/16950 [07:51<2:40:34,  1.72it/s]Training 1/3 epoch (loss 0.5920):   2%|▏         | 339/16950 [07:51<2:40:34,  1.72it/s]Training 1/3 epoch (loss 0.5920):   2%|▏         | 340/16950 [07:51<2:37:53,  1.75it/s]Training 1/3 epoch (loss 0.0964):   2%|▏         | 340/16950 [07:52<2:37:53,  1.75it/s]Training 1/3 epoch (loss 0.0964):   2%|▏         | 341/16950 [07:52<2:25:29,  1.90it/s]Training 1/3 epoch (loss 0.7212):   2%|▏         | 341/16950 [07:52<2:25:29,  1.90it/s]Training 1/3 epoch (loss 0.7212):   2%|▏         | 342/16950 [07:52<2:14:10,  2.06it/s]Training 1/3 epoch (loss 0.0561):   2%|▏         | 342/16950 [07:53<2:14:10,  2.06it/s]Training 1/3 epoch (loss 0.0561):   2%|▏         | 343/16950 [07:53<2:46:30,  1.66it/s]Training 1/3 epoch (loss 0.1053):   2%|▏         | 343/16950 [07:54<2:46:30,  1.66it/s]Training 1/3 epoch (loss 0.1053):   2%|▏         | 344/16950 [07:54<2:39:30,  1.74it/s]Training 1/3 epoch (loss 0.2062):   2%|▏         | 344/16950 [07:54<2:39:30,  1.74it/s]Training 1/3 epoch (loss 0.2062):   2%|▏         | 345/16950 [07:54<2:40:35,  1.72it/s]Training 1/3 epoch (loss 0.2784):   2%|▏         | 345/16950 [07:55<2:40:35,  1.72it/s]Training 1/3 epoch (loss 0.2784):   2%|▏         | 346/16950 [07:55<2:26:14,  1.89it/s]Training 1/3 epoch (loss 0.1189):   2%|▏         | 346/16950 [07:55<2:26:14,  1.89it/s]Training 1/3 epoch (loss 0.1189):   2%|▏         | 347/16950 [07:55<2:36:21,  1.77it/s]Training 1/3 epoch (loss 0.2411):   2%|▏         | 347/16950 [07:56<2:36:21,  1.77it/s]Training 1/3 epoch (loss 0.2411):   2%|▏         | 348/16950 [07:56<2:35:38,  1.78it/s]Training 1/3 epoch (loss 0.0085):   2%|▏         | 348/16950 [07:56<2:35:38,  1.78it/s]Training 1/3 epoch (loss 0.0085):   2%|▏         | 349/16950 [07:56<2:37:15,  1.76it/s]Training 1/3 epoch (loss 0.4100):   2%|▏         | 349/16950 [07:57<2:37:15,  1.76it/s]Training 1/3 epoch (loss 0.4100):   2%|▏         | 350/16950 [07:57<2:44:17,  1.68it/s]Training 1/3 epoch (loss 0.1582):   2%|▏         | 350/16950 [07:58<2:44:17,  1.68it/s]Training 1/3 epoch (loss 0.1582):   2%|▏         | 351/16950 [07:58<2:54:18,  1.59it/s]Training 1/3 epoch (loss 0.1318):   2%|▏         | 351/16950 [07:58<2:54:18,  1.59it/s]Training 1/3 epoch (loss 0.1318):   2%|▏         | 352/16950 [07:58<2:40:33,  1.72it/s]Training 1/3 epoch (loss 0.7998):   2%|▏         | 352/16950 [07:59<2:40:33,  1.72it/s]Training 1/3 epoch (loss 0.7998):   2%|▏         | 353/16950 [07:59<2:35:25,  1.78it/s]Training 1/3 epoch (loss 0.5816):   2%|▏         | 353/16950 [07:59<2:35:25,  1.78it/s]Training 1/3 epoch (loss 0.5816):   2%|▏         | 354/16950 [07:59<2:30:53,  1.83it/s]Training 1/3 epoch (loss 0.2788):   2%|▏         | 354/16950 [08:00<2:30:53,  1.83it/s]Training 1/3 epoch (loss 0.2788):   2%|▏         | 355/16950 [08:00<2:38:30,  1.74it/s]Training 1/3 epoch (loss 0.0347):   2%|▏         | 355/16950 [08:01<2:38:30,  1.74it/s]Training 1/3 epoch (loss 0.0347):   2%|▏         | 356/16950 [08:01<2:59:09,  1.54it/s]Training 1/3 epoch (loss 0.0320):   2%|▏         | 356/16950 [08:01<2:59:09,  1.54it/s]Training 1/3 epoch (loss 0.0320):   2%|▏         | 357/16950 [08:01<2:45:37,  1.67it/s]Training 1/3 epoch (loss 1.0859):   2%|▏         | 357/16950 [08:02<2:45:37,  1.67it/s]Training 1/3 epoch (loss 1.0859):   2%|▏         | 358/16950 [08:02<2:52:14,  1.61it/s]Training 1/3 epoch (loss 0.1660):   2%|▏         | 358/16950 [08:02<2:52:14,  1.61it/s]Training 1/3 epoch (loss 0.1660):   2%|▏         | 359/16950 [08:02<2:39:08,  1.74it/s]Training 1/3 epoch (loss 0.7502):   2%|▏         | 359/16950 [08:03<2:39:08,  1.74it/s]Training 1/3 epoch (loss 0.7502):   2%|▏         | 360/16950 [08:03<2:32:54,  1.81it/s]Training 1/3 epoch (loss 0.2169):   2%|▏         | 360/16950 [08:03<2:32:54,  1.81it/s]Training 1/3 epoch (loss 0.2169):   2%|▏         | 361/16950 [08:03<2:30:52,  1.83it/s]Training 1/3 epoch (loss 0.0686):   2%|▏         | 361/16950 [08:04<2:30:52,  1.83it/s]Training 1/3 epoch (loss 0.0686):   2%|▏         | 362/16950 [08:04<2:23:46,  1.92it/s]Training 1/3 epoch (loss 0.0211):   2%|▏         | 362/16950 [08:04<2:23:46,  1.92it/s]Training 1/3 epoch (loss 0.0211):   2%|▏         | 363/16950 [08:04<2:24:49,  1.91it/s]Training 1/3 epoch (loss 0.3050):   2%|▏         | 363/16950 [08:05<2:24:49,  1.91it/s]Training 1/3 epoch (loss 0.3050):   2%|▏         | 364/16950 [08:05<2:37:26,  1.76it/s]Training 1/3 epoch (loss 0.2070):   2%|▏         | 364/16950 [08:06<2:37:26,  1.76it/s]Training 1/3 epoch (loss 0.2070):   2%|▏         | 365/16950 [08:06<2:49:35,  1.63it/s]Training 1/3 epoch (loss 0.1085):   2%|▏         | 365/16950 [08:07<2:49:35,  1.63it/s]Training 1/3 epoch (loss 0.1085):   2%|▏         | 366/16950 [08:07<3:06:49,  1.48it/s]Training 1/3 epoch (loss 1.5707):   2%|▏         | 366/16950 [08:07<3:06:49,  1.48it/s]Training 1/3 epoch (loss 1.5707):   2%|▏         | 367/16950 [08:07<2:57:16,  1.56it/s]Training 1/3 epoch (loss 0.2708):   2%|▏         | 367/16950 [08:08<2:57:16,  1.56it/s]Training 1/3 epoch (loss 0.2708):   2%|▏         | 368/16950 [08:08<3:33:22,  1.30it/s]Training 1/3 epoch (loss 0.5413):   2%|▏         | 368/16950 [08:09<3:33:22,  1.30it/s]Training 1/3 epoch (loss 0.5413):   2%|▏         | 369/16950 [08:09<3:51:09,  1.20it/s]Training 1/3 epoch (loss 0.1654):   2%|▏         | 369/16950 [08:10<3:51:09,  1.20it/s]Training 1/3 epoch (loss 0.1654):   2%|▏         | 370/16950 [08:10<3:26:51,  1.34it/s]Training 1/3 epoch (loss 1.0577):   2%|▏         | 370/16950 [08:11<3:26:51,  1.34it/s]Training 1/3 epoch (loss 1.0577):   2%|▏         | 371/16950 [08:11<4:00:32,  1.15it/s]Training 1/3 epoch (loss 0.0122):   2%|▏         | 371/16950 [08:11<4:00:32,  1.15it/s]Training 1/3 epoch (loss 0.0122):   2%|▏         | 372/16950 [08:11<3:31:05,  1.31it/s]Training 1/3 epoch (loss 0.1261):   2%|▏         | 372/16950 [08:12<3:31:05,  1.31it/s]Training 1/3 epoch (loss 0.1261):   2%|▏         | 373/16950 [08:12<3:05:49,  1.49it/s]Training 1/3 epoch (loss 0.2079):   2%|▏         | 373/16950 [08:12<3:05:49,  1.49it/s]Training 1/3 epoch (loss 0.2079):   2%|▏         | 374/16950 [08:12<2:44:02,  1.68it/s]Training 1/3 epoch (loss 0.4962):   2%|▏         | 374/16950 [08:13<2:44:02,  1.68it/s]Training 1/3 epoch (loss 0.4962):   2%|▏         | 375/16950 [08:13<2:29:20,  1.85it/s]Training 1/3 epoch (loss 0.5581):   2%|▏         | 375/16950 [08:13<2:29:20,  1.85it/s]Training 1/3 epoch (loss 0.5581):   2%|▏         | 376/16950 [08:13<2:14:42,  2.05it/s]Training 1/3 epoch (loss 0.2734):   2%|▏         | 376/16950 [08:14<2:14:42,  2.05it/s]Training 1/3 epoch (loss 0.2734):   2%|▏         | 377/16950 [08:14<2:26:45,  1.88it/s]Training 1/3 epoch (loss 0.2036):   2%|▏         | 377/16950 [08:15<2:26:45,  1.88it/s]Training 1/3 epoch (loss 0.2036):   2%|▏         | 378/16950 [08:15<3:16:58,  1.40it/s]Training 1/3 epoch (loss 0.2312):   2%|▏         | 378/16950 [08:16<3:16:58,  1.40it/s]Training 1/3 epoch (loss 0.2312):   2%|▏         | 379/16950 [08:16<3:18:46,  1.39it/s]Training 1/3 epoch (loss 0.0703):   2%|▏         | 379/16950 [08:16<3:18:46,  1.39it/s]Training 1/3 epoch (loss 0.0703):   2%|▏         | 380/16950 [08:16<3:04:12,  1.50it/s]Training 1/3 epoch (loss 0.0737):   2%|▏         | 380/16950 [08:16<3:04:12,  1.50it/s]Training 1/3 epoch (loss 0.0737):   2%|▏         | 381/16950 [08:16<2:38:59,  1.74it/s]Training 1/3 epoch (loss 0.6659):   2%|▏         | 381/16950 [08:17<2:38:59,  1.74it/s]Training 1/3 epoch (loss 0.6659):   2%|▏         | 382/16950 [08:17<3:03:19,  1.51it/s]Training 1/3 epoch (loss 0.3539):   2%|▏         | 382/16950 [08:18<3:03:19,  1.51it/s]Training 1/3 epoch (loss 0.3539):   2%|▏         | 383/16950 [08:18<3:00:07,  1.53it/s]Training 1/3 epoch (loss 0.3823):   2%|▏         | 383/16950 [08:19<3:00:07,  1.53it/s]Training 1/3 epoch (loss 0.3823):   2%|▏         | 384/16950 [08:19<3:08:52,  1.46it/s]Training 1/3 epoch (loss 0.0821):   2%|▏         | 384/16950 [08:19<3:08:52,  1.46it/s]Training 1/3 epoch (loss 0.0821):   2%|▏         | 385/16950 [08:19<3:09:15,  1.46it/s]Training 1/3 epoch (loss 0.2074):   2%|▏         | 385/16950 [08:20<3:09:15,  1.46it/s]Training 1/3 epoch (loss 0.2074):   2%|▏         | 386/16950 [08:20<3:11:15,  1.44it/s]Training 1/3 epoch (loss 0.1689):   2%|▏         | 386/16950 [08:21<3:11:15,  1.44it/s]Training 1/3 epoch (loss 0.1689):   2%|▏         | 387/16950 [08:21<3:33:17,  1.29it/s]Training 1/3 epoch (loss 0.2027):   2%|▏         | 387/16950 [08:22<3:33:17,  1.29it/s]Training 1/3 epoch (loss 0.2027):   2%|▏         | 388/16950 [08:22<3:52:38,  1.19it/s]Training 1/3 epoch (loss 0.2744):   2%|▏         | 388/16950 [08:23<3:52:38,  1.19it/s]Training 1/3 epoch (loss 0.2744):   2%|▏         | 389/16950 [08:23<3:32:25,  1.30it/s]Training 1/3 epoch (loss 0.4787):   2%|▏         | 389/16950 [08:23<3:32:25,  1.30it/s]Training 1/3 epoch (loss 0.4787):   2%|▏         | 390/16950 [08:23<3:01:05,  1.52it/s]Training 1/3 epoch (loss 0.8012):   2%|▏         | 390/16950 [08:23<3:01:05,  1.52it/s]Training 1/3 epoch (loss 0.8012):   2%|▏         | 391/16950 [08:23<2:38:54,  1.74it/s]Training 1/3 epoch (loss 0.1411):   2%|▏         | 391/16950 [08:24<2:38:54,  1.74it/s]Training 1/3 epoch (loss 0.1411):   2%|▏         | 392/16950 [08:24<2:28:27,  1.86it/s]Training 1/3 epoch (loss 0.1616):   2%|▏         | 392/16950 [08:24<2:28:27,  1.86it/s]Training 1/3 epoch (loss 0.1616):   2%|▏         | 393/16950 [08:24<2:20:10,  1.97it/s]Training 1/3 epoch (loss 0.3575):   2%|▏         | 393/16950 [08:25<2:20:10,  1.97it/s]Training 1/3 epoch (loss 0.3575):   2%|▏         | 394/16950 [08:25<2:32:57,  1.80it/s]Training 1/3 epoch (loss 0.4323):   2%|▏         | 394/16950 [08:26<2:32:57,  1.80it/s]Training 1/3 epoch (loss 0.4323):   2%|▏         | 395/16950 [08:26<2:32:10,  1.81it/s]Training 1/3 epoch (loss 0.0401):   2%|▏         | 395/16950 [08:26<2:32:10,  1.81it/s]Training 1/3 epoch (loss 0.0401):   2%|▏         | 396/16950 [08:26<2:26:57,  1.88it/s]Training 1/3 epoch (loss 0.1494):   2%|▏         | 396/16950 [08:27<2:26:57,  1.88it/s]Training 1/3 epoch (loss 0.1494):   2%|▏         | 397/16950 [08:27<2:30:55,  1.83it/s]Training 1/3 epoch (loss 0.7839):   2%|▏         | 397/16950 [08:27<2:30:55,  1.83it/s]Training 1/3 epoch (loss 0.7839):   2%|▏         | 398/16950 [08:27<2:25:06,  1.90it/s]Training 1/3 epoch (loss 0.8629):   2%|▏         | 398/16950 [08:28<2:25:06,  1.90it/s]Training 1/3 epoch (loss 0.8629):   2%|▏         | 399/16950 [08:28<2:25:22,  1.90it/s]Training 1/3 epoch (loss 1.5497):   2%|▏         | 399/16950 [08:28<2:25:22,  1.90it/s]Training 1/3 epoch (loss 1.5497):   2%|▏         | 400/16950 [08:28<2:15:32,  2.03it/s]Training 1/3 epoch (loss nan):   2%|▏         | 400/16950 [08:29<2:15:32,  2.03it/s]   Training 1/3 epoch (loss nan):   2%|▏         | 401/16950 [08:29<3:00:35,  1.53it/s]Training 1/3 epoch (loss 0.6836):   2%|▏         | 401/16950 [08:30<3:00:35,  1.53it/s]Training 1/3 epoch (loss 0.6836):   2%|▏         | 402/16950 [08:30<3:12:37,  1.43it/s]Training 1/3 epoch (loss 0.1401):   2%|▏         | 402/16950 [08:31<3:12:37,  1.43it/s]Training 1/3 epoch (loss 0.1401):   2%|▏         | 403/16950 [08:31<3:14:22,  1.42it/s]Training 1/3 epoch (loss 0.0499):   2%|▏         | 403/16950 [08:31<3:14:22,  1.42it/s]Training 1/3 epoch (loss 0.0499):   2%|▏         | 404/16950 [08:31<3:18:18,  1.39it/s]Training 1/3 epoch (loss 0.1299):   2%|▏         | 404/16950 [08:32<3:18:18,  1.39it/s]Training 1/3 epoch (loss 0.1299):   2%|▏         | 405/16950 [08:32<3:19:55,  1.38it/s]Training 1/3 epoch (loss 0.4724):   2%|▏         | 405/16950 [08:33<3:19:55,  1.38it/s]Training 1/3 epoch (loss 0.4724):   2%|▏         | 406/16950 [08:33<3:20:08,  1.38it/s]Training 1/3 epoch (loss 0.1525):   2%|▏         | 406/16950 [08:34<3:20:08,  1.38it/s]Training 1/3 epoch (loss 0.1525):   2%|▏         | 407/16950 [08:34<3:25:01,  1.34it/s]Training 1/3 epoch (loss 0.0577):   2%|▏         | 407/16950 [08:34<3:25:01,  1.34it/s]Training 1/3 epoch (loss 0.0577):   2%|▏         | 408/16950 [08:34<3:14:37,  1.42it/s]Training 1/3 epoch (loss 0.4358):   2%|▏         | 408/16950 [08:35<3:14:37,  1.42it/s]Training 1/3 epoch (loss 0.4358):   2%|▏         | 409/16950 [08:35<3:03:13,  1.50it/s]Training 1/3 epoch (loss 0.5613):   2%|▏         | 409/16950 [08:35<3:03:13,  1.50it/s]Training 1/3 epoch (loss 0.5613):   2%|▏         | 410/16950 [08:35<2:55:48,  1.57it/s]Training 1/3 epoch (loss 0.0416):   2%|▏         | 410/16950 [08:36<2:55:48,  1.57it/s]Training 1/3 epoch (loss 0.0416):   2%|▏         | 411/16950 [08:36<2:41:55,  1.70it/s]Training 1/3 epoch (loss 0.1494):   2%|▏         | 411/16950 [08:36<2:41:55,  1.70it/s]Training 1/3 epoch (loss 0.1494):   2%|▏         | 412/16950 [08:36<2:22:04,  1.94it/s]Training 1/3 epoch (loss 0.7873):   2%|▏         | 412/16950 [08:37<2:22:04,  1.94it/s]Training 1/3 epoch (loss 0.7873):   2%|▏         | 413/16950 [08:37<2:11:45,  2.09it/s]Training 1/3 epoch (loss 1.1305):   2%|▏         | 413/16950 [08:37<2:11:45,  2.09it/s]Training 1/3 epoch (loss 1.1305):   2%|▏         | 414/16950 [08:37<2:11:01,  2.10it/s]Training 1/3 epoch (loss 0.5732):   2%|▏         | 414/16950 [08:38<2:11:01,  2.10it/s]Training 1/3 epoch (loss 0.5732):   2%|▏         | 415/16950 [08:38<2:23:08,  1.93it/s]Training 1/3 epoch (loss 0.6976):   2%|▏         | 415/16950 [08:38<2:23:08,  1.93it/s]Training 1/3 epoch (loss 0.6976):   2%|▏         | 416/16950 [08:38<2:39:52,  1.72it/s]Training 1/3 epoch (loss 0.3877):   2%|▏         | 416/16950 [08:39<2:39:52,  1.72it/s]Training 1/3 epoch (loss 0.3877):   2%|▏         | 417/16950 [08:39<2:39:00,  1.73it/s]Training 1/3 epoch (loss 0.0243):   2%|▏         | 417/16950 [08:40<2:39:00,  1.73it/s]Training 1/3 epoch (loss 0.0243):   2%|▏         | 418/16950 [08:40<2:41:24,  1.71it/s]Training 1/3 epoch (loss 0.4855):   2%|▏         | 418/16950 [08:40<2:41:24,  1.71it/s]Training 1/3 epoch (loss 0.4855):   2%|▏         | 419/16950 [08:40<2:31:24,  1.82it/s]Training 1/3 epoch (loss 0.9167):   2%|▏         | 419/16950 [08:41<2:31:24,  1.82it/s]Training 1/3 epoch (loss 0.9167):   2%|▏         | 420/16950 [08:41<2:35:54,  1.77it/s]Training 1/3 epoch (loss 0.7166):   2%|▏         | 420/16950 [08:41<2:35:54,  1.77it/s]Training 1/3 epoch (loss 0.7166):   2%|▏         | 421/16950 [08:41<2:43:08,  1.69it/s]Training 1/3 epoch (loss 0.7190):   2%|▏         | 421/16950 [08:42<2:43:08,  1.69it/s]Training 1/3 epoch (loss 0.7190):   2%|▏         | 422/16950 [08:42<2:59:03,  1.54it/s]Training 1/3 epoch (loss 0.1139):   2%|▏         | 422/16950 [08:43<2:59:03,  1.54it/s]Training 1/3 epoch (loss 0.1139):   2%|▏         | 423/16950 [08:43<2:48:45,  1.63it/s]Training 1/3 epoch (loss 0.0947):   2%|▏         | 423/16950 [08:43<2:48:45,  1.63it/s]Training 1/3 epoch (loss 0.0947):   3%|▎         | 424/16950 [08:43<2:54:06,  1.58it/s]Training 1/3 epoch (loss 0.0140):   3%|▎         | 424/16950 [08:44<2:54:06,  1.58it/s]Training 1/3 epoch (loss 0.0140):   3%|▎         | 425/16950 [08:44<2:47:02,  1.65it/s]Training 1/3 epoch (loss 0.0878):   3%|▎         | 425/16950 [08:44<2:47:02,  1.65it/s]Training 1/3 epoch (loss 0.0878):   3%|▎         | 426/16950 [08:44<2:30:46,  1.83it/s]Training 1/3 epoch (loss 0.0086):   3%|▎         | 426/16950 [08:45<2:30:46,  1.83it/s]Training 1/3 epoch (loss 0.0086):   3%|▎         | 427/16950 [08:45<2:28:21,  1.86it/s]Training 1/3 epoch (loss 0.6423):   3%|▎         | 427/16950 [08:45<2:28:21,  1.86it/s]Training 1/3 epoch (loss 0.6423):   3%|▎         | 428/16950 [08:45<2:39:31,  1.73it/s]Training 1/3 epoch (loss 0.2160):   3%|▎         | 428/16950 [08:46<2:39:31,  1.73it/s]Training 1/3 epoch (loss 0.2160):   3%|▎         | 429/16950 [08:46<2:46:53,  1.65it/s]Training 1/3 epoch (loss 0.1489):   3%|▎         | 429/16950 [08:46<2:46:53,  1.65it/s]Training 1/3 epoch (loss 0.1489):   3%|▎         | 430/16950 [08:46<2:28:31,  1.85it/s]Training 1/3 epoch (loss 0.8624):   3%|▎         | 430/16950 [08:47<2:28:31,  1.85it/s]Training 1/3 epoch (loss 0.8624):   3%|▎         | 431/16950 [08:47<2:28:58,  1.85it/s]Training 1/3 epoch (loss 0.6535):   3%|▎         | 431/16950 [08:48<2:28:58,  1.85it/s]Training 1/3 epoch (loss 0.6535):   3%|▎         | 432/16950 [08:48<3:01:07,  1.52it/s]Training 1/3 epoch (loss 1.0275):   3%|▎         | 432/16950 [08:49<3:01:07,  1.52it/s]Training 1/3 epoch (loss 1.0275):   3%|▎         | 433/16950 [08:49<3:01:30,  1.52it/s]Training 1/3 epoch (loss 0.5723):   3%|▎         | 433/16950 [08:49<3:01:30,  1.52it/s]Training 1/3 epoch (loss 0.5723):   3%|▎         | 434/16950 [08:49<3:02:31,  1.51it/s]Training 1/3 epoch (loss 0.4909):   3%|▎         | 434/16950 [08:50<3:02:31,  1.51it/s]Training 1/3 epoch (loss 0.4909):   3%|▎         | 435/16950 [08:50<3:29:09,  1.32it/s]Training 1/3 epoch (loss 0.5852):   3%|▎         | 435/16950 [08:51<3:29:09,  1.32it/s]Training 1/3 epoch (loss 0.5852):   3%|▎         | 436/16950 [08:51<3:17:29,  1.39it/s]Training 1/3 epoch (loss 0.0026):   3%|▎         | 436/16950 [08:51<3:17:29,  1.39it/s]Training 1/3 epoch (loss 0.0026):   3%|▎         | 437/16950 [08:51<2:46:17,  1.66it/s]Training 1/3 epoch (loss 0.0769):   3%|▎         | 437/16950 [08:52<2:46:17,  1.66it/s]Training 1/3 epoch (loss 0.0769):   3%|▎         | 438/16950 [08:52<2:54:22,  1.58it/s]Training 1/3 epoch (loss 0.5971):   3%|▎         | 438/16950 [08:53<2:54:22,  1.58it/s]Training 1/3 epoch (loss 0.5971):   3%|▎         | 439/16950 [08:53<3:35:48,  1.28it/s]Training 1/3 epoch (loss 1.1821):   3%|▎         | 439/16950 [08:54<3:35:48,  1.28it/s]Training 1/3 epoch (loss 1.1821):   3%|▎         | 440/16950 [08:54<3:23:58,  1.35it/s]Training 1/3 epoch (loss 0.7431):   3%|▎         | 440/16950 [08:55<3:23:58,  1.35it/s]Training 1/3 epoch (loss 0.7431):   3%|▎         | 441/16950 [08:55<3:36:13,  1.27it/s]Training 1/3 epoch (loss 0.0564):   3%|▎         | 441/16950 [08:55<3:36:13,  1.27it/s]Training 1/3 epoch (loss 0.0564):   3%|▎         | 442/16950 [08:55<3:21:22,  1.37it/s]Training 1/3 epoch (loss 0.0345):   3%|▎         | 442/16950 [08:56<3:21:22,  1.37it/s]Training 1/3 epoch (loss 0.0345):   3%|▎         | 443/16950 [08:56<2:58:06,  1.54it/s]Training 1/3 epoch (loss 0.2023):   3%|▎         | 443/16950 [08:56<2:58:06,  1.54it/s]Training 1/3 epoch (loss 0.2023):   3%|▎         | 444/16950 [08:56<2:54:07,  1.58it/s]Training 1/3 epoch (loss 0.2538):   3%|▎         | 444/16950 [08:57<2:54:07,  1.58it/s]Training 1/3 epoch (loss 0.2538):   3%|▎         | 445/16950 [08:57<2:54:19,  1.58it/s]Training 1/3 epoch (loss 0.1291):   3%|▎         | 445/16950 [08:57<2:54:19,  1.58it/s]Training 1/3 epoch (loss 0.1291):   3%|▎         | 446/16950 [08:57<2:53:45,  1.58it/s]Training 1/3 epoch (loss 0.0758):   3%|▎         | 446/16950 [08:58<2:53:45,  1.58it/s]Training 1/3 epoch (loss 0.0758):   3%|▎         | 447/16950 [08:58<2:57:20,  1.55it/s]Training 1/3 epoch (loss 0.1241):   3%|▎         | 447/16950 [08:59<2:57:20,  1.55it/s]Training 1/3 epoch (loss 0.1241):   3%|▎         | 448/16950 [08:59<2:42:33,  1.69it/s]Training 1/3 epoch (loss 0.1470):   3%|▎         | 448/16950 [08:59<2:42:33,  1.69it/s]Training 1/3 epoch (loss 0.1470):   3%|▎         | 449/16950 [08:59<2:43:19,  1.68it/s]Training 1/3 epoch (loss 0.1600):   3%|▎         | 449/16950 [09:00<2:43:19,  1.68it/s]Training 1/3 epoch (loss 0.1600):   3%|▎         | 450/16950 [09:00<2:49:33,  1.62it/s]Training 1/3 epoch (loss 0.0416):   3%|▎         | 450/16950 [09:01<2:49:33,  1.62it/s]Training 1/3 epoch (loss 0.0416):   3%|▎         | 451/16950 [09:01<3:11:38,  1.43it/s]Training 1/3 epoch (loss 0.5825):   3%|▎         | 451/16950 [09:02<3:11:38,  1.43it/s]Training 1/3 epoch (loss 0.5825):   3%|▎         | 452/16950 [09:02<3:13:52,  1.42it/s]Training 1/3 epoch (loss 0.0103):   3%|▎         | 452/16950 [09:02<3:13:52,  1.42it/s]Training 1/3 epoch (loss 0.0103):   3%|▎         | 453/16950 [09:02<2:58:28,  1.54it/s]Training 1/3 epoch (loss 0.1474):   3%|▎         | 453/16950 [09:03<2:58:28,  1.54it/s]Training 1/3 epoch (loss 0.1474):   3%|▎         | 454/16950 [09:03<3:22:28,  1.36it/s]Training 1/3 epoch (loss 0.2252):   3%|▎         | 454/16950 [09:04<3:22:28,  1.36it/s]Training 1/3 epoch (loss 0.2252):   3%|▎         | 455/16950 [09:04<3:06:34,  1.47it/s]Training 1/3 epoch (loss 1.7192):   3%|▎         | 455/16950 [09:04<3:06:34,  1.47it/s]Training 1/3 epoch (loss 1.7192):   3%|▎         | 456/16950 [09:04<2:51:04,  1.61it/s]Training 1/3 epoch (loss 0.1008):   3%|▎         | 456/16950 [09:05<2:51:04,  1.61it/s]Training 1/3 epoch (loss 0.1008):   3%|▎         | 457/16950 [09:05<2:59:36,  1.53it/s]Training 1/3 epoch (loss 1.6252):   3%|▎         | 457/16950 [09:06<2:59:36,  1.53it/s]Training 1/3 epoch (loss 1.6252):   3%|▎         | 458/16950 [09:06<3:16:40,  1.40it/s]Training 1/3 epoch (loss 0.0428):   3%|▎         | 458/16950 [09:06<3:16:40,  1.40it/s]Training 1/3 epoch (loss 0.0428):   3%|▎         | 459/16950 [09:06<3:06:10,  1.48it/s]Training 1/3 epoch (loss 0.0356):   3%|▎         | 459/16950 [09:07<3:06:10,  1.48it/s]Training 1/3 epoch (loss 0.0356):   3%|▎         | 460/16950 [09:07<2:47:02,  1.65it/s]Training 1/3 epoch (loss 0.3344):   3%|▎         | 460/16950 [09:08<2:47:02,  1.65it/s]Training 1/3 epoch (loss 0.3344):   3%|▎         | 461/16950 [09:08<3:09:17,  1.45it/s]Training 1/3 epoch (loss 0.1966):   3%|▎         | 461/16950 [09:08<3:09:17,  1.45it/s]Training 1/3 epoch (loss 0.1966):   3%|▎         | 462/16950 [09:08<3:21:13,  1.37it/s]Training 1/3 epoch (loss 0.3320):   3%|▎         | 462/16950 [09:09<3:21:13,  1.37it/s]Training 1/3 epoch (loss 0.3320):   3%|▎         | 463/16950 [09:09<3:05:07,  1.48it/s]Training 1/3 epoch (loss 1.1764):   3%|▎         | 463/16950 [09:10<3:05:07,  1.48it/s]Training 1/3 epoch (loss 1.1764):   3%|▎         | 464/16950 [09:10<3:03:06,  1.50it/s]Training 1/3 epoch (loss 1.1289):   3%|▎         | 464/16950 [09:10<3:03:06,  1.50it/s]Training 1/3 epoch (loss 1.1289):   3%|▎         | 465/16950 [09:10<2:53:29,  1.58it/s]Training 1/3 epoch (loss 0.7698):   3%|▎         | 465/16950 [09:11<2:53:29,  1.58it/s]Training 1/3 epoch (loss 0.7698):   3%|▎         | 466/16950 [09:11<2:38:59,  1.73it/s]Training 1/3 epoch (loss 1.0314):   3%|▎         | 466/16950 [09:11<2:38:59,  1.73it/s]Training 1/3 epoch (loss 1.0314):   3%|▎         | 467/16950 [09:11<2:34:36,  1.78it/s]Training 1/3 epoch (loss 0.1895):   3%|▎         | 467/16950 [09:12<2:34:36,  1.78it/s]Training 1/3 epoch (loss 0.1895):   3%|▎         | 468/16950 [09:12<2:44:16,  1.67it/s]Training 1/3 epoch (loss 0.2168):   3%|▎         | 468/16950 [09:12<2:44:16,  1.67it/s]Training 1/3 epoch (loss 0.2168):   3%|▎         | 469/16950 [09:12<2:52:55,  1.59it/s]Training 1/3 epoch (loss 0.4617):   3%|▎         | 469/16950 [09:13<2:52:55,  1.59it/s]Training 1/3 epoch (loss 0.4617):   3%|▎         | 470/16950 [09:13<2:40:31,  1.71it/s]Training 1/3 epoch (loss 0.7280):   3%|▎         | 470/16950 [09:13<2:40:31,  1.71it/s]Training 1/3 epoch (loss 0.7280):   3%|▎         | 471/16950 [09:13<2:31:14,  1.82it/s]Training 1/3 epoch (loss 0.9844):   3%|▎         | 471/16950 [09:14<2:31:14,  1.82it/s]Training 1/3 epoch (loss 0.9844):   3%|▎         | 472/16950 [09:14<2:17:35,  2.00it/s]Training 1/3 epoch (loss 0.6171):   3%|▎         | 472/16950 [09:14<2:17:35,  2.00it/s]Training 1/3 epoch (loss 0.6171):   3%|▎         | 473/16950 [09:14<2:17:15,  2.00it/s]Training 1/3 epoch (loss 1.0720):   3%|▎         | 473/16950 [09:15<2:17:15,  2.00it/s]Training 1/3 epoch (loss 1.0720):   3%|▎         | 474/16950 [09:15<2:05:23,  2.19it/s]Training 1/3 epoch (loss 0.7994):   3%|▎         | 474/16950 [09:15<2:05:23,  2.19it/s]Training 1/3 epoch (loss 0.7994):   3%|▎         | 475/16950 [09:15<2:21:55,  1.93it/s]Training 1/3 epoch (loss 0.6384):   3%|▎         | 475/16950 [09:16<2:21:55,  1.93it/s]Training 1/3 epoch (loss 0.6384):   3%|▎         | 476/16950 [09:16<2:31:24,  1.81it/s]Training 1/3 epoch (loss 0.0486):   3%|▎         | 476/16950 [09:16<2:31:24,  1.81it/s]Training 1/3 epoch (loss 0.0486):   3%|▎         | 477/16950 [09:16<2:20:33,  1.95it/s]Training 1/3 epoch (loss 0.0691):   3%|▎         | 477/16950 [09:17<2:20:33,  1.95it/s]Training 1/3 epoch (loss 0.0691):   3%|▎         | 478/16950 [09:17<2:10:24,  2.11it/s]Training 1/3 epoch (loss 0.0741):   3%|▎         | 478/16950 [09:17<2:10:24,  2.11it/s]Training 1/3 epoch (loss 0.0741):   3%|▎         | 479/16950 [09:17<2:19:23,  1.97it/s]Training 1/3 epoch (loss 0.7302):   3%|▎         | 479/16950 [09:18<2:19:23,  1.97it/s]Training 1/3 epoch (loss 0.7302):   3%|▎         | 480/16950 [09:18<2:15:41,  2.02it/s]Training 1/3 epoch (loss 0.1481):   3%|▎         | 480/16950 [09:18<2:15:41,  2.02it/s]Training 1/3 epoch (loss 0.1481):   3%|▎         | 481/16950 [09:18<2:26:41,  1.87it/s]Training 1/3 epoch (loss 0.0528):   3%|▎         | 481/16950 [09:19<2:26:41,  1.87it/s]Training 1/3 epoch (loss 0.0528):   3%|▎         | 482/16950 [09:19<2:25:36,  1.88it/s]Training 1/3 epoch (loss 0.0843):   3%|▎         | 482/16950 [09:19<2:25:36,  1.88it/s]Training 1/3 epoch (loss 0.0843):   3%|▎         | 483/16950 [09:19<2:18:19,  1.98it/s]Training 1/3 epoch (loss 0.0304):   3%|▎         | 483/16950 [09:20<2:18:19,  1.98it/s]Training 1/3 epoch (loss 0.0304):   3%|▎         | 484/16950 [09:20<2:11:03,  2.09it/s]Training 1/3 epoch (loss 0.5070):   3%|▎         | 484/16950 [09:20<2:11:03,  2.09it/s]Training 1/3 epoch (loss 0.5070):   3%|▎         | 485/16950 [09:20<2:17:19,  2.00it/s]Training 1/3 epoch (loss 0.3942):   3%|▎         | 485/16950 [09:21<2:17:19,  2.00it/s]Training 1/3 epoch (loss 0.3942):   3%|▎         | 486/16950 [09:21<2:23:08,  1.92it/s]Training 1/3 epoch (loss 0.5856):   3%|▎         | 486/16950 [09:22<2:23:08,  1.92it/s]Training 1/3 epoch (loss 0.5856):   3%|▎         | 487/16950 [09:22<2:33:59,  1.78it/s]Training 1/3 epoch (loss 0.9463):   3%|▎         | 487/16950 [09:22<2:33:59,  1.78it/s]Training 1/3 epoch (loss 0.9463):   3%|▎         | 488/16950 [09:22<2:16:11,  2.01it/s]Training 1/3 epoch (loss 0.1532):   3%|▎         | 488/16950 [09:23<2:16:11,  2.01it/s]Training 1/3 epoch (loss 0.1532):   3%|▎         | 489/16950 [09:23<2:25:16,  1.89it/s]Training 1/3 epoch (loss 0.7261):   3%|▎         | 489/16950 [09:23<2:25:16,  1.89it/s]Training 1/3 epoch (loss 0.7261):   3%|▎         | 490/16950 [09:23<2:22:03,  1.93it/s]Training 1/3 epoch (loss 0.6320):   3%|▎         | 490/16950 [09:23<2:22:03,  1.93it/s]Training 1/3 epoch (loss 0.6320):   3%|▎         | 491/16950 [09:23<2:14:25,  2.04it/s]Training 1/3 epoch (loss 0.0034):   3%|▎         | 491/16950 [09:24<2:14:25,  2.04it/s]Training 1/3 epoch (loss 0.0034):   3%|▎         | 492/16950 [09:24<2:16:17,  2.01it/s]Training 1/3 epoch (loss 0.9605):   3%|▎         | 492/16950 [09:24<2:16:17,  2.01it/s]Training 1/3 epoch (loss 0.9605):   3%|▎         | 493/16950 [09:24<2:02:48,  2.23it/s]Training 1/3 epoch (loss 0.0180):   3%|▎         | 493/16950 [09:25<2:02:48,  2.23it/s]Training 1/3 epoch (loss 0.0180):   3%|▎         | 494/16950 [09:25<2:17:47,  1.99it/s]Training 1/3 epoch (loss 0.0341):   3%|▎         | 494/16950 [09:26<2:17:47,  1.99it/s]Training 1/3 epoch (loss 0.0341):   3%|▎         | 495/16950 [09:26<2:32:57,  1.79it/s]Training 1/3 epoch (loss 0.0576):   3%|▎         | 495/16950 [09:26<2:32:57,  1.79it/s]Training 1/3 epoch (loss 0.0576):   3%|▎         | 496/16950 [09:26<2:45:17,  1.66it/s]Training 1/3 epoch (loss 0.0405):   3%|▎         | 496/16950 [09:27<2:45:17,  1.66it/s]Training 1/3 epoch (loss 0.0405):   3%|▎         | 497/16950 [09:27<2:41:39,  1.70it/s]Training 1/3 epoch (loss 0.9983):   3%|▎         | 497/16950 [09:28<2:41:39,  1.70it/s]Training 1/3 epoch (loss 0.9983):   3%|▎         | 498/16950 [09:28<2:46:34,  1.65it/s]Training 1/3 epoch (loss 0.3020):   3%|▎         | 498/16950 [09:28<2:46:34,  1.65it/s]Training 1/3 epoch (loss 0.3020):   3%|▎         | 499/16950 [09:28<2:37:15,  1.74it/s]Training 1/3 epoch (loss 0.4830):   3%|▎         | 499/16950 [09:29<2:37:15,  1.74it/s]Training 1/3 epoch (loss 0.4830):   3%|▎         | 500/16950 [09:29<2:45:04,  1.66it/s]Training 1/3 epoch (loss 0.5145):   3%|▎         | 500/16950 [09:29<2:45:04,  1.66it/s]Training 1/3 epoch (loss 0.5145):   3%|▎         | 501/16950 [09:29<2:35:32,  1.76it/s]Training 1/3 epoch (loss 0.0181):   3%|▎         | 501/16950 [09:30<2:35:32,  1.76it/s]Training 1/3 epoch (loss 0.0181):   3%|▎         | 502/16950 [09:30<2:40:47,  1.70it/s]Training 1/3 epoch (loss 0.9855):   3%|▎         | 502/16950 [09:30<2:40:47,  1.70it/s]Training 1/3 epoch (loss 0.9855):   3%|▎         | 503/16950 [09:30<2:37:33,  1.74it/s]Training 1/3 epoch (loss 0.1147):   3%|▎         | 503/16950 [09:31<2:37:33,  1.74it/s]Training 1/3 epoch (loss 0.1147):   3%|▎         | 504/16950 [09:31<2:41:57,  1.69it/s]Training 1/3 epoch (loss 0.0424):   3%|▎         | 504/16950 [09:31<2:41:57,  1.69it/s]Training 1/3 epoch (loss 0.0424):   3%|▎         | 505/16950 [09:31<2:31:24,  1.81it/s]Training 1/3 epoch (loss 0.0056):   3%|▎         | 505/16950 [09:32<2:31:24,  1.81it/s]Training 1/3 epoch (loss 0.0056):   3%|▎         | 506/16950 [09:32<2:17:05,  2.00it/s]Training 1/3 epoch (loss 0.6528):   3%|▎         | 506/16950 [09:33<2:17:05,  2.00it/s]Training 1/3 epoch (loss 0.6528):   3%|▎         | 507/16950 [09:33<2:33:29,  1.79it/s]Training 1/3 epoch (loss 0.0137):   3%|▎         | 507/16950 [09:33<2:33:29,  1.79it/s]Training 1/3 epoch (loss 0.0137):   3%|▎         | 508/16950 [09:33<2:47:41,  1.63it/s]Training 1/3 epoch (loss 0.0300):   3%|▎         | 508/16950 [09:34<2:47:41,  1.63it/s]Training 1/3 epoch (loss 0.0300):   3%|▎         | 509/16950 [09:34<3:22:20,  1.35it/s]Training 1/3 epoch (loss 0.3908):   3%|▎         | 509/16950 [09:35<3:22:20,  1.35it/s]Training 1/3 epoch (loss 0.3908):   3%|▎         | 510/16950 [09:35<3:25:44,  1.33it/s]Training 1/3 epoch (loss 0.0839):   3%|▎         | 510/16950 [09:35<3:25:44,  1.33it/s]Training 1/3 epoch (loss 0.0839):   3%|▎         | 511/16950 [09:35<3:00:53,  1.51it/s]Training 1/3 epoch (loss 0.0244):   3%|▎         | 511/16950 [09:36<3:00:53,  1.51it/s]Training 1/3 epoch (loss 0.0244):   3%|▎         | 512/16950 [09:36<2:57:48,  1.54it/s]Training 1/3 epoch (loss 0.0411):   3%|▎         | 512/16950 [09:37<2:57:48,  1.54it/s]Training 1/3 epoch (loss 0.0411):   3%|▎         | 513/16950 [09:37<3:03:11,  1.50it/s]Training 1/3 epoch (loss 1.0126):   3%|▎         | 513/16950 [09:38<3:03:11,  1.50it/s]Training 1/3 epoch (loss 1.0126):   3%|▎         | 514/16950 [09:38<3:11:37,  1.43it/s]Training 1/3 epoch (loss 0.5266):   3%|▎         | 514/16950 [09:39<3:11:37,  1.43it/s]Training 1/3 epoch (loss 0.5266):   3%|▎         | 515/16950 [09:39<3:29:53,  1.31it/s]Training 1/3 epoch (loss 0.7072):   3%|▎         | 515/16950 [09:39<3:29:53,  1.31it/s]Training 1/3 epoch (loss 0.7072):   3%|▎         | 516/16950 [09:39<3:09:17,  1.45it/s]Training 1/3 epoch (loss 1.3377):   3%|▎         | 516/16950 [09:40<3:09:17,  1.45it/s]Training 1/3 epoch (loss 1.3377):   3%|▎         | 517/16950 [09:40<3:06:34,  1.47it/s]Training 1/3 epoch (loss 0.1097):   3%|▎         | 517/16950 [09:40<3:06:34,  1.47it/s]Training 1/3 epoch (loss 0.1097):   3%|▎         | 518/16950 [09:40<2:39:28,  1.72it/s]Training 1/3 epoch (loss 0.7109):   3%|▎         | 518/16950 [09:41<2:39:28,  1.72it/s]Training 1/3 epoch (loss 0.7109):   3%|▎         | 519/16950 [09:41<2:38:43,  1.73it/s]Training 1/3 epoch (loss 0.7906):   3%|▎         | 519/16950 [09:41<2:38:43,  1.73it/s]Training 1/3 epoch (loss 0.7906):   3%|▎         | 520/16950 [09:41<2:36:50,  1.75it/s]Training 1/3 epoch (loss 0.1468):   3%|▎         | 520/16950 [09:42<2:36:50,  1.75it/s]Training 1/3 epoch (loss 0.1468):   3%|▎         | 521/16950 [09:42<2:45:22,  1.66it/s]Training 1/3 epoch (loss 0.0279):   3%|▎         | 521/16950 [09:42<2:45:22,  1.66it/s]Training 1/3 epoch (loss 0.0279):   3%|▎         | 522/16950 [09:42<2:45:26,  1.65it/s]Training 1/3 epoch (loss 0.3378):   3%|▎         | 522/16950 [09:43<2:45:26,  1.65it/s]Training 1/3 epoch (loss 0.3378):   3%|▎         | 523/16950 [09:43<2:56:12,  1.55it/s]Training 1/3 epoch (loss 0.0535):   3%|▎         | 523/16950 [09:44<2:56:12,  1.55it/s]Training 1/3 epoch (loss 0.0535):   3%|▎         | 524/16950 [09:44<2:55:20,  1.56it/s]Training 1/3 epoch (loss 0.1133):   3%|▎         | 524/16950 [09:45<2:55:20,  1.56it/s]Training 1/3 epoch (loss 0.1133):   3%|▎         | 525/16950 [09:45<3:20:24,  1.37it/s]Training 1/3 epoch (loss 0.4908):   3%|▎         | 525/16950 [09:46<3:20:24,  1.37it/s]Training 1/3 epoch (loss 0.4908):   3%|▎         | 526/16950 [09:46<3:47:36,  1.20it/s]Training 1/3 epoch (loss 0.0130):   3%|▎         | 526/16950 [09:46<3:47:36,  1.20it/s]Training 1/3 epoch (loss 0.0130):   3%|▎         | 527/16950 [09:46<3:26:09,  1.33it/s]Training 1/3 epoch (loss 0.1347):   3%|▎         | 527/16950 [09:47<3:26:09,  1.33it/s]Training 1/3 epoch (loss 0.1347):   3%|▎         | 528/16950 [09:47<3:26:33,  1.33it/s]Training 1/3 epoch (loss 0.7277):   3%|▎         | 528/16950 [09:48<3:26:33,  1.33it/s]Training 1/3 epoch (loss 0.7277):   3%|▎         | 529/16950 [09:48<3:08:27,  1.45it/s]Training 1/3 epoch (loss 0.6072):   3%|▎         | 529/16950 [09:48<3:08:27,  1.45it/s]Training 1/3 epoch (loss 0.6072):   3%|▎         | 530/16950 [09:48<2:54:12,  1.57it/s]Training 1/3 epoch (loss 0.5312):   3%|▎         | 530/16950 [09:49<2:54:12,  1.57it/s]Training 1/3 epoch (loss 0.5312):   3%|▎         | 531/16950 [09:49<2:43:38,  1.67it/s]Training 1/3 epoch (loss 1.4050):   3%|▎         | 531/16950 [09:49<2:43:38,  1.67it/s]Training 1/3 epoch (loss 1.4050):   3%|▎         | 532/16950 [09:49<2:38:52,  1.72it/s]Training 1/3 epoch (loss 0.2963):   3%|▎         | 532/16950 [09:50<2:38:52,  1.72it/s]Training 1/3 epoch (loss 0.2963):   3%|▎         | 533/16950 [09:50<2:44:47,  1.66it/s]Training 1/3 epoch (loss 0.0076):   3%|▎         | 533/16950 [09:50<2:44:47,  1.66it/s]Training 1/3 epoch (loss 0.0076):   3%|▎         | 534/16950 [09:50<2:27:19,  1.86it/s]Training 1/3 epoch (loss 0.1156):   3%|▎         | 534/16950 [09:51<2:27:19,  1.86it/s]Training 1/3 epoch (loss 0.1156):   3%|▎         | 535/16950 [09:51<2:27:07,  1.86it/s]Training 1/3 epoch (loss 0.1665):   3%|▎         | 535/16950 [09:51<2:27:07,  1.86it/s]Training 1/3 epoch (loss 0.1665):   3%|▎         | 536/16950 [09:51<2:25:14,  1.88it/s]Training 1/3 epoch (loss 0.1247):   3%|▎         | 536/16950 [09:52<2:25:14,  1.88it/s]Training 1/3 epoch (loss 0.1247):   3%|▎         | 537/16950 [09:52<2:35:17,  1.76it/s]Training 1/3 epoch (loss 0.0550):   3%|▎         | 537/16950 [09:53<2:35:17,  1.76it/s]Training 1/3 epoch (loss 0.0550):   3%|▎         | 538/16950 [09:53<2:49:03,  1.62it/s]Training 1/3 epoch (loss 1.4528):   3%|▎         | 538/16950 [09:53<2:49:03,  1.62it/s]Training 1/3 epoch (loss 1.4528):   3%|▎         | 539/16950 [09:53<2:32:49,  1.79it/s]Training 1/3 epoch (loss 0.4254):   3%|▎         | 539/16950 [09:54<2:32:49,  1.79it/s]Training 1/3 epoch (loss 0.4254):   3%|▎         | 540/16950 [09:54<2:15:30,  2.02it/s]Training 1/3 epoch (loss 0.0365):   3%|▎         | 540/16950 [09:54<2:15:30,  2.02it/s]Training 1/3 epoch (loss 0.0365):   3%|▎         | 541/16950 [09:54<2:22:56,  1.91it/s]Training 1/3 epoch (loss 0.0668):   3%|▎         | 541/16950 [09:55<2:22:56,  1.91it/s]Training 1/3 epoch (loss 0.0668):   3%|▎         | 542/16950 [09:55<2:13:11,  2.05it/s]Training 1/3 epoch (loss 0.0240):   3%|▎         | 542/16950 [09:55<2:13:11,  2.05it/s]Training 1/3 epoch (loss 0.0240):   3%|▎         | 543/16950 [09:55<2:06:18,  2.17it/s]Training 1/3 epoch (loss 0.0223):   3%|▎         | 543/16950 [09:55<2:06:18,  2.17it/s]Training 1/3 epoch (loss 0.0223):   3%|▎         | 544/16950 [09:55<2:09:02,  2.12it/s]Training 1/3 epoch (loss 0.4001):   3%|▎         | 544/16950 [09:56<2:09:02,  2.12it/s]Training 1/3 epoch (loss 0.4001):   3%|▎         | 545/16950 [09:56<2:04:46,  2.19it/s]Training 1/3 epoch (loss 0.0362):   3%|▎         | 545/16950 [09:56<2:04:46,  2.19it/s]Training 1/3 epoch (loss 0.0362):   3%|▎         | 546/16950 [09:56<2:07:46,  2.14it/s]Training 1/3 epoch (loss 0.5614):   3%|▎         | 546/16950 [09:57<2:07:46,  2.14it/s]Training 1/3 epoch (loss 0.5614):   3%|▎         | 547/16950 [09:57<2:10:19,  2.10it/s]Training 1/3 epoch (loss 0.7253):   3%|▎         | 547/16950 [09:57<2:10:19,  2.10it/s]Training 1/3 epoch (loss 0.7253):   3%|▎         | 548/16950 [09:57<2:24:44,  1.89it/s]Training 1/3 epoch (loss 0.0061):   3%|▎         | 548/16950 [09:58<2:24:44,  1.89it/s]Training 1/3 epoch (loss 0.0061):   3%|▎         | 549/16950 [09:58<2:15:58,  2.01it/s]Training 1/3 epoch (loss 0.4385):   3%|▎         | 549/16950 [09:58<2:15:58,  2.01it/s]Training 1/3 epoch (loss 0.4385):   3%|▎         | 550/16950 [09:58<2:19:29,  1.96it/s]Training 1/3 epoch (loss 0.0782):   3%|▎         | 550/16950 [09:59<2:19:29,  1.96it/s]Training 1/3 epoch (loss 0.0782):   3%|▎         | 551/16950 [09:59<2:10:57,  2.09it/s]Training 1/3 epoch (loss 0.0114):   3%|▎         | 551/16950 [09:59<2:10:57,  2.09it/s]Training 1/3 epoch (loss 0.0114):   3%|▎         | 552/16950 [09:59<2:08:04,  2.13it/s]Training 1/3 epoch (loss 0.7816):   3%|▎         | 552/16950 [10:00<2:08:04,  2.13it/s]Training 1/3 epoch (loss 0.7816):   3%|▎         | 553/16950 [10:00<2:30:54,  1.81it/s]Training 1/3 epoch (loss 0.8790):   3%|▎         | 553/16950 [10:01<2:30:54,  1.81it/s]Training 1/3 epoch (loss 0.8790):   3%|▎         | 554/16950 [10:01<2:26:37,  1.86it/s]Training 1/3 epoch (loss 0.2432):   3%|▎         | 554/16950 [10:01<2:26:37,  1.86it/s]Training 1/3 epoch (loss 0.2432):   3%|▎         | 555/16950 [10:01<2:19:36,  1.96it/s]Training 1/3 epoch (loss 0.5745):   3%|▎         | 555/16950 [10:02<2:19:36,  1.96it/s]Training 1/3 epoch (loss 0.5745):   3%|▎         | 556/16950 [10:02<2:23:56,  1.90it/s]Training 1/3 epoch (loss 0.0273):   3%|▎         | 556/16950 [10:02<2:23:56,  1.90it/s]Training 1/3 epoch (loss 0.0273):   3%|▎         | 557/16950 [10:02<2:37:32,  1.73it/s]Training 1/3 epoch (loss 0.0709):   3%|▎         | 557/16950 [10:03<2:37:32,  1.73it/s]Training 1/3 epoch (loss 0.0709):   3%|▎         | 558/16950 [10:03<2:41:01,  1.70it/s]Training 1/3 epoch (loss 0.6080):   3%|▎         | 558/16950 [10:03<2:41:01,  1.70it/s]Training 1/3 epoch (loss 0.6080):   3%|▎         | 559/16950 [10:03<2:37:43,  1.73it/s]Training 1/3 epoch (loss 0.0465):   3%|▎         | 559/16950 [10:04<2:37:43,  1.73it/s]Training 1/3 epoch (loss 0.0465):   3%|▎         | 560/16950 [10:04<2:46:32,  1.64it/s]Training 1/3 epoch (loss nan):   3%|▎         | 560/16950 [10:05<2:46:32,  1.64it/s]   Training 1/3 epoch (loss nan):   3%|▎         | 561/16950 [10:05<3:29:03,  1.31it/s]Training 1/3 epoch (loss 0.0653):   3%|▎         | 561/16950 [10:06<3:29:03,  1.31it/s]Training 1/3 epoch (loss 0.0653):   3%|▎         | 562/16950 [10:06<3:27:45,  1.31it/s]Training 1/3 epoch (loss 0.1296):   3%|▎         | 562/16950 [10:07<3:27:45,  1.31it/s]Training 1/3 epoch (loss 0.1296):   3%|▎         | 563/16950 [10:07<3:17:11,  1.39it/s]Training 1/3 epoch (loss 0.7643):   3%|▎         | 563/16950 [10:07<3:17:11,  1.39it/s]Training 1/3 epoch (loss 0.7643):   3%|▎         | 564/16950 [10:07<3:00:08,  1.52it/s]Training 1/3 epoch (loss 0.8086):   3%|▎         | 564/16950 [10:07<3:00:08,  1.52it/s]Training 1/3 epoch (loss 0.8086):   3%|▎         | 565/16950 [10:07<2:31:31,  1.80it/s]Training 1/3 epoch (loss 0.0185):   3%|▎         | 565/16950 [10:08<2:31:31,  1.80it/s]Training 1/3 epoch (loss 0.0185):   3%|▎         | 566/16950 [10:08<2:13:07,  2.05it/s]Training 1/3 epoch (loss 0.5439):   3%|▎         | 566/16950 [10:08<2:13:07,  2.05it/s]Training 1/3 epoch (loss 0.5439):   3%|▎         | 567/16950 [10:08<2:30:32,  1.81it/s]Training 1/3 epoch (loss 0.0132):   3%|▎         | 567/16950 [10:09<2:30:32,  1.81it/s]Training 1/3 epoch (loss 0.0132):   3%|▎         | 568/16950 [10:09<2:31:04,  1.81it/s]Training 1/3 epoch (loss 0.6128):   3%|▎         | 568/16950 [10:09<2:31:04,  1.81it/s]Training 1/3 epoch (loss 0.6128):   3%|▎         | 569/16950 [10:09<2:24:49,  1.89it/s]Training 1/3 epoch (loss 0.7801):   3%|▎         | 569/16950 [10:10<2:24:49,  1.89it/s]Training 1/3 epoch (loss 0.7801):   3%|▎         | 570/16950 [10:10<2:17:25,  1.99it/s]Training 1/3 epoch (loss 0.6553):   3%|▎         | 570/16950 [10:11<2:17:25,  1.99it/s]Training 1/3 epoch (loss 0.6553):   3%|▎         | 571/16950 [10:11<2:59:57,  1.52it/s]Training 1/3 epoch (loss 0.0814):   3%|▎         | 571/16950 [10:12<2:59:57,  1.52it/s]Training 1/3 epoch (loss 0.0814):   3%|▎         | 572/16950 [10:12<2:58:47,  1.53it/s]Training 1/3 epoch (loss 0.6273):   3%|▎         | 572/16950 [10:12<2:58:47,  1.53it/s]Training 1/3 epoch (loss 0.6273):   3%|▎         | 573/16950 [10:12<2:43:14,  1.67it/s]Training 1/3 epoch (loss 0.0324):   3%|▎         | 573/16950 [10:12<2:43:14,  1.67it/s]Training 1/3 epoch (loss 0.0324):   3%|▎         | 574/16950 [10:12<2:25:15,  1.88it/s]Training 1/3 epoch (loss 0.0142):   3%|▎         | 574/16950 [10:13<2:25:15,  1.88it/s]Training 1/3 epoch (loss 0.0142):   3%|▎         | 575/16950 [10:13<2:15:57,  2.01it/s]Training 1/3 epoch (loss 0.6491):   3%|▎         | 575/16950 [10:13<2:15:57,  2.01it/s]Training 1/3 epoch (loss 0.6491):   3%|▎         | 576/16950 [10:13<2:15:14,  2.02it/s]Training 1/3 epoch (loss 0.0614):   3%|▎         | 576/16950 [10:14<2:15:14,  2.02it/s]Training 1/3 epoch (loss 0.0614):   3%|▎         | 577/16950 [10:14<1:58:43,  2.30it/s]Training 1/3 epoch (loss 0.4724):   3%|▎         | 577/16950 [10:14<1:58:43,  2.30it/s]Training 1/3 epoch (loss 0.4724):   3%|▎         | 578/16950 [10:14<1:57:30,  2.32it/s]Training 1/3 epoch (loss 0.2389):   3%|▎         | 578/16950 [10:15<1:57:30,  2.32it/s]Training 1/3 epoch (loss 0.2389):   3%|▎         | 579/16950 [10:15<2:17:55,  1.98it/s]Training 1/3 epoch (loss 0.9726):   3%|▎         | 579/16950 [10:15<2:17:55,  1.98it/s]Training 1/3 epoch (loss 0.9726):   3%|▎         | 580/16950 [10:15<2:34:27,  1.77it/s]Training 1/3 epoch (loss 0.0315):   3%|▎         | 580/16950 [10:16<2:34:27,  1.77it/s]Training 1/3 epoch (loss 0.0315):   3%|▎         | 581/16950 [10:16<2:27:36,  1.85it/s]Training 1/3 epoch (loss 0.1508):   3%|▎         | 581/16950 [10:16<2:27:36,  1.85it/s]Training 1/3 epoch (loss 0.1508):   3%|▎         | 582/16950 [10:16<2:23:17,  1.90it/s]Training 1/3 epoch (loss 0.0678):   3%|▎         | 582/16950 [10:17<2:23:17,  1.90it/s]Training 1/3 epoch (loss 0.0678):   3%|▎         | 583/16950 [10:17<2:19:30,  1.96it/s]Training 1/3 epoch (loss 0.6766):   3%|▎         | 583/16950 [10:18<2:19:30,  1.96it/s]Training 1/3 epoch (loss 0.6766):   3%|▎         | 584/16950 [10:18<2:40:46,  1.70it/s]Training 1/3 epoch (loss 0.4364):   3%|▎         | 584/16950 [10:18<2:40:46,  1.70it/s]Training 1/3 epoch (loss 0.4364):   3%|▎         | 585/16950 [10:18<2:43:07,  1.67it/s]Training 1/3 epoch (loss 0.3119):   3%|▎         | 585/16950 [10:19<2:43:07,  1.67it/s]Training 1/3 epoch (loss 0.3119):   3%|▎         | 586/16950 [10:19<3:00:18,  1.51it/s]Training 1/3 epoch (loss 0.0059):   3%|▎         | 586/16950 [10:20<3:00:18,  1.51it/s]Training 1/3 epoch (loss 0.0059):   3%|▎         | 587/16950 [10:20<2:54:39,  1.56it/s]Training 1/3 epoch (loss 0.8844):   3%|▎         | 587/16950 [10:20<2:54:39,  1.56it/s]Training 1/3 epoch (loss 0.8844):   3%|▎         | 588/16950 [10:20<2:43:53,  1.66it/s]Training 1/3 epoch (loss 0.0079):   3%|▎         | 588/16950 [10:21<2:43:53,  1.66it/s]Training 1/3 epoch (loss 0.0079):   3%|▎         | 589/16950 [10:21<2:30:41,  1.81it/s]Training 1/3 epoch (loss 0.7021):   3%|▎         | 589/16950 [10:21<2:30:41,  1.81it/s]Training 1/3 epoch (loss 0.7021):   3%|▎         | 590/16950 [10:21<2:28:44,  1.83it/s]Training 1/3 epoch (loss 0.0128):   3%|▎         | 590/16950 [10:22<2:28:44,  1.83it/s]Training 1/3 epoch (loss 0.0128):   3%|▎         | 591/16950 [10:22<2:29:14,  1.83it/s]Training 1/3 epoch (loss 0.7193):   3%|▎         | 591/16950 [10:23<2:29:14,  1.83it/s]Training 1/3 epoch (loss 0.7193):   3%|▎         | 592/16950 [10:23<2:59:09,  1.52it/s]Training 1/3 epoch (loss 0.0311):   3%|▎         | 592/16950 [10:23<2:59:09,  1.52it/s]Training 1/3 epoch (loss 0.0311):   3%|▎         | 593/16950 [10:23<2:48:09,  1.62it/s]Training 1/3 epoch (loss 0.0664):   3%|▎         | 593/16950 [10:24<2:48:09,  1.62it/s]Training 1/3 epoch (loss 0.0664):   4%|▎         | 594/16950 [10:24<2:52:53,  1.58it/s]Training 1/3 epoch (loss 0.2549):   4%|▎         | 594/16950 [10:25<2:52:53,  1.58it/s]Training 1/3 epoch (loss 0.2549):   4%|▎         | 595/16950 [10:25<2:55:57,  1.55it/s]Training 1/3 epoch (loss 0.5174):   4%|▎         | 595/16950 [10:25<2:55:57,  1.55it/s]Training 1/3 epoch (loss 0.5174):   4%|▎         | 596/16950 [10:25<2:35:13,  1.76it/s]Training 1/3 epoch (loss 0.0129):   4%|▎         | 596/16950 [10:26<2:35:13,  1.76it/s]Training 1/3 epoch (loss 0.0129):   4%|▎         | 597/16950 [10:26<2:39:44,  1.71it/s]Training 1/3 epoch (loss 0.4068):   4%|▎         | 597/16950 [10:26<2:39:44,  1.71it/s]Training 1/3 epoch (loss 0.4068):   4%|▎         | 598/16950 [10:26<2:54:10,  1.56it/s]Training 1/3 epoch (loss 0.1013):   4%|▎         | 598/16950 [10:27<2:54:10,  1.56it/s]Training 1/3 epoch (loss 0.1013):   4%|▎         | 599/16950 [10:27<3:03:44,  1.48it/s]Training 1/3 epoch (loss 0.4277):   4%|▎         | 599/16950 [10:28<3:03:44,  1.48it/s]Training 1/3 epoch (loss 0.4277):   4%|▎         | 600/16950 [10:28<2:58:27,  1.53it/s]Training 1/3 epoch (loss 0.7761):   4%|▎         | 600/16950 [10:29<2:58:27,  1.53it/s]Training 1/3 epoch (loss 0.7761):   4%|▎         | 601/16950 [10:29<3:16:29,  1.39it/s]Training 1/3 epoch (loss 0.1049):   4%|▎         | 601/16950 [10:29<3:16:29,  1.39it/s]Training 1/3 epoch (loss 0.1049):   4%|▎         | 602/16950 [10:29<2:52:12,  1.58it/s]Training 1/3 epoch (loss 0.6886):   4%|▎         | 602/16950 [10:30<2:52:12,  1.58it/s]Training 1/3 epoch (loss 0.6886):   4%|▎         | 603/16950 [10:30<2:51:48,  1.59it/s]Training 1/3 epoch (loss 0.0434):   4%|▎         | 603/16950 [10:30<2:51:48,  1.59it/s]Training 1/3 epoch (loss 0.0434):   4%|▎         | 604/16950 [10:30<2:45:10,  1.65it/s]Training 1/3 epoch (loss 0.0163):   4%|▎         | 604/16950 [10:31<2:45:10,  1.65it/s]Training 1/3 epoch (loss 0.0163):   4%|▎         | 605/16950 [10:31<2:47:10,  1.63it/s]Training 1/3 epoch (loss 0.6879):   4%|▎         | 605/16950 [10:31<2:47:10,  1.63it/s]Training 1/3 epoch (loss 0.6879):   4%|▎         | 606/16950 [10:31<2:48:29,  1.62it/s]Training 1/3 epoch (loss 0.0327):   4%|▎         | 606/16950 [10:32<2:48:29,  1.62it/s]Training 1/3 epoch (loss 0.0327):   4%|▎         | 607/16950 [10:32<2:42:59,  1.67it/s]Training 1/3 epoch (loss 0.0083):   4%|▎         | 607/16950 [10:33<2:42:59,  1.67it/s]Training 1/3 epoch (loss 0.0083):   4%|▎         | 608/16950 [10:33<2:46:18,  1.64it/s]Training 1/3 epoch (loss 0.7628):   4%|▎         | 608/16950 [10:33<2:46:18,  1.64it/s]Training 1/3 epoch (loss 0.7628):   4%|▎         | 609/16950 [10:33<2:41:41,  1.68it/s]Training 1/3 epoch (loss 0.6265):   4%|▎         | 609/16950 [10:34<2:41:41,  1.68it/s]Training 1/3 epoch (loss 0.6265):   4%|▎         | 610/16950 [10:34<2:28:37,  1.83it/s]Training 1/3 epoch (loss 0.1491):   4%|▎         | 610/16950 [10:34<2:28:37,  1.83it/s]Training 1/3 epoch (loss 0.1491):   4%|▎         | 611/16950 [10:34<2:27:44,  1.84it/s]Training 1/3 epoch (loss 0.6024):   4%|▎         | 611/16950 [10:35<2:27:44,  1.84it/s]Training 1/3 epoch (loss 0.6024):   4%|▎         | 612/16950 [10:35<2:15:55,  2.00it/s]Training 1/3 epoch (loss 0.3220):   4%|▎         | 612/16950 [10:35<2:15:55,  2.00it/s]Training 1/3 epoch (loss 0.3220):   4%|▎         | 613/16950 [10:35<2:13:15,  2.04it/s]Training 1/3 epoch (loss 0.7484):   4%|▎         | 613/16950 [10:36<2:13:15,  2.04it/s]Training 1/3 epoch (loss 0.7484):   4%|▎         | 614/16950 [10:36<3:05:18,  1.47it/s]Training 1/3 epoch (loss 0.0618):   4%|▎         | 614/16950 [10:37<3:05:18,  1.47it/s]Training 1/3 epoch (loss 0.0618):   4%|▎         | 615/16950 [10:37<2:51:35,  1.59it/s]Training 1/3 epoch (loss 0.2400):   4%|▎         | 615/16950 [10:37<2:51:35,  1.59it/s]Training 1/3 epoch (loss 0.2400):   4%|▎         | 616/16950 [10:37<3:00:38,  1.51it/s]Training 1/3 epoch (loss 0.0175):   4%|▎         | 616/16950 [10:38<3:00:38,  1.51it/s]Training 1/3 epoch (loss 0.0175):   4%|▎         | 617/16950 [10:38<2:51:11,  1.59it/s]Training 1/3 epoch (loss 0.3541):   4%|▎         | 617/16950 [10:38<2:51:11,  1.59it/s]Training 1/3 epoch (loss 0.3541):   4%|▎         | 618/16950 [10:38<2:39:32,  1.71it/s]Training 1/3 epoch (loss 0.0539):   4%|▎         | 618/16950 [10:39<2:39:32,  1.71it/s]Training 1/3 epoch (loss 0.0539):   4%|▎         | 619/16950 [10:39<2:41:51,  1.68it/s]Training 1/3 epoch (loss 0.5299):   4%|▎         | 619/16950 [10:39<2:41:51,  1.68it/s]Training 1/3 epoch (loss 0.5299):   4%|▎         | 620/16950 [10:39<2:29:56,  1.82it/s]Training 1/3 epoch (loss 0.0515):   4%|▎         | 620/16950 [10:40<2:29:56,  1.82it/s]Training 1/3 epoch (loss 0.0515):   4%|▎         | 621/16950 [10:40<2:37:53,  1.72it/s]Training 1/3 epoch (loss 0.3746):   4%|▎         | 621/16950 [10:41<2:37:53,  1.72it/s]Training 1/3 epoch (loss 0.3746):   4%|▎         | 622/16950 [10:41<2:36:14,  1.74it/s]Training 1/3 epoch (loss 0.1854):   4%|▎         | 622/16950 [10:41<2:36:14,  1.74it/s]Training 1/3 epoch (loss 0.1854):   4%|▎         | 623/16950 [10:41<2:46:00,  1.64it/s]Training 1/3 epoch (loss 0.7660):   4%|▎         | 623/16950 [10:42<2:46:00,  1.64it/s]Training 1/3 epoch (loss 0.7660):   4%|▎         | 624/16950 [10:42<2:51:29,  1.59it/s]Training 1/3 epoch (loss 0.0179):   4%|▎         | 624/16950 [10:43<2:51:29,  1.59it/s]Training 1/3 epoch (loss 0.0179):   4%|▎         | 625/16950 [10:43<2:45:34,  1.64it/s]Training 1/3 epoch (loss 0.1048):   4%|▎         | 625/16950 [10:43<2:45:34,  1.64it/s]Training 1/3 epoch (loss 0.1048):   4%|▎         | 626/16950 [10:43<2:37:58,  1.72it/s]Training 1/3 epoch (loss 0.5367):   4%|▎         | 626/16950 [10:44<2:37:58,  1.72it/s]Training 1/3 epoch (loss 0.5367):   4%|▎         | 627/16950 [10:44<2:32:03,  1.79it/s]Training 1/3 epoch (loss 0.4303):   4%|▎         | 627/16950 [10:44<2:32:03,  1.79it/s]Training 1/3 epoch (loss 0.4303):   4%|▎         | 628/16950 [10:44<2:55:34,  1.55it/s]Training 1/3 epoch (loss 0.3478):   4%|▎         | 628/16950 [10:45<2:55:34,  1.55it/s]Training 1/3 epoch (loss 0.3478):   4%|▎         | 629/16950 [10:45<2:46:48,  1.63it/s]Training 1/3 epoch (loss 0.8567):   4%|▎         | 629/16950 [10:46<2:46:48,  1.63it/s]Training 1/3 epoch (loss 0.8567):   4%|▎         | 630/16950 [10:46<2:50:48,  1.59it/s]Training 1/3 epoch (loss 0.0834):   4%|▎         | 630/16950 [10:46<2:50:48,  1.59it/s]Training 1/3 epoch (loss 0.0834):   4%|▎         | 631/16950 [10:46<2:32:31,  1.78it/s]Training 1/3 epoch (loss 0.0411):   4%|▎         | 631/16950 [10:47<2:32:31,  1.78it/s]Training 1/3 epoch (loss 0.0411):   4%|▎         | 632/16950 [10:47<2:40:32,  1.69it/s]Training 1/3 epoch (loss 0.1912):   4%|▎         | 632/16950 [10:47<2:40:32,  1.69it/s]Training 1/3 epoch (loss 0.1912):   4%|▎         | 633/16950 [10:47<2:28:52,  1.83it/s]Training 1/3 epoch (loss 0.1201):   4%|▎         | 633/16950 [10:48<2:28:52,  1.83it/s]Training 1/3 epoch (loss 0.1201):   4%|▎         | 634/16950 [10:48<2:32:04,  1.79it/s]Training 1/3 epoch (loss 0.0337):   4%|▎         | 634/16950 [10:48<2:32:04,  1.79it/s]Training 1/3 epoch (loss 0.0337):   4%|▎         | 635/16950 [10:48<2:29:19,  1.82it/s]Training 1/3 epoch (loss 0.0435):   4%|▎         | 635/16950 [10:49<2:29:19,  1.82it/s]Training 1/3 epoch (loss 0.0435):   4%|▍         | 636/16950 [10:49<2:35:26,  1.75it/s]Training 1/3 epoch (loss 0.4650):   4%|▍         | 636/16950 [10:49<2:35:26,  1.75it/s]Training 1/3 epoch (loss 0.4650):   4%|▍         | 637/16950 [10:49<2:35:52,  1.74it/s]Training 1/3 epoch (loss 0.3124):   4%|▍         | 637/16950 [10:50<2:35:52,  1.74it/s]Training 1/3 epoch (loss 0.3124):   4%|▍         | 638/16950 [10:50<2:37:52,  1.72it/s]Training 1/3 epoch (loss 0.0485):   4%|▍         | 638/16950 [10:51<2:37:52,  1.72it/s]Training 1/3 epoch (loss 0.0485):   4%|▍         | 639/16950 [10:51<2:33:27,  1.77it/s]Training 1/3 epoch (loss 0.3892):   4%|▍         | 639/16950 [10:51<2:33:27,  1.77it/s]Training 1/3 epoch (loss 0.3892):   4%|▍         | 640/16950 [10:51<2:32:29,  1.78it/s]Training 1/3 epoch (loss 0.9392):   4%|▍         | 640/16950 [10:52<2:32:29,  1.78it/s]Training 1/3 epoch (loss 0.9392):   4%|▍         | 641/16950 [10:52<2:27:51,  1.84it/s]Training 1/3 epoch (loss 0.5352):   4%|▍         | 641/16950 [10:52<2:27:51,  1.84it/s]Training 1/3 epoch (loss 0.5352):   4%|▍         | 642/16950 [10:52<2:23:18,  1.90it/s]Training 1/3 epoch (loss 0.0185):   4%|▍         | 642/16950 [10:53<2:23:18,  1.90it/s]Training 1/3 epoch (loss 0.0185):   4%|▍         | 643/16950 [10:53<2:31:21,  1.80it/s]Training 1/3 epoch (loss 0.2021):   4%|▍         | 643/16950 [10:53<2:31:21,  1.80it/s]Training 1/3 epoch (loss 0.2021):   4%|▍         | 644/16950 [10:53<2:42:31,  1.67it/s]Training 1/3 epoch (loss 0.0183):   4%|▍         | 644/16950 [10:54<2:42:31,  1.67it/s]Training 1/3 epoch (loss 0.0183):   4%|▍         | 645/16950 [10:54<2:44:54,  1.65it/s]Training 1/3 epoch (loss 0.1322):   4%|▍         | 645/16950 [10:55<2:44:54,  1.65it/s]Training 1/3 epoch (loss 0.1322):   4%|▍         | 646/16950 [10:55<2:41:55,  1.68it/s]Training 1/3 epoch (loss 0.0660):   4%|▍         | 646/16950 [10:55<2:41:55,  1.68it/s]Training 1/3 epoch (loss 0.0660):   4%|▍         | 647/16950 [10:55<2:35:13,  1.75it/s]Training 1/3 epoch (loss 0.0354):   4%|▍         | 647/16950 [10:56<2:35:13,  1.75it/s]Training 1/3 epoch (loss 0.0354):   4%|▍         | 648/16950 [10:56<2:19:20,  1.95it/s]Training 1/3 epoch (loss 0.4963):   4%|▍         | 648/16950 [10:56<2:19:20,  1.95it/s]Training 1/3 epoch (loss 0.4963):   4%|▍         | 649/16950 [10:56<2:23:54,  1.89it/s]Training 1/3 epoch (loss 0.0179):   4%|▍         | 649/16950 [10:57<2:23:54,  1.89it/s]Training 1/3 epoch (loss 0.0179):   4%|▍         | 650/16950 [10:57<2:14:16,  2.02it/s]Training 1/3 epoch (loss 0.9674):   4%|▍         | 650/16950 [10:57<2:14:16,  2.02it/s]Training 1/3 epoch (loss 0.9674):   4%|▍         | 651/16950 [10:57<1:58:33,  2.29it/s]Training 1/3 epoch (loss 0.0495):   4%|▍         | 651/16950 [10:57<1:58:33,  2.29it/s]Training 1/3 epoch (loss 0.0495):   4%|▍         | 652/16950 [10:57<1:55:39,  2.35it/s]Training 1/3 epoch (loss 0.4344):   4%|▍         | 652/16950 [10:58<1:55:39,  2.35it/s]Training 1/3 epoch (loss 0.4344):   4%|▍         | 653/16950 [10:58<1:52:59,  2.40it/s]Training 1/3 epoch (loss 1.1956):   4%|▍         | 653/16950 [10:58<1:52:59,  2.40it/s]Training 1/3 epoch (loss 1.1956):   4%|▍         | 654/16950 [10:58<2:11:43,  2.06it/s]Training 1/3 epoch (loss 0.0095):   4%|▍         | 654/16950 [10:59<2:11:43,  2.06it/s]Training 1/3 epoch (loss 0.0095):   4%|▍         | 655/16950 [10:59<2:14:49,  2.01it/s]Training 1/3 epoch (loss 0.8476):   4%|▍         | 655/16950 [10:59<2:14:49,  2.01it/s]Training 1/3 epoch (loss 0.8476):   4%|▍         | 656/16950 [10:59<2:09:20,  2.10it/s]Training 1/3 epoch (loss 1.1039):   4%|▍         | 656/16950 [11:00<2:09:20,  2.10it/s]Training 1/3 epoch (loss 1.1039):   4%|▍         | 657/16950 [11:00<2:37:45,  1.72it/s]Training 1/3 epoch (loss 0.5685):   4%|▍         | 657/16950 [11:01<2:37:45,  1.72it/s]Training 1/3 epoch (loss 0.5685):   4%|▍         | 658/16950 [11:01<2:29:11,  1.82it/s]Training 1/3 epoch (loss 0.0212):   4%|▍         | 658/16950 [11:01<2:29:11,  1.82it/s]Training 1/3 epoch (loss 0.0212):   4%|▍         | 659/16950 [11:01<2:32:30,  1.78it/s]Training 1/3 epoch (loss 0.9024):   4%|▍         | 659/16950 [11:02<2:32:30,  1.78it/s]Training 1/3 epoch (loss 0.9024):   4%|▍         | 660/16950 [11:02<2:31:06,  1.80it/s]Training 1/3 epoch (loss 0.7278):   4%|▍         | 660/16950 [11:02<2:31:06,  1.80it/s]Training 1/3 epoch (loss 0.7278):   4%|▍         | 661/16950 [11:02<2:16:56,  1.98it/s]Training 1/3 epoch (loss 0.0124):   4%|▍         | 661/16950 [11:02<2:16:56,  1.98it/s]Training 1/3 epoch (loss 0.0124):   4%|▍         | 662/16950 [11:02<2:02:43,  2.21it/s]Training 1/3 epoch (loss 0.1077):   4%|▍         | 662/16950 [11:03<2:02:43,  2.21it/s]Training 1/3 epoch (loss 0.1077):   4%|▍         | 663/16950 [11:03<2:13:34,  2.03it/s]Training 1/3 epoch (loss 0.8699):   4%|▍         | 663/16950 [11:03<2:13:34,  2.03it/s]Training 1/3 epoch (loss 0.8699):   4%|▍         | 664/16950 [11:03<2:16:23,  1.99it/s]Training 1/3 epoch (loss 0.2181):   4%|▍         | 664/16950 [11:04<2:16:23,  1.99it/s]Training 1/3 epoch (loss 0.2181):   4%|▍         | 665/16950 [11:04<2:46:55,  1.63it/s]Training 1/3 epoch (loss 0.0191):   4%|▍         | 665/16950 [11:05<2:46:55,  1.63it/s]Training 1/3 epoch (loss 0.0191):   4%|▍         | 666/16950 [11:05<2:42:04,  1.67it/s]Training 1/3 epoch (loss 0.0355):   4%|▍         | 666/16950 [11:06<2:42:04,  1.67it/s]Training 1/3 epoch (loss 0.0355):   4%|▍         | 667/16950 [11:06<2:42:58,  1.67it/s]Training 1/3 epoch (loss 0.0911):   4%|▍         | 667/16950 [11:06<2:42:58,  1.67it/s]Training 1/3 epoch (loss 0.0911):   4%|▍         | 668/16950 [11:06<3:02:59,  1.48it/s]Training 1/3 epoch (loss 0.3939):   4%|▍         | 668/16950 [11:07<3:02:59,  1.48it/s]Training 1/3 epoch (loss 0.3939):   4%|▍         | 669/16950 [11:07<2:52:52,  1.57it/s]Training 1/3 epoch (loss 0.8159):   4%|▍         | 669/16950 [11:07<2:52:52,  1.57it/s]Training 1/3 epoch (loss 0.8159):   4%|▍         | 670/16950 [11:07<2:35:56,  1.74it/s]Training 1/3 epoch (loss 0.5843):   4%|▍         | 670/16950 [11:08<2:35:56,  1.74it/s]Training 1/3 epoch (loss 0.5843):   4%|▍         | 671/16950 [11:08<2:41:16,  1.68it/s]Training 1/3 epoch (loss 0.5225):   4%|▍         | 671/16950 [11:09<2:41:16,  1.68it/s]Training 1/3 epoch (loss 0.5225):   4%|▍         | 672/16950 [11:09<2:35:30,  1.74it/s]Training 1/3 epoch (loss 0.6740):   4%|▍         | 672/16950 [11:09<2:35:30,  1.74it/s]Training 1/3 epoch (loss 0.6740):   4%|▍         | 673/16950 [11:09<2:38:53,  1.71it/s]Training 1/3 epoch (loss 0.0328):   4%|▍         | 673/16950 [11:10<2:38:53,  1.71it/s]Training 1/3 epoch (loss 0.0328):   4%|▍         | 674/16950 [11:10<2:42:07,  1.67it/s]Training 1/3 epoch (loss 0.2257):   4%|▍         | 674/16950 [11:10<2:42:07,  1.67it/s]Training 1/3 epoch (loss 0.2257):   4%|▍         | 675/16950 [11:10<2:41:57,  1.67it/s]Training 1/3 epoch (loss 0.3277):   4%|▍         | 675/16950 [11:11<2:41:57,  1.67it/s]Training 1/3 epoch (loss 0.3277):   4%|▍         | 676/16950 [11:11<2:34:13,  1.76it/s]Training 1/3 epoch (loss 0.5464):   4%|▍         | 676/16950 [11:11<2:34:13,  1.76it/s]Training 1/3 epoch (loss 0.5464):   4%|▍         | 677/16950 [11:11<2:28:42,  1.82it/s]Training 1/3 epoch (loss 0.7387):   4%|▍         | 677/16950 [11:12<2:28:42,  1.82it/s]Training 1/3 epoch (loss 0.7387):   4%|▍         | 678/16950 [11:12<2:23:42,  1.89it/s]Training 1/3 epoch (loss 0.4274):   4%|▍         | 678/16950 [11:12<2:23:42,  1.89it/s]Training 1/3 epoch (loss 0.4274):   4%|▍         | 679/16950 [11:12<2:24:52,  1.87it/s]Training 1/3 epoch (loss 0.0343):   4%|▍         | 679/16950 [11:13<2:24:52,  1.87it/s]Training 1/3 epoch (loss 0.0343):   4%|▍         | 680/16950 [11:13<2:17:38,  1.97it/s]Training 1/3 epoch (loss 0.3766):   4%|▍         | 680/16950 [11:13<2:17:38,  1.97it/s]Training 1/3 epoch (loss 0.3766):   4%|▍         | 681/16950 [11:13<2:19:11,  1.95it/s]Training 1/3 epoch (loss 0.2822):   4%|▍         | 681/16950 [11:14<2:19:11,  1.95it/s]Training 1/3 epoch (loss 0.2822):   4%|▍         | 682/16950 [11:14<2:20:27,  1.93it/s]Training 1/3 epoch (loss 0.0820):   4%|▍         | 682/16950 [11:14<2:20:27,  1.93it/s]Training 1/3 epoch (loss 0.0820):   4%|▍         | 683/16950 [11:14<2:19:01,  1.95it/s]Training 1/3 epoch (loss 2.9187):   4%|▍         | 683/16950 [11:15<2:19:01,  1.95it/s]Training 1/3 epoch (loss 2.9187):   4%|▍         | 684/16950 [11:15<2:32:24,  1.78it/s]Training 1/3 epoch (loss 0.1034):   4%|▍         | 684/16950 [11:16<2:32:24,  1.78it/s]Training 1/3 epoch (loss 0.1034):   4%|▍         | 685/16950 [11:16<2:41:51,  1.67it/s]Training 1/3 epoch (loss 0.0054):   4%|▍         | 685/16950 [11:16<2:41:51,  1.67it/s]Training 1/3 epoch (loss 0.0054):   4%|▍         | 686/16950 [11:16<2:17:43,  1.97it/s]Training 1/3 epoch (loss 0.1475):   4%|▍         | 686/16950 [11:17<2:17:43,  1.97it/s]Training 1/3 epoch (loss 0.1475):   4%|▍         | 687/16950 [11:17<2:24:48,  1.87it/s]Training 1/3 epoch (loss 0.1748):   4%|▍         | 687/16950 [11:17<2:24:48,  1.87it/s]Training 1/3 epoch (loss 0.1748):   4%|▍         | 688/16950 [11:17<2:33:01,  1.77it/s]Training 1/3 epoch (loss 0.1361):   4%|▍         | 688/16950 [11:18<2:33:01,  1.77it/s]Training 1/3 epoch (loss 0.1361):   4%|▍         | 689/16950 [11:18<2:45:10,  1.64it/s]Training 1/3 epoch (loss 0.6883):   4%|▍         | 689/16950 [11:18<2:45:10,  1.64it/s]Training 1/3 epoch (loss 0.6883):   4%|▍         | 690/16950 [11:18<2:34:08,  1.76it/s]Training 1/3 epoch (loss 1.1191):   4%|▍         | 690/16950 [11:19<2:34:08,  1.76it/s]Training 1/3 epoch (loss 1.1191):   4%|▍         | 691/16950 [11:19<2:57:00,  1.53it/s]Training 1/3 epoch (loss 0.0218):   4%|▍         | 691/16950 [11:20<2:57:00,  1.53it/s]Training 1/3 epoch (loss 0.0218):   4%|▍         | 692/16950 [11:20<2:54:49,  1.55it/s]Training 1/3 epoch (loss 0.1045):   4%|▍         | 692/16950 [11:20<2:54:49,  1.55it/s]Training 1/3 epoch (loss 0.1045):   4%|▍         | 693/16950 [11:20<2:39:16,  1.70it/s]Training 1/3 epoch (loss 0.0462):   4%|▍         | 693/16950 [11:21<2:39:16,  1.70it/s]Training 1/3 epoch (loss 0.0462):   4%|▍         | 694/16950 [11:21<2:44:51,  1.64it/s]Training 1/3 epoch (loss 0.0079):   4%|▍         | 694/16950 [11:22<2:44:51,  1.64it/s]Training 1/3 epoch (loss 0.0079):   4%|▍         | 695/16950 [11:22<2:43:29,  1.66it/s]Training 1/3 epoch (loss 0.5681):   4%|▍         | 695/16950 [11:22<2:43:29,  1.66it/s]Training 1/3 epoch (loss 0.5681):   4%|▍         | 696/16950 [11:22<2:44:12,  1.65it/s]Training 1/3 epoch (loss 0.7240):   4%|▍         | 696/16950 [11:23<2:44:12,  1.65it/s]Training 1/3 epoch (loss 0.7240):   4%|▍         | 697/16950 [11:23<2:49:25,  1.60it/s]Training 1/3 epoch (loss 0.1968):   4%|▍         | 697/16950 [11:24<2:49:25,  1.60it/s]Training 1/3 epoch (loss 0.1968):   4%|▍         | 698/16950 [11:24<2:55:57,  1.54it/s]Training 1/3 epoch (loss 0.0358):   4%|▍         | 698/16950 [11:24<2:55:57,  1.54it/s]Training 1/3 epoch (loss 0.0358):   4%|▍         | 699/16950 [11:24<2:44:33,  1.65it/s]Training 1/3 epoch (loss 0.9017):   4%|▍         | 699/16950 [11:25<2:44:33,  1.65it/s]Training 1/3 epoch (loss 0.9017):   4%|▍         | 700/16950 [11:25<2:23:29,  1.89it/s]Training 1/3 epoch (loss 0.0148):   4%|▍         | 700/16950 [11:25<2:23:29,  1.89it/s]Training 1/3 epoch (loss 0.0148):   4%|▍         | 701/16950 [11:25<2:18:42,  1.95it/s]Training 1/3 epoch (loss 0.0702):   4%|▍         | 701/16950 [11:25<2:18:42,  1.95it/s]Training 1/3 epoch (loss 0.0702):   4%|▍         | 702/16950 [11:25<2:18:24,  1.96it/s]Training 1/3 epoch (loss 0.3139):   4%|▍         | 702/16950 [11:26<2:18:24,  1.96it/s]Training 1/3 epoch (loss 0.3139):   4%|▍         | 703/16950 [11:26<2:32:06,  1.78it/s]Training 1/3 epoch (loss 0.4443):   4%|▍         | 703/16950 [11:27<2:32:06,  1.78it/s]Training 1/3 epoch (loss 0.4443):   4%|▍         | 704/16950 [11:27<2:17:54,  1.96it/s]Training 1/3 epoch (loss 0.0953):   4%|▍         | 704/16950 [11:27<2:17:54,  1.96it/s]Training 1/3 epoch (loss 0.0953):   4%|▍         | 705/16950 [11:27<2:26:49,  1.84it/s]Training 1/3 epoch (loss 0.6529):   4%|▍         | 705/16950 [11:28<2:26:49,  1.84it/s]Training 1/3 epoch (loss 0.6529):   4%|▍         | 706/16950 [11:28<2:20:56,  1.92it/s]Training 1/3 epoch (loss 0.1675):   4%|▍         | 706/16950 [11:28<2:20:56,  1.92it/s]Training 1/3 epoch (loss 0.1675):   4%|▍         | 707/16950 [11:28<2:43:01,  1.66it/s]Training 1/3 epoch (loss 0.0986):   4%|▍         | 707/16950 [11:29<2:43:01,  1.66it/s]Training 1/3 epoch (loss 0.0986):   4%|▍         | 708/16950 [11:29<2:45:18,  1.64it/s]Training 1/3 epoch (loss 0.9041):   4%|▍         | 708/16950 [11:30<2:45:18,  1.64it/s]Training 1/3 epoch (loss 0.9041):   4%|▍         | 709/16950 [11:30<2:46:49,  1.62it/s]Training 1/3 epoch (loss 0.1813):   4%|▍         | 709/16950 [11:30<2:46:49,  1.62it/s]Training 1/3 epoch (loss 0.1813):   4%|▍         | 710/16950 [11:30<2:32:29,  1.77it/s]Training 1/3 epoch (loss 0.0124):   4%|▍         | 710/16950 [11:31<2:32:29,  1.77it/s]Training 1/3 epoch (loss 0.0124):   4%|▍         | 711/16950 [11:31<2:20:56,  1.92it/s]Training 1/3 epoch (loss 0.5146):   4%|▍         | 711/16950 [11:31<2:20:56,  1.92it/s]Training 1/3 epoch (loss 0.5146):   4%|▍         | 712/16950 [11:31<2:17:20,  1.97it/s]Training 1/3 epoch (loss 0.7548):   4%|▍         | 712/16950 [11:32<2:17:20,  1.97it/s]Training 1/3 epoch (loss 0.7548):   4%|▍         | 713/16950 [11:32<2:37:44,  1.72it/s]Training 1/3 epoch (loss 0.0671):   4%|▍         | 713/16950 [11:32<2:37:44,  1.72it/s]Training 1/3 epoch (loss 0.0671):   4%|▍         | 714/16950 [11:32<2:32:34,  1.77it/s]Training 1/3 epoch (loss 0.7466):   4%|▍         | 714/16950 [11:33<2:32:34,  1.77it/s]Training 1/3 epoch (loss 0.7466):   4%|▍         | 715/16950 [11:33<2:17:04,  1.97it/s]Training 1/3 epoch (loss 0.0152):   4%|▍         | 715/16950 [11:33<2:17:04,  1.97it/s]Training 1/3 epoch (loss 0.0152):   4%|▍         | 716/16950 [11:33<2:15:23,  2.00it/s]Training 1/3 epoch (loss 0.2235):   4%|▍         | 716/16950 [11:34<2:15:23,  2.00it/s]Training 1/3 epoch (loss 0.2235):   4%|▍         | 717/16950 [11:34<2:15:01,  2.00it/s]Training 1/3 epoch (loss 0.3268):   4%|▍         | 717/16950 [11:34<2:15:01,  2.00it/s]Training 1/3 epoch (loss 0.3268):   4%|▍         | 718/16950 [11:34<2:18:22,  1.96it/s]Training 1/3 epoch (loss 0.3386):   4%|▍         | 718/16950 [11:35<2:18:22,  1.96it/s]Training 1/3 epoch (loss 0.3386):   4%|▍         | 719/16950 [11:35<2:29:20,  1.81it/s]Training 1/3 epoch (loss 0.2977):   4%|▍         | 719/16950 [11:35<2:29:20,  1.81it/s]Training 1/3 epoch (loss 0.2977):   4%|▍         | 720/16950 [11:35<2:36:09,  1.73it/s]Training 1/3 epoch (loss 0.9106):   4%|▍         | 720/16950 [11:36<2:36:09,  1.73it/s]Training 1/3 epoch (loss 0.9106):   4%|▍         | 721/16950 [11:36<2:25:46,  1.86it/s]Training 1/3 epoch (loss 0.0167):   4%|▍         | 721/16950 [11:36<2:25:46,  1.86it/s]Training 1/3 epoch (loss 0.0167):   4%|▍         | 722/16950 [11:36<2:24:52,  1.87it/s]Training 1/3 epoch (loss 0.5498):   4%|▍         | 722/16950 [11:37<2:24:52,  1.87it/s]Training 1/3 epoch (loss 0.5498):   4%|▍         | 723/16950 [11:37<2:35:46,  1.74it/s]Training 1/3 epoch (loss 0.1078):   4%|▍         | 723/16950 [11:38<2:35:46,  1.74it/s]Training 1/3 epoch (loss 0.1078):   4%|▍         | 724/16950 [11:38<2:33:31,  1.76it/s]Training 1/3 epoch (loss 0.7647):   4%|▍         | 724/16950 [11:38<2:33:31,  1.76it/s]Training 1/3 epoch (loss 0.7647):   4%|▍         | 725/16950 [11:38<2:23:01,  1.89it/s]Training 1/3 epoch (loss 0.3042):   4%|▍         | 725/16950 [11:39<2:23:01,  1.89it/s]Training 1/3 epoch (loss 0.3042):   4%|▍         | 726/16950 [11:39<2:35:23,  1.74it/s]Training 1/3 epoch (loss 0.0366):   4%|▍         | 726/16950 [11:39<2:35:23,  1.74it/s]Training 1/3 epoch (loss 0.0366):   4%|▍         | 727/16950 [11:39<2:38:45,  1.70it/s]Training 1/3 epoch (loss 0.0800):   4%|▍         | 727/16950 [11:40<2:38:45,  1.70it/s]Training 1/3 epoch (loss 0.0800):   4%|▍         | 728/16950 [11:40<2:26:15,  1.85it/s]Training 1/3 epoch (loss 0.2311):   4%|▍         | 728/16950 [11:40<2:26:15,  1.85it/s]Training 1/3 epoch (loss 0.2311):   4%|▍         | 729/16950 [11:40<2:32:02,  1.78it/s]Training 1/3 epoch (loss 0.0586):   4%|▍         | 729/16950 [11:41<2:32:02,  1.78it/s]Training 1/3 epoch (loss 0.0586):   4%|▍         | 730/16950 [11:41<2:46:12,  1.63it/s]Training 1/3 epoch (loss 0.0439):   4%|▍         | 730/16950 [11:42<2:46:12,  1.63it/s]Training 1/3 epoch (loss 0.0439):   4%|▍         | 731/16950 [11:42<2:40:50,  1.68it/s]Training 1/3 epoch (loss 0.0224):   4%|▍         | 731/16950 [11:42<2:40:50,  1.68it/s]Training 1/3 epoch (loss 0.0224):   4%|▍         | 732/16950 [11:42<2:38:25,  1.71it/s]Training 1/3 epoch (loss 0.6301):   4%|▍         | 732/16950 [11:43<2:38:25,  1.71it/s]Training 1/3 epoch (loss 0.6301):   4%|▍         | 733/16950 [11:43<2:25:12,  1.86it/s]Training 1/3 epoch (loss 0.9062):   4%|▍         | 733/16950 [11:44<2:25:12,  1.86it/s]Training 1/3 epoch (loss 0.9062):   4%|▍         | 734/16950 [11:44<3:00:08,  1.50it/s]Training 1/3 epoch (loss 0.0873):   4%|▍         | 734/16950 [11:44<3:00:08,  1.50it/s]Training 1/3 epoch (loss 0.0873):   4%|▍         | 735/16950 [11:44<2:39:32,  1.69it/s]Training 1/3 epoch (loss 0.1399):   4%|▍         | 735/16950 [11:45<2:39:32,  1.69it/s]Training 1/3 epoch (loss 0.1399):   4%|▍         | 736/16950 [11:45<2:41:06,  1.68it/s]Training 1/3 epoch (loss 0.1527):   4%|▍         | 736/16950 [11:45<2:41:06,  1.68it/s]Training 1/3 epoch (loss 0.1527):   4%|▍         | 737/16950 [11:45<2:38:01,  1.71it/s]Training 1/3 epoch (loss 0.5349):   4%|▍         | 737/16950 [11:46<2:38:01,  1.71it/s]Training 1/3 epoch (loss 0.5349):   4%|▍         | 738/16950 [11:46<2:59:47,  1.50it/s]Training 1/3 epoch (loss 0.5053):   4%|▍         | 738/16950 [11:47<2:59:47,  1.50it/s]Training 1/3 epoch (loss 0.5053):   4%|▍         | 739/16950 [11:47<2:54:07,  1.55it/s]Training 1/3 epoch (loss 0.2918):   4%|▍         | 739/16950 [11:48<2:54:07,  1.55it/s]Training 1/3 epoch (loss 0.2918):   4%|▍         | 740/16950 [11:48<3:28:25,  1.30it/s]Training 1/3 epoch (loss 0.2573):   4%|▍         | 740/16950 [11:48<3:28:25,  1.30it/s]Training 1/3 epoch (loss 0.2573):   4%|▍         | 741/16950 [11:48<3:07:27,  1.44it/s]Training 1/3 epoch (loss 0.2119):   4%|▍         | 741/16950 [11:49<3:07:27,  1.44it/s]Training 1/3 epoch (loss 0.2119):   4%|▍         | 742/16950 [11:49<3:38:22,  1.24it/s]Training 1/3 epoch (loss 0.1375):   4%|▍         | 742/16950 [11:50<3:38:22,  1.24it/s]Training 1/3 epoch (loss 0.1375):   4%|▍         | 743/16950 [11:50<3:13:04,  1.40it/s]Training 1/3 epoch (loss 0.0071):   4%|▍         | 743/16950 [11:50<3:13:04,  1.40it/s]Training 1/3 epoch (loss 0.0071):   4%|▍         | 744/16950 [11:50<2:43:24,  1.65it/s]Training 1/3 epoch (loss 0.6010):   4%|▍         | 744/16950 [11:51<2:43:24,  1.65it/s]Training 1/3 epoch (loss 0.6010):   4%|▍         | 745/16950 [11:51<3:23:59,  1.32it/s]Training 1/3 epoch (loss 0.0333):   4%|▍         | 745/16950 [11:52<3:23:59,  1.32it/s]Training 1/3 epoch (loss 0.0333):   4%|▍         | 746/16950 [11:52<3:10:58,  1.41it/s]Training 1/3 epoch (loss 0.5474):   4%|▍         | 746/16950 [11:53<3:10:58,  1.41it/s]Training 1/3 epoch (loss 0.5474):   4%|▍         | 747/16950 [11:53<3:16:50,  1.37it/s]Training 1/3 epoch (loss 0.6456):   4%|▍         | 747/16950 [11:54<3:16:50,  1.37it/s]Training 1/3 epoch (loss 0.6456):   4%|▍         | 748/16950 [11:54<3:51:16,  1.17it/s]Training 1/3 epoch (loss 0.9760):   4%|▍         | 748/16950 [11:55<3:51:16,  1.17it/s]Training 1/3 epoch (loss 0.9760):   4%|▍         | 749/16950 [11:55<4:15:30,  1.06it/s]Training 1/3 epoch (loss 0.6792):   4%|▍         | 749/16950 [11:56<4:15:30,  1.06it/s]Training 1/3 epoch (loss 0.6792):   4%|▍         | 750/16950 [11:56<3:40:20,  1.23it/s]Training 1/3 epoch (loss 0.5806):   4%|▍         | 750/16950 [11:56<3:40:20,  1.23it/s]Training 1/3 epoch (loss 0.5806):   4%|▍         | 751/16950 [11:56<3:17:04,  1.37it/s]Training 1/3 epoch (loss 0.1178):   4%|▍         | 751/16950 [11:57<3:17:04,  1.37it/s]Training 1/3 epoch (loss 0.1178):   4%|▍         | 752/16950 [11:57<2:53:00,  1.56it/s]Training 1/3 epoch (loss 0.0691):   4%|▍         | 752/16950 [11:57<2:53:00,  1.56it/s]Training 1/3 epoch (loss 0.0691):   4%|▍         | 753/16950 [11:57<2:52:15,  1.57it/s]Training 1/3 epoch (loss 0.0638):   4%|▍         | 753/16950 [11:58<2:52:15,  1.57it/s]Training 1/3 epoch (loss 0.0638):   4%|▍         | 754/16950 [11:58<2:55:33,  1.54it/s]Training 1/3 epoch (loss 0.9427):   4%|▍         | 754/16950 [11:59<2:55:33,  1.54it/s]Training 1/3 epoch (loss 0.9427):   4%|▍         | 755/16950 [11:59<3:16:49,  1.37it/s]Training 1/3 epoch (loss 0.3191):   4%|▍         | 755/16950 [11:59<3:16:49,  1.37it/s]Training 1/3 epoch (loss 0.3191):   4%|▍         | 756/16950 [11:59<3:08:18,  1.43it/s]Training 1/3 epoch (loss 0.5788):   4%|▍         | 756/16950 [12:00<3:08:18,  1.43it/s]Training 1/3 epoch (loss 0.5788):   4%|▍         | 757/16950 [12:00<2:43:39,  1.65it/s]Training 1/3 epoch (loss 0.0405):   4%|▍         | 757/16950 [12:00<2:43:39,  1.65it/s]Training 1/3 epoch (loss 0.0405):   4%|▍         | 758/16950 [12:00<2:38:08,  1.71it/s]Training 1/3 epoch (loss 0.3570):   4%|▍         | 758/16950 [12:01<2:38:08,  1.71it/s]Training 1/3 epoch (loss 0.3570):   4%|▍         | 759/16950 [12:01<2:36:37,  1.72it/s]Training 1/3 epoch (loss 0.6787):   4%|▍         | 759/16950 [12:02<2:36:37,  1.72it/s]Training 1/3 epoch (loss 0.6787):   4%|▍         | 760/16950 [12:02<2:43:01,  1.66it/s]Training 1/3 epoch (loss 0.4352):   4%|▍         | 760/16950 [12:03<2:43:01,  1.66it/s]Training 1/3 epoch (loss 0.4352):   4%|▍         | 761/16950 [12:03<3:17:44,  1.36it/s]Training 1/3 epoch (loss 0.0757):   4%|▍         | 761/16950 [12:04<3:17:44,  1.36it/s]Training 1/3 epoch (loss 0.0757):   4%|▍         | 762/16950 [12:04<3:37:48,  1.24it/s]Training 1/3 epoch (loss 0.0080):   4%|▍         | 762/16950 [12:04<3:37:48,  1.24it/s]Training 1/3 epoch (loss 0.0080):   5%|▍         | 763/16950 [12:04<3:14:13,  1.39it/s]Training 1/3 epoch (loss 0.0194):   5%|▍         | 763/16950 [12:05<3:14:13,  1.39it/s]Training 1/3 epoch (loss 0.0194):   5%|▍         | 764/16950 [12:05<3:05:48,  1.45it/s]Training 1/3 epoch (loss 0.5430):   5%|▍         | 764/16950 [12:05<3:05:48,  1.45it/s]Training 1/3 epoch (loss 0.5430):   5%|▍         | 765/16950 [12:05<2:44:50,  1.64it/s]Training 1/3 epoch (loss 0.1027):   5%|▍         | 765/16950 [12:06<2:44:50,  1.64it/s]Training 1/3 epoch (loss 0.1027):   5%|▍         | 766/16950 [12:06<2:44:41,  1.64it/s]Training 1/3 epoch (loss 0.9723):   5%|▍         | 766/16950 [12:06<2:44:41,  1.64it/s]Training 1/3 epoch (loss 0.9723):   5%|▍         | 767/16950 [12:06<2:34:29,  1.75it/s]Training 1/3 epoch (loss 0.1433):   5%|▍         | 767/16950 [12:07<2:34:29,  1.75it/s]Training 1/3 epoch (loss 0.1433):   5%|▍         | 768/16950 [12:07<2:26:12,  1.84it/s]Training 1/3 epoch (loss 0.1301):   5%|▍         | 768/16950 [12:07<2:26:12,  1.84it/s]Training 1/3 epoch (loss 0.1301):   5%|▍         | 769/16950 [12:07<2:48:17,  1.60it/s]Training 1/3 epoch (loss 0.6066):   5%|▍         | 769/16950 [12:08<2:48:17,  1.60it/s]Training 1/3 epoch (loss 0.6066):   5%|▍         | 770/16950 [12:08<2:37:38,  1.71it/s]Training 1/3 epoch (loss 0.1641):   5%|▍         | 770/16950 [12:08<2:37:38,  1.71it/s]Training 1/3 epoch (loss 0.1641):   5%|▍         | 771/16950 [12:08<2:31:24,  1.78it/s]Training 1/3 epoch (loss 0.6404):   5%|▍         | 771/16950 [12:09<2:31:24,  1.78it/s]Training 1/3 epoch (loss 0.6404):   5%|▍         | 772/16950 [12:09<2:49:16,  1.59it/s]Training 1/3 epoch (loss 0.0738):   5%|▍         | 772/16950 [12:10<2:49:16,  1.59it/s]Training 1/3 epoch (loss 0.0738):   5%|▍         | 773/16950 [12:10<2:52:59,  1.56it/s]Training 1/3 epoch (loss 0.8273):   5%|▍         | 773/16950 [12:10<2:52:59,  1.56it/s]Training 1/3 epoch (loss 0.8273):   5%|▍         | 774/16950 [12:10<2:31:43,  1.78it/s]Training 1/3 epoch (loss 0.1057):   5%|▍         | 774/16950 [12:11<2:31:43,  1.78it/s]Training 1/3 epoch (loss 0.1057):   5%|▍         | 775/16950 [12:11<2:32:06,  1.77it/s]Training 1/3 epoch (loss 0.1057):   5%|▍         | 775/16950 [12:12<2:32:06,  1.77it/s]Training 1/3 epoch (loss 0.1057):   5%|▍         | 776/16950 [12:12<2:55:05,  1.54it/s]Training 1/3 epoch (loss 0.6477):   5%|▍         | 776/16950 [12:12<2:55:05,  1.54it/s]Training 1/3 epoch (loss 0.6477):   5%|▍         | 777/16950 [12:12<2:34:26,  1.75it/s]Training 1/3 epoch (loss 0.3423):   5%|▍         | 777/16950 [12:13<2:34:26,  1.75it/s]Training 1/3 epoch (loss 0.3423):   5%|▍         | 778/16950 [12:13<2:36:02,  1.73it/s]Training 1/3 epoch (loss 0.3509):   5%|▍         | 778/16950 [12:13<2:36:02,  1.73it/s]Training 1/3 epoch (loss 0.3509):   5%|▍         | 779/16950 [12:13<2:27:26,  1.83it/s]Training 1/3 epoch (loss 0.4140):   5%|▍         | 779/16950 [12:14<2:27:26,  1.83it/s]Training 1/3 epoch (loss 0.4140):   5%|▍         | 780/16950 [12:14<2:29:23,  1.80it/s]Training 1/3 epoch (loss 0.4797):   5%|▍         | 780/16950 [12:14<2:29:23,  1.80it/s]Training 1/3 epoch (loss 0.4797):   5%|▍         | 781/16950 [12:14<2:26:21,  1.84it/s]Training 1/3 epoch (loss 0.0194):   5%|▍         | 781/16950 [12:15<2:26:21,  1.84it/s]Training 1/3 epoch (loss 0.0194):   5%|▍         | 782/16950 [12:15<2:30:15,  1.79it/s]Training 1/3 epoch (loss 0.3181):   5%|▍         | 782/16950 [12:15<2:30:15,  1.79it/s]Training 1/3 epoch (loss 0.3181):   5%|▍         | 783/16950 [12:15<2:16:44,  1.97it/s]Training 1/3 epoch (loss 0.0643):   5%|▍         | 783/16950 [12:16<2:16:44,  1.97it/s]Training 1/3 epoch (loss 0.0643):   5%|▍         | 784/16950 [12:16<2:07:26,  2.11it/s]Training 1/3 epoch (loss 0.0300):   5%|▍         | 784/16950 [12:16<2:07:26,  2.11it/s]Training 1/3 epoch (loss 0.0300):   5%|▍         | 785/16950 [12:16<2:02:46,  2.19it/s]Training 1/3 epoch (loss 0.2150):   5%|▍         | 785/16950 [12:17<2:02:46,  2.19it/s]Training 1/3 epoch (loss 0.2150):   5%|▍         | 786/16950 [12:17<2:49:40,  1.59it/s]Training 1/3 epoch (loss 0.2227):   5%|▍         | 786/16950 [12:18<2:49:40,  1.59it/s]Training 1/3 epoch (loss 0.2227):   5%|▍         | 787/16950 [12:18<2:48:26,  1.60it/s]Training 1/3 epoch (loss 0.5937):   5%|▍         | 787/16950 [12:18<2:48:26,  1.60it/s]Training 1/3 epoch (loss 0.5937):   5%|▍         | 788/16950 [12:18<2:48:31,  1.60it/s]Training 1/3 epoch (loss 0.0262):   5%|▍         | 788/16950 [12:19<2:48:31,  1.60it/s]Training 1/3 epoch (loss 0.0262):   5%|▍         | 789/16950 [12:19<2:50:59,  1.58it/s]Training 1/3 epoch (loss 0.0816):   5%|▍         | 789/16950 [12:20<2:50:59,  1.58it/s]Training 1/3 epoch (loss 0.0816):   5%|▍         | 790/16950 [12:20<2:44:49,  1.63it/s]Training 1/3 epoch (loss 0.1185):   5%|▍         | 790/16950 [12:20<2:44:49,  1.63it/s]Training 1/3 epoch (loss 0.1185):   5%|▍         | 791/16950 [12:20<2:29:46,  1.80it/s]Training 1/3 epoch (loss 0.5033):   5%|▍         | 791/16950 [12:21<2:29:46,  1.80it/s]Training 1/3 epoch (loss 0.5033):   5%|▍         | 792/16950 [12:21<2:35:07,  1.74it/s]Training 1/3 epoch (loss 0.6485):   5%|▍         | 792/16950 [12:22<2:35:07,  1.74it/s]Training 1/3 epoch (loss 0.6485):   5%|▍         | 793/16950 [12:22<3:18:33,  1.36it/s]Training 1/3 epoch (loss 0.8923):   5%|▍         | 793/16950 [12:23<3:18:33,  1.36it/s]Training 1/3 epoch (loss 0.8923):   5%|▍         | 794/16950 [12:23<3:40:14,  1.22it/s]Training 1/3 epoch (loss 0.6558):   5%|▍         | 794/16950 [12:24<3:40:14,  1.22it/s]Training 1/3 epoch (loss 0.6558):   5%|▍         | 795/16950 [12:24<3:38:45,  1.23it/s]Training 1/3 epoch (loss 0.8775):   5%|▍         | 795/16950 [12:24<3:38:45,  1.23it/s]Training 1/3 epoch (loss 0.8775):   5%|▍         | 796/16950 [12:24<3:24:53,  1.31it/s]Training 1/3 epoch (loss 0.9933):   5%|▍         | 796/16950 [12:25<3:24:53,  1.31it/s]Training 1/3 epoch (loss 0.9933):   5%|▍         | 797/16950 [12:25<2:56:35,  1.52it/s]Training 1/3 epoch (loss 0.0893):   5%|▍         | 797/16950 [12:25<2:56:35,  1.52it/s]Training 1/3 epoch (loss 0.0893):   5%|▍         | 798/16950 [12:25<2:53:05,  1.56it/s]Training 1/3 epoch (loss 0.0225):   5%|▍         | 798/16950 [12:26<2:53:05,  1.56it/s]Training 1/3 epoch (loss 0.0225):   5%|▍         | 799/16950 [12:26<2:56:22,  1.53it/s]Training 1/3 epoch (loss 0.0554):   5%|▍         | 799/16950 [12:26<2:56:22,  1.53it/s]Training 1/3 epoch (loss 0.0554):   5%|▍         | 800/16950 [12:26<2:47:25,  1.61it/s]Training 1/3 epoch (loss 0.0613):   5%|▍         | 800/16950 [12:27<2:47:25,  1.61it/s]Training 1/3 epoch (loss 0.0613):   5%|▍         | 801/16950 [12:27<2:37:28,  1.71it/s]Training 1/3 epoch (loss 0.0402):   5%|▍         | 801/16950 [12:27<2:37:28,  1.71it/s]Training 1/3 epoch (loss 0.0402):   5%|▍         | 802/16950 [12:27<2:35:55,  1.73it/s]Training 1/3 epoch (loss 0.6752):   5%|▍         | 802/16950 [12:28<2:35:55,  1.73it/s]Training 1/3 epoch (loss 0.6752):   5%|▍         | 803/16950 [12:28<2:44:07,  1.64it/s]Training 1/3 epoch (loss 0.0268):   5%|▍         | 803/16950 [12:29<2:44:07,  1.64it/s]Training 1/3 epoch (loss 0.0268):   5%|▍         | 804/16950 [12:29<2:43:04,  1.65it/s]Training 1/3 epoch (loss 0.0391):   5%|▍         | 804/16950 [12:30<2:43:04,  1.65it/s]Training 1/3 epoch (loss 0.0391):   5%|▍         | 805/16950 [12:30<3:06:52,  1.44it/s]Training 1/3 epoch (loss 0.0758):   5%|▍         | 805/16950 [12:30<3:06:52,  1.44it/s]Training 1/3 epoch (loss 0.0758):   5%|▍         | 806/16950 [12:30<2:44:08,  1.64it/s]Training 1/3 epoch (loss 0.5359):   5%|▍         | 806/16950 [12:30<2:44:08,  1.64it/s]Training 1/3 epoch (loss 0.5359):   5%|▍         | 807/16950 [12:30<2:22:36,  1.89it/s]Training 1/3 epoch (loss 0.0228):   5%|▍         | 807/16950 [12:31<2:22:36,  1.89it/s]Training 1/3 epoch (loss 0.0228):   5%|▍         | 808/16950 [12:31<2:18:17,  1.95it/s]Training 1/3 epoch (loss 0.1690):   5%|▍         | 808/16950 [12:32<2:18:17,  1.95it/s]Training 1/3 epoch (loss 0.1690):   5%|▍         | 809/16950 [12:32<2:55:18,  1.53it/s]Training 1/3 epoch (loss 0.9082):   5%|▍         | 809/16950 [12:32<2:55:18,  1.53it/s]Training 1/3 epoch (loss 0.9082):   5%|▍         | 810/16950 [12:32<2:37:03,  1.71it/s]Training 1/3 epoch (loss 0.1299):   5%|▍         | 810/16950 [12:33<2:37:03,  1.71it/s]Training 1/3 epoch (loss 0.1299):   5%|▍         | 811/16950 [12:33<2:58:14,  1.51it/s]Training 1/3 epoch (loss 0.2250):   5%|▍         | 811/16950 [12:34<2:58:14,  1.51it/s]Training 1/3 epoch (loss 0.2250):   5%|▍         | 812/16950 [12:34<2:49:18,  1.59it/s]Training 1/3 epoch (loss 0.0513):   5%|▍         | 812/16950 [12:34<2:49:18,  1.59it/s]Training 1/3 epoch (loss 0.0513):   5%|▍         | 813/16950 [12:34<2:50:35,  1.58it/s]Training 1/3 epoch (loss 0.2184):   5%|▍         | 813/16950 [12:35<2:50:35,  1.58it/s]Training 1/3 epoch (loss 0.2184):   5%|▍         | 814/16950 [12:35<2:46:47,  1.61it/s]Training 1/3 epoch (loss 0.4814):   5%|▍         | 814/16950 [12:35<2:46:47,  1.61it/s]Training 1/3 epoch (loss 0.4814):   5%|▍         | 815/16950 [12:35<2:35:36,  1.73it/s]Training 1/3 epoch (loss 0.7727):   5%|▍         | 815/16950 [12:36<2:35:36,  1.73it/s]Training 1/3 epoch (loss 0.7727):   5%|▍         | 816/16950 [12:36<2:18:39,  1.94it/s]Training 1/3 epoch (loss 0.0095):   5%|▍         | 816/16950 [12:36<2:18:39,  1.94it/s]Training 1/3 epoch (loss 0.0095):   5%|▍         | 817/16950 [12:36<2:28:56,  1.81it/s]Training 1/3 epoch (loss 0.8151):   5%|▍         | 817/16950 [12:37<2:28:56,  1.81it/s]Training 1/3 epoch (loss 0.8151):   5%|▍         | 818/16950 [12:37<2:17:23,  1.96it/s]Training 1/3 epoch (loss 0.0866):   5%|▍         | 818/16950 [12:38<2:17:23,  1.96it/s]Training 1/3 epoch (loss 0.0866):   5%|▍         | 819/16950 [12:38<2:31:46,  1.77it/s]Training 1/3 epoch (loss 0.3739):   5%|▍         | 819/16950 [12:38<2:31:46,  1.77it/s]Training 1/3 epoch (loss 0.3739):   5%|▍         | 820/16950 [12:38<2:37:35,  1.71it/s]Training 1/3 epoch (loss 0.3093):   5%|▍         | 820/16950 [12:39<2:37:35,  1.71it/s]Training 1/3 epoch (loss 0.3093):   5%|▍         | 821/16950 [12:39<2:40:08,  1.68it/s]Training 1/3 epoch (loss 0.1836):   5%|▍         | 821/16950 [12:39<2:40:08,  1.68it/s]Training 1/3 epoch (loss 0.1836):   5%|▍         | 822/16950 [12:39<2:29:55,  1.79it/s]Training 1/3 epoch (loss 0.0459):   5%|▍         | 822/16950 [12:40<2:29:55,  1.79it/s]Training 1/3 epoch (loss 0.0459):   5%|▍         | 823/16950 [12:40<2:28:24,  1.81it/s]Training 1/3 epoch (loss 0.0111):   5%|▍         | 823/16950 [12:40<2:28:24,  1.81it/s]Training 1/3 epoch (loss 0.0111):   5%|▍         | 824/16950 [12:40<2:20:06,  1.92it/s]Training 1/3 epoch (loss 0.1088):   5%|▍         | 824/16950 [12:41<2:20:06,  1.92it/s]Training 1/3 epoch (loss 0.1088):   5%|▍         | 825/16950 [12:41<2:28:22,  1.81it/s]Training 1/3 epoch (loss 0.1221):   5%|▍         | 825/16950 [12:42<2:28:22,  1.81it/s]Training 1/3 epoch (loss 0.1221):   5%|▍         | 826/16950 [12:42<2:37:11,  1.71it/s]Training 1/3 epoch (loss 0.0182):   5%|▍         | 826/16950 [12:42<2:37:11,  1.71it/s]Training 1/3 epoch (loss 0.0182):   5%|▍         | 827/16950 [12:42<2:44:47,  1.63it/s]Training 1/3 epoch (loss 0.0503):   5%|▍         | 827/16950 [12:43<2:44:47,  1.63it/s]Training 1/3 epoch (loss 0.0503):   5%|▍         | 828/16950 [12:43<2:32:16,  1.76it/s]Training 1/3 epoch (loss 0.0396):   5%|▍         | 828/16950 [12:43<2:32:16,  1.76it/s]Training 1/3 epoch (loss 0.0396):   5%|▍         | 829/16950 [12:43<2:23:03,  1.88it/s]Training 1/3 epoch (loss 0.0719):   5%|▍         | 829/16950 [12:44<2:23:03,  1.88it/s]Training 1/3 epoch (loss 0.0719):   5%|▍         | 830/16950 [12:44<2:30:26,  1.79it/s]Training 1/3 epoch (loss 0.0371):   5%|▍         | 830/16950 [12:44<2:30:26,  1.79it/s]Training 1/3 epoch (loss 0.0371):   5%|▍         | 831/16950 [12:44<2:38:00,  1.70it/s]Training 1/3 epoch (loss 0.9533):   5%|▍         | 831/16950 [12:45<2:38:00,  1.70it/s]Training 1/3 epoch (loss 0.9533):   5%|▍         | 832/16950 [12:45<2:31:43,  1.77it/s]Training 1/3 epoch (loss 0.2555):   5%|▍         | 832/16950 [12:46<2:31:43,  1.77it/s]Training 1/3 epoch (loss 0.2555):   5%|▍         | 833/16950 [12:46<2:40:59,  1.67it/s]Training 1/3 epoch (loss 0.1013):   5%|▍         | 833/16950 [12:46<2:40:59,  1.67it/s]Training 1/3 epoch (loss 0.1013):   5%|▍         | 834/16950 [12:46<2:32:15,  1.76it/s]Training 1/3 epoch (loss 0.4829):   5%|▍         | 834/16950 [12:46<2:32:15,  1.76it/s]Training 1/3 epoch (loss 0.4829):   5%|▍         | 835/16950 [12:46<2:17:45,  1.95it/s]Training 1/3 epoch (loss 0.4619):   5%|▍         | 835/16950 [12:47<2:17:45,  1.95it/s]Training 1/3 epoch (loss 0.4619):   5%|▍         | 836/16950 [12:47<2:06:41,  2.12it/s]Training 1/3 epoch (loss 0.0062):   5%|▍         | 836/16950 [12:47<2:06:41,  2.12it/s]Training 1/3 epoch (loss 0.0062):   5%|▍         | 837/16950 [12:47<2:18:22,  1.94it/s]Training 1/3 epoch (loss 0.0397):   5%|▍         | 837/16950 [12:48<2:18:22,  1.94it/s]Training 1/3 epoch (loss 0.0397):   5%|▍         | 838/16950 [12:48<2:23:41,  1.87it/s]Training 1/3 epoch (loss 0.3609):   5%|▍         | 838/16950 [12:48<2:23:41,  1.87it/s]Training 1/3 epoch (loss 0.3609):   5%|▍         | 839/16950 [12:48<2:12:07,  2.03it/s]Training 1/3 epoch (loss 0.0599):   5%|▍         | 839/16950 [12:49<2:12:07,  2.03it/s]Training 1/3 epoch (loss 0.0599):   5%|▍         | 840/16950 [12:49<2:10:40,  2.05it/s]Training 1/3 epoch (loss 0.7183):   5%|▍         | 840/16950 [12:49<2:10:40,  2.05it/s]Training 1/3 epoch (loss 0.7183):   5%|▍         | 841/16950 [12:49<2:04:08,  2.16it/s]Training 1/3 epoch (loss 0.0879):   5%|▍         | 841/16950 [12:50<2:04:08,  2.16it/s]Training 1/3 epoch (loss 0.0879):   5%|▍         | 842/16950 [12:50<2:21:31,  1.90it/s]Training 1/3 epoch (loss 0.5178):   5%|▍         | 842/16950 [12:50<2:21:31,  1.90it/s]Training 1/3 epoch (loss 0.5178):   5%|▍         | 843/16950 [12:50<2:17:36,  1.95it/s]Training 1/3 epoch (loss 0.5792):   5%|▍         | 843/16950 [12:51<2:17:36,  1.95it/s]Training 1/3 epoch (loss 0.5792):   5%|▍         | 844/16950 [12:51<2:15:34,  1.98it/s]Training 1/3 epoch (loss 0.0757):   5%|▍         | 844/16950 [12:51<2:15:34,  1.98it/s]Training 1/3 epoch (loss 0.0757):   5%|▍         | 845/16950 [12:51<2:18:24,  1.94it/s]Training 1/3 epoch (loss 0.6454):   5%|▍         | 845/16950 [12:52<2:18:24,  1.94it/s]Training 1/3 epoch (loss 0.6454):   5%|▍         | 846/16950 [12:52<2:26:38,  1.83it/s]Training 1/3 epoch (loss 0.0884):   5%|▍         | 846/16950 [12:53<2:26:38,  1.83it/s]Training 1/3 epoch (loss 0.0884):   5%|▍         | 847/16950 [12:53<2:37:16,  1.71it/s]Training 1/3 epoch (loss 0.2203):   5%|▍         | 847/16950 [12:53<2:37:16,  1.71it/s]Training 1/3 epoch (loss 0.2203):   5%|▌         | 848/16950 [12:53<2:36:57,  1.71it/s]Training 1/3 epoch (loss 0.0901):   5%|▌         | 848/16950 [12:54<2:36:57,  1.71it/s]Training 1/3 epoch (loss 0.0901):   5%|▌         | 849/16950 [12:54<2:30:08,  1.79it/s]Training 1/3 epoch (loss 0.6429):   5%|▌         | 849/16950 [12:54<2:30:08,  1.79it/s]Training 1/3 epoch (loss 0.6429):   5%|▌         | 850/16950 [12:54<2:09:25,  2.07it/s]Training 1/3 epoch (loss 0.0326):   5%|▌         | 850/16950 [12:55<2:09:25,  2.07it/s]Training 1/3 epoch (loss 0.0326):   5%|▌         | 851/16950 [12:55<2:04:00,  2.16it/s]Training 1/3 epoch (loss 0.0995):   5%|▌         | 851/16950 [12:55<2:04:00,  2.16it/s]Training 1/3 epoch (loss 0.0995):   5%|▌         | 852/16950 [12:55<2:24:24,  1.86it/s]Training 1/3 epoch (loss 0.5039):   5%|▌         | 852/16950 [12:56<2:24:24,  1.86it/s]Training 1/3 epoch (loss 0.5039):   5%|▌         | 853/16950 [12:56<2:36:33,  1.71it/s]Training 1/3 epoch (loss 0.0695):   5%|▌         | 853/16950 [12:57<2:36:33,  1.71it/s]Training 1/3 epoch (loss 0.0695):   5%|▌         | 854/16950 [12:57<2:34:36,  1.74it/s]Training 1/3 epoch (loss 0.2350):   5%|▌         | 854/16950 [12:57<2:34:36,  1.74it/s]Training 1/3 epoch (loss 0.2350):   5%|▌         | 855/16950 [12:57<2:41:07,  1.66it/s]Training 1/3 epoch (loss 0.0910):   5%|▌         | 855/16950 [12:58<2:41:07,  1.66it/s]Training 1/3 epoch (loss 0.0910):   5%|▌         | 856/16950 [12:58<2:50:30,  1.57it/s]Training 1/3 epoch (loss 0.5480):   5%|▌         | 856/16950 [12:59<2:50:30,  1.57it/s]Training 1/3 epoch (loss 0.5480):   5%|▌         | 857/16950 [12:59<2:56:30,  1.52it/s]Training 1/3 epoch (loss 0.0071):   5%|▌         | 857/16950 [12:59<2:56:30,  1.52it/s]Training 1/3 epoch (loss 0.0071):   5%|▌         | 858/16950 [12:59<2:55:01,  1.53it/s]Training 1/3 epoch (loss 0.0149):   5%|▌         | 858/16950 [13:00<2:55:01,  1.53it/s]Training 1/3 epoch (loss 0.0149):   5%|▌         | 859/16950 [13:00<2:40:01,  1.68it/s]Training 1/3 epoch (loss 0.4824):   5%|▌         | 859/16950 [13:01<2:40:01,  1.68it/s]Training 1/3 epoch (loss 0.4824):   5%|▌         | 860/16950 [13:01<2:57:46,  1.51it/s]Training 1/3 epoch (loss 0.0848):   5%|▌         | 860/16950 [13:01<2:57:46,  1.51it/s]Training 1/3 epoch (loss 0.0848):   5%|▌         | 861/16950 [13:01<2:59:57,  1.49it/s]Training 1/3 epoch (loss 0.0061):   5%|▌         | 861/16950 [13:02<2:59:57,  1.49it/s]Training 1/3 epoch (loss 0.0061):   5%|▌         | 862/16950 [13:02<2:49:06,  1.59it/s]Training 1/3 epoch (loss 0.1093):   5%|▌         | 862/16950 [13:02<2:49:06,  1.59it/s]Training 1/3 epoch (loss 0.1093):   5%|▌         | 863/16950 [13:02<2:38:48,  1.69it/s]Training 1/3 epoch (loss 0.8860):   5%|▌         | 863/16950 [13:03<2:38:48,  1.69it/s]Training 1/3 epoch (loss 0.8860):   5%|▌         | 864/16950 [13:03<2:54:42,  1.53it/s]Training 1/3 epoch (loss 0.4514):   5%|▌         | 864/16950 [13:04<2:54:42,  1.53it/s]Training 1/3 epoch (loss 0.4514):   5%|▌         | 865/16950 [13:04<2:49:49,  1.58it/s]Training 1/3 epoch (loss 0.3393):   5%|▌         | 865/16950 [13:04<2:49:49,  1.58it/s]Training 1/3 epoch (loss 0.3393):   5%|▌         | 866/16950 [13:04<2:59:54,  1.49it/s]Training 1/3 epoch (loss 0.3098):   5%|▌         | 866/16950 [13:05<2:59:54,  1.49it/s]Training 1/3 epoch (loss 0.3098):   5%|▌         | 867/16950 [13:05<2:47:45,  1.60it/s]Training 1/3 epoch (loss 0.0110):   5%|▌         | 867/16950 [13:05<2:47:45,  1.60it/s]Training 1/3 epoch (loss 0.0110):   5%|▌         | 868/16950 [13:05<2:40:02,  1.67it/s]Training 1/3 epoch (loss 0.0600):   5%|▌         | 868/16950 [13:06<2:40:02,  1.67it/s]Training 1/3 epoch (loss 0.0600):   5%|▌         | 869/16950 [13:06<2:47:14,  1.60it/s]Training 1/3 epoch (loss 0.0908):   5%|▌         | 869/16950 [13:07<2:47:14,  1.60it/s]Training 1/3 epoch (loss 0.0908):   5%|▌         | 870/16950 [13:07<2:55:43,  1.53it/s]Training 1/3 epoch (loss 0.0560):   5%|▌         | 870/16950 [13:07<2:55:43,  1.53it/s]Training 1/3 epoch (loss 0.0560):   5%|▌         | 871/16950 [13:07<2:47:44,  1.60it/s]Training 1/3 epoch (loss 0.0058):   5%|▌         | 871/16950 [13:08<2:47:44,  1.60it/s]Training 1/3 epoch (loss 0.0058):   5%|▌         | 872/16950 [13:08<2:33:12,  1.75it/s]Training 1/3 epoch (loss 0.1416):   5%|▌         | 872/16950 [13:08<2:33:12,  1.75it/s]Training 1/3 epoch (loss 0.1416):   5%|▌         | 873/16950 [13:08<2:36:26,  1.71it/s]Training 1/3 epoch (loss 0.7261):   5%|▌         | 873/16950 [13:10<2:36:26,  1.71it/s]Training 1/3 epoch (loss 0.7261):   5%|▌         | 874/16950 [13:10<3:24:51,  1.31it/s]Training 1/3 epoch (loss 0.6769):   5%|▌         | 874/16950 [13:11<3:24:51,  1.31it/s]Training 1/3 epoch (loss 0.6769):   5%|▌         | 875/16950 [13:11<3:42:38,  1.20it/s]Training 1/3 epoch (loss 0.0176):   5%|▌         | 875/16950 [13:11<3:42:38,  1.20it/s]Training 1/3 epoch (loss 0.0176):   5%|▌         | 876/16950 [13:11<3:17:39,  1.36it/s]Training 1/3 epoch (loss 0.0172):   5%|▌         | 876/16950 [13:12<3:17:39,  1.36it/s]Training 1/3 epoch (loss 0.0172):   5%|▌         | 877/16950 [13:12<3:03:13,  1.46it/s]Training 1/3 epoch (loss 0.0119):   5%|▌         | 877/16950 [13:12<3:03:13,  1.46it/s]Training 1/3 epoch (loss 0.0119):   5%|▌         | 878/16950 [13:12<2:39:27,  1.68it/s]Training 1/3 epoch (loss 0.0138):   5%|▌         | 878/16950 [13:13<2:39:27,  1.68it/s]Training 1/3 epoch (loss 0.0138):   5%|▌         | 879/16950 [13:13<2:42:04,  1.65it/s]Training 1/3 epoch (loss 0.0659):   5%|▌         | 879/16950 [13:13<2:42:04,  1.65it/s]Training 1/3 epoch (loss 0.0659):   5%|▌         | 880/16950 [13:13<2:30:41,  1.78it/s]Training 1/3 epoch (loss 2.7986):   5%|▌         | 880/16950 [13:14<2:30:41,  1.78it/s]Training 1/3 epoch (loss 2.7986):   5%|▌         | 881/16950 [13:14<2:23:35,  1.87it/s]Training 1/3 epoch (loss 0.5651):   5%|▌         | 881/16950 [13:14<2:23:35,  1.87it/s]Training 1/3 epoch (loss 0.5651):   5%|▌         | 882/16950 [13:14<2:29:12,  1.79it/s]Training 1/3 epoch (loss 0.0158):   5%|▌         | 882/16950 [13:15<2:29:12,  1.79it/s]Training 1/3 epoch (loss 0.0158):   5%|▌         | 883/16950 [13:15<2:31:00,  1.77it/s]Training 1/3 epoch (loss 0.5524):   5%|▌         | 883/16950 [13:16<2:31:00,  1.77it/s]Training 1/3 epoch (loss 0.5524):   5%|▌         | 884/16950 [13:16<2:58:18,  1.50it/s]Training 1/3 epoch (loss 0.0077):   5%|▌         | 884/16950 [13:16<2:58:18,  1.50it/s]Training 1/3 epoch (loss 0.0077):   5%|▌         | 885/16950 [13:16<2:46:58,  1.60it/s]Training 1/3 epoch (loss 0.0672):   5%|▌         | 885/16950 [13:17<2:46:58,  1.60it/s]Training 1/3 epoch (loss 0.0672):   5%|▌         | 886/16950 [13:17<3:06:25,  1.44it/s]Training 1/3 epoch (loss 0.7839):   5%|▌         | 886/16950 [13:18<3:06:25,  1.44it/s]Training 1/3 epoch (loss 0.7839):   5%|▌         | 887/16950 [13:18<3:01:17,  1.48it/s]Training 1/3 epoch (loss 0.0072):   5%|▌         | 887/16950 [13:18<3:01:17,  1.48it/s]Training 1/3 epoch (loss 0.0072):   5%|▌         | 888/16950 [13:18<3:00:55,  1.48it/s]Training 1/3 epoch (loss 0.0466):   5%|▌         | 888/16950 [13:19<3:00:55,  1.48it/s]Training 1/3 epoch (loss 0.0466):   5%|▌         | 889/16950 [13:19<2:41:08,  1.66it/s]Training 1/3 epoch (loss 0.1667):   5%|▌         | 889/16950 [13:19<2:41:08,  1.66it/s]Training 1/3 epoch (loss 0.1667):   5%|▌         | 890/16950 [13:19<2:22:16,  1.88it/s]Training 1/3 epoch (loss 0.5276):   5%|▌         | 890/16950 [13:20<2:22:16,  1.88it/s]Training 1/3 epoch (loss 0.5276):   5%|▌         | 891/16950 [13:20<2:23:27,  1.87it/s]Training 1/3 epoch (loss 0.0797):   5%|▌         | 891/16950 [13:21<2:23:27,  1.87it/s]Training 1/3 epoch (loss 0.0797):   5%|▌         | 892/16950 [13:21<2:35:10,  1.72it/s]Training 1/3 epoch (loss 0.0064):   5%|▌         | 892/16950 [13:21<2:35:10,  1.72it/s]Training 1/3 epoch (loss 0.0064):   5%|▌         | 893/16950 [13:21<2:33:34,  1.74it/s]Training 1/3 epoch (loss 0.0240):   5%|▌         | 893/16950 [13:22<2:33:34,  1.74it/s]Training 1/3 epoch (loss 0.0240):   5%|▌         | 894/16950 [13:22<2:45:06,  1.62it/s]Training 1/3 epoch (loss 0.9504):   5%|▌         | 894/16950 [13:22<2:45:06,  1.62it/s]Training 1/3 epoch (loss 0.9504):   5%|▌         | 895/16950 [13:22<2:35:29,  1.72it/s]Training 1/3 epoch (loss 0.0073):   5%|▌         | 895/16950 [13:23<2:35:29,  1.72it/s]Training 1/3 epoch (loss 0.0073):   5%|▌         | 896/16950 [13:23<2:32:45,  1.75it/s]Training 1/3 epoch (loss 0.0447):   5%|▌         | 896/16950 [13:23<2:32:45,  1.75it/s]Training 1/3 epoch (loss 0.0447):   5%|▌         | 897/16950 [13:23<2:37:43,  1.70it/s]Training 1/3 epoch (loss 0.0072):   5%|▌         | 897/16950 [13:24<2:37:43,  1.70it/s]Training 1/3 epoch (loss 0.0072):   5%|▌         | 898/16950 [13:24<2:45:09,  1.62it/s]Training 1/3 epoch (loss 0.1614):   5%|▌         | 898/16950 [13:25<2:45:09,  1.62it/s]Training 1/3 epoch (loss 0.1614):   5%|▌         | 899/16950 [13:25<2:46:38,  1.61it/s]Training 1/3 epoch (loss 0.7008):   5%|▌         | 899/16950 [13:25<2:46:38,  1.61it/s]Training 1/3 epoch (loss 0.7008):   5%|▌         | 900/16950 [13:25<2:53:28,  1.54it/s]Training 1/3 epoch (loss 0.0076):   5%|▌         | 900/16950 [13:26<2:53:28,  1.54it/s]Training 1/3 epoch (loss 0.0076):   5%|▌         | 901/16950 [13:26<2:46:11,  1.61it/s]Training 1/3 epoch (loss 0.2117):   5%|▌         | 901/16950 [13:27<2:46:11,  1.61it/s]Training 1/3 epoch (loss 0.2117):   5%|▌         | 902/16950 [13:27<2:42:55,  1.64it/s]Training 1/3 epoch (loss 0.0740):   5%|▌         | 902/16950 [13:27<2:42:55,  1.64it/s]Training 1/3 epoch (loss 0.0740):   5%|▌         | 903/16950 [13:27<2:35:16,  1.72it/s]Training 1/3 epoch (loss 0.0450):   5%|▌         | 903/16950 [13:28<2:35:16,  1.72it/s]Training 1/3 epoch (loss 0.0450):   5%|▌         | 904/16950 [13:28<2:22:53,  1.87it/s]Training 1/3 epoch (loss 0.0322):   5%|▌         | 904/16950 [13:28<2:22:53,  1.87it/s]Training 1/3 epoch (loss 0.0322):   5%|▌         | 905/16950 [13:28<2:14:02,  2.00it/s]Training 1/3 epoch (loss 0.5770):   5%|▌         | 905/16950 [13:28<2:14:02,  2.00it/s]Training 1/3 epoch (loss 0.5770):   5%|▌         | 906/16950 [13:28<2:00:47,  2.21it/s]Training 1/3 epoch (loss 0.0528):   5%|▌         | 906/16950 [13:29<2:00:47,  2.21it/s]Training 1/3 epoch (loss 0.0528):   5%|▌         | 907/16950 [13:29<1:54:15,  2.34it/s]Training 1/3 epoch (loss 0.1212):   5%|▌         | 907/16950 [13:29<1:54:15,  2.34it/s]Training 1/3 epoch (loss 0.1212):   5%|▌         | 908/16950 [13:29<2:02:46,  2.18it/s]Training 1/3 epoch (loss 0.0122):   5%|▌         | 908/16950 [13:30<2:02:46,  2.18it/s]Training 1/3 epoch (loss 0.0122):   5%|▌         | 909/16950 [13:30<2:17:09,  1.95it/s]Training 1/3 epoch (loss 0.4665):   5%|▌         | 909/16950 [13:31<2:17:09,  1.95it/s]Training 1/3 epoch (loss 0.4665):   5%|▌         | 910/16950 [13:31<2:26:46,  1.82it/s]Training 1/3 epoch (loss 0.7120):   5%|▌         | 910/16950 [13:31<2:26:46,  1.82it/s]Training 1/3 epoch (loss 0.7120):   5%|▌         | 911/16950 [13:31<2:57:22,  1.51it/s]Training 1/3 epoch (loss 0.0105):   5%|▌         | 911/16950 [13:32<2:57:22,  1.51it/s]Training 1/3 epoch (loss 0.0105):   5%|▌         | 912/16950 [13:32<2:47:15,  1.60it/s]Training 1/3 epoch (loss 1.0762):   5%|▌         | 912/16950 [13:32<2:47:15,  1.60it/s]Training 1/3 epoch (loss 1.0762):   5%|▌         | 913/16950 [13:32<2:36:10,  1.71it/s]Training 1/3 epoch (loss 0.5949):   5%|▌         | 913/16950 [13:33<2:36:10,  1.71it/s]Training 1/3 epoch (loss 0.5949):   5%|▌         | 914/16950 [13:33<2:35:50,  1.71it/s]Training 1/3 epoch (loss 0.4959):   5%|▌         | 914/16950 [13:34<2:35:50,  1.71it/s]Training 1/3 epoch (loss 0.4959):   5%|▌         | 915/16950 [13:34<2:28:05,  1.80it/s]Training 1/3 epoch (loss 0.0149):   5%|▌         | 915/16950 [13:34<2:28:05,  1.80it/s]Training 1/3 epoch (loss 0.0149):   5%|▌         | 916/16950 [13:34<2:29:58,  1.78it/s]Training 1/3 epoch (loss 0.0506):   5%|▌         | 916/16950 [13:35<2:29:58,  1.78it/s]Training 1/3 epoch (loss 0.0506):   5%|▌         | 917/16950 [13:35<2:26:08,  1.83it/s]Training 1/3 epoch (loss 0.0752):   5%|▌         | 917/16950 [13:35<2:26:08,  1.83it/s]Training 1/3 epoch (loss 0.0752):   5%|▌         | 918/16950 [13:35<2:36:36,  1.71it/s]Training 1/3 epoch (loss 0.0065):   5%|▌         | 918/16950 [13:36<2:36:36,  1.71it/s]Training 1/3 epoch (loss 0.0065):   5%|▌         | 919/16950 [13:36<2:38:54,  1.68it/s]Training 1/3 epoch (loss 0.0569):   5%|▌         | 919/16950 [13:37<2:38:54,  1.68it/s]Training 1/3 epoch (loss 0.0569):   5%|▌         | 920/16950 [13:37<3:00:27,  1.48it/s]Training 1/3 epoch (loss 0.4037):   5%|▌         | 920/16950 [13:37<3:00:27,  1.48it/s]Training 1/3 epoch (loss 0.4037):   5%|▌         | 921/16950 [13:37<2:47:41,  1.59it/s]Training 1/3 epoch (loss 0.0298):   5%|▌         | 921/16950 [13:38<2:47:41,  1.59it/s]Training 1/3 epoch (loss 0.0298):   5%|▌         | 922/16950 [13:38<2:39:35,  1.67it/s]Training 1/3 epoch (loss 0.0453):   5%|▌         | 922/16950 [13:38<2:39:35,  1.67it/s]Training 1/3 epoch (loss 0.0453):   5%|▌         | 923/16950 [13:38<2:36:12,  1.71it/s]Training 1/3 epoch (loss 0.0533):   5%|▌         | 923/16950 [13:39<2:36:12,  1.71it/s]Training 1/3 epoch (loss 0.0533):   5%|▌         | 924/16950 [13:39<2:39:35,  1.67it/s]Training 1/3 epoch (loss 0.6289):   5%|▌         | 924/16950 [13:40<2:39:35,  1.67it/s]Training 1/3 epoch (loss 0.6289):   5%|▌         | 925/16950 [13:40<2:39:29,  1.67it/s]Training 1/3 epoch (loss 0.1727):   5%|▌         | 925/16950 [13:40<2:39:29,  1.67it/s]Training 1/3 epoch (loss 0.1727):   5%|▌         | 926/16950 [13:40<2:41:10,  1.66it/s]Training 1/3 epoch (loss 0.5183):   5%|▌         | 926/16950 [13:41<2:41:10,  1.66it/s]Training 1/3 epoch (loss 0.5183):   5%|▌         | 927/16950 [13:41<2:30:53,  1.77it/s]Training 1/3 epoch (loss 0.0674):   5%|▌         | 927/16950 [13:42<2:30:53,  1.77it/s]Training 1/3 epoch (loss 0.0674):   5%|▌         | 928/16950 [13:42<3:08:45,  1.41it/s]Training 1/3 epoch (loss 0.0152):   5%|▌         | 928/16950 [13:43<3:08:45,  1.41it/s]Training 1/3 epoch (loss 0.0152):   5%|▌         | 929/16950 [13:43<3:29:55,  1.27it/s]Training 1/3 epoch (loss 0.1175):   5%|▌         | 929/16950 [13:43<3:29:55,  1.27it/s]Training 1/3 epoch (loss 0.1175):   5%|▌         | 930/16950 [13:43<3:25:31,  1.30it/s]Training 1/3 epoch (loss 0.5282):   5%|▌         | 930/16950 [13:44<3:25:31,  1.30it/s]Training 1/3 epoch (loss 0.5282):   5%|▌         | 931/16950 [13:44<2:59:56,  1.48it/s]Training 1/3 epoch (loss 0.7611):   5%|▌         | 931/16950 [13:45<2:59:56,  1.48it/s]Training 1/3 epoch (loss 0.7611):   5%|▌         | 932/16950 [13:45<2:58:55,  1.49it/s]Training 1/3 epoch (loss 0.5105):   5%|▌         | 932/16950 [13:45<2:58:55,  1.49it/s]Training 1/3 epoch (loss 0.5105):   6%|▌         | 933/16950 [13:45<2:58:31,  1.50it/s]Training 1/3 epoch (loss 0.5440):   6%|▌         | 933/16950 [13:46<2:58:31,  1.50it/s]Training 1/3 epoch (loss 0.5440):   6%|▌         | 934/16950 [13:46<2:48:37,  1.58it/s]Training 1/3 epoch (loss 0.3500):   6%|▌         | 934/16950 [13:46<2:48:37,  1.58it/s]Training 1/3 epoch (loss 0.3500):   6%|▌         | 935/16950 [13:46<2:35:41,  1.71it/s]Training 1/3 epoch (loss 0.8108):   6%|▌         | 935/16950 [13:47<2:35:41,  1.71it/s]Training 1/3 epoch (loss 0.8108):   6%|▌         | 936/16950 [13:47<2:41:09,  1.66it/s]Training 1/3 epoch (loss 0.0179):   6%|▌         | 936/16950 [13:48<2:41:09,  1.66it/s]Training 1/3 epoch (loss 0.0179):   6%|▌         | 937/16950 [13:48<2:47:15,  1.60it/s]Training 1/3 epoch (loss 0.4854):   6%|▌         | 937/16950 [13:48<2:47:15,  1.60it/s]Training 1/3 epoch (loss 0.4854):   6%|▌         | 938/16950 [13:48<3:10:58,  1.40it/s]Training 1/3 epoch (loss 0.0266):   6%|▌         | 938/16950 [13:49<3:10:58,  1.40it/s]Training 1/3 epoch (loss 0.0266):   6%|▌         | 939/16950 [13:49<3:10:43,  1.40it/s]Training 1/3 epoch (loss 0.1010):   6%|▌         | 939/16950 [13:50<3:10:43,  1.40it/s]Training 1/3 epoch (loss 0.1010):   6%|▌         | 940/16950 [13:50<2:59:09,  1.49it/s]Training 1/3 epoch (loss 0.0593):   6%|▌         | 940/16950 [13:50<2:59:09,  1.49it/s]Training 1/3 epoch (loss 0.0593):   6%|▌         | 941/16950 [13:50<2:50:01,  1.57it/s]Training 1/3 epoch (loss 0.7696):   6%|▌         | 941/16950 [13:51<2:50:01,  1.57it/s]Training 1/3 epoch (loss 0.7696):   6%|▌         | 942/16950 [13:51<3:05:32,  1.44it/s]Training 1/3 epoch (loss 0.0285):   6%|▌         | 942/16950 [13:52<3:05:32,  1.44it/s]Training 1/3 epoch (loss 0.0285):   6%|▌         | 943/16950 [13:52<3:08:19,  1.42it/s]Training 1/3 epoch (loss 0.5581):   6%|▌         | 943/16950 [13:53<3:08:19,  1.42it/s]Training 1/3 epoch (loss 0.5581):   6%|▌         | 944/16950 [13:53<3:23:12,  1.31it/s]Training 1/3 epoch (loss 0.0318):   6%|▌         | 944/16950 [13:53<3:23:12,  1.31it/s]Training 1/3 epoch (loss 0.0318):   6%|▌         | 945/16950 [13:53<2:56:31,  1.51it/s]Training 1/3 epoch (loss 0.2309):   6%|▌         | 945/16950 [13:54<2:56:31,  1.51it/s]Training 1/3 epoch (loss 0.2309):   6%|▌         | 946/16950 [13:54<3:07:03,  1.43it/s]Training 1/3 epoch (loss 1.1682):   6%|▌         | 946/16950 [13:54<3:07:03,  1.43it/s]Training 1/3 epoch (loss 1.1682):   6%|▌         | 947/16950 [13:54<2:50:05,  1.57it/s]Training 1/3 epoch (loss 0.6351):   6%|▌         | 947/16950 [13:55<2:50:05,  1.57it/s]Training 1/3 epoch (loss 0.6351):   6%|▌         | 948/16950 [13:55<2:35:48,  1.71it/s]Training 1/3 epoch (loss 0.6194):   6%|▌         | 948/16950 [13:55<2:35:48,  1.71it/s]Training 1/3 epoch (loss 0.6194):   6%|▌         | 949/16950 [13:55<2:24:40,  1.84it/s]Training 1/3 epoch (loss 0.0082):   6%|▌         | 949/16950 [13:56<2:24:40,  1.84it/s]Training 1/3 epoch (loss 0.0082):   6%|▌         | 950/16950 [13:56<2:05:27,  2.13it/s]Training 1/3 epoch (loss 0.5886):   6%|▌         | 950/16950 [13:57<2:05:27,  2.13it/s]Training 1/3 epoch (loss 0.5886):   6%|▌         | 951/16950 [13:57<2:35:37,  1.71it/s]Training 1/3 epoch (loss 0.9878):   6%|▌         | 951/16950 [13:57<2:35:37,  1.71it/s]Training 1/3 epoch (loss 0.9878):   6%|▌         | 952/16950 [13:57<2:17:48,  1.93it/s]Training 1/3 epoch (loss 0.0061):   6%|▌         | 952/16950 [13:57<2:17:48,  1.93it/s]Training 1/3 epoch (loss 0.0061):   6%|▌         | 953/16950 [13:57<2:12:50,  2.01it/s]Training 1/3 epoch (loss 0.0293):   6%|▌         | 953/16950 [13:58<2:12:50,  2.01it/s]Training 1/3 epoch (loss 0.0293):   6%|▌         | 954/16950 [13:58<2:10:57,  2.04it/s]Training 1/3 epoch (loss 0.5049):   6%|▌         | 954/16950 [13:59<2:10:57,  2.04it/s]Training 1/3 epoch (loss 0.5049):   6%|▌         | 955/16950 [13:59<2:29:38,  1.78it/s]Training 1/3 epoch (loss 0.1389):   6%|▌         | 955/16950 [13:59<2:29:38,  1.78it/s]Training 1/3 epoch (loss 0.1389):   6%|▌         | 956/16950 [13:59<2:29:39,  1.78it/s]Training 1/3 epoch (loss 0.0732):   6%|▌         | 956/16950 [14:00<2:29:39,  1.78it/s]Training 1/3 epoch (loss 0.0732):   6%|▌         | 957/16950 [14:00<2:21:57,  1.88it/s]Training 1/3 epoch (loss 0.6917):   6%|▌         | 957/16950 [14:01<2:21:57,  1.88it/s]Training 1/3 epoch (loss 0.6917):   6%|▌         | 958/16950 [14:01<2:55:10,  1.52it/s]Training 1/3 epoch (loss 0.0554):   6%|▌         | 958/16950 [14:01<2:55:10,  1.52it/s]Training 1/3 epoch (loss 0.0554):   6%|▌         | 959/16950 [14:01<2:52:38,  1.54it/s]Training 1/3 epoch (loss 0.0889):   6%|▌         | 959/16950 [14:02<2:52:38,  1.54it/s]Training 1/3 epoch (loss 0.0889):   6%|▌         | 960/16950 [14:02<2:54:34,  1.53it/s]Training 1/3 epoch (loss 0.0409):   6%|▌         | 960/16950 [14:02<2:54:34,  1.53it/s]Training 1/3 epoch (loss 0.0409):   6%|▌         | 961/16950 [14:02<2:28:48,  1.79it/s]Training 1/3 epoch (loss 0.0106):   6%|▌         | 961/16950 [14:03<2:28:48,  1.79it/s]Training 1/3 epoch (loss 0.0106):   6%|▌         | 962/16950 [14:03<2:31:26,  1.76it/s]Training 1/3 epoch (loss 0.2518):   6%|▌         | 962/16950 [14:04<2:31:26,  1.76it/s]Training 1/3 epoch (loss 0.2518):   6%|▌         | 963/16950 [14:04<3:08:36,  1.41it/s]Training 1/3 epoch (loss 0.5410):   6%|▌         | 963/16950 [14:04<3:08:36,  1.41it/s]Training 1/3 epoch (loss 0.5410):   6%|▌         | 964/16950 [14:04<2:54:07,  1.53it/s]Training 1/3 epoch (loss 0.4564):   6%|▌         | 964/16950 [14:05<2:54:07,  1.53it/s]Training 1/3 epoch (loss 0.4564):   6%|▌         | 965/16950 [14:05<2:55:55,  1.51it/s]Training 1/3 epoch (loss 0.4004):   6%|▌         | 965/16950 [14:06<2:55:55,  1.51it/s]Training 1/3 epoch (loss 0.4004):   6%|▌         | 966/16950 [14:06<2:59:55,  1.48it/s]Training 1/3 epoch (loss 0.0090):   6%|▌         | 966/16950 [14:06<2:59:55,  1.48it/s]Training 1/3 epoch (loss 0.0090):   6%|▌         | 967/16950 [14:06<2:50:33,  1.56it/s]Training 1/3 epoch (loss 0.0115):   6%|▌         | 967/16950 [14:07<2:50:33,  1.56it/s]Training 1/3 epoch (loss 0.0115):   6%|▌         | 968/16950 [14:07<2:47:57,  1.59it/s]Training 1/3 epoch (loss 0.4672):   6%|▌         | 968/16950 [14:07<2:47:57,  1.59it/s]Training 1/3 epoch (loss 0.4672):   6%|▌         | 969/16950 [14:07<2:34:42,  1.72it/s]Training 1/3 epoch (loss 0.4810):   6%|▌         | 969/16950 [14:08<2:34:42,  1.72it/s]Training 1/3 epoch (loss 0.4810):   6%|▌         | 970/16950 [14:08<2:27:20,  1.81it/s]Training 1/3 epoch (loss 0.0163):   6%|▌         | 970/16950 [14:08<2:27:20,  1.81it/s]Training 1/3 epoch (loss 0.0163):   6%|▌         | 971/16950 [14:08<2:11:46,  2.02it/s]Training 1/3 epoch (loss 0.0474):   6%|▌         | 971/16950 [14:09<2:11:46,  2.02it/s]Training 1/3 epoch (loss 0.0474):   6%|▌         | 972/16950 [14:09<1:59:07,  2.24it/s]Training 1/3 epoch (loss 0.1180):   6%|▌         | 972/16950 [14:09<1:59:07,  2.24it/s]Training 1/3 epoch (loss 0.1180):   6%|▌         | 973/16950 [14:09<2:10:03,  2.05it/s]Training 1/3 epoch (loss 0.7446):   6%|▌         | 973/16950 [14:10<2:10:03,  2.05it/s]Training 1/3 epoch (loss 0.7446):   6%|▌         | 974/16950 [14:10<2:04:17,  2.14it/s]Training 1/3 epoch (loss 1.1463):   6%|▌         | 974/16950 [14:10<2:04:17,  2.14it/s]Training 1/3 epoch (loss 1.1463):   6%|▌         | 975/16950 [14:10<2:05:59,  2.11it/s]Training 1/3 epoch (loss 0.0749):   6%|▌         | 975/16950 [14:11<2:05:59,  2.11it/s]Training 1/3 epoch (loss 0.0749):   6%|▌         | 976/16950 [14:11<2:09:02,  2.06it/s]Training 1/3 epoch (loss 0.6855):   6%|▌         | 976/16950 [14:11<2:09:02,  2.06it/s]Training 1/3 epoch (loss 0.6855):   6%|▌         | 977/16950 [14:11<2:25:58,  1.82it/s]Training 1/3 epoch (loss 0.0203):   6%|▌         | 977/16950 [14:12<2:25:58,  1.82it/s]Training 1/3 epoch (loss 0.0203):   6%|▌         | 978/16950 [14:12<2:34:05,  1.73it/s]Training 1/3 epoch (loss 0.0286):   6%|▌         | 978/16950 [14:12<2:34:05,  1.73it/s]Training 1/3 epoch (loss 0.0286):   6%|▌         | 979/16950 [14:12<2:26:20,  1.82it/s]Training 1/3 epoch (loss 0.8190):   6%|▌         | 979/16950 [14:13<2:26:20,  1.82it/s]Training 1/3 epoch (loss 0.8190):   6%|▌         | 980/16950 [14:13<2:22:04,  1.87it/s]Training 1/3 epoch (loss 0.1580):   6%|▌         | 980/16950 [14:13<2:22:04,  1.87it/s]Training 1/3 epoch (loss 0.1580):   6%|▌         | 981/16950 [14:13<2:10:07,  2.05it/s]Training 1/3 epoch (loss 0.0229):   6%|▌         | 981/16950 [14:14<2:10:07,  2.05it/s]Training 1/3 epoch (loss 0.0229):   6%|▌         | 982/16950 [14:14<2:21:20,  1.88it/s]Training 1/3 epoch (loss 0.5743):   6%|▌         | 982/16950 [14:15<2:21:20,  1.88it/s]Training 1/3 epoch (loss 0.5743):   6%|▌         | 983/16950 [14:15<2:41:14,  1.65it/s]Training 1/3 epoch (loss 0.1220):   6%|▌         | 983/16950 [14:16<2:41:14,  1.65it/s]Training 1/3 epoch (loss 0.1220):   6%|▌         | 984/16950 [14:16<3:07:59,  1.42it/s]Training 1/3 epoch (loss 0.0843):   6%|▌         | 984/16950 [14:16<3:07:59,  1.42it/s]Training 1/3 epoch (loss 0.0843):   6%|▌         | 985/16950 [14:16<2:57:46,  1.50it/s]Training 1/3 epoch (loss 0.4633):   6%|▌         | 985/16950 [14:17<2:57:46,  1.50it/s]Training 1/3 epoch (loss 0.4633):   6%|▌         | 986/16950 [14:17<2:43:12,  1.63it/s]Training 1/3 epoch (loss 0.5405):   6%|▌         | 986/16950 [14:17<2:43:12,  1.63it/s]Training 1/3 epoch (loss 0.5405):   6%|▌         | 987/16950 [14:17<2:35:36,  1.71it/s]Training 1/3 epoch (loss 0.3993):   6%|▌         | 987/16950 [14:18<2:35:36,  1.71it/s]Training 1/3 epoch (loss 0.3993):   6%|▌         | 988/16950 [14:18<2:50:59,  1.56it/s]Training 1/3 epoch (loss 0.5732):   6%|▌         | 988/16950 [14:19<2:50:59,  1.56it/s]Training 1/3 epoch (loss 0.5732):   6%|▌         | 989/16950 [14:19<2:48:55,  1.57it/s]Training 1/3 epoch (loss 0.7066):   6%|▌         | 989/16950 [14:19<2:48:55,  1.57it/s]Training 1/3 epoch (loss 0.7066):   6%|▌         | 990/16950 [14:19<2:30:44,  1.76it/s]Training 1/3 epoch (loss 0.1059):   6%|▌         | 990/16950 [14:19<2:30:44,  1.76it/s]Training 1/3 epoch (loss 0.1059):   6%|▌         | 991/16950 [14:19<2:23:21,  1.86it/s]Training 1/3 epoch (loss 0.0147):   6%|▌         | 991/16950 [14:20<2:23:21,  1.86it/s]Training 1/3 epoch (loss 0.0147):   6%|▌         | 992/16950 [14:20<2:24:18,  1.84it/s]Training 1/3 epoch (loss 0.0174):   6%|▌         | 992/16950 [14:21<2:24:18,  1.84it/s]Training 1/3 epoch (loss 0.0174):   6%|▌         | 993/16950 [14:21<2:29:28,  1.78it/s]Training 1/3 epoch (loss 0.5321):   6%|▌         | 993/16950 [14:21<2:29:28,  1.78it/s]Training 1/3 epoch (loss 0.5321):   6%|▌         | 994/16950 [14:21<2:21:26,  1.88it/s]Training 1/3 epoch (loss 0.0478):   6%|▌         | 994/16950 [14:21<2:21:26,  1.88it/s]Training 1/3 epoch (loss 0.0478):   6%|▌         | 995/16950 [14:21<2:11:26,  2.02it/s]Training 1/3 epoch (loss 0.0064):   6%|▌         | 995/16950 [14:22<2:11:26,  2.02it/s]Training 1/3 epoch (loss 0.0064):   6%|▌         | 996/16950 [14:22<2:21:01,  1.89it/s]Training 1/3 epoch (loss 0.6399):   6%|▌         | 996/16950 [14:23<2:21:01,  1.89it/s]Training 1/3 epoch (loss 0.6399):   6%|▌         | 997/16950 [14:23<2:28:21,  1.79it/s]Training 1/3 epoch (loss 0.9838):   6%|▌         | 997/16950 [14:24<2:28:21,  1.79it/s]Training 1/3 epoch (loss 0.9838):   6%|▌         | 998/16950 [14:24<3:01:09,  1.47it/s]Training 1/3 epoch (loss 1.0179):   6%|▌         | 998/16950 [14:25<3:01:09,  1.47it/s]Training 1/3 epoch (loss 1.0179):   6%|▌         | 999/16950 [14:25<3:29:54,  1.27it/s]Training 1/3 epoch (loss 0.0130):   6%|▌         | 999/16950 [14:25<3:29:54,  1.27it/s]Training 1/3 epoch (loss 0.0130):   6%|▌         | 1000/16950 [14:25<3:24:04,  1.30it/s]Training 1/3 epoch (loss 0.0461):   6%|▌         | 1000/16950 [14:26<3:24:04,  1.30it/s]Training 1/3 epoch (loss 0.0461):   6%|▌         | 1001/16950 [14:26<3:13:33,  1.37it/s]Training 1/3 epoch (loss 0.0639):   6%|▌         | 1001/16950 [14:27<3:13:33,  1.37it/s]Training 1/3 epoch (loss 0.0639):   6%|▌         | 1002/16950 [14:27<3:02:13,  1.46it/s]Training 1/3 epoch (loss 0.0286):   6%|▌         | 1002/16950 [14:27<3:02:13,  1.46it/s]Training 1/3 epoch (loss 0.0286):   6%|▌         | 1003/16950 [14:27<2:41:26,  1.65it/s]Training 1/3 epoch (loss 0.7580):   6%|▌         | 1003/16950 [14:28<2:41:26,  1.65it/s]Training 1/3 epoch (loss 0.7580):   6%|▌         | 1004/16950 [14:28<2:57:47,  1.49it/s]Training 1/3 epoch (loss 0.3110):   6%|▌         | 1004/16950 [14:28<2:57:47,  1.49it/s]Training 1/3 epoch (loss 0.3110):   6%|▌         | 1005/16950 [14:28<2:47:11,  1.59it/s]Training 1/3 epoch (loss 0.0087):   6%|▌         | 1005/16950 [14:29<2:47:11,  1.59it/s]Training 1/3 epoch (loss 0.0087):   6%|▌         | 1006/16950 [14:29<2:40:28,  1.66it/s]Training 1/3 epoch (loss 0.3162):   6%|▌         | 1006/16950 [14:30<2:40:28,  1.66it/s]Training 1/3 epoch (loss 0.3162):   6%|▌         | 1007/16950 [14:30<2:40:05,  1.66it/s]Training 1/3 epoch (loss 1.0106):   6%|▌         | 1007/16950 [14:30<2:40:05,  1.66it/s]Training 1/3 epoch (loss 1.0106):   6%|▌         | 1008/16950 [14:30<2:46:10,  1.60it/s]Training 1/3 epoch (loss 0.0247):   6%|▌         | 1008/16950 [14:31<2:46:10,  1.60it/s]Training 1/3 epoch (loss 0.0247):   6%|▌         | 1009/16950 [14:31<2:45:12,  1.61it/s]Training 1/3 epoch (loss 0.0506):   6%|▌         | 1009/16950 [14:31<2:45:12,  1.61it/s]Training 1/3 epoch (loss 0.0506):   6%|▌         | 1010/16950 [14:31<2:29:36,  1.78it/s]Training 1/3 epoch (loss 0.0716):   6%|▌         | 1010/16950 [14:32<2:29:36,  1.78it/s]Training 1/3 epoch (loss 0.0716):   6%|▌         | 1011/16950 [14:32<2:27:53,  1.80it/s]Training 1/3 epoch (loss 0.2692):   6%|▌         | 1011/16950 [14:33<2:27:53,  1.80it/s]Training 1/3 epoch (loss 0.2692):   6%|▌         | 1012/16950 [14:33<2:49:04,  1.57it/s]Training 1/3 epoch (loss 0.0129):   6%|▌         | 1012/16950 [14:33<2:49:04,  1.57it/s]Training 1/3 epoch (loss 0.0129):   6%|▌         | 1013/16950 [14:33<2:47:02,  1.59it/s]Training 1/3 epoch (loss 0.6075):   6%|▌         | 1013/16950 [14:34<2:47:02,  1.59it/s]Training 1/3 epoch (loss 0.6075):   6%|▌         | 1014/16950 [14:34<3:22:59,  1.31it/s]Training 1/3 epoch (loss 0.0201):   6%|▌         | 1014/16950 [14:35<3:22:59,  1.31it/s]Training 1/3 epoch (loss 0.0201):   6%|▌         | 1015/16950 [14:35<3:13:03,  1.38it/s]Training 1/3 epoch (loss 0.0642):   6%|▌         | 1015/16950 [14:36<3:13:03,  1.38it/s]Training 1/3 epoch (loss 0.0642):   6%|▌         | 1016/16950 [14:36<3:03:29,  1.45it/s]Training 1/3 epoch (loss 0.0097):   6%|▌         | 1016/16950 [14:36<3:03:29,  1.45it/s]Training 1/3 epoch (loss 0.0097):   6%|▌         | 1017/16950 [14:36<2:45:28,  1.60it/s]Training 1/3 epoch (loss 0.4378):   6%|▌         | 1017/16950 [14:36<2:45:28,  1.60it/s]Training 1/3 epoch (loss 0.4378):   6%|▌         | 1018/16950 [14:36<2:26:24,  1.81it/s]Training 1/3 epoch (loss 0.5626):   6%|▌         | 1018/16950 [14:37<2:26:24,  1.81it/s]Training 1/3 epoch (loss 0.5626):   6%|▌         | 1019/16950 [14:37<2:28:02,  1.79it/s]Training 1/3 epoch (loss 0.6033):   6%|▌         | 1019/16950 [14:38<2:28:02,  1.79it/s]Training 1/3 epoch (loss 0.6033):   6%|▌         | 1020/16950 [14:38<2:34:55,  1.71it/s]Training 1/3 epoch (loss 0.4531):   6%|▌         | 1020/16950 [14:38<2:34:55,  1.71it/s]Training 1/3 epoch (loss 0.4531):   6%|▌         | 1021/16950 [14:38<2:26:53,  1.81it/s]Training 1/3 epoch (loss 0.9823):   6%|▌         | 1021/16950 [14:39<2:26:53,  1.81it/s]Training 1/3 epoch (loss 0.9823):   6%|▌         | 1022/16950 [14:39<3:15:48,  1.36it/s]Training 1/3 epoch (loss 0.8191):   6%|▌         | 1022/16950 [14:40<3:15:48,  1.36it/s]Training 1/3 epoch (loss 0.8191):   6%|▌         | 1023/16950 [14:40<3:16:05,  1.35it/s]Training 1/3 epoch (loss 0.0273):   6%|▌         | 1023/16950 [14:41<3:16:05,  1.35it/s]Training 1/3 epoch (loss 0.0273):   6%|▌         | 1024/16950 [14:41<3:09:50,  1.40it/s]Training 1/3 epoch (loss 0.0417):   6%|▌         | 1024/16950 [14:41<3:09:50,  1.40it/s]Training 1/3 epoch (loss 0.0417):   6%|▌         | 1025/16950 [14:41<2:54:41,  1.52it/s]Training 1/3 epoch (loss 0.0457):   6%|▌         | 1025/16950 [14:42<2:54:41,  1.52it/s]Training 1/3 epoch (loss 0.0457):   6%|▌         | 1026/16950 [14:42<2:43:45,  1.62it/s]Training 1/3 epoch (loss 0.6149):   6%|▌         | 1026/16950 [14:42<2:43:45,  1.62it/s]Training 1/3 epoch (loss 0.6149):   6%|▌         | 1027/16950 [14:42<2:29:06,  1.78it/s]Training 1/3 epoch (loss 0.1354):   6%|▌         | 1027/16950 [14:43<2:29:06,  1.78it/s]Training 1/3 epoch (loss 0.1354):   6%|▌         | 1028/16950 [14:43<2:38:32,  1.67it/s]Training 1/3 epoch (loss 0.4448):   6%|▌         | 1028/16950 [14:43<2:38:32,  1.67it/s]Training 1/3 epoch (loss 0.4448):   6%|▌         | 1029/16950 [14:43<2:27:51,  1.79it/s]Training 1/3 epoch (loss 0.0966):   6%|▌         | 1029/16950 [14:44<2:27:51,  1.79it/s]Training 1/3 epoch (loss 0.0966):   6%|▌         | 1030/16950 [14:44<3:08:46,  1.41it/s]Training 1/3 epoch (loss 0.1124):   6%|▌         | 1030/16950 [14:45<3:08:46,  1.41it/s]Training 1/3 epoch (loss 0.1124):   6%|▌         | 1031/16950 [14:45<3:05:19,  1.43it/s]Training 1/3 epoch (loss 0.0917):   6%|▌         | 1031/16950 [14:46<3:05:19,  1.43it/s]Training 1/3 epoch (loss 0.0917):   6%|▌         | 1032/16950 [14:46<2:59:39,  1.48it/s]Training 1/3 epoch (loss 0.0636):   6%|▌         | 1032/16950 [14:46<2:59:39,  1.48it/s]Training 1/3 epoch (loss 0.0636):   6%|▌         | 1033/16950 [14:46<3:01:29,  1.46it/s]Training 1/3 epoch (loss 0.4199):   6%|▌         | 1033/16950 [14:47<3:01:29,  1.46it/s]Training 1/3 epoch (loss 0.4199):   6%|▌         | 1034/16950 [14:47<2:47:54,  1.58it/s]Training 1/3 epoch (loss 0.3638):   6%|▌         | 1034/16950 [14:48<2:47:54,  1.58it/s]Training 1/3 epoch (loss 0.3638):   6%|▌         | 1035/16950 [14:48<2:49:12,  1.57it/s]Training 1/3 epoch (loss 0.0549):   6%|▌         | 1035/16950 [14:48<2:49:12,  1.57it/s]Training 1/3 epoch (loss 0.0549):   6%|▌         | 1036/16950 [14:48<2:45:15,  1.61it/s]Training 1/3 epoch (loss 0.7152):   6%|▌         | 1036/16950 [14:49<2:45:15,  1.61it/s]Training 1/3 epoch (loss 0.7152):   6%|▌         | 1037/16950 [14:49<3:05:03,  1.43it/s]Training 1/3 epoch (loss 0.0235):   6%|▌         | 1037/16950 [14:50<3:05:03,  1.43it/s]Training 1/3 epoch (loss 0.0235):   6%|▌         | 1038/16950 [14:50<2:57:06,  1.50it/s]Training 1/3 epoch (loss 0.0684):   6%|▌         | 1038/16950 [14:50<2:57:06,  1.50it/s]Training 1/3 epoch (loss 0.0684):   6%|▌         | 1039/16950 [14:50<2:41:09,  1.65it/s]Training 1/3 epoch (loss 0.4448):   6%|▌         | 1039/16950 [14:51<2:41:09,  1.65it/s]Training 1/3 epoch (loss 0.4448):   6%|▌         | 1040/16950 [14:51<2:32:13,  1.74it/s]Training 1/3 epoch (loss 0.0904):   6%|▌         | 1040/16950 [14:51<2:32:13,  1.74it/s]Training 1/3 epoch (loss 0.0904):   6%|▌         | 1041/16950 [14:51<2:33:41,  1.73it/s]Training 1/3 epoch (loss 0.1228):   6%|▌         | 1041/16950 [14:52<2:33:41,  1.73it/s]Training 1/3 epoch (loss 0.1228):   6%|▌         | 1042/16950 [14:52<2:39:43,  1.66it/s]Training 1/3 epoch (loss 0.2054):   6%|▌         | 1042/16950 [14:53<2:39:43,  1.66it/s]Training 1/3 epoch (loss 0.2054):   6%|▌         | 1043/16950 [14:53<3:04:49,  1.43it/s]Training 1/3 epoch (loss 0.0269):   6%|▌         | 1043/16950 [14:53<3:04:49,  1.43it/s]Training 1/3 epoch (loss 0.0269):   6%|▌         | 1044/16950 [14:53<3:05:37,  1.43it/s]Training 1/3 epoch (loss 0.6788):   6%|▌         | 1044/16950 [14:54<3:05:37,  1.43it/s]Training 1/3 epoch (loss 0.6788):   6%|▌         | 1045/16950 [14:54<2:52:27,  1.54it/s]Training 1/3 epoch (loss 0.1149):   6%|▌         | 1045/16950 [14:55<2:52:27,  1.54it/s]Training 1/3 epoch (loss 0.1149):   6%|▌         | 1046/16950 [14:55<3:04:08,  1.44it/s]Training 1/3 epoch (loss 0.0418):   6%|▌         | 1046/16950 [14:55<3:04:08,  1.44it/s]Training 1/3 epoch (loss 0.0418):   6%|▌         | 1047/16950 [14:55<2:50:28,  1.55it/s]Training 1/3 epoch (loss 0.0508):   6%|▌         | 1047/16950 [14:56<2:50:28,  1.55it/s]Training 1/3 epoch (loss 0.0508):   6%|▌         | 1048/16950 [14:56<2:34:28,  1.72it/s]Training 1/3 epoch (loss 0.0231):   6%|▌         | 1048/16950 [14:56<2:34:28,  1.72it/s]Training 1/3 epoch (loss 0.0231):   6%|▌         | 1049/16950 [14:56<2:25:59,  1.82it/s]Training 1/3 epoch (loss 0.6674):   6%|▌         | 1049/16950 [14:57<2:25:59,  1.82it/s]Training 1/3 epoch (loss 0.6674):   6%|▌         | 1050/16950 [14:57<2:48:58,  1.57it/s]Training 1/3 epoch (loss 0.1081):   6%|▌         | 1050/16950 [14:58<2:48:58,  1.57it/s]Training 1/3 epoch (loss 0.1081):   6%|▌         | 1051/16950 [14:58<2:37:55,  1.68it/s]Training 1/3 epoch (loss nan):   6%|▌         | 1051/16950 [14:59<2:37:55,  1.68it/s]   Training 1/3 epoch (loss nan):   6%|▌         | 1052/16950 [14:59<3:18:47,  1.33it/s]Training 1/3 epoch (loss 0.0884):   6%|▌         | 1052/16950 [14:59<3:18:47,  1.33it/s]Training 1/3 epoch (loss 0.0884):   6%|▌         | 1053/16950 [14:59<3:11:02,  1.39it/s]Training 1/3 epoch (loss 0.0130):   6%|▌         | 1053/16950 [15:00<3:11:02,  1.39it/s]Training 1/3 epoch (loss 0.0130):   6%|▌         | 1054/16950 [15:00<2:58:04,  1.49it/s]Training 1/3 epoch (loss 0.0047):   6%|▌         | 1054/16950 [15:00<2:58:04,  1.49it/s]Training 1/3 epoch (loss 0.0047):   6%|▌         | 1055/16950 [15:00<2:50:41,  1.55it/s]Training 1/3 epoch (loss 0.5970):   6%|▌         | 1055/16950 [15:01<2:50:41,  1.55it/s]Training 1/3 epoch (loss 0.5970):   6%|▌         | 1056/16950 [15:01<2:54:18,  1.52it/s]Training 1/3 epoch (loss 0.4163):   6%|▌         | 1056/16950 [15:02<2:54:18,  1.52it/s]Training 1/3 epoch (loss 0.4163):   6%|▌         | 1057/16950 [15:02<2:39:44,  1.66it/s]Training 1/3 epoch (loss 0.5617):   6%|▌         | 1057/16950 [15:02<2:39:44,  1.66it/s]Training 1/3 epoch (loss 0.5617):   6%|▌         | 1058/16950 [15:02<2:28:04,  1.79it/s]Training 1/3 epoch (loss 0.0123):   6%|▌         | 1058/16950 [15:03<2:28:04,  1.79it/s]Training 1/3 epoch (loss 0.0123):   6%|▌         | 1059/16950 [15:03<2:20:45,  1.88it/s]Training 1/3 epoch (loss 0.1371):   6%|▌         | 1059/16950 [15:03<2:20:45,  1.88it/s]Training 1/3 epoch (loss 0.1371):   6%|▋         | 1060/16950 [15:03<2:53:09,  1.53it/s]Training 1/3 epoch (loss 0.6040):   6%|▋         | 1060/16950 [15:04<2:53:09,  1.53it/s]Training 1/3 epoch (loss 0.6040):   6%|▋         | 1061/16950 [15:04<2:42:44,  1.63it/s]Training 1/3 epoch (loss 0.1630):   6%|▋         | 1061/16950 [15:04<2:42:44,  1.63it/s]Training 1/3 epoch (loss 0.1630):   6%|▋         | 1062/16950 [15:04<2:32:12,  1.74it/s]Training 1/3 epoch (loss 0.4132):   6%|▋         | 1062/16950 [15:05<2:32:12,  1.74it/s]Training 1/3 epoch (loss 0.4132):   6%|▋         | 1063/16950 [15:05<2:33:55,  1.72it/s]Training 1/3 epoch (loss 0.0652):   6%|▋         | 1063/16950 [15:06<2:33:55,  1.72it/s]Training 1/3 epoch (loss 0.0652):   6%|▋         | 1064/16950 [15:06<3:05:46,  1.43it/s]Training 1/3 epoch (loss 0.7548):   6%|▋         | 1064/16950 [15:07<3:05:46,  1.43it/s]Training 1/3 epoch (loss 0.7548):   6%|▋         | 1065/16950 [15:07<2:57:53,  1.49it/s]Training 1/3 epoch (loss 1.2302):   6%|▋         | 1065/16950 [15:08<2:57:53,  1.49it/s]Training 1/3 epoch (loss 1.2302):   6%|▋         | 1066/16950 [15:08<3:25:40,  1.29it/s]Training 1/3 epoch (loss 0.0144):   6%|▋         | 1066/16950 [15:08<3:25:40,  1.29it/s]Training 1/3 epoch (loss 0.0144):   6%|▋         | 1067/16950 [15:08<3:20:05,  1.32it/s]Training 1/3 epoch (loss 0.0734):   6%|▋         | 1067/16950 [15:09<3:20:05,  1.32it/s]Training 1/3 epoch (loss 0.0734):   6%|▋         | 1068/16950 [15:09<3:09:22,  1.40it/s]Training 1/3 epoch (loss 0.0066):   6%|▋         | 1068/16950 [15:09<3:09:22,  1.40it/s]Training 1/3 epoch (loss 0.0066):   6%|▋         | 1069/16950 [15:09<2:49:35,  1.56it/s]Training 1/3 epoch (loss 0.0071):   6%|▋         | 1069/16950 [15:10<2:49:35,  1.56it/s]Training 1/3 epoch (loss 0.0071):   6%|▋         | 1070/16950 [15:10<2:53:50,  1.52it/s]Training 1/3 epoch (loss 0.1108):   6%|▋         | 1070/16950 [15:11<2:53:50,  1.52it/s]Training 1/3 epoch (loss 0.1108):   6%|▋         | 1071/16950 [15:11<2:51:49,  1.54it/s]Training 1/3 epoch (loss 0.3728):   6%|▋         | 1071/16950 [15:12<2:51:49,  1.54it/s]Training 1/3 epoch (loss 0.3728):   6%|▋         | 1072/16950 [15:12<3:17:13,  1.34it/s]Training 1/3 epoch (loss 0.2870):   6%|▋         | 1072/16950 [15:12<3:17:13,  1.34it/s]Training 1/3 epoch (loss 0.2870):   6%|▋         | 1073/16950 [15:12<3:06:58,  1.42it/s]Training 1/3 epoch (loss 1.1817):   6%|▋         | 1073/16950 [15:14<3:06:58,  1.42it/s]Training 1/3 epoch (loss 1.1817):   6%|▋         | 1074/16950 [15:14<3:43:14,  1.19it/s]Training 1/3 epoch (loss 0.0137):   6%|▋         | 1074/16950 [15:14<3:43:14,  1.19it/s]Training 1/3 epoch (loss 0.0137):   6%|▋         | 1075/16950 [15:14<3:28:17,  1.27it/s]Training 1/3 epoch (loss 0.0546):   6%|▋         | 1075/16950 [15:15<3:28:17,  1.27it/s]Training 1/3 epoch (loss 0.0546):   6%|▋         | 1076/16950 [15:15<3:01:28,  1.46it/s]Training 1/3 epoch (loss 0.0070):   6%|▋         | 1076/16950 [15:15<3:01:28,  1.46it/s]Training 1/3 epoch (loss 0.0070):   6%|▋         | 1077/16950 [15:15<2:54:12,  1.52it/s]Training 1/3 epoch (loss 0.0841):   6%|▋         | 1077/16950 [15:16<2:54:12,  1.52it/s]Training 1/3 epoch (loss 0.0841):   6%|▋         | 1078/16950 [15:16<3:19:23,  1.33it/s]Training 1/3 epoch (loss 0.0098):   6%|▋         | 1078/16950 [15:17<3:19:23,  1.33it/s]Training 1/3 epoch (loss 0.0098):   6%|▋         | 1079/16950 [15:17<3:03:44,  1.44it/s]Training 1/3 epoch (loss 0.3051):   6%|▋         | 1079/16950 [15:17<3:03:44,  1.44it/s]Training 1/3 epoch (loss 0.3051):   6%|▋         | 1080/16950 [15:17<2:53:37,  1.52it/s]Training 1/3 epoch (loss 0.0265):   6%|▋         | 1080/16950 [15:18<2:53:37,  1.52it/s]Training 1/3 epoch (loss 0.0265):   6%|▋         | 1081/16950 [15:18<2:36:14,  1.69it/s]Training 1/3 epoch (loss 0.1271):   6%|▋         | 1081/16950 [15:18<2:36:14,  1.69it/s]Training 1/3 epoch (loss 0.1271):   6%|▋         | 1082/16950 [15:18<2:24:53,  1.83it/s]Training 1/3 epoch (loss 0.0182):   6%|▋         | 1082/16950 [15:19<2:24:53,  1.83it/s]Training 1/3 epoch (loss 0.0182):   6%|▋         | 1083/16950 [15:19<2:23:05,  1.85it/s]Training 1/3 epoch (loss 0.0204):   6%|▋         | 1083/16950 [15:19<2:23:05,  1.85it/s]Training 1/3 epoch (loss 0.0204):   6%|▋         | 1084/16950 [15:19<2:16:03,  1.94it/s]Training 1/3 epoch (loss 0.0072):   6%|▋         | 1084/16950 [15:20<2:16:03,  1.94it/s]Training 1/3 epoch (loss 0.0072):   6%|▋         | 1085/16950 [15:20<2:07:54,  2.07it/s]Training 1/3 epoch (loss 0.0405):   6%|▋         | 1085/16950 [15:20<2:07:54,  2.07it/s]Training 1/3 epoch (loss 0.0405):   6%|▋         | 1086/16950 [15:20<2:19:52,  1.89it/s]Training 1/3 epoch (loss 0.5203):   6%|▋         | 1086/16950 [15:21<2:19:52,  1.89it/s]Training 1/3 epoch (loss 0.5203):   6%|▋         | 1087/16950 [15:21<2:46:48,  1.58it/s]Training 1/3 epoch (loss 0.1180):   6%|▋         | 1087/16950 [15:22<2:46:48,  1.58it/s]Training 1/3 epoch (loss 0.1180):   6%|▋         | 1088/16950 [15:22<2:56:10,  1.50it/s]Training 1/3 epoch (loss 0.1851):   6%|▋         | 1088/16950 [15:23<2:56:10,  1.50it/s]Training 1/3 epoch (loss 0.1851):   6%|▋         | 1089/16950 [15:23<3:09:33,  1.39it/s]Training 1/3 epoch (loss 0.2713):   6%|▋         | 1089/16950 [15:24<3:09:33,  1.39it/s]Training 1/3 epoch (loss 0.2713):   6%|▋         | 1090/16950 [15:24<3:14:09,  1.36it/s]Training 1/3 epoch (loss 0.2057):   6%|▋         | 1090/16950 [15:24<3:14:09,  1.36it/s]Training 1/3 epoch (loss 0.2057):   6%|▋         | 1091/16950 [15:24<3:12:37,  1.37it/s]Training 1/3 epoch (loss 0.0062):   6%|▋         | 1091/16950 [15:25<3:12:37,  1.37it/s]Training 1/3 epoch (loss 0.0062):   6%|▋         | 1092/16950 [15:25<2:56:44,  1.50it/s]Training 1/3 epoch (loss 0.8179):   6%|▋         | 1092/16950 [15:26<2:56:44,  1.50it/s]Training 1/3 epoch (loss 0.8179):   6%|▋         | 1093/16950 [15:26<3:17:51,  1.34it/s]Training 1/3 epoch (loss 0.0178):   6%|▋         | 1093/16950 [15:26<3:17:51,  1.34it/s]Training 1/3 epoch (loss 0.0178):   6%|▋         | 1094/16950 [15:26<2:57:36,  1.49it/s]Training 1/3 epoch (loss 0.0297):   6%|▋         | 1094/16950 [15:27<2:57:36,  1.49it/s]Training 1/3 epoch (loss 0.0297):   6%|▋         | 1095/16950 [15:27<2:52:33,  1.53it/s]Training 1/3 epoch (loss 0.7023):   6%|▋         | 1095/16950 [15:28<2:52:33,  1.53it/s]Training 1/3 epoch (loss 0.7023):   6%|▋         | 1096/16950 [15:28<3:04:12,  1.43it/s]Training 1/3 epoch (loss 0.0303):   6%|▋         | 1096/16950 [15:28<3:04:12,  1.43it/s]Training 1/3 epoch (loss 0.0303):   6%|▋         | 1097/16950 [15:28<2:48:20,  1.57it/s]Training 1/3 epoch (loss 0.5905):   6%|▋         | 1097/16950 [15:29<2:48:20,  1.57it/s]Training 1/3 epoch (loss 0.5905):   6%|▋         | 1098/16950 [15:29<2:40:26,  1.65it/s]Training 1/3 epoch (loss 0.6313):   6%|▋         | 1098/16950 [15:29<2:40:26,  1.65it/s]Training 1/3 epoch (loss 0.6313):   6%|▋         | 1099/16950 [15:29<2:34:09,  1.71it/s]Training 1/3 epoch (loss 0.0667):   6%|▋         | 1099/16950 [15:30<2:34:09,  1.71it/s]Training 1/3 epoch (loss 0.0667):   6%|▋         | 1100/16950 [15:30<2:32:22,  1.73it/s]Training 1/3 epoch (loss 0.0217):   6%|▋         | 1100/16950 [15:30<2:32:22,  1.73it/s]Training 1/3 epoch (loss 0.0217):   6%|▋         | 1101/16950 [15:30<2:38:59,  1.66it/s]Training 1/3 epoch (loss 0.0052):   6%|▋         | 1101/16950 [15:31<2:38:59,  1.66it/s]Training 1/3 epoch (loss 0.0052):   7%|▋         | 1102/16950 [15:31<2:16:14,  1.94it/s]Training 1/3 epoch (loss 0.0203):   7%|▋         | 1102/16950 [15:31<2:16:14,  1.94it/s]Training 1/3 epoch (loss 0.0203):   7%|▋         | 1103/16950 [15:31<2:06:47,  2.08it/s]Training 1/3 epoch (loss 0.0064):   7%|▋         | 1103/16950 [15:32<2:06:47,  2.08it/s]Training 1/3 epoch (loss 0.0064):   7%|▋         | 1104/16950 [15:32<2:18:44,  1.90it/s]Training 1/3 epoch (loss 0.5498):   7%|▋         | 1104/16950 [15:32<2:18:44,  1.90it/s]Training 1/3 epoch (loss 0.5498):   7%|▋         | 1105/16950 [15:32<2:05:54,  2.10it/s]Training 1/3 epoch (loss 0.1131):   7%|▋         | 1105/16950 [15:33<2:05:54,  2.10it/s]Training 1/3 epoch (loss 0.1131):   7%|▋         | 1106/16950 [15:33<2:15:52,  1.94it/s]Training 1/3 epoch (loss 0.4995):   7%|▋         | 1106/16950 [15:33<2:15:52,  1.94it/s]Training 1/3 epoch (loss 0.4995):   7%|▋         | 1107/16950 [15:33<2:03:49,  2.13it/s]Training 1/3 epoch (loss 0.0327):   7%|▋         | 1107/16950 [15:33<2:03:49,  2.13it/s]Training 1/3 epoch (loss 0.0327):   7%|▋         | 1108/16950 [15:33<1:54:53,  2.30it/s]Training 1/3 epoch (loss 0.0233):   7%|▋         | 1108/16950 [15:34<1:54:53,  2.30it/s]Training 1/3 epoch (loss 0.0233):   7%|▋         | 1109/16950 [15:34<2:15:35,  1.95it/s]Training 1/3 epoch (loss 0.0112):   7%|▋         | 1109/16950 [15:35<2:15:35,  1.95it/s]Training 1/3 epoch (loss 0.0112):   7%|▋         | 1110/16950 [15:35<2:11:38,  2.01it/s]Training 1/3 epoch (loss 0.0174):   7%|▋         | 1110/16950 [15:35<2:11:38,  2.01it/s]Training 1/3 epoch (loss 0.0174):   7%|▋         | 1111/16950 [15:35<2:12:18,  2.00it/s]Training 1/3 epoch (loss 0.6554):   7%|▋         | 1111/16950 [15:36<2:12:18,  2.00it/s]Training 1/3 epoch (loss 0.6554):   7%|▋         | 1112/16950 [15:36<2:40:18,  1.65it/s]Training 1/3 epoch (loss 0.5762):   7%|▋         | 1112/16950 [15:36<2:40:18,  1.65it/s]Training 1/3 epoch (loss 0.5762):   7%|▋         | 1113/16950 [15:36<2:32:13,  1.73it/s]Training 1/3 epoch (loss 1.1845):   7%|▋         | 1113/16950 [15:37<2:32:13,  1.73it/s]Training 1/3 epoch (loss 1.1845):   7%|▋         | 1114/16950 [15:37<2:38:15,  1.67it/s]Training 1/3 epoch (loss 0.0501):   7%|▋         | 1114/16950 [15:38<2:38:15,  1.67it/s]Training 1/3 epoch (loss 0.0501):   7%|▋         | 1115/16950 [15:38<2:44:23,  1.61it/s]Training 1/3 epoch (loss 0.0272):   7%|▋         | 1115/16950 [15:38<2:44:23,  1.61it/s]Training 1/3 epoch (loss 0.0272):   7%|▋         | 1116/16950 [15:38<2:47:22,  1.58it/s]Training 1/3 epoch (loss 0.1577):   7%|▋         | 1116/16950 [15:39<2:47:22,  1.58it/s]Training 1/3 epoch (loss 0.1577):   7%|▋         | 1117/16950 [15:39<2:57:32,  1.49it/s]Training 1/3 epoch (loss 0.3623):   7%|▋         | 1117/16950 [15:40<2:57:32,  1.49it/s]Training 1/3 epoch (loss 0.3623):   7%|▋         | 1118/16950 [15:40<2:45:32,  1.59it/s]Training 1/3 epoch (loss 0.0025):   7%|▋         | 1118/16950 [15:40<2:45:32,  1.59it/s]Training 1/3 epoch (loss 0.0025):   7%|▋         | 1119/16950 [15:40<2:36:06,  1.69it/s]Training 1/3 epoch (loss 0.3884):   7%|▋         | 1119/16950 [15:41<2:36:06,  1.69it/s]Training 1/3 epoch (loss 0.3884):   7%|▋         | 1120/16950 [15:41<2:20:34,  1.88it/s]Training 1/3 epoch (loss 0.4870):   7%|▋         | 1120/16950 [15:41<2:20:34,  1.88it/s]Training 1/3 epoch (loss 0.4870):   7%|▋         | 1121/16950 [15:41<2:16:02,  1.94it/s]Training 1/3 epoch (loss 0.0515):   7%|▋         | 1121/16950 [15:42<2:16:02,  1.94it/s]Training 1/3 epoch (loss 0.0515):   7%|▋         | 1122/16950 [15:42<2:15:06,  1.95it/s]Training 1/3 epoch (loss 0.1104):   7%|▋         | 1122/16950 [15:42<2:15:06,  1.95it/s]Training 1/3 epoch (loss 0.1104):   7%|▋         | 1123/16950 [15:42<2:21:26,  1.87it/s]Training 1/3 epoch (loss 0.7163):   7%|▋         | 1123/16950 [15:43<2:21:26,  1.87it/s]Training 1/3 epoch (loss 0.7163):   7%|▋         | 1124/16950 [15:43<2:19:27,  1.89it/s]Training 1/3 epoch (loss 0.0455):   7%|▋         | 1124/16950 [15:43<2:19:27,  1.89it/s]Training 1/3 epoch (loss 0.0455):   7%|▋         | 1125/16950 [15:43<2:39:01,  1.66it/s]Training 1/3 epoch (loss 0.1352):   7%|▋         | 1125/16950 [15:44<2:39:01,  1.66it/s]Training 1/3 epoch (loss 0.1352):   7%|▋         | 1126/16950 [15:44<2:34:49,  1.70it/s]Training 1/3 epoch (loss 0.0123):   7%|▋         | 1126/16950 [15:44<2:34:49,  1.70it/s]Training 1/3 epoch (loss 0.0123):   7%|▋         | 1127/16950 [15:44<2:25:34,  1.81it/s]Training 1/3 epoch (loss 0.0728):   7%|▋         | 1127/16950 [15:45<2:25:34,  1.81it/s]Training 1/3 epoch (loss 0.0728):   7%|▋         | 1128/16950 [15:45<2:49:13,  1.56it/s]Training 1/3 epoch (loss 0.0428):   7%|▋         | 1128/16950 [15:46<2:49:13,  1.56it/s]Training 1/3 epoch (loss 0.0428):   7%|▋         | 1129/16950 [15:46<2:38:57,  1.66it/s]Training 1/3 epoch (loss 0.0875):   7%|▋         | 1129/16950 [15:46<2:38:57,  1.66it/s]Training 1/3 epoch (loss 0.0875):   7%|▋         | 1130/16950 [15:46<2:31:15,  1.74it/s]Training 1/3 epoch (loss 0.4899):   7%|▋         | 1130/16950 [15:47<2:31:15,  1.74it/s]Training 1/3 epoch (loss 0.4899):   7%|▋         | 1131/16950 [15:47<2:25:36,  1.81it/s]Training 1/3 epoch (loss 0.5549):   7%|▋         | 1131/16950 [15:47<2:25:36,  1.81it/s]Training 1/3 epoch (loss 0.5549):   7%|▋         | 1132/16950 [15:47<2:17:41,  1.91it/s]Training 1/3 epoch (loss 0.1371):   7%|▋         | 1132/16950 [15:48<2:17:41,  1.91it/s]Training 1/3 epoch (loss 0.1371):   7%|▋         | 1133/16950 [15:48<2:24:56,  1.82it/s]Training 1/3 epoch (loss 0.0079):   7%|▋         | 1133/16950 [15:49<2:24:56,  1.82it/s]Training 1/3 epoch (loss 0.0079):   7%|▋         | 1134/16950 [15:49<3:06:15,  1.42it/s]Training 1/3 epoch (loss 0.0777):   7%|▋         | 1134/16950 [15:50<3:06:15,  1.42it/s]Training 1/3 epoch (loss 0.0777):   7%|▋         | 1135/16950 [15:50<2:50:25,  1.55it/s]Training 1/3 epoch (loss 0.0707):   7%|▋         | 1135/16950 [15:50<2:50:25,  1.55it/s]Training 1/3 epoch (loss 0.0707):   7%|▋         | 1136/16950 [15:50<2:51:05,  1.54it/s]Training 1/3 epoch (loss 0.0217):   7%|▋         | 1136/16950 [15:51<2:51:05,  1.54it/s]Training 1/3 epoch (loss 0.0217):   7%|▋         | 1137/16950 [15:51<2:54:14,  1.51it/s]Training 1/3 epoch (loss 0.6009):   7%|▋         | 1137/16950 [15:51<2:54:14,  1.51it/s]Training 1/3 epoch (loss 0.6009):   7%|▋         | 1138/16950 [15:51<2:38:25,  1.66it/s]Training 1/3 epoch (loss 0.0041):   7%|▋         | 1138/16950 [15:52<2:38:25,  1.66it/s]Training 1/3 epoch (loss 0.0041):   7%|▋         | 1139/16950 [15:52<2:27:18,  1.79it/s]Training 1/3 epoch (loss 0.1260):   7%|▋         | 1139/16950 [15:52<2:27:18,  1.79it/s]Training 1/3 epoch (loss 0.1260):   7%|▋         | 1140/16950 [15:52<2:22:01,  1.86it/s]Training 1/3 epoch (loss 0.1222):   7%|▋         | 1140/16950 [15:53<2:22:01,  1.86it/s]Training 1/3 epoch (loss 0.1222):   7%|▋         | 1141/16950 [15:53<2:45:02,  1.60it/s]Training 1/3 epoch (loss 0.0345):   7%|▋         | 1141/16950 [15:54<2:45:02,  1.60it/s]Training 1/3 epoch (loss 0.0345):   7%|▋         | 1142/16950 [15:54<3:08:30,  1.40it/s]Training 1/3 epoch (loss 0.0420):   7%|▋         | 1142/16950 [15:55<3:08:30,  1.40it/s]Training 1/3 epoch (loss 0.0420):   7%|▋         | 1143/16950 [15:55<2:50:57,  1.54it/s]Training 1/3 epoch (loss 0.0437):   7%|▋         | 1143/16950 [15:55<2:50:57,  1.54it/s]Training 1/3 epoch (loss 0.0437):   7%|▋         | 1144/16950 [15:55<2:31:57,  1.73it/s]Training 1/3 epoch (loss 0.6454):   7%|▋         | 1144/16950 [15:56<2:31:57,  1.73it/s]Training 1/3 epoch (loss 0.6454):   7%|▋         | 1145/16950 [15:56<2:52:29,  1.53it/s]Training 1/3 epoch (loss 0.7095):   7%|▋         | 1145/16950 [15:56<2:52:29,  1.53it/s]Training 1/3 epoch (loss 0.7095):   7%|▋         | 1146/16950 [15:56<2:35:23,  1.70it/s]Training 1/3 epoch (loss 0.0083):   7%|▋         | 1146/16950 [15:57<2:35:23,  1.70it/s]Training 1/3 epoch (loss 0.0083):   7%|▋         | 1147/16950 [15:57<2:39:13,  1.65it/s]Training 1/3 epoch (loss 0.0078):   7%|▋         | 1147/16950 [15:57<2:39:13,  1.65it/s]Training 1/3 epoch (loss 0.0078):   7%|▋         | 1148/16950 [15:57<2:16:36,  1.93it/s]Training 1/3 epoch (loss 0.0063):   7%|▋         | 1148/16950 [15:58<2:16:36,  1.93it/s]Training 1/3 epoch (loss 0.0063):   7%|▋         | 1149/16950 [15:58<2:22:18,  1.85it/s]Training 1/3 epoch (loss 0.0823):   7%|▋         | 1149/16950 [15:58<2:22:18,  1.85it/s]Training 1/3 epoch (loss 0.0823):   7%|▋         | 1150/16950 [15:58<2:24:39,  1.82it/s]Training 1/3 epoch (loss 0.2494):   7%|▋         | 1150/16950 [15:59<2:24:39,  1.82it/s]Training 1/3 epoch (loss 0.2494):   7%|▋         | 1151/16950 [15:59<2:30:16,  1.75it/s]Training 1/3 epoch (loss 0.6199):   7%|▋         | 1151/16950 [15:59<2:30:16,  1.75it/s]Training 1/3 epoch (loss 0.6199):   7%|▋         | 1152/16950 [15:59<2:17:44,  1.91it/s]Training 1/3 epoch (loss 0.4936):   7%|▋         | 1152/16950 [16:00<2:17:44,  1.91it/s]Training 1/3 epoch (loss 0.4936):   7%|▋         | 1153/16950 [16:00<2:22:31,  1.85it/s]Training 1/3 epoch (loss 0.1306):   7%|▋         | 1153/16950 [16:00<2:22:31,  1.85it/s]Training 1/3 epoch (loss 0.1306):   7%|▋         | 1154/16950 [16:00<2:07:05,  2.07it/s]Training 1/3 epoch (loss 0.0581):   7%|▋         | 1154/16950 [16:01<2:07:05,  2.07it/s]Training 1/3 epoch (loss 0.0581):   7%|▋         | 1155/16950 [16:01<2:31:15,  1.74it/s]Training 1/3 epoch (loss 0.0433):   7%|▋         | 1155/16950 [16:02<2:31:15,  1.74it/s]Training 1/3 epoch (loss 0.0433):   7%|▋         | 1156/16950 [16:02<2:37:51,  1.67it/s]Training 1/3 epoch (loss 0.0506):   7%|▋         | 1156/16950 [16:02<2:37:51,  1.67it/s]Training 1/3 epoch (loss 0.0506):   7%|▋         | 1157/16950 [16:02<2:32:30,  1.73it/s]Training 1/3 epoch (loss 0.0393):   7%|▋         | 1157/16950 [16:03<2:32:30,  1.73it/s]Training 1/3 epoch (loss 0.0393):   7%|▋         | 1158/16950 [16:03<2:19:53,  1.88it/s]Training 1/3 epoch (loss 0.4795):   7%|▋         | 1158/16950 [16:04<2:19:53,  1.88it/s]Training 1/3 epoch (loss 0.4795):   7%|▋         | 1159/16950 [16:04<2:47:01,  1.58it/s]Training 1/3 epoch (loss 0.6543):   7%|▋         | 1159/16950 [16:04<2:47:01,  1.58it/s]Training 1/3 epoch (loss 0.6543):   7%|▋         | 1160/16950 [16:04<2:34:32,  1.70it/s]Training 1/3 epoch (loss 0.0106):   7%|▋         | 1160/16950 [16:05<2:34:32,  1.70it/s]Training 1/3 epoch (loss 0.0106):   7%|▋         | 1161/16950 [16:05<2:30:21,  1.75it/s]Training 1/3 epoch (loss 0.0435):   7%|▋         | 1161/16950 [16:05<2:30:21,  1.75it/s]Training 1/3 epoch (loss 0.0435):   7%|▋         | 1162/16950 [16:05<2:24:19,  1.82it/s]Training 1/3 epoch (loss 0.0043):   7%|▋         | 1162/16950 [16:05<2:24:19,  1.82it/s]Training 1/3 epoch (loss 0.0043):   7%|▋         | 1163/16950 [16:05<2:15:01,  1.95it/s]Training 1/3 epoch (loss 0.8086):   7%|▋         | 1163/16950 [16:06<2:15:01,  1.95it/s]Training 1/3 epoch (loss 0.8086):   7%|▋         | 1164/16950 [16:06<2:52:03,  1.53it/s]Training 1/3 epoch (loss 0.2934):   7%|▋         | 1164/16950 [16:07<2:52:03,  1.53it/s]Training 1/3 epoch (loss 0.2934):   7%|▋         | 1165/16950 [16:07<2:42:01,  1.62it/s]Training 1/3 epoch (loss 0.0059):   7%|▋         | 1165/16950 [16:08<2:42:01,  1.62it/s]Training 1/3 epoch (loss 0.0059):   7%|▋         | 1166/16950 [16:08<2:40:54,  1.63it/s]Training 1/3 epoch (loss 0.0147):   7%|▋         | 1166/16950 [16:08<2:40:54,  1.63it/s]Training 1/3 epoch (loss 0.0147):   7%|▋         | 1167/16950 [16:08<2:30:22,  1.75it/s]Training 1/3 epoch (loss 0.0446):   7%|▋         | 1167/16950 [16:09<2:30:22,  1.75it/s]Training 1/3 epoch (loss 0.0446):   7%|▋         | 1168/16950 [16:09<2:33:38,  1.71it/s]Training 1/3 epoch (loss 0.0025):   7%|▋         | 1168/16950 [16:09<2:33:38,  1.71it/s]Training 1/3 epoch (loss 0.0025):   7%|▋         | 1169/16950 [16:09<2:40:00,  1.64it/s]Training 1/3 epoch (loss 0.0172):   7%|▋         | 1169/16950 [16:10<2:40:00,  1.64it/s]Training 1/3 epoch (loss 0.0172):   7%|▋         | 1170/16950 [16:10<2:26:41,  1.79it/s]Training 1/3 epoch (loss 0.1509):   7%|▋         | 1170/16950 [16:10<2:26:41,  1.79it/s]Training 1/3 epoch (loss 0.1509):   7%|▋         | 1171/16950 [16:10<2:34:15,  1.70it/s]Training 1/3 epoch (loss 0.1556):   7%|▋         | 1171/16950 [16:11<2:34:15,  1.70it/s]Training 1/3 epoch (loss 0.1556):   7%|▋         | 1172/16950 [16:11<2:30:24,  1.75it/s]Training 1/3 epoch (loss 0.0189):   7%|▋         | 1172/16950 [16:12<2:30:24,  1.75it/s]Training 1/3 epoch (loss 0.0189):   7%|▋         | 1173/16950 [16:12<2:31:10,  1.74it/s]Training 1/3 epoch (loss 0.0749):   7%|▋         | 1173/16950 [16:12<2:31:10,  1.74it/s]Training 1/3 epoch (loss 0.0749):   7%|▋         | 1174/16950 [16:12<2:28:39,  1.77it/s]Training 1/3 epoch (loss 0.3747):   7%|▋         | 1174/16950 [16:13<2:28:39,  1.77it/s]Training 1/3 epoch (loss 0.3747):   7%|▋         | 1175/16950 [16:13<2:31:22,  1.74it/s]Training 1/3 epoch (loss 0.0026):   7%|▋         | 1175/16950 [16:13<2:31:22,  1.74it/s]Training 1/3 epoch (loss 0.0026):   7%|▋         | 1176/16950 [16:13<2:36:36,  1.68it/s]Training 1/3 epoch (loss 0.3620):   7%|▋         | 1176/16950 [16:14<2:36:36,  1.68it/s]Training 1/3 epoch (loss 0.3620):   7%|▋         | 1177/16950 [16:14<2:40:47,  1.63it/s]Training 1/3 epoch (loss 0.0029):   7%|▋         | 1177/16950 [16:15<2:40:47,  1.63it/s]Training 1/3 epoch (loss 0.0029):   7%|▋         | 1178/16950 [16:15<2:33:57,  1.71it/s]Training 1/3 epoch (loss 0.2811):   7%|▋         | 1178/16950 [16:15<2:33:57,  1.71it/s]Training 1/3 epoch (loss 0.2811):   7%|▋         | 1179/16950 [16:15<2:38:32,  1.66it/s]Training 1/3 epoch (loss 0.7493):   7%|▋         | 1179/16950 [16:16<2:38:32,  1.66it/s]Training 1/3 epoch (loss 0.7493):   7%|▋         | 1180/16950 [16:16<2:32:19,  1.73it/s]Training 1/3 epoch (loss 0.3839):   7%|▋         | 1180/16950 [16:16<2:32:19,  1.73it/s]Training 1/3 epoch (loss 0.3839):   7%|▋         | 1181/16950 [16:16<2:19:45,  1.88it/s]Training 1/3 epoch (loss 0.2909):   7%|▋         | 1181/16950 [16:17<2:19:45,  1.88it/s]Training 1/3 epoch (loss 0.2909):   7%|▋         | 1182/16950 [16:17<2:47:17,  1.57it/s]Training 1/3 epoch (loss 0.4361):   7%|▋         | 1182/16950 [16:18<2:47:17,  1.57it/s]Training 1/3 epoch (loss 0.4361):   7%|▋         | 1183/16950 [16:18<2:53:10,  1.52it/s]Training 1/3 epoch (loss 0.2483):   7%|▋         | 1183/16950 [16:18<2:53:10,  1.52it/s]Training 1/3 epoch (loss 0.2483):   7%|▋         | 1184/16950 [16:18<2:55:57,  1.49it/s]Training 1/3 epoch (loss 0.3330):   7%|▋         | 1184/16950 [16:19<2:55:57,  1.49it/s]Training 1/3 epoch (loss 0.3330):   7%|▋         | 1185/16950 [16:19<3:29:00,  1.26it/s]Training 1/3 epoch (loss 1.2436):   7%|▋         | 1185/16950 [16:20<3:29:00,  1.26it/s]Training 1/3 epoch (loss 1.2436):   7%|▋         | 1186/16950 [16:20<3:31:34,  1.24it/s]Training 1/3 epoch (loss 0.0704):   7%|▋         | 1186/16950 [16:21<3:31:34,  1.24it/s]Training 1/3 epoch (loss 0.0704):   7%|▋         | 1187/16950 [16:21<3:09:18,  1.39it/s]Training 1/3 epoch (loss 0.0804):   7%|▋         | 1187/16950 [16:21<3:09:18,  1.39it/s]Training 1/3 epoch (loss 0.0804):   7%|▋         | 1188/16950 [16:21<2:52:59,  1.52it/s]Training 1/3 epoch (loss 0.5767):   7%|▋         | 1188/16950 [16:22<2:52:59,  1.52it/s]Training 1/3 epoch (loss 0.5767):   7%|▋         | 1189/16950 [16:22<2:29:25,  1.76it/s]Training 1/3 epoch (loss 0.4529):   7%|▋         | 1189/16950 [16:22<2:29:25,  1.76it/s]Training 1/3 epoch (loss 0.4529):   7%|▋         | 1190/16950 [16:22<2:37:34,  1.67it/s]Training 1/3 epoch (loss 0.0108):   7%|▋         | 1190/16950 [16:23<2:37:34,  1.67it/s]Training 1/3 epoch (loss 0.0108):   7%|▋         | 1191/16950 [16:23<2:30:12,  1.75it/s]Training 1/3 epoch (loss 0.3043):   7%|▋         | 1191/16950 [16:23<2:30:12,  1.75it/s]Training 1/3 epoch (loss 0.3043):   7%|▋         | 1192/16950 [16:23<2:17:02,  1.92it/s]Training 1/3 epoch (loss 0.1791):   7%|▋         | 1192/16950 [16:24<2:17:02,  1.92it/s]Training 1/3 epoch (loss 0.1791):   7%|▋         | 1193/16950 [16:24<2:17:44,  1.91it/s]Training 1/3 epoch (loss 0.0404):   7%|▋         | 1193/16950 [16:24<2:17:44,  1.91it/s]Training 1/3 epoch (loss 0.0404):   7%|▋         | 1194/16950 [16:24<2:12:45,  1.98it/s]Training 1/3 epoch (loss 0.0934):   7%|▋         | 1194/16950 [16:25<2:12:45,  1.98it/s]Training 1/3 epoch (loss 0.0934):   7%|▋         | 1195/16950 [16:25<2:42:00,  1.62it/s]Training 1/3 epoch (loss 0.0126):   7%|▋         | 1195/16950 [16:26<2:42:00,  1.62it/s]Training 1/3 epoch (loss 0.0126):   7%|▋         | 1196/16950 [16:26<2:34:07,  1.70it/s]Training 1/3 epoch (loss 0.1033):   7%|▋         | 1196/16950 [16:26<2:34:07,  1.70it/s]Training 1/3 epoch (loss 0.1033):   7%|▋         | 1197/16950 [16:26<2:38:06,  1.66it/s]Training 1/3 epoch (loss 0.9481):   7%|▋         | 1197/16950 [16:27<2:38:06,  1.66it/s]Training 1/3 epoch (loss 0.9481):   7%|▋         | 1198/16950 [16:27<2:25:32,  1.80it/s]Training 1/3 epoch (loss 0.4892):   7%|▋         | 1198/16950 [16:27<2:25:32,  1.80it/s]Training 1/3 epoch (loss 0.4892):   7%|▋         | 1199/16950 [16:27<2:15:55,  1.93it/s]Training 1/3 epoch (loss 0.0523):   7%|▋         | 1199/16950 [16:28<2:15:55,  1.93it/s]Training 1/3 epoch (loss 0.0523):   7%|▋         | 1200/16950 [16:28<2:31:19,  1.73it/s]Training 1/3 epoch (loss 0.6188):   7%|▋         | 1200/16950 [16:28<2:31:19,  1.73it/s]Training 1/3 epoch (loss 0.6188):   7%|▋         | 1201/16950 [16:28<2:29:36,  1.75it/s]Training 1/3 epoch (loss 0.2368):   7%|▋         | 1201/16950 [16:29<2:29:36,  1.75it/s]Training 1/3 epoch (loss 0.2368):   7%|▋         | 1202/16950 [16:29<2:15:03,  1.94it/s]Training 1/3 epoch (loss 0.5839):   7%|▋         | 1202/16950 [16:30<2:15:03,  1.94it/s]Training 1/3 epoch (loss 0.5839):   7%|▋         | 1203/16950 [16:30<2:28:01,  1.77it/s]Training 1/3 epoch (loss 0.0964):   7%|▋         | 1203/16950 [16:30<2:28:01,  1.77it/s]Training 1/3 epoch (loss 0.0964):   7%|▋         | 1204/16950 [16:30<2:27:45,  1.78it/s]Training 1/3 epoch (loss 0.7652):   7%|▋         | 1204/16950 [16:31<2:27:45,  1.78it/s]Training 1/3 epoch (loss 0.7652):   7%|▋         | 1205/16950 [16:31<2:27:14,  1.78it/s]Training 1/3 epoch (loss 0.1030):   7%|▋         | 1205/16950 [16:31<2:27:14,  1.78it/s]Training 1/3 epoch (loss 0.1030):   7%|▋         | 1206/16950 [16:31<2:36:14,  1.68it/s]Training 1/3 epoch (loss 0.6998):   7%|▋         | 1206/16950 [16:32<2:36:14,  1.68it/s]Training 1/3 epoch (loss 0.6998):   7%|▋         | 1207/16950 [16:32<2:24:28,  1.82it/s]Training 1/3 epoch (loss 0.0440):   7%|▋         | 1207/16950 [16:32<2:24:28,  1.82it/s]Training 1/3 epoch (loss 0.0440):   7%|▋         | 1208/16950 [16:32<2:09:35,  2.02it/s]Training 1/3 epoch (loss 0.0264):   7%|▋         | 1208/16950 [16:33<2:09:35,  2.02it/s]Training 1/3 epoch (loss 0.0264):   7%|▋         | 1209/16950 [16:33<2:04:05,  2.11it/s]Training 1/3 epoch (loss 0.0912):   7%|▋         | 1209/16950 [16:33<2:04:05,  2.11it/s]Training 1/3 epoch (loss 0.0912):   7%|▋         | 1210/16950 [16:33<1:54:49,  2.28it/s]Training 1/3 epoch (loss 0.0535):   7%|▋         | 1210/16950 [16:33<1:54:49,  2.28it/s]Training 1/3 epoch (loss 0.0535):   7%|▋         | 1211/16950 [16:33<1:56:48,  2.25it/s]Training 1/3 epoch (loss 0.4978):   7%|▋         | 1211/16950 [16:34<1:56:48,  2.25it/s]Training 1/3 epoch (loss 0.4978):   7%|▋         | 1212/16950 [16:34<2:20:02,  1.87it/s]Training 1/3 epoch (loss 0.0168):   7%|▋         | 1212/16950 [16:35<2:20:02,  1.87it/s]Training 1/3 epoch (loss 0.0168):   7%|▋         | 1213/16950 [16:35<2:15:24,  1.94it/s]Training 1/3 epoch (loss 0.5044):   7%|▋         | 1213/16950 [16:35<2:15:24,  1.94it/s]Training 1/3 epoch (loss 0.5044):   7%|▋         | 1214/16950 [16:35<2:21:28,  1.85it/s]Training 1/3 epoch (loss 0.4643):   7%|▋         | 1214/16950 [16:36<2:21:28,  1.85it/s]Training 1/3 epoch (loss 0.4643):   7%|▋         | 1215/16950 [16:36<2:23:43,  1.82it/s]Training 1/3 epoch (loss 0.0161):   7%|▋         | 1215/16950 [16:36<2:23:43,  1.82it/s]Training 1/3 epoch (loss 0.0161):   7%|▋         | 1216/16950 [16:36<2:31:29,  1.73it/s]Training 1/3 epoch (loss 0.4424):   7%|▋         | 1216/16950 [16:37<2:31:29,  1.73it/s]Training 1/3 epoch (loss 0.4424):   7%|▋         | 1217/16950 [16:37<3:06:23,  1.41it/s]Training 1/3 epoch (loss 0.0442):   7%|▋         | 1217/16950 [16:38<3:06:23,  1.41it/s]Training 1/3 epoch (loss 0.0442):   7%|▋         | 1218/16950 [16:38<3:01:58,  1.44it/s]Training 1/3 epoch (loss 0.2925):   7%|▋         | 1218/16950 [16:39<3:01:58,  1.44it/s]Training 1/3 epoch (loss 0.2925):   7%|▋         | 1219/16950 [16:39<2:46:55,  1.57it/s]Training 1/3 epoch (loss 0.0436):   7%|▋         | 1219/16950 [16:39<2:46:55,  1.57it/s]Training 1/3 epoch (loss 0.0436):   7%|▋         | 1220/16950 [16:39<2:40:07,  1.64it/s]Training 1/3 epoch (loss 0.0542):   7%|▋         | 1220/16950 [16:40<2:40:07,  1.64it/s]Training 1/3 epoch (loss 0.0542):   7%|▋         | 1221/16950 [16:40<2:49:45,  1.54it/s]Training 1/3 epoch (loss 0.4910):   7%|▋         | 1221/16950 [16:40<2:49:45,  1.54it/s]Training 1/3 epoch (loss 0.4910):   7%|▋         | 1222/16950 [16:40<2:46:19,  1.58it/s]Training 1/3 epoch (loss 0.0825):   7%|▋         | 1222/16950 [16:41<2:46:19,  1.58it/s]Training 1/3 epoch (loss 0.0825):   7%|▋         | 1223/16950 [16:41<2:46:17,  1.58it/s]Training 1/3 epoch (loss 0.0412):   7%|▋         | 1223/16950 [16:42<2:46:17,  1.58it/s]Training 1/3 epoch (loss 0.0412):   7%|▋         | 1224/16950 [16:42<2:45:57,  1.58it/s]Training 1/3 epoch (loss 0.5997):   7%|▋         | 1224/16950 [16:42<2:45:57,  1.58it/s]Training 1/3 epoch (loss 0.5997):   7%|▋         | 1225/16950 [16:42<2:45:35,  1.58it/s]Training 1/3 epoch (loss 0.1109):   7%|▋         | 1225/16950 [16:43<2:45:35,  1.58it/s]Training 1/3 epoch (loss 0.1109):   7%|▋         | 1226/16950 [16:43<2:30:01,  1.75it/s]Training 1/3 epoch (loss 0.1555):   7%|▋         | 1226/16950 [16:44<2:30:01,  1.75it/s]Training 1/3 epoch (loss 0.1555):   7%|▋         | 1227/16950 [16:44<2:43:26,  1.60it/s]Training 1/3 epoch (loss 0.4066):   7%|▋         | 1227/16950 [16:44<2:43:26,  1.60it/s]Training 1/3 epoch (loss 0.4066):   7%|▋         | 1228/16950 [16:44<2:34:21,  1.70it/s]Training 1/3 epoch (loss 0.0068):   7%|▋         | 1228/16950 [16:45<2:34:21,  1.70it/s]Training 1/3 epoch (loss 0.0068):   7%|▋         | 1229/16950 [16:45<2:26:01,  1.79it/s]Training 1/3 epoch (loss 0.0307):   7%|▋         | 1229/16950 [16:45<2:26:01,  1.79it/s]Training 1/3 epoch (loss 0.0307):   7%|▋         | 1230/16950 [16:45<2:20:32,  1.86it/s]Training 1/3 epoch (loss 0.0263):   7%|▋         | 1230/16950 [16:46<2:20:32,  1.86it/s]Training 1/3 epoch (loss 0.0263):   7%|▋         | 1231/16950 [16:46<2:25:52,  1.80it/s]Training 1/3 epoch (loss 1.1143):   7%|▋         | 1231/16950 [16:46<2:25:52,  1.80it/s]Training 1/3 epoch (loss 1.1143):   7%|▋         | 1232/16950 [16:46<2:12:16,  1.98it/s]Training 1/3 epoch (loss 0.0053):   7%|▋         | 1232/16950 [16:47<2:12:16,  1.98it/s]Training 1/3 epoch (loss 0.0053):   7%|▋         | 1233/16950 [16:47<2:16:30,  1.92it/s]Training 1/3 epoch (loss 0.0358):   7%|▋         | 1233/16950 [16:47<2:16:30,  1.92it/s]Training 1/3 epoch (loss 0.0358):   7%|▋         | 1234/16950 [16:47<2:12:25,  1.98it/s]Training 1/3 epoch (loss 0.1359):   7%|▋         | 1234/16950 [16:48<2:12:25,  1.98it/s]Training 1/3 epoch (loss 0.1359):   7%|▋         | 1235/16950 [16:48<2:25:45,  1.80it/s]Training 1/3 epoch (loss 0.0752):   7%|▋         | 1235/16950 [16:48<2:25:45,  1.80it/s]Training 1/3 epoch (loss 0.0752):   7%|▋         | 1236/16950 [16:48<2:33:10,  1.71it/s]Training 1/3 epoch (loss 0.0106):   7%|▋         | 1236/16950 [16:49<2:33:10,  1.71it/s]Training 1/3 epoch (loss 0.0106):   7%|▋         | 1237/16950 [16:49<2:28:54,  1.76it/s]Training 1/3 epoch (loss 0.7180):   7%|▋         | 1237/16950 [16:50<2:28:54,  1.76it/s]Training 1/3 epoch (loss 0.7180):   7%|▋         | 1238/16950 [16:50<2:39:34,  1.64it/s]Training 1/3 epoch (loss 0.1464):   7%|▋         | 1238/16950 [16:51<2:39:34,  1.64it/s]Training 1/3 epoch (loss 0.1464):   7%|▋         | 1239/16950 [16:51<3:11:41,  1.37it/s]Training 1/3 epoch (loss 0.0217):   7%|▋         | 1239/16950 [16:51<3:11:41,  1.37it/s]Training 1/3 epoch (loss 0.0217):   7%|▋         | 1240/16950 [16:51<3:11:07,  1.37it/s]Training 1/3 epoch (loss 0.5161):   7%|▋         | 1240/16950 [16:52<3:11:07,  1.37it/s]Training 1/3 epoch (loss 0.5161):   7%|▋         | 1241/16950 [16:52<2:57:17,  1.48it/s]Training 1/3 epoch (loss 0.4566):   7%|▋         | 1241/16950 [16:53<2:57:17,  1.48it/s]Training 1/3 epoch (loss 0.4566):   7%|▋         | 1242/16950 [16:53<3:19:01,  1.32it/s]Training 1/3 epoch (loss 0.0449):   7%|▋         | 1242/16950 [16:54<3:19:01,  1.32it/s]Training 1/3 epoch (loss 0.0449):   7%|▋         | 1243/16950 [16:54<3:12:46,  1.36it/s]Training 1/3 epoch (loss 0.0666):   7%|▋         | 1243/16950 [16:54<3:12:46,  1.36it/s]Training 1/3 epoch (loss 0.0666):   7%|▋         | 1244/16950 [16:54<3:04:43,  1.42it/s]Training 1/3 epoch (loss 2.2181):   7%|▋         | 1244/16950 [16:55<3:04:43,  1.42it/s]Training 1/3 epoch (loss 2.2181):   7%|▋         | 1245/16950 [16:55<3:03:59,  1.42it/s]Training 1/3 epoch (loss 0.0641):   7%|▋         | 1245/16950 [16:55<3:03:59,  1.42it/s]Training 1/3 epoch (loss 0.0641):   7%|▋         | 1246/16950 [16:55<2:55:25,  1.49it/s]Training 1/3 epoch (loss 0.0152):   7%|▋         | 1246/16950 [16:56<2:55:25,  1.49it/s]Training 1/3 epoch (loss 0.0152):   7%|▋         | 1247/16950 [16:56<2:53:13,  1.51it/s]Training 1/3 epoch (loss 0.3240):   7%|▋         | 1247/16950 [16:57<2:53:13,  1.51it/s]Training 1/3 epoch (loss 0.3240):   7%|▋         | 1248/16950 [16:57<2:58:36,  1.47it/s]Training 1/3 epoch (loss 0.0420):   7%|▋         | 1248/16950 [16:58<2:58:36,  1.47it/s]Training 1/3 epoch (loss 0.0420):   7%|▋         | 1249/16950 [16:58<3:01:35,  1.44it/s]Training 1/3 epoch (loss 0.5370):   7%|▋         | 1249/16950 [16:58<3:01:35,  1.44it/s]Training 1/3 epoch (loss 0.5370):   7%|▋         | 1250/16950 [16:58<3:07:17,  1.40it/s]Training 1/3 epoch (loss 0.0922):   7%|▋         | 1250/16950 [16:59<3:07:17,  1.40it/s]Training 1/3 epoch (loss 0.0922):   7%|▋         | 1251/16950 [16:59<2:54:57,  1.50it/s]Training 1/3 epoch (loss 0.0257):   7%|▋         | 1251/16950 [16:59<2:54:57,  1.50it/s]Training 1/3 epoch (loss 0.0257):   7%|▋         | 1252/16950 [16:59<2:39:32,  1.64it/s]Training 1/3 epoch (loss 0.0983):   7%|▋         | 1252/16950 [17:00<2:39:32,  1.64it/s]Training 1/3 epoch (loss 0.0983):   7%|▋         | 1253/16950 [17:00<2:41:46,  1.62it/s]Training 1/3 epoch (loss 0.3089):   7%|▋         | 1253/16950 [17:01<2:41:46,  1.62it/s]Training 1/3 epoch (loss 0.3089):   7%|▋         | 1254/16950 [17:01<3:20:19,  1.31it/s]Training 1/3 epoch (loss 0.1707):   7%|▋         | 1254/16950 [17:02<3:20:19,  1.31it/s]Training 1/3 epoch (loss 0.1707):   7%|▋         | 1255/16950 [17:02<2:58:51,  1.46it/s]Training 1/3 epoch (loss 0.0610):   7%|▋         | 1255/16950 [17:02<2:58:51,  1.46it/s]Training 1/3 epoch (loss 0.0610):   7%|▋         | 1256/16950 [17:02<2:35:43,  1.68it/s]Training 1/3 epoch (loss 0.1240):   7%|▋         | 1256/16950 [17:02<2:35:43,  1.68it/s]Training 1/3 epoch (loss 0.1240):   7%|▋         | 1257/16950 [17:02<2:25:39,  1.80it/s]Training 1/3 epoch (loss 0.0980):   7%|▋         | 1257/16950 [17:03<2:25:39,  1.80it/s]Training 1/3 epoch (loss 0.0980):   7%|▋         | 1258/16950 [17:03<2:32:13,  1.72it/s]Training 1/3 epoch (loss 0.0266):   7%|▋         | 1258/16950 [17:04<2:32:13,  1.72it/s]Training 1/3 epoch (loss 0.0266):   7%|▋         | 1259/16950 [17:04<2:41:38,  1.62it/s]Training 1/3 epoch (loss 0.3463):   7%|▋         | 1259/16950 [17:05<2:41:38,  1.62it/s]Training 1/3 epoch (loss 0.3463):   7%|▋         | 1260/16950 [17:05<2:55:27,  1.49it/s]Training 1/3 epoch (loss 0.0367):   7%|▋         | 1260/16950 [17:05<2:55:27,  1.49it/s]Training 1/3 epoch (loss 0.0367):   7%|▋         | 1261/16950 [17:05<3:07:29,  1.39it/s]Training 1/3 epoch (loss 0.3209):   7%|▋         | 1261/16950 [17:06<3:07:29,  1.39it/s]Training 1/3 epoch (loss 0.3209):   7%|▋         | 1262/16950 [17:06<2:37:43,  1.66it/s]Training 1/3 epoch (loss 0.0246):   7%|▋         | 1262/16950 [17:06<2:37:43,  1.66it/s]Training 1/3 epoch (loss 0.0246):   7%|▋         | 1263/16950 [17:06<2:32:00,  1.72it/s]Training 1/3 epoch (loss 0.1132):   7%|▋         | 1263/16950 [17:07<2:32:00,  1.72it/s]Training 1/3 epoch (loss 0.1132):   7%|▋         | 1264/16950 [17:07<2:38:19,  1.65it/s]Training 1/3 epoch (loss 0.4878):   7%|▋         | 1264/16950 [17:08<2:38:19,  1.65it/s]Training 1/3 epoch (loss 0.4878):   7%|▋         | 1265/16950 [17:08<2:59:36,  1.46it/s]Training 1/3 epoch (loss 0.0256):   7%|▋         | 1265/16950 [17:09<2:59:36,  1.46it/s]Training 1/3 epoch (loss 0.0256):   7%|▋         | 1266/16950 [17:09<3:05:16,  1.41it/s]Training 1/3 epoch (loss 0.0116):   7%|▋         | 1266/16950 [17:09<3:05:16,  1.41it/s]Training 1/3 epoch (loss 0.0116):   7%|▋         | 1267/16950 [17:09<2:57:29,  1.47it/s]Training 1/3 epoch (loss 0.0114):   7%|▋         | 1267/16950 [17:10<2:57:29,  1.47it/s]Training 1/3 epoch (loss 0.0114):   7%|▋         | 1268/16950 [17:10<3:33:36,  1.22it/s]Training 1/3 epoch (loss 0.3196):   7%|▋         | 1268/16950 [17:11<3:33:36,  1.22it/s]Training 1/3 epoch (loss 0.3196):   7%|▋         | 1269/16950 [17:11<3:33:06,  1.23it/s]Training 1/3 epoch (loss 0.0185):   7%|▋         | 1269/16950 [17:12<3:33:06,  1.23it/s]Training 1/3 epoch (loss 0.0185):   7%|▋         | 1270/16950 [17:12<3:27:39,  1.26it/s]Training 1/3 epoch (loss 0.0583):   7%|▋         | 1270/16950 [17:12<3:27:39,  1.26it/s]Training 1/3 epoch (loss 0.0583):   7%|▋         | 1271/16950 [17:12<3:04:22,  1.42it/s]Training 1/3 epoch (loss 0.0633):   7%|▋         | 1271/16950 [17:13<3:04:22,  1.42it/s]Training 1/3 epoch (loss 0.0633):   8%|▊         | 1272/16950 [17:13<2:47:02,  1.56it/s]Training 1/3 epoch (loss 0.1326):   8%|▊         | 1272/16950 [17:14<2:47:02,  1.56it/s]Training 1/3 epoch (loss 0.1326):   8%|▊         | 1273/16950 [17:14<3:00:22,  1.45it/s]Training 1/3 epoch (loss 0.1766):   8%|▊         | 1273/16950 [17:14<3:00:22,  1.45it/s]Training 1/3 epoch (loss 0.1766):   8%|▊         | 1274/16950 [17:14<3:01:27,  1.44it/s]Training 1/3 epoch (loss 0.6196):   8%|▊         | 1274/16950 [17:15<3:01:27,  1.44it/s]Training 1/3 epoch (loss 0.6196):   8%|▊         | 1275/16950 [17:15<2:58:35,  1.46it/s]Training 1/3 epoch (loss 0.0199):   8%|▊         | 1275/16950 [17:16<2:58:35,  1.46it/s]Training 1/3 epoch (loss 0.0199):   8%|▊         | 1276/16950 [17:16<2:42:35,  1.61it/s]Training 1/3 epoch (loss 0.0258):   8%|▊         | 1276/16950 [17:16<2:42:35,  1.61it/s]Training 1/3 epoch (loss 0.0258):   8%|▊         | 1277/16950 [17:16<2:58:34,  1.46it/s]Training 1/3 epoch (loss 0.4739):   8%|▊         | 1277/16950 [17:17<2:58:34,  1.46it/s]Training 1/3 epoch (loss 0.4739):   8%|▊         | 1278/16950 [17:17<2:45:04,  1.58it/s]Training 1/3 epoch (loss 0.1648):   8%|▊         | 1278/16950 [17:17<2:45:04,  1.58it/s]Training 1/3 epoch (loss 0.1648):   8%|▊         | 1279/16950 [17:17<2:42:39,  1.61it/s]Training 1/3 epoch (loss 0.0785):   8%|▊         | 1279/16950 [17:18<2:42:39,  1.61it/s]Training 1/3 epoch (loss 0.0785):   8%|▊         | 1280/16950 [17:18<2:31:26,  1.72it/s]Training 1/3 epoch (loss 0.6320):   8%|▊         | 1280/16950 [17:19<2:31:26,  1.72it/s]Training 1/3 epoch (loss 0.6320):   8%|▊         | 1281/16950 [17:19<2:36:08,  1.67it/s]Training 1/3 epoch (loss 0.7908):   8%|▊         | 1281/16950 [17:20<2:36:08,  1.67it/s]Training 1/3 epoch (loss 0.7908):   8%|▊         | 1282/16950 [17:20<3:22:48,  1.29it/s]Training 1/3 epoch (loss 0.0123):   8%|▊         | 1282/16950 [17:21<3:22:48,  1.29it/s]Training 1/3 epoch (loss 0.0123):   8%|▊         | 1283/16950 [17:21<3:20:26,  1.30it/s]Training 1/3 epoch (loss 0.0879):   8%|▊         | 1283/16950 [17:21<3:20:26,  1.30it/s]Training 1/3 epoch (loss 0.0879):   8%|▊         | 1284/16950 [17:21<3:01:00,  1.44it/s]Training 1/3 epoch (loss 0.0820):   8%|▊         | 1284/16950 [17:22<3:01:00,  1.44it/s]Training 1/3 epoch (loss 0.0820):   8%|▊         | 1285/16950 [17:22<3:19:05,  1.31it/s]Training 1/3 epoch (loss 0.1662):   8%|▊         | 1285/16950 [17:23<3:19:05,  1.31it/s]Training 1/3 epoch (loss 0.1662):   8%|▊         | 1286/16950 [17:23<3:36:54,  1.20it/s]Training 1/3 epoch (loss 0.9494):   8%|▊         | 1286/16950 [17:23<3:36:54,  1.20it/s]Training 1/3 epoch (loss 0.9494):   8%|▊         | 1287/16950 [17:23<3:10:59,  1.37it/s]Training 1/3 epoch (loss 0.1159):   8%|▊         | 1287/16950 [17:24<3:10:59,  1.37it/s]Training 1/3 epoch (loss 0.1159):   8%|▊         | 1288/16950 [17:24<3:02:02,  1.43it/s]Training 1/3 epoch (loss 0.7895):   8%|▊         | 1288/16950 [17:24<3:02:02,  1.43it/s]Training 1/3 epoch (loss 0.7895):   8%|▊         | 1289/16950 [17:24<2:38:16,  1.65it/s]Training 1/3 epoch (loss 0.1541):   8%|▊         | 1289/16950 [17:25<2:38:16,  1.65it/s]Training 1/3 epoch (loss 0.1541):   8%|▊         | 1290/16950 [17:25<2:37:14,  1.66it/s]Training 1/3 epoch (loss 0.2665):   8%|▊         | 1290/16950 [17:26<2:37:14,  1.66it/s]Training 1/3 epoch (loss 0.2665):   8%|▊         | 1291/16950 [17:26<2:34:01,  1.69it/s]Training 1/3 epoch (loss 0.0048):   8%|▊         | 1291/16950 [17:26<2:34:01,  1.69it/s]Training 1/3 epoch (loss 0.0048):   8%|▊         | 1292/16950 [17:26<2:36:03,  1.67it/s]Training 1/3 epoch (loss 0.9405):   8%|▊         | 1292/16950 [17:27<2:36:03,  1.67it/s]Training 1/3 epoch (loss 0.9405):   8%|▊         | 1293/16950 [17:27<2:57:05,  1.47it/s]Training 1/3 epoch (loss 0.0630):   8%|▊         | 1293/16950 [17:28<2:57:05,  1.47it/s]Training 1/3 epoch (loss 0.0630):   8%|▊         | 1294/16950 [17:28<2:48:10,  1.55it/s]Training 1/3 epoch (loss 0.1460):   8%|▊         | 1294/16950 [17:28<2:48:10,  1.55it/s]Training 1/3 epoch (loss 0.1460):   8%|▊         | 1295/16950 [17:28<2:40:23,  1.63it/s]Training 1/3 epoch (loss 0.0607):   8%|▊         | 1295/16950 [17:29<2:40:23,  1.63it/s]Training 1/3 epoch (loss 0.0607):   8%|▊         | 1296/16950 [17:29<2:45:44,  1.57it/s]Training 1/3 epoch (loss 0.7228):   8%|▊         | 1296/16950 [17:30<2:45:44,  1.57it/s]Training 1/3 epoch (loss 0.7228):   8%|▊         | 1297/16950 [17:30<2:45:51,  1.57it/s]Training 1/3 epoch (loss 0.1074):   8%|▊         | 1297/16950 [17:30<2:45:51,  1.57it/s]Training 1/3 epoch (loss 0.1074):   8%|▊         | 1298/16950 [17:30<2:45:24,  1.58it/s]Training 1/3 epoch (loss 0.2628):   8%|▊         | 1298/16950 [17:31<2:45:24,  1.58it/s]Training 1/3 epoch (loss 0.2628):   8%|▊         | 1299/16950 [17:31<2:41:58,  1.61it/s]Training 1/3 epoch (loss 0.0273):   8%|▊         | 1299/16950 [17:31<2:41:58,  1.61it/s]Training 1/3 epoch (loss 0.0273):   8%|▊         | 1300/16950 [17:31<2:34:08,  1.69it/s]Training 1/3 epoch (loss 0.0381):   8%|▊         | 1300/16950 [17:32<2:34:08,  1.69it/s]Training 1/3 epoch (loss 0.0381):   8%|▊         | 1301/16950 [17:32<2:20:16,  1.86it/s]Training 1/3 epoch (loss 0.0320):   8%|▊         | 1301/16950 [17:32<2:20:16,  1.86it/s]Training 1/3 epoch (loss 0.0320):   8%|▊         | 1302/16950 [17:32<2:23:24,  1.82it/s]Training 1/3 epoch (loss 0.0205):   8%|▊         | 1302/16950 [17:33<2:23:24,  1.82it/s]Training 1/3 epoch (loss 0.0205):   8%|▊         | 1303/16950 [17:33<2:14:20,  1.94it/s]Training 1/3 epoch (loss 0.0063):   8%|▊         | 1303/16950 [17:33<2:14:20,  1.94it/s]Training 1/3 epoch (loss 0.0063):   8%|▊         | 1304/16950 [17:33<2:08:00,  2.04it/s]Training 1/3 epoch (loss 0.0749):   8%|▊         | 1304/16950 [17:34<2:08:00,  2.04it/s]Training 1/3 epoch (loss 0.0749):   8%|▊         | 1305/16950 [17:34<2:22:22,  1.83it/s]Training 1/3 epoch (loss 0.2767):   8%|▊         | 1305/16950 [17:34<2:22:22,  1.83it/s]Training 1/3 epoch (loss 0.2767):   8%|▊         | 1306/16950 [17:34<2:17:54,  1.89it/s]Training 1/3 epoch (loss 0.6241):   8%|▊         | 1306/16950 [17:35<2:17:54,  1.89it/s]Training 1/3 epoch (loss 0.6241):   8%|▊         | 1307/16950 [17:35<2:13:58,  1.95it/s]Training 1/3 epoch (loss 0.1610):   8%|▊         | 1307/16950 [17:35<2:13:58,  1.95it/s]Training 1/3 epoch (loss 0.1610):   8%|▊         | 1308/16950 [17:35<2:29:16,  1.75it/s]Training 1/3 epoch (loss 0.0713):   8%|▊         | 1308/16950 [17:36<2:29:16,  1.75it/s]Training 1/3 epoch (loss 0.0713):   8%|▊         | 1309/16950 [17:36<2:33:04,  1.70it/s]Training 1/3 epoch (loss 0.5068):   8%|▊         | 1309/16950 [17:37<2:33:04,  1.70it/s]Training 1/3 epoch (loss 0.5068):   8%|▊         | 1310/16950 [17:37<2:36:40,  1.66it/s]Training 1/3 epoch (loss 0.1225):   8%|▊         | 1310/16950 [17:37<2:36:40,  1.66it/s]Training 1/3 epoch (loss 0.1225):   8%|▊         | 1311/16950 [17:37<2:34:43,  1.68it/s]Training 1/3 epoch (loss 0.0173):   8%|▊         | 1311/16950 [17:38<2:34:43,  1.68it/s]Training 1/3 epoch (loss 0.0173):   8%|▊         | 1312/16950 [17:38<2:32:07,  1.71it/s]Training 1/3 epoch (loss 0.0050):   8%|▊         | 1312/16950 [17:39<2:32:07,  1.71it/s]Training 1/3 epoch (loss 0.0050):   8%|▊         | 1313/16950 [17:39<2:39:50,  1.63it/s]Training 1/3 epoch (loss 0.0176):   8%|▊         | 1313/16950 [17:39<2:39:50,  1.63it/s]Training 1/3 epoch (loss 0.0176):   8%|▊         | 1314/16950 [17:39<2:36:43,  1.66it/s]Training 1/3 epoch (loss 0.4604):   8%|▊         | 1314/16950 [17:40<2:36:43,  1.66it/s]Training 1/3 epoch (loss 0.4604):   8%|▊         | 1315/16950 [17:40<2:40:33,  1.62it/s]Training 1/3 epoch (loss 0.1278):   8%|▊         | 1315/16950 [17:41<2:40:33,  1.62it/s]Training 1/3 epoch (loss 0.1278):   8%|▊         | 1316/16950 [17:41<2:50:51,  1.53it/s]Training 1/3 epoch (loss 0.1092):   8%|▊         | 1316/16950 [17:41<2:50:51,  1.53it/s]Training 1/3 epoch (loss 0.1092):   8%|▊         | 1317/16950 [17:41<2:46:17,  1.57it/s]Training 1/3 epoch (loss 0.0029):   8%|▊         | 1317/16950 [17:42<2:46:17,  1.57it/s]Training 1/3 epoch (loss 0.0029):   8%|▊         | 1318/16950 [17:42<2:28:55,  1.75it/s]Training 1/3 epoch (loss 0.3778):   8%|▊         | 1318/16950 [17:42<2:28:55,  1.75it/s]Training 1/3 epoch (loss 0.3778):   8%|▊         | 1319/16950 [17:42<2:23:59,  1.81it/s]Training 1/3 epoch (loss 0.7087):   8%|▊         | 1319/16950 [17:42<2:23:59,  1.81it/s]Training 1/3 epoch (loss 0.7087):   8%|▊         | 1320/16950 [17:42<2:06:49,  2.05it/s]Training 1/3 epoch (loss 0.0435):   8%|▊         | 1320/16950 [17:43<2:06:49,  2.05it/s]Training 1/3 epoch (loss 0.0435):   8%|▊         | 1321/16950 [17:43<2:15:32,  1.92it/s]Training 1/3 epoch (loss 0.3414):   8%|▊         | 1321/16950 [17:43<2:15:32,  1.92it/s]Training 1/3 epoch (loss 0.3414):   8%|▊         | 1322/16950 [17:43<2:06:51,  2.05it/s]Training 1/3 epoch (loss 0.0141):   8%|▊         | 1322/16950 [17:44<2:06:51,  2.05it/s]Training 1/3 epoch (loss 0.0141):   8%|▊         | 1323/16950 [17:44<1:55:35,  2.25it/s]Training 1/3 epoch (loss 1.1578):   8%|▊         | 1323/16950 [17:44<1:55:35,  2.25it/s]Training 1/3 epoch (loss 1.1578):   8%|▊         | 1324/16950 [17:44<1:57:09,  2.22it/s]Training 1/3 epoch (loss 0.1647):   8%|▊         | 1324/16950 [17:45<1:57:09,  2.22it/s]Training 1/3 epoch (loss 0.1647):   8%|▊         | 1325/16950 [17:45<1:53:04,  2.30it/s]Training 1/3 epoch (loss 0.1222):   8%|▊         | 1325/16950 [17:45<1:53:04,  2.30it/s]Training 1/3 epoch (loss 0.1222):   8%|▊         | 1326/16950 [17:45<1:58:37,  2.20it/s]Training 1/3 epoch (loss 0.4354):   8%|▊         | 1326/16950 [17:46<1:58:37,  2.20it/s]Training 1/3 epoch (loss 0.4354):   8%|▊         | 1327/16950 [17:46<2:01:47,  2.14it/s]Training 1/3 epoch (loss 0.0385):   8%|▊         | 1327/16950 [17:46<2:01:47,  2.14it/s]Training 1/3 epoch (loss 0.0385):   8%|▊         | 1328/16950 [17:46<1:58:55,  2.19it/s]Training 1/3 epoch (loss 1.0935):   8%|▊         | 1328/16950 [17:46<1:58:55,  2.19it/s]Training 1/3 epoch (loss 1.0935):   8%|▊         | 1329/16950 [17:46<1:46:56,  2.43it/s]Training 1/3 epoch (loss 0.1517):   8%|▊         | 1329/16950 [17:47<1:46:56,  2.43it/s]Training 1/3 epoch (loss 0.1517):   8%|▊         | 1330/16950 [17:47<1:47:05,  2.43it/s]Training 1/3 epoch (loss 0.0206):   8%|▊         | 1330/16950 [17:47<1:47:05,  2.43it/s]Training 1/3 epoch (loss 0.0206):   8%|▊         | 1331/16950 [17:47<2:05:21,  2.08it/s]Training 1/3 epoch (loss 0.4119):   8%|▊         | 1331/16950 [17:48<2:05:21,  2.08it/s]Training 1/3 epoch (loss 0.4119):   8%|▊         | 1332/16950 [17:48<2:20:40,  1.85it/s]Training 1/3 epoch (loss 0.0190):   8%|▊         | 1332/16950 [17:49<2:20:40,  1.85it/s]Training 1/3 epoch (loss 0.0190):   8%|▊         | 1333/16950 [17:49<2:27:25,  1.77it/s]Training 1/3 epoch (loss 0.2893):   8%|▊         | 1333/16950 [17:49<2:27:25,  1.77it/s]Training 1/3 epoch (loss 0.2893):   8%|▊         | 1334/16950 [17:49<2:17:45,  1.89it/s]Training 1/3 epoch (loss 0.0425):   8%|▊         | 1334/16950 [17:50<2:17:45,  1.89it/s]Training 1/3 epoch (loss 0.0425):   8%|▊         | 1335/16950 [17:50<2:07:13,  2.05it/s]Training 1/3 epoch (loss 0.9060):   8%|▊         | 1335/16950 [17:51<2:07:13,  2.05it/s]Training 1/3 epoch (loss 0.9060):   8%|▊         | 1336/16950 [17:51<2:54:01,  1.50it/s]Training 1/3 epoch (loss 0.2018):   8%|▊         | 1336/16950 [17:52<2:54:01,  1.50it/s]Training 1/3 epoch (loss 0.2018):   8%|▊         | 1337/16950 [17:52<3:33:53,  1.22it/s]Training 1/3 epoch (loss 0.0293):   8%|▊         | 1337/16950 [17:52<3:33:53,  1.22it/s]Training 1/3 epoch (loss 0.0293):   8%|▊         | 1338/16950 [17:52<3:09:50,  1.37it/s]Training 1/3 epoch (loss 0.9669):   8%|▊         | 1338/16950 [17:53<3:09:50,  1.37it/s]Training 1/3 epoch (loss 0.9669):   8%|▊         | 1339/16950 [17:53<3:27:44,  1.25it/s]Training 1/3 epoch (loss 0.0598):   8%|▊         | 1339/16950 [17:54<3:27:44,  1.25it/s]Training 1/3 epoch (loss 0.0598):   8%|▊         | 1340/16950 [17:54<3:16:35,  1.32it/s]Training 1/3 epoch (loss 0.0028):   8%|▊         | 1340/16950 [17:54<3:16:35,  1.32it/s]Training 1/3 epoch (loss 0.0028):   8%|▊         | 1341/16950 [17:54<2:54:42,  1.49it/s]Training 1/3 epoch (loss 0.6910):   8%|▊         | 1341/16950 [17:55<2:54:42,  1.49it/s]Training 1/3 epoch (loss 0.6910):   8%|▊         | 1342/16950 [17:55<3:01:19,  1.43it/s]Training 1/3 epoch (loss 0.0780):   8%|▊         | 1342/16950 [17:56<3:01:19,  1.43it/s]Training 1/3 epoch (loss 0.0780):   8%|▊         | 1343/16950 [17:56<3:11:28,  1.36it/s]Training 1/3 epoch (loss 0.6128):   8%|▊         | 1343/16950 [17:57<3:11:28,  1.36it/s]Training 1/3 epoch (loss 0.6128):   8%|▊         | 1344/16950 [17:57<3:00:28,  1.44it/s]Training 1/3 epoch (loss 0.0495):   8%|▊         | 1344/16950 [17:57<3:00:28,  1.44it/s]Training 1/3 epoch (loss 0.0495):   8%|▊         | 1345/16950 [17:57<2:39:51,  1.63it/s]Training 1/3 epoch (loss 0.0478):   8%|▊         | 1345/16950 [17:58<2:39:51,  1.63it/s]Training 1/3 epoch (loss 0.0478):   8%|▊         | 1346/16950 [17:58<2:43:37,  1.59it/s]Training 1/3 epoch (loss 0.0013):   8%|▊         | 1346/16950 [17:58<2:43:37,  1.59it/s]Training 1/3 epoch (loss 0.0013):   8%|▊         | 1347/16950 [17:58<2:32:56,  1.70it/s]Training 1/3 epoch (loss 0.1645):   8%|▊         | 1347/16950 [17:59<2:32:56,  1.70it/s]Training 1/3 epoch (loss 0.1645):   8%|▊         | 1348/16950 [17:59<2:36:05,  1.67it/s]Training 1/3 epoch (loss 0.2541):   8%|▊         | 1348/16950 [17:59<2:36:05,  1.67it/s]Training 1/3 epoch (loss 0.2541):   8%|▊         | 1349/16950 [17:59<2:28:01,  1.76it/s]Training 1/3 epoch (loss 0.6741):   8%|▊         | 1349/16950 [18:00<2:28:01,  1.76it/s]Training 1/3 epoch (loss 0.6741):   8%|▊         | 1350/16950 [18:00<2:33:53,  1.69it/s]Training 1/3 epoch (loss 0.0515):   8%|▊         | 1350/16950 [18:00<2:33:53,  1.69it/s]Training 1/3 epoch (loss 0.0515):   8%|▊         | 1351/16950 [18:00<2:25:34,  1.79it/s]Training 1/3 epoch (loss 0.1390):   8%|▊         | 1351/16950 [18:01<2:25:34,  1.79it/s]Training 1/3 epoch (loss 0.1390):   8%|▊         | 1352/16950 [18:01<2:30:05,  1.73it/s]Training 1/3 epoch (loss 0.0048):   8%|▊         | 1352/16950 [18:02<2:30:05,  1.73it/s]Training 1/3 epoch (loss 0.0048):   8%|▊         | 1353/16950 [18:02<2:55:43,  1.48it/s]Training 1/3 epoch (loss 0.0785):   8%|▊         | 1353/16950 [18:03<2:55:43,  1.48it/s]Training 1/3 epoch (loss 0.0785):   8%|▊         | 1354/16950 [18:03<3:06:58,  1.39it/s]Training 1/3 epoch (loss 0.1070):   8%|▊         | 1354/16950 [18:03<3:06:58,  1.39it/s]Training 1/3 epoch (loss 0.1070):   8%|▊         | 1355/16950 [18:03<2:56:05,  1.48it/s]Training 1/3 epoch (loss 0.0598):   8%|▊         | 1355/16950 [18:04<2:56:05,  1.48it/s]Training 1/3 epoch (loss 0.0598):   8%|▊         | 1356/16950 [18:04<3:12:27,  1.35it/s]Training 1/3 epoch (loss 1.2449):   8%|▊         | 1356/16950 [18:05<3:12:27,  1.35it/s]Training 1/3 epoch (loss 1.2449):   8%|▊         | 1357/16950 [18:05<2:39:55,  1.63it/s]Training 1/3 epoch (loss 0.0808):   8%|▊         | 1357/16950 [18:05<2:39:55,  1.63it/s]Training 1/3 epoch (loss 0.0808):   8%|▊         | 1358/16950 [18:05<2:28:28,  1.75it/s]Training 1/3 epoch (loss 0.4869):   8%|▊         | 1358/16950 [18:05<2:28:28,  1.75it/s]Training 1/3 epoch (loss 0.4869):   8%|▊         | 1359/16950 [18:05<2:16:12,  1.91it/s]Training 1/3 epoch (loss 0.0047):   8%|▊         | 1359/16950 [18:06<2:16:12,  1.91it/s]Training 1/3 epoch (loss 0.0047):   8%|▊         | 1360/16950 [18:06<2:16:57,  1.90it/s]Training 1/3 epoch (loss 0.2739):   8%|▊         | 1360/16950 [18:06<2:16:57,  1.90it/s]Training 1/3 epoch (loss 0.2739):   8%|▊         | 1361/16950 [18:06<2:09:40,  2.00it/s]Training 1/3 epoch (loss 0.8264):   8%|▊         | 1361/16950 [18:07<2:09:40,  2.00it/s]Training 1/3 epoch (loss 0.8264):   8%|▊         | 1362/16950 [18:07<2:31:26,  1.72it/s]Training 1/3 epoch (loss 0.3712):   8%|▊         | 1362/16950 [18:08<2:31:26,  1.72it/s]Training 1/3 epoch (loss 0.3712):   8%|▊         | 1363/16950 [18:08<2:14:47,  1.93it/s]Training 1/3 epoch (loss 0.6881):   8%|▊         | 1363/16950 [18:08<2:14:47,  1.93it/s]Training 1/3 epoch (loss 0.6881):   8%|▊         | 1364/16950 [18:08<2:39:05,  1.63it/s]Training 1/3 epoch (loss 0.1663):   8%|▊         | 1364/16950 [18:09<2:39:05,  1.63it/s]Training 1/3 epoch (loss 0.1663):   8%|▊         | 1365/16950 [18:09<2:36:22,  1.66it/s]Training 1/3 epoch (loss 0.5608):   8%|▊         | 1365/16950 [18:09<2:36:22,  1.66it/s]Training 1/3 epoch (loss 0.5608):   8%|▊         | 1366/16950 [18:09<2:27:20,  1.76it/s]Training 1/3 epoch (loss 0.0064):   8%|▊         | 1366/16950 [18:10<2:27:20,  1.76it/s]Training 1/3 epoch (loss 0.0064):   8%|▊         | 1367/16950 [18:10<2:21:29,  1.84it/s]Training 1/3 epoch (loss 0.5367):   8%|▊         | 1367/16950 [18:11<2:21:29,  1.84it/s]Training 1/3 epoch (loss 0.5367):   8%|▊         | 1368/16950 [18:11<2:27:59,  1.75it/s]Training 1/3 epoch (loss 0.0677):   8%|▊         | 1368/16950 [18:11<2:27:59,  1.75it/s]Training 1/3 epoch (loss 0.0677):   8%|▊         | 1369/16950 [18:11<2:55:19,  1.48it/s]Training 1/3 epoch (loss 0.0477):   8%|▊         | 1369/16950 [18:12<2:55:19,  1.48it/s]Training 1/3 epoch (loss 0.0477):   8%|▊         | 1370/16950 [18:12<2:39:46,  1.63it/s]Training 1/3 epoch (loss 0.6234):   8%|▊         | 1370/16950 [18:12<2:39:46,  1.63it/s]Training 1/3 epoch (loss 0.6234):   8%|▊         | 1371/16950 [18:12<2:25:28,  1.78it/s]Training 1/3 epoch (loss 0.8463):   8%|▊         | 1371/16950 [18:13<2:25:28,  1.78it/s]Training 1/3 epoch (loss 0.8463):   8%|▊         | 1372/16950 [18:13<2:19:38,  1.86it/s]Training 1/3 epoch (loss 0.2201):   8%|▊         | 1372/16950 [18:14<2:19:38,  1.86it/s]Training 1/3 epoch (loss 0.2201):   8%|▊         | 1373/16950 [18:14<2:46:52,  1.56it/s]Training 1/3 epoch (loss 0.3889):   8%|▊         | 1373/16950 [18:15<2:46:52,  1.56it/s]Training 1/3 epoch (loss 0.3889):   8%|▊         | 1374/16950 [18:15<2:59:28,  1.45it/s]Training 1/3 epoch (loss 0.0213):   8%|▊         | 1374/16950 [18:15<2:59:28,  1.45it/s]Training 1/3 epoch (loss 0.0213):   8%|▊         | 1375/16950 [18:15<2:45:18,  1.57it/s]Training 1/3 epoch (loss 0.0108):   8%|▊         | 1375/16950 [18:16<2:45:18,  1.57it/s]Training 1/3 epoch (loss 0.0108):   8%|▊         | 1376/16950 [18:16<2:35:56,  1.66it/s]Training 1/3 epoch (loss 0.0647):   8%|▊         | 1376/16950 [18:16<2:35:56,  1.66it/s]Training 1/3 epoch (loss 0.0647):   8%|▊         | 1377/16950 [18:16<2:37:44,  1.65it/s]Training 1/3 epoch (loss 0.1936):   8%|▊         | 1377/16950 [18:17<2:37:44,  1.65it/s]Training 1/3 epoch (loss 0.1936):   8%|▊         | 1378/16950 [18:17<2:28:12,  1.75it/s]Training 1/3 epoch (loss 0.0558):   8%|▊         | 1378/16950 [18:17<2:28:12,  1.75it/s]Training 1/3 epoch (loss 0.0558):   8%|▊         | 1379/16950 [18:17<2:23:25,  1.81it/s]Training 1/3 epoch (loss 0.2854):   8%|▊         | 1379/16950 [18:18<2:23:25,  1.81it/s]Training 1/3 epoch (loss 0.2854):   8%|▊         | 1380/16950 [18:18<2:27:58,  1.75it/s]Training 1/3 epoch (loss 0.4095):   8%|▊         | 1380/16950 [18:19<2:27:58,  1.75it/s]Training 1/3 epoch (loss 0.4095):   8%|▊         | 1381/16950 [18:19<2:58:16,  1.46it/s]Training 1/3 epoch (loss 0.0062):   8%|▊         | 1381/16950 [18:20<2:58:16,  1.46it/s]Training 1/3 epoch (loss 0.0062):   8%|▊         | 1382/16950 [18:20<3:07:30,  1.38it/s]Training 1/3 epoch (loss 0.0448):   8%|▊         | 1382/16950 [18:20<3:07:30,  1.38it/s]Training 1/3 epoch (loss 0.0448):   8%|▊         | 1383/16950 [18:21<3:21:54,  1.28it/s]Training 1/3 epoch (loss 0.0359):   8%|▊         | 1383/16950 [18:21<3:21:54,  1.28it/s]Training 1/3 epoch (loss 0.0359):   8%|▊         | 1384/16950 [18:21<3:09:42,  1.37it/s]Training 1/3 epoch (loss 0.0290):   8%|▊         | 1384/16950 [18:22<3:09:42,  1.37it/s]Training 1/3 epoch (loss 0.0290):   8%|▊         | 1385/16950 [18:22<2:46:31,  1.56it/s]Training 1/3 epoch (loss 0.3642):   8%|▊         | 1385/16950 [18:22<2:46:31,  1.56it/s]Training 1/3 epoch (loss 0.3642):   8%|▊         | 1386/16950 [18:22<3:03:08,  1.42it/s]Training 1/3 epoch (loss 0.0516):   8%|▊         | 1386/16950 [18:23<3:03:08,  1.42it/s]Training 1/3 epoch (loss 0.0516):   8%|▊         | 1387/16950 [18:23<2:50:17,  1.52it/s]Training 1/3 epoch (loss 0.0243):   8%|▊         | 1387/16950 [18:23<2:50:17,  1.52it/s]Training 1/3 epoch (loss 0.0243):   8%|▊         | 1388/16950 [18:23<2:40:28,  1.62it/s]Training 1/3 epoch (loss 0.2186):   8%|▊         | 1388/16950 [18:24<2:40:28,  1.62it/s]Training 1/3 epoch (loss 0.2186):   8%|▊         | 1389/16950 [18:24<2:28:18,  1.75it/s]Training 1/3 epoch (loss 0.0937):   8%|▊         | 1389/16950 [18:24<2:28:18,  1.75it/s]Training 1/3 epoch (loss 0.0937):   8%|▊         | 1390/16950 [18:24<2:22:53,  1.81it/s]Training 1/3 epoch (loss 0.1447):   8%|▊         | 1390/16950 [18:25<2:22:53,  1.81it/s]Training 1/3 epoch (loss 0.1447):   8%|▊         | 1391/16950 [18:25<2:36:39,  1.66it/s]Training 1/3 epoch (loss 0.0038):   8%|▊         | 1391/16950 [18:26<2:36:39,  1.66it/s]Training 1/3 epoch (loss 0.0038):   8%|▊         | 1392/16950 [18:26<2:25:49,  1.78it/s]Training 1/3 epoch (loss 0.0501):   8%|▊         | 1392/16950 [18:26<2:25:49,  1.78it/s]Training 1/3 epoch (loss 0.0501):   8%|▊         | 1393/16950 [18:26<2:33:34,  1.69it/s]Training 1/3 epoch (loss 0.1476):   8%|▊         | 1393/16950 [18:27<2:33:34,  1.69it/s]Training 1/3 epoch (loss 0.1476):   8%|▊         | 1394/16950 [18:27<2:28:19,  1.75it/s]Training 1/3 epoch (loss 0.1410):   8%|▊         | 1394/16950 [18:27<2:28:19,  1.75it/s]Training 1/3 epoch (loss 0.1410):   8%|▊         | 1395/16950 [18:27<2:33:09,  1.69it/s]Training 1/3 epoch (loss 0.1586):   8%|▊         | 1395/16950 [18:28<2:33:09,  1.69it/s]Training 1/3 epoch (loss 0.1586):   8%|▊         | 1396/16950 [18:28<2:36:16,  1.66it/s]Training 1/3 epoch (loss 0.2722):   8%|▊         | 1396/16950 [18:29<2:36:16,  1.66it/s]Training 1/3 epoch (loss 0.2722):   8%|▊         | 1397/16950 [18:29<2:45:26,  1.57it/s]Training 1/3 epoch (loss 0.2316):   8%|▊         | 1397/16950 [18:30<2:45:26,  1.57it/s]Training 1/3 epoch (loss 0.2316):   8%|▊         | 1398/16950 [18:30<3:27:56,  1.25it/s]Training 1/3 epoch (loss 0.0174):   8%|▊         | 1398/16950 [18:30<3:27:56,  1.25it/s]Training 1/3 epoch (loss 0.0174):   8%|▊         | 1399/16950 [18:30<3:01:31,  1.43it/s]Training 1/3 epoch (loss 0.1296):   8%|▊         | 1399/16950 [18:31<3:01:31,  1.43it/s]Training 1/3 epoch (loss 0.1296):   8%|▊         | 1400/16950 [18:31<3:08:34,  1.37it/s]Training 1/3 epoch (loss 0.3983):   8%|▊         | 1400/16950 [18:32<3:08:34,  1.37it/s]Training 1/3 epoch (loss 0.3983):   8%|▊         | 1401/16950 [18:32<2:38:50,  1.63it/s]Training 1/3 epoch (loss 0.3356):   8%|▊         | 1401/16950 [18:32<2:38:50,  1.63it/s]Training 1/3 epoch (loss 0.3356):   8%|▊         | 1402/16950 [18:32<2:20:20,  1.85it/s]Training 1/3 epoch (loss 0.3953):   8%|▊         | 1402/16950 [18:32<2:20:20,  1.85it/s]Training 1/3 epoch (loss 0.3953):   8%|▊         | 1403/16950 [18:32<2:08:31,  2.02it/s]Training 1/3 epoch (loss 0.7141):   8%|▊         | 1403/16950 [18:33<2:08:31,  2.02it/s]Training 1/3 epoch (loss 0.7141):   8%|▊         | 1404/16950 [18:33<2:13:10,  1.95it/s]Training 1/3 epoch (loss 0.6499):   8%|▊         | 1404/16950 [18:33<2:13:10,  1.95it/s]Training 1/3 epoch (loss 0.6499):   8%|▊         | 1405/16950 [18:33<2:05:19,  2.07it/s]Training 1/3 epoch (loss 0.5210):   8%|▊         | 1405/16950 [18:34<2:05:19,  2.07it/s]Training 1/3 epoch (loss 0.5210):   8%|▊         | 1406/16950 [18:34<2:13:16,  1.94it/s]Training 1/3 epoch (loss 0.0039):   8%|▊         | 1406/16950 [18:34<2:13:16,  1.94it/s]Training 1/3 epoch (loss 0.0039):   8%|▊         | 1407/16950 [18:34<2:10:17,  1.99it/s]Training 1/3 epoch (loss 0.3292):   8%|▊         | 1407/16950 [18:35<2:10:17,  1.99it/s]Training 1/3 epoch (loss 0.3292):   8%|▊         | 1408/16950 [18:35<2:05:06,  2.07it/s]Training 1/3 epoch (loss 0.0364):   8%|▊         | 1408/16950 [18:36<2:05:06,  2.07it/s]Training 1/3 epoch (loss 0.0364):   8%|▊         | 1409/16950 [18:36<2:47:17,  1.55it/s]Training 1/3 epoch (loss 0.2958):   8%|▊         | 1409/16950 [18:36<2:47:17,  1.55it/s]Training 1/3 epoch (loss 0.2958):   8%|▊         | 1410/16950 [18:36<2:44:11,  1.58it/s]Training 1/3 epoch (loss 0.0029):   8%|▊         | 1410/16950 [18:37<2:44:11,  1.58it/s]Training 1/3 epoch (loss 0.0029):   8%|▊         | 1411/16950 [18:37<2:33:47,  1.68it/s]Training 1/3 epoch (loss 0.0046):   8%|▊         | 1411/16950 [18:37<2:33:47,  1.68it/s]Training 1/3 epoch (loss 0.0046):   8%|▊         | 1412/16950 [18:37<2:28:11,  1.75it/s]Training 1/3 epoch (loss 0.6586):   8%|▊         | 1412/16950 [18:39<2:28:11,  1.75it/s]Training 1/3 epoch (loss 0.6586):   8%|▊         | 1413/16950 [18:39<3:06:11,  1.39it/s]Training 1/3 epoch (loss 0.0148):   8%|▊         | 1413/16950 [18:39<3:06:11,  1.39it/s]Training 1/3 epoch (loss 0.0148):   8%|▊         | 1414/16950 [18:39<2:57:08,  1.46it/s]Training 1/3 epoch (loss 0.0129):   8%|▊         | 1414/16950 [18:40<2:57:08,  1.46it/s]Training 1/3 epoch (loss 0.0129):   8%|▊         | 1415/16950 [18:40<2:52:51,  1.50it/s]Training 1/3 epoch (loss 0.5194):   8%|▊         | 1415/16950 [18:40<2:52:51,  1.50it/s]Training 1/3 epoch (loss 0.5194):   8%|▊         | 1416/16950 [18:40<2:51:19,  1.51it/s]Training 1/3 epoch (loss 0.4327):   8%|▊         | 1416/16950 [18:41<2:51:19,  1.51it/s]Training 1/3 epoch (loss 0.4327):   8%|▊         | 1417/16950 [18:41<2:33:25,  1.69it/s]Training 1/3 epoch (loss 0.0031):   8%|▊         | 1417/16950 [18:41<2:33:25,  1.69it/s]Training 1/3 epoch (loss 0.0031):   8%|▊         | 1418/16950 [18:41<2:27:15,  1.76it/s]Training 1/3 epoch (loss 0.0074):   8%|▊         | 1418/16950 [18:42<2:27:15,  1.76it/s]Training 1/3 epoch (loss 0.0074):   8%|▊         | 1419/16950 [18:42<2:15:11,  1.91it/s]Training 1/3 epoch (loss 0.1026):   8%|▊         | 1419/16950 [18:42<2:15:11,  1.91it/s]Training 1/3 epoch (loss 0.1026):   8%|▊         | 1420/16950 [18:42<2:10:08,  1.99it/s]Training 1/3 epoch (loss 0.1482):   8%|▊         | 1420/16950 [18:43<2:10:08,  1.99it/s]Training 1/3 epoch (loss 0.1482):   8%|▊         | 1421/16950 [18:43<2:09:33,  2.00it/s]Training 1/3 epoch (loss 0.4447):   8%|▊         | 1421/16950 [18:43<2:09:33,  2.00it/s]Training 1/3 epoch (loss 0.4447):   8%|▊         | 1422/16950 [18:43<2:02:31,  2.11it/s]Training 1/3 epoch (loss 0.1248):   8%|▊         | 1422/16950 [18:44<2:02:31,  2.11it/s]Training 1/3 epoch (loss 0.1248):   8%|▊         | 1423/16950 [18:44<2:06:13,  2.05it/s]Training 1/3 epoch (loss 0.0352):   8%|▊         | 1423/16950 [18:45<2:06:13,  2.05it/s]Training 1/3 epoch (loss 0.0352):   8%|▊         | 1424/16950 [18:45<2:34:39,  1.67it/s]Training 1/3 epoch (loss 0.2620):   8%|▊         | 1424/16950 [18:45<2:34:39,  1.67it/s]Training 1/3 epoch (loss 0.2620):   8%|▊         | 1425/16950 [18:45<2:25:45,  1.78it/s]Training 1/3 epoch (loss 0.0292):   8%|▊         | 1425/16950 [18:45<2:25:45,  1.78it/s]Training 1/3 epoch (loss 0.0292):   8%|▊         | 1426/16950 [18:45<2:13:33,  1.94it/s]Training 1/3 epoch (loss nan):   8%|▊         | 1426/16950 [18:46<2:13:33,  1.94it/s]   Training 1/3 epoch (loss nan):   8%|▊         | 1427/16950 [18:46<2:55:12,  1.48it/s]Training 1/3 epoch (loss 0.8679):   8%|▊         | 1427/16950 [18:47<2:55:12,  1.48it/s]Training 1/3 epoch (loss 0.8679):   8%|▊         | 1428/16950 [18:47<2:44:51,  1.57it/s]Training 1/3 epoch (loss 0.0359):   8%|▊         | 1428/16950 [18:48<2:44:51,  1.57it/s]Training 1/3 epoch (loss 0.0359):   8%|▊         | 1429/16950 [18:48<2:42:30,  1.59it/s]Training 1/3 epoch (loss 0.0070):   8%|▊         | 1429/16950 [18:48<2:42:30,  1.59it/s]Training 1/3 epoch (loss 0.0070):   8%|▊         | 1430/16950 [18:48<2:19:19,  1.86it/s]Training 1/3 epoch (loss 0.0441):   8%|▊         | 1430/16950 [18:48<2:19:19,  1.86it/s]Training 1/3 epoch (loss 0.0441):   8%|▊         | 1431/16950 [18:48<2:02:56,  2.10it/s]Training 1/3 epoch (loss 0.6342):   8%|▊         | 1431/16950 [18:49<2:02:56,  2.10it/s]Training 1/3 epoch (loss 0.6342):   8%|▊         | 1432/16950 [18:49<2:02:11,  2.12it/s]Training 1/3 epoch (loss 0.0056):   8%|▊         | 1432/16950 [18:49<2:02:11,  2.12it/s]Training 1/3 epoch (loss 0.0056):   8%|▊         | 1433/16950 [18:49<2:01:53,  2.12it/s]Training 1/3 epoch (loss 0.0567):   8%|▊         | 1433/16950 [18:50<2:01:53,  2.12it/s]Training 1/3 epoch (loss 0.0567):   8%|▊         | 1434/16950 [18:50<2:04:01,  2.09it/s]Training 1/3 epoch (loss 0.5342):   8%|▊         | 1434/16950 [18:50<2:04:01,  2.09it/s]Training 1/3 epoch (loss 0.5342):   8%|▊         | 1435/16950 [18:50<2:03:51,  2.09it/s]Training 1/3 epoch (loss 0.1082):   8%|▊         | 1435/16950 [18:51<2:03:51,  2.09it/s]Training 1/3 epoch (loss 0.1082):   8%|▊         | 1436/16950 [18:51<2:15:23,  1.91it/s]Training 1/3 epoch (loss 0.1492):   8%|▊         | 1436/16950 [18:51<2:15:23,  1.91it/s]Training 1/3 epoch (loss 0.1492):   8%|▊         | 1437/16950 [18:51<2:25:06,  1.78it/s]Training 1/3 epoch (loss 0.0248):   8%|▊         | 1437/16950 [18:52<2:25:06,  1.78it/s]Training 1/3 epoch (loss 0.0248):   8%|▊         | 1438/16950 [18:52<2:28:38,  1.74it/s]Training 1/3 epoch (loss 0.0059):   8%|▊         | 1438/16950 [18:53<2:28:38,  1.74it/s]Training 1/3 epoch (loss 0.0059):   8%|▊         | 1439/16950 [18:53<2:35:37,  1.66it/s]Training 1/3 epoch (loss 0.0181):   8%|▊         | 1439/16950 [18:53<2:35:37,  1.66it/s]Training 1/3 epoch (loss 0.0181):   8%|▊         | 1440/16950 [18:53<2:31:46,  1.70it/s]Training 1/3 epoch (loss 0.0099):   8%|▊         | 1440/16950 [18:54<2:31:46,  1.70it/s]Training 1/3 epoch (loss 0.0099):   9%|▊         | 1441/16950 [18:54<2:18:04,  1.87it/s]Training 1/3 epoch (loss 0.5322):   9%|▊         | 1441/16950 [18:54<2:18:04,  1.87it/s]Training 1/3 epoch (loss 0.5322):   9%|▊         | 1442/16950 [18:54<2:17:27,  1.88it/s]Training 1/3 epoch (loss 0.0172):   9%|▊         | 1442/16950 [18:55<2:17:27,  1.88it/s]Training 1/3 epoch (loss 0.0172):   9%|▊         | 1443/16950 [18:55<2:22:13,  1.82it/s]Training 1/3 epoch (loss 0.0200):   9%|▊         | 1443/16950 [18:56<2:22:13,  1.82it/s]Training 1/3 epoch (loss 0.0200):   9%|▊         | 1444/16950 [18:56<3:08:19,  1.37it/s]Training 1/3 epoch (loss 0.4337):   9%|▊         | 1444/16950 [18:57<3:08:19,  1.37it/s]Training 1/3 epoch (loss 0.4337):   9%|▊         | 1445/16950 [18:57<3:31:24,  1.22it/s]Training 1/3 epoch (loss 0.0122):   9%|▊         | 1445/16950 [18:58<3:31:24,  1.22it/s]Training 1/3 epoch (loss 0.0122):   9%|▊         | 1446/16950 [18:58<3:09:20,  1.36it/s]Training 1/3 epoch (loss 0.1224):   9%|▊         | 1446/16950 [18:58<3:09:20,  1.36it/s]Training 1/3 epoch (loss 0.1224):   9%|▊         | 1447/16950 [18:58<3:00:56,  1.43it/s]Training 1/3 epoch (loss 0.0182):   9%|▊         | 1447/16950 [18:59<3:00:56,  1.43it/s]Training 1/3 epoch (loss 0.0182):   9%|▊         | 1448/16950 [18:59<2:43:39,  1.58it/s]Training 1/3 epoch (loss 0.2487):   9%|▊         | 1448/16950 [18:59<2:43:39,  1.58it/s]Training 1/3 epoch (loss 0.2487):   9%|▊         | 1449/16950 [18:59<2:56:31,  1.46it/s]Training 1/3 epoch (loss 0.1767):   9%|▊         | 1449/16950 [19:00<2:56:31,  1.46it/s]Training 1/3 epoch (loss 0.1767):   9%|▊         | 1450/16950 [19:00<2:48:50,  1.53it/s]Training 1/3 epoch (loss 0.0172):   9%|▊         | 1450/16950 [19:00<2:48:50,  1.53it/s]Training 1/3 epoch (loss 0.0172):   9%|▊         | 1451/16950 [19:00<2:33:02,  1.69it/s]Training 1/3 epoch (loss 0.0532):   9%|▊         | 1451/16950 [19:01<2:33:02,  1.69it/s]Training 1/3 epoch (loss 0.0532):   9%|▊         | 1452/16950 [19:01<2:41:46,  1.60it/s]Training 1/3 epoch (loss 0.4819):   9%|▊         | 1452/16950 [19:02<2:41:46,  1.60it/s]Training 1/3 epoch (loss 0.4819):   9%|▊         | 1453/16950 [19:02<2:25:02,  1.78it/s]Training 1/3 epoch (loss 0.0339):   9%|▊         | 1453/16950 [19:02<2:25:02,  1.78it/s]Training 1/3 epoch (loss 0.0339):   9%|▊         | 1454/16950 [19:02<2:17:28,  1.88it/s]Training 1/3 epoch (loss 0.0036):   9%|▊         | 1454/16950 [19:03<2:17:28,  1.88it/s]Training 1/3 epoch (loss 0.0036):   9%|▊         | 1455/16950 [19:03<2:25:19,  1.78it/s]Training 1/3 epoch (loss 0.2862):   9%|▊         | 1455/16950 [19:03<2:25:19,  1.78it/s]Training 1/3 epoch (loss 0.2862):   9%|▊         | 1456/16950 [19:03<2:20:42,  1.84it/s]Training 1/3 epoch (loss 0.0017):   9%|▊         | 1456/16950 [19:04<2:20:42,  1.84it/s]Training 1/3 epoch (loss 0.0017):   9%|▊         | 1457/16950 [19:04<2:10:58,  1.97it/s]Training 1/3 epoch (loss 0.0364):   9%|▊         | 1457/16950 [19:04<2:10:58,  1.97it/s]Training 1/3 epoch (loss 0.0364):   9%|▊         | 1458/16950 [19:04<2:11:04,  1.97it/s]Training 1/3 epoch (loss 0.7041):   9%|▊         | 1458/16950 [19:04<2:11:04,  1.97it/s]Training 1/3 epoch (loss 0.7041):   9%|▊         | 1459/16950 [19:04<2:02:06,  2.11it/s]Training 1/3 epoch (loss 0.0030):   9%|▊         | 1459/16950 [19:05<2:02:06,  2.11it/s]Training 1/3 epoch (loss 0.0030):   9%|▊         | 1460/16950 [19:05<1:57:39,  2.19it/s]Training 1/3 epoch (loss 0.0226):   9%|▊         | 1460/16950 [19:05<1:57:39,  2.19it/s]Training 1/3 epoch (loss 0.0226):   9%|▊         | 1461/16950 [19:05<2:08:01,  2.02it/s]Training 1/3 epoch (loss 0.2927):   9%|▊         | 1461/16950 [19:06<2:08:01,  2.02it/s]Training 1/3 epoch (loss 0.2927):   9%|▊         | 1462/16950 [19:06<1:58:15,  2.18it/s]Training 1/3 epoch (loss 0.1001):   9%|▊         | 1462/16950 [19:06<1:58:15,  2.18it/s]Training 1/3 epoch (loss 0.1001):   9%|▊         | 1463/16950 [19:06<2:09:50,  1.99it/s]Training 1/3 epoch (loss 0.6997):   9%|▊         | 1463/16950 [19:07<2:09:50,  1.99it/s]Training 1/3 epoch (loss 0.6997):   9%|▊         | 1464/16950 [19:07<2:05:54,  2.05it/s]Training 1/3 epoch (loss 0.0113):   9%|▊         | 1464/16950 [19:07<2:05:54,  2.05it/s]Training 1/3 epoch (loss 0.0113):   9%|▊         | 1465/16950 [19:07<2:12:20,  1.95it/s]Training 1/3 epoch (loss 0.7564):   9%|▊         | 1465/16950 [19:08<2:12:20,  1.95it/s]Training 1/3 epoch (loss 0.7564):   9%|▊         | 1466/16950 [19:08<2:19:14,  1.85it/s]Training 1/3 epoch (loss 0.3905):   9%|▊         | 1466/16950 [19:09<2:19:14,  1.85it/s]Training 1/3 epoch (loss 0.3905):   9%|▊         | 1467/16950 [19:09<2:26:54,  1.76it/s]Training 1/3 epoch (loss 0.1162):   9%|▊         | 1467/16950 [19:09<2:26:54,  1.76it/s]Training 1/3 epoch (loss 0.1162):   9%|▊         | 1468/16950 [19:09<2:38:22,  1.63it/s]Training 1/3 epoch (loss 0.6822):   9%|▊         | 1468/16950 [19:10<2:38:22,  1.63it/s]Training 1/3 epoch (loss 0.6822):   9%|▊         | 1469/16950 [19:10<3:11:13,  1.35it/s]Training 1/3 epoch (loss 0.1273):   9%|▊         | 1469/16950 [19:11<3:11:13,  1.35it/s]Training 1/3 epoch (loss 0.1273):   9%|▊         | 1470/16950 [19:11<3:02:39,  1.41it/s]Training 1/3 epoch (loss 0.5105):   9%|▊         | 1470/16950 [19:12<3:02:39,  1.41it/s]Training 1/3 epoch (loss 0.5105):   9%|▊         | 1471/16950 [19:12<2:52:53,  1.49it/s]Training 1/3 epoch (loss 0.4623):   9%|▊         | 1471/16950 [19:12<2:52:53,  1.49it/s]Training 1/3 epoch (loss 0.4623):   9%|▊         | 1472/16950 [19:12<2:54:35,  1.48it/s]Training 1/3 epoch (loss 0.4069):   9%|▊         | 1472/16950 [19:13<2:54:35,  1.48it/s]Training 1/3 epoch (loss 0.4069):   9%|▊         | 1473/16950 [19:13<2:38:22,  1.63it/s]Training 1/3 epoch (loss 0.1404):   9%|▊         | 1473/16950 [19:13<2:38:22,  1.63it/s]Training 1/3 epoch (loss 0.1404):   9%|▊         | 1474/16950 [19:13<2:39:33,  1.62it/s]Training 1/3 epoch (loss 1.0648):   9%|▊         | 1474/16950 [19:15<2:39:33,  1.62it/s]Training 1/3 epoch (loss 1.0648):   9%|▊         | 1475/16950 [19:15<3:17:30,  1.31it/s]Training 1/3 epoch (loss 0.0056):   9%|▊         | 1475/16950 [19:15<3:17:30,  1.31it/s]Training 1/3 epoch (loss 0.0056):   9%|▊         | 1476/16950 [19:15<3:09:38,  1.36it/s]Training 1/3 epoch (loss 0.4702):   9%|▊         | 1476/16950 [19:16<3:09:38,  1.36it/s]Training 1/3 epoch (loss 0.4702):   9%|▊         | 1477/16950 [19:16<3:17:27,  1.31it/s]Training 1/3 epoch (loss 0.0443):   9%|▊         | 1477/16950 [19:17<3:17:27,  1.31it/s]Training 1/3 epoch (loss 0.0443):   9%|▊         | 1478/16950 [19:17<3:35:26,  1.20it/s]Training 1/3 epoch (loss 0.4836):   9%|▊         | 1478/16950 [19:18<3:35:26,  1.20it/s]Training 1/3 epoch (loss 0.4836):   9%|▊         | 1479/16950 [19:18<3:56:21,  1.09it/s]Training 1/3 epoch (loss 0.1127):   9%|▊         | 1479/16950 [19:19<3:56:21,  1.09it/s]Training 1/3 epoch (loss 0.1127):   9%|▊         | 1480/16950 [19:19<3:41:38,  1.16it/s]Training 1/3 epoch (loss 0.0048):   9%|▊         | 1480/16950 [19:20<3:41:38,  1.16it/s]Training 1/3 epoch (loss 0.0048):   9%|▊         | 1481/16950 [19:20<3:22:11,  1.28it/s]Training 1/3 epoch (loss 0.2533):   9%|▊         | 1481/16950 [19:20<3:22:11,  1.28it/s]Training 1/3 epoch (loss 0.2533):   9%|▊         | 1482/16950 [19:20<3:04:25,  1.40it/s]Training 1/3 epoch (loss 0.0375):   9%|▊         | 1482/16950 [19:20<3:04:25,  1.40it/s]Training 1/3 epoch (loss 0.0375):   9%|▊         | 1483/16950 [19:20<2:36:43,  1.64it/s]Training 1/3 epoch (loss 0.0919):   9%|▊         | 1483/16950 [19:21<2:36:43,  1.64it/s]Training 1/3 epoch (loss 0.0919):   9%|▉         | 1484/16950 [19:21<2:29:42,  1.72it/s]Training 1/3 epoch (loss 0.4553):   9%|▉         | 1484/16950 [19:21<2:29:42,  1.72it/s]Training 1/3 epoch (loss 0.4553):   9%|▉         | 1485/16950 [19:21<2:22:03,  1.81it/s]Training 1/3 epoch (loss 0.6196):   9%|▉         | 1485/16950 [19:22<2:22:03,  1.81it/s]Training 1/3 epoch (loss 0.6196):   9%|▉         | 1486/16950 [19:22<2:09:25,  1.99it/s]Training 1/3 epoch (loss 0.2324):   9%|▉         | 1486/16950 [19:23<2:09:25,  1.99it/s]Training 1/3 epoch (loss 0.2324):   9%|▉         | 1487/16950 [19:23<2:32:53,  1.69it/s]Training 1/3 epoch (loss 0.0024):   9%|▉         | 1487/16950 [19:23<2:32:53,  1.69it/s]Training 1/3 epoch (loss 0.0024):   9%|▉         | 1488/16950 [19:23<2:13:35,  1.93it/s]Training 1/3 epoch (loss 0.0195):   9%|▉         | 1488/16950 [19:24<2:13:35,  1.93it/s]Training 1/3 epoch (loss 0.0195):   9%|▉         | 1489/16950 [19:24<2:19:34,  1.85it/s]Training 1/3 epoch (loss 0.2667):   9%|▉         | 1489/16950 [19:24<2:19:34,  1.85it/s]Training 1/3 epoch (loss 0.2667):   9%|▉         | 1490/16950 [19:24<2:29:26,  1.72it/s]Training 1/3 epoch (loss 0.3980):   9%|▉         | 1490/16950 [19:25<2:29:26,  1.72it/s]Training 1/3 epoch (loss 0.3980):   9%|▉         | 1491/16950 [19:25<2:32:48,  1.69it/s]Training 1/3 epoch (loss 0.0015):   9%|▉         | 1491/16950 [19:25<2:32:48,  1.69it/s]Training 1/3 epoch (loss 0.0015):   9%|▉         | 1492/16950 [19:25<2:20:01,  1.84it/s]Training 1/3 epoch (loss 0.0934):   9%|▉         | 1492/16950 [19:26<2:20:01,  1.84it/s]Training 1/3 epoch (loss 0.0934):   9%|▉         | 1493/16950 [19:26<2:18:19,  1.86it/s]Training 1/3 epoch (loss 0.0843):   9%|▉         | 1493/16950 [19:27<2:18:19,  1.86it/s]Training 1/3 epoch (loss 0.0843):   9%|▉         | 1494/16950 [19:27<2:46:05,  1.55it/s]Training 1/3 epoch (loss 0.4904):   9%|▉         | 1494/16950 [19:27<2:46:05,  1.55it/s]Training 1/3 epoch (loss 0.4904):   9%|▉         | 1495/16950 [19:27<2:51:26,  1.50it/s]Training 1/3 epoch (loss 0.0758):   9%|▉         | 1495/16950 [19:28<2:51:26,  1.50it/s]Training 1/3 epoch (loss 0.0758):   9%|▉         | 1496/16950 [19:28<3:02:17,  1.41it/s]Training 1/3 epoch (loss 0.0019):   9%|▉         | 1496/16950 [19:29<3:02:17,  1.41it/s]Training 1/3 epoch (loss 0.0019):   9%|▉         | 1497/16950 [19:29<2:44:44,  1.56it/s]Training 1/3 epoch (loss 0.4580):   9%|▉         | 1497/16950 [19:29<2:44:44,  1.56it/s]Training 1/3 epoch (loss 0.4580):   9%|▉         | 1498/16950 [19:29<2:40:55,  1.60it/s]Training 1/3 epoch (loss 0.0028):   9%|▉         | 1498/16950 [19:30<2:40:55,  1.60it/s]Training 1/3 epoch (loss 0.0028):   9%|▉         | 1499/16950 [19:30<2:26:02,  1.76it/s]Training 1/3 epoch (loss 0.4226):   9%|▉         | 1499/16950 [19:30<2:26:02,  1.76it/s]Training 1/3 epoch (loss 0.4226):   9%|▉         | 1500/16950 [19:30<2:23:59,  1.79it/s]Training 1/3 epoch (loss 0.0403):   9%|▉         | 1500/16950 [19:31<2:23:59,  1.79it/s]Training 1/3 epoch (loss 0.0403):   9%|▉         | 1501/16950 [19:31<2:31:51,  1.70it/s]Training 1/3 epoch (loss 0.0146):   9%|▉         | 1501/16950 [19:32<2:31:51,  1.70it/s]Training 1/3 epoch (loss 0.0146):   9%|▉         | 1502/16950 [19:32<2:43:59,  1.57it/s]Training 1/3 epoch (loss 0.4887):   9%|▉         | 1502/16950 [19:32<2:43:59,  1.57it/s]Training 1/3 epoch (loss 0.4887):   9%|▉         | 1503/16950 [19:32<2:39:10,  1.62it/s]Training 1/3 epoch (loss 0.1097):   9%|▉         | 1503/16950 [19:33<2:39:10,  1.62it/s]Training 1/3 epoch (loss 0.1097):   9%|▉         | 1504/16950 [19:33<2:30:45,  1.71it/s]Training 1/3 epoch (loss 0.4235):   9%|▉         | 1504/16950 [19:33<2:30:45,  1.71it/s]Training 1/3 epoch (loss 0.4235):   9%|▉         | 1505/16950 [19:33<2:36:00,  1.65it/s]Training 1/3 epoch (loss 0.7219):   9%|▉         | 1505/16950 [19:34<2:36:00,  1.65it/s]Training 1/3 epoch (loss 0.7219):   9%|▉         | 1506/16950 [19:34<2:18:29,  1.86it/s]Training 1/3 epoch (loss 0.3083):   9%|▉         | 1506/16950 [19:34<2:18:29,  1.86it/s]Training 1/3 epoch (loss 0.3083):   9%|▉         | 1507/16950 [19:34<2:24:35,  1.78it/s]Training 1/3 epoch (loss 0.0454):   9%|▉         | 1507/16950 [19:35<2:24:35,  1.78it/s]Training 1/3 epoch (loss 0.0454):   9%|▉         | 1508/16950 [19:35<2:33:53,  1.67it/s]Training 1/3 epoch (loss 0.6414):   9%|▉         | 1508/16950 [19:36<2:33:53,  1.67it/s]Training 1/3 epoch (loss 0.6414):   9%|▉         | 1509/16950 [19:36<2:44:07,  1.57it/s]Training 1/3 epoch (loss 0.1804):   9%|▉         | 1509/16950 [19:37<2:44:07,  1.57it/s]Training 1/3 epoch (loss 0.1804):   9%|▉         | 1510/16950 [19:37<2:47:30,  1.54it/s]Training 1/3 epoch (loss 0.0988):   9%|▉         | 1510/16950 [19:37<2:47:30,  1.54it/s]Training 1/3 epoch (loss 0.0988):   9%|▉         | 1511/16950 [19:37<2:47:40,  1.53it/s]Training 1/3 epoch (loss 0.0542):   9%|▉         | 1511/16950 [19:38<2:47:40,  1.53it/s]Training 1/3 epoch (loss 0.0542):   9%|▉         | 1512/16950 [19:38<2:43:21,  1.58it/s]Training 1/3 epoch (loss 0.0314):   9%|▉         | 1512/16950 [19:38<2:43:21,  1.58it/s]Training 1/3 epoch (loss 0.0314):   9%|▉         | 1513/16950 [19:38<2:30:10,  1.71it/s]Training 1/3 epoch (loss 0.4650):   9%|▉         | 1513/16950 [19:39<2:30:10,  1.71it/s]Training 1/3 epoch (loss 0.4650):   9%|▉         | 1514/16950 [19:39<2:47:22,  1.54it/s]Training 1/3 epoch (loss 0.0691):   9%|▉         | 1514/16950 [19:40<2:47:22,  1.54it/s]Training 1/3 epoch (loss 0.0691):   9%|▉         | 1515/16950 [19:40<2:45:18,  1.56it/s]Training 1/3 epoch (loss 0.0313):   9%|▉         | 1515/16950 [19:40<2:45:18,  1.56it/s]Training 1/3 epoch (loss 0.0313):   9%|▉         | 1516/16950 [19:40<2:35:28,  1.65it/s]Training 1/3 epoch (loss 0.3767):   9%|▉         | 1516/16950 [19:41<2:35:28,  1.65it/s]Training 1/3 epoch (loss 0.3767):   9%|▉         | 1517/16950 [19:41<2:22:57,  1.80it/s]Training 1/3 epoch (loss 0.3679):   9%|▉         | 1517/16950 [19:42<2:22:57,  1.80it/s]Training 1/3 epoch (loss 0.3679):   9%|▉         | 1518/16950 [19:42<3:01:24,  1.42it/s]Training 1/3 epoch (loss 0.6698):   9%|▉         | 1518/16950 [19:42<3:01:24,  1.42it/s]Training 1/3 epoch (loss 0.6698):   9%|▉         | 1519/16950 [19:42<2:46:20,  1.55it/s]Training 1/3 epoch (loss 0.0033):   9%|▉         | 1519/16950 [19:43<2:46:20,  1.55it/s]Training 1/3 epoch (loss 0.0033):   9%|▉         | 1520/16950 [19:43<2:28:24,  1.73it/s]Training 1/3 epoch (loss 0.1151):   9%|▉         | 1520/16950 [19:44<2:28:24,  1.73it/s]Training 1/3 epoch (loss 0.1151):   9%|▉         | 1521/16950 [19:44<3:08:08,  1.37it/s]Training 1/3 epoch (loss 0.0855):   9%|▉         | 1521/16950 [19:44<3:08:08,  1.37it/s]Training 1/3 epoch (loss 0.0855):   9%|▉         | 1522/16950 [19:44<3:07:21,  1.37it/s]Training 1/3 epoch (loss 0.0989):   9%|▉         | 1522/16950 [19:45<3:07:21,  1.37it/s]Training 1/3 epoch (loss 0.0989):   9%|▉         | 1523/16950 [19:45<3:17:30,  1.30it/s]Training 1/3 epoch (loss 0.0190):   9%|▉         | 1523/16950 [19:46<3:17:30,  1.30it/s]Training 1/3 epoch (loss 0.0190):   9%|▉         | 1524/16950 [19:46<3:33:33,  1.20it/s]Training 1/3 epoch (loss 0.0039):   9%|▉         | 1524/16950 [19:47<3:33:33,  1.20it/s]Training 1/3 epoch (loss 0.0039):   9%|▉         | 1525/16950 [19:47<3:19:16,  1.29it/s]Training 1/3 epoch (loss 0.0477):   9%|▉         | 1525/16950 [19:48<3:19:16,  1.29it/s]Training 1/3 epoch (loss 0.0477):   9%|▉         | 1526/16950 [19:48<3:32:35,  1.21it/s]Training 1/3 epoch (loss 0.2138):   9%|▉         | 1526/16950 [19:48<3:32:35,  1.21it/s]Training 1/3 epoch (loss 0.2138):   9%|▉         | 1527/16950 [19:48<3:10:24,  1.35it/s]Training 1/3 epoch (loss 0.6091):   9%|▉         | 1527/16950 [19:49<3:10:24,  1.35it/s]Training 1/3 epoch (loss 0.6091):   9%|▉         | 1528/16950 [19:49<2:50:14,  1.51it/s]Training 1/3 epoch (loss 0.0796):   9%|▉         | 1528/16950 [19:49<2:50:14,  1.51it/s]Training 1/3 epoch (loss 0.0796):   9%|▉         | 1529/16950 [19:49<2:46:25,  1.54it/s]Training 1/3 epoch (loss 0.2740):   9%|▉         | 1529/16950 [19:51<2:46:25,  1.54it/s]Training 1/3 epoch (loss 0.2740):   9%|▉         | 1530/16950 [19:51<3:25:16,  1.25it/s]Training 1/3 epoch (loss 0.0405):   9%|▉         | 1530/16950 [19:51<3:25:16,  1.25it/s]Training 1/3 epoch (loss 0.0405):   9%|▉         | 1531/16950 [19:51<3:17:51,  1.30it/s]Training 1/3 epoch (loss 0.1300):   9%|▉         | 1531/16950 [19:52<3:17:51,  1.30it/s]Training 1/3 epoch (loss 0.1300):   9%|▉         | 1532/16950 [19:52<2:59:35,  1.43it/s]Training 1/3 epoch (loss 0.5604):   9%|▉         | 1532/16950 [19:53<2:59:35,  1.43it/s]Training 1/3 epoch (loss 0.5604):   9%|▉         | 1533/16950 [19:53<2:53:55,  1.48it/s]Training 1/3 epoch (loss 0.0081):   9%|▉         | 1533/16950 [19:53<2:53:55,  1.48it/s]Training 1/3 epoch (loss 0.0081):   9%|▉         | 1534/16950 [19:53<2:42:59,  1.58it/s]Training 1/3 epoch (loss 0.2174):   9%|▉         | 1534/16950 [19:53<2:42:59,  1.58it/s]Training 1/3 epoch (loss 0.2174):   9%|▉         | 1535/16950 [19:53<2:29:31,  1.72it/s]Training 1/3 epoch (loss 0.1301):   9%|▉         | 1535/16950 [19:54<2:29:31,  1.72it/s]Training 1/3 epoch (loss 0.1301):   9%|▉         | 1536/16950 [19:54<2:30:53,  1.70it/s]Training 1/3 epoch (loss 0.1493):   9%|▉         | 1536/16950 [19:55<2:30:53,  1.70it/s]Training 1/3 epoch (loss 0.1493):   9%|▉         | 1537/16950 [19:55<2:26:54,  1.75it/s]Training 1/3 epoch (loss 0.0645):   9%|▉         | 1537/16950 [19:55<2:26:54,  1.75it/s]Training 1/3 epoch (loss 0.0645):   9%|▉         | 1538/16950 [19:55<2:23:13,  1.79it/s]Training 1/3 epoch (loss 0.8172):   9%|▉         | 1538/16950 [19:56<2:23:13,  1.79it/s]Training 1/3 epoch (loss 0.8172):   9%|▉         | 1539/16950 [19:56<2:18:37,  1.85it/s]Training 1/3 epoch (loss 0.2600):   9%|▉         | 1539/16950 [19:56<2:18:37,  1.85it/s]Training 1/3 epoch (loss 0.2600):   9%|▉         | 1540/16950 [19:56<2:19:38,  1.84it/s]Training 1/3 epoch (loss 0.4736):   9%|▉         | 1540/16950 [19:57<2:19:38,  1.84it/s]Training 1/3 epoch (loss 0.4736):   9%|▉         | 1541/16950 [19:57<2:50:34,  1.51it/s]Training 1/3 epoch (loss 0.0033):   9%|▉         | 1541/16950 [19:58<2:50:34,  1.51it/s]Training 1/3 epoch (loss 0.0033):   9%|▉         | 1542/16950 [19:58<2:46:07,  1.55it/s]Training 1/3 epoch (loss 0.6151):   9%|▉         | 1542/16950 [19:58<2:46:07,  1.55it/s]Training 1/3 epoch (loss 0.6151):   9%|▉         | 1543/16950 [19:58<2:38:51,  1.62it/s]Training 1/3 epoch (loss 0.1139):   9%|▉         | 1543/16950 [19:59<2:38:51,  1.62it/s]Training 1/3 epoch (loss 0.1139):   9%|▉         | 1544/16950 [19:59<2:44:15,  1.56it/s]Training 1/3 epoch (loss 0.1378):   9%|▉         | 1544/16950 [20:00<2:44:15,  1.56it/s]Training 1/3 epoch (loss 0.1378):   9%|▉         | 1545/16950 [20:00<3:06:13,  1.38it/s]Training 1/3 epoch (loss 0.5219):   9%|▉         | 1545/16950 [20:01<3:06:13,  1.38it/s]Training 1/3 epoch (loss 0.5219):   9%|▉         | 1546/16950 [20:01<3:05:06,  1.39it/s]Training 1/3 epoch (loss 0.1589):   9%|▉         | 1546/16950 [20:01<3:05:06,  1.39it/s]Training 1/3 epoch (loss 0.1589):   9%|▉         | 1547/16950 [20:01<2:59:03,  1.43it/s]Training 1/3 epoch (loss 0.7258):   9%|▉         | 1547/16950 [20:02<2:59:03,  1.43it/s]Training 1/3 epoch (loss 0.7258):   9%|▉         | 1548/16950 [20:02<2:29:36,  1.72it/s]Training 1/3 epoch (loss 0.0017):   9%|▉         | 1548/16950 [20:02<2:29:36,  1.72it/s]Training 1/3 epoch (loss 0.0017):   9%|▉         | 1549/16950 [20:02<2:14:39,  1.91it/s]Training 1/3 epoch (loss 0.0055):   9%|▉         | 1549/16950 [20:02<2:14:39,  1.91it/s]Training 1/3 epoch (loss 0.0055):   9%|▉         | 1550/16950 [20:02<2:08:03,  2.00it/s]Training 1/3 epoch (loss 0.0189):   9%|▉         | 1550/16950 [20:03<2:08:03,  2.00it/s]Training 1/3 epoch (loss 0.0189):   9%|▉         | 1551/16950 [20:03<2:21:54,  1.81it/s]Training 1/3 epoch (loss 0.1502):   9%|▉         | 1551/16950 [20:04<2:21:54,  1.81it/s]Training 1/3 epoch (loss 0.1502):   9%|▉         | 1552/16950 [20:04<2:31:22,  1.70it/s]Training 1/3 epoch (loss 0.7565):   9%|▉         | 1552/16950 [20:04<2:31:22,  1.70it/s]Training 1/3 epoch (loss 0.7565):   9%|▉         | 1553/16950 [20:04<2:20:02,  1.83it/s]Training 1/3 epoch (loss 0.0879):   9%|▉         | 1553/16950 [20:05<2:20:02,  1.83it/s]Training 1/3 epoch (loss 0.0879):   9%|▉         | 1554/16950 [20:05<2:23:25,  1.79it/s]Training 1/3 epoch (loss 0.9384):   9%|▉         | 1554/16950 [20:06<2:23:25,  1.79it/s]Training 1/3 epoch (loss 0.9384):   9%|▉         | 1555/16950 [20:06<2:42:07,  1.58it/s]Training 1/3 epoch (loss 0.0106):   9%|▉         | 1555/16950 [20:06<2:42:07,  1.58it/s]Training 1/3 epoch (loss 0.0106):   9%|▉         | 1556/16950 [20:06<2:36:47,  1.64it/s]Training 1/3 epoch (loss 0.2349):   9%|▉         | 1556/16950 [20:07<2:36:47,  1.64it/s]Training 1/3 epoch (loss 0.2349):   9%|▉         | 1557/16950 [20:07<2:22:51,  1.80it/s]Training 1/3 epoch (loss 0.0026):   9%|▉         | 1557/16950 [20:07<2:22:51,  1.80it/s]Training 1/3 epoch (loss 0.0026):   9%|▉         | 1558/16950 [20:07<2:11:58,  1.94it/s]Training 1/3 epoch (loss 0.5113):   9%|▉         | 1558/16950 [20:08<2:11:58,  1.94it/s]Training 1/3 epoch (loss 0.5113):   9%|▉         | 1559/16950 [20:08<2:19:53,  1.83it/s]Training 1/3 epoch (loss 0.3841):   9%|▉         | 1559/16950 [20:08<2:19:53,  1.83it/s]Training 1/3 epoch (loss 0.3841):   9%|▉         | 1560/16950 [20:08<2:26:46,  1.75it/s]Training 1/3 epoch (loss 0.0956):   9%|▉         | 1560/16950 [20:09<2:26:46,  1.75it/s]Training 1/3 epoch (loss 0.0956):   9%|▉         | 1561/16950 [20:09<3:03:10,  1.40it/s]Training 1/3 epoch (loss 0.0107):   9%|▉         | 1561/16950 [20:10<3:03:10,  1.40it/s]Training 1/3 epoch (loss 0.0107):   9%|▉         | 1562/16950 [20:10<2:48:24,  1.52it/s]Training 1/3 epoch (loss 0.0174):   9%|▉         | 1562/16950 [20:11<2:48:24,  1.52it/s]Training 1/3 epoch (loss 0.0174):   9%|▉         | 1563/16950 [20:11<2:51:51,  1.49it/s]Training 1/3 epoch (loss 0.0281):   9%|▉         | 1563/16950 [20:11<2:51:51,  1.49it/s]Training 1/3 epoch (loss 0.0281):   9%|▉         | 1564/16950 [20:11<2:47:46,  1.53it/s]Training 1/3 epoch (loss 0.0667):   9%|▉         | 1564/16950 [20:12<2:47:46,  1.53it/s]Training 1/3 epoch (loss 0.0667):   9%|▉         | 1565/16950 [20:12<2:33:12,  1.67it/s]Training 1/3 epoch (loss 0.0478):   9%|▉         | 1565/16950 [20:12<2:33:12,  1.67it/s]Training 1/3 epoch (loss 0.0478):   9%|▉         | 1566/16950 [20:12<2:37:59,  1.62it/s]Training 1/3 epoch (loss 0.3096):   9%|▉         | 1566/16950 [20:13<2:37:59,  1.62it/s]Training 1/3 epoch (loss 0.3096):   9%|▉         | 1567/16950 [20:13<2:18:20,  1.85it/s]Training 1/3 epoch (loss 0.5361):   9%|▉         | 1567/16950 [20:13<2:18:20,  1.85it/s]Training 1/3 epoch (loss 0.5361):   9%|▉         | 1568/16950 [20:13<2:12:39,  1.93it/s]Training 1/3 epoch (loss 0.1054):   9%|▉         | 1568/16950 [20:14<2:12:39,  1.93it/s]Training 1/3 epoch (loss 0.1054):   9%|▉         | 1569/16950 [20:14<2:16:07,  1.88it/s]Training 1/3 epoch (loss 0.4947):   9%|▉         | 1569/16950 [20:14<2:16:07,  1.88it/s]Training 1/3 epoch (loss 0.4947):   9%|▉         | 1570/16950 [20:14<2:24:20,  1.78it/s]Training 1/3 epoch (loss 0.7279):   9%|▉         | 1570/16950 [20:15<2:24:20,  1.78it/s]Training 1/3 epoch (loss 0.7279):   9%|▉         | 1571/16950 [20:15<2:21:26,  1.81it/s]Training 1/3 epoch (loss 0.1288):   9%|▉         | 1571/16950 [20:15<2:21:26,  1.81it/s]Training 1/3 epoch (loss 0.1288):   9%|▉         | 1572/16950 [20:15<2:27:16,  1.74it/s]Training 1/3 epoch (loss 0.0428):   9%|▉         | 1572/16950 [20:16<2:27:16,  1.74it/s]Training 1/3 epoch (loss 0.0428):   9%|▉         | 1573/16950 [20:16<2:26:35,  1.75it/s]Training 1/3 epoch (loss 0.0025):   9%|▉         | 1573/16950 [20:17<2:26:35,  1.75it/s]Training 1/3 epoch (loss 0.0025):   9%|▉         | 1574/16950 [20:17<2:27:21,  1.74it/s]Training 1/3 epoch (loss 0.0411):   9%|▉         | 1574/16950 [20:17<2:27:21,  1.74it/s]Training 1/3 epoch (loss 0.0411):   9%|▉         | 1575/16950 [20:17<2:15:04,  1.90it/s]Training 1/3 epoch (loss 0.6418):   9%|▉         | 1575/16950 [20:18<2:15:04,  1.90it/s]Training 1/3 epoch (loss 0.6418):   9%|▉         | 1576/16950 [20:18<2:52:40,  1.48it/s]Training 1/3 epoch (loss 0.0967):   9%|▉         | 1576/16950 [20:19<2:52:40,  1.48it/s]Training 1/3 epoch (loss 0.0967):   9%|▉         | 1577/16950 [20:19<2:57:54,  1.44it/s]Training 1/3 epoch (loss 0.0226):   9%|▉         | 1577/16950 [20:19<2:57:54,  1.44it/s]Training 1/3 epoch (loss 0.0226):   9%|▉         | 1578/16950 [20:19<2:33:23,  1.67it/s]Training 1/3 epoch (loss 0.0763):   9%|▉         | 1578/16950 [20:20<2:33:23,  1.67it/s]Training 1/3 epoch (loss 0.0763):   9%|▉         | 1579/16950 [20:20<2:23:35,  1.78it/s]Training 1/3 epoch (loss 0.0367):   9%|▉         | 1579/16950 [20:20<2:23:35,  1.78it/s]Training 1/3 epoch (loss 0.0367):   9%|▉         | 1580/16950 [20:20<2:40:08,  1.60it/s]Training 1/3 epoch (loss 0.0011):   9%|▉         | 1580/16950 [20:21<2:40:08,  1.60it/s]Training 1/3 epoch (loss 0.0011):   9%|▉         | 1581/16950 [20:21<2:27:26,  1.74it/s]Training 1/3 epoch (loss 0.0348):   9%|▉         | 1581/16950 [20:21<2:27:26,  1.74it/s]Training 1/3 epoch (loss 0.0348):   9%|▉         | 1582/16950 [20:21<2:30:12,  1.71it/s]Training 1/3 epoch (loss 0.5025):   9%|▉         | 1582/16950 [20:22<2:30:12,  1.71it/s]Training 1/3 epoch (loss 0.5025):   9%|▉         | 1583/16950 [20:22<2:24:51,  1.77it/s]Training 1/3 epoch (loss 0.0489):   9%|▉         | 1583/16950 [20:22<2:24:51,  1.77it/s]Training 1/3 epoch (loss 0.0489):   9%|▉         | 1584/16950 [20:22<2:19:41,  1.83it/s]Training 1/3 epoch (loss 0.0266):   9%|▉         | 1584/16950 [20:23<2:19:41,  1.83it/s]Training 1/3 epoch (loss 0.0266):   9%|▉         | 1585/16950 [20:23<2:19:31,  1.84it/s]Training 1/3 epoch (loss 0.5482):   9%|▉         | 1585/16950 [20:24<2:19:31,  1.84it/s]Training 1/3 epoch (loss 0.5482):   9%|▉         | 1586/16950 [20:24<2:30:44,  1.70it/s]Training 1/3 epoch (loss 0.1487):   9%|▉         | 1586/16950 [20:24<2:30:44,  1.70it/s]Training 1/3 epoch (loss 0.1487):   9%|▉         | 1587/16950 [20:24<2:30:59,  1.70it/s]Training 1/3 epoch (loss 0.0063):   9%|▉         | 1587/16950 [20:25<2:30:59,  1.70it/s]Training 1/3 epoch (loss 0.0063):   9%|▉         | 1588/16950 [20:25<2:29:07,  1.72it/s]Training 1/3 epoch (loss 0.0826):   9%|▉         | 1588/16950 [20:25<2:29:07,  1.72it/s]Training 1/3 epoch (loss 0.0826):   9%|▉         | 1589/16950 [20:25<2:24:28,  1.77it/s]Training 1/3 epoch (loss 0.0334):   9%|▉         | 1589/16950 [20:26<2:24:28,  1.77it/s]Training 1/3 epoch (loss 0.0334):   9%|▉         | 1590/16950 [20:26<2:23:08,  1.79it/s]Training 1/3 epoch (loss 0.1841):   9%|▉         | 1590/16950 [20:27<2:23:08,  1.79it/s]Training 1/3 epoch (loss 0.1841):   9%|▉         | 1591/16950 [20:27<2:25:35,  1.76it/s]Training 1/3 epoch (loss 0.3045):   9%|▉         | 1591/16950 [20:27<2:25:35,  1.76it/s]Training 1/3 epoch (loss 0.3045):   9%|▉         | 1592/16950 [20:27<2:16:17,  1.88it/s]Training 1/3 epoch (loss 0.0828):   9%|▉         | 1592/16950 [20:28<2:16:17,  1.88it/s]Training 1/3 epoch (loss 0.0828):   9%|▉         | 1593/16950 [20:28<2:28:48,  1.72it/s]Training 1/3 epoch (loss 0.1477):   9%|▉         | 1593/16950 [20:28<2:28:48,  1.72it/s]Training 1/3 epoch (loss 0.1477):   9%|▉         | 1594/16950 [20:28<2:40:42,  1.59it/s]Training 1/3 epoch (loss 0.1171):   9%|▉         | 1594/16950 [20:29<2:40:42,  1.59it/s]Training 1/3 epoch (loss 0.1171):   9%|▉         | 1595/16950 [20:29<3:08:15,  1.36it/s]Training 1/3 epoch (loss 0.6848):   9%|▉         | 1595/16950 [20:30<3:08:15,  1.36it/s]Training 1/3 epoch (loss 0.6848):   9%|▉         | 1596/16950 [20:30<3:01:30,  1.41it/s]Training 1/3 epoch (loss 0.0872):   9%|▉         | 1596/16950 [20:31<3:01:30,  1.41it/s]Training 1/3 epoch (loss 0.0872):   9%|▉         | 1597/16950 [20:31<2:57:18,  1.44it/s]Training 1/3 epoch (loss 0.0033):   9%|▉         | 1597/16950 [20:31<2:57:18,  1.44it/s]Training 1/3 epoch (loss 0.0033):   9%|▉         | 1598/16950 [20:31<2:45:41,  1.54it/s]Training 1/3 epoch (loss 0.3220):   9%|▉         | 1598/16950 [20:32<2:45:41,  1.54it/s]Training 1/3 epoch (loss 0.3220):   9%|▉         | 1599/16950 [20:32<2:34:59,  1.65it/s]Training 1/3 epoch (loss 0.0907):   9%|▉         | 1599/16950 [20:33<2:34:59,  1.65it/s]Training 1/3 epoch (loss 0.0907):   9%|▉         | 1600/16950 [20:33<2:53:33,  1.47it/s]Training 1/3 epoch (loss 0.0010):   9%|▉         | 1600/16950 [20:33<2:53:33,  1.47it/s]Training 1/3 epoch (loss 0.0010):   9%|▉         | 1601/16950 [20:33<2:45:36,  1.54it/s]Training 1/3 epoch (loss 0.0134):   9%|▉         | 1601/16950 [20:34<2:45:36,  1.54it/s]Training 1/3 epoch (loss 0.0134):   9%|▉         | 1602/16950 [20:34<2:29:28,  1.71it/s]Training 1/3 epoch (loss 0.5750):   9%|▉         | 1602/16950 [20:34<2:29:28,  1.71it/s]Training 1/3 epoch (loss 0.5750):   9%|▉         | 1603/16950 [20:34<2:17:59,  1.85it/s]Training 1/3 epoch (loss 0.0044):   9%|▉         | 1603/16950 [20:35<2:17:59,  1.85it/s]Training 1/3 epoch (loss 0.0044):   9%|▉         | 1604/16950 [20:35<2:22:01,  1.80it/s]Training 1/3 epoch (loss 0.2344):   9%|▉         | 1604/16950 [20:35<2:22:01,  1.80it/s]Training 1/3 epoch (loss 0.2344):   9%|▉         | 1605/16950 [20:35<2:36:32,  1.63it/s]Training 1/3 epoch (loss 0.0153):   9%|▉         | 1605/16950 [20:36<2:36:32,  1.63it/s]Training 1/3 epoch (loss 0.0153):   9%|▉         | 1606/16950 [20:36<2:52:06,  1.49it/s]Training 1/3 epoch (loss 0.8992):   9%|▉         | 1606/16950 [20:37<2:52:06,  1.49it/s]Training 1/3 epoch (loss 0.8992):   9%|▉         | 1607/16950 [20:37<2:52:47,  1.48it/s]Training 1/3 epoch (loss 0.5622):   9%|▉         | 1607/16950 [20:38<2:52:47,  1.48it/s]Training 1/3 epoch (loss 0.5622):   9%|▉         | 1608/16950 [20:38<2:49:00,  1.51it/s]Training 1/3 epoch (loss 0.2224):   9%|▉         | 1608/16950 [20:38<2:49:00,  1.51it/s]Training 1/3 epoch (loss 0.2224):   9%|▉         | 1609/16950 [20:38<2:30:31,  1.70it/s]Training 1/3 epoch (loss 0.0821):   9%|▉         | 1609/16950 [20:39<2:30:31,  1.70it/s]Training 1/3 epoch (loss 0.0821):   9%|▉         | 1610/16950 [20:39<2:43:17,  1.57it/s]Training 1/3 epoch (loss 0.3827):   9%|▉         | 1610/16950 [20:39<2:43:17,  1.57it/s]Training 1/3 epoch (loss 0.3827):  10%|▉         | 1611/16950 [20:39<2:46:07,  1.54it/s]Training 1/3 epoch (loss 0.0116):  10%|▉         | 1611/16950 [20:40<2:46:07,  1.54it/s]Training 1/3 epoch (loss 0.0116):  10%|▉         | 1612/16950 [20:40<2:32:10,  1.68it/s]Training 1/3 epoch (loss 0.0255):  10%|▉         | 1612/16950 [20:40<2:32:10,  1.68it/s]Training 1/3 epoch (loss 0.0255):  10%|▉         | 1613/16950 [20:40<2:18:21,  1.85it/s]Training 1/3 epoch (loss 0.0154):  10%|▉         | 1613/16950 [20:41<2:18:21,  1.85it/s]Training 1/3 epoch (loss 0.0154):  10%|▉         | 1614/16950 [20:41<2:20:27,  1.82it/s]Training 1/3 epoch (loss 1.0075):  10%|▉         | 1614/16950 [20:42<2:20:27,  1.82it/s]Training 1/3 epoch (loss 1.0075):  10%|▉         | 1615/16950 [20:42<3:04:35,  1.38it/s]Training 1/3 epoch (loss 0.0406):  10%|▉         | 1615/16950 [20:43<3:04:35,  1.38it/s]Training 1/3 epoch (loss 0.0406):  10%|▉         | 1616/16950 [20:43<2:57:51,  1.44it/s]Training 1/3 epoch (loss 0.6698):  10%|▉         | 1616/16950 [20:43<2:57:51,  1.44it/s]Training 1/3 epoch (loss 0.6698):  10%|▉         | 1617/16950 [20:43<2:54:53,  1.46it/s]Training 1/3 epoch (loss 0.2833):  10%|▉         | 1617/16950 [20:44<2:54:53,  1.46it/s]Training 1/3 epoch (loss 0.2833):  10%|▉         | 1618/16950 [20:44<2:39:42,  1.60it/s]Training 1/3 epoch (loss 0.0034):  10%|▉         | 1618/16950 [20:44<2:39:42,  1.60it/s]Training 1/3 epoch (loss 0.0034):  10%|▉         | 1619/16950 [20:44<2:21:08,  1.81it/s]Training 1/3 epoch (loss 0.0948):  10%|▉         | 1619/16950 [20:45<2:21:08,  1.81it/s]Training 1/3 epoch (loss 0.0948):  10%|▉         | 1620/16950 [20:45<2:18:42,  1.84it/s]Training 1/3 epoch (loss 0.0155):  10%|▉         | 1620/16950 [20:45<2:18:42,  1.84it/s]Training 1/3 epoch (loss 0.0155):  10%|▉         | 1621/16950 [20:45<2:30:12,  1.70it/s]Training 1/3 epoch (loss 0.0931):  10%|▉         | 1621/16950 [20:47<2:30:12,  1.70it/s]Training 1/3 epoch (loss 0.0931):  10%|▉         | 1622/16950 [20:47<3:16:28,  1.30it/s]Training 1/3 epoch (loss 0.0034):  10%|▉         | 1622/16950 [20:47<3:16:28,  1.30it/s]Training 1/3 epoch (loss 0.0034):  10%|▉         | 1623/16950 [20:47<3:06:36,  1.37it/s]Training 1/3 epoch (loss 0.0120):  10%|▉         | 1623/16950 [20:48<3:06:36,  1.37it/s]Training 1/3 epoch (loss 0.0120):  10%|▉         | 1624/16950 [20:48<2:51:58,  1.49it/s]Training 1/3 epoch (loss 0.0078):  10%|▉         | 1624/16950 [20:48<2:51:58,  1.49it/s]Training 1/3 epoch (loss 0.0078):  10%|▉         | 1625/16950 [20:48<2:35:41,  1.64it/s]Training 1/3 epoch (loss 0.0048):  10%|▉         | 1625/16950 [20:49<2:35:41,  1.64it/s]Training 1/3 epoch (loss 0.0048):  10%|▉         | 1626/16950 [20:49<2:31:48,  1.68it/s]Training 1/3 epoch (loss 0.8754):  10%|▉         | 1626/16950 [20:49<2:31:48,  1.68it/s]Training 1/3 epoch (loss 0.8754):  10%|▉         | 1627/16950 [20:49<2:16:01,  1.88it/s]Training 1/3 epoch (loss 0.0661):  10%|▉         | 1627/16950 [20:50<2:16:01,  1.88it/s]Training 1/3 epoch (loss 0.0661):  10%|▉         | 1628/16950 [20:50<2:21:36,  1.80it/s]Training 1/3 epoch (loss 0.0021):  10%|▉         | 1628/16950 [20:50<2:21:36,  1.80it/s]Training 1/3 epoch (loss 0.0021):  10%|▉         | 1629/16950 [20:50<2:20:33,  1.82it/s]Training 1/3 epoch (loss 0.6006):  10%|▉         | 1629/16950 [20:51<2:20:33,  1.82it/s]Training 1/3 epoch (loss 0.6006):  10%|▉         | 1630/16950 [20:51<2:43:29,  1.56it/s]Training 1/3 epoch (loss 0.5947):  10%|▉         | 1630/16950 [20:52<2:43:29,  1.56it/s]Training 1/3 epoch (loss 0.5947):  10%|▉         | 1631/16950 [20:52<3:08:43,  1.35it/s]Training 1/3 epoch (loss 0.0818):  10%|▉         | 1631/16950 [20:53<3:08:43,  1.35it/s]Training 1/3 epoch (loss 0.0818):  10%|▉         | 1632/16950 [20:53<3:02:05,  1.40it/s]Training 1/3 epoch (loss 0.9765):  10%|▉         | 1632/16950 [20:53<3:02:05,  1.40it/s]Training 1/3 epoch (loss 0.9765):  10%|▉         | 1633/16950 [20:53<2:32:19,  1.68it/s]Training 1/3 epoch (loss 0.0921):  10%|▉         | 1633/16950 [20:54<2:32:19,  1.68it/s]Training 1/3 epoch (loss 0.0921):  10%|▉         | 1634/16950 [20:54<2:29:19,  1.71it/s]Training 1/3 epoch (loss 1.1061):  10%|▉         | 1634/16950 [20:54<2:29:19,  1.71it/s]Training 1/3 epoch (loss 1.1061):  10%|▉         | 1635/16950 [20:54<2:35:09,  1.65it/s]Training 1/3 epoch (loss 0.0516):  10%|▉         | 1635/16950 [20:55<2:35:09,  1.65it/s]Training 1/3 epoch (loss 0.0516):  10%|▉         | 1636/16950 [20:55<2:29:27,  1.71it/s]Training 1/3 epoch (loss 0.0401):  10%|▉         | 1636/16950 [20:56<2:29:27,  1.71it/s]Training 1/3 epoch (loss 0.0401):  10%|▉         | 1637/16950 [20:56<2:44:55,  1.55it/s]Training 1/3 epoch (loss 0.0053):  10%|▉         | 1637/16950 [20:56<2:44:55,  1.55it/s]Training 1/3 epoch (loss 0.0053):  10%|▉         | 1638/16950 [20:56<2:37:54,  1.62it/s]Training 1/3 epoch (loss 0.2692):  10%|▉         | 1638/16950 [20:57<2:37:54,  1.62it/s]Training 1/3 epoch (loss 0.2692):  10%|▉         | 1639/16950 [20:57<2:22:54,  1.79it/s]Training 1/3 epoch (loss 0.0120):  10%|▉         | 1639/16950 [20:57<2:22:54,  1.79it/s]Training 1/3 epoch (loss 0.0120):  10%|▉         | 1640/16950 [20:57<2:17:15,  1.86it/s]Training 1/3 epoch (loss 0.0044):  10%|▉         | 1640/16950 [20:57<2:17:15,  1.86it/s]Training 1/3 epoch (loss 0.0044):  10%|▉         | 1641/16950 [20:57<2:07:36,  2.00it/s]Training 1/3 epoch (loss 0.4067):  10%|▉         | 1641/16950 [20:58<2:07:36,  2.00it/s]Training 1/3 epoch (loss 0.4067):  10%|▉         | 1642/16950 [20:58<2:01:52,  2.09it/s]Training 1/3 epoch (loss 0.0011):  10%|▉         | 1642/16950 [20:58<2:01:52,  2.09it/s]Training 1/3 epoch (loss 0.0011):  10%|▉         | 1643/16950 [20:58<1:56:36,  2.19it/s]Training 1/3 epoch (loss 0.0649):  10%|▉         | 1643/16950 [20:59<1:56:36,  2.19it/s]Training 1/3 epoch (loss 0.0649):  10%|▉         | 1644/16950 [20:59<2:06:21,  2.02it/s]Training 1/3 epoch (loss 0.0437):  10%|▉         | 1644/16950 [20:59<2:06:21,  2.02it/s]Training 1/3 epoch (loss 0.0437):  10%|▉         | 1645/16950 [20:59<2:04:41,  2.05it/s]Training 1/3 epoch (loss 0.0895):  10%|▉         | 1645/16950 [21:00<2:04:41,  2.05it/s]Training 1/3 epoch (loss 0.0895):  10%|▉         | 1646/16950 [21:00<2:19:07,  1.83it/s]Training 1/3 epoch (loss 0.7171):  10%|▉         | 1646/16950 [21:00<2:19:07,  1.83it/s]Training 1/3 epoch (loss 0.7171):  10%|▉         | 1647/16950 [21:00<2:12:02,  1.93it/s]Training 1/3 epoch (loss 0.0013):  10%|▉         | 1647/16950 [21:01<2:12:02,  1.93it/s]Training 1/3 epoch (loss 0.0013):  10%|▉         | 1648/16950 [21:01<2:09:56,  1.96it/s]Training 1/3 epoch (loss 0.0874):  10%|▉         | 1648/16950 [21:01<2:09:56,  1.96it/s]Training 1/3 epoch (loss 0.0874):  10%|▉         | 1649/16950 [21:01<2:09:45,  1.97it/s]Training 1/3 epoch (loss 0.0950):  10%|▉         | 1649/16950 [21:02<2:09:45,  1.97it/s]Training 1/3 epoch (loss 0.0950):  10%|▉         | 1650/16950 [21:02<2:39:13,  1.60it/s]Training 1/3 epoch (loss 0.4264):  10%|▉         | 1650/16950 [21:03<2:39:13,  1.60it/s]Training 1/3 epoch (loss 0.4264):  10%|▉         | 1651/16950 [21:03<2:39:54,  1.59it/s]Training 1/3 epoch (loss 0.3700):  10%|▉         | 1651/16950 [21:03<2:39:54,  1.59it/s]Training 1/3 epoch (loss 0.3700):  10%|▉         | 1652/16950 [21:03<2:21:48,  1.80it/s]Training 1/3 epoch (loss 0.1747):  10%|▉         | 1652/16950 [21:04<2:21:48,  1.80it/s]Training 1/3 epoch (loss 0.1747):  10%|▉         | 1653/16950 [21:04<2:29:18,  1.71it/s]Training 1/3 epoch (loss 0.0056):  10%|▉         | 1653/16950 [21:05<2:29:18,  1.71it/s]Training 1/3 epoch (loss 0.0056):  10%|▉         | 1654/16950 [21:05<2:50:29,  1.50it/s]Training 1/3 epoch (loss 0.0036):  10%|▉         | 1654/16950 [21:06<2:50:29,  1.50it/s]Training 1/3 epoch (loss 0.0036):  10%|▉         | 1655/16950 [21:06<3:00:30,  1.41it/s]Training 1/3 epoch (loss 0.0024):  10%|▉         | 1655/16950 [21:06<3:00:30,  1.41it/s]Training 1/3 epoch (loss 0.0024):  10%|▉         | 1656/16950 [21:06<2:52:11,  1.48it/s]Training 1/3 epoch (loss 0.5123):  10%|▉         | 1656/16950 [21:07<2:52:11,  1.48it/s]Training 1/3 epoch (loss 0.5123):  10%|▉         | 1657/16950 [21:07<2:32:18,  1.67it/s]Training 1/3 epoch (loss 0.0659):  10%|▉         | 1657/16950 [21:07<2:32:18,  1.67it/s]Training 1/3 epoch (loss 0.0659):  10%|▉         | 1658/16950 [21:07<2:15:50,  1.88it/s]Training 1/3 epoch (loss 0.0131):  10%|▉         | 1658/16950 [21:08<2:15:50,  1.88it/s]Training 1/3 epoch (loss 0.0131):  10%|▉         | 1659/16950 [21:08<2:15:53,  1.88it/s]Training 1/3 epoch (loss 0.3231):  10%|▉         | 1659/16950 [21:08<2:15:53,  1.88it/s]Training 1/3 epoch (loss 0.3231):  10%|▉         | 1660/16950 [21:08<2:26:06,  1.74it/s]Training 1/3 epoch (loss 0.2044):  10%|▉         | 1660/16950 [21:09<2:26:06,  1.74it/s]Training 1/3 epoch (loss 0.2044):  10%|▉         | 1661/16950 [21:09<2:25:24,  1.75it/s]Training 1/3 epoch (loss 0.1643):  10%|▉         | 1661/16950 [21:09<2:25:24,  1.75it/s]Training 1/3 epoch (loss 0.1643):  10%|▉         | 1662/16950 [21:09<2:17:17,  1.86it/s]Training 1/3 epoch (loss 0.1312):  10%|▉         | 1662/16950 [21:10<2:17:17,  1.86it/s]Training 1/3 epoch (loss 0.1312):  10%|▉         | 1663/16950 [21:10<2:58:14,  1.43it/s]Training 1/3 epoch (loss 0.0295):  10%|▉         | 1663/16950 [21:11<2:58:14,  1.43it/s]Training 1/3 epoch (loss 0.0295):  10%|▉         | 1664/16950 [21:11<2:47:49,  1.52it/s]Training 1/3 epoch (loss 0.0040):  10%|▉         | 1664/16950 [21:11<2:47:49,  1.52it/s]Training 1/3 epoch (loss 0.0040):  10%|▉         | 1665/16950 [21:11<2:31:20,  1.68it/s]Training 1/3 epoch (loss 0.2421):  10%|▉         | 1665/16950 [21:12<2:31:20,  1.68it/s]Training 1/3 epoch (loss 0.2421):  10%|▉         | 1666/16950 [21:12<2:33:28,  1.66it/s]Training 1/3 epoch (loss 0.2417):  10%|▉         | 1666/16950 [21:13<2:33:28,  1.66it/s]Training 1/3 epoch (loss 0.2417):  10%|▉         | 1667/16950 [21:13<2:55:50,  1.45it/s]Training 1/3 epoch (loss 0.2525):  10%|▉         | 1667/16950 [21:14<2:55:50,  1.45it/s]Training 1/3 epoch (loss 0.2525):  10%|▉         | 1668/16950 [21:14<3:03:17,  1.39it/s]Training 1/3 epoch (loss 0.0023):  10%|▉         | 1668/16950 [21:14<3:03:17,  1.39it/s]Training 1/3 epoch (loss 0.0023):  10%|▉         | 1669/16950 [21:14<3:03:04,  1.39it/s]Training 1/3 epoch (loss 0.3710):  10%|▉         | 1669/16950 [21:15<3:03:04,  1.39it/s]Training 1/3 epoch (loss 0.3710):  10%|▉         | 1670/16950 [21:15<3:02:15,  1.40it/s]Training 1/3 epoch (loss 0.0612):  10%|▉         | 1670/16950 [21:16<3:02:15,  1.40it/s]Training 1/3 epoch (loss 0.0612):  10%|▉         | 1671/16950 [21:16<2:51:12,  1.49it/s]Training 1/3 epoch (loss 0.0392):  10%|▉         | 1671/16950 [21:16<2:51:12,  1.49it/s]Training 1/3 epoch (loss 0.0392):  10%|▉         | 1672/16950 [21:16<2:47:37,  1.52it/s]Training 1/3 epoch (loss 0.1933):  10%|▉         | 1672/16950 [21:17<2:47:37,  1.52it/s]Training 1/3 epoch (loss 0.1933):  10%|▉         | 1673/16950 [21:17<2:31:34,  1.68it/s]Training 1/3 epoch (loss 0.0106):  10%|▉         | 1673/16950 [21:17<2:31:34,  1.68it/s]Training 1/3 epoch (loss 0.0106):  10%|▉         | 1674/16950 [21:17<2:16:29,  1.87it/s]Training 1/3 epoch (loss 0.0125):  10%|▉         | 1674/16950 [21:18<2:16:29,  1.87it/s]Training 1/3 epoch (loss 0.0125):  10%|▉         | 1675/16950 [21:18<2:14:32,  1.89it/s]Training 1/3 epoch (loss 0.1257):  10%|▉         | 1675/16950 [21:18<2:14:32,  1.89it/s]Training 1/3 epoch (loss 0.1257):  10%|▉         | 1676/16950 [21:18<2:08:36,  1.98it/s]Training 1/3 epoch (loss 0.0112):  10%|▉         | 1676/16950 [21:19<2:08:36,  1.98it/s]Training 1/3 epoch (loss 0.0112):  10%|▉         | 1677/16950 [21:19<2:00:43,  2.11it/s]Training 1/3 epoch (loss 0.2206):  10%|▉         | 1677/16950 [21:19<2:00:43,  2.11it/s]Training 1/3 epoch (loss 0.2206):  10%|▉         | 1678/16950 [21:19<2:02:11,  2.08it/s]Training 1/3 epoch (loss 0.4655):  10%|▉         | 1678/16950 [21:19<2:02:11,  2.08it/s]Training 1/3 epoch (loss 0.4655):  10%|▉         | 1679/16950 [21:19<1:52:13,  2.27it/s]Training 1/3 epoch (loss 0.8440):  10%|▉         | 1679/16950 [21:20<1:52:13,  2.27it/s]Training 1/3 epoch (loss 0.8440):  10%|▉         | 1680/16950 [21:20<1:56:22,  2.19it/s]Training 1/3 epoch (loss 0.4193):  10%|▉         | 1680/16950 [21:21<1:56:22,  2.19it/s]Training 1/3 epoch (loss 0.4193):  10%|▉         | 1681/16950 [21:21<2:31:53,  1.68it/s]Training 1/3 epoch (loss 0.0134):  10%|▉         | 1681/16950 [21:21<2:31:53,  1.68it/s]Training 1/3 epoch (loss 0.0134):  10%|▉         | 1682/16950 [21:21<2:33:31,  1.66it/s]Training 1/3 epoch (loss 0.0959):  10%|▉         | 1682/16950 [21:22<2:33:31,  1.66it/s]Training 1/3 epoch (loss 0.0959):  10%|▉         | 1683/16950 [21:22<2:28:03,  1.72it/s]Training 1/3 epoch (loss 0.1017):  10%|▉         | 1683/16950 [21:22<2:28:03,  1.72it/s]Training 1/3 epoch (loss 0.1017):  10%|▉         | 1684/16950 [21:22<2:13:56,  1.90it/s]Training 1/3 epoch (loss 0.0492):  10%|▉         | 1684/16950 [21:23<2:13:56,  1.90it/s]Training 1/3 epoch (loss 0.0492):  10%|▉         | 1685/16950 [21:23<2:19:51,  1.82it/s]Training 1/3 epoch (loss 0.0059):  10%|▉         | 1685/16950 [21:23<2:19:51,  1.82it/s]Training 1/3 epoch (loss 0.0059):  10%|▉         | 1686/16950 [21:23<2:14:34,  1.89it/s]Training 1/3 epoch (loss 0.0140):  10%|▉         | 1686/16950 [21:24<2:14:34,  1.89it/s]Training 1/3 epoch (loss 0.0140):  10%|▉         | 1687/16950 [21:24<2:27:58,  1.72it/s]Training 1/3 epoch (loss 0.0096):  10%|▉         | 1687/16950 [21:25<2:27:58,  1.72it/s]Training 1/3 epoch (loss 0.0096):  10%|▉         | 1688/16950 [21:25<2:30:38,  1.69it/s]Training 1/3 epoch (loss 0.0366):  10%|▉         | 1688/16950 [21:25<2:30:38,  1.69it/s]Training 1/3 epoch (loss 0.0366):  10%|▉         | 1689/16950 [21:25<2:39:20,  1.60it/s]Training 1/3 epoch (loss 0.0256):  10%|▉         | 1689/16950 [21:26<2:39:20,  1.60it/s]Training 1/3 epoch (loss 0.0256):  10%|▉         | 1690/16950 [21:26<2:57:39,  1.43it/s]Training 1/3 epoch (loss 0.0279):  10%|▉         | 1690/16950 [21:27<2:57:39,  1.43it/s]Training 1/3 epoch (loss 0.0279):  10%|▉         | 1691/16950 [21:27<2:50:53,  1.49it/s]Training 1/3 epoch (loss 0.3837):  10%|▉         | 1691/16950 [21:28<2:50:53,  1.49it/s]Training 1/3 epoch (loss 0.3837):  10%|▉         | 1692/16950 [21:28<2:49:53,  1.50it/s]Training 1/3 epoch (loss 0.4856):  10%|▉         | 1692/16950 [21:28<2:49:53,  1.50it/s]Training 1/3 epoch (loss 0.4856):  10%|▉         | 1693/16950 [21:28<2:26:11,  1.74it/s]Training 1/3 epoch (loss 0.0329):  10%|▉         | 1693/16950 [21:29<2:26:11,  1.74it/s]Training 1/3 epoch (loss 0.0329):  10%|▉         | 1694/16950 [21:29<2:40:03,  1.59it/s]Training 1/3 epoch (loss 0.7851):  10%|▉         | 1694/16950 [21:29<2:40:03,  1.59it/s]Training 1/3 epoch (loss 0.7851):  10%|█         | 1695/16950 [21:29<2:28:50,  1.71it/s]Training 1/3 epoch (loss 0.3323):  10%|█         | 1695/16950 [21:30<2:28:50,  1.71it/s]Training 1/3 epoch (loss 0.3323):  10%|█         | 1696/16950 [21:30<2:14:31,  1.89it/s]Training 1/3 epoch (loss 0.6758):  10%|█         | 1696/16950 [21:31<2:14:31,  1.89it/s]Training 1/3 epoch (loss 0.6758):  10%|█         | 1697/16950 [21:31<3:02:03,  1.40it/s]Training 1/3 epoch (loss 0.4713):  10%|█         | 1697/16950 [21:32<3:02:03,  1.40it/s]Training 1/3 epoch (loss 0.4713):  10%|█         | 1698/16950 [21:32<3:34:12,  1.19it/s]Training 1/3 epoch (loss 0.0346):  10%|█         | 1698/16950 [21:33<3:34:12,  1.19it/s]Training 1/3 epoch (loss 0.0346):  10%|█         | 1699/16950 [21:33<3:22:39,  1.25it/s]Training 1/3 epoch (loss 0.1174):  10%|█         | 1699/16950 [21:33<3:22:39,  1.25it/s]Training 1/3 epoch (loss 0.1174):  10%|█         | 1700/16950 [21:33<3:12:29,  1.32it/s]Training 1/3 epoch (loss 0.0835):  10%|█         | 1700/16950 [21:34<3:12:29,  1.32it/s]Training 1/3 epoch (loss 0.0835):  10%|█         | 1701/16950 [21:34<2:57:17,  1.43it/s]Training 1/3 epoch (loss 0.0018):  10%|█         | 1701/16950 [21:34<2:57:17,  1.43it/s]Training 1/3 epoch (loss 0.0018):  10%|█         | 1702/16950 [21:34<2:31:32,  1.68it/s]Training 1/3 epoch (loss 0.7716):  10%|█         | 1702/16950 [21:35<2:31:32,  1.68it/s]Training 1/3 epoch (loss 0.7716):  10%|█         | 1703/16950 [21:35<2:32:35,  1.67it/s]Training 1/3 epoch (loss 0.9132):  10%|█         | 1703/16950 [21:35<2:32:35,  1.67it/s]Training 1/3 epoch (loss 0.9132):  10%|█         | 1704/16950 [21:35<2:33:20,  1.66it/s]Training 1/3 epoch (loss 0.5571):  10%|█         | 1704/16950 [21:36<2:33:20,  1.66it/s]Training 1/3 epoch (loss 0.5571):  10%|█         | 1705/16950 [21:36<2:15:35,  1.87it/s]Training 1/3 epoch (loss 0.0132):  10%|█         | 1705/16950 [21:37<2:15:35,  1.87it/s]Training 1/3 epoch (loss 0.0132):  10%|█         | 1706/16950 [21:37<2:32:00,  1.67it/s]Training 1/3 epoch (loss 0.0149):  10%|█         | 1706/16950 [21:37<2:32:00,  1.67it/s]Training 1/3 epoch (loss 0.0149):  10%|█         | 1707/16950 [21:37<2:24:14,  1.76it/s]Training 1/3 epoch (loss 0.7970):  10%|█         | 1707/16950 [21:38<2:24:14,  1.76it/s]Training 1/3 epoch (loss 0.7970):  10%|█         | 1708/16950 [21:38<2:22:24,  1.78it/s]Training 1/3 epoch (loss 0.1705):  10%|█         | 1708/16950 [21:38<2:22:24,  1.78it/s]Training 1/3 epoch (loss 0.1705):  10%|█         | 1709/16950 [21:38<2:27:56,  1.72it/s]Training 1/3 epoch (loss 0.1067):  10%|█         | 1709/16950 [21:39<2:27:56,  1.72it/s]Training 1/3 epoch (loss 0.1067):  10%|█         | 1710/16950 [21:39<2:33:46,  1.65it/s]Training 1/3 epoch (loss 0.5292):  10%|█         | 1710/16950 [21:39<2:33:46,  1.65it/s]Training 1/3 epoch (loss 0.5292):  10%|█         | 1711/16950 [21:39<2:12:48,  1.91it/s]Training 1/3 epoch (loss 0.0282):  10%|█         | 1711/16950 [21:40<2:12:48,  1.91it/s]Training 1/3 epoch (loss 0.0282):  10%|█         | 1712/16950 [21:40<2:07:08,  2.00it/s]Training 1/3 epoch (loss 0.0016):  10%|█         | 1712/16950 [21:40<2:07:08,  2.00it/s]Training 1/3 epoch (loss 0.0016):  10%|█         | 1713/16950 [21:40<1:59:29,  2.13it/s]Training 1/3 epoch (loss 0.0692):  10%|█         | 1713/16950 [21:41<1:59:29,  2.13it/s]Training 1/3 epoch (loss 0.0692):  10%|█         | 1714/16950 [21:41<2:08:40,  1.97it/s]Training 1/3 epoch (loss 0.1499):  10%|█         | 1714/16950 [21:41<2:08:40,  1.97it/s]Training 1/3 epoch (loss 0.1499):  10%|█         | 1715/16950 [21:41<2:24:38,  1.76it/s]Training 1/3 epoch (loss 0.0878):  10%|█         | 1715/16950 [21:42<2:24:38,  1.76it/s]Training 1/3 epoch (loss 0.0878):  10%|█         | 1716/16950 [21:42<2:24:09,  1.76it/s]Training 1/3 epoch (loss 0.0009):  10%|█         | 1716/16950 [21:42<2:24:09,  1.76it/s]Training 1/3 epoch (loss 0.0009):  10%|█         | 1717/16950 [21:42<2:04:12,  2.04it/s]Training 1/3 epoch (loss 0.6355):  10%|█         | 1717/16950 [21:43<2:04:12,  2.04it/s]Training 1/3 epoch (loss 0.6355):  10%|█         | 1718/16950 [21:43<2:05:26,  2.02it/s]Training 1/3 epoch (loss 0.2746):  10%|█         | 1718/16950 [21:43<2:05:26,  2.02it/s]Training 1/3 epoch (loss 0.2746):  10%|█         | 1719/16950 [21:43<2:20:52,  1.80it/s]Training 1/3 epoch (loss 0.0553):  10%|█         | 1719/16950 [21:44<2:20:52,  1.80it/s]Training 1/3 epoch (loss 0.0553):  10%|█         | 1720/16950 [21:44<2:25:59,  1.74it/s]Training 1/3 epoch (loss 0.0311):  10%|█         | 1720/16950 [21:45<2:25:59,  1.74it/s]Training 1/3 epoch (loss 0.0311):  10%|█         | 1721/16950 [21:45<2:23:41,  1.77it/s]Training 1/3 epoch (loss 0.5511):  10%|█         | 1721/16950 [21:45<2:23:41,  1.77it/s]Training 1/3 epoch (loss 0.5511):  10%|█         | 1722/16950 [21:45<2:10:06,  1.95it/s]Training 1/3 epoch (loss 0.0190):  10%|█         | 1722/16950 [21:45<2:10:06,  1.95it/s]Training 1/3 epoch (loss 0.0190):  10%|█         | 1723/16950 [21:45<2:09:31,  1.96it/s]Training 1/3 epoch (loss 0.1003):  10%|█         | 1723/16950 [21:46<2:09:31,  1.96it/s]Training 1/3 epoch (loss 0.1003):  10%|█         | 1724/16950 [21:46<2:09:27,  1.96it/s]Training 1/3 epoch (loss 0.0498):  10%|█         | 1724/16950 [21:47<2:09:27,  1.96it/s]Training 1/3 epoch (loss 0.0498):  10%|█         | 1725/16950 [21:47<2:18:20,  1.83it/s]Training 1/3 epoch (loss 0.0079):  10%|█         | 1725/16950 [21:47<2:18:20,  1.83it/s]Training 1/3 epoch (loss 0.0079):  10%|█         | 1726/16950 [21:47<2:11:14,  1.93it/s]Training 1/3 epoch (loss 0.0616):  10%|█         | 1726/16950 [21:48<2:11:14,  1.93it/s]Training 1/3 epoch (loss 0.0616):  10%|█         | 1727/16950 [21:48<2:19:27,  1.82it/s]Training 1/3 epoch (loss 0.0410):  10%|█         | 1727/16950 [21:48<2:19:27,  1.82it/s]Training 1/3 epoch (loss 0.0410):  10%|█         | 1728/16950 [21:48<2:19:28,  1.82it/s]Training 1/3 epoch (loss 0.0114):  10%|█         | 1728/16950 [21:49<2:19:28,  1.82it/s]Training 1/3 epoch (loss 0.0114):  10%|█         | 1729/16950 [21:49<2:13:40,  1.90it/s]Training 1/3 epoch (loss 0.5269):  10%|█         | 1729/16950 [21:49<2:13:40,  1.90it/s]Training 1/3 epoch (loss 0.5269):  10%|█         | 1730/16950 [21:49<2:24:18,  1.76it/s]Training 1/3 epoch (loss 0.0010):  10%|█         | 1730/16950 [21:50<2:24:18,  1.76it/s]Training 1/3 epoch (loss 0.0010):  10%|█         | 1731/16950 [21:50<2:24:08,  1.76it/s]Training 1/3 epoch (loss 0.0148):  10%|█         | 1731/16950 [21:50<2:24:08,  1.76it/s]Training 1/3 epoch (loss 0.0148):  10%|█         | 1732/16950 [21:50<2:21:28,  1.79it/s]Training 1/3 epoch (loss 0.0014):  10%|█         | 1732/16950 [21:51<2:21:28,  1.79it/s]Training 1/3 epoch (loss 0.0014):  10%|█         | 1733/16950 [21:51<2:09:47,  1.95it/s]Training 1/3 epoch (loss 0.0027):  10%|█         | 1733/16950 [21:51<2:09:47,  1.95it/s]Training 1/3 epoch (loss 0.0027):  10%|█         | 1734/16950 [21:51<2:16:02,  1.86it/s]Training 1/3 epoch (loss 0.8326):  10%|█         | 1734/16950 [21:52<2:16:02,  1.86it/s]Training 1/3 epoch (loss 0.8326):  10%|█         | 1735/16950 [21:52<2:09:44,  1.95it/s]Training 1/3 epoch (loss 0.0624):  10%|█         | 1735/16950 [21:52<2:09:44,  1.95it/s]Training 1/3 epoch (loss 0.0624):  10%|█         | 1736/16950 [21:52<2:07:07,  1.99it/s]Training 1/3 epoch (loss 0.0186):  10%|█         | 1736/16950 [21:53<2:07:07,  1.99it/s]Training 1/3 epoch (loss 0.0186):  10%|█         | 1737/16950 [21:53<2:05:07,  2.03it/s]Training 1/3 epoch (loss 0.4441):  10%|█         | 1737/16950 [21:53<2:05:07,  2.03it/s]Training 1/3 epoch (loss 0.4441):  10%|█         | 1738/16950 [21:53<2:03:54,  2.05it/s]Training 1/3 epoch (loss 0.3260):  10%|█         | 1738/16950 [21:54<2:03:54,  2.05it/s]Training 1/3 epoch (loss 0.3260):  10%|█         | 1739/16950 [21:54<2:21:27,  1.79it/s]Training 1/3 epoch (loss 0.4279):  10%|█         | 1739/16950 [21:54<2:21:27,  1.79it/s]Training 1/3 epoch (loss 0.4279):  10%|█         | 1740/16950 [21:54<2:06:20,  2.01it/s]Training 1/3 epoch (loss 0.2792):  10%|█         | 1740/16950 [21:55<2:06:20,  2.01it/s]Training 1/3 epoch (loss 0.2792):  10%|█         | 1741/16950 [21:55<2:03:42,  2.05it/s]Training 1/3 epoch (loss 0.2135):  10%|█         | 1741/16950 [21:56<2:03:42,  2.05it/s]Training 1/3 epoch (loss 0.2135):  10%|█         | 1742/16950 [21:56<2:47:53,  1.51it/s]Training 1/3 epoch (loss 0.0053):  10%|█         | 1742/16950 [21:57<2:47:53,  1.51it/s]Training 1/3 epoch (loss 0.0053):  10%|█         | 1743/16950 [21:57<2:40:21,  1.58it/s]Training 1/3 epoch (loss 1.1370):  10%|█         | 1743/16950 [21:57<2:40:21,  1.58it/s]Training 1/3 epoch (loss 1.1370):  10%|█         | 1744/16950 [21:57<2:22:29,  1.78it/s]Training 1/3 epoch (loss 0.0074):  10%|█         | 1744/16950 [21:57<2:22:29,  1.78it/s]Training 1/3 epoch (loss 0.0074):  10%|█         | 1745/16950 [21:57<2:12:59,  1.91it/s]Training 1/3 epoch (loss 0.0408):  10%|█         | 1745/16950 [21:58<2:12:59,  1.91it/s]Training 1/3 epoch (loss 0.0408):  10%|█         | 1746/16950 [21:58<2:20:30,  1.80it/s]Training 1/3 epoch (loss 0.1749):  10%|█         | 1746/16950 [21:59<2:20:30,  1.80it/s]Training 1/3 epoch (loss 0.1749):  10%|█         | 1747/16950 [21:59<2:31:36,  1.67it/s]Training 1/3 epoch (loss 0.6698):  10%|█         | 1747/16950 [21:59<2:31:36,  1.67it/s]Training 1/3 epoch (loss 0.6698):  10%|█         | 1748/16950 [21:59<2:19:39,  1.81it/s]Training 1/3 epoch (loss 0.0036):  10%|█         | 1748/16950 [22:00<2:19:39,  1.81it/s]Training 1/3 epoch (loss 0.0036):  10%|█         | 1749/16950 [22:00<2:11:52,  1.92it/s]Training 1/3 epoch (loss 0.0052):  10%|█         | 1749/16950 [22:00<2:11:52,  1.92it/s]Training 1/3 epoch (loss 0.0052):  10%|█         | 1750/16950 [22:00<2:03:19,  2.05it/s]Training 1/3 epoch (loss 0.0478):  10%|█         | 1750/16950 [22:00<2:03:19,  2.05it/s]Training 1/3 epoch (loss 0.0478):  10%|█         | 1751/16950 [22:00<1:58:36,  2.14it/s]Training 1/3 epoch (loss 0.1244):  10%|█         | 1751/16950 [22:01<1:58:36,  2.14it/s]Training 1/3 epoch (loss 0.1244):  10%|█         | 1752/16950 [22:01<2:22:23,  1.78it/s]Training 1/3 epoch (loss 0.0037):  10%|█         | 1752/16950 [22:02<2:22:23,  1.78it/s]Training 1/3 epoch (loss 0.0037):  10%|█         | 1753/16950 [22:02<2:16:02,  1.86it/s]Training 1/3 epoch (loss 0.1804):  10%|█         | 1753/16950 [22:02<2:16:02,  1.86it/s]Training 1/3 epoch (loss 0.1804):  10%|█         | 1754/16950 [22:02<2:02:37,  2.07it/s]Training 1/3 epoch (loss 0.0061):  10%|█         | 1754/16950 [22:03<2:02:37,  2.07it/s]Training 1/3 epoch (loss 0.0061):  10%|█         | 1755/16950 [22:03<2:05:45,  2.01it/s]Training 1/3 epoch (loss 0.0727):  10%|█         | 1755/16950 [22:03<2:05:45,  2.01it/s]Training 1/3 epoch (loss 0.0727):  10%|█         | 1756/16950 [22:03<2:23:58,  1.76it/s]Training 1/3 epoch (loss 0.1005):  10%|█         | 1756/16950 [22:04<2:23:58,  1.76it/s]Training 1/3 epoch (loss 0.1005):  10%|█         | 1757/16950 [22:04<2:25:03,  1.75it/s]Training 1/3 epoch (loss 0.6650):  10%|█         | 1757/16950 [22:05<2:25:03,  1.75it/s]Training 1/3 epoch (loss 0.6650):  10%|█         | 1758/16950 [22:05<3:07:56,  1.35it/s]Training 1/3 epoch (loss 0.6871):  10%|█         | 1758/16950 [22:05<3:07:56,  1.35it/s]Training 1/3 epoch (loss 0.6871):  10%|█         | 1759/16950 [22:05<2:38:19,  1.60it/s]Training 1/3 epoch (loss 0.1051):  10%|█         | 1759/16950 [22:06<2:38:19,  1.60it/s]Training 1/3 epoch (loss 0.1051):  10%|█         | 1760/16950 [22:06<2:43:38,  1.55it/s]Training 1/3 epoch (loss 0.4240):  10%|█         | 1760/16950 [22:07<2:43:38,  1.55it/s]Training 1/3 epoch (loss 0.4240):  10%|█         | 1761/16950 [22:07<2:36:32,  1.62it/s]Training 1/3 epoch (loss 0.3150):  10%|█         | 1761/16950 [22:07<2:36:32,  1.62it/s]Training 1/3 epoch (loss 0.3150):  10%|█         | 1762/16950 [22:07<2:32:02,  1.66it/s]Training 1/3 epoch (loss 0.0518):  10%|█         | 1762/16950 [22:08<2:32:02,  1.66it/s]Training 1/3 epoch (loss 0.0518):  10%|█         | 1763/16950 [22:08<2:29:58,  1.69it/s]Training 1/3 epoch (loss 0.2144):  10%|█         | 1763/16950 [22:08<2:29:58,  1.69it/s]Training 1/3 epoch (loss 0.2144):  10%|█         | 1764/16950 [22:08<2:34:14,  1.64it/s]Training 1/3 epoch (loss 0.6422):  10%|█         | 1764/16950 [22:09<2:34:14,  1.64it/s]Training 1/3 epoch (loss 0.6422):  10%|█         | 1765/16950 [22:09<2:28:26,  1.70it/s]Training 1/3 epoch (loss 0.0812):  10%|█         | 1765/16950 [22:09<2:28:26,  1.70it/s]Training 1/3 epoch (loss 0.0812):  10%|█         | 1766/16950 [22:09<2:19:18,  1.82it/s]Training 1/3 epoch (loss 0.0433):  10%|█         | 1766/16950 [22:10<2:19:18,  1.82it/s]Training 1/3 epoch (loss 0.0433):  10%|█         | 1767/16950 [22:10<2:24:33,  1.75it/s]Training 1/3 epoch (loss 0.1870):  10%|█         | 1767/16950 [22:11<2:24:33,  1.75it/s]Training 1/3 epoch (loss 0.1870):  10%|█         | 1768/16950 [22:11<2:32:30,  1.66it/s]Training 1/3 epoch (loss 0.1182):  10%|█         | 1768/16950 [22:11<2:32:30,  1.66it/s]Training 1/3 epoch (loss 0.1182):  10%|█         | 1769/16950 [22:11<2:19:31,  1.81it/s]Training 1/3 epoch (loss 0.6514):  10%|█         | 1769/16950 [22:12<2:19:31,  1.81it/s]Training 1/3 epoch (loss 0.6514):  10%|█         | 1770/16950 [22:12<2:22:18,  1.78it/s]Training 1/3 epoch (loss 0.3093):  10%|█         | 1770/16950 [22:12<2:22:18,  1.78it/s]Training 1/3 epoch (loss 0.3093):  10%|█         | 1771/16950 [22:12<2:15:31,  1.87it/s]Training 1/3 epoch (loss 0.0050):  10%|█         | 1771/16950 [22:13<2:15:31,  1.87it/s]Training 1/3 epoch (loss 0.0050):  10%|█         | 1772/16950 [22:13<2:13:17,  1.90it/s]Training 1/3 epoch (loss 0.0099):  10%|█         | 1772/16950 [22:13<2:13:17,  1.90it/s]Training 1/3 epoch (loss 0.0099):  10%|█         | 1773/16950 [22:13<2:23:44,  1.76it/s]Training 1/3 epoch (loss 0.3846):  10%|█         | 1773/16950 [22:14<2:23:44,  1.76it/s]Training 1/3 epoch (loss 0.3846):  10%|█         | 1774/16950 [22:14<2:35:05,  1.63it/s]Training 1/3 epoch (loss 0.7215):  10%|█         | 1774/16950 [22:15<2:35:05,  1.63it/s]Training 1/3 epoch (loss 0.7215):  10%|█         | 1775/16950 [22:15<3:09:00,  1.34it/s]Training 1/3 epoch (loss 0.0204):  10%|█         | 1775/16950 [22:16<3:09:00,  1.34it/s]Training 1/3 epoch (loss 0.0204):  10%|█         | 1776/16950 [22:16<3:06:50,  1.35it/s]Training 1/3 epoch (loss 0.9735):  10%|█         | 1776/16950 [22:16<3:06:50,  1.35it/s]Training 1/3 epoch (loss 0.9735):  10%|█         | 1777/16950 [22:16<2:37:23,  1.61it/s]Training 1/3 epoch (loss 0.3852):  10%|█         | 1777/16950 [22:17<2:37:23,  1.61it/s]Training 1/3 epoch (loss 0.3852):  10%|█         | 1778/16950 [22:17<2:24:08,  1.75it/s]Training 1/3 epoch (loss 0.0968):  10%|█         | 1778/16950 [22:17<2:24:08,  1.75it/s]Training 1/3 epoch (loss 0.0968):  10%|█         | 1779/16950 [22:17<2:28:08,  1.71it/s]Training 1/3 epoch (loss 0.0128):  10%|█         | 1779/16950 [22:18<2:28:08,  1.71it/s]Training 1/3 epoch (loss 0.0128):  11%|█         | 1780/16950 [22:18<2:20:41,  1.80it/s]Training 1/3 epoch (loss 0.0033):  11%|█         | 1780/16950 [22:18<2:20:41,  1.80it/s]Training 1/3 epoch (loss 0.0033):  11%|█         | 1781/16950 [22:18<2:26:31,  1.73it/s]Training 1/3 epoch (loss 0.1359):  11%|█         | 1781/16950 [22:19<2:26:31,  1.73it/s]Training 1/3 epoch (loss 0.1359):  11%|█         | 1782/16950 [22:19<2:33:56,  1.64it/s]Training 1/3 epoch (loss 0.2638):  11%|█         | 1782/16950 [22:20<2:33:56,  1.64it/s]Training 1/3 epoch (loss 0.2638):  11%|█         | 1783/16950 [22:20<3:14:32,  1.30it/s]Training 1/3 epoch (loss 0.0371):  11%|█         | 1783/16950 [22:21<3:14:32,  1.30it/s]Training 1/3 epoch (loss 0.0371):  11%|█         | 1784/16950 [22:21<2:59:05,  1.41it/s]Training 1/3 epoch (loss 0.5766):  11%|█         | 1784/16950 [22:22<2:59:05,  1.41it/s]Training 1/3 epoch (loss 0.5766):  11%|█         | 1785/16950 [22:22<3:07:00,  1.35it/s]Training 1/3 epoch (loss 0.5188):  11%|█         | 1785/16950 [22:23<3:07:00,  1.35it/s]Training 1/3 epoch (loss 0.5188):  11%|█         | 1786/16950 [22:23<3:22:37,  1.25it/s]Training 1/3 epoch (loss 0.2051):  11%|█         | 1786/16950 [22:23<3:22:37,  1.25it/s]Training 1/3 epoch (loss 0.2051):  11%|█         | 1787/16950 [22:23<3:07:20,  1.35it/s]Training 1/3 epoch (loss 0.1026):  11%|█         | 1787/16950 [22:24<3:07:20,  1.35it/s]Training 1/3 epoch (loss 0.1026):  11%|█         | 1788/16950 [22:24<2:42:40,  1.55it/s]Training 1/3 epoch (loss 0.0226):  11%|█         | 1788/16950 [22:24<2:42:40,  1.55it/s]Training 1/3 epoch (loss 0.0226):  11%|█         | 1789/16950 [22:24<2:43:27,  1.55it/s]Training 1/3 epoch (loss 0.0084):  11%|█         | 1789/16950 [22:25<2:43:27,  1.55it/s]Training 1/3 epoch (loss 0.0084):  11%|█         | 1790/16950 [22:25<3:01:19,  1.39it/s]Training 1/3 epoch (loss 0.0771):  11%|█         | 1790/16950 [22:26<3:01:19,  1.39it/s]Training 1/3 epoch (loss 0.0771):  11%|█         | 1791/16950 [22:26<2:49:50,  1.49it/s]Training 1/3 epoch (loss 0.5128):  11%|█         | 1791/16950 [22:26<2:49:50,  1.49it/s]Training 1/3 epoch (loss 0.5128):  11%|█         | 1792/16950 [22:26<2:22:56,  1.77it/s]Training 1/3 epoch (loss 0.7513):  11%|█         | 1792/16950 [22:27<2:22:56,  1.77it/s]Training 1/3 epoch (loss 0.7513):  11%|█         | 1793/16950 [22:27<2:26:46,  1.72it/s]Training 1/3 epoch (loss 0.0562):  11%|█         | 1793/16950 [22:27<2:26:46,  1.72it/s]Training 1/3 epoch (loss 0.0562):  11%|█         | 1794/16950 [22:27<2:23:20,  1.76it/s]Training 1/3 epoch (loss 0.2012):  11%|█         | 1794/16950 [22:28<2:23:20,  1.76it/s]Training 1/3 epoch (loss 0.2012):  11%|█         | 1795/16950 [22:28<2:13:51,  1.89it/s]Training 1/3 epoch (loss 0.4583):  11%|█         | 1795/16950 [22:28<2:13:51,  1.89it/s]Training 1/3 epoch (loss 0.4583):  11%|█         | 1796/16950 [22:28<2:32:21,  1.66it/s]Training 1/3 epoch (loss 0.0278):  11%|█         | 1796/16950 [22:29<2:32:21,  1.66it/s]Training 1/3 epoch (loss 0.0278):  11%|█         | 1797/16950 [22:29<2:28:33,  1.70it/s]Training 1/3 epoch (loss 0.0665):  11%|█         | 1797/16950 [22:30<2:28:33,  1.70it/s]Training 1/3 epoch (loss 0.0665):  11%|█         | 1798/16950 [22:30<2:36:18,  1.62it/s]Training 1/3 epoch (loss 0.3752):  11%|█         | 1798/16950 [22:30<2:36:18,  1.62it/s]Training 1/3 epoch (loss 0.3752):  11%|█         | 1799/16950 [22:30<2:35:30,  1.62it/s]Training 1/3 epoch (loss 0.0946):  11%|█         | 1799/16950 [22:31<2:35:30,  1.62it/s]Training 1/3 epoch (loss 0.0946):  11%|█         | 1800/16950 [22:31<2:31:33,  1.67it/s]Training 1/3 epoch (loss 0.0125):  11%|█         | 1800/16950 [22:31<2:31:33,  1.67it/s]Training 1/3 epoch (loss 0.0125):  11%|█         | 1801/16950 [22:31<2:23:25,  1.76it/s]Training 1/3 epoch (loss 0.3407):  11%|█         | 1801/16950 [22:32<2:23:25,  1.76it/s]Training 1/3 epoch (loss 0.3407):  11%|█         | 1802/16950 [22:32<2:34:03,  1.64it/s]Training 1/3 epoch (loss 1.0121):  11%|█         | 1802/16950 [22:33<2:34:03,  1.64it/s]Training 1/3 epoch (loss 1.0121):  11%|█         | 1803/16950 [22:33<3:02:26,  1.38it/s]Training 1/3 epoch (loss 0.5857):  11%|█         | 1803/16950 [22:34<3:02:26,  1.38it/s]Training 1/3 epoch (loss 0.5857):  11%|█         | 1804/16950 [22:34<2:54:33,  1.45it/s]Training 1/3 epoch (loss 0.6183):  11%|█         | 1804/16950 [22:34<2:54:33,  1.45it/s]Training 1/3 epoch (loss 0.6183):  11%|█         | 1805/16950 [22:34<2:43:28,  1.54it/s]Training 1/3 epoch (loss 0.3472):  11%|█         | 1805/16950 [22:35<2:43:28,  1.54it/s]Training 1/3 epoch (loss 0.3472):  11%|█         | 1806/16950 [22:35<2:49:39,  1.49it/s]Training 1/3 epoch (loss 0.3696):  11%|█         | 1806/16950 [22:35<2:49:39,  1.49it/s]Training 1/3 epoch (loss 0.3696):  11%|█         | 1807/16950 [22:35<2:45:45,  1.52it/s]Training 1/3 epoch (loss 0.3303):  11%|█         | 1807/16950 [22:36<2:45:45,  1.52it/s]Training 1/3 epoch (loss 0.3303):  11%|█         | 1808/16950 [22:36<2:35:11,  1.63it/s]Training 1/3 epoch (loss 0.0425):  11%|█         | 1808/16950 [22:37<2:35:11,  1.63it/s]Training 1/3 epoch (loss 0.0425):  11%|█         | 1809/16950 [22:37<2:30:28,  1.68it/s]Training 1/3 epoch (loss 1.2328):  11%|█         | 1809/16950 [22:37<2:30:28,  1.68it/s]Training 1/3 epoch (loss 1.2328):  11%|█         | 1810/16950 [22:37<2:16:25,  1.85it/s]Training 1/3 epoch (loss 0.1115):  11%|█         | 1810/16950 [22:38<2:16:25,  1.85it/s]Training 1/3 epoch (loss 0.1115):  11%|█         | 1811/16950 [22:38<2:21:44,  1.78it/s]Training 1/3 epoch (loss 0.6718):  11%|█         | 1811/16950 [22:39<2:21:44,  1.78it/s]Training 1/3 epoch (loss 0.6718):  11%|█         | 1812/16950 [22:39<2:51:46,  1.47it/s]Training 1/3 epoch (loss 0.0249):  11%|█         | 1812/16950 [22:39<2:51:46,  1.47it/s]Training 1/3 epoch (loss 0.0249):  11%|█         | 1813/16950 [22:39<2:42:56,  1.55it/s]Training 1/3 epoch (loss 0.0072):  11%|█         | 1813/16950 [22:40<2:42:56,  1.55it/s]Training 1/3 epoch (loss 0.0072):  11%|█         | 1814/16950 [22:40<2:33:50,  1.64it/s]Training 1/3 epoch (loss 0.2282):  11%|█         | 1814/16950 [22:40<2:33:50,  1.64it/s]Training 1/3 epoch (loss 0.2282):  11%|█         | 1815/16950 [22:40<2:34:57,  1.63it/s]Training 1/3 epoch (loss 0.1054):  11%|█         | 1815/16950 [22:41<2:34:57,  1.63it/s]Training 1/3 epoch (loss 0.1054):  11%|█         | 1816/16950 [22:41<2:53:57,  1.45it/s]Training 1/3 epoch (loss 0.2640):  11%|█         | 1816/16950 [22:42<2:53:57,  1.45it/s]Training 1/3 epoch (loss 0.2640):  11%|█         | 1817/16950 [22:42<2:46:34,  1.51it/s]Training 1/3 epoch (loss 0.0483):  11%|█         | 1817/16950 [22:42<2:46:34,  1.51it/s]Training 1/3 epoch (loss 0.0483):  11%|█         | 1818/16950 [22:42<2:31:43,  1.66it/s]Training 1/3 epoch (loss 0.0045):  11%|█         | 1818/16950 [22:43<2:31:43,  1.66it/s]Training 1/3 epoch (loss 0.0045):  11%|█         | 1819/16950 [22:43<2:27:23,  1.71it/s]Training 1/3 epoch (loss 0.1555):  11%|█         | 1819/16950 [22:43<2:27:23,  1.71it/s]Training 1/3 epoch (loss 0.1555):  11%|█         | 1820/16950 [22:43<2:24:56,  1.74it/s]Training 1/3 epoch (loss 0.0653):  11%|█         | 1820/16950 [22:44<2:24:56,  1.74it/s]Training 1/3 epoch (loss 0.0653):  11%|█         | 1821/16950 [22:44<2:13:58,  1.88it/s]Training 1/3 epoch (loss 0.5089):  11%|█         | 1821/16950 [22:44<2:13:58,  1.88it/s]Training 1/3 epoch (loss 0.5089):  11%|█         | 1822/16950 [22:44<2:08:42,  1.96it/s]Training 1/3 epoch (loss 0.0198):  11%|█         | 1822/16950 [22:45<2:08:42,  1.96it/s]Training 1/3 epoch (loss 0.0198):  11%|█         | 1823/16950 [22:45<2:04:42,  2.02it/s]Training 1/3 epoch (loss 0.0184):  11%|█         | 1823/16950 [22:45<2:04:42,  2.02it/s]Training 1/3 epoch (loss 0.0184):  11%|█         | 1824/16950 [22:45<2:16:15,  1.85it/s]Training 1/3 epoch (loss 0.0516):  11%|█         | 1824/16950 [22:46<2:16:15,  1.85it/s]Training 1/3 epoch (loss 0.0516):  11%|█         | 1825/16950 [22:46<2:23:23,  1.76it/s]Training 1/3 epoch (loss 0.0021):  11%|█         | 1825/16950 [22:47<2:23:23,  1.76it/s]Training 1/3 epoch (loss 0.0021):  11%|█         | 1826/16950 [22:47<2:32:47,  1.65it/s]Training 1/3 epoch (loss 0.0732):  11%|█         | 1826/16950 [22:47<2:32:47,  1.65it/s]Training 1/3 epoch (loss 0.0732):  11%|█         | 1827/16950 [22:47<2:17:54,  1.83it/s]Training 1/3 epoch (loss 0.0100):  11%|█         | 1827/16950 [22:47<2:17:54,  1.83it/s]Training 1/3 epoch (loss 0.0100):  11%|█         | 1828/16950 [22:47<2:10:19,  1.93it/s]Training 1/3 epoch (loss 0.0077):  11%|█         | 1828/16950 [22:48<2:10:19,  1.93it/s]Training 1/3 epoch (loss 0.0077):  11%|█         | 1829/16950 [22:48<2:00:29,  2.09it/s]Training 1/3 epoch (loss 0.2103):  11%|█         | 1829/16950 [22:48<2:00:29,  2.09it/s]Training 1/3 epoch (loss 0.2103):  11%|█         | 1830/16950 [22:48<2:02:29,  2.06it/s]Training 1/3 epoch (loss 0.0332):  11%|█         | 1830/16950 [22:49<2:02:29,  2.06it/s]Training 1/3 epoch (loss 0.0332):  11%|█         | 1831/16950 [22:49<2:02:19,  2.06it/s]Training 1/3 epoch (loss 0.2243):  11%|█         | 1831/16950 [22:49<2:02:19,  2.06it/s]Training 1/3 epoch (loss 0.2243):  11%|█         | 1832/16950 [22:49<2:01:44,  2.07it/s]Training 1/3 epoch (loss 0.0022):  11%|█         | 1832/16950 [22:50<2:01:44,  2.07it/s]Training 1/3 epoch (loss 0.0022):  11%|█         | 1833/16950 [22:50<2:04:29,  2.02it/s]Training 1/3 epoch (loss 0.0147):  11%|█         | 1833/16950 [22:51<2:04:29,  2.02it/s]Training 1/3 epoch (loss 0.0147):  11%|█         | 1834/16950 [22:51<2:27:30,  1.71it/s]Training 1/3 epoch (loss 0.5584):  11%|█         | 1834/16950 [22:51<2:27:30,  1.71it/s]Training 1/3 epoch (loss 0.5584):  11%|█         | 1835/16950 [22:51<2:38:49,  1.59it/s]Training 1/3 epoch (loss 0.0054):  11%|█         | 1835/16950 [22:52<2:38:49,  1.59it/s]Training 1/3 epoch (loss 0.0054):  11%|█         | 1836/16950 [22:52<2:30:11,  1.68it/s]Training 1/3 epoch (loss 0.6176):  11%|█         | 1836/16950 [22:52<2:30:11,  1.68it/s]Training 1/3 epoch (loss 0.6176):  11%|█         | 1837/16950 [22:52<2:22:04,  1.77it/s]Training 1/3 epoch (loss 0.5725):  11%|█         | 1837/16950 [22:53<2:22:04,  1.77it/s]Training 1/3 epoch (loss 0.5725):  11%|█         | 1838/16950 [22:53<2:28:18,  1.70it/s]Training 1/3 epoch (loss 0.0816):  11%|█         | 1838/16950 [22:54<2:28:18,  1.70it/s]Training 1/3 epoch (loss 0.0816):  11%|█         | 1839/16950 [22:54<2:31:07,  1.67it/s]Training 1/3 epoch (loss 0.1166):  11%|█         | 1839/16950 [22:54<2:31:07,  1.67it/s]Training 1/3 epoch (loss 0.1166):  11%|█         | 1840/16950 [22:54<2:33:26,  1.64it/s]Training 1/3 epoch (loss 0.0287):  11%|█         | 1840/16950 [22:55<2:33:26,  1.64it/s]Training 1/3 epoch (loss 0.0287):  11%|█         | 1841/16950 [22:55<2:33:06,  1.64it/s]Training 1/3 epoch (loss 0.0054):  11%|█         | 1841/16950 [22:55<2:33:06,  1.64it/s]Training 1/3 epoch (loss 0.0054):  11%|█         | 1842/16950 [22:55<2:32:04,  1.66it/s]Training 1/3 epoch (loss 0.0436):  11%|█         | 1842/16950 [22:56<2:32:04,  1.66it/s]Training 1/3 epoch (loss 0.0436):  11%|█         | 1843/16950 [22:56<2:38:57,  1.58it/s]Training 1/3 epoch (loss 0.0971):  11%|█         | 1843/16950 [22:57<2:38:57,  1.58it/s]Training 1/3 epoch (loss 0.0971):  11%|█         | 1844/16950 [22:57<2:41:50,  1.56it/s]Training 1/3 epoch (loss 0.5529):  11%|█         | 1844/16950 [22:57<2:41:50,  1.56it/s]Training 1/3 epoch (loss 0.5529):  11%|█         | 1845/16950 [22:57<2:29:38,  1.68it/s]Training 1/3 epoch (loss 0.3013):  11%|█         | 1845/16950 [22:58<2:29:38,  1.68it/s]Training 1/3 epoch (loss 0.3013):  11%|█         | 1846/16950 [22:58<2:15:20,  1.86it/s]Training 1/3 epoch (loss 0.0035):  11%|█         | 1846/16950 [22:58<2:15:20,  1.86it/s]Training 1/3 epoch (loss 0.0035):  11%|█         | 1847/16950 [22:58<2:18:49,  1.81it/s]Training 1/3 epoch (loss 0.0033):  11%|█         | 1847/16950 [22:59<2:18:49,  1.81it/s]Training 1/3 epoch (loss 0.0033):  11%|█         | 1848/16950 [22:59<2:17:06,  1.84it/s]Training 1/3 epoch (loss 0.0108):  11%|█         | 1848/16950 [22:59<2:17:06,  1.84it/s]Training 1/3 epoch (loss 0.0108):  11%|█         | 1849/16950 [22:59<2:14:27,  1.87it/s]Training 1/3 epoch (loss 0.2876):  11%|█         | 1849/16950 [23:00<2:14:27,  1.87it/s]Training 1/3 epoch (loss 0.2876):  11%|█         | 1850/16950 [23:00<1:59:16,  2.11it/s]Training 1/3 epoch (loss 0.0035):  11%|█         | 1850/16950 [23:00<1:59:16,  2.11it/s]Training 1/3 epoch (loss 0.0035):  11%|█         | 1851/16950 [23:00<1:51:20,  2.26it/s]Training 1/3 epoch (loss 0.6544):  11%|█         | 1851/16950 [23:00<1:51:20,  2.26it/s]Training 1/3 epoch (loss 0.6544):  11%|█         | 1852/16950 [23:00<1:42:37,  2.45it/s]Training 1/3 epoch (loss 0.2021):  11%|█         | 1852/16950 [23:01<1:42:37,  2.45it/s]Training 1/3 epoch (loss 0.2021):  11%|█         | 1853/16950 [23:01<2:14:45,  1.87it/s]Training 1/3 epoch (loss 1.8345):  11%|█         | 1853/16950 [23:02<2:14:45,  1.87it/s]Training 1/3 epoch (loss 1.8345):  11%|█         | 1854/16950 [23:02<2:14:36,  1.87it/s]Training 1/3 epoch (loss 0.1784):  11%|█         | 1854/16950 [23:02<2:14:36,  1.87it/s]Training 1/3 epoch (loss 0.1784):  11%|█         | 1855/16950 [23:02<2:08:41,  1.95it/s]Training 1/3 epoch (loss 0.0199):  11%|█         | 1855/16950 [23:03<2:08:41,  1.95it/s]Training 1/3 epoch (loss 0.0199):  11%|█         | 1856/16950 [23:03<1:59:50,  2.10it/s]Training 1/3 epoch (loss 0.2363):  11%|█         | 1856/16950 [23:03<1:59:50,  2.10it/s]Training 1/3 epoch (loss 0.2363):  11%|█         | 1857/16950 [23:03<2:13:29,  1.88it/s]Training 1/3 epoch (loss 0.3737):  11%|█         | 1857/16950 [23:04<2:13:29,  1.88it/s]Training 1/3 epoch (loss 0.3737):  11%|█         | 1858/16950 [23:04<2:18:30,  1.82it/s]Training 1/3 epoch (loss 0.0300):  11%|█         | 1858/16950 [23:04<2:18:30,  1.82it/s]Training 1/3 epoch (loss 0.0300):  11%|█         | 1859/16950 [23:04<2:15:54,  1.85it/s]Training 1/3 epoch (loss 0.4504):  11%|█         | 1859/16950 [23:05<2:15:54,  1.85it/s]Training 1/3 epoch (loss 0.4504):  11%|█         | 1860/16950 [23:05<2:22:42,  1.76it/s]Training 1/3 epoch (loss 0.1472):  11%|█         | 1860/16950 [23:06<2:22:42,  1.76it/s]Training 1/3 epoch (loss 0.1472):  11%|█         | 1861/16950 [23:06<2:47:55,  1.50it/s]Training 1/3 epoch (loss 0.2052):  11%|█         | 1861/16950 [23:07<2:47:55,  1.50it/s]Training 1/3 epoch (loss 0.2052):  11%|█         | 1862/16950 [23:07<2:54:33,  1.44it/s]Training 1/3 epoch (loss 0.3369):  11%|█         | 1862/16950 [23:07<2:54:33,  1.44it/s]Training 1/3 epoch (loss 0.3369):  11%|█         | 1863/16950 [23:07<2:45:20,  1.52it/s]Training 1/3 epoch (loss 0.3240):  11%|█         | 1863/16950 [23:08<2:45:20,  1.52it/s]Training 1/3 epoch (loss 0.3240):  11%|█         | 1864/16950 [23:08<2:49:02,  1.49it/s]Training 1/3 epoch (loss 0.0289):  11%|█         | 1864/16950 [23:08<2:49:02,  1.49it/s]Training 1/3 epoch (loss 0.0289):  11%|█         | 1865/16950 [23:08<2:26:22,  1.72it/s]Training 1/3 epoch (loss 0.4018):  11%|█         | 1865/16950 [23:09<2:26:22,  1.72it/s]Training 1/3 epoch (loss 0.4018):  11%|█         | 1866/16950 [23:09<2:18:53,  1.81it/s]Training 1/3 epoch (loss 0.1026):  11%|█         | 1866/16950 [23:09<2:18:53,  1.81it/s]Training 1/3 epoch (loss 0.1026):  11%|█         | 1867/16950 [23:09<2:18:22,  1.82it/s]Training 1/3 epoch (loss 0.0042):  11%|█         | 1867/16950 [23:10<2:18:22,  1.82it/s]Training 1/3 epoch (loss 0.0042):  11%|█         | 1868/16950 [23:10<2:25:16,  1.73it/s]Training 1/3 epoch (loss 0.6434):  11%|█         | 1868/16950 [23:10<2:25:16,  1.73it/s]Training 1/3 epoch (loss 0.6434):  11%|█         | 1869/16950 [23:10<2:15:28,  1.86it/s]Training 1/3 epoch (loss 1.1572):  11%|█         | 1869/16950 [23:11<2:15:28,  1.86it/s]Training 1/3 epoch (loss 1.1572):  11%|█         | 1870/16950 [23:11<2:25:06,  1.73it/s]Training 1/3 epoch (loss 0.8786):  11%|█         | 1870/16950 [23:12<2:25:06,  1.73it/s]Training 1/3 epoch (loss 0.8786):  11%|█         | 1871/16950 [23:12<2:17:40,  1.83it/s]Training 1/3 epoch (loss 0.0059):  11%|█         | 1871/16950 [23:12<2:17:40,  1.83it/s]Training 1/3 epoch (loss 0.0059):  11%|█         | 1872/16950 [23:12<2:24:58,  1.73it/s]Training 1/3 epoch (loss 0.0880):  11%|█         | 1872/16950 [23:13<2:24:58,  1.73it/s]Training 1/3 epoch (loss 0.0880):  11%|█         | 1873/16950 [23:13<2:35:02,  1.62it/s]Training 1/3 epoch (loss 0.0670):  11%|█         | 1873/16950 [23:14<2:35:02,  1.62it/s]Training 1/3 epoch (loss 0.0670):  11%|█         | 1874/16950 [23:14<2:34:17,  1.63it/s]Training 1/3 epoch (loss 0.0191):  11%|█         | 1874/16950 [23:14<2:34:17,  1.63it/s]Training 1/3 epoch (loss 0.0191):  11%|█         | 1875/16950 [23:14<2:16:59,  1.83it/s]Training 1/3 epoch (loss 0.3159):  11%|█         | 1875/16950 [23:14<2:16:59,  1.83it/s]Training 1/3 epoch (loss 0.3159):  11%|█         | 1876/16950 [23:14<2:07:08,  1.98it/s]Training 1/3 epoch (loss 0.6715):  11%|█         | 1876/16950 [23:15<2:07:08,  1.98it/s]Training 1/3 epoch (loss 0.6715):  11%|█         | 1877/16950 [23:15<2:34:26,  1.63it/s]Training 1/3 epoch (loss 0.0423):  11%|█         | 1877/16950 [23:16<2:34:26,  1.63it/s]Training 1/3 epoch (loss 0.0423):  11%|█         | 1878/16950 [23:16<2:26:24,  1.72it/s]Training 1/3 epoch (loss 0.0140):  11%|█         | 1878/16950 [23:16<2:26:24,  1.72it/s]Training 1/3 epoch (loss 0.0140):  11%|█         | 1879/16950 [23:16<2:21:10,  1.78it/s]Training 1/3 epoch (loss 0.2315):  11%|█         | 1879/16950 [23:17<2:21:10,  1.78it/s]Training 1/3 epoch (loss 0.2315):  11%|█         | 1880/16950 [23:17<2:22:06,  1.77it/s]Training 1/3 epoch (loss 0.0020):  11%|█         | 1880/16950 [23:17<2:22:06,  1.77it/s]Training 1/3 epoch (loss 0.0020):  11%|█         | 1881/16950 [23:17<2:18:23,  1.81it/s]Training 1/3 epoch (loss 0.0463):  11%|█         | 1881/16950 [23:18<2:18:23,  1.81it/s]Training 1/3 epoch (loss 0.0463):  11%|█         | 1882/16950 [23:18<2:15:35,  1.85it/s]Training 1/3 epoch (loss 0.5279):  11%|█         | 1882/16950 [23:19<2:15:35,  1.85it/s]Training 1/3 epoch (loss 0.5279):  11%|█         | 1883/16950 [23:19<2:54:27,  1.44it/s]Training 1/3 epoch (loss 0.1089):  11%|█         | 1883/16950 [23:20<2:54:27,  1.44it/s]Training 1/3 epoch (loss 0.1089):  11%|█         | 1884/16950 [23:20<2:58:24,  1.41it/s]Training 1/3 epoch (loss 0.3993):  11%|█         | 1884/16950 [23:20<2:58:24,  1.41it/s]Training 1/3 epoch (loss 0.3993):  11%|█         | 1885/16950 [23:20<2:44:25,  1.53it/s]Training 1/3 epoch (loss 0.2074):  11%|█         | 1885/16950 [23:21<2:44:25,  1.53it/s]Training 1/3 epoch (loss 0.2074):  11%|█         | 1886/16950 [23:21<2:27:41,  1.70it/s]Training 1/3 epoch (loss 0.0102):  11%|█         | 1886/16950 [23:21<2:27:41,  1.70it/s]Training 1/3 epoch (loss 0.0102):  11%|█         | 1887/16950 [23:21<2:21:22,  1.78it/s]Training 1/3 epoch (loss 0.0035):  11%|█         | 1887/16950 [23:22<2:21:22,  1.78it/s]Training 1/3 epoch (loss 0.0035):  11%|█         | 1888/16950 [23:22<2:14:52,  1.86it/s]Training 1/3 epoch (loss 0.0134):  11%|█         | 1888/16950 [23:22<2:14:52,  1.86it/s]Training 1/3 epoch (loss 0.0134):  11%|█         | 1889/16950 [23:22<2:28:07,  1.69it/s]Training 1/3 epoch (loss 0.3701):  11%|█         | 1889/16950 [23:23<2:28:07,  1.69it/s]Training 1/3 epoch (loss 0.3701):  11%|█         | 1890/16950 [23:23<2:35:40,  1.61it/s]Training 1/3 epoch (loss 0.0053):  11%|█         | 1890/16950 [23:24<2:35:40,  1.61it/s]Training 1/3 epoch (loss 0.0053):  11%|█         | 1891/16950 [23:24<2:41:06,  1.56it/s]Training 1/3 epoch (loss 0.0317):  11%|█         | 1891/16950 [23:24<2:41:06,  1.56it/s]Training 1/3 epoch (loss 0.0317):  11%|█         | 1892/16950 [23:24<2:47:24,  1.50it/s]Training 1/3 epoch (loss 0.5069):  11%|█         | 1892/16950 [23:25<2:47:24,  1.50it/s]Training 1/3 epoch (loss 0.5069):  11%|█         | 1893/16950 [23:25<2:29:20,  1.68it/s]Training 1/3 epoch (loss 0.0007):  11%|█         | 1893/16950 [23:25<2:29:20,  1.68it/s]Training 1/3 epoch (loss 0.0007):  11%|█         | 1894/16950 [23:25<2:22:25,  1.76it/s]Training 1/3 epoch (loss 0.0423):  11%|█         | 1894/16950 [23:26<2:22:25,  1.76it/s]Training 1/3 epoch (loss 0.0423):  11%|█         | 1895/16950 [23:26<2:27:26,  1.70it/s]Training 1/3 epoch (loss 0.0181):  11%|█         | 1895/16950 [23:26<2:27:26,  1.70it/s]Training 1/3 epoch (loss 0.0181):  11%|█         | 1896/16950 [23:26<2:24:58,  1.73it/s]Training 1/3 epoch (loss 0.0025):  11%|█         | 1896/16950 [23:27<2:24:58,  1.73it/s]Training 1/3 epoch (loss 0.0025):  11%|█         | 1897/16950 [23:27<2:32:48,  1.64it/s]Training 1/3 epoch (loss 0.1167):  11%|█         | 1897/16950 [23:28<2:32:48,  1.64it/s]Training 1/3 epoch (loss 0.1167):  11%|█         | 1898/16950 [23:28<2:30:47,  1.66it/s]Training 1/3 epoch (loss 0.0026):  11%|█         | 1898/16950 [23:28<2:30:47,  1.66it/s]Training 1/3 epoch (loss 0.0026):  11%|█         | 1899/16950 [23:28<2:14:23,  1.87it/s]Training 1/3 epoch (loss 0.1139):  11%|█         | 1899/16950 [23:29<2:14:23,  1.87it/s]Training 1/3 epoch (loss 0.1139):  11%|█         | 1900/16950 [23:29<2:09:27,  1.94it/s]Training 1/3 epoch (loss 0.3943):  11%|█         | 1900/16950 [23:29<2:09:27,  1.94it/s]Training 1/3 epoch (loss 0.3943):  11%|█         | 1901/16950 [23:29<2:18:54,  1.81it/s]Training 1/3 epoch (loss 0.0629):  11%|█         | 1901/16950 [23:30<2:18:54,  1.81it/s]Training 1/3 epoch (loss 0.0629):  11%|█         | 1902/16950 [23:30<2:19:38,  1.80it/s]Training 1/3 epoch (loss 0.3732):  11%|█         | 1902/16950 [23:30<2:19:38,  1.80it/s]Training 1/3 epoch (loss 0.3732):  11%|█         | 1903/16950 [23:30<2:25:48,  1.72it/s]Training 1/3 epoch (loss 0.0582):  11%|█         | 1903/16950 [23:31<2:25:48,  1.72it/s]Training 1/3 epoch (loss 0.0582):  11%|█         | 1904/16950 [23:31<2:21:26,  1.77it/s]Training 1/3 epoch (loss 0.0363):  11%|█         | 1904/16950 [23:31<2:21:26,  1.77it/s]Training 1/3 epoch (loss 0.0363):  11%|█         | 1905/16950 [23:31<2:11:14,  1.91it/s]Training 1/3 epoch (loss 0.0200):  11%|█         | 1905/16950 [23:32<2:11:14,  1.91it/s]Training 1/3 epoch (loss 0.0200):  11%|█         | 1906/16950 [23:32<2:13:39,  1.88it/s]Training 1/3 epoch (loss 0.0027):  11%|█         | 1906/16950 [23:32<2:13:39,  1.88it/s]Training 1/3 epoch (loss 0.0027):  11%|█▏        | 1907/16950 [23:32<2:06:10,  1.99it/s]Training 1/3 epoch (loss 0.0111):  11%|█▏        | 1907/16950 [23:33<2:06:10,  1.99it/s]Training 1/3 epoch (loss 0.0111):  11%|█▏        | 1908/16950 [23:33<2:00:51,  2.07it/s]Training 1/3 epoch (loss 0.0009):  11%|█▏        | 1908/16950 [23:33<2:00:51,  2.07it/s]Training 1/3 epoch (loss 0.0009):  11%|█▏        | 1909/16950 [23:33<2:03:19,  2.03it/s]Training 1/3 epoch (loss 0.5072):  11%|█▏        | 1909/16950 [23:34<2:03:19,  2.03it/s]Training 1/3 epoch (loss 0.5072):  11%|█▏        | 1910/16950 [23:34<1:54:16,  2.19it/s]Training 1/3 epoch (loss 0.3899):  11%|█▏        | 1910/16950 [23:35<1:54:16,  2.19it/s]Training 1/3 epoch (loss 0.3899):  11%|█▏        | 1911/16950 [23:35<2:21:00,  1.78it/s]Training 1/3 epoch (loss 0.0077):  11%|█▏        | 1911/16950 [23:35<2:21:00,  1.78it/s]Training 1/3 epoch (loss 0.0077):  11%|█▏        | 1912/16950 [23:35<2:22:04,  1.76it/s]Training 1/3 epoch (loss 0.3424):  11%|█▏        | 1912/16950 [23:36<2:22:04,  1.76it/s]Training 1/3 epoch (loss 0.3424):  11%|█▏        | 1913/16950 [23:36<2:12:26,  1.89it/s]Training 1/3 epoch (loss 0.0770):  11%|█▏        | 1913/16950 [23:36<2:12:26,  1.89it/s]Training 1/3 epoch (loss 0.0770):  11%|█▏        | 1914/16950 [23:36<2:40:31,  1.56it/s]Training 1/3 epoch (loss 0.2907):  11%|█▏        | 1914/16950 [23:37<2:40:31,  1.56it/s]Training 1/3 epoch (loss 0.2907):  11%|█▏        | 1915/16950 [23:37<2:41:17,  1.55it/s]Training 1/3 epoch (loss 0.1639):  11%|█▏        | 1915/16950 [23:38<2:41:17,  1.55it/s]Training 1/3 epoch (loss 0.1639):  11%|█▏        | 1916/16950 [23:38<2:28:18,  1.69it/s]Training 1/3 epoch (loss 0.0011):  11%|█▏        | 1916/16950 [23:38<2:28:18,  1.69it/s]Training 1/3 epoch (loss 0.0011):  11%|█▏        | 1917/16950 [23:38<2:14:34,  1.86it/s]Training 1/3 epoch (loss 0.0130):  11%|█▏        | 1917/16950 [23:38<2:14:34,  1.86it/s]Training 1/3 epoch (loss 0.0130):  11%|█▏        | 1918/16950 [23:38<2:08:14,  1.95it/s]Training 1/3 epoch (loss 0.1415):  11%|█▏        | 1918/16950 [23:39<2:08:14,  1.95it/s]Training 1/3 epoch (loss 0.1415):  11%|█▏        | 1919/16950 [23:39<2:07:42,  1.96it/s]Training 1/3 epoch (loss 0.4479):  11%|█▏        | 1919/16950 [23:40<2:07:42,  1.96it/s]Training 1/3 epoch (loss 0.4479):  11%|█▏        | 1920/16950 [23:40<2:33:43,  1.63it/s]Training 1/3 epoch (loss 0.0201):  11%|█▏        | 1920/16950 [23:41<2:33:43,  1.63it/s]Training 1/3 epoch (loss 0.0201):  11%|█▏        | 1921/16950 [23:41<2:43:19,  1.53it/s]Training 1/3 epoch (loss 0.0823):  11%|█▏        | 1921/16950 [23:42<2:43:19,  1.53it/s]Training 1/3 epoch (loss 0.0823):  11%|█▏        | 1922/16950 [23:42<3:07:55,  1.33it/s]Training 1/3 epoch (loss 0.1638):  11%|█▏        | 1922/16950 [23:42<3:07:55,  1.33it/s]Training 1/3 epoch (loss 0.1638):  11%|█▏        | 1923/16950 [23:42<2:56:49,  1.42it/s]Training 1/3 epoch (loss 0.0221):  11%|█▏        | 1923/16950 [23:43<2:56:49,  1.42it/s]Training 1/3 epoch (loss 0.0221):  11%|█▏        | 1924/16950 [23:43<2:35:43,  1.61it/s]Training 1/3 epoch (loss 0.0014):  11%|█▏        | 1924/16950 [23:43<2:35:43,  1.61it/s]Training 1/3 epoch (loss 0.0014):  11%|█▏        | 1925/16950 [23:43<2:25:50,  1.72it/s]Training 1/3 epoch (loss 0.5156):  11%|█▏        | 1925/16950 [23:44<2:25:50,  1.72it/s]Training 1/3 epoch (loss 0.5156):  11%|█▏        | 1926/16950 [23:44<2:25:01,  1.73it/s]Training 1/3 epoch (loss 0.7488):  11%|█▏        | 1926/16950 [23:44<2:25:01,  1.73it/s]Training 1/3 epoch (loss 0.7488):  11%|█▏        | 1927/16950 [23:44<2:20:51,  1.78it/s]Training 1/3 epoch (loss 0.0672):  11%|█▏        | 1927/16950 [23:45<2:20:51,  1.78it/s]Training 1/3 epoch (loss 0.0672):  11%|█▏        | 1928/16950 [23:45<2:12:23,  1.89it/s]Training 1/3 epoch (loss 0.0073):  11%|█▏        | 1928/16950 [23:45<2:12:23,  1.89it/s]Training 1/3 epoch (loss 0.0073):  11%|█▏        | 1929/16950 [23:45<2:04:32,  2.01it/s]Training 1/3 epoch (loss 0.0037):  11%|█▏        | 1929/16950 [23:46<2:04:32,  2.01it/s]Training 1/3 epoch (loss 0.0037):  11%|█▏        | 1930/16950 [23:46<2:13:05,  1.88it/s]Training 1/3 epoch (loss 0.8276):  11%|█▏        | 1930/16950 [23:47<2:13:05,  1.88it/s]Training 1/3 epoch (loss 0.8276):  11%|█▏        | 1931/16950 [23:47<2:45:30,  1.51it/s]Training 1/3 epoch (loss 0.1725):  11%|█▏        | 1931/16950 [23:47<2:45:30,  1.51it/s]Training 1/3 epoch (loss 0.1725):  11%|█▏        | 1932/16950 [23:47<2:41:32,  1.55it/s]Training 1/3 epoch (loss 0.0720):  11%|█▏        | 1932/16950 [23:48<2:41:32,  1.55it/s]Training 1/3 epoch (loss 0.0720):  11%|█▏        | 1933/16950 [23:48<2:36:45,  1.60it/s]Training 1/3 epoch (loss 0.3643):  11%|█▏        | 1933/16950 [23:49<2:36:45,  1.60it/s]Training 1/3 epoch (loss 0.3643):  11%|█▏        | 1934/16950 [23:49<2:54:47,  1.43it/s]Training 1/3 epoch (loss 0.0217):  11%|█▏        | 1934/16950 [23:49<2:54:47,  1.43it/s]Training 1/3 epoch (loss 0.0217):  11%|█▏        | 1935/16950 [23:49<2:59:54,  1.39it/s]Training 1/3 epoch (loss 0.0372):  11%|█▏        | 1935/16950 [23:50<2:59:54,  1.39it/s]Training 1/3 epoch (loss 0.0372):  11%|█▏        | 1936/16950 [23:50<2:51:04,  1.46it/s]Training 1/3 epoch (loss 0.3376):  11%|█▏        | 1936/16950 [23:51<2:51:04,  1.46it/s]Training 1/3 epoch (loss 0.3376):  11%|█▏        | 1937/16950 [23:51<2:37:13,  1.59it/s]Training 1/3 epoch (loss 0.0023):  11%|█▏        | 1937/16950 [23:51<2:37:13,  1.59it/s]Training 1/3 epoch (loss 0.0023):  11%|█▏        | 1938/16950 [23:51<2:28:52,  1.68it/s]Training 1/3 epoch (loss 0.0392):  11%|█▏        | 1938/16950 [23:52<2:28:52,  1.68it/s]Training 1/3 epoch (loss 0.0392):  11%|█▏        | 1939/16950 [23:52<2:26:06,  1.71it/s]Training 1/3 epoch (loss 0.0368):  11%|█▏        | 1939/16950 [23:52<2:26:06,  1.71it/s]Training 1/3 epoch (loss 0.0368):  11%|█▏        | 1940/16950 [23:52<2:20:20,  1.78it/s]Training 1/3 epoch (loss 0.7170):  11%|█▏        | 1940/16950 [23:53<2:20:20,  1.78it/s]Training 1/3 epoch (loss 0.7170):  11%|█▏        | 1941/16950 [23:53<2:12:39,  1.89it/s]Training 1/3 epoch (loss 0.0326):  11%|█▏        | 1941/16950 [23:53<2:12:39,  1.89it/s]Training 1/3 epoch (loss 0.0326):  11%|█▏        | 1942/16950 [23:53<2:14:04,  1.87it/s]Training 1/3 epoch (loss 0.0078):  11%|█▏        | 1942/16950 [23:54<2:14:04,  1.87it/s]Training 1/3 epoch (loss 0.0078):  11%|█▏        | 1943/16950 [23:54<2:16:38,  1.83it/s]Training 1/3 epoch (loss 0.0145):  11%|█▏        | 1943/16950 [23:54<2:16:38,  1.83it/s]Training 1/3 epoch (loss 0.0145):  11%|█▏        | 1944/16950 [23:54<2:17:06,  1.82it/s]Training 1/3 epoch (loss 0.0086):  11%|█▏        | 1944/16950 [23:55<2:17:06,  1.82it/s]Training 1/3 epoch (loss 0.0086):  11%|█▏        | 1945/16950 [23:55<2:15:09,  1.85it/s]Training 1/3 epoch (loss 0.5015):  11%|█▏        | 1945/16950 [23:55<2:15:09,  1.85it/s]Training 1/3 epoch (loss 0.5015):  11%|█▏        | 1946/16950 [23:55<2:11:15,  1.91it/s]Training 1/3 epoch (loss 0.0527):  11%|█▏        | 1946/16950 [23:56<2:11:15,  1.91it/s]Training 1/3 epoch (loss 0.0527):  11%|█▏        | 1947/16950 [23:56<2:08:02,  1.95it/s]Training 1/3 epoch (loss 0.2377):  11%|█▏        | 1947/16950 [23:56<2:08:02,  1.95it/s]Training 1/3 epoch (loss 0.2377):  11%|█▏        | 1948/16950 [23:56<2:03:55,  2.02it/s]Training 1/3 epoch (loss 0.7241):  11%|█▏        | 1948/16950 [23:57<2:03:55,  2.02it/s]Training 1/3 epoch (loss 0.7241):  11%|█▏        | 1949/16950 [23:57<2:04:56,  2.00it/s]Training 1/3 epoch (loss 0.0383):  11%|█▏        | 1949/16950 [23:57<2:04:56,  2.00it/s]Training 1/3 epoch (loss 0.0383):  12%|█▏        | 1950/16950 [23:57<2:22:44,  1.75it/s]Training 1/3 epoch (loss 0.2260):  12%|█▏        | 1950/16950 [23:58<2:22:44,  1.75it/s]Training 1/3 epoch (loss 0.2260):  12%|█▏        | 1951/16950 [23:58<2:47:12,  1.50it/s]Training 1/3 epoch (loss 0.6166):  12%|█▏        | 1951/16950 [23:59<2:47:12,  1.50it/s]Training 1/3 epoch (loss 0.6166):  12%|█▏        | 1952/16950 [23:59<2:41:03,  1.55it/s]Training 1/3 epoch (loss 0.2687):  12%|█▏        | 1952/16950 [23:59<2:41:03,  1.55it/s]Training 1/3 epoch (loss 0.2687):  12%|█▏        | 1953/16950 [23:59<2:35:00,  1.61it/s]Training 1/3 epoch (loss 0.3053):  12%|█▏        | 1953/16950 [24:00<2:35:00,  1.61it/s]Training 1/3 epoch (loss 0.3053):  12%|█▏        | 1954/16950 [24:00<2:28:38,  1.68it/s]Training 1/3 epoch (loss 0.4086):  12%|█▏        | 1954/16950 [24:00<2:28:38,  1.68it/s]Training 1/3 epoch (loss 0.4086):  12%|█▏        | 1955/16950 [24:00<2:15:12,  1.85it/s]Training 1/3 epoch (loss 0.4377):  12%|█▏        | 1955/16950 [24:01<2:15:12,  1.85it/s]Training 1/3 epoch (loss 0.4377):  12%|█▏        | 1956/16950 [24:01<2:07:50,  1.95it/s]Training 1/3 epoch (loss 0.0910):  12%|█▏        | 1956/16950 [24:01<2:07:50,  1.95it/s]Training 1/3 epoch (loss 0.0910):  12%|█▏        | 1957/16950 [24:01<2:10:44,  1.91it/s]Training 1/3 epoch (loss 0.3287):  12%|█▏        | 1957/16950 [24:02<2:10:44,  1.91it/s]Training 1/3 epoch (loss 0.3287):  12%|█▏        | 1958/16950 [24:02<1:57:04,  2.13it/s]Training 1/3 epoch (loss 0.0301):  12%|█▏        | 1958/16950 [24:02<1:57:04,  2.13it/s]Training 1/3 epoch (loss 0.0301):  12%|█▏        | 1959/16950 [24:02<2:01:24,  2.06it/s]Training 1/3 epoch (loss 0.6513):  12%|█▏        | 1959/16950 [24:03<2:01:24,  2.06it/s]Training 1/3 epoch (loss 0.6513):  12%|█▏        | 1960/16950 [24:03<2:08:35,  1.94it/s]Training 1/3 epoch (loss 0.2129):  12%|█▏        | 1960/16950 [24:04<2:08:35,  1.94it/s]Training 1/3 epoch (loss 0.2129):  12%|█▏        | 1961/16950 [24:04<2:22:33,  1.75it/s]Training 1/3 epoch (loss 0.0316):  12%|█▏        | 1961/16950 [24:04<2:22:33,  1.75it/s]Training 1/3 epoch (loss 0.0316):  12%|█▏        | 1962/16950 [24:04<2:30:28,  1.66it/s]Training 1/3 epoch (loss 0.5781):  12%|█▏        | 1962/16950 [24:05<2:30:28,  1.66it/s]Training 1/3 epoch (loss 0.5781):  12%|█▏        | 1963/16950 [24:05<3:05:30,  1.35it/s]Training 1/3 epoch (loss 0.4641):  12%|█▏        | 1963/16950 [24:06<3:05:30,  1.35it/s]Training 1/3 epoch (loss 0.4641):  12%|█▏        | 1964/16950 [24:06<3:10:24,  1.31it/s]Training 1/3 epoch (loss 0.0899):  12%|█▏        | 1964/16950 [24:07<3:10:24,  1.31it/s]Training 1/3 epoch (loss 0.0899):  12%|█▏        | 1965/16950 [24:07<2:58:39,  1.40it/s]Training 1/3 epoch (loss 0.4219):  12%|█▏        | 1965/16950 [24:07<2:58:39,  1.40it/s]Training 1/3 epoch (loss 0.4219):  12%|█▏        | 1966/16950 [24:07<2:38:35,  1.57it/s]Training 1/3 epoch (loss 0.0144):  12%|█▏        | 1966/16950 [24:08<2:38:35,  1.57it/s]Training 1/3 epoch (loss 0.0144):  12%|█▏        | 1967/16950 [24:08<2:23:34,  1.74it/s]Training 1/3 epoch (loss 0.9040):  12%|█▏        | 1967/16950 [24:08<2:23:34,  1.74it/s]Training 1/3 epoch (loss 0.9040):  12%|█▏        | 1968/16950 [24:08<2:43:40,  1.53it/s]Training 1/3 epoch (loss 0.0053):  12%|█▏        | 1968/16950 [24:09<2:43:40,  1.53it/s]Training 1/3 epoch (loss 0.0053):  12%|█▏        | 1969/16950 [24:09<2:36:57,  1.59it/s]Training 1/3 epoch (loss 0.0253):  12%|█▏        | 1969/16950 [24:09<2:36:57,  1.59it/s]Training 1/3 epoch (loss 0.0253):  12%|█▏        | 1970/16950 [24:09<2:19:16,  1.79it/s]Training 1/3 epoch (loss 0.8647):  12%|█▏        | 1970/16950 [24:11<2:19:16,  1.79it/s]Training 1/3 epoch (loss 0.8647):  12%|█▏        | 1971/16950 [24:11<3:00:56,  1.38it/s]Training 1/3 epoch (loss 0.2421):  12%|█▏        | 1971/16950 [24:11<3:00:56,  1.38it/s]Training 1/3 epoch (loss 0.2421):  12%|█▏        | 1972/16950 [24:11<2:45:46,  1.51it/s]Training 1/3 epoch (loss 0.0035):  12%|█▏        | 1972/16950 [24:12<2:45:46,  1.51it/s]Training 1/3 epoch (loss 0.0035):  12%|█▏        | 1973/16950 [24:12<2:37:38,  1.58it/s]Training 1/3 epoch (loss 0.8621):  12%|█▏        | 1973/16950 [24:12<2:37:38,  1.58it/s]Training 1/3 epoch (loss 0.8621):  12%|█▏        | 1974/16950 [24:12<2:28:40,  1.68it/s]Training 1/3 epoch (loss 0.0829):  12%|█▏        | 1974/16950 [24:13<2:28:40,  1.68it/s]Training 1/3 epoch (loss 0.0829):  12%|█▏        | 1975/16950 [24:13<2:26:15,  1.71it/s]Training 1/3 epoch (loss 0.0022):  12%|█▏        | 1975/16950 [24:13<2:26:15,  1.71it/s]Training 1/3 epoch (loss 0.0022):  12%|█▏        | 1976/16950 [24:13<2:17:57,  1.81it/s]Training 1/3 epoch (loss 0.2012):  12%|█▏        | 1976/16950 [24:14<2:17:57,  1.81it/s]Training 1/3 epoch (loss 0.2012):  12%|█▏        | 1977/16950 [24:14<2:16:43,  1.83it/s]Training 1/3 epoch (loss 0.0039):  12%|█▏        | 1977/16950 [24:14<2:16:43,  1.83it/s]Training 1/3 epoch (loss 0.0039):  12%|█▏        | 1978/16950 [24:14<2:18:25,  1.80it/s]Training 1/3 epoch (loss 0.0037):  12%|█▏        | 1978/16950 [24:15<2:18:25,  1.80it/s]Training 1/3 epoch (loss 0.0037):  12%|█▏        | 1979/16950 [24:15<2:18:28,  1.80it/s]Training 1/3 epoch (loss 0.3892):  12%|█▏        | 1979/16950 [24:15<2:18:28,  1.80it/s]Training 1/3 epoch (loss 0.3892):  12%|█▏        | 1980/16950 [24:15<2:10:27,  1.91it/s]Training 1/3 epoch (loss 0.1230):  12%|█▏        | 1980/16950 [24:16<2:10:27,  1.91it/s]Training 1/3 epoch (loss 0.1230):  12%|█▏        | 1981/16950 [24:16<2:07:02,  1.96it/s]Training 1/3 epoch (loss 0.0010):  12%|█▏        | 1981/16950 [24:16<2:07:02,  1.96it/s]Training 1/3 epoch (loss 0.0010):  12%|█▏        | 1982/16950 [24:16<2:04:05,  2.01it/s]Training 1/3 epoch (loss 0.0073):  12%|█▏        | 1982/16950 [24:17<2:04:05,  2.01it/s]Training 1/3 epoch (loss 0.0073):  12%|█▏        | 1983/16950 [24:17<2:15:02,  1.85it/s]Training 1/3 epoch (loss 0.1562):  12%|█▏        | 1983/16950 [24:17<2:15:02,  1.85it/s]Training 1/3 epoch (loss 0.1562):  12%|█▏        | 1984/16950 [24:17<2:22:02,  1.76it/s]Training 1/3 epoch (loss 0.1140):  12%|█▏        | 1984/16950 [24:18<2:22:02,  1.76it/s]Training 1/3 epoch (loss 0.1140):  12%|█▏        | 1985/16950 [24:18<2:35:00,  1.61it/s]Training 1/3 epoch (loss 0.4870):  12%|█▏        | 1985/16950 [24:19<2:35:00,  1.61it/s]Training 1/3 epoch (loss 0.4870):  12%|█▏        | 1986/16950 [24:19<3:06:09,  1.34it/s]Training 1/3 epoch (loss 0.0131):  12%|█▏        | 1986/16950 [24:20<3:06:09,  1.34it/s]Training 1/3 epoch (loss 0.0131):  12%|█▏        | 1987/16950 [24:20<2:38:41,  1.57it/s]Training 1/3 epoch (loss 0.0457):  12%|█▏        | 1987/16950 [24:20<2:38:41,  1.57it/s]Training 1/3 epoch (loss 0.0457):  12%|█▏        | 1988/16950 [24:20<2:31:12,  1.65it/s]Training 1/3 epoch (loss 0.2194):  12%|█▏        | 1988/16950 [24:21<2:31:12,  1.65it/s]Training 1/3 epoch (loss 0.2194):  12%|█▏        | 1989/16950 [24:21<2:20:41,  1.77it/s]Training 1/3 epoch (loss 0.0071):  12%|█▏        | 1989/16950 [24:21<2:20:41,  1.77it/s]Training 1/3 epoch (loss 0.0071):  12%|█▏        | 1990/16950 [24:21<2:10:55,  1.90it/s]Training 1/3 epoch (loss 0.0031):  12%|█▏        | 1990/16950 [24:22<2:10:55,  1.90it/s]Training 1/3 epoch (loss 0.0031):  12%|█▏        | 1991/16950 [24:22<2:28:35,  1.68it/s]Training 1/3 epoch (loss 0.6057):  12%|█▏        | 1991/16950 [24:22<2:28:35,  1.68it/s]Training 1/3 epoch (loss 0.6057):  12%|█▏        | 1992/16950 [24:22<2:28:41,  1.68it/s]Training 1/3 epoch (loss 0.0887):  12%|█▏        | 1992/16950 [24:24<2:28:41,  1.68it/s]Training 1/3 epoch (loss 0.0887):  12%|█▏        | 1993/16950 [24:24<3:10:39,  1.31it/s]Training 1/3 epoch (loss 0.0012):  12%|█▏        | 1993/16950 [24:24<3:10:39,  1.31it/s]Training 1/3 epoch (loss 0.0012):  12%|█▏        | 1994/16950 [24:24<2:58:19,  1.40it/s]Training 1/3 epoch (loss 0.0054):  12%|█▏        | 1994/16950 [24:25<2:58:19,  1.40it/s]Training 1/3 epoch (loss 0.0054):  12%|█▏        | 1995/16950 [24:25<2:47:55,  1.48it/s]Training 1/3 epoch (loss 0.0112):  12%|█▏        | 1995/16950 [24:26<2:47:55,  1.48it/s]Training 1/3 epoch (loss 0.0112):  12%|█▏        | 1996/16950 [24:26<3:03:30,  1.36it/s]Training 1/3 epoch (loss 0.0230):  12%|█▏        | 1996/16950 [24:26<3:03:30,  1.36it/s]Training 1/3 epoch (loss 0.0230):  12%|█▏        | 1997/16950 [24:26<2:53:03,  1.44it/s]Training 1/3 epoch (loss 0.0417):  12%|█▏        | 1997/16950 [24:27<2:53:03,  1.44it/s]Training 1/3 epoch (loss 0.0417):  12%|█▏        | 1998/16950 [24:27<2:56:49,  1.41it/s]Training 1/3 epoch (loss 0.0013):  12%|█▏        | 1998/16950 [24:28<2:56:49,  1.41it/s]Training 1/3 epoch (loss 0.0013):  12%|█▏        | 1999/16950 [24:28<3:00:55,  1.38it/s]Training 1/3 epoch (loss 0.4662):  12%|█▏        | 1999/16950 [24:28<3:00:55,  1.38it/s]Training 1/3 epoch (loss 0.4662):  12%|█▏        | 2000/16950 [24:28<2:50:32,  1.46it/s]Training 1/3 epoch (loss 0.4448):  12%|█▏        | 2000/16950 [24:29<2:50:32,  1.46it/s]Training 1/3 epoch (loss 0.4448):  12%|█▏        | 2001/16950 [24:29<2:39:10,  1.57it/s]Training 1/3 epoch (loss 0.5187):  12%|█▏        | 2001/16950 [24:29<2:39:10,  1.57it/s]Training 1/3 epoch (loss 0.5187):  12%|█▏        | 2002/16950 [24:29<2:29:15,  1.67it/s]Training 1/3 epoch (loss 0.2098):  12%|█▏        | 2002/16950 [24:30<2:29:15,  1.67it/s]Training 1/3 epoch (loss 0.2098):  12%|█▏        | 2003/16950 [24:30<2:34:34,  1.61it/s]Training 1/3 epoch (loss 0.0548):  12%|█▏        | 2003/16950 [24:31<2:34:34,  1.61it/s]Training 1/3 epoch (loss 0.0548):  12%|█▏        | 2004/16950 [24:31<2:41:32,  1.54it/s]Training 1/3 epoch (loss 0.0667):  12%|█▏        | 2004/16950 [24:31<2:41:32,  1.54it/s]Training 1/3 epoch (loss 0.0667):  12%|█▏        | 2005/16950 [24:31<2:40:34,  1.55it/s]Training 1/3 epoch (loss 0.3208):  12%|█▏        | 2005/16950 [24:32<2:40:34,  1.55it/s]Training 1/3 epoch (loss 0.3208):  12%|█▏        | 2006/16950 [24:32<2:27:56,  1.68it/s]Training 1/3 epoch (loss 0.2200):  12%|█▏        | 2006/16950 [24:33<2:27:56,  1.68it/s]Training 1/3 epoch (loss 0.2200):  12%|█▏        | 2007/16950 [24:33<2:30:01,  1.66it/s]Training 1/3 epoch (loss 0.0054):  12%|█▏        | 2007/16950 [24:33<2:30:01,  1.66it/s]Training 1/3 epoch (loss 0.0054):  12%|█▏        | 2008/16950 [24:33<2:39:04,  1.57it/s]Training 1/3 epoch (loss 0.0030):  12%|█▏        | 2008/16950 [24:34<2:39:04,  1.57it/s]Training 1/3 epoch (loss 0.0030):  12%|█▏        | 2009/16950 [24:34<2:34:40,  1.61it/s]Training 1/3 epoch (loss 0.6354):  12%|█▏        | 2009/16950 [24:35<2:34:40,  1.61it/s]Training 1/3 epoch (loss 0.6354):  12%|█▏        | 2010/16950 [24:35<2:53:11,  1.44it/s]Training 1/3 epoch (loss 0.0270):  12%|█▏        | 2010/16950 [24:35<2:53:11,  1.44it/s]Training 1/3 epoch (loss 0.0270):  12%|█▏        | 2011/16950 [24:35<2:54:48,  1.42it/s]Training 1/3 epoch (loss 0.4985):  12%|█▏        | 2011/16950 [24:36<2:54:48,  1.42it/s]Training 1/3 epoch (loss 0.4985):  12%|█▏        | 2012/16950 [24:36<2:46:25,  1.50it/s]Training 1/3 epoch (loss 0.4685):  12%|█▏        | 2012/16950 [24:37<2:46:25,  1.50it/s]Training 1/3 epoch (loss 0.4685):  12%|█▏        | 2013/16950 [24:37<3:21:27,  1.24it/s]Training 1/3 epoch (loss 0.0032):  12%|█▏        | 2013/16950 [24:38<3:21:27,  1.24it/s]Training 1/3 epoch (loss 0.0032):  12%|█▏        | 2014/16950 [24:38<3:04:08,  1.35it/s]Training 1/3 epoch (loss 0.1656):  12%|█▏        | 2014/16950 [24:38<3:04:08,  1.35it/s]Training 1/3 epoch (loss 0.1656):  12%|█▏        | 2015/16950 [24:38<2:49:22,  1.47it/s]Training 1/3 epoch (loss 0.0045):  12%|█▏        | 2015/16950 [24:39<2:49:22,  1.47it/s]Training 1/3 epoch (loss 0.0045):  12%|█▏        | 2016/16950 [24:39<2:37:34,  1.58it/s]Training 1/3 epoch (loss 0.0482):  12%|█▏        | 2016/16950 [24:39<2:37:34,  1.58it/s]Training 1/3 epoch (loss 0.0482):  12%|█▏        | 2017/16950 [24:39<2:30:23,  1.65it/s]Training 1/3 epoch (loss 0.5640):  12%|█▏        | 2017/16950 [24:40<2:30:23,  1.65it/s]Training 1/3 epoch (loss 0.5640):  12%|█▏        | 2018/16950 [24:40<2:21:44,  1.76it/s]Training 1/3 epoch (loss 0.4737):  12%|█▏        | 2018/16950 [24:40<2:21:44,  1.76it/s]Training 1/3 epoch (loss 0.4737):  12%|█▏        | 2019/16950 [24:40<2:30:41,  1.65it/s]Training 1/3 epoch (loss 0.2854):  12%|█▏        | 2019/16950 [24:41<2:30:41,  1.65it/s]Training 1/3 epoch (loss 0.2854):  12%|█▏        | 2020/16950 [24:41<2:53:11,  1.44it/s]Training 1/3 epoch (loss 0.0695):  12%|█▏        | 2020/16950 [24:42<2:53:11,  1.44it/s]Training 1/3 epoch (loss 0.0695):  12%|█▏        | 2021/16950 [24:42<3:05:20,  1.34it/s]Training 1/3 epoch (loss 0.5415):  12%|█▏        | 2021/16950 [24:43<3:05:20,  1.34it/s]Training 1/3 epoch (loss 0.5415):  12%|█▏        | 2022/16950 [24:43<3:05:13,  1.34it/s]Training 1/3 epoch (loss 0.0021):  12%|█▏        | 2022/16950 [24:44<3:05:13,  1.34it/s]Training 1/3 epoch (loss 0.0021):  12%|█▏        | 2023/16950 [24:44<3:11:02,  1.30it/s]Training 1/3 epoch (loss 0.1839):  12%|█▏        | 2023/16950 [24:45<3:11:02,  1.30it/s]Training 1/3 epoch (loss 0.1839):  12%|█▏        | 2024/16950 [24:45<3:14:02,  1.28it/s]Training 1/3 epoch (loss 0.0445):  12%|█▏        | 2024/16950 [24:45<3:14:02,  1.28it/s]Training 1/3 epoch (loss 0.0445):  12%|█▏        | 2025/16950 [24:45<2:59:04,  1.39it/s]Training 1/3 epoch (loss 0.0005):  12%|█▏        | 2025/16950 [24:46<2:59:04,  1.39it/s]Training 1/3 epoch (loss 0.0005):  12%|█▏        | 2026/16950 [24:46<2:42:39,  1.53it/s]Training 1/3 epoch (loss 0.0195):  12%|█▏        | 2026/16950 [24:46<2:42:39,  1.53it/s]Training 1/3 epoch (loss 0.0195):  12%|█▏        | 2027/16950 [24:46<2:44:34,  1.51it/s]Training 1/3 epoch (loss 0.8180):  12%|█▏        | 2027/16950 [24:47<2:44:34,  1.51it/s]Training 1/3 epoch (loss 0.8180):  12%|█▏        | 2028/16950 [24:47<2:27:29,  1.69it/s]Training 1/3 epoch (loss 0.2235):  12%|█▏        | 2028/16950 [24:48<2:27:29,  1.69it/s]Training 1/3 epoch (loss 0.2235):  12%|█▏        | 2029/16950 [24:48<2:40:22,  1.55it/s]Training 1/3 epoch (loss 0.4285):  12%|█▏        | 2029/16950 [24:48<2:40:22,  1.55it/s]Training 1/3 epoch (loss 0.4285):  12%|█▏        | 2030/16950 [24:48<2:50:19,  1.46it/s]Training 1/3 epoch (loss 0.6924):  12%|█▏        | 2030/16950 [24:49<2:50:19,  1.46it/s]Training 1/3 epoch (loss 0.6924):  12%|█▏        | 2031/16950 [24:49<3:17:41,  1.26it/s]Training 1/3 epoch (loss 0.0317):  12%|█▏        | 2031/16950 [24:50<3:17:41,  1.26it/s]Training 1/3 epoch (loss 0.0317):  12%|█▏        | 2032/16950 [24:50<3:12:04,  1.29it/s]Training 1/3 epoch (loss 0.0256):  12%|█▏        | 2032/16950 [24:51<3:12:04,  1.29it/s]Training 1/3 epoch (loss 0.0256):  12%|█▏        | 2033/16950 [24:51<2:57:28,  1.40it/s]Training 1/3 epoch (loss 0.8413):  12%|█▏        | 2033/16950 [24:51<2:57:28,  1.40it/s]Training 1/3 epoch (loss 0.8413):  12%|█▏        | 2034/16950 [24:51<2:36:56,  1.58it/s]Training 1/3 epoch (loss 0.8400):  12%|█▏        | 2034/16950 [24:52<2:36:56,  1.58it/s]Training 1/3 epoch (loss 0.8400):  12%|█▏        | 2035/16950 [24:52<2:22:55,  1.74it/s]Training 1/3 epoch (loss 0.0032):  12%|█▏        | 2035/16950 [24:52<2:22:55,  1.74it/s]Training 1/3 epoch (loss 0.0032):  12%|█▏        | 2036/16950 [24:52<2:19:35,  1.78it/s]Training 1/3 epoch (loss 0.7299):  12%|█▏        | 2036/16950 [24:52<2:19:35,  1.78it/s]Training 1/3 epoch (loss 0.7299):  12%|█▏        | 2037/16950 [24:52<2:02:00,  2.04it/s]Training 1/3 epoch (loss 0.0103):  12%|█▏        | 2037/16950 [24:53<2:02:00,  2.04it/s]Training 1/3 epoch (loss 0.0103):  12%|█▏        | 2038/16950 [24:53<2:23:55,  1.73it/s]Training 1/3 epoch (loss 0.0344):  12%|█▏        | 2038/16950 [24:54<2:23:55,  1.73it/s]Training 1/3 epoch (loss 0.0344):  12%|█▏        | 2039/16950 [24:54<2:23:23,  1.73it/s]Training 1/3 epoch (loss 0.1095):  12%|█▏        | 2039/16950 [24:54<2:23:23,  1.73it/s]Training 1/3 epoch (loss 0.1095):  12%|█▏        | 2040/16950 [24:54<2:16:17,  1.82it/s]Training 1/3 epoch (loss 0.2916):  12%|█▏        | 2040/16950 [24:55<2:16:17,  1.82it/s]Training 1/3 epoch (loss 0.2916):  12%|█▏        | 2041/16950 [24:55<2:01:25,  2.05it/s]Training 1/3 epoch (loss 0.0024):  12%|█▏        | 2041/16950 [24:55<2:01:25,  2.05it/s]Training 1/3 epoch (loss 0.0024):  12%|█▏        | 2042/16950 [24:55<1:53:57,  2.18it/s]Training 1/3 epoch (loss 0.0470):  12%|█▏        | 2042/16950 [24:56<1:53:57,  2.18it/s]Training 1/3 epoch (loss 0.0470):  12%|█▏        | 2043/16950 [24:56<2:03:05,  2.02it/s]Training 1/3 epoch (loss 0.3463):  12%|█▏        | 2043/16950 [24:56<2:03:05,  2.02it/s]Training 1/3 epoch (loss 0.3463):  12%|█▏        | 2044/16950 [24:56<2:06:23,  1.97it/s]Training 1/3 epoch (loss 0.4324):  12%|█▏        | 2044/16950 [24:57<2:06:23,  1.97it/s]Training 1/3 epoch (loss 0.4324):  12%|█▏        | 2045/16950 [24:57<1:59:38,  2.08it/s]Training 1/3 epoch (loss 0.6290):  12%|█▏        | 2045/16950 [24:57<1:59:38,  2.08it/s]Training 1/3 epoch (loss 0.6290):  12%|█▏        | 2046/16950 [24:57<1:52:19,  2.21it/s]Training 1/3 epoch (loss 0.2425):  12%|█▏        | 2046/16950 [24:58<1:52:19,  2.21it/s]Training 1/3 epoch (loss 0.2425):  12%|█▏        | 2047/16950 [24:58<2:04:29,  2.00it/s]Training 1/3 epoch (loss 0.3692):  12%|█▏        | 2047/16950 [24:59<2:04:29,  2.00it/s]Training 1/3 epoch (loss 0.3692):  12%|█▏        | 2048/16950 [24:59<2:42:25,  1.53it/s]Training 1/3 epoch (loss 0.0142):  12%|█▏        | 2048/16950 [24:59<2:42:25,  1.53it/s]Training 1/3 epoch (loss 0.0142):  12%|█▏        | 2049/16950 [24:59<2:32:11,  1.63it/s]Training 1/3 epoch (loss 0.0147):  12%|█▏        | 2049/16950 [25:00<2:32:11,  1.63it/s]Training 1/3 epoch (loss 0.0147):  12%|█▏        | 2050/16950 [25:00<2:21:20,  1.76it/s]Training 1/3 epoch (loss 0.0051):  12%|█▏        | 2050/16950 [25:00<2:21:20,  1.76it/s]Training 1/3 epoch (loss 0.0051):  12%|█▏        | 2051/16950 [25:00<2:15:50,  1.83it/s]Training 1/3 epoch (loss 0.2723):  12%|█▏        | 2051/16950 [25:01<2:15:50,  1.83it/s]Training 1/3 epoch (loss 0.2723):  12%|█▏        | 2052/16950 [25:01<2:10:42,  1.90it/s]Training 1/3 epoch (loss 0.0585):  12%|█▏        | 2052/16950 [25:02<2:10:42,  1.90it/s]Training 1/3 epoch (loss 0.0585):  12%|█▏        | 2053/16950 [25:02<2:46:48,  1.49it/s]Training 1/3 epoch (loss 0.0390):  12%|█▏        | 2053/16950 [25:02<2:46:48,  1.49it/s]Training 1/3 epoch (loss 0.0390):  12%|█▏        | 2054/16950 [25:02<2:43:37,  1.52it/s]Training 1/3 epoch (loss 0.5024):  12%|█▏        | 2054/16950 [25:03<2:43:37,  1.52it/s]Training 1/3 epoch (loss 0.5024):  12%|█▏        | 2055/16950 [25:03<2:32:41,  1.63it/s]Training 1/3 epoch (loss 0.0074):  12%|█▏        | 2055/16950 [25:03<2:32:41,  1.63it/s]Training 1/3 epoch (loss 0.0074):  12%|█▏        | 2056/16950 [25:03<2:39:34,  1.56it/s]Training 1/3 epoch (loss 0.2413):  12%|█▏        | 2056/16950 [25:04<2:39:34,  1.56it/s]Training 1/3 epoch (loss 0.2413):  12%|█▏        | 2057/16950 [25:04<2:57:05,  1.40it/s]Training 1/3 epoch (loss 0.1377):  12%|█▏        | 2057/16950 [25:05<2:57:05,  1.40it/s]Training 1/3 epoch (loss 0.1377):  12%|█▏        | 2058/16950 [25:05<2:55:48,  1.41it/s]Training 1/3 epoch (loss 0.1077):  12%|█▏        | 2058/16950 [25:06<2:55:48,  1.41it/s]Training 1/3 epoch (loss 0.1077):  12%|█▏        | 2059/16950 [25:06<3:10:10,  1.31it/s]Training 1/3 epoch (loss 0.6429):  12%|█▏        | 2059/16950 [25:07<3:10:10,  1.31it/s]Training 1/3 epoch (loss 0.6429):  12%|█▏        | 2060/16950 [25:07<3:42:28,  1.12it/s]Training 1/3 epoch (loss 0.0123):  12%|█▏        | 2060/16950 [25:08<3:42:28,  1.12it/s]Training 1/3 epoch (loss 0.0123):  12%|█▏        | 2061/16950 [25:08<3:20:09,  1.24it/s]Training 1/3 epoch (loss 0.0531):  12%|█▏        | 2061/16950 [25:08<3:20:09,  1.24it/s]Training 1/3 epoch (loss 0.0531):  12%|█▏        | 2062/16950 [25:08<3:02:35,  1.36it/s]Training 1/3 epoch (loss 0.1679):  12%|█▏        | 2062/16950 [25:09<3:02:35,  1.36it/s]Training 1/3 epoch (loss 0.1679):  12%|█▏        | 2063/16950 [25:09<3:35:45,  1.15it/s]Training 1/3 epoch (loss 0.0190):  12%|█▏        | 2063/16950 [25:10<3:35:45,  1.15it/s]Training 1/3 epoch (loss 0.0190):  12%|█▏        | 2064/16950 [25:10<3:17:11,  1.26it/s]Training 1/3 epoch (loss 0.1063):  12%|█▏        | 2064/16950 [25:11<3:17:11,  1.26it/s]Training 1/3 epoch (loss 0.1063):  12%|█▏        | 2065/16950 [25:11<2:59:32,  1.38it/s]Training 1/3 epoch (loss 0.0295):  12%|█▏        | 2065/16950 [25:11<2:59:32,  1.38it/s]Training 1/3 epoch (loss 0.0295):  12%|█▏        | 2066/16950 [25:11<2:51:30,  1.45it/s]Training 1/3 epoch (loss 0.2028):  12%|█▏        | 2066/16950 [25:12<2:51:30,  1.45it/s]Training 1/3 epoch (loss 0.2028):  12%|█▏        | 2067/16950 [25:12<2:46:02,  1.49it/s]Training 1/3 epoch (loss 0.0897):  12%|█▏        | 2067/16950 [25:12<2:46:02,  1.49it/s]Training 1/3 epoch (loss 0.0897):  12%|█▏        | 2068/16950 [25:12<2:32:57,  1.62it/s]Training 1/3 epoch (loss 0.8546):  12%|█▏        | 2068/16950 [25:13<2:32:57,  1.62it/s]Training 1/3 epoch (loss 0.8546):  12%|█▏        | 2069/16950 [25:13<2:17:57,  1.80it/s]Training 1/3 epoch (loss 0.1829):  12%|█▏        | 2069/16950 [25:13<2:17:57,  1.80it/s]Training 1/3 epoch (loss 0.1829):  12%|█▏        | 2070/16950 [25:13<2:12:08,  1.88it/s]Training 1/3 epoch (loss 0.4042):  12%|█▏        | 2070/16950 [25:14<2:12:08,  1.88it/s]Training 1/3 epoch (loss 0.4042):  12%|█▏        | 2071/16950 [25:14<2:13:15,  1.86it/s]Training 1/3 epoch (loss 0.0019):  12%|█▏        | 2071/16950 [25:14<2:13:15,  1.86it/s]Training 1/3 epoch (loss 0.0019):  12%|█▏        | 2072/16950 [25:14<2:02:58,  2.02it/s]Training 1/3 epoch (loss 0.2793):  12%|█▏        | 2072/16950 [25:15<2:02:58,  2.02it/s]Training 1/3 epoch (loss 0.2793):  12%|█▏        | 2073/16950 [25:15<2:25:44,  1.70it/s]Training 1/3 epoch (loss 0.0232):  12%|█▏        | 2073/16950 [25:16<2:25:44,  1.70it/s]Training 1/3 epoch (loss 0.0232):  12%|█▏        | 2074/16950 [25:16<2:29:42,  1.66it/s]Training 1/3 epoch (loss 0.0024):  12%|█▏        | 2074/16950 [25:16<2:29:42,  1.66it/s]Training 1/3 epoch (loss 0.0024):  12%|█▏        | 2075/16950 [25:16<2:35:00,  1.60it/s]Training 1/3 epoch (loss 0.3656):  12%|█▏        | 2075/16950 [25:17<2:35:00,  1.60it/s]Training 1/3 epoch (loss 0.3656):  12%|█▏        | 2076/16950 [25:17<2:22:52,  1.74it/s]Training 1/3 epoch (loss 1.1535):  12%|█▏        | 2076/16950 [25:17<2:22:52,  1.74it/s]Training 1/3 epoch (loss 1.1535):  12%|█▏        | 2077/16950 [25:17<2:13:16,  1.86it/s]Training 1/3 epoch (loss 0.0057):  12%|█▏        | 2077/16950 [25:18<2:13:16,  1.86it/s]Training 1/3 epoch (loss 0.0057):  12%|█▏        | 2078/16950 [25:18<2:07:16,  1.95it/s]Training 1/3 epoch (loss 0.0090):  12%|█▏        | 2078/16950 [25:18<2:07:16,  1.95it/s]Training 1/3 epoch (loss 0.0090):  12%|█▏        | 2079/16950 [25:18<2:18:09,  1.79it/s]Training 1/3 epoch (loss 0.2835):  12%|█▏        | 2079/16950 [25:20<2:18:09,  1.79it/s]Training 1/3 epoch (loss 0.2835):  12%|█▏        | 2080/16950 [25:20<3:05:54,  1.33it/s]Training 1/3 epoch (loss 0.3418):  12%|█▏        | 2080/16950 [25:20<3:05:54,  1.33it/s]Training 1/3 epoch (loss 0.3418):  12%|█▏        | 2081/16950 [25:20<2:48:07,  1.47it/s]Training 1/3 epoch (loss 0.0025):  12%|█▏        | 2081/16950 [25:21<2:48:07,  1.47it/s]Training 1/3 epoch (loss 0.0025):  12%|█▏        | 2082/16950 [25:21<2:35:02,  1.60it/s]Training 1/3 epoch (loss 0.0490):  12%|█▏        | 2082/16950 [25:21<2:35:02,  1.60it/s]Training 1/3 epoch (loss 0.0490):  12%|█▏        | 2083/16950 [25:21<2:29:11,  1.66it/s]Training 1/3 epoch (loss 0.1152):  12%|█▏        | 2083/16950 [25:22<2:29:11,  1.66it/s]Training 1/3 epoch (loss 0.1152):  12%|█▏        | 2084/16950 [25:22<2:32:35,  1.62it/s]Training 1/3 epoch (loss 0.0569):  12%|█▏        | 2084/16950 [25:22<2:32:35,  1.62it/s]Training 1/3 epoch (loss 0.0569):  12%|█▏        | 2085/16950 [25:22<2:39:43,  1.55it/s]Training 1/3 epoch (loss 0.0362):  12%|█▏        | 2085/16950 [25:23<2:39:43,  1.55it/s]Training 1/3 epoch (loss 0.0362):  12%|█▏        | 2086/16950 [25:23<2:28:45,  1.67it/s]Training 1/3 epoch (loss 0.3474):  12%|█▏        | 2086/16950 [25:23<2:28:45,  1.67it/s]Training 1/3 epoch (loss 0.3474):  12%|█▏        | 2087/16950 [25:23<2:15:11,  1.83it/s]Training 1/3 epoch (loss 0.0462):  12%|█▏        | 2087/16950 [25:24<2:15:11,  1.83it/s]Training 1/3 epoch (loss 0.0462):  12%|█▏        | 2088/16950 [25:24<2:18:09,  1.79it/s]Training 1/3 epoch (loss 0.0016):  12%|█▏        | 2088/16950 [25:25<2:18:09,  1.79it/s]Training 1/3 epoch (loss 0.0016):  12%|█▏        | 2089/16950 [25:25<2:26:16,  1.69it/s]Training 1/3 epoch (loss 0.0162):  12%|█▏        | 2089/16950 [25:25<2:26:16,  1.69it/s]Training 1/3 epoch (loss 0.0162):  12%|█▏        | 2090/16950 [25:25<2:19:07,  1.78it/s]Training 1/3 epoch (loss 0.6215):  12%|█▏        | 2090/16950 [25:26<2:19:07,  1.78it/s]Training 1/3 epoch (loss 0.6215):  12%|█▏        | 2091/16950 [25:26<2:22:07,  1.74it/s]Training 1/3 epoch (loss 0.0456):  12%|█▏        | 2091/16950 [25:26<2:22:07,  1.74it/s]Training 1/3 epoch (loss 0.0456):  12%|█▏        | 2092/16950 [25:26<2:11:31,  1.88it/s]Training 1/3 epoch (loss 0.4156):  12%|█▏        | 2092/16950 [25:27<2:11:31,  1.88it/s]Training 1/3 epoch (loss 0.4156):  12%|█▏        | 2093/16950 [25:27<2:47:55,  1.47it/s]Training 1/3 epoch (loss 0.0033):  12%|█▏        | 2093/16950 [25:28<2:47:55,  1.47it/s]Training 1/3 epoch (loss 0.0033):  12%|█▏        | 2094/16950 [25:28<2:34:16,  1.60it/s]Training 1/3 epoch (loss 0.0420):  12%|█▏        | 2094/16950 [25:28<2:34:16,  1.60it/s]Training 1/3 epoch (loss 0.0420):  12%|█▏        | 2095/16950 [25:28<2:35:14,  1.59it/s]Training 1/3 epoch (loss 0.0619):  12%|█▏        | 2095/16950 [25:29<2:35:14,  1.59it/s]Training 1/3 epoch (loss 0.0619):  12%|█▏        | 2096/16950 [25:29<3:09:36,  1.31it/s]Training 1/3 epoch (loss 0.0819):  12%|█▏        | 2096/16950 [25:30<3:09:36,  1.31it/s]Training 1/3 epoch (loss 0.0819):  12%|█▏        | 2097/16950 [25:30<3:12:22,  1.29it/s]Training 1/3 epoch (loss 0.0357):  12%|█▏        | 2097/16950 [25:31<3:12:22,  1.29it/s]Training 1/3 epoch (loss 0.0357):  12%|█▏        | 2098/16950 [25:31<3:00:39,  1.37it/s]Training 1/3 epoch (loss 0.0225):  12%|█▏        | 2098/16950 [25:31<3:00:39,  1.37it/s]Training 1/3 epoch (loss 0.0225):  12%|█▏        | 2099/16950 [25:31<2:43:40,  1.51it/s]Training 1/3 epoch (loss 0.0020):  12%|█▏        | 2099/16950 [25:32<2:43:40,  1.51it/s]Training 1/3 epoch (loss 0.0020):  12%|█▏        | 2100/16950 [25:32<2:32:20,  1.62it/s]Training 1/3 epoch (loss 0.3232):  12%|█▏        | 2100/16950 [25:33<2:32:20,  1.62it/s]Training 1/3 epoch (loss 0.3232):  12%|█▏        | 2101/16950 [25:33<2:53:52,  1.42it/s]Training 1/3 epoch (loss 0.5307):  12%|█▏        | 2101/16950 [25:34<2:53:52,  1.42it/s]Training 1/3 epoch (loss 0.5307):  12%|█▏        | 2102/16950 [25:34<3:06:39,  1.33it/s]Training 1/3 epoch (loss 0.0398):  12%|█▏        | 2102/16950 [25:34<3:06:39,  1.33it/s]Training 1/3 epoch (loss 0.0398):  12%|█▏        | 2103/16950 [25:34<2:59:40,  1.38it/s]Training 1/3 epoch (loss 0.5512):  12%|█▏        | 2103/16950 [25:35<2:59:40,  1.38it/s]Training 1/3 epoch (loss 0.5512):  12%|█▏        | 2104/16950 [25:35<3:01:12,  1.37it/s]Training 1/3 epoch (loss 0.0011):  12%|█▏        | 2104/16950 [25:35<3:01:12,  1.37it/s]Training 1/3 epoch (loss 0.0011):  12%|█▏        | 2105/16950 [25:35<2:34:59,  1.60it/s]Training 1/3 epoch (loss 0.0717):  12%|█▏        | 2105/16950 [25:36<2:34:59,  1.60it/s]Training 1/3 epoch (loss 0.0717):  12%|█▏        | 2106/16950 [25:36<2:24:14,  1.72it/s]Training 1/3 epoch (loss 0.3916):  12%|█▏        | 2106/16950 [25:37<2:24:14,  1.72it/s]Training 1/3 epoch (loss 0.3916):  12%|█▏        | 2107/16950 [25:37<2:52:29,  1.43it/s]Training 1/3 epoch (loss 0.7449):  12%|█▏        | 2107/16950 [25:37<2:52:29,  1.43it/s]Training 1/3 epoch (loss 0.7449):  12%|█▏        | 2108/16950 [25:37<2:27:58,  1.67it/s]Training 1/3 epoch (loss 0.4501):  12%|█▏        | 2108/16950 [25:38<2:27:58,  1.67it/s]Training 1/3 epoch (loss 0.4501):  12%|█▏        | 2109/16950 [25:38<3:07:29,  1.32it/s]Training 1/3 epoch (loss 0.0082):  12%|█▏        | 2109/16950 [25:39<3:07:29,  1.32it/s]Training 1/3 epoch (loss 0.0082):  12%|█▏        | 2110/16950 [25:39<2:48:43,  1.47it/s]Training 1/3 epoch (loss 0.0007):  12%|█▏        | 2110/16950 [25:39<2:48:43,  1.47it/s]Training 1/3 epoch (loss 0.0007):  12%|█▏        | 2111/16950 [25:39<2:41:11,  1.53it/s]Training 1/3 epoch (loss 0.2781):  12%|█▏        | 2111/16950 [25:40<2:41:11,  1.53it/s]Training 1/3 epoch (loss 0.2781):  12%|█▏        | 2112/16950 [25:40<2:29:31,  1.65it/s]Training 1/3 epoch (loss 0.0022):  12%|█▏        | 2112/16950 [25:40<2:29:31,  1.65it/s]Training 1/3 epoch (loss 0.0022):  12%|█▏        | 2113/16950 [25:40<2:23:37,  1.72it/s]Training 1/3 epoch (loss 0.2555):  12%|█▏        | 2113/16950 [25:41<2:23:37,  1.72it/s]Training 1/3 epoch (loss 0.2555):  12%|█▏        | 2114/16950 [25:41<2:21:54,  1.74it/s]Training 1/3 epoch (loss 0.0175):  12%|█▏        | 2114/16950 [25:42<2:21:54,  1.74it/s]Training 1/3 epoch (loss 0.0175):  12%|█▏        | 2115/16950 [25:42<2:20:25,  1.76it/s]Training 1/3 epoch (loss 0.0150):  12%|█▏        | 2115/16950 [25:42<2:20:25,  1.76it/s]Training 1/3 epoch (loss 0.0150):  12%|█▏        | 2116/16950 [25:42<2:17:02,  1.80it/s]Training 1/3 epoch (loss 0.1928):  12%|█▏        | 2116/16950 [25:43<2:17:02,  1.80it/s]Training 1/3 epoch (loss 0.1928):  12%|█▏        | 2117/16950 [25:43<2:46:02,  1.49it/s]Training 1/3 epoch (loss 0.4319):  12%|█▏        | 2117/16950 [25:44<2:46:02,  1.49it/s]Training 1/3 epoch (loss 0.4319):  12%|█▏        | 2118/16950 [25:44<2:58:02,  1.39it/s]Training 1/3 epoch (loss 0.0098):  12%|█▏        | 2118/16950 [25:45<2:58:02,  1.39it/s]Training 1/3 epoch (loss 0.0098):  13%|█▎        | 2119/16950 [25:45<2:57:32,  1.39it/s]Training 1/3 epoch (loss 0.0305):  13%|█▎        | 2119/16950 [25:45<2:57:32,  1.39it/s]Training 1/3 epoch (loss 0.0305):  13%|█▎        | 2120/16950 [25:45<2:49:44,  1.46it/s]Training 1/3 epoch (loss 0.0162):  13%|█▎        | 2120/16950 [25:46<2:49:44,  1.46it/s]Training 1/3 epoch (loss 0.0162):  13%|█▎        | 2121/16950 [25:46<2:43:09,  1.51it/s]Training 1/3 epoch (loss 0.5143):  13%|█▎        | 2121/16950 [25:47<2:43:09,  1.51it/s]Training 1/3 epoch (loss 0.5143):  13%|█▎        | 2122/16950 [25:47<2:58:05,  1.39it/s]Training 1/3 epoch (loss 0.0616):  13%|█▎        | 2122/16950 [25:47<2:58:05,  1.39it/s]Training 1/3 epoch (loss 0.0616):  13%|█▎        | 2123/16950 [25:47<2:51:08,  1.44it/s]Training 1/3 epoch (loss 0.0199):  13%|█▎        | 2123/16950 [25:48<2:51:08,  1.44it/s]Training 1/3 epoch (loss 0.0199):  13%|█▎        | 2124/16950 [25:48<2:50:08,  1.45it/s]Training 1/3 epoch (loss 0.0615):  13%|█▎        | 2124/16950 [25:48<2:50:08,  1.45it/s]Training 1/3 epoch (loss 0.0615):  13%|█▎        | 2125/16950 [25:48<2:32:50,  1.62it/s]Training 1/3 epoch (loss 0.0677):  13%|█▎        | 2125/16950 [25:49<2:32:50,  1.62it/s]Training 1/3 epoch (loss 0.0677):  13%|█▎        | 2126/16950 [25:49<2:25:39,  1.70it/s]Training 1/3 epoch (loss 0.0010):  13%|█▎        | 2126/16950 [25:49<2:25:39,  1.70it/s]Training 1/3 epoch (loss 0.0010):  13%|█▎        | 2127/16950 [25:49<2:23:25,  1.72it/s]Training 1/3 epoch (loss 0.1324):  13%|█▎        | 2127/16950 [25:50<2:23:25,  1.72it/s]Training 1/3 epoch (loss 0.1324):  13%|█▎        | 2128/16950 [25:50<2:19:58,  1.76it/s]Training 1/3 epoch (loss 0.0041):  13%|█▎        | 2128/16950 [25:50<2:19:58,  1.76it/s]Training 1/3 epoch (loss 0.0041):  13%|█▎        | 2129/16950 [25:50<2:14:40,  1.83it/s]Training 1/3 epoch (loss 0.0227):  13%|█▎        | 2129/16950 [25:51<2:14:40,  1.83it/s]Training 1/3 epoch (loss 0.0227):  13%|█▎        | 2130/16950 [25:51<2:07:17,  1.94it/s]Training 1/3 epoch (loss 0.0297):  13%|█▎        | 2130/16950 [25:52<2:07:17,  1.94it/s]Training 1/3 epoch (loss 0.0297):  13%|█▎        | 2131/16950 [25:52<2:15:32,  1.82it/s]Training 1/3 epoch (loss 0.3697):  13%|█▎        | 2131/16950 [25:52<2:15:32,  1.82it/s]Training 1/3 epoch (loss 0.3697):  13%|█▎        | 2132/16950 [25:52<2:43:26,  1.51it/s]Training 1/3 epoch (loss 0.0806):  13%|█▎        | 2132/16950 [25:53<2:43:26,  1.51it/s]Training 1/3 epoch (loss 0.0806):  13%|█▎        | 2133/16950 [25:53<2:34:35,  1.60it/s]Training 1/3 epoch (loss 0.1469):  13%|█▎        | 2133/16950 [25:54<2:34:35,  1.60it/s]Training 1/3 epoch (loss 0.1469):  13%|█▎        | 2134/16950 [25:54<2:27:04,  1.68it/s]Training 1/3 epoch (loss 0.0391):  13%|█▎        | 2134/16950 [25:54<2:27:04,  1.68it/s]Training 1/3 epoch (loss 0.0391):  13%|█▎        | 2135/16950 [25:54<2:19:18,  1.77it/s]Training 1/3 epoch (loss 0.0067):  13%|█▎        | 2135/16950 [25:54<2:19:18,  1.77it/s]Training 1/3 epoch (loss 0.0067):  13%|█▎        | 2136/16950 [25:54<2:09:58,  1.90it/s]Training 1/3 epoch (loss 0.0686):  13%|█▎        | 2136/16950 [25:55<2:09:58,  1.90it/s]Training 1/3 epoch (loss 0.0686):  13%|█▎        | 2137/16950 [25:55<2:05:38,  1.96it/s]Training 1/3 epoch (loss 0.1672):  13%|█▎        | 2137/16950 [25:56<2:05:38,  1.96it/s]Training 1/3 epoch (loss 0.1672):  13%|█▎        | 2138/16950 [25:56<2:10:23,  1.89it/s]Training 1/3 epoch (loss 0.0911):  13%|█▎        | 2138/16950 [25:56<2:10:23,  1.89it/s]Training 1/3 epoch (loss 0.0911):  13%|█▎        | 2139/16950 [25:56<2:26:38,  1.68it/s]Training 1/3 epoch (loss 0.2636):  13%|█▎        | 2139/16950 [25:57<2:26:38,  1.68it/s]Training 1/3 epoch (loss 0.2636):  13%|█▎        | 2140/16950 [25:57<2:14:47,  1.83it/s]Training 1/3 epoch (loss 0.7713):  13%|█▎        | 2140/16950 [25:57<2:14:47,  1.83it/s]Training 1/3 epoch (loss 0.7713):  13%|█▎        | 2141/16950 [25:57<2:08:52,  1.92it/s]Training 1/3 epoch (loss 0.5255):  13%|█▎        | 2141/16950 [25:58<2:08:52,  1.92it/s]Training 1/3 epoch (loss 0.5255):  13%|█▎        | 2142/16950 [25:58<2:32:58,  1.61it/s]Training 1/3 epoch (loss 0.1694):  13%|█▎        | 2142/16950 [25:59<2:32:58,  1.61it/s]Training 1/3 epoch (loss 0.1694):  13%|█▎        | 2143/16950 [25:59<2:33:32,  1.61it/s]Training 1/3 epoch (loss 0.2145):  13%|█▎        | 2143/16950 [25:59<2:33:32,  1.61it/s]Training 1/3 epoch (loss 0.2145):  13%|█▎        | 2144/16950 [25:59<2:24:45,  1.70it/s]Training 1/3 epoch (loss 0.1200):  13%|█▎        | 2144/16950 [26:00<2:24:45,  1.70it/s]Training 1/3 epoch (loss 0.1200):  13%|█▎        | 2145/16950 [26:00<2:28:32,  1.66it/s]Training 1/3 epoch (loss 0.1612):  13%|█▎        | 2145/16950 [26:00<2:28:32,  1.66it/s]Training 1/3 epoch (loss 0.1612):  13%|█▎        | 2146/16950 [26:00<2:33:51,  1.60it/s]Training 1/3 epoch (loss 0.0103):  13%|█▎        | 2146/16950 [26:01<2:33:51,  1.60it/s]Training 1/3 epoch (loss 0.0103):  13%|█▎        | 2147/16950 [26:01<2:44:55,  1.50it/s]Training 1/3 epoch (loss 0.3107):  13%|█▎        | 2147/16950 [26:02<2:44:55,  1.50it/s]Training 1/3 epoch (loss 0.3107):  13%|█▎        | 2148/16950 [26:02<3:00:05,  1.37it/s]Training 1/3 epoch (loss 0.1061):  13%|█▎        | 2148/16950 [26:03<3:00:05,  1.37it/s]Training 1/3 epoch (loss 0.1061):  13%|█▎        | 2149/16950 [26:03<2:49:37,  1.45it/s]Training 1/3 epoch (loss 0.0020):  13%|█▎        | 2149/16950 [26:03<2:49:37,  1.45it/s]Training 1/3 epoch (loss 0.0020):  13%|█▎        | 2150/16950 [26:03<2:35:42,  1.58it/s]Training 1/3 epoch (loss 0.0089):  13%|█▎        | 2150/16950 [26:04<2:35:42,  1.58it/s]Training 1/3 epoch (loss 0.0089):  13%|█▎        | 2151/16950 [26:04<2:23:21,  1.72it/s]Training 1/3 epoch (loss 0.1204):  13%|█▎        | 2151/16950 [26:04<2:23:21,  1.72it/s]Training 1/3 epoch (loss 0.1204):  13%|█▎        | 2152/16950 [26:04<2:31:57,  1.62it/s]Training 1/3 epoch (loss 0.5311):  13%|█▎        | 2152/16950 [26:05<2:31:57,  1.62it/s]Training 1/3 epoch (loss 0.5311):  13%|█▎        | 2153/16950 [26:05<2:37:39,  1.56it/s]Training 1/3 epoch (loss 0.0018):  13%|█▎        | 2153/16950 [26:06<2:37:39,  1.56it/s]Training 1/3 epoch (loss 0.0018):  13%|█▎        | 2154/16950 [26:06<2:29:19,  1.65it/s]Training 1/3 epoch (loss 0.0054):  13%|█▎        | 2154/16950 [26:06<2:29:19,  1.65it/s]Training 1/3 epoch (loss 0.0054):  13%|█▎        | 2155/16950 [26:06<2:24:56,  1.70it/s]Training 1/3 epoch (loss 0.2121):  13%|█▎        | 2155/16950 [26:07<2:24:56,  1.70it/s]Training 1/3 epoch (loss 0.2121):  13%|█▎        | 2156/16950 [26:07<2:18:38,  1.78it/s]Training 1/3 epoch (loss 0.0033):  13%|█▎        | 2156/16950 [26:07<2:18:38,  1.78it/s]Training 1/3 epoch (loss 0.0033):  13%|█▎        | 2157/16950 [26:07<2:17:21,  1.79it/s]Training 1/3 epoch (loss 0.0160):  13%|█▎        | 2157/16950 [26:08<2:17:21,  1.79it/s]Training 1/3 epoch (loss 0.0160):  13%|█▎        | 2158/16950 [26:08<2:08:35,  1.92it/s]Training 1/3 epoch (loss 0.0070):  13%|█▎        | 2158/16950 [26:09<2:08:35,  1.92it/s]Training 1/3 epoch (loss 0.0070):  13%|█▎        | 2159/16950 [26:09<2:42:17,  1.52it/s]Training 1/3 epoch (loss 0.0687):  13%|█▎        | 2159/16950 [26:09<2:42:17,  1.52it/s]Training 1/3 epoch (loss 0.0687):  13%|█▎        | 2160/16950 [26:09<2:50:24,  1.45it/s]Training 1/3 epoch (loss 0.0240):  13%|█▎        | 2160/16950 [26:10<2:50:24,  1.45it/s]Training 1/3 epoch (loss 0.0240):  13%|█▎        | 2161/16950 [26:10<2:48:12,  1.47it/s]Training 1/3 epoch (loss 0.3986):  13%|█▎        | 2161/16950 [26:11<2:48:12,  1.47it/s]Training 1/3 epoch (loss 0.3986):  13%|█▎        | 2162/16950 [26:11<2:38:15,  1.56it/s]Training 1/3 epoch (loss 0.2909):  13%|█▎        | 2162/16950 [26:11<2:38:15,  1.56it/s]Training 1/3 epoch (loss 0.2909):  13%|█▎        | 2163/16950 [26:11<2:22:01,  1.74it/s]Training 1/3 epoch (loss 0.3328):  13%|█▎        | 2163/16950 [26:12<2:22:01,  1.74it/s]Training 1/3 epoch (loss 0.3328):  13%|█▎        | 2164/16950 [26:12<2:35:36,  1.58it/s]Training 1/3 epoch (loss 0.5784):  13%|█▎        | 2164/16950 [26:12<2:35:36,  1.58it/s]Training 1/3 epoch (loss 0.5784):  13%|█▎        | 2165/16950 [26:12<2:18:46,  1.78it/s]Training 1/3 epoch (loss 0.0256):  13%|█▎        | 2165/16950 [26:13<2:18:46,  1.78it/s]Training 1/3 epoch (loss 0.0256):  13%|█▎        | 2166/16950 [26:13<2:28:25,  1.66it/s]Training 1/3 epoch (loss 0.0916):  13%|█▎        | 2166/16950 [26:13<2:28:25,  1.66it/s]Training 1/3 epoch (loss 0.0916):  13%|█▎        | 2167/16950 [26:13<2:26:54,  1.68it/s]Training 1/3 epoch (loss 0.2991):  13%|█▎        | 2167/16950 [26:14<2:26:54,  1.68it/s]Training 1/3 epoch (loss 0.2991):  13%|█▎        | 2168/16950 [26:14<2:15:05,  1.82it/s]Training 1/3 epoch (loss 0.2698):  13%|█▎        | 2168/16950 [26:14<2:15:05,  1.82it/s]Training 1/3 epoch (loss 0.2698):  13%|█▎        | 2169/16950 [26:14<2:20:59,  1.75it/s]Training 1/3 epoch (loss 0.0186):  13%|█▎        | 2169/16950 [26:15<2:20:59,  1.75it/s]Training 1/3 epoch (loss 0.0186):  13%|█▎        | 2170/16950 [26:15<2:27:23,  1.67it/s]Training 1/3 epoch (loss 0.0627):  13%|█▎        | 2170/16950 [26:16<2:27:23,  1.67it/s]Training 1/3 epoch (loss 0.0627):  13%|█▎        | 2171/16950 [26:16<2:36:13,  1.58it/s]Training 1/3 epoch (loss 0.0013):  13%|█▎        | 2171/16950 [26:16<2:36:13,  1.58it/s]Training 1/3 epoch (loss 0.0013):  13%|█▎        | 2172/16950 [26:16<2:26:47,  1.68it/s]Training 1/3 epoch (loss 1.0767):  13%|█▎        | 2172/16950 [26:17<2:26:47,  1.68it/s]Training 1/3 epoch (loss 1.0767):  13%|█▎        | 2173/16950 [26:17<2:45:58,  1.48it/s]Training 1/3 epoch (loss 0.0194):  13%|█▎        | 2173/16950 [26:18<2:45:58,  1.48it/s]Training 1/3 epoch (loss 0.0194):  13%|█▎        | 2174/16950 [26:18<2:56:31,  1.40it/s]Training 1/3 epoch (loss 0.4421):  13%|█▎        | 2174/16950 [26:19<2:56:31,  1.40it/s]Training 1/3 epoch (loss 0.4421):  13%|█▎        | 2175/16950 [26:19<3:17:16,  1.25it/s]Training 1/3 epoch (loss 0.0381):  13%|█▎        | 2175/16950 [26:20<3:17:16,  1.25it/s]Training 1/3 epoch (loss 0.0381):  13%|█▎        | 2176/16950 [26:20<3:18:15,  1.24it/s]Training 1/3 epoch (loss 0.0078):  13%|█▎        | 2176/16950 [26:20<3:18:15,  1.24it/s]Training 1/3 epoch (loss 0.0078):  13%|█▎        | 2177/16950 [26:20<2:57:39,  1.39it/s]Training 1/3 epoch (loss 0.0144):  13%|█▎        | 2177/16950 [26:21<2:57:39,  1.39it/s]Training 1/3 epoch (loss 0.0144):  13%|█▎        | 2178/16950 [26:21<2:40:34,  1.53it/s]Training 1/3 epoch (loss 0.0007):  13%|█▎        | 2178/16950 [26:22<2:40:34,  1.53it/s]Training 1/3 epoch (loss 0.0007):  13%|█▎        | 2179/16950 [26:22<2:39:15,  1.55it/s]Training 1/3 epoch (loss 0.2178):  13%|█▎        | 2179/16950 [26:22<2:39:15,  1.55it/s]Training 1/3 epoch (loss 0.2178):  13%|█▎        | 2180/16950 [26:22<2:30:24,  1.64it/s]Training 1/3 epoch (loss 0.2685):  13%|█▎        | 2180/16950 [26:23<2:30:24,  1.64it/s]Training 1/3 epoch (loss 0.2685):  13%|█▎        | 2181/16950 [26:23<2:34:01,  1.60it/s]Training 1/3 epoch (loss 0.5824):  13%|█▎        | 2181/16950 [26:23<2:34:01,  1.60it/s]Training 1/3 epoch (loss 0.5824):  13%|█▎        | 2182/16950 [26:23<2:21:53,  1.73it/s]Training 1/3 epoch (loss 0.0641):  13%|█▎        | 2182/16950 [26:24<2:21:53,  1.73it/s]Training 1/3 epoch (loss 0.0641):  13%|█▎        | 2183/16950 [26:24<2:17:56,  1.78it/s]Training 1/3 epoch (loss 0.0256):  13%|█▎        | 2183/16950 [26:24<2:17:56,  1.78it/s]Training 1/3 epoch (loss 0.0256):  13%|█▎        | 2184/16950 [26:24<2:21:27,  1.74it/s]Training 1/3 epoch (loss 0.0202):  13%|█▎        | 2184/16950 [26:25<2:21:27,  1.74it/s]Training 1/3 epoch (loss 0.0202):  13%|█▎        | 2185/16950 [26:25<2:18:02,  1.78it/s]Training 1/3 epoch (loss 0.0020):  13%|█▎        | 2185/16950 [26:25<2:18:02,  1.78it/s]Training 1/3 epoch (loss 0.0020):  13%|█▎        | 2186/16950 [26:25<2:16:42,  1.80it/s]Training 1/3 epoch (loss 0.2918):  13%|█▎        | 2186/16950 [26:26<2:16:42,  1.80it/s]Training 1/3 epoch (loss 0.2918):  13%|█▎        | 2187/16950 [26:26<2:13:47,  1.84it/s]Training 1/3 epoch (loss 0.1442):  13%|█▎        | 2187/16950 [26:26<2:13:47,  1.84it/s]Training 1/3 epoch (loss 0.1442):  13%|█▎        | 2188/16950 [26:26<2:14:53,  1.82it/s]Training 1/3 epoch (loss 0.1835):  13%|█▎        | 2188/16950 [26:27<2:14:53,  1.82it/s]Training 1/3 epoch (loss 0.1835):  13%|█▎        | 2189/16950 [26:27<2:26:44,  1.68it/s]Training 1/3 epoch (loss 0.0960):  13%|█▎        | 2189/16950 [26:28<2:26:44,  1.68it/s]Training 1/3 epoch (loss 0.0960):  13%|█▎        | 2190/16950 [26:28<2:48:11,  1.46it/s]Training 1/3 epoch (loss 0.2999):  13%|█▎        | 2190/16950 [26:28<2:48:11,  1.46it/s]Training 1/3 epoch (loss 0.2999):  13%|█▎        | 2191/16950 [26:28<2:30:31,  1.63it/s]Training 1/3 epoch (loss 0.0019):  13%|█▎        | 2191/16950 [26:29<2:30:31,  1.63it/s]Training 1/3 epoch (loss 0.0019):  13%|█▎        | 2192/16950 [26:29<2:20:46,  1.75it/s]Training 1/3 epoch (loss 0.1622):  13%|█▎        | 2192/16950 [26:30<2:20:46,  1.75it/s]Training 1/3 epoch (loss 0.1622):  13%|█▎        | 2193/16950 [26:30<2:18:29,  1.78it/s]Training 1/3 epoch (loss 0.3434):  13%|█▎        | 2193/16950 [26:30<2:18:29,  1.78it/s]Training 1/3 epoch (loss 0.3434):  13%|█▎        | 2194/16950 [26:30<2:08:36,  1.91it/s]Training 1/3 epoch (loss 0.1961):  13%|█▎        | 2194/16950 [26:31<2:08:36,  1.91it/s]Training 1/3 epoch (loss 0.1961):  13%|█▎        | 2195/16950 [26:31<2:19:40,  1.76it/s]Training 1/3 epoch (loss 0.0016):  13%|█▎        | 2195/16950 [26:31<2:19:40,  1.76it/s]Training 1/3 epoch (loss 0.0016):  13%|█▎        | 2196/16950 [26:31<2:20:02,  1.76it/s]Training 1/3 epoch (loss 0.4348):  13%|█▎        | 2196/16950 [26:32<2:20:02,  1.76it/s]Training 1/3 epoch (loss 0.4348):  13%|█▎        | 2197/16950 [26:32<2:19:13,  1.77it/s]Training 1/3 epoch (loss 0.4234):  13%|█▎        | 2197/16950 [26:32<2:19:13,  1.77it/s]Training 1/3 epoch (loss 0.4234):  13%|█▎        | 2198/16950 [26:32<2:25:49,  1.69it/s]Training 1/3 epoch (loss 0.0015):  13%|█▎        | 2198/16950 [26:33<2:25:49,  1.69it/s]Training 1/3 epoch (loss 0.0015):  13%|█▎        | 2199/16950 [26:33<2:21:25,  1.74it/s]Training 1/3 epoch (loss 0.3052):  13%|█▎        | 2199/16950 [26:34<2:21:25,  1.74it/s]Training 1/3 epoch (loss 0.3052):  13%|█▎        | 2200/16950 [26:34<2:21:17,  1.74it/s]Training 1/3 epoch (loss 0.2563):  13%|█▎        | 2200/16950 [26:34<2:21:17,  1.74it/s]Training 1/3 epoch (loss 0.2563):  13%|█▎        | 2201/16950 [26:34<2:16:01,  1.81it/s]Training 1/3 epoch (loss 0.0017):  13%|█▎        | 2201/16950 [26:35<2:16:01,  1.81it/s]Training 1/3 epoch (loss 0.0017):  13%|█▎        | 2202/16950 [26:35<2:13:00,  1.85it/s]Training 1/3 epoch (loss 0.0648):  13%|█▎        | 2202/16950 [26:35<2:13:00,  1.85it/s]Training 1/3 epoch (loss 0.0648):  13%|█▎        | 2203/16950 [26:35<2:07:58,  1.92it/s]Training 1/3 epoch (loss 0.0592):  13%|█▎        | 2203/16950 [26:35<2:07:58,  1.92it/s]Training 1/3 epoch (loss 0.0592):  13%|█▎        | 2204/16950 [26:35<2:04:26,  1.98it/s]Training 1/3 epoch (loss 0.0041):  13%|█▎        | 2204/16950 [26:36<2:04:26,  1.98it/s]Training 1/3 epoch (loss 0.0041):  13%|█▎        | 2205/16950 [26:36<2:14:31,  1.83it/s]Training 1/3 epoch (loss 0.3616):  13%|█▎        | 2205/16950 [26:37<2:14:31,  1.83it/s]Training 1/3 epoch (loss 0.3616):  13%|█▎        | 2206/16950 [26:37<2:14:09,  1.83it/s]Training 1/3 epoch (loss 0.5901):  13%|█▎        | 2206/16950 [26:38<2:14:09,  1.83it/s]Training 1/3 epoch (loss 0.5901):  13%|█▎        | 2207/16950 [26:38<3:00:06,  1.36it/s]Training 1/3 epoch (loss 0.0148):  13%|█▎        | 2207/16950 [26:38<3:00:06,  1.36it/s]Training 1/3 epoch (loss 0.0148):  13%|█▎        | 2208/16950 [26:38<2:45:54,  1.48it/s]Training 1/3 epoch (loss 0.1692):  13%|█▎        | 2208/16950 [26:39<2:45:54,  1.48it/s]Training 1/3 epoch (loss 0.1692):  13%|█▎        | 2209/16950 [26:39<2:26:10,  1.68it/s]Training 1/3 epoch (loss 0.9002):  13%|█▎        | 2209/16950 [26:40<2:26:10,  1.68it/s]Training 1/3 epoch (loss 0.9002):  13%|█▎        | 2210/16950 [26:40<2:38:52,  1.55it/s]Training 1/3 epoch (loss 0.0452):  13%|█▎        | 2210/16950 [26:40<2:38:52,  1.55it/s]Training 1/3 epoch (loss 0.0452):  13%|█▎        | 2211/16950 [26:40<2:44:36,  1.49it/s]Training 1/3 epoch (loss 0.0081):  13%|█▎        | 2211/16950 [26:41<2:44:36,  1.49it/s]Training 1/3 epoch (loss 0.0081):  13%|█▎        | 2212/16950 [26:41<2:28:27,  1.65it/s]Training 1/3 epoch (loss 0.1131):  13%|█▎        | 2212/16950 [26:41<2:28:27,  1.65it/s]Training 1/3 epoch (loss 0.1131):  13%|█▎        | 2213/16950 [26:41<2:23:19,  1.71it/s]Training 1/3 epoch (loss 0.0398):  13%|█▎        | 2213/16950 [26:42<2:23:19,  1.71it/s]Training 1/3 epoch (loss 0.0398):  13%|█▎        | 2214/16950 [26:42<2:27:43,  1.66it/s]Training 1/3 epoch (loss 0.0257):  13%|█▎        | 2214/16950 [26:43<2:27:43,  1.66it/s]Training 1/3 epoch (loss 0.0257):  13%|█▎        | 2215/16950 [26:43<2:33:03,  1.60it/s]Training 1/3 epoch (loss 0.2568):  13%|█▎        | 2215/16950 [26:43<2:33:03,  1.60it/s]Training 1/3 epoch (loss 0.2568):  13%|█▎        | 2216/16950 [26:43<2:31:47,  1.62it/s]Training 1/3 epoch (loss 0.0675):  13%|█▎        | 2216/16950 [26:44<2:31:47,  1.62it/s]Training 1/3 epoch (loss 0.0675):  13%|█▎        | 2217/16950 [26:44<2:24:02,  1.70it/s]Training 1/3 epoch (loss 0.3909):  13%|█▎        | 2217/16950 [26:44<2:24:02,  1.70it/s]Training 1/3 epoch (loss 0.3909):  13%|█▎        | 2218/16950 [26:44<2:12:12,  1.86it/s]Training 1/3 epoch (loss 0.0043):  13%|█▎        | 2218/16950 [26:44<2:12:12,  1.86it/s]Training 1/3 epoch (loss 0.0043):  13%|█▎        | 2219/16950 [26:44<2:00:27,  2.04it/s]Training 1/3 epoch (loss 0.5344):  13%|█▎        | 2219/16950 [26:45<2:00:27,  2.04it/s]Training 1/3 epoch (loss 0.5344):  13%|█▎        | 2220/16950 [26:45<2:10:06,  1.89it/s]Training 1/3 epoch (loss 0.1260):  13%|█▎        | 2220/16950 [26:46<2:10:06,  1.89it/s]Training 1/3 epoch (loss 0.1260):  13%|█▎        | 2221/16950 [26:46<2:21:47,  1.73it/s]Training 1/3 epoch (loss 0.0972):  13%|█▎        | 2221/16950 [26:46<2:21:47,  1.73it/s]Training 1/3 epoch (loss 0.0972):  13%|█▎        | 2222/16950 [26:46<2:28:53,  1.65it/s]Training 1/3 epoch (loss 0.2110):  13%|█▎        | 2222/16950 [26:47<2:28:53,  1.65it/s]Training 1/3 epoch (loss 0.2110):  13%|█▎        | 2223/16950 [26:47<2:38:04,  1.55it/s]Training 1/3 epoch (loss 0.4281):  13%|█▎        | 2223/16950 [26:48<2:38:04,  1.55it/s]Training 1/3 epoch (loss 0.4281):  13%|█▎        | 2224/16950 [26:48<2:33:01,  1.60it/s]Training 1/3 epoch (loss 0.0021):  13%|█▎        | 2224/16950 [26:48<2:33:01,  1.60it/s]Training 1/3 epoch (loss 0.0021):  13%|█▎        | 2225/16950 [26:48<2:35:40,  1.58it/s]Training 1/3 epoch (loss 0.1557):  13%|█▎        | 2225/16950 [26:49<2:35:40,  1.58it/s]Training 1/3 epoch (loss 0.1557):  13%|█▎        | 2226/16950 [26:49<2:37:26,  1.56it/s]Training 1/3 epoch (loss 0.2168):  13%|█▎        | 2226/16950 [26:50<2:37:26,  1.56it/s]Training 1/3 epoch (loss 0.2168):  13%|█▎        | 2227/16950 [26:50<2:31:33,  1.62it/s]Training 1/3 epoch (loss 0.0092):  13%|█▎        | 2227/16950 [26:50<2:31:33,  1.62it/s]Training 1/3 epoch (loss 0.0092):  13%|█▎        | 2228/16950 [26:50<2:25:30,  1.69it/s]Training 1/3 epoch (loss 0.0868):  13%|█▎        | 2228/16950 [26:51<2:25:30,  1.69it/s]Training 1/3 epoch (loss 0.0868):  13%|█▎        | 2229/16950 [26:51<2:25:05,  1.69it/s]Training 1/3 epoch (loss 0.0357):  13%|█▎        | 2229/16950 [26:51<2:25:05,  1.69it/s]Training 1/3 epoch (loss 0.0357):  13%|█▎        | 2230/16950 [26:51<2:26:07,  1.68it/s]Training 1/3 epoch (loss 0.4476):  13%|█▎        | 2230/16950 [26:52<2:26:07,  1.68it/s]Training 1/3 epoch (loss 0.4476):  13%|█▎        | 2231/16950 [26:52<2:36:30,  1.57it/s]Training 1/3 epoch (loss 0.0162):  13%|█▎        | 2231/16950 [26:53<2:36:30,  1.57it/s]Training 1/3 epoch (loss 0.0162):  13%|█▎        | 2232/16950 [26:53<2:33:10,  1.60it/s]Training 1/3 epoch (loss 0.0271):  13%|█▎        | 2232/16950 [26:53<2:33:10,  1.60it/s]Training 1/3 epoch (loss 0.0271):  13%|█▎        | 2233/16950 [26:53<2:19:50,  1.75it/s]Training 1/3 epoch (loss 0.9731):  13%|█▎        | 2233/16950 [26:54<2:19:50,  1.75it/s]Training 1/3 epoch (loss 0.9731):  13%|█▎        | 2234/16950 [26:54<2:15:28,  1.81it/s]Training 1/3 epoch (loss 0.0234):  13%|█▎        | 2234/16950 [26:54<2:15:28,  1.81it/s]Training 1/3 epoch (loss 0.0234):  13%|█▎        | 2235/16950 [26:54<2:21:19,  1.74it/s]Training 1/3 epoch (loss 0.5119):  13%|█▎        | 2235/16950 [26:55<2:21:19,  1.74it/s]Training 1/3 epoch (loss 0.5119):  13%|█▎        | 2236/16950 [26:55<2:28:01,  1.66it/s]Training 1/3 epoch (loss 0.0056):  13%|█▎        | 2236/16950 [26:55<2:28:01,  1.66it/s]Training 1/3 epoch (loss 0.0056):  13%|█▎        | 2237/16950 [26:55<2:14:48,  1.82it/s]Training 1/3 epoch (loss 0.4781):  13%|█▎        | 2237/16950 [26:56<2:14:48,  1.82it/s]Training 1/3 epoch (loss 0.4781):  13%|█▎        | 2238/16950 [26:56<2:31:07,  1.62it/s]Training 1/3 epoch (loss 0.2906):  13%|█▎        | 2238/16950 [26:57<2:31:07,  1.62it/s]Training 1/3 epoch (loss 0.2906):  13%|█▎        | 2239/16950 [26:57<2:15:53,  1.80it/s]Training 1/3 epoch (loss 0.6632):  13%|█▎        | 2239/16950 [26:57<2:15:53,  1.80it/s]Training 1/3 epoch (loss 0.6632):  13%|█▎        | 2240/16950 [26:57<2:00:46,  2.03it/s]Training 1/3 epoch (loss 0.0292):  13%|█▎        | 2240/16950 [26:57<2:00:46,  2.03it/s]Training 1/3 epoch (loss 0.0292):  13%|█▎        | 2241/16950 [26:57<2:06:39,  1.94it/s]Training 1/3 epoch (loss 0.1930):  13%|█▎        | 2241/16950 [26:58<2:06:39,  1.94it/s]Training 1/3 epoch (loss 0.1930):  13%|█▎        | 2242/16950 [26:58<2:10:09,  1.88it/s]Training 1/3 epoch (loss 0.0222):  13%|█▎        | 2242/16950 [26:58<2:10:09,  1.88it/s]Training 1/3 epoch (loss 0.0222):  13%|█▎        | 2243/16950 [26:58<2:01:15,  2.02it/s]Training 1/3 epoch (loss 0.0075):  13%|█▎        | 2243/16950 [26:59<2:01:15,  2.02it/s]Training 1/3 epoch (loss 0.0075):  13%|█▎        | 2244/16950 [26:59<2:10:01,  1.88it/s]Training 1/3 epoch (loss 0.0300):  13%|█▎        | 2244/16950 [27:00<2:10:01,  1.88it/s]Training 1/3 epoch (loss 0.0300):  13%|█▎        | 2245/16950 [27:00<2:06:21,  1.94it/s]Training 1/3 epoch (loss 0.0357):  13%|█▎        | 2245/16950 [27:00<2:06:21,  1.94it/s]Training 1/3 epoch (loss 0.0357):  13%|█▎        | 2246/16950 [27:00<2:33:07,  1.60it/s]Training 1/3 epoch (loss 0.0320):  13%|█▎        | 2246/16950 [27:01<2:33:07,  1.60it/s]Training 1/3 epoch (loss 0.0320):  13%|█▎        | 2247/16950 [27:01<2:26:18,  1.67it/s]Training 1/3 epoch (loss 0.5056):  13%|█▎        | 2247/16950 [27:01<2:26:18,  1.67it/s]Training 1/3 epoch (loss 0.5056):  13%|█▎        | 2248/16950 [27:01<2:11:54,  1.86it/s]Training 1/3 epoch (loss 0.4156):  13%|█▎        | 2248/16950 [27:02<2:11:54,  1.86it/s]Training 1/3 epoch (loss 0.4156):  13%|█▎        | 2249/16950 [27:02<2:32:35,  1.61it/s]Training 1/3 epoch (loss 0.0350):  13%|█▎        | 2249/16950 [27:03<2:32:35,  1.61it/s]Training 1/3 epoch (loss 0.0350):  13%|█▎        | 2250/16950 [27:03<2:33:26,  1.60it/s]Training 1/3 epoch (loss 0.3039):  13%|█▎        | 2250/16950 [27:03<2:33:26,  1.60it/s]Training 1/3 epoch (loss 0.3039):  13%|█▎        | 2251/16950 [27:03<2:16:59,  1.79it/s]Training 1/3 epoch (loss 0.1437):  13%|█▎        | 2251/16950 [27:04<2:16:59,  1.79it/s]Training 1/3 epoch (loss 0.1437):  13%|█▎        | 2252/16950 [27:04<2:20:44,  1.74it/s]Training 1/3 epoch (loss 0.6548):  13%|█▎        | 2252/16950 [27:04<2:20:44,  1.74it/s]Training 1/3 epoch (loss 0.6548):  13%|█▎        | 2253/16950 [27:04<2:14:05,  1.83it/s]Training 1/3 epoch (loss 0.4900):  13%|█▎        | 2253/16950 [27:05<2:14:05,  1.83it/s]Training 1/3 epoch (loss 0.4900):  13%|█▎        | 2254/16950 [27:05<2:05:40,  1.95it/s]Training 1/3 epoch (loss 0.0151):  13%|█▎        | 2254/16950 [27:05<2:05:40,  1.95it/s]Training 1/3 epoch (loss 0.0151):  13%|█▎        | 2255/16950 [27:05<2:00:04,  2.04it/s]Training 1/3 epoch (loss 0.0221):  13%|█▎        | 2255/16950 [27:06<2:00:04,  2.04it/s]Training 1/3 epoch (loss 0.0221):  13%|█▎        | 2256/16950 [27:06<2:06:04,  1.94it/s]Training 1/3 epoch (loss 0.3800):  13%|█▎        | 2256/16950 [27:06<2:06:04,  1.94it/s]Training 1/3 epoch (loss 0.3800):  13%|█▎        | 2257/16950 [27:06<2:02:08,  2.00it/s]Training 1/3 epoch (loss 0.7075):  13%|█▎        | 2257/16950 [27:07<2:02:08,  2.00it/s]Training 1/3 epoch (loss 0.7075):  13%|█▎        | 2258/16950 [27:07<2:16:23,  1.80it/s]Training 1/3 epoch (loss 0.4447):  13%|█▎        | 2258/16950 [27:08<2:16:23,  1.80it/s]Training 1/3 epoch (loss 0.4447):  13%|█▎        | 2259/16950 [27:08<2:28:05,  1.65it/s]Training 1/3 epoch (loss 0.4551):  13%|█▎        | 2259/16950 [27:08<2:28:05,  1.65it/s]Training 1/3 epoch (loss 0.4551):  13%|█▎        | 2260/16950 [27:08<2:31:37,  1.61it/s]Training 1/3 epoch (loss 0.0085):  13%|█▎        | 2260/16950 [27:09<2:31:37,  1.61it/s]Training 1/3 epoch (loss 0.0085):  13%|█▎        | 2261/16950 [27:09<2:34:54,  1.58it/s]Training 1/3 epoch (loss 0.1867):  13%|█▎        | 2261/16950 [27:09<2:34:54,  1.58it/s]Training 1/3 epoch (loss 0.1867):  13%|█▎        | 2262/16950 [27:09<2:24:39,  1.69it/s]Training 1/3 epoch (loss 0.5704):  13%|█▎        | 2262/16950 [27:10<2:24:39,  1.69it/s]Training 1/3 epoch (loss 0.5704):  13%|█▎        | 2263/16950 [27:10<2:36:45,  1.56it/s]Training 1/3 epoch (loss 0.0057):  13%|█▎        | 2263/16950 [27:11<2:36:45,  1.56it/s]Training 1/3 epoch (loss 0.0057):  13%|█▎        | 2264/16950 [27:11<2:29:24,  1.64it/s]Training 1/3 epoch (loss 0.0127):  13%|█▎        | 2264/16950 [27:11<2:29:24,  1.64it/s]Training 1/3 epoch (loss 0.0127):  13%|█▎        | 2265/16950 [27:11<2:19:08,  1.76it/s]Training 1/3 epoch (loss 0.0089):  13%|█▎        | 2265/16950 [27:12<2:19:08,  1.76it/s]Training 1/3 epoch (loss 0.0089):  13%|█▎        | 2266/16950 [27:12<2:18:26,  1.77it/s]Training 1/3 epoch (loss 0.0300):  13%|█▎        | 2266/16950 [27:12<2:18:26,  1.77it/s]Training 1/3 epoch (loss 0.0300):  13%|█▎        | 2267/16950 [27:12<2:19:20,  1.76it/s]Training 1/3 epoch (loss 0.6658):  13%|█▎        | 2267/16950 [27:13<2:19:20,  1.76it/s]Training 1/3 epoch (loss 0.6658):  13%|█▎        | 2268/16950 [27:13<2:58:54,  1.37it/s]Training 1/3 epoch (loss 0.4672):  13%|█▎        | 2268/16950 [27:14<2:58:54,  1.37it/s]Training 1/3 epoch (loss 0.4672):  13%|█▎        | 2269/16950 [27:14<2:56:03,  1.39it/s]Training 1/3 epoch (loss 0.0658):  13%|█▎        | 2269/16950 [27:15<2:56:03,  1.39it/s]Training 1/3 epoch (loss 0.0658):  13%|█▎        | 2270/16950 [27:15<2:28:57,  1.64it/s]Training 1/3 epoch (loss 0.0143):  13%|█▎        | 2270/16950 [27:15<2:28:57,  1.64it/s]Training 1/3 epoch (loss 0.0143):  13%|█▎        | 2271/16950 [27:15<2:15:13,  1.81it/s]Training 1/3 epoch (loss 0.0563):  13%|█▎        | 2271/16950 [27:16<2:15:13,  1.81it/s]Training 1/3 epoch (loss 0.0563):  13%|█▎        | 2272/16950 [27:16<2:19:34,  1.75it/s]Training 1/3 epoch (loss 0.1946):  13%|█▎        | 2272/16950 [27:16<2:19:34,  1.75it/s]Training 1/3 epoch (loss 0.1946):  13%|█▎        | 2273/16950 [27:16<2:13:20,  1.83it/s]Training 1/3 epoch (loss 0.2969):  13%|█▎        | 2273/16950 [27:17<2:13:20,  1.83it/s]Training 1/3 epoch (loss 0.2969):  13%|█▎        | 2274/16950 [27:17<2:21:25,  1.73it/s]Training 1/3 epoch (loss 0.0992):  13%|█▎        | 2274/16950 [27:17<2:21:25,  1.73it/s]Training 1/3 epoch (loss 0.0992):  13%|█▎        | 2275/16950 [27:17<2:34:16,  1.59it/s]Training 1/3 epoch (loss 0.5648):  13%|█▎        | 2275/16950 [27:18<2:34:16,  1.59it/s]Training 1/3 epoch (loss 0.5648):  13%|█▎        | 2276/16950 [27:18<2:42:28,  1.51it/s]Training 1/3 epoch (loss 0.0018):  13%|█▎        | 2276/16950 [27:19<2:42:28,  1.51it/s]Training 1/3 epoch (loss 0.0018):  13%|█▎        | 2277/16950 [27:19<2:35:45,  1.57it/s]Training 1/3 epoch (loss 0.0036):  13%|█▎        | 2277/16950 [27:19<2:35:45,  1.57it/s]Training 1/3 epoch (loss 0.0036):  13%|█▎        | 2278/16950 [27:19<2:22:46,  1.71it/s]Training 1/3 epoch (loss 0.0577):  13%|█▎        | 2278/16950 [27:20<2:22:46,  1.71it/s]Training 1/3 epoch (loss 0.0577):  13%|█▎        | 2279/16950 [27:20<2:18:16,  1.77it/s]Training 1/3 epoch (loss 0.0243):  13%|█▎        | 2279/16950 [27:20<2:18:16,  1.77it/s]Training 1/3 epoch (loss 0.0243):  13%|█▎        | 2280/16950 [27:20<2:10:04,  1.88it/s]Training 1/3 epoch (loss 0.0456):  13%|█▎        | 2280/16950 [27:21<2:10:04,  1.88it/s]Training 1/3 epoch (loss 0.0456):  13%|█▎        | 2281/16950 [27:21<2:08:57,  1.90it/s]Training 1/3 epoch (loss 0.6911):  13%|█▎        | 2281/16950 [27:21<2:08:57,  1.90it/s]Training 1/3 epoch (loss 0.6911):  13%|█▎        | 2282/16950 [27:21<2:24:52,  1.69it/s]Training 1/3 epoch (loss 0.2443):  13%|█▎        | 2282/16950 [27:22<2:24:52,  1.69it/s]Training 1/3 epoch (loss 0.2443):  13%|█▎        | 2283/16950 [27:22<2:23:41,  1.70it/s]Training 1/3 epoch (loss 0.2507):  13%|█▎        | 2283/16950 [27:22<2:23:41,  1.70it/s]Training 1/3 epoch (loss 0.2507):  13%|█▎        | 2284/16950 [27:22<2:13:33,  1.83it/s]Training 1/3 epoch (loss 0.3406):  13%|█▎        | 2284/16950 [27:23<2:13:33,  1.83it/s]Training 1/3 epoch (loss 0.3406):  13%|█▎        | 2285/16950 [27:23<2:09:20,  1.89it/s]Training 1/3 epoch (loss 0.0928):  13%|█▎        | 2285/16950 [27:24<2:09:20,  1.89it/s]Training 1/3 epoch (loss 0.0928):  13%|█▎        | 2286/16950 [27:24<2:23:51,  1.70it/s]Training 1/3 epoch (loss 0.4481):  13%|█▎        | 2286/16950 [27:24<2:23:51,  1.70it/s]Training 1/3 epoch (loss 0.4481):  13%|█▎        | 2287/16950 [27:24<2:38:32,  1.54it/s]Training 1/3 epoch (loss 0.2511):  13%|█▎        | 2287/16950 [27:25<2:38:32,  1.54it/s]Training 1/3 epoch (loss 0.2511):  13%|█▎        | 2288/16950 [27:25<2:29:34,  1.63it/s]Training 1/3 epoch (loss 0.4416):  13%|█▎        | 2288/16950 [27:25<2:29:34,  1.63it/s]Training 1/3 epoch (loss 0.4416):  14%|█▎        | 2289/16950 [27:25<2:16:52,  1.79it/s]Training 1/3 epoch (loss 0.4012):  14%|█▎        | 2289/16950 [27:26<2:16:52,  1.79it/s]Training 1/3 epoch (loss 0.4012):  14%|█▎        | 2290/16950 [27:26<2:20:46,  1.74it/s]Training 1/3 epoch (loss 0.2511):  14%|█▎        | 2290/16950 [27:27<2:20:46,  1.74it/s]Training 1/3 epoch (loss 0.2511):  14%|█▎        | 2291/16950 [27:27<2:51:38,  1.42it/s]Training 1/3 epoch (loss 0.0352):  14%|█▎        | 2291/16950 [27:28<2:51:38,  1.42it/s]Training 1/3 epoch (loss 0.0352):  14%|█▎        | 2292/16950 [27:28<2:38:44,  1.54it/s]Training 1/3 epoch (loss 0.4401):  14%|█▎        | 2292/16950 [27:28<2:38:44,  1.54it/s]Training 1/3 epoch (loss 0.4401):  14%|█▎        | 2293/16950 [27:28<2:29:54,  1.63it/s]Training 1/3 epoch (loss 0.0326):  14%|█▎        | 2293/16950 [27:29<2:29:54,  1.63it/s]Training 1/3 epoch (loss 0.0326):  14%|█▎        | 2294/16950 [27:29<2:38:13,  1.54it/s]Training 1/3 epoch (loss 0.2241):  14%|█▎        | 2294/16950 [27:29<2:38:13,  1.54it/s]Training 1/3 epoch (loss 0.2241):  14%|█▎        | 2295/16950 [27:29<2:34:27,  1.58it/s]Training 1/3 epoch (loss 0.1954):  14%|█▎        | 2295/16950 [27:30<2:34:27,  1.58it/s]Training 1/3 epoch (loss 0.1954):  14%|█▎        | 2296/16950 [27:30<2:20:15,  1.74it/s]Training 1/3 epoch (loss 0.1738):  14%|█▎        | 2296/16950 [27:31<2:20:15,  1.74it/s]Training 1/3 epoch (loss 0.1738):  14%|█▎        | 2297/16950 [27:31<2:24:32,  1.69it/s]Training 1/3 epoch (loss 0.1033):  14%|█▎        | 2297/16950 [27:31<2:24:32,  1.69it/s]Training 1/3 epoch (loss 0.1033):  14%|█▎        | 2298/16950 [27:31<2:48:07,  1.45it/s]Training 1/3 epoch (loss 0.0292):  14%|█▎        | 2298/16950 [27:32<2:48:07,  1.45it/s]Training 1/3 epoch (loss 0.0292):  14%|█▎        | 2299/16950 [27:32<2:46:23,  1.47it/s]Training 1/3 epoch (loss 0.0156):  14%|█▎        | 2299/16950 [27:33<2:46:23,  1.47it/s]Training 1/3 epoch (loss 0.0156):  14%|█▎        | 2300/16950 [27:33<2:41:29,  1.51it/s]Training 1/3 epoch (loss 0.5910):  14%|█▎        | 2300/16950 [27:33<2:41:29,  1.51it/s]Training 1/3 epoch (loss 0.5910):  14%|█▎        | 2301/16950 [27:33<2:37:06,  1.55it/s]Training 1/3 epoch (loss 0.0219):  14%|█▎        | 2301/16950 [27:34<2:37:06,  1.55it/s]Training 1/3 epoch (loss 0.0219):  14%|█▎        | 2302/16950 [27:34<2:37:13,  1.55it/s]Training 1/3 epoch (loss 0.0328):  14%|█▎        | 2302/16950 [27:35<2:37:13,  1.55it/s]Training 1/3 epoch (loss 0.0328):  14%|█▎        | 2303/16950 [27:35<2:34:18,  1.58it/s]Training 1/3 epoch (loss 0.0236):  14%|█▎        | 2303/16950 [27:35<2:34:18,  1.58it/s]Training 1/3 epoch (loss 0.0236):  14%|█▎        | 2304/16950 [27:35<2:27:38,  1.65it/s]Training 1/3 epoch (loss nan):  14%|█▎        | 2304/16950 [27:36<2:27:38,  1.65it/s]   Training 1/3 epoch (loss nan):  14%|█▎        | 2305/16950 [27:36<3:01:01,  1.35it/s]Training 1/3 epoch (loss 0.6451):  14%|█▎        | 2305/16950 [27:37<3:01:01,  1.35it/s]Training 1/3 epoch (loss 0.6451):  14%|█▎        | 2306/16950 [27:37<3:28:51,  1.17it/s]Training 1/3 epoch (loss 0.0050):  14%|█▎        | 2306/16950 [27:38<3:28:51,  1.17it/s]Training 1/3 epoch (loss 0.0050):  14%|█▎        | 2307/16950 [27:38<3:08:30,  1.29it/s]Training 1/3 epoch (loss 0.0817):  14%|█▎        | 2307/16950 [27:39<3:08:30,  1.29it/s]Training 1/3 epoch (loss 0.0817):  14%|█▎        | 2308/16950 [27:39<2:59:16,  1.36it/s]Training 1/3 epoch (loss 0.4539):  14%|█▎        | 2308/16950 [27:39<2:59:16,  1.36it/s]Training 1/3 epoch (loss 0.4539):  14%|█▎        | 2309/16950 [27:39<2:40:41,  1.52it/s]Training 1/3 epoch (loss 0.0250):  14%|█▎        | 2309/16950 [27:39<2:40:41,  1.52it/s]Training 1/3 epoch (loss 0.0250):  14%|█▎        | 2310/16950 [27:39<2:23:53,  1.70it/s]Training 1/3 epoch (loss 0.5553):  14%|█▎        | 2310/16950 [27:40<2:23:53,  1.70it/s]Training 1/3 epoch (loss 0.5553):  14%|█▎        | 2311/16950 [27:40<2:41:05,  1.51it/s]Training 1/3 epoch (loss 0.2934):  14%|█▎        | 2311/16950 [27:41<2:41:05,  1.51it/s]Training 1/3 epoch (loss 0.2934):  14%|█▎        | 2312/16950 [27:41<2:44:14,  1.49it/s]Training 1/3 epoch (loss 0.6171):  14%|█▎        | 2312/16950 [27:42<2:44:14,  1.49it/s]Training 1/3 epoch (loss 0.6171):  14%|█▎        | 2313/16950 [27:42<2:50:21,  1.43it/s]Training 1/3 epoch (loss 0.1954):  14%|█▎        | 2313/16950 [27:42<2:50:21,  1.43it/s]Training 1/3 epoch (loss 0.1954):  14%|█▎        | 2314/16950 [27:42<2:44:33,  1.48it/s]Training 1/3 epoch (loss 0.2193):  14%|█▎        | 2314/16950 [27:43<2:44:33,  1.48it/s]Training 1/3 epoch (loss 0.2193):  14%|█▎        | 2315/16950 [27:43<3:05:27,  1.32it/s]Training 1/3 epoch (loss 0.4338):  14%|█▎        | 2315/16950 [27:44<3:05:27,  1.32it/s]Training 1/3 epoch (loss 0.4338):  14%|█▎        | 2316/16950 [27:44<3:29:56,  1.16it/s]Training 1/3 epoch (loss 0.0183):  14%|█▎        | 2316/16950 [27:45<3:29:56,  1.16it/s]Training 1/3 epoch (loss 0.0183):  14%|█▎        | 2317/16950 [27:45<3:13:40,  1.26it/s]Training 1/3 epoch (loss 0.0153):  14%|█▎        | 2317/16950 [27:46<3:13:40,  1.26it/s]Training 1/3 epoch (loss 0.0153):  14%|█▎        | 2318/16950 [27:46<2:58:25,  1.37it/s]Training 1/3 epoch (loss 0.0704):  14%|█▎        | 2318/16950 [27:46<2:58:25,  1.37it/s]Training 1/3 epoch (loss 0.0704):  14%|█▎        | 2319/16950 [27:46<2:51:55,  1.42it/s]Training 1/3 epoch (loss 0.4816):  14%|█▎        | 2319/16950 [27:47<2:51:55,  1.42it/s]Training 1/3 epoch (loss 0.4816):  14%|█▎        | 2320/16950 [27:47<2:26:02,  1.67it/s]Training 1/3 epoch (loss 0.8110):  14%|█▎        | 2320/16950 [27:47<2:26:02,  1.67it/s]Training 1/3 epoch (loss 0.8110):  14%|█▎        | 2321/16950 [27:47<2:30:29,  1.62it/s]Training 1/3 epoch (loss 0.8271):  14%|█▎        | 2321/16950 [27:48<2:30:29,  1.62it/s]Training 1/3 epoch (loss 0.8271):  14%|█▎        | 2322/16950 [27:48<2:20:46,  1.73it/s]Training 1/3 epoch (loss 0.2524):  14%|█▎        | 2322/16950 [27:48<2:20:46,  1.73it/s]Training 1/3 epoch (loss 0.2524):  14%|█▎        | 2323/16950 [27:48<2:24:22,  1.69it/s]Training 1/3 epoch (loss 0.1073):  14%|█▎        | 2323/16950 [27:49<2:24:22,  1.69it/s]Training 1/3 epoch (loss 0.1073):  14%|█▎        | 2324/16950 [27:49<2:32:51,  1.59it/s]Training 1/3 epoch (loss 0.0022):  14%|█▎        | 2324/16950 [27:50<2:32:51,  1.59it/s]Training 1/3 epoch (loss 0.0022):  14%|█▎        | 2325/16950 [27:50<2:35:50,  1.56it/s]Training 1/3 epoch (loss 0.0038):  14%|█▎        | 2325/16950 [27:50<2:35:50,  1.56it/s]Training 1/3 epoch (loss 0.0038):  14%|█▎        | 2326/16950 [27:50<2:28:39,  1.64it/s]Training 1/3 epoch (loss 0.7424):  14%|█▎        | 2326/16950 [27:51<2:28:39,  1.64it/s]Training 1/3 epoch (loss 0.7424):  14%|█▎        | 2327/16950 [27:51<2:30:07,  1.62it/s]Training 1/3 epoch (loss 0.0212):  14%|█▎        | 2327/16950 [27:51<2:30:07,  1.62it/s]Training 1/3 epoch (loss 0.0212):  14%|█▎        | 2328/16950 [27:51<2:17:45,  1.77it/s]Training 1/3 epoch (loss 0.0507):  14%|█▎        | 2328/16950 [27:52<2:17:45,  1.77it/s]Training 1/3 epoch (loss 0.0507):  14%|█▎        | 2329/16950 [27:52<2:12:02,  1.85it/s]Training 1/3 epoch (loss 0.4852):  14%|█▎        | 2329/16950 [27:52<2:12:02,  1.85it/s]Training 1/3 epoch (loss 0.4852):  14%|█▎        | 2330/16950 [27:52<2:07:00,  1.92it/s]Training 1/3 epoch (loss 0.2470):  14%|█▎        | 2330/16950 [27:53<2:07:00,  1.92it/s]Training 1/3 epoch (loss 0.2470):  14%|█▍        | 2331/16950 [27:53<1:59:13,  2.04it/s]Training 1/3 epoch (loss 0.0136):  14%|█▍        | 2331/16950 [27:53<1:59:13,  2.04it/s]Training 1/3 epoch (loss 0.0136):  14%|█▍        | 2332/16950 [27:53<1:52:48,  2.16it/s]Training 1/3 epoch (loss 0.1035):  14%|█▍        | 2332/16950 [27:54<1:52:48,  2.16it/s]Training 1/3 epoch (loss 0.1035):  14%|█▍        | 2333/16950 [27:54<2:04:43,  1.95it/s]Training 1/3 epoch (loss 0.3032):  14%|█▍        | 2333/16950 [27:54<2:04:43,  1.95it/s]Training 1/3 epoch (loss 0.3032):  14%|█▍        | 2334/16950 [27:54<2:11:06,  1.86it/s]Training 1/3 epoch (loss 0.4136):  14%|█▍        | 2334/16950 [27:55<2:11:06,  1.86it/s]Training 1/3 epoch (loss 0.4136):  14%|█▍        | 2335/16950 [27:55<1:58:39,  2.05it/s]Training 1/3 epoch (loss 0.3933):  14%|█▍        | 2335/16950 [27:55<1:58:39,  2.05it/s]Training 1/3 epoch (loss 0.3933):  14%|█▍        | 2336/16950 [27:55<2:05:53,  1.93it/s]Training 1/3 epoch (loss 0.4657):  14%|█▍        | 2336/16950 [27:56<2:05:53,  1.93it/s]Training 1/3 epoch (loss 0.4657):  14%|█▍        | 2337/16950 [27:56<2:03:49,  1.97it/s]Training 1/3 epoch (loss 0.1747):  14%|█▍        | 2337/16950 [27:56<2:03:49,  1.97it/s]Training 1/3 epoch (loss 0.1747):  14%|█▍        | 2338/16950 [27:56<1:57:09,  2.08it/s]Training 1/3 epoch (loss 0.3574):  14%|█▍        | 2338/16950 [27:57<1:57:09,  2.08it/s]Training 1/3 epoch (loss 0.3574):  14%|█▍        | 2339/16950 [27:57<1:44:38,  2.33it/s]Training 1/3 epoch (loss 0.2566):  14%|█▍        | 2339/16950 [27:57<1:44:38,  2.33it/s]Training 1/3 epoch (loss 0.2566):  14%|█▍        | 2340/16950 [27:57<2:17:08,  1.78it/s]Training 1/3 epoch (loss 0.4179):  14%|█▍        | 2340/16950 [27:58<2:17:08,  1.78it/s]Training 1/3 epoch (loss 0.4179):  14%|█▍        | 2341/16950 [27:58<2:24:20,  1.69it/s]Training 1/3 epoch (loss 0.4234):  14%|█▍        | 2341/16950 [27:59<2:24:20,  1.69it/s]Training 1/3 epoch (loss 0.4234):  14%|█▍        | 2342/16950 [27:59<2:25:28,  1.67it/s]Training 1/3 epoch (loss 0.0069):  14%|█▍        | 2342/16950 [27:59<2:25:28,  1.67it/s]Training 1/3 epoch (loss 0.0069):  14%|█▍        | 2343/16950 [27:59<2:19:01,  1.75it/s]Training 1/3 epoch (loss 0.6813):  14%|█▍        | 2343/16950 [28:00<2:19:01,  1.75it/s]Training 1/3 epoch (loss 0.6813):  14%|█▍        | 2344/16950 [28:00<2:04:39,  1.95it/s]Training 1/3 epoch (loss 0.0087):  14%|█▍        | 2344/16950 [28:00<2:04:39,  1.95it/s]Training 1/3 epoch (loss 0.0087):  14%|█▍        | 2345/16950 [28:00<1:57:05,  2.08it/s]Training 1/3 epoch (loss 0.0206):  14%|█▍        | 2345/16950 [28:01<1:57:05,  2.08it/s]Training 1/3 epoch (loss 0.0206):  14%|█▍        | 2346/16950 [28:01<2:06:28,  1.92it/s]Training 1/3 epoch (loss 0.4952):  14%|█▍        | 2346/16950 [28:01<2:06:28,  1.92it/s]Training 1/3 epoch (loss 0.4952):  14%|█▍        | 2347/16950 [28:01<2:07:27,  1.91it/s]Training 1/3 epoch (loss 0.0075):  14%|█▍        | 2347/16950 [28:02<2:07:27,  1.91it/s]Training 1/3 epoch (loss 0.0075):  14%|█▍        | 2348/16950 [28:02<2:19:40,  1.74it/s]Training 1/3 epoch (loss 0.2785):  14%|█▍        | 2348/16950 [28:02<2:19:40,  1.74it/s]Training 1/3 epoch (loss 0.2785):  14%|█▍        | 2349/16950 [28:02<2:11:33,  1.85it/s]Training 1/3 epoch (loss 0.0371):  14%|█▍        | 2349/16950 [28:03<2:11:33,  1.85it/s]Training 1/3 epoch (loss 0.0371):  14%|█▍        | 2350/16950 [28:03<2:00:35,  2.02it/s]Training 1/3 epoch (loss 0.0436):  14%|█▍        | 2350/16950 [28:04<2:00:35,  2.02it/s]Training 1/3 epoch (loss 0.0436):  14%|█▍        | 2351/16950 [28:04<2:27:03,  1.65it/s]Training 1/3 epoch (loss 0.0079):  14%|█▍        | 2351/16950 [28:04<2:27:03,  1.65it/s]Training 1/3 epoch (loss 0.0079):  14%|█▍        | 2352/16950 [28:04<2:41:34,  1.51it/s]Training 1/3 epoch (loss 0.2061):  14%|█▍        | 2352/16950 [28:05<2:41:34,  1.51it/s]Training 1/3 epoch (loss 0.2061):  14%|█▍        | 2353/16950 [28:05<2:25:29,  1.67it/s]Training 1/3 epoch (loss 0.5264):  14%|█▍        | 2353/16950 [28:05<2:25:29,  1.67it/s]Training 1/3 epoch (loss 0.5264):  14%|█▍        | 2354/16950 [28:05<2:21:36,  1.72it/s]Training 1/3 epoch (loss 0.6097):  14%|█▍        | 2354/16950 [28:06<2:21:36,  1.72it/s]Training 1/3 epoch (loss 0.6097):  14%|█▍        | 2355/16950 [28:06<2:13:50,  1.82it/s]Training 1/3 epoch (loss 0.0050):  14%|█▍        | 2355/16950 [28:06<2:13:50,  1.82it/s]Training 1/3 epoch (loss 0.0050):  14%|█▍        | 2356/16950 [28:06<2:02:42,  1.98it/s]Training 1/3 epoch (loss 0.0480):  14%|█▍        | 2356/16950 [28:07<2:02:42,  1.98it/s]Training 1/3 epoch (loss 0.0480):  14%|█▍        | 2357/16950 [28:07<1:59:01,  2.04it/s]Training 1/3 epoch (loss 0.2739):  14%|█▍        | 2357/16950 [28:07<1:59:01,  2.04it/s]Training 1/3 epoch (loss 0.2739):  14%|█▍        | 2358/16950 [28:07<1:52:17,  2.17it/s]Training 1/3 epoch (loss 0.1435):  14%|█▍        | 2358/16950 [28:08<1:52:17,  2.17it/s]Training 1/3 epoch (loss 0.1435):  14%|█▍        | 2359/16950 [28:08<2:00:09,  2.02it/s]Training 1/3 epoch (loss 0.0388):  14%|█▍        | 2359/16950 [28:08<2:00:09,  2.02it/s]Training 1/3 epoch (loss 0.0388):  14%|█▍        | 2360/16950 [28:08<2:08:22,  1.89it/s]Training 1/3 epoch (loss 0.0100):  14%|█▍        | 2360/16950 [28:09<2:08:22,  1.89it/s]Training 1/3 epoch (loss 0.0100):  14%|█▍        | 2361/16950 [28:09<2:02:42,  1.98it/s]Training 1/3 epoch (loss 0.0187):  14%|█▍        | 2361/16950 [28:09<2:02:42,  1.98it/s]Training 1/3 epoch (loss 0.0187):  14%|█▍        | 2362/16950 [28:09<2:08:58,  1.89it/s]Training 1/3 epoch (loss 0.1268):  14%|█▍        | 2362/16950 [28:10<2:08:58,  1.89it/s]Training 1/3 epoch (loss 0.1268):  14%|█▍        | 2363/16950 [28:10<2:17:37,  1.77it/s]Training 1/3 epoch (loss 0.0135):  14%|█▍        | 2363/16950 [28:10<2:17:37,  1.77it/s]Training 1/3 epoch (loss 0.0135):  14%|█▍        | 2364/16950 [28:10<2:12:58,  1.83it/s]Training 1/3 epoch (loss 0.4872):  14%|█▍        | 2364/16950 [28:11<2:12:58,  1.83it/s]Training 1/3 epoch (loss 0.4872):  14%|█▍        | 2365/16950 [28:11<2:19:33,  1.74it/s]Training 1/3 epoch (loss 0.0196):  14%|█▍        | 2365/16950 [28:11<2:19:33,  1.74it/s]Training 1/3 epoch (loss 0.0196):  14%|█▍        | 2366/16950 [28:11<2:10:54,  1.86it/s]Training 1/3 epoch (loss 0.0277):  14%|█▍        | 2366/16950 [28:12<2:10:54,  1.86it/s]Training 1/3 epoch (loss 0.0277):  14%|█▍        | 2367/16950 [28:12<2:08:36,  1.89it/s]Training 1/3 epoch (loss 0.1131):  14%|█▍        | 2367/16950 [28:13<2:08:36,  1.89it/s]Training 1/3 epoch (loss 0.1131):  14%|█▍        | 2368/16950 [28:13<2:10:13,  1.87it/s]Training 1/3 epoch (loss 0.0502):  14%|█▍        | 2368/16950 [28:13<2:10:13,  1.87it/s]Training 1/3 epoch (loss 0.0502):  14%|█▍        | 2369/16950 [28:13<2:19:29,  1.74it/s]Training 1/3 epoch (loss 0.0642):  14%|█▍        | 2369/16950 [28:14<2:19:29,  1.74it/s]Training 1/3 epoch (loss 0.0642):  14%|█▍        | 2370/16950 [28:14<2:22:50,  1.70it/s]Training 1/3 epoch (loss 0.1569):  14%|█▍        | 2370/16950 [28:15<2:22:50,  1.70it/s]Training 1/3 epoch (loss 0.1569):  14%|█▍        | 2371/16950 [28:15<2:43:23,  1.49it/s]Training 1/3 epoch (loss 0.0119):  14%|█▍        | 2371/16950 [28:15<2:43:23,  1.49it/s]Training 1/3 epoch (loss 0.0119):  14%|█▍        | 2372/16950 [28:15<2:28:05,  1.64it/s]Training 1/3 epoch (loss 0.1020):  14%|█▍        | 2372/16950 [28:16<2:28:05,  1.64it/s]Training 1/3 epoch (loss 0.1020):  14%|█▍        | 2373/16950 [28:16<2:44:00,  1.48it/s]Training 1/3 epoch (loss 0.1041):  14%|█▍        | 2373/16950 [28:17<2:44:00,  1.48it/s]Training 1/3 epoch (loss 0.1041):  14%|█▍        | 2374/16950 [28:17<2:48:30,  1.44it/s]Training 1/3 epoch (loss 0.0209):  14%|█▍        | 2374/16950 [28:17<2:48:30,  1.44it/s]Training 1/3 epoch (loss 0.0209):  14%|█▍        | 2375/16950 [28:17<2:40:50,  1.51it/s]Training 1/3 epoch (loss 0.5122):  14%|█▍        | 2375/16950 [28:18<2:40:50,  1.51it/s]Training 1/3 epoch (loss 0.5122):  14%|█▍        | 2376/16950 [28:18<2:35:56,  1.56it/s]Training 1/3 epoch (loss 0.0012):  14%|█▍        | 2376/16950 [28:18<2:35:56,  1.56it/s]Training 1/3 epoch (loss 0.0012):  14%|█▍        | 2377/16950 [28:18<2:22:32,  1.70it/s]Training 1/3 epoch (loss 0.0420):  14%|█▍        | 2377/16950 [28:19<2:22:32,  1.70it/s]Training 1/3 epoch (loss 0.0420):  14%|█▍        | 2378/16950 [28:19<2:19:20,  1.74it/s]Training 1/3 epoch (loss 0.0300):  14%|█▍        | 2378/16950 [28:19<2:19:20,  1.74it/s]Training 1/3 epoch (loss 0.0300):  14%|█▍        | 2379/16950 [28:19<2:18:29,  1.75it/s]Training 1/3 epoch (loss 0.0282):  14%|█▍        | 2379/16950 [28:20<2:18:29,  1.75it/s]Training 1/3 epoch (loss 0.0282):  14%|█▍        | 2380/16950 [28:20<2:26:16,  1.66it/s]Training 1/3 epoch (loss 0.1671):  14%|█▍        | 2380/16950 [28:21<2:26:16,  1.66it/s]Training 1/3 epoch (loss 0.1671):  14%|█▍        | 2381/16950 [28:21<2:31:41,  1.60it/s]Training 1/3 epoch (loss 0.2355):  14%|█▍        | 2381/16950 [28:21<2:31:41,  1.60it/s]Training 1/3 epoch (loss 0.2355):  14%|█▍        | 2382/16950 [28:21<2:27:23,  1.65it/s]Training 1/3 epoch (loss 0.0802):  14%|█▍        | 2382/16950 [28:22<2:27:23,  1.65it/s]Training 1/3 epoch (loss 0.0802):  14%|█▍        | 2383/16950 [28:22<2:21:04,  1.72it/s]Training 1/3 epoch (loss nan):  14%|█▍        | 2383/16950 [28:23<2:21:04,  1.72it/s]   Training 1/3 epoch (loss nan):  14%|█▍        | 2384/16950 [28:23<3:00:48,  1.34it/s]Training 1/3 epoch (loss 0.0735):  14%|█▍        | 2384/16950 [28:24<3:00:48,  1.34it/s]Training 1/3 epoch (loss 0.0735):  14%|█▍        | 2385/16950 [28:24<2:46:13,  1.46it/s]Training 1/3 epoch (loss 0.2671):  14%|█▍        | 2385/16950 [28:24<2:46:13,  1.46it/s]Training 1/3 epoch (loss 0.2671):  14%|█▍        | 2386/16950 [28:24<2:59:43,  1.35it/s]Training 1/3 epoch (loss 0.3628):  14%|█▍        | 2386/16950 [28:25<2:59:43,  1.35it/s]Training 1/3 epoch (loss 0.3628):  14%|█▍        | 2387/16950 [28:25<2:48:22,  1.44it/s]Training 1/3 epoch (loss 0.4811):  14%|█▍        | 2387/16950 [28:26<2:48:22,  1.44it/s]Training 1/3 epoch (loss 0.4811):  14%|█▍        | 2388/16950 [28:26<2:36:47,  1.55it/s]Training 1/3 epoch (loss 0.0863):  14%|█▍        | 2388/16950 [28:26<2:36:47,  1.55it/s]Training 1/3 epoch (loss 0.0863):  14%|█▍        | 2389/16950 [28:26<2:38:55,  1.53it/s]Training 1/3 epoch (loss 0.2963):  14%|█▍        | 2389/16950 [28:27<2:38:55,  1.53it/s]Training 1/3 epoch (loss 0.2963):  14%|█▍        | 2390/16950 [28:27<2:43:05,  1.49it/s]Training 1/3 epoch (loss 0.0389):  14%|█▍        | 2390/16950 [28:28<2:43:05,  1.49it/s]Training 1/3 epoch (loss 0.0389):  14%|█▍        | 2391/16950 [28:28<2:40:49,  1.51it/s]Training 1/3 epoch (loss 0.7550):  14%|█▍        | 2391/16950 [28:28<2:40:49,  1.51it/s]Training 1/3 epoch (loss 0.7550):  14%|█▍        | 2392/16950 [28:28<2:27:13,  1.65it/s]Training 1/3 epoch (loss 0.5510):  14%|█▍        | 2392/16950 [28:29<2:27:13,  1.65it/s]Training 1/3 epoch (loss 0.5510):  14%|█▍        | 2393/16950 [28:29<2:47:28,  1.45it/s]Training 1/3 epoch (loss 0.0103):  14%|█▍        | 2393/16950 [28:30<2:47:28,  1.45it/s]Training 1/3 epoch (loss 0.0103):  14%|█▍        | 2394/16950 [28:30<2:43:49,  1.48it/s]Training 1/3 epoch (loss 0.0168):  14%|█▍        | 2394/16950 [28:30<2:43:49,  1.48it/s]Training 1/3 epoch (loss 0.0168):  14%|█▍        | 2395/16950 [28:30<2:25:36,  1.67it/s]Training 1/3 epoch (loss 0.0365):  14%|█▍        | 2395/16950 [28:31<2:25:36,  1.67it/s]Training 1/3 epoch (loss 0.0365):  14%|█▍        | 2396/16950 [28:31<2:16:36,  1.78it/s]Training 1/3 epoch (loss 0.0220):  14%|█▍        | 2396/16950 [28:31<2:16:36,  1.78it/s]Training 1/3 epoch (loss 0.0220):  14%|█▍        | 2397/16950 [28:31<2:19:17,  1.74it/s]Training 1/3 epoch (loss 0.0531):  14%|█▍        | 2397/16950 [28:32<2:19:17,  1.74it/s]Training 1/3 epoch (loss 0.0531):  14%|█▍        | 2398/16950 [28:32<2:21:40,  1.71it/s]Training 1/3 epoch (loss 0.0059):  14%|█▍        | 2398/16950 [28:32<2:21:40,  1.71it/s]Training 1/3 epoch (loss 0.0059):  14%|█▍        | 2399/16950 [28:32<2:22:48,  1.70it/s]Training 1/3 epoch (loss 0.1326):  14%|█▍        | 2399/16950 [28:33<2:22:48,  1.70it/s]Training 1/3 epoch (loss 0.1326):  14%|█▍        | 2400/16950 [28:33<2:26:29,  1.66it/s]Training 1/3 epoch (loss 0.1703):  14%|█▍        | 2400/16950 [28:34<2:26:29,  1.66it/s]Training 1/3 epoch (loss 0.1703):  14%|█▍        | 2401/16950 [28:34<2:27:00,  1.65it/s]Training 1/3 epoch (loss 0.0024):  14%|█▍        | 2401/16950 [28:34<2:27:00,  1.65it/s]Training 1/3 epoch (loss 0.0024):  14%|█▍        | 2402/16950 [28:34<2:24:58,  1.67it/s]Training 1/3 epoch (loss 0.0458):  14%|█▍        | 2402/16950 [28:35<2:24:58,  1.67it/s]Training 1/3 epoch (loss 0.0458):  14%|█▍        | 2403/16950 [28:35<2:16:44,  1.77it/s]Training 1/3 epoch (loss 0.4152):  14%|█▍        | 2403/16950 [28:36<2:16:44,  1.77it/s]Training 1/3 epoch (loss 0.4152):  14%|█▍        | 2404/16950 [28:36<2:51:19,  1.42it/s]Training 1/3 epoch (loss 0.2344):  14%|█▍        | 2404/16950 [28:36<2:51:19,  1.42it/s]Training 1/3 epoch (loss 0.2344):  14%|█▍        | 2405/16950 [28:36<2:58:24,  1.36it/s]Training 1/3 epoch (loss 0.1109):  14%|█▍        | 2405/16950 [28:37<2:58:24,  1.36it/s]Training 1/3 epoch (loss 0.1109):  14%|█▍        | 2406/16950 [28:37<3:01:17,  1.34it/s]Training 1/3 epoch (loss 0.0234):  14%|█▍        | 2406/16950 [28:38<3:01:17,  1.34it/s]Training 1/3 epoch (loss 0.0234):  14%|█▍        | 2407/16950 [28:38<2:53:34,  1.40it/s]Training 1/3 epoch (loss 0.0203):  14%|█▍        | 2407/16950 [28:38<2:53:34,  1.40it/s]Training 1/3 epoch (loss 0.0203):  14%|█▍        | 2408/16950 [28:38<2:34:59,  1.56it/s]Training 1/3 epoch (loss 0.6914):  14%|█▍        | 2408/16950 [28:39<2:34:59,  1.56it/s]Training 1/3 epoch (loss 0.6914):  14%|█▍        | 2409/16950 [28:39<2:19:17,  1.74it/s]Training 1/3 epoch (loss 0.5129):  14%|█▍        | 2409/16950 [28:39<2:19:17,  1.74it/s]Training 1/3 epoch (loss 0.5129):  14%|█▍        | 2410/16950 [28:39<2:11:18,  1.85it/s]Training 1/3 epoch (loss 0.0753):  14%|█▍        | 2410/16950 [28:40<2:11:18,  1.85it/s]Training 1/3 epoch (loss 0.0753):  14%|█▍        | 2411/16950 [28:40<2:16:34,  1.77it/s]Training 1/3 epoch (loss 0.0083):  14%|█▍        | 2411/16950 [28:41<2:16:34,  1.77it/s]Training 1/3 epoch (loss 0.0083):  14%|█▍        | 2412/16950 [28:41<2:23:10,  1.69it/s]Training 1/3 epoch (loss 0.0053):  14%|█▍        | 2412/16950 [28:41<2:23:10,  1.69it/s]Training 1/3 epoch (loss 0.0053):  14%|█▍        | 2413/16950 [28:41<2:27:37,  1.64it/s]Training 1/3 epoch (loss 0.0750):  14%|█▍        | 2413/16950 [28:42<2:27:37,  1.64it/s]Training 1/3 epoch (loss 0.0750):  14%|█▍        | 2414/16950 [28:42<2:50:22,  1.42it/s]Training 1/3 epoch (loss 0.1627):  14%|█▍        | 2414/16950 [28:43<2:50:22,  1.42it/s]Training 1/3 epoch (loss 0.1627):  14%|█▍        | 2415/16950 [28:43<3:06:49,  1.30it/s]Training 1/3 epoch (loss 0.5613):  14%|█▍        | 2415/16950 [28:44<3:06:49,  1.30it/s]Training 1/3 epoch (loss 0.5613):  14%|█▍        | 2416/16950 [28:44<3:06:31,  1.30it/s]Training 1/3 epoch (loss 0.3735):  14%|█▍        | 2416/16950 [28:44<3:06:31,  1.30it/s]Training 1/3 epoch (loss 0.3735):  14%|█▍        | 2417/16950 [28:44<2:45:16,  1.47it/s]Training 1/3 epoch (loss 0.0045):  14%|█▍        | 2417/16950 [28:45<2:45:16,  1.47it/s]Training 1/3 epoch (loss 0.0045):  14%|█▍        | 2418/16950 [28:45<2:22:09,  1.70it/s]Training 1/3 epoch (loss 0.8635):  14%|█▍        | 2418/16950 [28:45<2:22:09,  1.70it/s]Training 1/3 epoch (loss 0.8635):  14%|█▍        | 2419/16950 [28:45<2:24:09,  1.68it/s]Training 1/3 epoch (loss 0.4699):  14%|█▍        | 2419/16950 [28:46<2:24:09,  1.68it/s]Training 1/3 epoch (loss 0.4699):  14%|█▍        | 2420/16950 [28:46<2:03:25,  1.96it/s]Training 1/3 epoch (loss 0.1508):  14%|█▍        | 2420/16950 [28:46<2:03:25,  1.96it/s]Training 1/3 epoch (loss 0.1508):  14%|█▍        | 2421/16950 [28:46<2:04:06,  1.95it/s]Training 1/3 epoch (loss 0.1471):  14%|█▍        | 2421/16950 [28:47<2:04:06,  1.95it/s]Training 1/3 epoch (loss 0.1471):  14%|█▍        | 2422/16950 [28:47<2:20:11,  1.73it/s]Training 1/3 epoch (loss 0.0577):  14%|█▍        | 2422/16950 [28:47<2:20:11,  1.73it/s]Training 1/3 epoch (loss 0.0577):  14%|█▍        | 2423/16950 [28:47<2:19:15,  1.74it/s]Training 1/3 epoch (loss 0.0083):  14%|█▍        | 2423/16950 [28:48<2:19:15,  1.74it/s]Training 1/3 epoch (loss 0.0083):  14%|█▍        | 2424/16950 [28:48<2:15:53,  1.78it/s]Training 1/3 epoch (loss 0.0125):  14%|█▍        | 2424/16950 [28:48<2:15:53,  1.78it/s]Training 1/3 epoch (loss 0.0125):  14%|█▍        | 2425/16950 [28:48<2:14:55,  1.79it/s]Training 1/3 epoch (loss 0.0520):  14%|█▍        | 2425/16950 [28:49<2:14:55,  1.79it/s]Training 1/3 epoch (loss 0.0520):  14%|█▍        | 2426/16950 [28:49<2:12:10,  1.83it/s]Training 1/3 epoch (loss 0.0223):  14%|█▍        | 2426/16950 [28:49<2:12:10,  1.83it/s]Training 1/3 epoch (loss 0.0223):  14%|█▍        | 2427/16950 [28:49<2:04:39,  1.94it/s]Training 1/3 epoch (loss 0.2152):  14%|█▍        | 2427/16950 [28:50<2:04:39,  1.94it/s]Training 1/3 epoch (loss 0.2152):  14%|█▍        | 2428/16950 [28:50<2:10:56,  1.85it/s]Training 1/3 epoch (loss 0.2650):  14%|█▍        | 2428/16950 [28:50<2:10:56,  1.85it/s]Training 1/3 epoch (loss 0.2650):  14%|█▍        | 2429/16950 [28:50<1:56:37,  2.08it/s]Training 1/3 epoch (loss 0.0118):  14%|█▍        | 2429/16950 [28:51<1:56:37,  2.08it/s]Training 1/3 epoch (loss 0.0118):  14%|█▍        | 2430/16950 [28:51<1:51:07,  2.18it/s]Training 1/3 epoch (loss 0.2323):  14%|█▍        | 2430/16950 [28:51<1:51:07,  2.18it/s]Training 1/3 epoch (loss 0.2323):  14%|█▍        | 2431/16950 [28:51<2:00:32,  2.01it/s]Training 1/3 epoch (loss 0.0790):  14%|█▍        | 2431/16950 [28:52<2:00:32,  2.01it/s]Training 1/3 epoch (loss 0.0790):  14%|█▍        | 2432/16950 [28:52<2:13:28,  1.81it/s]Training 1/3 epoch (loss 0.0070):  14%|█▍        | 2432/16950 [28:53<2:13:28,  1.81it/s]Training 1/3 epoch (loss 0.0070):  14%|█▍        | 2433/16950 [28:53<2:23:39,  1.68it/s]Training 1/3 epoch (loss 0.0048):  14%|█▍        | 2433/16950 [28:53<2:23:39,  1.68it/s]Training 1/3 epoch (loss 0.0048):  14%|█▍        | 2434/16950 [28:53<2:19:39,  1.73it/s]Training 1/3 epoch (loss 0.5519):  14%|█▍        | 2434/16950 [28:54<2:19:39,  1.73it/s]Training 1/3 epoch (loss 0.5519):  14%|█▍        | 2435/16950 [28:54<3:01:54,  1.33it/s]Training 1/3 epoch (loss 0.3583):  14%|█▍        | 2435/16950 [28:55<3:01:54,  1.33it/s]Training 1/3 epoch (loss 0.3583):  14%|█▍        | 2436/16950 [28:55<2:42:51,  1.49it/s]Training 1/3 epoch (loss 0.0041):  14%|█▍        | 2436/16950 [28:55<2:42:51,  1.49it/s]Training 1/3 epoch (loss 0.0041):  14%|█▍        | 2437/16950 [28:55<2:27:36,  1.64it/s]Training 1/3 epoch (loss 0.0674):  14%|█▍        | 2437/16950 [28:56<2:27:36,  1.64it/s]Training 1/3 epoch (loss 0.0674):  14%|█▍        | 2438/16950 [28:56<2:18:10,  1.75it/s]Training 1/3 epoch (loss 0.1383):  14%|█▍        | 2438/16950 [28:56<2:18:10,  1.75it/s]Training 1/3 epoch (loss 0.1383):  14%|█▍        | 2439/16950 [28:56<2:19:24,  1.73it/s]Training 1/3 epoch (loss 0.0378):  14%|█▍        | 2439/16950 [28:57<2:19:24,  1.73it/s]Training 1/3 epoch (loss 0.0378):  14%|█▍        | 2440/16950 [28:57<2:27:17,  1.64it/s]Training 1/3 epoch (loss 0.0339):  14%|█▍        | 2440/16950 [28:58<2:27:17,  1.64it/s]Training 1/3 epoch (loss 0.0339):  14%|█▍        | 2441/16950 [28:58<2:29:09,  1.62it/s]Training 1/3 epoch (loss 1.0331):  14%|█▍        | 2441/16950 [28:58<2:29:09,  1.62it/s]Training 1/3 epoch (loss 1.0331):  14%|█▍        | 2442/16950 [28:58<2:17:17,  1.76it/s]Training 1/3 epoch (loss 0.2427):  14%|█▍        | 2442/16950 [28:59<2:17:17,  1.76it/s]Training 1/3 epoch (loss 0.2427):  14%|█▍        | 2443/16950 [28:59<2:19:57,  1.73it/s]Training 1/3 epoch (loss 0.0882):  14%|█▍        | 2443/16950 [28:59<2:19:57,  1.73it/s]Training 1/3 epoch (loss 0.0882):  14%|█▍        | 2444/16950 [28:59<2:14:08,  1.80it/s]Training 1/3 epoch (loss 0.0181):  14%|█▍        | 2444/16950 [29:00<2:14:08,  1.80it/s]Training 1/3 epoch (loss 0.0181):  14%|█▍        | 2445/16950 [29:00<2:17:50,  1.75it/s]Training 1/3 epoch (loss 0.1785):  14%|█▍        | 2445/16950 [29:00<2:17:50,  1.75it/s]Training 1/3 epoch (loss 0.1785):  14%|█▍        | 2446/16950 [29:00<2:17:32,  1.76it/s]Training 1/3 epoch (loss 0.0226):  14%|█▍        | 2446/16950 [29:01<2:17:32,  1.76it/s]Training 1/3 epoch (loss 0.0226):  14%|█▍        | 2447/16950 [29:01<2:28:53,  1.62it/s]Training 1/3 epoch (loss 0.0142):  14%|█▍        | 2447/16950 [29:02<2:28:53,  1.62it/s]Training 1/3 epoch (loss 0.0142):  14%|█▍        | 2448/16950 [29:02<2:21:54,  1.70it/s]Training 1/3 epoch (loss 0.0103):  14%|█▍        | 2448/16950 [29:03<2:21:54,  1.70it/s]Training 1/3 epoch (loss 0.0103):  14%|█▍        | 2449/16950 [29:03<2:38:05,  1.53it/s]Training 1/3 epoch (loss 0.1021):  14%|█▍        | 2449/16950 [29:03<2:38:05,  1.53it/s]Training 1/3 epoch (loss 0.1021):  14%|█▍        | 2450/16950 [29:03<2:40:32,  1.51it/s]Training 1/3 epoch (loss 0.0154):  14%|█▍        | 2450/16950 [29:04<2:40:32,  1.51it/s]Training 1/3 epoch (loss 0.0154):  14%|█▍        | 2451/16950 [29:04<2:27:14,  1.64it/s]Training 1/3 epoch (loss 0.0033):  14%|█▍        | 2451/16950 [29:04<2:27:14,  1.64it/s]Training 1/3 epoch (loss 0.0033):  14%|█▍        | 2452/16950 [29:04<2:22:49,  1.69it/s]Training 1/3 epoch (loss 0.6155):  14%|█▍        | 2452/16950 [29:05<2:22:49,  1.69it/s]Training 1/3 epoch (loss 0.6155):  14%|█▍        | 2453/16950 [29:05<2:46:06,  1.45it/s]Training 1/3 epoch (loss 0.0091):  14%|█▍        | 2453/16950 [29:06<2:46:06,  1.45it/s]Training 1/3 epoch (loss 0.0091):  14%|█▍        | 2454/16950 [29:06<2:39:38,  1.51it/s]Training 1/3 epoch (loss 0.1045):  14%|█▍        | 2454/16950 [29:07<2:39:38,  1.51it/s]Training 1/3 epoch (loss 0.1045):  14%|█▍        | 2455/16950 [29:07<2:54:31,  1.38it/s]Training 1/3 epoch (loss 0.0104):  14%|█▍        | 2455/16950 [29:07<2:54:31,  1.38it/s]Training 1/3 epoch (loss 0.0104):  14%|█▍        | 2456/16950 [29:07<2:38:11,  1.53it/s]Training 1/3 epoch (loss 0.0226):  14%|█▍        | 2456/16950 [29:08<2:38:11,  1.53it/s]Training 1/3 epoch (loss 0.0226):  14%|█▍        | 2457/16950 [29:08<2:22:24,  1.70it/s]Training 1/3 epoch (loss 0.3840):  14%|█▍        | 2457/16950 [29:08<2:22:24,  1.70it/s]Training 1/3 epoch (loss 0.3840):  15%|█▍        | 2458/16950 [29:08<2:26:18,  1.65it/s]Training 1/3 epoch (loss 0.3873):  15%|█▍        | 2458/16950 [29:09<2:26:18,  1.65it/s]Training 1/3 epoch (loss 0.3873):  15%|█▍        | 2459/16950 [29:09<2:30:02,  1.61it/s]Training 1/3 epoch (loss 0.2187):  15%|█▍        | 2459/16950 [29:10<2:30:02,  1.61it/s]Training 1/3 epoch (loss 0.2187):  15%|█▍        | 2460/16950 [29:10<2:47:52,  1.44it/s]Training 1/3 epoch (loss 0.0424):  15%|█▍        | 2460/16950 [29:10<2:47:52,  1.44it/s]Training 1/3 epoch (loss 0.0424):  15%|█▍        | 2461/16950 [29:10<2:48:02,  1.44it/s]Training 1/3 epoch (loss 0.5430):  15%|█▍        | 2461/16950 [29:11<2:48:02,  1.44it/s]Training 1/3 epoch (loss 0.5430):  15%|█▍        | 2462/16950 [29:11<2:28:47,  1.62it/s]Training 1/3 epoch (loss 0.4607):  15%|█▍        | 2462/16950 [29:12<2:28:47,  1.62it/s]Training 1/3 epoch (loss 0.4607):  15%|█▍        | 2463/16950 [29:12<2:43:00,  1.48it/s]Training 1/3 epoch (loss 0.2736):  15%|█▍        | 2463/16950 [29:12<2:43:00,  1.48it/s]Training 1/3 epoch (loss 0.2736):  15%|█▍        | 2464/16950 [29:12<2:50:25,  1.42it/s]Training 1/3 epoch (loss nan):  15%|█▍        | 2464/16950 [29:14<2:50:25,  1.42it/s]   Training 1/3 epoch (loss nan):  15%|█▍        | 2465/16950 [29:14<3:24:22,  1.18it/s]Training 1/3 epoch (loss 0.0690):  15%|█▍        | 2465/16950 [29:15<3:24:22,  1.18it/s]Training 1/3 epoch (loss 0.0690):  15%|█▍        | 2466/16950 [29:15<3:55:01,  1.03it/s]Training 1/3 epoch (loss 0.0439):  15%|█▍        | 2466/16950 [29:16<3:55:01,  1.03it/s]Training 1/3 epoch (loss 0.0439):  15%|█▍        | 2467/16950 [29:16<3:42:52,  1.08it/s]Training 1/3 epoch (loss 0.0355):  15%|█▍        | 2467/16950 [29:16<3:42:52,  1.08it/s]Training 1/3 epoch (loss 0.0355):  15%|█▍        | 2468/16950 [29:16<3:24:14,  1.18it/s]Training 1/3 epoch (loss 0.3649):  15%|█▍        | 2468/16950 [29:17<3:24:14,  1.18it/s]Training 1/3 epoch (loss 0.3649):  15%|█▍        | 2469/16950 [29:17<2:54:59,  1.38it/s]Training 1/3 epoch (loss 0.0394):  15%|█▍        | 2469/16950 [29:17<2:54:59,  1.38it/s]Training 1/3 epoch (loss 0.0394):  15%|█▍        | 2470/16950 [29:17<2:40:22,  1.50it/s]Training 1/3 epoch (loss 0.1149):  15%|█▍        | 2470/16950 [29:18<2:40:22,  1.50it/s]Training 1/3 epoch (loss 0.1149):  15%|█▍        | 2471/16950 [29:18<3:14:28,  1.24it/s]Training 1/3 epoch (loss 0.0747):  15%|█▍        | 2471/16950 [29:19<3:14:28,  1.24it/s]Training 1/3 epoch (loss 0.0747):  15%|█▍        | 2472/16950 [29:19<3:27:40,  1.16it/s]Training 1/3 epoch (loss 0.0011):  15%|█▍        | 2472/16950 [29:20<3:27:40,  1.16it/s]Training 1/3 epoch (loss 0.0011):  15%|█▍        | 2473/16950 [29:20<3:09:31,  1.27it/s]Training 1/3 epoch (loss 0.4907):  15%|█▍        | 2473/16950 [29:21<3:09:31,  1.27it/s]Training 1/3 epoch (loss 0.4907):  15%|█▍        | 2474/16950 [29:21<2:45:53,  1.45it/s]Training 1/3 epoch (loss 0.4515):  15%|█▍        | 2474/16950 [29:21<2:45:53,  1.45it/s]Training 1/3 epoch (loss 0.4515):  15%|█▍        | 2475/16950 [29:21<2:59:44,  1.34it/s]Training 1/3 epoch (loss 0.3910):  15%|█▍        | 2475/16950 [29:22<2:59:44,  1.34it/s]Training 1/3 epoch (loss 0.3910):  15%|█▍        | 2476/16950 [29:22<2:50:29,  1.41it/s]Training 1/3 epoch (loss 0.0182):  15%|█▍        | 2476/16950 [29:22<2:50:29,  1.41it/s]Training 1/3 epoch (loss 0.0182):  15%|█▍        | 2477/16950 [29:22<2:31:41,  1.59it/s]Training 1/3 epoch (loss 0.0463):  15%|█▍        | 2477/16950 [29:23<2:31:41,  1.59it/s]Training 1/3 epoch (loss 0.0463):  15%|█▍        | 2478/16950 [29:23<2:33:49,  1.57it/s]Training 1/3 epoch (loss 0.4283):  15%|█▍        | 2478/16950 [29:24<2:33:49,  1.57it/s]Training 1/3 epoch (loss 0.4283):  15%|█▍        | 2479/16950 [29:24<2:50:43,  1.41it/s]Training 1/3 epoch (loss 0.2995):  15%|█▍        | 2479/16950 [29:25<2:50:43,  1.41it/s]Training 1/3 epoch (loss 0.2995):  15%|█▍        | 2480/16950 [29:25<2:41:20,  1.49it/s]Training 1/3 epoch (loss 0.0146):  15%|█▍        | 2480/16950 [29:25<2:41:20,  1.49it/s]Training 1/3 epoch (loss 0.0146):  15%|█▍        | 2481/16950 [29:25<2:29:36,  1.61it/s]Training 1/3 epoch (loss 0.0141):  15%|█▍        | 2481/16950 [29:26<2:29:36,  1.61it/s]Training 1/3 epoch (loss 0.0141):  15%|█▍        | 2482/16950 [29:26<2:30:42,  1.60it/s]Training 1/3 epoch (loss 0.0091):  15%|█▍        | 2482/16950 [29:26<2:30:42,  1.60it/s]Training 1/3 epoch (loss 0.0091):  15%|█▍        | 2483/16950 [29:26<2:23:51,  1.68it/s]Training 1/3 epoch (loss 0.0137):  15%|█▍        | 2483/16950 [29:27<2:23:51,  1.68it/s]Training 1/3 epoch (loss 0.0137):  15%|█▍        | 2484/16950 [29:27<2:12:53,  1.81it/s]Training 1/3 epoch (loss 0.0660):  15%|█▍        | 2484/16950 [29:27<2:12:53,  1.81it/s]Training 1/3 epoch (loss 0.0660):  15%|█▍        | 2485/16950 [29:27<2:22:07,  1.70it/s]Training 1/3 epoch (loss 0.0420):  15%|█▍        | 2485/16950 [29:28<2:22:07,  1.70it/s]Training 1/3 epoch (loss 0.0420):  15%|█▍        | 2486/16950 [29:28<2:32:04,  1.59it/s]Training 1/3 epoch (loss 0.0710):  15%|█▍        | 2486/16950 [29:29<2:32:04,  1.59it/s]Training 1/3 epoch (loss 0.0710):  15%|█▍        | 2487/16950 [29:29<2:23:39,  1.68it/s]Training 1/3 epoch (loss 0.0370):  15%|█▍        | 2487/16950 [29:29<2:23:39,  1.68it/s]Training 1/3 epoch (loss 0.0370):  15%|█▍        | 2488/16950 [29:29<2:17:48,  1.75it/s]Training 1/3 epoch (loss 0.0212):  15%|█▍        | 2488/16950 [29:30<2:17:48,  1.75it/s]Training 1/3 epoch (loss 0.0212):  15%|█▍        | 2489/16950 [29:30<2:20:52,  1.71it/s]Training 1/3 epoch (loss 0.0843):  15%|█▍        | 2489/16950 [29:30<2:20:52,  1.71it/s]Training 1/3 epoch (loss 0.0843):  15%|█▍        | 2490/16950 [29:30<2:23:44,  1.68it/s]Training 1/3 epoch (loss 0.0685):  15%|█▍        | 2490/16950 [29:31<2:23:44,  1.68it/s]Training 1/3 epoch (loss 0.0685):  15%|█▍        | 2491/16950 [29:31<2:27:21,  1.64it/s]Training 1/3 epoch (loss 0.0310):  15%|█▍        | 2491/16950 [29:32<2:27:21,  1.64it/s]Training 1/3 epoch (loss 0.0310):  15%|█▍        | 2492/16950 [29:32<2:24:12,  1.67it/s]Training 1/3 epoch (loss 0.1303):  15%|█▍        | 2492/16950 [29:33<2:24:12,  1.67it/s]Training 1/3 epoch (loss 0.1303):  15%|█▍        | 2493/16950 [29:33<2:47:14,  1.44it/s]Training 1/3 epoch (loss 0.0404):  15%|█▍        | 2493/16950 [29:33<2:47:14,  1.44it/s]Training 1/3 epoch (loss 0.0404):  15%|█▍        | 2494/16950 [29:33<2:50:55,  1.41it/s]Training 1/3 epoch (loss 0.0203):  15%|█▍        | 2494/16950 [29:34<2:50:55,  1.41it/s]Training 1/3 epoch (loss 0.0203):  15%|█▍        | 2495/16950 [29:34<2:51:28,  1.40it/s]Training 1/3 epoch (loss 0.0033):  15%|█▍        | 2495/16950 [29:35<2:51:28,  1.40it/s]Training 1/3 epoch (loss 0.0033):  15%|█▍        | 2496/16950 [29:35<3:03:48,  1.31it/s]Training 1/3 epoch (loss 0.0184):  15%|█▍        | 2496/16950 [29:35<3:03:48,  1.31it/s]Training 1/3 epoch (loss 0.0184):  15%|█▍        | 2497/16950 [29:35<2:51:07,  1.41it/s]Training 1/3 epoch (loss 0.0476):  15%|█▍        | 2497/16950 [29:36<2:51:07,  1.41it/s]Training 1/3 epoch (loss 0.0476):  15%|█▍        | 2498/16950 [29:36<2:37:00,  1.53it/s]Training 1/3 epoch (loss 0.4327):  15%|█▍        | 2498/16950 [29:36<2:37:00,  1.53it/s]Training 1/3 epoch (loss 0.4327):  15%|█▍        | 2499/16950 [29:36<2:18:08,  1.74it/s]Training 1/3 epoch (loss 0.0067):  15%|█▍        | 2499/16950 [29:37<2:18:08,  1.74it/s]Training 1/3 epoch (loss 0.0067):  15%|█▍        | 2500/16950 [29:37<2:18:54,  1.73it/s]Training 1/3 epoch (loss 0.0149):  15%|█▍        | 2500/16950 [29:38<2:18:54,  1.73it/s]Training 1/3 epoch (loss 0.0149):  15%|█▍        | 2501/16950 [29:38<2:19:52,  1.72it/s]Training 1/3 epoch (loss 0.0007):  15%|█▍        | 2501/16950 [29:38<2:19:52,  1.72it/s]Training 1/3 epoch (loss 0.0007):  15%|█▍        | 2502/16950 [29:38<2:06:45,  1.90it/s]Training 1/3 epoch (loss 0.3284):  15%|█▍        | 2502/16950 [29:38<2:06:45,  1.90it/s]Training 1/3 epoch (loss 0.3284):  15%|█▍        | 2503/16950 [29:38<2:01:47,  1.98it/s]Training 1/3 epoch (loss 0.0003):  15%|█▍        | 2503/16950 [29:39<2:01:47,  1.98it/s]Training 1/3 epoch (loss 0.0003):  15%|█▍        | 2504/16950 [29:39<2:01:37,  1.98it/s]Training 1/3 epoch (loss 0.4431):  15%|█▍        | 2504/16950 [29:39<2:01:37,  1.98it/s]Training 1/3 epoch (loss 0.4431):  15%|█▍        | 2505/16950 [29:39<1:48:38,  2.22it/s]Training 1/3 epoch (loss 0.0657):  15%|█▍        | 2505/16950 [29:40<1:48:38,  2.22it/s]Training 1/3 epoch (loss 0.0657):  15%|█▍        | 2506/16950 [29:40<2:05:57,  1.91it/s]Training 1/3 epoch (loss 0.5243):  15%|█▍        | 2506/16950 [29:41<2:05:57,  1.91it/s]Training 1/3 epoch (loss 0.5243):  15%|█▍        | 2507/16950 [29:41<2:40:36,  1.50it/s]Training 1/3 epoch (loss 0.0564):  15%|█▍        | 2507/16950 [29:42<2:40:36,  1.50it/s]Training 1/3 epoch (loss 0.0564):  15%|█▍        | 2508/16950 [29:42<2:35:36,  1.55it/s]Training 1/3 epoch (loss 0.1089):  15%|█▍        | 2508/16950 [29:42<2:35:36,  1.55it/s]Training 1/3 epoch (loss 0.1089):  15%|█▍        | 2509/16950 [29:42<2:34:03,  1.56it/s]Training 1/3 epoch (loss 0.6543):  15%|█▍        | 2509/16950 [29:43<2:34:03,  1.56it/s]Training 1/3 epoch (loss 0.6543):  15%|█▍        | 2510/16950 [29:43<2:21:38,  1.70it/s]Training 1/3 epoch (loss 0.0022):  15%|█▍        | 2510/16950 [29:43<2:21:38,  1.70it/s]Training 1/3 epoch (loss 0.0022):  15%|█▍        | 2511/16950 [29:43<2:09:50,  1.85it/s]Training 1/3 epoch (loss 0.2804):  15%|█▍        | 2511/16950 [29:44<2:09:50,  1.85it/s]Training 1/3 epoch (loss 0.2804):  15%|█▍        | 2512/16950 [29:44<2:15:56,  1.77it/s]Training 1/3 epoch (loss 0.0015):  15%|█▍        | 2512/16950 [29:44<2:15:56,  1.77it/s]Training 1/3 epoch (loss 0.0015):  15%|█▍        | 2513/16950 [29:44<2:13:02,  1.81it/s]Training 1/3 epoch (loss 0.2120):  15%|█▍        | 2513/16950 [29:45<2:13:02,  1.81it/s]Training 1/3 epoch (loss 0.2120):  15%|█▍        | 2514/16950 [29:45<2:14:51,  1.78it/s]Training 1/3 epoch (loss 0.0345):  15%|█▍        | 2514/16950 [29:45<2:14:51,  1.78it/s]Training 1/3 epoch (loss 0.0345):  15%|█▍        | 2515/16950 [29:45<2:26:50,  1.64it/s]Training 1/3 epoch (loss 0.0330):  15%|█▍        | 2515/16950 [29:46<2:26:50,  1.64it/s]Training 1/3 epoch (loss 0.0330):  15%|█▍        | 2516/16950 [29:46<2:24:56,  1.66it/s]Training 1/3 epoch (loss 0.0505):  15%|█▍        | 2516/16950 [29:47<2:24:56,  1.66it/s]Training 1/3 epoch (loss 0.0505):  15%|█▍        | 2517/16950 [29:47<2:44:50,  1.46it/s]Training 1/3 epoch (loss 0.1606):  15%|█▍        | 2517/16950 [29:47<2:44:50,  1.46it/s]Training 1/3 epoch (loss 0.1606):  15%|█▍        | 2518/16950 [29:47<2:32:39,  1.58it/s]Training 1/3 epoch (loss 0.1873):  15%|█▍        | 2518/16950 [29:48<2:32:39,  1.58it/s]Training 1/3 epoch (loss 0.1873):  15%|█▍        | 2519/16950 [29:48<2:26:36,  1.64it/s]Training 1/3 epoch (loss 0.0506):  15%|█▍        | 2519/16950 [29:48<2:26:36,  1.64it/s]Training 1/3 epoch (loss 0.0506):  15%|█▍        | 2520/16950 [29:48<2:17:01,  1.76it/s]Training 1/3 epoch (loss 0.0492):  15%|█▍        | 2520/16950 [29:49<2:17:01,  1.76it/s]Training 1/3 epoch (loss 0.0492):  15%|█▍        | 2521/16950 [29:49<2:21:03,  1.70it/s]Training 1/3 epoch (loss 0.5453):  15%|█▍        | 2521/16950 [29:50<2:21:03,  1.70it/s]Training 1/3 epoch (loss 0.5453):  15%|█▍        | 2522/16950 [29:50<2:49:32,  1.42it/s]Training 1/3 epoch (loss 0.0342):  15%|█▍        | 2522/16950 [29:51<2:49:32,  1.42it/s]Training 1/3 epoch (loss 0.0342):  15%|█▍        | 2523/16950 [29:51<2:48:49,  1.42it/s]Training 1/3 epoch (loss 0.0298):  15%|█▍        | 2523/16950 [29:51<2:48:49,  1.42it/s]Training 1/3 epoch (loss 0.0298):  15%|█▍        | 2524/16950 [29:51<2:29:10,  1.61it/s]Training 1/3 epoch (loss 0.0313):  15%|█▍        | 2524/16950 [29:52<2:29:10,  1.61it/s]Training 1/3 epoch (loss 0.0313):  15%|█▍        | 2525/16950 [29:52<2:23:19,  1.68it/s]Training 1/3 epoch (loss 0.0517):  15%|█▍        | 2525/16950 [29:52<2:23:19,  1.68it/s]Training 1/3 epoch (loss 0.0517):  15%|█▍        | 2526/16950 [29:52<2:19:59,  1.72it/s]Training 1/3 epoch (loss 0.3736):  15%|█▍        | 2526/16950 [29:53<2:19:59,  1.72it/s]Training 1/3 epoch (loss 0.3736):  15%|█▍        | 2527/16950 [29:53<2:35:01,  1.55it/s]Training 1/3 epoch (loss 0.5568):  15%|█▍        | 2527/16950 [29:54<2:35:01,  1.55it/s]Training 1/3 epoch (loss 0.5568):  15%|█▍        | 2528/16950 [29:54<2:25:17,  1.65it/s]Training 1/3 epoch (loss 0.0092):  15%|█▍        | 2528/16950 [29:54<2:25:17,  1.65it/s]Training 1/3 epoch (loss 0.0092):  15%|█▍        | 2529/16950 [29:54<2:15:31,  1.77it/s]Training 1/3 epoch (loss 0.0280):  15%|█▍        | 2529/16950 [29:55<2:15:31,  1.77it/s]Training 1/3 epoch (loss 0.0280):  15%|█▍        | 2530/16950 [29:55<2:10:49,  1.84it/s]Training 1/3 epoch (loss 0.0294):  15%|█▍        | 2530/16950 [29:55<2:10:49,  1.84it/s]Training 1/3 epoch (loss 0.0294):  15%|█▍        | 2531/16950 [29:55<2:21:50,  1.69it/s]Training 1/3 epoch (loss 0.5690):  15%|█▍        | 2531/16950 [29:56<2:21:50,  1.69it/s]Training 1/3 epoch (loss 0.5690):  15%|█▍        | 2532/16950 [29:56<2:17:04,  1.75it/s]Training 1/3 epoch (loss 0.7727):  15%|█▍        | 2532/16950 [29:56<2:17:04,  1.75it/s]Training 1/3 epoch (loss 0.7727):  15%|█▍        | 2533/16950 [29:56<2:25:56,  1.65it/s]Training 1/3 epoch (loss 0.0033):  15%|█▍        | 2533/16950 [29:57<2:25:56,  1.65it/s]Training 1/3 epoch (loss 0.0033):  15%|█▍        | 2534/16950 [29:57<2:35:16,  1.55it/s]Training 1/3 epoch (loss 0.0191):  15%|█▍        | 2534/16950 [29:58<2:35:16,  1.55it/s]Training 1/3 epoch (loss 0.0191):  15%|█▍        | 2535/16950 [29:58<2:24:21,  1.66it/s]Training 1/3 epoch (loss 0.6037):  15%|█▍        | 2535/16950 [29:58<2:24:21,  1.66it/s]Training 1/3 epoch (loss 0.6037):  15%|█▍        | 2536/16950 [29:58<2:29:19,  1.61it/s]Training 1/3 epoch (loss 0.0520):  15%|█▍        | 2536/16950 [29:59<2:29:19,  1.61it/s]Training 1/3 epoch (loss 0.0520):  15%|█▍        | 2537/16950 [29:59<2:19:40,  1.72it/s]Training 1/3 epoch (loss 0.2567):  15%|█▍        | 2537/16950 [29:59<2:19:40,  1.72it/s]Training 1/3 epoch (loss 0.2567):  15%|█▍        | 2538/16950 [29:59<2:10:03,  1.85it/s]Training 1/3 epoch (loss 0.2579):  15%|█▍        | 2538/16950 [30:00<2:10:03,  1.85it/s]Training 1/3 epoch (loss 0.2579):  15%|█▍        | 2539/16950 [30:00<2:12:56,  1.81it/s]Training 1/3 epoch (loss 0.1283):  15%|█▍        | 2539/16950 [30:01<2:12:56,  1.81it/s]Training 1/3 epoch (loss 0.1283):  15%|█▍        | 2540/16950 [30:01<2:15:21,  1.77it/s]Training 1/3 epoch (loss 0.0389):  15%|█▍        | 2540/16950 [30:01<2:15:21,  1.77it/s]Training 1/3 epoch (loss 0.0389):  15%|█▍        | 2541/16950 [30:01<2:08:55,  1.86it/s]Training 1/3 epoch (loss 0.3543):  15%|█▍        | 2541/16950 [30:01<2:08:55,  1.86it/s]Training 1/3 epoch (loss 0.3543):  15%|█▍        | 2542/16950 [30:01<1:58:10,  2.03it/s]Training 1/3 epoch (loss 0.3379):  15%|█▍        | 2542/16950 [30:02<1:58:10,  2.03it/s]Training 1/3 epoch (loss 0.3379):  15%|█▌        | 2543/16950 [30:02<1:45:41,  2.27it/s]Training 1/3 epoch (loss 0.8534):  15%|█▌        | 2543/16950 [30:02<1:45:41,  2.27it/s]Training 1/3 epoch (loss 0.8534):  15%|█▌        | 2544/16950 [30:02<1:37:58,  2.45it/s]Training 1/3 epoch (loss 0.6935):  15%|█▌        | 2544/16950 [30:03<1:37:58,  2.45it/s]Training 1/3 epoch (loss 0.6935):  15%|█▌        | 2545/16950 [30:03<1:44:44,  2.29it/s]Training 1/3 epoch (loss 0.2278):  15%|█▌        | 2545/16950 [30:03<1:44:44,  2.29it/s]Training 1/3 epoch (loss 0.2278):  15%|█▌        | 2546/16950 [30:03<1:53:53,  2.11it/s]Training 1/3 epoch (loss 0.0314):  15%|█▌        | 2546/16950 [30:04<1:53:53,  2.11it/s]Training 1/3 epoch (loss 0.0314):  15%|█▌        | 2547/16950 [30:04<2:08:35,  1.87it/s]Training 1/3 epoch (loss 0.0034):  15%|█▌        | 2547/16950 [30:05<2:08:35,  1.87it/s]Training 1/3 epoch (loss 0.0034):  15%|█▌        | 2548/16950 [30:05<2:24:19,  1.66it/s]Training 1/3 epoch (loss 0.3904):  15%|█▌        | 2548/16950 [30:05<2:24:19,  1.66it/s]Training 1/3 epoch (loss 0.3904):  15%|█▌        | 2549/16950 [30:05<2:18:17,  1.74it/s]Training 1/3 epoch (loss 0.1840):  15%|█▌        | 2549/16950 [30:06<2:18:17,  1.74it/s]Training 1/3 epoch (loss 0.1840):  15%|█▌        | 2550/16950 [30:06<2:15:57,  1.77it/s]Training 1/3 epoch (loss 0.0640):  15%|█▌        | 2550/16950 [30:06<2:15:57,  1.77it/s]Training 1/3 epoch (loss 0.0640):  15%|█▌        | 2551/16950 [30:06<2:14:57,  1.78it/s]Training 1/3 epoch (loss 0.0925):  15%|█▌        | 2551/16950 [30:07<2:14:57,  1.78it/s]Training 1/3 epoch (loss 0.0925):  15%|█▌        | 2552/16950 [30:07<2:19:00,  1.73it/s]Training 1/3 epoch (loss 0.0161):  15%|█▌        | 2552/16950 [30:07<2:19:00,  1.73it/s]Training 1/3 epoch (loss 0.0161):  15%|█▌        | 2553/16950 [30:07<2:18:34,  1.73it/s]Training 1/3 epoch (loss 0.2051):  15%|█▌        | 2553/16950 [30:08<2:18:34,  1.73it/s]Training 1/3 epoch (loss 0.2051):  15%|█▌        | 2554/16950 [30:08<2:26:41,  1.64it/s]Training 1/3 epoch (loss 0.0255):  15%|█▌        | 2554/16950 [30:09<2:26:41,  1.64it/s]Training 1/3 epoch (loss 0.0255):  15%|█▌        | 2555/16950 [30:09<2:28:17,  1.62it/s]Training 1/3 epoch (loss 0.0484):  15%|█▌        | 2555/16950 [30:09<2:28:17,  1.62it/s]Training 1/3 epoch (loss 0.0484):  15%|█▌        | 2556/16950 [30:09<2:12:17,  1.81it/s]Training 1/3 epoch (loss 0.0051):  15%|█▌        | 2556/16950 [30:10<2:12:17,  1.81it/s]Training 1/3 epoch (loss 0.0051):  15%|█▌        | 2557/16950 [30:10<2:34:09,  1.56it/s]Training 1/3 epoch (loss 0.4737):  15%|█▌        | 2557/16950 [30:11<2:34:09,  1.56it/s]Training 1/3 epoch (loss 0.4737):  15%|█▌        | 2558/16950 [30:11<2:37:13,  1.53it/s]Training 1/3 epoch (loss 0.0188):  15%|█▌        | 2558/16950 [30:11<2:37:13,  1.53it/s]Training 1/3 epoch (loss 0.0188):  15%|█▌        | 2559/16950 [30:11<2:40:51,  1.49it/s]Training 1/3 epoch (loss 0.0254):  15%|█▌        | 2559/16950 [30:12<2:40:51,  1.49it/s]Training 1/3 epoch (loss 0.0254):  15%|█▌        | 2560/16950 [30:12<2:27:18,  1.63it/s]Training 1/3 epoch (loss 0.6931):  15%|█▌        | 2560/16950 [30:12<2:27:18,  1.63it/s]Training 1/3 epoch (loss 0.6931):  15%|█▌        | 2561/16950 [30:12<2:31:56,  1.58it/s]Training 1/3 epoch (loss 0.3429):  15%|█▌        | 2561/16950 [30:13<2:31:56,  1.58it/s]Training 1/3 epoch (loss 0.3429):  15%|█▌        | 2562/16950 [30:13<2:32:00,  1.58it/s]Training 1/3 epoch (loss 0.1439):  15%|█▌        | 2562/16950 [30:14<2:32:00,  1.58it/s]Training 1/3 epoch (loss 0.1439):  15%|█▌        | 2563/16950 [30:14<2:39:14,  1.51it/s]Training 1/3 epoch (loss 0.1447):  15%|█▌        | 2563/16950 [30:14<2:39:14,  1.51it/s]Training 1/3 epoch (loss 0.1447):  15%|█▌        | 2564/16950 [30:14<2:26:54,  1.63it/s]Training 1/3 epoch (loss 0.6061):  15%|█▌        | 2564/16950 [30:15<2:26:54,  1.63it/s]Training 1/3 epoch (loss 0.6061):  15%|█▌        | 2565/16950 [30:15<2:50:00,  1.41it/s]Training 1/3 epoch (loss 0.0025):  15%|█▌        | 2565/16950 [30:16<2:50:00,  1.41it/s]Training 1/3 epoch (loss 0.0025):  15%|█▌        | 2566/16950 [30:16<2:36:27,  1.53it/s]Training 1/3 epoch (loss 0.0176):  15%|█▌        | 2566/16950 [30:16<2:36:27,  1.53it/s]Training 1/3 epoch (loss 0.0176):  15%|█▌        | 2567/16950 [30:16<2:23:25,  1.67it/s]Training 1/3 epoch (loss 0.2851):  15%|█▌        | 2567/16950 [30:17<2:23:25,  1.67it/s]Training 1/3 epoch (loss 0.2851):  15%|█▌        | 2568/16950 [30:17<2:17:11,  1.75it/s]Training 1/3 epoch (loss 0.0816):  15%|█▌        | 2568/16950 [30:17<2:17:11,  1.75it/s]Training 1/3 epoch (loss 0.0816):  15%|█▌        | 2569/16950 [30:17<2:21:45,  1.69it/s]Training 1/3 epoch (loss 0.4433):  15%|█▌        | 2569/16950 [30:18<2:21:45,  1.69it/s]Training 1/3 epoch (loss 0.4433):  15%|█▌        | 2570/16950 [30:18<2:27:30,  1.62it/s]Training 1/3 epoch (loss 0.0278):  15%|█▌        | 2570/16950 [30:19<2:27:30,  1.62it/s]Training 1/3 epoch (loss 0.0278):  15%|█▌        | 2571/16950 [30:19<2:15:40,  1.77it/s]Training 1/3 epoch (loss 0.5312):  15%|█▌        | 2571/16950 [30:19<2:15:40,  1.77it/s]Training 1/3 epoch (loss 0.5312):  15%|█▌        | 2572/16950 [30:19<2:21:12,  1.70it/s]Training 1/3 epoch (loss 0.1210):  15%|█▌        | 2572/16950 [30:20<2:21:12,  1.70it/s]Training 1/3 epoch (loss 0.1210):  15%|█▌        | 2573/16950 [30:20<2:17:34,  1.74it/s]Training 1/3 epoch (loss 0.2089):  15%|█▌        | 2573/16950 [30:20<2:17:34,  1.74it/s]Training 1/3 epoch (loss 0.2089):  15%|█▌        | 2574/16950 [30:20<2:11:03,  1.83it/s]Training 1/3 epoch (loss 0.1928):  15%|█▌        | 2574/16950 [30:21<2:11:03,  1.83it/s]Training 1/3 epoch (loss 0.1928):  15%|█▌        | 2575/16950 [30:21<2:11:59,  1.82it/s]Training 1/3 epoch (loss 0.0104):  15%|█▌        | 2575/16950 [30:21<2:11:59,  1.82it/s]Training 1/3 epoch (loss 0.0104):  15%|█▌        | 2576/16950 [30:21<2:00:11,  1.99it/s]Training 1/3 epoch (loss 0.4447):  15%|█▌        | 2576/16950 [30:22<2:00:11,  1.99it/s]Training 1/3 epoch (loss 0.4447):  15%|█▌        | 2577/16950 [30:22<2:04:02,  1.93it/s]Training 1/3 epoch (loss 0.0143):  15%|█▌        | 2577/16950 [30:22<2:04:02,  1.93it/s]Training 1/3 epoch (loss 0.0143):  15%|█▌        | 2578/16950 [30:22<2:05:56,  1.90it/s]Training 1/3 epoch (loss 0.0017):  15%|█▌        | 2578/16950 [30:23<2:05:56,  1.90it/s]Training 1/3 epoch (loss 0.0017):  15%|█▌        | 2579/16950 [30:23<2:30:09,  1.60it/s]Training 1/3 epoch (loss 0.0181):  15%|█▌        | 2579/16950 [30:24<2:30:09,  1.60it/s]Training 1/3 epoch (loss 0.0181):  15%|█▌        | 2580/16950 [30:24<2:28:15,  1.62it/s]Training 1/3 epoch (loss 0.0098):  15%|█▌        | 2580/16950 [30:24<2:28:15,  1.62it/s]Training 1/3 epoch (loss 0.0098):  15%|█▌        | 2581/16950 [30:24<2:28:48,  1.61it/s]Training 1/3 epoch (loss 0.5253):  15%|█▌        | 2581/16950 [30:25<2:28:48,  1.61it/s]Training 1/3 epoch (loss 0.5253):  15%|█▌        | 2582/16950 [30:25<2:15:24,  1.77it/s]Training 1/3 epoch (loss 0.0070):  15%|█▌        | 2582/16950 [30:25<2:15:24,  1.77it/s]Training 1/3 epoch (loss 0.0070):  15%|█▌        | 2583/16950 [30:25<2:17:38,  1.74it/s]Training 1/3 epoch (loss 0.4716):  15%|█▌        | 2583/16950 [30:26<2:17:38,  1.74it/s]Training 1/3 epoch (loss 0.4716):  15%|█▌        | 2584/16950 [30:26<2:17:11,  1.75it/s]Training 1/3 epoch (loss 0.1646):  15%|█▌        | 2584/16950 [30:26<2:17:11,  1.75it/s]Training 1/3 epoch (loss 0.1646):  15%|█▌        | 2585/16950 [30:26<2:07:48,  1.87it/s]Training 1/3 epoch (loss 0.2942):  15%|█▌        | 2585/16950 [30:27<2:07:48,  1.87it/s]Training 1/3 epoch (loss 0.2942):  15%|█▌        | 2586/16950 [30:27<2:14:34,  1.78it/s]Training 1/3 epoch (loss 0.0259):  15%|█▌        | 2586/16950 [30:28<2:14:34,  1.78it/s]Training 1/3 epoch (loss 0.0259):  15%|█▌        | 2587/16950 [30:28<2:12:33,  1.81it/s]Training 1/3 epoch (loss 0.5139):  15%|█▌        | 2587/16950 [30:29<2:12:33,  1.81it/s]Training 1/3 epoch (loss 0.5139):  15%|█▌        | 2588/16950 [30:29<2:47:37,  1.43it/s]Training 1/3 epoch (loss 0.0349):  15%|█▌        | 2588/16950 [30:29<2:47:37,  1.43it/s]Training 1/3 epoch (loss 0.0349):  15%|█▌        | 2589/16950 [30:29<2:37:54,  1.52it/s]Training 1/3 epoch (loss 0.1887):  15%|█▌        | 2589/16950 [30:30<2:37:54,  1.52it/s]Training 1/3 epoch (loss 0.1887):  15%|█▌        | 2590/16950 [30:30<2:29:40,  1.60it/s]Training 1/3 epoch (loss 0.0066):  15%|█▌        | 2590/16950 [30:30<2:29:40,  1.60it/s]Training 1/3 epoch (loss 0.0066):  15%|█▌        | 2591/16950 [30:30<2:24:55,  1.65it/s]Training 1/3 epoch (loss 0.3479):  15%|█▌        | 2591/16950 [30:31<2:24:55,  1.65it/s]Training 1/3 epoch (loss 0.3479):  15%|█▌        | 2592/16950 [30:31<2:19:20,  1.72it/s]Training 1/3 epoch (loss 0.0026):  15%|█▌        | 2592/16950 [30:31<2:19:20,  1.72it/s]Training 1/3 epoch (loss 0.0026):  15%|█▌        | 2593/16950 [30:31<2:26:28,  1.63it/s]Training 1/3 epoch (loss 0.0364):  15%|█▌        | 2593/16950 [30:32<2:26:28,  1.63it/s]Training 1/3 epoch (loss 0.0364):  15%|█▌        | 2594/16950 [30:32<2:20:31,  1.70it/s]Training 1/3 epoch (loss 0.4800):  15%|█▌        | 2594/16950 [30:33<2:20:31,  1.70it/s]Training 1/3 epoch (loss 0.4800):  15%|█▌        | 2595/16950 [30:33<2:25:24,  1.65it/s]Training 1/3 epoch (loss 0.0873):  15%|█▌        | 2595/16950 [30:33<2:25:24,  1.65it/s]Training 1/3 epoch (loss 0.0873):  15%|█▌        | 2596/16950 [30:33<2:23:40,  1.67it/s]Training 1/3 epoch (loss 0.0191):  15%|█▌        | 2596/16950 [30:34<2:23:40,  1.67it/s]Training 1/3 epoch (loss 0.0191):  15%|█▌        | 2597/16950 [30:34<2:20:01,  1.71it/s]Training 1/3 epoch (loss 0.1329):  15%|█▌        | 2597/16950 [30:34<2:20:01,  1.71it/s]Training 1/3 epoch (loss 0.1329):  15%|█▌        | 2598/16950 [30:34<2:28:33,  1.61it/s]Training 1/3 epoch (loss 0.2177):  15%|█▌        | 2598/16950 [30:35<2:28:33,  1.61it/s]Training 1/3 epoch (loss 0.2177):  15%|█▌        | 2599/16950 [30:35<2:29:59,  1.59it/s]Training 1/3 epoch (loss 0.0511):  15%|█▌        | 2599/16950 [30:36<2:29:59,  1.59it/s]Training 1/3 epoch (loss 0.0511):  15%|█▌        | 2600/16950 [30:36<2:55:06,  1.37it/s]Training 1/3 epoch (loss 0.0226):  15%|█▌        | 2600/16950 [30:37<2:55:06,  1.37it/s]Training 1/3 epoch (loss 0.0226):  15%|█▌        | 2601/16950 [30:37<2:45:48,  1.44it/s]Training 1/3 epoch (loss 0.0087):  15%|█▌        | 2601/16950 [30:37<2:45:48,  1.44it/s]Training 1/3 epoch (loss 0.0087):  15%|█▌        | 2602/16950 [30:37<2:35:08,  1.54it/s]Training 1/3 epoch (loss 0.3357):  15%|█▌        | 2602/16950 [30:38<2:35:08,  1.54it/s]Training 1/3 epoch (loss 0.3357):  15%|█▌        | 2603/16950 [30:38<2:20:14,  1.71it/s]Training 1/3 epoch (loss 0.0033):  15%|█▌        | 2603/16950 [30:38<2:20:14,  1.71it/s]Training 1/3 epoch (loss 0.0033):  15%|█▌        | 2604/16950 [30:38<2:11:54,  1.81it/s]Training 1/3 epoch (loss 0.2231):  15%|█▌        | 2604/16950 [30:39<2:11:54,  1.81it/s]Training 1/3 epoch (loss 0.2231):  15%|█▌        | 2605/16950 [30:39<2:31:47,  1.58it/s]Training 1/3 epoch (loss 0.0058):  15%|█▌        | 2605/16950 [30:40<2:31:47,  1.58it/s]Training 1/3 epoch (loss 0.0058):  15%|█▌        | 2606/16950 [30:40<2:25:40,  1.64it/s]Training 1/3 epoch (loss 0.4542):  15%|█▌        | 2606/16950 [30:40<2:25:40,  1.64it/s]Training 1/3 epoch (loss 0.4542):  15%|█▌        | 2607/16950 [30:40<2:29:34,  1.60it/s]Training 1/3 epoch (loss 0.0569):  15%|█▌        | 2607/16950 [30:41<2:29:34,  1.60it/s]Training 1/3 epoch (loss 0.0569):  15%|█▌        | 2608/16950 [30:41<2:23:57,  1.66it/s]Training 1/3 epoch (loss 0.6156):  15%|█▌        | 2608/16950 [30:41<2:23:57,  1.66it/s]Training 1/3 epoch (loss 0.6156):  15%|█▌        | 2609/16950 [30:41<2:11:51,  1.81it/s]Training 1/3 epoch (loss 0.4295):  15%|█▌        | 2609/16950 [30:42<2:11:51,  1.81it/s]Training 1/3 epoch (loss 0.4295):  15%|█▌        | 2610/16950 [30:42<2:05:37,  1.90it/s]Training 1/3 epoch (loss 0.3958):  15%|█▌        | 2610/16950 [30:42<2:05:37,  1.90it/s]Training 1/3 epoch (loss 0.3958):  15%|█▌        | 2611/16950 [30:42<2:22:54,  1.67it/s]Training 1/3 epoch (loss 0.9227):  15%|█▌        | 2611/16950 [30:43<2:22:54,  1.67it/s]Training 1/3 epoch (loss 0.9227):  15%|█▌        | 2612/16950 [30:43<2:05:08,  1.91it/s]Training 1/3 epoch (loss 0.2329):  15%|█▌        | 2612/16950 [30:43<2:05:08,  1.91it/s]Training 1/3 epoch (loss 0.2329):  15%|█▌        | 2613/16950 [30:43<2:13:47,  1.79it/s]Training 1/3 epoch (loss 0.4045):  15%|█▌        | 2613/16950 [30:44<2:13:47,  1.79it/s]Training 1/3 epoch (loss 0.4045):  15%|█▌        | 2614/16950 [30:44<2:05:36,  1.90it/s]Training 1/3 epoch (loss 0.5489):  15%|█▌        | 2614/16950 [30:45<2:05:36,  1.90it/s]Training 1/3 epoch (loss 0.5489):  15%|█▌        | 2615/16950 [30:45<2:23:09,  1.67it/s]Training 1/3 epoch (loss 0.0034):  15%|█▌        | 2615/16950 [30:45<2:23:09,  1.67it/s]Training 1/3 epoch (loss 0.0034):  15%|█▌        | 2616/16950 [30:45<2:16:07,  1.75it/s]Training 1/3 epoch (loss 0.0403):  15%|█▌        | 2616/16950 [30:46<2:16:07,  1.75it/s]Training 1/3 epoch (loss 0.0403):  15%|█▌        | 2617/16950 [30:46<2:13:36,  1.79it/s]Training 1/3 epoch (loss 0.0026):  15%|█▌        | 2617/16950 [30:46<2:13:36,  1.79it/s]Training 1/3 epoch (loss 0.0026):  15%|█▌        | 2618/16950 [30:46<2:05:58,  1.90it/s]Training 1/3 epoch (loss 0.0292):  15%|█▌        | 2618/16950 [30:47<2:05:58,  1.90it/s]Training 1/3 epoch (loss 0.0292):  15%|█▌        | 2619/16950 [30:47<2:17:57,  1.73it/s]Training 1/3 epoch (loss 0.0785):  15%|█▌        | 2619/16950 [30:47<2:17:57,  1.73it/s]Training 1/3 epoch (loss 0.0785):  15%|█▌        | 2620/16950 [30:47<2:20:14,  1.70it/s]Training 1/3 epoch (loss 0.1291):  15%|█▌        | 2620/16950 [30:48<2:20:14,  1.70it/s]Training 1/3 epoch (loss 0.1291):  15%|█▌        | 2621/16950 [30:48<2:17:19,  1.74it/s]Training 1/3 epoch (loss 0.0326):  15%|█▌        | 2621/16950 [30:48<2:17:19,  1.74it/s]Training 1/3 epoch (loss 0.0326):  15%|█▌        | 2622/16950 [30:48<2:15:06,  1.77it/s]Training 1/3 epoch (loss 0.0012):  15%|█▌        | 2622/16950 [30:49<2:15:06,  1.77it/s]Training 1/3 epoch (loss 0.0012):  15%|█▌        | 2623/16950 [30:49<2:01:24,  1.97it/s]Training 1/3 epoch (loss 0.0015):  15%|█▌        | 2623/16950 [30:49<2:01:24,  1.97it/s]Training 1/3 epoch (loss 0.0015):  15%|█▌        | 2624/16950 [30:49<1:54:24,  2.09it/s]Training 1/3 epoch (loss 0.1855):  15%|█▌        | 2624/16950 [30:50<1:54:24,  2.09it/s]Training 1/3 epoch (loss 0.1855):  15%|█▌        | 2625/16950 [30:50<1:56:22,  2.05it/s]Training 1/3 epoch (loss 0.0221):  15%|█▌        | 2625/16950 [30:50<1:56:22,  2.05it/s]Training 1/3 epoch (loss 0.0221):  15%|█▌        | 2626/16950 [30:50<1:54:47,  2.08it/s]Training 1/3 epoch (loss 0.0786):  15%|█▌        | 2626/16950 [30:51<1:54:47,  2.08it/s]Training 1/3 epoch (loss 0.0786):  15%|█▌        | 2627/16950 [30:51<2:04:30,  1.92it/s]Training 1/3 epoch (loss 0.3454):  15%|█▌        | 2627/16950 [30:51<2:04:30,  1.92it/s]Training 1/3 epoch (loss 0.3454):  16%|█▌        | 2628/16950 [30:51<1:59:13,  2.00it/s]Training 1/3 epoch (loss 0.0197):  16%|█▌        | 2628/16950 [30:52<1:59:13,  2.00it/s]Training 1/3 epoch (loss 0.0197):  16%|█▌        | 2629/16950 [30:52<1:50:41,  2.16it/s]Training 1/3 epoch (loss 0.0166):  16%|█▌        | 2629/16950 [30:52<1:50:41,  2.16it/s]Training 1/3 epoch (loss 0.0166):  16%|█▌        | 2630/16950 [30:52<1:53:26,  2.10it/s]Training 1/3 epoch (loss 0.0254):  16%|█▌        | 2630/16950 [30:53<1:53:26,  2.10it/s]Training 1/3 epoch (loss 0.0254):  16%|█▌        | 2631/16950 [30:53<2:08:39,  1.85it/s]Training 1/3 epoch (loss 0.0091):  16%|█▌        | 2631/16950 [30:54<2:08:39,  1.85it/s]Training 1/3 epoch (loss 0.0091):  16%|█▌        | 2632/16950 [30:54<2:16:48,  1.74it/s]Training 1/3 epoch (loss 0.0569):  16%|█▌        | 2632/16950 [30:54<2:16:48,  1.74it/s]Training 1/3 epoch (loss 0.0569):  16%|█▌        | 2633/16950 [30:54<2:11:56,  1.81it/s]Training 1/3 epoch (loss 0.0578):  16%|█▌        | 2633/16950 [30:55<2:11:56,  1.81it/s]Training 1/3 epoch (loss 0.0578):  16%|█▌        | 2634/16950 [30:55<2:17:52,  1.73it/s]Training 1/3 epoch (loss 0.2416):  16%|█▌        | 2634/16950 [30:55<2:17:52,  1.73it/s]Training 1/3 epoch (loss 0.2416):  16%|█▌        | 2635/16950 [30:55<2:25:31,  1.64it/s]Training 1/3 epoch (loss 0.1515):  16%|█▌        | 2635/16950 [30:56<2:25:31,  1.64it/s]Training 1/3 epoch (loss 0.1515):  16%|█▌        | 2636/16950 [30:56<2:18:33,  1.72it/s]Training 1/3 epoch (loss 0.0286):  16%|█▌        | 2636/16950 [30:56<2:18:33,  1.72it/s]Training 1/3 epoch (loss 0.0286):  16%|█▌        | 2637/16950 [30:56<2:19:26,  1.71it/s]Training 1/3 epoch (loss 0.0299):  16%|█▌        | 2637/16950 [30:57<2:19:26,  1.71it/s]Training 1/3 epoch (loss 0.0299):  16%|█▌        | 2638/16950 [30:57<2:22:37,  1.67it/s]Training 1/3 epoch (loss 0.0010):  16%|█▌        | 2638/16950 [30:58<2:22:37,  1.67it/s]Training 1/3 epoch (loss 0.0010):  16%|█▌        | 2639/16950 [30:58<2:17:23,  1.74it/s]Training 1/3 epoch (loss 0.0014):  16%|█▌        | 2639/16950 [30:58<2:17:23,  1.74it/s]Training 1/3 epoch (loss 0.0014):  16%|█▌        | 2640/16950 [30:58<2:21:49,  1.68it/s]Training 1/3 epoch (loss 0.5139):  16%|█▌        | 2640/16950 [30:59<2:21:49,  1.68it/s]Training 1/3 epoch (loss 0.5139):  16%|█▌        | 2641/16950 [30:59<2:50:33,  1.40it/s]Training 1/3 epoch (loss 0.0186):  16%|█▌        | 2641/16950 [31:00<2:50:33,  1.40it/s]Training 1/3 epoch (loss 0.0186):  16%|█▌        | 2642/16950 [31:00<2:52:07,  1.39it/s]Training 1/3 epoch (loss 0.0211):  16%|█▌        | 2642/16950 [31:00<2:52:07,  1.39it/s]Training 1/3 epoch (loss 0.0211):  16%|█▌        | 2643/16950 [31:00<2:31:29,  1.57it/s]Training 1/3 epoch (loss 0.5107):  16%|█▌        | 2643/16950 [31:01<2:31:29,  1.57it/s]Training 1/3 epoch (loss 0.5107):  16%|█▌        | 2644/16950 [31:01<2:35:00,  1.54it/s]Training 1/3 epoch (loss 0.0889):  16%|█▌        | 2644/16950 [31:02<2:35:00,  1.54it/s]Training 1/3 epoch (loss 0.0889):  16%|█▌        | 2645/16950 [31:02<2:38:54,  1.50it/s]Training 1/3 epoch (loss 0.0085):  16%|█▌        | 2645/16950 [31:02<2:38:54,  1.50it/s]Training 1/3 epoch (loss 0.0085):  16%|█▌        | 2646/16950 [31:02<2:27:37,  1.61it/s]Training 1/3 epoch (loss 0.2654):  16%|█▌        | 2646/16950 [31:03<2:27:37,  1.61it/s]Training 1/3 epoch (loss 0.2654):  16%|█▌        | 2647/16950 [31:03<2:06:18,  1.89it/s]Training 1/3 epoch (loss 0.0462):  16%|█▌        | 2647/16950 [31:03<2:06:18,  1.89it/s]Training 1/3 epoch (loss 0.0462):  16%|█▌        | 2648/16950 [31:03<2:13:02,  1.79it/s]Training 1/3 epoch (loss 0.0791):  16%|█▌        | 2648/16950 [31:04<2:13:02,  1.79it/s]Training 1/3 epoch (loss 0.0791):  16%|█▌        | 2649/16950 [31:04<2:38:31,  1.50it/s]Training 1/3 epoch (loss 0.2123):  16%|█▌        | 2649/16950 [31:05<2:38:31,  1.50it/s]Training 1/3 epoch (loss 0.2123):  16%|█▌        | 2650/16950 [31:05<2:26:37,  1.63it/s]Training 1/3 epoch (loss 0.0070):  16%|█▌        | 2650/16950 [31:05<2:26:37,  1.63it/s]Training 1/3 epoch (loss 0.0070):  16%|█▌        | 2651/16950 [31:05<2:33:00,  1.56it/s]Training 1/3 epoch (loss 0.0006):  16%|█▌        | 2651/16950 [31:06<2:33:00,  1.56it/s]Training 1/3 epoch (loss 0.0006):  16%|█▌        | 2652/16950 [31:06<2:30:17,  1.59it/s]Training 1/3 epoch (loss 0.0006):  16%|█▌        | 2652/16950 [31:06<2:30:17,  1.59it/s]Training 1/3 epoch (loss 0.0006):  16%|█▌        | 2653/16950 [31:06<2:18:20,  1.72it/s]Training 1/3 epoch (loss 0.0027):  16%|█▌        | 2653/16950 [31:07<2:18:20,  1.72it/s]Training 1/3 epoch (loss 0.0027):  16%|█▌        | 2654/16950 [31:07<2:12:37,  1.80it/s]Training 1/3 epoch (loss 0.0011):  16%|█▌        | 2654/16950 [31:07<2:12:37,  1.80it/s]Training 1/3 epoch (loss 0.0011):  16%|█▌        | 2655/16950 [31:07<2:08:47,  1.85it/s]Training 1/3 epoch (loss 0.0880):  16%|█▌        | 2655/16950 [31:08<2:08:47,  1.85it/s]Training 1/3 epoch (loss 0.0880):  16%|█▌        | 2656/16950 [31:08<2:06:10,  1.89it/s]Training 1/3 epoch (loss 0.3319):  16%|█▌        | 2656/16950 [31:09<2:06:10,  1.89it/s]Training 1/3 epoch (loss 0.3319):  16%|█▌        | 2657/16950 [31:09<2:18:50,  1.72it/s]Training 1/3 epoch (loss 0.7700):  16%|█▌        | 2657/16950 [31:09<2:18:50,  1.72it/s]Training 1/3 epoch (loss 0.7700):  16%|█▌        | 2658/16950 [31:09<2:09:53,  1.83it/s]Training 1/3 epoch (loss 0.0409):  16%|█▌        | 2658/16950 [31:10<2:09:53,  1.83it/s]Training 1/3 epoch (loss 0.0409):  16%|█▌        | 2659/16950 [31:10<2:19:13,  1.71it/s]Training 1/3 epoch (loss 0.2972):  16%|█▌        | 2659/16950 [31:10<2:19:13,  1.71it/s]Training 1/3 epoch (loss 0.2972):  16%|█▌        | 2660/16950 [31:10<2:15:08,  1.76it/s]Training 1/3 epoch (loss 0.5019):  16%|█▌        | 2660/16950 [31:11<2:15:08,  1.76it/s]Training 1/3 epoch (loss 0.5019):  16%|█▌        | 2661/16950 [31:11<2:33:03,  1.56it/s]Training 1/3 epoch (loss 0.0006):  16%|█▌        | 2661/16950 [31:12<2:33:03,  1.56it/s]Training 1/3 epoch (loss 0.0006):  16%|█▌        | 2662/16950 [31:12<2:31:19,  1.57it/s]Training 1/3 epoch (loss 0.2926):  16%|█▌        | 2662/16950 [31:13<2:31:19,  1.57it/s]Training 1/3 epoch (loss 0.2926):  16%|█▌        | 2663/16950 [31:13<2:46:44,  1.43it/s]Training 1/3 epoch (loss 0.0850):  16%|█▌        | 2663/16950 [31:13<2:46:44,  1.43it/s]Training 1/3 epoch (loss 0.0850):  16%|█▌        | 2664/16950 [31:13<2:44:31,  1.45it/s]Training 1/3 epoch (loss 0.0383):  16%|█▌        | 2664/16950 [31:14<2:44:31,  1.45it/s]Training 1/3 epoch (loss 0.0383):  16%|█▌        | 2665/16950 [31:14<2:31:57,  1.57it/s]Training 1/3 epoch (loss 0.1699):  16%|█▌        | 2665/16950 [31:14<2:31:57,  1.57it/s]Training 1/3 epoch (loss 0.1699):  16%|█▌        | 2666/16950 [31:14<2:32:26,  1.56it/s]Training 1/3 epoch (loss 0.0448):  16%|█▌        | 2666/16950 [31:15<2:32:26,  1.56it/s]Training 1/3 epoch (loss 0.0448):  16%|█▌        | 2667/16950 [31:15<2:19:21,  1.71it/s]Training 1/3 epoch (loss 0.0045):  16%|█▌        | 2667/16950 [31:15<2:19:21,  1.71it/s]Training 1/3 epoch (loss 0.0045):  16%|█▌        | 2668/16950 [31:15<2:17:42,  1.73it/s]Training 1/3 epoch (loss 0.0240):  16%|█▌        | 2668/16950 [31:16<2:17:42,  1.73it/s]Training 1/3 epoch (loss 0.0240):  16%|█▌        | 2669/16950 [31:16<2:13:27,  1.78it/s]Training 1/3 epoch (loss 0.0073):  16%|█▌        | 2669/16950 [31:17<2:13:27,  1.78it/s]Training 1/3 epoch (loss 0.0073):  16%|█▌        | 2670/16950 [31:17<2:37:14,  1.51it/s]Training 1/3 epoch (loss 0.4651):  16%|█▌        | 2670/16950 [31:18<2:37:14,  1.51it/s]Training 1/3 epoch (loss 0.4651):  16%|█▌        | 2671/16950 [31:18<2:58:22,  1.33it/s]Training 1/3 epoch (loss 0.0668):  16%|█▌        | 2671/16950 [31:18<2:58:22,  1.33it/s]Training 1/3 epoch (loss 0.0668):  16%|█▌        | 2672/16950 [31:18<2:49:43,  1.40it/s]Training 1/3 epoch (loss 0.1792):  16%|█▌        | 2672/16950 [31:19<2:49:43,  1.40it/s]Training 1/3 epoch (loss 0.1792):  16%|█▌        | 2673/16950 [31:19<2:49:59,  1.40it/s]Training 1/3 epoch (loss 0.6978):  16%|█▌        | 2673/16950 [31:20<2:49:59,  1.40it/s]Training 1/3 epoch (loss 0.6978):  16%|█▌        | 2674/16950 [31:20<2:46:18,  1.43it/s]Training 1/3 epoch (loss 0.3953):  16%|█▌        | 2674/16950 [31:21<2:46:18,  1.43it/s]Training 1/3 epoch (loss 0.3953):  16%|█▌        | 2675/16950 [31:21<2:59:49,  1.32it/s]Training 1/3 epoch (loss 0.2719):  16%|█▌        | 2675/16950 [31:21<2:59:49,  1.32it/s]Training 1/3 epoch (loss 0.2719):  16%|█▌        | 2676/16950 [31:21<2:48:13,  1.41it/s]Training 1/3 epoch (loss 1.0978):  16%|█▌        | 2676/16950 [31:22<2:48:13,  1.41it/s]Training 1/3 epoch (loss 1.0978):  16%|█▌        | 2677/16950 [31:22<2:50:11,  1.40it/s]Training 1/3 epoch (loss 0.3489):  16%|█▌        | 2677/16950 [31:23<2:50:11,  1.40it/s]Training 1/3 epoch (loss 0.3489):  16%|█▌        | 2678/16950 [31:23<2:31:32,  1.57it/s]Training 1/3 epoch (loss 0.0730):  16%|█▌        | 2678/16950 [31:23<2:31:32,  1.57it/s]Training 1/3 epoch (loss 0.0730):  16%|█▌        | 2679/16950 [31:23<2:51:18,  1.39it/s]Training 1/3 epoch (loss 0.2424):  16%|█▌        | 2679/16950 [31:24<2:51:18,  1.39it/s]Training 1/3 epoch (loss 0.2424):  16%|█▌        | 2680/16950 [31:24<2:55:38,  1.35it/s]Training 1/3 epoch (loss 0.0537):  16%|█▌        | 2680/16950 [31:25<2:55:38,  1.35it/s]Training 1/3 epoch (loss 0.0537):  16%|█▌        | 2681/16950 [31:25<2:45:30,  1.44it/s]Training 1/3 epoch (loss 0.1283):  16%|█▌        | 2681/16950 [31:26<2:45:30,  1.44it/s]Training 1/3 epoch (loss 0.1283):  16%|█▌        | 2682/16950 [31:26<2:46:36,  1.43it/s]Training 1/3 epoch (loss 0.0008):  16%|█▌        | 2682/16950 [31:26<2:46:36,  1.43it/s]Training 1/3 epoch (loss 0.0008):  16%|█▌        | 2683/16950 [31:26<2:31:35,  1.57it/s]Training 1/3 epoch (loss 0.9709):  16%|█▌        | 2683/16950 [31:26<2:31:35,  1.57it/s]Training 1/3 epoch (loss 0.9709):  16%|█▌        | 2684/16950 [31:26<2:19:45,  1.70it/s]Training 1/3 epoch (loss 0.0161):  16%|█▌        | 2684/16950 [31:27<2:19:45,  1.70it/s]Training 1/3 epoch (loss 0.0161):  16%|█▌        | 2685/16950 [31:27<2:12:24,  1.80it/s]Training 1/3 epoch (loss 0.5066):  16%|█▌        | 2685/16950 [31:28<2:12:24,  1.80it/s]Training 1/3 epoch (loss 0.5066):  16%|█▌        | 2686/16950 [31:28<2:27:54,  1.61it/s]Training 1/3 epoch (loss 0.0080):  16%|█▌        | 2686/16950 [31:28<2:27:54,  1.61it/s]Training 1/3 epoch (loss 0.0080):  16%|█▌        | 2687/16950 [31:28<2:25:04,  1.64it/s]Training 1/3 epoch (loss 0.1486):  16%|█▌        | 2687/16950 [31:29<2:25:04,  1.64it/s]Training 1/3 epoch (loss 0.1486):  16%|█▌        | 2688/16950 [31:29<2:16:58,  1.74it/s]Training 1/3 epoch (loss 0.0079):  16%|█▌        | 2688/16950 [31:29<2:16:58,  1.74it/s]Training 1/3 epoch (loss 0.0079):  16%|█▌        | 2689/16950 [31:29<2:07:16,  1.87it/s]Training 1/3 epoch (loss 0.1317):  16%|█▌        | 2689/16950 [31:30<2:07:16,  1.87it/s]Training 1/3 epoch (loss 0.1317):  16%|█▌        | 2690/16950 [31:30<2:23:46,  1.65it/s]Training 1/3 epoch (loss 0.4951):  16%|█▌        | 2690/16950 [31:31<2:23:46,  1.65it/s]Training 1/3 epoch (loss 0.4951):  16%|█▌        | 2691/16950 [31:31<2:28:06,  1.60it/s]Training 1/3 epoch (loss 0.0074):  16%|█▌        | 2691/16950 [31:31<2:28:06,  1.60it/s]Training 1/3 epoch (loss 0.0074):  16%|█▌        | 2692/16950 [31:31<2:13:16,  1.78it/s]Training 1/3 epoch (loss 0.2541):  16%|█▌        | 2692/16950 [31:32<2:13:16,  1.78it/s]Training 1/3 epoch (loss 0.2541):  16%|█▌        | 2693/16950 [31:32<2:30:00,  1.58it/s]Training 1/3 epoch (loss 0.0491):  16%|█▌        | 2693/16950 [31:32<2:30:00,  1.58it/s]Training 1/3 epoch (loss 0.0491):  16%|█▌        | 2694/16950 [31:32<2:26:25,  1.62it/s]Training 1/3 epoch (loss 0.0240):  16%|█▌        | 2694/16950 [31:33<2:26:25,  1.62it/s]Training 1/3 epoch (loss 0.0240):  16%|█▌        | 2695/16950 [31:33<2:32:43,  1.56it/s]Training 1/3 epoch (loss 1.3531):  16%|█▌        | 2695/16950 [31:34<2:32:43,  1.56it/s]Training 1/3 epoch (loss 1.3531):  16%|█▌        | 2696/16950 [31:34<2:34:18,  1.54it/s]Training 1/3 epoch (loss 0.0961):  16%|█▌        | 2696/16950 [31:35<2:34:18,  1.54it/s]Training 1/3 epoch (loss 0.0961):  16%|█▌        | 2697/16950 [31:35<2:40:00,  1.48it/s]Training 1/3 epoch (loss 0.1428):  16%|█▌        | 2697/16950 [31:35<2:40:00,  1.48it/s]Training 1/3 epoch (loss 0.1428):  16%|█▌        | 2698/16950 [31:35<2:30:24,  1.58it/s]Training 1/3 epoch (loss 0.0870):  16%|█▌        | 2698/16950 [31:36<2:30:24,  1.58it/s]Training 1/3 epoch (loss 0.0870):  16%|█▌        | 2699/16950 [31:36<2:17:15,  1.73it/s]Training 1/3 epoch (loss 0.6307):  16%|█▌        | 2699/16950 [31:36<2:17:15,  1.73it/s]Training 1/3 epoch (loss 0.6307):  16%|█▌        | 2700/16950 [31:36<2:04:16,  1.91it/s]Training 1/3 epoch (loss 0.2726):  16%|█▌        | 2700/16950 [31:37<2:04:16,  1.91it/s]Training 1/3 epoch (loss 0.2726):  16%|█▌        | 2701/16950 [31:37<2:08:36,  1.85it/s]Training 1/3 epoch (loss 0.8485):  16%|█▌        | 2701/16950 [31:37<2:08:36,  1.85it/s]Training 1/3 epoch (loss 0.8485):  16%|█▌        | 2702/16950 [31:37<2:02:04,  1.95it/s]Training 1/3 epoch (loss 0.0540):  16%|█▌        | 2702/16950 [31:37<2:02:04,  1.95it/s]Training 1/3 epoch (loss 0.0540):  16%|█▌        | 2703/16950 [31:37<1:59:37,  1.98it/s]Training 1/3 epoch (loss 0.0720):  16%|█▌        | 2703/16950 [31:38<1:59:37,  1.98it/s]Training 1/3 epoch (loss 0.0720):  16%|█▌        | 2704/16950 [31:38<2:01:15,  1.96it/s]Training 1/3 epoch (loss 0.0012):  16%|█▌        | 2704/16950 [31:38<2:01:15,  1.96it/s]Training 1/3 epoch (loss 0.0012):  16%|█▌        | 2705/16950 [31:38<1:58:29,  2.00it/s]Training 1/3 epoch (loss 0.3360):  16%|█▌        | 2705/16950 [31:39<1:58:29,  2.00it/s]Training 1/3 epoch (loss 0.3360):  16%|█▌        | 2706/16950 [31:39<2:07:38,  1.86it/s]Training 1/3 epoch (loss 0.3774):  16%|█▌        | 2706/16950 [31:40<2:07:38,  1.86it/s]Training 1/3 epoch (loss 0.3774):  16%|█▌        | 2707/16950 [31:40<2:13:40,  1.78it/s]Training 1/3 epoch (loss 0.0064):  16%|█▌        | 2707/16950 [31:40<2:13:40,  1.78it/s]Training 1/3 epoch (loss 0.0064):  16%|█▌        | 2708/16950 [31:40<2:13:22,  1.78it/s]Training 1/3 epoch (loss 0.0061):  16%|█▌        | 2708/16950 [31:41<2:13:22,  1.78it/s]Training 1/3 epoch (loss 0.0061):  16%|█▌        | 2709/16950 [31:41<2:16:36,  1.74it/s]Training 1/3 epoch (loss 0.0117):  16%|█▌        | 2709/16950 [31:42<2:16:36,  1.74it/s]Training 1/3 epoch (loss 0.0117):  16%|█▌        | 2710/16950 [31:42<2:37:21,  1.51it/s]Training 1/3 epoch (loss 0.0043):  16%|█▌        | 2710/16950 [31:42<2:37:21,  1.51it/s]Training 1/3 epoch (loss 0.0043):  16%|█▌        | 2711/16950 [31:42<2:27:53,  1.60it/s]Training 1/3 epoch (loss 0.0007):  16%|█▌        | 2711/16950 [31:43<2:27:53,  1.60it/s]Training 1/3 epoch (loss 0.0007):  16%|█▌        | 2712/16950 [31:43<2:17:14,  1.73it/s]Training 1/3 epoch (loss 0.3798):  16%|█▌        | 2712/16950 [31:43<2:17:14,  1.73it/s]Training 1/3 epoch (loss 0.3798):  16%|█▌        | 2713/16950 [31:43<2:26:31,  1.62it/s]Training 1/3 epoch (loss 0.2122):  16%|█▌        | 2713/16950 [31:44<2:26:31,  1.62it/s]Training 1/3 epoch (loss 0.2122):  16%|█▌        | 2714/16950 [31:44<2:29:57,  1.58it/s]Training 1/3 epoch (loss 0.0595):  16%|█▌        | 2714/16950 [31:45<2:29:57,  1.58it/s]Training 1/3 epoch (loss 0.0595):  16%|█▌        | 2715/16950 [31:45<2:24:24,  1.64it/s]Training 1/3 epoch (loss 0.0951):  16%|█▌        | 2715/16950 [31:45<2:24:24,  1.64it/s]Training 1/3 epoch (loss 0.0951):  16%|█▌        | 2716/16950 [31:45<2:13:56,  1.77it/s]Training 1/3 epoch (loss 0.2095):  16%|█▌        | 2716/16950 [31:46<2:13:56,  1.77it/s]Training 1/3 epoch (loss 0.2095):  16%|█▌        | 2717/16950 [31:46<2:00:21,  1.97it/s]Training 1/3 epoch (loss 0.0006):  16%|█▌        | 2717/16950 [31:46<2:00:21,  1.97it/s]Training 1/3 epoch (loss 0.0006):  16%|█▌        | 2718/16950 [31:46<1:56:09,  2.04it/s]Training 1/3 epoch (loss 0.0987):  16%|█▌        | 2718/16950 [31:46<1:56:09,  2.04it/s]Training 1/3 epoch (loss 0.0987):  16%|█▌        | 2719/16950 [31:46<1:51:14,  2.13it/s]Training 1/3 epoch (loss 0.3012):  16%|█▌        | 2719/16950 [31:47<1:51:14,  2.13it/s]Training 1/3 epoch (loss 0.3012):  16%|█▌        | 2720/16950 [31:47<2:02:33,  1.94it/s]Training 1/3 epoch (loss 0.0011):  16%|█▌        | 2720/16950 [31:48<2:02:33,  1.94it/s]Training 1/3 epoch (loss 0.0011):  16%|█▌        | 2721/16950 [31:48<2:06:25,  1.88it/s]Training 1/3 epoch (loss 0.7133):  16%|█▌        | 2721/16950 [31:49<2:06:25,  1.88it/s]Training 1/3 epoch (loss 0.7133):  16%|█▌        | 2722/16950 [31:49<2:38:34,  1.50it/s]Training 1/3 epoch (loss 0.0097):  16%|█▌        | 2722/16950 [31:49<2:38:34,  1.50it/s]Training 1/3 epoch (loss 0.0097):  16%|█▌        | 2723/16950 [31:49<2:38:05,  1.50it/s]Training 1/3 epoch (loss 0.1337):  16%|█▌        | 2723/16950 [31:50<2:38:05,  1.50it/s]Training 1/3 epoch (loss 0.1337):  16%|█▌        | 2724/16950 [31:50<2:29:05,  1.59it/s]Training 1/3 epoch (loss 0.0012):  16%|█▌        | 2724/16950 [31:50<2:29:05,  1.59it/s]Training 1/3 epoch (loss 0.0012):  16%|█▌        | 2725/16950 [31:50<2:23:00,  1.66it/s]Training 1/3 epoch (loss 0.2573):  16%|█▌        | 2725/16950 [31:52<2:23:00,  1.66it/s]Training 1/3 epoch (loss 0.2573):  16%|█▌        | 2726/16950 [31:52<3:02:56,  1.30it/s]Training 1/3 epoch (loss 0.0374):  16%|█▌        | 2726/16950 [31:52<3:02:56,  1.30it/s]Training 1/3 epoch (loss 0.0374):  16%|█▌        | 2727/16950 [31:52<2:50:20,  1.39it/s]Training 1/3 epoch (loss 0.0256):  16%|█▌        | 2727/16950 [31:53<2:50:20,  1.39it/s]Training 1/3 epoch (loss 0.0256):  16%|█▌        | 2728/16950 [31:53<2:39:16,  1.49it/s]Training 1/3 epoch (loss 0.0891):  16%|█▌        | 2728/16950 [31:53<2:39:16,  1.49it/s]Training 1/3 epoch (loss 0.0891):  16%|█▌        | 2729/16950 [31:53<2:31:59,  1.56it/s]Training 1/3 epoch (loss 0.0944):  16%|█▌        | 2729/16950 [31:54<2:31:59,  1.56it/s]Training 1/3 epoch (loss 0.0944):  16%|█▌        | 2730/16950 [31:54<2:25:47,  1.63it/s]Training 1/3 epoch (loss 0.4319):  16%|█▌        | 2730/16950 [31:54<2:25:47,  1.63it/s]Training 1/3 epoch (loss 0.4319):  16%|█▌        | 2731/16950 [31:54<2:14:06,  1.77it/s]Training 1/3 epoch (loss 0.3282):  16%|█▌        | 2731/16950 [31:55<2:14:06,  1.77it/s]Training 1/3 epoch (loss 0.3282):  16%|█▌        | 2732/16950 [31:55<1:58:29,  2.00it/s]Training 1/3 epoch (loss 0.3143):  16%|█▌        | 2732/16950 [31:55<1:58:29,  2.00it/s]Training 1/3 epoch (loss 0.3143):  16%|█▌        | 2733/16950 [31:55<2:09:48,  1.83it/s]Training 1/3 epoch (loss 0.0801):  16%|█▌        | 2733/16950 [31:56<2:09:48,  1.83it/s]Training 1/3 epoch (loss 0.0801):  16%|█▌        | 2734/16950 [31:56<2:23:07,  1.66it/s]Training 1/3 epoch (loss 0.0416):  16%|█▌        | 2734/16950 [31:57<2:23:07,  1.66it/s]Training 1/3 epoch (loss 0.0416):  16%|█▌        | 2735/16950 [31:57<2:29:03,  1.59it/s]Training 1/3 epoch (loss 0.0145):  16%|█▌        | 2735/16950 [31:57<2:29:03,  1.59it/s]Training 1/3 epoch (loss 0.0145):  16%|█▌        | 2736/16950 [31:57<2:35:27,  1.52it/s]Training 1/3 epoch (loss 0.0605):  16%|█▌        | 2736/16950 [31:58<2:35:27,  1.52it/s]Training 1/3 epoch (loss 0.0605):  16%|█▌        | 2737/16950 [31:58<2:39:27,  1.49it/s]Training 1/3 epoch (loss 0.0071):  16%|█▌        | 2737/16950 [31:59<2:39:27,  1.49it/s]Training 1/3 epoch (loss 0.0071):  16%|█▌        | 2738/16950 [31:59<2:37:40,  1.50it/s]Training 1/3 epoch (loss 0.4859):  16%|█▌        | 2738/16950 [31:59<2:37:40,  1.50it/s]Training 1/3 epoch (loss 0.4859):  16%|█▌        | 2739/16950 [31:59<2:30:36,  1.57it/s]Training 1/3 epoch (loss 0.0229):  16%|█▌        | 2739/16950 [32:00<2:30:36,  1.57it/s]Training 1/3 epoch (loss 0.0229):  16%|█▌        | 2740/16950 [32:00<2:18:34,  1.71it/s]Training 1/3 epoch (loss 0.3058):  16%|█▌        | 2740/16950 [32:00<2:18:34,  1.71it/s]Training 1/3 epoch (loss 0.3058):  16%|█▌        | 2741/16950 [32:00<2:07:23,  1.86it/s]Training 1/3 epoch (loss 0.3386):  16%|█▌        | 2741/16950 [32:01<2:07:23,  1.86it/s]Training 1/3 epoch (loss 0.3386):  16%|█▌        | 2742/16950 [32:01<2:07:00,  1.86it/s]Training 1/3 epoch (loss 0.0308):  16%|█▌        | 2742/16950 [32:02<2:07:00,  1.86it/s]Training 1/3 epoch (loss 0.0308):  16%|█▌        | 2743/16950 [32:02<2:30:07,  1.58it/s]Training 1/3 epoch (loss 0.0134):  16%|█▌        | 2743/16950 [32:02<2:30:07,  1.58it/s]Training 1/3 epoch (loss 0.0134):  16%|█▌        | 2744/16950 [32:02<2:16:41,  1.73it/s]Training 1/3 epoch (loss 0.0034):  16%|█▌        | 2744/16950 [32:03<2:16:41,  1.73it/s]Training 1/3 epoch (loss 0.0034):  16%|█▌        | 2745/16950 [32:03<2:13:25,  1.77it/s]Training 1/3 epoch (loss 0.0274):  16%|█▌        | 2745/16950 [32:04<2:13:25,  1.77it/s]Training 1/3 epoch (loss 0.0274):  16%|█▌        | 2746/16950 [32:04<2:42:00,  1.46it/s]Training 1/3 epoch (loss 0.0143):  16%|█▌        | 2746/16950 [32:04<2:42:00,  1.46it/s]Training 1/3 epoch (loss 0.0143):  16%|█▌        | 2747/16950 [32:04<2:31:05,  1.57it/s]Training 1/3 epoch (loss 0.5600):  16%|█▌        | 2747/16950 [32:05<2:31:05,  1.57it/s]Training 1/3 epoch (loss 0.5600):  16%|█▌        | 2748/16950 [32:05<2:32:37,  1.55it/s]Training 1/3 epoch (loss 0.0990):  16%|█▌        | 2748/16950 [32:06<2:32:37,  1.55it/s]Training 1/3 epoch (loss 0.0990):  16%|█▌        | 2749/16950 [32:06<2:48:40,  1.40it/s]Training 1/3 epoch (loss 0.0176):  16%|█▌        | 2749/16950 [32:06<2:48:40,  1.40it/s]Training 1/3 epoch (loss 0.0176):  16%|█▌        | 2750/16950 [32:06<3:00:10,  1.31it/s]Training 1/3 epoch (loss 0.0021):  16%|█▌        | 2750/16950 [32:07<3:00:10,  1.31it/s]Training 1/3 epoch (loss 0.0021):  16%|█▌        | 2751/16950 [32:07<2:43:03,  1.45it/s]Training 1/3 epoch (loss 0.6716):  16%|█▌        | 2751/16950 [32:07<2:43:03,  1.45it/s]Training 1/3 epoch (loss 0.6716):  16%|█▌        | 2752/16950 [32:07<2:23:26,  1.65it/s]Training 1/3 epoch (loss 0.0324):  16%|█▌        | 2752/16950 [32:08<2:23:26,  1.65it/s]Training 1/3 epoch (loss 0.0324):  16%|█▌        | 2753/16950 [32:08<2:25:04,  1.63it/s]Training 1/3 epoch (loss 0.0333):  16%|█▌        | 2753/16950 [32:09<2:25:04,  1.63it/s]Training 1/3 epoch (loss 0.0333):  16%|█▌        | 2754/16950 [32:09<2:33:28,  1.54it/s]Training 1/3 epoch (loss 0.0448):  16%|█▌        | 2754/16950 [32:09<2:33:28,  1.54it/s]Training 1/3 epoch (loss 0.0448):  16%|█▋        | 2755/16950 [32:09<2:36:32,  1.51it/s]Training 1/3 epoch (loss 0.0436):  16%|█▋        | 2755/16950 [32:10<2:36:32,  1.51it/s]Training 1/3 epoch (loss 0.0436):  16%|█▋        | 2756/16950 [32:10<2:14:41,  1.76it/s]Training 1/3 epoch (loss 0.1100):  16%|█▋        | 2756/16950 [32:11<2:14:41,  1.76it/s]Training 1/3 epoch (loss 0.1100):  16%|█▋        | 2757/16950 [32:11<2:40:06,  1.48it/s]Training 1/3 epoch (loss 0.3338):  16%|█▋        | 2757/16950 [32:11<2:40:06,  1.48it/s]Training 1/3 epoch (loss 0.3338):  16%|█▋        | 2758/16950 [32:11<2:32:39,  1.55it/s]Training 1/3 epoch (loss 0.0180):  16%|█▋        | 2758/16950 [32:12<2:32:39,  1.55it/s]Training 1/3 epoch (loss 0.0180):  16%|█▋        | 2759/16950 [32:12<2:23:13,  1.65it/s]Training 1/3 epoch (loss 0.0772):  16%|█▋        | 2759/16950 [32:12<2:23:13,  1.65it/s]Training 1/3 epoch (loss 0.0772):  16%|█▋        | 2760/16950 [32:12<2:09:24,  1.83it/s]Training 1/3 epoch (loss 1.7471):  16%|█▋        | 2760/16950 [32:13<2:09:24,  1.83it/s]Training 1/3 epoch (loss 1.7471):  16%|█▋        | 2761/16950 [32:13<2:20:14,  1.69it/s]Training 1/3 epoch (loss 0.0940):  16%|█▋        | 2761/16950 [32:14<2:20:14,  1.69it/s]Training 1/3 epoch (loss 0.0940):  16%|█▋        | 2762/16950 [32:14<2:41:27,  1.46it/s]Training 1/3 epoch (loss 0.4627):  16%|█▋        | 2762/16950 [32:15<2:41:27,  1.46it/s]Training 1/3 epoch (loss 0.4627):  16%|█▋        | 2763/16950 [32:15<2:59:56,  1.31it/s]Training 1/3 epoch (loss 0.4624):  16%|█▋        | 2763/16950 [32:15<2:59:56,  1.31it/s]Training 1/3 epoch (loss 0.4624):  16%|█▋        | 2764/16950 [32:15<2:53:47,  1.36it/s]Training 1/3 epoch (loss 0.5706):  16%|█▋        | 2764/16950 [32:16<2:53:47,  1.36it/s]Training 1/3 epoch (loss 0.5706):  16%|█▋        | 2765/16950 [32:16<2:44:17,  1.44it/s]Training 1/3 epoch (loss 0.4415):  16%|█▋        | 2765/16950 [32:16<2:44:17,  1.44it/s]Training 1/3 epoch (loss 0.4415):  16%|█▋        | 2766/16950 [32:16<2:26:32,  1.61it/s]Training 1/3 epoch (loss 0.2175):  16%|█▋        | 2766/16950 [32:17<2:26:32,  1.61it/s]Training 1/3 epoch (loss 0.2175):  16%|█▋        | 2767/16950 [32:17<2:21:39,  1.67it/s]Training 1/3 epoch (loss 0.9033):  16%|█▋        | 2767/16950 [32:18<2:21:39,  1.67it/s]Training 1/3 epoch (loss 0.9033):  16%|█▋        | 2768/16950 [32:18<2:59:51,  1.31it/s]Training 1/3 epoch (loss 0.9784):  16%|█▋        | 2768/16950 [32:19<2:59:51,  1.31it/s]Training 1/3 epoch (loss 0.9784):  16%|█▋        | 2769/16950 [32:19<2:37:26,  1.50it/s]Training 1/3 epoch (loss 0.0215):  16%|█▋        | 2769/16950 [32:19<2:37:26,  1.50it/s]Training 1/3 epoch (loss 0.0215):  16%|█▋        | 2770/16950 [32:19<2:29:55,  1.58it/s]Training 1/3 epoch (loss 0.3199):  16%|█▋        | 2770/16950 [32:20<2:29:55,  1.58it/s]Training 1/3 epoch (loss 0.3199):  16%|█▋        | 2771/16950 [32:20<2:25:03,  1.63it/s]Training 1/3 epoch (loss 0.0396):  16%|█▋        | 2771/16950 [32:20<2:25:03,  1.63it/s]Training 1/3 epoch (loss 0.0396):  16%|█▋        | 2772/16950 [32:20<2:14:23,  1.76it/s]Training 1/3 epoch (loss 0.0004):  16%|█▋        | 2772/16950 [32:21<2:14:23,  1.76it/s]Training 1/3 epoch (loss 0.0004):  16%|█▋        | 2773/16950 [32:21<2:03:57,  1.91it/s]Training 1/3 epoch (loss 0.0361):  16%|█▋        | 2773/16950 [32:21<2:03:57,  1.91it/s]Training 1/3 epoch (loss 0.0361):  16%|█▋        | 2774/16950 [32:21<2:04:38,  1.90it/s]Training 1/3 epoch (loss 0.0263):  16%|█▋        | 2774/16950 [32:22<2:04:38,  1.90it/s]Training 1/3 epoch (loss 0.0263):  16%|█▋        | 2775/16950 [32:22<2:17:05,  1.72it/s]Training 1/3 epoch (loss 1.1693):  16%|█▋        | 2775/16950 [32:22<2:17:05,  1.72it/s]Training 1/3 epoch (loss 1.1693):  16%|█▋        | 2776/16950 [32:22<2:05:24,  1.88it/s]Training 1/3 epoch (loss 0.0050):  16%|█▋        | 2776/16950 [32:23<2:05:24,  1.88it/s]Training 1/3 epoch (loss 0.0050):  16%|█▋        | 2777/16950 [32:23<2:12:08,  1.79it/s]Training 1/3 epoch (loss 0.0045):  16%|█▋        | 2777/16950 [32:23<2:12:08,  1.79it/s]Training 1/3 epoch (loss 0.0045):  16%|█▋        | 2778/16950 [32:23<2:05:34,  1.88it/s]Training 1/3 epoch (loss 0.0016):  16%|█▋        | 2778/16950 [32:24<2:05:34,  1.88it/s]Training 1/3 epoch (loss 0.0016):  16%|█▋        | 2779/16950 [32:24<2:26:42,  1.61it/s]Training 1/3 epoch (loss 0.4291):  16%|█▋        | 2779/16950 [32:25<2:26:42,  1.61it/s]Training 1/3 epoch (loss 0.4291):  16%|█▋        | 2780/16950 [32:25<2:18:13,  1.71it/s]Training 1/3 epoch (loss nan):  16%|█▋        | 2780/16950 [32:26<2:18:13,  1.71it/s]   Training 1/3 epoch (loss nan):  16%|█▋        | 2781/16950 [32:26<2:56:21,  1.34it/s]Training 1/3 epoch (loss 0.0097):  16%|█▋        | 2781/16950 [32:26<2:56:21,  1.34it/s]Training 1/3 epoch (loss 0.0097):  16%|█▋        | 2782/16950 [32:26<2:41:50,  1.46it/s]Training 1/3 epoch (loss 0.7033):  16%|█▋        | 2782/16950 [32:27<2:41:50,  1.46it/s]Training 1/3 epoch (loss 0.7033):  16%|█▋        | 2783/16950 [32:27<2:58:45,  1.32it/s]Training 1/3 epoch (loss 0.0629):  16%|█▋        | 2783/16950 [32:28<2:58:45,  1.32it/s]Training 1/3 epoch (loss 0.0629):  16%|█▋        | 2784/16950 [32:28<3:15:03,  1.21it/s]Training 1/3 epoch (loss 0.2848):  16%|█▋        | 2784/16950 [32:29<3:15:03,  1.21it/s]Training 1/3 epoch (loss 0.2848):  16%|█▋        | 2785/16950 [32:29<3:10:13,  1.24it/s]Training 1/3 epoch (loss 0.0598):  16%|█▋        | 2785/16950 [32:30<3:10:13,  1.24it/s]Training 1/3 epoch (loss 0.0598):  16%|█▋        | 2786/16950 [32:30<3:01:26,  1.30it/s]Training 1/3 epoch (loss 0.4870):  16%|█▋        | 2786/16950 [32:30<3:01:26,  1.30it/s]Training 1/3 epoch (loss 0.4870):  16%|█▋        | 2787/16950 [32:30<2:49:13,  1.39it/s]Training 1/3 epoch (loss 0.5318):  16%|█▋        | 2787/16950 [32:31<2:49:13,  1.39it/s]Training 1/3 epoch (loss 0.5318):  16%|█▋        | 2788/16950 [32:31<3:08:36,  1.25it/s]Training 1/3 epoch (loss 0.4659):  16%|█▋        | 2788/16950 [32:32<3:08:36,  1.25it/s]Training 1/3 epoch (loss 0.4659):  16%|█▋        | 2789/16950 [32:32<2:58:08,  1.32it/s]Training 1/3 epoch (loss 0.4285):  16%|█▋        | 2789/16950 [32:33<2:58:08,  1.32it/s]Training 1/3 epoch (loss 0.4285):  16%|█▋        | 2790/16950 [32:33<3:04:45,  1.28it/s]Training 1/3 epoch (loss 0.0254):  16%|█▋        | 2790/16950 [32:33<3:04:45,  1.28it/s]Training 1/3 epoch (loss 0.0254):  16%|█▋        | 2791/16950 [32:33<2:46:31,  1.42it/s]Training 1/3 epoch (loss 0.4486):  16%|█▋        | 2791/16950 [32:35<2:46:31,  1.42it/s]Training 1/3 epoch (loss 0.4486):  16%|█▋        | 2792/16950 [32:35<3:18:11,  1.19it/s]Training 1/3 epoch (loss 0.1446):  16%|█▋        | 2792/16950 [32:35<3:18:11,  1.19it/s]Training 1/3 epoch (loss 0.1446):  16%|█▋        | 2793/16950 [32:35<2:57:18,  1.33it/s]Training 1/3 epoch (loss 0.0848):  16%|█▋        | 2793/16950 [32:35<2:57:18,  1.33it/s]Training 1/3 epoch (loss 0.0848):  16%|█▋        | 2794/16950 [32:35<2:33:31,  1.54it/s]Training 1/3 epoch (loss 0.5547):  16%|█▋        | 2794/16950 [32:36<2:33:31,  1.54it/s]Training 1/3 epoch (loss 0.5547):  16%|█▋        | 2795/16950 [32:36<2:20:58,  1.67it/s]Training 1/3 epoch (loss 0.0019):  16%|█▋        | 2795/16950 [32:36<2:20:58,  1.67it/s]Training 1/3 epoch (loss 0.0019):  16%|█▋        | 2796/16950 [32:36<2:09:39,  1.82it/s]Training 1/3 epoch (loss 0.5355):  16%|█▋        | 2796/16950 [32:37<2:09:39,  1.82it/s]Training 1/3 epoch (loss 0.5355):  17%|█▋        | 2797/16950 [32:37<2:05:14,  1.88it/s]Training 1/3 epoch (loss 0.7656):  17%|█▋        | 2797/16950 [32:37<2:05:14,  1.88it/s]Training 1/3 epoch (loss 0.7656):  17%|█▋        | 2798/16950 [32:37<2:09:34,  1.82it/s]Training 1/3 epoch (loss 0.0431):  17%|█▋        | 2798/16950 [32:38<2:09:34,  1.82it/s]Training 1/3 epoch (loss 0.0431):  17%|█▋        | 2799/16950 [32:38<2:12:58,  1.77it/s]Training 1/3 epoch (loss 0.0378):  17%|█▋        | 2799/16950 [32:39<2:12:58,  1.77it/s]Training 1/3 epoch (loss 0.0378):  17%|█▋        | 2800/16950 [32:39<2:20:36,  1.68it/s]Training 1/3 epoch (loss 0.3705):  17%|█▋        | 2800/16950 [32:39<2:20:36,  1.68it/s]Training 1/3 epoch (loss 0.3705):  17%|█▋        | 2801/16950 [32:39<2:28:33,  1.59it/s]Training 1/3 epoch (loss 0.0302):  17%|█▋        | 2801/16950 [32:40<2:28:33,  1.59it/s]Training 1/3 epoch (loss 0.0302):  17%|█▋        | 2802/16950 [32:40<2:23:27,  1.64it/s]Training 1/3 epoch (loss 0.2651):  17%|█▋        | 2802/16950 [32:40<2:23:27,  1.64it/s]Training 1/3 epoch (loss 0.2651):  17%|█▋        | 2803/16950 [32:40<2:07:57,  1.84it/s]Training 1/3 epoch (loss 0.0566):  17%|█▋        | 2803/16950 [32:41<2:07:57,  1.84it/s]Training 1/3 epoch (loss 0.0566):  17%|█▋        | 2804/16950 [32:41<2:00:58,  1.95it/s]Training 1/3 epoch (loss 0.0754):  17%|█▋        | 2804/16950 [32:41<2:00:58,  1.95it/s]Training 1/3 epoch (loss 0.0754):  17%|█▋        | 2805/16950 [32:41<2:02:57,  1.92it/s]Training 1/3 epoch (loss 0.6481):  17%|█▋        | 2805/16950 [32:42<2:02:57,  1.92it/s]Training 1/3 epoch (loss 0.6481):  17%|█▋        | 2806/16950 [32:42<2:01:03,  1.95it/s]Training 1/3 epoch (loss 0.0365):  17%|█▋        | 2806/16950 [32:42<2:01:03,  1.95it/s]Training 1/3 epoch (loss 0.0365):  17%|█▋        | 2807/16950 [32:42<2:02:44,  1.92it/s]Training 1/3 epoch (loss 0.3097):  17%|█▋        | 2807/16950 [32:43<2:02:44,  1.92it/s]Training 1/3 epoch (loss 0.3097):  17%|█▋        | 2808/16950 [32:43<2:21:49,  1.66it/s]Training 1/3 epoch (loss 0.4191):  17%|█▋        | 2808/16950 [32:44<2:21:49,  1.66it/s]Training 1/3 epoch (loss 0.4191):  17%|█▋        | 2809/16950 [32:44<2:28:40,  1.59it/s]Training 1/3 epoch (loss 0.0120):  17%|█▋        | 2809/16950 [32:45<2:28:40,  1.59it/s]Training 1/3 epoch (loss 0.0120):  17%|█▋        | 2810/16950 [32:45<2:27:29,  1.60it/s]Training 1/3 epoch (loss 0.5752):  17%|█▋        | 2810/16950 [32:46<2:27:29,  1.60it/s]Training 1/3 epoch (loss 0.5752):  17%|█▋        | 2811/16950 [32:46<2:55:19,  1.34it/s]Training 1/3 epoch (loss 0.0930):  17%|█▋        | 2811/16950 [32:46<2:55:19,  1.34it/s]Training 1/3 epoch (loss 0.0930):  17%|█▋        | 2812/16950 [32:46<3:01:26,  1.30it/s]Training 1/3 epoch (loss 0.2244):  17%|█▋        | 2812/16950 [32:47<3:01:26,  1.30it/s]Training 1/3 epoch (loss 0.2244):  17%|█▋        | 2813/16950 [32:47<2:42:27,  1.45it/s]Training 1/3 epoch (loss 0.1086):  17%|█▋        | 2813/16950 [32:48<2:42:27,  1.45it/s]Training 1/3 epoch (loss 0.1086):  17%|█▋        | 2814/16950 [32:48<2:55:54,  1.34it/s]Training 1/3 epoch (loss 0.0154):  17%|█▋        | 2814/16950 [32:48<2:55:54,  1.34it/s]Training 1/3 epoch (loss 0.0154):  17%|█▋        | 2815/16950 [32:48<2:53:53,  1.35it/s]Training 1/3 epoch (loss 0.0012):  17%|█▋        | 2815/16950 [32:49<2:53:53,  1.35it/s]Training 1/3 epoch (loss 0.0012):  17%|█▋        | 2816/16950 [32:49<3:06:23,  1.26it/s]Training 1/3 epoch (loss 0.6515):  17%|█▋        | 2816/16950 [32:50<3:06:23,  1.26it/s]Training 1/3 epoch (loss 0.6515):  17%|█▋        | 2817/16950 [32:50<2:47:27,  1.41it/s]Training 1/3 epoch (loss 0.1977):  17%|█▋        | 2817/16950 [32:50<2:47:27,  1.41it/s]Training 1/3 epoch (loss 0.1977):  17%|█▋        | 2818/16950 [32:50<2:33:59,  1.53it/s]Training 1/3 epoch (loss 0.7159):  17%|█▋        | 2818/16950 [32:51<2:33:59,  1.53it/s]Training 1/3 epoch (loss 0.7159):  17%|█▋        | 2819/16950 [32:51<2:15:37,  1.74it/s]Training 1/3 epoch (loss 0.0009):  17%|█▋        | 2819/16950 [32:51<2:15:37,  1.74it/s]Training 1/3 epoch (loss 0.0009):  17%|█▋        | 2820/16950 [32:51<2:11:40,  1.79it/s]Training 1/3 epoch (loss 0.0134):  17%|█▋        | 2820/16950 [32:52<2:11:40,  1.79it/s]Training 1/3 epoch (loss 0.0134):  17%|█▋        | 2821/16950 [32:52<2:20:15,  1.68it/s]Training 1/3 epoch (loss 0.5956):  17%|█▋        | 2821/16950 [32:52<2:20:15,  1.68it/s]Training 1/3 epoch (loss 0.5956):  17%|█▋        | 2822/16950 [32:52<2:09:24,  1.82it/s]Training 1/3 epoch (loss 0.5044):  17%|█▋        | 2822/16950 [32:53<2:09:24,  1.82it/s]Training 1/3 epoch (loss 0.5044):  17%|█▋        | 2823/16950 [32:53<2:01:20,  1.94it/s]Training 1/3 epoch (loss 0.4904):  17%|█▋        | 2823/16950 [32:53<2:01:20,  1.94it/s]Training 1/3 epoch (loss 0.4904):  17%|█▋        | 2824/16950 [32:53<2:03:40,  1.90it/s]Training 1/3 epoch (loss 0.0008):  17%|█▋        | 2824/16950 [32:54<2:03:40,  1.90it/s]Training 1/3 epoch (loss 0.0008):  17%|█▋        | 2825/16950 [32:54<1:58:13,  1.99it/s]Training 1/3 epoch (loss 0.0024):  17%|█▋        | 2825/16950 [32:54<1:58:13,  1.99it/s]Training 1/3 epoch (loss 0.0024):  17%|█▋        | 2826/16950 [32:54<1:46:48,  2.20it/s]Training 1/3 epoch (loss 0.0544):  17%|█▋        | 2826/16950 [32:55<1:46:48,  2.20it/s]Training 1/3 epoch (loss 0.0544):  17%|█▋        | 2827/16950 [32:55<1:50:11,  2.14it/s]Training 1/3 epoch (loss 0.0222):  17%|█▋        | 2827/16950 [32:55<1:50:11,  2.14it/s]Training 1/3 epoch (loss 0.0222):  17%|█▋        | 2828/16950 [32:55<1:56:31,  2.02it/s]Training 1/3 epoch (loss 0.3479):  17%|█▋        | 2828/16950 [32:56<1:56:31,  2.02it/s]Training 1/3 epoch (loss 0.3479):  17%|█▋        | 2829/16950 [32:56<1:50:17,  2.13it/s]Training 1/3 epoch (loss 0.6116):  17%|█▋        | 2829/16950 [32:57<1:50:17,  2.13it/s]Training 1/3 epoch (loss 0.6116):  17%|█▋        | 2830/16950 [32:57<2:26:35,  1.61it/s]Training 1/3 epoch (loss 0.0422):  17%|█▋        | 2830/16950 [32:58<2:26:35,  1.61it/s]Training 1/3 epoch (loss 0.0422):  17%|█▋        | 2831/16950 [32:58<2:41:32,  1.46it/s]Training 1/3 epoch (loss 0.5572):  17%|█▋        | 2831/16950 [32:58<2:41:32,  1.46it/s]Training 1/3 epoch (loss 0.5572):  17%|█▋        | 2832/16950 [32:58<2:31:36,  1.55it/s]Training 1/3 epoch (loss 0.3762):  17%|█▋        | 2832/16950 [32:59<2:31:36,  1.55it/s]Training 1/3 epoch (loss 0.3762):  17%|█▋        | 2833/16950 [32:59<2:49:02,  1.39it/s]Training 1/3 epoch (loss 0.0951):  17%|█▋        | 2833/16950 [33:00<2:49:02,  1.39it/s]Training 1/3 epoch (loss 0.0951):  17%|█▋        | 2834/16950 [33:00<2:40:19,  1.47it/s]Training 1/3 epoch (loss 0.7445):  17%|█▋        | 2834/16950 [33:01<2:40:19,  1.47it/s]Training 1/3 epoch (loss 0.7445):  17%|█▋        | 2835/16950 [33:01<3:13:20,  1.22it/s]Training 1/3 epoch (loss 0.2194):  17%|█▋        | 2835/16950 [33:01<3:13:20,  1.22it/s]Training 1/3 epoch (loss 0.2194):  17%|█▋        | 2836/16950 [33:01<2:58:12,  1.32it/s]Training 1/3 epoch (loss 0.0482):  17%|█▋        | 2836/16950 [33:02<2:58:12,  1.32it/s]Training 1/3 epoch (loss 0.0482):  17%|█▋        | 2837/16950 [33:02<2:52:45,  1.36it/s]Training 1/3 epoch (loss 0.0030):  17%|█▋        | 2837/16950 [33:02<2:52:45,  1.36it/s]Training 1/3 epoch (loss 0.0030):  17%|█▋        | 2838/16950 [33:02<2:31:10,  1.56it/s]Training 1/3 epoch (loss 0.0399):  17%|█▋        | 2838/16950 [33:03<2:31:10,  1.56it/s]Training 1/3 epoch (loss 0.0399):  17%|█▋        | 2839/16950 [33:03<2:18:31,  1.70it/s]Training 1/3 epoch (loss 0.0481):  17%|█▋        | 2839/16950 [33:03<2:18:31,  1.70it/s]Training 1/3 epoch (loss 0.0481):  17%|█▋        | 2840/16950 [33:03<2:16:16,  1.73it/s]Training 1/3 epoch (loss 0.4706):  17%|█▋        | 2840/16950 [33:04<2:16:16,  1.73it/s]Training 1/3 epoch (loss 0.4706):  17%|█▋        | 2841/16950 [33:04<2:48:20,  1.40it/s]Training 1/3 epoch (loss 0.1660):  17%|█▋        | 2841/16950 [33:05<2:48:20,  1.40it/s]Training 1/3 epoch (loss 0.1660):  17%|█▋        | 2842/16950 [33:05<2:42:59,  1.44it/s]Training 1/3 epoch (loss 0.0056):  17%|█▋        | 2842/16950 [33:06<2:42:59,  1.44it/s]Training 1/3 epoch (loss 0.0056):  17%|█▋        | 2843/16950 [33:06<2:26:23,  1.61it/s]Training 1/3 epoch (loss 0.8020):  17%|█▋        | 2843/16950 [33:07<2:26:23,  1.61it/s]Training 1/3 epoch (loss 0.8020):  17%|█▋        | 2844/16950 [33:07<3:02:02,  1.29it/s]Training 1/3 epoch (loss 0.1128):  17%|█▋        | 2844/16950 [33:07<3:02:02,  1.29it/s]Training 1/3 epoch (loss 0.1128):  17%|█▋        | 2845/16950 [33:07<2:43:17,  1.44it/s]Training 1/3 epoch (loss 0.0104):  17%|█▋        | 2845/16950 [33:08<2:43:17,  1.44it/s]Training 1/3 epoch (loss 0.0104):  17%|█▋        | 2846/16950 [33:08<2:35:22,  1.51it/s]Training 1/3 epoch (loss 0.0868):  17%|█▋        | 2846/16950 [33:08<2:35:22,  1.51it/s]Training 1/3 epoch (loss 0.0868):  17%|█▋        | 2847/16950 [33:08<2:30:59,  1.56it/s]Training 1/3 epoch (loss 0.0152):  17%|█▋        | 2847/16950 [33:09<2:30:59,  1.56it/s]Training 1/3 epoch (loss 0.0152):  17%|█▋        | 2848/16950 [33:09<2:43:45,  1.44it/s]Training 1/3 epoch (loss 0.1600):  17%|█▋        | 2848/16950 [33:10<2:43:45,  1.44it/s]Training 1/3 epoch (loss 0.1600):  17%|█▋        | 2849/16950 [33:10<2:44:54,  1.43it/s]Training 1/3 epoch (loss 0.6775):  17%|█▋        | 2849/16950 [33:10<2:44:54,  1.43it/s]Training 1/3 epoch (loss 0.6775):  17%|█▋        | 2850/16950 [33:10<2:33:19,  1.53it/s]Training 1/3 epoch (loss 0.0633):  17%|█▋        | 2850/16950 [33:11<2:33:19,  1.53it/s]Training 1/3 epoch (loss 0.0633):  17%|█▋        | 2851/16950 [33:11<2:28:16,  1.58it/s]Training 1/3 epoch (loss 0.0169):  17%|█▋        | 2851/16950 [33:12<2:28:16,  1.58it/s]Training 1/3 epoch (loss 0.0169):  17%|█▋        | 2852/16950 [33:12<2:25:49,  1.61it/s]Training 1/3 epoch (loss 0.1807):  17%|█▋        | 2852/16950 [33:13<2:25:49,  1.61it/s]Training 1/3 epoch (loss 0.1807):  17%|█▋        | 2853/16950 [33:13<2:51:39,  1.37it/s]Training 1/3 epoch (loss 0.0042):  17%|█▋        | 2853/16950 [33:13<2:51:39,  1.37it/s]Training 1/3 epoch (loss 0.0042):  17%|█▋        | 2854/16950 [33:13<2:44:50,  1.43it/s]Training 1/3 epoch (loss 0.0282):  17%|█▋        | 2854/16950 [33:14<2:44:50,  1.43it/s]Training 1/3 epoch (loss 0.0282):  17%|█▋        | 2855/16950 [33:14<2:25:13,  1.62it/s]Training 1/3 epoch (loss 0.2130):  17%|█▋        | 2855/16950 [33:14<2:25:13,  1.62it/s]Training 1/3 epoch (loss 0.2130):  17%|█▋        | 2856/16950 [33:14<2:14:48,  1.74it/s]Training 1/3 epoch (loss 0.5095):  17%|█▋        | 2856/16950 [33:15<2:14:48,  1.74it/s]Training 1/3 epoch (loss 0.5095):  17%|█▋        | 2857/16950 [33:15<2:01:35,  1.93it/s]Training 1/3 epoch (loss 0.5301):  17%|█▋        | 2857/16950 [33:15<2:01:35,  1.93it/s]Training 1/3 epoch (loss 0.5301):  17%|█▋        | 2858/16950 [33:15<2:04:16,  1.89it/s]Training 1/3 epoch (loss 0.0050):  17%|█▋        | 2858/16950 [33:16<2:04:16,  1.89it/s]Training 1/3 epoch (loss 0.0050):  17%|█▋        | 2859/16950 [33:16<2:02:53,  1.91it/s]Training 1/3 epoch (loss 0.4449):  17%|█▋        | 2859/16950 [33:16<2:02:53,  1.91it/s]Training 1/3 epoch (loss 0.4449):  17%|█▋        | 2860/16950 [33:16<1:58:47,  1.98it/s]Training 1/3 epoch (loss 0.4597):  17%|█▋        | 2860/16950 [33:17<1:58:47,  1.98it/s]Training 1/3 epoch (loss 0.4597):  17%|█▋        | 2861/16950 [33:17<2:23:33,  1.64it/s]Training 1/3 epoch (loss 0.3387):  17%|█▋        | 2861/16950 [33:18<2:23:33,  1.64it/s]Training 1/3 epoch (loss 0.3387):  17%|█▋        | 2862/16950 [33:18<2:30:56,  1.56it/s]Training 1/3 epoch (loss 0.8960):  17%|█▋        | 2862/16950 [33:18<2:30:56,  1.56it/s]Training 1/3 epoch (loss 0.8960):  17%|█▋        | 2863/16950 [33:18<2:18:03,  1.70it/s]Training 1/3 epoch (loss 0.0136):  17%|█▋        | 2863/16950 [33:19<2:18:03,  1.70it/s]Training 1/3 epoch (loss 0.0136):  17%|█▋        | 2864/16950 [33:19<2:10:45,  1.80it/s]Training 1/3 epoch (loss 0.1151):  17%|█▋        | 2864/16950 [33:19<2:10:45,  1.80it/s]Training 1/3 epoch (loss 0.1151):  17%|█▋        | 2865/16950 [33:19<2:22:55,  1.64it/s]Training 1/3 epoch (loss 0.4124):  17%|█▋        | 2865/16950 [33:20<2:22:55,  1.64it/s]Training 1/3 epoch (loss 0.4124):  17%|█▋        | 2866/16950 [33:20<3:00:19,  1.30it/s]Training 1/3 epoch (loss 0.1283):  17%|█▋        | 2866/16950 [33:21<3:00:19,  1.30it/s]Training 1/3 epoch (loss 0.1283):  17%|█▋        | 2867/16950 [33:21<2:41:14,  1.46it/s]Training 1/3 epoch (loss 0.0058):  17%|█▋        | 2867/16950 [33:21<2:41:14,  1.46it/s]Training 1/3 epoch (loss 0.0058):  17%|█▋        | 2868/16950 [33:21<2:22:19,  1.65it/s]Training 1/3 epoch (loss 0.2244):  17%|█▋        | 2868/16950 [33:22<2:22:19,  1.65it/s]Training 1/3 epoch (loss 0.2244):  17%|█▋        | 2869/16950 [33:22<2:14:43,  1.74it/s]Training 1/3 epoch (loss 0.2883):  17%|█▋        | 2869/16950 [33:23<2:14:43,  1.74it/s]Training 1/3 epoch (loss 0.2883):  17%|█▋        | 2870/16950 [33:23<2:33:40,  1.53it/s]Training 1/3 epoch (loss 0.0849):  17%|█▋        | 2870/16950 [33:23<2:33:40,  1.53it/s]Training 1/3 epoch (loss 0.0849):  17%|█▋        | 2871/16950 [33:23<2:23:41,  1.63it/s]Training 1/3 epoch (loss 0.0055):  17%|█▋        | 2871/16950 [33:24<2:23:41,  1.63it/s]Training 1/3 epoch (loss 0.0055):  17%|█▋        | 2872/16950 [33:24<2:17:40,  1.70it/s]Training 1/3 epoch (loss 0.0445):  17%|█▋        | 2872/16950 [33:24<2:17:40,  1.70it/s]Training 1/3 epoch (loss 0.0445):  17%|█▋        | 2873/16950 [33:24<2:19:19,  1.68it/s]Training 1/3 epoch (loss 0.0025):  17%|█▋        | 2873/16950 [33:25<2:19:19,  1.68it/s]Training 1/3 epoch (loss 0.0025):  17%|█▋        | 2874/16950 [33:25<2:15:21,  1.73it/s]Training 1/3 epoch (loss 0.4847):  17%|█▋        | 2874/16950 [33:25<2:15:21,  1.73it/s]Training 1/3 epoch (loss 0.4847):  17%|█▋        | 2875/16950 [33:25<2:14:03,  1.75it/s]Training 1/3 epoch (loss 0.0271):  17%|█▋        | 2875/16950 [33:26<2:14:03,  1.75it/s]Training 1/3 epoch (loss 0.0271):  17%|█▋        | 2876/16950 [33:26<2:18:42,  1.69it/s]Training 1/3 epoch (loss 0.0556):  17%|█▋        | 2876/16950 [33:27<2:18:42,  1.69it/s]Training 1/3 epoch (loss 0.0556):  17%|█▋        | 2877/16950 [33:27<2:40:32,  1.46it/s]Training 1/3 epoch (loss 0.0095):  17%|█▋        | 2877/16950 [33:28<2:40:32,  1.46it/s]Training 1/3 epoch (loss 0.0095):  17%|█▋        | 2878/16950 [33:28<2:36:03,  1.50it/s]Training 1/3 epoch (loss 0.5752):  17%|█▋        | 2878/16950 [33:28<2:36:03,  1.50it/s]Training 1/3 epoch (loss 0.5752):  17%|█▋        | 2879/16950 [33:28<2:13:25,  1.76it/s]Training 1/3 epoch (loss 0.0207):  17%|█▋        | 2879/16950 [33:28<2:13:25,  1.76it/s]Training 1/3 epoch (loss 0.0207):  17%|█▋        | 2880/16950 [33:28<2:08:48,  1.82it/s]Training 1/3 epoch (loss 0.4593):  17%|█▋        | 2880/16950 [33:29<2:08:48,  1.82it/s]Training 1/3 epoch (loss 0.4593):  17%|█▋        | 2881/16950 [33:29<1:58:45,  1.97it/s]Training 1/3 epoch (loss 0.0094):  17%|█▋        | 2881/16950 [33:29<1:58:45,  1.97it/s]Training 1/3 epoch (loss 0.0094):  17%|█▋        | 2882/16950 [33:29<1:54:26,  2.05it/s]Training 1/3 epoch (loss 0.2964):  17%|█▋        | 2882/16950 [33:30<1:54:26,  2.05it/s]Training 1/3 epoch (loss 0.2964):  17%|█▋        | 2883/16950 [33:30<1:53:36,  2.06it/s]Training 1/3 epoch (loss 0.0404):  17%|█▋        | 2883/16950 [33:31<1:53:36,  2.06it/s]Training 1/3 epoch (loss 0.0404):  17%|█▋        | 2884/16950 [33:31<2:30:24,  1.56it/s]Training 1/3 epoch (loss 0.0629):  17%|█▋        | 2884/16950 [33:32<2:30:24,  1.56it/s]Training 1/3 epoch (loss 0.0629):  17%|█▋        | 2885/16950 [33:32<2:53:40,  1.35it/s]Training 1/3 epoch (loss 0.0272):  17%|█▋        | 2885/16950 [33:32<2:53:40,  1.35it/s]Training 1/3 epoch (loss 0.0272):  17%|█▋        | 2886/16950 [33:32<2:42:04,  1.45it/s]Training 1/3 epoch (loss 0.0382):  17%|█▋        | 2886/16950 [33:33<2:42:04,  1.45it/s]Training 1/3 epoch (loss 0.0382):  17%|█▋        | 2887/16950 [33:33<2:59:30,  1.31it/s]Training 1/3 epoch (loss 0.0568):  17%|█▋        | 2887/16950 [33:34<2:59:30,  1.31it/s]Training 1/3 epoch (loss 0.0568):  17%|█▋        | 2888/16950 [33:34<2:48:44,  1.39it/s]Training 1/3 epoch (loss 0.3348):  17%|█▋        | 2888/16950 [33:34<2:48:44,  1.39it/s]Training 1/3 epoch (loss 0.3348):  17%|█▋        | 2889/16950 [33:34<2:30:58,  1.55it/s]Training 1/3 epoch (loss 0.4049):  17%|█▋        | 2889/16950 [33:35<2:30:58,  1.55it/s]Training 1/3 epoch (loss 0.4049):  17%|█▋        | 2890/16950 [33:35<2:11:54,  1.78it/s]Training 1/3 epoch (loss 0.4096):  17%|█▋        | 2890/16950 [33:35<2:11:54,  1.78it/s]Training 1/3 epoch (loss 0.4096):  17%|█▋        | 2891/16950 [33:35<2:03:26,  1.90it/s]Training 1/3 epoch (loss 0.3531):  17%|█▋        | 2891/16950 [33:36<2:03:26,  1.90it/s]Training 1/3 epoch (loss 0.3531):  17%|█▋        | 2892/16950 [33:36<2:02:27,  1.91it/s]Training 1/3 epoch (loss 0.0370):  17%|█▋        | 2892/16950 [33:36<2:02:27,  1.91it/s]Training 1/3 epoch (loss 0.0370):  17%|█▋        | 2893/16950 [33:36<2:04:29,  1.88it/s]Training 1/3 epoch (loss 0.0854):  17%|█▋        | 2893/16950 [33:37<2:04:29,  1.88it/s]Training 1/3 epoch (loss 0.0854):  17%|█▋        | 2894/16950 [33:37<1:54:58,  2.04it/s]Training 1/3 epoch (loss 0.5934):  17%|█▋        | 2894/16950 [33:37<1:54:58,  2.04it/s]Training 1/3 epoch (loss 0.5934):  17%|█▋        | 2895/16950 [33:37<1:45:22,  2.22it/s]Training 1/3 epoch (loss 0.2950):  17%|█▋        | 2895/16950 [33:38<1:45:22,  2.22it/s]Training 1/3 epoch (loss 0.2950):  17%|█▋        | 2896/16950 [33:38<2:10:11,  1.80it/s]Training 1/3 epoch (loss 0.6842):  17%|█▋        | 2896/16950 [33:39<2:10:11,  1.80it/s]Training 1/3 epoch (loss 0.6842):  17%|█▋        | 2897/16950 [33:39<2:54:48,  1.34it/s]Training 1/3 epoch (loss 0.0708):  17%|█▋        | 2897/16950 [33:40<2:54:48,  1.34it/s]Training 1/3 epoch (loss 0.0708):  17%|█▋        | 2898/16950 [33:40<2:45:17,  1.42it/s]Training 1/3 epoch (loss 0.0173):  17%|█▋        | 2898/16950 [33:40<2:45:17,  1.42it/s]Training 1/3 epoch (loss 0.0173):  17%|█▋        | 2899/16950 [33:40<2:46:14,  1.41it/s]Training 1/3 epoch (loss 0.6409):  17%|█▋        | 2899/16950 [33:41<2:46:14,  1.41it/s]Training 1/3 epoch (loss 0.6409):  17%|█▋        | 2900/16950 [33:41<2:32:22,  1.54it/s]Training 1/3 epoch (loss 0.0547):  17%|█▋        | 2900/16950 [33:42<2:32:22,  1.54it/s]Training 1/3 epoch (loss 0.0547):  17%|█▋        | 2901/16950 [33:42<2:33:41,  1.52it/s]Training 1/3 epoch (loss 0.0131):  17%|█▋        | 2901/16950 [33:42<2:33:41,  1.52it/s]Training 1/3 epoch (loss 0.0131):  17%|█▋        | 2902/16950 [33:42<2:33:15,  1.53it/s]Training 1/3 epoch (loss 0.1920):  17%|█▋        | 2902/16950 [33:43<2:33:15,  1.53it/s]Training 1/3 epoch (loss 0.1920):  17%|█▋        | 2903/16950 [33:43<2:54:24,  1.34it/s]Training 1/3 epoch (loss 0.0575):  17%|█▋        | 2903/16950 [33:44<2:54:24,  1.34it/s]Training 1/3 epoch (loss 0.0575):  17%|█▋        | 2904/16950 [33:44<2:41:05,  1.45it/s]Training 1/3 epoch (loss 0.4455):  17%|█▋        | 2904/16950 [33:44<2:41:05,  1.45it/s]Training 1/3 epoch (loss 0.4455):  17%|█▋        | 2905/16950 [33:44<2:25:33,  1.61it/s]Training 1/3 epoch (loss 0.0066):  17%|█▋        | 2905/16950 [33:45<2:25:33,  1.61it/s]Training 1/3 epoch (loss 0.0066):  17%|█▋        | 2906/16950 [33:45<2:25:34,  1.61it/s]Training 1/3 epoch (loss 0.1258):  17%|█▋        | 2906/16950 [33:45<2:25:34,  1.61it/s]Training 1/3 epoch (loss 0.1258):  17%|█▋        | 2907/16950 [33:45<2:13:37,  1.75it/s]Training 1/3 epoch (loss 0.2843):  17%|█▋        | 2907/16950 [33:46<2:13:37,  1.75it/s]Training 1/3 epoch (loss 0.2843):  17%|█▋        | 2908/16950 [33:46<2:04:19,  1.88it/s]Training 1/3 epoch (loss 0.3813):  17%|█▋        | 2908/16950 [33:46<2:04:19,  1.88it/s]Training 1/3 epoch (loss 0.3813):  17%|█▋        | 2909/16950 [33:46<2:02:06,  1.92it/s]Training 1/3 epoch (loss 0.0923):  17%|█▋        | 2909/16950 [33:47<2:02:06,  1.92it/s]Training 1/3 epoch (loss 0.0923):  17%|█▋        | 2910/16950 [33:47<1:58:40,  1.97it/s]Training 1/3 epoch (loss 0.0080):  17%|█▋        | 2910/16950 [33:47<1:58:40,  1.97it/s]Training 1/3 epoch (loss 0.0080):  17%|█▋        | 2911/16950 [33:47<2:04:20,  1.88it/s]Training 1/3 epoch (loss 0.0573):  17%|█▋        | 2911/16950 [33:48<2:04:20,  1.88it/s]Training 1/3 epoch (loss 0.0573):  17%|█▋        | 2912/16950 [33:48<2:09:42,  1.80it/s]Training 1/3 epoch (loss 0.0176):  17%|█▋        | 2912/16950 [33:48<2:09:42,  1.80it/s]Training 1/3 epoch (loss 0.0176):  17%|█▋        | 2913/16950 [33:48<1:59:07,  1.96it/s]Training 1/3 epoch (loss 0.1249):  17%|█▋        | 2913/16950 [33:49<1:59:07,  1.96it/s]Training 1/3 epoch (loss 0.1249):  17%|█▋        | 2914/16950 [33:49<1:45:28,  2.22it/s]Training 1/3 epoch (loss 0.2537):  17%|█▋        | 2914/16950 [33:49<1:45:28,  2.22it/s]Training 1/3 epoch (loss 0.2537):  17%|█▋        | 2915/16950 [33:49<1:53:47,  2.06it/s]Training 1/3 epoch (loss nan):  17%|█▋        | 2915/16950 [33:50<1:53:47,  2.06it/s]   Training 1/3 epoch (loss nan):  17%|█▋        | 2916/16950 [33:50<2:39:19,  1.47it/s]Training 1/3 epoch (loss 0.3251):  17%|█▋        | 2916/16950 [33:51<2:39:19,  1.47it/s]Training 1/3 epoch (loss 0.3251):  17%|█▋        | 2917/16950 [33:51<2:34:31,  1.51it/s]Training 1/3 epoch (loss 0.1296):  17%|█▋        | 2917/16950 [33:51<2:34:31,  1.51it/s]Training 1/3 epoch (loss 0.1296):  17%|█▋        | 2918/16950 [33:51<2:16:45,  1.71it/s]Training 1/3 epoch (loss 0.0467):  17%|█▋        | 2918/16950 [33:52<2:16:45,  1.71it/s]Training 1/3 epoch (loss 0.0467):  17%|█▋        | 2919/16950 [33:52<2:24:02,  1.62it/s]Training 1/3 epoch (loss 0.0061):  17%|█▋        | 2919/16950 [33:53<2:24:02,  1.62it/s]Training 1/3 epoch (loss 0.0061):  17%|█▋        | 2920/16950 [33:53<2:39:06,  1.47it/s]Training 1/3 epoch (loss 0.0185):  17%|█▋        | 2920/16950 [33:54<2:39:06,  1.47it/s]Training 1/3 epoch (loss 0.0185):  17%|█▋        | 2921/16950 [33:54<2:42:25,  1.44it/s]Training 1/3 epoch (loss 0.1138):  17%|█▋        | 2921/16950 [33:54<2:42:25,  1.44it/s]Training 1/3 epoch (loss 0.1138):  17%|█▋        | 2922/16950 [33:54<2:37:22,  1.49it/s]Training 1/3 epoch (loss 0.1363):  17%|█▋        | 2922/16950 [33:55<2:37:22,  1.49it/s]Training 1/3 epoch (loss 0.1363):  17%|█▋        | 2923/16950 [33:55<2:28:12,  1.58it/s]Training 1/3 epoch (loss 0.2051):  17%|█▋        | 2923/16950 [33:55<2:28:12,  1.58it/s]Training 1/3 epoch (loss 0.2051):  17%|█▋        | 2924/16950 [33:55<2:21:30,  1.65it/s]Training 1/3 epoch (loss 0.0073):  17%|█▋        | 2924/16950 [33:56<2:21:30,  1.65it/s]Training 1/3 epoch (loss 0.0073):  17%|█▋        | 2925/16950 [33:56<2:26:25,  1.60it/s]Training 1/3 epoch (loss 0.0009):  17%|█▋        | 2925/16950 [33:56<2:26:25,  1.60it/s]Training 1/3 epoch (loss 0.0009):  17%|█▋        | 2926/16950 [33:56<2:25:26,  1.61it/s]Training 1/3 epoch (loss 0.1285):  17%|█▋        | 2926/16950 [33:57<2:25:26,  1.61it/s]Training 1/3 epoch (loss 0.1285):  17%|█▋        | 2927/16950 [33:57<2:22:34,  1.64it/s]Training 1/3 epoch (loss 0.0290):  17%|█▋        | 2927/16950 [33:58<2:22:34,  1.64it/s]Training 1/3 epoch (loss 0.0290):  17%|█▋        | 2928/16950 [33:58<2:15:54,  1.72it/s]Training 1/3 epoch (loss 0.0065):  17%|█▋        | 2928/16950 [33:58<2:15:54,  1.72it/s]Training 1/3 epoch (loss 0.0065):  17%|█▋        | 2929/16950 [33:58<2:05:28,  1.86it/s]Training 1/3 epoch (loss 0.6878):  17%|█▋        | 2929/16950 [33:58<2:05:28,  1.86it/s]Training 1/3 epoch (loss 0.6878):  17%|█▋        | 2930/16950 [33:58<1:54:53,  2.03it/s]Training 1/3 epoch (loss 0.1041):  17%|█▋        | 2930/16950 [33:59<1:54:53,  2.03it/s]Training 1/3 epoch (loss 0.1041):  17%|█▋        | 2931/16950 [33:59<1:53:51,  2.05it/s]Training 1/3 epoch (loss 0.0094):  17%|█▋        | 2931/16950 [33:59<1:53:51,  2.05it/s]Training 1/3 epoch (loss 0.0094):  17%|█▋        | 2932/16950 [33:59<1:47:37,  2.17it/s]Training 1/3 epoch (loss 0.0073):  17%|█▋        | 2932/16950 [34:00<1:47:37,  2.17it/s]Training 1/3 epoch (loss 0.0073):  17%|█▋        | 2933/16950 [34:00<1:43:45,  2.25it/s]Training 1/3 epoch (loss 1.0104):  17%|█▋        | 2933/16950 [34:00<1:43:45,  2.25it/s]Training 1/3 epoch (loss 1.0104):  17%|█▋        | 2934/16950 [34:00<1:34:46,  2.46it/s]Training 1/3 epoch (loss 0.0562):  17%|█▋        | 2934/16950 [34:00<1:34:46,  2.46it/s]Training 1/3 epoch (loss 0.0562):  17%|█▋        | 2935/16950 [34:00<1:35:52,  2.44it/s]Training 1/3 epoch (loss 0.0259):  17%|█▋        | 2935/16950 [34:01<1:35:52,  2.44it/s]Training 1/3 epoch (loss 0.0259):  17%|█▋        | 2936/16950 [34:01<1:40:22,  2.33it/s]Training 1/3 epoch (loss 0.0117):  17%|█▋        | 2936/16950 [34:02<1:40:22,  2.33it/s]Training 1/3 epoch (loss 0.0117):  17%|█▋        | 2937/16950 [34:02<1:54:38,  2.04it/s]Training 1/3 epoch (loss 0.0986):  17%|█▋        | 2937/16950 [34:02<1:54:38,  2.04it/s]Training 1/3 epoch (loss 0.0986):  17%|█▋        | 2938/16950 [34:02<2:18:07,  1.69it/s]Training 1/3 epoch (loss 0.0010):  17%|█▋        | 2938/16950 [34:03<2:18:07,  1.69it/s]Training 1/3 epoch (loss 0.0010):  17%|█▋        | 2939/16950 [34:03<2:18:35,  1.68it/s]Training 1/3 epoch (loss 0.0140):  17%|█▋        | 2939/16950 [34:04<2:18:35,  1.68it/s]Training 1/3 epoch (loss 0.0140):  17%|█▋        | 2940/16950 [34:04<2:16:03,  1.72it/s]Training 1/3 epoch (loss 0.3533):  17%|█▋        | 2940/16950 [34:04<2:16:03,  1.72it/s]Training 1/3 epoch (loss 0.3533):  17%|█▋        | 2941/16950 [34:04<2:23:37,  1.63it/s]Training 1/3 epoch (loss 0.1254):  17%|█▋        | 2941/16950 [34:05<2:23:37,  1.63it/s]Training 1/3 epoch (loss 0.1254):  17%|█▋        | 2942/16950 [34:05<2:18:47,  1.68it/s]Training 1/3 epoch (loss 0.7853):  17%|█▋        | 2942/16950 [34:05<2:18:47,  1.68it/s]Training 1/3 epoch (loss 0.7853):  17%|█▋        | 2943/16950 [34:05<2:17:26,  1.70it/s]Training 1/3 epoch (loss 0.1457):  17%|█▋        | 2943/16950 [34:06<2:17:26,  1.70it/s]Training 1/3 epoch (loss 0.1457):  17%|█▋        | 2944/16950 [34:06<2:49:19,  1.38it/s]Training 1/3 epoch (loss 0.0043):  17%|█▋        | 2944/16950 [34:07<2:49:19,  1.38it/s]Training 1/3 epoch (loss 0.0043):  17%|█▋        | 2945/16950 [34:07<2:33:57,  1.52it/s]Training 1/3 epoch (loss 0.0180):  17%|█▋        | 2945/16950 [34:07<2:33:57,  1.52it/s]Training 1/3 epoch (loss 0.0180):  17%|█▋        | 2946/16950 [34:07<2:20:30,  1.66it/s]Training 1/3 epoch (loss 0.2836):  17%|█▋        | 2946/16950 [34:08<2:20:30,  1.66it/s]Training 1/3 epoch (loss 0.2836):  17%|█▋        | 2947/16950 [34:08<2:17:37,  1.70it/s]Training 1/3 epoch (loss 0.0531):  17%|█▋        | 2947/16950 [34:09<2:17:37,  1.70it/s]Training 1/3 epoch (loss 0.0531):  17%|█▋        | 2948/16950 [34:09<2:19:01,  1.68it/s]Training 1/3 epoch (loss 0.3521):  17%|█▋        | 2948/16950 [34:09<2:19:01,  1.68it/s]Training 1/3 epoch (loss 0.3521):  17%|█▋        | 2949/16950 [34:09<2:25:37,  1.60it/s]Training 1/3 epoch (loss 0.2787):  17%|█▋        | 2949/16950 [34:10<2:25:37,  1.60it/s]Training 1/3 epoch (loss 0.2787):  17%|█▋        | 2950/16950 [34:10<2:13:25,  1.75it/s]Training 1/3 epoch (loss 0.0261):  17%|█▋        | 2950/16950 [34:10<2:13:25,  1.75it/s]Training 1/3 epoch (loss 0.0261):  17%|█▋        | 2951/16950 [34:10<2:00:46,  1.93it/s]Training 1/3 epoch (loss 0.3560):  17%|█▋        | 2951/16950 [34:11<2:00:46,  1.93it/s]Training 1/3 epoch (loss 0.3560):  17%|█▋        | 2952/16950 [34:11<1:58:58,  1.96it/s]Training 1/3 epoch (loss 0.5122):  17%|█▋        | 2952/16950 [34:11<1:58:58,  1.96it/s]Training 1/3 epoch (loss 0.5122):  17%|█▋        | 2953/16950 [34:11<1:48:43,  2.15it/s]Training 1/3 epoch (loss 0.0139):  17%|█▋        | 2953/16950 [34:12<1:48:43,  2.15it/s]Training 1/3 epoch (loss 0.0139):  17%|█▋        | 2954/16950 [34:12<1:59:20,  1.95it/s]Training 1/3 epoch (loss 0.2898):  17%|█▋        | 2954/16950 [34:12<1:59:20,  1.95it/s]Training 1/3 epoch (loss 0.2898):  17%|█▋        | 2955/16950 [34:12<2:02:01,  1.91it/s]Training 1/3 epoch (loss 0.1809):  17%|█▋        | 2955/16950 [34:13<2:02:01,  1.91it/s]Training 1/3 epoch (loss 0.1809):  17%|█▋        | 2956/16950 [34:13<1:58:23,  1.97it/s]Training 1/3 epoch (loss 0.3399):  17%|█▋        | 2956/16950 [34:13<1:58:23,  1.97it/s]Training 1/3 epoch (loss 0.3399):  17%|█▋        | 2957/16950 [34:13<1:56:44,  2.00it/s]Training 1/3 epoch (loss 0.4696):  17%|█▋        | 2957/16950 [34:14<1:56:44,  2.00it/s]Training 1/3 epoch (loss 0.4696):  17%|█▋        | 2958/16950 [34:14<2:39:23,  1.46it/s]Training 1/3 epoch (loss 0.4633):  17%|█▋        | 2958/16950 [34:15<2:39:23,  1.46it/s]Training 1/3 epoch (loss 0.4633):  17%|█▋        | 2959/16950 [34:15<2:25:02,  1.61it/s]Training 1/3 epoch (loss 0.1596):  17%|█▋        | 2959/16950 [34:15<2:25:02,  1.61it/s]Training 1/3 epoch (loss 0.1596):  17%|█▋        | 2960/16950 [34:15<2:39:58,  1.46it/s]Training 1/3 epoch (loss 0.3303):  17%|█▋        | 2960/16950 [34:16<2:39:58,  1.46it/s]Training 1/3 epoch (loss 0.3303):  17%|█▋        | 2961/16950 [34:16<3:01:37,  1.28it/s]Training 1/3 epoch (loss 0.0383):  17%|█▋        | 2961/16950 [34:17<3:01:37,  1.28it/s]Training 1/3 epoch (loss 0.0383):  17%|█▋        | 2962/16950 [34:17<2:54:46,  1.33it/s]Training 1/3 epoch (loss 0.0094):  17%|█▋        | 2962/16950 [34:18<2:54:46,  1.33it/s]Training 1/3 epoch (loss 0.0094):  17%|█▋        | 2963/16950 [34:18<2:40:36,  1.45it/s]Training 1/3 epoch (loss 0.0042):  17%|█▋        | 2963/16950 [34:18<2:40:36,  1.45it/s]Training 1/3 epoch (loss 0.0042):  17%|█▋        | 2964/16950 [34:18<2:35:41,  1.50it/s]Training 1/3 epoch (loss 0.0145):  17%|█▋        | 2964/16950 [34:19<2:35:41,  1.50it/s]Training 1/3 epoch (loss 0.0145):  17%|█▋        | 2965/16950 [34:19<2:34:00,  1.51it/s]Training 1/3 epoch (loss 0.0989):  17%|█▋        | 2965/16950 [34:20<2:34:00,  1.51it/s]Training 1/3 epoch (loss 0.0989):  17%|█▋        | 2966/16950 [34:20<2:38:48,  1.47it/s]Training 1/3 epoch (loss 0.7708):  17%|█▋        | 2966/16950 [34:20<2:38:48,  1.47it/s]Training 1/3 epoch (loss 0.7708):  18%|█▊        | 2967/16950 [34:20<2:35:07,  1.50it/s]Training 1/3 epoch (loss 0.0019):  18%|█▊        | 2967/16950 [34:21<2:35:07,  1.50it/s]Training 1/3 epoch (loss 0.0019):  18%|█▊        | 2968/16950 [34:21<2:34:11,  1.51it/s]Training 1/3 epoch (loss 0.5455):  18%|█▊        | 2968/16950 [34:21<2:34:11,  1.51it/s]Training 1/3 epoch (loss 0.5455):  18%|█▊        | 2969/16950 [34:21<2:18:46,  1.68it/s]Training 1/3 epoch (loss 0.0534):  18%|█▊        | 2969/16950 [34:22<2:18:46,  1.68it/s]Training 1/3 epoch (loss 0.0534):  18%|█▊        | 2970/16950 [34:22<2:13:10,  1.75it/s]Training 1/3 epoch (loss 0.1308):  18%|█▊        | 2970/16950 [34:23<2:13:10,  1.75it/s]Training 1/3 epoch (loss 0.1308):  18%|█▊        | 2971/16950 [34:23<2:21:43,  1.64it/s]Training 1/3 epoch (loss 0.0655):  18%|█▊        | 2971/16950 [34:23<2:21:43,  1.64it/s]Training 1/3 epoch (loss 0.0655):  18%|█▊        | 2972/16950 [34:23<2:18:15,  1.68it/s]Training 1/3 epoch (loss 0.6644):  18%|█▊        | 2972/16950 [34:24<2:18:15,  1.68it/s]Training 1/3 epoch (loss 0.6644):  18%|█▊        | 2973/16950 [34:24<2:25:43,  1.60it/s]Training 1/3 epoch (loss 0.1911):  18%|█▊        | 2973/16950 [34:24<2:25:43,  1.60it/s]Training 1/3 epoch (loss 0.1911):  18%|█▊        | 2974/16950 [34:24<2:16:23,  1.71it/s]Training 1/3 epoch (loss 0.2787):  18%|█▊        | 2974/16950 [34:25<2:16:23,  1.71it/s]Training 1/3 epoch (loss 0.2787):  18%|█▊        | 2975/16950 [34:25<1:56:12,  2.00it/s]Training 1/3 epoch (loss 0.1669):  18%|█▊        | 2975/16950 [34:25<1:56:12,  2.00it/s]Training 1/3 epoch (loss 0.1669):  18%|█▊        | 2976/16950 [34:25<2:04:49,  1.87it/s]Training 1/3 epoch (loss 0.0120):  18%|█▊        | 2976/16950 [34:26<2:04:49,  1.87it/s]Training 1/3 epoch (loss 0.0120):  18%|█▊        | 2977/16950 [34:26<2:16:53,  1.70it/s]Training 1/3 epoch (loss 0.4894):  18%|█▊        | 2977/16950 [34:26<2:16:53,  1.70it/s]Training 1/3 epoch (loss 0.4894):  18%|█▊        | 2978/16950 [34:26<2:10:41,  1.78it/s]Training 1/3 epoch (loss 0.0029):  18%|█▊        | 2978/16950 [34:27<2:10:41,  1.78it/s]Training 1/3 epoch (loss 0.0029):  18%|█▊        | 2979/16950 [34:27<1:58:40,  1.96it/s]Training 1/3 epoch (loss 0.0277):  18%|█▊        | 2979/16950 [34:28<1:58:40,  1.96it/s]Training 1/3 epoch (loss 0.0277):  18%|█▊        | 2980/16950 [34:28<2:17:41,  1.69it/s]Training 1/3 epoch (loss 0.1232):  18%|█▊        | 2980/16950 [34:28<2:17:41,  1.69it/s]Training 1/3 epoch (loss 0.1232):  18%|█▊        | 2981/16950 [34:28<2:23:01,  1.63it/s]Training 1/3 epoch (loss 0.3945):  18%|█▊        | 2981/16950 [34:29<2:23:01,  1.63it/s]Training 1/3 epoch (loss 0.3945):  18%|█▊        | 2982/16950 [34:29<2:24:11,  1.61it/s]Training 1/3 epoch (loss 0.0047):  18%|█▊        | 2982/16950 [34:30<2:24:11,  1.61it/s]Training 1/3 epoch (loss 0.0047):  18%|█▊        | 2983/16950 [34:30<2:28:06,  1.57it/s]Training 1/3 epoch (loss 0.0152):  18%|█▊        | 2983/16950 [34:30<2:28:06,  1.57it/s]Training 1/3 epoch (loss 0.0152):  18%|█▊        | 2984/16950 [34:30<2:44:01,  1.42it/s]Training 1/3 epoch (loss 0.1726):  18%|█▊        | 2984/16950 [34:31<2:44:01,  1.42it/s]Training 1/3 epoch (loss 0.1726):  18%|█▊        | 2985/16950 [34:31<2:41:40,  1.44it/s]Training 1/3 epoch (loss 0.6556):  18%|█▊        | 2985/16950 [34:32<2:41:40,  1.44it/s]Training 1/3 epoch (loss 0.6556):  18%|█▊        | 2986/16950 [34:32<2:30:03,  1.55it/s]Training 1/3 epoch (loss 0.0334):  18%|█▊        | 2986/16950 [34:33<2:30:03,  1.55it/s]Training 1/3 epoch (loss 0.0334):  18%|█▊        | 2987/16950 [34:33<3:03:29,  1.27it/s]Training 1/3 epoch (loss 0.0839):  18%|█▊        | 2987/16950 [34:34<3:03:29,  1.27it/s]Training 1/3 epoch (loss 0.0839):  18%|█▊        | 2988/16950 [34:34<3:00:14,  1.29it/s]Training 1/3 epoch (loss 0.0073):  18%|█▊        | 2988/16950 [34:34<3:00:14,  1.29it/s]Training 1/3 epoch (loss 0.0073):  18%|█▊        | 2989/16950 [34:34<2:31:23,  1.54it/s]Training 1/3 epoch (loss 0.0056):  18%|█▊        | 2989/16950 [34:34<2:31:23,  1.54it/s]Training 1/3 epoch (loss 0.0056):  18%|█▊        | 2990/16950 [34:34<2:11:08,  1.77it/s]Training 1/3 epoch (loss 0.3803):  18%|█▊        | 2990/16950 [34:35<2:11:08,  1.77it/s]Training 1/3 epoch (loss 0.3803):  18%|█▊        | 2991/16950 [34:35<1:59:38,  1.94it/s]Training 1/3 epoch (loss 0.0077):  18%|█▊        | 2991/16950 [34:35<1:59:38,  1.94it/s]Training 1/3 epoch (loss 0.0077):  18%|█▊        | 2992/16950 [34:35<1:55:27,  2.01it/s]Training 1/3 epoch (loss 0.5104):  18%|█▊        | 2992/16950 [34:36<1:55:27,  2.01it/s]Training 1/3 epoch (loss 0.5104):  18%|█▊        | 2993/16950 [34:36<1:50:56,  2.10it/s]Training 1/3 epoch (loss 0.2398):  18%|█▊        | 2993/16950 [34:36<1:50:56,  2.10it/s]Training 1/3 epoch (loss 0.2398):  18%|█▊        | 2994/16950 [34:36<2:01:19,  1.92it/s]Training 1/3 epoch (loss 0.0074):  18%|█▊        | 2994/16950 [34:37<2:01:19,  1.92it/s]Training 1/3 epoch (loss 0.0074):  18%|█▊        | 2995/16950 [34:37<2:03:39,  1.88it/s]Training 1/3 epoch (loss 0.0428):  18%|█▊        | 2995/16950 [34:37<2:03:39,  1.88it/s]Training 1/3 epoch (loss 0.0428):  18%|█▊        | 2996/16950 [34:37<2:17:28,  1.69it/s]Training 1/3 epoch (loss 0.2314):  18%|█▊        | 2996/16950 [34:38<2:17:28,  1.69it/s]Training 1/3 epoch (loss 0.2314):  18%|█▊        | 2997/16950 [34:38<2:25:57,  1.59it/s]Training 1/3 epoch (loss 0.0425):  18%|█▊        | 2997/16950 [34:39<2:25:57,  1.59it/s]Training 1/3 epoch (loss 0.0425):  18%|█▊        | 2998/16950 [34:39<2:33:19,  1.52it/s]Training 1/3 epoch (loss 0.1086):  18%|█▊        | 2998/16950 [34:40<2:33:19,  1.52it/s]Training 1/3 epoch (loss 0.1086):  18%|█▊        | 2999/16950 [34:40<2:31:37,  1.53it/s]Training 1/3 epoch (loss 0.1836):  18%|█▊        | 2999/16950 [34:41<2:31:37,  1.53it/s]Training 1/3 epoch (loss 0.1836):  18%|█▊        | 3000/16950 [34:41<3:08:59,  1.23it/s]Training 1/3 epoch (loss 0.3449):  18%|█▊        | 3000/16950 [34:41<3:08:59,  1.23it/s]Training 1/3 epoch (loss 0.3449):  18%|█▊        | 3001/16950 [34:41<2:58:25,  1.30it/s]Training 1/3 epoch (loss 0.5221):  18%|█▊        | 3001/16950 [34:42<2:58:25,  1.30it/s]Training 1/3 epoch (loss 0.5221):  18%|█▊        | 3002/16950 [34:42<2:35:35,  1.49it/s]Training 1/3 epoch (loss 0.1182):  18%|█▊        | 3002/16950 [34:42<2:35:35,  1.49it/s]Training 1/3 epoch (loss 0.1182):  18%|█▊        | 3003/16950 [34:42<2:13:55,  1.74it/s]Training 1/3 epoch (loss 0.0040):  18%|█▊        | 3003/16950 [34:43<2:13:55,  1.74it/s]Training 1/3 epoch (loss 0.0040):  18%|█▊        | 3004/16950 [34:43<2:14:45,  1.72it/s]Training 1/3 epoch (loss 0.0117):  18%|█▊        | 3004/16950 [34:43<2:14:45,  1.72it/s]Training 1/3 epoch (loss 0.0117):  18%|█▊        | 3005/16950 [34:43<2:05:52,  1.85it/s]Training 1/3 epoch (loss 0.0043):  18%|█▊        | 3005/16950 [34:44<2:05:52,  1.85it/s]Training 1/3 epoch (loss 0.0043):  18%|█▊        | 3006/16950 [34:44<2:01:03,  1.92it/s]Training 1/3 epoch (loss 0.0069):  18%|█▊        | 3006/16950 [34:44<2:01:03,  1.92it/s]Training 1/3 epoch (loss 0.0069):  18%|█▊        | 3007/16950 [34:44<2:03:05,  1.89it/s]Training 1/3 epoch (loss 0.0019):  18%|█▊        | 3007/16950 [34:45<2:03:05,  1.89it/s]Training 1/3 epoch (loss 0.0019):  18%|█▊        | 3008/16950 [34:45<2:02:31,  1.90it/s]Training 1/3 epoch (loss 0.0036):  18%|█▊        | 3008/16950 [34:45<2:02:31,  1.90it/s]Training 1/3 epoch (loss 0.0036):  18%|█▊        | 3009/16950 [34:45<2:10:41,  1.78it/s]Training 1/3 epoch (loss 0.4264):  18%|█▊        | 3009/16950 [34:46<2:10:41,  1.78it/s]Training 1/3 epoch (loss 0.4264):  18%|█▊        | 3010/16950 [34:46<2:11:04,  1.77it/s]Training 1/3 epoch (loss 0.0108):  18%|█▊        | 3010/16950 [34:47<2:11:04,  1.77it/s]Training 1/3 epoch (loss 0.0108):  18%|█▊        | 3011/16950 [34:47<2:19:41,  1.66it/s]Training 1/3 epoch (loss 0.2488):  18%|█▊        | 3011/16950 [34:47<2:19:41,  1.66it/s]Training 1/3 epoch (loss 0.2488):  18%|█▊        | 3012/16950 [34:47<2:04:00,  1.87it/s]Training 1/3 epoch (loss 0.0722):  18%|█▊        | 3012/16950 [34:47<2:04:00,  1.87it/s]Training 1/3 epoch (loss 0.0722):  18%|█▊        | 3013/16950 [34:47<1:49:32,  2.12it/s]Training 1/3 epoch (loss 0.2966):  18%|█▊        | 3013/16950 [34:48<1:49:32,  2.12it/s]Training 1/3 epoch (loss 0.2966):  18%|█▊        | 3014/16950 [34:48<2:05:03,  1.86it/s]Training 1/3 epoch (loss 0.0447):  18%|█▊        | 3014/16950 [34:49<2:05:03,  1.86it/s]Training 1/3 epoch (loss 0.0447):  18%|█▊        | 3015/16950 [34:49<2:35:32,  1.49it/s]Training 1/3 epoch (loss 0.1280):  18%|█▊        | 3015/16950 [34:50<2:35:32,  1.49it/s]Training 1/3 epoch (loss 0.1280):  18%|█▊        | 3016/16950 [34:50<2:38:58,  1.46it/s]Training 1/3 epoch (loss 0.0069):  18%|█▊        | 3016/16950 [34:50<2:38:58,  1.46it/s]Training 1/3 epoch (loss 0.0069):  18%|█▊        | 3017/16950 [34:50<2:33:49,  1.51it/s]Training 1/3 epoch (loss 0.0158):  18%|█▊        | 3017/16950 [34:51<2:33:49,  1.51it/s]Training 1/3 epoch (loss 0.0158):  18%|█▊        | 3018/16950 [34:51<2:31:59,  1.53it/s]Training 1/3 epoch (loss 0.0256):  18%|█▊        | 3018/16950 [34:52<2:31:59,  1.53it/s]Training 1/3 epoch (loss 0.0256):  18%|█▊        | 3019/16950 [34:52<2:34:47,  1.50it/s]Training 1/3 epoch (loss 0.7627):  18%|█▊        | 3019/16950 [34:52<2:34:47,  1.50it/s]Training 1/3 epoch (loss 0.7627):  18%|█▊        | 3020/16950 [34:52<2:38:05,  1.47it/s]Training 1/3 epoch (loss 0.0805):  18%|█▊        | 3020/16950 [34:53<2:38:05,  1.47it/s]Training 1/3 epoch (loss 0.0805):  18%|█▊        | 3021/16950 [34:53<2:43:12,  1.42it/s]Training 1/3 epoch (loss 0.4691):  18%|█▊        | 3021/16950 [34:54<2:43:12,  1.42it/s]Training 1/3 epoch (loss 0.4691):  18%|█▊        | 3022/16950 [34:54<2:38:06,  1.47it/s]Training 1/3 epoch (loss 0.0454):  18%|█▊        | 3022/16950 [34:54<2:38:06,  1.47it/s]Training 1/3 epoch (loss 0.0454):  18%|█▊        | 3023/16950 [34:54<2:32:30,  1.52it/s]Training 1/3 epoch (loss 0.0147):  18%|█▊        | 3023/16950 [34:55<2:32:30,  1.52it/s]Training 1/3 epoch (loss 0.0147):  18%|█▊        | 3024/16950 [34:55<2:32:30,  1.52it/s]Training 1/3 epoch (loss 0.1224):  18%|█▊        | 3024/16950 [34:56<2:32:30,  1.52it/s]Training 1/3 epoch (loss 0.1224):  18%|█▊        | 3025/16950 [34:56<2:21:15,  1.64it/s]Training 1/3 epoch (loss 0.0306):  18%|█▊        | 3025/16950 [34:56<2:21:15,  1.64it/s]Training 1/3 epoch (loss 0.0306):  18%|█▊        | 3026/16950 [34:56<2:08:07,  1.81it/s]Training 1/3 epoch (loss 0.0815):  18%|█▊        | 3026/16950 [34:57<2:08:07,  1.81it/s]Training 1/3 epoch (loss 0.0815):  18%|█▊        | 3027/16950 [34:57<2:13:44,  1.74it/s]Training 1/3 epoch (loss 0.0140):  18%|█▊        | 3027/16950 [34:57<2:13:44,  1.74it/s]Training 1/3 epoch (loss 0.0140):  18%|█▊        | 3028/16950 [34:57<2:06:55,  1.83it/s]Training 1/3 epoch (loss 0.1331):  18%|█▊        | 3028/16950 [34:58<2:06:55,  1.83it/s]Training 1/3 epoch (loss 0.1331):  18%|█▊        | 3029/16950 [34:58<2:12:16,  1.75it/s]Training 1/3 epoch (loss 0.0183):  18%|█▊        | 3029/16950 [34:58<2:12:16,  1.75it/s]Training 1/3 epoch (loss 0.0183):  18%|█▊        | 3030/16950 [34:58<2:11:07,  1.77it/s]Training 1/3 epoch (loss 0.0134):  18%|█▊        | 3030/16950 [34:59<2:11:07,  1.77it/s]Training 1/3 epoch (loss 0.0134):  18%|█▊        | 3031/16950 [34:59<2:36:39,  1.48it/s]Training 1/3 epoch (loss 0.0035):  18%|█▊        | 3031/16950 [35:00<2:36:39,  1.48it/s]Training 1/3 epoch (loss 0.0035):  18%|█▊        | 3032/16950 [35:00<2:40:33,  1.44it/s]Training 1/3 epoch (loss 0.0055):  18%|█▊        | 3032/16950 [35:00<2:40:33,  1.44it/s]Training 1/3 epoch (loss 0.0055):  18%|█▊        | 3033/16950 [35:00<2:25:09,  1.60it/s]Training 1/3 epoch (loss 0.2759):  18%|█▊        | 3033/16950 [35:01<2:25:09,  1.60it/s]Training 1/3 epoch (loss 0.2759):  18%|█▊        | 3034/16950 [35:01<2:10:24,  1.78it/s]Training 1/3 epoch (loss 0.3317):  18%|█▊        | 3034/16950 [35:02<2:10:24,  1.78it/s]Training 1/3 epoch (loss 0.3317):  18%|█▊        | 3035/16950 [35:02<2:18:57,  1.67it/s]Training 1/3 epoch (loss 0.1464):  18%|█▊        | 3035/16950 [35:02<2:18:57,  1.67it/s]Training 1/3 epoch (loss 0.1464):  18%|█▊        | 3036/16950 [35:02<2:21:06,  1.64it/s]Training 1/3 epoch (loss 0.0342):  18%|█▊        | 3036/16950 [35:03<2:21:06,  1.64it/s]Training 1/3 epoch (loss 0.0342):  18%|█▊        | 3037/16950 [35:03<2:14:31,  1.72it/s]Training 1/3 epoch (loss 0.0022):  18%|█▊        | 3037/16950 [35:03<2:14:31,  1.72it/s]Training 1/3 epoch (loss 0.0022):  18%|█▊        | 3038/16950 [35:03<2:05:44,  1.84it/s]Training 1/3 epoch (loss 0.0130):  18%|█▊        | 3038/16950 [35:04<2:05:44,  1.84it/s]Training 1/3 epoch (loss 0.0130):  18%|█▊        | 3039/16950 [35:04<2:08:51,  1.80it/s]Training 1/3 epoch (loss 0.6921):  18%|█▊        | 3039/16950 [35:04<2:08:51,  1.80it/s]Training 1/3 epoch (loss 0.6921):  18%|█▊        | 3040/16950 [35:04<1:59:23,  1.94it/s]Training 1/3 epoch (loss 0.0050):  18%|█▊        | 3040/16950 [35:05<1:59:23,  1.94it/s]Training 1/3 epoch (loss 0.0050):  18%|█▊        | 3041/16950 [35:05<1:50:33,  2.10it/s]Training 1/3 epoch (loss 0.5430):  18%|█▊        | 3041/16950 [35:05<1:50:33,  2.10it/s]Training 1/3 epoch (loss 0.5430):  18%|█▊        | 3042/16950 [35:05<1:58:07,  1.96it/s]Training 1/3 epoch (loss 0.0964):  18%|█▊        | 3042/16950 [35:06<1:58:07,  1.96it/s]Training 1/3 epoch (loss 0.0964):  18%|█▊        | 3043/16950 [35:06<2:08:26,  1.80it/s]Training 1/3 epoch (loss 0.4751):  18%|█▊        | 3043/16950 [35:06<2:08:26,  1.80it/s]Training 1/3 epoch (loss 0.4751):  18%|█▊        | 3044/16950 [35:06<1:58:05,  1.96it/s]Training 1/3 epoch (loss 0.3789):  18%|█▊        | 3044/16950 [35:07<1:58:05,  1.96it/s]Training 1/3 epoch (loss 0.3789):  18%|█▊        | 3045/16950 [35:07<2:02:59,  1.88it/s]Training 1/3 epoch (loss 0.0265):  18%|█▊        | 3045/16950 [35:07<2:02:59,  1.88it/s]Training 1/3 epoch (loss 0.0265):  18%|█▊        | 3046/16950 [35:07<2:06:45,  1.83it/s]Training 1/3 epoch (loss 0.0215):  18%|█▊        | 3046/16950 [35:08<2:06:45,  1.83it/s]Training 1/3 epoch (loss 0.0215):  18%|█▊        | 3047/16950 [35:08<2:05:12,  1.85it/s]Training 1/3 epoch (loss 0.2940):  18%|█▊        | 3047/16950 [35:08<2:05:12,  1.85it/s]Training 1/3 epoch (loss 0.2940):  18%|█▊        | 3048/16950 [35:08<2:07:58,  1.81it/s]Training 1/3 epoch (loss 0.1135):  18%|█▊        | 3048/16950 [35:09<2:07:58,  1.81it/s]Training 1/3 epoch (loss 0.1135):  18%|█▊        | 3049/16950 [35:09<2:07:09,  1.82it/s]Training 1/3 epoch (loss 0.0671):  18%|█▊        | 3049/16950 [35:10<2:07:09,  1.82it/s]Training 1/3 epoch (loss 0.0671):  18%|█▊        | 3050/16950 [35:10<2:11:29,  1.76it/s]Training 1/3 epoch (loss 0.0039):  18%|█▊        | 3050/16950 [35:10<2:11:29,  1.76it/s]Training 1/3 epoch (loss 0.0039):  18%|█▊        | 3051/16950 [35:10<2:11:27,  1.76it/s]Training 1/3 epoch (loss 0.1629):  18%|█▊        | 3051/16950 [35:11<2:11:27,  1.76it/s]Training 1/3 epoch (loss 0.1629):  18%|█▊        | 3052/16950 [35:11<2:13:50,  1.73it/s]Training 1/3 epoch (loss 0.0995):  18%|█▊        | 3052/16950 [35:12<2:13:50,  1.73it/s]Training 1/3 epoch (loss 0.0995):  18%|█▊        | 3053/16950 [35:12<2:29:39,  1.55it/s]Training 1/3 epoch (loss 0.0896):  18%|█▊        | 3053/16950 [35:12<2:29:39,  1.55it/s]Training 1/3 epoch (loss 0.0896):  18%|█▊        | 3054/16950 [35:12<2:20:21,  1.65it/s]Training 1/3 epoch (loss 0.0159):  18%|█▊        | 3054/16950 [35:13<2:20:21,  1.65it/s]Training 1/3 epoch (loss 0.0159):  18%|█▊        | 3055/16950 [35:13<2:09:34,  1.79it/s]Training 1/3 epoch (loss 0.6595):  18%|█▊        | 3055/16950 [35:13<2:09:34,  1.79it/s]Training 1/3 epoch (loss 0.6595):  18%|█▊        | 3056/16950 [35:13<2:32:07,  1.52it/s]Training 1/3 epoch (loss 0.1779):  18%|█▊        | 3056/16950 [35:14<2:32:07,  1.52it/s]Training 1/3 epoch (loss 0.1779):  18%|█▊        | 3057/16950 [35:14<2:37:44,  1.47it/s]Training 1/3 epoch (loss 0.0039):  18%|█▊        | 3057/16950 [35:15<2:37:44,  1.47it/s]Training 1/3 epoch (loss 0.0039):  18%|█▊        | 3058/16950 [35:15<2:35:08,  1.49it/s]Training 1/3 epoch (loss 0.0532):  18%|█▊        | 3058/16950 [35:15<2:35:08,  1.49it/s]Training 1/3 epoch (loss 0.0532):  18%|█▊        | 3059/16950 [35:15<2:32:42,  1.52it/s]Training 1/3 epoch (loss 0.5845):  18%|█▊        | 3059/16950 [35:16<2:32:42,  1.52it/s]Training 1/3 epoch (loss 0.5845):  18%|█▊        | 3060/16950 [35:16<2:36:23,  1.48it/s]Training 1/3 epoch (loss 0.3453):  18%|█▊        | 3060/16950 [35:17<2:36:23,  1.48it/s]Training 1/3 epoch (loss 0.3453):  18%|█▊        | 3061/16950 [35:17<2:45:14,  1.40it/s]Training 1/3 epoch (loss 0.0466):  18%|█▊        | 3061/16950 [35:17<2:45:14,  1.40it/s]Training 1/3 epoch (loss 0.0466):  18%|█▊        | 3062/16950 [35:17<2:32:26,  1.52it/s]Training 1/3 epoch (loss 0.3186):  18%|█▊        | 3062/16950 [35:18<2:32:26,  1.52it/s]Training 1/3 epoch (loss 0.3186):  18%|█▊        | 3063/16950 [35:18<2:29:53,  1.54it/s]Training 1/3 epoch (loss 0.0147):  18%|█▊        | 3063/16950 [35:19<2:29:53,  1.54it/s]Training 1/3 epoch (loss 0.0147):  18%|█▊        | 3064/16950 [35:19<2:19:12,  1.66it/s]Training 1/3 epoch (loss 0.0016):  18%|█▊        | 3064/16950 [35:19<2:19:12,  1.66it/s]Training 1/3 epoch (loss 0.0016):  18%|█▊        | 3065/16950 [35:19<2:18:49,  1.67it/s]Training 1/3 epoch (loss 0.0073):  18%|█▊        | 3065/16950 [35:20<2:18:49,  1.67it/s]Training 1/3 epoch (loss 0.0073):  18%|█▊        | 3066/16950 [35:20<2:08:42,  1.80it/s]Training 1/3 epoch (loss 0.0076):  18%|█▊        | 3066/16950 [35:20<2:08:42,  1.80it/s]Training 1/3 epoch (loss 0.0076):  18%|█▊        | 3067/16950 [35:20<2:02:13,  1.89it/s]Training 1/3 epoch (loss 0.4342):  18%|█▊        | 3067/16950 [35:21<2:02:13,  1.89it/s]Training 1/3 epoch (loss 0.4342):  18%|█▊        | 3068/16950 [35:21<2:13:21,  1.73it/s]Training 1/3 epoch (loss 0.0210):  18%|█▊        | 3068/16950 [35:21<2:13:21,  1.73it/s]Training 1/3 epoch (loss 0.0210):  18%|█▊        | 3069/16950 [35:21<2:21:03,  1.64it/s]Training 1/3 epoch (loss 0.0067):  18%|█▊        | 3069/16950 [35:22<2:21:03,  1.64it/s]Training 1/3 epoch (loss 0.0067):  18%|█▊        | 3070/16950 [35:22<2:11:08,  1.76it/s]Training 1/3 epoch (loss 0.6036):  18%|█▊        | 3070/16950 [35:22<2:11:08,  1.76it/s]Training 1/3 epoch (loss 0.6036):  18%|█▊        | 3071/16950 [35:22<2:01:11,  1.91it/s]Training 1/3 epoch (loss 0.0330):  18%|█▊        | 3071/16950 [35:23<2:01:11,  1.91it/s]Training 1/3 epoch (loss 0.0330):  18%|█▊        | 3072/16950 [35:23<2:21:06,  1.64it/s]Training 1/3 epoch (loss 0.4912):  18%|█▊        | 3072/16950 [35:24<2:21:06,  1.64it/s]Training 1/3 epoch (loss 0.4912):  18%|█▊        | 3073/16950 [35:24<2:12:51,  1.74it/s]Training 1/3 epoch (loss 0.0564):  18%|█▊        | 3073/16950 [35:24<2:12:51,  1.74it/s]Training 1/3 epoch (loss 0.0564):  18%|█▊        | 3074/16950 [35:24<2:20:01,  1.65it/s]Training 1/3 epoch (loss 0.5830):  18%|█▊        | 3074/16950 [35:25<2:20:01,  1.65it/s]Training 1/3 epoch (loss 0.5830):  18%|█▊        | 3075/16950 [35:25<2:14:24,  1.72it/s]Training 1/3 epoch (loss 0.3837):  18%|█▊        | 3075/16950 [35:25<2:14:24,  1.72it/s]Training 1/3 epoch (loss 0.3837):  18%|█▊        | 3076/16950 [35:25<2:08:41,  1.80it/s]Training 1/3 epoch (loss 0.6482):  18%|█▊        | 3076/16950 [35:26<2:08:41,  1.80it/s]Training 1/3 epoch (loss 0.6482):  18%|█▊        | 3077/16950 [35:26<2:10:36,  1.77it/s]Training 1/3 epoch (loss 0.0035):  18%|█▊        | 3077/16950 [35:26<2:10:36,  1.77it/s]Training 1/3 epoch (loss 0.0035):  18%|█▊        | 3078/16950 [35:26<2:04:40,  1.85it/s]Training 1/3 epoch (loss 0.0770):  18%|█▊        | 3078/16950 [35:27<2:04:40,  1.85it/s]Training 1/3 epoch (loss 0.0770):  18%|█▊        | 3079/16950 [35:27<2:08:03,  1.81it/s]Training 1/3 epoch (loss 0.0224):  18%|█▊        | 3079/16950 [35:28<2:08:03,  1.81it/s]Training 1/3 epoch (loss 0.0224):  18%|█▊        | 3080/16950 [35:28<2:07:33,  1.81it/s]Training 1/3 epoch (loss 0.4494):  18%|█▊        | 3080/16950 [35:28<2:07:33,  1.81it/s]Training 1/3 epoch (loss 0.4494):  18%|█▊        | 3081/16950 [35:28<1:53:17,  2.04it/s]Training 1/3 epoch (loss 0.0044):  18%|█▊        | 3081/16950 [35:28<1:53:17,  2.04it/s]Training 1/3 epoch (loss 0.0044):  18%|█▊        | 3082/16950 [35:28<1:49:40,  2.11it/s]Training 1/3 epoch (loss 0.0004):  18%|█▊        | 3082/16950 [35:29<1:49:40,  2.11it/s]Training 1/3 epoch (loss 0.0004):  18%|█▊        | 3083/16950 [35:29<1:51:02,  2.08it/s]Training 1/3 epoch (loss 0.2723):  18%|█▊        | 3083/16950 [35:30<1:51:02,  2.08it/s]Training 1/3 epoch (loss 0.2723):  18%|█▊        | 3084/16950 [35:30<2:04:31,  1.86it/s]Training 1/3 epoch (loss 0.5237):  18%|█▊        | 3084/16950 [35:30<2:04:31,  1.86it/s]Training 1/3 epoch (loss 0.5237):  18%|█▊        | 3085/16950 [35:30<2:08:33,  1.80it/s]Training 1/3 epoch (loss 0.3824):  18%|█▊        | 3085/16950 [35:31<2:08:33,  1.80it/s]Training 1/3 epoch (loss 0.3824):  18%|█▊        | 3086/16950 [35:31<2:13:43,  1.73it/s]Training 1/3 epoch (loss 0.4648):  18%|█▊        | 3086/16950 [35:31<2:13:43,  1.73it/s]Training 1/3 epoch (loss 0.4648):  18%|█▊        | 3087/16950 [35:31<2:15:31,  1.70it/s]Training 1/3 epoch (loss 0.0297):  18%|█▊        | 3087/16950 [35:32<2:15:31,  1.70it/s]Training 1/3 epoch (loss 0.0297):  18%|█▊        | 3088/16950 [35:32<2:12:29,  1.74it/s]Training 1/3 epoch (loss 0.0712):  18%|█▊        | 3088/16950 [35:33<2:12:29,  1.74it/s]Training 1/3 epoch (loss 0.0712):  18%|█▊        | 3089/16950 [35:33<2:35:50,  1.48it/s]Training 1/3 epoch (loss 0.2206):  18%|█▊        | 3089/16950 [35:34<2:35:50,  1.48it/s]Training 1/3 epoch (loss 0.2206):  18%|█▊        | 3090/16950 [35:34<3:05:52,  1.24it/s]Training 1/3 epoch (loss 0.2548):  18%|█▊        | 3090/16950 [35:35<3:05:52,  1.24it/s]Training 1/3 epoch (loss 0.2548):  18%|█▊        | 3091/16950 [35:35<2:55:30,  1.32it/s]Training 1/3 epoch (loss 0.5381):  18%|█▊        | 3091/16950 [35:35<2:55:30,  1.32it/s]Training 1/3 epoch (loss 0.5381):  18%|█▊        | 3092/16950 [35:35<2:30:12,  1.54it/s]Training 1/3 epoch (loss 0.1589):  18%|█▊        | 3092/16950 [35:35<2:30:12,  1.54it/s]Training 1/3 epoch (loss 0.1589):  18%|█▊        | 3093/16950 [35:35<2:16:44,  1.69it/s]Training 1/3 epoch (loss 0.5645):  18%|█▊        | 3093/16950 [35:36<2:16:44,  1.69it/s]Training 1/3 epoch (loss 0.5645):  18%|█▊        | 3094/16950 [35:36<2:35:09,  1.49it/s]Training 1/3 epoch (loss 0.6227):  18%|█▊        | 3094/16950 [35:37<2:35:09,  1.49it/s]Training 1/3 epoch (loss 0.6227):  18%|█▊        | 3095/16950 [35:37<2:28:49,  1.55it/s]Training 1/3 epoch (loss 0.3846):  18%|█▊        | 3095/16950 [35:38<2:28:49,  1.55it/s]Training 1/3 epoch (loss 0.3846):  18%|█▊        | 3096/16950 [35:38<2:35:05,  1.49it/s]Training 1/3 epoch (loss 0.0169):  18%|█▊        | 3096/16950 [35:38<2:35:05,  1.49it/s]Training 1/3 epoch (loss 0.0169):  18%|█▊        | 3097/16950 [35:38<2:47:33,  1.38it/s]Training 1/3 epoch (loss 0.0265):  18%|█▊        | 3097/16950 [35:39<2:47:33,  1.38it/s]Training 1/3 epoch (loss 0.0265):  18%|█▊        | 3098/16950 [35:39<2:32:39,  1.51it/s]Training 1/3 epoch (loss 0.0798):  18%|█▊        | 3098/16950 [35:40<2:32:39,  1.51it/s]Training 1/3 epoch (loss 0.0798):  18%|█▊        | 3099/16950 [35:40<2:26:04,  1.58it/s]Training 1/3 epoch (loss 0.3358):  18%|█▊        | 3099/16950 [35:40<2:26:04,  1.58it/s]Training 1/3 epoch (loss 0.3358):  18%|█▊        | 3100/16950 [35:40<2:12:20,  1.74it/s]Training 1/3 epoch (loss 0.0120):  18%|█▊        | 3100/16950 [35:41<2:12:20,  1.74it/s]Training 1/3 epoch (loss 0.0120):  18%|█▊        | 3101/16950 [35:41<2:16:23,  1.69it/s]Training 1/3 epoch (loss 0.0065):  18%|█▊        | 3101/16950 [35:41<2:16:23,  1.69it/s]Training 1/3 epoch (loss 0.0065):  18%|█▊        | 3102/16950 [35:41<2:01:07,  1.91it/s]Training 1/3 epoch (loss 0.0053):  18%|█▊        | 3102/16950 [35:42<2:01:07,  1.91it/s]Training 1/3 epoch (loss 0.0053):  18%|█▊        | 3103/16950 [35:42<2:08:19,  1.80it/s]Training 1/3 epoch (loss 0.0058):  18%|█▊        | 3103/16950 [35:42<2:08:19,  1.80it/s]Training 1/3 epoch (loss 0.0058):  18%|█▊        | 3104/16950 [35:42<2:19:59,  1.65it/s]Training 1/3 epoch (loss 0.0058):  18%|█▊        | 3104/16950 [35:43<2:19:59,  1.65it/s]Training 1/3 epoch (loss 0.0058):  18%|█▊        | 3105/16950 [35:43<2:20:38,  1.64it/s]Training 1/3 epoch (loss 0.0181):  18%|█▊        | 3105/16950 [35:43<2:20:38,  1.64it/s]Training 1/3 epoch (loss 0.0181):  18%|█▊        | 3106/16950 [35:43<2:16:54,  1.69it/s]Training 1/3 epoch (loss 0.3024):  18%|█▊        | 3106/16950 [35:44<2:16:54,  1.69it/s]Training 1/3 epoch (loss 0.3024):  18%|█▊        | 3107/16950 [35:44<2:16:57,  1.68it/s]Training 1/3 epoch (loss 0.5888):  18%|█▊        | 3107/16950 [35:45<2:16:57,  1.68it/s]Training 1/3 epoch (loss 0.5888):  18%|█▊        | 3108/16950 [35:45<2:35:45,  1.48it/s]Training 1/3 epoch (loss 0.0030):  18%|█▊        | 3108/16950 [35:46<2:35:45,  1.48it/s]Training 1/3 epoch (loss 0.0030):  18%|█▊        | 3109/16950 [35:46<2:36:53,  1.47it/s]Training 1/3 epoch (loss 0.4842):  18%|█▊        | 3109/16950 [35:46<2:36:53,  1.47it/s]Training 1/3 epoch (loss 0.4842):  18%|█▊        | 3110/16950 [35:46<2:34:11,  1.50it/s]Training 1/3 epoch (loss 0.0565):  18%|█▊        | 3110/16950 [35:47<2:34:11,  1.50it/s]Training 1/3 epoch (loss 0.0565):  18%|█▊        | 3111/16950 [35:47<2:16:11,  1.69it/s]Training 1/3 epoch (loss 0.6071):  18%|█▊        | 3111/16950 [35:47<2:16:11,  1.69it/s]Training 1/3 epoch (loss 0.6071):  18%|█▊        | 3112/16950 [35:47<2:03:48,  1.86it/s]Training 1/3 epoch (loss 0.1644):  18%|█▊        | 3112/16950 [35:48<2:03:48,  1.86it/s]Training 1/3 epoch (loss 0.1644):  18%|█▊        | 3113/16950 [35:48<2:06:43,  1.82it/s]Training 1/3 epoch (loss 0.0327):  18%|█▊        | 3113/16950 [35:48<2:06:43,  1.82it/s]Training 1/3 epoch (loss 0.0327):  18%|█▊        | 3114/16950 [35:48<2:17:25,  1.68it/s]Training 1/3 epoch (loss 0.0475):  18%|█▊        | 3114/16950 [35:49<2:17:25,  1.68it/s]Training 1/3 epoch (loss 0.0475):  18%|█▊        | 3115/16950 [35:49<2:27:07,  1.57it/s]Training 1/3 epoch (loss 0.3308):  18%|█▊        | 3115/16950 [35:50<2:27:07,  1.57it/s]Training 1/3 epoch (loss 0.3308):  18%|█▊        | 3116/16950 [35:50<2:12:44,  1.74it/s]Training 1/3 epoch (loss 0.1146):  18%|█▊        | 3116/16950 [35:50<2:12:44,  1.74it/s]Training 1/3 epoch (loss 0.1146):  18%|█▊        | 3117/16950 [35:50<2:00:39,  1.91it/s]Training 1/3 epoch (loss 0.0619):  18%|█▊        | 3117/16950 [35:51<2:00:39,  1.91it/s]Training 1/3 epoch (loss 0.0619):  18%|█▊        | 3118/16950 [35:51<2:11:45,  1.75it/s]Training 1/3 epoch (loss 0.0238):  18%|█▊        | 3118/16950 [35:51<2:11:45,  1.75it/s]Training 1/3 epoch (loss 0.0238):  18%|█▊        | 3119/16950 [35:51<2:18:38,  1.66it/s]Training 1/3 epoch (loss 0.0020):  18%|█▊        | 3119/16950 [35:52<2:18:38,  1.66it/s]Training 1/3 epoch (loss 0.0020):  18%|█▊        | 3120/16950 [35:52<2:14:34,  1.71it/s]Training 1/3 epoch (loss 0.0051):  18%|█▊        | 3120/16950 [35:52<2:14:34,  1.71it/s]Training 1/3 epoch (loss 0.0051):  18%|█▊        | 3121/16950 [35:52<2:11:58,  1.75it/s]Training 1/3 epoch (loss 0.0823):  18%|█▊        | 3121/16950 [35:53<2:11:58,  1.75it/s]Training 1/3 epoch (loss 0.0823):  18%|█▊        | 3122/16950 [35:53<2:02:49,  1.88it/s]Training 1/3 epoch (loss 0.0519):  18%|█▊        | 3122/16950 [35:53<2:02:49,  1.88it/s]Training 1/3 epoch (loss 0.0519):  18%|█▊        | 3123/16950 [35:53<1:59:33,  1.93it/s]Training 1/3 epoch (loss 0.0080):  18%|█▊        | 3123/16950 [35:54<1:59:33,  1.93it/s]Training 1/3 epoch (loss 0.0080):  18%|█▊        | 3124/16950 [35:54<2:07:07,  1.81it/s]Training 1/3 epoch (loss 0.0859):  18%|█▊        | 3124/16950 [35:55<2:07:07,  1.81it/s]Training 1/3 epoch (loss 0.0859):  18%|█▊        | 3125/16950 [35:55<2:07:42,  1.80it/s]Training 1/3 epoch (loss 0.0065):  18%|█▊        | 3125/16950 [35:55<2:07:42,  1.80it/s]Training 1/3 epoch (loss 0.0065):  18%|█▊        | 3126/16950 [35:55<2:14:31,  1.71it/s]Training 1/3 epoch (loss 0.0791):  18%|█▊        | 3126/16950 [35:56<2:14:31,  1.71it/s]Training 1/3 epoch (loss 0.0791):  18%|█▊        | 3127/16950 [35:56<2:10:46,  1.76it/s]Training 1/3 epoch (loss 0.0448):  18%|█▊        | 3127/16950 [35:56<2:10:46,  1.76it/s]Training 1/3 epoch (loss 0.0448):  18%|█▊        | 3128/16950 [35:56<2:15:03,  1.71it/s]Training 1/3 epoch (loss 0.0015):  18%|█▊        | 3128/16950 [35:57<2:15:03,  1.71it/s]Training 1/3 epoch (loss 0.0015):  18%|█▊        | 3129/16950 [35:57<1:57:43,  1.96it/s]Training 1/3 epoch (loss 0.1579):  18%|█▊        | 3129/16950 [35:57<1:57:43,  1.96it/s]Training 1/3 epoch (loss 0.1579):  18%|█▊        | 3130/16950 [35:57<2:03:05,  1.87it/s]Training 1/3 epoch (loss 0.3767):  18%|█▊        | 3130/16950 [35:58<2:03:05,  1.87it/s]Training 1/3 epoch (loss 0.3767):  18%|█▊        | 3131/16950 [35:58<2:08:33,  1.79it/s]Training 1/3 epoch (loss 0.4083):  18%|█▊        | 3131/16950 [35:58<2:08:33,  1.79it/s]Training 1/3 epoch (loss 0.4083):  18%|█▊        | 3132/16950 [35:58<2:05:16,  1.84it/s]Training 1/3 epoch (loss 0.3360):  18%|█▊        | 3132/16950 [35:59<2:05:16,  1.84it/s]Training 1/3 epoch (loss 0.3360):  18%|█▊        | 3133/16950 [35:59<2:10:25,  1.77it/s]Training 1/3 epoch (loss 0.0645):  18%|█▊        | 3133/16950 [36:00<2:10:25,  1.77it/s]Training 1/3 epoch (loss 0.0645):  18%|█▊        | 3134/16950 [36:00<2:21:20,  1.63it/s]Training 1/3 epoch (loss 0.0202):  18%|█▊        | 3134/16950 [36:00<2:21:20,  1.63it/s]Training 1/3 epoch (loss 0.0202):  18%|█▊        | 3135/16950 [36:00<2:12:22,  1.74it/s]Training 1/3 epoch (loss 0.0959):  18%|█▊        | 3135/16950 [36:01<2:12:22,  1.74it/s]Training 1/3 epoch (loss 0.0959):  19%|█▊        | 3136/16950 [36:01<2:13:32,  1.72it/s]Training 1/3 epoch (loss 0.1417):  19%|█▊        | 3136/16950 [36:01<2:13:32,  1.72it/s]Training 1/3 epoch (loss 0.1417):  19%|█▊        | 3137/16950 [36:01<2:11:12,  1.75it/s]Training 1/3 epoch (loss 0.0409):  19%|█▊        | 3137/16950 [36:02<2:11:12,  1.75it/s]Training 1/3 epoch (loss 0.0409):  19%|█▊        | 3138/16950 [36:02<2:02:09,  1.88it/s]Training 1/3 epoch (loss 0.0932):  19%|█▊        | 3138/16950 [36:02<2:02:09,  1.88it/s]Training 1/3 epoch (loss 0.0932):  19%|█▊        | 3139/16950 [36:02<2:05:54,  1.83it/s]Training 1/3 epoch (loss 0.7983):  19%|█▊        | 3139/16950 [36:03<2:05:54,  1.83it/s]Training 1/3 epoch (loss 0.7983):  19%|█▊        | 3140/16950 [36:03<2:44:39,  1.40it/s]Training 1/3 epoch (loss 0.5340):  19%|█▊        | 3140/16950 [36:04<2:44:39,  1.40it/s]Training 1/3 epoch (loss 0.5340):  19%|█▊        | 3141/16950 [36:04<2:48:31,  1.37it/s]Training 1/3 epoch (loss 0.0118):  19%|█▊        | 3141/16950 [36:05<2:48:31,  1.37it/s]Training 1/3 epoch (loss 0.0118):  19%|█▊        | 3142/16950 [36:05<2:32:02,  1.51it/s]Training 1/3 epoch (loss 0.8666):  19%|█▊        | 3142/16950 [36:05<2:32:02,  1.51it/s]Training 1/3 epoch (loss 0.8666):  19%|█▊        | 3143/16950 [36:05<2:10:31,  1.76it/s]Training 1/3 epoch (loss 0.0025):  19%|█▊        | 3143/16950 [36:06<2:10:31,  1.76it/s]Training 1/3 epoch (loss 0.0025):  19%|█▊        | 3144/16950 [36:06<2:05:31,  1.83it/s]Training 1/3 epoch (loss 0.4453):  19%|█▊        | 3144/16950 [36:06<2:05:31,  1.83it/s]Training 1/3 epoch (loss 0.4453):  19%|█▊        | 3145/16950 [36:06<2:15:23,  1.70it/s]Training 1/3 epoch (loss 0.0383):  19%|█▊        | 3145/16950 [36:07<2:15:23,  1.70it/s]Training 1/3 epoch (loss 0.0383):  19%|█▊        | 3146/16950 [36:07<2:16:25,  1.69it/s]Training 1/3 epoch (loss 0.0215):  19%|█▊        | 3146/16950 [36:08<2:16:25,  1.69it/s]Training 1/3 epoch (loss 0.0215):  19%|█▊        | 3147/16950 [36:08<2:23:14,  1.61it/s]Training 1/3 epoch (loss 0.0296):  19%|█▊        | 3147/16950 [36:08<2:23:14,  1.61it/s]Training 1/3 epoch (loss 0.0296):  19%|█▊        | 3148/16950 [36:08<2:18:49,  1.66it/s]Training 1/3 epoch (loss 0.3454):  19%|█▊        | 3148/16950 [36:09<2:18:49,  1.66it/s]Training 1/3 epoch (loss 0.3454):  19%|█▊        | 3149/16950 [36:09<2:23:59,  1.60it/s]Training 1/3 epoch (loss 0.4079):  19%|█▊        | 3149/16950 [36:09<2:23:59,  1.60it/s]Training 1/3 epoch (loss 0.4079):  19%|█▊        | 3150/16950 [36:09<2:06:32,  1.82it/s]Training 1/3 epoch (loss 0.0259):  19%|█▊        | 3150/16950 [36:10<2:06:32,  1.82it/s]Training 1/3 epoch (loss 0.0259):  19%|█▊        | 3151/16950 [36:10<1:55:53,  1.98it/s]Training 1/3 epoch (loss 0.0125):  19%|█▊        | 3151/16950 [36:10<1:55:53,  1.98it/s]Training 1/3 epoch (loss 0.0125):  19%|█▊        | 3152/16950 [36:10<2:11:54,  1.74it/s]Training 1/3 epoch (loss 0.5111):  19%|█▊        | 3152/16950 [36:11<2:11:54,  1.74it/s]Training 1/3 epoch (loss 0.5111):  19%|█▊        | 3153/16950 [36:11<2:05:51,  1.83it/s]Training 1/3 epoch (loss 0.5262):  19%|█▊        | 3153/16950 [36:11<2:05:51,  1.83it/s]Training 1/3 epoch (loss 0.5262):  19%|█▊        | 3154/16950 [36:11<1:49:52,  2.09it/s]Training 1/3 epoch (loss 0.0402):  19%|█▊        | 3154/16950 [36:11<1:49:52,  2.09it/s]Training 1/3 epoch (loss 0.0402):  19%|█▊        | 3155/16950 [36:11<1:42:54,  2.23it/s]Training 1/3 epoch (loss 0.0018):  19%|█▊        | 3155/16950 [36:12<1:42:54,  2.23it/s]Training 1/3 epoch (loss 0.0018):  19%|█▊        | 3156/16950 [36:12<1:42:03,  2.25it/s]Training 1/3 epoch (loss 0.3128):  19%|█▊        | 3156/16950 [36:12<1:42:03,  2.25it/s]Training 1/3 epoch (loss 0.3128):  19%|█▊        | 3157/16950 [36:12<1:42:07,  2.25it/s]Training 1/3 epoch (loss 0.3948):  19%|█▊        | 3157/16950 [36:13<1:42:07,  2.25it/s]Training 1/3 epoch (loss 0.3948):  19%|█▊        | 3158/16950 [36:13<1:33:16,  2.46it/s]Training 1/3 epoch (loss 0.1415):  19%|█▊        | 3158/16950 [36:13<1:33:16,  2.46it/s]Training 1/3 epoch (loss 0.1415):  19%|█▊        | 3159/16950 [36:13<1:59:08,  1.93it/s]Training 1/3 epoch (loss 0.0011):  19%|█▊        | 3159/16950 [36:14<1:59:08,  1.93it/s]Training 1/3 epoch (loss 0.0011):  19%|█▊        | 3160/16950 [36:14<2:00:18,  1.91it/s]Training 1/3 epoch (loss 0.0326):  19%|█▊        | 3160/16950 [36:15<2:00:18,  1.91it/s]Training 1/3 epoch (loss 0.0326):  19%|█▊        | 3161/16950 [36:15<2:37:06,  1.46it/s]Training 1/3 epoch (loss 0.4452):  19%|█▊        | 3161/16950 [36:16<2:37:06,  1.46it/s]Training 1/3 epoch (loss 0.4452):  19%|█▊        | 3162/16950 [36:16<2:32:34,  1.51it/s]Training 1/3 epoch (loss 0.3670):  19%|█▊        | 3162/16950 [36:16<2:32:34,  1.51it/s]Training 1/3 epoch (loss 0.3670):  19%|█▊        | 3163/16950 [36:16<2:26:52,  1.56it/s]Training 1/3 epoch (loss 0.0092):  19%|█▊        | 3163/16950 [36:17<2:26:52,  1.56it/s]Training 1/3 epoch (loss 0.0092):  19%|█▊        | 3164/16950 [36:17<2:31:01,  1.52it/s]Training 1/3 epoch (loss 0.0668):  19%|█▊        | 3164/16950 [36:17<2:31:01,  1.52it/s]Training 1/3 epoch (loss 0.0668):  19%|█▊        | 3165/16950 [36:17<2:18:35,  1.66it/s]Training 1/3 epoch (loss 0.0433):  19%|█▊        | 3165/16950 [36:18<2:18:35,  1.66it/s]Training 1/3 epoch (loss 0.0433):  19%|█▊        | 3166/16950 [36:18<2:13:07,  1.73it/s]Training 1/3 epoch (loss 0.5096):  19%|█▊        | 3166/16950 [36:19<2:13:07,  1.73it/s]Training 1/3 epoch (loss 0.5096):  19%|█▊        | 3167/16950 [36:19<2:40:02,  1.44it/s]Training 1/3 epoch (loss 0.0041):  19%|█▊        | 3167/16950 [36:20<2:40:02,  1.44it/s]Training 1/3 epoch (loss 0.0041):  19%|█▊        | 3168/16950 [36:20<2:33:05,  1.50it/s]Training 1/3 epoch (loss 0.9988):  19%|█▊        | 3168/16950 [36:20<2:33:05,  1.50it/s]Training 1/3 epoch (loss 0.9988):  19%|█▊        | 3169/16950 [36:20<2:18:34,  1.66it/s]Training 1/3 epoch (loss 0.3255):  19%|█▊        | 3169/16950 [36:21<2:18:34,  1.66it/s]Training 1/3 epoch (loss 0.3255):  19%|█▊        | 3170/16950 [36:21<2:16:40,  1.68it/s]Training 1/3 epoch (loss 0.5162):  19%|█▊        | 3170/16950 [36:21<2:16:40,  1.68it/s]Training 1/3 epoch (loss 0.5162):  19%|█▊        | 3171/16950 [36:21<2:03:32,  1.86it/s]Training 1/3 epoch (loss 0.0445):  19%|█▊        | 3171/16950 [36:22<2:03:32,  1.86it/s]Training 1/3 epoch (loss 0.0445):  19%|█▊        | 3172/16950 [36:22<2:13:19,  1.72it/s]Training 1/3 epoch (loss 0.0515):  19%|█▊        | 3172/16950 [36:22<2:13:19,  1.72it/s]Training 1/3 epoch (loss 0.0515):  19%|█▊        | 3173/16950 [36:22<2:12:29,  1.73it/s]Training 1/3 epoch (loss 0.0050):  19%|█▊        | 3173/16950 [36:23<2:12:29,  1.73it/s]Training 1/3 epoch (loss 0.0050):  19%|█▊        | 3174/16950 [36:23<2:07:12,  1.80it/s]Training 1/3 epoch (loss nan):  19%|█▊        | 3174/16950 [36:24<2:07:12,  1.80it/s]   Training 1/3 epoch (loss nan):  19%|█▊        | 3175/16950 [36:24<2:42:26,  1.41it/s]Training 1/3 epoch (loss 0.5422):  19%|█▊        | 3175/16950 [36:25<2:42:26,  1.41it/s]Training 1/3 epoch (loss 0.5422):  19%|█▊        | 3176/16950 [36:25<3:15:06,  1.18it/s]Training 1/3 epoch (loss 0.2836):  19%|█▊        | 3176/16950 [36:26<3:15:06,  1.18it/s]Training 1/3 epoch (loss 0.2836):  19%|█▊        | 3177/16950 [36:26<3:09:05,  1.21it/s]Training 1/3 epoch (loss 0.4980):  19%|█▊        | 3177/16950 [36:26<3:09:05,  1.21it/s]Training 1/3 epoch (loss 0.4980):  19%|█▊        | 3178/16950 [36:26<2:53:19,  1.32it/s]Training 1/3 epoch (loss 0.2106):  19%|█▊        | 3178/16950 [36:27<2:53:19,  1.32it/s]Training 1/3 epoch (loss 0.2106):  19%|█▉        | 3179/16950 [36:27<2:37:47,  1.45it/s]Training 1/3 epoch (loss 0.1999):  19%|█▉        | 3179/16950 [36:28<2:37:47,  1.45it/s]Training 1/3 epoch (loss 0.1999):  19%|█▉        | 3180/16950 [36:28<2:49:49,  1.35it/s]Training 1/3 epoch (loss 0.4132):  19%|█▉        | 3180/16950 [36:29<2:49:49,  1.35it/s]Training 1/3 epoch (loss 0.4132):  19%|█▉        | 3181/16950 [36:29<3:06:21,  1.23it/s]Training 1/3 epoch (loss 0.0081):  19%|█▉        | 3181/16950 [36:30<3:06:21,  1.23it/s]Training 1/3 epoch (loss 0.0081):  19%|█▉        | 3182/16950 [36:30<3:14:48,  1.18it/s]Training 1/3 epoch (loss 0.0095):  19%|█▉        | 3182/16950 [36:30<3:14:48,  1.18it/s]Training 1/3 epoch (loss 0.0095):  19%|█▉        | 3183/16950 [36:30<3:07:37,  1.22it/s]Training 1/3 epoch (loss 0.0006):  19%|█▉        | 3183/16950 [36:31<3:07:37,  1.22it/s]Training 1/3 epoch (loss 0.0006):  19%|█▉        | 3184/16950 [36:31<2:45:24,  1.39it/s]Training 1/3 epoch (loss 0.0421):  19%|█▉        | 3184/16950 [36:31<2:45:24,  1.39it/s]Training 1/3 epoch (loss 0.0421):  19%|█▉        | 3185/16950 [36:31<2:32:59,  1.50it/s]Training 1/3 epoch (loss 0.2080):  19%|█▉        | 3185/16950 [36:32<2:32:59,  1.50it/s]Training 1/3 epoch (loss 0.2080):  19%|█▉        | 3186/16950 [36:32<2:22:16,  1.61it/s]Training 1/3 epoch (loss 0.0524):  19%|█▉        | 3186/16950 [36:33<2:22:16,  1.61it/s]Training 1/3 epoch (loss 0.0524):  19%|█▉        | 3187/16950 [36:33<2:25:42,  1.57it/s]Training 1/3 epoch (loss 0.0026):  19%|█▉        | 3187/16950 [36:33<2:25:42,  1.57it/s]Training 1/3 epoch (loss 0.0026):  19%|█▉        | 3188/16950 [36:33<2:16:34,  1.68it/s]Training 1/3 epoch (loss 0.6698):  19%|█▉        | 3188/16950 [36:34<2:16:34,  1.68it/s]Training 1/3 epoch (loss 0.6698):  19%|█▉        | 3189/16950 [36:34<2:17:29,  1.67it/s]Training 1/3 epoch (loss 0.5093):  19%|█▉        | 3189/16950 [36:34<2:17:29,  1.67it/s]Training 1/3 epoch (loss 0.5093):  19%|█▉        | 3190/16950 [36:34<2:23:30,  1.60it/s]Training 1/3 epoch (loss 0.5774):  19%|█▉        | 3190/16950 [36:35<2:23:30,  1.60it/s]Training 1/3 epoch (loss 0.5774):  19%|█▉        | 3191/16950 [36:35<2:28:05,  1.55it/s]Training 1/3 epoch (loss 0.0068):  19%|█▉        | 3191/16950 [36:36<2:28:05,  1.55it/s]Training 1/3 epoch (loss 0.0068):  19%|█▉        | 3192/16950 [36:36<2:18:23,  1.66it/s]Training 1/3 epoch (loss 0.0801):  19%|█▉        | 3192/16950 [36:37<2:18:23,  1.66it/s]Training 1/3 epoch (loss 0.0801):  19%|█▉        | 3193/16950 [36:37<2:44:56,  1.39it/s]Training 1/3 epoch (loss 0.0936):  19%|█▉        | 3193/16950 [36:37<2:44:56,  1.39it/s]Training 1/3 epoch (loss 0.0936):  19%|█▉        | 3194/16950 [36:37<2:48:37,  1.36it/s]Training 1/3 epoch (loss 0.0013):  19%|█▉        | 3194/16950 [36:38<2:48:37,  1.36it/s]Training 1/3 epoch (loss 0.0013):  19%|█▉        | 3195/16950 [36:38<2:30:58,  1.52it/s]Training 1/3 epoch (loss 0.0327):  19%|█▉        | 3195/16950 [36:38<2:30:58,  1.52it/s]Training 1/3 epoch (loss 0.0327):  19%|█▉        | 3196/16950 [36:38<2:26:42,  1.56it/s]Training 1/3 epoch (loss 0.0060):  19%|█▉        | 3196/16950 [36:39<2:26:42,  1.56it/s]Training 1/3 epoch (loss 0.0060):  19%|█▉        | 3197/16950 [36:39<2:21:51,  1.62it/s]Training 1/3 epoch (loss 0.3089):  19%|█▉        | 3197/16950 [36:40<2:21:51,  1.62it/s]Training 1/3 epoch (loss 0.3089):  19%|█▉        | 3198/16950 [36:40<2:23:42,  1.59it/s]Training 1/3 epoch (loss 0.0005):  19%|█▉        | 3198/16950 [36:40<2:23:42,  1.59it/s]Training 1/3 epoch (loss 0.0005):  19%|█▉        | 3199/16950 [36:40<2:24:30,  1.59it/s]Training 1/3 epoch (loss 0.0028):  19%|█▉        | 3199/16950 [36:41<2:24:30,  1.59it/s]Training 1/3 epoch (loss 0.0028):  19%|█▉        | 3200/16950 [36:41<2:16:56,  1.67it/s]Training 1/3 epoch (loss 0.0620):  19%|█▉        | 3200/16950 [36:41<2:16:56,  1.67it/s]Training 1/3 epoch (loss 0.0620):  19%|█▉        | 3201/16950 [36:41<2:20:03,  1.64it/s]Training 1/3 epoch (loss 0.0245):  19%|█▉        | 3201/16950 [36:42<2:20:03,  1.64it/s]Training 1/3 epoch (loss 0.0245):  19%|█▉        | 3202/16950 [36:42<2:11:31,  1.74it/s]Training 1/3 epoch (loss 0.0889):  19%|█▉        | 3202/16950 [36:42<2:11:31,  1.74it/s]Training 1/3 epoch (loss 0.0889):  19%|█▉        | 3203/16950 [36:42<2:04:44,  1.84it/s]Training 1/3 epoch (loss 0.3991):  19%|█▉        | 3203/16950 [36:43<2:04:44,  1.84it/s]Training 1/3 epoch (loss 0.3991):  19%|█▉        | 3204/16950 [36:43<2:04:00,  1.85it/s]Training 1/3 epoch (loss 0.3532):  19%|█▉        | 3204/16950 [36:44<2:04:00,  1.85it/s]Training 1/3 epoch (loss 0.3532):  19%|█▉        | 3205/16950 [36:44<2:14:01,  1.71it/s]Training 1/3 epoch (loss 0.0122):  19%|█▉        | 3205/16950 [36:44<2:14:01,  1.71it/s]Training 1/3 epoch (loss 0.0122):  19%|█▉        | 3206/16950 [36:44<2:13:44,  1.71it/s]Training 1/3 epoch (loss 0.0071):  19%|█▉        | 3206/16950 [36:45<2:13:44,  1.71it/s]Training 1/3 epoch (loss 0.0071):  19%|█▉        | 3207/16950 [36:45<2:11:26,  1.74it/s]Training 1/3 epoch (loss 0.0306):  19%|█▉        | 3207/16950 [36:45<2:11:26,  1.74it/s]Training 1/3 epoch (loss 0.0306):  19%|█▉        | 3208/16950 [36:45<2:16:09,  1.68it/s]Training 1/3 epoch (loss 0.6101):  19%|█▉        | 3208/16950 [36:46<2:16:09,  1.68it/s]Training 1/3 epoch (loss 0.6101):  19%|█▉        | 3209/16950 [36:46<2:06:53,  1.80it/s]Training 1/3 epoch (loss 0.2441):  19%|█▉        | 3209/16950 [36:46<2:06:53,  1.80it/s]Training 1/3 epoch (loss 0.2441):  19%|█▉        | 3210/16950 [36:46<2:05:27,  1.83it/s]Training 1/3 epoch (loss 0.0736):  19%|█▉        | 3210/16950 [36:47<2:05:27,  1.83it/s]Training 1/3 epoch (loss 0.0736):  19%|█▉        | 3211/16950 [36:47<2:30:06,  1.53it/s]Training 1/3 epoch (loss 0.1732):  19%|█▉        | 3211/16950 [36:48<2:30:06,  1.53it/s]Training 1/3 epoch (loss 0.1732):  19%|█▉        | 3212/16950 [36:48<2:20:55,  1.62it/s]Training 1/3 epoch (loss 0.1745):  19%|█▉        | 3212/16950 [36:48<2:20:55,  1.62it/s]Training 1/3 epoch (loss 0.1745):  19%|█▉        | 3213/16950 [36:48<2:07:44,  1.79it/s]Training 1/3 epoch (loss 0.4537):  19%|█▉        | 3213/16950 [36:49<2:07:44,  1.79it/s]Training 1/3 epoch (loss 0.4537):  19%|█▉        | 3214/16950 [36:49<2:13:12,  1.72it/s]Training 1/3 epoch (loss 0.1779):  19%|█▉        | 3214/16950 [36:49<2:13:12,  1.72it/s]Training 1/3 epoch (loss 0.1779):  19%|█▉        | 3215/16950 [36:49<2:11:43,  1.74it/s]Training 1/3 epoch (loss 0.4524):  19%|█▉        | 3215/16950 [36:50<2:11:43,  1.74it/s]Training 1/3 epoch (loss 0.4524):  19%|█▉        | 3216/16950 [36:50<2:01:20,  1.89it/s]Training 1/3 epoch (loss 0.0670):  19%|█▉        | 3216/16950 [36:51<2:01:20,  1.89it/s]Training 1/3 epoch (loss 0.0670):  19%|█▉        | 3217/16950 [36:51<2:42:00,  1.41it/s]Training 1/3 epoch (loss 0.0002):  19%|█▉        | 3217/16950 [36:51<2:42:00,  1.41it/s]Training 1/3 epoch (loss 0.0002):  19%|█▉        | 3218/16950 [36:51<2:22:18,  1.61it/s]Training 1/3 epoch (loss 1.1111):  19%|█▉        | 3218/16950 [36:52<2:22:18,  1.61it/s]Training 1/3 epoch (loss 1.1111):  19%|█▉        | 3219/16950 [36:52<2:45:20,  1.38it/s]Training 1/3 epoch (loss 0.2365):  19%|█▉        | 3219/16950 [36:53<2:45:20,  1.38it/s]Training 1/3 epoch (loss 0.2365):  19%|█▉        | 3220/16950 [36:53<2:30:45,  1.52it/s]Training 1/3 epoch (loss 0.5884):  19%|█▉        | 3220/16950 [36:53<2:30:45,  1.52it/s]Training 1/3 epoch (loss 0.5884):  19%|█▉        | 3221/16950 [36:53<2:13:59,  1.71it/s]Training 1/3 epoch (loss 1.0020):  19%|█▉        | 3221/16950 [36:54<2:13:59,  1.71it/s]Training 1/3 epoch (loss 1.0020):  19%|█▉        | 3222/16950 [36:54<1:58:58,  1.92it/s]Training 1/3 epoch (loss 0.1373):  19%|█▉        | 3222/16950 [36:54<1:58:58,  1.92it/s]Training 1/3 epoch (loss 0.1373):  19%|█▉        | 3223/16950 [36:54<1:54:57,  1.99it/s]Training 1/3 epoch (loss 0.3070):  19%|█▉        | 3223/16950 [36:55<1:54:57,  1.99it/s]Training 1/3 epoch (loss 0.3070):  19%|█▉        | 3224/16950 [36:55<2:07:00,  1.80it/s]Training 1/3 epoch (loss 0.0066):  19%|█▉        | 3224/16950 [36:55<2:07:00,  1.80it/s]Training 1/3 epoch (loss 0.0066):  19%|█▉        | 3225/16950 [36:55<2:08:14,  1.78it/s]Training 1/3 epoch (loss 0.1818):  19%|█▉        | 3225/16950 [36:56<2:08:14,  1.78it/s]Training 1/3 epoch (loss 0.1818):  19%|█▉        | 3226/16950 [36:56<2:02:52,  1.86it/s]Training 1/3 epoch (loss 0.5968):  19%|█▉        | 3226/16950 [36:57<2:02:52,  1.86it/s]Training 1/3 epoch (loss 0.5968):  19%|█▉        | 3227/16950 [36:57<2:33:02,  1.49it/s]Training 1/3 epoch (loss 0.0061):  19%|█▉        | 3227/16950 [36:57<2:33:02,  1.49it/s]Training 1/3 epoch (loss 0.0061):  19%|█▉        | 3228/16950 [36:57<2:30:32,  1.52it/s]Training 1/3 epoch (loss 0.0794):  19%|█▉        | 3228/16950 [36:58<2:30:32,  1.52it/s]Training 1/3 epoch (loss 0.0794):  19%|█▉        | 3229/16950 [36:58<2:18:12,  1.65it/s]Training 1/3 epoch (loss 0.0220):  19%|█▉        | 3229/16950 [36:59<2:18:12,  1.65it/s]Training 1/3 epoch (loss 0.0220):  19%|█▉        | 3230/16950 [36:59<2:19:40,  1.64it/s]Training 1/3 epoch (loss 0.0006):  19%|█▉        | 3230/16950 [36:59<2:19:40,  1.64it/s]Training 1/3 epoch (loss 0.0006):  19%|█▉        | 3231/16950 [36:59<2:13:25,  1.71it/s]Training 1/3 epoch (loss 0.0241):  19%|█▉        | 3231/16950 [37:00<2:13:25,  1.71it/s]Training 1/3 epoch (loss 0.0241):  19%|█▉        | 3232/16950 [37:00<2:11:01,  1.74it/s]Training 1/3 epoch (loss 0.0046):  19%|█▉        | 3232/16950 [37:00<2:11:01,  1.74it/s]Training 1/3 epoch (loss 0.0046):  19%|█▉        | 3233/16950 [37:00<2:13:45,  1.71it/s]Training 1/3 epoch (loss 0.0049):  19%|█▉        | 3233/16950 [37:01<2:13:45,  1.71it/s]Training 1/3 epoch (loss 0.0049):  19%|█▉        | 3234/16950 [37:01<2:40:11,  1.43it/s]Training 1/3 epoch (loss 0.0183):  19%|█▉        | 3234/16950 [37:02<2:40:11,  1.43it/s]Training 1/3 epoch (loss 0.0183):  19%|█▉        | 3235/16950 [37:02<2:35:49,  1.47it/s]Training 1/3 epoch (loss 0.0143):  19%|█▉        | 3235/16950 [37:02<2:35:49,  1.47it/s]Training 1/3 epoch (loss 0.0143):  19%|█▉        | 3236/16950 [37:02<2:17:17,  1.66it/s]Training 1/3 epoch (loss 0.5093):  19%|█▉        | 3236/16950 [37:03<2:17:17,  1.66it/s]Training 1/3 epoch (loss 0.5093):  19%|█▉        | 3237/16950 [37:03<2:15:00,  1.69it/s]Training 1/3 epoch (loss 0.0629):  19%|█▉        | 3237/16950 [37:04<2:15:00,  1.69it/s]Training 1/3 epoch (loss 0.0629):  19%|█▉        | 3238/16950 [37:04<2:20:45,  1.62it/s]Training 1/3 epoch (loss 0.0184):  19%|█▉        | 3238/16950 [37:04<2:20:45,  1.62it/s]Training 1/3 epoch (loss 0.0184):  19%|█▉        | 3239/16950 [37:04<2:14:29,  1.70it/s]Training 1/3 epoch (loss 0.2123):  19%|█▉        | 3239/16950 [37:05<2:14:29,  1.70it/s]Training 1/3 epoch (loss 0.2123):  19%|█▉        | 3240/16950 [37:05<2:29:43,  1.53it/s]Training 1/3 epoch (loss 0.0120):  19%|█▉        | 3240/16950 [37:06<2:29:43,  1.53it/s]Training 1/3 epoch (loss 0.0120):  19%|█▉        | 3241/16950 [37:06<2:40:57,  1.42it/s]Training 1/3 epoch (loss 0.0751):  19%|█▉        | 3241/16950 [37:06<2:40:57,  1.42it/s]Training 1/3 epoch (loss 0.0751):  19%|█▉        | 3242/16950 [37:06<2:42:25,  1.41it/s]Training 1/3 epoch (loss 0.0699):  19%|█▉        | 3242/16950 [37:07<2:42:25,  1.41it/s]Training 1/3 epoch (loss 0.0699):  19%|█▉        | 3243/16950 [37:07<2:36:24,  1.46it/s]Training 1/3 epoch (loss 0.7003):  19%|█▉        | 3243/16950 [37:07<2:36:24,  1.46it/s]Training 1/3 epoch (loss 0.7003):  19%|█▉        | 3244/16950 [37:07<2:19:46,  1.63it/s]Training 1/3 epoch (loss 0.3769):  19%|█▉        | 3244/16950 [37:08<2:19:46,  1.63it/s]Training 1/3 epoch (loss 0.3769):  19%|█▉        | 3245/16950 [37:08<2:12:24,  1.73it/s]Training 1/3 epoch (loss 0.0715):  19%|█▉        | 3245/16950 [37:09<2:12:24,  1.73it/s]Training 1/3 epoch (loss 0.0715):  19%|█▉        | 3246/16950 [37:09<2:18:11,  1.65it/s]Training 1/3 epoch (loss 0.4326):  19%|█▉        | 3246/16950 [37:09<2:18:11,  1.65it/s]Training 1/3 epoch (loss 0.4326):  19%|█▉        | 3247/16950 [37:09<2:00:37,  1.89it/s]Training 1/3 epoch (loss 0.3106):  19%|█▉        | 3247/16950 [37:09<2:00:37,  1.89it/s]Training 1/3 epoch (loss 0.3106):  19%|█▉        | 3248/16950 [37:09<1:59:45,  1.91it/s]Training 1/3 epoch (loss 0.3665):  19%|█▉        | 3248/16950 [37:10<1:59:45,  1.91it/s]Training 1/3 epoch (loss 0.3665):  19%|█▉        | 3249/16950 [37:10<2:05:32,  1.82it/s]Training 1/3 epoch (loss 0.6773):  19%|█▉        | 3249/16950 [37:11<2:05:32,  1.82it/s]Training 1/3 epoch (loss 0.6773):  19%|█▉        | 3250/16950 [37:11<2:29:59,  1.52it/s]Training 1/3 epoch (loss 0.3309):  19%|█▉        | 3250/16950 [37:11<2:29:59,  1.52it/s]Training 1/3 epoch (loss 0.3309):  19%|█▉        | 3251/16950 [37:11<2:13:47,  1.71it/s]Training 1/3 epoch (loss 0.3711):  19%|█▉        | 3251/16950 [37:12<2:13:47,  1.71it/s]Training 1/3 epoch (loss 0.3711):  19%|█▉        | 3252/16950 [37:12<2:27:23,  1.55it/s]Training 1/3 epoch (loss 0.0160):  19%|█▉        | 3252/16950 [37:13<2:27:23,  1.55it/s]Training 1/3 epoch (loss 0.0160):  19%|█▉        | 3253/16950 [37:13<2:26:16,  1.56it/s]Training 1/3 epoch (loss 0.3429):  19%|█▉        | 3253/16950 [37:13<2:26:16,  1.56it/s]Training 1/3 epoch (loss 0.3429):  19%|█▉        | 3254/16950 [37:13<2:03:40,  1.85it/s]Training 1/3 epoch (loss 0.2357):  19%|█▉        | 3254/16950 [37:14<2:03:40,  1.85it/s]Training 1/3 epoch (loss 0.2357):  19%|█▉        | 3255/16950 [37:14<2:00:47,  1.89it/s]Training 1/3 epoch (loss 0.0010):  19%|█▉        | 3255/16950 [37:14<2:00:47,  1.89it/s]Training 1/3 epoch (loss 0.0010):  19%|█▉        | 3256/16950 [37:14<1:55:08,  1.98it/s]Training 1/3 epoch (loss 0.0203):  19%|█▉        | 3256/16950 [37:15<1:55:08,  1.98it/s]Training 1/3 epoch (loss 0.0203):  19%|█▉        | 3257/16950 [37:15<2:02:18,  1.87it/s]Training 1/3 epoch (loss 0.0026):  19%|█▉        | 3257/16950 [37:15<2:02:18,  1.87it/s]Training 1/3 epoch (loss 0.0026):  19%|█▉        | 3258/16950 [37:15<2:09:29,  1.76it/s]Training 1/3 epoch (loss 0.0162):  19%|█▉        | 3258/16950 [37:16<2:09:29,  1.76it/s]Training 1/3 epoch (loss 0.0162):  19%|█▉        | 3259/16950 [37:16<2:12:50,  1.72it/s]Training 1/3 epoch (loss 0.1825):  19%|█▉        | 3259/16950 [37:17<2:12:50,  1.72it/s]Training 1/3 epoch (loss 0.1825):  19%|█▉        | 3260/16950 [37:17<2:18:10,  1.65it/s]Training 1/3 epoch (loss 0.2313):  19%|█▉        | 3260/16950 [37:17<2:18:10,  1.65it/s]Training 1/3 epoch (loss 0.2313):  19%|█▉        | 3261/16950 [37:17<2:18:20,  1.65it/s]Training 1/3 epoch (loss 0.1539):  19%|█▉        | 3261/16950 [37:18<2:18:20,  1.65it/s]Training 1/3 epoch (loss 0.1539):  19%|█▉        | 3262/16950 [37:18<2:30:12,  1.52it/s]Training 1/3 epoch (loss 0.4637):  19%|█▉        | 3262/16950 [37:19<2:30:12,  1.52it/s]Training 1/3 epoch (loss 0.4637):  19%|█▉        | 3263/16950 [37:19<2:33:26,  1.49it/s]Training 1/3 epoch (loss 0.4982):  19%|█▉        | 3263/16950 [37:19<2:33:26,  1.49it/s]Training 1/3 epoch (loss 0.4982):  19%|█▉        | 3264/16950 [37:19<2:17:38,  1.66it/s]Training 1/3 epoch (loss 0.5658):  19%|█▉        | 3264/16950 [37:20<2:17:38,  1.66it/s]Training 1/3 epoch (loss 0.5658):  19%|█▉        | 3265/16950 [37:20<2:01:53,  1.87it/s]Training 1/3 epoch (loss 0.8977):  19%|█▉        | 3265/16950 [37:20<2:01:53,  1.87it/s]Training 1/3 epoch (loss 0.8977):  19%|█▉        | 3266/16950 [37:20<2:15:45,  1.68it/s]Training 1/3 epoch (loss 0.3865):  19%|█▉        | 3266/16950 [37:21<2:15:45,  1.68it/s]Training 1/3 epoch (loss 0.3865):  19%|█▉        | 3267/16950 [37:21<2:18:31,  1.65it/s]Training 1/3 epoch (loss 0.4913):  19%|█▉        | 3267/16950 [37:22<2:18:31,  1.65it/s]Training 1/3 epoch (loss 0.4913):  19%|█▉        | 3268/16950 [37:22<2:19:50,  1.63it/s]Training 1/3 epoch (loss 0.0051):  19%|█▉        | 3268/16950 [37:22<2:19:50,  1.63it/s]Training 1/3 epoch (loss 0.0051):  19%|█▉        | 3269/16950 [37:22<2:11:52,  1.73it/s]Training 1/3 epoch (loss 0.2947):  19%|█▉        | 3269/16950 [37:23<2:11:52,  1.73it/s]Training 1/3 epoch (loss 0.2947):  19%|█▉        | 3270/16950 [37:23<2:13:32,  1.71it/s]Training 1/3 epoch (loss 0.0103):  19%|█▉        | 3270/16950 [37:23<2:13:32,  1.71it/s]Training 1/3 epoch (loss 0.0103):  19%|█▉        | 3271/16950 [37:23<2:08:56,  1.77it/s]Training 1/3 epoch (loss 0.5342):  19%|█▉        | 3271/16950 [37:24<2:08:56,  1.77it/s]Training 1/3 epoch (loss 0.5342):  19%|█▉        | 3272/16950 [37:24<2:12:27,  1.72it/s]Training 1/3 epoch (loss 0.0163):  19%|█▉        | 3272/16950 [37:24<2:12:27,  1.72it/s]Training 1/3 epoch (loss 0.0163):  19%|█▉        | 3273/16950 [37:24<2:05:59,  1.81it/s]Training 1/3 epoch (loss 0.0029):  19%|█▉        | 3273/16950 [37:25<2:05:59,  1.81it/s]Training 1/3 epoch (loss 0.0029):  19%|█▉        | 3274/16950 [37:25<2:10:09,  1.75it/s]Training 1/3 epoch (loss 0.0228):  19%|█▉        | 3274/16950 [37:26<2:10:09,  1.75it/s]Training 1/3 epoch (loss 0.0228):  19%|█▉        | 3275/16950 [37:26<2:13:48,  1.70it/s]Training 1/3 epoch (loss 0.6214):  19%|█▉        | 3275/16950 [37:26<2:13:48,  1.70it/s]Training 1/3 epoch (loss 0.6214):  19%|█▉        | 3276/16950 [37:26<2:05:24,  1.82it/s]Training 1/3 epoch (loss 0.0435):  19%|█▉        | 3276/16950 [37:27<2:05:24,  1.82it/s]Training 1/3 epoch (loss 0.0435):  19%|█▉        | 3277/16950 [37:27<2:08:41,  1.77it/s]Training 1/3 epoch (loss 0.5215):  19%|█▉        | 3277/16950 [37:27<2:08:41,  1.77it/s]Training 1/3 epoch (loss 0.5215):  19%|█▉        | 3278/16950 [37:27<2:02:02,  1.87it/s]Training 1/3 epoch (loss 0.1310):  19%|█▉        | 3278/16950 [37:28<2:02:02,  1.87it/s]Training 1/3 epoch (loss 0.1310):  19%|█▉        | 3279/16950 [37:28<2:00:38,  1.89it/s]Training 1/3 epoch (loss 0.0027):  19%|█▉        | 3279/16950 [37:28<2:00:38,  1.89it/s]Training 1/3 epoch (loss 0.0027):  19%|█▉        | 3280/16950 [37:28<2:08:14,  1.78it/s]Training 1/3 epoch (loss 0.0139):  19%|█▉        | 3280/16950 [37:29<2:08:14,  1.78it/s]Training 1/3 epoch (loss 0.0139):  19%|█▉        | 3281/16950 [37:29<2:03:36,  1.84it/s]Training 1/3 epoch (loss 0.0038):  19%|█▉        | 3281/16950 [37:29<2:03:36,  1.84it/s]Training 1/3 epoch (loss 0.0038):  19%|█▉        | 3282/16950 [37:29<2:05:47,  1.81it/s]Training 1/3 epoch (loss 0.3862):  19%|█▉        | 3282/16950 [37:30<2:05:47,  1.81it/s]Training 1/3 epoch (loss 0.3862):  19%|█▉        | 3283/16950 [37:30<2:10:13,  1.75it/s]Training 1/3 epoch (loss 0.5875):  19%|█▉        | 3283/16950 [37:30<2:10:13,  1.75it/s]Training 1/3 epoch (loss 0.5875):  19%|█▉        | 3284/16950 [37:30<2:08:06,  1.78it/s]Training 1/3 epoch (loss 0.0011):  19%|█▉        | 3284/16950 [37:31<2:08:06,  1.78it/s]Training 1/3 epoch (loss 0.0011):  19%|█▉        | 3285/16950 [37:31<2:07:26,  1.79it/s]Training 1/3 epoch (loss 0.0276):  19%|█▉        | 3285/16950 [37:31<2:07:26,  1.79it/s]Training 1/3 epoch (loss 0.0276):  19%|█▉        | 3286/16950 [37:31<2:01:14,  1.88it/s]Training 1/3 epoch (loss 0.0008):  19%|█▉        | 3286/16950 [37:32<2:01:14,  1.88it/s]Training 1/3 epoch (loss 0.0008):  19%|█▉        | 3287/16950 [37:32<1:46:43,  2.13it/s]Training 1/3 epoch (loss 0.5054):  19%|█▉        | 3287/16950 [37:32<1:46:43,  2.13it/s]Training 1/3 epoch (loss 0.5054):  19%|█▉        | 3288/16950 [37:32<1:55:28,  1.97it/s]Training 1/3 epoch (loss 0.0462):  19%|█▉        | 3288/16950 [37:33<1:55:28,  1.97it/s]Training 1/3 epoch (loss 0.0462):  19%|█▉        | 3289/16950 [37:33<2:17:41,  1.65it/s]Training 1/3 epoch (loss 0.1639):  19%|█▉        | 3289/16950 [37:34<2:17:41,  1.65it/s]Training 1/3 epoch (loss 0.1639):  19%|█▉        | 3290/16950 [37:34<2:06:43,  1.80it/s]Training 1/3 epoch (loss 0.4581):  19%|█▉        | 3290/16950 [37:34<2:06:43,  1.80it/s]Training 1/3 epoch (loss 0.4581):  19%|█▉        | 3291/16950 [37:34<2:14:08,  1.70it/s]Training 1/3 epoch (loss nan):  19%|█▉        | 3291/16950 [37:35<2:14:08,  1.70it/s]   Training 1/3 epoch (loss nan):  19%|█▉        | 3292/16950 [37:35<2:52:51,  1.32it/s]Training 1/3 epoch (loss 0.4249):  19%|█▉        | 3292/16950 [37:36<2:52:51,  1.32it/s]Training 1/3 epoch (loss 0.4249):  19%|█▉        | 3293/16950 [37:36<2:52:02,  1.32it/s]Training 1/3 epoch (loss 0.6703):  19%|█▉        | 3293/16950 [37:37<2:52:02,  1.32it/s]Training 1/3 epoch (loss 0.6703):  19%|█▉        | 3294/16950 [37:37<2:45:31,  1.37it/s]Training 1/3 epoch (loss 0.0056):  19%|█▉        | 3294/16950 [37:37<2:45:31,  1.37it/s]Training 1/3 epoch (loss 0.0056):  19%|█▉        | 3295/16950 [37:37<2:33:07,  1.49it/s]Training 1/3 epoch (loss 0.0005):  19%|█▉        | 3295/16950 [37:38<2:33:07,  1.49it/s]Training 1/3 epoch (loss 0.0005):  19%|█▉        | 3296/16950 [37:38<2:12:59,  1.71it/s]Training 1/3 epoch (loss 0.1607):  19%|█▉        | 3296/16950 [37:38<2:12:59,  1.71it/s]Training 1/3 epoch (loss 0.1607):  19%|█▉        | 3297/16950 [37:38<2:06:52,  1.79it/s]Training 1/3 epoch (loss 0.2782):  19%|█▉        | 3297/16950 [37:39<2:06:52,  1.79it/s]Training 1/3 epoch (loss 0.2782):  19%|█▉        | 3298/16950 [37:39<2:07:35,  1.78it/s]Training 1/3 epoch (loss 0.0850):  19%|█▉        | 3298/16950 [37:39<2:07:35,  1.78it/s]Training 1/3 epoch (loss 0.0850):  19%|█▉        | 3299/16950 [37:39<2:12:33,  1.72it/s]Training 1/3 epoch (loss 0.0017):  19%|█▉        | 3299/16950 [37:40<2:12:33,  1.72it/s]Training 1/3 epoch (loss 0.0017):  19%|█▉        | 3300/16950 [37:40<2:03:02,  1.85it/s]Training 1/3 epoch (loss 0.0694):  19%|█▉        | 3300/16950 [37:41<2:03:02,  1.85it/s]Training 1/3 epoch (loss 0.0694):  19%|█▉        | 3301/16950 [37:41<2:20:33,  1.62it/s]Training 1/3 epoch (loss 0.0583):  19%|█▉        | 3301/16950 [37:41<2:20:33,  1.62it/s]Training 1/3 epoch (loss 0.0583):  19%|█▉        | 3302/16950 [37:41<2:17:02,  1.66it/s]Training 1/3 epoch (loss 0.3331):  19%|█▉        | 3302/16950 [37:42<2:17:02,  1.66it/s]Training 1/3 epoch (loss 0.3331):  19%|█▉        | 3303/16950 [37:42<2:22:49,  1.59it/s]Training 1/3 epoch (loss 0.0238):  19%|█▉        | 3303/16950 [37:42<2:22:49,  1.59it/s]Training 1/3 epoch (loss 0.0238):  19%|█▉        | 3304/16950 [37:42<2:13:19,  1.71it/s]Training 1/3 epoch (loss 0.3167):  19%|█▉        | 3304/16950 [37:43<2:13:19,  1.71it/s]Training 1/3 epoch (loss 0.3167):  19%|█▉        | 3305/16950 [37:43<2:00:56,  1.88it/s]Training 1/3 epoch (loss 0.0005):  19%|█▉        | 3305/16950 [37:43<2:00:56,  1.88it/s]Training 1/3 epoch (loss 0.0005):  20%|█▉        | 3306/16950 [37:43<2:06:35,  1.80it/s]Training 1/3 epoch (loss 0.0200):  20%|█▉        | 3306/16950 [37:44<2:06:35,  1.80it/s]Training 1/3 epoch (loss 0.0200):  20%|█▉        | 3307/16950 [37:44<2:06:08,  1.80it/s]Training 1/3 epoch (loss 0.1191):  20%|█▉        | 3307/16950 [37:45<2:06:08,  1.80it/s]Training 1/3 epoch (loss 0.1191):  20%|█▉        | 3308/16950 [37:45<2:12:40,  1.71it/s]Training 1/3 epoch (loss 0.0319):  20%|█▉        | 3308/16950 [37:45<2:12:40,  1.71it/s]Training 1/3 epoch (loss 0.0319):  20%|█▉        | 3309/16950 [37:45<2:22:40,  1.59it/s]Training 1/3 epoch (loss 0.2000):  20%|█▉        | 3309/16950 [37:47<2:22:40,  1.59it/s]Training 1/3 epoch (loss 0.2000):  20%|█▉        | 3310/16950 [37:47<3:01:07,  1.26it/s]Training 1/3 epoch (loss 0.2151):  20%|█▉        | 3310/16950 [37:47<3:01:07,  1.26it/s]Training 1/3 epoch (loss 0.2151):  20%|█▉        | 3311/16950 [37:47<2:47:08,  1.36it/s]Training 1/3 epoch (loss 0.0181):  20%|█▉        | 3311/16950 [37:48<2:47:08,  1.36it/s]Training 1/3 epoch (loss 0.0181):  20%|█▉        | 3312/16950 [37:48<2:35:03,  1.47it/s]Training 1/3 epoch (loss 0.0051):  20%|█▉        | 3312/16950 [37:48<2:35:03,  1.47it/s]Training 1/3 epoch (loss 0.0051):  20%|█▉        | 3313/16950 [37:48<2:17:59,  1.65it/s]Training 1/3 epoch (loss 0.3377):  20%|█▉        | 3313/16950 [37:49<2:17:59,  1.65it/s]Training 1/3 epoch (loss 0.3377):  20%|█▉        | 3314/16950 [37:49<2:51:00,  1.33it/s]Training 1/3 epoch (loss 0.0272):  20%|█▉        | 3314/16950 [37:50<2:51:00,  1.33it/s]Training 1/3 epoch (loss 0.0272):  20%|█▉        | 3315/16950 [37:50<2:37:11,  1.45it/s]Training 1/3 epoch (loss 0.0030):  20%|█▉        | 3315/16950 [37:50<2:37:11,  1.45it/s]Training 1/3 epoch (loss 0.0030):  20%|█▉        | 3316/16950 [37:50<2:21:11,  1.61it/s]Training 1/3 epoch (loss 0.0294):  20%|█▉        | 3316/16950 [37:51<2:21:11,  1.61it/s]Training 1/3 epoch (loss 0.0294):  20%|█▉        | 3317/16950 [37:51<2:18:59,  1.63it/s]Training 1/3 epoch (loss 0.0376):  20%|█▉        | 3317/16950 [37:51<2:18:59,  1.63it/s]Training 1/3 epoch (loss 0.0376):  20%|█▉        | 3318/16950 [37:51<2:12:32,  1.71it/s]Training 1/3 epoch (loss 0.4680):  20%|█▉        | 3318/16950 [37:52<2:12:32,  1.71it/s]Training 1/3 epoch (loss 0.4680):  20%|█▉        | 3319/16950 [37:52<2:00:05,  1.89it/s]Training 1/3 epoch (loss 0.5969):  20%|█▉        | 3319/16950 [37:52<2:00:05,  1.89it/s]Training 1/3 epoch (loss 0.5969):  20%|█▉        | 3320/16950 [37:52<2:10:15,  1.74it/s]Training 1/3 epoch (loss 0.0008):  20%|█▉        | 3320/16950 [37:53<2:10:15,  1.74it/s]Training 1/3 epoch (loss 0.0008):  20%|█▉        | 3321/16950 [37:53<2:03:29,  1.84it/s]Training 1/3 epoch (loss 0.0218):  20%|█▉        | 3321/16950 [37:53<2:03:29,  1.84it/s]Training 1/3 epoch (loss 0.0218):  20%|█▉        | 3322/16950 [37:53<1:54:14,  1.99it/s]Training 1/3 epoch (loss 0.1249):  20%|█▉        | 3322/16950 [37:54<1:54:14,  1.99it/s]Training 1/3 epoch (loss 0.1249):  20%|█▉        | 3323/16950 [37:54<2:04:09,  1.83it/s]Training 1/3 epoch (loss 0.3309):  20%|█▉        | 3323/16950 [37:55<2:04:09,  1.83it/s]Training 1/3 epoch (loss 0.3309):  20%|█▉        | 3324/16950 [37:55<2:03:23,  1.84it/s]Training 1/3 epoch (loss 0.3847):  20%|█▉        | 3324/16950 [37:55<2:03:23,  1.84it/s]Training 1/3 epoch (loss 0.3847):  20%|█▉        | 3325/16950 [37:55<2:10:09,  1.74it/s]Training 1/3 epoch (loss 0.0374):  20%|█▉        | 3325/16950 [37:56<2:10:09,  1.74it/s]Training 1/3 epoch (loss 0.0374):  20%|█▉        | 3326/16950 [37:56<2:10:53,  1.73it/s]Training 1/3 epoch (loss 0.0191):  20%|█▉        | 3326/16950 [37:56<2:10:53,  1.73it/s]Training 1/3 epoch (loss 0.0191):  20%|█▉        | 3327/16950 [37:56<2:07:17,  1.78it/s]Training 1/3 epoch (loss 0.5665):  20%|█▉        | 3327/16950 [37:57<2:07:17,  1.78it/s]Training 1/3 epoch (loss 0.5665):  20%|█▉        | 3328/16950 [37:57<2:01:09,  1.87it/s]Training 1/3 epoch (loss 0.0877):  20%|█▉        | 3328/16950 [37:58<2:01:09,  1.87it/s]Training 1/3 epoch (loss 0.0877):  20%|█▉        | 3329/16950 [37:58<2:21:32,  1.60it/s]Training 1/3 epoch (loss 0.0048):  20%|█▉        | 3329/16950 [37:58<2:21:32,  1.60it/s]Training 1/3 epoch (loss 0.0048):  20%|█▉        | 3330/16950 [37:58<2:16:36,  1.66it/s]Training 1/3 epoch (loss 0.3769):  20%|█▉        | 3330/16950 [37:59<2:16:36,  1.66it/s]Training 1/3 epoch (loss 0.3769):  20%|█▉        | 3331/16950 [37:59<2:15:23,  1.68it/s]Training 1/3 epoch (loss 0.1409):  20%|█▉        | 3331/16950 [37:59<2:15:23,  1.68it/s]Training 1/3 epoch (loss 0.1409):  20%|█▉        | 3332/16950 [37:59<2:10:42,  1.74it/s]Training 1/3 epoch (loss 0.5863):  20%|█▉        | 3332/16950 [38:00<2:10:42,  1.74it/s]Training 1/3 epoch (loss 0.5863):  20%|█▉        | 3333/16950 [38:00<2:45:35,  1.37it/s]Training 1/3 epoch (loss 0.1646):  20%|█▉        | 3333/16950 [38:01<2:45:35,  1.37it/s]Training 1/3 epoch (loss 0.1646):  20%|█▉        | 3334/16950 [38:01<2:31:36,  1.50it/s]Training 1/3 epoch (loss 0.5077):  20%|█▉        | 3334/16950 [38:01<2:31:36,  1.50it/s]Training 1/3 epoch (loss 0.5077):  20%|█▉        | 3335/16950 [38:01<2:16:21,  1.66it/s]Training 1/3 epoch (loss 0.0133):  20%|█▉        | 3335/16950 [38:02<2:16:21,  1.66it/s]Training 1/3 epoch (loss 0.0133):  20%|█▉        | 3336/16950 [38:02<1:58:52,  1.91it/s]Training 1/3 epoch (loss 0.2595):  20%|█▉        | 3336/16950 [38:02<1:58:52,  1.91it/s]Training 1/3 epoch (loss 0.2595):  20%|█▉        | 3337/16950 [38:02<1:58:05,  1.92it/s]Training 1/3 epoch (loss 0.0421):  20%|█▉        | 3337/16950 [38:03<1:58:05,  1.92it/s]Training 1/3 epoch (loss 0.0421):  20%|█▉        | 3338/16950 [38:03<1:54:01,  1.99it/s]Training 1/3 epoch (loss 0.0429):  20%|█▉        | 3338/16950 [38:03<1:54:01,  1.99it/s]Training 1/3 epoch (loss 0.0429):  20%|█▉        | 3339/16950 [38:03<2:04:35,  1.82it/s]Training 1/3 epoch (loss 0.0895):  20%|█▉        | 3339/16950 [38:04<2:04:35,  1.82it/s]Training 1/3 epoch (loss 0.0895):  20%|█▉        | 3340/16950 [38:04<2:24:01,  1.58it/s]Training 1/3 epoch (loss 0.1161):  20%|█▉        | 3340/16950 [38:05<2:24:01,  1.58it/s]Training 1/3 epoch (loss 0.1161):  20%|█▉        | 3341/16950 [38:05<2:42:45,  1.39it/s]Training 1/3 epoch (loss 0.1484):  20%|█▉        | 3341/16950 [38:06<2:42:45,  1.39it/s]Training 1/3 epoch (loss 0.1484):  20%|█▉        | 3342/16950 [38:06<2:44:48,  1.38it/s]Training 1/3 epoch (loss 0.2066):  20%|█▉        | 3342/16950 [38:06<2:44:48,  1.38it/s]Training 1/3 epoch (loss 0.2066):  20%|█▉        | 3343/16950 [38:06<2:29:10,  1.52it/s]Training 1/3 epoch (loss 0.0217):  20%|█▉        | 3343/16950 [38:07<2:29:10,  1.52it/s]Training 1/3 epoch (loss 0.0217):  20%|█▉        | 3344/16950 [38:07<2:29:40,  1.52it/s]Training 1/3 epoch (loss 0.1835):  20%|█▉        | 3344/16950 [38:08<2:29:40,  1.52it/s]Training 1/3 epoch (loss 0.1835):  20%|█▉        | 3345/16950 [38:08<3:02:15,  1.24it/s]Training 1/3 epoch (loss 0.0039):  20%|█▉        | 3345/16950 [38:09<3:02:15,  1.24it/s]Training 1/3 epoch (loss 0.0039):  20%|█▉        | 3346/16950 [38:09<3:02:17,  1.24it/s]Training 1/3 epoch (loss 0.3218):  20%|█▉        | 3346/16950 [38:09<3:02:17,  1.24it/s]Training 1/3 epoch (loss 0.3218):  20%|█▉        | 3347/16950 [38:09<2:39:40,  1.42it/s]Training 1/3 epoch (loss 0.5227):  20%|█▉        | 3347/16950 [38:10<2:39:40,  1.42it/s]Training 1/3 epoch (loss 0.5227):  20%|█▉        | 3348/16950 [38:10<2:33:59,  1.47it/s]Training 1/3 epoch (loss 0.4103):  20%|█▉        | 3348/16950 [38:11<2:33:59,  1.47it/s]Training 1/3 epoch (loss 0.4103):  20%|█▉        | 3349/16950 [38:11<2:26:25,  1.55it/s]Training 1/3 epoch (loss 0.0535):  20%|█▉        | 3349/16950 [38:11<2:26:25,  1.55it/s]Training 1/3 epoch (loss 0.0535):  20%|█▉        | 3350/16950 [38:11<2:11:58,  1.72it/s]Training 1/3 epoch (loss 0.0253):  20%|█▉        | 3350/16950 [38:12<2:11:58,  1.72it/s]Training 1/3 epoch (loss 0.0253):  20%|█▉        | 3351/16950 [38:12<2:12:51,  1.71it/s]Training 1/3 epoch (loss 0.2504):  20%|█▉        | 3351/16950 [38:12<2:12:51,  1.71it/s]Training 1/3 epoch (loss 0.2504):  20%|█▉        | 3352/16950 [38:12<2:08:54,  1.76it/s]Training 1/3 epoch (loss 0.0046):  20%|█▉        | 3352/16950 [38:12<2:08:54,  1.76it/s]Training 1/3 epoch (loss 0.0046):  20%|█▉        | 3353/16950 [38:12<1:55:50,  1.96it/s]Training 1/3 epoch (loss 0.2016):  20%|█▉        | 3353/16950 [38:13<1:55:50,  1.96it/s]Training 1/3 epoch (loss 0.2016):  20%|█▉        | 3354/16950 [38:13<1:52:37,  2.01it/s]Training 1/3 epoch (loss 0.0319):  20%|█▉        | 3354/16950 [38:14<1:52:37,  2.01it/s]Training 1/3 epoch (loss 0.0319):  20%|█▉        | 3355/16950 [38:14<2:00:37,  1.88it/s]Training 1/3 epoch (loss 0.0273):  20%|█▉        | 3355/16950 [38:14<2:00:37,  1.88it/s]Training 1/3 epoch (loss 0.0273):  20%|█▉        | 3356/16950 [38:14<2:08:59,  1.76it/s]Training 1/3 epoch (loss 0.3833):  20%|█▉        | 3356/16950 [38:15<2:08:59,  1.76it/s]Training 1/3 epoch (loss 0.3833):  20%|█▉        | 3357/16950 [38:15<2:06:31,  1.79it/s]Training 1/3 epoch (loss 0.0048):  20%|█▉        | 3357/16950 [38:15<2:06:31,  1.79it/s]Training 1/3 epoch (loss 0.0048):  20%|█▉        | 3358/16950 [38:15<2:09:19,  1.75it/s]Training 1/3 epoch (loss 0.6353):  20%|█▉        | 3358/16950 [38:16<2:09:19,  1.75it/s]Training 1/3 epoch (loss 0.6353):  20%|█▉        | 3359/16950 [38:16<2:08:20,  1.76it/s]Training 1/3 epoch (loss 0.0665):  20%|█▉        | 3359/16950 [38:17<2:08:20,  1.76it/s]Training 1/3 epoch (loss 0.0665):  20%|█▉        | 3360/16950 [38:17<2:14:09,  1.69it/s]Training 1/3 epoch (loss 0.0093):  20%|█▉        | 3360/16950 [38:17<2:14:09,  1.69it/s]Training 1/3 epoch (loss 0.0093):  20%|█▉        | 3361/16950 [38:17<2:22:33,  1.59it/s]Training 1/3 epoch (loss 0.0147):  20%|█▉        | 3361/16950 [38:18<2:22:33,  1.59it/s]Training 1/3 epoch (loss 0.0147):  20%|█▉        | 3362/16950 [38:18<2:42:51,  1.39it/s]Training 1/3 epoch (loss 0.3755):  20%|█▉        | 3362/16950 [38:19<2:42:51,  1.39it/s]Training 1/3 epoch (loss 0.3755):  20%|█▉        | 3363/16950 [38:19<3:07:03,  1.21it/s]Training 1/3 epoch (loss 0.0024):  20%|█▉        | 3363/16950 [38:20<3:07:03,  1.21it/s]Training 1/3 epoch (loss 0.0024):  20%|█▉        | 3364/16950 [38:20<2:58:53,  1.27it/s]Training 1/3 epoch (loss 0.0009):  20%|█▉        | 3364/16950 [38:21<2:58:53,  1.27it/s]Training 1/3 epoch (loss 0.0009):  20%|█▉        | 3365/16950 [38:21<2:41:08,  1.41it/s]Training 1/3 epoch (loss 0.0015):  20%|█▉        | 3365/16950 [38:21<2:41:08,  1.41it/s]Training 1/3 epoch (loss 0.0015):  20%|█▉        | 3366/16950 [38:21<2:35:00,  1.46it/s]Training 1/3 epoch (loss 0.0801):  20%|█▉        | 3366/16950 [38:22<2:35:00,  1.46it/s]Training 1/3 epoch (loss 0.0801):  20%|█▉        | 3367/16950 [38:22<2:48:49,  1.34it/s]Training 1/3 epoch (loss 0.1607):  20%|█▉        | 3367/16950 [38:23<2:48:49,  1.34it/s]Training 1/3 epoch (loss 0.1607):  20%|█▉        | 3368/16950 [38:23<2:47:40,  1.35it/s]Training 1/3 epoch (loss 0.0097):  20%|█▉        | 3368/16950 [38:23<2:47:40,  1.35it/s]Training 1/3 epoch (loss 0.0097):  20%|█▉        | 3369/16950 [38:23<2:31:07,  1.50it/s]Training 1/3 epoch (loss 0.3768):  20%|█▉        | 3369/16950 [38:24<2:31:07,  1.50it/s]Training 1/3 epoch (loss 0.3768):  20%|█▉        | 3370/16950 [38:24<2:24:24,  1.57it/s]Training 1/3 epoch (loss 0.0016):  20%|█▉        | 3370/16950 [38:24<2:24:24,  1.57it/s]Training 1/3 epoch (loss 0.0016):  20%|█▉        | 3371/16950 [38:24<2:12:50,  1.70it/s]Training 1/3 epoch (loss 0.0631):  20%|█▉        | 3371/16950 [38:25<2:12:50,  1.70it/s]Training 1/3 epoch (loss 0.0631):  20%|█▉        | 3372/16950 [38:25<2:02:29,  1.85it/s]Training 1/3 epoch (loss 0.0122):  20%|█▉        | 3372/16950 [38:26<2:02:29,  1.85it/s]Training 1/3 epoch (loss 0.0122):  20%|█▉        | 3373/16950 [38:26<2:34:18,  1.47it/s]Training 1/3 epoch (loss 0.0045):  20%|█▉        | 3373/16950 [38:26<2:34:18,  1.47it/s]Training 1/3 epoch (loss 0.0045):  20%|█▉        | 3374/16950 [38:26<2:38:13,  1.43it/s]Training 1/3 epoch (loss 0.4399):  20%|█▉        | 3374/16950 [38:27<2:38:13,  1.43it/s]Training 1/3 epoch (loss 0.4399):  20%|█▉        | 3375/16950 [38:27<2:19:51,  1.62it/s]Training 1/3 epoch (loss 0.0978):  20%|█▉        | 3375/16950 [38:28<2:19:51,  1.62it/s]Training 1/3 epoch (loss 0.0978):  20%|█▉        | 3376/16950 [38:28<2:18:55,  1.63it/s]Training 1/3 epoch (loss 0.1030):  20%|█▉        | 3376/16950 [38:28<2:18:55,  1.63it/s]Training 1/3 epoch (loss 0.1030):  20%|█▉        | 3377/16950 [38:28<2:08:21,  1.76it/s]Training 1/3 epoch (loss 0.0003):  20%|█▉        | 3377/16950 [38:29<2:08:21,  1.76it/s]Training 1/3 epoch (loss 0.0003):  20%|█▉        | 3378/16950 [38:29<2:08:27,  1.76it/s]Training 1/3 epoch (loss 0.4811):  20%|█▉        | 3378/16950 [38:29<2:08:27,  1.76it/s]Training 1/3 epoch (loss 0.4811):  20%|█▉        | 3379/16950 [38:29<2:03:37,  1.83it/s]Training 1/3 epoch (loss 0.0134):  20%|█▉        | 3379/16950 [38:30<2:03:37,  1.83it/s]Training 1/3 epoch (loss 0.0134):  20%|█▉        | 3380/16950 [38:30<1:59:01,  1.90it/s]Training 1/3 epoch (loss 0.0464):  20%|█▉        | 3380/16950 [38:30<1:59:01,  1.90it/s]Training 1/3 epoch (loss 0.0464):  20%|█▉        | 3381/16950 [38:30<1:50:11,  2.05it/s]Training 1/3 epoch (loss 0.0011):  20%|█▉        | 3381/16950 [38:31<1:50:11,  2.05it/s]Training 1/3 epoch (loss 0.0011):  20%|█▉        | 3382/16950 [38:31<2:07:48,  1.77it/s]Training 1/3 epoch (loss 0.0005):  20%|█▉        | 3382/16950 [38:31<2:07:48,  1.77it/s]Training 1/3 epoch (loss 0.0005):  20%|█▉        | 3383/16950 [38:31<2:16:21,  1.66it/s]Training 1/3 epoch (loss 0.0051):  20%|█▉        | 3383/16950 [38:32<2:16:21,  1.66it/s]Training 1/3 epoch (loss 0.0051):  20%|█▉        | 3384/16950 [38:32<2:24:18,  1.57it/s]Training 1/3 epoch (loss 0.0533):  20%|█▉        | 3384/16950 [38:33<2:24:18,  1.57it/s]Training 1/3 epoch (loss 0.0533):  20%|█▉        | 3385/16950 [38:33<2:49:52,  1.33it/s]Training 1/3 epoch (loss 0.1642):  20%|█▉        | 3385/16950 [38:34<2:49:52,  1.33it/s]Training 1/3 epoch (loss 0.1642):  20%|█▉        | 3386/16950 [38:34<2:36:41,  1.44it/s]Training 1/3 epoch (loss 0.1159):  20%|█▉        | 3386/16950 [38:34<2:36:41,  1.44it/s]Training 1/3 epoch (loss 0.1159):  20%|█▉        | 3387/16950 [38:34<2:33:12,  1.48it/s]Training 1/3 epoch (loss 0.3729):  20%|█▉        | 3387/16950 [38:35<2:33:12,  1.48it/s]Training 1/3 epoch (loss 0.3729):  20%|█▉        | 3388/16950 [38:35<2:18:57,  1.63it/s]Training 1/3 epoch (loss 0.0920):  20%|█▉        | 3388/16950 [38:35<2:18:57,  1.63it/s]Training 1/3 epoch (loss 0.0920):  20%|█▉        | 3389/16950 [38:35<2:10:27,  1.73it/s]Training 1/3 epoch (loss 0.7103):  20%|█▉        | 3389/16950 [38:36<2:10:27,  1.73it/s]Training 1/3 epoch (loss 0.7103):  20%|██        | 3390/16950 [38:36<2:35:41,  1.45it/s]Training 1/3 epoch (loss 0.0387):  20%|██        | 3390/16950 [38:37<2:35:41,  1.45it/s]Training 1/3 epoch (loss 0.0387):  20%|██        | 3391/16950 [38:37<2:25:43,  1.55it/s]Training 1/3 epoch (loss 0.1160):  20%|██        | 3391/16950 [38:37<2:25:43,  1.55it/s]Training 1/3 epoch (loss 0.1160):  20%|██        | 3392/16950 [38:37<2:18:02,  1.64it/s]Training 1/3 epoch (loss 0.2544):  20%|██        | 3392/16950 [38:38<2:18:02,  1.64it/s]Training 1/3 epoch (loss 0.2544):  20%|██        | 3393/16950 [38:38<2:50:28,  1.33it/s]Training 1/3 epoch (loss 0.0014):  20%|██        | 3393/16950 [38:39<2:50:28,  1.33it/s]Training 1/3 epoch (loss 0.0014):  20%|██        | 3394/16950 [38:39<2:55:21,  1.29it/s]Training 1/3 epoch (loss 0.0052):  20%|██        | 3394/16950 [38:40<2:55:21,  1.29it/s]Training 1/3 epoch (loss 0.0052):  20%|██        | 3395/16950 [38:40<2:40:32,  1.41it/s]Training 1/3 epoch (loss 0.0868):  20%|██        | 3395/16950 [38:41<2:40:32,  1.41it/s]Training 1/3 epoch (loss 0.0868):  20%|██        | 3396/16950 [38:41<2:47:07,  1.35it/s]Training 1/3 epoch (loss 0.0095):  20%|██        | 3396/16950 [38:41<2:47:07,  1.35it/s]Training 1/3 epoch (loss 0.0095):  20%|██        | 3397/16950 [38:41<2:48:19,  1.34it/s]Training 1/3 epoch (loss 0.0067):  20%|██        | 3397/16950 [38:42<2:48:19,  1.34it/s]Training 1/3 epoch (loss 0.0067):  20%|██        | 3398/16950 [38:42<2:30:56,  1.50it/s]Training 1/3 epoch (loss 0.0322):  20%|██        | 3398/16950 [38:42<2:30:56,  1.50it/s]Training 1/3 epoch (loss 0.0322):  20%|██        | 3399/16950 [38:42<2:13:31,  1.69it/s]Training 1/3 epoch (loss 0.0158):  20%|██        | 3399/16950 [38:43<2:13:31,  1.69it/s]Training 1/3 epoch (loss 0.0158):  20%|██        | 3400/16950 [38:43<2:08:00,  1.76it/s]Training 1/3 epoch (loss 0.0048):  20%|██        | 3400/16950 [38:43<2:08:00,  1.76it/s]Training 1/3 epoch (loss 0.0048):  20%|██        | 3401/16950 [38:43<2:02:16,  1.85it/s]Training 1/3 epoch (loss 0.0178):  20%|██        | 3401/16950 [38:44<2:02:16,  1.85it/s]Training 1/3 epoch (loss 0.0178):  20%|██        | 3402/16950 [38:44<2:04:24,  1.82it/s]Training 1/3 epoch (loss 0.5527):  20%|██        | 3402/16950 [38:45<2:04:24,  1.82it/s]Training 1/3 epoch (loss 0.5527):  20%|██        | 3403/16950 [38:45<2:30:00,  1.51it/s]Training 1/3 epoch (loss 0.2206):  20%|██        | 3403/16950 [38:45<2:30:00,  1.51it/s]Training 1/3 epoch (loss 0.2206):  20%|██        | 3404/16950 [38:45<2:34:29,  1.46it/s]Training 1/3 epoch (loss 0.2099):  20%|██        | 3404/16950 [38:46<2:34:29,  1.46it/s]Training 1/3 epoch (loss 0.2099):  20%|██        | 3405/16950 [38:46<2:14:21,  1.68it/s]Training 1/3 epoch (loss 0.0148):  20%|██        | 3405/16950 [38:46<2:14:21,  1.68it/s]Training 1/3 epoch (loss 0.0148):  20%|██        | 3406/16950 [38:46<2:09:27,  1.74it/s]Training 1/3 epoch (loss 0.5199):  20%|██        | 3406/16950 [38:47<2:09:27,  1.74it/s]Training 1/3 epoch (loss 0.5199):  20%|██        | 3407/16950 [38:47<2:42:53,  1.39it/s]Training 1/3 epoch (loss 0.2806):  20%|██        | 3407/16950 [38:48<2:42:53,  1.39it/s]Training 1/3 epoch (loss 0.2806):  20%|██        | 3408/16950 [38:48<2:39:00,  1.42it/s]Training 1/3 epoch (loss 0.7408):  20%|██        | 3408/16950 [38:49<2:39:00,  1.42it/s]Training 1/3 epoch (loss 0.7408):  20%|██        | 3409/16950 [38:49<2:53:49,  1.30it/s]Training 1/3 epoch (loss 0.0617):  20%|██        | 3409/16950 [38:50<2:53:49,  1.30it/s]Training 1/3 epoch (loss 0.0617):  20%|██        | 3410/16950 [38:50<3:12:38,  1.17it/s]Training 1/3 epoch (loss 0.0421):  20%|██        | 3410/16950 [38:51<3:12:38,  1.17it/s]Training 1/3 epoch (loss 0.0421):  20%|██        | 3411/16950 [38:51<2:47:42,  1.35it/s]Training 1/3 epoch (loss 0.4931):  20%|██        | 3411/16950 [38:51<2:47:42,  1.35it/s]Training 1/3 epoch (loss 0.4931):  20%|██        | 3412/16950 [38:51<2:30:20,  1.50it/s]Training 1/3 epoch (loss 0.0170):  20%|██        | 3412/16950 [38:51<2:30:20,  1.50it/s]Training 1/3 epoch (loss 0.0170):  20%|██        | 3413/16950 [38:51<2:17:26,  1.64it/s]Training 1/3 epoch (loss 0.0524):  20%|██        | 3413/16950 [38:52<2:17:26,  1.64it/s]Training 1/3 epoch (loss 0.0524):  20%|██        | 3414/16950 [38:52<2:09:41,  1.74it/s]Training 1/3 epoch (loss 0.0201):  20%|██        | 3414/16950 [38:52<2:09:41,  1.74it/s]Training 1/3 epoch (loss 0.0201):  20%|██        | 3415/16950 [38:52<2:03:36,  1.83it/s]Training 1/3 epoch (loss 0.0017):  20%|██        | 3415/16950 [38:53<2:03:36,  1.83it/s]Training 1/3 epoch (loss 0.0017):  20%|██        | 3416/16950 [38:53<2:00:21,  1.87it/s]Training 1/3 epoch (loss 0.9428):  20%|██        | 3416/16950 [38:54<2:00:21,  1.87it/s]Training 1/3 epoch (loss 0.9428):  20%|██        | 3417/16950 [38:54<2:35:02,  1.45it/s]Training 1/3 epoch (loss 0.5416):  20%|██        | 3417/16950 [38:55<2:35:02,  1.45it/s]Training 1/3 epoch (loss 0.5416):  20%|██        | 3418/16950 [38:55<2:32:07,  1.48it/s]Training 1/3 epoch (loss 0.0669):  20%|██        | 3418/16950 [38:55<2:32:07,  1.48it/s]Training 1/3 epoch (loss 0.0669):  20%|██        | 3419/16950 [38:55<2:19:38,  1.61it/s]Training 1/3 epoch (loss 0.0786):  20%|██        | 3419/16950 [38:56<2:19:38,  1.61it/s]Training 1/3 epoch (loss 0.0786):  20%|██        | 3420/16950 [38:56<2:37:46,  1.43it/s]Training 1/3 epoch (loss 0.2796):  20%|██        | 3420/16950 [38:57<2:37:46,  1.43it/s]Training 1/3 epoch (loss 0.2796):  20%|██        | 3421/16950 [38:57<2:33:08,  1.47it/s]Training 1/3 epoch (loss 0.0126):  20%|██        | 3421/16950 [38:57<2:33:08,  1.47it/s]Training 1/3 epoch (loss 0.0126):  20%|██        | 3422/16950 [38:57<2:30:22,  1.50it/s]Training 1/3 epoch (loss 0.3967):  20%|██        | 3422/16950 [38:58<2:30:22,  1.50it/s]Training 1/3 epoch (loss 0.3967):  20%|██        | 3423/16950 [38:58<2:16:43,  1.65it/s]Training 1/3 epoch (loss 0.1743):  20%|██        | 3423/16950 [38:58<2:16:43,  1.65it/s]Training 1/3 epoch (loss 0.1743):  20%|██        | 3424/16950 [38:58<2:00:20,  1.87it/s]Training 1/3 epoch (loss 0.0037):  20%|██        | 3424/16950 [38:59<2:00:20,  1.87it/s]Training 1/3 epoch (loss 0.0037):  20%|██        | 3425/16950 [38:59<2:04:04,  1.82it/s]Training 1/3 epoch (loss 0.0003):  20%|██        | 3425/16950 [38:59<2:04:04,  1.82it/s]Training 1/3 epoch (loss 0.0003):  20%|██        | 3426/16950 [38:59<1:58:56,  1.90it/s]Training 1/3 epoch (loss 0.0082):  20%|██        | 3426/16950 [39:00<1:58:56,  1.90it/s]Training 1/3 epoch (loss 0.0082):  20%|██        | 3427/16950 [39:00<1:57:29,  1.92it/s]Training 1/3 epoch (loss 0.0450):  20%|██        | 3427/16950 [39:00<1:57:29,  1.92it/s]Training 1/3 epoch (loss 0.0450):  20%|██        | 3428/16950 [39:00<2:03:30,  1.82it/s]Training 1/3 epoch (loss 0.3472):  20%|██        | 3428/16950 [39:01<2:03:30,  1.82it/s]Training 1/3 epoch (loss 0.3472):  20%|██        | 3429/16950 [39:01<2:27:17,  1.53it/s]Training 1/3 epoch (loss 0.0092):  20%|██        | 3429/16950 [39:02<2:27:17,  1.53it/s]Training 1/3 epoch (loss 0.0092):  20%|██        | 3430/16950 [39:02<2:22:31,  1.58it/s]Training 1/3 epoch (loss 0.0168):  20%|██        | 3430/16950 [39:03<2:22:31,  1.58it/s]Training 1/3 epoch (loss 0.0168):  20%|██        | 3431/16950 [39:03<2:39:59,  1.41it/s]Training 1/3 epoch (loss 0.5074):  20%|██        | 3431/16950 [39:03<2:39:59,  1.41it/s]Training 1/3 epoch (loss 0.5074):  20%|██        | 3432/16950 [39:03<2:42:50,  1.38it/s]Training 1/3 epoch (loss 0.5129):  20%|██        | 3432/16950 [39:04<2:42:50,  1.38it/s]Training 1/3 epoch (loss 0.5129):  20%|██        | 3433/16950 [39:04<2:26:47,  1.53it/s]Training 1/3 epoch (loss 0.0003):  20%|██        | 3433/16950 [39:04<2:26:47,  1.53it/s]Training 1/3 epoch (loss 0.0003):  20%|██        | 3434/16950 [39:04<2:16:19,  1.65it/s]Training 1/3 epoch (loss 0.0366):  20%|██        | 3434/16950 [39:05<2:16:19,  1.65it/s]Training 1/3 epoch (loss 0.0366):  20%|██        | 3435/16950 [39:05<2:16:10,  1.65it/s]Training 1/3 epoch (loss 0.0294):  20%|██        | 3435/16950 [39:06<2:16:10,  1.65it/s]Training 1/3 epoch (loss 0.0294):  20%|██        | 3436/16950 [39:06<2:20:53,  1.60it/s]Training 1/3 epoch (loss 0.0096):  20%|██        | 3436/16950 [39:06<2:20:53,  1.60it/s]Training 1/3 epoch (loss 0.0096):  20%|██        | 3437/16950 [39:06<2:09:22,  1.74it/s]Training 1/3 epoch (loss 0.0067):  20%|██        | 3437/16950 [39:06<2:09:22,  1.74it/s]Training 1/3 epoch (loss 0.0067):  20%|██        | 3438/16950 [39:06<1:51:43,  2.02it/s]Training 1/3 epoch (loss 0.0050):  20%|██        | 3438/16950 [39:07<1:51:43,  2.02it/s]Training 1/3 epoch (loss 0.0050):  20%|██        | 3439/16950 [39:07<1:47:53,  2.09it/s]Training 1/3 epoch (loss 0.0233):  20%|██        | 3439/16950 [39:07<1:47:53,  2.09it/s]Training 1/3 epoch (loss 0.0233):  20%|██        | 3440/16950 [39:07<1:50:08,  2.04it/s]Training 1/3 epoch (loss 0.0826):  20%|██        | 3440/16950 [39:08<1:50:08,  2.04it/s]Training 1/3 epoch (loss 0.0826):  20%|██        | 3441/16950 [39:08<1:47:44,  2.09it/s]Training 1/3 epoch (loss 0.0201):  20%|██        | 3441/16950 [39:08<1:47:44,  2.09it/s]Training 1/3 epoch (loss 0.0201):  20%|██        | 3442/16950 [39:08<1:51:39,  2.02it/s]Training 1/3 epoch (loss 0.0015):  20%|██        | 3442/16950 [39:09<1:51:39,  2.02it/s]Training 1/3 epoch (loss 0.0015):  20%|██        | 3443/16950 [39:09<1:49:27,  2.06it/s]Training 1/3 epoch (loss 0.0167):  20%|██        | 3443/16950 [39:09<1:49:27,  2.06it/s]Training 1/3 epoch (loss 0.0167):  20%|██        | 3444/16950 [39:09<1:51:34,  2.02it/s]Training 1/3 epoch (loss 0.5852):  20%|██        | 3444/16950 [39:10<1:51:34,  2.02it/s]Training 1/3 epoch (loss 0.5852):  20%|██        | 3445/16950 [39:10<1:46:40,  2.11it/s]Training 1/3 epoch (loss 0.0079):  20%|██        | 3445/16950 [39:10<1:46:40,  2.11it/s]Training 1/3 epoch (loss 0.0079):  20%|██        | 3446/16950 [39:10<1:49:07,  2.06it/s]Training 1/3 epoch (loss 0.0014):  20%|██        | 3446/16950 [39:11<1:49:07,  2.06it/s]Training 1/3 epoch (loss 0.0014):  20%|██        | 3447/16950 [39:11<1:51:02,  2.03it/s]Training 1/3 epoch (loss 0.0003):  20%|██        | 3447/16950 [39:11<1:51:02,  2.03it/s]Training 1/3 epoch (loss 0.0003):  20%|██        | 3448/16950 [39:11<1:55:08,  1.95it/s]Training 1/3 epoch (loss 0.0884):  20%|██        | 3448/16950 [39:12<1:55:08,  1.95it/s]Training 1/3 epoch (loss 0.0884):  20%|██        | 3449/16950 [39:12<1:50:43,  2.03it/s]Training 1/3 epoch (loss 0.0021):  20%|██        | 3449/16950 [39:13<1:50:43,  2.03it/s]Training 1/3 epoch (loss 0.0021):  20%|██        | 3450/16950 [39:13<2:03:37,  1.82it/s]Training 1/3 epoch (loss 0.3235):  20%|██        | 3450/16950 [39:13<2:03:37,  1.82it/s]Training 1/3 epoch (loss 0.3235):  20%|██        | 3451/16950 [39:13<1:58:38,  1.90it/s]Training 1/3 epoch (loss 0.1429):  20%|██        | 3451/16950 [39:14<1:58:38,  1.90it/s]Training 1/3 epoch (loss 0.1429):  20%|██        | 3452/16950 [39:14<2:20:23,  1.60it/s]Training 1/3 epoch (loss 0.0023):  20%|██        | 3452/16950 [39:15<2:20:23,  1.60it/s]Training 1/3 epoch (loss 0.0023):  20%|██        | 3453/16950 [39:15<2:40:57,  1.40it/s]Training 1/3 epoch (loss 0.0016):  20%|██        | 3453/16950 [39:15<2:40:57,  1.40it/s]Training 1/3 epoch (loss 0.0016):  20%|██        | 3454/16950 [39:15<2:29:01,  1.51it/s]Training 1/3 epoch (loss 0.4639):  20%|██        | 3454/16950 [39:16<2:29:01,  1.51it/s]Training 1/3 epoch (loss 0.4639):  20%|██        | 3455/16950 [39:16<2:10:40,  1.72it/s]Training 1/3 epoch (loss 0.0014):  20%|██        | 3455/16950 [39:16<2:10:40,  1.72it/s]Training 1/3 epoch (loss 0.0014):  20%|██        | 3456/16950 [39:16<2:08:39,  1.75it/s]Training 1/3 epoch (loss 0.3923):  20%|██        | 3456/16950 [39:17<2:08:39,  1.75it/s]Training 1/3 epoch (loss 0.3923):  20%|██        | 3457/16950 [39:17<2:34:43,  1.45it/s]Training 1/3 epoch (loss 0.0002):  20%|██        | 3457/16950 [39:18<2:34:43,  1.45it/s]Training 1/3 epoch (loss 0.0002):  20%|██        | 3458/16950 [39:18<2:30:20,  1.50it/s]Training 1/3 epoch (loss 0.2011):  20%|██        | 3458/16950 [39:18<2:30:20,  1.50it/s]Training 1/3 epoch (loss 0.2011):  20%|██        | 3459/16950 [39:18<2:23:07,  1.57it/s]Training 1/3 epoch (loss 0.5842):  20%|██        | 3459/16950 [39:19<2:23:07,  1.57it/s]Training 1/3 epoch (loss 0.5842):  20%|██        | 3460/16950 [39:19<2:22:28,  1.58it/s]Training 1/3 epoch (loss 0.0013):  20%|██        | 3460/16950 [39:20<2:22:28,  1.58it/s]Training 1/3 epoch (loss 0.0013):  20%|██        | 3461/16950 [39:20<2:22:10,  1.58it/s]Training 1/3 epoch (loss 0.0005):  20%|██        | 3461/16950 [39:20<2:22:10,  1.58it/s]Training 1/3 epoch (loss 0.0005):  20%|██        | 3462/16950 [39:20<2:23:26,  1.57it/s]Training 1/3 epoch (loss 0.0008):  20%|██        | 3462/16950 [39:21<2:23:26,  1.57it/s]Training 1/3 epoch (loss 0.0008):  20%|██        | 3463/16950 [39:21<2:22:15,  1.58it/s]Training 1/3 epoch (loss 0.2259):  20%|██        | 3463/16950 [39:22<2:22:15,  1.58it/s]Training 1/3 epoch (loss 0.2259):  20%|██        | 3464/16950 [39:22<2:25:47,  1.54it/s]Training 1/3 epoch (loss 0.0054):  20%|██        | 3464/16950 [39:22<2:25:47,  1.54it/s]Training 1/3 epoch (loss 0.0054):  20%|██        | 3465/16950 [39:22<2:12:33,  1.70it/s]Training 1/3 epoch (loss 0.0003):  20%|██        | 3465/16950 [39:23<2:12:33,  1.70it/s]Training 1/3 epoch (loss 0.0003):  20%|██        | 3466/16950 [39:23<2:03:51,  1.81it/s]Training 1/3 epoch (loss 0.0179):  20%|██        | 3466/16950 [39:23<2:03:51,  1.81it/s]Training 1/3 epoch (loss 0.0179):  20%|██        | 3467/16950 [39:23<1:53:18,  1.98it/s]Training 1/3 epoch (loss 0.2009):  20%|██        | 3467/16950 [39:24<1:53:18,  1.98it/s]Training 1/3 epoch (loss 0.2009):  20%|██        | 3468/16950 [39:24<2:00:48,  1.86it/s]Training 1/3 epoch (loss 0.0544):  20%|██        | 3468/16950 [39:24<2:00:48,  1.86it/s]Training 1/3 epoch (loss 0.0544):  20%|██        | 3469/16950 [39:24<2:01:24,  1.85it/s]Training 1/3 epoch (loss 0.3862):  20%|██        | 3469/16950 [39:25<2:01:24,  1.85it/s]Training 1/3 epoch (loss 0.3862):  20%|██        | 3470/16950 [39:25<1:55:17,  1.95it/s]Training 1/3 epoch (loss 0.5246):  20%|██        | 3470/16950 [39:25<1:55:17,  1.95it/s]Training 1/3 epoch (loss 0.5246):  20%|██        | 3471/16950 [39:25<1:48:04,  2.08it/s]Training 1/3 epoch (loss 0.0055):  20%|██        | 3471/16950 [39:25<1:48:04,  2.08it/s]Training 1/3 epoch (loss 0.0055):  20%|██        | 3472/16950 [39:25<1:45:22,  2.13it/s]Training 1/3 epoch (loss 0.2332):  20%|██        | 3472/16950 [39:26<1:45:22,  2.13it/s]Training 1/3 epoch (loss 0.2332):  20%|██        | 3473/16950 [39:26<2:02:22,  1.84it/s]Training 1/3 epoch (loss 0.2829):  20%|██        | 3473/16950 [39:27<2:02:22,  1.84it/s]Training 1/3 epoch (loss 0.2829):  20%|██        | 3474/16950 [39:27<2:12:44,  1.69it/s]Training 1/3 epoch (loss 0.0082):  20%|██        | 3474/16950 [39:27<2:12:44,  1.69it/s]Training 1/3 epoch (loss 0.0082):  21%|██        | 3475/16950 [39:27<2:17:06,  1.64it/s]Training 1/3 epoch (loss 0.2961):  21%|██        | 3475/16950 [39:28<2:17:06,  1.64it/s]Training 1/3 epoch (loss 0.2961):  21%|██        | 3476/16950 [39:28<2:23:36,  1.56it/s]Training 1/3 epoch (loss 0.0385):  21%|██        | 3476/16950 [39:29<2:23:36,  1.56it/s]Training 1/3 epoch (loss 0.0385):  21%|██        | 3477/16950 [39:29<2:14:31,  1.67it/s]Training 1/3 epoch (loss 0.2516):  21%|██        | 3477/16950 [39:29<2:14:31,  1.67it/s]Training 1/3 epoch (loss 0.2516):  21%|██        | 3478/16950 [39:29<2:22:57,  1.57it/s]Training 1/3 epoch (loss 0.0044):  21%|██        | 3478/16950 [39:30<2:22:57,  1.57it/s]Training 1/3 epoch (loss 0.0044):  21%|██        | 3479/16950 [39:30<2:15:25,  1.66it/s]Training 1/3 epoch (loss 0.0003):  21%|██        | 3479/16950 [39:30<2:15:25,  1.66it/s]Training 1/3 epoch (loss 0.0003):  21%|██        | 3480/16950 [39:30<2:08:53,  1.74it/s]Training 1/3 epoch (loss 0.4673):  21%|██        | 3480/16950 [39:31<2:08:53,  1.74it/s]Training 1/3 epoch (loss 0.4673):  21%|██        | 3481/16950 [39:31<2:14:38,  1.67it/s]Training 1/3 epoch (loss 0.0230):  21%|██        | 3481/16950 [39:32<2:14:38,  1.67it/s]Training 1/3 epoch (loss 0.0230):  21%|██        | 3482/16950 [39:32<2:11:25,  1.71it/s]Training 1/3 epoch (loss 0.0125):  21%|██        | 3482/16950 [39:32<2:11:25,  1.71it/s]Training 1/3 epoch (loss 0.0125):  21%|██        | 3483/16950 [39:32<2:08:38,  1.74it/s]Training 1/3 epoch (loss 0.0121):  21%|██        | 3483/16950 [39:33<2:08:38,  1.74it/s]Training 1/3 epoch (loss 0.0121):  21%|██        | 3484/16950 [39:33<2:00:09,  1.87it/s]Training 1/3 epoch (loss 0.0009):  21%|██        | 3484/16950 [39:33<2:00:09,  1.87it/s]Training 1/3 epoch (loss 0.0009):  21%|██        | 3485/16950 [39:33<2:18:53,  1.62it/s]Training 1/3 epoch (loss 0.0712):  21%|██        | 3485/16950 [39:34<2:18:53,  1.62it/s]Training 1/3 epoch (loss 0.0712):  21%|██        | 3486/16950 [39:34<2:09:15,  1.74it/s]Training 1/3 epoch (loss 0.0002):  21%|██        | 3486/16950 [39:35<2:09:15,  1.74it/s]Training 1/3 epoch (loss 0.0002):  21%|██        | 3487/16950 [39:35<2:13:13,  1.68it/s]Training 1/3 epoch (loss 0.7613):  21%|██        | 3487/16950 [39:35<2:13:13,  1.68it/s]Training 1/3 epoch (loss 0.7613):  21%|██        | 3488/16950 [39:35<2:30:36,  1.49it/s]Training 1/3 epoch (loss 0.0435):  21%|██        | 3488/16950 [39:36<2:30:36,  1.49it/s]Training 1/3 epoch (loss 0.0435):  21%|██        | 3489/16950 [39:36<2:34:17,  1.45it/s]Training 1/3 epoch (loss 0.0394):  21%|██        | 3489/16950 [39:37<2:34:17,  1.45it/s]Training 1/3 epoch (loss 0.0394):  21%|██        | 3490/16950 [39:37<2:33:19,  1.46it/s]Training 1/3 epoch (loss 0.0034):  21%|██        | 3490/16950 [39:37<2:33:19,  1.46it/s]Training 1/3 epoch (loss 0.0034):  21%|██        | 3491/16950 [39:37<2:31:53,  1.48it/s]Training 1/3 epoch (loss 0.0024):  21%|██        | 3491/16950 [39:38<2:31:53,  1.48it/s]Training 1/3 epoch (loss 0.0024):  21%|██        | 3492/16950 [39:38<2:22:47,  1.57it/s]Training 1/3 epoch (loss 0.1270):  21%|██        | 3492/16950 [39:39<2:22:47,  1.57it/s]Training 1/3 epoch (loss 0.1270):  21%|██        | 3493/16950 [39:39<2:33:13,  1.46it/s]Training 1/3 epoch (loss 0.7456):  21%|██        | 3493/16950 [39:39<2:33:13,  1.46it/s]Training 1/3 epoch (loss 0.7456):  21%|██        | 3494/16950 [39:39<2:27:28,  1.52it/s]Training 1/3 epoch (loss 0.0093):  21%|██        | 3494/16950 [39:40<2:27:28,  1.52it/s]Training 1/3 epoch (loss 0.0093):  21%|██        | 3495/16950 [39:40<2:45:22,  1.36it/s]Training 1/3 epoch (loss 0.2326):  21%|██        | 3495/16950 [39:41<2:45:22,  1.36it/s]Training 1/3 epoch (loss 0.2326):  21%|██        | 3496/16950 [39:41<2:48:52,  1.33it/s]Training 1/3 epoch (loss 0.0072):  21%|██        | 3496/16950 [39:42<2:48:52,  1.33it/s]Training 1/3 epoch (loss 0.0072):  21%|██        | 3497/16950 [39:42<2:50:13,  1.32it/s]Training 1/3 epoch (loss 0.8224):  21%|██        | 3497/16950 [39:43<2:50:13,  1.32it/s]Training 1/3 epoch (loss 0.8224):  21%|██        | 3498/16950 [39:43<3:02:14,  1.23it/s]Training 1/3 epoch (loss 0.0957):  21%|██        | 3498/16950 [39:44<3:02:14,  1.23it/s]Training 1/3 epoch (loss 0.0957):  21%|██        | 3499/16950 [39:44<3:01:19,  1.24it/s]Training 1/3 epoch (loss 0.2113):  21%|██        | 3499/16950 [39:44<3:01:19,  1.24it/s]Training 1/3 epoch (loss 0.2113):  21%|██        | 3500/16950 [39:44<2:56:07,  1.27it/s]Training 1/3 epoch (loss 0.1489):  21%|██        | 3500/16950 [39:45<2:56:07,  1.27it/s]Training 1/3 epoch (loss 0.1489):  21%|██        | 3501/16950 [39:45<2:52:47,  1.30it/s]Training 1/3 epoch (loss 0.2211):  21%|██        | 3501/16950 [39:46<2:52:47,  1.30it/s]Training 1/3 epoch (loss 0.2211):  21%|██        | 3502/16950 [39:46<3:22:01,  1.11it/s]Training 1/3 epoch (loss 0.0704):  21%|██        | 3502/16950 [39:47<3:22:01,  1.11it/s]Training 1/3 epoch (loss 0.0704):  21%|██        | 3503/16950 [39:47<3:10:36,  1.18it/s]Training 1/3 epoch (loss 0.0353):  21%|██        | 3503/16950 [39:48<3:10:36,  1.18it/s]Training 1/3 epoch (loss 0.0353):  21%|██        | 3504/16950 [39:48<2:48:51,  1.33it/s]Training 1/3 epoch (loss 0.3083):  21%|██        | 3504/16950 [39:49<2:48:51,  1.33it/s]Training 1/3 epoch (loss 0.3083):  21%|██        | 3505/16950 [39:49<3:08:34,  1.19it/s]Training 1/3 epoch (loss 0.2541):  21%|██        | 3505/16950 [39:49<3:08:34,  1.19it/s]Training 1/3 epoch (loss 0.2541):  21%|██        | 3506/16950 [39:49<2:50:25,  1.31it/s]Training 1/3 epoch (loss 0.0024):  21%|██        | 3506/16950 [39:50<2:50:25,  1.31it/s]Training 1/3 epoch (loss 0.0024):  21%|██        | 3507/16950 [39:50<2:42:28,  1.38it/s]Training 1/3 epoch (loss 0.2087):  21%|██        | 3507/16950 [39:50<2:42:28,  1.38it/s]Training 1/3 epoch (loss 0.2087):  21%|██        | 3508/16950 [39:50<2:24:59,  1.55it/s]Training 1/3 epoch (loss 0.6708):  21%|██        | 3508/16950 [39:51<2:24:59,  1.55it/s]Training 1/3 epoch (loss 0.6708):  21%|██        | 3509/16950 [39:51<2:10:18,  1.72it/s]Training 1/3 epoch (loss 0.0029):  21%|██        | 3509/16950 [39:51<2:10:18,  1.72it/s]Training 1/3 epoch (loss 0.0029):  21%|██        | 3510/16950 [39:51<2:19:05,  1.61it/s]Training 1/3 epoch (loss 0.0008):  21%|██        | 3510/16950 [39:52<2:19:05,  1.61it/s]Training 1/3 epoch (loss 0.0008):  21%|██        | 3511/16950 [39:52<2:08:36,  1.74it/s]Training 1/3 epoch (loss 0.4742):  21%|██        | 3511/16950 [39:52<2:08:36,  1.74it/s]Training 1/3 epoch (loss 0.4742):  21%|██        | 3512/16950 [39:52<2:05:14,  1.79it/s]Training 1/3 epoch (loss 0.2299):  21%|██        | 3512/16950 [39:53<2:05:14,  1.79it/s]Training 1/3 epoch (loss 0.2299):  21%|██        | 3513/16950 [39:53<2:08:04,  1.75it/s]Training 1/3 epoch (loss 0.0487):  21%|██        | 3513/16950 [39:53<2:08:04,  1.75it/s]Training 1/3 epoch (loss 0.0487):  21%|██        | 3514/16950 [39:53<1:59:01,  1.88it/s]Training 1/3 epoch (loss 0.0003):  21%|██        | 3514/16950 [39:54<1:59:01,  1.88it/s]Training 1/3 epoch (loss 0.0003):  21%|██        | 3515/16950 [39:54<1:58:14,  1.89it/s]Training 1/3 epoch (loss 0.0008):  21%|██        | 3515/16950 [39:55<1:58:14,  1.89it/s]Training 1/3 epoch (loss 0.0008):  21%|██        | 3516/16950 [39:55<2:01:57,  1.84it/s]Training 1/3 epoch (loss 0.0160):  21%|██        | 3516/16950 [39:55<2:01:57,  1.84it/s]Training 1/3 epoch (loss 0.0160):  21%|██        | 3517/16950 [39:55<2:10:04,  1.72it/s]Training 1/3 epoch (loss 0.0279):  21%|██        | 3517/16950 [39:56<2:10:04,  1.72it/s]Training 1/3 epoch (loss 0.0279):  21%|██        | 3518/16950 [39:56<2:25:49,  1.54it/s]Training 1/3 epoch (loss 0.0005):  21%|██        | 3518/16950 [39:57<2:25:49,  1.54it/s]Training 1/3 epoch (loss 0.0005):  21%|██        | 3519/16950 [39:57<2:19:12,  1.61it/s]Training 1/3 epoch (loss 0.2707):  21%|██        | 3519/16950 [39:57<2:19:12,  1.61it/s]Training 1/3 epoch (loss 0.2707):  21%|██        | 3520/16950 [39:57<2:20:33,  1.59it/s]Training 1/3 epoch (loss 0.3155):  21%|██        | 3520/16950 [39:58<2:20:33,  1.59it/s]Training 1/3 epoch (loss 0.3155):  21%|██        | 3521/16950 [39:58<2:48:15,  1.33it/s]Training 1/3 epoch (loss 0.0003):  21%|██        | 3521/16950 [39:59<2:48:15,  1.33it/s]Training 1/3 epoch (loss 0.0003):  21%|██        | 3522/16950 [39:59<2:39:51,  1.40it/s]Training 1/3 epoch (loss 0.0047):  21%|██        | 3522/16950 [39:59<2:39:51,  1.40it/s]Training 1/3 epoch (loss 0.0047):  21%|██        | 3523/16950 [39:59<2:30:03,  1.49it/s]Training 1/3 epoch (loss 0.1470):  21%|██        | 3523/16950 [40:00<2:30:03,  1.49it/s]Training 1/3 epoch (loss 0.1470):  21%|██        | 3524/16950 [40:00<2:33:13,  1.46it/s]Training 1/3 epoch (loss 0.0051):  21%|██        | 3524/16950 [40:01<2:33:13,  1.46it/s]Training 1/3 epoch (loss 0.0051):  21%|██        | 3525/16950 [40:01<2:26:58,  1.52it/s]Training 1/3 epoch (loss 0.1916):  21%|██        | 3525/16950 [40:01<2:26:58,  1.52it/s]Training 1/3 epoch (loss 0.1916):  21%|██        | 3526/16950 [40:01<2:17:49,  1.62it/s]Training 1/3 epoch (loss 0.0008):  21%|██        | 3526/16950 [40:02<2:17:49,  1.62it/s]Training 1/3 epoch (loss 0.0008):  21%|██        | 3527/16950 [40:02<2:07:22,  1.76it/s]Training 1/3 epoch (loss 0.5316):  21%|██        | 3527/16950 [40:02<2:07:22,  1.76it/s]Training 1/3 epoch (loss 0.5316):  21%|██        | 3528/16950 [40:02<1:57:01,  1.91it/s]Training 1/3 epoch (loss 0.0690):  21%|██        | 3528/16950 [40:03<1:57:01,  1.91it/s]Training 1/3 epoch (loss 0.0690):  21%|██        | 3529/16950 [40:03<2:02:14,  1.83it/s]Training 1/3 epoch (loss 0.0088):  21%|██        | 3529/16950 [40:03<2:02:14,  1.83it/s]Training 1/3 epoch (loss 0.0088):  21%|██        | 3530/16950 [40:03<2:00:37,  1.85it/s]Training 1/3 epoch (loss 0.0270):  21%|██        | 3530/16950 [40:04<2:00:37,  1.85it/s]Training 1/3 epoch (loss 0.0270):  21%|██        | 3531/16950 [40:04<2:26:57,  1.52it/s]Training 1/3 epoch (loss 0.0006):  21%|██        | 3531/16950 [40:05<2:26:57,  1.52it/s]Training 1/3 epoch (loss 0.0006):  21%|██        | 3532/16950 [40:05<2:14:23,  1.66it/s]Training 1/3 epoch (loss 0.0400):  21%|██        | 3532/16950 [40:05<2:14:23,  1.66it/s]Training 1/3 epoch (loss 0.0400):  21%|██        | 3533/16950 [40:05<2:00:15,  1.86it/s]Training 1/3 epoch (loss 0.7798):  21%|██        | 3533/16950 [40:05<2:00:15,  1.86it/s]Training 1/3 epoch (loss 0.7798):  21%|██        | 3534/16950 [40:05<1:48:56,  2.05it/s]Training 1/3 epoch (loss 0.1043):  21%|██        | 3534/16950 [40:06<1:48:56,  2.05it/s]Training 1/3 epoch (loss 0.1043):  21%|██        | 3535/16950 [40:06<1:56:43,  1.92it/s]Training 1/3 epoch (loss 0.4260):  21%|██        | 3535/16950 [40:07<1:56:43,  1.92it/s]Training 1/3 epoch (loss 0.4260):  21%|██        | 3536/16950 [40:07<2:19:15,  1.61it/s]Training 1/3 epoch (loss 0.0728):  21%|██        | 3536/16950 [40:08<2:19:15,  1.61it/s]Training 1/3 epoch (loss 0.0728):  21%|██        | 3537/16950 [40:08<2:19:38,  1.60it/s]Training 1/3 epoch (loss 0.0408):  21%|██        | 3537/16950 [40:08<2:19:38,  1.60it/s]Training 1/3 epoch (loss 0.0408):  21%|██        | 3538/16950 [40:08<2:03:19,  1.81it/s]Training 1/3 epoch (loss 0.0526):  21%|██        | 3538/16950 [40:09<2:03:19,  1.81it/s]Training 1/3 epoch (loss 0.0526):  21%|██        | 3539/16950 [40:09<2:06:02,  1.77it/s]Training 1/3 epoch (loss 0.0396):  21%|██        | 3539/16950 [40:09<2:06:02,  1.77it/s]Training 1/3 epoch (loss 0.0396):  21%|██        | 3540/16950 [40:09<2:04:32,  1.79it/s]Training 1/3 epoch (loss 0.0025):  21%|██        | 3540/16950 [40:10<2:04:32,  1.79it/s]Training 1/3 epoch (loss 0.0025):  21%|██        | 3541/16950 [40:10<2:10:38,  1.71it/s]Training 1/3 epoch (loss 0.5253):  21%|██        | 3541/16950 [40:10<2:10:38,  1.71it/s]Training 1/3 epoch (loss 0.5253):  21%|██        | 3542/16950 [40:10<2:15:24,  1.65it/s]Training 1/3 epoch (loss 0.6253):  21%|██        | 3542/16950 [40:11<2:15:24,  1.65it/s]Training 1/3 epoch (loss 0.6253):  21%|██        | 3543/16950 [40:11<2:09:16,  1.73it/s]Training 1/3 epoch (loss 0.0945):  21%|██        | 3543/16950 [40:11<2:09:16,  1.73it/s]Training 1/3 epoch (loss 0.0945):  21%|██        | 3544/16950 [40:11<2:04:40,  1.79it/s]Training 1/3 epoch (loss 0.2537):  21%|██        | 3544/16950 [40:12<2:04:40,  1.79it/s]Training 1/3 epoch (loss 0.2537):  21%|██        | 3545/16950 [40:12<2:09:20,  1.73it/s]Training 1/3 epoch (loss 0.1216):  21%|██        | 3545/16950 [40:13<2:09:20,  1.73it/s]Training 1/3 epoch (loss 0.1216):  21%|██        | 3546/16950 [40:13<2:18:42,  1.61it/s]Training 1/3 epoch (loss 0.0036):  21%|██        | 3546/16950 [40:13<2:18:42,  1.61it/s]Training 1/3 epoch (loss 0.0036):  21%|██        | 3547/16950 [40:13<2:14:28,  1.66it/s]Training 1/3 epoch (loss 1.1155):  21%|██        | 3547/16950 [40:14<2:14:28,  1.66it/s]Training 1/3 epoch (loss 1.1155):  21%|██        | 3548/16950 [40:14<1:59:29,  1.87it/s]Training 1/3 epoch (loss 0.4636):  21%|██        | 3548/16950 [40:14<1:59:29,  1.87it/s]Training 1/3 epoch (loss 0.4636):  21%|██        | 3549/16950 [40:14<1:53:37,  1.97it/s]Training 1/3 epoch (loss 0.4752):  21%|██        | 3549/16950 [40:15<1:53:37,  1.97it/s]Training 1/3 epoch (loss 0.4752):  21%|██        | 3550/16950 [40:15<1:51:03,  2.01it/s]Training 1/3 epoch (loss 0.1376):  21%|██        | 3550/16950 [40:15<1:51:03,  2.01it/s]Training 1/3 epoch (loss 0.1376):  21%|██        | 3551/16950 [40:15<2:05:32,  1.78it/s]Training 1/3 epoch (loss 0.0365):  21%|██        | 3551/16950 [40:16<2:05:32,  1.78it/s]Training 1/3 epoch (loss 0.0365):  21%|██        | 3552/16950 [40:16<2:38:58,  1.40it/s]Training 1/3 epoch (loss 0.0016):  21%|██        | 3552/16950 [40:17<2:38:58,  1.40it/s]Training 1/3 epoch (loss 0.0016):  21%|██        | 3553/16950 [40:17<2:31:30,  1.47it/s]Training 1/3 epoch (loss 0.0168):  21%|██        | 3553/16950 [40:17<2:31:30,  1.47it/s]Training 1/3 epoch (loss 0.0168):  21%|██        | 3554/16950 [40:17<2:20:23,  1.59it/s]Training 1/3 epoch (loss 0.0203):  21%|██        | 3554/16950 [40:18<2:20:23,  1.59it/s]Training 1/3 epoch (loss 0.0203):  21%|██        | 3555/16950 [40:18<2:22:03,  1.57it/s]Training 1/3 epoch (loss 0.6362):  21%|██        | 3555/16950 [40:19<2:22:03,  1.57it/s]Training 1/3 epoch (loss 0.6362):  21%|██        | 3556/16950 [40:19<2:08:22,  1.74it/s]Training 1/3 epoch (loss 0.0246):  21%|██        | 3556/16950 [40:19<2:08:22,  1.74it/s]Training 1/3 epoch (loss 0.0246):  21%|██        | 3557/16950 [40:19<2:05:38,  1.78it/s]Training 1/3 epoch (loss 0.0698):  21%|██        | 3557/16950 [40:20<2:05:38,  1.78it/s]Training 1/3 epoch (loss 0.0698):  21%|██        | 3558/16950 [40:20<2:24:49,  1.54it/s]Training 1/3 epoch (loss 0.3802):  21%|██        | 3558/16950 [40:21<2:24:49,  1.54it/s]Training 1/3 epoch (loss 0.3802):  21%|██        | 3559/16950 [40:21<2:25:24,  1.53it/s]Training 1/3 epoch (loss 0.0949):  21%|██        | 3559/16950 [40:21<2:25:24,  1.53it/s]Training 1/3 epoch (loss 0.0949):  21%|██        | 3560/16950 [40:21<2:19:03,  1.60it/s]Training 1/3 epoch (loss 0.0323):  21%|██        | 3560/16950 [40:22<2:19:03,  1.60it/s]Training 1/3 epoch (loss 0.0323):  21%|██        | 3561/16950 [40:22<2:19:25,  1.60it/s]Training 1/3 epoch (loss 0.5925):  21%|██        | 3561/16950 [40:22<2:19:25,  1.60it/s]Training 1/3 epoch (loss 0.5925):  21%|██        | 3562/16950 [40:22<2:20:49,  1.58it/s]Training 1/3 epoch (loss 0.7365):  21%|██        | 3562/16950 [40:23<2:20:49,  1.58it/s]Training 1/3 epoch (loss 0.7365):  21%|██        | 3563/16950 [40:23<2:09:56,  1.72it/s]Training 1/3 epoch (loss 0.0643):  21%|██        | 3563/16950 [40:24<2:09:56,  1.72it/s]Training 1/3 epoch (loss 0.0643):  21%|██        | 3564/16950 [40:24<2:22:00,  1.57it/s]Training 1/3 epoch (loss 0.0049):  21%|██        | 3564/16950 [40:24<2:22:00,  1.57it/s]Training 1/3 epoch (loss 0.0049):  21%|██        | 3565/16950 [40:24<2:23:44,  1.55it/s]Training 1/3 epoch (loss 0.0084):  21%|██        | 3565/16950 [40:25<2:23:44,  1.55it/s]Training 1/3 epoch (loss 0.0084):  21%|██        | 3566/16950 [40:25<2:28:53,  1.50it/s]Training 1/3 epoch (loss 0.2399):  21%|██        | 3566/16950 [40:26<2:28:53,  1.50it/s]Training 1/3 epoch (loss 0.2399):  21%|██        | 3567/16950 [40:26<2:22:11,  1.57it/s]Training 1/3 epoch (loss 0.3061):  21%|██        | 3567/16950 [40:26<2:22:11,  1.57it/s]Training 1/3 epoch (loss 0.3061):  21%|██        | 3568/16950 [40:26<2:13:03,  1.68it/s]Training 1/3 epoch (loss 0.1096):  21%|██        | 3568/16950 [40:27<2:13:03,  1.68it/s]Training 1/3 epoch (loss 0.1096):  21%|██        | 3569/16950 [40:27<2:21:58,  1.57it/s]Training 1/3 epoch (loss 0.0498):  21%|██        | 3569/16950 [40:28<2:21:58,  1.57it/s]Training 1/3 epoch (loss 0.0498):  21%|██        | 3570/16950 [40:28<2:26:21,  1.52it/s]Training 1/3 epoch (loss 0.0206):  21%|██        | 3570/16950 [40:28<2:26:21,  1.52it/s]Training 1/3 epoch (loss 0.0206):  21%|██        | 3571/16950 [40:28<2:17:30,  1.62it/s]Training 1/3 epoch (loss 0.0896):  21%|██        | 3571/16950 [40:29<2:17:30,  1.62it/s]Training 1/3 epoch (loss 0.0896):  21%|██        | 3572/16950 [40:29<2:15:28,  1.65it/s]Training 1/3 epoch (loss 0.6259):  21%|██        | 3572/16950 [40:29<2:15:28,  1.65it/s]Training 1/3 epoch (loss 0.6259):  21%|██        | 3573/16950 [40:29<2:11:26,  1.70it/s]Training 1/3 epoch (loss 0.0586):  21%|██        | 3573/16950 [40:30<2:11:26,  1.70it/s]Training 1/3 epoch (loss 0.0586):  21%|██        | 3574/16950 [40:30<2:14:35,  1.66it/s]Training 1/3 epoch (loss 0.1006):  21%|██        | 3574/16950 [40:30<2:14:35,  1.66it/s]Training 1/3 epoch (loss 0.1006):  21%|██        | 3575/16950 [40:30<2:06:59,  1.76it/s]Training 1/3 epoch (loss 0.3087):  21%|██        | 3575/16950 [40:31<2:06:59,  1.76it/s]Training 1/3 epoch (loss 0.3087):  21%|██        | 3576/16950 [40:31<1:49:41,  2.03it/s]Training 1/3 epoch (loss 0.1252):  21%|██        | 3576/16950 [40:31<1:49:41,  2.03it/s]Training 1/3 epoch (loss 0.1252):  21%|██        | 3577/16950 [40:31<1:46:55,  2.08it/s]Training 1/3 epoch (loss 0.2160):  21%|██        | 3577/16950 [40:32<1:46:55,  2.08it/s]Training 1/3 epoch (loss 0.2160):  21%|██        | 3578/16950 [40:32<1:44:51,  2.13it/s]Training 1/3 epoch (loss 0.0076):  21%|██        | 3578/16950 [40:32<1:44:51,  2.13it/s]Training 1/3 epoch (loss 0.0076):  21%|██        | 3579/16950 [40:32<1:58:08,  1.89it/s]Training 1/3 epoch (loss 0.2408):  21%|██        | 3579/16950 [40:33<1:58:08,  1.89it/s]Training 1/3 epoch (loss 0.2408):  21%|██        | 3580/16950 [40:33<1:51:17,  2.00it/s]Training 1/3 epoch (loss 0.4060):  21%|██        | 3580/16950 [40:34<1:51:17,  2.00it/s]Training 1/3 epoch (loss 0.4060):  21%|██        | 3581/16950 [40:34<2:23:36,  1.55it/s]Training 1/3 epoch (loss 1.0184):  21%|██        | 3581/16950 [40:34<2:23:36,  1.55it/s]Training 1/3 epoch (loss 1.0184):  21%|██        | 3582/16950 [40:34<2:06:48,  1.76it/s]Training 1/3 epoch (loss 0.6225):  21%|██        | 3582/16950 [40:35<2:06:48,  1.76it/s]Training 1/3 epoch (loss 0.6225):  21%|██        | 3583/16950 [40:35<2:11:23,  1.70it/s]Training 1/3 epoch (loss 0.5890):  21%|██        | 3583/16950 [40:35<2:11:23,  1.70it/s]Training 1/3 epoch (loss 0.5890):  21%|██        | 3584/16950 [40:35<2:18:41,  1.61it/s]Training 1/3 epoch (loss 0.9552):  21%|██        | 3584/16950 [40:36<2:18:41,  1.61it/s]Training 1/3 epoch (loss 0.9552):  21%|██        | 3585/16950 [40:36<2:18:25,  1.61it/s]Training 1/3 epoch (loss 0.0375):  21%|██        | 3585/16950 [40:37<2:18:25,  1.61it/s]Training 1/3 epoch (loss 0.0375):  21%|██        | 3586/16950 [40:37<2:15:49,  1.64it/s]Training 1/3 epoch (loss 0.1440):  21%|██        | 3586/16950 [40:37<2:15:49,  1.64it/s]Training 1/3 epoch (loss 0.1440):  21%|██        | 3587/16950 [40:37<2:02:55,  1.81it/s]Training 1/3 epoch (loss 0.0107):  21%|██        | 3587/16950 [40:37<2:02:55,  1.81it/s]Training 1/3 epoch (loss 0.0107):  21%|██        | 3588/16950 [40:37<1:59:43,  1.86it/s]Training 1/3 epoch (loss 0.0067):  21%|██        | 3588/16950 [40:38<1:59:43,  1.86it/s]Training 1/3 epoch (loss 0.0067):  21%|██        | 3589/16950 [40:38<2:12:15,  1.68it/s]Training 1/3 epoch (loss 0.5845):  21%|██        | 3589/16950 [40:39<2:12:15,  1.68it/s]Training 1/3 epoch (loss 0.5845):  21%|██        | 3590/16950 [40:39<2:21:23,  1.57it/s]Training 1/3 epoch (loss 0.1036):  21%|██        | 3590/16950 [40:40<2:21:23,  1.57it/s]Training 1/3 epoch (loss 0.1036):  21%|██        | 3591/16950 [40:40<2:27:31,  1.51it/s]Training 1/3 epoch (loss 0.0067):  21%|██        | 3591/16950 [40:41<2:27:31,  1.51it/s]Training 1/3 epoch (loss 0.0067):  21%|██        | 3592/16950 [40:41<2:42:55,  1.37it/s]Training 1/3 epoch (loss 0.6150):  21%|██        | 3592/16950 [40:41<2:42:55,  1.37it/s]Training 1/3 epoch (loss 0.6150):  21%|██        | 3593/16950 [40:41<2:45:45,  1.34it/s]Training 1/3 epoch (loss 0.5316):  21%|██        | 3593/16950 [40:42<2:45:45,  1.34it/s]Training 1/3 epoch (loss 0.5316):  21%|██        | 3594/16950 [40:42<2:53:57,  1.28it/s]Training 1/3 epoch (loss 0.0254):  21%|██        | 3594/16950 [40:43<2:53:57,  1.28it/s]Training 1/3 epoch (loss 0.0254):  21%|██        | 3595/16950 [40:43<2:43:41,  1.36it/s]Training 1/3 epoch (loss 0.0090):  21%|██        | 3595/16950 [40:43<2:43:41,  1.36it/s]Training 1/3 epoch (loss 0.0090):  21%|██        | 3596/16950 [40:43<2:24:51,  1.54it/s]Training 1/3 epoch (loss 0.2112):  21%|██        | 3596/16950 [40:44<2:24:51,  1.54it/s]Training 1/3 epoch (loss 0.2112):  21%|██        | 3597/16950 [40:44<2:22:03,  1.57it/s]Training 1/3 epoch (loss 0.4036):  21%|██        | 3597/16950 [40:45<2:22:03,  1.57it/s]Training 1/3 epoch (loss 0.4036):  21%|██        | 3598/16950 [40:45<2:21:23,  1.57it/s]Training 1/3 epoch (loss 0.0029):  21%|██        | 3598/16950 [40:45<2:21:23,  1.57it/s]Training 1/3 epoch (loss 0.0029):  21%|██        | 3599/16950 [40:45<2:12:27,  1.68it/s]Training 1/3 epoch (loss 0.0125):  21%|██        | 3599/16950 [40:45<2:12:27,  1.68it/s]Training 1/3 epoch (loss 0.0125):  21%|██        | 3600/16950 [40:45<1:59:41,  1.86it/s]Training 1/3 epoch (loss 0.0222):  21%|██        | 3600/16950 [40:46<1:59:41,  1.86it/s]Training 1/3 epoch (loss 0.0222):  21%|██        | 3601/16950 [40:46<2:06:12,  1.76it/s]Training 1/3 epoch (loss 0.0016):  21%|██        | 3601/16950 [40:47<2:06:12,  1.76it/s]Training 1/3 epoch (loss 0.0016):  21%|██▏       | 3602/16950 [40:47<2:00:58,  1.84it/s]Training 1/3 epoch (loss 0.0010):  21%|██▏       | 3602/16950 [40:47<2:00:58,  1.84it/s]Training 1/3 epoch (loss 0.0010):  21%|██▏       | 3603/16950 [40:47<1:48:22,  2.05it/s]Training 1/3 epoch (loss 0.0315):  21%|██▏       | 3603/16950 [40:48<1:48:22,  2.05it/s]Training 1/3 epoch (loss 0.0315):  21%|██▏       | 3604/16950 [40:48<1:56:20,  1.91it/s]Training 1/3 epoch (loss 0.9721):  21%|██▏       | 3604/16950 [40:48<1:56:20,  1.91it/s]Training 1/3 epoch (loss 0.9721):  21%|██▏       | 3605/16950 [40:48<1:53:12,  1.96it/s]Training 1/3 epoch (loss 0.0693):  21%|██▏       | 3605/16950 [40:48<1:53:12,  1.96it/s]Training 1/3 epoch (loss 0.0693):  21%|██▏       | 3606/16950 [40:48<1:47:46,  2.06it/s]Training 1/3 epoch (loss 1.0741):  21%|██▏       | 3606/16950 [40:49<1:47:46,  2.06it/s]Training 1/3 epoch (loss 1.0741):  21%|██▏       | 3607/16950 [40:49<1:41:46,  2.19it/s]Training 1/3 epoch (loss 0.1191):  21%|██▏       | 3607/16950 [40:49<1:41:46,  2.19it/s]Training 1/3 epoch (loss 0.1191):  21%|██▏       | 3608/16950 [40:49<1:34:58,  2.34it/s]Training 1/3 epoch (loss 0.0494):  21%|██▏       | 3608/16950 [40:50<1:34:58,  2.34it/s]Training 1/3 epoch (loss 0.0494):  21%|██▏       | 3609/16950 [40:50<1:46:20,  2.09it/s]Training 1/3 epoch (loss 0.1528):  21%|██▏       | 3609/16950 [40:50<1:46:20,  2.09it/s]Training 1/3 epoch (loss 0.1528):  21%|██▏       | 3610/16950 [40:50<1:48:28,  2.05it/s]Training 1/3 epoch (loss 0.0121):  21%|██▏       | 3610/16950 [40:51<1:48:28,  2.05it/s]Training 1/3 epoch (loss 0.0121):  21%|██▏       | 3611/16950 [40:51<1:56:52,  1.90it/s]Training 1/3 epoch (loss 0.2166):  21%|██▏       | 3611/16950 [40:51<1:56:52,  1.90it/s]Training 1/3 epoch (loss 0.2166):  21%|██▏       | 3612/16950 [40:51<1:50:09,  2.02it/s]Training 1/3 epoch (loss 0.3143):  21%|██▏       | 3612/16950 [40:52<1:50:09,  2.02it/s]Training 1/3 epoch (loss 0.3143):  21%|██▏       | 3613/16950 [40:52<1:55:45,  1.92it/s]Training 1/3 epoch (loss 0.0105):  21%|██▏       | 3613/16950 [40:53<1:55:45,  1.92it/s]Training 1/3 epoch (loss 0.0105):  21%|██▏       | 3614/16950 [40:53<2:04:30,  1.79it/s]Training 1/3 epoch (loss 0.0144):  21%|██▏       | 3614/16950 [40:53<2:04:30,  1.79it/s]Training 1/3 epoch (loss 0.0144):  21%|██▏       | 3615/16950 [40:53<2:01:06,  1.84it/s]Training 1/3 epoch (loss 0.7943):  21%|██▏       | 3615/16950 [40:54<2:01:06,  1.84it/s]Training 1/3 epoch (loss 0.7943):  21%|██▏       | 3616/16950 [40:54<2:03:41,  1.80it/s]Training 1/3 epoch (loss 0.4600):  21%|██▏       | 3616/16950 [40:55<2:03:41,  1.80it/s]Training 1/3 epoch (loss 0.4600):  21%|██▏       | 3617/16950 [40:55<2:28:47,  1.49it/s]Training 1/3 epoch (loss 0.1354):  21%|██▏       | 3617/16950 [40:55<2:28:47,  1.49it/s]Training 1/3 epoch (loss 0.1354):  21%|██▏       | 3618/16950 [40:55<2:17:35,  1.61it/s]Training 1/3 epoch (loss 0.0620):  21%|██▏       | 3618/16950 [40:56<2:17:35,  1.61it/s]Training 1/3 epoch (loss 0.0620):  21%|██▏       | 3619/16950 [40:56<2:07:27,  1.74it/s]Training 1/3 epoch (loss 0.7195):  21%|██▏       | 3619/16950 [40:56<2:07:27,  1.74it/s]Training 1/3 epoch (loss 0.7195):  21%|██▏       | 3620/16950 [40:56<2:02:35,  1.81it/s]Training 1/3 epoch (loss 0.0170):  21%|██▏       | 3620/16950 [40:57<2:02:35,  1.81it/s]Training 1/3 epoch (loss 0.0170):  21%|██▏       | 3621/16950 [40:57<2:16:05,  1.63it/s]Training 1/3 epoch (loss 0.0082):  21%|██▏       | 3621/16950 [40:57<2:16:05,  1.63it/s]Training 1/3 epoch (loss 0.0082):  21%|██▏       | 3622/16950 [40:57<2:07:32,  1.74it/s]Training 1/3 epoch (loss 0.2149):  21%|██▏       | 3622/16950 [40:58<2:07:32,  1.74it/s]Training 1/3 epoch (loss 0.2149):  21%|██▏       | 3623/16950 [40:58<2:45:06,  1.35it/s]Training 1/3 epoch (loss 0.8165):  21%|██▏       | 3623/16950 [40:59<2:45:06,  1.35it/s]Training 1/3 epoch (loss 0.8165):  21%|██▏       | 3624/16950 [40:59<2:29:27,  1.49it/s]Training 1/3 epoch (loss 0.0254):  21%|██▏       | 3624/16950 [40:59<2:29:27,  1.49it/s]Training 1/3 epoch (loss 0.0254):  21%|██▏       | 3625/16950 [40:59<2:16:51,  1.62it/s]Training 1/3 epoch (loss 0.0219):  21%|██▏       | 3625/16950 [41:00<2:16:51,  1.62it/s]Training 1/3 epoch (loss 0.0219):  21%|██▏       | 3626/16950 [41:00<2:15:18,  1.64it/s]Training 1/3 epoch (loss 0.0021):  21%|██▏       | 3626/16950 [41:00<2:15:18,  1.64it/s]Training 1/3 epoch (loss 0.0021):  21%|██▏       | 3627/16950 [41:00<2:03:31,  1.80it/s]Training 1/3 epoch (loss 0.4033):  21%|██▏       | 3627/16950 [41:01<2:03:31,  1.80it/s]Training 1/3 epoch (loss 0.4033):  21%|██▏       | 3628/16950 [41:01<1:54:33,  1.94it/s]Training 1/3 epoch (loss 0.4094):  21%|██▏       | 3628/16950 [41:01<1:54:33,  1.94it/s]Training 1/3 epoch (loss 0.4094):  21%|██▏       | 3629/16950 [41:01<1:42:06,  2.17it/s]Training 1/3 epoch (loss 0.1118):  21%|██▏       | 3629/16950 [41:02<1:42:06,  2.17it/s]Training 1/3 epoch (loss 0.1118):  21%|██▏       | 3630/16950 [41:02<1:40:35,  2.21it/s]Training 1/3 epoch (loss 0.0461):  21%|██▏       | 3630/16950 [41:02<1:40:35,  2.21it/s]Training 1/3 epoch (loss 0.0461):  21%|██▏       | 3631/16950 [41:02<1:43:12,  2.15it/s]Training 1/3 epoch (loss 0.6634):  21%|██▏       | 3631/16950 [41:03<1:43:12,  2.15it/s]Training 1/3 epoch (loss 0.6634):  21%|██▏       | 3632/16950 [41:03<1:38:09,  2.26it/s]Training 1/3 epoch (loss 0.1330):  21%|██▏       | 3632/16950 [41:03<1:38:09,  2.26it/s]Training 1/3 epoch (loss 0.1330):  21%|██▏       | 3633/16950 [41:03<1:44:56,  2.11it/s]Training 1/3 epoch (loss 0.2766):  21%|██▏       | 3633/16950 [41:04<1:44:56,  2.11it/s]Training 1/3 epoch (loss 0.2766):  21%|██▏       | 3634/16950 [41:04<1:49:16,  2.03it/s]Training 1/3 epoch (loss 0.3549):  21%|██▏       | 3634/16950 [41:04<1:49:16,  2.03it/s]Training 1/3 epoch (loss 0.3549):  21%|██▏       | 3635/16950 [41:04<1:56:29,  1.90it/s]Training 1/3 epoch (loss 0.1449):  21%|██▏       | 3635/16950 [41:05<1:56:29,  1.90it/s]Training 1/3 epoch (loss 0.1449):  21%|██▏       | 3636/16950 [41:05<2:08:19,  1.73it/s]Training 1/3 epoch (loss 0.2231):  21%|██▏       | 3636/16950 [41:06<2:08:19,  1.73it/s]Training 1/3 epoch (loss 0.2231):  21%|██▏       | 3637/16950 [41:06<2:10:42,  1.70it/s]Training 1/3 epoch (loss 0.6576):  21%|██▏       | 3637/16950 [41:06<2:10:42,  1.70it/s]Training 1/3 epoch (loss 0.6576):  21%|██▏       | 3638/16950 [41:06<2:36:47,  1.41it/s]Training 1/3 epoch (loss 0.5628):  21%|██▏       | 3638/16950 [41:08<2:36:47,  1.41it/s]Training 1/3 epoch (loss 0.5628):  21%|██▏       | 3639/16950 [41:08<3:04:25,  1.20it/s]Training 1/3 epoch (loss 0.0388):  21%|██▏       | 3639/16950 [41:08<3:04:25,  1.20it/s]Training 1/3 epoch (loss 0.0388):  21%|██▏       | 3640/16950 [41:08<2:58:38,  1.24it/s]Training 1/3 epoch (loss 0.0014):  21%|██▏       | 3640/16950 [41:09<2:58:38,  1.24it/s]Training 1/3 epoch (loss 0.0014):  21%|██▏       | 3641/16950 [41:09<2:39:27,  1.39it/s]Training 1/3 epoch (loss 0.0138):  21%|██▏       | 3641/16950 [41:09<2:39:27,  1.39it/s]Training 1/3 epoch (loss 0.0138):  21%|██▏       | 3642/16950 [41:09<2:24:25,  1.54it/s]Training 1/3 epoch (loss 0.2988):  21%|██▏       | 3642/16950 [41:10<2:24:25,  1.54it/s]Training 1/3 epoch (loss 0.2988):  21%|██▏       | 3643/16950 [41:10<2:27:53,  1.50it/s]Training 1/3 epoch (loss 0.1099):  21%|██▏       | 3643/16950 [41:11<2:27:53,  1.50it/s]Training 1/3 epoch (loss 0.1099):  21%|██▏       | 3644/16950 [41:11<2:21:52,  1.56it/s]Training 1/3 epoch (loss 0.0054):  21%|██▏       | 3644/16950 [41:11<2:21:52,  1.56it/s]Training 1/3 epoch (loss 0.0054):  22%|██▏       | 3645/16950 [41:11<2:04:33,  1.78it/s]Training 1/3 epoch (loss 0.7668):  22%|██▏       | 3645/16950 [41:11<2:04:33,  1.78it/s]Training 1/3 epoch (loss 0.7668):  22%|██▏       | 3646/16950 [41:11<1:48:08,  2.05it/s]Training 1/3 epoch (loss 0.3649):  22%|██▏       | 3646/16950 [41:12<1:48:08,  2.05it/s]Training 1/3 epoch (loss 0.3649):  22%|██▏       | 3647/16950 [41:12<1:40:26,  2.21it/s]Training 1/3 epoch (loss 0.0048):  22%|██▏       | 3647/16950 [41:12<1:40:26,  2.21it/s]Training 1/3 epoch (loss 0.0048):  22%|██▏       | 3648/16950 [41:12<1:44:04,  2.13it/s]Training 1/3 epoch (loss 0.5974):  22%|██▏       | 3648/16950 [41:13<1:44:04,  2.13it/s]Training 1/3 epoch (loss 0.5974):  22%|██▏       | 3649/16950 [41:13<1:47:00,  2.07it/s]Training 1/3 epoch (loss 0.5636):  22%|██▏       | 3649/16950 [41:14<1:47:00,  2.07it/s]Training 1/3 epoch (loss 0.5636):  22%|██▏       | 3650/16950 [41:14<2:16:57,  1.62it/s]Training 1/3 epoch (loss 0.3893):  22%|██▏       | 3650/16950 [41:14<2:16:57,  1.62it/s]Training 1/3 epoch (loss 0.3893):  22%|██▏       | 3651/16950 [41:14<2:19:14,  1.59it/s]Training 1/3 epoch (loss 0.3564):  22%|██▏       | 3651/16950 [41:15<2:19:14,  1.59it/s]Training 1/3 epoch (loss 0.3564):  22%|██▏       | 3652/16950 [41:15<2:24:57,  1.53it/s]Training 1/3 epoch (loss 0.0544):  22%|██▏       | 3652/16950 [41:16<2:24:57,  1.53it/s]Training 1/3 epoch (loss 0.0544):  22%|██▏       | 3653/16950 [41:16<2:28:24,  1.49it/s]Training 1/3 epoch (loss 0.5082):  22%|██▏       | 3653/16950 [41:16<2:28:24,  1.49it/s]Training 1/3 epoch (loss 0.5082):  22%|██▏       | 3654/16950 [41:16<2:18:19,  1.60it/s]Training 1/3 epoch (loss 0.0096):  22%|██▏       | 3654/16950 [41:17<2:18:19,  1.60it/s]Training 1/3 epoch (loss 0.0096):  22%|██▏       | 3655/16950 [41:17<2:12:52,  1.67it/s]Training 1/3 epoch (loss 0.0370):  22%|██▏       | 3655/16950 [41:17<2:12:52,  1.67it/s]Training 1/3 epoch (loss 0.0370):  22%|██▏       | 3656/16950 [41:17<2:15:14,  1.64it/s]Training 1/3 epoch (loss 0.0106):  22%|██▏       | 3656/16950 [41:18<2:15:14,  1.64it/s]Training 1/3 epoch (loss 0.0106):  22%|██▏       | 3657/16950 [41:18<1:56:52,  1.90it/s]Training 1/3 epoch (loss 0.0051):  22%|██▏       | 3657/16950 [41:18<1:56:52,  1.90it/s]Training 1/3 epoch (loss 0.0051):  22%|██▏       | 3658/16950 [41:18<1:55:50,  1.91it/s]Training 1/3 epoch (loss 0.6270):  22%|██▏       | 3658/16950 [41:19<1:55:50,  1.91it/s]Training 1/3 epoch (loss 0.6270):  22%|██▏       | 3659/16950 [41:19<1:47:35,  2.06it/s]Training 1/3 epoch (loss 0.0885):  22%|██▏       | 3659/16950 [41:19<1:47:35,  2.06it/s]Training 1/3 epoch (loss 0.0885):  22%|██▏       | 3660/16950 [41:19<1:57:00,  1.89it/s]Training 1/3 epoch (loss 0.0497):  22%|██▏       | 3660/16950 [41:20<1:57:00,  1.89it/s]Training 1/3 epoch (loss 0.0497):  22%|██▏       | 3661/16950 [41:20<1:51:30,  1.99it/s]Training 1/3 epoch (loss 0.4772):  22%|██▏       | 3661/16950 [41:20<1:51:30,  1.99it/s]Training 1/3 epoch (loss 0.4772):  22%|██▏       | 3662/16950 [41:20<1:36:57,  2.28it/s]Training 1/3 epoch (loss 0.1604):  22%|██▏       | 3662/16950 [41:20<1:36:57,  2.28it/s]Training 1/3 epoch (loss 0.1604):  22%|██▏       | 3663/16950 [41:20<1:33:37,  2.37it/s]Training 1/3 epoch (loss 0.0229):  22%|██▏       | 3663/16950 [41:21<1:33:37,  2.37it/s]Training 1/3 epoch (loss 0.0229):  22%|██▏       | 3664/16950 [41:21<1:41:32,  2.18it/s]Training 1/3 epoch (loss 0.0055):  22%|██▏       | 3664/16950 [41:21<1:41:32,  2.18it/s]Training 1/3 epoch (loss 0.0055):  22%|██▏       | 3665/16950 [41:21<1:41:44,  2.18it/s]Training 1/3 epoch (loss 0.4550):  22%|██▏       | 3665/16950 [41:22<1:41:44,  2.18it/s]Training 1/3 epoch (loss 0.4550):  22%|██▏       | 3666/16950 [41:22<1:51:01,  1.99it/s]Training 1/3 epoch (loss 0.0101):  22%|██▏       | 3666/16950 [41:23<1:51:01,  1.99it/s]Training 1/3 epoch (loss 0.0101):  22%|██▏       | 3667/16950 [41:23<2:06:00,  1.76it/s]Training 1/3 epoch (loss 0.4866):  22%|██▏       | 3667/16950 [41:23<2:06:00,  1.76it/s]Training 1/3 epoch (loss 0.4866):  22%|██▏       | 3668/16950 [41:23<2:07:01,  1.74it/s]Training 1/3 epoch (loss 0.0277):  22%|██▏       | 3668/16950 [41:24<2:07:01,  1.74it/s]Training 1/3 epoch (loss 0.0277):  22%|██▏       | 3669/16950 [41:24<2:03:36,  1.79it/s]Training 1/3 epoch (loss 0.0310):  22%|██▏       | 3669/16950 [41:25<2:03:36,  1.79it/s]Training 1/3 epoch (loss 0.0310):  22%|██▏       | 3670/16950 [41:25<2:11:28,  1.68it/s]Training 1/3 epoch (loss 0.0442):  22%|██▏       | 3670/16950 [41:25<2:11:28,  1.68it/s]Training 1/3 epoch (loss 0.0442):  22%|██▏       | 3671/16950 [41:25<2:22:24,  1.55it/s]Training 1/3 epoch (loss 0.4651):  22%|██▏       | 3671/16950 [41:26<2:22:24,  1.55it/s]Training 1/3 epoch (loss 0.4651):  22%|██▏       | 3672/16950 [41:26<2:47:53,  1.32it/s]Training 1/3 epoch (loss 0.3512):  22%|██▏       | 3672/16950 [41:27<2:47:53,  1.32it/s]Training 1/3 epoch (loss 0.3512):  22%|██▏       | 3673/16950 [41:27<2:34:06,  1.44it/s]Training 1/3 epoch (loss 0.3554):  22%|██▏       | 3673/16950 [41:27<2:34:06,  1.44it/s]Training 1/3 epoch (loss 0.3554):  22%|██▏       | 3674/16950 [41:27<2:22:26,  1.55it/s]Training 1/3 epoch (loss 0.1263):  22%|██▏       | 3674/16950 [41:28<2:22:26,  1.55it/s]Training 1/3 epoch (loss 0.1263):  22%|██▏       | 3675/16950 [41:28<2:13:19,  1.66it/s]Training 1/3 epoch (loss 0.0018):  22%|██▏       | 3675/16950 [41:28<2:13:19,  1.66it/s]Training 1/3 epoch (loss 0.0018):  22%|██▏       | 3676/16950 [41:28<2:04:00,  1.78it/s]Training 1/3 epoch (loss 0.0204):  22%|██▏       | 3676/16950 [41:29<2:04:00,  1.78it/s]Training 1/3 epoch (loss 0.0204):  22%|██▏       | 3677/16950 [41:29<1:57:38,  1.88it/s]Training 1/3 epoch (loss 0.0839):  22%|██▏       | 3677/16950 [41:29<1:57:38,  1.88it/s]Training 1/3 epoch (loss 0.0839):  22%|██▏       | 3678/16950 [41:29<2:03:44,  1.79it/s]Training 1/3 epoch (loss 0.0179):  22%|██▏       | 3678/16950 [41:30<2:03:44,  1.79it/s]Training 1/3 epoch (loss 0.0179):  22%|██▏       | 3679/16950 [41:30<2:08:02,  1.73it/s]Training 1/3 epoch (loss 0.0374):  22%|██▏       | 3679/16950 [41:31<2:08:02,  1.73it/s]Training 1/3 epoch (loss 0.0374):  22%|██▏       | 3680/16950 [41:31<2:11:56,  1.68it/s]Training 1/3 epoch (loss 0.1427):  22%|██▏       | 3680/16950 [41:31<2:11:56,  1.68it/s]Training 1/3 epoch (loss 0.1427):  22%|██▏       | 3681/16950 [41:31<2:13:33,  1.66it/s]Training 1/3 epoch (loss 0.1440):  22%|██▏       | 3681/16950 [41:32<2:13:33,  1.66it/s]Training 1/3 epoch (loss 0.1440):  22%|██▏       | 3682/16950 [41:32<2:33:00,  1.45it/s]Training 1/3 epoch (loss 0.3470):  22%|██▏       | 3682/16950 [41:33<2:33:00,  1.45it/s]Training 1/3 epoch (loss 0.3470):  22%|██▏       | 3683/16950 [41:33<2:17:34,  1.61it/s]Training 1/3 epoch (loss 0.5281):  22%|██▏       | 3683/16950 [41:33<2:17:34,  1.61it/s]Training 1/3 epoch (loss 0.5281):  22%|██▏       | 3684/16950 [41:33<2:15:28,  1.63it/s]Training 1/3 epoch (loss 0.6698):  22%|██▏       | 3684/16950 [41:34<2:15:28,  1.63it/s]Training 1/3 epoch (loss 0.6698):  22%|██▏       | 3685/16950 [41:34<2:43:07,  1.36it/s]Training 1/3 epoch (loss 0.4295):  22%|██▏       | 3685/16950 [41:35<2:43:07,  1.36it/s]Training 1/3 epoch (loss 0.4295):  22%|██▏       | 3686/16950 [41:35<2:31:32,  1.46it/s]Training 1/3 epoch (loss 0.1934):  22%|██▏       | 3686/16950 [41:36<2:31:32,  1.46it/s]Training 1/3 epoch (loss 0.1934):  22%|██▏       | 3687/16950 [41:36<2:29:09,  1.48it/s]Training 1/3 epoch (loss 0.0992):  22%|██▏       | 3687/16950 [41:36<2:29:09,  1.48it/s]Training 1/3 epoch (loss 0.0992):  22%|██▏       | 3688/16950 [41:36<2:22:16,  1.55it/s]Training 1/3 epoch (loss 0.1656):  22%|██▏       | 3688/16950 [41:37<2:22:16,  1.55it/s]Training 1/3 epoch (loss 0.1656):  22%|██▏       | 3689/16950 [41:37<2:13:04,  1.66it/s]Training 1/3 epoch (loss 0.0999):  22%|██▏       | 3689/16950 [41:37<2:13:04,  1.66it/s]Training 1/3 epoch (loss 0.0999):  22%|██▏       | 3690/16950 [41:37<2:09:30,  1.71it/s]Training 1/3 epoch (loss 0.3554):  22%|██▏       | 3690/16950 [41:38<2:09:30,  1.71it/s]Training 1/3 epoch (loss 0.3554):  22%|██▏       | 3691/16950 [41:38<1:56:41,  1.89it/s]Training 1/3 epoch (loss 0.0052):  22%|██▏       | 3691/16950 [41:38<1:56:41,  1.89it/s]Training 1/3 epoch (loss 0.0052):  22%|██▏       | 3692/16950 [41:38<1:49:28,  2.02it/s]Training 1/3 epoch (loss 0.0024):  22%|██▏       | 3692/16950 [41:38<1:49:28,  2.02it/s]Training 1/3 epoch (loss 0.0024):  22%|██▏       | 3693/16950 [41:38<1:46:56,  2.07it/s]Training 1/3 epoch (loss 0.9333):  22%|██▏       | 3693/16950 [41:39<1:46:56,  2.07it/s]Training 1/3 epoch (loss 0.9333):  22%|██▏       | 3694/16950 [41:39<1:43:23,  2.14it/s]Training 1/3 epoch (loss 0.0003):  22%|██▏       | 3694/16950 [41:39<1:43:23,  2.14it/s]Training 1/3 epoch (loss 0.0003):  22%|██▏       | 3695/16950 [41:39<1:36:03,  2.30it/s]Training 1/3 epoch (loss 0.5582):  22%|██▏       | 3695/16950 [41:40<1:36:03,  2.30it/s]Training 1/3 epoch (loss 0.5582):  22%|██▏       | 3696/16950 [41:40<1:31:22,  2.42it/s]Training 1/3 epoch (loss 0.6257):  22%|██▏       | 3696/16950 [41:40<1:31:22,  2.42it/s]Training 1/3 epoch (loss 0.6257):  22%|██▏       | 3697/16950 [41:40<1:55:50,  1.91it/s]Training 1/3 epoch (loss 0.0250):  22%|██▏       | 3697/16950 [41:41<1:55:50,  1.91it/s]Training 1/3 epoch (loss 0.0250):  22%|██▏       | 3698/16950 [41:41<1:59:16,  1.85it/s]Training 1/3 epoch (loss 0.0035):  22%|██▏       | 3698/16950 [41:41<1:59:16,  1.85it/s]Training 1/3 epoch (loss 0.0035):  22%|██▏       | 3699/16950 [41:41<1:46:53,  2.07it/s]Training 1/3 epoch (loss 0.1578):  22%|██▏       | 3699/16950 [41:42<1:46:53,  2.07it/s]Training 1/3 epoch (loss 0.1578):  22%|██▏       | 3700/16950 [41:42<1:55:04,  1.92it/s]Training 1/3 epoch (loss 0.4192):  22%|██▏       | 3700/16950 [41:43<1:55:04,  1.92it/s]Training 1/3 epoch (loss 0.4192):  22%|██▏       | 3701/16950 [41:43<2:07:02,  1.74it/s]Training 1/3 epoch (loss 0.3991):  22%|██▏       | 3701/16950 [41:43<2:07:02,  1.74it/s]Training 1/3 epoch (loss 0.3991):  22%|██▏       | 3702/16950 [41:43<2:19:37,  1.58it/s]Training 1/3 epoch (loss 0.0090):  22%|██▏       | 3702/16950 [41:44<2:19:37,  1.58it/s]Training 1/3 epoch (loss 0.0090):  22%|██▏       | 3703/16950 [41:44<2:06:06,  1.75it/s]Training 1/3 epoch (loss 0.0326):  22%|██▏       | 3703/16950 [41:44<2:06:06,  1.75it/s]Training 1/3 epoch (loss 0.0326):  22%|██▏       | 3704/16950 [41:44<2:00:25,  1.83it/s]Training 1/3 epoch (loss 0.0076):  22%|██▏       | 3704/16950 [41:45<2:00:25,  1.83it/s]Training 1/3 epoch (loss 0.0076):  22%|██▏       | 3705/16950 [41:45<1:58:32,  1.86it/s]Training 1/3 epoch (loss 0.0074):  22%|██▏       | 3705/16950 [41:45<1:58:32,  1.86it/s]Training 1/3 epoch (loss 0.0074):  22%|██▏       | 3706/16950 [41:45<1:58:45,  1.86it/s]Training 1/3 epoch (loss 0.0054):  22%|██▏       | 3706/16950 [41:46<1:58:45,  1.86it/s]Training 1/3 epoch (loss 0.0054):  22%|██▏       | 3707/16950 [41:46<2:06:00,  1.75it/s]Training 1/3 epoch (loss 0.0044):  22%|██▏       | 3707/16950 [41:47<2:06:00,  1.75it/s]Training 1/3 epoch (loss 0.0044):  22%|██▏       | 3708/16950 [41:47<2:04:42,  1.77it/s]Training 1/3 epoch (loss 0.0349):  22%|██▏       | 3708/16950 [41:47<2:04:42,  1.77it/s]Training 1/3 epoch (loss 0.0349):  22%|██▏       | 3709/16950 [41:47<2:08:05,  1.72it/s]Training 1/3 epoch (loss 0.4002):  22%|██▏       | 3709/16950 [41:48<2:08:05,  1.72it/s]Training 1/3 epoch (loss 0.4002):  22%|██▏       | 3710/16950 [41:48<2:13:52,  1.65it/s]Training 1/3 epoch (loss 0.0194):  22%|██▏       | 3710/16950 [41:48<2:13:52,  1.65it/s]Training 1/3 epoch (loss 0.0194):  22%|██▏       | 3711/16950 [41:48<2:05:01,  1.76it/s]Training 1/3 epoch (loss 0.2063):  22%|██▏       | 3711/16950 [41:49<2:05:01,  1.76it/s]Training 1/3 epoch (loss 0.2063):  22%|██▏       | 3712/16950 [41:49<1:59:15,  1.85it/s]Training 1/3 epoch (loss 0.0055):  22%|██▏       | 3712/16950 [41:49<1:59:15,  1.85it/s]Training 1/3 epoch (loss 0.0055):  22%|██▏       | 3713/16950 [41:49<1:55:51,  1.90it/s]Training 1/3 epoch (loss 0.0977):  22%|██▏       | 3713/16950 [41:50<1:55:51,  1.90it/s]Training 1/3 epoch (loss 0.0977):  22%|██▏       | 3714/16950 [41:50<2:04:35,  1.77it/s]Training 1/3 epoch (loss 0.1062):  22%|██▏       | 3714/16950 [41:51<2:04:35,  1.77it/s]Training 1/3 epoch (loss 0.1062):  22%|██▏       | 3715/16950 [41:51<2:06:00,  1.75it/s]Training 1/3 epoch (loss 0.7529):  22%|██▏       | 3715/16950 [41:51<2:06:00,  1.75it/s]Training 1/3 epoch (loss 0.7529):  22%|██▏       | 3716/16950 [41:51<1:58:42,  1.86it/s]Training 1/3 epoch (loss 0.3391):  22%|██▏       | 3716/16950 [41:52<1:58:42,  1.86it/s]Training 1/3 epoch (loss 0.3391):  22%|██▏       | 3717/16950 [41:52<2:14:29,  1.64it/s]Training 1/3 epoch (loss 0.0074):  22%|██▏       | 3717/16950 [41:52<2:14:29,  1.64it/s]Training 1/3 epoch (loss 0.0074):  22%|██▏       | 3718/16950 [41:52<2:16:04,  1.62it/s]Training 1/3 epoch (loss 0.0139):  22%|██▏       | 3718/16950 [41:53<2:16:04,  1.62it/s]Training 1/3 epoch (loss 0.0139):  22%|██▏       | 3719/16950 [41:53<2:11:51,  1.67it/s]Training 1/3 epoch (loss 0.4116):  22%|██▏       | 3719/16950 [41:54<2:11:51,  1.67it/s]Training 1/3 epoch (loss 0.4116):  22%|██▏       | 3720/16950 [41:54<2:25:18,  1.52it/s]Training 1/3 epoch (loss 0.1136):  22%|██▏       | 3720/16950 [41:54<2:25:18,  1.52it/s]Training 1/3 epoch (loss 0.1136):  22%|██▏       | 3721/16950 [41:54<2:19:59,  1.58it/s]Training 1/3 epoch (loss 0.0105):  22%|██▏       | 3721/16950 [41:55<2:19:59,  1.58it/s]Training 1/3 epoch (loss 0.0105):  22%|██▏       | 3722/16950 [41:55<2:20:37,  1.57it/s]Training 1/3 epoch (loss 0.3648):  22%|██▏       | 3722/16950 [41:56<2:20:37,  1.57it/s]Training 1/3 epoch (loss 0.3648):  22%|██▏       | 3723/16950 [41:56<2:18:21,  1.59it/s]Training 1/3 epoch (loss 0.5744):  22%|██▏       | 3723/16950 [41:56<2:18:21,  1.59it/s]Training 1/3 epoch (loss 0.5744):  22%|██▏       | 3724/16950 [41:56<2:17:12,  1.61it/s]Training 1/3 epoch (loss 0.3118):  22%|██▏       | 3724/16950 [41:57<2:17:12,  1.61it/s]Training 1/3 epoch (loss 0.3118):  22%|██▏       | 3725/16950 [41:57<2:19:09,  1.58it/s]Training 1/3 epoch (loss 0.7361):  22%|██▏       | 3725/16950 [41:58<2:19:09,  1.58it/s]Training 1/3 epoch (loss 0.7361):  22%|██▏       | 3726/16950 [41:58<2:52:11,  1.28it/s]Training 1/3 epoch (loss 0.0747):  22%|██▏       | 3726/16950 [41:59<2:52:11,  1.28it/s]Training 1/3 epoch (loss 0.0747):  22%|██▏       | 3727/16950 [41:59<2:43:02,  1.35it/s]Training 1/3 epoch (loss 0.0091):  22%|██▏       | 3727/16950 [42:00<2:43:02,  1.35it/s]Training 1/3 epoch (loss 0.0091):  22%|██▏       | 3728/16950 [42:00<2:56:36,  1.25it/s]Training 1/3 epoch (loss 0.0125):  22%|██▏       | 3728/16950 [42:00<2:56:36,  1.25it/s]Training 1/3 epoch (loss 0.0125):  22%|██▏       | 3729/16950 [42:00<2:44:10,  1.34it/s]Training 1/3 epoch (loss 0.0500):  22%|██▏       | 3729/16950 [42:01<2:44:10,  1.34it/s]Training 1/3 epoch (loss 0.0500):  22%|██▏       | 3730/16950 [42:01<2:34:18,  1.43it/s]Training 1/3 epoch (loss 0.5192):  22%|██▏       | 3730/16950 [42:01<2:34:18,  1.43it/s]Training 1/3 epoch (loss 0.5192):  22%|██▏       | 3731/16950 [42:01<2:21:17,  1.56it/s]Training 1/3 epoch (loss 0.6767):  22%|██▏       | 3731/16950 [42:02<2:21:17,  1.56it/s]Training 1/3 epoch (loss 0.6767):  22%|██▏       | 3732/16950 [42:02<2:32:47,  1.44it/s]Training 1/3 epoch (loss 0.0139):  22%|██▏       | 3732/16950 [42:03<2:32:47,  1.44it/s]Training 1/3 epoch (loss 0.0139):  22%|██▏       | 3733/16950 [42:03<2:27:51,  1.49it/s]Training 1/3 epoch (loss 0.2069):  22%|██▏       | 3733/16950 [42:03<2:27:51,  1.49it/s]Training 1/3 epoch (loss 0.2069):  22%|██▏       | 3734/16950 [42:03<2:15:30,  1.63it/s]Training 1/3 epoch (loss 0.0069):  22%|██▏       | 3734/16950 [42:04<2:15:30,  1.63it/s]Training 1/3 epoch (loss 0.0069):  22%|██▏       | 3735/16950 [42:04<2:21:29,  1.56it/s]Training 1/3 epoch (loss 0.0667):  22%|██▏       | 3735/16950 [42:05<2:21:29,  1.56it/s]Training 1/3 epoch (loss 0.0667):  22%|██▏       | 3736/16950 [42:05<2:21:17,  1.56it/s]Training 1/3 epoch (loss 0.4713):  22%|██▏       | 3736/16950 [42:05<2:21:17,  1.56it/s]Training 1/3 epoch (loss 0.4713):  22%|██▏       | 3737/16950 [42:05<2:08:34,  1.71it/s]Training 1/3 epoch (loss 0.0295):  22%|██▏       | 3737/16950 [42:06<2:08:34,  1.71it/s]Training 1/3 epoch (loss 0.0295):  22%|██▏       | 3738/16950 [42:06<2:08:54,  1.71it/s]Training 1/3 epoch (loss 0.1523):  22%|██▏       | 3738/16950 [42:06<2:08:54,  1.71it/s]Training 1/3 epoch (loss 0.1523):  22%|██▏       | 3739/16950 [42:06<2:08:38,  1.71it/s]Training 1/3 epoch (loss 0.0062):  22%|██▏       | 3739/16950 [42:07<2:08:38,  1.71it/s]Training 1/3 epoch (loss 0.0062):  22%|██▏       | 3740/16950 [42:07<2:05:09,  1.76it/s]Training 1/3 epoch (loss 0.0470):  22%|██▏       | 3740/16950 [42:07<2:05:09,  1.76it/s]Training 1/3 epoch (loss 0.0470):  22%|██▏       | 3741/16950 [42:07<2:13:09,  1.65it/s]Training 1/3 epoch (loss 0.0130):  22%|██▏       | 3741/16950 [42:08<2:13:09,  1.65it/s]Training 1/3 epoch (loss 0.0130):  22%|██▏       | 3742/16950 [42:08<2:08:12,  1.72it/s]Training 1/3 epoch (loss 0.8221):  22%|██▏       | 3742/16950 [42:09<2:08:12,  1.72it/s]Training 1/3 epoch (loss 0.8221):  22%|██▏       | 3743/16950 [42:09<2:11:37,  1.67it/s]Training 1/3 epoch (loss 0.0720):  22%|██▏       | 3743/16950 [42:09<2:11:37,  1.67it/s]Training 1/3 epoch (loss 0.0720):  22%|██▏       | 3744/16950 [42:09<2:01:50,  1.81it/s]Training 1/3 epoch (loss 0.0085):  22%|██▏       | 3744/16950 [42:10<2:01:50,  1.81it/s]Training 1/3 epoch (loss 0.0085):  22%|██▏       | 3745/16950 [42:10<2:07:34,  1.73it/s]Training 1/3 epoch (loss 0.6191):  22%|██▏       | 3745/16950 [42:10<2:07:34,  1.73it/s]Training 1/3 epoch (loss 0.6191):  22%|██▏       | 3746/16950 [42:10<2:02:36,  1.79it/s]Training 1/3 epoch (loss 0.6213):  22%|██▏       | 3746/16950 [42:11<2:02:36,  1.79it/s]Training 1/3 epoch (loss 0.6213):  22%|██▏       | 3747/16950 [42:11<1:57:38,  1.87it/s]Training 1/3 epoch (loss 0.0482):  22%|██▏       | 3747/16950 [42:11<1:57:38,  1.87it/s]Training 1/3 epoch (loss 0.0482):  22%|██▏       | 3748/16950 [42:11<1:51:51,  1.97it/s]Training 1/3 epoch (loss 0.3041):  22%|██▏       | 3748/16950 [42:12<1:51:51,  1.97it/s]Training 1/3 epoch (loss 0.3041):  22%|██▏       | 3749/16950 [42:12<2:01:40,  1.81it/s]Training 1/3 epoch (loss 0.2170):  22%|██▏       | 3749/16950 [42:12<2:01:40,  1.81it/s]Training 1/3 epoch (loss 0.2170):  22%|██▏       | 3750/16950 [42:12<2:16:09,  1.62it/s]Training 1/3 epoch (loss 0.3735):  22%|██▏       | 3750/16950 [42:13<2:16:09,  1.62it/s]Training 1/3 epoch (loss 0.3735):  22%|██▏       | 3751/16950 [42:13<2:25:38,  1.51it/s]Training 1/3 epoch (loss 0.5693):  22%|██▏       | 3751/16950 [42:14<2:25:38,  1.51it/s]Training 1/3 epoch (loss 0.5693):  22%|██▏       | 3752/16950 [42:14<2:21:30,  1.55it/s]Training 1/3 epoch (loss 0.4155):  22%|██▏       | 3752/16950 [42:15<2:21:30,  1.55it/s]Training 1/3 epoch (loss 0.4155):  22%|██▏       | 3753/16950 [42:15<2:46:46,  1.32it/s]Training 1/3 epoch (loss 0.0281):  22%|██▏       | 3753/16950 [42:15<2:46:46,  1.32it/s]Training 1/3 epoch (loss 0.0281):  22%|██▏       | 3754/16950 [42:15<2:33:02,  1.44it/s]Training 1/3 epoch (loss 0.3244):  22%|██▏       | 3754/16950 [42:16<2:33:02,  1.44it/s]Training 1/3 epoch (loss 0.3244):  22%|██▏       | 3755/16950 [42:16<2:13:13,  1.65it/s]Training 1/3 epoch (loss 0.0317):  22%|██▏       | 3755/16950 [42:16<2:13:13,  1.65it/s]Training 1/3 epoch (loss 0.0317):  22%|██▏       | 3756/16950 [42:16<2:16:03,  1.62it/s]Training 1/3 epoch (loss 0.1022):  22%|██▏       | 3756/16950 [42:17<2:16:03,  1.62it/s]Training 1/3 epoch (loss 0.1022):  22%|██▏       | 3757/16950 [42:17<2:16:45,  1.61it/s]Training 1/3 epoch (loss 0.4340):  22%|██▏       | 3757/16950 [42:18<2:16:45,  1.61it/s]Training 1/3 epoch (loss 0.4340):  22%|██▏       | 3758/16950 [42:18<2:19:31,  1.58it/s]Training 1/3 epoch (loss 0.8231):  22%|██▏       | 3758/16950 [42:18<2:19:31,  1.58it/s]Training 1/3 epoch (loss 0.8231):  22%|██▏       | 3759/16950 [42:18<2:05:57,  1.75it/s]Training 1/3 epoch (loss 0.0492):  22%|██▏       | 3759/16950 [42:19<2:05:57,  1.75it/s]Training 1/3 epoch (loss 0.0492):  22%|██▏       | 3760/16950 [42:19<1:54:29,  1.92it/s]Training 1/3 epoch (loss 0.0044):  22%|██▏       | 3760/16950 [42:19<1:54:29,  1.92it/s]Training 1/3 epoch (loss 0.0044):  22%|██▏       | 3761/16950 [42:19<1:45:26,  2.08it/s]Training 1/3 epoch (loss 0.0230):  22%|██▏       | 3761/16950 [42:20<1:45:26,  2.08it/s]Training 1/3 epoch (loss 0.0230):  22%|██▏       | 3762/16950 [42:20<1:52:09,  1.96it/s]Training 1/3 epoch (loss 0.1360):  22%|██▏       | 3762/16950 [42:20<1:52:09,  1.96it/s]Training 1/3 epoch (loss 0.1360):  22%|██▏       | 3763/16950 [42:20<1:46:32,  2.06it/s]Training 1/3 epoch (loss 0.0033):  22%|██▏       | 3763/16950 [42:20<1:46:32,  2.06it/s]Training 1/3 epoch (loss 0.0033):  22%|██▏       | 3764/16950 [42:20<1:34:30,  2.33it/s]Training 1/3 epoch (loss 0.0256):  22%|██▏       | 3764/16950 [42:21<1:34:30,  2.33it/s]Training 1/3 epoch (loss 0.0256):  22%|██▏       | 3765/16950 [42:21<1:50:22,  1.99it/s]Training 1/3 epoch (loss 0.0170):  22%|██▏       | 3765/16950 [42:22<1:50:22,  1.99it/s]Training 1/3 epoch (loss 0.0170):  22%|██▏       | 3766/16950 [42:22<2:10:11,  1.69it/s]Training 1/3 epoch (loss 0.0263):  22%|██▏       | 3766/16950 [42:22<2:10:11,  1.69it/s]Training 1/3 epoch (loss 0.0263):  22%|██▏       | 3767/16950 [42:22<2:15:14,  1.62it/s]Training 1/3 epoch (loss 0.3752):  22%|██▏       | 3767/16950 [42:23<2:15:14,  1.62it/s]Training 1/3 epoch (loss 0.3752):  22%|██▏       | 3768/16950 [42:23<2:21:36,  1.55it/s]Training 1/3 epoch (loss 0.5607):  22%|██▏       | 3768/16950 [42:24<2:21:36,  1.55it/s]Training 1/3 epoch (loss 0.5607):  22%|██▏       | 3769/16950 [42:24<2:23:18,  1.53it/s]Training 1/3 epoch (loss 0.0048):  22%|██▏       | 3769/16950 [42:24<2:23:18,  1.53it/s]Training 1/3 epoch (loss 0.0048):  22%|██▏       | 3770/16950 [42:24<2:09:30,  1.70it/s]Training 1/3 epoch (loss 0.0187):  22%|██▏       | 3770/16950 [42:25<2:09:30,  1.70it/s]Training 1/3 epoch (loss 0.0187):  22%|██▏       | 3771/16950 [42:25<2:01:23,  1.81it/s]Training 1/3 epoch (loss 0.0025):  22%|██▏       | 3771/16950 [42:25<2:01:23,  1.81it/s]Training 1/3 epoch (loss 0.0025):  22%|██▏       | 3772/16950 [42:25<1:59:28,  1.84it/s]Training 1/3 epoch (loss 0.0618):  22%|██▏       | 3772/16950 [42:26<1:59:28,  1.84it/s]Training 1/3 epoch (loss 0.0618):  22%|██▏       | 3773/16950 [42:26<2:00:39,  1.82it/s]Training 1/3 epoch (loss 0.0890):  22%|██▏       | 3773/16950 [42:26<2:00:39,  1.82it/s]Training 1/3 epoch (loss 0.0890):  22%|██▏       | 3774/16950 [42:26<2:00:25,  1.82it/s]Training 1/3 epoch (loss 0.0599):  22%|██▏       | 3774/16950 [42:27<2:00:25,  1.82it/s]Training 1/3 epoch (loss 0.0599):  22%|██▏       | 3775/16950 [42:27<1:56:40,  1.88it/s]Training 1/3 epoch (loss 0.0583):  22%|██▏       | 3775/16950 [42:27<1:56:40,  1.88it/s]Training 1/3 epoch (loss 0.0583):  22%|██▏       | 3776/16950 [42:27<2:02:00,  1.80it/s]Training 1/3 epoch (loss 0.0065):  22%|██▏       | 3776/16950 [42:28<2:02:00,  1.80it/s]Training 1/3 epoch (loss 0.0065):  22%|██▏       | 3777/16950 [42:28<2:01:10,  1.81it/s]Training 1/3 epoch (loss 0.1116):  22%|██▏       | 3777/16950 [42:28<2:01:10,  1.81it/s]Training 1/3 epoch (loss 0.1116):  22%|██▏       | 3778/16950 [42:28<1:55:33,  1.90it/s]Training 1/3 epoch (loss 0.0446):  22%|██▏       | 3778/16950 [42:29<1:55:33,  1.90it/s]Training 1/3 epoch (loss 0.0446):  22%|██▏       | 3779/16950 [42:29<1:56:29,  1.88it/s]Training 1/3 epoch (loss 0.5032):  22%|██▏       | 3779/16950 [42:30<1:56:29,  1.88it/s]Training 1/3 epoch (loss 0.5032):  22%|██▏       | 3780/16950 [42:30<2:32:40,  1.44it/s]Training 1/3 epoch (loss 0.3936):  22%|██▏       | 3780/16950 [42:31<2:32:40,  1.44it/s]Training 1/3 epoch (loss 0.3936):  22%|██▏       | 3781/16950 [42:31<2:25:43,  1.51it/s]Training 1/3 epoch (loss 0.0482):  22%|██▏       | 3781/16950 [42:31<2:25:43,  1.51it/s]Training 1/3 epoch (loss 0.0482):  22%|██▏       | 3782/16950 [42:31<2:18:59,  1.58it/s]Training 1/3 epoch (loss 0.0804):  22%|██▏       | 3782/16950 [42:32<2:18:59,  1.58it/s]Training 1/3 epoch (loss 0.0804):  22%|██▏       | 3783/16950 [42:32<2:14:41,  1.63it/s]Training 1/3 epoch (loss 0.0265):  22%|██▏       | 3783/16950 [42:32<2:14:41,  1.63it/s]Training 1/3 epoch (loss 0.0265):  22%|██▏       | 3784/16950 [42:32<2:19:42,  1.57it/s]Training 1/3 epoch (loss 0.0061):  22%|██▏       | 3784/16950 [42:33<2:19:42,  1.57it/s]Training 1/3 epoch (loss 0.0061):  22%|██▏       | 3785/16950 [42:33<2:13:59,  1.64it/s]Training 1/3 epoch (loss 0.1443):  22%|██▏       | 3785/16950 [42:34<2:13:59,  1.64it/s]Training 1/3 epoch (loss 0.1443):  22%|██▏       | 3786/16950 [42:34<2:09:35,  1.69it/s]Training 1/3 epoch (loss 0.7803):  22%|██▏       | 3786/16950 [42:35<2:09:35,  1.69it/s]Training 1/3 epoch (loss 0.7803):  22%|██▏       | 3787/16950 [42:35<2:44:39,  1.33it/s]Training 1/3 epoch (loss 0.1683):  22%|██▏       | 3787/16950 [42:35<2:44:39,  1.33it/s]Training 1/3 epoch (loss 0.1683):  22%|██▏       | 3788/16950 [42:35<2:25:26,  1.51it/s]Training 1/3 epoch (loss 0.0251):  22%|██▏       | 3788/16950 [42:36<2:25:26,  1.51it/s]Training 1/3 epoch (loss 0.0251):  22%|██▏       | 3789/16950 [42:36<2:22:10,  1.54it/s]Training 1/3 epoch (loss 0.0205):  22%|██▏       | 3789/16950 [42:36<2:22:10,  1.54it/s]Training 1/3 epoch (loss 0.0205):  22%|██▏       | 3790/16950 [42:36<2:10:52,  1.68it/s]Training 1/3 epoch (loss 0.1953):  22%|██▏       | 3790/16950 [42:37<2:10:52,  1.68it/s]Training 1/3 epoch (loss 0.1953):  22%|██▏       | 3791/16950 [42:37<2:01:58,  1.80it/s]Training 1/3 epoch (loss 0.0795):  22%|██▏       | 3791/16950 [42:38<2:01:58,  1.80it/s]Training 1/3 epoch (loss 0.0795):  22%|██▏       | 3792/16950 [42:38<2:29:30,  1.47it/s]Training 1/3 epoch (loss 0.4299):  22%|██▏       | 3792/16950 [42:38<2:29:30,  1.47it/s]Training 1/3 epoch (loss 0.4299):  22%|██▏       | 3793/16950 [42:38<2:35:51,  1.41it/s]Training 1/3 epoch (loss 0.1435):  22%|██▏       | 3793/16950 [42:39<2:35:51,  1.41it/s]Training 1/3 epoch (loss 0.1435):  22%|██▏       | 3794/16950 [42:39<2:28:30,  1.48it/s]Training 1/3 epoch (loss 0.0011):  22%|██▏       | 3794/16950 [42:40<2:28:30,  1.48it/s]Training 1/3 epoch (loss 0.0011):  22%|██▏       | 3795/16950 [42:40<2:25:17,  1.51it/s]Training 1/3 epoch (loss 0.3088):  22%|██▏       | 3795/16950 [42:40<2:25:17,  1.51it/s]Training 1/3 epoch (loss 0.3088):  22%|██▏       | 3796/16950 [42:40<2:22:26,  1.54it/s]Training 1/3 epoch (loss 0.0011):  22%|██▏       | 3796/16950 [42:41<2:22:26,  1.54it/s]Training 1/3 epoch (loss 0.0011):  22%|██▏       | 3797/16950 [42:41<2:28:09,  1.48it/s]Training 1/3 epoch (loss 0.0884):  22%|██▏       | 3797/16950 [42:42<2:28:09,  1.48it/s]Training 1/3 epoch (loss 0.0884):  22%|██▏       | 3798/16950 [42:42<2:24:52,  1.51it/s]Training 1/3 epoch (loss 0.4810):  22%|██▏       | 3798/16950 [42:42<2:24:52,  1.51it/s]Training 1/3 epoch (loss 0.4810):  22%|██▏       | 3799/16950 [42:42<2:27:22,  1.49it/s]Training 1/3 epoch (loss 0.0225):  22%|██▏       | 3799/16950 [42:43<2:27:22,  1.49it/s]Training 1/3 epoch (loss 0.0225):  22%|██▏       | 3800/16950 [42:43<2:16:05,  1.61it/s]Training 1/3 epoch (loss 0.0340):  22%|██▏       | 3800/16950 [42:43<2:16:05,  1.61it/s]Training 1/3 epoch (loss 0.0340):  22%|██▏       | 3801/16950 [42:43<2:03:04,  1.78it/s]Training 1/3 epoch (loss 0.1545):  22%|██▏       | 3801/16950 [42:44<2:03:04,  1.78it/s]Training 1/3 epoch (loss 0.1545):  22%|██▏       | 3802/16950 [42:44<2:06:56,  1.73it/s]Training 1/3 epoch (loss 0.0066):  22%|██▏       | 3802/16950 [42:44<2:06:56,  1.73it/s]Training 1/3 epoch (loss 0.0066):  22%|██▏       | 3803/16950 [42:44<2:00:54,  1.81it/s]Training 1/3 epoch (loss 0.0168):  22%|██▏       | 3803/16950 [42:45<2:00:54,  1.81it/s]Training 1/3 epoch (loss 0.0168):  22%|██▏       | 3804/16950 [42:45<2:05:00,  1.75it/s]Training 1/3 epoch (loss 0.1983):  22%|██▏       | 3804/16950 [42:45<2:05:00,  1.75it/s]Training 1/3 epoch (loss 0.1983):  22%|██▏       | 3805/16950 [42:45<1:57:09,  1.87it/s]Training 1/3 epoch (loss 0.2266):  22%|██▏       | 3805/16950 [42:46<1:57:09,  1.87it/s]Training 1/3 epoch (loss 0.2266):  22%|██▏       | 3806/16950 [42:46<1:45:17,  2.08it/s]Training 1/3 epoch (loss 0.0028):  22%|██▏       | 3806/16950 [42:46<1:45:17,  2.08it/s]Training 1/3 epoch (loss 0.0028):  22%|██▏       | 3807/16950 [42:46<1:54:40,  1.91it/s]Training 1/3 epoch (loss 0.0186):  22%|██▏       | 3807/16950 [42:47<1:54:40,  1.91it/s]Training 1/3 epoch (loss 0.0186):  22%|██▏       | 3808/16950 [42:47<1:45:55,  2.07it/s]Training 1/3 epoch (loss 0.3943):  22%|██▏       | 3808/16950 [42:47<1:45:55,  2.07it/s]Training 1/3 epoch (loss 0.3943):  22%|██▏       | 3809/16950 [42:47<1:41:46,  2.15it/s]Training 1/3 epoch (loss 0.4935):  22%|██▏       | 3809/16950 [42:48<1:41:46,  2.15it/s]Training 1/3 epoch (loss 0.4935):  22%|██▏       | 3810/16950 [42:48<1:36:40,  2.27it/s]Training 1/3 epoch (loss 0.0568):  22%|██▏       | 3810/16950 [42:48<1:36:40,  2.27it/s]Training 1/3 epoch (loss 0.0568):  22%|██▏       | 3811/16950 [42:48<1:45:39,  2.07it/s]Training 1/3 epoch (loss 0.0720):  22%|██▏       | 3811/16950 [42:49<1:45:39,  2.07it/s]Training 1/3 epoch (loss 0.0720):  22%|██▏       | 3812/16950 [42:49<1:49:52,  1.99it/s]Training 1/3 epoch (loss 0.0242):  22%|██▏       | 3812/16950 [42:49<1:49:52,  1.99it/s]Training 1/3 epoch (loss 0.0242):  22%|██▏       | 3813/16950 [42:49<1:48:29,  2.02it/s]Training 1/3 epoch (loss 0.4843):  22%|██▏       | 3813/16950 [42:50<1:48:29,  2.02it/s]Training 1/3 epoch (loss 0.4843):  23%|██▎       | 3814/16950 [42:50<1:43:54,  2.11it/s]Training 1/3 epoch (loss 0.0854):  23%|██▎       | 3814/16950 [42:50<1:43:54,  2.11it/s]Training 1/3 epoch (loss 0.0854):  23%|██▎       | 3815/16950 [42:50<1:54:34,  1.91it/s]Training 1/3 epoch (loss 0.1263):  23%|██▎       | 3815/16950 [42:51<1:54:34,  1.91it/s]Training 1/3 epoch (loss 0.1263):  23%|██▎       | 3816/16950 [42:51<1:59:19,  1.83it/s]Training 1/3 epoch (loss 0.6254):  23%|██▎       | 3816/16950 [42:51<1:59:19,  1.83it/s]Training 1/3 epoch (loss 0.6254):  23%|██▎       | 3817/16950 [42:51<2:01:04,  1.81it/s]Training 1/3 epoch (loss 0.3853):  23%|██▎       | 3817/16950 [42:52<2:01:04,  1.81it/s]Training 1/3 epoch (loss 0.3853):  23%|██▎       | 3818/16950 [42:52<1:52:57,  1.94it/s]Training 1/3 epoch (loss 0.0066):  23%|██▎       | 3818/16950 [42:52<1:52:57,  1.94it/s]Training 1/3 epoch (loss 0.0066):  23%|██▎       | 3819/16950 [42:52<1:50:42,  1.98it/s]Training 1/3 epoch (loss 0.0975):  23%|██▎       | 3819/16950 [42:53<1:50:42,  1.98it/s]Training 1/3 epoch (loss 0.0975):  23%|██▎       | 3820/16950 [42:53<1:45:50,  2.07it/s]Training 1/3 epoch (loss 0.0250):  23%|██▎       | 3820/16950 [42:54<1:45:50,  2.07it/s]Training 1/3 epoch (loss 0.0250):  23%|██▎       | 3821/16950 [42:54<2:05:40,  1.74it/s]Training 1/3 epoch (loss 0.6136):  23%|██▎       | 3821/16950 [42:54<2:05:40,  1.74it/s]Training 1/3 epoch (loss 0.6136):  23%|██▎       | 3822/16950 [42:54<2:03:59,  1.76it/s]Training 1/3 epoch (loss 0.0678):  23%|██▎       | 3822/16950 [42:55<2:03:59,  1.76it/s]Training 1/3 epoch (loss 0.0678):  23%|██▎       | 3823/16950 [42:55<2:11:32,  1.66it/s]Training 1/3 epoch (loss 0.0061):  23%|██▎       | 3823/16950 [42:55<2:11:32,  1.66it/s]Training 1/3 epoch (loss 0.0061):  23%|██▎       | 3824/16950 [42:55<2:04:16,  1.76it/s]Training 1/3 epoch (loss 0.2235):  23%|██▎       | 3824/16950 [42:56<2:04:16,  1.76it/s]Training 1/3 epoch (loss 0.2235):  23%|██▎       | 3825/16950 [42:56<2:15:55,  1.61it/s]Training 1/3 epoch (loss 0.5419):  23%|██▎       | 3825/16950 [42:57<2:15:55,  1.61it/s]Training 1/3 epoch (loss 0.5419):  23%|██▎       | 3826/16950 [42:57<2:09:23,  1.69it/s]Training 1/3 epoch (loss 0.3179):  23%|██▎       | 3826/16950 [42:57<2:09:23,  1.69it/s]Training 1/3 epoch (loss 0.3179):  23%|██▎       | 3827/16950 [42:57<1:57:29,  1.86it/s]Training 1/3 epoch (loss 0.0011):  23%|██▎       | 3827/16950 [42:57<1:57:29,  1.86it/s]Training 1/3 epoch (loss 0.0011):  23%|██▎       | 3828/16950 [42:57<1:47:50,  2.03it/s]Training 1/3 epoch (loss 0.1910):  23%|██▎       | 3828/16950 [42:58<1:47:50,  2.03it/s]Training 1/3 epoch (loss 0.1910):  23%|██▎       | 3829/16950 [42:58<2:00:22,  1.82it/s]Training 1/3 epoch (loss 0.0869):  23%|██▎       | 3829/16950 [42:59<2:00:22,  1.82it/s]Training 1/3 epoch (loss 0.0869):  23%|██▎       | 3830/16950 [42:59<2:01:11,  1.80it/s]Training 1/3 epoch (loss 0.2781):  23%|██▎       | 3830/16950 [42:59<2:01:11,  1.80it/s]Training 1/3 epoch (loss 0.2781):  23%|██▎       | 3831/16950 [42:59<1:53:24,  1.93it/s]Training 1/3 epoch (loss 0.0510):  23%|██▎       | 3831/16950 [43:00<1:53:24,  1.93it/s]Training 1/3 epoch (loss 0.0510):  23%|██▎       | 3832/16950 [43:00<2:00:28,  1.81it/s]Training 1/3 epoch (loss 0.0121):  23%|██▎       | 3832/16950 [43:00<2:00:28,  1.81it/s]Training 1/3 epoch (loss 0.0121):  23%|██▎       | 3833/16950 [43:00<2:07:03,  1.72it/s]Training 1/3 epoch (loss 0.0339):  23%|██▎       | 3833/16950 [43:01<2:07:03,  1.72it/s]Training 1/3 epoch (loss 0.0339):  23%|██▎       | 3834/16950 [43:01<1:59:24,  1.83it/s]Training 1/3 epoch (loss 0.0837):  23%|██▎       | 3834/16950 [43:01<1:59:24,  1.83it/s]Training 1/3 epoch (loss 0.0837):  23%|██▎       | 3835/16950 [43:01<1:49:57,  1.99it/s]Training 1/3 epoch (loss 0.1618):  23%|██▎       | 3835/16950 [43:02<1:49:57,  1.99it/s]Training 1/3 epoch (loss 0.1618):  23%|██▎       | 3836/16950 [43:02<2:11:48,  1.66it/s]Training 1/3 epoch (loss 0.0513):  23%|██▎       | 3836/16950 [43:03<2:11:48,  1.66it/s]Training 1/3 epoch (loss 0.0513):  23%|██▎       | 3837/16950 [43:03<2:23:08,  1.53it/s]Training 1/3 epoch (loss 0.0003):  23%|██▎       | 3837/16950 [43:03<2:23:08,  1.53it/s]Training 1/3 epoch (loss 0.0003):  23%|██▎       | 3838/16950 [43:03<2:09:51,  1.68it/s]Training 1/3 epoch (loss 0.4982):  23%|██▎       | 3838/16950 [43:04<2:09:51,  1.68it/s]Training 1/3 epoch (loss 0.4982):  23%|██▎       | 3839/16950 [43:04<2:16:58,  1.60it/s]Training 1/3 epoch (loss 0.0096):  23%|██▎       | 3839/16950 [43:05<2:16:58,  1.60it/s]Training 1/3 epoch (loss 0.0096):  23%|██▎       | 3840/16950 [43:05<2:24:58,  1.51it/s]Training 1/3 epoch (loss 0.0289):  23%|██▎       | 3840/16950 [43:05<2:24:58,  1.51it/s]Training 1/3 epoch (loss 0.0289):  23%|██▎       | 3841/16950 [43:05<2:25:35,  1.50it/s]Training 1/3 epoch (loss 0.5910):  23%|██▎       | 3841/16950 [43:06<2:25:35,  1.50it/s]Training 1/3 epoch (loss 0.5910):  23%|██▎       | 3842/16950 [43:06<2:15:14,  1.62it/s]Training 1/3 epoch (loss 0.0620):  23%|██▎       | 3842/16950 [43:06<2:15:14,  1.62it/s]Training 1/3 epoch (loss 0.0620):  23%|██▎       | 3843/16950 [43:06<2:05:54,  1.74it/s]Training 1/3 epoch (loss 0.2731):  23%|██▎       | 3843/16950 [43:07<2:05:54,  1.74it/s]Training 1/3 epoch (loss 0.2731):  23%|██▎       | 3844/16950 [43:07<1:55:23,  1.89it/s]Training 1/3 epoch (loss 0.0081):  23%|██▎       | 3844/16950 [43:07<1:55:23,  1.89it/s]Training 1/3 epoch (loss 0.0081):  23%|██▎       | 3845/16950 [43:07<2:03:46,  1.76it/s]Training 1/3 epoch (loss 0.0086):  23%|██▎       | 3845/16950 [43:08<2:03:46,  1.76it/s]Training 1/3 epoch (loss 0.0086):  23%|██▎       | 3846/16950 [43:08<2:05:43,  1.74it/s]Training 1/3 epoch (loss 0.0080):  23%|██▎       | 3846/16950 [43:09<2:05:43,  1.74it/s]Training 1/3 epoch (loss 0.0080):  23%|██▎       | 3847/16950 [43:09<1:58:51,  1.84it/s]Training 1/3 epoch (loss 0.7352):  23%|██▎       | 3847/16950 [43:09<1:58:51,  1.84it/s]Training 1/3 epoch (loss 0.7352):  23%|██▎       | 3848/16950 [43:09<1:55:03,  1.90it/s]Training 1/3 epoch (loss 0.3984):  23%|██▎       | 3848/16950 [43:10<1:55:03,  1.90it/s]Training 1/3 epoch (loss 0.3984):  23%|██▎       | 3849/16950 [43:10<2:01:30,  1.80it/s]Training 1/3 epoch (loss 0.0061):  23%|██▎       | 3849/16950 [43:10<2:01:30,  1.80it/s]Training 1/3 epoch (loss 0.0061):  23%|██▎       | 3850/16950 [43:10<2:08:09,  1.70it/s]Training 1/3 epoch (loss 0.0151):  23%|██▎       | 3850/16950 [43:11<2:08:09,  1.70it/s]Training 1/3 epoch (loss 0.0151):  23%|██▎       | 3851/16950 [43:11<2:11:49,  1.66it/s]Training 1/3 epoch (loss 0.0098):  23%|██▎       | 3851/16950 [43:12<2:11:49,  1.66it/s]Training 1/3 epoch (loss 0.0098):  23%|██▎       | 3852/16950 [43:12<2:10:58,  1.67it/s]Training 1/3 epoch (loss 0.0002):  23%|██▎       | 3852/16950 [43:12<2:10:58,  1.67it/s]Training 1/3 epoch (loss 0.0002):  23%|██▎       | 3853/16950 [43:12<2:04:45,  1.75it/s]Training 1/3 epoch (loss 0.0044):  23%|██▎       | 3853/16950 [43:13<2:04:45,  1.75it/s]Training 1/3 epoch (loss 0.0044):  23%|██▎       | 3854/16950 [43:13<2:03:12,  1.77it/s]Training 1/3 epoch (loss 0.3767):  23%|██▎       | 3854/16950 [43:14<2:03:12,  1.77it/s]Training 1/3 epoch (loss 0.3767):  23%|██▎       | 3855/16950 [43:14<2:43:02,  1.34it/s]Training 1/3 epoch (loss 0.0335):  23%|██▎       | 3855/16950 [43:14<2:43:02,  1.34it/s]Training 1/3 epoch (loss 0.0335):  23%|██▎       | 3856/16950 [43:14<2:23:50,  1.52it/s]Training 1/3 epoch (loss 0.3350):  23%|██▎       | 3856/16950 [43:15<2:23:50,  1.52it/s]Training 1/3 epoch (loss 0.3350):  23%|██▎       | 3857/16950 [43:15<2:23:25,  1.52it/s]Training 1/3 epoch (loss 0.0038):  23%|██▎       | 3857/16950 [43:16<2:23:25,  1.52it/s]Training 1/3 epoch (loss 0.0038):  23%|██▎       | 3858/16950 [43:16<2:19:48,  1.56it/s]Training 1/3 epoch (loss 0.1922):  23%|██▎       | 3858/16950 [43:16<2:19:48,  1.56it/s]Training 1/3 epoch (loss 0.1922):  23%|██▎       | 3859/16950 [43:16<2:31:02,  1.44it/s]Training 1/3 epoch (loss 0.0394):  23%|██▎       | 3859/16950 [43:17<2:31:02,  1.44it/s]Training 1/3 epoch (loss 0.0394):  23%|██▎       | 3860/16950 [43:17<2:25:05,  1.50it/s]Training 1/3 epoch (loss 0.0125):  23%|██▎       | 3860/16950 [43:17<2:25:05,  1.50it/s]Training 1/3 epoch (loss 0.0125):  23%|██▎       | 3861/16950 [43:17<2:10:30,  1.67it/s]Training 1/3 epoch (loss 0.0210):  23%|██▎       | 3861/16950 [43:18<2:10:30,  1.67it/s]Training 1/3 epoch (loss 0.0210):  23%|██▎       | 3862/16950 [43:18<2:11:34,  1.66it/s]Training 1/3 epoch (loss 0.3785):  23%|██▎       | 3862/16950 [43:19<2:11:34,  1.66it/s]Training 1/3 epoch (loss 0.3785):  23%|██▎       | 3863/16950 [43:19<2:07:52,  1.71it/s]Training 1/3 epoch (loss 0.3282):  23%|██▎       | 3863/16950 [43:19<2:07:52,  1.71it/s]Training 1/3 epoch (loss 0.3282):  23%|██▎       | 3864/16950 [43:19<2:13:34,  1.63it/s]Training 1/3 epoch (loss 0.6358):  23%|██▎       | 3864/16950 [43:20<2:13:34,  1.63it/s]Training 1/3 epoch (loss 0.6358):  23%|██▎       | 3865/16950 [43:20<2:35:42,  1.40it/s]Training 1/3 epoch (loss 0.0451):  23%|██▎       | 3865/16950 [43:21<2:35:42,  1.40it/s]Training 1/3 epoch (loss 0.0451):  23%|██▎       | 3866/16950 [43:21<2:45:29,  1.32it/s]Training 1/3 epoch (loss 0.0111):  23%|██▎       | 3866/16950 [43:22<2:45:29,  1.32it/s]Training 1/3 epoch (loss 0.0111):  23%|██▎       | 3867/16950 [43:22<2:29:34,  1.46it/s]Training 1/3 epoch (loss 0.6120):  23%|██▎       | 3867/16950 [43:22<2:29:34,  1.46it/s]Training 1/3 epoch (loss 0.6120):  23%|██▎       | 3868/16950 [43:22<2:15:10,  1.61it/s]Training 1/3 epoch (loss 0.1072):  23%|██▎       | 3868/16950 [43:22<2:15:10,  1.61it/s]Training 1/3 epoch (loss 0.1072):  23%|██▎       | 3869/16950 [43:22<2:06:25,  1.72it/s]Training 1/3 epoch (loss 0.0670):  23%|██▎       | 3869/16950 [43:23<2:06:25,  1.72it/s]Training 1/3 epoch (loss 0.0670):  23%|██▎       | 3870/16950 [43:23<2:04:53,  1.75it/s]Training 1/3 epoch (loss 0.4039):  23%|██▎       | 3870/16950 [43:24<2:04:53,  1.75it/s]Training 1/3 epoch (loss 0.4039):  23%|██▎       | 3871/16950 [43:24<2:05:56,  1.73it/s]Training 1/3 epoch (loss 0.0357):  23%|██▎       | 3871/16950 [43:24<2:05:56,  1.73it/s]Training 1/3 epoch (loss 0.0357):  23%|██▎       | 3872/16950 [43:24<2:24:37,  1.51it/s]Training 1/3 epoch (loss 0.0940):  23%|██▎       | 3872/16950 [43:25<2:24:37,  1.51it/s]Training 1/3 epoch (loss 0.0940):  23%|██▎       | 3873/16950 [43:25<2:12:01,  1.65it/s]Training 1/3 epoch (loss 0.4145):  23%|██▎       | 3873/16950 [43:26<2:12:01,  1.65it/s]Training 1/3 epoch (loss 0.4145):  23%|██▎       | 3874/16950 [43:26<2:11:23,  1.66it/s]Training 1/3 epoch (loss 0.9061):  23%|██▎       | 3874/16950 [43:26<2:11:23,  1.66it/s]Training 1/3 epoch (loss 0.9061):  23%|██▎       | 3875/16950 [43:26<2:02:04,  1.79it/s]Training 1/3 epoch (loss nan):  23%|██▎       | 3875/16950 [43:27<2:02:04,  1.79it/s]   Training 1/3 epoch (loss nan):  23%|██▎       | 3876/16950 [43:27<2:33:59,  1.41it/s]Training 1/3 epoch (loss 0.0013):  23%|██▎       | 3876/16950 [43:28<2:33:59,  1.41it/s]Training 1/3 epoch (loss 0.0013):  23%|██▎       | 3877/16950 [43:28<2:25:06,  1.50it/s]Training 1/3 epoch (loss 0.0481):  23%|██▎       | 3877/16950 [43:28<2:25:06,  1.50it/s]Training 1/3 epoch (loss 0.0481):  23%|██▎       | 3878/16950 [43:28<2:12:41,  1.64it/s]Training 1/3 epoch (loss 0.0068):  23%|██▎       | 3878/16950 [43:29<2:12:41,  1.64it/s]Training 1/3 epoch (loss 0.0068):  23%|██▎       | 3879/16950 [43:29<1:59:09,  1.83it/s]Training 1/3 epoch (loss 0.3004):  23%|██▎       | 3879/16950 [43:29<1:59:09,  1.83it/s]Training 1/3 epoch (loss 0.3004):  23%|██▎       | 3880/16950 [43:29<2:01:03,  1.80it/s]Training 1/3 epoch (loss 0.3930):  23%|██▎       | 3880/16950 [43:30<2:01:03,  1.80it/s]Training 1/3 epoch (loss 0.3930):  23%|██▎       | 3881/16950 [43:30<2:31:42,  1.44it/s]Training 1/3 epoch (loss 0.0681):  23%|██▎       | 3881/16950 [43:31<2:31:42,  1.44it/s]Training 1/3 epoch (loss 0.0681):  23%|██▎       | 3882/16950 [43:31<2:27:52,  1.47it/s]Training 1/3 epoch (loss 0.5576):  23%|██▎       | 3882/16950 [43:31<2:27:52,  1.47it/s]Training 1/3 epoch (loss 0.5576):  23%|██▎       | 3883/16950 [43:31<2:30:12,  1.45it/s]Training 1/3 epoch (loss 0.2954):  23%|██▎       | 3883/16950 [43:32<2:30:12,  1.45it/s]Training 1/3 epoch (loss 0.2954):  23%|██▎       | 3884/16950 [43:32<2:13:57,  1.63it/s]Training 1/3 epoch (loss 0.4364):  23%|██▎       | 3884/16950 [43:32<2:13:57,  1.63it/s]Training 1/3 epoch (loss 0.4364):  23%|██▎       | 3885/16950 [43:32<1:59:16,  1.83it/s]Training 1/3 epoch (loss 0.0365):  23%|██▎       | 3885/16950 [43:33<1:59:16,  1.83it/s]Training 1/3 epoch (loss 0.0365):  23%|██▎       | 3886/16950 [43:33<2:02:13,  1.78it/s]Training 1/3 epoch (loss 0.0026):  23%|██▎       | 3886/16950 [43:33<2:02:13,  1.78it/s]Training 1/3 epoch (loss 0.0026):  23%|██▎       | 3887/16950 [43:33<2:01:31,  1.79it/s]Training 1/3 epoch (loss 0.2530):  23%|██▎       | 3887/16950 [43:34<2:01:31,  1.79it/s]Training 1/3 epoch (loss 0.2530):  23%|██▎       | 3888/16950 [43:34<1:52:09,  1.94it/s]Training 1/3 epoch (loss 0.1572):  23%|██▎       | 3888/16950 [43:35<1:52:09,  1.94it/s]Training 1/3 epoch (loss 0.1572):  23%|██▎       | 3889/16950 [43:35<2:01:36,  1.79it/s]Training 1/3 epoch (loss 1.1099):  23%|██▎       | 3889/16950 [43:35<2:01:36,  1.79it/s]Training 1/3 epoch (loss 1.1099):  23%|██▎       | 3890/16950 [43:35<2:16:15,  1.60it/s]Training 1/3 epoch (loss 0.0185):  23%|██▎       | 3890/16950 [43:36<2:16:15,  1.60it/s]Training 1/3 epoch (loss 0.0185):  23%|██▎       | 3891/16950 [43:36<2:18:02,  1.58it/s]Training 1/3 epoch (loss 0.0122):  23%|██▎       | 3891/16950 [43:36<2:18:02,  1.58it/s]Training 1/3 epoch (loss 0.0122):  23%|██▎       | 3892/16950 [43:36<2:09:20,  1.68it/s]Training 1/3 epoch (loss 0.1972):  23%|██▎       | 3892/16950 [43:37<2:09:20,  1.68it/s]Training 1/3 epoch (loss 0.1972):  23%|██▎       | 3893/16950 [43:37<2:24:16,  1.51it/s]Training 1/3 epoch (loss 0.0811):  23%|██▎       | 3893/16950 [43:38<2:24:16,  1.51it/s]Training 1/3 epoch (loss 0.0811):  23%|██▎       | 3894/16950 [43:38<2:27:39,  1.47it/s]Training 1/3 epoch (loss 0.2214):  23%|██▎       | 3894/16950 [43:39<2:27:39,  1.47it/s]Training 1/3 epoch (loss 0.2214):  23%|██▎       | 3895/16950 [43:39<2:17:25,  1.58it/s]Training 1/3 epoch (loss 0.8195):  23%|██▎       | 3895/16950 [43:39<2:17:25,  1.58it/s]Training 1/3 epoch (loss 0.8195):  23%|██▎       | 3896/16950 [43:39<2:32:52,  1.42it/s]Training 1/3 epoch (loss 0.3716):  23%|██▎       | 3896/16950 [43:40<2:32:52,  1.42it/s]Training 1/3 epoch (loss 0.3716):  23%|██▎       | 3897/16950 [43:40<2:39:07,  1.37it/s]Training 1/3 epoch (loss 0.0118):  23%|██▎       | 3897/16950 [43:41<2:39:07,  1.37it/s]Training 1/3 epoch (loss 0.0118):  23%|██▎       | 3898/16950 [43:41<2:27:32,  1.47it/s]Training 1/3 epoch (loss 0.0574):  23%|██▎       | 3898/16950 [43:41<2:27:32,  1.47it/s]Training 1/3 epoch (loss 0.0574):  23%|██▎       | 3899/16950 [43:41<2:15:02,  1.61it/s]Training 1/3 epoch (loss 0.0003):  23%|██▎       | 3899/16950 [43:42<2:15:02,  1.61it/s]Training 1/3 epoch (loss 0.0003):  23%|██▎       | 3900/16950 [43:42<2:04:31,  1.75it/s]Training 1/3 epoch (loss 0.1515):  23%|██▎       | 3900/16950 [43:42<2:04:31,  1.75it/s]Training 1/3 epoch (loss 0.1515):  23%|██▎       | 3901/16950 [43:42<2:03:17,  1.76it/s]Training 1/3 epoch (loss 0.0438):  23%|██▎       | 3901/16950 [43:43<2:03:17,  1.76it/s]Training 1/3 epoch (loss 0.0438):  23%|██▎       | 3902/16950 [43:43<2:14:02,  1.62it/s]Training 1/3 epoch (loss 0.0916):  23%|██▎       | 3902/16950 [43:44<2:14:02,  1.62it/s]Training 1/3 epoch (loss 0.0916):  23%|██▎       | 3903/16950 [43:44<2:14:39,  1.61it/s]Training 1/3 epoch (loss 0.0210):  23%|██▎       | 3903/16950 [43:44<2:14:39,  1.61it/s]Training 1/3 epoch (loss 0.0210):  23%|██▎       | 3904/16950 [43:44<2:05:49,  1.73it/s]Training 1/3 epoch (loss 0.0592):  23%|██▎       | 3904/16950 [43:45<2:05:49,  1.73it/s]Training 1/3 epoch (loss 0.0592):  23%|██▎       | 3905/16950 [43:45<2:09:36,  1.68it/s]Training 1/3 epoch (loss 0.1516):  23%|██▎       | 3905/16950 [43:45<2:09:36,  1.68it/s]Training 1/3 epoch (loss 0.1516):  23%|██▎       | 3906/16950 [43:45<2:05:17,  1.74it/s]Training 1/3 epoch (loss 0.0427):  23%|██▎       | 3906/16950 [43:46<2:05:17,  1.74it/s]Training 1/3 epoch (loss 0.0427):  23%|██▎       | 3907/16950 [43:46<1:56:59,  1.86it/s]Training 1/3 epoch (loss 0.0207):  23%|██▎       | 3907/16950 [43:46<1:56:59,  1.86it/s]Training 1/3 epoch (loss 0.0207):  23%|██▎       | 3908/16950 [43:46<2:02:45,  1.77it/s]Training 1/3 epoch (loss 0.4777):  23%|██▎       | 3908/16950 [43:47<2:02:45,  1.77it/s]Training 1/3 epoch (loss 0.4777):  23%|██▎       | 3909/16950 [43:47<2:34:12,  1.41it/s]Training 1/3 epoch (loss 0.0814):  23%|██▎       | 3909/16950 [43:48<2:34:12,  1.41it/s]Training 1/3 epoch (loss 0.0814):  23%|██▎       | 3910/16950 [43:48<2:21:07,  1.54it/s]Training 1/3 epoch (loss 0.0057):  23%|██▎       | 3910/16950 [43:49<2:21:07,  1.54it/s]Training 1/3 epoch (loss 0.0057):  23%|██▎       | 3911/16950 [43:49<2:21:46,  1.53it/s]Training 1/3 epoch (loss 0.0082):  23%|██▎       | 3911/16950 [43:49<2:21:46,  1.53it/s]Training 1/3 epoch (loss 0.0082):  23%|██▎       | 3912/16950 [43:49<2:28:14,  1.47it/s]Training 1/3 epoch (loss 0.0072):  23%|██▎       | 3912/16950 [43:50<2:28:14,  1.47it/s]Training 1/3 epoch (loss 0.0072):  23%|██▎       | 3913/16950 [43:50<2:17:18,  1.58it/s]Training 1/3 epoch (loss 0.5927):  23%|██▎       | 3913/16950 [43:50<2:17:18,  1.58it/s]Training 1/3 epoch (loss 0.5927):  23%|██▎       | 3914/16950 [43:50<2:08:02,  1.70it/s]Training 1/3 epoch (loss 0.4755):  23%|██▎       | 3914/16950 [43:51<2:08:02,  1.70it/s]Training 1/3 epoch (loss 0.4755):  23%|██▎       | 3915/16950 [43:51<2:06:19,  1.72it/s]Training 1/3 epoch (loss 0.0644):  23%|██▎       | 3915/16950 [43:52<2:06:19,  1.72it/s]Training 1/3 epoch (loss 0.0644):  23%|██▎       | 3916/16950 [43:52<2:10:57,  1.66it/s]Training 1/3 epoch (loss 0.1179):  23%|██▎       | 3916/16950 [43:52<2:10:57,  1.66it/s]Training 1/3 epoch (loss 0.1179):  23%|██▎       | 3917/16950 [43:52<2:11:58,  1.65it/s]Training 1/3 epoch (loss 0.0918):  23%|██▎       | 3917/16950 [43:53<2:11:58,  1.65it/s]Training 1/3 epoch (loss 0.0918):  23%|██▎       | 3918/16950 [43:53<2:16:39,  1.59it/s]Training 1/3 epoch (loss 0.1295):  23%|██▎       | 3918/16950 [43:53<2:16:39,  1.59it/s]Training 1/3 epoch (loss 0.1295):  23%|██▎       | 3919/16950 [43:53<2:12:26,  1.64it/s]Training 1/3 epoch (loss 0.0005):  23%|██▎       | 3919/16950 [43:54<2:12:26,  1.64it/s]Training 1/3 epoch (loss 0.0005):  23%|██▎       | 3920/16950 [43:54<2:07:00,  1.71it/s]Training 1/3 epoch (loss 0.0041):  23%|██▎       | 3920/16950 [43:55<2:07:00,  1.71it/s]Training 1/3 epoch (loss 0.0041):  23%|██▎       | 3921/16950 [43:55<2:13:54,  1.62it/s]Training 1/3 epoch (loss 0.3240):  23%|██▎       | 3921/16950 [43:55<2:13:54,  1.62it/s]Training 1/3 epoch (loss 0.3240):  23%|██▎       | 3922/16950 [43:55<2:02:17,  1.78it/s]Training 1/3 epoch (loss 0.0890):  23%|██▎       | 3922/16950 [43:56<2:02:17,  1.78it/s]Training 1/3 epoch (loss 0.0890):  23%|██▎       | 3923/16950 [43:56<1:56:51,  1.86it/s]Training 1/3 epoch (loss 0.0023):  23%|██▎       | 3923/16950 [43:56<1:56:51,  1.86it/s]Training 1/3 epoch (loss 0.0023):  23%|██▎       | 3924/16950 [43:56<1:51:02,  1.95it/s]Training 1/3 epoch (loss 0.2385):  23%|██▎       | 3924/16950 [43:56<1:51:02,  1.95it/s]Training 1/3 epoch (loss 0.2385):  23%|██▎       | 3925/16950 [43:56<1:41:18,  2.14it/s]Training 1/3 epoch (loss 0.5441):  23%|██▎       | 3925/16950 [43:57<1:41:18,  2.14it/s]Training 1/3 epoch (loss 0.5441):  23%|██▎       | 3926/16950 [43:57<1:45:24,  2.06it/s]Training 1/3 epoch (loss 0.0027):  23%|██▎       | 3926/16950 [43:58<1:45:24,  2.06it/s]Training 1/3 epoch (loss 0.0027):  23%|██▎       | 3927/16950 [43:58<1:59:14,  1.82it/s]Training 1/3 epoch (loss 0.2893):  23%|██▎       | 3927/16950 [43:58<1:59:14,  1.82it/s]Training 1/3 epoch (loss 0.2893):  23%|██▎       | 3928/16950 [43:58<1:45:22,  2.06it/s]Training 1/3 epoch (loss 0.0133):  23%|██▎       | 3928/16950 [43:58<1:45:22,  2.06it/s]Training 1/3 epoch (loss 0.0133):  23%|██▎       | 3929/16950 [43:58<1:51:41,  1.94it/s]Training 1/3 epoch (loss 1.0464):  23%|██▎       | 3929/16950 [43:59<1:51:41,  1.94it/s]Training 1/3 epoch (loss 1.0464):  23%|██▎       | 3930/16950 [43:59<1:48:44,  2.00it/s]Training 1/3 epoch (loss 0.6213):  23%|██▎       | 3930/16950 [43:59<1:48:44,  2.00it/s]Training 1/3 epoch (loss 0.6213):  23%|██▎       | 3931/16950 [43:59<1:45:23,  2.06it/s]Training 1/3 epoch (loss 0.6703):  23%|██▎       | 3931/16950 [44:00<1:45:23,  2.06it/s]Training 1/3 epoch (loss 0.6703):  23%|██▎       | 3932/16950 [44:00<1:54:44,  1.89it/s]Training 1/3 epoch (loss 0.0347):  23%|██▎       | 3932/16950 [44:00<1:54:44,  1.89it/s]Training 1/3 epoch (loss 0.0347):  23%|██▎       | 3933/16950 [44:00<1:49:17,  1.99it/s]Training 1/3 epoch (loss 0.1822):  23%|██▎       | 3933/16950 [44:01<1:49:17,  1.99it/s]Training 1/3 epoch (loss 0.1822):  23%|██▎       | 3934/16950 [44:01<1:39:59,  2.17it/s]Training 1/3 epoch (loss 0.6151):  23%|██▎       | 3934/16950 [44:02<1:39:59,  2.17it/s]Training 1/3 epoch (loss 0.6151):  23%|██▎       | 3935/16950 [44:02<1:54:46,  1.89it/s]Training 1/3 epoch (loss 0.2936):  23%|██▎       | 3935/16950 [44:02<1:54:46,  1.89it/s]Training 1/3 epoch (loss 0.2936):  23%|██▎       | 3936/16950 [44:02<2:11:34,  1.65it/s]Training 1/3 epoch (loss 0.0025):  23%|██▎       | 3936/16950 [44:03<2:11:34,  1.65it/s]Training 1/3 epoch (loss 0.0025):  23%|██▎       | 3937/16950 [44:03<2:06:03,  1.72it/s]Training 1/3 epoch (loss 0.1162):  23%|██▎       | 3937/16950 [44:03<2:06:03,  1.72it/s]Training 1/3 epoch (loss 0.1162):  23%|██▎       | 3938/16950 [44:03<2:11:35,  1.65it/s]Training 1/3 epoch (loss 0.1568):  23%|██▎       | 3938/16950 [44:04<2:11:35,  1.65it/s]Training 1/3 epoch (loss 0.1568):  23%|██▎       | 3939/16950 [44:04<2:10:08,  1.67it/s]Training 1/3 epoch (loss 0.0019):  23%|██▎       | 3939/16950 [44:05<2:10:08,  1.67it/s]Training 1/3 epoch (loss 0.0019):  23%|██▎       | 3940/16950 [44:05<2:18:33,  1.56it/s]Training 1/3 epoch (loss 0.5219):  23%|██▎       | 3940/16950 [44:05<2:18:33,  1.56it/s]Training 1/3 epoch (loss 0.5219):  23%|██▎       | 3941/16950 [44:05<2:21:16,  1.53it/s]Training 1/3 epoch (loss 0.8621):  23%|██▎       | 3941/16950 [44:06<2:21:16,  1.53it/s]Training 1/3 epoch (loss 0.8621):  23%|██▎       | 3942/16950 [44:06<2:43:01,  1.33it/s]Training 1/3 epoch (loss 0.0024):  23%|██▎       | 3942/16950 [44:07<2:43:01,  1.33it/s]Training 1/3 epoch (loss 0.0024):  23%|██▎       | 3943/16950 [44:07<2:41:18,  1.34it/s]Training 1/3 epoch (loss 0.0025):  23%|██▎       | 3943/16950 [44:08<2:41:18,  1.34it/s]Training 1/3 epoch (loss 0.0025):  23%|██▎       | 3944/16950 [44:08<2:23:20,  1.51it/s]Training 1/3 epoch (loss 0.7941):  23%|██▎       | 3944/16950 [44:08<2:23:20,  1.51it/s]Training 1/3 epoch (loss 0.7941):  23%|██▎       | 3945/16950 [44:08<2:23:38,  1.51it/s]Training 1/3 epoch (loss 0.0728):  23%|██▎       | 3945/16950 [44:09<2:23:38,  1.51it/s]Training 1/3 epoch (loss 0.0728):  23%|██▎       | 3946/16950 [44:09<2:29:43,  1.45it/s]Training 1/3 epoch (loss 0.0851):  23%|██▎       | 3946/16950 [44:10<2:29:43,  1.45it/s]Training 1/3 epoch (loss 0.0851):  23%|██▎       | 3947/16950 [44:10<2:18:07,  1.57it/s]Training 1/3 epoch (loss 0.3309):  23%|██▎       | 3947/16950 [44:10<2:18:07,  1.57it/s]Training 1/3 epoch (loss 0.3309):  23%|██▎       | 3948/16950 [44:10<2:17:34,  1.58it/s]Training 1/3 epoch (loss 0.0805):  23%|██▎       | 3948/16950 [44:11<2:17:34,  1.58it/s]Training 1/3 epoch (loss 0.0805):  23%|██▎       | 3949/16950 [44:11<2:20:06,  1.55it/s]Training 1/3 epoch (loss 0.3478):  23%|██▎       | 3949/16950 [44:11<2:20:06,  1.55it/s]Training 1/3 epoch (loss 0.3478):  23%|██▎       | 3950/16950 [44:11<2:06:48,  1.71it/s]Training 1/3 epoch (loss 0.3754):  23%|██▎       | 3950/16950 [44:12<2:06:48,  1.71it/s]Training 1/3 epoch (loss 0.3754):  23%|██▎       | 3951/16950 [44:12<1:54:32,  1.89it/s]Training 1/3 epoch (loss 0.5030):  23%|██▎       | 3951/16950 [44:13<1:54:32,  1.89it/s]Training 1/3 epoch (loss 0.5030):  23%|██▎       | 3952/16950 [44:13<2:13:47,  1.62it/s]Training 1/3 epoch (loss 0.0026):  23%|██▎       | 3952/16950 [44:13<2:13:47,  1.62it/s]Training 1/3 epoch (loss 0.0026):  23%|██▎       | 3953/16950 [44:13<2:09:19,  1.67it/s]Training 1/3 epoch (loss 0.4106):  23%|██▎       | 3953/16950 [44:14<2:09:19,  1.67it/s]Training 1/3 epoch (loss 0.4106):  23%|██▎       | 3954/16950 [44:14<2:11:30,  1.65it/s]Training 1/3 epoch (loss 0.0002):  23%|██▎       | 3954/16950 [44:14<2:11:30,  1.65it/s]Training 1/3 epoch (loss 0.0002):  23%|██▎       | 3955/16950 [44:14<2:03:50,  1.75it/s]Training 1/3 epoch (loss 0.0088):  23%|██▎       | 3955/16950 [44:15<2:03:50,  1.75it/s]Training 1/3 epoch (loss 0.0088):  23%|██▎       | 3956/16950 [44:15<1:55:25,  1.88it/s]Training 1/3 epoch (loss 0.0079):  23%|██▎       | 3956/16950 [44:15<1:55:25,  1.88it/s]Training 1/3 epoch (loss 0.0079):  23%|██▎       | 3957/16950 [44:15<1:55:33,  1.87it/s]Training 1/3 epoch (loss 0.0240):  23%|██▎       | 3957/16950 [44:16<1:55:33,  1.87it/s]Training 1/3 epoch (loss 0.0240):  23%|██▎       | 3958/16950 [44:16<2:30:08,  1.44it/s]Training 1/3 epoch (loss 0.0781):  23%|██▎       | 3958/16950 [44:17<2:30:08,  1.44it/s]Training 1/3 epoch (loss 0.0781):  23%|██▎       | 3959/16950 [44:17<2:30:26,  1.44it/s]Training 1/3 epoch (loss 0.3733):  23%|██▎       | 3959/16950 [44:18<2:30:26,  1.44it/s]Training 1/3 epoch (loss 0.3733):  23%|██▎       | 3960/16950 [44:18<2:25:17,  1.49it/s]Training 1/3 epoch (loss 0.0912):  23%|██▎       | 3960/16950 [44:19<2:25:17,  1.49it/s]Training 1/3 epoch (loss 0.0912):  23%|██▎       | 3961/16950 [44:19<2:42:23,  1.33it/s]Training 1/3 epoch (loss 0.0056):  23%|██▎       | 3961/16950 [44:19<2:42:23,  1.33it/s]Training 1/3 epoch (loss 0.0056):  23%|██▎       | 3962/16950 [44:19<2:28:07,  1.46it/s]Training 1/3 epoch (loss 0.6204):  23%|██▎       | 3962/16950 [44:19<2:28:07,  1.46it/s]Training 1/3 epoch (loss 0.6204):  23%|██▎       | 3963/16950 [44:19<2:10:25,  1.66it/s]Training 1/3 epoch (loss 0.1703):  23%|██▎       | 3963/16950 [44:20<2:10:25,  1.66it/s]Training 1/3 epoch (loss 0.1703):  23%|██▎       | 3964/16950 [44:20<2:26:05,  1.48it/s]Training 1/3 epoch (loss 0.0771):  23%|██▎       | 3964/16950 [44:21<2:26:05,  1.48it/s]Training 1/3 epoch (loss 0.0771):  23%|██▎       | 3965/16950 [44:21<2:23:25,  1.51it/s]Training 1/3 epoch (loss 0.0080):  23%|██▎       | 3965/16950 [44:21<2:23:25,  1.51it/s]Training 1/3 epoch (loss 0.0080):  23%|██▎       | 3966/16950 [44:21<2:13:08,  1.63it/s]Training 1/3 epoch (loss 0.0189):  23%|██▎       | 3966/16950 [44:22<2:13:08,  1.63it/s]Training 1/3 epoch (loss 0.0189):  23%|██▎       | 3967/16950 [44:22<2:03:01,  1.76it/s]Training 1/3 epoch (loss 0.0127):  23%|██▎       | 3967/16950 [44:22<2:03:01,  1.76it/s]Training 1/3 epoch (loss 0.0127):  23%|██▎       | 3968/16950 [44:22<1:53:14,  1.91it/s]Training 1/3 epoch (loss 0.0007):  23%|██▎       | 3968/16950 [44:23<1:53:14,  1.91it/s]Training 1/3 epoch (loss 0.0007):  23%|██▎       | 3969/16950 [44:23<1:44:41,  2.07it/s]Training 1/3 epoch (loss 0.0987):  23%|██▎       | 3969/16950 [44:23<1:44:41,  2.07it/s]Training 1/3 epoch (loss 0.0987):  23%|██▎       | 3970/16950 [44:23<1:46:41,  2.03it/s]Training 1/3 epoch (loss 0.0753):  23%|██▎       | 3970/16950 [44:24<1:46:41,  2.03it/s]Training 1/3 epoch (loss 0.0753):  23%|██▎       | 3971/16950 [44:24<1:43:22,  2.09it/s]Training 1/3 epoch (loss 0.0118):  23%|██▎       | 3971/16950 [44:24<1:43:22,  2.09it/s]Training 1/3 epoch (loss 0.0118):  23%|██▎       | 3972/16950 [44:24<1:54:22,  1.89it/s]Training 1/3 epoch (loss 0.0094):  23%|██▎       | 3972/16950 [44:25<1:54:22,  1.89it/s]Training 1/3 epoch (loss 0.0094):  23%|██▎       | 3973/16950 [44:25<1:58:24,  1.83it/s]Training 1/3 epoch (loss 0.0006):  23%|██▎       | 3973/16950 [44:25<1:58:24,  1.83it/s]Training 1/3 epoch (loss 0.0006):  23%|██▎       | 3974/16950 [44:25<1:55:25,  1.87it/s]Training 1/3 epoch (loss 0.0764):  23%|██▎       | 3974/16950 [44:26<1:55:25,  1.87it/s]Training 1/3 epoch (loss 0.0764):  23%|██▎       | 3975/16950 [44:26<2:03:06,  1.76it/s]Training 1/3 epoch (loss 0.0603):  23%|██▎       | 3975/16950 [44:27<2:03:06,  1.76it/s]Training 1/3 epoch (loss 0.0603):  23%|██▎       | 3976/16950 [44:27<2:02:16,  1.77it/s]Training 1/3 epoch (loss 0.0061):  23%|██▎       | 3976/16950 [44:27<2:02:16,  1.77it/s]Training 1/3 epoch (loss 0.0061):  23%|██▎       | 3977/16950 [44:27<1:52:00,  1.93it/s]Training 1/3 epoch (loss 0.0003):  23%|██▎       | 3977/16950 [44:27<1:52:00,  1.93it/s]Training 1/3 epoch (loss 0.0003):  23%|██▎       | 3978/16950 [44:27<1:46:12,  2.04it/s]Training 1/3 epoch (loss 0.6153):  23%|██▎       | 3978/16950 [44:28<1:46:12,  2.04it/s]Training 1/3 epoch (loss 0.6153):  23%|██▎       | 3979/16950 [44:28<1:54:46,  1.88it/s]Training 1/3 epoch (loss 0.0022):  23%|██▎       | 3979/16950 [44:29<1:54:46,  1.88it/s]Training 1/3 epoch (loss 0.0022):  23%|██▎       | 3980/16950 [44:29<2:04:03,  1.74it/s]Training 1/3 epoch (loss 0.0005):  23%|██▎       | 3980/16950 [44:29<2:04:03,  1.74it/s]Training 1/3 epoch (loss 0.0005):  23%|██▎       | 3981/16950 [44:29<2:00:14,  1.80it/s]Training 1/3 epoch (loss 0.0810):  23%|██▎       | 3981/16950 [44:30<2:00:14,  1.80it/s]Training 1/3 epoch (loss 0.0810):  23%|██▎       | 3982/16950 [44:30<1:55:36,  1.87it/s]Training 1/3 epoch (loss 0.1106):  23%|██▎       | 3982/16950 [44:30<1:55:36,  1.87it/s]Training 1/3 epoch (loss 0.1106):  23%|██▎       | 3983/16950 [44:30<1:39:58,  2.16it/s]Training 1/3 epoch (loss 0.0003):  23%|██▎       | 3983/16950 [44:30<1:39:58,  2.16it/s]Training 1/3 epoch (loss 0.0003):  24%|██▎       | 3984/16950 [44:30<1:28:18,  2.45it/s]Training 1/3 epoch (loss 0.4133):  24%|██▎       | 3984/16950 [44:31<1:28:18,  2.45it/s]Training 1/3 epoch (loss 0.4133):  24%|██▎       | 3985/16950 [44:31<2:11:38,  1.64it/s]Training 1/3 epoch (loss 0.0002):  24%|██▎       | 3985/16950 [44:32<2:11:38,  1.64it/s]Training 1/3 epoch (loss 0.0002):  24%|██▎       | 3986/16950 [44:32<2:09:39,  1.67it/s]Training 1/3 epoch (loss 0.6711):  24%|██▎       | 3986/16950 [44:33<2:09:39,  1.67it/s]Training 1/3 epoch (loss 0.6711):  24%|██▎       | 3987/16950 [44:33<2:07:09,  1.70it/s]Training 1/3 epoch (loss 0.2918):  24%|██▎       | 3987/16950 [44:33<2:07:09,  1.70it/s]Training 1/3 epoch (loss 0.2918):  24%|██▎       | 3988/16950 [44:33<2:14:58,  1.60it/s]Training 1/3 epoch (loss 0.3363):  24%|██▎       | 3988/16950 [44:34<2:14:58,  1.60it/s]Training 1/3 epoch (loss 0.3363):  24%|██▎       | 3989/16950 [44:34<2:06:59,  1.70it/s]Training 1/3 epoch (loss 0.0255):  24%|██▎       | 3989/16950 [44:34<2:06:59,  1.70it/s]Training 1/3 epoch (loss 0.0255):  24%|██▎       | 3990/16950 [44:34<2:07:24,  1.70it/s]Training 1/3 epoch (loss 0.4655):  24%|██▎       | 3990/16950 [44:35<2:07:24,  1.70it/s]Training 1/3 epoch (loss 0.4655):  24%|██▎       | 3991/16950 [44:35<2:03:19,  1.75it/s]Training 1/3 epoch (loss 0.5311):  24%|██▎       | 3991/16950 [44:35<2:03:19,  1.75it/s]Training 1/3 epoch (loss 0.5311):  24%|██▎       | 3992/16950 [44:35<2:00:02,  1.80it/s]Training 1/3 epoch (loss 0.0593):  24%|██▎       | 3992/16950 [44:36<2:00:02,  1.80it/s]Training 1/3 epoch (loss 0.0593):  24%|██▎       | 3993/16950 [44:36<2:17:30,  1.57it/s]Training 1/3 epoch (loss 0.0742):  24%|██▎       | 3993/16950 [44:37<2:17:30,  1.57it/s]Training 1/3 epoch (loss 0.0742):  24%|██▎       | 3994/16950 [44:37<2:13:43,  1.61it/s]Training 1/3 epoch (loss 0.0085):  24%|██▎       | 3994/16950 [44:37<2:13:43,  1.61it/s]Training 1/3 epoch (loss 0.0085):  24%|██▎       | 3995/16950 [44:37<2:03:57,  1.74it/s]Training 1/3 epoch (loss 1.0581):  24%|██▎       | 3995/16950 [44:38<2:03:57,  1.74it/s]Training 1/3 epoch (loss 1.0581):  24%|██▎       | 3996/16950 [44:38<2:22:32,  1.51it/s]Training 1/3 epoch (loss 0.0043):  24%|██▎       | 3996/16950 [44:39<2:22:32,  1.51it/s]Training 1/3 epoch (loss 0.0043):  24%|██▎       | 3997/16950 [44:39<2:21:26,  1.53it/s]Training 1/3 epoch (loss 0.0073):  24%|██▎       | 3997/16950 [44:39<2:21:26,  1.53it/s]Training 1/3 epoch (loss 0.0073):  24%|██▎       | 3998/16950 [44:39<2:09:06,  1.67it/s]Training 1/3 epoch (loss 0.0019):  24%|██▎       | 3998/16950 [44:40<2:09:06,  1.67it/s]Training 1/3 epoch (loss 0.0019):  24%|██▎       | 3999/16950 [44:40<1:55:08,  1.87it/s]Training 1/3 epoch (loss 0.0191):  24%|██▎       | 3999/16950 [44:40<1:55:08,  1.87it/s]Training 1/3 epoch (loss 0.0191):  24%|██▎       | 4000/16950 [44:40<1:49:05,  1.98it/s]Training 1/3 epoch (loss 0.8061):  24%|██▎       | 4000/16950 [44:40<1:49:05,  1.98it/s]Training 1/3 epoch (loss 0.8061):  24%|██▎       | 4001/16950 [44:40<1:43:09,  2.09it/s]Training 1/3 epoch (loss 0.2295):  24%|██▎       | 4001/16950 [44:41<1:43:09,  2.09it/s]Training 1/3 epoch (loss 0.2295):  24%|██▎       | 4002/16950 [44:41<2:02:07,  1.77it/s]Training 1/3 epoch (loss 0.1883):  24%|██▎       | 4002/16950 [44:42<2:02:07,  1.77it/s]Training 1/3 epoch (loss 0.1883):  24%|██▎       | 4003/16950 [44:42<2:07:11,  1.70it/s]Training 1/3 epoch (loss 0.0073):  24%|██▎       | 4003/16950 [44:43<2:07:11,  1.70it/s]Training 1/3 epoch (loss 0.0073):  24%|██▎       | 4004/16950 [44:43<2:08:05,  1.68it/s]Training 1/3 epoch (loss 0.0021):  24%|██▎       | 4004/16950 [44:43<2:08:05,  1.68it/s]Training 1/3 epoch (loss 0.0021):  24%|██▎       | 4005/16950 [44:43<2:04:50,  1.73it/s]Training 1/3 epoch (loss 0.0079):  24%|██▎       | 4005/16950 [44:44<2:04:50,  1.73it/s]Training 1/3 epoch (loss 0.0079):  24%|██▎       | 4006/16950 [44:44<2:03:01,  1.75it/s]Training 1/3 epoch (loss 0.2005):  24%|██▎       | 4006/16950 [44:44<2:03:01,  1.75it/s]Training 1/3 epoch (loss 0.2005):  24%|██▎       | 4007/16950 [44:44<2:09:26,  1.67it/s]Training 1/3 epoch (loss 0.0021):  24%|██▎       | 4007/16950 [44:45<2:09:26,  1.67it/s]Training 1/3 epoch (loss 0.0021):  24%|██▎       | 4008/16950 [44:45<2:07:23,  1.69it/s]Training 1/3 epoch (loss 0.1345):  24%|██▎       | 4008/16950 [44:46<2:07:23,  1.69it/s]Training 1/3 epoch (loss 0.1345):  24%|██▎       | 4009/16950 [44:46<2:29:54,  1.44it/s]Training 1/3 epoch (loss 0.0652):  24%|██▎       | 4009/16950 [44:46<2:29:54,  1.44it/s]Training 1/3 epoch (loss 0.0652):  24%|██▎       | 4010/16950 [44:46<2:19:18,  1.55it/s]Training 1/3 epoch (loss 0.4605):  24%|██▎       | 4010/16950 [44:47<2:19:18,  1.55it/s]Training 1/3 epoch (loss 0.4605):  24%|██▎       | 4011/16950 [44:47<2:36:41,  1.38it/s]Training 1/3 epoch (loss 0.7509):  24%|██▎       | 4011/16950 [44:48<2:36:41,  1.38it/s]Training 1/3 epoch (loss 0.7509):  24%|██▎       | 4012/16950 [44:48<3:09:36,  1.14it/s]Training 1/3 epoch (loss 0.0213):  24%|██▎       | 4012/16950 [44:50<3:09:36,  1.14it/s]Training 1/3 epoch (loss 0.0213):  24%|██▎       | 4013/16950 [44:50<3:33:06,  1.01it/s]Training 1/3 epoch (loss 0.0012):  24%|██▎       | 4013/16950 [44:50<3:33:06,  1.01it/s]Training 1/3 epoch (loss 0.0012):  24%|██▎       | 4014/16950 [44:50<3:03:32,  1.17it/s]Training 1/3 epoch (loss 0.1181):  24%|██▎       | 4014/16950 [44:51<3:03:32,  1.17it/s]Training 1/3 epoch (loss 0.1181):  24%|██▎       | 4015/16950 [44:51<2:34:42,  1.39it/s]Training 1/3 epoch (loss 0.2009):  24%|██▎       | 4015/16950 [44:51<2:34:42,  1.39it/s]Training 1/3 epoch (loss 0.2009):  24%|██▎       | 4016/16950 [44:51<2:12:06,  1.63it/s]Training 1/3 epoch (loss 0.0776):  24%|██▎       | 4016/16950 [44:52<2:12:06,  1.63it/s]Training 1/3 epoch (loss 0.0776):  24%|██▎       | 4017/16950 [44:52<2:08:34,  1.68it/s]Training 1/3 epoch (loss 0.6497):  24%|██▎       | 4017/16950 [44:53<2:08:34,  1.68it/s]Training 1/3 epoch (loss 0.6497):  24%|██▎       | 4018/16950 [44:53<2:32:17,  1.42it/s]Training 1/3 epoch (loss 0.4210):  24%|██▎       | 4018/16950 [44:53<2:32:17,  1.42it/s]Training 1/3 epoch (loss 0.4210):  24%|██▎       | 4019/16950 [44:53<2:19:00,  1.55it/s]Training 1/3 epoch (loss 0.0037):  24%|██▎       | 4019/16950 [44:53<2:19:00,  1.55it/s]Training 1/3 epoch (loss 0.0037):  24%|██▎       | 4020/16950 [44:53<2:01:16,  1.78it/s]Training 1/3 epoch (loss 0.0313):  24%|██▎       | 4020/16950 [44:54<2:01:16,  1.78it/s]Training 1/3 epoch (loss 0.0313):  24%|██▎       | 4021/16950 [44:54<2:03:33,  1.74it/s]Training 1/3 epoch (loss 0.0031):  24%|██▎       | 4021/16950 [44:55<2:03:33,  1.74it/s]Training 1/3 epoch (loss 0.0031):  24%|██▎       | 4022/16950 [44:55<2:08:52,  1.67it/s]Training 1/3 epoch (loss 0.0096):  24%|██▎       | 4022/16950 [44:55<2:08:52,  1.67it/s]Training 1/3 epoch (loss 0.0096):  24%|██▎       | 4023/16950 [44:55<2:18:15,  1.56it/s]Training 1/3 epoch (loss 0.0017):  24%|██▎       | 4023/16950 [44:56<2:18:15,  1.56it/s]Training 1/3 epoch (loss 0.0017):  24%|██▎       | 4024/16950 [44:56<2:35:06,  1.39it/s]Training 1/3 epoch (loss 0.0015):  24%|██▎       | 4024/16950 [44:57<2:35:06,  1.39it/s]Training 1/3 epoch (loss 0.0015):  24%|██▎       | 4025/16950 [44:57<2:34:02,  1.40it/s]Training 1/3 epoch (loss 0.0022):  24%|██▎       | 4025/16950 [44:57<2:34:02,  1.40it/s]Training 1/3 epoch (loss 0.0022):  24%|██▍       | 4026/16950 [44:57<2:15:10,  1.59it/s]Training 1/3 epoch (loss 0.0422):  24%|██▍       | 4026/16950 [44:58<2:15:10,  1.59it/s]Training 1/3 epoch (loss 0.0422):  24%|██▍       | 4027/16950 [44:58<2:04:40,  1.73it/s]Training 1/3 epoch (loss 0.2946):  24%|██▍       | 4027/16950 [44:58<2:04:40,  1.73it/s]Training 1/3 epoch (loss 0.2946):  24%|██▍       | 4028/16950 [44:58<1:52:14,  1.92it/s]Training 1/3 epoch (loss 0.0403):  24%|██▍       | 4028/16950 [44:59<1:52:14,  1.92it/s]Training 1/3 epoch (loss 0.0403):  24%|██▍       | 4029/16950 [44:59<1:41:49,  2.11it/s]Training 1/3 epoch (loss 0.3852):  24%|██▍       | 4029/16950 [44:59<1:41:49,  2.11it/s]Training 1/3 epoch (loss 0.3852):  24%|██▍       | 4030/16950 [44:59<1:52:04,  1.92it/s]Training 1/3 epoch (loss 0.1818):  24%|██▍       | 4030/16950 [45:00<1:52:04,  1.92it/s]Training 1/3 epoch (loss 0.1818):  24%|██▍       | 4031/16950 [45:00<2:29:28,  1.44it/s]Training 1/3 epoch (loss 0.1428):  24%|██▍       | 4031/16950 [45:01<2:29:28,  1.44it/s]Training 1/3 epoch (loss 0.1428):  24%|██▍       | 4032/16950 [45:01<2:27:27,  1.46it/s]Training 1/3 epoch (loss 0.0211):  24%|██▍       | 4032/16950 [45:02<2:27:27,  1.46it/s]Training 1/3 epoch (loss 0.0211):  24%|██▍       | 4033/16950 [45:02<2:40:21,  1.34it/s]Training 1/3 epoch (loss 0.0003):  24%|██▍       | 4033/16950 [45:03<2:40:21,  1.34it/s]Training 1/3 epoch (loss 0.0003):  24%|██▍       | 4034/16950 [45:03<2:33:20,  1.40it/s]Training 1/3 epoch (loss 0.1329):  24%|██▍       | 4034/16950 [45:03<2:33:20,  1.40it/s]Training 1/3 epoch (loss 0.1329):  24%|██▍       | 4035/16950 [45:03<2:24:48,  1.49it/s]Training 1/3 epoch (loss 0.0004):  24%|██▍       | 4035/16950 [45:04<2:24:48,  1.49it/s]Training 1/3 epoch (loss 0.0004):  24%|██▍       | 4036/16950 [45:04<2:10:20,  1.65it/s]Training 1/3 epoch (loss 0.3585):  24%|██▍       | 4036/16950 [45:04<2:10:20,  1.65it/s]Training 1/3 epoch (loss 0.3585):  24%|██▍       | 4037/16950 [45:04<2:01:33,  1.77it/s]Training 1/3 epoch (loss 0.3881):  24%|██▍       | 4037/16950 [45:05<2:01:33,  1.77it/s]Training 1/3 epoch (loss 0.3881):  24%|██▍       | 4038/16950 [45:05<2:09:17,  1.66it/s]Training 1/3 epoch (loss 0.1166):  24%|██▍       | 4038/16950 [45:05<2:09:17,  1.66it/s]Training 1/3 epoch (loss 0.1166):  24%|██▍       | 4039/16950 [45:05<2:05:04,  1.72it/s]Training 1/3 epoch (loss 0.1165):  24%|██▍       | 4039/16950 [45:06<2:05:04,  1.72it/s]Training 1/3 epoch (loss 0.1165):  24%|██▍       | 4040/16950 [45:06<2:03:17,  1.75it/s]Training 1/3 epoch (loss 0.0224):  24%|██▍       | 4040/16950 [45:07<2:03:17,  1.75it/s]Training 1/3 epoch (loss 0.0224):  24%|██▍       | 4041/16950 [45:07<2:10:37,  1.65it/s]Training 1/3 epoch (loss 0.0109):  24%|██▍       | 4041/16950 [45:07<2:10:37,  1.65it/s]Training 1/3 epoch (loss 0.0109):  24%|██▍       | 4042/16950 [45:07<2:02:56,  1.75it/s]Training 1/3 epoch (loss 0.1418):  24%|██▍       | 4042/16950 [45:07<2:02:56,  1.75it/s]Training 1/3 epoch (loss 0.1418):  24%|██▍       | 4043/16950 [45:07<1:49:16,  1.97it/s]Training 1/3 epoch (loss 0.0005):  24%|██▍       | 4043/16950 [45:08<1:49:16,  1.97it/s]Training 1/3 epoch (loss 0.0005):  24%|██▍       | 4044/16950 [45:08<1:43:12,  2.08it/s]Training 1/3 epoch (loss 0.1594):  24%|██▍       | 4044/16950 [45:08<1:43:12,  2.08it/s]Training 1/3 epoch (loss 0.1594):  24%|██▍       | 4045/16950 [45:08<1:54:54,  1.87it/s]Training 1/3 epoch (loss 0.0203):  24%|██▍       | 4045/16950 [45:09<1:54:54,  1.87it/s]Training 1/3 epoch (loss 0.0203):  24%|██▍       | 4046/16950 [45:09<2:03:49,  1.74it/s]Training 1/3 epoch (loss 0.0148):  24%|██▍       | 4046/16950 [45:10<2:03:49,  1.74it/s]Training 1/3 epoch (loss 0.0148):  24%|██▍       | 4047/16950 [45:10<2:10:19,  1.65it/s]Training 1/3 epoch (loss 0.0065):  24%|██▍       | 4047/16950 [45:10<2:10:19,  1.65it/s]Training 1/3 epoch (loss 0.0065):  24%|██▍       | 4048/16950 [45:10<2:09:52,  1.66it/s]Training 1/3 epoch (loss 0.5362):  24%|██▍       | 4048/16950 [45:11<2:09:52,  1.66it/s]Training 1/3 epoch (loss 0.5362):  24%|██▍       | 4049/16950 [45:11<2:14:24,  1.60it/s]Training 1/3 epoch (loss 0.0005):  24%|██▍       | 4049/16950 [45:12<2:14:24,  1.60it/s]Training 1/3 epoch (loss 0.0005):  24%|██▍       | 4050/16950 [45:12<2:17:17,  1.57it/s]Training 1/3 epoch (loss nan):  24%|██▍       | 4050/16950 [45:13<2:17:17,  1.57it/s]   Training 1/3 epoch (loss nan):  24%|██▍       | 4051/16950 [45:13<2:50:12,  1.26it/s]Training 1/3 epoch (loss 0.0170):  24%|██▍       | 4051/16950 [45:13<2:50:12,  1.26it/s]Training 1/3 epoch (loss 0.0170):  24%|██▍       | 4052/16950 [45:13<2:38:19,  1.36it/s]Training 1/3 epoch (loss 0.2820):  24%|██▍       | 4052/16950 [45:14<2:38:19,  1.36it/s]Training 1/3 epoch (loss 0.2820):  24%|██▍       | 4053/16950 [45:14<2:11:38,  1.63it/s]Training 1/3 epoch (loss 0.3561):  24%|██▍       | 4053/16950 [45:14<2:11:38,  1.63it/s]Training 1/3 epoch (loss 0.3561):  24%|██▍       | 4054/16950 [45:14<2:10:35,  1.65it/s]Training 1/3 epoch (loss 0.0003):  24%|██▍       | 4054/16950 [45:15<2:10:35,  1.65it/s]Training 1/3 epoch (loss 0.0003):  24%|██▍       | 4055/16950 [45:15<2:11:43,  1.63it/s]Training 1/3 epoch (loss 0.0141):  24%|██▍       | 4055/16950 [45:16<2:11:43,  1.63it/s]Training 1/3 epoch (loss 0.0141):  24%|██▍       | 4056/16950 [45:16<2:18:18,  1.55it/s]Training 1/3 epoch (loss 0.0095):  24%|██▍       | 4056/16950 [45:16<2:18:18,  1.55it/s]Training 1/3 epoch (loss 0.0095):  24%|██▍       | 4057/16950 [45:16<2:22:10,  1.51it/s]Training 1/3 epoch (loss 0.0128):  24%|██▍       | 4057/16950 [45:17<2:22:10,  1.51it/s]Training 1/3 epoch (loss 0.0128):  24%|██▍       | 4058/16950 [45:17<2:14:36,  1.60it/s]Training 1/3 epoch (loss 0.0010):  24%|██▍       | 4058/16950 [45:17<2:14:36,  1.60it/s]Training 1/3 epoch (loss 0.0010):  24%|██▍       | 4059/16950 [45:17<2:04:56,  1.72it/s]Training 1/3 epoch (loss 0.0374):  24%|██▍       | 4059/16950 [45:18<2:04:56,  1.72it/s]Training 1/3 epoch (loss 0.0374):  24%|██▍       | 4060/16950 [45:18<1:55:07,  1.87it/s]Training 1/3 epoch (loss 0.0108):  24%|██▍       | 4060/16950 [45:18<1:55:07,  1.87it/s]Training 1/3 epoch (loss 0.0108):  24%|██▍       | 4061/16950 [45:18<1:43:36,  2.07it/s]Training 1/3 epoch (loss 0.5103):  24%|██▍       | 4061/16950 [45:19<1:43:36,  2.07it/s]Training 1/3 epoch (loss 0.5103):  24%|██▍       | 4062/16950 [45:19<2:19:01,  1.54it/s]Training 1/3 epoch (loss 0.1273):  24%|██▍       | 4062/16950 [45:20<2:19:01,  1.54it/s]Training 1/3 epoch (loss 0.1273):  24%|██▍       | 4063/16950 [45:20<2:19:19,  1.54it/s]Training 1/3 epoch (loss 0.0917):  24%|██▍       | 4063/16950 [45:21<2:19:19,  1.54it/s]Training 1/3 epoch (loss 0.0917):  24%|██▍       | 4064/16950 [45:21<2:16:06,  1.58it/s]Training 1/3 epoch (loss 0.0632):  24%|██▍       | 4064/16950 [45:21<2:16:06,  1.58it/s]Training 1/3 epoch (loss 0.0632):  24%|██▍       | 4065/16950 [45:21<2:21:13,  1.52it/s]Training 1/3 epoch (loss 0.0016):  24%|██▍       | 4065/16950 [45:22<2:21:13,  1.52it/s]Training 1/3 epoch (loss 0.0016):  24%|██▍       | 4066/16950 [45:22<2:11:30,  1.63it/s]Training 1/3 epoch (loss 0.0005):  24%|██▍       | 4066/16950 [45:22<2:11:30,  1.63it/s]Training 1/3 epoch (loss 0.0005):  24%|██▍       | 4067/16950 [45:22<2:08:57,  1.66it/s]Training 1/3 epoch (loss 0.0356):  24%|██▍       | 4067/16950 [45:23<2:08:57,  1.66it/s]Training 1/3 epoch (loss 0.0356):  24%|██▍       | 4068/16950 [45:23<2:14:39,  1.59it/s]Training 1/3 epoch (loss 0.4192):  24%|██▍       | 4068/16950 [45:24<2:14:39,  1.59it/s]Training 1/3 epoch (loss 0.4192):  24%|██▍       | 4069/16950 [45:24<2:43:51,  1.31it/s]Training 1/3 epoch (loss 0.1844):  24%|██▍       | 4069/16950 [45:25<2:43:51,  1.31it/s]Training 1/3 epoch (loss 0.1844):  24%|██▍       | 4070/16950 [45:25<2:37:47,  1.36it/s]Training 1/3 epoch (loss 0.3519):  24%|██▍       | 4070/16950 [45:25<2:37:47,  1.36it/s]Training 1/3 epoch (loss 0.3519):  24%|██▍       | 4071/16950 [45:25<2:19:29,  1.54it/s]Training 1/3 epoch (loss 0.0321):  24%|██▍       | 4071/16950 [45:26<2:19:29,  1.54it/s]Training 1/3 epoch (loss 0.0321):  24%|██▍       | 4072/16950 [45:26<2:52:10,  1.25it/s]Training 1/3 epoch (loss 0.3040):  24%|██▍       | 4072/16950 [45:27<2:52:10,  1.25it/s]Training 1/3 epoch (loss 0.3040):  24%|██▍       | 4073/16950 [45:27<2:37:12,  1.37it/s]Training 1/3 epoch (loss 0.6752):  24%|██▍       | 4073/16950 [45:28<2:37:12,  1.37it/s]Training 1/3 epoch (loss 0.6752):  24%|██▍       | 4074/16950 [45:28<2:42:31,  1.32it/s]Training 1/3 epoch (loss 0.0105):  24%|██▍       | 4074/16950 [45:28<2:42:31,  1.32it/s]Training 1/3 epoch (loss 0.0105):  24%|██▍       | 4075/16950 [45:28<2:30:28,  1.43it/s]Training 1/3 epoch (loss 0.6821):  24%|██▍       | 4075/16950 [45:29<2:30:28,  1.43it/s]Training 1/3 epoch (loss 0.6821):  24%|██▍       | 4076/16950 [45:29<2:22:38,  1.50it/s]Training 1/3 epoch (loss 1.1525):  24%|██▍       | 4076/16950 [45:30<2:22:38,  1.50it/s]Training 1/3 epoch (loss 1.1525):  24%|██▍       | 4077/16950 [45:30<2:24:45,  1.48it/s]Training 1/3 epoch (loss 0.2757):  24%|██▍       | 4077/16950 [45:30<2:24:45,  1.48it/s]Training 1/3 epoch (loss 0.2757):  24%|██▍       | 4078/16950 [45:30<2:14:13,  1.60it/s]Training 1/3 epoch (loss 0.5561):  24%|██▍       | 4078/16950 [45:31<2:14:13,  1.60it/s]Training 1/3 epoch (loss 0.5561):  24%|██▍       | 4079/16950 [45:31<2:25:24,  1.48it/s]Training 1/3 epoch (loss 0.1195):  24%|██▍       | 4079/16950 [45:32<2:25:24,  1.48it/s]Training 1/3 epoch (loss 0.1195):  24%|██▍       | 4080/16950 [45:32<2:25:14,  1.48it/s]Training 1/3 epoch (loss 0.2676):  24%|██▍       | 4080/16950 [45:32<2:25:14,  1.48it/s]Training 1/3 epoch (loss 0.2676):  24%|██▍       | 4081/16950 [45:32<2:27:59,  1.45it/s]Training 1/3 epoch (loss 0.1447):  24%|██▍       | 4081/16950 [45:33<2:27:59,  1.45it/s]Training 1/3 epoch (loss 0.1447):  24%|██▍       | 4082/16950 [45:33<2:14:40,  1.59it/s]Training 1/3 epoch (loss 0.5233):  24%|██▍       | 4082/16950 [45:33<2:14:40,  1.59it/s]Training 1/3 epoch (loss 0.5233):  24%|██▍       | 4083/16950 [45:33<1:55:31,  1.86it/s]Training 1/3 epoch (loss 0.3193):  24%|██▍       | 4083/16950 [45:34<1:55:31,  1.86it/s]Training 1/3 epoch (loss 0.3193):  24%|██▍       | 4084/16950 [45:34<2:22:59,  1.50it/s]Training 1/3 epoch (loss 0.0707):  24%|██▍       | 4084/16950 [45:35<2:22:59,  1.50it/s]Training 1/3 epoch (loss 0.0707):  24%|██▍       | 4085/16950 [45:35<2:26:53,  1.46it/s]Training 1/3 epoch (loss 0.3978):  24%|██▍       | 4085/16950 [45:36<2:26:53,  1.46it/s]Training 1/3 epoch (loss 0.3978):  24%|██▍       | 4086/16950 [45:36<2:27:01,  1.46it/s]Training 1/3 epoch (loss 0.0144):  24%|██▍       | 4086/16950 [45:36<2:27:01,  1.46it/s]Training 1/3 epoch (loss 0.0144):  24%|██▍       | 4087/16950 [45:36<2:46:11,  1.29it/s]Training 1/3 epoch (loss 0.0048):  24%|██▍       | 4087/16950 [45:37<2:46:11,  1.29it/s]Training 1/3 epoch (loss 0.0048):  24%|██▍       | 4088/16950 [45:37<2:47:55,  1.28it/s]Training 1/3 epoch (loss 0.0051):  24%|██▍       | 4088/16950 [45:38<2:47:55,  1.28it/s]Training 1/3 epoch (loss 0.0051):  24%|██▍       | 4089/16950 [45:38<2:32:40,  1.40it/s]Training 1/3 epoch (loss 0.4989):  24%|██▍       | 4089/16950 [45:39<2:32:40,  1.40it/s]Training 1/3 epoch (loss 0.4989):  24%|██▍       | 4090/16950 [45:39<2:42:29,  1.32it/s]Training 1/3 epoch (loss 0.2070):  24%|██▍       | 4090/16950 [45:40<2:42:29,  1.32it/s]Training 1/3 epoch (loss 0.2070):  24%|██▍       | 4091/16950 [45:40<2:52:00,  1.25it/s]Training 1/3 epoch (loss 0.0047):  24%|██▍       | 4091/16950 [45:40<2:52:00,  1.25it/s]Training 1/3 epoch (loss 0.0047):  24%|██▍       | 4092/16950 [45:40<2:46:48,  1.28it/s]Training 1/3 epoch (loss 0.5587):  24%|██▍       | 4092/16950 [45:41<2:46:48,  1.28it/s]Training 1/3 epoch (loss 0.5587):  24%|██▍       | 4093/16950 [45:41<2:30:50,  1.42it/s]Training 1/3 epoch (loss 0.3589):  24%|██▍       | 4093/16950 [45:41<2:30:50,  1.42it/s]Training 1/3 epoch (loss 0.3589):  24%|██▍       | 4094/16950 [45:41<2:08:28,  1.67it/s]Training 1/3 epoch (loss 0.0064):  24%|██▍       | 4094/16950 [45:42<2:08:28,  1.67it/s]Training 1/3 epoch (loss 0.0064):  24%|██▍       | 4095/16950 [45:42<2:03:40,  1.73it/s]Training 1/3 epoch (loss 0.3362):  24%|██▍       | 4095/16950 [45:42<2:03:40,  1.73it/s]Training 1/3 epoch (loss 0.3362):  24%|██▍       | 4096/16950 [45:42<2:02:30,  1.75it/s]Training 1/3 epoch (loss 0.0118):  24%|██▍       | 4096/16950 [45:43<2:02:30,  1.75it/s]Training 1/3 epoch (loss 0.0118):  24%|██▍       | 4097/16950 [45:43<2:07:25,  1.68it/s]Training 1/3 epoch (loss 0.4693):  24%|██▍       | 4097/16950 [45:43<2:07:25,  1.68it/s]Training 1/3 epoch (loss 0.4693):  24%|██▍       | 4098/16950 [45:43<1:53:04,  1.89it/s]Training 1/3 epoch (loss 0.0579):  24%|██▍       | 4098/16950 [45:44<1:53:04,  1.89it/s]Training 1/3 epoch (loss 0.0579):  24%|██▍       | 4099/16950 [45:44<2:14:12,  1.60it/s]Training 1/3 epoch (loss 0.2481):  24%|██▍       | 4099/16950 [45:45<2:14:12,  1.60it/s]Training 1/3 epoch (loss 0.2481):  24%|██▍       | 4100/16950 [45:45<2:22:57,  1.50it/s]Training 1/3 epoch (loss 0.1255):  24%|██▍       | 4100/16950 [45:46<2:22:57,  1.50it/s]Training 1/3 epoch (loss 0.1255):  24%|██▍       | 4101/16950 [45:46<2:21:40,  1.51it/s]Training 1/3 epoch (loss 0.0112):  24%|██▍       | 4101/16950 [45:46<2:21:40,  1.51it/s]Training 1/3 epoch (loss 0.0112):  24%|██▍       | 4102/16950 [45:46<2:17:52,  1.55it/s]Training 1/3 epoch (loss 0.4930):  24%|██▍       | 4102/16950 [45:47<2:17:52,  1.55it/s]Training 1/3 epoch (loss 0.4930):  24%|██▍       | 4103/16950 [45:47<2:51:28,  1.25it/s]Training 1/3 epoch (loss 0.2667):  24%|██▍       | 4103/16950 [45:48<2:51:28,  1.25it/s]Training 1/3 epoch (loss 0.2667):  24%|██▍       | 4104/16950 [45:48<2:31:55,  1.41it/s]Training 1/3 epoch (loss 0.0775):  24%|██▍       | 4104/16950 [45:48<2:31:55,  1.41it/s]Training 1/3 epoch (loss 0.0775):  24%|██▍       | 4105/16950 [45:48<2:24:31,  1.48it/s]Training 1/3 epoch (loss 0.0028):  24%|██▍       | 4105/16950 [45:49<2:24:31,  1.48it/s]Training 1/3 epoch (loss 0.0028):  24%|██▍       | 4106/16950 [45:49<2:07:54,  1.67it/s]Training 1/3 epoch (loss 0.1630):  24%|██▍       | 4106/16950 [45:49<2:07:54,  1.67it/s]Training 1/3 epoch (loss 0.1630):  24%|██▍       | 4107/16950 [45:49<1:58:29,  1.81it/s]Training 1/3 epoch (loss 0.0029):  24%|██▍       | 4107/16950 [45:50<1:58:29,  1.81it/s]Training 1/3 epoch (loss 0.0029):  24%|██▍       | 4108/16950 [45:50<1:49:59,  1.95it/s]Training 1/3 epoch (loss 0.5937):  24%|██▍       | 4108/16950 [45:51<1:49:59,  1.95it/s]Training 1/3 epoch (loss 0.5937):  24%|██▍       | 4109/16950 [45:51<2:07:51,  1.67it/s]Training 1/3 epoch (loss 0.0006):  24%|██▍       | 4109/16950 [45:51<2:07:51,  1.67it/s]Training 1/3 epoch (loss 0.0006):  24%|██▍       | 4110/16950 [45:51<2:00:47,  1.77it/s]Training 1/3 epoch (loss 0.0118):  24%|██▍       | 4110/16950 [45:51<2:00:47,  1.77it/s]Training 1/3 epoch (loss 0.0118):  24%|██▍       | 4111/16950 [45:51<1:53:05,  1.89it/s]Training 1/3 epoch (loss 0.1258):  24%|██▍       | 4111/16950 [45:52<1:53:05,  1.89it/s]Training 1/3 epoch (loss 0.1258):  24%|██▍       | 4112/16950 [45:52<2:01:17,  1.76it/s]Training 1/3 epoch (loss 0.0267):  24%|██▍       | 4112/16950 [45:53<2:01:17,  1.76it/s]Training 1/3 epoch (loss 0.0267):  24%|██▍       | 4113/16950 [45:53<2:08:38,  1.66it/s]Training 1/3 epoch (loss 0.2415):  24%|██▍       | 4113/16950 [45:54<2:08:38,  1.66it/s]Training 1/3 epoch (loss 0.2415):  24%|██▍       | 4114/16950 [45:54<2:26:23,  1.46it/s]Training 1/3 epoch (loss 0.0289):  24%|██▍       | 4114/16950 [45:54<2:26:23,  1.46it/s]Training 1/3 epoch (loss 0.0289):  24%|██▍       | 4115/16950 [45:54<2:24:17,  1.48it/s]Training 1/3 epoch (loss 0.0187):  24%|██▍       | 4115/16950 [45:55<2:24:17,  1.48it/s]Training 1/3 epoch (loss 0.0187):  24%|██▍       | 4116/16950 [45:55<2:21:12,  1.51it/s]Training 1/3 epoch (loss 0.0094):  24%|██▍       | 4116/16950 [45:55<2:21:12,  1.51it/s]Training 1/3 epoch (loss 0.0094):  24%|██▍       | 4117/16950 [45:55<2:05:31,  1.70it/s]Training 1/3 epoch (loss 0.0003):  24%|██▍       | 4117/16950 [45:56<2:05:31,  1.70it/s]Training 1/3 epoch (loss 0.0003):  24%|██▍       | 4118/16950 [45:56<1:52:17,  1.90it/s]Training 1/3 epoch (loss 0.0117):  24%|██▍       | 4118/16950 [45:56<1:52:17,  1.90it/s]Training 1/3 epoch (loss 0.0117):  24%|██▍       | 4119/16950 [45:56<1:53:30,  1.88it/s]Training 1/3 epoch (loss 0.3516):  24%|██▍       | 4119/16950 [45:57<1:53:30,  1.88it/s]Training 1/3 epoch (loss 0.3516):  24%|██▍       | 4120/16950 [45:57<2:05:16,  1.71it/s]Training 1/3 epoch (loss 0.1496):  24%|██▍       | 4120/16950 [45:58<2:05:16,  1.71it/s]Training 1/3 epoch (loss 0.1496):  24%|██▍       | 4121/16950 [45:58<2:15:00,  1.58it/s]Training 1/3 epoch (loss 0.0843):  24%|██▍       | 4121/16950 [45:59<2:15:00,  1.58it/s]Training 1/3 epoch (loss 0.0843):  24%|██▍       | 4122/16950 [45:59<2:25:16,  1.47it/s]Training 1/3 epoch (loss 0.0060):  24%|██▍       | 4122/16950 [46:00<2:25:16,  1.47it/s]Training 1/3 epoch (loss 0.0060):  24%|██▍       | 4123/16950 [46:00<2:56:19,  1.21it/s]Training 1/3 epoch (loss 0.0008):  24%|██▍       | 4123/16950 [46:00<2:56:19,  1.21it/s]Training 1/3 epoch (loss 0.0008):  24%|██▍       | 4124/16950 [46:00<2:25:24,  1.47it/s]Training 1/3 epoch (loss 0.4219):  24%|██▍       | 4124/16950 [46:01<2:25:24,  1.47it/s]Training 1/3 epoch (loss 0.4219):  24%|██▍       | 4125/16950 [46:01<2:37:33,  1.36it/s]Training 1/3 epoch (loss 0.5385):  24%|██▍       | 4125/16950 [46:02<2:37:33,  1.36it/s]Training 1/3 epoch (loss 0.5385):  24%|██▍       | 4126/16950 [46:02<2:55:53,  1.22it/s]Training 1/3 epoch (loss 0.6814):  24%|██▍       | 4126/16950 [46:03<2:55:53,  1.22it/s]Training 1/3 epoch (loss 0.6814):  24%|██▍       | 4127/16950 [46:03<2:44:57,  1.30it/s]Training 1/3 epoch (loss 0.3497):  24%|██▍       | 4127/16950 [46:03<2:44:57,  1.30it/s]Training 1/3 epoch (loss 0.3497):  24%|██▍       | 4128/16950 [46:03<2:29:16,  1.43it/s]Training 1/3 epoch (loss 0.0620):  24%|██▍       | 4128/16950 [46:04<2:29:16,  1.43it/s]Training 1/3 epoch (loss 0.0620):  24%|██▍       | 4129/16950 [46:04<2:16:20,  1.57it/s]Training 1/3 epoch (loss 0.6462):  24%|██▍       | 4129/16950 [46:04<2:16:20,  1.57it/s]Training 1/3 epoch (loss 0.6462):  24%|██▍       | 4130/16950 [46:04<2:08:33,  1.66it/s]Training 1/3 epoch (loss 0.0011):  24%|██▍       | 4130/16950 [46:05<2:08:33,  1.66it/s]Training 1/3 epoch (loss 0.0011):  24%|██▍       | 4131/16950 [46:05<1:55:27,  1.85it/s]Training 1/3 epoch (loss 0.2944):  24%|██▍       | 4131/16950 [46:05<1:55:27,  1.85it/s]Training 1/3 epoch (loss 0.2944):  24%|██▍       | 4132/16950 [46:05<1:43:49,  2.06it/s]Training 1/3 epoch (loss 0.0087):  24%|██▍       | 4132/16950 [46:06<1:43:49,  2.06it/s]Training 1/3 epoch (loss 0.0087):  24%|██▍       | 4133/16950 [46:06<1:51:51,  1.91it/s]Training 1/3 epoch (loss 0.0374):  24%|██▍       | 4133/16950 [46:06<1:51:51,  1.91it/s]Training 1/3 epoch (loss 0.0374):  24%|██▍       | 4134/16950 [46:06<2:02:08,  1.75it/s]Training 1/3 epoch (loss 0.0036):  24%|██▍       | 4134/16950 [46:07<2:02:08,  1.75it/s]Training 1/3 epoch (loss 0.0036):  24%|██▍       | 4135/16950 [46:07<2:02:55,  1.74it/s]Training 1/3 epoch (loss 0.3166):  24%|██▍       | 4135/16950 [46:07<2:02:55,  1.74it/s]Training 1/3 epoch (loss 0.3166):  24%|██▍       | 4136/16950 [46:07<2:04:02,  1.72it/s]Training 1/3 epoch (loss 0.1420):  24%|██▍       | 4136/16950 [46:08<2:04:02,  1.72it/s]Training 1/3 epoch (loss 0.1420):  24%|██▍       | 4137/16950 [46:08<2:01:39,  1.76it/s]Training 1/3 epoch (loss 0.8352):  24%|██▍       | 4137/16950 [46:08<2:01:39,  1.76it/s]Training 1/3 epoch (loss 0.8352):  24%|██▍       | 4138/16950 [46:08<1:59:24,  1.79it/s]Training 1/3 epoch (loss 0.0214):  24%|██▍       | 4138/16950 [46:09<1:59:24,  1.79it/s]Training 1/3 epoch (loss 0.0214):  24%|██▍       | 4139/16950 [46:09<1:56:57,  1.83it/s]Training 1/3 epoch (loss 0.2351):  24%|██▍       | 4139/16950 [46:09<1:56:57,  1.83it/s]Training 1/3 epoch (loss 0.2351):  24%|██▍       | 4140/16950 [46:09<1:51:19,  1.92it/s]Training 1/3 epoch (loss 0.6039):  24%|██▍       | 4140/16950 [46:10<1:51:19,  1.92it/s]Training 1/3 epoch (loss 0.6039):  24%|██▍       | 4141/16950 [46:10<1:58:22,  1.80it/s]Training 1/3 epoch (loss 0.0048):  24%|██▍       | 4141/16950 [46:11<1:58:22,  1.80it/s]Training 1/3 epoch (loss 0.0048):  24%|██▍       | 4142/16950 [46:11<2:05:20,  1.70it/s]Training 1/3 epoch (loss 0.0366):  24%|██▍       | 4142/16950 [46:11<2:05:20,  1.70it/s]Training 1/3 epoch (loss 0.0366):  24%|██▍       | 4143/16950 [46:11<1:59:01,  1.79it/s]Training 1/3 epoch (loss 0.0295):  24%|██▍       | 4143/16950 [46:12<1:59:01,  1.79it/s]Training 1/3 epoch (loss 0.0295):  24%|██▍       | 4144/16950 [46:12<1:55:19,  1.85it/s]Training 1/3 epoch (loss 0.2189):  24%|██▍       | 4144/16950 [46:12<1:55:19,  1.85it/s]Training 1/3 epoch (loss 0.2189):  24%|██▍       | 4145/16950 [46:12<1:49:45,  1.94it/s]Training 1/3 epoch (loss 0.0021):  24%|██▍       | 4145/16950 [46:13<1:49:45,  1.94it/s]Training 1/3 epoch (loss 0.0021):  24%|██▍       | 4146/16950 [46:13<1:55:28,  1.85it/s]Training 1/3 epoch (loss 0.0022):  24%|██▍       | 4146/16950 [46:13<1:55:28,  1.85it/s]Training 1/3 epoch (loss 0.0022):  24%|██▍       | 4147/16950 [46:13<1:50:26,  1.93it/s]Training 1/3 epoch (loss 0.0045):  24%|██▍       | 4147/16950 [46:14<1:50:26,  1.93it/s]Training 1/3 epoch (loss 0.0045):  24%|██▍       | 4148/16950 [46:14<1:40:22,  2.13it/s]Training 1/3 epoch (loss 0.0678):  24%|██▍       | 4148/16950 [46:14<1:40:22,  2.13it/s]Training 1/3 epoch (loss 0.0678):  24%|██▍       | 4149/16950 [46:14<1:45:48,  2.02it/s]Training 1/3 epoch (loss 0.0106):  24%|██▍       | 4149/16950 [46:15<1:45:48,  2.02it/s]Training 1/3 epoch (loss 0.0106):  24%|██▍       | 4150/16950 [46:15<1:46:21,  2.01it/s]Training 1/3 epoch (loss 0.0244):  24%|██▍       | 4150/16950 [46:15<1:46:21,  2.01it/s]Training 1/3 epoch (loss 0.0244):  24%|██▍       | 4151/16950 [46:15<1:44:58,  2.03it/s]Training 1/3 epoch (loss 0.8388):  24%|██▍       | 4151/16950 [46:16<1:44:58,  2.03it/s]Training 1/3 epoch (loss 0.8388):  24%|██▍       | 4152/16950 [46:16<1:48:28,  1.97it/s]Training 1/3 epoch (loss 0.1128):  24%|██▍       | 4152/16950 [46:16<1:48:28,  1.97it/s]Training 1/3 epoch (loss 0.1128):  25%|██▍       | 4153/16950 [46:16<1:47:36,  1.98it/s]Training 1/3 epoch (loss 0.1179):  25%|██▍       | 4153/16950 [46:17<1:47:36,  1.98it/s]Training 1/3 epoch (loss 0.1179):  25%|██▍       | 4154/16950 [46:17<1:56:38,  1.83it/s]Training 1/3 epoch (loss 0.4628):  25%|██▍       | 4154/16950 [46:18<1:56:38,  1.83it/s]Training 1/3 epoch (loss 0.4628):  25%|██▍       | 4155/16950 [46:18<2:18:26,  1.54it/s]Training 1/3 epoch (loss 0.0072):  25%|██▍       | 4155/16950 [46:18<2:18:26,  1.54it/s]Training 1/3 epoch (loss 0.0072):  25%|██▍       | 4156/16950 [46:18<2:13:54,  1.59it/s]Training 1/3 epoch (loss 0.0635):  25%|██▍       | 4156/16950 [46:19<2:13:54,  1.59it/s]Training 1/3 epoch (loss 0.0635):  25%|██▍       | 4157/16950 [46:19<2:07:38,  1.67it/s]Training 1/3 epoch (loss 0.2357):  25%|██▍       | 4157/16950 [46:19<2:07:38,  1.67it/s]Training 1/3 epoch (loss 0.2357):  25%|██▍       | 4158/16950 [46:19<2:01:11,  1.76it/s]Training 1/3 epoch (loss 0.5531):  25%|██▍       | 4158/16950 [46:20<2:01:11,  1.76it/s]Training 1/3 epoch (loss 0.5531):  25%|██▍       | 4159/16950 [46:20<1:50:34,  1.93it/s]Training 1/3 epoch (loss 0.1403):  25%|██▍       | 4159/16950 [46:21<1:50:34,  1.93it/s]Training 1/3 epoch (loss 0.1403):  25%|██▍       | 4160/16950 [46:21<2:10:28,  1.63it/s]Training 1/3 epoch (loss 0.0193):  25%|██▍       | 4160/16950 [46:21<2:10:28,  1.63it/s]Training 1/3 epoch (loss 0.0193):  25%|██▍       | 4161/16950 [46:21<2:07:11,  1.68it/s]Training 1/3 epoch (loss 0.0082):  25%|██▍       | 4161/16950 [46:22<2:07:11,  1.68it/s]Training 1/3 epoch (loss 0.0082):  25%|██▍       | 4162/16950 [46:22<2:06:40,  1.68it/s]Training 1/3 epoch (loss 0.3176):  25%|██▍       | 4162/16950 [46:22<2:06:40,  1.68it/s]Training 1/3 epoch (loss 0.3176):  25%|██▍       | 4163/16950 [46:22<2:05:43,  1.70it/s]Training 1/3 epoch (loss 0.2085):  25%|██▍       | 4163/16950 [46:23<2:05:43,  1.70it/s]Training 1/3 epoch (loss 0.2085):  25%|██▍       | 4164/16950 [46:23<1:50:30,  1.93it/s]Training 1/3 epoch (loss 0.0236):  25%|██▍       | 4164/16950 [46:23<1:50:30,  1.93it/s]Training 1/3 epoch (loss 0.0236):  25%|██▍       | 4165/16950 [46:23<1:57:48,  1.81it/s]Training 1/3 epoch (loss 0.6667):  25%|██▍       | 4165/16950 [46:24<1:57:48,  1.81it/s]Training 1/3 epoch (loss 0.6667):  25%|██▍       | 4166/16950 [46:24<1:57:20,  1.82it/s]Training 1/3 epoch (loss 0.4632):  25%|██▍       | 4166/16950 [46:24<1:57:20,  1.82it/s]Training 1/3 epoch (loss 0.4632):  25%|██▍       | 4167/16950 [46:24<1:51:18,  1.91it/s]Training 1/3 epoch (loss 0.0035):  25%|██▍       | 4167/16950 [46:25<1:51:18,  1.91it/s]Training 1/3 epoch (loss 0.0035):  25%|██▍       | 4168/16950 [46:25<1:43:23,  2.06it/s]Training 1/3 epoch (loss 0.4004):  25%|██▍       | 4168/16950 [46:25<1:43:23,  2.06it/s]Training 1/3 epoch (loss 0.4004):  25%|██▍       | 4169/16950 [46:25<2:02:04,  1.74it/s]Training 1/3 epoch (loss 0.0387):  25%|██▍       | 4169/16950 [46:26<2:02:04,  1.74it/s]Training 1/3 epoch (loss 0.0387):  25%|██▍       | 4170/16950 [46:26<2:27:38,  1.44it/s]Training 1/3 epoch (loss 0.0594):  25%|██▍       | 4170/16950 [46:27<2:27:38,  1.44it/s]Training 1/3 epoch (loss 0.0594):  25%|██▍       | 4171/16950 [46:27<2:21:13,  1.51it/s]Training 1/3 epoch (loss 0.0458):  25%|██▍       | 4171/16950 [46:28<2:21:13,  1.51it/s]Training 1/3 epoch (loss 0.0458):  25%|██▍       | 4172/16950 [46:28<2:19:36,  1.53it/s]Training 1/3 epoch (loss 0.0734):  25%|██▍       | 4172/16950 [46:28<2:19:36,  1.53it/s]Training 1/3 epoch (loss 0.0734):  25%|██▍       | 4173/16950 [46:28<2:05:47,  1.69it/s]Training 1/3 epoch (loss 0.0087):  25%|██▍       | 4173/16950 [46:29<2:05:47,  1.69it/s]Training 1/3 epoch (loss 0.0087):  25%|██▍       | 4174/16950 [46:29<1:57:41,  1.81it/s]Training 1/3 epoch (loss 0.0018):  25%|██▍       | 4174/16950 [46:29<1:57:41,  1.81it/s]Training 1/3 epoch (loss 0.0018):  25%|██▍       | 4175/16950 [46:29<2:04:11,  1.71it/s]Training 1/3 epoch (loss nan):  25%|██▍       | 4175/16950 [46:30<2:04:11,  1.71it/s]   Training 1/3 epoch (loss nan):  25%|██▍       | 4176/16950 [46:30<2:40:13,  1.33it/s]Training 1/3 epoch (loss 0.1742):  25%|██▍       | 4176/16950 [46:31<2:40:13,  1.33it/s]Training 1/3 epoch (loss 0.1742):  25%|██▍       | 4177/16950 [46:31<2:37:48,  1.35it/s]Training 1/3 epoch (loss 0.0284):  25%|██▍       | 4177/16950 [46:32<2:37:48,  1.35it/s]Training 1/3 epoch (loss 0.0284):  25%|██▍       | 4178/16950 [46:32<2:20:15,  1.52it/s]Training 1/3 epoch (loss 0.0010):  25%|██▍       | 4178/16950 [46:32<2:20:15,  1.52it/s]Training 1/3 epoch (loss 0.0010):  25%|██▍       | 4179/16950 [46:32<2:16:57,  1.55it/s]Training 1/3 epoch (loss 0.0330):  25%|██▍       | 4179/16950 [46:33<2:16:57,  1.55it/s]Training 1/3 epoch (loss 0.0330):  25%|██▍       | 4180/16950 [46:33<2:06:20,  1.68it/s]Training 1/3 epoch (loss 0.0058):  25%|██▍       | 4180/16950 [46:33<2:06:20,  1.68it/s]Training 1/3 epoch (loss 0.0058):  25%|██▍       | 4181/16950 [46:33<1:54:37,  1.86it/s]Training 1/3 epoch (loss 0.1803):  25%|██▍       | 4181/16950 [46:34<1:54:37,  1.86it/s]Training 1/3 epoch (loss 0.1803):  25%|██▍       | 4182/16950 [46:34<1:57:13,  1.82it/s]Training 1/3 epoch (loss 0.3012):  25%|██▍       | 4182/16950 [46:34<1:57:13,  1.82it/s]Training 1/3 epoch (loss 0.3012):  25%|██▍       | 4183/16950 [46:34<1:54:29,  1.86it/s]Training 1/3 epoch (loss 0.5373):  25%|██▍       | 4183/16950 [46:35<1:54:29,  1.86it/s]Training 1/3 epoch (loss 0.5373):  25%|██▍       | 4184/16950 [46:35<1:53:34,  1.87it/s]Training 1/3 epoch (loss 0.0562):  25%|██▍       | 4184/16950 [46:35<1:53:34,  1.87it/s]Training 1/3 epoch (loss 0.0562):  25%|██▍       | 4185/16950 [46:35<1:45:26,  2.02it/s]Training 1/3 epoch (loss 0.0007):  25%|██▍       | 4185/16950 [46:35<1:45:26,  2.02it/s]Training 1/3 epoch (loss 0.0007):  25%|██▍       | 4186/16950 [46:35<1:38:01,  2.17it/s]Training 1/3 epoch (loss 0.0170):  25%|██▍       | 4186/16950 [46:36<1:38:01,  2.17it/s]Training 1/3 epoch (loss 0.0170):  25%|██▍       | 4187/16950 [46:36<1:43:55,  2.05it/s]Training 1/3 epoch (loss 0.0602):  25%|██▍       | 4187/16950 [46:37<1:43:55,  2.05it/s]Training 1/3 epoch (loss 0.0602):  25%|██▍       | 4188/16950 [46:37<1:50:21,  1.93it/s]Training 1/3 epoch (loss 0.6071):  25%|██▍       | 4188/16950 [46:37<1:50:21,  1.93it/s]Training 1/3 epoch (loss 0.6071):  25%|██▍       | 4189/16950 [46:37<1:44:24,  2.04it/s]Training 1/3 epoch (loss 0.0231):  25%|██▍       | 4189/16950 [46:37<1:44:24,  2.04it/s]Training 1/3 epoch (loss 0.0231):  25%|██▍       | 4190/16950 [46:37<1:42:23,  2.08it/s]Training 1/3 epoch (loss 0.0645):  25%|██▍       | 4190/16950 [46:38<1:42:23,  2.08it/s]Training 1/3 epoch (loss 0.0645):  25%|██▍       | 4191/16950 [46:38<1:33:13,  2.28it/s]Training 1/3 epoch (loss 0.3574):  25%|██▍       | 4191/16950 [46:39<1:33:13,  2.28it/s]Training 1/3 epoch (loss 0.3574):  25%|██▍       | 4192/16950 [46:39<1:58:47,  1.79it/s]Training 1/3 epoch (loss 0.1067):  25%|██▍       | 4192/16950 [46:39<1:58:47,  1.79it/s]Training 1/3 epoch (loss 0.1067):  25%|██▍       | 4193/16950 [46:39<1:57:42,  1.81it/s]Training 1/3 epoch (loss 0.0797):  25%|██▍       | 4193/16950 [46:40<1:57:42,  1.81it/s]Training 1/3 epoch (loss 0.0797):  25%|██▍       | 4194/16950 [46:40<1:56:16,  1.83it/s]Training 1/3 epoch (loss 0.2280):  25%|██▍       | 4194/16950 [46:40<1:56:16,  1.83it/s]Training 1/3 epoch (loss 0.2280):  25%|██▍       | 4195/16950 [46:40<1:47:56,  1.97it/s]Training 1/3 epoch (loss 0.6704):  25%|██▍       | 4195/16950 [46:41<1:47:56,  1.97it/s]Training 1/3 epoch (loss 0.6704):  25%|██▍       | 4196/16950 [46:41<1:56:35,  1.82it/s]Training 1/3 epoch (loss 0.1201):  25%|██▍       | 4196/16950 [46:41<1:56:35,  1.82it/s]Training 1/3 epoch (loss 0.1201):  25%|██▍       | 4197/16950 [46:41<1:58:04,  1.80it/s]Training 1/3 epoch (loss 0.0019):  25%|██▍       | 4197/16950 [46:42<1:58:04,  1.80it/s]Training 1/3 epoch (loss 0.0019):  25%|██▍       | 4198/16950 [46:42<1:51:55,  1.90it/s]Training 1/3 epoch (loss 0.2316):  25%|██▍       | 4198/16950 [46:43<1:51:55,  1.90it/s]Training 1/3 epoch (loss 0.2316):  25%|██▍       | 4199/16950 [46:43<2:24:33,  1.47it/s]Training 1/3 epoch (loss 0.5233):  25%|██▍       | 4199/16950 [46:44<2:24:33,  1.47it/s]Training 1/3 epoch (loss 0.5233):  25%|██▍       | 4200/16950 [46:44<2:48:05,  1.26it/s]Training 1/3 epoch (loss 0.0758):  25%|██▍       | 4200/16950 [46:45<2:48:05,  1.26it/s]Training 1/3 epoch (loss 0.0758):  25%|██▍       | 4201/16950 [46:45<2:51:25,  1.24it/s]Training 1/3 epoch (loss 0.1327):  25%|██▍       | 4201/16950 [46:45<2:51:25,  1.24it/s]Training 1/3 epoch (loss 0.1327):  25%|██▍       | 4202/16950 [46:45<2:34:23,  1.38it/s]Training 1/3 epoch (loss 0.0143):  25%|██▍       | 4202/16950 [46:46<2:34:23,  1.38it/s]Training 1/3 epoch (loss 0.0143):  25%|██▍       | 4203/16950 [46:46<2:12:18,  1.61it/s]Training 1/3 epoch (loss 0.0008):  25%|██▍       | 4203/16950 [46:46<2:12:18,  1.61it/s]Training 1/3 epoch (loss 0.0008):  25%|██▍       | 4204/16950 [46:46<2:12:53,  1.60it/s]Training 1/3 epoch (loss 0.3814):  25%|██▍       | 4204/16950 [46:47<2:12:53,  1.60it/s]Training 1/3 epoch (loss 0.3814):  25%|██▍       | 4205/16950 [46:47<2:26:24,  1.45it/s]Training 1/3 epoch (loss 0.0301):  25%|██▍       | 4205/16950 [46:48<2:26:24,  1.45it/s]Training 1/3 epoch (loss 0.0301):  25%|██▍       | 4206/16950 [46:48<2:17:18,  1.55it/s]Training 1/3 epoch (loss 0.0791):  25%|██▍       | 4206/16950 [46:48<2:17:18,  1.55it/s]Training 1/3 epoch (loss 0.0791):  25%|██▍       | 4207/16950 [46:48<2:15:43,  1.56it/s]Training 1/3 epoch (loss 0.1151):  25%|██▍       | 4207/16950 [46:49<2:15:43,  1.56it/s]Training 1/3 epoch (loss 0.1151):  25%|██▍       | 4208/16950 [46:49<2:23:11,  1.48it/s]Training 1/3 epoch (loss 0.5657):  25%|██▍       | 4208/16950 [46:50<2:23:11,  1.48it/s]Training 1/3 epoch (loss 0.5657):  25%|██▍       | 4209/16950 [46:50<2:27:30,  1.44it/s]Training 1/3 epoch (loss 0.1075):  25%|██▍       | 4209/16950 [46:50<2:27:30,  1.44it/s]Training 1/3 epoch (loss 0.1075):  25%|██▍       | 4210/16950 [46:50<2:14:50,  1.57it/s]Training 1/3 epoch (loss 0.0722):  25%|██▍       | 4210/16950 [46:51<2:14:50,  1.57it/s]Training 1/3 epoch (loss 0.0722):  25%|██▍       | 4211/16950 [46:51<1:59:00,  1.78it/s]Training 1/3 epoch (loss 0.0412):  25%|██▍       | 4211/16950 [46:51<1:59:00,  1.78it/s]Training 1/3 epoch (loss 0.0412):  25%|██▍       | 4212/16950 [46:51<1:58:39,  1.79it/s]Training 1/3 epoch (loss 0.0221):  25%|██▍       | 4212/16950 [46:52<1:58:39,  1.79it/s]Training 1/3 epoch (loss 0.0221):  25%|██▍       | 4213/16950 [46:52<2:06:06,  1.68it/s]Training 1/3 epoch (loss 0.0120):  25%|██▍       | 4213/16950 [46:52<2:06:06,  1.68it/s]Training 1/3 epoch (loss 0.0120):  25%|██▍       | 4214/16950 [46:52<1:58:47,  1.79it/s]Training 1/3 epoch (loss 0.5475):  25%|██▍       | 4214/16950 [46:53<1:58:47,  1.79it/s]Training 1/3 epoch (loss 0.5475):  25%|██▍       | 4215/16950 [46:53<2:02:23,  1.73it/s]Training 1/3 epoch (loss 0.5618):  25%|██▍       | 4215/16950 [46:54<2:02:23,  1.73it/s]Training 1/3 epoch (loss 0.5618):  25%|██▍       | 4216/16950 [46:54<2:03:31,  1.72it/s]Training 1/3 epoch (loss 0.0216):  25%|██▍       | 4216/16950 [46:54<2:03:31,  1.72it/s]Training 1/3 epoch (loss 0.0216):  25%|██▍       | 4217/16950 [46:54<1:54:33,  1.85it/s]Training 1/3 epoch (loss 0.0413):  25%|██▍       | 4217/16950 [46:55<1:54:33,  1.85it/s]Training 1/3 epoch (loss 0.0413):  25%|██▍       | 4218/16950 [46:55<2:01:38,  1.74it/s]Training 1/3 epoch (loss 0.4145):  25%|██▍       | 4218/16950 [46:55<2:01:38,  1.74it/s]Training 1/3 epoch (loss 0.4145):  25%|██▍       | 4219/16950 [46:55<1:54:20,  1.86it/s]Training 1/3 epoch (loss 0.3818):  25%|██▍       | 4219/16950 [46:56<1:54:20,  1.86it/s]Training 1/3 epoch (loss 0.3818):  25%|██▍       | 4220/16950 [46:56<1:53:43,  1.87it/s]Training 1/3 epoch (loss 0.1129):  25%|██▍       | 4220/16950 [46:56<1:53:43,  1.87it/s]Training 1/3 epoch (loss 0.1129):  25%|██▍       | 4221/16950 [46:56<1:52:14,  1.89it/s]Training 1/3 epoch (loss 0.3905):  25%|██▍       | 4221/16950 [46:57<1:52:14,  1.89it/s]Training 1/3 epoch (loss 0.3905):  25%|██▍       | 4222/16950 [46:57<2:04:41,  1.70it/s]Training 1/3 epoch (loss 0.0094):  25%|██▍       | 4222/16950 [46:57<2:04:41,  1.70it/s]Training 1/3 epoch (loss 0.0094):  25%|██▍       | 4223/16950 [46:57<2:04:43,  1.70it/s]Training 1/3 epoch (loss 0.5750):  25%|██▍       | 4223/16950 [46:58<2:04:43,  1.70it/s]Training 1/3 epoch (loss 0.5750):  25%|██▍       | 4224/16950 [46:58<1:55:34,  1.84it/s]Training 1/3 epoch (loss 0.5028):  25%|██▍       | 4224/16950 [46:59<1:55:34,  1.84it/s]Training 1/3 epoch (loss 0.5028):  25%|██▍       | 4225/16950 [46:59<2:34:20,  1.37it/s]Training 1/3 epoch (loss 0.0332):  25%|██▍       | 4225/16950 [47:00<2:34:20,  1.37it/s]Training 1/3 epoch (loss 0.0332):  25%|██▍       | 4226/16950 [47:00<2:19:55,  1.52it/s]Training 1/3 epoch (loss 0.0277):  25%|██▍       | 4226/16950 [47:00<2:19:55,  1.52it/s]Training 1/3 epoch (loss 0.0277):  25%|██▍       | 4227/16950 [47:00<2:25:55,  1.45it/s]Training 1/3 epoch (loss 0.3917):  25%|██▍       | 4227/16950 [47:01<2:25:55,  1.45it/s]Training 1/3 epoch (loss 0.3917):  25%|██▍       | 4228/16950 [47:01<2:15:07,  1.57it/s]Training 1/3 epoch (loss 0.0243):  25%|██▍       | 4228/16950 [47:01<2:15:07,  1.57it/s]Training 1/3 epoch (loss 0.0243):  25%|██▍       | 4229/16950 [47:01<2:06:57,  1.67it/s]Training 1/3 epoch (loss 0.0114):  25%|██▍       | 4229/16950 [47:02<2:06:57,  1.67it/s]Training 1/3 epoch (loss 0.0114):  25%|██▍       | 4230/16950 [47:02<2:04:53,  1.70it/s]Training 1/3 epoch (loss 0.5244):  25%|██▍       | 4230/16950 [47:02<2:04:53,  1.70it/s]Training 1/3 epoch (loss 0.5244):  25%|██▍       | 4231/16950 [47:02<1:56:49,  1.81it/s]Training 1/3 epoch (loss 0.2865):  25%|██▍       | 4231/16950 [47:03<1:56:49,  1.81it/s]Training 1/3 epoch (loss 0.2865):  25%|██▍       | 4232/16950 [47:03<1:59:43,  1.77it/s]Training 1/3 epoch (loss 0.0200):  25%|██▍       | 4232/16950 [47:03<1:59:43,  1.77it/s]Training 1/3 epoch (loss 0.0200):  25%|██▍       | 4233/16950 [47:03<1:50:53,  1.91it/s]Training 1/3 epoch (loss 0.1270):  25%|██▍       | 4233/16950 [47:04<1:50:53,  1.91it/s]Training 1/3 epoch (loss 0.1270):  25%|██▍       | 4234/16950 [47:04<2:08:31,  1.65it/s]Training 1/3 epoch (loss 0.3907):  25%|██▍       | 4234/16950 [47:05<2:08:31,  1.65it/s]Training 1/3 epoch (loss 0.3907):  25%|██▍       | 4235/16950 [47:05<2:17:29,  1.54it/s]Training 1/3 epoch (loss 0.5174):  25%|██▍       | 4235/16950 [47:05<2:17:29,  1.54it/s]Training 1/3 epoch (loss 0.5174):  25%|██▍       | 4236/16950 [47:05<1:58:42,  1.79it/s]Training 1/3 epoch (loss 0.0417):  25%|██▍       | 4236/16950 [47:06<1:58:42,  1.79it/s]Training 1/3 epoch (loss 0.0417):  25%|██▍       | 4237/16950 [47:06<2:01:08,  1.75it/s]Training 1/3 epoch (loss 0.5537):  25%|██▍       | 4237/16950 [47:06<2:01:08,  1.75it/s]Training 1/3 epoch (loss 0.5537):  25%|██▌       | 4238/16950 [47:06<1:46:59,  1.98it/s]Training 1/3 epoch (loss 0.0236):  25%|██▌       | 4238/16950 [47:07<1:46:59,  1.98it/s]Training 1/3 epoch (loss 0.0236):  25%|██▌       | 4239/16950 [47:07<1:51:32,  1.90it/s]Training 1/3 epoch (loss 0.6482):  25%|██▌       | 4239/16950 [47:08<1:51:32,  1.90it/s]Training 1/3 epoch (loss 0.6482):  25%|██▌       | 4240/16950 [47:08<2:10:29,  1.62it/s]Training 1/3 epoch (loss 0.0016):  25%|██▌       | 4240/16950 [47:08<2:10:29,  1.62it/s]Training 1/3 epoch (loss 0.0016):  25%|██▌       | 4241/16950 [47:08<2:04:12,  1.71it/s]Training 1/3 epoch (loss 0.5306):  25%|██▌       | 4241/16950 [47:09<2:04:12,  1.71it/s]Training 1/3 epoch (loss 0.5306):  25%|██▌       | 4242/16950 [47:09<2:19:09,  1.52it/s]Training 1/3 epoch (loss 0.0162):  25%|██▌       | 4242/16950 [47:10<2:19:09,  1.52it/s]Training 1/3 epoch (loss 0.0162):  25%|██▌       | 4243/16950 [47:10<2:19:11,  1.52it/s]Training 1/3 epoch (loss 0.0493):  25%|██▌       | 4243/16950 [47:11<2:19:11,  1.52it/s]Training 1/3 epoch (loss 0.0493):  25%|██▌       | 4244/16950 [47:11<2:41:52,  1.31it/s]Training 1/3 epoch (loss 0.4270):  25%|██▌       | 4244/16950 [47:12<2:41:52,  1.31it/s]Training 1/3 epoch (loss 0.4270):  25%|██▌       | 4245/16950 [47:12<2:57:10,  1.20it/s]Training 1/3 epoch (loss 0.3866):  25%|██▌       | 4245/16950 [47:12<2:57:10,  1.20it/s]Training 1/3 epoch (loss 0.3866):  25%|██▌       | 4246/16950 [47:12<2:37:26,  1.34it/s]Training 1/3 epoch (loss 0.0093):  25%|██▌       | 4246/16950 [47:13<2:37:26,  1.34it/s]Training 1/3 epoch (loss 0.0093):  25%|██▌       | 4247/16950 [47:13<2:14:23,  1.58it/s]Training 1/3 epoch (loss 0.0081):  25%|██▌       | 4247/16950 [47:13<2:14:23,  1.58it/s]Training 1/3 epoch (loss 0.0081):  25%|██▌       | 4248/16950 [47:13<2:15:36,  1.56it/s]Training 1/3 epoch (loss 0.0003):  25%|██▌       | 4248/16950 [47:14<2:15:36,  1.56it/s]Training 1/3 epoch (loss 0.0003):  25%|██▌       | 4249/16950 [47:14<2:05:09,  1.69it/s]Training 1/3 epoch (loss 0.1454):  25%|██▌       | 4249/16950 [47:14<2:05:09,  1.69it/s]Training 1/3 epoch (loss 0.1454):  25%|██▌       | 4250/16950 [47:14<2:08:25,  1.65it/s]Training 1/3 epoch (loss 0.4394):  25%|██▌       | 4250/16950 [47:15<2:08:25,  1.65it/s]Training 1/3 epoch (loss 0.4394):  25%|██▌       | 4251/16950 [47:15<2:23:18,  1.48it/s]Training 1/3 epoch (loss 0.2240):  25%|██▌       | 4251/16950 [47:16<2:23:18,  1.48it/s]Training 1/3 epoch (loss 0.2240):  25%|██▌       | 4252/16950 [47:16<2:19:23,  1.52it/s]Training 1/3 epoch (loss 0.3978):  25%|██▌       | 4252/16950 [47:16<2:19:23,  1.52it/s]Training 1/3 epoch (loss 0.3978):  25%|██▌       | 4253/16950 [47:16<1:59:00,  1.78it/s]Training 1/3 epoch (loss 0.0088):  25%|██▌       | 4253/16950 [47:17<1:59:00,  1.78it/s]Training 1/3 epoch (loss 0.0088):  25%|██▌       | 4254/16950 [47:17<1:59:06,  1.78it/s]Training 1/3 epoch (loss 0.3212):  25%|██▌       | 4254/16950 [47:17<1:59:06,  1.78it/s]Training 1/3 epoch (loss 0.3212):  25%|██▌       | 4255/16950 [47:17<2:10:20,  1.62it/s]Training 1/3 epoch (loss 0.3584):  25%|██▌       | 4255/16950 [47:18<2:10:20,  1.62it/s]Training 1/3 epoch (loss 0.3584):  25%|██▌       | 4256/16950 [47:18<2:19:47,  1.51it/s]Training 1/3 epoch (loss 0.0989):  25%|██▌       | 4256/16950 [47:19<2:19:47,  1.51it/s]Training 1/3 epoch (loss 0.0989):  25%|██▌       | 4257/16950 [47:19<2:12:37,  1.60it/s]Training 1/3 epoch (loss 0.0472):  25%|██▌       | 4257/16950 [47:19<2:12:37,  1.60it/s]Training 1/3 epoch (loss 0.0472):  25%|██▌       | 4258/16950 [47:19<2:00:16,  1.76it/s]Training 1/3 epoch (loss 0.0293):  25%|██▌       | 4258/16950 [47:20<2:00:16,  1.76it/s]Training 1/3 epoch (loss 0.0293):  25%|██▌       | 4259/16950 [47:20<1:53:32,  1.86it/s]Training 1/3 epoch (loss 0.5168):  25%|██▌       | 4259/16950 [47:21<1:53:32,  1.86it/s]Training 1/3 epoch (loss 0.5168):  25%|██▌       | 4260/16950 [47:21<2:33:22,  1.38it/s]Training 1/3 epoch (loss 0.0980):  25%|██▌       | 4260/16950 [47:22<2:33:22,  1.38it/s]Training 1/3 epoch (loss 0.0980):  25%|██▌       | 4261/16950 [47:22<2:34:34,  1.37it/s]Training 1/3 epoch (loss 0.0033):  25%|██▌       | 4261/16950 [47:22<2:34:34,  1.37it/s]Training 1/3 epoch (loss 0.0033):  25%|██▌       | 4262/16950 [47:22<2:17:50,  1.53it/s]Training 1/3 epoch (loss 0.0153):  25%|██▌       | 4262/16950 [47:23<2:17:50,  1.53it/s]Training 1/3 epoch (loss 0.0153):  25%|██▌       | 4263/16950 [47:23<2:07:43,  1.66it/s]Training 1/3 epoch (loss 0.7935):  25%|██▌       | 4263/16950 [47:23<2:07:43,  1.66it/s]Training 1/3 epoch (loss 0.7935):  25%|██▌       | 4264/16950 [47:23<2:12:07,  1.60it/s]Training 1/3 epoch (loss 0.2730):  25%|██▌       | 4264/16950 [47:24<2:12:07,  1.60it/s]Training 1/3 epoch (loss 0.2730):  25%|██▌       | 4265/16950 [47:24<1:59:04,  1.78it/s]Training 1/3 epoch (loss 0.0101):  25%|██▌       | 4265/16950 [47:24<1:59:04,  1.78it/s]Training 1/3 epoch (loss 0.0101):  25%|██▌       | 4266/16950 [47:24<1:59:53,  1.76it/s]Training 1/3 epoch (loss 0.0287):  25%|██▌       | 4266/16950 [47:25<1:59:53,  1.76it/s]Training 1/3 epoch (loss 0.0287):  25%|██▌       | 4267/16950 [47:25<1:56:53,  1.81it/s]Training 1/3 epoch (loss 0.4752):  25%|██▌       | 4267/16950 [47:26<1:56:53,  1.81it/s]Training 1/3 epoch (loss 0.4752):  25%|██▌       | 4268/16950 [47:26<2:24:12,  1.47it/s]Training 1/3 epoch (loss 0.4736):  25%|██▌       | 4268/16950 [47:26<2:24:12,  1.47it/s]Training 1/3 epoch (loss 0.4736):  25%|██▌       | 4269/16950 [47:26<2:18:18,  1.53it/s]Training 1/3 epoch (loss 0.0777):  25%|██▌       | 4269/16950 [47:27<2:18:18,  1.53it/s]Training 1/3 epoch (loss 0.0777):  25%|██▌       | 4270/16950 [47:27<2:12:39,  1.59it/s]Training 1/3 epoch (loss 0.3787):  25%|██▌       | 4270/16950 [47:28<2:12:39,  1.59it/s]Training 1/3 epoch (loss 0.3787):  25%|██▌       | 4271/16950 [47:28<2:14:35,  1.57it/s]Training 1/3 epoch (loss 0.0270):  25%|██▌       | 4271/16950 [47:28<2:14:35,  1.57it/s]Training 1/3 epoch (loss 0.0270):  25%|██▌       | 4272/16950 [47:28<2:08:00,  1.65it/s]Training 1/3 epoch (loss 0.2922):  25%|██▌       | 4272/16950 [47:29<2:08:00,  1.65it/s]Training 1/3 epoch (loss 0.2922):  25%|██▌       | 4273/16950 [47:29<2:09:39,  1.63it/s]Training 1/3 epoch (loss 0.0022):  25%|██▌       | 4273/16950 [47:29<2:09:39,  1.63it/s]Training 1/3 epoch (loss 0.0022):  25%|██▌       | 4274/16950 [47:29<2:00:28,  1.75it/s]Training 1/3 epoch (loss 0.0019):  25%|██▌       | 4274/16950 [47:30<2:00:28,  1.75it/s]Training 1/3 epoch (loss 0.0019):  25%|██▌       | 4275/16950 [47:30<1:54:26,  1.85it/s]Training 1/3 epoch (loss 0.0128):  25%|██▌       | 4275/16950 [47:30<1:54:26,  1.85it/s]Training 1/3 epoch (loss 0.0128):  25%|██▌       | 4276/16950 [47:30<1:51:39,  1.89it/s]Training 1/3 epoch (loss 0.0042):  25%|██▌       | 4276/16950 [47:31<1:51:39,  1.89it/s]Training 1/3 epoch (loss 0.0042):  25%|██▌       | 4277/16950 [47:31<1:48:31,  1.95it/s]Training 1/3 epoch (loss 0.2569):  25%|██▌       | 4277/16950 [47:31<1:48:31,  1.95it/s]Training 1/3 epoch (loss 0.2569):  25%|██▌       | 4278/16950 [47:31<1:49:33,  1.93it/s]Training 1/3 epoch (loss 0.1308):  25%|██▌       | 4278/16950 [47:32<1:49:33,  1.93it/s]Training 1/3 epoch (loss 0.1308):  25%|██▌       | 4279/16950 [47:32<1:45:43,  2.00it/s]Training 1/3 epoch (loss 0.1838):  25%|██▌       | 4279/16950 [47:32<1:45:43,  2.00it/s]Training 1/3 epoch (loss 0.1838):  25%|██▌       | 4280/16950 [47:32<1:52:29,  1.88it/s]Training 1/3 epoch (loss 0.0217):  25%|██▌       | 4280/16950 [47:33<1:52:29,  1.88it/s]Training 1/3 epoch (loss 0.0217):  25%|██▌       | 4281/16950 [47:33<1:50:45,  1.91it/s]Training 1/3 epoch (loss 0.6198):  25%|██▌       | 4281/16950 [47:34<1:50:45,  1.91it/s]Training 1/3 epoch (loss 0.6198):  25%|██▌       | 4282/16950 [47:34<2:08:21,  1.64it/s]Training 1/3 epoch (loss 0.6181):  25%|██▌       | 4282/16950 [47:34<2:08:21,  1.64it/s]Training 1/3 epoch (loss 0.6181):  25%|██▌       | 4283/16950 [47:34<2:09:06,  1.64it/s]Training 1/3 epoch (loss 0.0020):  25%|██▌       | 4283/16950 [47:35<2:09:06,  1.64it/s]Training 1/3 epoch (loss 0.0020):  25%|██▌       | 4284/16950 [47:35<2:00:39,  1.75it/s]Training 1/3 epoch (loss 0.0023):  25%|██▌       | 4284/16950 [47:35<2:00:39,  1.75it/s]Training 1/3 epoch (loss 0.0023):  25%|██▌       | 4285/16950 [47:35<1:58:55,  1.77it/s]Training 1/3 epoch (loss 0.0003):  25%|██▌       | 4285/16950 [47:36<1:58:55,  1.77it/s]Training 1/3 epoch (loss 0.0003):  25%|██▌       | 4286/16950 [47:36<2:03:22,  1.71it/s]Training 1/3 epoch (loss 0.0026):  25%|██▌       | 4286/16950 [47:36<2:03:22,  1.71it/s]Training 1/3 epoch (loss 0.0026):  25%|██▌       | 4287/16950 [47:36<2:07:44,  1.65it/s]Training 1/3 epoch (loss 1.0518):  25%|██▌       | 4287/16950 [47:37<2:07:44,  1.65it/s]Training 1/3 epoch (loss 1.0518):  25%|██▌       | 4288/16950 [47:37<2:31:14,  1.40it/s]Training 1/3 epoch (loss 0.0008):  25%|██▌       | 4288/16950 [47:38<2:31:14,  1.40it/s]Training 1/3 epoch (loss 0.0008):  25%|██▌       | 4289/16950 [47:38<2:29:38,  1.41it/s]Training 1/3 epoch (loss 0.1625):  25%|██▌       | 4289/16950 [47:39<2:29:38,  1.41it/s]Training 1/3 epoch (loss 0.1625):  25%|██▌       | 4290/16950 [47:39<2:19:03,  1.52it/s]Training 1/3 epoch (loss 0.0026):  25%|██▌       | 4290/16950 [47:39<2:19:03,  1.52it/s]Training 1/3 epoch (loss 0.0026):  25%|██▌       | 4291/16950 [47:39<2:08:45,  1.64it/s]Training 1/3 epoch (loss 0.5868):  25%|██▌       | 4291/16950 [47:40<2:08:45,  1.64it/s]Training 1/3 epoch (loss 0.5868):  25%|██▌       | 4292/16950 [47:40<2:06:53,  1.66it/s]Training 1/3 epoch (loss 0.3889):  25%|██▌       | 4292/16950 [47:40<2:06:53,  1.66it/s]Training 1/3 epoch (loss 0.3889):  25%|██▌       | 4293/16950 [47:40<1:59:01,  1.77it/s]Training 1/3 epoch (loss 0.0083):  25%|██▌       | 4293/16950 [47:41<1:59:01,  1.77it/s]Training 1/3 epoch (loss 0.0083):  25%|██▌       | 4294/16950 [47:41<2:01:14,  1.74it/s]Training 1/3 epoch (loss 1.1063):  25%|██▌       | 4294/16950 [47:42<2:01:14,  1.74it/s]Training 1/3 epoch (loss 1.1063):  25%|██▌       | 4295/16950 [47:42<2:33:48,  1.37it/s]Training 1/3 epoch (loss 0.0023):  25%|██▌       | 4295/16950 [47:42<2:33:48,  1.37it/s]Training 1/3 epoch (loss 0.0023):  25%|██▌       | 4296/16950 [47:42<2:24:23,  1.46it/s]Training 1/3 epoch (loss 0.0861):  25%|██▌       | 4296/16950 [47:43<2:24:23,  1.46it/s]Training 1/3 epoch (loss 0.0861):  25%|██▌       | 4297/16950 [47:43<2:11:32,  1.60it/s]Training 1/3 epoch (loss 0.6340):  25%|██▌       | 4297/16950 [47:43<2:11:32,  1.60it/s]Training 1/3 epoch (loss 0.6340):  25%|██▌       | 4298/16950 [47:43<1:57:15,  1.80it/s]Training 1/3 epoch (loss 0.4974):  25%|██▌       | 4298/16950 [47:44<1:57:15,  1.80it/s]Training 1/3 epoch (loss 0.4974):  25%|██▌       | 4299/16950 [47:44<2:01:00,  1.74it/s]Training 1/3 epoch (loss 0.0452):  25%|██▌       | 4299/16950 [47:45<2:01:00,  1.74it/s]Training 1/3 epoch (loss 0.0452):  25%|██▌       | 4300/16950 [47:45<1:58:41,  1.78it/s]Training 1/3 epoch (loss 0.8728):  25%|██▌       | 4300/16950 [47:46<1:58:41,  1.78it/s]Training 1/3 epoch (loss 0.8728):  25%|██▌       | 4301/16950 [47:46<2:30:40,  1.40it/s]Training 1/3 epoch (loss 0.3772):  25%|██▌       | 4301/16950 [47:46<2:30:40,  1.40it/s]Training 1/3 epoch (loss 0.3772):  25%|██▌       | 4302/16950 [47:46<2:22:52,  1.48it/s]Training 1/3 epoch (loss 0.6958):  25%|██▌       | 4302/16950 [47:47<2:22:52,  1.48it/s]Training 1/3 epoch (loss 0.6958):  25%|██▌       | 4303/16950 [47:47<2:19:14,  1.51it/s]Training 1/3 epoch (loss 0.0004):  25%|██▌       | 4303/16950 [47:48<2:19:14,  1.51it/s]Training 1/3 epoch (loss 0.0004):  25%|██▌       | 4304/16950 [47:48<2:21:27,  1.49it/s]Training 1/3 epoch (loss 0.3095):  25%|██▌       | 4304/16950 [47:48<2:21:27,  1.49it/s]Training 1/3 epoch (loss 0.3095):  25%|██▌       | 4305/16950 [47:48<2:39:26,  1.32it/s]Training 1/3 epoch (loss 0.0022):  25%|██▌       | 4305/16950 [47:49<2:39:26,  1.32it/s]Training 1/3 epoch (loss 0.0022):  25%|██▌       | 4306/16950 [47:49<2:23:39,  1.47it/s]Training 1/3 epoch (loss 0.0001):  25%|██▌       | 4306/16950 [47:49<2:23:39,  1.47it/s]Training 1/3 epoch (loss 0.0001):  25%|██▌       | 4307/16950 [47:49<2:13:44,  1.58it/s]Training 1/3 epoch (loss 0.3154):  25%|██▌       | 4307/16950 [47:50<2:13:44,  1.58it/s]Training 1/3 epoch (loss 0.3154):  25%|██▌       | 4308/16950 [47:50<2:04:31,  1.69it/s]Training 1/3 epoch (loss 0.0074):  25%|██▌       | 4308/16950 [47:50<2:04:31,  1.69it/s]Training 1/3 epoch (loss 0.0074):  25%|██▌       | 4309/16950 [47:50<1:53:29,  1.86it/s]Training 1/3 epoch (loss 0.7384):  25%|██▌       | 4309/16950 [47:51<1:53:29,  1.86it/s]Training 1/3 epoch (loss 0.7384):  25%|██▌       | 4310/16950 [47:51<2:14:13,  1.57it/s]Training 1/3 epoch (loss 0.0119):  25%|██▌       | 4310/16950 [47:52<2:14:13,  1.57it/s]Training 1/3 epoch (loss 0.0119):  25%|██▌       | 4311/16950 [47:52<2:10:22,  1.62it/s]Training 1/3 epoch (loss 0.0914):  25%|██▌       | 4311/16950 [47:52<2:10:22,  1.62it/s]Training 1/3 epoch (loss 0.0914):  25%|██▌       | 4312/16950 [47:52<2:02:05,  1.73it/s]Training 1/3 epoch (loss 0.0454):  25%|██▌       | 4312/16950 [47:53<2:02:05,  1.73it/s]Training 1/3 epoch (loss 0.0454):  25%|██▌       | 4313/16950 [47:53<1:51:41,  1.89it/s]Training 1/3 epoch (loss 0.0007):  25%|██▌       | 4313/16950 [47:53<1:51:41,  1.89it/s]Training 1/3 epoch (loss 0.0007):  25%|██▌       | 4314/16950 [47:53<1:48:52,  1.93it/s]Training 1/3 epoch (loss 0.2218):  25%|██▌       | 4314/16950 [47:54<1:48:52,  1.93it/s]Training 1/3 epoch (loss 0.2218):  25%|██▌       | 4315/16950 [47:54<1:50:34,  1.90it/s]Training 1/3 epoch (loss 0.0384):  25%|██▌       | 4315/16950 [47:54<1:50:34,  1.90it/s]Training 1/3 epoch (loss 0.0384):  25%|██▌       | 4316/16950 [47:54<1:52:20,  1.87it/s]Training 1/3 epoch (loss 0.0285):  25%|██▌       | 4316/16950 [47:55<1:52:20,  1.87it/s]Training 1/3 epoch (loss 0.0285):  25%|██▌       | 4317/16950 [47:55<1:52:40,  1.87it/s]Training 1/3 epoch (loss 0.0917):  25%|██▌       | 4317/16950 [47:56<1:52:40,  1.87it/s]Training 1/3 epoch (loss 0.0917):  25%|██▌       | 4318/16950 [47:56<2:03:12,  1.71it/s]Training 1/3 epoch (loss 0.0099):  25%|██▌       | 4318/16950 [47:56<2:03:12,  1.71it/s]Training 1/3 epoch (loss 0.0099):  25%|██▌       | 4319/16950 [47:56<2:01:09,  1.74it/s]Training 1/3 epoch (loss 0.1641):  25%|██▌       | 4319/16950 [47:57<2:01:09,  1.74it/s]Training 1/3 epoch (loss 0.1641):  25%|██▌       | 4320/16950 [47:57<2:18:25,  1.52it/s]Training 1/3 epoch (loss 0.0048):  25%|██▌       | 4320/16950 [47:58<2:18:25,  1.52it/s]Training 1/3 epoch (loss 0.0048):  25%|██▌       | 4321/16950 [47:58<2:10:49,  1.61it/s]Training 1/3 epoch (loss 0.0028):  25%|██▌       | 4321/16950 [47:58<2:10:49,  1.61it/s]Training 1/3 epoch (loss 0.0028):  25%|██▌       | 4322/16950 [47:58<2:04:01,  1.70it/s]Training 1/3 epoch (loss 0.3244):  25%|██▌       | 4322/16950 [47:59<2:04:01,  1.70it/s]Training 1/3 epoch (loss 0.3244):  26%|██▌       | 4323/16950 [47:59<2:03:34,  1.70it/s]Training 1/3 epoch (loss 0.1694):  26%|██▌       | 4323/16950 [47:59<2:03:34,  1.70it/s]Training 1/3 epoch (loss 0.1694):  26%|██▌       | 4324/16950 [47:59<2:22:12,  1.48it/s]Training 1/3 epoch (loss 0.0137):  26%|██▌       | 4324/16950 [48:00<2:22:12,  1.48it/s]Training 1/3 epoch (loss 0.0137):  26%|██▌       | 4325/16950 [48:00<2:07:48,  1.65it/s]Training 1/3 epoch (loss 0.0048):  26%|██▌       | 4325/16950 [48:01<2:07:48,  1.65it/s]Training 1/3 epoch (loss 0.0048):  26%|██▌       | 4326/16950 [48:01<2:09:10,  1.63it/s]Training 1/3 epoch (loss 0.4233):  26%|██▌       | 4326/16950 [48:01<2:09:10,  1.63it/s]Training 1/3 epoch (loss 0.4233):  26%|██▌       | 4327/16950 [48:01<2:07:06,  1.66it/s]Training 1/3 epoch (loss 0.0121):  26%|██▌       | 4327/16950 [48:02<2:07:06,  1.66it/s]Training 1/3 epoch (loss 0.0121):  26%|██▌       | 4328/16950 [48:02<2:11:43,  1.60it/s]Training 1/3 epoch (loss 0.0117):  26%|██▌       | 4328/16950 [48:03<2:11:43,  1.60it/s]Training 1/3 epoch (loss 0.0117):  26%|██▌       | 4329/16950 [48:03<2:16:31,  1.54it/s]Training 1/3 epoch (loss 0.0118):  26%|██▌       | 4329/16950 [48:03<2:16:31,  1.54it/s]Training 1/3 epoch (loss 0.0118):  26%|██▌       | 4330/16950 [48:03<2:16:10,  1.54it/s]Training 1/3 epoch (loss 0.0147):  26%|██▌       | 4330/16950 [48:04<2:16:10,  1.54it/s]Training 1/3 epoch (loss 0.0147):  26%|██▌       | 4331/16950 [48:04<2:30:56,  1.39it/s]Training 1/3 epoch (loss 0.1733):  26%|██▌       | 4331/16950 [48:04<2:30:56,  1.39it/s]Training 1/3 epoch (loss 0.1733):  26%|██▌       | 4332/16950 [48:04<2:12:33,  1.59it/s]Training 1/3 epoch (loss 0.1344):  26%|██▌       | 4332/16950 [48:05<2:12:33,  1.59it/s]Training 1/3 epoch (loss 0.1344):  26%|██▌       | 4333/16950 [48:05<2:16:24,  1.54it/s]Training 1/3 epoch (loss 0.1349):  26%|██▌       | 4333/16950 [48:06<2:16:24,  1.54it/s]Training 1/3 epoch (loss 0.1349):  26%|██▌       | 4334/16950 [48:06<2:10:39,  1.61it/s]Training 1/3 epoch (loss 0.1180):  26%|██▌       | 4334/16950 [48:06<2:10:39,  1.61it/s]Training 1/3 epoch (loss 0.1180):  26%|██▌       | 4335/16950 [48:06<2:16:33,  1.54it/s]Training 1/3 epoch (loss 0.0289):  26%|██▌       | 4335/16950 [48:07<2:16:33,  1.54it/s]Training 1/3 epoch (loss 0.0289):  26%|██▌       | 4336/16950 [48:07<2:06:54,  1.66it/s]Training 1/3 epoch (loss 0.5925):  26%|██▌       | 4336/16950 [48:08<2:06:54,  1.66it/s]Training 1/3 epoch (loss 0.5925):  26%|██▌       | 4337/16950 [48:08<2:05:55,  1.67it/s]Training 1/3 epoch (loss 0.2288):  26%|██▌       | 4337/16950 [48:08<2:05:55,  1.67it/s]Training 1/3 epoch (loss 0.2288):  26%|██▌       | 4338/16950 [48:08<2:04:23,  1.69it/s]Training 1/3 epoch (loss 0.0228):  26%|██▌       | 4338/16950 [48:09<2:04:23,  1.69it/s]Training 1/3 epoch (loss 0.0228):  26%|██▌       | 4339/16950 [48:09<2:00:09,  1.75it/s]Training 1/3 epoch (loss 0.0004):  26%|██▌       | 4339/16950 [48:09<2:00:09,  1.75it/s]Training 1/3 epoch (loss 0.0004):  26%|██▌       | 4340/16950 [48:09<1:44:57,  2.00it/s]Training 1/3 epoch (loss 0.0112):  26%|██▌       | 4340/16950 [48:09<1:44:57,  2.00it/s]Training 1/3 epoch (loss 0.0112):  26%|██▌       | 4341/16950 [48:09<1:41:43,  2.07it/s]Training 1/3 epoch (loss 0.1559):  26%|██▌       | 4341/16950 [48:11<1:41:43,  2.07it/s]Training 1/3 epoch (loss 0.1559):  26%|██▌       | 4342/16950 [48:11<2:24:23,  1.46it/s]Training 1/3 epoch (loss 0.0044):  26%|██▌       | 4342/16950 [48:11<2:24:23,  1.46it/s]Training 1/3 epoch (loss 0.0044):  26%|██▌       | 4343/16950 [48:11<2:13:06,  1.58it/s]Training 1/3 epoch (loss 0.0093):  26%|██▌       | 4343/16950 [48:12<2:13:06,  1.58it/s]Training 1/3 epoch (loss 0.0093):  26%|██▌       | 4344/16950 [48:12<2:00:27,  1.74it/s]Training 1/3 epoch (loss 0.4326):  26%|██▌       | 4344/16950 [48:12<2:00:27,  1.74it/s]Training 1/3 epoch (loss 0.4326):  26%|██▌       | 4345/16950 [48:12<2:22:20,  1.48it/s]Training 1/3 epoch (loss 0.4012):  26%|██▌       | 4345/16950 [48:13<2:22:20,  1.48it/s]Training 1/3 epoch (loss 0.4012):  26%|██▌       | 4346/16950 [48:13<2:17:13,  1.53it/s]Training 1/3 epoch (loss 0.0451):  26%|██▌       | 4346/16950 [48:14<2:17:13,  1.53it/s]Training 1/3 epoch (loss 0.0451):  26%|██▌       | 4347/16950 [48:14<2:20:22,  1.50it/s]Training 1/3 epoch (loss 0.6379):  26%|██▌       | 4347/16950 [48:14<2:20:22,  1.50it/s]Training 1/3 epoch (loss 0.6379):  26%|██▌       | 4348/16950 [48:14<2:24:48,  1.45it/s]Training 1/3 epoch (loss 0.0115):  26%|██▌       | 4348/16950 [48:15<2:24:48,  1.45it/s]Training 1/3 epoch (loss 0.0115):  26%|██▌       | 4349/16950 [48:15<2:13:54,  1.57it/s]Training 1/3 epoch (loss 0.1101):  26%|██▌       | 4349/16950 [48:15<2:13:54,  1.57it/s]Training 1/3 epoch (loss 0.1101):  26%|██▌       | 4350/16950 [48:15<2:05:08,  1.68it/s]Training 1/3 epoch (loss 0.2137):  26%|██▌       | 4350/16950 [48:16<2:05:08,  1.68it/s]Training 1/3 epoch (loss 0.2137):  26%|██▌       | 4351/16950 [48:16<2:21:33,  1.48it/s]Training 1/3 epoch (loss 0.0024):  26%|██▌       | 4351/16950 [48:17<2:21:33,  1.48it/s]Training 1/3 epoch (loss 0.0024):  26%|██▌       | 4352/16950 [48:17<2:20:58,  1.49it/s]Training 1/3 epoch (loss 0.0496):  26%|██▌       | 4352/16950 [48:18<2:20:58,  1.49it/s]Training 1/3 epoch (loss 0.0496):  26%|██▌       | 4353/16950 [48:18<2:10:48,  1.61it/s]Training 1/3 epoch (loss 0.1197):  26%|██▌       | 4353/16950 [48:18<2:10:48,  1.61it/s]Training 1/3 epoch (loss 0.1197):  26%|██▌       | 4354/16950 [48:18<2:13:53,  1.57it/s]Training 1/3 epoch (loss 0.0010):  26%|██▌       | 4354/16950 [48:19<2:13:53,  1.57it/s]Training 1/3 epoch (loss 0.0010):  26%|██▌       | 4355/16950 [48:19<2:08:23,  1.63it/s]Training 1/3 epoch (loss 0.2757):  26%|██▌       | 4355/16950 [48:19<2:08:23,  1.63it/s]Training 1/3 epoch (loss 0.2757):  26%|██▌       | 4356/16950 [48:19<1:59:19,  1.76it/s]Training 1/3 epoch (loss 0.0558):  26%|██▌       | 4356/16950 [48:20<1:59:19,  1.76it/s]Training 1/3 epoch (loss 0.0558):  26%|██▌       | 4357/16950 [48:20<1:58:50,  1.77it/s]Training 1/3 epoch (loss 0.0040):  26%|██▌       | 4357/16950 [48:20<1:58:50,  1.77it/s]Training 1/3 epoch (loss 0.0040):  26%|██▌       | 4358/16950 [48:20<1:53:38,  1.85it/s]Training 1/3 epoch (loss 0.2863):  26%|██▌       | 4358/16950 [48:21<1:53:38,  1.85it/s]Training 1/3 epoch (loss 0.2863):  26%|██▌       | 4359/16950 [48:21<2:27:36,  1.42it/s]Training 1/3 epoch (loss 0.6587):  26%|██▌       | 4359/16950 [48:22<2:27:36,  1.42it/s]Training 1/3 epoch (loss 0.6587):  26%|██▌       | 4360/16950 [48:22<2:22:38,  1.47it/s]Training 1/3 epoch (loss 0.0096):  26%|██▌       | 4360/16950 [48:23<2:22:38,  1.47it/s]Training 1/3 epoch (loss 0.0096):  26%|██▌       | 4361/16950 [48:23<2:20:38,  1.49it/s]Training 1/3 epoch (loss 0.0312):  26%|██▌       | 4361/16950 [48:23<2:20:38,  1.49it/s]Training 1/3 epoch (loss 0.0312):  26%|██▌       | 4362/16950 [48:23<2:29:28,  1.40it/s]Training 1/3 epoch (loss 0.0378):  26%|██▌       | 4362/16950 [48:24<2:29:28,  1.40it/s]Training 1/3 epoch (loss 0.0378):  26%|██▌       | 4363/16950 [48:24<2:28:24,  1.41it/s]Training 1/3 epoch (loss 0.0363):  26%|██▌       | 4363/16950 [48:25<2:28:24,  1.41it/s]Training 1/3 epoch (loss 0.0363):  26%|██▌       | 4364/16950 [48:25<2:11:18,  1.60it/s]Training 1/3 epoch (loss 0.2345):  26%|██▌       | 4364/16950 [48:25<2:11:18,  1.60it/s]Training 1/3 epoch (loss 0.2345):  26%|██▌       | 4365/16950 [48:25<2:20:53,  1.49it/s]Training 1/3 epoch (loss 0.0008):  26%|██▌       | 4365/16950 [48:26<2:20:53,  1.49it/s]Training 1/3 epoch (loss 0.0008):  26%|██▌       | 4366/16950 [48:26<2:15:13,  1.55it/s]Training 1/3 epoch (loss 0.0063):  26%|██▌       | 4366/16950 [48:26<2:15:13,  1.55it/s]Training 1/3 epoch (loss 0.0063):  26%|██▌       | 4367/16950 [48:26<2:06:11,  1.66it/s]Training 1/3 epoch (loss 0.0018):  26%|██▌       | 4367/16950 [48:27<2:06:11,  1.66it/s]Training 1/3 epoch (loss 0.0018):  26%|██▌       | 4368/16950 [48:27<1:57:59,  1.78it/s]Training 1/3 epoch (loss 0.0243):  26%|██▌       | 4368/16950 [48:27<1:57:59,  1.78it/s]Training 1/3 epoch (loss 0.0243):  26%|██▌       | 4369/16950 [48:27<1:59:57,  1.75it/s]Training 1/3 epoch (loss 0.0161):  26%|██▌       | 4369/16950 [48:28<1:59:57,  1.75it/s]Training 1/3 epoch (loss 0.0161):  26%|██▌       | 4370/16950 [48:28<2:18:09,  1.52it/s]Training 1/3 epoch (loss 0.1535):  26%|██▌       | 4370/16950 [48:29<2:18:09,  1.52it/s]Training 1/3 epoch (loss 0.1535):  26%|██▌       | 4371/16950 [48:29<2:18:13,  1.52it/s]Training 1/3 epoch (loss 0.6790):  26%|██▌       | 4371/16950 [48:30<2:18:13,  1.52it/s]Training 1/3 epoch (loss 0.6790):  26%|██▌       | 4372/16950 [48:30<2:10:56,  1.60it/s]Training 1/3 epoch (loss 0.0600):  26%|██▌       | 4372/16950 [48:30<2:10:56,  1.60it/s]Training 1/3 epoch (loss 0.0600):  26%|██▌       | 4373/16950 [48:30<2:15:39,  1.55it/s]Training 1/3 epoch (loss 0.6001):  26%|██▌       | 4373/16950 [48:31<2:15:39,  1.55it/s]Training 1/3 epoch (loss 0.6001):  26%|██▌       | 4374/16950 [48:31<2:00:35,  1.74it/s]Training 1/3 epoch (loss 0.3560):  26%|██▌       | 4374/16950 [48:31<2:00:35,  1.74it/s]Training 1/3 epoch (loss 0.3560):  26%|██▌       | 4375/16950 [48:31<1:48:46,  1.93it/s]Training 1/3 epoch (loss 0.2382):  26%|██▌       | 4375/16950 [48:31<1:48:46,  1.93it/s]Training 1/3 epoch (loss 0.2382):  26%|██▌       | 4376/16950 [48:31<1:39:22,  2.11it/s]Training 1/3 epoch (loss 0.0066):  26%|██▌       | 4376/16950 [48:32<1:39:22,  2.11it/s]Training 1/3 epoch (loss 0.0066):  26%|██▌       | 4377/16950 [48:32<1:47:59,  1.94it/s]Training 1/3 epoch (loss 0.4617):  26%|██▌       | 4377/16950 [48:33<1:47:59,  1.94it/s]Training 1/3 epoch (loss 0.4617):  26%|██▌       | 4378/16950 [48:33<2:30:23,  1.39it/s]Training 1/3 epoch (loss 0.7967):  26%|██▌       | 4378/16950 [48:34<2:30:23,  1.39it/s]Training 1/3 epoch (loss 0.7967):  26%|██▌       | 4379/16950 [48:34<2:23:54,  1.46it/s]Training 1/3 epoch (loss 0.2651):  26%|██▌       | 4379/16950 [48:34<2:23:54,  1.46it/s]Training 1/3 epoch (loss 0.2651):  26%|██▌       | 4380/16950 [48:34<2:10:41,  1.60it/s]Training 1/3 epoch (loss 0.0006):  26%|██▌       | 4380/16950 [48:35<2:10:41,  1.60it/s]Training 1/3 epoch (loss 0.0006):  26%|██▌       | 4381/16950 [48:35<2:02:55,  1.70it/s]Training 1/3 epoch (loss 0.5341):  26%|██▌       | 4381/16950 [48:35<2:02:55,  1.70it/s]Training 1/3 epoch (loss 0.5341):  26%|██▌       | 4382/16950 [48:35<1:59:18,  1.76it/s]Training 1/3 epoch (loss 0.0069):  26%|██▌       | 4382/16950 [48:36<1:59:18,  1.76it/s]Training 1/3 epoch (loss 0.0069):  26%|██▌       | 4383/16950 [48:36<1:58:16,  1.77it/s]Training 1/3 epoch (loss 0.4234):  26%|██▌       | 4383/16950 [48:37<1:58:16,  1.77it/s]Training 1/3 epoch (loss 0.4234):  26%|██▌       | 4384/16950 [48:37<2:03:32,  1.70it/s]Training 1/3 epoch (loss 0.0099):  26%|██▌       | 4384/16950 [48:37<2:03:32,  1.70it/s]Training 1/3 epoch (loss 0.0099):  26%|██▌       | 4385/16950 [48:37<1:57:44,  1.78it/s]Training 1/3 epoch (loss 0.1847):  26%|██▌       | 4385/16950 [48:38<1:57:44,  1.78it/s]Training 1/3 epoch (loss 0.1847):  26%|██▌       | 4386/16950 [48:38<2:17:15,  1.53it/s]Training 1/3 epoch (loss 0.0435):  26%|██▌       | 4386/16950 [48:38<2:17:15,  1.53it/s]Training 1/3 epoch (loss 0.0435):  26%|██▌       | 4387/16950 [48:38<2:08:53,  1.62it/s]Training 1/3 epoch (loss 0.3517):  26%|██▌       | 4387/16950 [48:39<2:08:53,  1.62it/s]Training 1/3 epoch (loss 0.3517):  26%|██▌       | 4388/16950 [48:39<2:00:09,  1.74it/s]Training 1/3 epoch (loss 0.5903):  26%|██▌       | 4388/16950 [48:39<2:00:09,  1.74it/s]Training 1/3 epoch (loss 0.5903):  26%|██▌       | 4389/16950 [48:39<1:47:41,  1.94it/s]Training 1/3 epoch (loss 0.1032):  26%|██▌       | 4389/16950 [48:40<1:47:41,  1.94it/s]Training 1/3 epoch (loss 0.1032):  26%|██▌       | 4390/16950 [48:40<1:52:41,  1.86it/s]Training 1/3 epoch (loss 0.0112):  26%|██▌       | 4390/16950 [48:41<1:52:41,  1.86it/s]Training 1/3 epoch (loss 0.0112):  26%|██▌       | 4391/16950 [48:41<2:01:16,  1.73it/s]Training 1/3 epoch (loss 0.1129):  26%|██▌       | 4391/16950 [48:41<2:01:16,  1.73it/s]Training 1/3 epoch (loss 0.1129):  26%|██▌       | 4392/16950 [48:41<1:58:41,  1.76it/s]Training 1/3 epoch (loss 0.2213):  26%|██▌       | 4392/16950 [48:42<1:58:41,  1.76it/s]Training 1/3 epoch (loss 0.2213):  26%|██▌       | 4393/16950 [48:42<2:09:19,  1.62it/s]Training 1/3 epoch (loss 0.0090):  26%|██▌       | 4393/16950 [48:42<2:09:19,  1.62it/s]Training 1/3 epoch (loss 0.0090):  26%|██▌       | 4394/16950 [48:42<2:00:03,  1.74it/s]Training 1/3 epoch (loss 0.1882):  26%|██▌       | 4394/16950 [48:43<2:00:03,  1.74it/s]Training 1/3 epoch (loss 0.1882):  26%|██▌       | 4395/16950 [48:43<2:04:33,  1.68it/s]Training 1/3 epoch (loss 0.0076):  26%|██▌       | 4395/16950 [48:43<2:04:33,  1.68it/s]Training 1/3 epoch (loss 0.0076):  26%|██▌       | 4396/16950 [48:43<2:01:31,  1.72it/s]Training 1/3 epoch (loss 0.1019):  26%|██▌       | 4396/16950 [48:44<2:01:31,  1.72it/s]Training 1/3 epoch (loss 0.1019):  26%|██▌       | 4397/16950 [48:44<2:03:00,  1.70it/s]Training 1/3 epoch (loss 0.5318):  26%|██▌       | 4397/16950 [48:45<2:03:00,  1.70it/s]Training 1/3 epoch (loss 0.5318):  26%|██▌       | 4398/16950 [48:45<2:04:27,  1.68it/s]Training 1/3 epoch (loss 0.3041):  26%|██▌       | 4398/16950 [48:45<2:04:27,  1.68it/s]Training 1/3 epoch (loss 0.3041):  26%|██▌       | 4399/16950 [48:45<1:51:39,  1.87it/s]Training 1/3 epoch (loss 0.1400):  26%|██▌       | 4399/16950 [48:46<1:51:39,  1.87it/s]Training 1/3 epoch (loss 0.1400):  26%|██▌       | 4400/16950 [48:46<1:54:49,  1.82it/s]Training 1/3 epoch (loss 0.0166):  26%|██▌       | 4400/16950 [48:46<1:54:49,  1.82it/s]Training 1/3 epoch (loss 0.0166):  26%|██▌       | 4401/16950 [48:46<2:09:10,  1.62it/s]Training 1/3 epoch (loss 0.3466):  26%|██▌       | 4401/16950 [48:47<2:09:10,  1.62it/s]Training 1/3 epoch (loss 0.3466):  26%|██▌       | 4402/16950 [48:47<1:54:55,  1.82it/s]Training 1/3 epoch (loss 0.0508):  26%|██▌       | 4402/16950 [48:47<1:54:55,  1.82it/s]Training 1/3 epoch (loss 0.0508):  26%|██▌       | 4403/16950 [48:47<2:00:53,  1.73it/s]Training 1/3 epoch (loss 0.0880):  26%|██▌       | 4403/16950 [48:48<2:00:53,  1.73it/s]Training 1/3 epoch (loss 0.0880):  26%|██▌       | 4404/16950 [48:48<2:06:45,  1.65it/s]Training 1/3 epoch (loss 1.2935):  26%|██▌       | 4404/16950 [48:49<2:06:45,  1.65it/s]Training 1/3 epoch (loss 1.2935):  26%|██▌       | 4405/16950 [48:49<2:04:08,  1.68it/s]Training 1/3 epoch (loss 0.0212):  26%|██▌       | 4405/16950 [48:49<2:04:08,  1.68it/s]Training 1/3 epoch (loss 0.0212):  26%|██▌       | 4406/16950 [48:49<2:05:17,  1.67it/s]Training 1/3 epoch (loss 0.0481):  26%|██▌       | 4406/16950 [48:50<2:05:17,  1.67it/s]Training 1/3 epoch (loss 0.0481):  26%|██▌       | 4407/16950 [48:50<1:59:36,  1.75it/s]Training 1/3 epoch (loss 0.1567):  26%|██▌       | 4407/16950 [48:50<1:59:36,  1.75it/s]Training 1/3 epoch (loss 0.1567):  26%|██▌       | 4408/16950 [48:50<2:03:49,  1.69it/s]Training 1/3 epoch (loss 0.2586):  26%|██▌       | 4408/16950 [48:51<2:03:49,  1.69it/s]Training 1/3 epoch (loss 0.2586):  26%|██▌       | 4409/16950 [48:51<2:29:19,  1.40it/s]Training 1/3 epoch (loss 0.0402):  26%|██▌       | 4409/16950 [48:52<2:29:19,  1.40it/s]Training 1/3 epoch (loss 0.0402):  26%|██▌       | 4410/16950 [48:52<2:44:57,  1.27it/s]Training 1/3 epoch (loss 0.0005):  26%|██▌       | 4410/16950 [48:53<2:44:57,  1.27it/s]Training 1/3 epoch (loss 0.0005):  26%|██▌       | 4411/16950 [48:53<2:21:18,  1.48it/s]Training 1/3 epoch (loss 0.1787):  26%|██▌       | 4411/16950 [48:53<2:21:18,  1.48it/s]Training 1/3 epoch (loss 0.1787):  26%|██▌       | 4412/16950 [48:53<2:00:57,  1.73it/s]Training 1/3 epoch (loss 0.3544):  26%|██▌       | 4412/16950 [48:54<2:00:57,  1.73it/s]Training 1/3 epoch (loss 0.3544):  26%|██▌       | 4413/16950 [48:54<2:01:45,  1.72it/s]Training 1/3 epoch (loss 0.1776):  26%|██▌       | 4413/16950 [48:54<2:01:45,  1.72it/s]Training 1/3 epoch (loss 0.1776):  26%|██▌       | 4414/16950 [48:54<2:04:42,  1.68it/s]Training 1/3 epoch (loss 0.0412):  26%|██▌       | 4414/16950 [48:55<2:04:42,  1.68it/s]Training 1/3 epoch (loss 0.0412):  26%|██▌       | 4415/16950 [48:55<1:58:23,  1.76it/s]Training 1/3 epoch (loss 0.0422):  26%|██▌       | 4415/16950 [48:56<1:58:23,  1.76it/s]Training 1/3 epoch (loss 0.0422):  26%|██▌       | 4416/16950 [48:56<2:02:38,  1.70it/s]Training 1/3 epoch (loss 0.0172):  26%|██▌       | 4416/16950 [48:57<2:02:38,  1.70it/s]Training 1/3 epoch (loss 0.0172):  26%|██▌       | 4417/16950 [48:57<2:39:49,  1.31it/s]Training 1/3 epoch (loss 0.0838):  26%|██▌       | 4417/16950 [48:57<2:39:49,  1.31it/s]Training 1/3 epoch (loss 0.0838):  26%|██▌       | 4418/16950 [48:57<2:36:21,  1.34it/s]Training 1/3 epoch (loss 0.4160):  26%|██▌       | 4418/16950 [48:58<2:36:21,  1.34it/s]Training 1/3 epoch (loss 0.4160):  26%|██▌       | 4419/16950 [48:58<2:17:44,  1.52it/s]Training 1/3 epoch (loss 0.1353):  26%|██▌       | 4419/16950 [48:58<2:17:44,  1.52it/s]Training 1/3 epoch (loss 0.1353):  26%|██▌       | 4420/16950 [48:58<2:06:45,  1.65it/s]Training 1/3 epoch (loss 0.0238):  26%|██▌       | 4420/16950 [48:59<2:06:45,  1.65it/s]Training 1/3 epoch (loss 0.0238):  26%|██▌       | 4421/16950 [48:59<2:36:08,  1.34it/s]Training 1/3 epoch (loss 0.0341):  26%|██▌       | 4421/16950 [49:00<2:36:08,  1.34it/s]Training 1/3 epoch (loss 0.0341):  26%|██▌       | 4422/16950 [49:00<2:28:53,  1.40it/s]Training 1/3 epoch (loss 0.0807):  26%|██▌       | 4422/16950 [49:01<2:28:53,  1.40it/s]Training 1/3 epoch (loss 0.0807):  26%|██▌       | 4423/16950 [49:01<2:26:48,  1.42it/s]Training 1/3 epoch (loss 0.4032):  26%|██▌       | 4423/16950 [49:01<2:26:48,  1.42it/s]Training 1/3 epoch (loss 0.4032):  26%|██▌       | 4424/16950 [49:01<2:12:54,  1.57it/s]Training 1/3 epoch (loss 0.0573):  26%|██▌       | 4424/16950 [49:02<2:12:54,  1.57it/s]Training 1/3 epoch (loss 0.0573):  26%|██▌       | 4425/16950 [49:02<2:03:34,  1.69it/s]Training 1/3 epoch (loss 0.4600):  26%|██▌       | 4425/16950 [49:02<2:03:34,  1.69it/s]Training 1/3 epoch (loss 0.4600):  26%|██▌       | 4426/16950 [49:02<1:50:52,  1.88it/s]Training 1/3 epoch (loss 0.0174):  26%|██▌       | 4426/16950 [49:03<1:50:52,  1.88it/s]Training 1/3 epoch (loss 0.0174):  26%|██▌       | 4427/16950 [49:03<1:50:26,  1.89it/s]Training 1/3 epoch (loss 0.2203):  26%|██▌       | 4427/16950 [49:03<1:50:26,  1.89it/s]Training 1/3 epoch (loss 0.2203):  26%|██▌       | 4428/16950 [49:03<1:48:11,  1.93it/s]Training 1/3 epoch (loss 0.3769):  26%|██▌       | 4428/16950 [49:04<1:48:11,  1.93it/s]Training 1/3 epoch (loss 0.3769):  26%|██▌       | 4429/16950 [49:04<2:16:03,  1.53it/s]Training 1/3 epoch (loss 0.1645):  26%|██▌       | 4429/16950 [49:05<2:16:03,  1.53it/s]Training 1/3 epoch (loss 0.1645):  26%|██▌       | 4430/16950 [49:05<2:21:26,  1.48it/s]Training 1/3 epoch (loss 0.4142):  26%|██▌       | 4430/16950 [49:05<2:21:26,  1.48it/s]Training 1/3 epoch (loss 0.4142):  26%|██▌       | 4431/16950 [49:05<2:12:39,  1.57it/s]Training 1/3 epoch (loss 0.0054):  26%|██▌       | 4431/16950 [49:06<2:12:39,  1.57it/s]Training 1/3 epoch (loss 0.0054):  26%|██▌       | 4432/16950 [49:06<2:16:35,  1.53it/s]Training 1/3 epoch (loss 0.3782):  26%|██▌       | 4432/16950 [49:06<2:16:35,  1.53it/s]Training 1/3 epoch (loss 0.3782):  26%|██▌       | 4433/16950 [49:06<1:59:06,  1.75it/s]Training 1/3 epoch (loss 0.0338):  26%|██▌       | 4433/16950 [49:07<1:59:06,  1.75it/s]Training 1/3 epoch (loss 0.0338):  26%|██▌       | 4434/16950 [49:07<2:05:39,  1.66it/s]Training 1/3 epoch (loss 0.0043):  26%|██▌       | 4434/16950 [49:08<2:05:39,  1.66it/s]Training 1/3 epoch (loss 0.0043):  26%|██▌       | 4435/16950 [49:08<2:24:04,  1.45it/s]Training 1/3 epoch (loss 0.0100):  26%|██▌       | 4435/16950 [49:09<2:24:04,  1.45it/s]Training 1/3 epoch (loss 0.0100):  26%|██▌       | 4436/16950 [49:09<2:18:01,  1.51it/s]Training 1/3 epoch (loss 0.0024):  26%|██▌       | 4436/16950 [49:09<2:18:01,  1.51it/s]Training 1/3 epoch (loss 0.0024):  26%|██▌       | 4437/16950 [49:09<2:11:47,  1.58it/s]Training 1/3 epoch (loss 0.0484):  26%|██▌       | 4437/16950 [49:10<2:11:47,  1.58it/s]Training 1/3 epoch (loss 0.0484):  26%|██▌       | 4438/16950 [49:10<2:09:35,  1.61it/s]Training 1/3 epoch (loss 0.2088):  26%|██▌       | 4438/16950 [49:10<2:09:35,  1.61it/s]Training 1/3 epoch (loss 0.2088):  26%|██▌       | 4439/16950 [49:10<2:02:01,  1.71it/s]Training 1/3 epoch (loss 0.0097):  26%|██▌       | 4439/16950 [49:11<2:02:01,  1.71it/s]Training 1/3 epoch (loss 0.0097):  26%|██▌       | 4440/16950 [49:11<2:08:20,  1.62it/s]Training 1/3 epoch (loss 0.0426):  26%|██▌       | 4440/16950 [49:11<2:08:20,  1.62it/s]Training 1/3 epoch (loss 0.0426):  26%|██▌       | 4441/16950 [49:11<2:00:43,  1.73it/s]Training 1/3 epoch (loss 0.0610):  26%|██▌       | 4441/16950 [49:12<2:00:43,  1.73it/s]Training 1/3 epoch (loss 0.0610):  26%|██▌       | 4442/16950 [49:12<1:53:44,  1.83it/s]Training 1/3 epoch (loss 0.0104):  26%|██▌       | 4442/16950 [49:12<1:53:44,  1.83it/s]Training 1/3 epoch (loss 0.0104):  26%|██▌       | 4443/16950 [49:12<1:53:19,  1.84it/s]Training 1/3 epoch (loss 0.0535):  26%|██▌       | 4443/16950 [49:13<1:53:19,  1.84it/s]Training 1/3 epoch (loss 0.0535):  26%|██▌       | 4444/16950 [49:13<1:53:58,  1.83it/s]Training 1/3 epoch (loss 0.0338):  26%|██▌       | 4444/16950 [49:14<1:53:58,  1.83it/s]Training 1/3 epoch (loss 0.0338):  26%|██▌       | 4445/16950 [49:14<1:52:01,  1.86it/s]Training 1/3 epoch (loss 0.1152):  26%|██▌       | 4445/16950 [49:14<1:52:01,  1.86it/s]Training 1/3 epoch (loss 0.1152):  26%|██▌       | 4446/16950 [49:14<2:17:07,  1.52it/s]Training 1/3 epoch (loss 0.7789):  26%|██▌       | 4446/16950 [49:15<2:17:07,  1.52it/s]Training 1/3 epoch (loss 0.7789):  26%|██▌       | 4447/16950 [49:15<2:06:54,  1.64it/s]Training 1/3 epoch (loss 0.7740):  26%|██▌       | 4447/16950 [49:15<2:06:54,  1.64it/s]Training 1/3 epoch (loss 0.7740):  26%|██▌       | 4448/16950 [49:15<1:55:56,  1.80it/s]Training 1/3 epoch (loss 0.0765):  26%|██▌       | 4448/16950 [49:16<1:55:56,  1.80it/s]Training 1/3 epoch (loss 0.0765):  26%|██▌       | 4449/16950 [49:16<1:51:18,  1.87it/s]Training 1/3 epoch (loss 0.2503):  26%|██▌       | 4449/16950 [49:16<1:51:18,  1.87it/s]Training 1/3 epoch (loss 0.2503):  26%|██▋       | 4450/16950 [49:16<1:45:57,  1.97it/s]Training 1/3 epoch (loss 0.0098):  26%|██▋       | 4450/16950 [49:17<1:45:57,  1.97it/s]Training 1/3 epoch (loss 0.0098):  26%|██▋       | 4451/16950 [49:17<1:53:33,  1.83it/s]Training 1/3 epoch (loss 0.3028):  26%|██▋       | 4451/16950 [49:18<1:53:33,  1.83it/s]Training 1/3 epoch (loss 0.3028):  26%|██▋       | 4452/16950 [49:18<1:58:42,  1.75it/s]Training 1/3 epoch (loss 0.4578):  26%|██▋       | 4452/16950 [49:18<1:58:42,  1.75it/s]Training 1/3 epoch (loss 0.4578):  26%|██▋       | 4453/16950 [49:18<1:53:39,  1.83it/s]Training 1/3 epoch (loss 0.4611):  26%|██▋       | 4453/16950 [49:19<1:53:39,  1.83it/s]Training 1/3 epoch (loss 0.4611):  26%|██▋       | 4454/16950 [49:19<1:49:28,  1.90it/s]Training 1/3 epoch (loss 0.0549):  26%|██▋       | 4454/16950 [49:19<1:49:28,  1.90it/s]Training 1/3 epoch (loss 0.0549):  26%|██▋       | 4455/16950 [49:19<1:49:52,  1.90it/s]Training 1/3 epoch (loss 0.0081):  26%|██▋       | 4455/16950 [49:20<1:49:52,  1.90it/s]Training 1/3 epoch (loss 0.0081):  26%|██▋       | 4456/16950 [49:20<1:58:28,  1.76it/s]Training 1/3 epoch (loss 0.0654):  26%|██▋       | 4456/16950 [49:20<1:58:28,  1.76it/s]Training 1/3 epoch (loss 0.0654):  26%|██▋       | 4457/16950 [49:20<1:50:58,  1.88it/s]Training 1/3 epoch (loss 0.0027):  26%|██▋       | 4457/16950 [49:21<1:50:58,  1.88it/s]Training 1/3 epoch (loss 0.0027):  26%|██▋       | 4458/16950 [49:21<1:46:08,  1.96it/s]Training 1/3 epoch (loss 0.0192):  26%|██▋       | 4458/16950 [49:21<1:46:08,  1.96it/s]Training 1/3 epoch (loss 0.0192):  26%|██▋       | 4459/16950 [49:21<1:58:15,  1.76it/s]Training 1/3 epoch (loss 0.0271):  26%|██▋       | 4459/16950 [49:22<1:58:15,  1.76it/s]Training 1/3 epoch (loss 0.0271):  26%|██▋       | 4460/16950 [49:22<1:51:05,  1.87it/s]Training 1/3 epoch (loss 0.1153):  26%|██▋       | 4460/16950 [49:22<1:51:05,  1.87it/s]Training 1/3 epoch (loss 0.1153):  26%|██▋       | 4461/16950 [49:22<1:48:30,  1.92it/s]Training 1/3 epoch (loss 0.5523):  26%|██▋       | 4461/16950 [49:23<1:48:30,  1.92it/s]Training 1/3 epoch (loss 0.5523):  26%|██▋       | 4462/16950 [49:23<1:50:35,  1.88it/s]Training 1/3 epoch (loss 0.4789):  26%|██▋       | 4462/16950 [49:23<1:50:35,  1.88it/s]Training 1/3 epoch (loss 0.4789):  26%|██▋       | 4463/16950 [49:23<1:38:33,  2.11it/s]Training 1/3 epoch (loss 0.0288):  26%|██▋       | 4463/16950 [49:24<1:38:33,  2.11it/s]Training 1/3 epoch (loss 0.0288):  26%|██▋       | 4464/16950 [49:24<2:01:55,  1.71it/s]Training 1/3 epoch (loss 0.0233):  26%|██▋       | 4464/16950 [49:25<2:01:55,  1.71it/s]Training 1/3 epoch (loss 0.0233):  26%|██▋       | 4465/16950 [49:25<2:05:02,  1.66it/s]Training 1/3 epoch (loss 0.0087):  26%|██▋       | 4465/16950 [49:25<2:05:02,  1.66it/s]Training 1/3 epoch (loss 0.0087):  26%|██▋       | 4466/16950 [49:25<2:08:58,  1.61it/s]Training 1/3 epoch (loss 0.0297):  26%|██▋       | 4466/16950 [49:26<2:08:58,  1.61it/s]Training 1/3 epoch (loss 0.0297):  26%|██▋       | 4467/16950 [49:26<2:14:46,  1.54it/s]Training 1/3 epoch (loss 0.3945):  26%|██▋       | 4467/16950 [49:27<2:14:46,  1.54it/s]Training 1/3 epoch (loss 0.3945):  26%|██▋       | 4468/16950 [49:27<2:07:24,  1.63it/s]Training 1/3 epoch (loss 0.0648):  26%|██▋       | 4468/16950 [49:27<2:07:24,  1.63it/s]Training 1/3 epoch (loss 0.0648):  26%|██▋       | 4469/16950 [49:27<2:03:50,  1.68it/s]Training 1/3 epoch (loss 0.0580):  26%|██▋       | 4469/16950 [49:28<2:03:50,  1.68it/s]Training 1/3 epoch (loss 0.0580):  26%|██▋       | 4470/16950 [49:28<1:50:40,  1.88it/s]Training 1/3 epoch (loss 0.0379):  26%|██▋       | 4470/16950 [49:28<1:50:40,  1.88it/s]Training 1/3 epoch (loss 0.0379):  26%|██▋       | 4471/16950 [49:28<1:40:31,  2.07it/s]Training 1/3 epoch (loss 0.5710):  26%|██▋       | 4471/16950 [49:29<1:40:31,  2.07it/s]Training 1/3 epoch (loss 0.5710):  26%|██▋       | 4472/16950 [49:29<2:21:40,  1.47it/s]Training 1/3 epoch (loss 0.8841):  26%|██▋       | 4472/16950 [49:30<2:21:40,  1.47it/s]Training 1/3 epoch (loss 0.8841):  26%|██▋       | 4473/16950 [49:30<2:41:00,  1.29it/s]Training 1/3 epoch (loss 0.0343):  26%|██▋       | 4473/16950 [49:31<2:41:00,  1.29it/s]Training 1/3 epoch (loss 0.0343):  26%|██▋       | 4474/16950 [49:31<2:36:46,  1.33it/s]Training 1/3 epoch (loss 0.0090):  26%|██▋       | 4474/16950 [49:31<2:36:46,  1.33it/s]Training 1/3 epoch (loss 0.0090):  26%|██▋       | 4475/16950 [49:31<2:25:16,  1.43it/s]Training 1/3 epoch (loss 0.0967):  26%|██▋       | 4475/16950 [49:32<2:25:16,  1.43it/s]Training 1/3 epoch (loss 0.0967):  26%|██▋       | 4476/16950 [49:32<2:22:22,  1.46it/s]Training 1/3 epoch (loss 0.0864):  26%|██▋       | 4476/16950 [49:33<2:22:22,  1.46it/s]Training 1/3 epoch (loss 0.0864):  26%|██▋       | 4477/16950 [49:33<2:43:44,  1.27it/s]Training 1/3 epoch (loss 0.4138):  26%|██▋       | 4477/16950 [49:34<2:43:44,  1.27it/s]Training 1/3 epoch (loss 0.4138):  26%|██▋       | 4478/16950 [49:34<2:26:29,  1.42it/s]Training 1/3 epoch (loss 0.0048):  26%|██▋       | 4478/16950 [49:34<2:26:29,  1.42it/s]Training 1/3 epoch (loss 0.0048):  26%|██▋       | 4479/16950 [49:34<2:13:43,  1.55it/s]Training 1/3 epoch (loss 0.0229):  26%|██▋       | 4479/16950 [49:34<2:13:43,  1.55it/s]Training 1/3 epoch (loss 0.0229):  26%|██▋       | 4480/16950 [49:34<2:00:51,  1.72it/s]Training 1/3 epoch (loss 0.4986):  26%|██▋       | 4480/16950 [49:35<2:00:51,  1.72it/s]Training 1/3 epoch (loss 0.4986):  26%|██▋       | 4481/16950 [49:35<1:52:40,  1.84it/s]Training 1/3 epoch (loss 0.0019):  26%|██▋       | 4481/16950 [49:35<1:52:40,  1.84it/s]Training 1/3 epoch (loss 0.0019):  26%|██▋       | 4482/16950 [49:35<1:44:10,  1.99it/s]Training 1/3 epoch (loss 0.0125):  26%|██▋       | 4482/16950 [49:36<1:44:10,  1.99it/s]Training 1/3 epoch (loss 0.0125):  26%|██▋       | 4483/16950 [49:36<1:37:55,  2.12it/s]Training 1/3 epoch (loss 0.1031):  26%|██▋       | 4483/16950 [49:36<1:37:55,  2.12it/s]Training 1/3 epoch (loss 0.1031):  26%|██▋       | 4484/16950 [49:36<1:34:56,  2.19it/s]Training 1/3 epoch (loss 0.5716):  26%|██▋       | 4484/16950 [49:37<1:34:56,  2.19it/s]Training 1/3 epoch (loss 0.5716):  26%|██▋       | 4485/16950 [49:37<1:31:38,  2.27it/s]Training 1/3 epoch (loss 0.1810):  26%|██▋       | 4485/16950 [49:38<1:31:38,  2.27it/s]Training 1/3 epoch (loss 0.1810):  26%|██▋       | 4486/16950 [49:38<2:07:12,  1.63it/s]Training 1/3 epoch (loss 0.3786):  26%|██▋       | 4486/16950 [49:38<2:07:12,  1.63it/s]Training 1/3 epoch (loss 0.3786):  26%|██▋       | 4487/16950 [49:38<2:03:38,  1.68it/s]Training 1/3 epoch (loss 0.3942):  26%|██▋       | 4487/16950 [49:39<2:03:38,  1.68it/s]Training 1/3 epoch (loss 0.3942):  26%|██▋       | 4488/16950 [49:39<2:30:50,  1.38it/s]Training 1/3 epoch (loss 0.1502):  26%|██▋       | 4488/16950 [49:40<2:30:50,  1.38it/s]Training 1/3 epoch (loss 0.1502):  26%|██▋       | 4489/16950 [49:40<2:24:38,  1.44it/s]Training 1/3 epoch (loss 0.6059):  26%|██▋       | 4489/16950 [49:41<2:24:38,  1.44it/s]Training 1/3 epoch (loss 0.6059):  26%|██▋       | 4490/16950 [49:41<2:36:19,  1.33it/s]Training 1/3 epoch (loss 0.0902):  26%|██▋       | 4490/16950 [49:41<2:36:19,  1.33it/s]Training 1/3 epoch (loss 0.0902):  26%|██▋       | 4491/16950 [49:41<2:21:56,  1.46it/s]Training 1/3 epoch (loss 0.0123):  26%|██▋       | 4491/16950 [49:42<2:21:56,  1.46it/s]Training 1/3 epoch (loss 0.0123):  27%|██▋       | 4492/16950 [49:42<2:19:01,  1.49it/s]Training 1/3 epoch (loss 0.0085):  27%|██▋       | 4492/16950 [49:42<2:19:01,  1.49it/s]Training 1/3 epoch (loss 0.0085):  27%|██▋       | 4493/16950 [49:42<2:14:30,  1.54it/s]Training 1/3 epoch (loss 0.0070):  27%|██▋       | 4493/16950 [49:43<2:14:30,  1.54it/s]Training 1/3 epoch (loss 0.0070):  27%|██▋       | 4494/16950 [49:43<2:18:26,  1.50it/s]Training 1/3 epoch (loss 0.0982):  27%|██▋       | 4494/16950 [49:44<2:18:26,  1.50it/s]Training 1/3 epoch (loss 0.0982):  27%|██▋       | 4495/16950 [49:44<2:20:17,  1.48it/s]Training 1/3 epoch (loss 0.0694):  27%|██▋       | 4495/16950 [49:45<2:20:17,  1.48it/s]Training 1/3 epoch (loss 0.0694):  27%|██▋       | 4496/16950 [49:45<2:20:59,  1.47it/s]Training 1/3 epoch (loss 0.1545):  27%|██▋       | 4496/16950 [49:45<2:20:59,  1.47it/s]Training 1/3 epoch (loss 0.1545):  27%|██▋       | 4497/16950 [49:45<2:14:00,  1.55it/s]Training 1/3 epoch (loss 0.0279):  27%|██▋       | 4497/16950 [49:45<2:14:00,  1.55it/s]Training 1/3 epoch (loss 0.0279):  27%|██▋       | 4498/16950 [49:45<1:55:06,  1.80it/s]Training 1/3 epoch (loss 0.8058):  27%|██▋       | 4498/16950 [49:46<1:55:06,  1.80it/s]Training 1/3 epoch (loss 0.8058):  27%|██▋       | 4499/16950 [49:46<1:44:30,  1.99it/s]Training 1/3 epoch (loss 0.0040):  27%|██▋       | 4499/16950 [49:46<1:44:30,  1.99it/s]Training 1/3 epoch (loss 0.0040):  27%|██▋       | 4500/16950 [49:46<1:50:49,  1.87it/s]Training 1/3 epoch (loss 0.0085):  27%|██▋       | 4500/16950 [49:47<1:50:49,  1.87it/s]Training 1/3 epoch (loss 0.0085):  27%|██▋       | 4501/16950 [49:47<1:48:52,  1.91it/s]Training 1/3 epoch (loss 0.1323):  27%|██▋       | 4501/16950 [49:48<1:48:52,  1.91it/s]Training 1/3 epoch (loss 0.1323):  27%|██▋       | 4502/16950 [49:48<1:59:30,  1.74it/s]Training 1/3 epoch (loss 0.0049):  27%|██▋       | 4502/16950 [49:49<1:59:30,  1.74it/s]Training 1/3 epoch (loss 0.0049):  27%|██▋       | 4503/16950 [49:49<2:22:55,  1.45it/s]Training 1/3 epoch (loss 0.0759):  27%|██▋       | 4503/16950 [49:49<2:22:55,  1.45it/s]Training 1/3 epoch (loss 0.0759):  27%|██▋       | 4504/16950 [49:49<2:17:42,  1.51it/s]Training 1/3 epoch (loss 0.0896):  27%|██▋       | 4504/16950 [49:50<2:17:42,  1.51it/s]Training 1/3 epoch (loss 0.0896):  27%|██▋       | 4505/16950 [49:50<2:05:11,  1.66it/s]Training 1/3 epoch (loss 0.0589):  27%|██▋       | 4505/16950 [49:50<2:05:11,  1.66it/s]Training 1/3 epoch (loss 0.0589):  27%|██▋       | 4506/16950 [49:50<2:07:41,  1.62it/s]Training 1/3 epoch (loss 0.0355):  27%|██▋       | 4506/16950 [49:51<2:07:41,  1.62it/s]Training 1/3 epoch (loss 0.0355):  27%|██▋       | 4507/16950 [49:51<2:15:32,  1.53it/s]Training 1/3 epoch (loss 0.0734):  27%|██▋       | 4507/16950 [49:52<2:15:32,  1.53it/s]Training 1/3 epoch (loss 0.0734):  27%|██▋       | 4508/16950 [49:52<2:09:43,  1.60it/s]Training 1/3 epoch (loss 0.1477):  27%|██▋       | 4508/16950 [49:52<2:09:43,  1.60it/s]Training 1/3 epoch (loss 0.1477):  27%|██▋       | 4509/16950 [49:52<2:24:05,  1.44it/s]Training 1/3 epoch (loss 0.0868):  27%|██▋       | 4509/16950 [49:53<2:24:05,  1.44it/s]Training 1/3 epoch (loss 0.0868):  27%|██▋       | 4510/16950 [49:53<2:19:30,  1.49it/s]Training 1/3 epoch (loss 0.4991):  27%|██▋       | 4510/16950 [49:54<2:19:30,  1.49it/s]Training 1/3 epoch (loss 0.4991):  27%|██▋       | 4511/16950 [49:54<2:16:45,  1.52it/s]Training 1/3 epoch (loss 0.2813):  27%|██▋       | 4511/16950 [49:54<2:16:45,  1.52it/s]Training 1/3 epoch (loss 0.2813):  27%|██▋       | 4512/16950 [49:54<2:05:18,  1.65it/s]Training 1/3 epoch (loss 0.0025):  27%|██▋       | 4512/16950 [49:55<2:05:18,  1.65it/s]Training 1/3 epoch (loss 0.0025):  27%|██▋       | 4513/16950 [49:55<1:53:30,  1.83it/s]Training 1/3 epoch (loss 0.0460):  27%|██▋       | 4513/16950 [49:55<1:53:30,  1.83it/s]Training 1/3 epoch (loss 0.0460):  27%|██▋       | 4514/16950 [49:55<1:58:19,  1.75it/s]Training 1/3 epoch (loss 0.2223):  27%|██▋       | 4514/16950 [49:56<1:58:19,  1.75it/s]Training 1/3 epoch (loss 0.2223):  27%|██▋       | 4515/16950 [49:56<2:06:17,  1.64it/s]Training 1/3 epoch (loss 0.1186):  27%|██▋       | 4515/16950 [49:56<2:06:17,  1.64it/s]Training 1/3 epoch (loss 0.1186):  27%|██▋       | 4516/16950 [49:56<2:03:44,  1.67it/s]Training 1/3 epoch (loss 0.5369):  27%|██▋       | 4516/16950 [49:57<2:03:44,  1.67it/s]Training 1/3 epoch (loss 0.5369):  27%|██▋       | 4517/16950 [49:57<1:51:35,  1.86it/s]Training 1/3 epoch (loss 0.5243):  27%|██▋       | 4517/16950 [49:57<1:51:35,  1.86it/s]Training 1/3 epoch (loss 0.5243):  27%|██▋       | 4518/16950 [49:57<1:39:03,  2.09it/s]Training 1/3 epoch (loss 0.1721):  27%|██▋       | 4518/16950 [49:58<1:39:03,  2.09it/s]Training 1/3 epoch (loss 0.1721):  27%|██▋       | 4519/16950 [49:58<1:38:49,  2.10it/s]Training 1/3 epoch (loss 0.0366):  27%|██▋       | 4519/16950 [49:58<1:38:49,  2.10it/s]Training 1/3 epoch (loss 0.0366):  27%|██▋       | 4520/16950 [49:58<1:49:09,  1.90it/s]Training 1/3 epoch (loss 0.3737):  27%|██▋       | 4520/16950 [49:59<1:49:09,  1.90it/s]Training 1/3 epoch (loss 0.3737):  27%|██▋       | 4521/16950 [49:59<1:52:11,  1.85it/s]Training 1/3 epoch (loss 0.3110):  27%|██▋       | 4521/16950 [50:00<1:52:11,  1.85it/s]Training 1/3 epoch (loss 0.3110):  27%|██▋       | 4522/16950 [50:00<2:10:51,  1.58it/s]Training 1/3 epoch (loss 0.0265):  27%|██▋       | 4522/16950 [50:00<2:10:51,  1.58it/s]Training 1/3 epoch (loss 0.0265):  27%|██▋       | 4523/16950 [50:00<2:10:31,  1.59it/s]Training 1/3 epoch (loss 0.0025):  27%|██▋       | 4523/16950 [50:01<2:10:31,  1.59it/s]Training 1/3 epoch (loss 0.0025):  27%|██▋       | 4524/16950 [50:01<2:04:21,  1.67it/s]Training 1/3 epoch (loss 0.2830):  27%|██▋       | 4524/16950 [50:02<2:04:21,  1.67it/s]Training 1/3 epoch (loss 0.2830):  27%|██▋       | 4525/16950 [50:02<2:31:12,  1.37it/s]Training 1/3 epoch (loss 0.0016):  27%|██▋       | 4525/16950 [50:02<2:31:12,  1.37it/s]Training 1/3 epoch (loss 0.0016):  27%|██▋       | 4526/16950 [50:02<2:07:52,  1.62it/s]Training 1/3 epoch (loss 0.4318):  27%|██▋       | 4526/16950 [50:03<2:07:52,  1.62it/s]Training 1/3 epoch (loss 0.4318):  27%|██▋       | 4527/16950 [50:03<1:56:24,  1.78it/s]Training 1/3 epoch (loss 0.4275):  27%|██▋       | 4527/16950 [50:04<1:56:24,  1.78it/s]Training 1/3 epoch (loss 0.4275):  27%|██▋       | 4528/16950 [50:04<2:11:17,  1.58it/s]Training 1/3 epoch (loss 0.0049):  27%|██▋       | 4528/16950 [50:04<2:11:17,  1.58it/s]Training 1/3 epoch (loss 0.0049):  27%|██▋       | 4529/16950 [50:04<2:19:59,  1.48it/s]Training 1/3 epoch (loss 0.2688):  27%|██▋       | 4529/16950 [50:05<2:19:59,  1.48it/s]Training 1/3 epoch (loss 0.2688):  27%|██▋       | 4530/16950 [50:05<2:09:27,  1.60it/s]Training 1/3 epoch (loss 0.5129):  27%|██▋       | 4530/16950 [50:05<2:09:27,  1.60it/s]Training 1/3 epoch (loss 0.5129):  27%|██▋       | 4531/16950 [50:05<1:54:34,  1.81it/s]Training 1/3 epoch (loss 0.1054):  27%|██▋       | 4531/16950 [50:06<1:54:34,  1.81it/s]Training 1/3 epoch (loss 0.1054):  27%|██▋       | 4532/16950 [50:06<1:42:50,  2.01it/s]Training 1/3 epoch (loss 0.0330):  27%|██▋       | 4532/16950 [50:06<1:42:50,  2.01it/s]Training 1/3 epoch (loss 0.0330):  27%|██▋       | 4533/16950 [50:06<1:51:46,  1.85it/s]Training 1/3 epoch (loss 0.0527):  27%|██▋       | 4533/16950 [50:07<1:51:46,  1.85it/s]Training 1/3 epoch (loss 0.0527):  27%|██▋       | 4534/16950 [50:07<1:57:40,  1.76it/s]Training 1/3 epoch (loss 0.0026):  27%|██▋       | 4534/16950 [50:07<1:57:40,  1.76it/s]Training 1/3 epoch (loss 0.0026):  27%|██▋       | 4535/16950 [50:07<2:00:07,  1.72it/s]Training 1/3 epoch (loss 0.4116):  27%|██▋       | 4535/16950 [50:08<2:00:07,  1.72it/s]Training 1/3 epoch (loss 0.4116):  27%|██▋       | 4536/16950 [50:08<1:58:19,  1.75it/s]Training 1/3 epoch (loss 0.0037):  27%|██▋       | 4536/16950 [50:09<1:58:19,  1.75it/s]Training 1/3 epoch (loss 0.0037):  27%|██▋       | 4537/16950 [50:09<2:00:49,  1.71it/s]Training 1/3 epoch (loss 0.0526):  27%|██▋       | 4537/16950 [50:09<2:00:49,  1.71it/s]Training 1/3 epoch (loss 0.0526):  27%|██▋       | 4538/16950 [50:09<1:58:11,  1.75it/s]Training 1/3 epoch (loss 0.0051):  27%|██▋       | 4538/16950 [50:09<1:58:11,  1.75it/s]Training 1/3 epoch (loss 0.0051):  27%|██▋       | 4539/16950 [50:09<1:43:27,  2.00it/s]Training 1/3 epoch (loss 0.0060):  27%|██▋       | 4539/16950 [50:10<1:43:27,  2.00it/s]Training 1/3 epoch (loss 0.0060):  27%|██▋       | 4540/16950 [50:10<1:40:53,  2.05it/s]Training 1/3 epoch (loss 0.0141):  27%|██▋       | 4540/16950 [50:10<1:40:53,  2.05it/s]Training 1/3 epoch (loss 0.0141):  27%|██▋       | 4541/16950 [50:10<1:41:07,  2.05it/s]Training 1/3 epoch (loss 0.0466):  27%|██▋       | 4541/16950 [50:11<1:41:07,  2.05it/s]Training 1/3 epoch (loss 0.0466):  27%|██▋       | 4542/16950 [50:11<1:41:11,  2.04it/s]Training 1/3 epoch (loss 0.0054):  27%|██▋       | 4542/16950 [50:11<1:41:11,  2.04it/s]Training 1/3 epoch (loss 0.0054):  27%|██▋       | 4543/16950 [50:11<1:40:52,  2.05it/s]Training 1/3 epoch (loss 0.0088):  27%|██▋       | 4543/16950 [50:12<1:40:52,  2.05it/s]Training 1/3 epoch (loss 0.0088):  27%|██▋       | 4544/16950 [50:12<1:53:37,  1.82it/s]Training 1/3 epoch (loss 0.0393):  27%|██▋       | 4544/16950 [50:13<1:53:37,  1.82it/s]Training 1/3 epoch (loss 0.0393):  27%|██▋       | 4545/16950 [50:13<1:53:24,  1.82it/s]Training 1/3 epoch (loss 0.0702):  27%|██▋       | 4545/16950 [50:13<1:53:24,  1.82it/s]Training 1/3 epoch (loss 0.0702):  27%|██▋       | 4546/16950 [50:13<1:55:00,  1.80it/s]Training 1/3 epoch (loss 0.2368):  27%|██▋       | 4546/16950 [50:14<1:55:00,  1.80it/s]Training 1/3 epoch (loss 0.2368):  27%|██▋       | 4547/16950 [50:14<1:48:32,  1.90it/s]Training 1/3 epoch (loss 0.0062):  27%|██▋       | 4547/16950 [50:14<1:48:32,  1.90it/s]Training 1/3 epoch (loss 0.0062):  27%|██▋       | 4548/16950 [50:14<1:50:59,  1.86it/s]Training 1/3 epoch (loss 0.4960):  27%|██▋       | 4548/16950 [50:15<1:50:59,  1.86it/s]Training 1/3 epoch (loss 0.4960):  27%|██▋       | 4549/16950 [50:15<2:11:32,  1.57it/s]Training 1/3 epoch (loss 0.1082):  27%|██▋       | 4549/16950 [50:16<2:11:32,  1.57it/s]Training 1/3 epoch (loss 0.1082):  27%|██▋       | 4550/16950 [50:16<2:14:03,  1.54it/s]Training 1/3 epoch (loss 0.5762):  27%|██▋       | 4550/16950 [50:16<2:14:03,  1.54it/s]Training 1/3 epoch (loss 0.5762):  27%|██▋       | 4551/16950 [50:16<2:09:51,  1.59it/s]Training 1/3 epoch (loss 0.8636):  27%|██▋       | 4551/16950 [50:17<2:09:51,  1.59it/s]Training 1/3 epoch (loss 0.8636):  27%|██▋       | 4552/16950 [50:17<1:57:04,  1.76it/s]Training 1/3 epoch (loss 0.0029):  27%|██▋       | 4552/16950 [50:18<1:57:04,  1.76it/s]Training 1/3 epoch (loss 0.0029):  27%|██▋       | 4553/16950 [50:18<2:18:25,  1.49it/s]Training 1/3 epoch (loss 0.1330):  27%|██▋       | 4553/16950 [50:18<2:18:25,  1.49it/s]Training 1/3 epoch (loss 0.1330):  27%|██▋       | 4554/16950 [50:18<2:15:26,  1.53it/s]Training 1/3 epoch (loss 0.0283):  27%|██▋       | 4554/16950 [50:19<2:15:26,  1.53it/s]Training 1/3 epoch (loss 0.0283):  27%|██▋       | 4555/16950 [50:19<2:24:43,  1.43it/s]Training 1/3 epoch (loss 0.0596):  27%|██▋       | 4555/16950 [50:20<2:24:43,  1.43it/s]Training 1/3 epoch (loss 0.0596):  27%|██▋       | 4556/16950 [50:20<2:10:56,  1.58it/s]Training 1/3 epoch (loss 0.0040):  27%|██▋       | 4556/16950 [50:20<2:10:56,  1.58it/s]Training 1/3 epoch (loss 0.0040):  27%|██▋       | 4557/16950 [50:20<2:14:10,  1.54it/s]Training 1/3 epoch (loss 0.0081):  27%|██▋       | 4557/16950 [50:21<2:14:10,  1.54it/s]Training 1/3 epoch (loss 0.0081):  27%|██▋       | 4558/16950 [50:21<2:02:24,  1.69it/s]Training 1/3 epoch (loss 0.0351):  27%|██▋       | 4558/16950 [50:21<2:02:24,  1.69it/s]Training 1/3 epoch (loss 0.0351):  27%|██▋       | 4559/16950 [50:21<2:04:10,  1.66it/s]Training 1/3 epoch (loss 0.1614):  27%|██▋       | 4559/16950 [50:22<2:04:10,  1.66it/s]Training 1/3 epoch (loss 0.1614):  27%|██▋       | 4560/16950 [50:22<2:08:12,  1.61it/s]Training 1/3 epoch (loss 0.5499):  27%|██▋       | 4560/16950 [50:23<2:08:12,  1.61it/s]Training 1/3 epoch (loss 0.5499):  27%|██▋       | 4561/16950 [50:23<2:02:42,  1.68it/s]Training 1/3 epoch (loss 0.6278):  27%|██▋       | 4561/16950 [50:24<2:02:42,  1.68it/s]Training 1/3 epoch (loss 0.6278):  27%|██▋       | 4562/16950 [50:24<2:23:55,  1.43it/s]Training 1/3 epoch (loss 0.4643):  27%|██▋       | 4562/16950 [50:24<2:23:55,  1.43it/s]Training 1/3 epoch (loss 0.4643):  27%|██▋       | 4563/16950 [50:24<2:20:35,  1.47it/s]Training 1/3 epoch (loss 0.2924):  27%|██▋       | 4563/16950 [50:25<2:20:35,  1.47it/s]Training 1/3 epoch (loss 0.2924):  27%|██▋       | 4564/16950 [50:25<2:04:15,  1.66it/s]Training 1/3 epoch (loss 0.0010):  27%|██▋       | 4564/16950 [50:26<2:04:15,  1.66it/s]Training 1/3 epoch (loss 0.0010):  27%|██▋       | 4565/16950 [50:26<2:31:59,  1.36it/s]Training 1/3 epoch (loss 0.0021):  27%|██▋       | 4565/16950 [50:26<2:31:59,  1.36it/s]Training 1/3 epoch (loss 0.0021):  27%|██▋       | 4566/16950 [50:26<2:20:06,  1.47it/s]Training 1/3 epoch (loss 0.0149):  27%|██▋       | 4566/16950 [50:27<2:20:06,  1.47it/s]Training 1/3 epoch (loss 0.0149):  27%|██▋       | 4567/16950 [50:27<2:14:08,  1.54it/s]Training 1/3 epoch (loss 0.2959):  27%|██▋       | 4567/16950 [50:27<2:14:08,  1.54it/s]Training 1/3 epoch (loss 0.2959):  27%|██▋       | 4568/16950 [50:27<2:18:19,  1.49it/s]Training 1/3 epoch (loss 0.0037):  27%|██▋       | 4568/16950 [50:28<2:18:19,  1.49it/s]Training 1/3 epoch (loss 0.0037):  27%|██▋       | 4569/16950 [50:28<2:19:44,  1.48it/s]Training 1/3 epoch (loss 0.0532):  27%|██▋       | 4569/16950 [50:29<2:19:44,  1.48it/s]Training 1/3 epoch (loss 0.0532):  27%|██▋       | 4570/16950 [50:29<2:08:46,  1.60it/s]Training 1/3 epoch (loss 0.5284):  27%|██▋       | 4570/16950 [50:29<2:08:46,  1.60it/s]Training 1/3 epoch (loss 0.5284):  27%|██▋       | 4571/16950 [50:29<2:14:17,  1.54it/s]Training 1/3 epoch (loss 0.2972):  27%|██▋       | 4571/16950 [50:30<2:14:17,  1.54it/s]Training 1/3 epoch (loss 0.2972):  27%|██▋       | 4572/16950 [50:30<2:04:09,  1.66it/s]Training 1/3 epoch (loss 0.1598):  27%|██▋       | 4572/16950 [50:30<2:04:09,  1.66it/s]Training 1/3 epoch (loss 0.1598):  27%|██▋       | 4573/16950 [50:30<1:52:17,  1.84it/s]Training 1/3 epoch (loss 0.0005):  27%|██▋       | 4573/16950 [50:31<1:52:17,  1.84it/s]Training 1/3 epoch (loss 0.0005):  27%|██▋       | 4574/16950 [50:31<1:46:42,  1.93it/s]Training 1/3 epoch (loss 0.0326):  27%|██▋       | 4574/16950 [50:31<1:46:42,  1.93it/s]Training 1/3 epoch (loss 0.0326):  27%|██▋       | 4575/16950 [50:31<1:51:23,  1.85it/s]Training 1/3 epoch (loss 0.0698):  27%|██▋       | 4575/16950 [50:32<1:51:23,  1.85it/s]Training 1/3 epoch (loss 0.0698):  27%|██▋       | 4576/16950 [50:32<2:12:17,  1.56it/s]Training 1/3 epoch (loss 0.0078):  27%|██▋       | 4576/16950 [50:33<2:12:17,  1.56it/s]Training 1/3 epoch (loss 0.0078):  27%|██▋       | 4577/16950 [50:33<2:16:23,  1.51it/s]Training 1/3 epoch (loss 0.1722):  27%|██▋       | 4577/16950 [50:34<2:16:23,  1.51it/s]Training 1/3 epoch (loss 0.1722):  27%|██▋       | 4578/16950 [50:34<2:29:21,  1.38it/s]Training 1/3 epoch (loss 0.1675):  27%|██▋       | 4578/16950 [50:34<2:29:21,  1.38it/s]Training 1/3 epoch (loss 0.1675):  27%|██▋       | 4579/16950 [50:34<2:20:02,  1.47it/s]Training 1/3 epoch (loss 0.0060):  27%|██▋       | 4579/16950 [50:35<2:20:02,  1.47it/s]Training 1/3 epoch (loss 0.0060):  27%|██▋       | 4580/16950 [50:35<2:08:11,  1.61it/s]Training 1/3 epoch (loss 0.7368):  27%|██▋       | 4580/16950 [50:35<2:08:11,  1.61it/s]Training 1/3 epoch (loss 0.7368):  27%|██▋       | 4581/16950 [50:35<1:57:07,  1.76it/s]Training 1/3 epoch (loss 0.2394):  27%|██▋       | 4581/16950 [50:36<1:57:07,  1.76it/s]Training 1/3 epoch (loss 0.2394):  27%|██▋       | 4582/16950 [50:36<2:11:00,  1.57it/s]Training 1/3 epoch (loss 0.0017):  27%|██▋       | 4582/16950 [50:37<2:11:00,  1.57it/s]Training 1/3 epoch (loss 0.0017):  27%|██▋       | 4583/16950 [50:37<2:13:26,  1.54it/s]Training 1/3 epoch (loss 0.0232):  27%|██▋       | 4583/16950 [50:37<2:13:26,  1.54it/s]Training 1/3 epoch (loss 0.0232):  27%|██▋       | 4584/16950 [50:37<2:04:14,  1.66it/s]Training 1/3 epoch (loss 0.0395):  27%|██▋       | 4584/16950 [50:38<2:04:14,  1.66it/s]Training 1/3 epoch (loss 0.0395):  27%|██▋       | 4585/16950 [50:38<2:06:48,  1.63it/s]Training 1/3 epoch (loss 0.5576):  27%|██▋       | 4585/16950 [50:39<2:06:48,  1.63it/s]Training 1/3 epoch (loss 0.5576):  27%|██▋       | 4586/16950 [50:39<2:22:49,  1.44it/s]Training 1/3 epoch (loss 0.0268):  27%|██▋       | 4586/16950 [50:39<2:22:49,  1.44it/s]Training 1/3 epoch (loss 0.0268):  27%|██▋       | 4587/16950 [50:39<2:13:41,  1.54it/s]Training 1/3 epoch (loss 0.0426):  27%|██▋       | 4587/16950 [50:40<2:13:41,  1.54it/s]Training 1/3 epoch (loss 0.0426):  27%|██▋       | 4588/16950 [50:40<2:05:36,  1.64it/s]Training 1/3 epoch (loss 0.0632):  27%|██▋       | 4588/16950 [50:41<2:05:36,  1.64it/s]Training 1/3 epoch (loss 0.0632):  27%|██▋       | 4589/16950 [50:41<2:10:46,  1.58it/s]Training 1/3 epoch (loss 0.1921):  27%|██▋       | 4589/16950 [50:41<2:10:46,  1.58it/s]Training 1/3 epoch (loss 0.1921):  27%|██▋       | 4590/16950 [50:41<2:12:27,  1.56it/s]Training 1/3 epoch (loss 0.0823):  27%|██▋       | 4590/16950 [50:42<2:12:27,  1.56it/s]Training 1/3 epoch (loss 0.0823):  27%|██▋       | 4591/16950 [50:42<2:20:25,  1.47it/s]Training 1/3 epoch (loss 0.0787):  27%|██▋       | 4591/16950 [50:43<2:20:25,  1.47it/s]Training 1/3 epoch (loss 0.0787):  27%|██▋       | 4592/16950 [50:43<2:30:40,  1.37it/s]Training 1/3 epoch (loss 0.2658):  27%|██▋       | 4592/16950 [50:44<2:30:40,  1.37it/s]Training 1/3 epoch (loss 0.2658):  27%|██▋       | 4593/16950 [50:44<2:34:06,  1.34it/s]Training 1/3 epoch (loss 0.4214):  27%|██▋       | 4593/16950 [50:44<2:34:06,  1.34it/s]Training 1/3 epoch (loss 0.4214):  27%|██▋       | 4594/16950 [50:44<2:20:55,  1.46it/s]Training 1/3 epoch (loss 0.2840):  27%|██▋       | 4594/16950 [50:45<2:20:55,  1.46it/s]Training 1/3 epoch (loss 0.2840):  27%|██▋       | 4595/16950 [50:45<2:05:06,  1.65it/s]Training 1/3 epoch (loss 0.0024):  27%|██▋       | 4595/16950 [50:45<2:05:06,  1.65it/s]Training 1/3 epoch (loss 0.0024):  27%|██▋       | 4596/16950 [50:45<1:50:52,  1.86it/s]Training 1/3 epoch (loss 0.2482):  27%|██▋       | 4596/16950 [50:46<1:50:52,  1.86it/s]Training 1/3 epoch (loss 0.2482):  27%|██▋       | 4597/16950 [50:46<1:58:54,  1.73it/s]Training 1/3 epoch (loss 0.0262):  27%|██▋       | 4597/16950 [50:46<1:58:54,  1.73it/s]Training 1/3 epoch (loss 0.0262):  27%|██▋       | 4598/16950 [50:46<2:02:13,  1.68it/s]Training 1/3 epoch (loss 0.0623):  27%|██▋       | 4598/16950 [50:47<2:02:13,  1.68it/s]Training 1/3 epoch (loss 0.0623):  27%|██▋       | 4599/16950 [50:47<2:02:46,  1.68it/s]Training 1/3 epoch (loss 0.0132):  27%|██▋       | 4599/16950 [50:48<2:02:46,  1.68it/s]Training 1/3 epoch (loss 0.0132):  27%|██▋       | 4600/16950 [50:48<2:24:45,  1.42it/s]Training 1/3 epoch (loss 0.0080):  27%|██▋       | 4600/16950 [50:48<2:24:45,  1.42it/s]Training 1/3 epoch (loss 0.0080):  27%|██▋       | 4601/16950 [50:48<2:15:53,  1.51it/s]Training 1/3 epoch (loss 0.0888):  27%|██▋       | 4601/16950 [50:49<2:15:53,  1.51it/s]Training 1/3 epoch (loss 0.0888):  27%|██▋       | 4602/16950 [50:49<2:36:06,  1.32it/s]Training 1/3 epoch (loss 0.0010):  27%|██▋       | 4602/16950 [50:50<2:36:06,  1.32it/s]Training 1/3 epoch (loss 0.0010):  27%|██▋       | 4603/16950 [50:50<2:30:05,  1.37it/s]Training 1/3 epoch (loss 0.0003):  27%|██▋       | 4603/16950 [50:51<2:30:05,  1.37it/s]Training 1/3 epoch (loss 0.0003):  27%|██▋       | 4604/16950 [50:51<2:23:49,  1.43it/s]Training 1/3 epoch (loss 0.0051):  27%|██▋       | 4604/16950 [50:51<2:23:49,  1.43it/s]Training 1/3 epoch (loss 0.0051):  27%|██▋       | 4605/16950 [50:51<2:13:32,  1.54it/s]Training 1/3 epoch (loss 0.5959):  27%|██▋       | 4605/16950 [50:52<2:13:32,  1.54it/s]Training 1/3 epoch (loss 0.5959):  27%|██▋       | 4606/16950 [50:52<2:18:07,  1.49it/s]Training 1/3 epoch (loss 0.0299):  27%|██▋       | 4606/16950 [50:52<2:18:07,  1.49it/s]Training 1/3 epoch (loss 0.0299):  27%|██▋       | 4607/16950 [50:52<1:56:33,  1.76it/s]Training 1/3 epoch (loss 0.0913):  27%|██▋       | 4607/16950 [50:53<1:56:33,  1.76it/s]Training 1/3 epoch (loss 0.0913):  27%|██▋       | 4608/16950 [50:53<1:55:31,  1.78it/s]Training 1/3 epoch (loss 0.3644):  27%|██▋       | 4608/16950 [50:53<1:55:31,  1.78it/s]Training 1/3 epoch (loss 0.3644):  27%|██▋       | 4609/16950 [50:53<1:56:20,  1.77it/s]Training 1/3 epoch (loss 0.0216):  27%|██▋       | 4609/16950 [50:54<1:56:20,  1.77it/s]Training 1/3 epoch (loss 0.0216):  27%|██▋       | 4610/16950 [50:54<2:03:54,  1.66it/s]Training 1/3 epoch (loss 0.0519):  27%|██▋       | 4610/16950 [50:54<2:03:54,  1.66it/s]Training 1/3 epoch (loss 0.0519):  27%|██▋       | 4611/16950 [50:54<1:53:07,  1.82it/s]Training 1/3 epoch (loss 0.4428):  27%|██▋       | 4611/16950 [50:55<1:53:07,  1.82it/s]Training 1/3 epoch (loss 0.4428):  27%|██▋       | 4612/16950 [50:55<2:12:48,  1.55it/s]Training 1/3 epoch (loss 0.8362):  27%|██▋       | 4612/16950 [50:56<2:12:48,  1.55it/s]Training 1/3 epoch (loss 0.8362):  27%|██▋       | 4613/16950 [50:56<2:37:03,  1.31it/s]Training 1/3 epoch (loss 0.0019):  27%|██▋       | 4613/16950 [50:57<2:37:03,  1.31it/s]Training 1/3 epoch (loss 0.0019):  27%|██▋       | 4614/16950 [50:57<2:18:15,  1.49it/s]Training 1/3 epoch (loss 0.0045):  27%|██▋       | 4614/16950 [50:57<2:18:15,  1.49it/s]Training 1/3 epoch (loss 0.0045):  27%|██▋       | 4615/16950 [50:57<2:13:48,  1.54it/s]Training 1/3 epoch (loss 0.0091):  27%|██▋       | 4615/16950 [50:58<2:13:48,  1.54it/s]Training 1/3 epoch (loss 0.0091):  27%|██▋       | 4616/16950 [50:58<2:09:34,  1.59it/s]Training 1/3 epoch (loss 0.2118):  27%|██▋       | 4616/16950 [50:59<2:09:34,  1.59it/s]Training 1/3 epoch (loss 0.2118):  27%|██▋       | 4617/16950 [50:59<2:13:17,  1.54it/s]Training 1/3 epoch (loss 0.0528):  27%|██▋       | 4617/16950 [50:59<2:13:17,  1.54it/s]Training 1/3 epoch (loss 0.0528):  27%|██▋       | 4618/16950 [50:59<2:10:31,  1.57it/s]Training 1/3 epoch (loss 0.2887):  27%|██▋       | 4618/16950 [51:00<2:10:31,  1.57it/s]Training 1/3 epoch (loss 0.2887):  27%|██▋       | 4619/16950 [51:00<1:54:48,  1.79it/s]Training 1/3 epoch (loss 0.0017):  27%|██▋       | 4619/16950 [51:00<1:54:48,  1.79it/s]Training 1/3 epoch (loss 0.0017):  27%|██▋       | 4620/16950 [51:00<1:54:11,  1.80it/s]Training 1/3 epoch (loss 0.0550):  27%|██▋       | 4620/16950 [51:01<1:54:11,  1.80it/s]Training 1/3 epoch (loss 0.0550):  27%|██▋       | 4621/16950 [51:01<1:45:19,  1.95it/s]Training 1/3 epoch (loss 0.0019):  27%|██▋       | 4621/16950 [51:01<1:45:19,  1.95it/s]Training 1/3 epoch (loss 0.0019):  27%|██▋       | 4622/16950 [51:01<1:35:53,  2.14it/s]Training 1/3 epoch (loss 0.2684):  27%|██▋       | 4622/16950 [51:02<1:35:53,  2.14it/s]Training 1/3 epoch (loss 0.2684):  27%|██▋       | 4623/16950 [51:02<1:46:47,  1.92it/s]Training 1/3 epoch (loss 0.4158):  27%|██▋       | 4623/16950 [51:03<1:46:47,  1.92it/s]Training 1/3 epoch (loss 0.4158):  27%|██▋       | 4624/16950 [51:03<2:19:54,  1.47it/s]Training 1/3 epoch (loss 0.5734):  27%|██▋       | 4624/16950 [51:03<2:19:54,  1.47it/s]Training 1/3 epoch (loss 0.5734):  27%|██▋       | 4625/16950 [51:03<2:23:49,  1.43it/s]Training 1/3 epoch (loss 0.4644):  27%|██▋       | 4625/16950 [51:04<2:23:49,  1.43it/s]Training 1/3 epoch (loss 0.4644):  27%|██▋       | 4626/16950 [51:04<2:10:46,  1.57it/s]Training 1/3 epoch (loss 0.0769):  27%|██▋       | 4626/16950 [51:04<2:10:46,  1.57it/s]Training 1/3 epoch (loss 0.0769):  27%|██▋       | 4627/16950 [51:04<2:01:25,  1.69it/s]Training 1/3 epoch (loss 0.0028):  27%|██▋       | 4627/16950 [51:05<2:01:25,  1.69it/s]Training 1/3 epoch (loss 0.0028):  27%|██▋       | 4628/16950 [51:05<1:47:38,  1.91it/s]Training 1/3 epoch (loss 0.0819):  27%|██▋       | 4628/16950 [51:05<1:47:38,  1.91it/s]Training 1/3 epoch (loss 0.0819):  27%|██▋       | 4629/16950 [51:05<1:55:43,  1.77it/s]Training 1/3 epoch (loss 0.5679):  27%|██▋       | 4629/16950 [51:06<1:55:43,  1.77it/s]Training 1/3 epoch (loss 0.5679):  27%|██▋       | 4630/16950 [51:06<2:07:28,  1.61it/s]Training 1/3 epoch (loss 0.0859):  27%|██▋       | 4630/16950 [51:07<2:07:28,  1.61it/s]Training 1/3 epoch (loss 0.0859):  27%|██▋       | 4631/16950 [51:07<2:10:00,  1.58it/s]Training 1/3 epoch (loss 0.0084):  27%|██▋       | 4631/16950 [51:07<2:10:00,  1.58it/s]Training 1/3 epoch (loss 0.0084):  27%|██▋       | 4632/16950 [51:07<2:08:21,  1.60it/s]Training 1/3 epoch (loss 0.0084):  27%|██▋       | 4632/16950 [51:08<2:08:21,  1.60it/s]Training 1/3 epoch (loss 0.0084):  27%|██▋       | 4633/16950 [51:08<2:08:56,  1.59it/s]Training 1/3 epoch (loss 0.0104):  27%|██▋       | 4633/16950 [51:09<2:08:56,  1.59it/s]Training 1/3 epoch (loss 0.0104):  27%|██▋       | 4634/16950 [51:09<2:11:01,  1.57it/s]Training 1/3 epoch (loss 0.0030):  27%|██▋       | 4634/16950 [51:09<2:11:01,  1.57it/s]Training 1/3 epoch (loss 0.0030):  27%|██▋       | 4635/16950 [51:09<1:59:05,  1.72it/s]Training 1/3 epoch (loss 0.2316):  27%|██▋       | 4635/16950 [51:10<1:59:05,  1.72it/s]Training 1/3 epoch (loss 0.2316):  27%|██▋       | 4636/16950 [51:10<1:51:06,  1.85it/s]Training 1/3 epoch (loss 0.0221):  27%|██▋       | 4636/16950 [51:10<1:51:06,  1.85it/s]Training 1/3 epoch (loss 0.0221):  27%|██▋       | 4637/16950 [51:10<1:51:36,  1.84it/s]Training 1/3 epoch (loss 0.5445):  27%|██▋       | 4637/16950 [51:11<1:51:36,  1.84it/s]Training 1/3 epoch (loss 0.5445):  27%|██▋       | 4638/16950 [51:11<1:45:46,  1.94it/s]Training 1/3 epoch (loss 0.0078):  27%|██▋       | 4638/16950 [51:11<1:45:46,  1.94it/s]Training 1/3 epoch (loss 0.0078):  27%|██▋       | 4639/16950 [51:11<1:37:00,  2.12it/s]Training 1/3 epoch (loss 0.0002):  27%|██▋       | 4639/16950 [51:11<1:37:00,  2.12it/s]Training 1/3 epoch (loss 0.0002):  27%|██▋       | 4640/16950 [51:11<1:35:18,  2.15it/s]Training 1/3 epoch (loss 0.0040):  27%|██▋       | 4640/16950 [51:12<1:35:18,  2.15it/s]Training 1/3 epoch (loss 0.0040):  27%|██▋       | 4641/16950 [51:12<1:35:43,  2.14it/s]Training 1/3 epoch (loss 0.3930):  27%|██▋       | 4641/16950 [51:12<1:35:43,  2.14it/s]Training 1/3 epoch (loss 0.3930):  27%|██▋       | 4642/16950 [51:12<1:32:35,  2.22it/s]Training 1/3 epoch (loss 0.0741):  27%|██▋       | 4642/16950 [51:13<1:32:35,  2.22it/s]Training 1/3 epoch (loss 0.0741):  27%|██▋       | 4643/16950 [51:13<1:37:05,  2.11it/s]Training 1/3 epoch (loss 0.1406):  27%|██▋       | 4643/16950 [51:13<1:37:05,  2.11it/s]Training 1/3 epoch (loss 0.1406):  27%|██▋       | 4644/16950 [51:13<1:34:13,  2.18it/s]Training 1/3 epoch (loss 0.0387):  27%|██▋       | 4644/16950 [51:14<1:34:13,  2.18it/s]Training 1/3 epoch (loss 0.0387):  27%|██▋       | 4645/16950 [51:14<1:40:25,  2.04it/s]Training 1/3 epoch (loss 0.0800):  27%|██▋       | 4645/16950 [51:15<1:40:25,  2.04it/s]Training 1/3 epoch (loss 0.0800):  27%|██▋       | 4646/16950 [51:15<2:03:57,  1.65it/s]Training 1/3 epoch (loss 0.6714):  27%|██▋       | 4646/16950 [51:15<2:03:57,  1.65it/s]Training 1/3 epoch (loss 0.6714):  27%|██▋       | 4647/16950 [51:15<2:10:19,  1.57it/s]Training 1/3 epoch (loss 0.0386):  27%|██▋       | 4647/16950 [51:16<2:10:19,  1.57it/s]Training 1/3 epoch (loss 0.0386):  27%|██▋       | 4648/16950 [51:16<2:07:58,  1.60it/s]Training 1/3 epoch (loss 0.0153):  27%|██▋       | 4648/16950 [51:17<2:07:58,  1.60it/s]Training 1/3 epoch (loss 0.0153):  27%|██▋       | 4649/16950 [51:17<2:23:04,  1.43it/s]Training 1/3 epoch (loss 0.0020):  27%|██▋       | 4649/16950 [51:17<2:23:04,  1.43it/s]Training 1/3 epoch (loss 0.0020):  27%|██▋       | 4650/16950 [51:17<2:16:25,  1.50it/s]Training 1/3 epoch (loss 0.0593):  27%|██▋       | 4650/16950 [51:18<2:16:25,  1.50it/s]Training 1/3 epoch (loss 0.0593):  27%|██▋       | 4651/16950 [51:18<2:21:34,  1.45it/s]Training 1/3 epoch (loss 0.0187):  27%|██▋       | 4651/16950 [51:19<2:21:34,  1.45it/s]Training 1/3 epoch (loss 0.0187):  27%|██▋       | 4652/16950 [51:19<2:17:50,  1.49it/s]Training 1/3 epoch (loss 0.0030):  27%|██▋       | 4652/16950 [51:19<2:17:50,  1.49it/s]Training 1/3 epoch (loss 0.0030):  27%|██▋       | 4653/16950 [51:19<2:06:44,  1.62it/s]Training 1/3 epoch (loss 0.0795):  27%|██▋       | 4653/16950 [51:20<2:06:44,  1.62it/s]Training 1/3 epoch (loss 0.0795):  27%|██▋       | 4654/16950 [51:20<2:07:51,  1.60it/s]Training 1/3 epoch (loss 0.0230):  27%|██▋       | 4654/16950 [51:20<2:07:51,  1.60it/s]Training 1/3 epoch (loss 0.0230):  27%|██▋       | 4655/16950 [51:20<1:58:31,  1.73it/s]Training 1/3 epoch (loss 0.3660):  27%|██▋       | 4655/16950 [51:21<1:58:31,  1.73it/s]Training 1/3 epoch (loss 0.3660):  27%|██▋       | 4656/16950 [51:21<2:04:11,  1.65it/s]Training 1/3 epoch (loss 0.0147):  27%|██▋       | 4656/16950 [51:22<2:04:11,  1.65it/s]Training 1/3 epoch (loss 0.0147):  27%|██▋       | 4657/16950 [51:22<1:58:57,  1.72it/s]Training 1/3 epoch (loss 0.0102):  27%|██▋       | 4657/16950 [51:22<1:58:57,  1.72it/s]Training 1/3 epoch (loss 0.0102):  27%|██▋       | 4658/16950 [51:22<1:53:45,  1.80it/s]Training 1/3 epoch (loss 0.0138):  27%|██▋       | 4658/16950 [51:23<1:53:45,  1.80it/s]Training 1/3 epoch (loss 0.0138):  27%|██▋       | 4659/16950 [51:23<1:47:17,  1.91it/s]Training 1/3 epoch (loss 0.0060):  27%|██▋       | 4659/16950 [51:23<1:47:17,  1.91it/s]Training 1/3 epoch (loss 0.0060):  27%|██▋       | 4660/16950 [51:23<1:39:03,  2.07it/s]Training 1/3 epoch (loss 0.3670):  27%|██▋       | 4660/16950 [51:24<1:39:03,  2.07it/s]Training 1/3 epoch (loss 0.3670):  27%|██▋       | 4661/16950 [51:24<2:00:12,  1.70it/s]Training 1/3 epoch (loss 0.2376):  27%|██▋       | 4661/16950 [51:25<2:00:12,  1.70it/s]Training 1/3 epoch (loss 0.2376):  28%|██▊       | 4662/16950 [51:25<2:13:05,  1.54it/s]Training 1/3 epoch (loss 0.5845):  28%|██▊       | 4662/16950 [51:25<2:13:05,  1.54it/s]Training 1/3 epoch (loss 0.5845):  28%|██▊       | 4663/16950 [51:25<2:16:11,  1.50it/s]Training 1/3 epoch (loss 0.0985):  28%|██▊       | 4663/16950 [51:26<2:16:11,  1.50it/s]Training 1/3 epoch (loss 0.0985):  28%|██▊       | 4664/16950 [51:26<2:12:28,  1.55it/s]Training 1/3 epoch (loss 0.0522):  28%|██▊       | 4664/16950 [51:27<2:12:28,  1.55it/s]Training 1/3 epoch (loss 0.0522):  28%|██▊       | 4665/16950 [51:27<2:09:42,  1.58it/s]Training 1/3 epoch (loss 0.0583):  28%|██▊       | 4665/16950 [51:27<2:09:42,  1.58it/s]Training 1/3 epoch (loss 0.0583):  28%|██▊       | 4666/16950 [51:27<2:14:54,  1.52it/s]Training 1/3 epoch (loss 0.3737):  28%|██▊       | 4666/16950 [51:28<2:14:54,  1.52it/s]Training 1/3 epoch (loss 0.3737):  28%|██▊       | 4667/16950 [51:28<2:19:03,  1.47it/s]Training 1/3 epoch (loss 0.0088):  28%|██▊       | 4667/16950 [51:28<2:19:03,  1.47it/s]Training 1/3 epoch (loss 0.0088):  28%|██▊       | 4668/16950 [51:28<2:05:04,  1.64it/s]Training 1/3 epoch (loss 0.0032):  28%|██▊       | 4668/16950 [51:29<2:05:04,  1.64it/s]Training 1/3 epoch (loss 0.0032):  28%|██▊       | 4669/16950 [51:29<2:10:13,  1.57it/s]Training 1/3 epoch (loss 0.0044):  28%|██▊       | 4669/16950 [51:30<2:10:13,  1.57it/s]Training 1/3 epoch (loss 0.0044):  28%|██▊       | 4670/16950 [51:30<2:15:55,  1.51it/s]Training 1/3 epoch (loss 0.0005):  28%|██▊       | 4670/16950 [51:30<2:15:55,  1.51it/s]Training 1/3 epoch (loss 0.0005):  28%|██▊       | 4671/16950 [51:30<2:03:04,  1.66it/s]Training 1/3 epoch (loss 0.4175):  28%|██▊       | 4671/16950 [51:31<2:03:04,  1.66it/s]Training 1/3 epoch (loss 0.4175):  28%|██▊       | 4672/16950 [51:31<2:02:37,  1.67it/s]Training 1/3 epoch (loss 0.0273):  28%|██▊       | 4672/16950 [51:32<2:02:37,  1.67it/s]Training 1/3 epoch (loss 0.0273):  28%|██▊       | 4673/16950 [51:32<2:04:20,  1.65it/s]Training 1/3 epoch (loss 0.0319):  28%|██▊       | 4673/16950 [51:32<2:04:20,  1.65it/s]Training 1/3 epoch (loss 0.0319):  28%|██▊       | 4674/16950 [51:32<2:17:19,  1.49it/s]Training 1/3 epoch (loss 0.3462):  28%|██▊       | 4674/16950 [51:33<2:17:19,  1.49it/s]Training 1/3 epoch (loss 0.3462):  28%|██▊       | 4675/16950 [51:33<2:41:21,  1.27it/s]Training 1/3 epoch (loss 0.2673):  28%|██▊       | 4675/16950 [51:34<2:41:21,  1.27it/s]Training 1/3 epoch (loss 0.2673):  28%|██▊       | 4676/16950 [51:34<2:20:04,  1.46it/s]Training 1/3 epoch (loss 0.0394):  28%|██▊       | 4676/16950 [51:35<2:20:04,  1.46it/s]Training 1/3 epoch (loss 0.0394):  28%|██▊       | 4677/16950 [51:35<2:30:35,  1.36it/s]Training 1/3 epoch (loss 0.1139):  28%|██▊       | 4677/16950 [51:35<2:30:35,  1.36it/s]Training 1/3 epoch (loss 0.1139):  28%|██▊       | 4678/16950 [51:35<2:24:39,  1.41it/s]Training 1/3 epoch (loss 0.0011):  28%|██▊       | 4678/16950 [51:36<2:24:39,  1.41it/s]Training 1/3 epoch (loss 0.0011):  28%|██▊       | 4679/16950 [51:36<2:16:34,  1.50it/s]Training 1/3 epoch (loss 0.2455):  28%|██▊       | 4679/16950 [51:36<2:16:34,  1.50it/s]Training 1/3 epoch (loss 0.2455):  28%|██▊       | 4680/16950 [51:36<2:00:51,  1.69it/s]Training 1/3 epoch (loss 0.0877):  28%|██▊       | 4680/16950 [51:37<2:00:51,  1.69it/s]Training 1/3 epoch (loss 0.0877):  28%|██▊       | 4681/16950 [51:37<1:51:58,  1.83it/s]Training 1/3 epoch (loss 0.0136):  28%|██▊       | 4681/16950 [51:38<1:51:58,  1.83it/s]Training 1/3 epoch (loss 0.0136):  28%|██▊       | 4682/16950 [51:38<2:09:57,  1.57it/s]Training 1/3 epoch (loss 0.0299):  28%|██▊       | 4682/16950 [51:39<2:09:57,  1.57it/s]Training 1/3 epoch (loss 0.0299):  28%|██▊       | 4683/16950 [51:39<2:28:32,  1.38it/s]Training 1/3 epoch (loss 0.0078):  28%|██▊       | 4683/16950 [51:39<2:28:32,  1.38it/s]Training 1/3 epoch (loss 0.0078):  28%|██▊       | 4684/16950 [51:39<2:16:02,  1.50it/s]Training 1/3 epoch (loss 0.1572):  28%|██▊       | 4684/16950 [51:40<2:16:02,  1.50it/s]Training 1/3 epoch (loss 0.1572):  28%|██▊       | 4685/16950 [51:40<2:07:50,  1.60it/s]Training 1/3 epoch (loss 0.1102):  28%|██▊       | 4685/16950 [51:40<2:07:50,  1.60it/s]Training 1/3 epoch (loss 0.1102):  28%|██▊       | 4686/16950 [51:40<2:05:05,  1.63it/s]Training 1/3 epoch (loss 0.4789):  28%|██▊       | 4686/16950 [51:41<2:05:05,  1.63it/s]Training 1/3 epoch (loss 0.4789):  28%|██▊       | 4687/16950 [51:41<2:09:54,  1.57it/s]Training 1/3 epoch (loss 0.0008):  28%|██▊       | 4687/16950 [51:41<2:09:54,  1.57it/s]Training 1/3 epoch (loss 0.0008):  28%|██▊       | 4688/16950 [51:41<2:03:53,  1.65it/s]Training 1/3 epoch (loss 0.0576):  28%|██▊       | 4688/16950 [51:42<2:03:53,  1.65it/s]Training 1/3 epoch (loss 0.0576):  28%|██▊       | 4689/16950 [51:42<2:08:21,  1.59it/s]Training 1/3 epoch (loss 0.4235):  28%|██▊       | 4689/16950 [51:43<2:08:21,  1.59it/s]Training 1/3 epoch (loss 0.4235):  28%|██▊       | 4690/16950 [51:43<2:35:24,  1.31it/s]Training 1/3 epoch (loss 0.3682):  28%|██▊       | 4690/16950 [51:44<2:35:24,  1.31it/s]Training 1/3 epoch (loss 0.3682):  28%|██▊       | 4691/16950 [51:44<2:25:17,  1.41it/s]Training 1/3 epoch (loss 0.1629):  28%|██▊       | 4691/16950 [51:44<2:25:17,  1.41it/s]Training 1/3 epoch (loss 0.1629):  28%|██▊       | 4692/16950 [51:44<2:25:11,  1.41it/s]Training 1/3 epoch (loss 0.0103):  28%|██▊       | 4692/16950 [51:45<2:25:11,  1.41it/s]Training 1/3 epoch (loss 0.0103):  28%|██▊       | 4693/16950 [51:45<2:18:18,  1.48it/s]Training 1/3 epoch (loss 0.1879):  28%|██▊       | 4693/16950 [51:46<2:18:18,  1.48it/s]Training 1/3 epoch (loss 0.1879):  28%|██▊       | 4694/16950 [51:46<2:11:27,  1.55it/s]Training 1/3 epoch (loss 0.7663):  28%|██▊       | 4694/16950 [51:46<2:11:27,  1.55it/s]Training 1/3 epoch (loss 0.7663):  28%|██▊       | 4695/16950 [51:46<2:03:37,  1.65it/s]Training 1/3 epoch (loss 0.3949):  28%|██▊       | 4695/16950 [51:47<2:03:37,  1.65it/s]Training 1/3 epoch (loss 0.3949):  28%|██▊       | 4696/16950 [51:47<1:57:18,  1.74it/s]Training 1/3 epoch (loss 0.0077):  28%|██▊       | 4696/16950 [51:47<1:57:18,  1.74it/s]Training 1/3 epoch (loss 0.0077):  28%|██▊       | 4697/16950 [51:47<1:58:19,  1.73it/s]Training 1/3 epoch (loss 0.0663):  28%|██▊       | 4697/16950 [51:48<1:58:19,  1.73it/s]Training 1/3 epoch (loss 0.0663):  28%|██▊       | 4698/16950 [51:48<2:02:26,  1.67it/s]Training 1/3 epoch (loss 0.4903):  28%|██▊       | 4698/16950 [51:49<2:02:26,  1.67it/s]Training 1/3 epoch (loss 0.4903):  28%|██▊       | 4699/16950 [51:49<2:22:55,  1.43it/s]Training 1/3 epoch (loss 0.0257):  28%|██▊       | 4699/16950 [51:49<2:22:55,  1.43it/s]Training 1/3 epoch (loss 0.0257):  28%|██▊       | 4700/16950 [51:49<2:13:41,  1.53it/s]Training 1/3 epoch (loss 0.3937):  28%|██▊       | 4700/16950 [51:50<2:13:41,  1.53it/s]Training 1/3 epoch (loss 0.3937):  28%|██▊       | 4701/16950 [51:50<1:56:02,  1.76it/s]Training 1/3 epoch (loss 0.6000):  28%|██▊       | 4701/16950 [51:50<1:56:02,  1.76it/s]Training 1/3 epoch (loss 0.6000):  28%|██▊       | 4702/16950 [51:50<1:57:39,  1.73it/s]Training 1/3 epoch (loss 0.6295):  28%|██▊       | 4702/16950 [51:52<1:57:39,  1.73it/s]Training 1/3 epoch (loss 0.6295):  28%|██▊       | 4703/16950 [51:52<2:34:04,  1.32it/s]Training 1/3 epoch (loss 0.0098):  28%|██▊       | 4703/16950 [51:52<2:34:04,  1.32it/s]Training 1/3 epoch (loss 0.0098):  28%|██▊       | 4704/16950 [51:52<2:23:37,  1.42it/s]Training 1/3 epoch (loss 0.0041):  28%|██▊       | 4704/16950 [51:53<2:23:37,  1.42it/s]Training 1/3 epoch (loss 0.0041):  28%|██▊       | 4705/16950 [51:53<2:18:15,  1.48it/s]Training 1/3 epoch (loss 0.0005):  28%|██▊       | 4705/16950 [51:53<2:18:15,  1.48it/s]Training 1/3 epoch (loss 0.0005):  28%|██▊       | 4706/16950 [51:53<2:05:31,  1.63it/s]Training 1/3 epoch (loss 0.1457):  28%|██▊       | 4706/16950 [51:54<2:05:31,  1.63it/s]Training 1/3 epoch (loss 0.1457):  28%|██▊       | 4707/16950 [51:54<2:00:53,  1.69it/s]Training 1/3 epoch (loss 0.3381):  28%|██▊       | 4707/16950 [51:54<2:00:53,  1.69it/s]Training 1/3 epoch (loss 0.3381):  28%|██▊       | 4708/16950 [51:54<1:50:39,  1.84it/s]Training 1/3 epoch (loss 0.4259):  28%|██▊       | 4708/16950 [51:55<1:50:39,  1.84it/s]Training 1/3 epoch (loss 0.4259):  28%|██▊       | 4709/16950 [51:55<2:03:37,  1.65it/s]Training 1/3 epoch (loss 0.0285):  28%|██▊       | 4709/16950 [51:56<2:03:37,  1.65it/s]Training 1/3 epoch (loss 0.0285):  28%|██▊       | 4710/16950 [51:56<2:12:31,  1.54it/s]Training 1/3 epoch (loss 0.3278):  28%|██▊       | 4710/16950 [51:56<2:12:31,  1.54it/s]Training 1/3 epoch (loss 0.3278):  28%|██▊       | 4711/16950 [51:56<2:01:44,  1.68it/s]Training 1/3 epoch (loss 0.9353):  28%|██▊       | 4711/16950 [51:57<2:01:44,  1.68it/s]Training 1/3 epoch (loss 0.9353):  28%|██▊       | 4712/16950 [51:57<2:35:40,  1.31it/s]Training 1/3 epoch (loss 0.4511):  28%|██▊       | 4712/16950 [51:58<2:35:40,  1.31it/s]Training 1/3 epoch (loss 0.4511):  28%|██▊       | 4713/16950 [51:58<2:27:04,  1.39it/s]Training 1/3 epoch (loss 0.0254):  28%|██▊       | 4713/16950 [51:59<2:27:04,  1.39it/s]Training 1/3 epoch (loss 0.0254):  28%|██▊       | 4714/16950 [51:59<2:19:02,  1.47it/s]Training 1/3 epoch (loss 0.1733):  28%|██▊       | 4714/16950 [51:59<2:19:02,  1.47it/s]Training 1/3 epoch (loss 0.1733):  28%|██▊       | 4715/16950 [51:59<2:11:14,  1.55it/s]Training 1/3 epoch (loss 0.7912):  28%|██▊       | 4715/16950 [51:59<2:11:14,  1.55it/s]Training 1/3 epoch (loss 0.7912):  28%|██▊       | 4716/16950 [51:59<1:58:14,  1.72it/s]Training 1/3 epoch (loss 0.1675):  28%|██▊       | 4716/16950 [52:00<1:58:14,  1.72it/s]Training 1/3 epoch (loss 0.1675):  28%|██▊       | 4717/16950 [52:00<1:51:05,  1.84it/s]Training 1/3 epoch (loss 0.5805):  28%|██▊       | 4717/16950 [52:00<1:51:05,  1.84it/s]Training 1/3 epoch (loss 0.5805):  28%|██▊       | 4718/16950 [52:00<1:41:33,  2.01it/s]Training 1/3 epoch (loss 0.0242):  28%|██▊       | 4718/16950 [52:01<1:41:33,  2.01it/s]Training 1/3 epoch (loss 0.0242):  28%|██▊       | 4719/16950 [52:01<1:34:54,  2.15it/s]Training 1/3 epoch (loss 0.0070):  28%|██▊       | 4719/16950 [52:01<1:34:54,  2.15it/s]Training 1/3 epoch (loss 0.0070):  28%|██▊       | 4720/16950 [52:01<1:41:10,  2.01it/s]Training 1/3 epoch (loss 0.1504):  28%|██▊       | 4720/16950 [52:02<1:41:10,  2.01it/s]Training 1/3 epoch (loss 0.1504):  28%|██▊       | 4721/16950 [52:02<1:39:15,  2.05it/s]Training 1/3 epoch (loss 0.4549):  28%|██▊       | 4721/16950 [52:02<1:39:15,  2.05it/s]Training 1/3 epoch (loss 0.4549):  28%|██▊       | 4722/16950 [52:02<1:40:47,  2.02it/s]Training 1/3 epoch (loss 0.0470):  28%|██▊       | 4722/16950 [52:03<1:40:47,  2.02it/s]Training 1/3 epoch (loss 0.0470):  28%|██▊       | 4723/16950 [52:03<1:39:12,  2.05it/s]Training 1/3 epoch (loss 0.0803):  28%|██▊       | 4723/16950 [52:03<1:39:12,  2.05it/s]Training 1/3 epoch (loss 0.0803):  28%|██▊       | 4724/16950 [52:03<1:51:25,  1.83it/s]Training 1/3 epoch (loss 0.0244):  28%|██▊       | 4724/16950 [52:04<1:51:25,  1.83it/s]Training 1/3 epoch (loss 0.0244):  28%|██▊       | 4725/16950 [52:04<1:49:37,  1.86it/s]Training 1/3 epoch (loss 0.0035):  28%|██▊       | 4725/16950 [52:05<1:49:37,  1.86it/s]Training 1/3 epoch (loss 0.0035):  28%|██▊       | 4726/16950 [52:05<1:59:54,  1.70it/s]Training 1/3 epoch (loss 0.6144):  28%|██▊       | 4726/16950 [52:06<1:59:54,  1.70it/s]Training 1/3 epoch (loss 0.6144):  28%|██▊       | 4727/16950 [52:06<2:37:29,  1.29it/s]Training 1/3 epoch (loss 0.0708):  28%|██▊       | 4727/16950 [52:06<2:37:29,  1.29it/s]Training 1/3 epoch (loss 0.0708):  28%|██▊       | 4728/16950 [52:06<2:28:06,  1.38it/s]Training 1/3 epoch (loss 0.0008):  28%|██▊       | 4728/16950 [52:07<2:28:06,  1.38it/s]Training 1/3 epoch (loss 0.0008):  28%|██▊       | 4729/16950 [52:07<2:11:23,  1.55it/s]Training 1/3 epoch (loss 0.5185):  28%|██▊       | 4729/16950 [52:07<2:11:23,  1.55it/s]Training 1/3 epoch (loss 0.5185):  28%|██▊       | 4730/16950 [52:07<1:59:01,  1.71it/s]Training 1/3 epoch (loss 0.0404):  28%|██▊       | 4730/16950 [52:08<1:59:01,  1.71it/s]Training 1/3 epoch (loss 0.0404):  28%|██▊       | 4731/16950 [52:08<1:49:24,  1.86it/s]Training 1/3 epoch (loss 0.0004):  28%|██▊       | 4731/16950 [52:08<1:49:24,  1.86it/s]Training 1/3 epoch (loss 0.0004):  28%|██▊       | 4732/16950 [52:08<1:44:17,  1.95it/s]Training 1/3 epoch (loss 0.1200):  28%|██▊       | 4732/16950 [52:09<1:44:17,  1.95it/s]Training 1/3 epoch (loss 0.1200):  28%|██▊       | 4733/16950 [52:09<1:51:30,  1.83it/s]Training 1/3 epoch (loss 0.0080):  28%|██▊       | 4733/16950 [52:09<1:51:30,  1.83it/s]Training 1/3 epoch (loss 0.0080):  28%|██▊       | 4734/16950 [52:09<1:53:10,  1.80it/s]Training 1/3 epoch (loss 0.0152):  28%|██▊       | 4734/16950 [52:10<1:53:10,  1.80it/s]Training 1/3 epoch (loss 0.0152):  28%|██▊       | 4735/16950 [52:10<1:50:30,  1.84it/s]Training 1/3 epoch (loss 0.0083):  28%|██▊       | 4735/16950 [52:11<1:50:30,  1.84it/s]Training 1/3 epoch (loss 0.0083):  28%|██▊       | 4736/16950 [52:11<1:55:19,  1.77it/s]Training 1/3 epoch (loss 0.0572):  28%|██▊       | 4736/16950 [52:11<1:55:19,  1.77it/s]Training 1/3 epoch (loss 0.0572):  28%|██▊       | 4737/16950 [52:11<1:49:53,  1.85it/s]Training 1/3 epoch (loss 0.0902):  28%|██▊       | 4737/16950 [52:12<1:49:53,  1.85it/s]Training 1/3 epoch (loss 0.0902):  28%|██▊       | 4738/16950 [52:12<1:49:57,  1.85it/s]Training 1/3 epoch (loss 0.1033):  28%|██▊       | 4738/16950 [52:12<1:49:57,  1.85it/s]Training 1/3 epoch (loss 0.1033):  28%|██▊       | 4739/16950 [52:12<1:59:35,  1.70it/s]Training 1/3 epoch (loss 0.0290):  28%|██▊       | 4739/16950 [52:13<1:59:35,  1.70it/s]Training 1/3 epoch (loss 0.0290):  28%|██▊       | 4740/16950 [52:13<1:52:22,  1.81it/s]Training 1/3 epoch (loss 0.0093):  28%|██▊       | 4740/16950 [52:13<1:52:22,  1.81it/s]Training 1/3 epoch (loss 0.0093):  28%|██▊       | 4741/16950 [52:13<1:43:39,  1.96it/s]Training 1/3 epoch (loss 0.3937):  28%|██▊       | 4741/16950 [52:14<1:43:39,  1.96it/s]Training 1/3 epoch (loss 0.3937):  28%|██▊       | 4742/16950 [52:14<1:50:48,  1.84it/s]Training 1/3 epoch (loss 0.0020):  28%|██▊       | 4742/16950 [52:14<1:50:48,  1.84it/s]Training 1/3 epoch (loss 0.0020):  28%|██▊       | 4743/16950 [52:14<1:43:42,  1.96it/s]Training 1/3 epoch (loss 0.0114):  28%|██▊       | 4743/16950 [52:15<1:43:42,  1.96it/s]Training 1/3 epoch (loss 0.0114):  28%|██▊       | 4744/16950 [52:15<1:45:45,  1.92it/s]Training 1/3 epoch (loss 0.3776):  28%|██▊       | 4744/16950 [52:16<1:45:45,  1.92it/s]Training 1/3 epoch (loss 0.3776):  28%|██▊       | 4745/16950 [52:16<1:58:01,  1.72it/s]Training 1/3 epoch (loss 0.6874):  28%|██▊       | 4745/16950 [52:16<1:58:01,  1.72it/s]Training 1/3 epoch (loss 0.6874):  28%|██▊       | 4746/16950 [52:16<1:48:34,  1.87it/s]Training 1/3 epoch (loss 0.1752):  28%|██▊       | 4746/16950 [52:17<1:48:34,  1.87it/s]Training 1/3 epoch (loss 0.1752):  28%|██▊       | 4747/16950 [52:17<1:52:04,  1.81it/s]Training 1/3 epoch (loss 0.0092):  28%|██▊       | 4747/16950 [52:17<1:52:04,  1.81it/s]Training 1/3 epoch (loss 0.0092):  28%|██▊       | 4748/16950 [52:17<2:09:41,  1.57it/s]Training 1/3 epoch (loss 0.5639):  28%|██▊       | 4748/16950 [52:18<2:09:41,  1.57it/s]Training 1/3 epoch (loss 0.5639):  28%|██▊       | 4749/16950 [52:18<2:07:17,  1.60it/s]Training 1/3 epoch (loss 0.0861):  28%|██▊       | 4749/16950 [52:19<2:07:17,  1.60it/s]Training 1/3 epoch (loss 0.0861):  28%|██▊       | 4750/16950 [52:19<2:08:27,  1.58it/s]Training 1/3 epoch (loss 0.2946):  28%|██▊       | 4750/16950 [52:19<2:08:27,  1.58it/s]Training 1/3 epoch (loss 0.2946):  28%|██▊       | 4751/16950 [52:19<1:58:11,  1.72it/s]Training 1/3 epoch (loss 0.0052):  28%|██▊       | 4751/16950 [52:19<1:58:11,  1.72it/s]Training 1/3 epoch (loss 0.0052):  28%|██▊       | 4752/16950 [52:19<1:47:54,  1.88it/s]Training 1/3 epoch (loss 0.0178):  28%|██▊       | 4752/16950 [52:20<1:47:54,  1.88it/s]Training 1/3 epoch (loss 0.0178):  28%|██▊       | 4753/16950 [52:20<1:55:20,  1.76it/s]Training 1/3 epoch (loss 0.1843):  28%|██▊       | 4753/16950 [52:21<1:55:20,  1.76it/s]Training 1/3 epoch (loss 0.1843):  28%|██▊       | 4754/16950 [52:21<1:55:39,  1.76it/s]Training 1/3 epoch (loss 0.0046):  28%|██▊       | 4754/16950 [52:21<1:55:39,  1.76it/s]Training 1/3 epoch (loss 0.0046):  28%|██▊       | 4755/16950 [52:21<1:58:08,  1.72it/s]Training 1/3 epoch (loss 0.2521):  28%|██▊       | 4755/16950 [52:22<1:58:08,  1.72it/s]Training 1/3 epoch (loss 0.2521):  28%|██▊       | 4756/16950 [52:22<1:55:02,  1.77it/s]Training 1/3 epoch (loss 0.0136):  28%|██▊       | 4756/16950 [52:23<1:55:02,  1.77it/s]Training 1/3 epoch (loss 0.0136):  28%|██▊       | 4757/16950 [52:23<2:11:30,  1.55it/s]Training 1/3 epoch (loss 0.1868):  28%|██▊       | 4757/16950 [52:23<2:11:30,  1.55it/s]Training 1/3 epoch (loss 0.1868):  28%|██▊       | 4758/16950 [52:23<1:59:03,  1.71it/s]Training 1/3 epoch (loss 0.3446):  28%|██▊       | 4758/16950 [52:24<1:59:03,  1.71it/s]Training 1/3 epoch (loss 0.3446):  28%|██▊       | 4759/16950 [52:24<1:54:40,  1.77it/s]Training 1/3 epoch (loss 0.1140):  28%|██▊       | 4759/16950 [52:24<1:54:40,  1.77it/s]Training 1/3 epoch (loss 0.1140):  28%|██▊       | 4760/16950 [52:24<1:54:50,  1.77it/s]Training 1/3 epoch (loss 0.1714):  28%|██▊       | 4760/16950 [52:25<1:54:50,  1.77it/s]Training 1/3 epoch (loss 0.1714):  28%|██▊       | 4761/16950 [52:25<1:54:33,  1.77it/s]Training 1/3 epoch (loss 0.0008):  28%|██▊       | 4761/16950 [52:25<1:54:33,  1.77it/s]Training 1/3 epoch (loss 0.0008):  28%|██▊       | 4762/16950 [52:25<1:57:44,  1.73it/s]Training 1/3 epoch (loss 0.0199):  28%|██▊       | 4762/16950 [52:26<1:57:44,  1.73it/s]Training 1/3 epoch (loss 0.0199):  28%|██▊       | 4763/16950 [52:26<2:00:47,  1.68it/s]Training 1/3 epoch (loss 0.4080):  28%|██▊       | 4763/16950 [52:27<2:00:47,  1.68it/s]Training 1/3 epoch (loss 0.4080):  28%|██▊       | 4764/16950 [52:27<2:32:37,  1.33it/s]Training 1/3 epoch (loss 0.0893):  28%|██▊       | 4764/16950 [52:28<2:32:37,  1.33it/s]Training 1/3 epoch (loss 0.0893):  28%|██▊       | 4765/16950 [52:28<2:27:07,  1.38it/s]Training 1/3 epoch (loss 0.4402):  28%|██▊       | 4765/16950 [52:29<2:27:07,  1.38it/s]Training 1/3 epoch (loss 0.4402):  28%|██▊       | 4766/16950 [52:29<2:36:39,  1.30it/s]Training 1/3 epoch (loss 0.5279):  28%|██▊       | 4766/16950 [52:29<2:36:39,  1.30it/s]Training 1/3 epoch (loss 0.5279):  28%|██▊       | 4767/16950 [52:29<2:25:50,  1.39it/s]Training 1/3 epoch (loss 0.0368):  28%|██▊       | 4767/16950 [52:30<2:25:50,  1.39it/s]Training 1/3 epoch (loss 0.0368):  28%|██▊       | 4768/16950 [52:30<2:15:55,  1.49it/s]Training 1/3 epoch (loss 0.5074):  28%|██▊       | 4768/16950 [52:30<2:15:55,  1.49it/s]Training 1/3 epoch (loss 0.5074):  28%|██▊       | 4769/16950 [52:30<2:02:33,  1.66it/s]Training 1/3 epoch (loss 0.5910):  28%|██▊       | 4769/16950 [52:31<2:02:33,  1.66it/s]Training 1/3 epoch (loss 0.5910):  28%|██▊       | 4770/16950 [52:31<2:17:31,  1.48it/s]Training 1/3 epoch (loss 0.0036):  28%|██▊       | 4770/16950 [52:32<2:17:31,  1.48it/s]Training 1/3 epoch (loss 0.0036):  28%|██▊       | 4771/16950 [52:32<2:18:11,  1.47it/s]Training 1/3 epoch (loss 0.3027):  28%|██▊       | 4771/16950 [52:32<2:18:11,  1.47it/s]Training 1/3 epoch (loss 0.3027):  28%|██▊       | 4772/16950 [52:32<2:15:26,  1.50it/s]Training 1/3 epoch (loss 0.0015):  28%|██▊       | 4772/16950 [52:33<2:15:26,  1.50it/s]Training 1/3 epoch (loss 0.0015):  28%|██▊       | 4773/16950 [52:33<2:00:36,  1.68it/s]Training 1/3 epoch (loss 0.0199):  28%|██▊       | 4773/16950 [52:34<2:00:36,  1.68it/s]Training 1/3 epoch (loss 0.0199):  28%|██▊       | 4774/16950 [52:34<2:17:14,  1.48it/s]Training 1/3 epoch (loss 0.0058):  28%|██▊       | 4774/16950 [52:34<2:17:14,  1.48it/s]Training 1/3 epoch (loss 0.0058):  28%|██▊       | 4775/16950 [52:34<2:06:47,  1.60it/s]Training 1/3 epoch (loss 0.6371):  28%|██▊       | 4775/16950 [52:35<2:06:47,  1.60it/s]Training 1/3 epoch (loss 0.6371):  28%|██▊       | 4776/16950 [52:35<1:51:25,  1.82it/s]Training 1/3 epoch (loss 0.5611):  28%|██▊       | 4776/16950 [52:35<1:51:25,  1.82it/s]Training 1/3 epoch (loss 0.5611):  28%|██▊       | 4777/16950 [52:35<1:51:39,  1.82it/s]Training 1/3 epoch (loss 0.0100):  28%|██▊       | 4777/16950 [52:36<1:51:39,  1.82it/s]Training 1/3 epoch (loss 0.0100):  28%|██▊       | 4778/16950 [52:36<1:58:05,  1.72it/s]Training 1/3 epoch (loss 0.1960):  28%|██▊       | 4778/16950 [52:36<1:58:05,  1.72it/s]Training 1/3 epoch (loss 0.1960):  28%|██▊       | 4779/16950 [52:36<2:02:22,  1.66it/s]Training 1/3 epoch (loss 0.0634):  28%|██▊       | 4779/16950 [52:37<2:02:22,  1.66it/s]Training 1/3 epoch (loss 0.0634):  28%|██▊       | 4780/16950 [52:37<2:24:34,  1.40it/s]Training 1/3 epoch (loss 0.0964):  28%|██▊       | 4780/16950 [52:38<2:24:34,  1.40it/s]Training 1/3 epoch (loss 0.0964):  28%|██▊       | 4781/16950 [52:38<2:43:03,  1.24it/s]Training 1/3 epoch (loss 0.1426):  28%|██▊       | 4781/16950 [52:39<2:43:03,  1.24it/s]Training 1/3 epoch (loss 0.1426):  28%|██▊       | 4782/16950 [52:39<2:27:49,  1.37it/s]Training 1/3 epoch (loss 0.4565):  28%|██▊       | 4782/16950 [52:40<2:27:49,  1.37it/s]Training 1/3 epoch (loss 0.4565):  28%|██▊       | 4783/16950 [52:40<2:12:40,  1.53it/s]Training 1/3 epoch (loss 0.0206):  28%|██▊       | 4783/16950 [52:40<2:12:40,  1.53it/s]Training 1/3 epoch (loss 0.0206):  28%|██▊       | 4784/16950 [52:40<1:59:35,  1.70it/s]Training 1/3 epoch (loss 0.0029):  28%|██▊       | 4784/16950 [52:40<1:59:35,  1.70it/s]Training 1/3 epoch (loss 0.0029):  28%|██▊       | 4785/16950 [52:40<1:54:08,  1.78it/s]Training 1/3 epoch (loss 0.0027):  28%|██▊       | 4785/16950 [52:41<1:54:08,  1.78it/s]Training 1/3 epoch (loss 0.0027):  28%|██▊       | 4786/16950 [52:41<1:45:01,  1.93it/s]Training 1/3 epoch (loss 0.0409):  28%|██▊       | 4786/16950 [52:42<1:45:01,  1.93it/s]Training 1/3 epoch (loss 0.0409):  28%|██▊       | 4787/16950 [52:42<2:03:01,  1.65it/s]Training 1/3 epoch (loss 0.0061):  28%|██▊       | 4787/16950 [52:42<2:03:01,  1.65it/s]Training 1/3 epoch (loss 0.0061):  28%|██▊       | 4788/16950 [52:42<1:56:43,  1.74it/s]Training 1/3 epoch (loss 0.1259):  28%|██▊       | 4788/16950 [52:43<1:56:43,  1.74it/s]Training 1/3 epoch (loss 0.1259):  28%|██▊       | 4789/16950 [52:43<2:13:10,  1.52it/s]Training 1/3 epoch (loss 0.0349):  28%|██▊       | 4789/16950 [52:44<2:13:10,  1.52it/s]Training 1/3 epoch (loss 0.0349):  28%|██▊       | 4790/16950 [52:44<2:45:23,  1.23it/s]Training 1/3 epoch (loss 0.0182):  28%|██▊       | 4790/16950 [52:45<2:45:23,  1.23it/s]Training 1/3 epoch (loss 0.0182):  28%|██▊       | 4791/16950 [52:45<2:28:44,  1.36it/s]Training 1/3 epoch (loss 0.4599):  28%|██▊       | 4791/16950 [52:45<2:28:44,  1.36it/s]Training 1/3 epoch (loss 0.4599):  28%|██▊       | 4792/16950 [52:45<2:10:25,  1.55it/s]Training 1/3 epoch (loss 0.0024):  28%|██▊       | 4792/16950 [52:46<2:10:25,  1.55it/s]Training 1/3 epoch (loss 0.0024):  28%|██▊       | 4793/16950 [52:46<2:02:51,  1.65it/s]Training 1/3 epoch (loss 0.3575):  28%|██▊       | 4793/16950 [52:47<2:02:51,  1.65it/s]Training 1/3 epoch (loss 0.3575):  28%|██▊       | 4794/16950 [52:47<2:19:28,  1.45it/s]Training 1/3 epoch (loss 0.0050):  28%|██▊       | 4794/16950 [52:47<2:19:28,  1.45it/s]Training 1/3 epoch (loss 0.0050):  28%|██▊       | 4795/16950 [52:47<2:16:34,  1.48it/s]Training 1/3 epoch (loss 0.0039):  28%|██▊       | 4795/16950 [52:48<2:16:34,  1.48it/s]Training 1/3 epoch (loss 0.0039):  28%|██▊       | 4796/16950 [52:48<2:11:22,  1.54it/s]Training 1/3 epoch (loss 0.2821):  28%|██▊       | 4796/16950 [52:49<2:11:22,  1.54it/s]Training 1/3 epoch (loss 0.2821):  28%|██▊       | 4797/16950 [52:49<2:28:30,  1.36it/s]Training 1/3 epoch (loss 0.0230):  28%|██▊       | 4797/16950 [52:50<2:28:30,  1.36it/s]Training 1/3 epoch (loss 0.0230):  28%|██▊       | 4798/16950 [52:50<2:31:02,  1.34it/s]Training 1/3 epoch (loss 0.0413):  28%|██▊       | 4798/16950 [52:50<2:31:02,  1.34it/s]Training 1/3 epoch (loss 0.0413):  28%|██▊       | 4799/16950 [52:50<2:25:23,  1.39it/s]Training 1/3 epoch (loss 0.4962):  28%|██▊       | 4799/16950 [52:51<2:25:23,  1.39it/s]Training 1/3 epoch (loss 0.4962):  28%|██▊       | 4800/16950 [52:51<2:13:34,  1.52it/s]Training 1/3 epoch (loss 0.0025):  28%|██▊       | 4800/16950 [52:52<2:13:34,  1.52it/s]Training 1/3 epoch (loss 0.0025):  28%|██▊       | 4801/16950 [52:52<2:26:55,  1.38it/s]Training 1/3 epoch (loss 0.1204):  28%|██▊       | 4801/16950 [52:52<2:26:55,  1.38it/s]Training 1/3 epoch (loss 0.1204):  28%|██▊       | 4802/16950 [52:52<2:09:41,  1.56it/s]Training 1/3 epoch (loss 0.0020):  28%|██▊       | 4802/16950 [52:52<2:09:41,  1.56it/s]Training 1/3 epoch (loss 0.0020):  28%|██▊       | 4803/16950 [52:52<1:54:53,  1.76it/s]Training 1/3 epoch (loss 0.0171):  28%|██▊       | 4803/16950 [52:53<1:54:53,  1.76it/s]Training 1/3 epoch (loss 0.0171):  28%|██▊       | 4804/16950 [52:53<1:55:16,  1.76it/s]Training 1/3 epoch (loss 0.6272):  28%|██▊       | 4804/16950 [52:54<1:55:16,  1.76it/s]Training 1/3 epoch (loss 0.6272):  28%|██▊       | 4805/16950 [52:54<2:11:28,  1.54it/s]Training 1/3 epoch (loss 0.0431):  28%|██▊       | 4805/16950 [52:54<2:11:28,  1.54it/s]Training 1/3 epoch (loss 0.0431):  28%|██▊       | 4806/16950 [52:54<2:11:00,  1.55it/s]Training 1/3 epoch (loss 0.2167):  28%|██▊       | 4806/16950 [52:55<2:11:00,  1.55it/s]Training 1/3 epoch (loss 0.2167):  28%|██▊       | 4807/16950 [52:55<2:05:17,  1.62it/s]Training 1/3 epoch (loss 0.2040):  28%|██▊       | 4807/16950 [52:55<2:05:17,  1.62it/s]Training 1/3 epoch (loss 0.2040):  28%|██▊       | 4808/16950 [52:55<1:53:27,  1.78it/s]Training 1/3 epoch (loss 0.3040):  28%|██▊       | 4808/16950 [52:56<1:53:27,  1.78it/s]Training 1/3 epoch (loss 0.3040):  28%|██▊       | 4809/16950 [52:56<1:55:43,  1.75it/s]Training 1/3 epoch (loss 0.6224):  28%|██▊       | 4809/16950 [52:56<1:55:43,  1.75it/s]Training 1/3 epoch (loss 0.6224):  28%|██▊       | 4810/16950 [52:56<1:47:28,  1.88it/s]Training 1/3 epoch (loss 0.0258):  28%|██▊       | 4810/16950 [52:57<1:47:28,  1.88it/s]Training 1/3 epoch (loss 0.0258):  28%|██▊       | 4811/16950 [52:57<1:52:53,  1.79it/s]Training 1/3 epoch (loss 0.3797):  28%|██▊       | 4811/16950 [52:58<1:52:53,  1.79it/s]Training 1/3 epoch (loss 0.3797):  28%|██▊       | 4812/16950 [52:58<2:01:32,  1.66it/s]Training 1/3 epoch (loss 0.0003):  28%|██▊       | 4812/16950 [52:58<2:01:32,  1.66it/s]Training 1/3 epoch (loss 0.0003):  28%|██▊       | 4813/16950 [52:58<1:55:30,  1.75it/s]Training 1/3 epoch (loss 0.0040):  28%|██▊       | 4813/16950 [52:59<1:55:30,  1.75it/s]Training 1/3 epoch (loss 0.0040):  28%|██▊       | 4814/16950 [52:59<1:50:20,  1.83it/s]Training 1/3 epoch (loss 0.0007):  28%|██▊       | 4814/16950 [52:59<1:50:20,  1.83it/s]Training 1/3 epoch (loss 0.0007):  28%|██▊       | 4815/16950 [52:59<1:47:10,  1.89it/s]Training 1/3 epoch (loss 0.0160):  28%|██▊       | 4815/16950 [53:00<1:47:10,  1.89it/s]Training 1/3 epoch (loss 0.0160):  28%|██▊       | 4816/16950 [53:00<2:02:26,  1.65it/s]Training 1/3 epoch (loss 0.7034):  28%|██▊       | 4816/16950 [53:01<2:02:26,  1.65it/s]Training 1/3 epoch (loss 0.7034):  28%|██▊       | 4817/16950 [53:01<2:10:52,  1.55it/s]Training 1/3 epoch (loss 0.0016):  28%|██▊       | 4817/16950 [53:01<2:10:52,  1.55it/s]Training 1/3 epoch (loss 0.0016):  28%|██▊       | 4818/16950 [53:01<1:53:06,  1.79it/s]Training 1/3 epoch (loss 0.3152):  28%|██▊       | 4818/16950 [53:02<1:53:06,  1.79it/s]Training 1/3 epoch (loss 0.3152):  28%|██▊       | 4819/16950 [53:02<1:46:51,  1.89it/s]Training 1/3 epoch (loss 0.0416):  28%|██▊       | 4819/16950 [53:02<1:46:51,  1.89it/s]Training 1/3 epoch (loss 0.0416):  28%|██▊       | 4820/16950 [53:02<2:04:18,  1.63it/s]Training 1/3 epoch (loss 0.0007):  28%|██▊       | 4820/16950 [53:03<2:04:18,  1.63it/s]Training 1/3 epoch (loss 0.0007):  28%|██▊       | 4821/16950 [53:03<1:56:04,  1.74it/s]Training 1/3 epoch (loss 0.6899):  28%|██▊       | 4821/16950 [53:04<1:56:04,  1.74it/s]Training 1/3 epoch (loss 0.6899):  28%|██▊       | 4822/16950 [53:04<2:00:24,  1.68it/s]Training 1/3 epoch (loss 0.2553):  28%|██▊       | 4822/16950 [53:04<2:00:24,  1.68it/s]Training 1/3 epoch (loss 0.2553):  28%|██▊       | 4823/16950 [53:04<1:58:16,  1.71it/s]Training 1/3 epoch (loss 0.0002):  28%|██▊       | 4823/16950 [53:05<1:58:16,  1.71it/s]Training 1/3 epoch (loss 0.0002):  28%|██▊       | 4824/16950 [53:05<1:47:39,  1.88it/s]Training 1/3 epoch (loss 0.3101):  28%|██▊       | 4824/16950 [53:05<1:47:39,  1.88it/s]Training 1/3 epoch (loss 0.3101):  28%|██▊       | 4825/16950 [53:05<2:04:32,  1.62it/s]Training 1/3 epoch (loss 0.2063):  28%|██▊       | 4825/16950 [53:06<2:04:32,  1.62it/s]Training 1/3 epoch (loss 0.2063):  28%|██▊       | 4826/16950 [53:06<2:21:20,  1.43it/s]Training 1/3 epoch (loss 0.5821):  28%|██▊       | 4826/16950 [53:07<2:21:20,  1.43it/s]Training 1/3 epoch (loss 0.5821):  28%|██▊       | 4827/16950 [53:07<2:14:35,  1.50it/s]Training 1/3 epoch (loss 0.0652):  28%|██▊       | 4827/16950 [53:08<2:14:35,  1.50it/s]Training 1/3 epoch (loss 0.0652):  28%|██▊       | 4828/16950 [53:08<2:21:19,  1.43it/s]Training 1/3 epoch (loss 0.0033):  28%|██▊       | 4828/16950 [53:08<2:21:19,  1.43it/s]Training 1/3 epoch (loss 0.0033):  28%|██▊       | 4829/16950 [53:08<2:16:45,  1.48it/s]Training 1/3 epoch (loss 0.0053):  28%|██▊       | 4829/16950 [53:09<2:16:45,  1.48it/s]Training 1/3 epoch (loss 0.0053):  28%|██▊       | 4830/16950 [53:09<2:28:29,  1.36it/s]Training 1/3 epoch (loss 0.0042):  28%|██▊       | 4830/16950 [53:10<2:28:29,  1.36it/s]Training 1/3 epoch (loss 0.0042):  29%|██▊       | 4831/16950 [53:10<2:14:16,  1.50it/s]Training 1/3 epoch (loss 0.0007):  29%|██▊       | 4831/16950 [53:10<2:14:16,  1.50it/s]Training 1/3 epoch (loss 0.0007):  29%|██▊       | 4832/16950 [53:10<2:04:56,  1.62it/s]Training 1/3 epoch (loss 0.4035):  29%|██▊       | 4832/16950 [53:11<2:04:56,  1.62it/s]Training 1/3 epoch (loss 0.4035):  29%|██▊       | 4833/16950 [53:11<1:56:32,  1.73it/s]Training 1/3 epoch (loss 0.0237):  29%|██▊       | 4833/16950 [53:11<1:56:32,  1.73it/s]Training 1/3 epoch (loss 0.0237):  29%|██▊       | 4834/16950 [53:11<1:50:59,  1.82it/s]Training 1/3 epoch (loss 0.0273):  29%|██▊       | 4834/16950 [53:11<1:50:59,  1.82it/s]Training 1/3 epoch (loss 0.0273):  29%|██▊       | 4835/16950 [53:11<1:42:54,  1.96it/s]Training 1/3 epoch (loss 0.1618):  29%|██▊       | 4835/16950 [53:12<1:42:54,  1.96it/s]Training 1/3 epoch (loss 0.1618):  29%|██▊       | 4836/16950 [53:12<1:47:55,  1.87it/s]Training 1/3 epoch (loss 0.0007):  29%|██▊       | 4836/16950 [53:13<1:47:55,  1.87it/s]Training 1/3 epoch (loss 0.0007):  29%|██▊       | 4837/16950 [53:13<1:43:18,  1.95it/s]Training 1/3 epoch (loss 0.3279):  29%|██▊       | 4837/16950 [53:13<1:43:18,  1.95it/s]Training 1/3 epoch (loss 0.3279):  29%|██▊       | 4838/16950 [53:13<1:45:35,  1.91it/s]Training 1/3 epoch (loss 0.0225):  29%|██▊       | 4838/16950 [53:14<1:45:35,  1.91it/s]Training 1/3 epoch (loss 0.0225):  29%|██▊       | 4839/16950 [53:14<1:48:07,  1.87it/s]Training 1/3 epoch (loss 0.2891):  29%|██▊       | 4839/16950 [53:14<1:48:07,  1.87it/s]Training 1/3 epoch (loss 0.2891):  29%|██▊       | 4840/16950 [53:14<1:46:24,  1.90it/s]Training 1/3 epoch (loss 0.1356):  29%|██▊       | 4840/16950 [53:15<1:46:24,  1.90it/s]Training 1/3 epoch (loss 0.1356):  29%|██▊       | 4841/16950 [53:15<1:45:54,  1.91it/s]Training 1/3 epoch (loss 0.0842):  29%|██▊       | 4841/16950 [53:15<1:45:54,  1.91it/s]Training 1/3 epoch (loss 0.0842):  29%|██▊       | 4842/16950 [53:15<1:43:17,  1.95it/s]Training 1/3 epoch (loss 0.0835):  29%|██▊       | 4842/16950 [53:16<1:43:17,  1.95it/s]Training 1/3 epoch (loss 0.0835):  29%|██▊       | 4843/16950 [53:16<1:47:52,  1.87it/s]Training 1/3 epoch (loss 0.0125):  29%|██▊       | 4843/16950 [53:16<1:47:52,  1.87it/s]Training 1/3 epoch (loss 0.0125):  29%|██▊       | 4844/16950 [53:16<1:46:00,  1.90it/s]Training 1/3 epoch (loss 0.7814):  29%|██▊       | 4844/16950 [53:17<1:46:00,  1.90it/s]Training 1/3 epoch (loss 0.7814):  29%|██▊       | 4845/16950 [53:17<1:32:07,  2.19it/s]Training 1/3 epoch (loss 0.1360):  29%|██▊       | 4845/16950 [53:17<1:32:07,  2.19it/s]Training 1/3 epoch (loss 0.1360):  29%|██▊       | 4846/16950 [53:17<1:29:49,  2.25it/s]Training 1/3 epoch (loss 0.0111):  29%|██▊       | 4846/16950 [53:18<1:29:49,  2.25it/s]Training 1/3 epoch (loss 0.0111):  29%|██▊       | 4847/16950 [53:18<1:35:16,  2.12it/s]Training 1/3 epoch (loss 0.1423):  29%|██▊       | 4847/16950 [53:18<1:35:16,  2.12it/s]Training 1/3 epoch (loss 0.1423):  29%|██▊       | 4848/16950 [53:18<1:37:19,  2.07it/s]Training 1/3 epoch (loss 0.0116):  29%|██▊       | 4848/16950 [53:19<1:37:19,  2.07it/s]Training 1/3 epoch (loss 0.0116):  29%|██▊       | 4849/16950 [53:19<1:43:11,  1.95it/s]Training 1/3 epoch (loss 0.7747):  29%|██▊       | 4849/16950 [53:19<1:43:11,  1.95it/s]Training 1/3 epoch (loss 0.7747):  29%|██▊       | 4850/16950 [53:19<1:54:54,  1.76it/s]Training 1/3 epoch (loss 0.6828):  29%|██▊       | 4850/16950 [53:20<1:54:54,  1.76it/s]Training 1/3 epoch (loss 0.6828):  29%|██▊       | 4851/16950 [53:20<1:49:08,  1.85it/s]Training 1/3 epoch (loss 0.3420):  29%|██▊       | 4851/16950 [53:20<1:49:08,  1.85it/s]Training 1/3 epoch (loss 0.3420):  29%|██▊       | 4852/16950 [53:20<1:39:15,  2.03it/s]Training 1/3 epoch (loss 0.0165):  29%|██▊       | 4852/16950 [53:21<1:39:15,  2.03it/s]Training 1/3 epoch (loss 0.0165):  29%|██▊       | 4853/16950 [53:21<1:41:40,  1.98it/s]Training 1/3 epoch (loss 0.0104):  29%|██▊       | 4853/16950 [53:21<1:41:40,  1.98it/s]Training 1/3 epoch (loss 0.0104):  29%|██▊       | 4854/16950 [53:21<1:48:46,  1.85it/s]Training 1/3 epoch (loss 0.3112):  29%|██▊       | 4854/16950 [53:22<1:48:46,  1.85it/s]Training 1/3 epoch (loss 0.3112):  29%|██▊       | 4855/16950 [53:22<1:50:30,  1.82it/s]Training 1/3 epoch (loss 0.0321):  29%|██▊       | 4855/16950 [53:22<1:50:30,  1.82it/s]Training 1/3 epoch (loss 0.0321):  29%|██▊       | 4856/16950 [53:22<1:51:15,  1.81it/s]Training 1/3 epoch (loss 0.2336):  29%|██▊       | 4856/16950 [53:23<1:51:15,  1.81it/s]Training 1/3 epoch (loss 0.2336):  29%|██▊       | 4857/16950 [53:23<2:05:19,  1.61it/s]Training 1/3 epoch (loss 0.8028):  29%|██▊       | 4857/16950 [53:24<2:05:19,  1.61it/s]Training 1/3 epoch (loss 0.8028):  29%|██▊       | 4858/16950 [53:24<1:56:06,  1.74it/s]Training 1/3 epoch (loss 0.4534):  29%|██▊       | 4858/16950 [53:24<1:56:06,  1.74it/s]Training 1/3 epoch (loss 0.4534):  29%|██▊       | 4859/16950 [53:24<1:51:18,  1.81it/s]Training 1/3 epoch (loss 0.2449):  29%|██▊       | 4859/16950 [53:25<1:51:18,  1.81it/s]Training 1/3 epoch (loss 0.2449):  29%|██▊       | 4860/16950 [53:25<1:57:17,  1.72it/s]Training 1/3 epoch (loss 0.2764):  29%|██▊       | 4860/16950 [53:26<1:57:17,  1.72it/s]Training 1/3 epoch (loss 0.2764):  29%|██▊       | 4861/16950 [53:26<2:06:24,  1.59it/s]Training 1/3 epoch (loss 0.3739):  29%|██▊       | 4861/16950 [53:26<2:06:24,  1.59it/s]Training 1/3 epoch (loss 0.3739):  29%|██▊       | 4862/16950 [53:26<2:05:43,  1.60it/s]Training 1/3 epoch (loss 0.5881):  29%|██▊       | 4862/16950 [53:27<2:05:43,  1.60it/s]Training 1/3 epoch (loss 0.5881):  29%|██▊       | 4863/16950 [53:27<2:24:34,  1.39it/s]Training 1/3 epoch (loss 0.1554):  29%|██▊       | 4863/16950 [53:28<2:24:34,  1.39it/s]Training 1/3 epoch (loss 0.1554):  29%|██▊       | 4864/16950 [53:28<2:13:49,  1.51it/s]Training 1/3 epoch (loss 0.4519):  29%|██▊       | 4864/16950 [53:28<2:13:49,  1.51it/s]Training 1/3 epoch (loss 0.4519):  29%|██▊       | 4865/16950 [53:28<2:02:10,  1.65it/s]Training 1/3 epoch (loss 0.2433):  29%|██▊       | 4865/16950 [53:29<2:02:10,  1.65it/s]Training 1/3 epoch (loss 0.2433):  29%|██▊       | 4866/16950 [53:29<1:58:54,  1.69it/s]Training 1/3 epoch (loss 0.7675):  29%|██▊       | 4866/16950 [53:29<1:58:54,  1.69it/s]Training 1/3 epoch (loss 0.7675):  29%|██▊       | 4867/16950 [53:29<1:59:05,  1.69it/s]Training 1/3 epoch (loss 0.0185):  29%|██▊       | 4867/16950 [53:30<1:59:05,  1.69it/s]Training 1/3 epoch (loss 0.0185):  29%|██▊       | 4868/16950 [53:30<1:55:47,  1.74it/s]Training 1/3 epoch (loss 0.4075):  29%|██▊       | 4868/16950 [53:31<1:55:47,  1.74it/s]Training 1/3 epoch (loss 0.4075):  29%|██▊       | 4869/16950 [53:31<2:30:55,  1.33it/s]Training 1/3 epoch (loss 0.0363):  29%|██▊       | 4869/16950 [53:32<2:30:55,  1.33it/s]Training 1/3 epoch (loss 0.0363):  29%|██▊       | 4870/16950 [53:32<2:19:37,  1.44it/s]Training 1/3 epoch (loss 0.0062):  29%|██▊       | 4870/16950 [53:32<2:19:37,  1.44it/s]Training 1/3 epoch (loss 0.0062):  29%|██▊       | 4871/16950 [53:32<2:12:25,  1.52it/s]Training 1/3 epoch (loss 0.0023):  29%|██▊       | 4871/16950 [53:33<2:12:25,  1.52it/s]Training 1/3 epoch (loss 0.0023):  29%|██▊       | 4872/16950 [53:33<2:04:05,  1.62it/s]Training 1/3 epoch (loss 0.4425):  29%|██▊       | 4872/16950 [53:33<2:04:05,  1.62it/s]Training 1/3 epoch (loss 0.4425):  29%|██▊       | 4873/16950 [53:33<1:58:43,  1.70it/s]Training 1/3 epoch (loss 0.4667):  29%|██▊       | 4873/16950 [53:34<1:58:43,  1.70it/s]Training 1/3 epoch (loss 0.4667):  29%|██▉       | 4874/16950 [53:34<1:51:12,  1.81it/s]Training 1/3 epoch (loss 0.0381):  29%|██▉       | 4874/16950 [53:34<1:51:12,  1.81it/s]Training 1/3 epoch (loss 0.0381):  29%|██▉       | 4875/16950 [53:34<1:49:07,  1.84it/s]Training 1/3 epoch (loss 0.4739):  29%|██▉       | 4875/16950 [53:35<1:49:07,  1.84it/s]Training 1/3 epoch (loss 0.4739):  29%|██▉       | 4876/16950 [53:35<1:41:37,  1.98it/s]Training 1/3 epoch (loss 0.0006):  29%|██▉       | 4876/16950 [53:35<1:41:37,  1.98it/s]Training 1/3 epoch (loss 0.0006):  29%|██▉       | 4877/16950 [53:35<1:44:04,  1.93it/s]Training 1/3 epoch (loss 0.0021):  29%|██▉       | 4877/16950 [53:36<1:44:04,  1.93it/s]Training 1/3 epoch (loss 0.0021):  29%|██▉       | 4878/16950 [53:36<1:44:12,  1.93it/s]Training 1/3 epoch (loss 0.0261):  29%|██▉       | 4878/16950 [53:36<1:44:12,  1.93it/s]Training 1/3 epoch (loss 0.0261):  29%|██▉       | 4879/16950 [53:36<1:46:12,  1.89it/s]Training 1/3 epoch (loss 0.0151):  29%|██▉       | 4879/16950 [53:37<1:46:12,  1.89it/s]Training 1/3 epoch (loss 0.0151):  29%|██▉       | 4880/16950 [53:37<1:44:32,  1.92it/s]Training 1/3 epoch (loss 0.0467):  29%|██▉       | 4880/16950 [53:37<1:44:32,  1.92it/s]Training 1/3 epoch (loss 0.0467):  29%|██▉       | 4881/16950 [53:37<1:51:48,  1.80it/s]Training 1/3 epoch (loss 0.0661):  29%|██▉       | 4881/16950 [53:38<1:51:48,  1.80it/s]Training 1/3 epoch (loss 0.0661):  29%|██▉       | 4882/16950 [53:38<2:01:23,  1.66it/s]Training 1/3 epoch (loss 0.0035):  29%|██▉       | 4882/16950 [53:39<2:01:23,  1.66it/s]Training 1/3 epoch (loss 0.0035):  29%|██▉       | 4883/16950 [53:39<1:56:34,  1.73it/s]Training 1/3 epoch (loss 0.0301):  29%|██▉       | 4883/16950 [53:39<1:56:34,  1.73it/s]Training 1/3 epoch (loss 0.0301):  29%|██▉       | 4884/16950 [53:39<1:53:27,  1.77it/s]Training 1/3 epoch (loss 0.0116):  29%|██▉       | 4884/16950 [53:40<1:53:27,  1.77it/s]Training 1/3 epoch (loss 0.0116):  29%|██▉       | 4885/16950 [53:40<1:56:22,  1.73it/s]Training 1/3 epoch (loss 0.1643):  29%|██▉       | 4885/16950 [53:40<1:56:22,  1.73it/s]Training 1/3 epoch (loss 0.1643):  29%|██▉       | 4886/16950 [53:40<1:52:16,  1.79it/s]Training 1/3 epoch (loss 0.3672):  29%|██▉       | 4886/16950 [53:41<1:52:16,  1.79it/s]Training 1/3 epoch (loss 0.3672):  29%|██▉       | 4887/16950 [53:41<1:48:19,  1.86it/s]Training 1/3 epoch (loss 0.0437):  29%|██▉       | 4887/16950 [53:41<1:48:19,  1.86it/s]Training 1/3 epoch (loss 0.0437):  29%|██▉       | 4888/16950 [53:41<1:42:06,  1.97it/s]Training 1/3 epoch (loss 0.0218):  29%|██▉       | 4888/16950 [53:42<1:42:06,  1.97it/s]Training 1/3 epoch (loss 0.0218):  29%|██▉       | 4889/16950 [53:42<1:36:30,  2.08it/s]Training 1/3 epoch (loss 0.2070):  29%|██▉       | 4889/16950 [53:42<1:36:30,  2.08it/s]Training 1/3 epoch (loss 0.2070):  29%|██▉       | 4890/16950 [53:42<1:35:33,  2.10it/s]Training 1/3 epoch (loss 0.0050):  29%|██▉       | 4890/16950 [53:42<1:35:33,  2.10it/s]Training 1/3 epoch (loss 0.0050):  29%|██▉       | 4891/16950 [53:42<1:29:46,  2.24it/s]Training 1/3 epoch (loss 0.5011):  29%|██▉       | 4891/16950 [53:43<1:29:46,  2.24it/s]Training 1/3 epoch (loss 0.5011):  29%|██▉       | 4892/16950 [53:43<1:29:01,  2.26it/s]Training 1/3 epoch (loss 0.0096):  29%|██▉       | 4892/16950 [53:43<1:29:01,  2.26it/s]Training 1/3 epoch (loss 0.0096):  29%|██▉       | 4893/16950 [53:43<1:36:28,  2.08it/s]Training 1/3 epoch (loss 0.2735):  29%|██▉       | 4893/16950 [53:44<1:36:28,  2.08it/s]Training 1/3 epoch (loss 0.2735):  29%|██▉       | 4894/16950 [53:44<1:38:24,  2.04it/s]Training 1/3 epoch (loss 0.0157):  29%|██▉       | 4894/16950 [53:44<1:38:24,  2.04it/s]Training 1/3 epoch (loss 0.0157):  29%|██▉       | 4895/16950 [53:44<1:35:44,  2.10it/s]Training 1/3 epoch (loss 0.0041):  29%|██▉       | 4895/16950 [53:45<1:35:44,  2.10it/s]Training 1/3 epoch (loss 0.0041):  29%|██▉       | 4896/16950 [53:45<1:34:34,  2.12it/s]Training 1/3 epoch (loss 0.0944):  29%|██▉       | 4896/16950 [53:46<1:34:34,  2.12it/s]Training 1/3 epoch (loss 0.0944):  29%|██▉       | 4897/16950 [53:46<2:05:40,  1.60it/s]Training 1/3 epoch (loss 0.0298):  29%|██▉       | 4897/16950 [53:47<2:05:40,  1.60it/s]Training 1/3 epoch (loss 0.0298):  29%|██▉       | 4898/16950 [53:47<2:15:52,  1.48it/s]Training 1/3 epoch (loss 0.0108):  29%|██▉       | 4898/16950 [53:47<2:15:52,  1.48it/s]Training 1/3 epoch (loss 0.0108):  29%|██▉       | 4899/16950 [53:47<1:58:21,  1.70it/s]Training 1/3 epoch (loss 0.5534):  29%|██▉       | 4899/16950 [53:48<1:58:21,  1.70it/s]Training 1/3 epoch (loss 0.5534):  29%|██▉       | 4900/16950 [53:48<1:55:02,  1.75it/s]Training 1/3 epoch (loss 0.0404):  29%|██▉       | 4900/16950 [53:48<1:55:02,  1.75it/s]Training 1/3 epoch (loss 0.0404):  29%|██▉       | 4901/16950 [53:48<1:41:48,  1.97it/s]Training 1/3 epoch (loss 0.0007):  29%|██▉       | 4901/16950 [53:48<1:41:48,  1.97it/s]Training 1/3 epoch (loss 0.0007):  29%|██▉       | 4902/16950 [53:48<1:42:05,  1.97it/s]Training 1/3 epoch (loss 0.3941):  29%|██▉       | 4902/16950 [53:49<1:42:05,  1.97it/s]Training 1/3 epoch (loss 0.3941):  29%|██▉       | 4903/16950 [53:49<1:44:29,  1.92it/s]Training 1/3 epoch (loss 0.0271):  29%|██▉       | 4903/16950 [53:50<1:44:29,  1.92it/s]Training 1/3 epoch (loss 0.0271):  29%|██▉       | 4904/16950 [53:50<2:01:27,  1.65it/s]Training 1/3 epoch (loss 0.5983):  29%|██▉       | 4904/16950 [53:50<2:01:27,  1.65it/s]Training 1/3 epoch (loss 0.5983):  29%|██▉       | 4905/16950 [53:50<2:02:04,  1.64it/s]Training 1/3 epoch (loss 0.5741):  29%|██▉       | 4905/16950 [53:51<2:02:04,  1.64it/s]Training 1/3 epoch (loss 0.5741):  29%|██▉       | 4906/16950 [53:51<2:00:54,  1.66it/s]Training 1/3 epoch (loss 0.4158):  29%|██▉       | 4906/16950 [53:51<2:00:54,  1.66it/s]Training 1/3 epoch (loss 0.4158):  29%|██▉       | 4907/16950 [53:51<1:50:17,  1.82it/s]Training 1/3 epoch (loss 0.1677):  29%|██▉       | 4907/16950 [53:52<1:50:17,  1.82it/s]Training 1/3 epoch (loss 0.1677):  29%|██▉       | 4908/16950 [53:52<1:39:42,  2.01it/s]Training 1/3 epoch (loss 0.1637):  29%|██▉       | 4908/16950 [53:53<1:39:42,  2.01it/s]Training 1/3 epoch (loss 0.1637):  29%|██▉       | 4909/16950 [53:53<2:09:57,  1.54it/s]Training 1/3 epoch (loss 0.5512):  29%|██▉       | 4909/16950 [53:54<2:09:57,  1.54it/s]Training 1/3 epoch (loss 0.5512):  29%|██▉       | 4910/16950 [53:54<2:20:48,  1.43it/s]Training 1/3 epoch (loss 0.3107):  29%|██▉       | 4910/16950 [53:54<2:20:48,  1.43it/s]Training 1/3 epoch (loss 0.3107):  29%|██▉       | 4911/16950 [53:54<2:09:31,  1.55it/s]Training 1/3 epoch (loss 0.0274):  29%|██▉       | 4911/16950 [53:55<2:09:31,  1.55it/s]Training 1/3 epoch (loss 0.0274):  29%|██▉       | 4912/16950 [53:55<2:09:03,  1.55it/s]Training 1/3 epoch (loss 0.0143):  29%|██▉       | 4912/16950 [53:55<2:09:03,  1.55it/s]Training 1/3 epoch (loss 0.0143):  29%|██▉       | 4913/16950 [53:55<2:11:17,  1.53it/s]Training 1/3 epoch (loss 0.3265):  29%|██▉       | 4913/16950 [53:56<2:11:17,  1.53it/s]Training 1/3 epoch (loss 0.3265):  29%|██▉       | 4914/16950 [53:56<2:31:52,  1.32it/s]Training 1/3 epoch (loss 0.3570):  29%|██▉       | 4914/16950 [53:57<2:31:52,  1.32it/s]Training 1/3 epoch (loss 0.3570):  29%|██▉       | 4915/16950 [53:57<2:39:38,  1.26it/s]Training 1/3 epoch (loss 0.1331):  29%|██▉       | 4915/16950 [53:58<2:39:38,  1.26it/s]Training 1/3 epoch (loss 0.1331):  29%|██▉       | 4916/16950 [53:58<2:12:20,  1.52it/s]Training 1/3 epoch (loss 0.5022):  29%|██▉       | 4916/16950 [53:58<2:12:20,  1.52it/s]Training 1/3 epoch (loss 0.5022):  29%|██▉       | 4917/16950 [53:58<2:02:38,  1.64it/s]Training 1/3 epoch (loss nan):  29%|██▉       | 4917/16950 [53:59<2:02:38,  1.64it/s]   Training 1/3 epoch (loss nan):  29%|██▉       | 4918/16950 [53:59<2:34:17,  1.30it/s]Training 1/3 epoch (loss 0.5170):  29%|██▉       | 4918/16950 [54:00<2:34:17,  1.30it/s]Training 1/3 epoch (loss 0.5170):  29%|██▉       | 4919/16950 [54:00<2:23:49,  1.39it/s]Training 1/3 epoch (loss 0.0014):  29%|██▉       | 4919/16950 [54:00<2:23:49,  1.39it/s]Training 1/3 epoch (loss 0.0014):  29%|██▉       | 4920/16950 [54:00<2:12:33,  1.51it/s]Training 1/3 epoch (loss 0.2490):  29%|██▉       | 4920/16950 [54:01<2:12:33,  1.51it/s]Training 1/3 epoch (loss 0.2490):  29%|██▉       | 4921/16950 [54:01<2:03:24,  1.62it/s]Training 1/3 epoch (loss 0.0882):  29%|██▉       | 4921/16950 [54:01<2:03:24,  1.62it/s]Training 1/3 epoch (loss 0.0882):  29%|██▉       | 4922/16950 [54:01<1:52:41,  1.78it/s]Training 1/3 epoch (loss 0.3883):  29%|██▉       | 4922/16950 [54:02<1:52:41,  1.78it/s]Training 1/3 epoch (loss 0.3883):  29%|██▉       | 4923/16950 [54:02<1:56:20,  1.72it/s]Training 1/3 epoch (loss 0.0548):  29%|██▉       | 4923/16950 [54:02<1:56:20,  1.72it/s]Training 1/3 epoch (loss 0.0548):  29%|██▉       | 4924/16950 [54:02<1:52:42,  1.78it/s]Training 1/3 epoch (loss 0.0454):  29%|██▉       | 4924/16950 [54:03<1:52:42,  1.78it/s]Training 1/3 epoch (loss 0.0454):  29%|██▉       | 4925/16950 [54:03<1:59:53,  1.67it/s]Training 1/3 epoch (loss 0.0023):  29%|██▉       | 4925/16950 [54:04<1:59:53,  1.67it/s]Training 1/3 epoch (loss 0.0023):  29%|██▉       | 4926/16950 [54:04<2:02:32,  1.64it/s]Training 1/3 epoch (loss 0.0152):  29%|██▉       | 4926/16950 [54:04<2:02:32,  1.64it/s]Training 1/3 epoch (loss 0.0152):  29%|██▉       | 4927/16950 [54:04<1:56:00,  1.73it/s]Training 1/3 epoch (loss 0.0052):  29%|██▉       | 4927/16950 [54:05<1:56:00,  1.73it/s]Training 1/3 epoch (loss 0.0052):  29%|██▉       | 4928/16950 [54:05<1:54:28,  1.75it/s]Training 1/3 epoch (loss 0.0201):  29%|██▉       | 4928/16950 [54:06<1:54:28,  1.75it/s]Training 1/3 epoch (loss 0.0201):  29%|██▉       | 4929/16950 [54:06<2:04:41,  1.61it/s]Training 1/3 epoch (loss 0.0134):  29%|██▉       | 4929/16950 [54:06<2:04:41,  1.61it/s]Training 1/3 epoch (loss 0.0134):  29%|██▉       | 4930/16950 [54:06<2:03:00,  1.63it/s]Training 1/3 epoch (loss 0.7673):  29%|██▉       | 4930/16950 [54:07<2:03:00,  1.63it/s]Training 1/3 epoch (loss 0.7673):  29%|██▉       | 4931/16950 [54:07<1:47:25,  1.86it/s]Training 1/3 epoch (loss 0.0972):  29%|██▉       | 4931/16950 [54:07<1:47:25,  1.86it/s]Training 1/3 epoch (loss 0.0972):  29%|██▉       | 4932/16950 [54:07<2:05:26,  1.60it/s]Training 1/3 epoch (loss 0.0242):  29%|██▉       | 4932/16950 [54:08<2:05:26,  1.60it/s]Training 1/3 epoch (loss 0.0242):  29%|██▉       | 4933/16950 [54:08<2:08:02,  1.56it/s]Training 1/3 epoch (loss 0.0046):  29%|██▉       | 4933/16950 [54:09<2:08:02,  1.56it/s]Training 1/3 epoch (loss 0.0046):  29%|██▉       | 4934/16950 [54:09<2:04:29,  1.61it/s]Training 1/3 epoch (loss 0.0064):  29%|██▉       | 4934/16950 [54:09<2:04:29,  1.61it/s]Training 1/3 epoch (loss 0.0064):  29%|██▉       | 4935/16950 [54:09<1:54:00,  1.76it/s]Training 1/3 epoch (loss 0.5091):  29%|██▉       | 4935/16950 [54:10<1:54:00,  1.76it/s]Training 1/3 epoch (loss 0.5091):  29%|██▉       | 4936/16950 [54:10<1:53:54,  1.76it/s]Training 1/3 epoch (loss 0.0129):  29%|██▉       | 4936/16950 [54:10<1:53:54,  1.76it/s]Training 1/3 epoch (loss 0.0129):  29%|██▉       | 4937/16950 [54:10<1:45:22,  1.90it/s]Training 1/3 epoch (loss 0.1542):  29%|██▉       | 4937/16950 [54:10<1:45:22,  1.90it/s]Training 1/3 epoch (loss 0.1542):  29%|██▉       | 4938/16950 [54:10<1:38:03,  2.04it/s]Training 1/3 epoch (loss 0.3203):  29%|██▉       | 4938/16950 [54:11<1:38:03,  2.04it/s]Training 1/3 epoch (loss 0.3203):  29%|██▉       | 4939/16950 [54:11<1:43:20,  1.94it/s]Training 1/3 epoch (loss 0.0067):  29%|██▉       | 4939/16950 [54:12<1:43:20,  1.94it/s]Training 1/3 epoch (loss 0.0067):  29%|██▉       | 4940/16950 [54:12<1:48:06,  1.85it/s]Training 1/3 epoch (loss 0.0039):  29%|██▉       | 4940/16950 [54:12<1:48:06,  1.85it/s]Training 1/3 epoch (loss 0.0039):  29%|██▉       | 4941/16950 [54:12<1:53:18,  1.77it/s]Training 1/3 epoch (loss 0.4861):  29%|██▉       | 4941/16950 [54:13<1:53:18,  1.77it/s]Training 1/3 epoch (loss 0.4861):  29%|██▉       | 4942/16950 [54:13<1:58:01,  1.70it/s]Training 1/3 epoch (loss 0.0019):  29%|██▉       | 4942/16950 [54:13<1:58:01,  1.70it/s]Training 1/3 epoch (loss 0.0019):  29%|██▉       | 4943/16950 [54:13<1:51:42,  1.79it/s]Training 1/3 epoch (loss 0.3303):  29%|██▉       | 4943/16950 [54:14<1:51:42,  1.79it/s]Training 1/3 epoch (loss 0.3303):  29%|██▉       | 4944/16950 [54:14<1:47:31,  1.86it/s]Training 1/3 epoch (loss 0.0122):  29%|██▉       | 4944/16950 [54:15<1:47:31,  1.86it/s]Training 1/3 epoch (loss 0.0122):  29%|██▉       | 4945/16950 [54:15<1:57:09,  1.71it/s]Training 1/3 epoch (loss 0.0416):  29%|██▉       | 4945/16950 [54:15<1:57:09,  1.71it/s]Training 1/3 epoch (loss 0.0416):  29%|██▉       | 4946/16950 [54:15<2:12:37,  1.51it/s]Training 1/3 epoch (loss 0.0420):  29%|██▉       | 4946/16950 [54:16<2:12:37,  1.51it/s]Training 1/3 epoch (loss 0.0420):  29%|██▉       | 4947/16950 [54:16<2:27:04,  1.36it/s]Training 1/3 epoch (loss 0.2936):  29%|██▉       | 4947/16950 [54:17<2:27:04,  1.36it/s]Training 1/3 epoch (loss 0.2936):  29%|██▉       | 4948/16950 [54:17<2:18:26,  1.44it/s]Training 1/3 epoch (loss 0.0542):  29%|██▉       | 4948/16950 [54:18<2:18:26,  1.44it/s]Training 1/3 epoch (loss 0.0542):  29%|██▉       | 4949/16950 [54:18<2:24:52,  1.38it/s]Training 1/3 epoch (loss 0.4218):  29%|██▉       | 4949/16950 [54:18<2:24:52,  1.38it/s]Training 1/3 epoch (loss 0.4218):  29%|██▉       | 4950/16950 [54:18<2:14:58,  1.48it/s]Training 1/3 epoch (loss 0.0268):  29%|██▉       | 4950/16950 [54:19<2:14:58,  1.48it/s]Training 1/3 epoch (loss 0.0268):  29%|██▉       | 4951/16950 [54:19<2:07:41,  1.57it/s]Training 1/3 epoch (loss 0.2254):  29%|██▉       | 4951/16950 [54:19<2:07:41,  1.57it/s]Training 1/3 epoch (loss 0.2254):  29%|██▉       | 4952/16950 [54:19<1:59:18,  1.68it/s]Training 1/3 epoch (loss 0.0058):  29%|██▉       | 4952/16950 [54:20<1:59:18,  1.68it/s]Training 1/3 epoch (loss 0.0058):  29%|██▉       | 4953/16950 [54:20<2:03:52,  1.61it/s]Training 1/3 epoch (loss 0.0993):  29%|██▉       | 4953/16950 [54:21<2:03:52,  1.61it/s]Training 1/3 epoch (loss 0.0993):  29%|██▉       | 4954/16950 [54:21<1:56:49,  1.71it/s]Training 1/3 epoch (loss 0.5645):  29%|██▉       | 4954/16950 [54:21<1:56:49,  1.71it/s]Training 1/3 epoch (loss 0.5645):  29%|██▉       | 4955/16950 [54:21<1:58:30,  1.69it/s]Training 1/3 epoch (loss 0.0306):  29%|██▉       | 4955/16950 [54:22<1:58:30,  1.69it/s]Training 1/3 epoch (loss 0.0306):  29%|██▉       | 4956/16950 [54:22<1:48:21,  1.84it/s]Training 1/3 epoch (loss 0.0042):  29%|██▉       | 4956/16950 [54:22<1:48:21,  1.84it/s]Training 1/3 epoch (loss 0.0042):  29%|██▉       | 4957/16950 [54:22<1:42:44,  1.95it/s]Training 1/3 epoch (loss 0.0100):  29%|██▉       | 4957/16950 [54:22<1:42:44,  1.95it/s]Training 1/3 epoch (loss 0.0100):  29%|██▉       | 4958/16950 [54:22<1:32:45,  2.15it/s]Training 1/3 epoch (loss 0.4828):  29%|██▉       | 4958/16950 [54:23<1:32:45,  2.15it/s]Training 1/3 epoch (loss 0.4828):  29%|██▉       | 4959/16950 [54:23<1:25:41,  2.33it/s]Training 1/3 epoch (loss 0.0601):  29%|██▉       | 4959/16950 [54:23<1:25:41,  2.33it/s]Training 1/3 epoch (loss 0.0601):  29%|██▉       | 4960/16950 [54:23<1:35:26,  2.09it/s]Training 1/3 epoch (loss 0.0220):  29%|██▉       | 4960/16950 [54:24<1:35:26,  2.09it/s]Training 1/3 epoch (loss 0.0220):  29%|██▉       | 4961/16950 [54:24<1:36:51,  2.06it/s]Training 1/3 epoch (loss 0.0004):  29%|██▉       | 4961/16950 [54:24<1:36:51,  2.06it/s]Training 1/3 epoch (loss 0.0004):  29%|██▉       | 4962/16950 [54:24<1:38:45,  2.02it/s]Training 1/3 epoch (loss 0.6196):  29%|██▉       | 4962/16950 [54:25<1:38:45,  2.02it/s]Training 1/3 epoch (loss 0.6196):  29%|██▉       | 4963/16950 [54:25<2:15:45,  1.47it/s]Training 1/3 epoch (loss 0.0354):  29%|██▉       | 4963/16950 [54:26<2:15:45,  1.47it/s]Training 1/3 epoch (loss 0.0354):  29%|██▉       | 4964/16950 [54:26<2:22:29,  1.40it/s]Training 1/3 epoch (loss 0.5146):  29%|██▉       | 4964/16950 [54:27<2:22:29,  1.40it/s]Training 1/3 epoch (loss 0.5146):  29%|██▉       | 4965/16950 [54:27<2:18:30,  1.44it/s]Training 1/3 epoch (loss 0.0543):  29%|██▉       | 4965/16950 [54:28<2:18:30,  1.44it/s]Training 1/3 epoch (loss 0.0543):  29%|██▉       | 4966/16950 [54:28<2:17:03,  1.46it/s]Training 1/3 epoch (loss 0.0021):  29%|██▉       | 4966/16950 [54:28<2:17:03,  1.46it/s]Training 1/3 epoch (loss 0.0021):  29%|██▉       | 4967/16950 [54:28<2:10:42,  1.53it/s]Training 1/3 epoch (loss 0.0385):  29%|██▉       | 4967/16950 [54:29<2:10:42,  1.53it/s]Training 1/3 epoch (loss 0.0385):  29%|██▉       | 4968/16950 [54:29<2:11:27,  1.52it/s]Training 1/3 epoch (loss 0.7981):  29%|██▉       | 4968/16950 [54:29<2:11:27,  1.52it/s]Training 1/3 epoch (loss 0.7981):  29%|██▉       | 4969/16950 [54:29<2:01:53,  1.64it/s]Training 1/3 epoch (loss 0.3785):  29%|██▉       | 4969/16950 [54:30<2:01:53,  1.64it/s]Training 1/3 epoch (loss 0.3785):  29%|██▉       | 4970/16950 [54:30<1:48:17,  1.84it/s]Training 1/3 epoch (loss 0.0737):  29%|██▉       | 4970/16950 [54:30<1:48:17,  1.84it/s]Training 1/3 epoch (loss 0.0737):  29%|██▉       | 4971/16950 [54:30<1:43:04,  1.94it/s]Training 1/3 epoch (loss 0.0416):  29%|██▉       | 4971/16950 [54:31<1:43:04,  1.94it/s]Training 1/3 epoch (loss 0.0416):  29%|██▉       | 4972/16950 [54:31<1:47:01,  1.87it/s]Training 1/3 epoch (loss 0.0009):  29%|██▉       | 4972/16950 [54:31<1:47:01,  1.87it/s]Training 1/3 epoch (loss 0.0009):  29%|██▉       | 4973/16950 [54:31<1:55:35,  1.73it/s]Training 1/3 epoch (loss 0.5431):  29%|██▉       | 4973/16950 [54:32<1:55:35,  1.73it/s]Training 1/3 epoch (loss 0.5431):  29%|██▉       | 4974/16950 [54:32<2:12:55,  1.50it/s]Training 1/3 epoch (loss 0.0425):  29%|██▉       | 4974/16950 [54:33<2:12:55,  1.50it/s]Training 1/3 epoch (loss 0.0425):  29%|██▉       | 4975/16950 [54:33<2:08:32,  1.55it/s]Training 1/3 epoch (loss 0.6487):  29%|██▉       | 4975/16950 [54:33<2:08:32,  1.55it/s]Training 1/3 epoch (loss 0.6487):  29%|██▉       | 4976/16950 [54:33<1:54:30,  1.74it/s]Training 1/3 epoch (loss 0.1612):  29%|██▉       | 4976/16950 [54:34<1:54:30,  1.74it/s]Training 1/3 epoch (loss 0.1612):  29%|██▉       | 4977/16950 [54:34<1:46:27,  1.87it/s]Training 1/3 epoch (loss 0.0029):  29%|██▉       | 4977/16950 [54:34<1:46:27,  1.87it/s]Training 1/3 epoch (loss 0.0029):  29%|██▉       | 4978/16950 [54:34<1:50:22,  1.81it/s]Training 1/3 epoch (loss 0.0196):  29%|██▉       | 4978/16950 [54:35<1:50:22,  1.81it/s]Training 1/3 epoch (loss 0.0196):  29%|██▉       | 4979/16950 [54:35<1:49:45,  1.82it/s]Training 1/3 epoch (loss 0.1949):  29%|██▉       | 4979/16950 [54:35<1:49:45,  1.82it/s]Training 1/3 epoch (loss 0.1949):  29%|██▉       | 4980/16950 [54:35<1:41:38,  1.96it/s]Training 1/3 epoch (loss 0.0315):  29%|██▉       | 4980/16950 [54:36<1:41:38,  1.96it/s]Training 1/3 epoch (loss 0.0315):  29%|██▉       | 4981/16950 [54:36<1:35:41,  2.08it/s]Training 1/3 epoch (loss 0.0010):  29%|██▉       | 4981/16950 [54:36<1:35:41,  2.08it/s]Training 1/3 epoch (loss 0.0010):  29%|██▉       | 4982/16950 [54:36<1:32:08,  2.16it/s]Training 1/3 epoch (loss 0.4685):  29%|██▉       | 4982/16950 [54:36<1:32:08,  2.16it/s]Training 1/3 epoch (loss 0.4685):  29%|██▉       | 4983/16950 [54:36<1:25:30,  2.33it/s]Training 1/3 epoch (loss 0.0122):  29%|██▉       | 4983/16950 [54:37<1:25:30,  2.33it/s]Training 1/3 epoch (loss 0.0122):  29%|██▉       | 4984/16950 [54:37<1:23:52,  2.38it/s]Training 1/3 epoch (loss 0.0196):  29%|██▉       | 4984/16950 [54:37<1:23:52,  2.38it/s]Training 1/3 epoch (loss 0.0196):  29%|██▉       | 4985/16950 [54:37<1:30:11,  2.21it/s]Training 1/3 epoch (loss 0.4869):  29%|██▉       | 4985/16950 [54:38<1:30:11,  2.21it/s]Training 1/3 epoch (loss 0.4869):  29%|██▉       | 4986/16950 [54:38<2:08:00,  1.56it/s]Training 1/3 epoch (loss 0.1104):  29%|██▉       | 4986/16950 [54:39<2:08:00,  1.56it/s]Training 1/3 epoch (loss 0.1104):  29%|██▉       | 4987/16950 [54:39<2:17:54,  1.45it/s]Training 1/3 epoch (loss 0.5696):  29%|██▉       | 4987/16950 [54:40<2:17:54,  1.45it/s]Training 1/3 epoch (loss 0.5696):  29%|██▉       | 4988/16950 [54:40<2:17:39,  1.45it/s]Training 1/3 epoch (loss 0.3450):  29%|██▉       | 4988/16950 [54:40<2:17:39,  1.45it/s]Training 1/3 epoch (loss 0.3450):  29%|██▉       | 4989/16950 [54:40<2:04:30,  1.60it/s]Training 1/3 epoch (loss 0.0087):  29%|██▉       | 4989/16950 [54:41<2:04:30,  1.60it/s]Training 1/3 epoch (loss 0.0087):  29%|██▉       | 4990/16950 [54:41<2:06:10,  1.58it/s]Training 1/3 epoch (loss 0.4709):  29%|██▉       | 4990/16950 [54:42<2:06:10,  1.58it/s]Training 1/3 epoch (loss 0.4709):  29%|██▉       | 4991/16950 [54:42<2:02:00,  1.63it/s]Training 1/3 epoch (loss 0.0150):  29%|██▉       | 4991/16950 [54:42<2:02:00,  1.63it/s]Training 1/3 epoch (loss 0.0150):  29%|██▉       | 4992/16950 [54:42<1:56:24,  1.71it/s]Training 1/3 epoch (loss 0.9914):  29%|██▉       | 4992/16950 [54:43<1:56:24,  1.71it/s]Training 1/3 epoch (loss 0.9914):  29%|██▉       | 4993/16950 [54:43<1:45:17,  1.89it/s]Training 1/3 epoch (loss 0.4990):  29%|██▉       | 4993/16950 [54:43<1:45:17,  1.89it/s]Training 1/3 epoch (loss 0.4990):  29%|██▉       | 4994/16950 [54:43<2:01:35,  1.64it/s]Training 1/3 epoch (loss 0.0091):  29%|██▉       | 4994/16950 [54:44<2:01:35,  1.64it/s]Training 1/3 epoch (loss 0.0091):  29%|██▉       | 4995/16950 [54:44<2:09:57,  1.53it/s]Training 1/3 epoch (loss 0.0010):  29%|██▉       | 4995/16950 [54:45<2:09:57,  1.53it/s]Training 1/3 epoch (loss 0.0010):  29%|██▉       | 4996/16950 [54:45<1:58:37,  1.68it/s]Training 1/3 epoch (loss 0.0026):  29%|██▉       | 4996/16950 [54:45<1:58:37,  1.68it/s]Training 1/3 epoch (loss 0.0026):  29%|██▉       | 4997/16950 [54:45<1:59:04,  1.67it/s]Training 1/3 epoch (loss 0.0098):  29%|██▉       | 4997/16950 [54:46<1:59:04,  1.67it/s]Training 1/3 epoch (loss 0.0098):  29%|██▉       | 4998/16950 [54:46<1:55:00,  1.73it/s]Training 1/3 epoch (loss 0.0169):  29%|██▉       | 4998/16950 [54:46<1:55:00,  1.73it/s]Training 1/3 epoch (loss 0.0169):  29%|██▉       | 4999/16950 [54:46<1:54:06,  1.75it/s]Training 1/3 epoch (loss 0.0463):  29%|██▉       | 4999/16950 [54:47<1:54:06,  1.75it/s]Training 1/3 epoch (loss 0.0463):  29%|██▉       | 5000/16950 [54:47<2:11:47,  1.51it/s]Training 1/3 epoch (loss 0.3648):  29%|██▉       | 5000/16950 [54:48<2:11:47,  1.51it/s]Training 1/3 epoch (loss 0.3648):  30%|██▉       | 5001/16950 [54:48<2:17:05,  1.45it/s]Training 1/3 epoch (loss 0.0919):  30%|██▉       | 5001/16950 [54:48<2:17:05,  1.45it/s]Training 1/3 epoch (loss 0.0919):  30%|██▉       | 5002/16950 [54:48<2:12:51,  1.50it/s]Training 1/3 epoch (loss 1.0745):  30%|██▉       | 5002/16950 [54:49<2:12:51,  1.50it/s]Training 1/3 epoch (loss 1.0745):  30%|██▉       | 5003/16950 [54:49<2:25:14,  1.37it/s]Training 1/3 epoch (loss 0.0666):  30%|██▉       | 5003/16950 [54:50<2:25:14,  1.37it/s]Training 1/3 epoch (loss 0.0666):  30%|██▉       | 5004/16950 [54:50<2:16:45,  1.46it/s]Training 1/3 epoch (loss 0.4436):  30%|██▉       | 5004/16950 [54:51<2:16:45,  1.46it/s]Training 1/3 epoch (loss 0.4436):  30%|██▉       | 5005/16950 [54:51<2:28:15,  1.34it/s]Training 1/3 epoch (loss 0.6949):  30%|██▉       | 5005/16950 [54:52<2:28:15,  1.34it/s]Training 1/3 epoch (loss 0.6949):  30%|██▉       | 5006/16950 [54:52<2:33:40,  1.30it/s]Training 1/3 epoch (loss 0.0874):  30%|██▉       | 5006/16950 [54:52<2:33:40,  1.30it/s]Training 1/3 epoch (loss 0.0874):  30%|██▉       | 5007/16950 [54:52<2:18:27,  1.44it/s]Training 1/3 epoch (loss 0.0713):  30%|██▉       | 5007/16950 [54:53<2:18:27,  1.44it/s]Training 1/3 epoch (loss 0.0713):  30%|██▉       | 5008/16950 [54:53<2:14:44,  1.48it/s]Training 1/3 epoch (loss 0.0102):  30%|██▉       | 5008/16950 [54:53<2:14:44,  1.48it/s]Training 1/3 epoch (loss 0.0102):  30%|██▉       | 5009/16950 [54:53<2:03:05,  1.62it/s]Training 1/3 epoch (loss 0.2210):  30%|██▉       | 5009/16950 [54:54<2:03:05,  1.62it/s]Training 1/3 epoch (loss 0.2210):  30%|██▉       | 5010/16950 [54:54<2:04:47,  1.59it/s]Training 1/3 epoch (loss 0.0716):  30%|██▉       | 5010/16950 [54:55<2:04:47,  1.59it/s]Training 1/3 epoch (loss 0.0716):  30%|██▉       | 5011/16950 [54:55<2:12:32,  1.50it/s]Training 1/3 epoch (loss 0.0004):  30%|██▉       | 5011/16950 [54:55<2:12:32,  1.50it/s]Training 1/3 epoch (loss 0.0004):  30%|██▉       | 5012/16950 [54:55<2:06:30,  1.57it/s]Training 1/3 epoch (loss 0.0315):  30%|██▉       | 5012/16950 [54:56<2:06:30,  1.57it/s]Training 1/3 epoch (loss 0.0315):  30%|██▉       | 5013/16950 [54:56<2:03:51,  1.61it/s]Training 1/3 epoch (loss 0.2785):  30%|██▉       | 5013/16950 [54:57<2:03:51,  1.61it/s]Training 1/3 epoch (loss 0.2785):  30%|██▉       | 5014/16950 [54:57<2:20:40,  1.41it/s]Training 1/3 epoch (loss 0.0150):  30%|██▉       | 5014/16950 [54:58<2:20:40,  1.41it/s]Training 1/3 epoch (loss 0.0150):  30%|██▉       | 5015/16950 [54:58<2:24:00,  1.38it/s]Training 1/3 epoch (loss 0.0023):  30%|██▉       | 5015/16950 [54:58<2:24:00,  1.38it/s]Training 1/3 epoch (loss 0.0023):  30%|██▉       | 5016/16950 [54:58<2:16:27,  1.46it/s]Training 1/3 epoch (loss 0.4584):  30%|██▉       | 5016/16950 [54:59<2:16:27,  1.46it/s]Training 1/3 epoch (loss 0.4584):  30%|██▉       | 5017/16950 [54:59<2:07:54,  1.55it/s]Training 1/3 epoch (loss 0.0121):  30%|██▉       | 5017/16950 [54:59<2:07:54,  1.55it/s]Training 1/3 epoch (loss 0.0121):  30%|██▉       | 5018/16950 [54:59<2:04:51,  1.59it/s]Training 1/3 epoch (loss 0.5135):  30%|██▉       | 5018/16950 [55:00<2:04:51,  1.59it/s]Training 1/3 epoch (loss 0.5135):  30%|██▉       | 5019/16950 [55:00<2:23:54,  1.38it/s]Training 1/3 epoch (loss 0.2637):  30%|██▉       | 5019/16950 [55:01<2:23:54,  1.38it/s]Training 1/3 epoch (loss 0.2637):  30%|██▉       | 5020/16950 [55:01<2:12:22,  1.50it/s]Training 1/3 epoch (loss 0.4011):  30%|██▉       | 5020/16950 [55:01<2:12:22,  1.50it/s]Training 1/3 epoch (loss 0.4011):  30%|██▉       | 5021/16950 [55:01<2:10:42,  1.52it/s]Training 1/3 epoch (loss 0.0018):  30%|██▉       | 5021/16950 [55:02<2:10:42,  1.52it/s]Training 1/3 epoch (loss 0.0018):  30%|██▉       | 5022/16950 [55:02<2:03:45,  1.61it/s]Training 1/3 epoch (loss 0.0158):  30%|██▉       | 5022/16950 [55:03<2:03:45,  1.61it/s]Training 1/3 epoch (loss 0.0158):  30%|██▉       | 5023/16950 [55:03<2:02:27,  1.62it/s]Training 1/3 epoch (loss 0.2466):  30%|██▉       | 5023/16950 [55:03<2:02:27,  1.62it/s]Training 1/3 epoch (loss 0.2466):  30%|██▉       | 5024/16950 [55:03<2:01:32,  1.64it/s]Training 1/3 epoch (loss 0.0107):  30%|██▉       | 5024/16950 [55:04<2:01:32,  1.64it/s]Training 1/3 epoch (loss 0.0107):  30%|██▉       | 5025/16950 [55:04<1:59:32,  1.66it/s]Training 1/3 epoch (loss 0.8037):  30%|██▉       | 5025/16950 [55:04<1:59:32,  1.66it/s]Training 1/3 epoch (loss 0.8037):  30%|██▉       | 5026/16950 [55:04<1:44:24,  1.90it/s]Training 1/3 epoch (loss 0.0017):  30%|██▉       | 5026/16950 [55:04<1:44:24,  1.90it/s]Training 1/3 epoch (loss 0.0017):  30%|██▉       | 5027/16950 [55:04<1:37:16,  2.04it/s]Training 1/3 epoch (loss 0.0462):  30%|██▉       | 5027/16950 [55:05<1:37:16,  2.04it/s]Training 1/3 epoch (loss 0.0462):  30%|██▉       | 5028/16950 [55:05<1:39:35,  2.00it/s]Training 1/3 epoch (loss 0.0414):  30%|██▉       | 5028/16950 [55:06<1:39:35,  2.00it/s]Training 1/3 epoch (loss 0.0414):  30%|██▉       | 5029/16950 [55:06<1:53:12,  1.75it/s]Training 1/3 epoch (loss 0.0600):  30%|██▉       | 5029/16950 [55:06<1:53:12,  1.75it/s]Training 1/3 epoch (loss 0.0600):  30%|██▉       | 5030/16950 [55:06<1:59:47,  1.66it/s]Training 1/3 epoch (loss 0.0363):  30%|██▉       | 5030/16950 [55:07<1:59:47,  1.66it/s]Training 1/3 epoch (loss 0.0363):  30%|██▉       | 5031/16950 [55:07<1:52:26,  1.77it/s]Training 1/3 epoch (loss 0.0509):  30%|██▉       | 5031/16950 [55:08<1:52:26,  1.77it/s]Training 1/3 epoch (loss 0.0509):  30%|██▉       | 5032/16950 [55:08<2:01:15,  1.64it/s]Training 1/3 epoch (loss 1.2103):  30%|██▉       | 5032/16950 [55:08<2:01:15,  1.64it/s]Training 1/3 epoch (loss 1.2103):  30%|██▉       | 5033/16950 [55:08<2:03:25,  1.61it/s]Training 1/3 epoch (loss 0.0023):  30%|██▉       | 5033/16950 [55:09<2:03:25,  1.61it/s]Training 1/3 epoch (loss 0.0023):  30%|██▉       | 5034/16950 [55:09<2:05:10,  1.59it/s]Training 1/3 epoch (loss 0.6825):  30%|██▉       | 5034/16950 [55:09<2:05:10,  1.59it/s]Training 1/3 epoch (loss 0.6825):  30%|██▉       | 5035/16950 [55:09<1:57:47,  1.69it/s]Training 1/3 epoch (loss 0.1814):  30%|██▉       | 5035/16950 [55:10<1:57:47,  1.69it/s]Training 1/3 epoch (loss 0.1814):  30%|██▉       | 5036/16950 [55:10<1:54:59,  1.73it/s]Training 1/3 epoch (loss 0.1285):  30%|██▉       | 5036/16950 [55:11<1:54:59,  1.73it/s]Training 1/3 epoch (loss 0.1285):  30%|██▉       | 5037/16950 [55:11<1:54:37,  1.73it/s]Training 1/3 epoch (loss 0.0927):  30%|██▉       | 5037/16950 [55:11<1:54:37,  1.73it/s]Training 1/3 epoch (loss 0.0927):  30%|██▉       | 5038/16950 [55:11<1:47:28,  1.85it/s]Training 1/3 epoch (loss 0.0160):  30%|██▉       | 5038/16950 [55:11<1:47:28,  1.85it/s]Training 1/3 epoch (loss 0.0160):  30%|██▉       | 5039/16950 [55:11<1:38:49,  2.01it/s]Training 1/3 epoch (loss 0.0712):  30%|██▉       | 5039/16950 [55:12<1:38:49,  2.01it/s]Training 1/3 epoch (loss 0.0712):  30%|██▉       | 5040/16950 [55:12<1:28:31,  2.24it/s]Training 1/3 epoch (loss 0.0151):  30%|██▉       | 5040/16950 [55:12<1:28:31,  2.24it/s]Training 1/3 epoch (loss 0.0151):  30%|██▉       | 5041/16950 [55:12<1:42:24,  1.94it/s]Training 1/3 epoch (loss 0.0029):  30%|██▉       | 5041/16950 [55:13<1:42:24,  1.94it/s]Training 1/3 epoch (loss 0.0029):  30%|██▉       | 5042/16950 [55:13<1:42:25,  1.94it/s]Training 1/3 epoch (loss 0.0770):  30%|██▉       | 5042/16950 [55:13<1:42:25,  1.94it/s]Training 1/3 epoch (loss 0.0770):  30%|██▉       | 5043/16950 [55:13<1:44:37,  1.90it/s]Training 1/3 epoch (loss 0.0363):  30%|██▉       | 5043/16950 [55:14<1:44:37,  1.90it/s]Training 1/3 epoch (loss 0.0363):  30%|██▉       | 5044/16950 [55:14<1:43:37,  1.91it/s]Training 1/3 epoch (loss 0.4563):  30%|██▉       | 5044/16950 [55:15<1:43:37,  1.91it/s]Training 1/3 epoch (loss 0.4563):  30%|██▉       | 5045/16950 [55:15<2:16:54,  1.45it/s]Training 1/3 epoch (loss 0.5715):  30%|██▉       | 5045/16950 [55:16<2:16:54,  1.45it/s]Training 1/3 epoch (loss 0.5715):  30%|██▉       | 5046/16950 [55:16<2:39:52,  1.24it/s]Training 1/3 epoch (loss 0.5011):  30%|██▉       | 5046/16950 [55:17<2:39:52,  1.24it/s]Training 1/3 epoch (loss 0.5011):  30%|██▉       | 5047/16950 [55:17<2:35:51,  1.27it/s]Training 1/3 epoch (loss 0.3135):  30%|██▉       | 5047/16950 [55:17<2:35:51,  1.27it/s]Training 1/3 epoch (loss 0.3135):  30%|██▉       | 5048/16950 [55:17<2:22:57,  1.39it/s]Training 1/3 epoch (loss 0.0016):  30%|██▉       | 5048/16950 [55:18<2:22:57,  1.39it/s]Training 1/3 epoch (loss 0.0016):  30%|██▉       | 5049/16950 [55:18<2:09:18,  1.53it/s]Training 1/3 epoch (loss 0.6656):  30%|██▉       | 5049/16950 [55:19<2:09:18,  1.53it/s]Training 1/3 epoch (loss 0.6656):  30%|██▉       | 5050/16950 [55:19<2:26:09,  1.36it/s]Training 1/3 epoch (loss 0.4040):  30%|██▉       | 5050/16950 [55:20<2:26:09,  1.36it/s]Training 1/3 epoch (loss 0.4040):  30%|██▉       | 5051/16950 [55:20<2:39:46,  1.24it/s]Training 1/3 epoch (loss 0.0537):  30%|██▉       | 5051/16950 [55:20<2:39:46,  1.24it/s]Training 1/3 epoch (loss 0.0537):  30%|██▉       | 5052/16950 [55:20<2:13:04,  1.49it/s]Training 1/3 epoch (loss 0.0420):  30%|██▉       | 5052/16950 [55:20<2:13:04,  1.49it/s]Training 1/3 epoch (loss 0.0420):  30%|██▉       | 5053/16950 [55:20<1:53:18,  1.75it/s]Training 1/3 epoch (loss 0.0075):  30%|██▉       | 5053/16950 [55:21<1:53:18,  1.75it/s]Training 1/3 epoch (loss 0.0075):  30%|██▉       | 5054/16950 [55:21<2:06:52,  1.56it/s]Training 1/3 epoch (loss 0.0573):  30%|██▉       | 5054/16950 [55:22<2:06:52,  1.56it/s]Training 1/3 epoch (loss 0.0573):  30%|██▉       | 5055/16950 [55:22<2:04:12,  1.60it/s]Training 1/3 epoch (loss 0.1466):  30%|██▉       | 5055/16950 [55:23<2:04:12,  1.60it/s]Training 1/3 epoch (loss 0.1466):  30%|██▉       | 5056/16950 [55:23<2:13:50,  1.48it/s]Training 1/3 epoch (loss 0.4252):  30%|██▉       | 5056/16950 [55:23<2:13:50,  1.48it/s]Training 1/3 epoch (loss 0.4252):  30%|██▉       | 5057/16950 [55:23<1:59:53,  1.65it/s]Training 1/3 epoch (loss 0.0371):  30%|██▉       | 5057/16950 [55:24<1:59:53,  1.65it/s]Training 1/3 epoch (loss 0.0371):  30%|██▉       | 5058/16950 [55:24<2:27:02,  1.35it/s]Training 1/3 epoch (loss 0.1963):  30%|██▉       | 5058/16950 [55:25<2:27:02,  1.35it/s]Training 1/3 epoch (loss 0.1963):  30%|██▉       | 5059/16950 [55:25<2:25:24,  1.36it/s]Training 1/3 epoch (loss 0.0017):  30%|██▉       | 5059/16950 [55:26<2:25:24,  1.36it/s]Training 1/3 epoch (loss 0.0017):  30%|██▉       | 5060/16950 [55:26<2:20:11,  1.41it/s]Training 1/3 epoch (loss 0.0337):  30%|██▉       | 5060/16950 [55:26<2:20:11,  1.41it/s]Training 1/3 epoch (loss 0.0337):  30%|██▉       | 5061/16950 [55:26<2:17:48,  1.44it/s]Training 1/3 epoch (loss 0.0016):  30%|██▉       | 5061/16950 [55:27<2:17:48,  1.44it/s]Training 1/3 epoch (loss 0.0016):  30%|██▉       | 5062/16950 [55:27<2:02:19,  1.62it/s]Training 1/3 epoch (loss 0.0398):  30%|██▉       | 5062/16950 [55:27<2:02:19,  1.62it/s]Training 1/3 epoch (loss 0.0398):  30%|██▉       | 5063/16950 [55:27<1:51:24,  1.78it/s]Training 1/3 epoch (loss 0.0279):  30%|██▉       | 5063/16950 [55:28<1:51:24,  1.78it/s]Training 1/3 epoch (loss 0.0279):  30%|██▉       | 5064/16950 [55:28<1:59:15,  1.66it/s]Training 1/3 epoch (loss 0.4213):  30%|██▉       | 5064/16950 [55:28<1:59:15,  1.66it/s]Training 1/3 epoch (loss 0.4213):  30%|██▉       | 5065/16950 [55:28<2:05:59,  1.57it/s]Training 1/3 epoch (loss 0.1280):  30%|██▉       | 5065/16950 [55:29<2:05:59,  1.57it/s]Training 1/3 epoch (loss 0.1280):  30%|██▉       | 5066/16950 [55:29<1:56:20,  1.70it/s]Training 1/3 epoch (loss nan):  30%|██▉       | 5066/16950 [55:30<1:56:20,  1.70it/s]   Training 1/3 epoch (loss nan):  30%|██▉       | 5067/16950 [55:30<2:25:39,  1.36it/s]Training 1/3 epoch (loss 0.0148):  30%|██▉       | 5067/16950 [55:31<2:25:39,  1.36it/s]Training 1/3 epoch (loss 0.0148):  30%|██▉       | 5068/16950 [55:31<2:44:26,  1.20it/s]Training 1/3 epoch (loss 0.3869):  30%|██▉       | 5068/16950 [55:32<2:44:26,  1.20it/s]Training 1/3 epoch (loss 0.3869):  30%|██▉       | 5069/16950 [55:32<2:22:24,  1.39it/s]Training 1/3 epoch (loss 0.0116):  30%|██▉       | 5069/16950 [55:32<2:22:24,  1.39it/s]Training 1/3 epoch (loss 0.0116):  30%|██▉       | 5070/16950 [55:32<2:24:40,  1.37it/s]Training 1/3 epoch (loss 0.4379):  30%|██▉       | 5070/16950 [55:33<2:24:40,  1.37it/s]Training 1/3 epoch (loss 0.4379):  30%|██▉       | 5071/16950 [55:33<2:07:34,  1.55it/s]Training 1/3 epoch (loss 0.5460):  30%|██▉       | 5071/16950 [55:34<2:07:34,  1.55it/s]Training 1/3 epoch (loss 0.5460):  30%|██▉       | 5072/16950 [55:34<2:18:52,  1.43it/s]Training 1/3 epoch (loss 0.0352):  30%|██▉       | 5072/16950 [55:34<2:18:52,  1.43it/s]Training 1/3 epoch (loss 0.0352):  30%|██▉       | 5073/16950 [55:34<2:19:12,  1.42it/s]Training 1/3 epoch (loss 0.6134):  30%|██▉       | 5073/16950 [55:35<2:19:12,  1.42it/s]Training 1/3 epoch (loss 0.6134):  30%|██▉       | 5074/16950 [55:35<2:06:27,  1.57it/s]Training 1/3 epoch (loss 0.5050):  30%|██▉       | 5074/16950 [55:36<2:06:27,  1.57it/s]Training 1/3 epoch (loss 0.5050):  30%|██▉       | 5075/16950 [55:36<2:14:22,  1.47it/s]Training 1/3 epoch (loss 0.1109):  30%|██▉       | 5075/16950 [55:36<2:14:22,  1.47it/s]Training 1/3 epoch (loss 0.1109):  30%|██▉       | 5076/16950 [55:36<2:14:06,  1.48it/s]Training 1/3 epoch (loss 0.0424):  30%|██▉       | 5076/16950 [55:37<2:14:06,  1.48it/s]Training 1/3 epoch (loss 0.0424):  30%|██▉       | 5077/16950 [55:37<2:06:29,  1.56it/s]Training 1/3 epoch (loss 0.1088):  30%|██▉       | 5077/16950 [55:37<2:06:29,  1.56it/s]Training 1/3 epoch (loss 0.1088):  30%|██▉       | 5078/16950 [55:37<2:08:50,  1.54it/s]Training 1/3 epoch (loss 0.0886):  30%|██▉       | 5078/16950 [55:38<2:08:50,  1.54it/s]Training 1/3 epoch (loss 0.0886):  30%|██▉       | 5079/16950 [55:38<2:07:11,  1.56it/s]Training 1/3 epoch (loss 0.0115):  30%|██▉       | 5079/16950 [55:39<2:07:11,  1.56it/s]Training 1/3 epoch (loss 0.0115):  30%|██▉       | 5080/16950 [55:39<2:10:53,  1.51it/s]Training 1/3 epoch (loss 0.0094):  30%|██▉       | 5080/16950 [55:39<2:10:53,  1.51it/s]Training 1/3 epoch (loss 0.0094):  30%|██▉       | 5081/16950 [55:39<2:02:43,  1.61it/s]Training 1/3 epoch (loss 0.0443):  30%|██▉       | 5081/16950 [55:40<2:02:43,  1.61it/s]Training 1/3 epoch (loss 0.0443):  30%|██▉       | 5082/16950 [55:40<2:01:38,  1.63it/s]Training 1/3 epoch (loss nan):  30%|██▉       | 5082/16950 [55:41<2:01:38,  1.63it/s]   Training 1/3 epoch (loss nan):  30%|██▉       | 5083/16950 [55:41<2:30:01,  1.32it/s]Training 1/3 epoch (loss 0.3585):  30%|██▉       | 5083/16950 [55:42<2:30:01,  1.32it/s]Training 1/3 epoch (loss 0.3585):  30%|██▉       | 5084/16950 [55:42<2:20:45,  1.40it/s]Training 1/3 epoch (loss 0.0142):  30%|██▉       | 5084/16950 [55:42<2:20:45,  1.40it/s]Training 1/3 epoch (loss 0.0142):  30%|███       | 5085/16950 [55:42<2:12:20,  1.49it/s]Training 1/3 epoch (loss 0.0309):  30%|███       | 5085/16950 [55:43<2:12:20,  1.49it/s]Training 1/3 epoch (loss 0.0309):  30%|███       | 5086/16950 [55:43<2:10:32,  1.51it/s]Training 1/3 epoch (loss 0.8816):  30%|███       | 5086/16950 [55:43<2:10:32,  1.51it/s]Training 1/3 epoch (loss 0.8816):  30%|███       | 5087/16950 [55:43<1:58:42,  1.67it/s]Training 1/3 epoch (loss 0.0036):  30%|███       | 5087/16950 [55:44<1:58:42,  1.67it/s]Training 1/3 epoch (loss 0.0036):  30%|███       | 5088/16950 [55:44<2:00:39,  1.64it/s]Training 1/3 epoch (loss 0.4673):  30%|███       | 5088/16950 [55:44<2:00:39,  1.64it/s]Training 1/3 epoch (loss 0.4673):  30%|███       | 5089/16950 [55:44<1:55:07,  1.72it/s]Training 1/3 epoch (loss 0.0004):  30%|███       | 5089/16950 [55:45<1:55:07,  1.72it/s]Training 1/3 epoch (loss 0.0004):  30%|███       | 5090/16950 [55:45<1:51:12,  1.78it/s]Training 1/3 epoch (loss 0.6785):  30%|███       | 5090/16950 [55:45<1:51:12,  1.78it/s]Training 1/3 epoch (loss 0.6785):  30%|███       | 5091/16950 [55:45<1:41:07,  1.95it/s]Training 1/3 epoch (loss 0.0191):  30%|███       | 5091/16950 [55:46<1:41:07,  1.95it/s]Training 1/3 epoch (loss 0.0191):  30%|███       | 5092/16950 [55:46<1:32:28,  2.14it/s]Training 1/3 epoch (loss 0.0011):  30%|███       | 5092/16950 [55:46<1:32:28,  2.14it/s]Training 1/3 epoch (loss 0.0011):  30%|███       | 5093/16950 [55:46<1:30:07,  2.19it/s]Training 1/3 epoch (loss 0.0369):  30%|███       | 5093/16950 [55:47<1:30:07,  2.19it/s]Training 1/3 epoch (loss 0.0369):  30%|███       | 5094/16950 [55:47<1:41:22,  1.95it/s]Training 1/3 epoch (loss 1.0030):  30%|███       | 5094/16950 [55:47<1:41:22,  1.95it/s]Training 1/3 epoch (loss 1.0030):  30%|███       | 5095/16950 [55:47<1:39:57,  1.98it/s]Training 1/3 epoch (loss 0.0114):  30%|███       | 5095/16950 [55:48<1:39:57,  1.98it/s]Training 1/3 epoch (loss 0.0114):  30%|███       | 5096/16950 [55:48<1:51:03,  1.78it/s]Training 1/3 epoch (loss 0.0005):  30%|███       | 5096/16950 [55:49<1:51:03,  1.78it/s]Training 1/3 epoch (loss 0.0005):  30%|███       | 5097/16950 [55:49<2:03:25,  1.60it/s]Training 1/3 epoch (loss 0.0466):  30%|███       | 5097/16950 [55:49<2:03:25,  1.60it/s]Training 1/3 epoch (loss 0.0466):  30%|███       | 5098/16950 [55:49<1:56:21,  1.70it/s]Training 1/3 epoch (loss 0.0332):  30%|███       | 5098/16950 [55:50<1:56:21,  1.70it/s]Training 1/3 epoch (loss 0.0332):  30%|███       | 5099/16950 [55:50<2:13:36,  1.48it/s]Training 1/3 epoch (loss 0.2723):  30%|███       | 5099/16950 [55:51<2:13:36,  1.48it/s]Training 1/3 epoch (loss 0.2723):  30%|███       | 5100/16950 [55:51<2:35:31,  1.27it/s]Training 1/3 epoch (loss 0.0230):  30%|███       | 5100/16950 [55:52<2:35:31,  1.27it/s]Training 1/3 epoch (loss 0.0230):  30%|███       | 5101/16950 [55:52<2:18:48,  1.42it/s]Training 1/3 epoch (loss 0.0004):  30%|███       | 5101/16950 [55:52<2:18:48,  1.42it/s]Training 1/3 epoch (loss 0.0004):  30%|███       | 5102/16950 [55:52<2:01:24,  1.63it/s]Training 1/3 epoch (loss 0.1007):  30%|███       | 5102/16950 [55:53<2:01:24,  1.63it/s]Training 1/3 epoch (loss 0.1007):  30%|███       | 5103/16950 [55:53<1:53:39,  1.74it/s]Training 1/3 epoch (loss 0.0153):  30%|███       | 5103/16950 [55:53<1:53:39,  1.74it/s]Training 1/3 epoch (loss 0.0153):  30%|███       | 5104/16950 [55:53<1:57:09,  1.69it/s]Training 1/3 epoch (loss 0.0467):  30%|███       | 5104/16950 [55:54<1:57:09,  1.69it/s]Training 1/3 epoch (loss 0.0467):  30%|███       | 5105/16950 [55:54<2:08:38,  1.53it/s]Training 1/3 epoch (loss 0.1394):  30%|███       | 5105/16950 [55:55<2:08:38,  1.53it/s]Training 1/3 epoch (loss 0.1394):  30%|███       | 5106/16950 [55:55<2:05:28,  1.57it/s]Training 1/3 epoch (loss 0.0004):  30%|███       | 5106/16950 [55:55<2:05:28,  1.57it/s]Training 1/3 epoch (loss 0.0004):  30%|███       | 5107/16950 [55:55<1:56:44,  1.69it/s]Training 1/3 epoch (loss 0.4566):  30%|███       | 5107/16950 [55:56<1:56:44,  1.69it/s]Training 1/3 epoch (loss 0.4566):  30%|███       | 5108/16950 [55:56<1:57:48,  1.68it/s]Training 1/3 epoch (loss 0.0623):  30%|███       | 5108/16950 [55:57<1:57:48,  1.68it/s]Training 1/3 epoch (loss 0.0623):  30%|███       | 5109/16950 [55:57<2:29:46,  1.32it/s]Training 1/3 epoch (loss 0.0165):  30%|███       | 5109/16950 [55:58<2:29:46,  1.32it/s]Training 1/3 epoch (loss 0.0165):  30%|███       | 5110/16950 [55:58<2:24:53,  1.36it/s]Training 1/3 epoch (loss 0.0617):  30%|███       | 5110/16950 [55:58<2:24:53,  1.36it/s]Training 1/3 epoch (loss 0.0617):  30%|███       | 5111/16950 [55:58<2:33:02,  1.29it/s]Training 1/3 epoch (loss 0.1049):  30%|███       | 5111/16950 [55:59<2:33:02,  1.29it/s]Training 1/3 epoch (loss 0.1049):  30%|███       | 5112/16950 [55:59<2:30:40,  1.31it/s]Training 1/3 epoch (loss 0.1523):  30%|███       | 5112/16950 [56:00<2:30:40,  1.31it/s]Training 1/3 epoch (loss 0.1523):  30%|███       | 5113/16950 [56:00<2:18:21,  1.43it/s]Training 1/3 epoch (loss 0.0930):  30%|███       | 5113/16950 [56:00<2:18:21,  1.43it/s]Training 1/3 epoch (loss 0.0930):  30%|███       | 5114/16950 [56:00<2:06:33,  1.56it/s]Training 1/3 epoch (loss 0.0167):  30%|███       | 5114/16950 [56:01<2:06:33,  1.56it/s]Training 1/3 epoch (loss 0.0167):  30%|███       | 5115/16950 [56:01<2:06:46,  1.56it/s]Training 1/3 epoch (loss 0.0102):  30%|███       | 5115/16950 [56:02<2:06:46,  1.56it/s]Training 1/3 epoch (loss 0.0102):  30%|███       | 5116/16950 [56:02<2:21:03,  1.40it/s]Training 1/3 epoch (loss 0.0896):  30%|███       | 5116/16950 [56:02<2:21:03,  1.40it/s]Training 1/3 epoch (loss 0.0896):  30%|███       | 5117/16950 [56:02<2:16:56,  1.44it/s]Training 1/3 epoch (loss 0.0136):  30%|███       | 5117/16950 [56:03<2:16:56,  1.44it/s]Training 1/3 epoch (loss 0.0136):  30%|███       | 5118/16950 [56:03<2:10:06,  1.52it/s]Training 1/3 epoch (loss 0.0928):  30%|███       | 5118/16950 [56:04<2:10:06,  1.52it/s]Training 1/3 epoch (loss 0.0928):  30%|███       | 5119/16950 [56:04<2:07:24,  1.55it/s]Training 1/3 epoch (loss 0.7695):  30%|███       | 5119/16950 [56:05<2:07:24,  1.55it/s]Training 1/3 epoch (loss 0.7695):  30%|███       | 5120/16950 [56:05<2:30:54,  1.31it/s]Training 1/3 epoch (loss 0.0002):  30%|███       | 5120/16950 [56:05<2:30:54,  1.31it/s]Training 1/3 epoch (loss 0.0002):  30%|███       | 5121/16950 [56:05<2:16:11,  1.45it/s]Training 1/3 epoch (loss 0.0830):  30%|███       | 5121/16950 [56:06<2:16:11,  1.45it/s]Training 1/3 epoch (loss 0.0830):  30%|███       | 5122/16950 [56:06<2:13:20,  1.48it/s]Training 1/3 epoch (loss 0.3444):  30%|███       | 5122/16950 [56:06<2:13:20,  1.48it/s]Training 1/3 epoch (loss 0.3444):  30%|███       | 5123/16950 [56:06<2:17:57,  1.43it/s]Training 1/3 epoch (loss 0.6841):  30%|███       | 5123/16950 [56:07<2:17:57,  1.43it/s]Training 1/3 epoch (loss 0.6841):  30%|███       | 5124/16950 [56:07<2:03:48,  1.59it/s]Training 1/3 epoch (loss 0.0108):  30%|███       | 5124/16950 [56:08<2:03:48,  1.59it/s]Training 1/3 epoch (loss 0.0108):  30%|███       | 5125/16950 [56:08<2:05:40,  1.57it/s]Training 1/3 epoch (loss 0.0238):  30%|███       | 5125/16950 [56:08<2:05:40,  1.57it/s]Training 1/3 epoch (loss 0.0238):  30%|███       | 5126/16950 [56:08<1:57:17,  1.68it/s]Training 1/3 epoch (loss 0.8565):  30%|███       | 5126/16950 [56:09<1:57:17,  1.68it/s]Training 1/3 epoch (loss 0.8565):  30%|███       | 5127/16950 [56:09<1:47:01,  1.84it/s]Training 1/3 epoch (loss 0.0005):  30%|███       | 5127/16950 [56:09<1:47:01,  1.84it/s]Training 1/3 epoch (loss 0.0005):  30%|███       | 5128/16950 [56:09<1:41:50,  1.93it/s]Training 1/3 epoch (loss 0.1485):  30%|███       | 5128/16950 [56:10<1:41:50,  1.93it/s]Training 1/3 epoch (loss 0.1485):  30%|███       | 5129/16950 [56:10<1:42:12,  1.93it/s]Training 1/3 epoch (loss 0.0043):  30%|███       | 5129/16950 [56:10<1:42:12,  1.93it/s]Training 1/3 epoch (loss 0.0043):  30%|███       | 5130/16950 [56:10<1:41:26,  1.94it/s]Training 1/3 epoch (loss 0.0003):  30%|███       | 5130/16950 [56:10<1:41:26,  1.94it/s]Training 1/3 epoch (loss 0.0003):  30%|███       | 5131/16950 [56:10<1:37:54,  2.01it/s]Training 1/3 epoch (loss 0.0141):  30%|███       | 5131/16950 [56:11<1:37:54,  2.01it/s]Training 1/3 epoch (loss 0.0141):  30%|███       | 5132/16950 [56:11<1:41:23,  1.94it/s]Training 1/3 epoch (loss 0.1586):  30%|███       | 5132/16950 [56:12<1:41:23,  1.94it/s]Training 1/3 epoch (loss 0.1586):  30%|███       | 5133/16950 [56:12<2:14:41,  1.46it/s]Training 1/3 epoch (loss 0.0669):  30%|███       | 5133/16950 [56:13<2:14:41,  1.46it/s]Training 1/3 epoch (loss 0.0669):  30%|███       | 5134/16950 [56:13<2:15:57,  1.45it/s]Training 1/3 epoch (loss 0.4669):  30%|███       | 5134/16950 [56:13<2:15:57,  1.45it/s]Training 1/3 epoch (loss 0.4669):  30%|███       | 5135/16950 [56:13<2:04:49,  1.58it/s]Training 1/3 epoch (loss 0.2928):  30%|███       | 5135/16950 [56:14<2:04:49,  1.58it/s]Training 1/3 epoch (loss 0.2928):  30%|███       | 5136/16950 [56:14<1:53:31,  1.73it/s]Training 1/3 epoch (loss 0.0191):  30%|███       | 5136/16950 [56:14<1:53:31,  1.73it/s]Training 1/3 epoch (loss 0.0191):  30%|███       | 5137/16950 [56:14<1:43:04,  1.91it/s]Training 1/3 epoch (loss 0.2910):  30%|███       | 5137/16950 [56:15<1:43:04,  1.91it/s]Training 1/3 epoch (loss 0.2910):  30%|███       | 5138/16950 [56:15<1:52:59,  1.74it/s]Training 1/3 epoch (loss 0.3352):  30%|███       | 5138/16950 [56:16<1:52:59,  1.74it/s]Training 1/3 epoch (loss 0.3352):  30%|███       | 5139/16950 [56:16<1:59:25,  1.65it/s]Training 1/3 epoch (loss 0.4126):  30%|███       | 5139/16950 [56:16<1:59:25,  1.65it/s]Training 1/3 epoch (loss 0.4126):  30%|███       | 5140/16950 [56:16<2:04:03,  1.59it/s]Training 1/3 epoch (loss 0.3479):  30%|███       | 5140/16950 [56:17<2:04:03,  1.59it/s]Training 1/3 epoch (loss 0.3479):  30%|███       | 5141/16950 [56:17<2:20:37,  1.40it/s]Training 1/3 epoch (loss 0.1100):  30%|███       | 5141/16950 [56:18<2:20:37,  1.40it/s]Training 1/3 epoch (loss 0.1100):  30%|███       | 5142/16950 [56:18<2:16:24,  1.44it/s]Training 1/3 epoch (loss 0.0007):  30%|███       | 5142/16950 [56:18<2:16:24,  1.44it/s]Training 1/3 epoch (loss 0.0007):  30%|███       | 5143/16950 [56:18<1:53:27,  1.73it/s]Training 1/3 epoch (loss 0.0114):  30%|███       | 5143/16950 [56:19<1:53:27,  1.73it/s]Training 1/3 epoch (loss 0.0114):  30%|███       | 5144/16950 [56:19<1:44:57,  1.87it/s]Training 1/3 epoch (loss 0.0120):  30%|███       | 5144/16950 [56:19<1:44:57,  1.87it/s]Training 1/3 epoch (loss 0.0120):  30%|███       | 5145/16950 [56:19<1:51:38,  1.76it/s]Training 1/3 epoch (loss 0.1765):  30%|███       | 5145/16950 [56:20<1:51:38,  1.76it/s]Training 1/3 epoch (loss 0.1765):  30%|███       | 5146/16950 [56:20<1:51:10,  1.77it/s]Training 1/3 epoch (loss 0.0264):  30%|███       | 5146/16950 [56:20<1:51:10,  1.77it/s]Training 1/3 epoch (loss 0.0264):  30%|███       | 5147/16950 [56:20<1:48:33,  1.81it/s]Training 1/3 epoch (loss 0.0768):  30%|███       | 5147/16950 [56:21<1:48:33,  1.81it/s]Training 1/3 epoch (loss 0.0768):  30%|███       | 5148/16950 [56:21<1:34:12,  2.09it/s]Training 1/3 epoch (loss 0.7070):  30%|███       | 5148/16950 [56:21<1:34:12,  2.09it/s]Training 1/3 epoch (loss 0.7070):  30%|███       | 5149/16950 [56:21<1:26:10,  2.28it/s]Training 1/3 epoch (loss 0.0387):  30%|███       | 5149/16950 [56:21<1:26:10,  2.28it/s]Training 1/3 epoch (loss 0.0387):  30%|███       | 5150/16950 [56:21<1:25:06,  2.31it/s]Training 1/3 epoch (loss 0.0073):  30%|███       | 5150/16950 [56:22<1:25:06,  2.31it/s]Training 1/3 epoch (loss 0.0073):  30%|███       | 5151/16950 [56:22<1:28:32,  2.22it/s]Training 1/3 epoch (loss 0.0391):  30%|███       | 5151/16950 [56:22<1:28:32,  2.22it/s]Training 1/3 epoch (loss 0.0391):  30%|███       | 5152/16950 [56:22<1:40:44,  1.95it/s]Training 1/3 epoch (loss 0.0147):  30%|███       | 5152/16950 [56:24<1:40:44,  1.95it/s]Training 1/3 epoch (loss 0.0147):  30%|███       | 5153/16950 [56:24<2:15:19,  1.45it/s]Training 1/3 epoch (loss 0.1069):  30%|███       | 5153/16950 [56:24<2:15:19,  1.45it/s]Training 1/3 epoch (loss 0.1069):  30%|███       | 5154/16950 [56:24<2:10:57,  1.50it/s]Training 1/3 epoch (loss 0.0222):  30%|███       | 5154/16950 [56:25<2:10:57,  1.50it/s]Training 1/3 epoch (loss 0.0222):  30%|███       | 5155/16950 [56:25<1:55:47,  1.70it/s]Training 1/3 epoch (loss 0.4651):  30%|███       | 5155/16950 [56:25<1:55:47,  1.70it/s]Training 1/3 epoch (loss 0.4651):  30%|███       | 5156/16950 [56:25<1:47:44,  1.82it/s]Training 1/3 epoch (loss 0.0603):  30%|███       | 5156/16950 [56:26<1:47:44,  1.82it/s]Training 1/3 epoch (loss 0.0603):  30%|███       | 5157/16950 [56:26<1:49:26,  1.80it/s]Training 1/3 epoch (loss 0.0008):  30%|███       | 5157/16950 [56:26<1:49:26,  1.80it/s]Training 1/3 epoch (loss 0.0008):  30%|███       | 5158/16950 [56:26<1:55:27,  1.70it/s]Training 1/3 epoch (loss 0.5678):  30%|███       | 5158/16950 [56:27<1:55:27,  1.70it/s]Training 1/3 epoch (loss 0.5678):  30%|███       | 5159/16950 [56:27<2:11:52,  1.49it/s]Training 1/3 epoch (loss 0.5291):  30%|███       | 5159/16950 [56:28<2:11:52,  1.49it/s]Training 1/3 epoch (loss 0.5291):  30%|███       | 5160/16950 [56:28<2:08:13,  1.53it/s]Training 1/3 epoch (loss 0.0289):  30%|███       | 5160/16950 [56:28<2:08:13,  1.53it/s]Training 1/3 epoch (loss 0.0289):  30%|███       | 5161/16950 [56:28<2:04:10,  1.58it/s]Training 1/3 epoch (loss 0.5407):  30%|███       | 5161/16950 [56:29<2:04:10,  1.58it/s]Training 1/3 epoch (loss 0.5407):  30%|███       | 5162/16950 [56:29<1:58:24,  1.66it/s]Training 1/3 epoch (loss 0.0574):  30%|███       | 5162/16950 [56:30<1:58:24,  1.66it/s]Training 1/3 epoch (loss 0.0574):  30%|███       | 5163/16950 [56:30<2:31:43,  1.29it/s]Training 1/3 epoch (loss 0.0013):  30%|███       | 5163/16950 [56:31<2:31:43,  1.29it/s]Training 1/3 epoch (loss 0.0013):  30%|███       | 5164/16950 [56:31<2:29:36,  1.31it/s]Training 1/3 epoch (loss 0.1852):  30%|███       | 5164/16950 [56:31<2:29:36,  1.31it/s]Training 1/3 epoch (loss 0.1852):  30%|███       | 5165/16950 [56:31<2:19:10,  1.41it/s]Training 1/3 epoch (loss 0.0071):  30%|███       | 5165/16950 [56:32<2:19:10,  1.41it/s]Training 1/3 epoch (loss 0.0071):  30%|███       | 5166/16950 [56:32<2:05:18,  1.57it/s]Training 1/3 epoch (loss 1.0617):  30%|███       | 5166/16950 [56:32<2:05:18,  1.57it/s]Training 1/3 epoch (loss 1.0617):  30%|███       | 5167/16950 [56:32<2:02:44,  1.60it/s]Training 1/3 epoch (loss 0.0261):  30%|███       | 5167/16950 [56:33<2:02:44,  1.60it/s]Training 1/3 epoch (loss 0.0261):  30%|███       | 5168/16950 [56:33<2:06:22,  1.55it/s]Training 1/3 epoch (loss 0.0043):  30%|███       | 5168/16950 [56:34<2:06:22,  1.55it/s]Training 1/3 epoch (loss 0.0043):  30%|███       | 5169/16950 [56:34<2:04:43,  1.57it/s]Training 1/3 epoch (loss 0.1720):  30%|███       | 5169/16950 [56:34<2:04:43,  1.57it/s]Training 1/3 epoch (loss 0.1720):  31%|███       | 5170/16950 [56:34<2:01:47,  1.61it/s]Training 1/3 epoch (loss 0.0021):  31%|███       | 5170/16950 [56:35<2:01:47,  1.61it/s]Training 1/3 epoch (loss 0.0021):  31%|███       | 5171/16950 [56:35<1:55:34,  1.70it/s]Training 1/3 epoch (loss 0.4957):  31%|███       | 5171/16950 [56:35<1:55:34,  1.70it/s]Training 1/3 epoch (loss 0.4957):  31%|███       | 5172/16950 [56:35<2:00:03,  1.63it/s]Training 1/3 epoch (loss 0.1270):  31%|███       | 5172/16950 [56:36<2:00:03,  1.63it/s]Training 1/3 epoch (loss 0.1270):  31%|███       | 5173/16950 [56:36<1:57:32,  1.67it/s]Training 1/3 epoch (loss 0.3621):  31%|███       | 5173/16950 [56:37<1:57:32,  1.67it/s]Training 1/3 epoch (loss 0.3621):  31%|███       | 5174/16950 [56:37<1:51:38,  1.76it/s]Training 1/3 epoch (loss 0.0633):  31%|███       | 5174/16950 [56:37<1:51:38,  1.76it/s]Training 1/3 epoch (loss 0.0633):  31%|███       | 5175/16950 [56:37<1:50:35,  1.77it/s]Training 1/3 epoch (loss 0.4192):  31%|███       | 5175/16950 [56:37<1:50:35,  1.77it/s]Training 1/3 epoch (loss 0.4192):  31%|███       | 5176/16950 [56:37<1:39:39,  1.97it/s]Training 1/3 epoch (loss 0.0041):  31%|███       | 5176/16950 [56:38<1:39:39,  1.97it/s]Training 1/3 epoch (loss 0.0041):  31%|███       | 5177/16950 [56:38<1:32:59,  2.11it/s]Training 1/3 epoch (loss 0.2546):  31%|███       | 5177/16950 [56:38<1:32:59,  2.11it/s]Training 1/3 epoch (loss 0.2546):  31%|███       | 5178/16950 [56:38<1:31:13,  2.15it/s]Training 1/3 epoch (loss 0.6787):  31%|███       | 5178/16950 [56:39<1:31:13,  2.15it/s]Training 1/3 epoch (loss 0.6787):  31%|███       | 5179/16950 [56:39<1:45:41,  1.86it/s]Training 1/3 epoch (loss 0.0708):  31%|███       | 5179/16950 [56:40<1:45:41,  1.86it/s]Training 1/3 epoch (loss 0.0708):  31%|███       | 5180/16950 [56:40<1:49:40,  1.79it/s]Training 1/3 epoch (loss 0.0228):  31%|███       | 5180/16950 [56:40<1:49:40,  1.79it/s]Training 1/3 epoch (loss 0.0228):  31%|███       | 5181/16950 [56:40<1:48:25,  1.81it/s]Training 1/3 epoch (loss 0.0151):  31%|███       | 5181/16950 [56:41<1:48:25,  1.81it/s]Training 1/3 epoch (loss 0.0151):  31%|███       | 5182/16950 [56:41<1:39:56,  1.96it/s]Training 1/3 epoch (loss 0.4527):  31%|███       | 5182/16950 [56:41<1:39:56,  1.96it/s]Training 1/3 epoch (loss 0.4527):  31%|███       | 5183/16950 [56:41<1:37:46,  2.01it/s]Training 1/3 epoch (loss 0.6401):  31%|███       | 5183/16950 [56:42<1:37:46,  2.01it/s]Training 1/3 epoch (loss 0.6401):  31%|███       | 5184/16950 [56:42<1:51:46,  1.75it/s]Training 1/3 epoch (loss 0.0001):  31%|███       | 5184/16950 [56:42<1:51:46,  1.75it/s]Training 1/3 epoch (loss 0.0001):  31%|███       | 5185/16950 [56:42<1:54:13,  1.72it/s]Training 1/3 epoch (loss 0.0818):  31%|███       | 5185/16950 [56:43<1:54:13,  1.72it/s]Training 1/3 epoch (loss 0.0818):  31%|███       | 5186/16950 [56:43<1:52:45,  1.74it/s]Training 1/3 epoch (loss 0.3410):  31%|███       | 5186/16950 [56:44<1:52:45,  1.74it/s]Training 1/3 epoch (loss 0.3410):  31%|███       | 5187/16950 [56:44<1:56:09,  1.69it/s]Training 1/3 epoch (loss 0.1002):  31%|███       | 5187/16950 [56:44<1:56:09,  1.69it/s]Training 1/3 epoch (loss 0.1002):  31%|███       | 5188/16950 [56:44<1:55:27,  1.70it/s]Training 1/3 epoch (loss 0.3673):  31%|███       | 5188/16950 [56:45<1:55:27,  1.70it/s]Training 1/3 epoch (loss 0.3673):  31%|███       | 5189/16950 [56:45<2:01:35,  1.61it/s]Training 1/3 epoch (loss 0.0114):  31%|███       | 5189/16950 [56:45<2:01:35,  1.61it/s]Training 1/3 epoch (loss 0.0114):  31%|███       | 5190/16950 [56:45<1:54:29,  1.71it/s]Training 1/3 epoch (loss 0.0024):  31%|███       | 5190/16950 [56:46<1:54:29,  1.71it/s]Training 1/3 epoch (loss 0.0024):  31%|███       | 5191/16950 [56:46<1:57:46,  1.66it/s]Training 1/3 epoch (loss 0.0108):  31%|███       | 5191/16950 [56:46<1:57:46,  1.66it/s]Training 1/3 epoch (loss 0.0108):  31%|███       | 5192/16950 [56:46<1:49:31,  1.79it/s]Training 1/3 epoch (loss 0.2621):  31%|███       | 5192/16950 [56:47<1:49:31,  1.79it/s]Training 1/3 epoch (loss 0.2621):  31%|███       | 5193/16950 [56:47<1:44:11,  1.88it/s]Training 1/3 epoch (loss 0.0197):  31%|███       | 5193/16950 [56:47<1:44:11,  1.88it/s]Training 1/3 epoch (loss 0.0197):  31%|███       | 5194/16950 [56:47<1:38:46,  1.98it/s]Training 1/3 epoch (loss 0.1839):  31%|███       | 5194/16950 [56:48<1:38:46,  1.98it/s]Training 1/3 epoch (loss 0.1839):  31%|███       | 5195/16950 [56:48<1:40:40,  1.95it/s]Training 1/3 epoch (loss 0.0932):  31%|███       | 5195/16950 [56:49<1:40:40,  1.95it/s]Training 1/3 epoch (loss 0.0932):  31%|███       | 5196/16950 [56:49<1:51:12,  1.76it/s]Training 1/3 epoch (loss 0.0067):  31%|███       | 5196/16950 [56:49<1:51:12,  1.76it/s]Training 1/3 epoch (loss 0.0067):  31%|███       | 5197/16950 [56:49<1:46:12,  1.84it/s]Training 1/3 epoch (loss 0.4897):  31%|███       | 5197/16950 [56:50<1:46:12,  1.84it/s]Training 1/3 epoch (loss 0.4897):  31%|███       | 5198/16950 [56:50<1:38:29,  1.99it/s]Training 1/3 epoch (loss 0.0070):  31%|███       | 5198/16950 [56:50<1:38:29,  1.99it/s]Training 1/3 epoch (loss 0.0070):  31%|███       | 5199/16950 [56:50<1:40:23,  1.95it/s]Training 1/3 epoch (loss 0.1638):  31%|███       | 5199/16950 [56:51<1:40:23,  1.95it/s]Training 1/3 epoch (loss 0.1638):  31%|███       | 5200/16950 [56:51<1:50:30,  1.77it/s]Training 1/3 epoch (loss 0.0317):  31%|███       | 5200/16950 [56:51<1:50:30,  1.77it/s]Training 1/3 epoch (loss 0.0317):  31%|███       | 5201/16950 [56:51<1:51:31,  1.76it/s]Training 1/3 epoch (loss 0.2891):  31%|███       | 5201/16950 [56:52<1:51:31,  1.76it/s]Training 1/3 epoch (loss 0.2891):  31%|███       | 5202/16950 [56:52<2:02:00,  1.60it/s]Training 1/3 epoch (loss 0.5364):  31%|███       | 5202/16950 [56:53<2:02:00,  1.60it/s]Training 1/3 epoch (loss 0.5364):  31%|███       | 5203/16950 [56:53<2:10:07,  1.50it/s]Training 1/3 epoch (loss 0.1627):  31%|███       | 5203/16950 [56:53<2:10:07,  1.50it/s]Training 1/3 epoch (loss 0.1627):  31%|███       | 5204/16950 [56:53<2:07:07,  1.54it/s]Training 1/3 epoch (loss 0.0054):  31%|███       | 5204/16950 [56:54<2:07:07,  1.54it/s]Training 1/3 epoch (loss 0.0054):  31%|███       | 5205/16950 [56:54<1:54:12,  1.71it/s]Training 1/3 epoch (loss 0.0109):  31%|███       | 5205/16950 [56:54<1:54:12,  1.71it/s]Training 1/3 epoch (loss 0.0109):  31%|███       | 5206/16950 [56:54<1:51:27,  1.76it/s]Training 1/3 epoch (loss 0.4986):  31%|███       | 5206/16950 [56:55<1:51:27,  1.76it/s]Training 1/3 epoch (loss 0.4986):  31%|███       | 5207/16950 [56:55<2:11:21,  1.49it/s]Training 1/3 epoch (loss 0.3272):  31%|███       | 5207/16950 [56:56<2:11:21,  1.49it/s]Training 1/3 epoch (loss 0.3272):  31%|███       | 5208/16950 [56:56<1:57:42,  1.66it/s]Training 1/3 epoch (loss 0.4456):  31%|███       | 5208/16950 [56:56<1:57:42,  1.66it/s]Training 1/3 epoch (loss 0.4456):  31%|███       | 5209/16950 [56:56<1:46:48,  1.83it/s]Training 1/3 epoch (loss 0.0328):  31%|███       | 5209/16950 [56:57<1:46:48,  1.83it/s]Training 1/3 epoch (loss 0.0328):  31%|███       | 5210/16950 [56:57<1:39:37,  1.96it/s]Training 1/3 epoch (loss 0.0117):  31%|███       | 5210/16950 [56:57<1:39:37,  1.96it/s]Training 1/3 epoch (loss 0.0117):  31%|███       | 5211/16950 [56:57<1:38:09,  1.99it/s]Training 1/3 epoch (loss 0.0306):  31%|███       | 5211/16950 [56:58<1:38:09,  1.99it/s]Training 1/3 epoch (loss 0.0306):  31%|███       | 5212/16950 [56:58<1:51:22,  1.76it/s]Training 1/3 epoch (loss 0.5150):  31%|███       | 5212/16950 [56:59<1:51:22,  1.76it/s]Training 1/3 epoch (loss 0.5150):  31%|███       | 5213/16950 [56:59<2:13:02,  1.47it/s]Training 1/3 epoch (loss 0.0212):  31%|███       | 5213/16950 [56:59<2:13:02,  1.47it/s]Training 1/3 epoch (loss 0.0212):  31%|███       | 5214/16950 [56:59<2:03:21,  1.59it/s]Training 1/3 epoch (loss 0.0096):  31%|███       | 5214/16950 [57:00<2:03:21,  1.59it/s]Training 1/3 epoch (loss 0.0096):  31%|███       | 5215/16950 [57:00<2:03:34,  1.58it/s]Training 1/3 epoch (loss 0.6480):  31%|███       | 5215/16950 [57:01<2:03:34,  1.58it/s]Training 1/3 epoch (loss 0.6480):  31%|███       | 5216/16950 [57:01<2:09:24,  1.51it/s]Training 1/3 epoch (loss 0.4078):  31%|███       | 5216/16950 [57:01<2:09:24,  1.51it/s]Training 1/3 epoch (loss 0.4078):  31%|███       | 5217/16950 [57:01<1:59:31,  1.64it/s]Training 1/3 epoch (loss 0.5096):  31%|███       | 5217/16950 [57:02<1:59:31,  1.64it/s]Training 1/3 epoch (loss 0.5096):  31%|███       | 5218/16950 [57:02<2:20:36,  1.39it/s]Training 1/3 epoch (loss 0.1925):  31%|███       | 5218/16950 [57:03<2:20:36,  1.39it/s]Training 1/3 epoch (loss 0.1925):  31%|███       | 5219/16950 [57:03<2:33:05,  1.28it/s]Training 1/3 epoch (loss 0.0182):  31%|███       | 5219/16950 [57:04<2:33:05,  1.28it/s]Training 1/3 epoch (loss 0.0182):  31%|███       | 5220/16950 [57:04<2:21:36,  1.38it/s]Training 1/3 epoch (loss 0.0672):  31%|███       | 5220/16950 [57:04<2:21:36,  1.38it/s]Training 1/3 epoch (loss 0.0672):  31%|███       | 5221/16950 [57:04<2:15:50,  1.44it/s]Training 1/3 epoch (loss 0.9341):  31%|███       | 5221/16950 [57:05<2:15:50,  1.44it/s]Training 1/3 epoch (loss 0.9341):  31%|███       | 5222/16950 [57:05<2:01:51,  1.60it/s]Training 1/3 epoch (loss 0.5064):  31%|███       | 5222/16950 [57:06<2:01:51,  1.60it/s]Training 1/3 epoch (loss 0.5064):  31%|███       | 5223/16950 [57:06<2:13:49,  1.46it/s]Training 1/3 epoch (loss 0.2730):  31%|███       | 5223/16950 [57:07<2:13:49,  1.46it/s]Training 1/3 epoch (loss 0.2730):  31%|███       | 5224/16950 [57:07<2:41:50,  1.21it/s]Training 1/3 epoch (loss 0.7589):  31%|███       | 5224/16950 [57:07<2:41:50,  1.21it/s]Training 1/3 epoch (loss 0.7589):  31%|███       | 5225/16950 [57:07<2:19:35,  1.40it/s]Training 1/3 epoch (loss 0.0341):  31%|███       | 5225/16950 [57:07<2:19:35,  1.40it/s]Training 1/3 epoch (loss 0.0341):  31%|███       | 5226/16950 [57:07<1:57:31,  1.66it/s]Training 1/3 epoch (loss 0.1403):  31%|███       | 5226/16950 [57:08<1:57:31,  1.66it/s]Training 1/3 epoch (loss 0.1403):  31%|███       | 5227/16950 [57:08<1:51:40,  1.75it/s]Training 1/3 epoch (loss 0.2986):  31%|███       | 5227/16950 [57:09<1:51:40,  1.75it/s]Training 1/3 epoch (loss 0.2986):  31%|███       | 5228/16950 [57:09<1:52:12,  1.74it/s]Training 1/3 epoch (loss 0.2731):  31%|███       | 5228/16950 [57:09<1:52:12,  1.74it/s]Training 1/3 epoch (loss 0.2731):  31%|███       | 5229/16950 [57:09<1:46:28,  1.83it/s]Training 1/3 epoch (loss 0.0453):  31%|███       | 5229/16950 [57:10<1:46:28,  1.83it/s]Training 1/3 epoch (loss 0.0453):  31%|███       | 5230/16950 [57:10<1:43:08,  1.89it/s]Training 1/3 epoch (loss 0.0716):  31%|███       | 5230/16950 [57:10<1:43:08,  1.89it/s]Training 1/3 epoch (loss 0.0716):  31%|███       | 5231/16950 [57:10<1:41:13,  1.93it/s]Training 1/3 epoch (loss 0.0049):  31%|███       | 5231/16950 [57:11<1:41:13,  1.93it/s]Training 1/3 epoch (loss 0.0049):  31%|███       | 5232/16950 [57:11<1:44:07,  1.88it/s]Training 1/3 epoch (loss 0.0162):  31%|███       | 5232/16950 [57:11<1:44:07,  1.88it/s]Training 1/3 epoch (loss 0.0162):  31%|███       | 5233/16950 [57:11<1:49:07,  1.79it/s]Training 1/3 epoch (loss 0.2989):  31%|███       | 5233/16950 [57:12<1:49:07,  1.79it/s]Training 1/3 epoch (loss 0.2989):  31%|███       | 5234/16950 [57:12<1:37:30,  2.00it/s]Training 1/3 epoch (loss 0.1972):  31%|███       | 5234/16950 [57:12<1:37:30,  2.00it/s]Training 1/3 epoch (loss 0.1972):  31%|███       | 5235/16950 [57:12<1:28:59,  2.19it/s]Training 1/3 epoch (loss 0.3764):  31%|███       | 5235/16950 [57:13<1:28:59,  2.19it/s]Training 1/3 epoch (loss 0.3764):  31%|███       | 5236/16950 [57:13<1:58:47,  1.64it/s]Training 1/3 epoch (loss 0.0536):  31%|███       | 5236/16950 [57:14<1:58:47,  1.64it/s]Training 1/3 epoch (loss 0.0536):  31%|███       | 5237/16950 [57:14<2:01:37,  1.61it/s]Training 1/3 epoch (loss 0.0080):  31%|███       | 5237/16950 [57:14<2:01:37,  1.61it/s]Training 1/3 epoch (loss 0.0080):  31%|███       | 5238/16950 [57:14<2:03:37,  1.58it/s]Training 1/3 epoch (loss 0.0135):  31%|███       | 5238/16950 [57:15<2:03:37,  1.58it/s]Training 1/3 epoch (loss 0.0135):  31%|███       | 5239/16950 [57:15<2:01:34,  1.61it/s]Training 1/3 epoch (loss 0.0573):  31%|███       | 5239/16950 [57:15<2:01:34,  1.61it/s]Training 1/3 epoch (loss 0.0573):  31%|███       | 5240/16950 [57:15<2:02:28,  1.59it/s]Training 1/3 epoch (loss 0.7187):  31%|███       | 5240/16950 [57:16<2:02:28,  1.59it/s]Training 1/3 epoch (loss 0.7187):  31%|███       | 5241/16950 [57:16<1:55:06,  1.70it/s]Training 1/3 epoch (loss 0.0399):  31%|███       | 5241/16950 [57:17<1:55:06,  1.70it/s]Training 1/3 epoch (loss 0.0399):  31%|███       | 5242/16950 [57:17<2:08:27,  1.52it/s]Training 1/3 epoch (loss 0.0191):  31%|███       | 5242/16950 [57:17<2:08:27,  1.52it/s]Training 1/3 epoch (loss 0.0191):  31%|███       | 5243/16950 [57:17<2:12:07,  1.48it/s]Training 1/3 epoch (loss 0.0295):  31%|███       | 5243/16950 [57:18<2:12:07,  1.48it/s]Training 1/3 epoch (loss 0.0295):  31%|███       | 5244/16950 [57:18<2:02:07,  1.60it/s]Training 1/3 epoch (loss 0.1500):  31%|███       | 5244/16950 [57:19<2:02:07,  1.60it/s]Training 1/3 epoch (loss 0.1500):  31%|███       | 5245/16950 [57:19<2:01:58,  1.60it/s]Training 1/3 epoch (loss 0.0136):  31%|███       | 5245/16950 [57:20<2:01:58,  1.60it/s]Training 1/3 epoch (loss 0.0136):  31%|███       | 5246/16950 [57:20<2:23:27,  1.36it/s]Training 1/3 epoch (loss 0.3798):  31%|███       | 5246/16950 [57:20<2:23:27,  1.36it/s]Training 1/3 epoch (loss 0.3798):  31%|███       | 5247/16950 [57:20<2:14:11,  1.45it/s]Training 1/3 epoch (loss 0.0339):  31%|███       | 5247/16950 [57:21<2:14:11,  1.45it/s]Training 1/3 epoch (loss 0.0339):  31%|███       | 5248/16950 [57:21<2:10:34,  1.49it/s]Training 1/3 epoch (loss 0.6867):  31%|███       | 5248/16950 [57:21<2:10:34,  1.49it/s]Training 1/3 epoch (loss 0.6867):  31%|███       | 5249/16950 [57:21<2:01:45,  1.60it/s]Training 1/3 epoch (loss 0.0499):  31%|███       | 5249/16950 [57:22<2:01:45,  1.60it/s]Training 1/3 epoch (loss 0.0499):  31%|███       | 5250/16950 [57:22<1:53:39,  1.72it/s]Training 1/3 epoch (loss 0.2633):  31%|███       | 5250/16950 [57:22<1:53:39,  1.72it/s]Training 1/3 epoch (loss 0.2633):  31%|███       | 5251/16950 [57:22<1:49:25,  1.78it/s]Training 1/3 epoch (loss 0.0994):  31%|███       | 5251/16950 [57:23<1:49:25,  1.78it/s]Training 1/3 epoch (loss 0.0994):  31%|███       | 5252/16950 [57:23<2:07:42,  1.53it/s]Training 1/3 epoch (loss 0.0015):  31%|███       | 5252/16950 [57:24<2:07:42,  1.53it/s]Training 1/3 epoch (loss 0.0015):  31%|███       | 5253/16950 [57:24<2:01:23,  1.61it/s]Training 1/3 epoch (loss 0.0848):  31%|███       | 5253/16950 [57:24<2:01:23,  1.61it/s]Training 1/3 epoch (loss 0.0848):  31%|███       | 5254/16950 [57:24<2:06:31,  1.54it/s]Training 1/3 epoch (loss 0.0052):  31%|███       | 5254/16950 [57:25<2:06:31,  1.54it/s]Training 1/3 epoch (loss 0.0052):  31%|███       | 5255/16950 [57:25<2:00:58,  1.61it/s]Training 1/3 epoch (loss 0.2062):  31%|███       | 5255/16950 [57:25<2:00:58,  1.61it/s]Training 1/3 epoch (loss 0.2062):  31%|███       | 5256/16950 [57:25<1:52:35,  1.73it/s]Training 1/3 epoch (loss 0.0081):  31%|███       | 5256/16950 [57:26<1:52:35,  1.73it/s]Training 1/3 epoch (loss 0.0081):  31%|███       | 5257/16950 [57:26<1:49:42,  1.78it/s]Training 1/3 epoch (loss 0.0550):  31%|███       | 5257/16950 [57:27<1:49:42,  1.78it/s]Training 1/3 epoch (loss 0.0550):  31%|███       | 5258/16950 [57:27<1:55:14,  1.69it/s]Training 1/3 epoch (loss 0.0016):  31%|███       | 5258/16950 [57:27<1:55:14,  1.69it/s]Training 1/3 epoch (loss 0.0016):  31%|███       | 5259/16950 [57:27<1:44:38,  1.86it/s]Training 1/3 epoch (loss 0.0178):  31%|███       | 5259/16950 [57:28<1:44:38,  1.86it/s]Training 1/3 epoch (loss 0.0178):  31%|███       | 5260/16950 [57:28<1:50:45,  1.76it/s]Training 1/3 epoch (loss 0.0103):  31%|███       | 5260/16950 [57:28<1:50:45,  1.76it/s]Training 1/3 epoch (loss 0.0103):  31%|███       | 5261/16950 [57:28<1:44:57,  1.86it/s]Training 1/3 epoch (loss 0.0272):  31%|███       | 5261/16950 [57:29<1:44:57,  1.86it/s]Training 1/3 epoch (loss 0.0272):  31%|███       | 5262/16950 [57:29<1:39:44,  1.95it/s]Training 1/3 epoch (loss 0.0410):  31%|███       | 5262/16950 [57:29<1:39:44,  1.95it/s]Training 1/3 epoch (loss 0.0410):  31%|███       | 5263/16950 [57:29<1:40:14,  1.94it/s]Training 1/3 epoch (loss 0.3940):  31%|███       | 5263/16950 [57:30<1:40:14,  1.94it/s]Training 1/3 epoch (loss 0.3940):  31%|███       | 5264/16950 [57:30<1:46:51,  1.82it/s]Training 1/3 epoch (loss 0.0111):  31%|███       | 5264/16950 [57:30<1:46:51,  1.82it/s]Training 1/3 epoch (loss 0.0111):  31%|███       | 5265/16950 [57:30<1:53:51,  1.71it/s]Training 1/3 epoch (loss 0.0160):  31%|███       | 5265/16950 [57:31<1:53:51,  1.71it/s]Training 1/3 epoch (loss 0.0160):  31%|███       | 5266/16950 [57:31<2:11:11,  1.48it/s]Training 1/3 epoch (loss 0.0516):  31%|███       | 5266/16950 [57:32<2:11:11,  1.48it/s]Training 1/3 epoch (loss 0.0516):  31%|███       | 5267/16950 [57:32<2:05:38,  1.55it/s]Training 1/3 epoch (loss 0.3758):  31%|███       | 5267/16950 [57:32<2:05:38,  1.55it/s]Training 1/3 epoch (loss 0.3758):  31%|███       | 5268/16950 [57:32<1:54:57,  1.69it/s]Training 1/3 epoch (loss 0.0014):  31%|███       | 5268/16950 [57:33<1:54:57,  1.69it/s]Training 1/3 epoch (loss 0.0014):  31%|███       | 5269/16950 [57:33<1:42:49,  1.89it/s]Training 1/3 epoch (loss 0.0151):  31%|███       | 5269/16950 [57:33<1:42:49,  1.89it/s]Training 1/3 epoch (loss 0.0151):  31%|███       | 5270/16950 [57:33<1:38:53,  1.97it/s]Training 1/3 epoch (loss 0.0155):  31%|███       | 5270/16950 [57:34<1:38:53,  1.97it/s]Training 1/3 epoch (loss 0.0155):  31%|███       | 5271/16950 [57:34<1:35:19,  2.04it/s]Training 1/3 epoch (loss 0.0523):  31%|███       | 5271/16950 [57:34<1:35:19,  2.04it/s]Training 1/3 epoch (loss 0.0523):  31%|███       | 5272/16950 [57:34<1:42:00,  1.91it/s]Training 1/3 epoch (loss 0.0214):  31%|███       | 5272/16950 [57:35<1:42:00,  1.91it/s]Training 1/3 epoch (loss 0.0214):  31%|███       | 5273/16950 [57:35<1:52:34,  1.73it/s]Training 1/3 epoch (loss 0.2278):  31%|███       | 5273/16950 [57:35<1:52:34,  1.73it/s]Training 1/3 epoch (loss 0.2278):  31%|███       | 5274/16950 [57:35<1:46:39,  1.82it/s]Training 1/3 epoch (loss 0.0471):  31%|███       | 5274/16950 [57:36<1:46:39,  1.82it/s]Training 1/3 epoch (loss 0.0471):  31%|███       | 5275/16950 [57:36<2:04:39,  1.56it/s]Training 1/3 epoch (loss 0.1409):  31%|███       | 5275/16950 [57:37<2:04:39,  1.56it/s]Training 1/3 epoch (loss 0.1409):  31%|███       | 5276/16950 [57:37<2:02:00,  1.59it/s]Training 1/3 epoch (loss 0.0579):  31%|███       | 5276/16950 [57:37<2:02:00,  1.59it/s]Training 1/3 epoch (loss 0.0579):  31%|███       | 5277/16950 [57:37<1:50:58,  1.75it/s]Training 1/3 epoch (loss 0.6425):  31%|███       | 5277/16950 [57:38<1:50:58,  1.75it/s]Training 1/3 epoch (loss 0.6425):  31%|███       | 5278/16950 [57:38<1:37:41,  1.99it/s]Training 1/3 epoch (loss 0.0407):  31%|███       | 5278/16950 [57:38<1:37:41,  1.99it/s]Training 1/3 epoch (loss 0.0407):  31%|███       | 5279/16950 [57:38<1:43:27,  1.88it/s]Training 1/3 epoch (loss 0.4129):  31%|███       | 5279/16950 [57:39<1:43:27,  1.88it/s]Training 1/3 epoch (loss 0.4129):  31%|███       | 5280/16950 [57:39<1:41:45,  1.91it/s]Training 1/3 epoch (loss 0.2160):  31%|███       | 5280/16950 [57:39<1:41:45,  1.91it/s]Training 1/3 epoch (loss 0.2160):  31%|███       | 5281/16950 [57:39<1:38:57,  1.97it/s]Training 1/3 epoch (loss 0.0093):  31%|███       | 5281/16950 [57:40<1:38:57,  1.97it/s]Training 1/3 epoch (loss 0.0093):  31%|███       | 5282/16950 [57:40<1:36:35,  2.01it/s]Training 1/3 epoch (loss 0.0047):  31%|███       | 5282/16950 [57:41<1:36:35,  2.01it/s]Training 1/3 epoch (loss 0.0047):  31%|███       | 5283/16950 [57:41<2:08:49,  1.51it/s]Training 1/3 epoch (loss 0.0951):  31%|███       | 5283/16950 [57:42<2:08:49,  1.51it/s]Training 1/3 epoch (loss 0.0951):  31%|███       | 5284/16950 [57:42<2:20:25,  1.38it/s]Training 1/3 epoch (loss 0.4035):  31%|███       | 5284/16950 [57:42<2:20:25,  1.38it/s]Training 1/3 epoch (loss 0.4035):  31%|███       | 5285/16950 [57:42<2:19:27,  1.39it/s]Training 1/3 epoch (loss 0.0321):  31%|███       | 5285/16950 [57:43<2:19:27,  1.39it/s]Training 1/3 epoch (loss 0.0321):  31%|███       | 5286/16950 [57:43<2:27:17,  1.32it/s]Training 1/3 epoch (loss 0.1100):  31%|███       | 5286/16950 [57:44<2:27:17,  1.32it/s]Training 1/3 epoch (loss 0.1100):  31%|███       | 5287/16950 [57:44<2:16:34,  1.42it/s]Training 1/3 epoch (loss 0.0234):  31%|███       | 5287/16950 [57:45<2:16:34,  1.42it/s]Training 1/3 epoch (loss 0.0234):  31%|███       | 5288/16950 [57:45<2:26:49,  1.32it/s]Training 1/3 epoch (loss 0.1700):  31%|███       | 5288/16950 [57:45<2:26:49,  1.32it/s]Training 1/3 epoch (loss 0.1700):  31%|███       | 5289/16950 [57:45<2:19:03,  1.40it/s]Training 1/3 epoch (loss 0.0007):  31%|███       | 5289/16950 [57:46<2:19:03,  1.40it/s]Training 1/3 epoch (loss 0.0007):  31%|███       | 5290/16950 [57:46<2:17:02,  1.42it/s]Training 1/3 epoch (loss 0.0083):  31%|███       | 5290/16950 [57:46<2:17:02,  1.42it/s]Training 1/3 epoch (loss 0.0083):  31%|███       | 5291/16950 [57:46<2:04:39,  1.56it/s]Training 1/3 epoch (loss 0.4817):  31%|███       | 5291/16950 [57:47<2:04:39,  1.56it/s]Training 1/3 epoch (loss 0.4817):  31%|███       | 5292/16950 [57:47<2:03:41,  1.57it/s]Training 1/3 epoch (loss 0.1009):  31%|███       | 5292/16950 [57:48<2:03:41,  1.57it/s]Training 1/3 epoch (loss 0.1009):  31%|███       | 5293/16950 [57:48<2:01:57,  1.59it/s]Training 1/3 epoch (loss 0.2467):  31%|███       | 5293/16950 [57:48<2:01:57,  1.59it/s]Training 1/3 epoch (loss 0.2467):  31%|███       | 5294/16950 [57:48<2:04:21,  1.56it/s]Training 1/3 epoch (loss 0.0298):  31%|███       | 5294/16950 [57:49<2:04:21,  1.56it/s]Training 1/3 epoch (loss 0.0298):  31%|███       | 5295/16950 [57:49<1:59:41,  1.62it/s]Training 1/3 epoch (loss 0.0038):  31%|███       | 5295/16950 [57:49<1:59:41,  1.62it/s]Training 1/3 epoch (loss 0.0038):  31%|███       | 5296/16950 [57:49<1:54:24,  1.70it/s]Training 1/3 epoch (loss 0.0033):  31%|███       | 5296/16950 [57:50<1:54:24,  1.70it/s]Training 1/3 epoch (loss 0.0033):  31%|███▏      | 5297/16950 [57:50<1:43:02,  1.88it/s]Training 1/3 epoch (loss 0.0153):  31%|███▏      | 5297/16950 [57:51<1:43:02,  1.88it/s]Training 1/3 epoch (loss 0.0153):  31%|███▏      | 5298/16950 [57:51<1:52:12,  1.73it/s]Training 1/3 epoch (loss 0.1043):  31%|███▏      | 5298/16950 [57:51<1:52:12,  1.73it/s]Training 1/3 epoch (loss 0.1043):  31%|███▏      | 5299/16950 [57:51<1:58:51,  1.63it/s]Training 1/3 epoch (loss 0.1045):  31%|███▏      | 5299/16950 [57:52<1:58:51,  1.63it/s]Training 1/3 epoch (loss 0.1045):  31%|███▏      | 5300/16950 [57:52<2:01:46,  1.59it/s]Training 1/3 epoch (loss 0.1163):  31%|███▏      | 5300/16950 [57:52<2:01:46,  1.59it/s]Training 1/3 epoch (loss 0.1163):  31%|███▏      | 5301/16950 [57:52<1:59:30,  1.62it/s]Training 1/3 epoch (loss 0.0476):  31%|███▏      | 5301/16950 [57:53<1:59:30,  1.62it/s]Training 1/3 epoch (loss 0.0476):  31%|███▏      | 5302/16950 [57:53<1:55:47,  1.68it/s]Training 1/3 epoch (loss 0.3966):  31%|███▏      | 5302/16950 [57:53<1:55:47,  1.68it/s]Training 1/3 epoch (loss 0.3966):  31%|███▏      | 5303/16950 [57:53<1:47:05,  1.81it/s]Training 1/3 epoch (loss 0.0021):  31%|███▏      | 5303/16950 [57:54<1:47:05,  1.81it/s]Training 1/3 epoch (loss 0.0021):  31%|███▏      | 5304/16950 [57:54<1:46:56,  1.82it/s]Training 1/3 epoch (loss 0.0049):  31%|███▏      | 5304/16950 [57:54<1:46:56,  1.82it/s]Training 1/3 epoch (loss 0.0049):  31%|███▏      | 5305/16950 [57:54<1:43:16,  1.88it/s]Training 1/3 epoch (loss 0.0099):  31%|███▏      | 5305/16950 [57:55<1:43:16,  1.88it/s]Training 1/3 epoch (loss 0.0099):  31%|███▏      | 5306/16950 [57:55<1:38:03,  1.98it/s]Training 1/3 epoch (loss 0.4417):  31%|███▏      | 5306/16950 [57:56<1:38:03,  1.98it/s]Training 1/3 epoch (loss 0.4417):  31%|███▏      | 5307/16950 [57:56<2:04:34,  1.56it/s]Training 1/3 epoch (loss 0.0052):  31%|███▏      | 5307/16950 [57:57<2:04:34,  1.56it/s]Training 1/3 epoch (loss 0.0052):  31%|███▏      | 5308/16950 [57:57<2:04:39,  1.56it/s]Training 1/3 epoch (loss 0.0225):  31%|███▏      | 5308/16950 [57:57<2:04:39,  1.56it/s]Training 1/3 epoch (loss 0.0225):  31%|███▏      | 5309/16950 [57:57<1:56:43,  1.66it/s]Training 1/3 epoch (loss 0.3077):  31%|███▏      | 5309/16950 [57:57<1:56:43,  1.66it/s]Training 1/3 epoch (loss 0.3077):  31%|███▏      | 5310/16950 [57:57<1:47:26,  1.81it/s]Training 1/3 epoch (loss 0.3917):  31%|███▏      | 5310/16950 [57:58<1:47:26,  1.81it/s]Training 1/3 epoch (loss 0.3917):  31%|███▏      | 5311/16950 [57:58<2:07:42,  1.52it/s]Training 1/3 epoch (loss 0.5303):  31%|███▏      | 5311/16950 [57:59<2:07:42,  1.52it/s]Training 1/3 epoch (loss 0.5303):  31%|███▏      | 5312/16950 [57:59<1:50:28,  1.76it/s]Training 1/3 epoch (loss nan):  31%|███▏      | 5312/16950 [58:00<1:50:28,  1.76it/s]   Training 1/3 epoch (loss nan):  31%|███▏      | 5313/16950 [58:00<2:21:25,  1.37it/s]Training 1/3 epoch (loss 0.0218):  31%|███▏      | 5313/16950 [58:01<2:21:25,  1.37it/s]Training 1/3 epoch (loss 0.0218):  31%|███▏      | 5314/16950 [58:01<2:19:27,  1.39it/s]Training 1/3 epoch (loss nan):  31%|███▏      | 5314/16950 [58:02<2:19:27,  1.39it/s]   Training 1/3 epoch (loss nan):  31%|███▏      | 5315/16950 [58:02<2:44:04,  1.18it/s]Training 1/3 epoch (loss 0.0591):  31%|███▏      | 5315/16950 [58:02<2:44:04,  1.18it/s]Training 1/3 epoch (loss 0.0591):  31%|███▏      | 5316/16950 [58:02<2:37:43,  1.23it/s]Training 1/3 epoch (loss 0.0059):  31%|███▏      | 5316/16950 [58:03<2:37:43,  1.23it/s]Training 1/3 epoch (loss 0.0059):  31%|███▏      | 5317/16950 [58:03<2:24:37,  1.34it/s]Training 1/3 epoch (loss 0.4705):  31%|███▏      | 5317/16950 [58:04<2:24:37,  1.34it/s]Training 1/3 epoch (loss 0.4705):  31%|███▏      | 5318/16950 [58:04<2:11:00,  1.48it/s]Training 1/3 epoch (loss 0.0373):  31%|███▏      | 5318/16950 [58:04<2:11:00,  1.48it/s]Training 1/3 epoch (loss 0.0373):  31%|███▏      | 5319/16950 [58:04<2:12:03,  1.47it/s]Training 1/3 epoch (loss 0.0433):  31%|███▏      | 5319/16950 [58:05<2:12:03,  1.47it/s]Training 1/3 epoch (loss 0.0433):  31%|███▏      | 5320/16950 [58:05<2:04:55,  1.55it/s]Training 1/3 epoch (loss 0.0413):  31%|███▏      | 5320/16950 [58:05<2:04:55,  1.55it/s]Training 1/3 epoch (loss 0.0413):  31%|███▏      | 5321/16950 [58:05<2:03:45,  1.57it/s]Training 1/3 epoch (loss 0.0130):  31%|███▏      | 5321/16950 [58:06<2:03:45,  1.57it/s]Training 1/3 epoch (loss 0.0130):  31%|███▏      | 5322/16950 [58:06<2:12:53,  1.46it/s]Training 1/3 epoch (loss 0.0169):  31%|███▏      | 5322/16950 [58:07<2:12:53,  1.46it/s]Training 1/3 epoch (loss 0.0169):  31%|███▏      | 5323/16950 [58:07<2:03:12,  1.57it/s]Training 1/3 epoch (loss 0.3443):  31%|███▏      | 5323/16950 [58:07<2:03:12,  1.57it/s]Training 1/3 epoch (loss 0.3443):  31%|███▏      | 5324/16950 [58:07<2:05:42,  1.54it/s]Training 1/3 epoch (loss 0.4693):  31%|███▏      | 5324/16950 [58:08<2:05:42,  1.54it/s]Training 1/3 epoch (loss 0.4693):  31%|███▏      | 5325/16950 [58:08<1:54:36,  1.69it/s]Training 1/3 epoch (loss 0.6528):  31%|███▏      | 5325/16950 [58:08<1:54:36,  1.69it/s]Training 1/3 epoch (loss 0.6528):  31%|███▏      | 5326/16950 [58:08<1:42:15,  1.89it/s]Training 1/3 epoch (loss 0.0007):  31%|███▏      | 5326/16950 [58:09<1:42:15,  1.89it/s]Training 1/3 epoch (loss 0.0007):  31%|███▏      | 5327/16950 [58:09<1:33:50,  2.06it/s]Training 1/3 epoch (loss 0.0043):  31%|███▏      | 5327/16950 [58:09<1:33:50,  2.06it/s]Training 1/3 epoch (loss 0.0043):  31%|███▏      | 5328/16950 [58:09<1:40:46,  1.92it/s]Training 1/3 epoch (loss 0.4325):  31%|███▏      | 5328/16950 [58:10<1:40:46,  1.92it/s]Training 1/3 epoch (loss 0.4325):  31%|███▏      | 5329/16950 [58:10<1:35:09,  2.04it/s]Training 1/3 epoch (loss 0.0387):  31%|███▏      | 5329/16950 [58:10<1:35:09,  2.04it/s]Training 1/3 epoch (loss 0.0387):  31%|███▏      | 5330/16950 [58:10<1:33:21,  2.07it/s]Training 1/3 epoch (loss 0.0412):  31%|███▏      | 5330/16950 [58:11<1:33:21,  2.07it/s]Training 1/3 epoch (loss 0.0412):  31%|███▏      | 5331/16950 [58:11<1:42:00,  1.90it/s]Training 1/3 epoch (loss 0.3477):  31%|███▏      | 5331/16950 [58:11<1:42:00,  1.90it/s]Training 1/3 epoch (loss 0.3477):  31%|███▏      | 5332/16950 [58:11<1:44:16,  1.86it/s]Training 1/3 epoch (loss 0.0537):  31%|███▏      | 5332/16950 [58:12<1:44:16,  1.86it/s]Training 1/3 epoch (loss 0.0537):  31%|███▏      | 5333/16950 [58:12<1:46:49,  1.81it/s]Training 1/3 epoch (loss 0.0691):  31%|███▏      | 5333/16950 [58:12<1:46:49,  1.81it/s]Training 1/3 epoch (loss 0.0691):  31%|███▏      | 5334/16950 [58:12<1:46:55,  1.81it/s]Training 1/3 epoch (loss 0.0520):  31%|███▏      | 5334/16950 [58:13<1:46:55,  1.81it/s]Training 1/3 epoch (loss 0.0520):  31%|███▏      | 5335/16950 [58:13<1:52:09,  1.73it/s]Training 1/3 epoch (loss 0.1478):  31%|███▏      | 5335/16950 [58:14<1:52:09,  1.73it/s]Training 1/3 epoch (loss 0.1478):  31%|███▏      | 5336/16950 [58:14<1:56:26,  1.66it/s]Training 1/3 epoch (loss 0.3060):  31%|███▏      | 5336/16950 [58:14<1:56:26,  1.66it/s]Training 1/3 epoch (loss 0.3060):  31%|███▏      | 5337/16950 [58:14<1:47:54,  1.79it/s]Training 1/3 epoch (loss 0.0013):  31%|███▏      | 5337/16950 [58:15<1:47:54,  1.79it/s]Training 1/3 epoch (loss 0.0013):  31%|███▏      | 5338/16950 [58:15<1:40:23,  1.93it/s]Training 1/3 epoch (loss 0.7759):  31%|███▏      | 5338/16950 [58:15<1:40:23,  1.93it/s]Training 1/3 epoch (loss 0.7759):  31%|███▏      | 5339/16950 [58:15<1:38:43,  1.96it/s]Training 1/3 epoch (loss 0.5348):  31%|███▏      | 5339/16950 [58:15<1:38:43,  1.96it/s]Training 1/3 epoch (loss 0.5348):  32%|███▏      | 5340/16950 [58:15<1:31:05,  2.12it/s]Training 1/3 epoch (loss 0.3840):  32%|███▏      | 5340/16950 [58:16<1:31:05,  2.12it/s]Training 1/3 epoch (loss 0.3840):  32%|███▏      | 5341/16950 [58:16<1:54:12,  1.69it/s]Training 1/3 epoch (loss 0.3829):  32%|███▏      | 5341/16950 [58:17<1:54:12,  1.69it/s]Training 1/3 epoch (loss 0.3829):  32%|███▏      | 5342/16950 [58:17<1:54:24,  1.69it/s]Training 1/3 epoch (loss 0.0186):  32%|███▏      | 5342/16950 [58:18<1:54:24,  1.69it/s]Training 1/3 epoch (loss 0.0186):  32%|███▏      | 5343/16950 [58:18<1:55:53,  1.67it/s]Training 1/3 epoch (loss 0.0218):  32%|███▏      | 5343/16950 [58:18<1:55:53,  1.67it/s]Training 1/3 epoch (loss 0.0218):  32%|███▏      | 5344/16950 [58:18<1:55:31,  1.67it/s]Training 1/3 epoch (loss 0.3460):  32%|███▏      | 5344/16950 [58:19<1:55:31,  1.67it/s]Training 1/3 epoch (loss 0.3460):  32%|███▏      | 5345/16950 [58:19<1:57:00,  1.65it/s]Training 1/3 epoch (loss 0.3451):  32%|███▏      | 5345/16950 [58:20<1:57:00,  1.65it/s]Training 1/3 epoch (loss 0.3451):  32%|███▏      | 5346/16950 [58:20<2:08:28,  1.51it/s]Training 1/3 epoch (loss 0.0198):  32%|███▏      | 5346/16950 [58:20<2:08:28,  1.51it/s]Training 1/3 epoch (loss 0.0198):  32%|███▏      | 5347/16950 [58:20<2:00:54,  1.60it/s]Training 1/3 epoch (loss 0.1122):  32%|███▏      | 5347/16950 [58:21<2:00:54,  1.60it/s]Training 1/3 epoch (loss 0.1122):  32%|███▏      | 5348/16950 [58:21<2:05:15,  1.54it/s]Training 1/3 epoch (loss 0.3387):  32%|███▏      | 5348/16950 [58:21<2:05:15,  1.54it/s]Training 1/3 epoch (loss 0.3387):  32%|███▏      | 5349/16950 [58:21<1:56:43,  1.66it/s]Training 1/3 epoch (loss 0.1878):  32%|███▏      | 5349/16950 [58:22<1:56:43,  1.66it/s]Training 1/3 epoch (loss 0.1878):  32%|███▏      | 5350/16950 [58:22<1:58:03,  1.64it/s]Training 1/3 epoch (loss 0.1246):  32%|███▏      | 5350/16950 [58:23<1:58:03,  1.64it/s]Training 1/3 epoch (loss 0.1246):  32%|███▏      | 5351/16950 [58:23<1:57:42,  1.64it/s]Training 1/3 epoch (loss 0.0716):  32%|███▏      | 5351/16950 [58:23<1:57:42,  1.64it/s]Training 1/3 epoch (loss 0.0716):  32%|███▏      | 5352/16950 [58:23<1:52:35,  1.72it/s]Training 1/3 epoch (loss 0.0068):  32%|███▏      | 5352/16950 [58:24<1:52:35,  1.72it/s]Training 1/3 epoch (loss 0.0068):  32%|███▏      | 5353/16950 [58:24<2:00:12,  1.61it/s]Training 1/3 epoch (loss 0.5127):  32%|███▏      | 5353/16950 [58:24<2:00:12,  1.61it/s]Training 1/3 epoch (loss 0.5127):  32%|███▏      | 5354/16950 [58:24<1:52:11,  1.72it/s]Training 1/3 epoch (loss 0.0317):  32%|███▏      | 5354/16950 [58:25<1:52:11,  1.72it/s]Training 1/3 epoch (loss 0.0317):  32%|███▏      | 5355/16950 [58:25<1:57:58,  1.64it/s]Training 1/3 epoch (loss 0.3661):  32%|███▏      | 5355/16950 [58:25<1:57:58,  1.64it/s]Training 1/3 epoch (loss 0.3661):  32%|███▏      | 5356/16950 [58:25<1:52:38,  1.72it/s]Training 1/3 epoch (loss 0.3503):  32%|███▏      | 5356/16950 [58:26<1:52:38,  1.72it/s]Training 1/3 epoch (loss 0.3503):  32%|███▏      | 5357/16950 [58:26<1:53:01,  1.71it/s]Training 1/3 epoch (loss 0.0326):  32%|███▏      | 5357/16950 [58:27<1:53:01,  1.71it/s]Training 1/3 epoch (loss 0.0326):  32%|███▏      | 5358/16950 [58:27<1:46:51,  1.81it/s]Training 1/3 epoch (loss 0.2177):  32%|███▏      | 5358/16950 [58:27<1:46:51,  1.81it/s]Training 1/3 epoch (loss 0.2177):  32%|███▏      | 5359/16950 [58:27<1:56:04,  1.66it/s]Training 1/3 epoch (loss 0.0374):  32%|███▏      | 5359/16950 [58:28<1:56:04,  1.66it/s]Training 1/3 epoch (loss 0.0374):  32%|███▏      | 5360/16950 [58:28<2:04:18,  1.55it/s]Training 1/3 epoch (loss 0.0011):  32%|███▏      | 5360/16950 [58:28<2:04:18,  1.55it/s]Training 1/3 epoch (loss 0.0011):  32%|███▏      | 5361/16950 [58:28<1:53:48,  1.70it/s]Training 1/3 epoch (loss 0.3340):  32%|███▏      | 5361/16950 [58:29<1:53:48,  1.70it/s]Training 1/3 epoch (loss 0.3340):  32%|███▏      | 5362/16950 [58:29<1:43:18,  1.87it/s]Training 1/3 epoch (loss 0.0110):  32%|███▏      | 5362/16950 [58:29<1:43:18,  1.87it/s]Training 1/3 epoch (loss 0.0110):  32%|███▏      | 5363/16950 [58:29<1:48:24,  1.78it/s]Training 1/3 epoch (loss 0.5803):  32%|███▏      | 5363/16950 [58:30<1:48:24,  1.78it/s]Training 1/3 epoch (loss 0.5803):  32%|███▏      | 5364/16950 [58:30<1:40:26,  1.92it/s]Training 1/3 epoch (loss 0.1081):  32%|███▏      | 5364/16950 [58:31<1:40:26,  1.92it/s]Training 1/3 epoch (loss 0.1081):  32%|███▏      | 5365/16950 [58:31<1:59:25,  1.62it/s]Training 1/3 epoch (loss 0.1297):  32%|███▏      | 5365/16950 [58:31<1:59:25,  1.62it/s]Training 1/3 epoch (loss 0.1297):  32%|███▏      | 5366/16950 [58:31<1:57:04,  1.65it/s]Training 1/3 epoch (loss 0.0043):  32%|███▏      | 5366/16950 [58:32<1:57:04,  1.65it/s]Training 1/3 epoch (loss 0.0043):  32%|███▏      | 5367/16950 [58:32<1:54:40,  1.68it/s]Training 1/3 epoch (loss 0.1638):  32%|███▏      | 5367/16950 [58:33<1:54:40,  1.68it/s]Training 1/3 epoch (loss 0.1638):  32%|███▏      | 5368/16950 [58:33<2:02:26,  1.58it/s]Training 1/3 epoch (loss 0.0102):  32%|███▏      | 5368/16950 [58:33<2:02:26,  1.58it/s]Training 1/3 epoch (loss 0.0102):  32%|███▏      | 5369/16950 [58:33<1:59:03,  1.62it/s]Training 1/3 epoch (loss 0.0330):  32%|███▏      | 5369/16950 [58:34<1:59:03,  1.62it/s]Training 1/3 epoch (loss 0.0330):  32%|███▏      | 5370/16950 [58:34<2:00:34,  1.60it/s]Training 1/3 epoch (loss 0.0438):  32%|███▏      | 5370/16950 [58:34<2:00:34,  1.60it/s]Training 1/3 epoch (loss 0.0438):  32%|███▏      | 5371/16950 [58:34<1:55:46,  1.67it/s]Training 1/3 epoch (loss 0.0163):  32%|███▏      | 5371/16950 [58:35<1:55:46,  1.67it/s]Training 1/3 epoch (loss 0.0163):  32%|███▏      | 5372/16950 [58:35<1:49:22,  1.76it/s]Training 1/3 epoch (loss 0.1037):  32%|███▏      | 5372/16950 [58:35<1:49:22,  1.76it/s]Training 1/3 epoch (loss 0.1037):  32%|███▏      | 5373/16950 [58:35<1:41:46,  1.90it/s]Training 1/3 epoch (loss 0.2758):  32%|███▏      | 5373/16950 [58:36<1:41:46,  1.90it/s]Training 1/3 epoch (loss 0.2758):  32%|███▏      | 5374/16950 [58:36<1:41:07,  1.91it/s]Training 1/3 epoch (loss 0.2781):  32%|███▏      | 5374/16950 [58:36<1:41:07,  1.91it/s]Training 1/3 epoch (loss 0.2781):  32%|███▏      | 5375/16950 [58:36<1:47:01,  1.80it/s]Training 1/3 epoch (loss 0.6883):  32%|███▏      | 5375/16950 [58:37<1:47:01,  1.80it/s]Training 1/3 epoch (loss 0.6883):  32%|███▏      | 5376/16950 [58:37<1:52:05,  1.72it/s]Training 1/3 epoch (loss 0.0117):  32%|███▏      | 5376/16950 [58:38<1:52:05,  1.72it/s]Training 1/3 epoch (loss 0.0117):  32%|███▏      | 5377/16950 [58:38<1:52:20,  1.72it/s]Training 1/3 epoch (loss 0.0092):  32%|███▏      | 5377/16950 [58:38<1:52:20,  1.72it/s]Training 1/3 epoch (loss 0.0092):  32%|███▏      | 5378/16950 [58:38<1:40:41,  1.92it/s]Training 1/3 epoch (loss 0.5096):  32%|███▏      | 5378/16950 [58:38<1:40:41,  1.92it/s]Training 1/3 epoch (loss 0.5096):  32%|███▏      | 5379/16950 [58:38<1:33:25,  2.06it/s]Training 1/3 epoch (loss 0.0388):  32%|███▏      | 5379/16950 [58:39<1:33:25,  2.06it/s]Training 1/3 epoch (loss 0.0388):  32%|███▏      | 5380/16950 [58:39<1:42:54,  1.87it/s]Training 1/3 epoch (loss 0.5670):  32%|███▏      | 5380/16950 [58:40<1:42:54,  1.87it/s]Training 1/3 epoch (loss 0.5670):  32%|███▏      | 5381/16950 [58:40<1:43:43,  1.86it/s]Training 1/3 epoch (loss 0.0112):  32%|███▏      | 5381/16950 [58:41<1:43:43,  1.86it/s]Training 1/3 epoch (loss 0.0112):  32%|███▏      | 5382/16950 [58:41<2:02:12,  1.58it/s]Training 1/3 epoch (loss 0.3623):  32%|███▏      | 5382/16950 [58:41<2:02:12,  1.58it/s]Training 1/3 epoch (loss 0.3623):  32%|███▏      | 5383/16950 [58:41<2:05:51,  1.53it/s]Training 1/3 epoch (loss 0.3781):  32%|███▏      | 5383/16950 [58:42<2:05:51,  1.53it/s]Training 1/3 epoch (loss 0.3781):  32%|███▏      | 5384/16950 [58:42<1:59:19,  1.62it/s]Training 1/3 epoch (loss 0.0095):  32%|███▏      | 5384/16950 [58:42<1:59:19,  1.62it/s]Training 1/3 epoch (loss 0.0095):  32%|███▏      | 5385/16950 [58:42<1:47:08,  1.80it/s]Training 1/3 epoch (loss 0.1320):  32%|███▏      | 5385/16950 [58:43<1:47:08,  1.80it/s]Training 1/3 epoch (loss 0.1320):  32%|███▏      | 5386/16950 [58:43<2:01:56,  1.58it/s]Training 1/3 epoch (loss 0.5672):  32%|███▏      | 5386/16950 [58:44<2:01:56,  1.58it/s]Training 1/3 epoch (loss 0.5672):  32%|███▏      | 5387/16950 [58:44<2:07:17,  1.51it/s]Training 1/3 epoch (loss 0.0229):  32%|███▏      | 5387/16950 [58:44<2:07:17,  1.51it/s]Training 1/3 epoch (loss 0.0229):  32%|███▏      | 5388/16950 [58:44<1:56:04,  1.66it/s]Training 1/3 epoch (loss 0.5802):  32%|███▏      | 5388/16950 [58:45<1:56:04,  1.66it/s]Training 1/3 epoch (loss 0.5802):  32%|███▏      | 5389/16950 [58:45<1:47:59,  1.78it/s]Training 1/3 epoch (loss 0.6429):  32%|███▏      | 5389/16950 [58:45<1:47:59,  1.78it/s]Training 1/3 epoch (loss 0.6429):  32%|███▏      | 5390/16950 [58:45<2:04:20,  1.55it/s]Training 1/3 epoch (loss 0.5265):  32%|███▏      | 5390/16950 [58:46<2:04:20,  1.55it/s]Training 1/3 epoch (loss 0.5265):  32%|███▏      | 5391/16950 [58:46<2:00:09,  1.60it/s]Training 1/3 epoch (loss 0.1795):  32%|███▏      | 5391/16950 [58:47<2:00:09,  1.60it/s]Training 1/3 epoch (loss 0.1795):  32%|███▏      | 5392/16950 [58:47<2:01:35,  1.58it/s]Training 1/3 epoch (loss 0.0014):  32%|███▏      | 5392/16950 [58:47<2:01:35,  1.58it/s]Training 1/3 epoch (loss 0.0014):  32%|███▏      | 5393/16950 [58:47<1:51:32,  1.73it/s]Training 1/3 epoch (loss 0.2315):  32%|███▏      | 5393/16950 [58:48<1:51:32,  1.73it/s]Training 1/3 epoch (loss 0.2315):  32%|███▏      | 5394/16950 [58:48<1:52:50,  1.71it/s]Training 1/3 epoch (loss 0.0113):  32%|███▏      | 5394/16950 [58:48<1:52:50,  1.71it/s]Training 1/3 epoch (loss 0.0113):  32%|███▏      | 5395/16950 [58:48<1:52:23,  1.71it/s]Training 1/3 epoch (loss 0.6406):  32%|███▏      | 5395/16950 [58:49<1:52:23,  1.71it/s]Training 1/3 epoch (loss 0.6406):  32%|███▏      | 5396/16950 [58:49<1:48:04,  1.78it/s]Training 1/3 epoch (loss 0.2196):  32%|███▏      | 5396/16950 [58:49<1:48:04,  1.78it/s]Training 1/3 epoch (loss 0.2196):  32%|███▏      | 5397/16950 [58:49<1:41:40,  1.89it/s]Training 1/3 epoch (loss 0.0121):  32%|███▏      | 5397/16950 [58:50<1:41:40,  1.89it/s]Training 1/3 epoch (loss 0.0121):  32%|███▏      | 5398/16950 [58:50<1:50:08,  1.75it/s]Training 1/3 epoch (loss 0.0048):  32%|███▏      | 5398/16950 [58:50<1:50:08,  1.75it/s]Training 1/3 epoch (loss 0.0048):  32%|███▏      | 5399/16950 [58:50<1:46:57,  1.80it/s]Training 1/3 epoch (loss 0.0403):  32%|███▏      | 5399/16950 [58:51<1:46:57,  1.80it/s]Training 1/3 epoch (loss 0.0403):  32%|███▏      | 5400/16950 [58:51<1:48:46,  1.77it/s]Training 1/3 epoch (loss 0.2689):  32%|███▏      | 5400/16950 [58:52<1:48:46,  1.77it/s]Training 1/3 epoch (loss 0.2689):  32%|███▏      | 5401/16950 [58:52<2:15:53,  1.42it/s]Training 1/3 epoch (loss nan):  32%|███▏      | 5401/16950 [58:53<2:15:53,  1.42it/s]   Training 1/3 epoch (loss nan):  32%|███▏      | 5402/16950 [58:53<2:45:12,  1.17it/s]Training 1/3 epoch (loss 0.8335):  32%|███▏      | 5402/16950 [58:54<2:45:12,  1.17it/s]Training 1/3 epoch (loss 0.8335):  32%|███▏      | 5403/16950 [58:54<3:02:16,  1.06it/s]Training 1/3 epoch (loss 0.0391):  32%|███▏      | 5403/16950 [58:55<3:02:16,  1.06it/s]Training 1/3 epoch (loss 0.0391):  32%|███▏      | 5404/16950 [58:55<2:36:01,  1.23it/s]Training 1/3 epoch (loss 0.0805):  32%|███▏      | 5404/16950 [58:55<2:36:01,  1.23it/s]Training 1/3 epoch (loss 0.0805):  32%|███▏      | 5405/16950 [58:55<2:18:47,  1.39it/s]Training 1/3 epoch (loss 0.0168):  32%|███▏      | 5405/16950 [58:56<2:18:47,  1.39it/s]Training 1/3 epoch (loss 0.0168):  32%|███▏      | 5406/16950 [58:56<2:06:27,  1.52it/s]Training 1/3 epoch (loss 0.0053):  32%|███▏      | 5406/16950 [58:57<2:06:27,  1.52it/s]Training 1/3 epoch (loss 0.0053):  32%|███▏      | 5407/16950 [58:57<1:59:09,  1.61it/s]Training 1/3 epoch (loss 0.3956):  32%|███▏      | 5407/16950 [58:57<1:59:09,  1.61it/s]Training 1/3 epoch (loss 0.3956):  32%|███▏      | 5408/16950 [58:57<2:13:33,  1.44it/s]Training 1/3 epoch (loss 0.0214):  32%|███▏      | 5408/16950 [58:58<2:13:33,  1.44it/s]Training 1/3 epoch (loss 0.0214):  32%|███▏      | 5409/16950 [58:58<2:16:28,  1.41it/s]Training 1/3 epoch (loss 0.0491):  32%|███▏      | 5409/16950 [58:59<2:16:28,  1.41it/s]Training 1/3 epoch (loss 0.0491):  32%|███▏      | 5410/16950 [58:59<2:16:45,  1.41it/s]Training 1/3 epoch (loss 0.0559):  32%|███▏      | 5410/16950 [58:59<2:16:45,  1.41it/s]Training 1/3 epoch (loss 0.0559):  32%|███▏      | 5411/16950 [58:59<2:08:02,  1.50it/s]Training 1/3 epoch (loss 0.3900):  32%|███▏      | 5411/16950 [59:00<2:08:02,  1.50it/s]Training 1/3 epoch (loss 0.3900):  32%|███▏      | 5412/16950 [59:00<2:06:54,  1.52it/s]Training 1/3 epoch (loss 0.0497):  32%|███▏      | 5412/16950 [59:01<2:06:54,  1.52it/s]Training 1/3 epoch (loss 0.0497):  32%|███▏      | 5413/16950 [59:01<1:58:57,  1.62it/s]Training 1/3 epoch (loss 0.4607):  32%|███▏      | 5413/16950 [59:01<1:58:57,  1.62it/s]Training 1/3 epoch (loss 0.4607):  32%|███▏      | 5414/16950 [59:01<2:12:31,  1.45it/s]Training 1/3 epoch (loss 0.0348):  32%|███▏      | 5414/16950 [59:02<2:12:31,  1.45it/s]Training 1/3 epoch (loss 0.0348):  32%|███▏      | 5415/16950 [59:02<2:16:55,  1.40it/s]Training 1/3 epoch (loss 0.2959):  32%|███▏      | 5415/16950 [59:03<2:16:55,  1.40it/s]Training 1/3 epoch (loss 0.2959):  32%|███▏      | 5416/16950 [59:03<2:24:07,  1.33it/s]Training 1/3 epoch (loss 0.1122):  32%|███▏      | 5416/16950 [59:04<2:24:07,  1.33it/s]Training 1/3 epoch (loss 0.1122):  32%|███▏      | 5417/16950 [59:04<2:18:34,  1.39it/s]Training 1/3 epoch (loss 0.0140):  32%|███▏      | 5417/16950 [59:04<2:18:34,  1.39it/s]Training 1/3 epoch (loss 0.0140):  32%|███▏      | 5418/16950 [59:04<2:08:24,  1.50it/s]Training 1/3 epoch (loss 0.0900):  32%|███▏      | 5418/16950 [59:05<2:08:24,  1.50it/s]Training 1/3 epoch (loss 0.0900):  32%|███▏      | 5419/16950 [59:05<2:09:50,  1.48it/s]Training 1/3 epoch (loss 0.0092):  32%|███▏      | 5419/16950 [59:06<2:09:50,  1.48it/s]Training 1/3 epoch (loss 0.0092):  32%|███▏      | 5420/16950 [59:06<2:07:48,  1.50it/s]Training 1/3 epoch (loss 0.0634):  32%|███▏      | 5420/16950 [59:06<2:07:48,  1.50it/s]Training 1/3 epoch (loss 0.0634):  32%|███▏      | 5421/16950 [59:06<1:59:01,  1.61it/s]Training 1/3 epoch (loss 0.0199):  32%|███▏      | 5421/16950 [59:07<1:59:01,  1.61it/s]Training 1/3 epoch (loss 0.0199):  32%|███▏      | 5422/16950 [59:07<1:55:02,  1.67it/s]Training 1/3 epoch (loss 0.4637):  32%|███▏      | 5422/16950 [59:07<1:55:02,  1.67it/s]Training 1/3 epoch (loss 0.4637):  32%|███▏      | 5423/16950 [59:07<1:57:12,  1.64it/s]Training 1/3 epoch (loss 0.4564):  32%|███▏      | 5423/16950 [59:08<1:57:12,  1.64it/s]Training 1/3 epoch (loss 0.4564):  32%|███▏      | 5424/16950 [59:08<1:55:29,  1.66it/s]Training 1/3 epoch (loss 0.4509):  32%|███▏      | 5424/16950 [59:08<1:55:29,  1.66it/s]Training 1/3 epoch (loss 0.4509):  32%|███▏      | 5425/16950 [59:08<1:48:04,  1.78it/s]Training 1/3 epoch (loss 0.0012):  32%|███▏      | 5425/16950 [59:09<1:48:04,  1.78it/s]Training 1/3 epoch (loss 0.0012):  32%|███▏      | 5426/16950 [59:09<1:33:38,  2.05it/s]Training 1/3 epoch (loss 0.5022):  32%|███▏      | 5426/16950 [59:09<1:33:38,  2.05it/s]Training 1/3 epoch (loss 0.5022):  32%|███▏      | 5427/16950 [59:09<1:31:57,  2.09it/s]Training 1/3 epoch (loss 0.0026):  32%|███▏      | 5427/16950 [59:09<1:31:57,  2.09it/s]Training 1/3 epoch (loss 0.0026):  32%|███▏      | 5428/16950 [59:10<1:27:39,  2.19it/s]Training 1/3 epoch (loss 0.0055):  32%|███▏      | 5428/16950 [59:10<1:27:39,  2.19it/s]Training 1/3 epoch (loss 0.0055):  32%|███▏      | 5429/16950 [59:10<1:31:59,  2.09it/s]Training 1/3 epoch (loss 0.9137):  32%|███▏      | 5429/16950 [59:11<1:31:59,  2.09it/s]Training 1/3 epoch (loss 0.9137):  32%|███▏      | 5430/16950 [59:11<1:34:39,  2.03it/s]Training 1/3 epoch (loss 0.0089):  32%|███▏      | 5430/16950 [59:11<1:34:39,  2.03it/s]Training 1/3 epoch (loss 0.0089):  32%|███▏      | 5431/16950 [59:11<1:35:43,  2.01it/s]Training 1/3 epoch (loss 0.0013):  32%|███▏      | 5431/16950 [59:11<1:35:43,  2.01it/s]Training 1/3 epoch (loss 0.0013):  32%|███▏      | 5432/16950 [59:11<1:31:04,  2.11it/s]Training 1/3 epoch (loss 0.0003):  32%|███▏      | 5432/16950 [59:12<1:31:04,  2.11it/s]Training 1/3 epoch (loss 0.0003):  32%|███▏      | 5433/16950 [59:12<1:25:53,  2.23it/s]Training 1/3 epoch (loss 0.0136):  32%|███▏      | 5433/16950 [59:13<1:25:53,  2.23it/s]Training 1/3 epoch (loss 0.0136):  32%|███▏      | 5434/16950 [59:13<1:36:53,  1.98it/s]Training 1/3 epoch (loss 0.6516):  32%|███▏      | 5434/16950 [59:13<1:36:53,  1.98it/s]Training 1/3 epoch (loss 0.6516):  32%|███▏      | 5435/16950 [59:13<1:32:55,  2.07it/s]Training 1/3 epoch (loss 0.6646):  32%|███▏      | 5435/16950 [59:13<1:32:55,  2.07it/s]Training 1/3 epoch (loss 0.6646):  32%|███▏      | 5436/16950 [59:13<1:36:05,  2.00it/s]Training 1/3 epoch (loss 0.0037):  32%|███▏      | 5436/16950 [59:14<1:36:05,  2.00it/s]Training 1/3 epoch (loss 0.0037):  32%|███▏      | 5437/16950 [59:14<1:32:14,  2.08it/s]Training 1/3 epoch (loss 0.0072):  32%|███▏      | 5437/16950 [59:14<1:32:14,  2.08it/s]Training 1/3 epoch (loss 0.0072):  32%|███▏      | 5438/16950 [59:14<1:35:33,  2.01it/s]Training 1/3 epoch (loss 0.2365):  32%|███▏      | 5438/16950 [59:15<1:35:33,  2.01it/s]Training 1/3 epoch (loss 0.2365):  32%|███▏      | 5439/16950 [59:15<1:32:50,  2.07it/s]Training 1/3 epoch (loss 0.0646):  32%|███▏      | 5439/16950 [59:15<1:32:50,  2.07it/s]Training 1/3 epoch (loss 0.0646):  32%|███▏      | 5440/16950 [59:15<1:37:40,  1.96it/s]Training 1/3 epoch (loss 0.0290):  32%|███▏      | 5440/16950 [59:16<1:37:40,  1.96it/s]Training 1/3 epoch (loss 0.0290):  32%|███▏      | 5441/16950 [59:16<1:45:40,  1.82it/s]Training 1/3 epoch (loss 0.3682):  32%|███▏      | 5441/16950 [59:17<1:45:40,  1.82it/s]Training 1/3 epoch (loss 0.3682):  32%|███▏      | 5442/16950 [59:17<1:50:41,  1.73it/s]Training 1/3 epoch (loss 0.1436):  32%|███▏      | 5442/16950 [59:17<1:50:41,  1.73it/s]Training 1/3 epoch (loss 0.1436):  32%|███▏      | 5443/16950 [59:17<1:44:58,  1.83it/s]Training 1/3 epoch (loss 0.0172):  32%|███▏      | 5443/16950 [59:18<1:44:58,  1.83it/s]Training 1/3 epoch (loss 0.0172):  32%|███▏      | 5444/16950 [59:18<1:48:37,  1.77it/s]Training 1/3 epoch (loss 0.0150):  32%|███▏      | 5444/16950 [59:19<1:48:37,  1.77it/s]Training 1/3 epoch (loss 0.0150):  32%|███▏      | 5445/16950 [59:19<1:57:18,  1.63it/s]Training 1/3 epoch (loss 0.0064):  32%|███▏      | 5445/16950 [59:19<1:57:18,  1.63it/s]Training 1/3 epoch (loss 0.0064):  32%|███▏      | 5446/16950 [59:19<1:59:22,  1.61it/s]Training 1/3 epoch (loss 0.0359):  32%|███▏      | 5446/16950 [59:20<1:59:22,  1.61it/s]Training 1/3 epoch (loss 0.0359):  32%|███▏      | 5447/16950 [59:20<1:53:59,  1.68it/s]Training 1/3 epoch (loss 0.5238):  32%|███▏      | 5447/16950 [59:20<1:53:59,  1.68it/s]Training 1/3 epoch (loss 0.5238):  32%|███▏      | 5448/16950 [59:20<1:59:45,  1.60it/s]Training 1/3 epoch (loss 0.0134):  32%|███▏      | 5448/16950 [59:21<1:59:45,  1.60it/s]Training 1/3 epoch (loss 0.0134):  32%|███▏      | 5449/16950 [59:21<2:03:06,  1.56it/s]Training 1/3 epoch (loss 0.1100):  32%|███▏      | 5449/16950 [59:22<2:03:06,  1.56it/s]Training 1/3 epoch (loss 0.1100):  32%|███▏      | 5450/16950 [59:22<2:01:57,  1.57it/s]Training 1/3 epoch (loss 0.0899):  32%|███▏      | 5450/16950 [59:22<2:01:57,  1.57it/s]Training 1/3 epoch (loss 0.0899):  32%|███▏      | 5451/16950 [59:22<1:54:11,  1.68it/s]Training 1/3 epoch (loss 0.4746):  32%|███▏      | 5451/16950 [59:23<1:54:11,  1.68it/s]Training 1/3 epoch (loss 0.4746):  32%|███▏      | 5452/16950 [59:23<1:46:43,  1.80it/s]Training 1/3 epoch (loss 0.4746):  32%|███▏      | 5452/16950 [59:23<1:46:43,  1.80it/s]Training 1/3 epoch (loss 0.4746):  32%|███▏      | 5453/16950 [59:23<1:38:40,  1.94it/s]Training 1/3 epoch (loss 0.1396):  32%|███▏      | 5453/16950 [59:23<1:38:40,  1.94it/s]Training 1/3 epoch (loss 0.1396):  32%|███▏      | 5454/16950 [59:23<1:29:17,  2.15it/s]Training 1/3 epoch (loss 0.0024):  32%|███▏      | 5454/16950 [59:24<1:29:17,  2.15it/s]Training 1/3 epoch (loss 0.0024):  32%|███▏      | 5455/16950 [59:24<1:33:33,  2.05it/s]Training 1/3 epoch (loss 0.3525):  32%|███▏      | 5455/16950 [59:25<1:33:33,  2.05it/s]Training 1/3 epoch (loss 0.3525):  32%|███▏      | 5456/16950 [59:25<1:40:38,  1.90it/s]Training 1/3 epoch (loss 0.3130):  32%|███▏      | 5456/16950 [59:25<1:40:38,  1.90it/s]Training 1/3 epoch (loss 0.3130):  32%|███▏      | 5457/16950 [59:25<1:42:42,  1.86it/s]Training 1/3 epoch (loss 0.0597):  32%|███▏      | 5457/16950 [59:26<1:42:42,  1.86it/s]Training 1/3 epoch (loss 0.0597):  32%|███▏      | 5458/16950 [59:26<1:48:05,  1.77it/s]Training 1/3 epoch (loss 0.4446):  32%|███▏      | 5458/16950 [59:26<1:48:05,  1.77it/s]Training 1/3 epoch (loss 0.4446):  32%|███▏      | 5459/16950 [59:26<1:48:30,  1.76it/s]Training 1/3 epoch (loss 0.4797):  32%|███▏      | 5459/16950 [59:27<1:48:30,  1.76it/s]Training 1/3 epoch (loss 0.4797):  32%|███▏      | 5460/16950 [59:27<1:45:46,  1.81it/s]Training 1/3 epoch (loss 0.0004):  32%|███▏      | 5460/16950 [59:27<1:45:46,  1.81it/s]Training 1/3 epoch (loss 0.0004):  32%|███▏      | 5461/16950 [59:27<1:46:00,  1.81it/s]Training 1/3 epoch (loss 0.0182):  32%|███▏      | 5461/16950 [59:28<1:46:00,  1.81it/s]Training 1/3 epoch (loss 0.0182):  32%|███▏      | 5462/16950 [59:28<1:53:31,  1.69it/s]Training 1/3 epoch (loss 0.0554):  32%|███▏      | 5462/16950 [59:29<1:53:31,  1.69it/s]Training 1/3 epoch (loss 0.0554):  32%|███▏      | 5463/16950 [59:29<2:05:05,  1.53it/s]Training 1/3 epoch (loss 0.0747):  32%|███▏      | 5463/16950 [59:30<2:05:05,  1.53it/s]Training 1/3 epoch (loss 0.0747):  32%|███▏      | 5464/16950 [59:30<2:04:51,  1.53it/s]Training 1/3 epoch (loss 0.4973):  32%|███▏      | 5464/16950 [59:30<2:04:51,  1.53it/s]Training 1/3 epoch (loss 0.4973):  32%|███▏      | 5465/16950 [59:30<1:55:00,  1.66it/s]Training 1/3 epoch (loss 0.0024):  32%|███▏      | 5465/16950 [59:31<1:55:00,  1.66it/s]Training 1/3 epoch (loss 0.0024):  32%|███▏      | 5466/16950 [59:31<1:51:48,  1.71it/s]Training 1/3 epoch (loss 0.0678):  32%|███▏      | 5466/16950 [59:31<1:51:48,  1.71it/s]Training 1/3 epoch (loss 0.0678):  32%|███▏      | 5467/16950 [59:31<2:00:35,  1.59it/s]Training 1/3 epoch (loss 0.0061):  32%|███▏      | 5467/16950 [59:32<2:00:35,  1.59it/s]Training 1/3 epoch (loss 0.0061):  32%|███▏      | 5468/16950 [59:32<2:01:38,  1.57it/s]Training 1/3 epoch (loss 0.4254):  32%|███▏      | 5468/16950 [59:33<2:01:38,  1.57it/s]Training 1/3 epoch (loss 0.4254):  32%|███▏      | 5469/16950 [59:33<1:57:02,  1.63it/s]Training 1/3 epoch (loss 0.4766):  32%|███▏      | 5469/16950 [59:33<1:57:02,  1.63it/s]Training 1/3 epoch (loss 0.4766):  32%|███▏      | 5470/16950 [59:33<1:44:40,  1.83it/s]Training 1/3 epoch (loss 0.4165):  32%|███▏      | 5470/16950 [59:34<1:44:40,  1.83it/s]Training 1/3 epoch (loss 0.4165):  32%|███▏      | 5471/16950 [59:34<2:15:13,  1.41it/s]Training 1/3 epoch (loss 0.0159):  32%|███▏      | 5471/16950 [59:35<2:15:13,  1.41it/s]Training 1/3 epoch (loss 0.0159):  32%|███▏      | 5472/16950 [59:35<2:09:29,  1.48it/s]Training 1/3 epoch (loss 0.4658):  32%|███▏      | 5472/16950 [59:35<2:09:29,  1.48it/s]Training 1/3 epoch (loss 0.4658):  32%|███▏      | 5473/16950 [59:35<1:55:17,  1.66it/s]Training 1/3 epoch (loss 0.3808):  32%|███▏      | 5473/16950 [59:35<1:55:17,  1.66it/s]Training 1/3 epoch (loss 0.3808):  32%|███▏      | 5474/16950 [59:35<1:38:46,  1.94it/s]Training 1/3 epoch (loss 0.6571):  32%|███▏      | 5474/16950 [59:36<1:38:46,  1.94it/s]Training 1/3 epoch (loss 0.6571):  32%|███▏      | 5475/16950 [59:36<2:06:00,  1.52it/s]Training 1/3 epoch (loss 0.3259):  32%|███▏      | 5475/16950 [59:37<2:06:00,  1.52it/s]Training 1/3 epoch (loss 0.3259):  32%|███▏      | 5476/16950 [59:37<1:59:12,  1.60it/s]Training 1/3 epoch (loss 0.0030):  32%|███▏      | 5476/16950 [59:37<1:59:12,  1.60it/s]Training 1/3 epoch (loss 0.0030):  32%|███▏      | 5477/16950 [59:37<1:44:54,  1.82it/s]Training 1/3 epoch (loss 0.6143):  32%|███▏      | 5477/16950 [59:38<1:44:54,  1.82it/s]Training 1/3 epoch (loss 0.6143):  32%|███▏      | 5478/16950 [59:38<1:53:30,  1.68it/s]Training 1/3 epoch (loss 0.0181):  32%|███▏      | 5478/16950 [59:39<1:53:30,  1.68it/s]Training 1/3 epoch (loss 0.0181):  32%|███▏      | 5479/16950 [59:39<1:48:26,  1.76it/s]Training 1/3 epoch (loss 0.6006):  32%|███▏      | 5479/16950 [59:40<1:48:26,  1.76it/s]Training 1/3 epoch (loss 0.6006):  32%|███▏      | 5480/16950 [59:40<2:16:26,  1.40it/s]Training 1/3 epoch (loss 0.0147):  32%|███▏      | 5480/16950 [59:41<2:16:26,  1.40it/s]Training 1/3 epoch (loss 0.0147):  32%|███▏      | 5481/16950 [59:41<2:31:15,  1.26it/s]Training 1/3 epoch (loss 0.8079):  32%|███▏      | 5481/16950 [59:41<2:31:15,  1.26it/s]Training 1/3 epoch (loss 0.8079):  32%|███▏      | 5482/16950 [59:41<2:16:45,  1.40it/s]Training 1/3 epoch (loss 0.0018):  32%|███▏      | 5482/16950 [59:42<2:16:45,  1.40it/s]Training 1/3 epoch (loss 0.0018):  32%|███▏      | 5483/16950 [59:42<2:06:11,  1.51it/s]Training 1/3 epoch (loss 0.4888):  32%|███▏      | 5483/16950 [59:42<2:06:11,  1.51it/s]Training 1/3 epoch (loss 0.4888):  32%|███▏      | 5484/16950 [59:42<1:53:01,  1.69it/s]Training 1/3 epoch (loss 0.0148):  32%|███▏      | 5484/16950 [59:42<1:53:01,  1.69it/s]Training 1/3 epoch (loss 0.0148):  32%|███▏      | 5485/16950 [59:42<1:44:49,  1.82it/s]Training 1/3 epoch (loss 0.0495):  32%|███▏      | 5485/16950 [59:43<1:44:49,  1.82it/s]Training 1/3 epoch (loss 0.0495):  32%|███▏      | 5486/16950 [59:43<1:44:04,  1.84it/s]Training 1/3 epoch (loss 0.6086):  32%|███▏      | 5486/16950 [59:43<1:44:04,  1.84it/s]Training 1/3 epoch (loss 0.6086):  32%|███▏      | 5487/16950 [59:43<1:37:52,  1.95it/s]Training 1/3 epoch (loss 0.0077):  32%|███▏      | 5487/16950 [59:44<1:37:52,  1.95it/s]Training 1/3 epoch (loss 0.0077):  32%|███▏      | 5488/16950 [59:44<1:32:37,  2.06it/s]Training 1/3 epoch (loss 0.0192):  32%|███▏      | 5488/16950 [59:44<1:32:37,  2.06it/s]Training 1/3 epoch (loss 0.0192):  32%|███▏      | 5489/16950 [59:44<1:34:08,  2.03it/s]Training 1/3 epoch (loss 0.5264):  32%|███▏      | 5489/16950 [59:45<1:34:08,  2.03it/s]Training 1/3 epoch (loss 0.5264):  32%|███▏      | 5490/16950 [59:45<1:30:01,  2.12it/s]Training 1/3 epoch (loss 0.0127):  32%|███▏      | 5490/16950 [59:45<1:30:01,  2.12it/s]Training 1/3 epoch (loss 0.0127):  32%|███▏      | 5491/16950 [59:45<1:28:59,  2.15it/s]Training 1/3 epoch (loss 0.3723):  32%|███▏      | 5491/16950 [59:46<1:28:59,  2.15it/s]Training 1/3 epoch (loss 0.3723):  32%|███▏      | 5492/16950 [59:46<1:49:25,  1.75it/s]Training 1/3 epoch (loss 0.0214):  32%|███▏      | 5492/16950 [59:47<1:49:25,  1.75it/s]Training 1/3 epoch (loss 0.0214):  32%|███▏      | 5493/16950 [59:47<1:41:08,  1.89it/s]Training 1/3 epoch (loss 0.0521):  32%|███▏      | 5493/16950 [59:47<1:41:08,  1.89it/s]Training 1/3 epoch (loss 0.0521):  32%|███▏      | 5494/16950 [59:47<1:58:59,  1.60it/s]Training 1/3 epoch (loss 0.0720):  32%|███▏      | 5494/16950 [59:48<1:58:59,  1.60it/s]Training 1/3 epoch (loss 0.0720):  32%|███▏      | 5495/16950 [59:48<2:21:21,  1.35it/s]Training 1/3 epoch (loss 0.1962):  32%|███▏      | 5495/16950 [59:49<2:21:21,  1.35it/s]Training 1/3 epoch (loss 0.1962):  32%|███▏      | 5496/16950 [59:49<2:41:54,  1.18it/s]Training 1/3 epoch (loss 0.2690):  32%|███▏      | 5496/16950 [59:50<2:41:54,  1.18it/s]Training 1/3 epoch (loss 0.2690):  32%|███▏      | 5497/16950 [59:50<2:26:17,  1.30it/s]Training 1/3 epoch (loss 0.0568):  32%|███▏      | 5497/16950 [59:51<2:26:17,  1.30it/s]Training 1/3 epoch (loss 0.0568):  32%|███▏      | 5498/16950 [59:51<2:21:14,  1.35it/s]Training 1/3 epoch (loss 0.3333):  32%|███▏      | 5498/16950 [59:52<2:21:14,  1.35it/s]Training 1/3 epoch (loss 0.3333):  32%|███▏      | 5499/16950 [59:52<2:29:49,  1.27it/s]Training 1/3 epoch (loss 0.4310):  32%|███▏      | 5499/16950 [59:52<2:29:49,  1.27it/s]Training 1/3 epoch (loss 0.4310):  32%|███▏      | 5500/16950 [59:52<2:13:40,  1.43it/s]Training 1/3 epoch (loss 0.0257):  32%|███▏      | 5500/16950 [59:53<2:13:40,  1.43it/s]Training 1/3 epoch (loss 0.0257):  32%|███▏      | 5501/16950 [59:53<2:18:25,  1.38it/s]Training 1/3 epoch (loss 0.0016):  32%|███▏      | 5501/16950 [59:54<2:18:25,  1.38it/s]Training 1/3 epoch (loss 0.0016):  32%|███▏      | 5502/16950 [59:54<2:17:10,  1.39it/s]Training 1/3 epoch (loss 0.1099):  32%|███▏      | 5502/16950 [59:54<2:17:10,  1.39it/s]Training 1/3 epoch (loss 0.1099):  32%|███▏      | 5503/16950 [59:54<2:14:12,  1.42it/s]Training 1/3 epoch (loss 0.0604):  32%|███▏      | 5503/16950 [59:55<2:14:12,  1.42it/s]Training 1/3 epoch (loss 0.0604):  32%|███▏      | 5504/16950 [59:55<2:07:04,  1.50it/s]Training 1/3 epoch (loss 0.4367):  32%|███▏      | 5504/16950 [59:56<2:07:04,  1.50it/s]Training 1/3 epoch (loss 0.4367):  32%|███▏      | 5505/16950 [59:56<2:07:18,  1.50it/s]Training 1/3 epoch (loss 0.0002):  32%|███▏      | 5505/16950 [59:56<2:07:18,  1.50it/s]Training 1/3 epoch (loss 0.0002):  32%|███▏      | 5506/16950 [59:56<1:56:29,  1.64it/s]Training 1/3 epoch (loss 0.1094):  32%|███▏      | 5506/16950 [59:57<1:56:29,  1.64it/s]Training 1/3 epoch (loss 0.1094):  32%|███▏      | 5507/16950 [59:57<1:54:44,  1.66it/s]Training 1/3 epoch (loss 0.4214):  32%|███▏      | 5507/16950 [59:57<1:54:44,  1.66it/s]Training 1/3 epoch (loss 0.4214):  32%|███▏      | 5508/16950 [59:57<1:48:12,  1.76it/s]Training 1/3 epoch (loss 0.0127):  32%|███▏      | 5508/16950 [59:58<1:48:12,  1.76it/s]Training 1/3 epoch (loss 0.0127):  33%|███▎      | 5509/16950 [59:58<1:42:57,  1.85it/s]Training 1/3 epoch (loss 0.0005):  33%|███▎      | 5509/16950 [59:58<1:42:57,  1.85it/s]Training 1/3 epoch (loss 0.0005):  33%|███▎      | 5510/16950 [59:58<1:42:10,  1.87it/s]Training 1/3 epoch (loss 0.0006):  33%|███▎      | 5510/16950 [59:59<1:42:10,  1.87it/s]Training 1/3 epoch (loss 0.0006):  33%|███▎      | 5511/16950 [59:59<1:38:21,  1.94it/s]Training 1/3 epoch (loss 0.3636):  33%|███▎      | 5511/16950 [59:59<1:38:21,  1.94it/s]Training 1/3 epoch (loss 0.3636):  33%|███▎      | 5512/16950 [59:59<1:31:51,  2.08it/s]Training 1/3 epoch (loss 0.0058):  33%|███▎      | 5512/16950 [1:00:00<1:31:51,  2.08it/s]Training 1/3 epoch (loss 0.0058):  33%|███▎      | 5513/16950 [1:00:00<2:05:39,  1.52it/s]Training 1/3 epoch (loss 0.0933):  33%|███▎      | 5513/16950 [1:00:01<2:05:39,  1.52it/s]Training 1/3 epoch (loss 0.0933):  33%|███▎      | 5514/16950 [1:00:01<2:20:28,  1.36it/s]Training 1/3 epoch (loss 0.0052):  33%|███▎      | 5514/16950 [1:00:01<2:20:28,  1.36it/s]Training 1/3 epoch (loss 0.0052):  33%|███▎      | 5515/16950 [1:00:01<1:59:31,  1.59it/s]Training 1/3 epoch (loss 0.0445):  33%|███▎      | 5515/16950 [1:00:02<1:59:31,  1.59it/s]Training 1/3 epoch (loss 0.0445):  33%|███▎      | 5516/16950 [1:00:02<2:03:42,  1.54it/s]Training 1/3 epoch (loss 0.0420):  33%|███▎      | 5516/16950 [1:00:03<2:03:42,  1.54it/s]Training 1/3 epoch (loss 0.0420):  33%|███▎      | 5517/16950 [1:00:03<2:03:23,  1.54it/s]Training 1/3 epoch (loss 0.6790):  33%|███▎      | 5517/16950 [1:00:03<2:03:23,  1.54it/s]Training 1/3 epoch (loss 0.6790):  33%|███▎      | 5518/16950 [1:00:03<1:52:49,  1.69it/s]Training 1/3 epoch (loss 0.7880):  33%|███▎      | 5518/16950 [1:00:04<1:52:49,  1.69it/s]Training 1/3 epoch (loss 0.7880):  33%|███▎      | 5519/16950 [1:00:04<1:54:07,  1.67it/s]Training 1/3 epoch (loss 0.0063):  33%|███▎      | 5519/16950 [1:00:04<1:54:07,  1.67it/s]Training 1/3 epoch (loss 0.0063):  33%|███▎      | 5520/16950 [1:00:04<1:50:30,  1.72it/s]Training 1/3 epoch (loss 0.0157):  33%|███▎      | 5520/16950 [1:00:05<1:50:30,  1.72it/s]Training 1/3 epoch (loss 0.0157):  33%|███▎      | 5521/16950 [1:00:05<1:52:26,  1.69it/s]Training 1/3 epoch (loss 0.2468):  33%|███▎      | 5521/16950 [1:00:05<1:52:26,  1.69it/s]Training 1/3 epoch (loss 0.2468):  33%|███▎      | 5522/16950 [1:00:05<1:43:41,  1.84it/s]Training 1/3 epoch (loss 0.0323):  33%|███▎      | 5522/16950 [1:00:06<1:43:41,  1.84it/s]Training 1/3 epoch (loss 0.0323):  33%|███▎      | 5523/16950 [1:00:06<1:38:41,  1.93it/s]Training 1/3 epoch (loss 0.4916):  33%|███▎      | 5523/16950 [1:00:06<1:38:41,  1.93it/s]Training 1/3 epoch (loss 0.4916):  33%|███▎      | 5524/16950 [1:00:06<1:45:20,  1.81it/s]Training 1/3 epoch (loss 0.0521):  33%|███▎      | 5524/16950 [1:00:07<1:45:20,  1.81it/s]Training 1/3 epoch (loss 0.0521):  33%|███▎      | 5525/16950 [1:00:07<1:55:06,  1.65it/s]Training 1/3 epoch (loss 0.9449):  33%|███▎      | 5525/16950 [1:00:08<1:55:06,  1.65it/s]Training 1/3 epoch (loss 0.9449):  33%|███▎      | 5526/16950 [1:00:08<1:48:36,  1.75it/s]Training 1/3 epoch (loss 0.0290):  33%|███▎      | 5526/16950 [1:00:08<1:48:36,  1.75it/s]Training 1/3 epoch (loss 0.0290):  33%|███▎      | 5527/16950 [1:00:08<2:00:44,  1.58it/s]Training 1/3 epoch (loss 0.0281):  33%|███▎      | 5527/16950 [1:00:09<2:00:44,  1.58it/s]Training 1/3 epoch (loss 0.0281):  33%|███▎      | 5528/16950 [1:00:09<2:05:17,  1.52it/s]Training 1/3 epoch (loss 0.4428):  33%|███▎      | 5528/16950 [1:00:10<2:05:17,  1.52it/s]Training 1/3 epoch (loss 0.4428):  33%|███▎      | 5529/16950 [1:00:10<2:11:09,  1.45it/s]Training 1/3 epoch (loss 0.1958):  33%|███▎      | 5529/16950 [1:00:10<2:11:09,  1.45it/s]Training 1/3 epoch (loss 0.1958):  33%|███▎      | 5530/16950 [1:00:10<2:01:16,  1.57it/s]Training 1/3 epoch (loss 0.4458):  33%|███▎      | 5530/16950 [1:00:11<2:01:16,  1.57it/s]Training 1/3 epoch (loss 0.4458):  33%|███▎      | 5531/16950 [1:00:11<2:19:01,  1.37it/s]Training 1/3 epoch (loss 0.0033):  33%|███▎      | 5531/16950 [1:00:12<2:19:01,  1.37it/s]Training 1/3 epoch (loss 0.0033):  33%|███▎      | 5532/16950 [1:00:12<2:15:30,  1.40it/s]Training 1/3 epoch (loss 0.5301):  33%|███▎      | 5532/16950 [1:00:12<2:15:30,  1.40it/s]Training 1/3 epoch (loss 0.5301):  33%|███▎      | 5533/16950 [1:00:12<2:00:51,  1.57it/s]Training 1/3 epoch (loss 0.0108):  33%|███▎      | 5533/16950 [1:00:13<2:00:51,  1.57it/s]Training 1/3 epoch (loss 0.0108):  33%|███▎      | 5534/16950 [1:00:13<1:51:30,  1.71it/s]Training 1/3 epoch (loss 0.1365):  33%|███▎      | 5534/16950 [1:00:13<1:51:30,  1.71it/s]Training 1/3 epoch (loss 0.1365):  33%|███▎      | 5535/16950 [1:00:13<1:46:20,  1.79it/s]Training 1/3 epoch (loss 0.0505):  33%|███▎      | 5535/16950 [1:00:14<1:46:20,  1.79it/s]Training 1/3 epoch (loss 0.0505):  33%|███▎      | 5536/16950 [1:00:14<2:13:50,  1.42it/s]Training 1/3 epoch (loss 0.2389):  33%|███▎      | 5536/16950 [1:00:15<2:13:50,  1.42it/s]Training 1/3 epoch (loss 0.2389):  33%|███▎      | 5537/16950 [1:00:15<2:04:26,  1.53it/s]Training 1/3 epoch (loss 0.2211):  33%|███▎      | 5537/16950 [1:00:16<2:04:26,  1.53it/s]Training 1/3 epoch (loss 0.2211):  33%|███▎      | 5538/16950 [1:00:16<2:15:44,  1.40it/s]Training 1/3 epoch (loss 0.0024):  33%|███▎      | 5538/16950 [1:00:16<2:15:44,  1.40it/s]Training 1/3 epoch (loss 0.0024):  33%|███▎      | 5539/16950 [1:00:16<2:04:42,  1.53it/s]Training 1/3 epoch (loss 0.0538):  33%|███▎      | 5539/16950 [1:00:17<2:04:42,  1.53it/s]Training 1/3 epoch (loss 0.0538):  33%|███▎      | 5540/16950 [1:00:17<1:58:06,  1.61it/s]Training 1/3 epoch (loss 0.0010):  33%|███▎      | 5540/16950 [1:00:17<1:58:06,  1.61it/s]Training 1/3 epoch (loss 0.0010):  33%|███▎      | 5541/16950 [1:00:17<1:52:20,  1.69it/s]Training 1/3 epoch (loss 0.0003):  33%|███▎      | 5541/16950 [1:00:18<1:52:20,  1.69it/s]Training 1/3 epoch (loss 0.0003):  33%|███▎      | 5542/16950 [1:00:18<1:45:46,  1.80it/s]Training 1/3 epoch (loss 0.0255):  33%|███▎      | 5542/16950 [1:00:18<1:45:46,  1.80it/s]Training 1/3 epoch (loss 0.0255):  33%|███▎      | 5543/16950 [1:00:18<1:44:06,  1.83it/s]Training 1/3 epoch (loss 0.2448):  33%|███▎      | 5543/16950 [1:00:19<1:44:06,  1.83it/s]Training 1/3 epoch (loss 0.2448):  33%|███▎      | 5544/16950 [1:00:19<1:52:03,  1.70it/s]Training 1/3 epoch (loss 0.0088):  33%|███▎      | 5544/16950 [1:00:20<1:52:03,  1.70it/s]Training 1/3 epoch (loss 0.0088):  33%|███▎      | 5545/16950 [1:00:20<2:13:45,  1.42it/s]Training 1/3 epoch (loss 0.1587):  33%|███▎      | 5545/16950 [1:00:21<2:13:45,  1.42it/s]Training 1/3 epoch (loss 0.1587):  33%|███▎      | 5546/16950 [1:00:21<2:04:36,  1.53it/s]Training 1/3 epoch (loss 0.1793):  33%|███▎      | 5546/16950 [1:00:21<2:04:36,  1.53it/s]Training 1/3 epoch (loss 0.1793):  33%|███▎      | 5547/16950 [1:00:21<1:55:12,  1.65it/s]Training 1/3 epoch (loss 0.3570):  33%|███▎      | 5547/16950 [1:00:22<1:55:12,  1.65it/s]Training 1/3 epoch (loss 0.3570):  33%|███▎      | 5548/16950 [1:00:22<1:42:09,  1.86it/s]Training 1/3 epoch (loss 0.0239):  33%|███▎      | 5548/16950 [1:00:22<1:42:09,  1.86it/s]Training 1/3 epoch (loss 0.0239):  33%|███▎      | 5549/16950 [1:00:22<1:58:01,  1.61it/s]Training 1/3 epoch (loss 0.3706):  33%|███▎      | 5549/16950 [1:00:23<1:58:01,  1.61it/s]Training 1/3 epoch (loss 0.3706):  33%|███▎      | 5550/16950 [1:00:23<1:43:39,  1.83it/s]Training 1/3 epoch (loss 0.0909):  33%|███▎      | 5550/16950 [1:00:24<1:43:39,  1.83it/s]Training 1/3 epoch (loss 0.0909):  33%|███▎      | 5551/16950 [1:00:24<2:00:53,  1.57it/s]Training 1/3 epoch (loss 0.4303):  33%|███▎      | 5551/16950 [1:00:24<2:00:53,  1.57it/s]Training 1/3 epoch (loss 0.4303):  33%|███▎      | 5552/16950 [1:00:24<1:50:02,  1.73it/s]Training 1/3 epoch (loss 0.0085):  33%|███▎      | 5552/16950 [1:00:25<1:50:02,  1.73it/s]Training 1/3 epoch (loss 0.0085):  33%|███▎      | 5553/16950 [1:00:25<1:53:32,  1.67it/s]Training 1/3 epoch (loss 0.1556):  33%|███▎      | 5553/16950 [1:00:25<1:53:32,  1.67it/s]Training 1/3 epoch (loss 0.1556):  33%|███▎      | 5554/16950 [1:00:25<1:48:08,  1.76it/s]Training 1/3 epoch (loss 0.0162):  33%|███▎      | 5554/16950 [1:00:26<1:48:08,  1.76it/s]Training 1/3 epoch (loss 0.0162):  33%|███▎      | 5555/16950 [1:00:26<1:46:16,  1.79it/s]Training 1/3 epoch (loss 0.2967):  33%|███▎      | 5555/16950 [1:00:26<1:46:16,  1.79it/s]Training 1/3 epoch (loss 0.2967):  33%|███▎      | 5556/16950 [1:00:26<1:53:01,  1.68it/s]Training 1/3 epoch (loss 0.0173):  33%|███▎      | 5556/16950 [1:00:27<1:53:01,  1.68it/s]Training 1/3 epoch (loss 0.0173):  33%|███▎      | 5557/16950 [1:00:27<1:54:34,  1.66it/s]Training 1/3 epoch (loss 0.8114):  33%|███▎      | 5557/16950 [1:00:27<1:54:34,  1.66it/s]Training 1/3 epoch (loss 0.8114):  33%|███▎      | 5558/16950 [1:00:27<1:37:57,  1.94it/s]Training 1/3 epoch (loss 0.0210):  33%|███▎      | 5558/16950 [1:00:28<1:37:57,  1.94it/s]Training 1/3 epoch (loss 0.0210):  33%|███▎      | 5559/16950 [1:00:28<1:46:52,  1.78it/s]Training 1/3 epoch (loss 0.0055):  33%|███▎      | 5559/16950 [1:00:28<1:46:52,  1.78it/s]Training 1/3 epoch (loss 0.0055):  33%|███▎      | 5560/16950 [1:00:28<1:39:33,  1.91it/s]Training 1/3 epoch (loss 0.0092):  33%|███▎      | 5560/16950 [1:00:29<1:39:33,  1.91it/s]Training 1/3 epoch (loss 0.0092):  33%|███▎      | 5561/16950 [1:00:29<1:42:50,  1.85it/s]Training 1/3 epoch (loss 0.0260):  33%|███▎      | 5561/16950 [1:00:30<1:42:50,  1.85it/s]Training 1/3 epoch (loss 0.0260):  33%|███▎      | 5562/16950 [1:00:30<1:46:33,  1.78it/s]Training 1/3 epoch (loss 0.3451):  33%|███▎      | 5562/16950 [1:00:30<1:46:33,  1.78it/s]Training 1/3 epoch (loss 0.3451):  33%|███▎      | 5563/16950 [1:00:30<1:39:11,  1.91it/s]Training 1/3 epoch (loss 0.5932):  33%|███▎      | 5563/16950 [1:00:30<1:39:11,  1.91it/s]Training 1/3 epoch (loss 0.5932):  33%|███▎      | 5564/16950 [1:00:30<1:32:46,  2.05it/s]Training 1/3 epoch (loss 0.0067):  33%|███▎      | 5564/16950 [1:00:31<1:32:46,  2.05it/s]Training 1/3 epoch (loss 0.0067):  33%|███▎      | 5565/16950 [1:00:31<1:29:06,  2.13it/s]Training 1/3 epoch (loss 0.5674):  33%|███▎      | 5565/16950 [1:00:31<1:29:06,  2.13it/s]Training 1/3 epoch (loss 0.5674):  33%|███▎      | 5566/16950 [1:00:31<1:38:16,  1.93it/s]Training 1/3 epoch (loss 0.0600):  33%|███▎      | 5566/16950 [1:00:32<1:38:16,  1.93it/s]Training 1/3 epoch (loss 0.0600):  33%|███▎      | 5567/16950 [1:00:32<1:36:46,  1.96it/s]Training 1/3 epoch (loss 0.0024):  33%|███▎      | 5567/16950 [1:00:33<1:36:46,  1.96it/s]Training 1/3 epoch (loss 0.0024):  33%|███▎      | 5568/16950 [1:00:33<1:42:48,  1.85it/s]Training 1/3 epoch (loss 0.0751):  33%|███▎      | 5568/16950 [1:00:34<1:42:48,  1.85it/s]Training 1/3 epoch (loss 0.0751):  33%|███▎      | 5569/16950 [1:00:34<2:15:15,  1.40it/s]Training 1/3 epoch (loss 0.0019):  33%|███▎      | 5569/16950 [1:00:34<2:15:15,  1.40it/s]Training 1/3 epoch (loss 0.0019):  33%|███▎      | 5570/16950 [1:00:34<2:10:52,  1.45it/s]Training 1/3 epoch (loss 0.0329):  33%|███▎      | 5570/16950 [1:00:35<2:10:52,  1.45it/s]Training 1/3 epoch (loss 0.0329):  33%|███▎      | 5571/16950 [1:00:35<2:01:06,  1.57it/s]Training 1/3 epoch (loss 0.0043):  33%|███▎      | 5571/16950 [1:00:35<2:01:06,  1.57it/s]Training 1/3 epoch (loss 0.0043):  33%|███▎      | 5572/16950 [1:00:35<1:48:15,  1.75it/s]Training 1/3 epoch (loss 0.0005):  33%|███▎      | 5572/16950 [1:00:36<1:48:15,  1.75it/s]Training 1/3 epoch (loss 0.0005):  33%|███▎      | 5573/16950 [1:00:36<1:46:11,  1.79it/s]Training 1/3 epoch (loss 0.0016):  33%|███▎      | 5573/16950 [1:00:36<1:46:11,  1.79it/s]Training 1/3 epoch (loss 0.0016):  33%|███▎      | 5574/16950 [1:00:36<1:44:13,  1.82it/s]Training 1/3 epoch (loss 0.2752):  33%|███▎      | 5574/16950 [1:00:37<1:44:13,  1.82it/s]Training 1/3 epoch (loss 0.2752):  33%|███▎      | 5575/16950 [1:00:37<1:51:44,  1.70it/s]Training 1/3 epoch (loss 0.4017):  33%|███▎      | 5575/16950 [1:00:38<1:51:44,  1.70it/s]Training 1/3 epoch (loss 0.4017):  33%|███▎      | 5576/16950 [1:00:38<1:54:14,  1.66it/s]Training 1/3 epoch (loss 0.0016):  33%|███▎      | 5576/16950 [1:00:38<1:54:14,  1.66it/s]Training 1/3 epoch (loss 0.0016):  33%|███▎      | 5577/16950 [1:00:38<1:56:38,  1.63it/s]Training 1/3 epoch (loss 0.0104):  33%|███▎      | 5577/16950 [1:00:39<1:56:38,  1.63it/s]Training 1/3 epoch (loss 0.0104):  33%|███▎      | 5578/16950 [1:00:39<1:57:16,  1.62it/s]Training 1/3 epoch (loss nan):  33%|███▎      | 5578/16950 [1:00:40<1:57:16,  1.62it/s]   Training 1/3 epoch (loss nan):  33%|███▎      | 5579/16950 [1:00:40<2:25:08,  1.31it/s]Training 1/3 epoch (loss 0.5013):  33%|███▎      | 5579/16950 [1:00:40<2:25:08,  1.31it/s]Training 1/3 epoch (loss 0.5013):  33%|███▎      | 5580/16950 [1:00:40<2:01:19,  1.56it/s]Training 1/3 epoch (loss 0.0659):  33%|███▎      | 5580/16950 [1:00:41<2:01:19,  1.56it/s]Training 1/3 epoch (loss 0.0659):  33%|███▎      | 5581/16950 [1:00:41<1:51:11,  1.70it/s]Training 1/3 epoch (loss 0.6913):  33%|███▎      | 5581/16950 [1:00:41<1:51:11,  1.70it/s]Training 1/3 epoch (loss 0.6913):  33%|███▎      | 5582/16950 [1:00:41<1:43:07,  1.84it/s]Training 1/3 epoch (loss 0.0020):  33%|███▎      | 5582/16950 [1:00:42<1:43:07,  1.84it/s]Training 1/3 epoch (loss 0.0020):  33%|███▎      | 5583/16950 [1:00:42<1:42:50,  1.84it/s]Training 1/3 epoch (loss 0.1009):  33%|███▎      | 5583/16950 [1:00:43<1:42:50,  1.84it/s]Training 1/3 epoch (loss 0.1009):  33%|███▎      | 5584/16950 [1:00:43<2:02:20,  1.55it/s]Training 1/3 epoch (loss 0.1123):  33%|███▎      | 5584/16950 [1:00:43<2:02:20,  1.55it/s]Training 1/3 epoch (loss 0.1123):  33%|███▎      | 5585/16950 [1:00:43<1:58:35,  1.60it/s]Training 1/3 epoch (loss 0.0099):  33%|███▎      | 5585/16950 [1:00:44<1:58:35,  1.60it/s]Training 1/3 epoch (loss 0.0099):  33%|███▎      | 5586/16950 [1:00:44<1:57:19,  1.61it/s]Training 1/3 epoch (loss 0.0242):  33%|███▎      | 5586/16950 [1:00:44<1:57:19,  1.61it/s]Training 1/3 epoch (loss 0.0242):  33%|███▎      | 5587/16950 [1:00:44<1:51:15,  1.70it/s]Training 1/3 epoch (loss 0.6334):  33%|███▎      | 5587/16950 [1:00:45<1:51:15,  1.70it/s]Training 1/3 epoch (loss 0.6334):  33%|███▎      | 5588/16950 [1:00:45<1:50:50,  1.71it/s]Training 1/3 epoch (loss 0.0010):  33%|███▎      | 5588/16950 [1:00:46<1:50:50,  1.71it/s]Training 1/3 epoch (loss 0.0010):  33%|███▎      | 5589/16950 [1:00:46<1:48:21,  1.75it/s]Training 1/3 epoch (loss 0.0461):  33%|███▎      | 5589/16950 [1:00:46<1:48:21,  1.75it/s]Training 1/3 epoch (loss 0.0461):  33%|███▎      | 5590/16950 [1:00:46<1:35:10,  1.99it/s]Training 1/3 epoch (loss 0.0294):  33%|███▎      | 5590/16950 [1:00:46<1:35:10,  1.99it/s]Training 1/3 epoch (loss 0.0294):  33%|███▎      | 5591/16950 [1:00:46<1:31:24,  2.07it/s]Training 1/3 epoch (loss 1.1247):  33%|███▎      | 5591/16950 [1:00:47<1:31:24,  2.07it/s]Training 1/3 epoch (loss 1.1247):  33%|███▎      | 5592/16950 [1:00:47<2:10:21,  1.45it/s]Training 1/3 epoch (loss 0.0002):  33%|███▎      | 5592/16950 [1:00:48<2:10:21,  1.45it/s]Training 1/3 epoch (loss 0.0002):  33%|███▎      | 5593/16950 [1:00:48<2:01:07,  1.56it/s]Training 1/3 epoch (loss 0.9150):  33%|███▎      | 5593/16950 [1:00:48<2:01:07,  1.56it/s]Training 1/3 epoch (loss 0.9150):  33%|███▎      | 5594/16950 [1:00:48<1:50:32,  1.71it/s]Training 1/3 epoch (loss 0.0105):  33%|███▎      | 5594/16950 [1:00:49<1:50:32,  1.71it/s]Training 1/3 epoch (loss 0.0105):  33%|███▎      | 5595/16950 [1:00:49<1:41:45,  1.86it/s]Training 1/3 epoch (loss 0.0015):  33%|███▎      | 5595/16950 [1:00:49<1:41:45,  1.86it/s]Training 1/3 epoch (loss 0.0015):  33%|███▎      | 5596/16950 [1:00:49<1:42:39,  1.84it/s]Training 1/3 epoch (loss 0.0083):  33%|███▎      | 5596/16950 [1:00:50<1:42:39,  1.84it/s]Training 1/3 epoch (loss 0.0083):  33%|███▎      | 5597/16950 [1:00:50<1:41:54,  1.86it/s]Training 1/3 epoch (loss 0.4532):  33%|███▎      | 5597/16950 [1:00:51<1:41:54,  1.86it/s]Training 1/3 epoch (loss 0.4532):  33%|███▎      | 5598/16950 [1:00:51<1:52:43,  1.68it/s]Training 1/3 epoch (loss 0.3573):  33%|███▎      | 5598/16950 [1:00:51<1:52:43,  1.68it/s]Training 1/3 epoch (loss 0.3573):  33%|███▎      | 5599/16950 [1:00:51<1:41:16,  1.87it/s]Training 1/3 epoch (loss 1.1042):  33%|███▎      | 5599/16950 [1:00:52<1:41:16,  1.87it/s]Training 1/3 epoch (loss 1.1042):  33%|███▎      | 5600/16950 [1:00:52<1:59:55,  1.58it/s]Training 1/3 epoch (loss 0.0007):  33%|███▎      | 5600/16950 [1:00:53<1:59:55,  1.58it/s]Training 1/3 epoch (loss 0.0007):  33%|███▎      | 5601/16950 [1:00:53<2:07:03,  1.49it/s]Training 1/3 epoch (loss 0.0720):  33%|███▎      | 5601/16950 [1:00:53<2:07:03,  1.49it/s]Training 1/3 epoch (loss 0.0720):  33%|███▎      | 5602/16950 [1:00:53<2:04:40,  1.52it/s]Training 1/3 epoch (loss 0.0854):  33%|███▎      | 5602/16950 [1:00:54<2:04:40,  1.52it/s]Training 1/3 epoch (loss 0.0854):  33%|███▎      | 5603/16950 [1:00:54<1:57:28,  1.61it/s]Training 1/3 epoch (loss 0.0009):  33%|███▎      | 5603/16950 [1:00:54<1:57:28,  1.61it/s]Training 1/3 epoch (loss 0.0009):  33%|███▎      | 5604/16950 [1:00:54<1:39:20,  1.90it/s]Training 1/3 epoch (loss 0.6715):  33%|███▎      | 5604/16950 [1:00:55<1:39:20,  1.90it/s]Training 1/3 epoch (loss 0.6715):  33%|███▎      | 5605/16950 [1:00:55<1:43:11,  1.83it/s]Training 1/3 epoch (loss 0.0012):  33%|███▎      | 5605/16950 [1:00:55<1:43:11,  1.83it/s]Training 1/3 epoch (loss 0.0012):  33%|███▎      | 5606/16950 [1:00:55<1:37:01,  1.95it/s]Training 1/3 epoch (loss 0.6905):  33%|███▎      | 5606/16950 [1:00:56<1:37:01,  1.95it/s]Training 1/3 epoch (loss 0.6905):  33%|███▎      | 5607/16950 [1:00:56<1:41:24,  1.86it/s]Training 1/3 epoch (loss 0.7042):  33%|███▎      | 5607/16950 [1:00:56<1:41:24,  1.86it/s]Training 1/3 epoch (loss 0.7042):  33%|███▎      | 5608/16950 [1:00:56<1:29:38,  2.11it/s]Training 1/3 epoch (loss 0.0113):  33%|███▎      | 5608/16950 [1:00:57<1:29:38,  2.11it/s]Training 1/3 epoch (loss 0.0113):  33%|███▎      | 5609/16950 [1:00:57<1:45:42,  1.79it/s]Training 1/3 epoch (loss 0.0025):  33%|███▎      | 5609/16950 [1:00:58<1:45:42,  1.79it/s]Training 1/3 epoch (loss 0.0025):  33%|███▎      | 5610/16950 [1:00:58<1:49:42,  1.72it/s]Training 1/3 epoch (loss 0.2402):  33%|███▎      | 5610/16950 [1:00:58<1:49:42,  1.72it/s]Training 1/3 epoch (loss 0.2402):  33%|███▎      | 5611/16950 [1:00:58<1:41:56,  1.85it/s]Training 1/3 epoch (loss 0.0485):  33%|███▎      | 5611/16950 [1:00:59<1:41:56,  1.85it/s]Training 1/3 epoch (loss 0.0485):  33%|███▎      | 5612/16950 [1:00:59<1:44:05,  1.82it/s]Training 1/3 epoch (loss 0.5874):  33%|███▎      | 5612/16950 [1:00:59<1:44:05,  1.82it/s]Training 1/3 epoch (loss 0.5874):  33%|███▎      | 5613/16950 [1:00:59<2:04:50,  1.51it/s]Training 1/3 epoch (loss 0.0448):  33%|███▎      | 5613/16950 [1:01:00<2:04:50,  1.51it/s]Training 1/3 epoch (loss 0.0448):  33%|███▎      | 5614/16950 [1:01:00<2:00:33,  1.57it/s]Training 1/3 epoch (loss 0.0011):  33%|███▎      | 5614/16950 [1:01:01<2:00:33,  1.57it/s]Training 1/3 epoch (loss 0.0011):  33%|███▎      | 5615/16950 [1:01:01<1:55:51,  1.63it/s]Training 1/3 epoch (loss 0.3523):  33%|███▎      | 5615/16950 [1:01:01<1:55:51,  1.63it/s]Training 1/3 epoch (loss 0.3523):  33%|███▎      | 5616/16950 [1:01:01<1:49:46,  1.72it/s]Training 1/3 epoch (loss 0.0276):  33%|███▎      | 5616/16950 [1:01:02<1:49:46,  1.72it/s]Training 1/3 epoch (loss 0.0276):  33%|███▎      | 5617/16950 [1:01:02<1:40:18,  1.88it/s]Training 1/3 epoch (loss 0.8679):  33%|███▎      | 5617/16950 [1:01:02<1:40:18,  1.88it/s]Training 1/3 epoch (loss 0.8679):  33%|███▎      | 5618/16950 [1:01:02<1:46:27,  1.77it/s]Training 1/3 epoch (loss 0.0827):  33%|███▎      | 5618/16950 [1:01:03<1:46:27,  1.77it/s]Training 1/3 epoch (loss 0.0827):  33%|███▎      | 5619/16950 [1:01:03<1:53:12,  1.67it/s]Training 1/3 epoch (loss 0.0006):  33%|███▎      | 5619/16950 [1:01:03<1:53:12,  1.67it/s]Training 1/3 epoch (loss 0.0006):  33%|███▎      | 5620/16950 [1:01:03<1:43:06,  1.83it/s]Training 1/3 epoch (loss 0.8073):  33%|███▎      | 5620/16950 [1:01:04<1:43:06,  1.83it/s]Training 1/3 epoch (loss 0.8073):  33%|███▎      | 5621/16950 [1:01:04<2:03:10,  1.53it/s]Training 1/3 epoch (loss 0.0806):  33%|███▎      | 5621/16950 [1:01:05<2:03:10,  1.53it/s]Training 1/3 epoch (loss 0.0806):  33%|███▎      | 5622/16950 [1:01:05<2:02:37,  1.54it/s]Training 1/3 epoch (loss 0.0038):  33%|███▎      | 5622/16950 [1:01:05<2:02:37,  1.54it/s]Training 1/3 epoch (loss 0.0038):  33%|███▎      | 5623/16950 [1:01:05<1:59:32,  1.58it/s]Training 1/3 epoch (loss 0.2032):  33%|███▎      | 5623/16950 [1:01:06<1:59:32,  1.58it/s]Training 1/3 epoch (loss 0.2032):  33%|███▎      | 5624/16950 [1:01:06<2:23:21,  1.32it/s]Training 1/3 epoch (loss 0.3726):  33%|███▎      | 5624/16950 [1:01:07<2:23:21,  1.32it/s]Training 1/3 epoch (loss 0.3726):  33%|███▎      | 5625/16950 [1:01:07<2:08:44,  1.47it/s]Training 1/3 epoch (loss 0.7541):  33%|███▎      | 5625/16950 [1:01:07<2:08:44,  1.47it/s]Training 1/3 epoch (loss 0.7541):  33%|███▎      | 5626/16950 [1:01:07<1:53:24,  1.66it/s]Training 1/3 epoch (loss 0.4574):  33%|███▎      | 5626/16950 [1:01:08<1:53:24,  1.66it/s]Training 1/3 epoch (loss 0.4574):  33%|███▎      | 5627/16950 [1:01:08<1:54:29,  1.65it/s]Training 1/3 epoch (loss 0.4449):  33%|███▎      | 5627/16950 [1:01:09<1:54:29,  1.65it/s]Training 1/3 epoch (loss 0.4449):  33%|███▎      | 5628/16950 [1:01:09<1:58:05,  1.60it/s]Training 1/3 epoch (loss 0.0013):  33%|███▎      | 5628/16950 [1:01:09<1:58:05,  1.60it/s]Training 1/3 epoch (loss 0.0013):  33%|███▎      | 5629/16950 [1:01:09<1:44:46,  1.80it/s]Training 1/3 epoch (loss 0.1825):  33%|███▎      | 5629/16950 [1:01:10<1:44:46,  1.80it/s]Training 1/3 epoch (loss 0.1825):  33%|███▎      | 5630/16950 [1:01:10<1:41:18,  1.86it/s]Training 1/3 epoch (loss 0.0087):  33%|███▎      | 5630/16950 [1:01:10<1:41:18,  1.86it/s]Training 1/3 epoch (loss 0.0087):  33%|███▎      | 5631/16950 [1:01:10<1:36:03,  1.96it/s]Training 1/3 epoch (loss 0.0049):  33%|███▎      | 5631/16950 [1:01:11<1:36:03,  1.96it/s]Training 1/3 epoch (loss 0.0049):  33%|███▎      | 5632/16950 [1:01:11<1:54:33,  1.65it/s]Training 1/3 epoch (loss 0.3013):  33%|███▎      | 5632/16950 [1:01:11<1:54:33,  1.65it/s]Training 1/3 epoch (loss 0.3013):  33%|███▎      | 5633/16950 [1:01:11<1:52:52,  1.67it/s]Training 1/3 epoch (loss 0.0244):  33%|███▎      | 5633/16950 [1:01:12<1:52:52,  1.67it/s]Training 1/3 epoch (loss 0.0244):  33%|███▎      | 5634/16950 [1:01:12<1:36:05,  1.96it/s]Training 1/3 epoch (loss 0.0965):  33%|███▎      | 5634/16950 [1:01:12<1:36:05,  1.96it/s]Training 1/3 epoch (loss 0.0965):  33%|███▎      | 5635/16950 [1:01:12<1:36:02,  1.96it/s]Training 1/3 epoch (loss 0.1146):  33%|███▎      | 5635/16950 [1:01:13<1:36:02,  1.96it/s]Training 1/3 epoch (loss 0.1146):  33%|███▎      | 5636/16950 [1:01:13<1:46:34,  1.77it/s]Training 1/3 epoch (loss 0.3390):  33%|███▎      | 5636/16950 [1:01:13<1:46:34,  1.77it/s]Training 1/3 epoch (loss 0.3390):  33%|███▎      | 5637/16950 [1:01:13<1:42:47,  1.83it/s]Training 1/3 epoch (loss 0.3664):  33%|███▎      | 5637/16950 [1:01:14<1:42:47,  1.83it/s]Training 1/3 epoch (loss 0.3664):  33%|███▎      | 5638/16950 [1:01:14<2:12:43,  1.42it/s]Training 1/3 epoch (loss 0.0015):  33%|███▎      | 5638/16950 [1:01:15<2:12:43,  1.42it/s]Training 1/3 epoch (loss 0.0015):  33%|███▎      | 5639/16950 [1:01:15<2:08:12,  1.47it/s]Training 1/3 epoch (loss 0.4844):  33%|███▎      | 5639/16950 [1:01:16<2:08:12,  1.47it/s]Training 1/3 epoch (loss 0.4844):  33%|███▎      | 5640/16950 [1:01:16<1:59:50,  1.57it/s]Training 1/3 epoch (loss 0.0021):  33%|███▎      | 5640/16950 [1:01:16<1:59:50,  1.57it/s]Training 1/3 epoch (loss 0.0021):  33%|███▎      | 5641/16950 [1:01:16<2:00:10,  1.57it/s]Training 1/3 epoch (loss 0.0450):  33%|███▎      | 5641/16950 [1:01:17<2:00:10,  1.57it/s]Training 1/3 epoch (loss 0.0450):  33%|███▎      | 5642/16950 [1:01:17<2:03:57,  1.52it/s]Training 1/3 epoch (loss 0.0086):  33%|███▎      | 5642/16950 [1:01:18<2:03:57,  1.52it/s]Training 1/3 epoch (loss 0.0086):  33%|███▎      | 5643/16950 [1:01:18<2:07:32,  1.48it/s]Training 1/3 epoch (loss 0.0204):  33%|███▎      | 5643/16950 [1:01:18<2:07:32,  1.48it/s]Training 1/3 epoch (loss 0.0204):  33%|███▎      | 5644/16950 [1:01:18<2:09:41,  1.45it/s]Training 1/3 epoch (loss 0.0875):  33%|███▎      | 5644/16950 [1:01:19<2:09:41,  1.45it/s]Training 1/3 epoch (loss 0.0875):  33%|███▎      | 5645/16950 [1:01:19<2:22:50,  1.32it/s]Training 1/3 epoch (loss 0.1535):  33%|███▎      | 5645/16950 [1:01:20<2:22:50,  1.32it/s]Training 1/3 epoch (loss 0.1535):  33%|███▎      | 5646/16950 [1:01:20<2:20:35,  1.34it/s]Training 1/3 epoch (loss 1.0352):  33%|███▎      | 5646/16950 [1:01:21<2:20:35,  1.34it/s]Training 1/3 epoch (loss 1.0352):  33%|███▎      | 5647/16950 [1:01:21<2:04:20,  1.52it/s]Training 1/3 epoch (loss 0.5499):  33%|███▎      | 5647/16950 [1:01:21<2:04:20,  1.52it/s]Training 1/3 epoch (loss 0.5499):  33%|███▎      | 5648/16950 [1:01:21<2:07:14,  1.48it/s]Training 1/3 epoch (loss 0.3999):  33%|███▎      | 5648/16950 [1:01:22<2:07:14,  1.48it/s]Training 1/3 epoch (loss 0.3999):  33%|███▎      | 5649/16950 [1:01:22<2:30:36,  1.25it/s]Training 1/3 epoch (loss 0.0925):  33%|███▎      | 5649/16950 [1:01:23<2:30:36,  1.25it/s]Training 1/3 epoch (loss 0.0925):  33%|███▎      | 5650/16950 [1:01:23<2:19:59,  1.35it/s]                                                                                          Training 1/3 epoch (loss 0.0925):  33%|███▎      | 5650/16950 [1:01:23<2:19:59,  1.35it/s]Training 2/3 epoch (loss 0.8331):  33%|███▎      | 5650/16950 [1:05:11<2:19:59,  1.35it/s]Training 2/3 epoch (loss 0.8331):  33%|███▎      | 5651/16950 [1:05:11<216:24:48, 68.95s/it]Training 2/3 epoch (loss 0.0910):  33%|███▎      | 5651/16950 [1:05:12<216:24:48, 68.95s/it]Training 2/3 epoch (loss 0.0910):  33%|███▎      | 5652/16950 [1:05:12<151:56:14, 48.41s/it]Training 2/3 epoch (loss 0.0253):  33%|███▎      | 5652/16950 [1:05:12<151:56:14, 48.41s/it]Training 2/3 epoch (loss 0.0253):  33%|███▎      | 5653/16950 [1:05:12<106:43:52, 34.01s/it]Training 2/3 epoch (loss 0.0091):  33%|███▎      | 5653/16950 [1:05:12<106:43:52, 34.01s/it]Training 2/3 epoch (loss 0.0091):  33%|███▎      | 5654/16950 [1:05:12<75:02:40, 23.92s/it] Training 2/3 epoch (loss 0.0001):  33%|███▎      | 5654/16950 [1:05:13<75:02:40, 23.92s/it]Training 2/3 epoch (loss 0.0001):  33%|███▎      | 5655/16950 [1:05:13<52:46:34, 16.82s/it]Training 2/3 epoch (loss 0.2074):  33%|███▎      | 5655/16950 [1:05:13<52:46:34, 16.82s/it]Training 2/3 epoch (loss 0.2074):  33%|███▎      | 5656/16950 [1:05:13<37:41:59, 12.02s/it]Training 2/3 epoch (loss 0.2797):  33%|███▎      | 5656/16950 [1:05:14<37:41:59, 12.02s/it]Training 2/3 epoch (loss 0.2797):  33%|███▎      | 5657/16950 [1:05:14<27:07:06,  8.64s/it]Training 2/3 epoch (loss 0.2938):  33%|███▎      | 5657/16950 [1:05:15<27:07:06,  8.64s/it]Training 2/3 epoch (loss 0.2938):  33%|███▎      | 5658/16950 [1:05:15<19:26:12,  6.20s/it]Training 2/3 epoch (loss 0.0522):  33%|███▎      | 5658/16950 [1:05:15<19:26:12,  6.20s/it]Training 2/3 epoch (loss 0.0522):  33%|███▎      | 5659/16950 [1:05:15<14:06:56,  4.50s/it]Training 2/3 epoch (loss 0.0017):  33%|███▎      | 5659/16950 [1:05:16<14:06:56,  4.50s/it]Training 2/3 epoch (loss 0.0017):  33%|███▎      | 5660/16950 [1:05:16<10:18:03,  3.28s/it]Training 2/3 epoch (loss 0.2994):  33%|███▎      | 5660/16950 [1:05:16<10:18:03,  3.28s/it]Training 2/3 epoch (loss 0.2994):  33%|███▎      | 5661/16950 [1:05:16<7:58:02,  2.54s/it] Training 2/3 epoch (loss 0.1734):  33%|███▎      | 5661/16950 [1:05:17<7:58:02,  2.54s/it]Training 2/3 epoch (loss 0.1734):  33%|███▎      | 5662/16950 [1:05:17<6:12:12,  1.98s/it]Training 2/3 epoch (loss 0.0484):  33%|███▎      | 5662/16950 [1:05:18<6:12:12,  1.98s/it]Training 2/3 epoch (loss 0.0484):  33%|███▎      | 5663/16950 [1:05:18<4:54:12,  1.56s/it]Training 2/3 epoch (loss 0.0909):  33%|███▎      | 5663/16950 [1:05:18<4:54:12,  1.56s/it]Training 2/3 epoch (loss 0.0909):  33%|███▎      | 5664/16950 [1:05:18<3:56:34,  1.26s/it]Training 2/3 epoch (loss 0.0048):  33%|███▎      | 5664/16950 [1:05:19<3:56:34,  1.26s/it]Training 2/3 epoch (loss 0.0048):  33%|███▎      | 5665/16950 [1:05:19<3:11:59,  1.02s/it]Training 2/3 epoch (loss 0.0031):  33%|███▎      | 5665/16950 [1:05:19<3:11:59,  1.02s/it]Training 2/3 epoch (loss 0.0031):  33%|███▎      | 5666/16950 [1:05:19<2:55:30,  1.07it/s]Training 2/3 epoch (loss 0.2258):  33%|███▎      | 5666/16950 [1:05:20<2:55:30,  1.07it/s]Training 2/3 epoch (loss 0.2258):  33%|███▎      | 5667/16950 [1:05:20<2:30:07,  1.25it/s]Training 2/3 epoch (loss 0.0339):  33%|███▎      | 5667/16950 [1:05:20<2:30:07,  1.25it/s]Training 2/3 epoch (loss 0.0339):  33%|███▎      | 5668/16950 [1:05:20<2:07:25,  1.48it/s]Training 2/3 epoch (loss 0.0662):  33%|███▎      | 5668/16950 [1:05:21<2:07:25,  1.48it/s]Training 2/3 epoch (loss 0.0662):  33%|███▎      | 5669/16950 [1:05:21<2:02:37,  1.53it/s]Training 2/3 epoch (loss 0.5804):  33%|███▎      | 5669/16950 [1:05:21<2:02:37,  1.53it/s]Training 2/3 epoch (loss 0.5804):  33%|███▎      | 5670/16950 [1:05:21<1:52:31,  1.67it/s]Training 2/3 epoch (loss 0.0070):  33%|███▎      | 5670/16950 [1:05:22<1:52:31,  1.67it/s]Training 2/3 epoch (loss 0.0070):  33%|███▎      | 5671/16950 [1:05:22<1:58:12,  1.59it/s]Training 2/3 epoch (loss 0.5980):  33%|███▎      | 5671/16950 [1:05:22<1:58:12,  1.59it/s]Training 2/3 epoch (loss 0.5980):  33%|███▎      | 5672/16950 [1:05:22<1:42:47,  1.83it/s]Training 2/3 epoch (loss 0.0015):  33%|███▎      | 5672/16950 [1:05:23<1:42:47,  1.83it/s]Training 2/3 epoch (loss 0.0015):  33%|███▎      | 5673/16950 [1:05:23<1:43:17,  1.82it/s]Training 2/3 epoch (loss 0.4408):  33%|███▎      | 5673/16950 [1:05:24<1:43:17,  1.82it/s]Training 2/3 epoch (loss 0.4408):  33%|███▎      | 5674/16950 [1:05:24<1:43:23,  1.82it/s]Training 2/3 epoch (loss 0.0554):  33%|███▎      | 5674/16950 [1:05:24<1:43:23,  1.82it/s]Training 2/3 epoch (loss 0.0554):  33%|███▎      | 5675/16950 [1:05:24<1:49:28,  1.72it/s]Training 2/3 epoch (loss 0.1269):  33%|███▎      | 5675/16950 [1:05:25<1:49:28,  1.72it/s]Training 2/3 epoch (loss 0.1269):  33%|███▎      | 5676/16950 [1:05:25<1:47:15,  1.75it/s]Training 2/3 epoch (loss 0.0107):  33%|███▎      | 5676/16950 [1:05:26<1:47:15,  1.75it/s]Training 2/3 epoch (loss 0.0107):  33%|███▎      | 5677/16950 [1:05:26<2:00:18,  1.56it/s]Training 2/3 epoch (loss 0.0072):  33%|███▎      | 5677/16950 [1:05:26<2:00:18,  1.56it/s]Training 2/3 epoch (loss 0.0072):  33%|███▎      | 5678/16950 [1:05:26<1:54:50,  1.64it/s]Training 2/3 epoch (loss 0.3707):  33%|███▎      | 5678/16950 [1:05:27<1:54:50,  1.64it/s]Training 2/3 epoch (loss 0.3707):  34%|███▎      | 5679/16950 [1:05:27<2:02:37,  1.53it/s]Training 2/3 epoch (loss 0.0208):  34%|███▎      | 5679/16950 [1:05:27<2:02:37,  1.53it/s]Training 2/3 epoch (loss 0.0208):  34%|███▎      | 5680/16950 [1:05:27<1:57:53,  1.59it/s]Training 2/3 epoch (loss 0.8547):  34%|███▎      | 5680/16950 [1:05:28<1:57:53,  1.59it/s]Training 2/3 epoch (loss 0.8547):  34%|███▎      | 5681/16950 [1:05:28<1:57:21,  1.60it/s]Training 2/3 epoch (loss 0.3591):  34%|███▎      | 5681/16950 [1:05:29<1:57:21,  1.60it/s]Training 2/3 epoch (loss 0.3591):  34%|███▎      | 5682/16950 [1:05:29<1:50:14,  1.70it/s]Training 2/3 epoch (loss 0.0104):  34%|███▎      | 5682/16950 [1:05:29<1:50:14,  1.70it/s]Training 2/3 epoch (loss 0.0104):  34%|███▎      | 5683/16950 [1:05:29<1:41:02,  1.86it/s]Training 2/3 epoch (loss 0.8789):  34%|███▎      | 5683/16950 [1:05:30<1:41:02,  1.86it/s]Training 2/3 epoch (loss 0.8789):  34%|███▎      | 5684/16950 [1:05:30<1:47:51,  1.74it/s]Training 2/3 epoch (loss 0.0397):  34%|███▎      | 5684/16950 [1:05:30<1:47:51,  1.74it/s]Training 2/3 epoch (loss 0.0397):  34%|███▎      | 5685/16950 [1:05:30<1:41:23,  1.85it/s]Training 2/3 epoch (loss 0.0006):  34%|███▎      | 5685/16950 [1:05:31<1:41:23,  1.85it/s]Training 2/3 epoch (loss 0.0006):  34%|███▎      | 5686/16950 [1:05:31<1:37:56,  1.92it/s]Training 2/3 epoch (loss 0.0452):  34%|███▎      | 5686/16950 [1:05:31<1:37:56,  1.92it/s]Training 2/3 epoch (loss 0.0452):  34%|███▎      | 5687/16950 [1:05:31<1:59:40,  1.57it/s]Training 2/3 epoch (loss 0.0088):  34%|███▎      | 5687/16950 [1:05:32<1:59:40,  1.57it/s]Training 2/3 epoch (loss 0.0088):  34%|███▎      | 5688/16950 [1:05:32<2:06:55,  1.48it/s]Training 2/3 epoch (loss 0.0072):  34%|███▎      | 5688/16950 [1:05:33<2:06:55,  1.48it/s]Training 2/3 epoch (loss 0.0072):  34%|███▎      | 5689/16950 [1:05:33<1:50:39,  1.70it/s]Training 2/3 epoch (loss 0.0085):  34%|███▎      | 5689/16950 [1:05:33<1:50:39,  1.70it/s]Training 2/3 epoch (loss 0.0085):  34%|███▎      | 5690/16950 [1:05:33<1:45:23,  1.78it/s]Training 2/3 epoch (loss 0.1182):  34%|███▎      | 5690/16950 [1:05:34<1:45:23,  1.78it/s]Training 2/3 epoch (loss 0.1182):  34%|███▎      | 5691/16950 [1:05:34<1:51:52,  1.68it/s]Training 2/3 epoch (loss 0.0031):  34%|███▎      | 5691/16950 [1:05:34<1:51:52,  1.68it/s]Training 2/3 epoch (loss 0.0031):  34%|███▎      | 5692/16950 [1:05:34<1:45:52,  1.77it/s]Training 2/3 epoch (loss 0.4511):  34%|███▎      | 5692/16950 [1:05:35<1:45:52,  1.77it/s]Training 2/3 epoch (loss 0.4511):  34%|███▎      | 5693/16950 [1:05:35<2:13:16,  1.41it/s]Training 2/3 epoch (loss 0.0058):  34%|███▎      | 5693/16950 [1:05:36<2:13:16,  1.41it/s]Training 2/3 epoch (loss 0.0058):  34%|███▎      | 5694/16950 [1:05:36<2:04:50,  1.50it/s]Training 2/3 epoch (loss 0.0003):  34%|███▎      | 5694/16950 [1:05:36<2:04:50,  1.50it/s]Training 2/3 epoch (loss 0.0003):  34%|███▎      | 5695/16950 [1:05:36<1:47:53,  1.74it/s]Training 2/3 epoch (loss 0.0002):  34%|███▎      | 5695/16950 [1:05:37<1:47:53,  1.74it/s]Training 2/3 epoch (loss 0.0002):  34%|███▎      | 5696/16950 [1:05:37<1:39:07,  1.89it/s]Training 2/3 epoch (loss 0.0177):  34%|███▎      | 5696/16950 [1:05:37<1:39:07,  1.89it/s]Training 2/3 epoch (loss 0.0177):  34%|███▎      | 5697/16950 [1:05:37<1:37:19,  1.93it/s]Training 2/3 epoch (loss 0.0637):  34%|███▎      | 5697/16950 [1:05:38<1:37:19,  1.93it/s]Training 2/3 epoch (loss 0.0637):  34%|███▎      | 5698/16950 [1:05:38<1:56:00,  1.62it/s]Training 2/3 epoch (loss 0.9136):  34%|███▎      | 5698/16950 [1:05:39<1:56:00,  1.62it/s]Training 2/3 epoch (loss 0.9136):  34%|███▎      | 5699/16950 [1:05:39<2:28:05,  1.27it/s]Training 2/3 epoch (loss 0.0025):  34%|███▎      | 5699/16950 [1:05:40<2:28:05,  1.27it/s]Training 2/3 epoch (loss 0.0025):  34%|███▎      | 5700/16950 [1:05:40<2:13:55,  1.40it/s]Training 2/3 epoch (loss 0.1505):  34%|███▎      | 5700/16950 [1:05:40<2:13:55,  1.40it/s]Training 2/3 epoch (loss 0.1505):  34%|███▎      | 5701/16950 [1:05:40<1:58:09,  1.59it/s]Training 2/3 epoch (loss 0.7559):  34%|███▎      | 5701/16950 [1:05:41<1:58:09,  1.59it/s]Training 2/3 epoch (loss 0.7559):  34%|███▎      | 5702/16950 [1:05:41<2:05:21,  1.50it/s]Training 2/3 epoch (loss 0.0553):  34%|███▎      | 5702/16950 [1:05:42<2:05:21,  1.50it/s]Training 2/3 epoch (loss 0.0553):  34%|███▎      | 5703/16950 [1:05:42<2:11:46,  1.42it/s]Training 2/3 epoch (loss 0.3115):  34%|███▎      | 5703/16950 [1:05:43<2:11:46,  1.42it/s]Training 2/3 epoch (loss 0.3115):  34%|███▎      | 5704/16950 [1:05:43<2:20:10,  1.34it/s]Training 2/3 epoch (loss 0.0237):  34%|███▎      | 5704/16950 [1:05:43<2:20:10,  1.34it/s]Training 2/3 epoch (loss 0.0237):  34%|███▎      | 5705/16950 [1:05:43<2:12:56,  1.41it/s]Training 2/3 epoch (loss 0.1824):  34%|███▎      | 5705/16950 [1:05:44<2:12:56,  1.41it/s]Training 2/3 epoch (loss 0.1824):  34%|███▎      | 5706/16950 [1:05:44<2:11:50,  1.42it/s]Training 2/3 epoch (loss 0.3299):  34%|███▎      | 5706/16950 [1:05:44<2:11:50,  1.42it/s]Training 2/3 epoch (loss 0.3299):  34%|███▎      | 5707/16950 [1:05:44<2:06:29,  1.48it/s]Training 2/3 epoch (loss 0.0026):  34%|███▎      | 5707/16950 [1:05:45<2:06:29,  1.48it/s]Training 2/3 epoch (loss 0.0026):  34%|███▎      | 5708/16950 [1:05:45<2:07:58,  1.46it/s]Training 2/3 epoch (loss 0.0490):  34%|███▎      | 5708/16950 [1:05:46<2:07:58,  1.46it/s]Training 2/3 epoch (loss 0.0490):  34%|███▎      | 5709/16950 [1:05:46<1:58:46,  1.58it/s]Training 2/3 epoch (loss 0.4905):  34%|███▎      | 5709/16950 [1:05:47<1:58:46,  1.58it/s]Training 2/3 epoch (loss 0.4905):  34%|███▎      | 5710/16950 [1:05:47<2:13:31,  1.40it/s]Training 2/3 epoch (loss 0.1871):  34%|███▎      | 5710/16950 [1:05:47<2:13:31,  1.40it/s]Training 2/3 epoch (loss 0.1871):  34%|███▎      | 5711/16950 [1:05:47<2:10:54,  1.43it/s]Training 2/3 epoch (loss 0.7448):  34%|███▎      | 5711/16950 [1:05:48<2:10:54,  1.43it/s]Training 2/3 epoch (loss 0.7448):  34%|███▎      | 5712/16950 [1:05:48<1:54:31,  1.64it/s]Training 2/3 epoch (loss 0.0386):  34%|███▎      | 5712/16950 [1:05:48<1:54:31,  1.64it/s]Training 2/3 epoch (loss 0.0386):  34%|███▎      | 5713/16950 [1:05:48<1:56:51,  1.60it/s]Training 2/3 epoch (loss 0.0530):  34%|███▎      | 5713/16950 [1:05:49<1:56:51,  1.60it/s]Training 2/3 epoch (loss 0.0530):  34%|███▎      | 5714/16950 [1:05:49<2:03:57,  1.51it/s]Training 2/3 epoch (loss 0.1542):  34%|███▎      | 5714/16950 [1:05:50<2:03:57,  1.51it/s]Training 2/3 epoch (loss 0.1542):  34%|███▎      | 5715/16950 [1:05:50<2:25:26,  1.29it/s]Training 2/3 epoch (loss 0.0642):  34%|███▎      | 5715/16950 [1:05:51<2:25:26,  1.29it/s]Training 2/3 epoch (loss 0.0642):  34%|███▎      | 5716/16950 [1:05:51<2:18:53,  1.35it/s]Training 2/3 epoch (loss 0.0033):  34%|███▎      | 5716/16950 [1:05:51<2:18:53,  1.35it/s]Training 2/3 epoch (loss 0.0033):  34%|███▎      | 5717/16950 [1:05:51<2:00:53,  1.55it/s]Training 2/3 epoch (loss 0.3082):  34%|███▎      | 5717/16950 [1:05:52<2:00:53,  1.55it/s]Training 2/3 epoch (loss 0.3082):  34%|███▎      | 5718/16950 [1:05:52<1:52:50,  1.66it/s]Training 2/3 epoch (loss 0.0601):  34%|███▎      | 5718/16950 [1:05:53<1:52:50,  1.66it/s]Training 2/3 epoch (loss 0.0601):  34%|███▎      | 5719/16950 [1:05:53<2:07:49,  1.46it/s]Training 2/3 epoch (loss 0.0680):  34%|███▎      | 5719/16950 [1:05:53<2:07:49,  1.46it/s]Training 2/3 epoch (loss 0.0680):  34%|███▎      | 5720/16950 [1:05:53<1:58:16,  1.58it/s]Training 2/3 epoch (loss 0.3443):  34%|███▎      | 5720/16950 [1:05:54<1:58:16,  1.58it/s]Training 2/3 epoch (loss 0.3443):  34%|███▍      | 5721/16950 [1:05:54<2:10:28,  1.43it/s]Training 2/3 epoch (loss 0.7630):  34%|███▍      | 5721/16950 [1:05:55<2:10:28,  1.43it/s]Training 2/3 epoch (loss 0.7630):  34%|███▍      | 5722/16950 [1:05:55<2:06:17,  1.48it/s]Training 2/3 epoch (loss 0.0359):  34%|███▍      | 5722/16950 [1:05:55<2:06:17,  1.48it/s]Training 2/3 epoch (loss 0.0359):  34%|███▍      | 5723/16950 [1:05:55<1:57:36,  1.59it/s]Training 2/3 epoch (loss 0.0074):  34%|███▍      | 5723/16950 [1:05:56<1:57:36,  1.59it/s]Training 2/3 epoch (loss 0.0074):  34%|███▍      | 5724/16950 [1:05:56<1:49:31,  1.71it/s]Training 2/3 epoch (loss 0.1073):  34%|███▍      | 5724/16950 [1:05:57<1:49:31,  1.71it/s]Training 2/3 epoch (loss 0.1073):  34%|███▍      | 5725/16950 [1:05:57<2:09:20,  1.45it/s]Training 2/3 epoch (loss 0.6553):  34%|███▍      | 5725/16950 [1:05:57<2:09:20,  1.45it/s]Training 2/3 epoch (loss 0.6553):  34%|███▍      | 5726/16950 [1:05:57<2:20:49,  1.33it/s]Training 2/3 epoch (loss 0.1285):  34%|███▍      | 5726/16950 [1:05:58<2:20:49,  1.33it/s]Training 2/3 epoch (loss 0.1285):  34%|███▍      | 5727/16950 [1:05:58<2:18:17,  1.35it/s]Training 2/3 epoch (loss 0.5690):  34%|███▍      | 5727/16950 [1:05:59<2:18:17,  1.35it/s]Training 2/3 epoch (loss 0.5690):  34%|███▍      | 5728/16950 [1:05:59<2:00:21,  1.55it/s]Training 2/3 epoch (loss 0.4240):  34%|███▍      | 5728/16950 [1:06:00<2:00:21,  1.55it/s]Training 2/3 epoch (loss 0.4240):  34%|███▍      | 5729/16950 [1:06:00<2:24:46,  1.29it/s]Training 2/3 epoch (loss 0.0089):  34%|███▍      | 5729/16950 [1:06:00<2:24:46,  1.29it/s]Training 2/3 epoch (loss 0.0089):  34%|███▍      | 5730/16950 [1:06:00<2:19:04,  1.34it/s]Training 2/3 epoch (loss 0.4575):  34%|███▍      | 5730/16950 [1:06:01<2:19:04,  1.34it/s]Training 2/3 epoch (loss 0.4575):  34%|███▍      | 5731/16950 [1:06:01<2:19:15,  1.34it/s]Training 2/3 epoch (loss 0.2987):  34%|███▍      | 5731/16950 [1:06:02<2:19:15,  1.34it/s]Training 2/3 epoch (loss 0.2987):  34%|███▍      | 5732/16950 [1:06:02<2:05:48,  1.49it/s]Training 2/3 epoch (loss 0.0058):  34%|███▍      | 5732/16950 [1:06:02<2:05:48,  1.49it/s]Training 2/3 epoch (loss 0.0058):  34%|███▍      | 5733/16950 [1:06:02<2:01:09,  1.54it/s]Training 2/3 epoch (loss 0.0008):  34%|███▍      | 5733/16950 [1:06:03<2:01:09,  1.54it/s]Training 2/3 epoch (loss 0.0008):  34%|███▍      | 5734/16950 [1:06:03<1:51:59,  1.67it/s]Training 2/3 epoch (loss 0.0011):  34%|███▍      | 5734/16950 [1:06:03<1:51:59,  1.67it/s]Training 2/3 epoch (loss 0.0011):  34%|███▍      | 5735/16950 [1:06:03<1:49:47,  1.70it/s]Training 2/3 epoch (loss 0.1973):  34%|███▍      | 5735/16950 [1:06:04<1:49:47,  1.70it/s]Training 2/3 epoch (loss 0.1973):  34%|███▍      | 5736/16950 [1:06:04<1:40:26,  1.86it/s]Training 2/3 epoch (loss 0.4043):  34%|███▍      | 5736/16950 [1:06:05<1:40:26,  1.86it/s]Training 2/3 epoch (loss 0.4043):  34%|███▍      | 5737/16950 [1:06:05<2:07:46,  1.46it/s]Training 2/3 epoch (loss 0.1137):  34%|███▍      | 5737/16950 [1:06:05<2:07:46,  1.46it/s]Training 2/3 epoch (loss 0.1137):  34%|███▍      | 5738/16950 [1:06:05<1:59:53,  1.56it/s]Training 2/3 epoch (loss 0.0012):  34%|███▍      | 5738/16950 [1:06:06<1:59:53,  1.56it/s]Training 2/3 epoch (loss 0.0012):  34%|███▍      | 5739/16950 [1:06:06<1:57:34,  1.59it/s]Training 2/3 epoch (loss 0.9776):  34%|███▍      | 5739/16950 [1:06:07<1:57:34,  1.59it/s]Training 2/3 epoch (loss 0.9776):  34%|███▍      | 5740/16950 [1:06:07<2:20:26,  1.33it/s]Training 2/3 epoch (loss 0.0013):  34%|███▍      | 5740/16950 [1:06:07<2:20:26,  1.33it/s]Training 2/3 epoch (loss 0.0013):  34%|███▍      | 5741/16950 [1:06:07<2:12:55,  1.41it/s]Training 2/3 epoch (loss 0.0020):  34%|███▍      | 5741/16950 [1:06:08<2:12:55,  1.41it/s]Training 2/3 epoch (loss 0.0020):  34%|███▍      | 5742/16950 [1:06:08<2:00:59,  1.54it/s]Training 2/3 epoch (loss 0.0045):  34%|███▍      | 5742/16950 [1:06:08<2:00:59,  1.54it/s]Training 2/3 epoch (loss 0.0045):  34%|███▍      | 5743/16950 [1:06:08<1:48:59,  1.71it/s]Training 2/3 epoch (loss 0.2979):  34%|███▍      | 5743/16950 [1:06:09<1:48:59,  1.71it/s]Training 2/3 epoch (loss 0.2979):  34%|███▍      | 5744/16950 [1:06:09<1:38:09,  1.90it/s]Training 2/3 epoch (loss 0.1159):  34%|███▍      | 5744/16950 [1:06:09<1:38:09,  1.90it/s]Training 2/3 epoch (loss 0.1159):  34%|███▍      | 5745/16950 [1:06:09<1:42:38,  1.82it/s]Training 2/3 epoch (loss 0.0448):  34%|███▍      | 5745/16950 [1:06:10<1:42:38,  1.82it/s]Training 2/3 epoch (loss 0.0448):  34%|███▍      | 5746/16950 [1:06:10<1:37:03,  1.92it/s]Training 2/3 epoch (loss 0.0905):  34%|███▍      | 5746/16950 [1:06:11<1:37:03,  1.92it/s]Training 2/3 epoch (loss 0.0905):  34%|███▍      | 5747/16950 [1:06:11<1:53:51,  1.64it/s]Training 2/3 epoch (loss 0.0323):  34%|███▍      | 5747/16950 [1:06:12<1:53:51,  1.64it/s]Training 2/3 epoch (loss 0.0323):  34%|███▍      | 5748/16950 [1:06:12<2:21:12,  1.32it/s]Training 2/3 epoch (loss 0.0015):  34%|███▍      | 5748/16950 [1:06:12<2:21:12,  1.32it/s]Training 2/3 epoch (loss 0.0015):  34%|███▍      | 5749/16950 [1:06:12<2:17:43,  1.36it/s]Training 2/3 epoch (loss 0.5375):  34%|███▍      | 5749/16950 [1:06:13<2:17:43,  1.36it/s]Training 2/3 epoch (loss 0.5375):  34%|███▍      | 5750/16950 [1:06:13<2:02:40,  1.52it/s]Training 2/3 epoch (loss 0.1676):  34%|███▍      | 5750/16950 [1:06:13<2:02:40,  1.52it/s]Training 2/3 epoch (loss 0.1676):  34%|███▍      | 5751/16950 [1:06:13<1:47:49,  1.73it/s]Training 2/3 epoch (loss 0.4363):  34%|███▍      | 5751/16950 [1:06:14<1:47:49,  1.73it/s]Training 2/3 epoch (loss 0.4363):  34%|███▍      | 5752/16950 [1:06:14<1:43:57,  1.80it/s]Training 2/3 epoch (loss 0.0944):  34%|███▍      | 5752/16950 [1:06:14<1:43:57,  1.80it/s]Training 2/3 epoch (loss 0.0944):  34%|███▍      | 5753/16950 [1:06:14<1:45:12,  1.77it/s]Training 2/3 epoch (loss 0.0078):  34%|███▍      | 5753/16950 [1:06:15<1:45:12,  1.77it/s]Training 2/3 epoch (loss 0.0078):  34%|███▍      | 5754/16950 [1:06:15<1:49:44,  1.70it/s]Training 2/3 epoch (loss 0.0498):  34%|███▍      | 5754/16950 [1:06:16<1:49:44,  1.70it/s]Training 2/3 epoch (loss 0.0498):  34%|███▍      | 5755/16950 [1:06:16<1:54:00,  1.64it/s]Training 2/3 epoch (loss 0.0480):  34%|███▍      | 5755/16950 [1:06:16<1:54:00,  1.64it/s]Training 2/3 epoch (loss 0.0480):  34%|███▍      | 5756/16950 [1:06:16<1:53:56,  1.64it/s]Training 2/3 epoch (loss 0.5629):  34%|███▍      | 5756/16950 [1:06:17<1:53:56,  1.64it/s]Training 2/3 epoch (loss 0.5629):  34%|███▍      | 5757/16950 [1:06:17<1:48:43,  1.72it/s]Training 2/3 epoch (loss 0.0114):  34%|███▍      | 5757/16950 [1:06:17<1:48:43,  1.72it/s]Training 2/3 epoch (loss 0.0114):  34%|███▍      | 5758/16950 [1:06:17<1:55:07,  1.62it/s]Training 2/3 epoch (loss 0.5024):  34%|███▍      | 5758/16950 [1:06:18<1:55:07,  1.62it/s]Training 2/3 epoch (loss 0.5024):  34%|███▍      | 5759/16950 [1:06:18<2:07:55,  1.46it/s]Training 2/3 epoch (loss 0.0084):  34%|███▍      | 5759/16950 [1:06:19<2:07:55,  1.46it/s]Training 2/3 epoch (loss 0.0084):  34%|███▍      | 5760/16950 [1:06:19<2:11:06,  1.42it/s]Training 2/3 epoch (loss 0.2761):  34%|███▍      | 5760/16950 [1:06:19<2:11:06,  1.42it/s]Training 2/3 epoch (loss 0.2761):  34%|███▍      | 5761/16950 [1:06:19<1:53:21,  1.65it/s]Training 2/3 epoch (loss 0.3443):  34%|███▍      | 5761/16950 [1:06:20<1:53:21,  1.65it/s]Training 2/3 epoch (loss 0.3443):  34%|███▍      | 5762/16950 [1:06:20<1:47:25,  1.74it/s]Training 2/3 epoch (loss 0.0004):  34%|███▍      | 5762/16950 [1:06:20<1:47:25,  1.74it/s]Training 2/3 epoch (loss 0.0004):  34%|███▍      | 5763/16950 [1:06:20<1:39:28,  1.87it/s]Training 2/3 epoch (loss 0.0057):  34%|███▍      | 5763/16950 [1:06:21<1:39:28,  1.87it/s]Training 2/3 epoch (loss 0.0057):  34%|███▍      | 5764/16950 [1:06:21<1:32:10,  2.02it/s]Training 2/3 epoch (loss 0.0689):  34%|███▍      | 5764/16950 [1:06:21<1:32:10,  2.02it/s]Training 2/3 epoch (loss 0.0689):  34%|███▍      | 5765/16950 [1:06:21<1:41:55,  1.83it/s]Training 2/3 epoch (loss 0.2373):  34%|███▍      | 5765/16950 [1:06:22<1:41:55,  1.83it/s]Training 2/3 epoch (loss 0.2373):  34%|███▍      | 5766/16950 [1:06:22<1:39:12,  1.88it/s]Training 2/3 epoch (loss 0.0643):  34%|███▍      | 5766/16950 [1:06:23<1:39:12,  1.88it/s]Training 2/3 epoch (loss 0.0643):  34%|███▍      | 5767/16950 [1:06:23<1:38:45,  1.89it/s]Training 2/3 epoch (loss 0.1094):  34%|███▍      | 5767/16950 [1:06:23<1:38:45,  1.89it/s]Training 2/3 epoch (loss 0.1094):  34%|███▍      | 5768/16950 [1:06:23<1:48:40,  1.72it/s]Training 2/3 epoch (loss 0.4510):  34%|███▍      | 5768/16950 [1:06:24<1:48:40,  1.72it/s]Training 2/3 epoch (loss 0.4510):  34%|███▍      | 5769/16950 [1:06:24<1:43:19,  1.80it/s]Training 2/3 epoch (loss 0.0004):  34%|███▍      | 5769/16950 [1:06:24<1:43:19,  1.80it/s]Training 2/3 epoch (loss 0.0004):  34%|███▍      | 5770/16950 [1:06:24<1:37:28,  1.91it/s]Training 2/3 epoch (loss 0.2737):  34%|███▍      | 5770/16950 [1:06:25<1:37:28,  1.91it/s]Training 2/3 epoch (loss 0.2737):  34%|███▍      | 5771/16950 [1:06:25<1:36:11,  1.94it/s]Training 2/3 epoch (loss 0.0887):  34%|███▍      | 5771/16950 [1:06:25<1:36:11,  1.94it/s]Training 2/3 epoch (loss 0.0887):  34%|███▍      | 5772/16950 [1:06:25<1:31:40,  2.03it/s]Training 2/3 epoch (loss 0.1338):  34%|███▍      | 5772/16950 [1:06:26<1:31:40,  2.03it/s]Training 2/3 epoch (loss 0.1338):  34%|███▍      | 5773/16950 [1:06:26<1:31:42,  2.03it/s]Training 2/3 epoch (loss 0.1261):  34%|███▍      | 5773/16950 [1:06:26<1:31:42,  2.03it/s]Training 2/3 epoch (loss 0.1261):  34%|███▍      | 5774/16950 [1:06:26<1:39:21,  1.87it/s]Training 2/3 epoch (loss 0.0103):  34%|███▍      | 5774/16950 [1:06:27<1:39:21,  1.87it/s]Training 2/3 epoch (loss 0.0103):  34%|███▍      | 5775/16950 [1:06:27<1:49:23,  1.70it/s]Training 2/3 epoch (loss 0.4093):  34%|███▍      | 5775/16950 [1:06:28<1:49:23,  1.70it/s]Training 2/3 epoch (loss 0.4093):  34%|███▍      | 5776/16950 [1:06:28<1:51:06,  1.68it/s]Training 2/3 epoch (loss 0.4480):  34%|███▍      | 5776/16950 [1:06:28<1:51:06,  1.68it/s]Training 2/3 epoch (loss 0.4480):  34%|███▍      | 5777/16950 [1:06:28<1:44:23,  1.78it/s]Training 2/3 epoch (loss 0.4116):  34%|███▍      | 5777/16950 [1:06:29<1:44:23,  1.78it/s]Training 2/3 epoch (loss 0.4116):  34%|███▍      | 5778/16950 [1:06:29<2:00:11,  1.55it/s]Training 2/3 epoch (loss 0.4474):  34%|███▍      | 5778/16950 [1:06:30<2:00:11,  1.55it/s]Training 2/3 epoch (loss 0.4474):  34%|███▍      | 5779/16950 [1:06:30<2:18:24,  1.35it/s]Training 2/3 epoch (loss 0.3220):  34%|███▍      | 5779/16950 [1:06:30<2:18:24,  1.35it/s]Training 2/3 epoch (loss 0.3220):  34%|███▍      | 5780/16950 [1:06:30<2:07:02,  1.47it/s]Training 2/3 epoch (loss 0.4967):  34%|███▍      | 5780/16950 [1:06:31<2:07:02,  1.47it/s]Training 2/3 epoch (loss 0.4967):  34%|███▍      | 5781/16950 [1:06:31<1:50:34,  1.68it/s]Training 2/3 epoch (loss 0.4663):  34%|███▍      | 5781/16950 [1:06:32<1:50:34,  1.68it/s]Training 2/3 epoch (loss 0.4663):  34%|███▍      | 5782/16950 [1:06:32<2:21:02,  1.32it/s]Training 2/3 epoch (loss 0.0006):  34%|███▍      | 5782/16950 [1:06:33<2:21:02,  1.32it/s]Training 2/3 epoch (loss 0.0006):  34%|███▍      | 5783/16950 [1:06:33<2:25:29,  1.28it/s]Training 2/3 epoch (loss 0.8418):  34%|███▍      | 5783/16950 [1:06:33<2:25:29,  1.28it/s]Training 2/3 epoch (loss 0.8418):  34%|███▍      | 5784/16950 [1:06:33<2:09:29,  1.44it/s]Training 2/3 epoch (loss 0.3285):  34%|███▍      | 5784/16950 [1:06:34<2:09:29,  1.44it/s]Training 2/3 epoch (loss 0.3285):  34%|███▍      | 5785/16950 [1:06:34<2:04:39,  1.49it/s]Training 2/3 epoch (loss 0.0143):  34%|███▍      | 5785/16950 [1:06:35<2:04:39,  1.49it/s]Training 2/3 epoch (loss 0.0143):  34%|███▍      | 5786/16950 [1:06:35<2:10:15,  1.43it/s]Training 2/3 epoch (loss 0.4361):  34%|███▍      | 5786/16950 [1:06:36<2:10:15,  1.43it/s]Training 2/3 epoch (loss 0.4361):  34%|███▍      | 5787/16950 [1:06:36<2:28:53,  1.25it/s]Training 2/3 epoch (loss 0.0226):  34%|███▍      | 5787/16950 [1:06:36<2:28:53,  1.25it/s]Training 2/3 epoch (loss 0.0226):  34%|███▍      | 5788/16950 [1:06:36<2:28:59,  1.25it/s]Training 2/3 epoch (loss 0.0047):  34%|███▍      | 5788/16950 [1:06:37<2:28:59,  1.25it/s]Training 2/3 epoch (loss 0.0047):  34%|███▍      | 5789/16950 [1:06:37<2:26:36,  1.27it/s]Training 2/3 epoch (loss 0.0349):  34%|███▍      | 5789/16950 [1:06:38<2:26:36,  1.27it/s]Training 2/3 epoch (loss 0.0349):  34%|███▍      | 5790/16950 [1:06:38<2:17:28,  1.35it/s]Training 2/3 epoch (loss 0.0014):  34%|███▍      | 5790/16950 [1:06:38<2:17:28,  1.35it/s]Training 2/3 epoch (loss 0.0014):  34%|███▍      | 5791/16950 [1:06:38<2:06:59,  1.46it/s]Training 2/3 epoch (loss 0.0014):  34%|███▍      | 5791/16950 [1:06:39<2:06:59,  1.46it/s]Training 2/3 epoch (loss 0.0014):  34%|███▍      | 5792/16950 [1:06:39<1:58:38,  1.57it/s]Training 2/3 epoch (loss 0.0158):  34%|███▍      | 5792/16950 [1:06:40<1:58:38,  1.57it/s]Training 2/3 epoch (loss 0.0158):  34%|███▍      | 5793/16950 [1:06:40<2:12:15,  1.41it/s]Training 2/3 epoch (loss 0.0003):  34%|███▍      | 5793/16950 [1:06:40<2:12:15,  1.41it/s]Training 2/3 epoch (loss 0.0003):  34%|███▍      | 5794/16950 [1:06:40<1:51:54,  1.66it/s]Training 2/3 epoch (loss 0.0649):  34%|███▍      | 5794/16950 [1:06:41<1:51:54,  1.66it/s]Training 2/3 epoch (loss 0.0649):  34%|███▍      | 5795/16950 [1:06:41<1:43:12,  1.80it/s]Training 2/3 epoch (loss 0.0357):  34%|███▍      | 5795/16950 [1:06:41<1:43:12,  1.80it/s]Training 2/3 epoch (loss 0.0357):  34%|███▍      | 5796/16950 [1:06:41<1:47:52,  1.72it/s]Training 2/3 epoch (loss 0.0461):  34%|███▍      | 5796/16950 [1:06:42<1:47:52,  1.72it/s]Training 2/3 epoch (loss 0.0461):  34%|███▍      | 5797/16950 [1:06:42<2:06:38,  1.47it/s]Training 2/3 epoch (loss 0.0727):  34%|███▍      | 5797/16950 [1:06:43<2:06:38,  1.47it/s]Training 2/3 epoch (loss 0.0727):  34%|███▍      | 5798/16950 [1:06:43<2:01:40,  1.53it/s]Training 2/3 epoch (loss 0.5418):  34%|███▍      | 5798/16950 [1:06:43<2:01:40,  1.53it/s]Training 2/3 epoch (loss 0.5418):  34%|███▍      | 5799/16950 [1:06:43<1:50:12,  1.69it/s]Training 2/3 epoch (loss 0.0032):  34%|███▍      | 5799/16950 [1:06:44<1:50:12,  1.69it/s]Training 2/3 epoch (loss 0.0032):  34%|███▍      | 5800/16950 [1:06:44<1:41:08,  1.84it/s]Training 2/3 epoch (loss 0.4582):  34%|███▍      | 5800/16950 [1:06:44<1:41:08,  1.84it/s]Training 2/3 epoch (loss 0.4582):  34%|███▍      | 5801/16950 [1:06:44<1:35:28,  1.95it/s]Training 2/3 epoch (loss 0.0838):  34%|███▍      | 5801/16950 [1:06:45<1:35:28,  1.95it/s]Training 2/3 epoch (loss 0.0838):  34%|███▍      | 5802/16950 [1:06:45<1:41:21,  1.83it/s]Training 2/3 epoch (loss 0.0204):  34%|███▍      | 5802/16950 [1:06:45<1:41:21,  1.83it/s]Training 2/3 epoch (loss 0.0204):  34%|███▍      | 5803/16950 [1:06:45<1:49:33,  1.70it/s]Training 2/3 epoch (loss 0.8311):  34%|███▍      | 5803/16950 [1:06:46<1:49:33,  1.70it/s]Training 2/3 epoch (loss 0.8311):  34%|███▍      | 5804/16950 [1:06:46<1:42:23,  1.81it/s]Training 2/3 epoch (loss 0.0118):  34%|███▍      | 5804/16950 [1:06:46<1:42:23,  1.81it/s]Training 2/3 epoch (loss 0.0118):  34%|███▍      | 5805/16950 [1:06:46<1:38:43,  1.88it/s]Training 2/3 epoch (loss 0.0051):  34%|███▍      | 5805/16950 [1:06:47<1:38:43,  1.88it/s]Training 2/3 epoch (loss 0.0051):  34%|███▍      | 5806/16950 [1:06:47<1:33:56,  1.98it/s]Training 2/3 epoch (loss 0.1292):  34%|███▍      | 5806/16950 [1:06:47<1:33:56,  1.98it/s]Training 2/3 epoch (loss 0.1292):  34%|███▍      | 5807/16950 [1:06:47<1:44:48,  1.77it/s]Training 2/3 epoch (loss 0.7102):  34%|███▍      | 5807/16950 [1:06:48<1:44:48,  1.77it/s]Training 2/3 epoch (loss 0.7102):  34%|███▍      | 5808/16950 [1:06:48<1:49:48,  1.69it/s]Training 2/3 epoch (loss 0.0331):  34%|███▍      | 5808/16950 [1:06:49<1:49:48,  1.69it/s]Training 2/3 epoch (loss 0.0331):  34%|███▍      | 5809/16950 [1:06:49<1:48:10,  1.72it/s]Training 2/3 epoch (loss 0.0009):  34%|███▍      | 5809/16950 [1:06:49<1:48:10,  1.72it/s]Training 2/3 epoch (loss 0.0009):  34%|███▍      | 5810/16950 [1:06:49<1:41:55,  1.82it/s]Training 2/3 epoch (loss 0.0944):  34%|███▍      | 5810/16950 [1:06:50<1:41:55,  1.82it/s]Training 2/3 epoch (loss 0.0944):  34%|███▍      | 5811/16950 [1:06:50<1:44:52,  1.77it/s]Training 2/3 epoch (loss 0.0725):  34%|███▍      | 5811/16950 [1:06:50<1:44:52,  1.77it/s]Training 2/3 epoch (loss 0.0725):  34%|███▍      | 5812/16950 [1:06:50<1:43:42,  1.79it/s]Training 2/3 epoch (loss 0.0490):  34%|███▍      | 5812/16950 [1:06:51<1:43:42,  1.79it/s]Training 2/3 epoch (loss 0.0490):  34%|███▍      | 5813/16950 [1:06:51<1:48:26,  1.71it/s]Training 2/3 epoch (loss 0.0022):  34%|███▍      | 5813/16950 [1:06:51<1:48:26,  1.71it/s]Training 2/3 epoch (loss 0.0022):  34%|███▍      | 5814/16950 [1:06:51<1:44:07,  1.78it/s]Training 2/3 epoch (loss 0.5831):  34%|███▍      | 5814/16950 [1:06:52<1:44:07,  1.78it/s]Training 2/3 epoch (loss 0.5831):  34%|███▍      | 5815/16950 [1:06:52<2:05:19,  1.48it/s]Training 2/3 epoch (loss 0.0298):  34%|███▍      | 5815/16950 [1:06:53<2:05:19,  1.48it/s]Training 2/3 epoch (loss 0.0298):  34%|███▍      | 5816/16950 [1:06:53<1:56:22,  1.59it/s]Training 2/3 epoch (loss 0.4645):  34%|███▍      | 5816/16950 [1:06:53<1:56:22,  1.59it/s]Training 2/3 epoch (loss 0.4645):  34%|███▍      | 5817/16950 [1:06:53<1:48:10,  1.72it/s]Training 2/3 epoch (loss 0.0628):  34%|███▍      | 5817/16950 [1:06:54<1:48:10,  1.72it/s]Training 2/3 epoch (loss 0.0628):  34%|███▍      | 5818/16950 [1:06:54<1:51:40,  1.66it/s]Training 2/3 epoch (loss 0.0090):  34%|███▍      | 5818/16950 [1:06:55<1:51:40,  1.66it/s]Training 2/3 epoch (loss 0.0090):  34%|███▍      | 5819/16950 [1:06:55<1:50:45,  1.67it/s]Training 2/3 epoch (loss 0.0051):  34%|███▍      | 5819/16950 [1:06:55<1:50:45,  1.67it/s]Training 2/3 epoch (loss 0.0051):  34%|███▍      | 5820/16950 [1:06:55<1:40:22,  1.85it/s]Training 2/3 epoch (loss 0.3223):  34%|███▍      | 5820/16950 [1:06:56<1:40:22,  1.85it/s]Training 2/3 epoch (loss 0.3223):  34%|███▍      | 5821/16950 [1:06:56<1:39:56,  1.86it/s]Training 2/3 epoch (loss 0.0015):  34%|███▍      | 5821/16950 [1:06:56<1:39:56,  1.86it/s]Training 2/3 epoch (loss 0.0015):  34%|███▍      | 5822/16950 [1:06:56<1:43:24,  1.79it/s]Training 2/3 epoch (loss 0.0016):  34%|███▍      | 5822/16950 [1:06:57<1:43:24,  1.79it/s]Training 2/3 epoch (loss 0.0016):  34%|███▍      | 5823/16950 [1:06:57<1:45:28,  1.76it/s]Training 2/3 epoch (loss 0.2971):  34%|███▍      | 5823/16950 [1:06:57<1:45:28,  1.76it/s]Training 2/3 epoch (loss 0.2971):  34%|███▍      | 5824/16950 [1:06:57<1:53:33,  1.63it/s]Training 2/3 epoch (loss 0.0729):  34%|███▍      | 5824/16950 [1:06:58<1:53:33,  1.63it/s]Training 2/3 epoch (loss 0.0729):  34%|███▍      | 5825/16950 [1:06:58<1:52:46,  1.64it/s]Training 2/3 epoch (loss 0.0009):  34%|███▍      | 5825/16950 [1:06:59<1:52:46,  1.64it/s]Training 2/3 epoch (loss 0.0009):  34%|███▍      | 5826/16950 [1:06:59<1:46:33,  1.74it/s]Training 2/3 epoch (loss 0.0011):  34%|███▍      | 5826/16950 [1:06:59<1:46:33,  1.74it/s]Training 2/3 epoch (loss 0.0011):  34%|███▍      | 5827/16950 [1:06:59<1:35:20,  1.94it/s]Training 2/3 epoch (loss 0.0431):  34%|███▍      | 5827/16950 [1:06:59<1:35:20,  1.94it/s]Training 2/3 epoch (loss 0.0431):  34%|███▍      | 5828/16950 [1:06:59<1:24:56,  2.18it/s]Training 2/3 epoch (loss 0.2544):  34%|███▍      | 5828/16950 [1:07:00<1:24:56,  2.18it/s]Training 2/3 epoch (loss 0.2544):  34%|███▍      | 5829/16950 [1:07:00<1:53:08,  1.64it/s]Training 2/3 epoch (loss 0.2022):  34%|███▍      | 5829/16950 [1:07:01<1:53:08,  1.64it/s]Training 2/3 epoch (loss 0.2022):  34%|███▍      | 5830/16950 [1:07:01<2:00:34,  1.54it/s]Training 2/3 epoch (loss 0.0770):  34%|███▍      | 5830/16950 [1:07:02<2:00:34,  1.54it/s]Training 2/3 epoch (loss 0.0770):  34%|███▍      | 5831/16950 [1:07:02<1:57:42,  1.57it/s]Training 2/3 epoch (loss 0.0474):  34%|███▍      | 5831/16950 [1:07:02<1:57:42,  1.57it/s]Training 2/3 epoch (loss 0.0474):  34%|███▍      | 5832/16950 [1:07:02<1:58:52,  1.56it/s]Training 2/3 epoch (loss 0.5047):  34%|███▍      | 5832/16950 [1:07:03<1:58:52,  1.56it/s]Training 2/3 epoch (loss 0.5047):  34%|███▍      | 5833/16950 [1:07:03<1:46:32,  1.74it/s]Training 2/3 epoch (loss 0.9742):  34%|███▍      | 5833/16950 [1:07:03<1:46:32,  1.74it/s]Training 2/3 epoch (loss 0.9742):  34%|███▍      | 5834/16950 [1:07:03<1:40:33,  1.84it/s]Training 2/3 epoch (loss 0.3463):  34%|███▍      | 5834/16950 [1:07:04<1:40:33,  1.84it/s]Training 2/3 epoch (loss 0.3463):  34%|███▍      | 5835/16950 [1:07:04<1:40:34,  1.84it/s]Training 2/3 epoch (loss 0.1246):  34%|███▍      | 5835/16950 [1:07:04<1:40:34,  1.84it/s]Training 2/3 epoch (loss 0.1246):  34%|███▍      | 5836/16950 [1:07:04<1:46:22,  1.74it/s]Training 2/3 epoch (loss 0.0024):  34%|███▍      | 5836/16950 [1:07:05<1:46:22,  1.74it/s]Training 2/3 epoch (loss 0.0024):  34%|███▍      | 5837/16950 [1:07:05<1:39:21,  1.86it/s]Training 2/3 epoch (loss 0.0279):  34%|███▍      | 5837/16950 [1:07:05<1:39:21,  1.86it/s]Training 2/3 epoch (loss 0.0279):  34%|███▍      | 5838/16950 [1:07:05<1:32:02,  2.01it/s]Training 2/3 epoch (loss 0.0025):  34%|███▍      | 5838/16950 [1:07:06<1:32:02,  2.01it/s]Training 2/3 epoch (loss 0.0025):  34%|███▍      | 5839/16950 [1:07:06<1:37:10,  1.91it/s]Training 2/3 epoch (loss 0.0346):  34%|███▍      | 5839/16950 [1:07:06<1:37:10,  1.91it/s]Training 2/3 epoch (loss 0.0346):  34%|███▍      | 5840/16950 [1:07:06<1:34:29,  1.96it/s]Training 2/3 epoch (loss 0.1078):  34%|███▍      | 5840/16950 [1:07:07<1:34:29,  1.96it/s]Training 2/3 epoch (loss 0.1078):  34%|███▍      | 5841/16950 [1:07:07<1:28:57,  2.08it/s]Training 2/3 epoch (loss 0.0164):  34%|███▍      | 5841/16950 [1:07:07<1:28:57,  2.08it/s]Training 2/3 epoch (loss 0.0164):  34%|███▍      | 5842/16950 [1:07:07<1:35:43,  1.93it/s]Training 2/3 epoch (loss 0.3950):  34%|███▍      | 5842/16950 [1:07:08<1:35:43,  1.93it/s]Training 2/3 epoch (loss 0.3950):  34%|███▍      | 5843/16950 [1:07:08<1:25:10,  2.17it/s]Training 2/3 epoch (loss 0.3070):  34%|███▍      | 5843/16950 [1:07:08<1:25:10,  2.17it/s]Training 2/3 epoch (loss 0.3070):  34%|███▍      | 5844/16950 [1:07:08<1:23:10,  2.23it/s]Training 2/3 epoch (loss 0.4066):  34%|███▍      | 5844/16950 [1:07:09<1:23:10,  2.23it/s]Training 2/3 epoch (loss 0.4066):  34%|███▍      | 5845/16950 [1:07:09<1:37:05,  1.91it/s]Training 2/3 epoch (loss 0.0570):  34%|███▍      | 5845/16950 [1:07:09<1:37:05,  1.91it/s]Training 2/3 epoch (loss 0.0570):  34%|███▍      | 5846/16950 [1:07:09<1:40:20,  1.84it/s]Training 2/3 epoch (loss 0.0706):  34%|███▍      | 5846/16950 [1:07:10<1:40:20,  1.84it/s]Training 2/3 epoch (loss 0.0706):  34%|███▍      | 5847/16950 [1:07:10<1:59:42,  1.55it/s]Training 2/3 epoch (loss 0.0325):  34%|███▍      | 5847/16950 [1:07:11<1:59:42,  1.55it/s]Training 2/3 epoch (loss 0.0325):  35%|███▍      | 5848/16950 [1:07:11<2:03:39,  1.50it/s]Training 2/3 epoch (loss 0.3737):  35%|███▍      | 5848/16950 [1:07:12<2:03:39,  1.50it/s]Training 2/3 epoch (loss 0.3737):  35%|███▍      | 5849/16950 [1:07:12<2:14:32,  1.38it/s]Training 2/3 epoch (loss 0.2471):  35%|███▍      | 5849/16950 [1:07:12<2:14:32,  1.38it/s]Training 2/3 epoch (loss 0.2471):  35%|███▍      | 5850/16950 [1:07:12<2:04:09,  1.49it/s]Training 2/3 epoch (loss 0.4536):  35%|███▍      | 5850/16950 [1:07:13<2:04:09,  1.49it/s]Training 2/3 epoch (loss 0.4536):  35%|███▍      | 5851/16950 [1:07:13<1:45:00,  1.76it/s]Training 2/3 epoch (loss 0.4557):  35%|███▍      | 5851/16950 [1:07:13<1:45:00,  1.76it/s]Training 2/3 epoch (loss 0.4557):  35%|███▍      | 5852/16950 [1:07:13<1:35:05,  1.95it/s]Training 2/3 epoch (loss 0.6586):  35%|███▍      | 5852/16950 [1:07:14<1:35:05,  1.95it/s]Training 2/3 epoch (loss 0.6586):  35%|███▍      | 5853/16950 [1:07:14<1:56:04,  1.59it/s]Training 2/3 epoch (loss 0.5931):  35%|███▍      | 5853/16950 [1:07:15<1:56:04,  1.59it/s]Training 2/3 epoch (loss 0.5931):  35%|███▍      | 5854/16950 [1:07:15<2:04:34,  1.48it/s]Training 2/3 epoch (loss 0.0308):  35%|███▍      | 5854/16950 [1:07:15<2:04:34,  1.48it/s]Training 2/3 epoch (loss 0.0308):  35%|███▍      | 5855/16950 [1:07:15<1:55:40,  1.60it/s]Training 2/3 epoch (loss 0.0631):  35%|███▍      | 5855/16950 [1:07:16<1:55:40,  1.60it/s]Training 2/3 epoch (loss 0.0631):  35%|███▍      | 5856/16950 [1:07:16<1:47:47,  1.72it/s]Training 2/3 epoch (loss 0.0195):  35%|███▍      | 5856/16950 [1:07:17<1:47:47,  1.72it/s]Training 2/3 epoch (loss 0.0195):  35%|███▍      | 5857/16950 [1:07:17<2:06:35,  1.46it/s]Training 2/3 epoch (loss 0.3829):  35%|███▍      | 5857/16950 [1:07:17<2:06:35,  1.46it/s]Training 2/3 epoch (loss 0.3829):  35%|███▍      | 5858/16950 [1:07:17<2:08:54,  1.43it/s]Training 2/3 epoch (loss 0.4834):  35%|███▍      | 5858/16950 [1:07:18<2:08:54,  1.43it/s]Training 2/3 epoch (loss 0.4834):  35%|███▍      | 5859/16950 [1:07:18<2:09:42,  1.43it/s]Training 2/3 epoch (loss 0.1352):  35%|███▍      | 5859/16950 [1:07:19<2:09:42,  1.43it/s]Training 2/3 epoch (loss 0.1352):  35%|███▍      | 5860/16950 [1:07:19<1:58:17,  1.56it/s]Training 2/3 epoch (loss 0.0013):  35%|███▍      | 5860/16950 [1:07:19<1:58:17,  1.56it/s]Training 2/3 epoch (loss 0.0013):  35%|███▍      | 5861/16950 [1:07:19<1:49:41,  1.68it/s]Training 2/3 epoch (loss 0.0002):  35%|███▍      | 5861/16950 [1:07:20<1:49:41,  1.68it/s]Training 2/3 epoch (loss 0.0002):  35%|███▍      | 5862/16950 [1:07:20<1:47:07,  1.73it/s]Training 2/3 epoch (loss 0.2623):  35%|███▍      | 5862/16950 [1:07:20<1:47:07,  1.73it/s]Training 2/3 epoch (loss 0.2623):  35%|███▍      | 5863/16950 [1:07:20<1:45:20,  1.75it/s]Training 2/3 epoch (loss 0.0016):  35%|███▍      | 5863/16950 [1:07:21<1:45:20,  1.75it/s]Training 2/3 epoch (loss 0.0016):  35%|███▍      | 5864/16950 [1:07:21<1:38:58,  1.87it/s]Training 2/3 epoch (loss 0.3896):  35%|███▍      | 5864/16950 [1:07:21<1:38:58,  1.87it/s]Training 2/3 epoch (loss 0.3896):  35%|███▍      | 5865/16950 [1:07:21<1:46:22,  1.74it/s]Training 2/3 epoch (loss 0.0133):  35%|███▍      | 5865/16950 [1:07:22<1:46:22,  1.74it/s]Training 2/3 epoch (loss 0.0133):  35%|███▍      | 5866/16950 [1:07:22<1:43:15,  1.79it/s]Training 2/3 epoch (loss 0.3817):  35%|███▍      | 5866/16950 [1:07:22<1:43:15,  1.79it/s]Training 2/3 epoch (loss 0.3817):  35%|███▍      | 5867/16950 [1:07:22<1:44:47,  1.76it/s]Training 2/3 epoch (loss 0.6588):  35%|███▍      | 5867/16950 [1:07:23<1:44:47,  1.76it/s]Training 2/3 epoch (loss 0.6588):  35%|███▍      | 5868/16950 [1:07:23<1:49:31,  1.69it/s]Training 2/3 epoch (loss 0.0164):  35%|███▍      | 5868/16950 [1:07:23<1:49:31,  1.69it/s]Training 2/3 epoch (loss 0.0164):  35%|███▍      | 5869/16950 [1:07:23<1:42:42,  1.80it/s]Training 2/3 epoch (loss 0.0081):  35%|███▍      | 5869/16950 [1:07:24<1:42:42,  1.80it/s]Training 2/3 epoch (loss 0.0081):  35%|███▍      | 5870/16950 [1:07:24<2:08:25,  1.44it/s]Training 2/3 epoch (loss 0.0719):  35%|███▍      | 5870/16950 [1:07:25<2:08:25,  1.44it/s]Training 2/3 epoch (loss 0.0719):  35%|███▍      | 5871/16950 [1:07:25<2:15:08,  1.37it/s]Training 2/3 epoch (loss 0.0019):  35%|███▍      | 5871/16950 [1:07:26<2:15:08,  1.37it/s]Training 2/3 epoch (loss 0.0019):  35%|███▍      | 5872/16950 [1:07:26<2:02:48,  1.50it/s]Training 2/3 epoch (loss 0.1642):  35%|███▍      | 5872/16950 [1:07:26<2:02:48,  1.50it/s]Training 2/3 epoch (loss 0.1642):  35%|███▍      | 5873/16950 [1:07:26<1:56:54,  1.58it/s]Training 2/3 epoch (loss 0.1090):  35%|███▍      | 5873/16950 [1:07:27<1:56:54,  1.58it/s]Training 2/3 epoch (loss 0.1090):  35%|███▍      | 5874/16950 [1:07:27<2:05:23,  1.47it/s]Training 2/3 epoch (loss 0.4101):  35%|███▍      | 5874/16950 [1:07:28<2:05:23,  1.47it/s]Training 2/3 epoch (loss 0.4101):  35%|███▍      | 5875/16950 [1:07:28<1:52:22,  1.64it/s]Training 2/3 epoch (loss 0.0252):  35%|███▍      | 5875/16950 [1:07:28<1:52:22,  1.64it/s]Training 2/3 epoch (loss 0.0252):  35%|███▍      | 5876/16950 [1:07:28<2:03:46,  1.49it/s]Training 2/3 epoch (loss 0.0707):  35%|███▍      | 5876/16950 [1:07:29<2:03:46,  1.49it/s]Training 2/3 epoch (loss 0.0707):  35%|███▍      | 5877/16950 [1:07:29<2:06:00,  1.46it/s]Training 2/3 epoch (loss 0.0381):  35%|███▍      | 5877/16950 [1:07:30<2:06:00,  1.46it/s]Training 2/3 epoch (loss 0.0381):  35%|███▍      | 5878/16950 [1:07:30<2:06:41,  1.46it/s]Training 2/3 epoch (loss 0.0828):  35%|███▍      | 5878/16950 [1:07:31<2:06:41,  1.46it/s]Training 2/3 epoch (loss 0.0828):  35%|███▍      | 5879/16950 [1:07:31<2:25:53,  1.26it/s]Training 2/3 epoch (loss 0.0042):  35%|███▍      | 5879/16950 [1:07:32<2:25:53,  1.26it/s]Training 2/3 epoch (loss 0.0042):  35%|███▍      | 5880/16950 [1:07:32<2:18:45,  1.33it/s]Training 2/3 epoch (loss 0.5762):  35%|███▍      | 5880/16950 [1:07:32<2:18:45,  1.33it/s]Training 2/3 epoch (loss 0.5762):  35%|███▍      | 5881/16950 [1:07:32<2:14:39,  1.37it/s]Training 2/3 epoch (loss 0.1147):  35%|███▍      | 5881/16950 [1:07:33<2:14:39,  1.37it/s]Training 2/3 epoch (loss 0.1147):  35%|███▍      | 5882/16950 [1:07:33<2:08:42,  1.43it/s]Training 2/3 epoch (loss 0.0550):  35%|███▍      | 5882/16950 [1:07:33<2:08:42,  1.43it/s]Training 2/3 epoch (loss 0.0550):  35%|███▍      | 5883/16950 [1:07:33<2:04:58,  1.48it/s]Training 2/3 epoch (loss 0.0290):  35%|███▍      | 5883/16950 [1:07:34<2:04:58,  1.48it/s]Training 2/3 epoch (loss 0.0290):  35%|███▍      | 5884/16950 [1:07:34<2:06:46,  1.45it/s]Training 2/3 epoch (loss 0.0048):  35%|███▍      | 5884/16950 [1:07:35<2:06:46,  1.45it/s]Training 2/3 epoch (loss 0.0048):  35%|███▍      | 5885/16950 [1:07:35<1:59:02,  1.55it/s]Training 2/3 epoch (loss 0.0040):  35%|███▍      | 5885/16950 [1:07:35<1:59:02,  1.55it/s]Training 2/3 epoch (loss 0.0040):  35%|███▍      | 5886/16950 [1:07:35<1:49:23,  1.69it/s]Training 2/3 epoch (loss 0.0004):  35%|███▍      | 5886/16950 [1:07:35<1:49:23,  1.69it/s]Training 2/3 epoch (loss 0.0004):  35%|███▍      | 5887/16950 [1:07:35<1:33:46,  1.97it/s]Training 2/3 epoch (loss 0.0360):  35%|███▍      | 5887/16950 [1:07:36<1:33:46,  1.97it/s]Training 2/3 epoch (loss 0.0360):  35%|███▍      | 5888/16950 [1:07:36<1:38:44,  1.87it/s]Training 2/3 epoch (loss 0.0001):  35%|███▍      | 5888/16950 [1:07:37<1:38:44,  1.87it/s]Training 2/3 epoch (loss 0.0001):  35%|███▍      | 5889/16950 [1:07:37<1:56:58,  1.58it/s]Training 2/3 epoch (loss 0.0440):  35%|███▍      | 5889/16950 [1:07:38<1:56:58,  1.58it/s]Training 2/3 epoch (loss 0.0440):  35%|███▍      | 5890/16950 [1:07:38<2:00:55,  1.52it/s]Training 2/3 epoch (loss 0.3390):  35%|███▍      | 5890/16950 [1:07:38<2:00:55,  1.52it/s]Training 2/3 epoch (loss 0.3390):  35%|███▍      | 5891/16950 [1:07:38<1:54:01,  1.62it/s]Training 2/3 epoch (loss 0.5426):  35%|███▍      | 5891/16950 [1:07:39<1:54:01,  1.62it/s]Training 2/3 epoch (loss 0.5426):  35%|███▍      | 5892/16950 [1:07:39<2:05:16,  1.47it/s]Training 2/3 epoch (loss 0.0042):  35%|███▍      | 5892/16950 [1:07:40<2:05:16,  1.47it/s]Training 2/3 epoch (loss 0.0042):  35%|███▍      | 5893/16950 [1:07:40<2:08:43,  1.43it/s]Training 2/3 epoch (loss 0.3451):  35%|███▍      | 5893/16950 [1:07:40<2:08:43,  1.43it/s]Training 2/3 epoch (loss 0.3451):  35%|███▍      | 5894/16950 [1:07:40<2:00:50,  1.52it/s]Training 2/3 epoch (loss 0.0035):  35%|███▍      | 5894/16950 [1:07:41<2:00:50,  1.52it/s]Training 2/3 epoch (loss 0.0035):  35%|███▍      | 5895/16950 [1:07:41<2:03:12,  1.50it/s]Training 2/3 epoch (loss 0.6877):  35%|███▍      | 5895/16950 [1:07:42<2:03:12,  1.50it/s]Training 2/3 epoch (loss 0.6877):  35%|███▍      | 5896/16950 [1:07:42<2:32:11,  1.21it/s]Training 2/3 epoch (loss 0.2861):  35%|███▍      | 5896/16950 [1:07:43<2:32:11,  1.21it/s]Training 2/3 epoch (loss 0.2861):  35%|███▍      | 5897/16950 [1:07:43<2:43:24,  1.13it/s]Training 2/3 epoch (loss 0.0030):  35%|███▍      | 5897/16950 [1:07:44<2:43:24,  1.13it/s]Training 2/3 epoch (loss 0.0030):  35%|███▍      | 5898/16950 [1:07:44<2:26:24,  1.26it/s]Training 2/3 epoch (loss 0.5171):  35%|███▍      | 5898/16950 [1:07:45<2:26:24,  1.26it/s]Training 2/3 epoch (loss 0.5171):  35%|███▍      | 5899/16950 [1:07:45<2:22:32,  1.29it/s]Training 2/3 epoch (loss 0.0011):  35%|███▍      | 5899/16950 [1:07:45<2:22:32,  1.29it/s]Training 2/3 epoch (loss 0.0011):  35%|███▍      | 5900/16950 [1:07:45<2:06:52,  1.45it/s]Training 2/3 epoch (loss 1.2317):  35%|███▍      | 5900/16950 [1:07:46<2:06:52,  1.45it/s]Training 2/3 epoch (loss 1.2317):  35%|███▍      | 5901/16950 [1:07:46<1:55:20,  1.60it/s]Training 2/3 epoch (loss 0.5775):  35%|███▍      | 5901/16950 [1:07:46<1:55:20,  1.60it/s]Training 2/3 epoch (loss 0.5775):  35%|███▍      | 5902/16950 [1:07:46<1:45:46,  1.74it/s]Training 2/3 epoch (loss 0.0140):  35%|███▍      | 5902/16950 [1:07:46<1:45:46,  1.74it/s]Training 2/3 epoch (loss 0.0140):  35%|███▍      | 5903/16950 [1:07:46<1:38:23,  1.87it/s]Training 2/3 epoch (loss 0.2500):  35%|███▍      | 5903/16950 [1:07:47<1:38:23,  1.87it/s]Training 2/3 epoch (loss 0.2500):  35%|███▍      | 5904/16950 [1:07:47<1:36:42,  1.90it/s]Training 2/3 epoch (loss 0.0074):  35%|███▍      | 5904/16950 [1:07:47<1:36:42,  1.90it/s]Training 2/3 epoch (loss 0.0074):  35%|███▍      | 5905/16950 [1:07:47<1:34:33,  1.95it/s]Training 2/3 epoch (loss 0.4711):  35%|███▍      | 5905/16950 [1:07:48<1:34:33,  1.95it/s]Training 2/3 epoch (loss 0.4711):  35%|███▍      | 5906/16950 [1:07:48<1:43:17,  1.78it/s]Training 2/3 epoch (loss 0.0330):  35%|███▍      | 5906/16950 [1:07:49<1:43:17,  1.78it/s]Training 2/3 epoch (loss 0.0330):  35%|███▍      | 5907/16950 [1:07:49<1:44:32,  1.76it/s]Training 2/3 epoch (loss 0.1940):  35%|███▍      | 5907/16950 [1:07:49<1:44:32,  1.76it/s]Training 2/3 epoch (loss 0.1940):  35%|███▍      | 5908/16950 [1:07:49<1:42:31,  1.79it/s]Training 2/3 epoch (loss 0.0060):  35%|███▍      | 5908/16950 [1:07:50<1:42:31,  1.79it/s]Training 2/3 epoch (loss 0.0060):  35%|███▍      | 5909/16950 [1:07:50<1:36:14,  1.91it/s]Training 2/3 epoch (loss 0.1455):  35%|███▍      | 5909/16950 [1:07:50<1:36:14,  1.91it/s]Training 2/3 epoch (loss 0.1455):  35%|███▍      | 5910/16950 [1:07:50<1:31:26,  2.01it/s]Training 2/3 epoch (loss 0.4134):  35%|███▍      | 5910/16950 [1:07:51<1:31:26,  2.01it/s]Training 2/3 epoch (loss 0.4134):  35%|███▍      | 5911/16950 [1:07:51<1:31:46,  2.00it/s]Training 2/3 epoch (loss 0.2241):  35%|███▍      | 5911/16950 [1:07:51<1:31:46,  2.00it/s]Training 2/3 epoch (loss 0.2241):  35%|███▍      | 5912/16950 [1:07:51<1:27:50,  2.09it/s]Training 2/3 epoch (loss 0.5079):  35%|███▍      | 5912/16950 [1:07:51<1:27:50,  2.09it/s]Training 2/3 epoch (loss 0.5079):  35%|███▍      | 5913/16950 [1:07:51<1:24:27,  2.18it/s]Training 2/3 epoch (loss 0.5080):  35%|███▍      | 5913/16950 [1:07:52<1:24:27,  2.18it/s]Training 2/3 epoch (loss 0.5080):  35%|███▍      | 5914/16950 [1:07:52<1:24:07,  2.19it/s]Training 2/3 epoch (loss 0.5704):  35%|███▍      | 5914/16950 [1:07:52<1:24:07,  2.19it/s]Training 2/3 epoch (loss 0.5704):  35%|███▍      | 5915/16950 [1:07:52<1:21:22,  2.26it/s]Training 2/3 epoch (loss 0.5062):  35%|███▍      | 5915/16950 [1:07:53<1:21:22,  2.26it/s]Training 2/3 epoch (loss 0.5062):  35%|███▍      | 5916/16950 [1:07:53<1:49:55,  1.67it/s]Training 2/3 epoch (loss 0.0489):  35%|███▍      | 5916/16950 [1:07:54<1:49:55,  1.67it/s]Training 2/3 epoch (loss 0.0489):  35%|███▍      | 5917/16950 [1:07:54<1:56:17,  1.58it/s]Training 2/3 epoch (loss 0.0315):  35%|███▍      | 5917/16950 [1:07:55<1:56:17,  1.58it/s]Training 2/3 epoch (loss 0.0315):  35%|███▍      | 5918/16950 [1:07:55<2:03:35,  1.49it/s]Training 2/3 epoch (loss 0.0404):  35%|███▍      | 5918/16950 [1:07:55<2:03:35,  1.49it/s]Training 2/3 epoch (loss 0.0404):  35%|███▍      | 5919/16950 [1:07:55<2:00:57,  1.52it/s]Training 2/3 epoch (loss 0.2430):  35%|███▍      | 5919/16950 [1:07:56<2:00:57,  1.52it/s]Training 2/3 epoch (loss 0.2430):  35%|███▍      | 5920/16950 [1:07:56<2:08:58,  1.43it/s]Training 2/3 epoch (loss 0.0175):  35%|███▍      | 5920/16950 [1:07:57<2:08:58,  1.43it/s]Training 2/3 epoch (loss 0.0175):  35%|███▍      | 5921/16950 [1:07:57<1:55:51,  1.59it/s]Training 2/3 epoch (loss 0.3009):  35%|███▍      | 5921/16950 [1:07:57<1:55:51,  1.59it/s]Training 2/3 epoch (loss 0.3009):  35%|███▍      | 5922/16950 [1:07:57<1:45:49,  1.74it/s]Training 2/3 epoch (loss 0.7695):  35%|███▍      | 5922/16950 [1:07:58<1:45:49,  1.74it/s]Training 2/3 epoch (loss 0.7695):  35%|███▍      | 5923/16950 [1:07:58<2:12:18,  1.39it/s]Training 2/3 epoch (loss 0.0008):  35%|███▍      | 5923/16950 [1:07:59<2:12:18,  1.39it/s]Training 2/3 epoch (loss 0.0008):  35%|███▍      | 5924/16950 [1:07:59<2:07:47,  1.44it/s]Training 2/3 epoch (loss 0.0008):  35%|███▍      | 5924/16950 [1:07:59<2:07:47,  1.44it/s]Training 2/3 epoch (loss 0.0008):  35%|███▍      | 5925/16950 [1:07:59<1:51:04,  1.65it/s]Training 2/3 epoch (loss 0.0008):  35%|███▍      | 5925/16950 [1:08:00<1:51:04,  1.65it/s]Training 2/3 epoch (loss 0.0008):  35%|███▍      | 5926/16950 [1:08:00<1:40:59,  1.82it/s]Training 2/3 epoch (loss 0.9331):  35%|███▍      | 5926/16950 [1:08:01<1:40:59,  1.82it/s]Training 2/3 epoch (loss 0.9331):  35%|███▍      | 5927/16950 [1:08:01<2:06:56,  1.45it/s]Training 2/3 epoch (loss 0.0761):  35%|███▍      | 5927/16950 [1:08:02<2:06:56,  1.45it/s]Training 2/3 epoch (loss 0.0761):  35%|███▍      | 5928/16950 [1:08:02<2:23:45,  1.28it/s]Training 2/3 epoch (loss 0.3189):  35%|███▍      | 5928/16950 [1:08:02<2:23:45,  1.28it/s]Training 2/3 epoch (loss 0.3189):  35%|███▍      | 5929/16950 [1:08:02<2:22:32,  1.29it/s]Training 2/3 epoch (loss 0.3102):  35%|███▍      | 5929/16950 [1:08:03<2:22:32,  1.29it/s]Training 2/3 epoch (loss 0.3102):  35%|███▍      | 5930/16950 [1:08:03<2:03:37,  1.49it/s]Training 2/3 epoch (loss 0.0121):  35%|███▍      | 5930/16950 [1:08:03<2:03:37,  1.49it/s]Training 2/3 epoch (loss 0.0121):  35%|███▍      | 5931/16950 [1:08:03<1:52:25,  1.63it/s]Training 2/3 epoch (loss 0.0939):  35%|███▍      | 5931/16950 [1:08:04<1:52:25,  1.63it/s]Training 2/3 epoch (loss 0.0939):  35%|███▍      | 5932/16950 [1:08:04<2:01:14,  1.51it/s]Training 2/3 epoch (loss 0.3761):  35%|███▍      | 5932/16950 [1:08:05<2:01:14,  1.51it/s]Training 2/3 epoch (loss 0.3761):  35%|███▌      | 5933/16950 [1:08:05<1:52:25,  1.63it/s]Training 2/3 epoch (loss 0.0863):  35%|███▌      | 5933/16950 [1:08:05<1:52:25,  1.63it/s]Training 2/3 epoch (loss 0.0863):  35%|███▌      | 5934/16950 [1:08:05<1:49:35,  1.68it/s]Training 2/3 epoch (loss 0.0056):  35%|███▌      | 5934/16950 [1:08:06<1:49:35,  1.68it/s]Training 2/3 epoch (loss 0.0056):  35%|███▌      | 5935/16950 [1:08:06<1:43:43,  1.77it/s]Training 2/3 epoch (loss 0.3773):  35%|███▌      | 5935/16950 [1:08:06<1:43:43,  1.77it/s]Training 2/3 epoch (loss 0.3773):  35%|███▌      | 5936/16950 [1:08:06<1:48:28,  1.69it/s]Training 2/3 epoch (loss 0.4039):  35%|███▌      | 5936/16950 [1:08:07<1:48:28,  1.69it/s]Training 2/3 epoch (loss 0.4039):  35%|███▌      | 5937/16950 [1:08:07<1:45:51,  1.73it/s]Training 2/3 epoch (loss 0.5117):  35%|███▌      | 5937/16950 [1:08:07<1:45:51,  1.73it/s]Training 2/3 epoch (loss 0.5117):  35%|███▌      | 5938/16950 [1:08:07<1:38:32,  1.86it/s]Training 2/3 epoch (loss 0.0756):  35%|███▌      | 5938/16950 [1:08:08<1:38:32,  1.86it/s]Training 2/3 epoch (loss 0.0756):  35%|███▌      | 5939/16950 [1:08:08<1:37:27,  1.88it/s]Training 2/3 epoch (loss 0.0018):  35%|███▌      | 5939/16950 [1:08:08<1:37:27,  1.88it/s]Training 2/3 epoch (loss 0.0018):  35%|███▌      | 5940/16950 [1:08:08<1:45:35,  1.74it/s]Training 2/3 epoch (loss 0.0489):  35%|███▌      | 5940/16950 [1:08:09<1:45:35,  1.74it/s]Training 2/3 epoch (loss 0.0489):  35%|███▌      | 5941/16950 [1:08:09<1:50:39,  1.66it/s]Training 2/3 epoch (loss 0.0030):  35%|███▌      | 5941/16950 [1:08:10<1:50:39,  1.66it/s]Training 2/3 epoch (loss 0.0030):  35%|███▌      | 5942/16950 [1:08:10<1:43:03,  1.78it/s]Training 2/3 epoch (loss 0.0092):  35%|███▌      | 5942/16950 [1:08:10<1:43:03,  1.78it/s]Training 2/3 epoch (loss 0.0092):  35%|███▌      | 5943/16950 [1:08:10<1:47:18,  1.71it/s]Training 2/3 epoch (loss 0.2207):  35%|███▌      | 5943/16950 [1:08:11<1:47:18,  1.71it/s]Training 2/3 epoch (loss 0.2207):  35%|███▌      | 5944/16950 [1:08:11<1:43:11,  1.78it/s]Training 2/3 epoch (loss 0.3783):  35%|███▌      | 5944/16950 [1:08:11<1:43:11,  1.78it/s]Training 2/3 epoch (loss 0.3783):  35%|███▌      | 5945/16950 [1:08:11<1:43:50,  1.77it/s]Training 2/3 epoch (loss 0.3298):  35%|███▌      | 5945/16950 [1:08:12<1:43:50,  1.77it/s]Training 2/3 epoch (loss 0.3298):  35%|███▌      | 5946/16950 [1:08:12<1:43:05,  1.78it/s]Training 2/3 epoch (loss 0.0298):  35%|███▌      | 5946/16950 [1:08:12<1:43:05,  1.78it/s]Training 2/3 epoch (loss 0.0298):  35%|███▌      | 5947/16950 [1:08:12<1:45:03,  1.75it/s]Training 2/3 epoch (loss 0.0006):  35%|███▌      | 5947/16950 [1:08:13<1:45:03,  1.75it/s]Training 2/3 epoch (loss 0.0006):  35%|███▌      | 5948/16950 [1:08:13<1:41:54,  1.80it/s]Training 2/3 epoch (loss 0.0004):  35%|███▌      | 5948/16950 [1:08:13<1:41:54,  1.80it/s]Training 2/3 epoch (loss 0.0004):  35%|███▌      | 5949/16950 [1:08:13<1:33:22,  1.96it/s]Training 2/3 epoch (loss 0.3621):  35%|███▌      | 5949/16950 [1:08:14<1:33:22,  1.96it/s]Training 2/3 epoch (loss 0.3621):  35%|███▌      | 5950/16950 [1:08:14<1:24:44,  2.16it/s]Training 2/3 epoch (loss 0.0163):  35%|███▌      | 5950/16950 [1:08:14<1:24:44,  2.16it/s]Training 2/3 epoch (loss 0.0163):  35%|███▌      | 5951/16950 [1:08:14<1:23:14,  2.20it/s]Training 2/3 epoch (loss 0.5838):  35%|███▌      | 5951/16950 [1:08:15<1:23:14,  2.20it/s]Training 2/3 epoch (loss 0.5838):  35%|███▌      | 5952/16950 [1:08:15<1:46:16,  1.72it/s]Training 2/3 epoch (loss 0.0301):  35%|███▌      | 5952/16950 [1:08:16<1:46:16,  1.72it/s]Training 2/3 epoch (loss 0.0301):  35%|███▌      | 5953/16950 [1:08:16<1:55:02,  1.59it/s]Training 2/3 epoch (loss 0.0097):  35%|███▌      | 5953/16950 [1:08:16<1:55:02,  1.59it/s]Training 2/3 epoch (loss 0.0097):  35%|███▌      | 5954/16950 [1:08:16<1:47:12,  1.71it/s]Training 2/3 epoch (loss 0.0010):  35%|███▌      | 5954/16950 [1:08:17<1:47:12,  1.71it/s]Training 2/3 epoch (loss 0.0010):  35%|███▌      | 5955/16950 [1:08:17<1:41:30,  1.81it/s]Training 2/3 epoch (loss 0.4612):  35%|███▌      | 5955/16950 [1:08:17<1:41:30,  1.81it/s]Training 2/3 epoch (loss 0.4612):  35%|███▌      | 5956/16950 [1:08:17<1:32:27,  1.98it/s]Training 2/3 epoch (loss 0.6024):  35%|███▌      | 5956/16950 [1:08:18<1:32:27,  1.98it/s]Training 2/3 epoch (loss 0.6024):  35%|███▌      | 5957/16950 [1:08:18<1:29:34,  2.05it/s]Training 2/3 epoch (loss 0.7330):  35%|███▌      | 5957/16950 [1:08:18<1:29:34,  2.05it/s]Training 2/3 epoch (loss 0.7330):  35%|███▌      | 5958/16950 [1:08:18<1:25:58,  2.13it/s]Training 2/3 epoch (loss 0.3241):  35%|███▌      | 5958/16950 [1:08:19<1:25:58,  2.13it/s]Training 2/3 epoch (loss 0.3241):  35%|███▌      | 5959/16950 [1:08:19<1:30:28,  2.02it/s]Training 2/3 epoch (loss 0.0430):  35%|███▌      | 5959/16950 [1:08:19<1:30:28,  2.02it/s]Training 2/3 epoch (loss 0.0430):  35%|███▌      | 5960/16950 [1:08:19<1:38:02,  1.87it/s]Training 2/3 epoch (loss 0.2987):  35%|███▌      | 5960/16950 [1:08:20<1:38:02,  1.87it/s]Training 2/3 epoch (loss 0.2987):  35%|███▌      | 5961/16950 [1:08:20<1:43:26,  1.77it/s]Training 2/3 epoch (loss 0.0306):  35%|███▌      | 5961/16950 [1:08:20<1:43:26,  1.77it/s]Training 2/3 epoch (loss 0.0306):  35%|███▌      | 5962/16950 [1:08:20<1:48:42,  1.68it/s]Training 2/3 epoch (loss 0.0156):  35%|███▌      | 5962/16950 [1:08:21<1:48:42,  1.68it/s]Training 2/3 epoch (loss 0.0156):  35%|███▌      | 5963/16950 [1:08:21<1:56:18,  1.57it/s]Training 2/3 epoch (loss 0.0395):  35%|███▌      | 5963/16950 [1:08:22<1:56:18,  1.57it/s]Training 2/3 epoch (loss 0.0395):  35%|███▌      | 5964/16950 [1:08:22<1:51:09,  1.65it/s]Training 2/3 epoch (loss 0.0951):  35%|███▌      | 5964/16950 [1:08:22<1:51:09,  1.65it/s]Training 2/3 epoch (loss 0.0951):  35%|███▌      | 5965/16950 [1:08:22<1:44:40,  1.75it/s]Training 2/3 epoch (loss 0.0232):  35%|███▌      | 5965/16950 [1:08:23<1:44:40,  1.75it/s]Training 2/3 epoch (loss 0.0232):  35%|███▌      | 5966/16950 [1:08:23<1:52:43,  1.62it/s]Training 2/3 epoch (loss 0.1431):  35%|███▌      | 5966/16950 [1:08:23<1:52:43,  1.62it/s]Training 2/3 epoch (loss 0.1431):  35%|███▌      | 5967/16950 [1:08:23<1:47:36,  1.70it/s]Training 2/3 epoch (loss 0.0220):  35%|███▌      | 5967/16950 [1:08:24<1:47:36,  1.70it/s]Training 2/3 epoch (loss 0.0220):  35%|███▌      | 5968/16950 [1:08:24<1:41:29,  1.80it/s]Training 2/3 epoch (loss 0.0147):  35%|███▌      | 5968/16950 [1:08:24<1:41:29,  1.80it/s]Training 2/3 epoch (loss 0.0147):  35%|███▌      | 5969/16950 [1:08:24<1:38:47,  1.85it/s]Training 2/3 epoch (loss 0.0213):  35%|███▌      | 5969/16950 [1:08:25<1:38:47,  1.85it/s]Training 2/3 epoch (loss 0.0213):  35%|███▌      | 5970/16950 [1:08:25<1:38:42,  1.85it/s]Training 2/3 epoch (loss 0.4868):  35%|███▌      | 5970/16950 [1:08:26<1:38:42,  1.85it/s]Training 2/3 epoch (loss 0.4868):  35%|███▌      | 5971/16950 [1:08:26<1:54:15,  1.60it/s]Training 2/3 epoch (loss 0.0087):  35%|███▌      | 5971/16950 [1:08:26<1:54:15,  1.60it/s]Training 2/3 epoch (loss 0.0087):  35%|███▌      | 5972/16950 [1:08:26<1:55:25,  1.59it/s]Training 2/3 epoch (loss 0.0013):  35%|███▌      | 5972/16950 [1:08:27<1:55:25,  1.59it/s]Training 2/3 epoch (loss 0.0013):  35%|███▌      | 5973/16950 [1:08:27<1:50:34,  1.65it/s]Training 2/3 epoch (loss 0.1007):  35%|███▌      | 5973/16950 [1:08:28<1:50:34,  1.65it/s]Training 2/3 epoch (loss 0.1007):  35%|███▌      | 5974/16950 [1:08:28<1:53:40,  1.61it/s]Training 2/3 epoch (loss 0.0202):  35%|███▌      | 5974/16950 [1:08:28<1:53:40,  1.61it/s]Training 2/3 epoch (loss 0.0202):  35%|███▌      | 5975/16950 [1:08:28<1:46:18,  1.72it/s]Training 2/3 epoch (loss 0.0065):  35%|███▌      | 5975/16950 [1:08:29<1:46:18,  1.72it/s]Training 2/3 epoch (loss 0.0065):  35%|███▌      | 5976/16950 [1:08:29<1:44:10,  1.76it/s]Training 2/3 epoch (loss 0.3831):  35%|███▌      | 5976/16950 [1:08:29<1:44:10,  1.76it/s]Training 2/3 epoch (loss 0.3831):  35%|███▌      | 5977/16950 [1:08:29<1:35:42,  1.91it/s]Training 2/3 epoch (loss 0.0448):  35%|███▌      | 5977/16950 [1:08:30<1:35:42,  1.91it/s]Training 2/3 epoch (loss 0.0448):  35%|███▌      | 5978/16950 [1:08:30<1:39:49,  1.83it/s]Training 2/3 epoch (loss 0.0159):  35%|███▌      | 5978/16950 [1:08:30<1:39:49,  1.83it/s]Training 2/3 epoch (loss 0.0159):  35%|███▌      | 5979/16950 [1:08:30<1:44:09,  1.76it/s]Training 2/3 epoch (loss 0.1001):  35%|███▌      | 5979/16950 [1:08:31<1:44:09,  1.76it/s]Training 2/3 epoch (loss 0.1001):  35%|███▌      | 5980/16950 [1:08:31<1:44:48,  1.74it/s]Training 2/3 epoch (loss 0.2323):  35%|███▌      | 5980/16950 [1:08:31<1:44:48,  1.74it/s]Training 2/3 epoch (loss 0.2323):  35%|███▌      | 5981/16950 [1:08:31<1:34:54,  1.93it/s]Training 2/3 epoch (loss 0.0027):  35%|███▌      | 5981/16950 [1:08:32<1:34:54,  1.93it/s]Training 2/3 epoch (loss 0.0027):  35%|███▌      | 5982/16950 [1:08:32<1:50:15,  1.66it/s]Training 2/3 epoch (loss 0.1538):  35%|███▌      | 5982/16950 [1:08:33<1:50:15,  1.66it/s]Training 2/3 epoch (loss 0.1538):  35%|███▌      | 5983/16950 [1:08:33<1:55:54,  1.58it/s]Training 2/3 epoch (loss 0.0302):  35%|███▌      | 5983/16950 [1:08:33<1:55:54,  1.58it/s]Training 2/3 epoch (loss 0.0302):  35%|███▌      | 5984/16950 [1:08:33<2:00:21,  1.52it/s]Training 2/3 epoch (loss 0.0059):  35%|███▌      | 5984/16950 [1:08:34<2:00:21,  1.52it/s]Training 2/3 epoch (loss 0.0059):  35%|███▌      | 5985/16950 [1:08:34<1:44:32,  1.75it/s]Training 2/3 epoch (loss 0.0583):  35%|███▌      | 5985/16950 [1:08:34<1:44:32,  1.75it/s]Training 2/3 epoch (loss 0.0583):  35%|███▌      | 5986/16950 [1:08:34<1:40:47,  1.81it/s]Training 2/3 epoch (loss 0.0006):  35%|███▌      | 5986/16950 [1:08:35<1:40:47,  1.81it/s]Training 2/3 epoch (loss 0.0006):  35%|███▌      | 5987/16950 [1:08:35<1:43:08,  1.77it/s]Training 2/3 epoch (loss 0.2066):  35%|███▌      | 5987/16950 [1:08:36<1:43:08,  1.77it/s]Training 2/3 epoch (loss 0.2066):  35%|███▌      | 5988/16950 [1:08:36<1:44:45,  1.74it/s]Training 2/3 epoch (loss 0.2441):  35%|███▌      | 5988/16950 [1:08:36<1:44:45,  1.74it/s]Training 2/3 epoch (loss 0.2441):  35%|███▌      | 5989/16950 [1:08:36<1:45:31,  1.73it/s]Training 2/3 epoch (loss 0.0534):  35%|███▌      | 5989/16950 [1:08:37<1:45:31,  1.73it/s]Training 2/3 epoch (loss 0.0534):  35%|███▌      | 5990/16950 [1:08:37<1:43:31,  1.76it/s]Training 2/3 epoch (loss 0.0002):  35%|███▌      | 5990/16950 [1:08:37<1:43:31,  1.76it/s]Training 2/3 epoch (loss 0.0002):  35%|███▌      | 5991/16950 [1:08:37<1:35:36,  1.91it/s]Training 2/3 epoch (loss 0.2488):  35%|███▌      | 5991/16950 [1:08:38<1:35:36,  1.91it/s]Training 2/3 epoch (loss 0.2488):  35%|███▌      | 5992/16950 [1:08:38<1:28:19,  2.07it/s]Training 2/3 epoch (loss 0.0064):  35%|███▌      | 5992/16950 [1:08:38<1:28:19,  2.07it/s]Training 2/3 epoch (loss 0.0064):  35%|███▌      | 5993/16950 [1:08:38<1:49:35,  1.67it/s]Training 2/3 epoch (loss 0.0467):  35%|███▌      | 5993/16950 [1:08:39<1:49:35,  1.67it/s]Training 2/3 epoch (loss 0.0467):  35%|███▌      | 5994/16950 [1:08:39<1:45:20,  1.73it/s]Training 2/3 epoch (loss 0.0539):  35%|███▌      | 5994/16950 [1:08:39<1:45:20,  1.73it/s]Training 2/3 epoch (loss 0.0539):  35%|███▌      | 5995/16950 [1:08:39<1:45:43,  1.73it/s]Training 2/3 epoch (loss 0.0718):  35%|███▌      | 5995/16950 [1:08:40<1:45:43,  1.73it/s]Training 2/3 epoch (loss 0.0718):  35%|███▌      | 5996/16950 [1:08:40<1:36:28,  1.89it/s]Training 2/3 epoch (loss 0.0273):  35%|███▌      | 5996/16950 [1:08:41<1:36:28,  1.89it/s]Training 2/3 epoch (loss 0.0273):  35%|███▌      | 5997/16950 [1:08:41<1:43:13,  1.77it/s]Training 2/3 epoch (loss 0.1364):  35%|███▌      | 5997/16950 [1:08:41<1:43:13,  1.77it/s]Training 2/3 epoch (loss 0.1364):  35%|███▌      | 5998/16950 [1:08:41<1:42:32,  1.78it/s]Training 2/3 epoch (loss 0.0197):  35%|███▌      | 5998/16950 [1:08:42<1:42:32,  1.78it/s]Training 2/3 epoch (loss 0.0197):  35%|███▌      | 5999/16950 [1:08:42<1:44:24,  1.75it/s]Training 2/3 epoch (loss 0.1037):  35%|███▌      | 5999/16950 [1:08:42<1:44:24,  1.75it/s]Training 2/3 epoch (loss 0.1037):  35%|███▌      | 6000/16950 [1:08:42<1:49:24,  1.67it/s]Training 2/3 epoch (loss 0.0606):  35%|███▌      | 6000/16950 [1:08:43<1:49:24,  1.67it/s]Training 2/3 epoch (loss 0.0606):  35%|███▌      | 6001/16950 [1:08:43<1:55:24,  1.58it/s]Training 2/3 epoch (loss 0.0670):  35%|███▌      | 6001/16950 [1:08:44<1:55:24,  1.58it/s]Training 2/3 epoch (loss 0.0670):  35%|███▌      | 6002/16950 [1:08:44<1:46:19,  1.72it/s]Training 2/3 epoch (loss 0.3330):  35%|███▌      | 6002/16950 [1:08:44<1:46:19,  1.72it/s]Training 2/3 epoch (loss 0.3330):  35%|███▌      | 6003/16950 [1:08:44<1:42:47,  1.77it/s]Training 2/3 epoch (loss 0.2776):  35%|███▌      | 6003/16950 [1:08:45<1:42:47,  1.77it/s]Training 2/3 epoch (loss 0.2776):  35%|███▌      | 6004/16950 [1:08:45<1:39:44,  1.83it/s]Training 2/3 epoch (loss 0.0072):  35%|███▌      | 6004/16950 [1:08:45<1:39:44,  1.83it/s]Training 2/3 epoch (loss 0.0072):  35%|███▌      | 6005/16950 [1:08:45<1:44:36,  1.74it/s]Training 2/3 epoch (loss 0.0101):  35%|███▌      | 6005/16950 [1:08:46<1:44:36,  1.74it/s]Training 2/3 epoch (loss 0.0101):  35%|███▌      | 6006/16950 [1:08:46<1:58:09,  1.54it/s]Training 2/3 epoch (loss 0.0003):  35%|███▌      | 6006/16950 [1:08:46<1:58:09,  1.54it/s]Training 2/3 epoch (loss 0.0003):  35%|███▌      | 6007/16950 [1:08:46<1:49:10,  1.67it/s]Training 2/3 epoch (loss 0.6721):  35%|███▌      | 6007/16950 [1:08:47<1:49:10,  1.67it/s]Training 2/3 epoch (loss 0.6721):  35%|███▌      | 6008/16950 [1:08:47<1:53:43,  1.60it/s]Training 2/3 epoch (loss 0.0033):  35%|███▌      | 6008/16950 [1:08:48<1:53:43,  1.60it/s]Training 2/3 epoch (loss 0.0033):  35%|███▌      | 6009/16950 [1:08:48<1:44:58,  1.74it/s]Training 2/3 epoch (loss 0.3470):  35%|███▌      | 6009/16950 [1:08:48<1:44:58,  1.74it/s]Training 2/3 epoch (loss 0.3470):  35%|███▌      | 6010/16950 [1:08:48<1:40:51,  1.81it/s]Training 2/3 epoch (loss 0.1205):  35%|███▌      | 6010/16950 [1:08:49<1:40:51,  1.81it/s]Training 2/3 epoch (loss 0.1205):  35%|███▌      | 6011/16950 [1:08:49<1:39:27,  1.83it/s]Training 2/3 epoch (loss 0.0312):  35%|███▌      | 6011/16950 [1:08:49<1:39:27,  1.83it/s]Training 2/3 epoch (loss 0.0312):  35%|███▌      | 6012/16950 [1:08:49<1:34:44,  1.92it/s]Training 2/3 epoch (loss 0.0044):  35%|███▌      | 6012/16950 [1:08:50<1:34:44,  1.92it/s]Training 2/3 epoch (loss 0.0044):  35%|███▌      | 6013/16950 [1:08:50<1:35:26,  1.91it/s]Training 2/3 epoch (loss 0.0149):  35%|███▌      | 6013/16950 [1:08:50<1:35:26,  1.91it/s]Training 2/3 epoch (loss 0.0149):  35%|███▌      | 6014/16950 [1:08:50<1:43:38,  1.76it/s]Training 2/3 epoch (loss 0.0529):  35%|███▌      | 6014/16950 [1:08:51<1:43:38,  1.76it/s]Training 2/3 epoch (loss 0.0529):  35%|███▌      | 6015/16950 [1:08:51<1:51:46,  1.63it/s]Training 2/3 epoch (loss 0.0076):  35%|███▌      | 6015/16950 [1:08:52<1:51:46,  1.63it/s]Training 2/3 epoch (loss 0.0076):  35%|███▌      | 6016/16950 [1:08:52<2:03:05,  1.48it/s]Training 2/3 epoch (loss 0.5035):  35%|███▌      | 6016/16950 [1:08:52<2:03:05,  1.48it/s]Training 2/3 epoch (loss 0.5035):  35%|███▌      | 6017/16950 [1:08:52<1:56:43,  1.56it/s]Training 2/3 epoch (loss 0.0858):  35%|███▌      | 6017/16950 [1:08:54<1:56:43,  1.56it/s]Training 2/3 epoch (loss 0.0858):  36%|███▌      | 6018/16950 [1:08:54<2:20:12,  1.30it/s]Training 2/3 epoch (loss 0.1106):  36%|███▌      | 6018/16950 [1:08:54<2:20:12,  1.30it/s]Training 2/3 epoch (loss 0.1106):  36%|███▌      | 6019/16950 [1:08:54<2:31:51,  1.20it/s]Training 2/3 epoch (loss 0.0766):  36%|███▌      | 6019/16950 [1:08:55<2:31:51,  1.20it/s]Training 2/3 epoch (loss 0.0766):  36%|███▌      | 6020/16950 [1:08:55<2:15:54,  1.34it/s]Training 2/3 epoch (loss 0.8958):  36%|███▌      | 6020/16950 [1:08:56<2:15:54,  1.34it/s]Training 2/3 epoch (loss 0.8958):  36%|███▌      | 6021/16950 [1:08:56<2:38:11,  1.15it/s]Training 2/3 epoch (loss 0.0002):  36%|███▌      | 6021/16950 [1:08:57<2:38:11,  1.15it/s]Training 2/3 epoch (loss 0.0002):  36%|███▌      | 6022/16950 [1:08:57<2:18:49,  1.31it/s]Training 2/3 epoch (loss 0.0065):  36%|███▌      | 6022/16950 [1:08:57<2:18:49,  1.31it/s]Training 2/3 epoch (loss 0.0065):  36%|███▌      | 6023/16950 [1:08:57<2:02:14,  1.49it/s]Training 2/3 epoch (loss 0.0064):  36%|███▌      | 6023/16950 [1:08:58<2:02:14,  1.49it/s]Training 2/3 epoch (loss 0.0064):  36%|███▌      | 6024/16950 [1:08:58<1:47:52,  1.69it/s]Training 2/3 epoch (loss 0.0028):  36%|███▌      | 6024/16950 [1:08:58<1:47:52,  1.69it/s]Training 2/3 epoch (loss 0.0028):  36%|███▌      | 6025/16950 [1:08:58<1:38:11,  1.85it/s]Training 2/3 epoch (loss 0.0897):  36%|███▌      | 6025/16950 [1:08:58<1:38:11,  1.85it/s]Training 2/3 epoch (loss 0.0897):  36%|███▌      | 6026/16950 [1:08:58<1:28:32,  2.06it/s]Training 2/3 epoch (loss 0.1340):  36%|███▌      | 6026/16950 [1:08:59<1:28:32,  2.06it/s]Training 2/3 epoch (loss 0.1340):  36%|███▌      | 6027/16950 [1:08:59<1:36:34,  1.88it/s]Training 2/3 epoch (loss 0.0716):  36%|███▌      | 6027/16950 [1:09:00<1:36:34,  1.88it/s]Training 2/3 epoch (loss 0.0716):  36%|███▌      | 6028/16950 [1:09:00<2:09:38,  1.40it/s]Training 2/3 epoch (loss 0.1349):  36%|███▌      | 6028/16950 [1:09:01<2:09:38,  1.40it/s]Training 2/3 epoch (loss 0.1349):  36%|███▌      | 6029/16950 [1:09:01<2:10:51,  1.39it/s]Training 2/3 epoch (loss 0.0002):  36%|███▌      | 6029/16950 [1:09:01<2:10:51,  1.39it/s]Training 2/3 epoch (loss 0.0002):  36%|███▌      | 6030/16950 [1:09:01<2:01:12,  1.50it/s]Training 2/3 epoch (loss 0.0006):  36%|███▌      | 6030/16950 [1:09:02<2:01:12,  1.50it/s]Training 2/3 epoch (loss 0.0006):  36%|███▌      | 6031/16950 [1:09:02<1:44:43,  1.74it/s]Training 2/3 epoch (loss 0.2631):  36%|███▌      | 6031/16950 [1:09:03<1:44:43,  1.74it/s]Training 2/3 epoch (loss 0.2631):  36%|███▌      | 6032/16950 [1:09:03<2:00:35,  1.51it/s]Training 2/3 epoch (loss 0.0773):  36%|███▌      | 6032/16950 [1:09:03<2:00:35,  1.51it/s]Training 2/3 epoch (loss 0.0773):  36%|███▌      | 6033/16950 [1:09:03<1:58:28,  1.54it/s]Training 2/3 epoch (loss 0.2215):  36%|███▌      | 6033/16950 [1:09:04<1:58:28,  1.54it/s]Training 2/3 epoch (loss 0.2215):  36%|███▌      | 6034/16950 [1:09:04<2:03:06,  1.48it/s]Training 2/3 epoch (loss 0.0033):  36%|███▌      | 6034/16950 [1:09:05<2:03:06,  1.48it/s]Training 2/3 epoch (loss 0.0033):  36%|███▌      | 6035/16950 [1:09:05<2:04:16,  1.46it/s]Training 2/3 epoch (loss 0.0840):  36%|███▌      | 6035/16950 [1:09:05<2:04:16,  1.46it/s]Training 2/3 epoch (loss 0.0840):  36%|███▌      | 6036/16950 [1:09:05<2:05:45,  1.45it/s]Training 2/3 epoch (loss 0.0442):  36%|███▌      | 6036/16950 [1:09:06<2:05:45,  1.45it/s]Training 2/3 epoch (loss 0.0442):  36%|███▌      | 6037/16950 [1:09:06<2:20:20,  1.30it/s]Training 2/3 epoch (loss 0.0841):  36%|███▌      | 6037/16950 [1:09:07<2:20:20,  1.30it/s]Training 2/3 epoch (loss 0.0841):  36%|███▌      | 6038/16950 [1:09:07<2:33:11,  1.19it/s]Training 2/3 epoch (loss 0.0672):  36%|███▌      | 6038/16950 [1:09:08<2:33:11,  1.19it/s]Training 2/3 epoch (loss 0.0672):  36%|███▌      | 6039/16950 [1:09:08<2:20:03,  1.30it/s]Training 2/3 epoch (loss 0.0349):  36%|███▌      | 6039/16950 [1:09:08<2:20:03,  1.30it/s]Training 2/3 epoch (loss 0.0349):  36%|███▌      | 6040/16950 [1:09:08<1:59:38,  1.52it/s]Training 2/3 epoch (loss 0.5884):  36%|███▌      | 6040/16950 [1:09:09<1:59:38,  1.52it/s]Training 2/3 epoch (loss 0.5884):  36%|███▌      | 6041/16950 [1:09:09<1:44:46,  1.74it/s]Training 2/3 epoch (loss 0.0165):  36%|███▌      | 6041/16950 [1:09:09<1:44:46,  1.74it/s]Training 2/3 epoch (loss 0.0165):  36%|███▌      | 6042/16950 [1:09:09<1:38:02,  1.85it/s]Training 2/3 epoch (loss 0.0132):  36%|███▌      | 6042/16950 [1:09:10<1:38:02,  1.85it/s]Training 2/3 epoch (loss 0.0132):  36%|███▌      | 6043/16950 [1:09:10<1:32:35,  1.96it/s]Training 2/3 epoch (loss 0.1939):  36%|███▌      | 6043/16950 [1:09:10<1:32:35,  1.96it/s]Training 2/3 epoch (loss 0.1939):  36%|███▌      | 6044/16950 [1:09:10<1:40:47,  1.80it/s]Training 2/3 epoch (loss 0.3447):  36%|███▌      | 6044/16950 [1:09:11<1:40:47,  1.80it/s]Training 2/3 epoch (loss 0.3447):  36%|███▌      | 6045/16950 [1:09:11<1:40:09,  1.81it/s]Training 2/3 epoch (loss 0.0104):  36%|███▌      | 6045/16950 [1:09:11<1:40:09,  1.81it/s]Training 2/3 epoch (loss 0.0104):  36%|███▌      | 6046/16950 [1:09:11<1:36:35,  1.88it/s]Training 2/3 epoch (loss 0.0128):  36%|███▌      | 6046/16950 [1:09:12<1:36:35,  1.88it/s]Training 2/3 epoch (loss 0.0128):  36%|███▌      | 6047/16950 [1:09:12<1:39:11,  1.83it/s]Training 2/3 epoch (loss 0.4139):  36%|███▌      | 6047/16950 [1:09:12<1:39:11,  1.83it/s]Training 2/3 epoch (loss 0.4139):  36%|███▌      | 6048/16950 [1:09:12<1:36:07,  1.89it/s]Training 2/3 epoch (loss 0.6825):  36%|███▌      | 6048/16950 [1:09:13<1:36:07,  1.89it/s]Training 2/3 epoch (loss 0.6825):  36%|███▌      | 6049/16950 [1:09:13<1:36:08,  1.89it/s]Training 2/3 epoch (loss 0.5990):  36%|███▌      | 6049/16950 [1:09:13<1:36:08,  1.89it/s]Training 2/3 epoch (loss 0.5990):  36%|███▌      | 6050/16950 [1:09:13<1:29:48,  2.02it/s]Training 2/3 epoch (loss nan):  36%|███▌      | 6050/16950 [1:09:14<1:29:48,  2.02it/s]   Training 2/3 epoch (loss nan):  36%|███▌      | 6051/16950 [1:09:14<1:59:05,  1.53it/s]Training 2/3 epoch (loss 0.4708):  36%|███▌      | 6051/16950 [1:09:15<1:59:05,  1.53it/s]Training 2/3 epoch (loss 0.4708):  36%|███▌      | 6052/16950 [1:09:15<2:07:04,  1.43it/s]Training 2/3 epoch (loss 0.0575):  36%|███▌      | 6052/16950 [1:09:16<2:07:04,  1.43it/s]Training 2/3 epoch (loss 0.0575):  36%|███▌      | 6053/16950 [1:09:16<2:08:30,  1.41it/s]Training 2/3 epoch (loss 0.0022):  36%|███▌      | 6053/16950 [1:09:17<2:08:30,  1.41it/s]Training 2/3 epoch (loss 0.0022):  36%|███▌      | 6054/16950 [1:09:17<2:11:05,  1.39it/s]Training 2/3 epoch (loss 0.0431):  36%|███▌      | 6054/16950 [1:09:17<2:11:05,  1.39it/s]Training 2/3 epoch (loss 0.0431):  36%|███▌      | 6055/16950 [1:09:17<2:12:06,  1.37it/s]Training 2/3 epoch (loss 0.0994):  36%|███▌      | 6055/16950 [1:09:18<2:12:06,  1.37it/s]Training 2/3 epoch (loss 0.0994):  36%|███▌      | 6056/16950 [1:09:18<2:12:15,  1.37it/s]Training 2/3 epoch (loss 0.0318):  36%|███▌      | 6056/16950 [1:09:19<2:12:15,  1.37it/s]Training 2/3 epoch (loss 0.0318):  36%|███▌      | 6057/16950 [1:09:19<2:15:31,  1.34it/s]Training 2/3 epoch (loss 0.0215):  36%|███▌      | 6057/16950 [1:09:20<2:15:31,  1.34it/s]Training 2/3 epoch (loss 0.0215):  36%|███▌      | 6058/16950 [1:09:20<2:08:21,  1.41it/s]Training 2/3 epoch (loss 0.1904):  36%|███▌      | 6058/16950 [1:09:20<2:08:21,  1.41it/s]Training 2/3 epoch (loss 0.1904):  36%|███▌      | 6059/16950 [1:09:20<2:00:51,  1.50it/s]Training 2/3 epoch (loss 0.4362):  36%|███▌      | 6059/16950 [1:09:21<2:00:51,  1.50it/s]Training 2/3 epoch (loss 0.4362):  36%|███▌      | 6060/16950 [1:09:21<1:55:43,  1.57it/s]Training 2/3 epoch (loss 0.0036):  36%|███▌      | 6060/16950 [1:09:21<1:55:43,  1.57it/s]Training 2/3 epoch (loss 0.0036):  36%|███▌      | 6061/16950 [1:09:21<1:46:53,  1.70it/s]Training 2/3 epoch (loss 0.0812):  36%|███▌      | 6061/16950 [1:09:21<1:46:53,  1.70it/s]Training 2/3 epoch (loss 0.0812):  36%|███▌      | 6062/16950 [1:09:21<1:33:36,  1.94it/s]Training 2/3 epoch (loss 0.5119):  36%|███▌      | 6062/16950 [1:09:22<1:33:36,  1.94it/s]Training 2/3 epoch (loss 0.5119):  36%|███▌      | 6063/16950 [1:09:22<1:26:50,  2.09it/s]Training 2/3 epoch (loss 0.7245):  36%|███▌      | 6063/16950 [1:09:22<1:26:50,  2.09it/s]Training 2/3 epoch (loss 0.7245):  36%|███▌      | 6064/16950 [1:09:22<1:26:10,  2.11it/s]Training 2/3 epoch (loss 0.4585):  36%|███▌      | 6064/16950 [1:09:23<1:26:10,  2.11it/s]Training 2/3 epoch (loss 0.4585):  36%|███▌      | 6065/16950 [1:09:23<1:34:04,  1.93it/s]Training 2/3 epoch (loss 0.5710):  36%|███▌      | 6065/16950 [1:09:24<1:34:04,  1.93it/s]Training 2/3 epoch (loss 0.5710):  36%|███▌      | 6066/16950 [1:09:24<1:44:59,  1.73it/s]Training 2/3 epoch (loss 0.1717):  36%|███▌      | 6066/16950 [1:09:24<1:44:59,  1.73it/s]Training 2/3 epoch (loss 0.1717):  36%|███▌      | 6067/16950 [1:09:24<1:44:33,  1.73it/s]Training 2/3 epoch (loss 0.0030):  36%|███▌      | 6067/16950 [1:09:25<1:44:33,  1.73it/s]Training 2/3 epoch (loss 0.0030):  36%|███▌      | 6068/16950 [1:09:25<1:46:14,  1.71it/s]Training 2/3 epoch (loss 0.1525):  36%|███▌      | 6068/16950 [1:09:25<1:46:14,  1.71it/s]Training 2/3 epoch (loss 0.1525):  36%|███▌      | 6069/16950 [1:09:25<1:39:32,  1.82it/s]Training 2/3 epoch (loss 0.5761):  36%|███▌      | 6069/16950 [1:09:26<1:39:32,  1.82it/s]Training 2/3 epoch (loss 0.5761):  36%|███▌      | 6070/16950 [1:09:26<1:42:21,  1.77it/s]Training 2/3 epoch (loss 0.2300):  36%|███▌      | 6070/16950 [1:09:27<1:42:21,  1.77it/s]Training 2/3 epoch (loss 0.2300):  36%|███▌      | 6071/16950 [1:09:27<1:47:02,  1.69it/s]Training 2/3 epoch (loss 0.6589):  36%|███▌      | 6071/16950 [1:09:27<1:47:02,  1.69it/s]Training 2/3 epoch (loss 0.6589):  36%|███▌      | 6072/16950 [1:09:27<1:57:47,  1.54it/s]Training 2/3 epoch (loss 0.0089):  36%|███▌      | 6072/16950 [1:09:28<1:57:47,  1.54it/s]Training 2/3 epoch (loss 0.0089):  36%|███▌      | 6073/16950 [1:09:28<1:50:54,  1.63it/s]Training 2/3 epoch (loss 0.0286):  36%|███▌      | 6073/16950 [1:09:29<1:50:54,  1.63it/s]Training 2/3 epoch (loss 0.0286):  36%|███▌      | 6074/16950 [1:09:29<1:54:24,  1.58it/s]Training 2/3 epoch (loss 0.0111):  36%|███▌      | 6074/16950 [1:09:29<1:54:24,  1.58it/s]Training 2/3 epoch (loss 0.0111):  36%|███▌      | 6075/16950 [1:09:29<1:49:39,  1.65it/s]Training 2/3 epoch (loss 0.0285):  36%|███▌      | 6075/16950 [1:09:30<1:49:39,  1.65it/s]Training 2/3 epoch (loss 0.0285):  36%|███▌      | 6076/16950 [1:09:30<1:39:13,  1.83it/s]Training 2/3 epoch (loss 0.0378):  36%|███▌      | 6076/16950 [1:09:30<1:39:13,  1.83it/s]Training 2/3 epoch (loss 0.0378):  36%|███▌      | 6077/16950 [1:09:30<1:37:38,  1.86it/s]Training 2/3 epoch (loss 0.4940):  36%|███▌      | 6077/16950 [1:09:31<1:37:38,  1.86it/s]Training 2/3 epoch (loss 0.4940):  36%|███▌      | 6078/16950 [1:09:31<1:44:36,  1.73it/s]Training 2/3 epoch (loss 0.1147):  36%|███▌      | 6078/16950 [1:09:31<1:44:36,  1.73it/s]Training 2/3 epoch (loss 0.1147):  36%|███▌      | 6079/16950 [1:09:31<1:49:32,  1.65it/s]Training 2/3 epoch (loss 0.0007):  36%|███▌      | 6079/16950 [1:09:32<1:49:32,  1.65it/s]Training 2/3 epoch (loss 0.0007):  36%|███▌      | 6080/16950 [1:09:32<1:37:34,  1.86it/s]Training 2/3 epoch (loss 0.6688):  36%|███▌      | 6080/16950 [1:09:32<1:37:34,  1.86it/s]Training 2/3 epoch (loss 0.6688):  36%|███▌      | 6081/16950 [1:09:32<1:37:51,  1.85it/s]Training 2/3 epoch (loss 0.5826):  36%|███▌      | 6081/16950 [1:09:33<1:37:51,  1.85it/s]Training 2/3 epoch (loss 0.5826):  36%|███▌      | 6082/16950 [1:09:33<1:58:05,  1.53it/s]Training 2/3 epoch (loss 0.7862):  36%|███▌      | 6082/16950 [1:09:34<1:58:05,  1.53it/s]Training 2/3 epoch (loss 0.7862):  36%|███▌      | 6083/16950 [1:09:34<1:58:35,  1.53it/s]Training 2/3 epoch (loss 0.4232):  36%|███▌      | 6083/16950 [1:09:35<1:58:35,  1.53it/s]Training 2/3 epoch (loss 0.4232):  36%|███▌      | 6084/16950 [1:09:35<1:59:10,  1.52it/s]Training 2/3 epoch (loss 0.3579):  36%|███▌      | 6084/16950 [1:09:36<1:59:10,  1.52it/s]Training 2/3 epoch (loss 0.3579):  36%|███▌      | 6085/16950 [1:09:36<2:16:54,  1.32it/s]Training 2/3 epoch (loss 0.4017):  36%|███▌      | 6085/16950 [1:09:36<2:16:54,  1.32it/s]Training 2/3 epoch (loss 0.4017):  36%|███▌      | 6086/16950 [1:09:36<2:09:43,  1.40it/s]Training 2/3 epoch (loss 0.0002):  36%|███▌      | 6086/16950 [1:09:36<2:09:43,  1.40it/s]Training 2/3 epoch (loss 0.0002):  36%|███▌      | 6087/16950 [1:09:36<1:49:24,  1.65it/s]Training 2/3 epoch (loss 0.0134):  36%|███▌      | 6087/16950 [1:09:37<1:49:24,  1.65it/s]Training 2/3 epoch (loss 0.0134):  36%|███▌      | 6088/16950 [1:09:37<1:54:31,  1.58it/s]Training 2/3 epoch (loss 0.5235):  36%|███▌      | 6088/16950 [1:09:38<1:54:31,  1.58it/s]Training 2/3 epoch (loss 0.5235):  36%|███▌      | 6089/16950 [1:09:38<2:21:43,  1.28it/s]Training 2/3 epoch (loss 0.5862):  36%|███▌      | 6089/16950 [1:09:39<2:21:43,  1.28it/s]Training 2/3 epoch (loss 0.5862):  36%|███▌      | 6090/16950 [1:09:39<2:14:03,  1.35it/s]Training 2/3 epoch (loss 0.1999):  36%|███▌      | 6090/16950 [1:09:40<2:14:03,  1.35it/s]Training 2/3 epoch (loss 0.1999):  36%|███▌      | 6091/16950 [1:09:40<2:22:24,  1.27it/s]Training 2/3 epoch (loss 0.0047):  36%|███▌      | 6091/16950 [1:09:40<2:22:24,  1.27it/s]Training 2/3 epoch (loss 0.0047):  36%|███▌      | 6092/16950 [1:09:40<2:12:38,  1.36it/s]Training 2/3 epoch (loss 0.0074):  36%|███▌      | 6092/16950 [1:09:41<2:12:38,  1.36it/s]Training 2/3 epoch (loss 0.0074):  36%|███▌      | 6093/16950 [1:09:41<1:57:24,  1.54it/s]Training 2/3 epoch (loss 0.0344):  36%|███▌      | 6093/16950 [1:09:42<1:57:24,  1.54it/s]Training 2/3 epoch (loss 0.0344):  36%|███▌      | 6094/16950 [1:09:42<1:54:39,  1.58it/s]Training 2/3 epoch (loss 0.0318):  36%|███▌      | 6094/16950 [1:09:42<1:54:39,  1.58it/s]Training 2/3 epoch (loss 0.0318):  36%|███▌      | 6095/16950 [1:09:42<1:54:46,  1.58it/s]Training 2/3 epoch (loss 0.0591):  36%|███▌      | 6095/16950 [1:09:43<1:54:46,  1.58it/s]Training 2/3 epoch (loss 0.0591):  36%|███▌      | 6096/16950 [1:09:43<1:55:08,  1.57it/s]Training 2/3 epoch (loss 0.0420):  36%|███▌      | 6096/16950 [1:09:43<1:55:08,  1.57it/s]Training 2/3 epoch (loss 0.0420):  36%|███▌      | 6097/16950 [1:09:43<1:57:23,  1.54it/s]Training 2/3 epoch (loss 0.0577):  36%|███▌      | 6097/16950 [1:09:44<1:57:23,  1.54it/s]Training 2/3 epoch (loss 0.0577):  36%|███▌      | 6098/16950 [1:09:44<1:47:31,  1.68it/s]Training 2/3 epoch (loss 0.0854):  36%|███▌      | 6098/16950 [1:09:45<1:47:31,  1.68it/s]Training 2/3 epoch (loss 0.0854):  36%|███▌      | 6099/16950 [1:09:45<1:47:56,  1.68it/s]Training 2/3 epoch (loss 0.0626):  36%|███▌      | 6099/16950 [1:09:45<1:47:56,  1.68it/s]Training 2/3 epoch (loss 0.0626):  36%|███▌      | 6100/16950 [1:09:45<1:51:46,  1.62it/s]Training 2/3 epoch (loss 0.0279):  36%|███▌      | 6100/16950 [1:09:46<1:51:46,  1.62it/s]Training 2/3 epoch (loss 0.0279):  36%|███▌      | 6101/16950 [1:09:46<2:06:07,  1.43it/s]Training 2/3 epoch (loss 0.4840):  36%|███▌      | 6101/16950 [1:09:47<2:06:07,  1.43it/s]Training 2/3 epoch (loss 0.4840):  36%|███▌      | 6102/16950 [1:09:47<2:07:42,  1.42it/s]Training 2/3 epoch (loss 0.0061):  36%|███▌      | 6102/16950 [1:09:47<2:07:42,  1.42it/s]Training 2/3 epoch (loss 0.0061):  36%|███▌      | 6103/16950 [1:09:47<1:57:24,  1.54it/s]Training 2/3 epoch (loss 0.0941):  36%|███▌      | 6103/16950 [1:09:48<1:57:24,  1.54it/s]Training 2/3 epoch (loss 0.0941):  36%|███▌      | 6104/16950 [1:09:48<2:13:11,  1.36it/s]Training 2/3 epoch (loss 0.0833):  36%|███▌      | 6104/16950 [1:09:49<2:13:11,  1.36it/s]Training 2/3 epoch (loss 0.0833):  36%|███▌      | 6105/16950 [1:09:49<2:02:39,  1.47it/s]Training 2/3 epoch (loss 0.5847):  36%|███▌      | 6105/16950 [1:09:49<2:02:39,  1.47it/s]Training 2/3 epoch (loss 0.5847):  36%|███▌      | 6106/16950 [1:09:49<1:52:34,  1.61it/s]Training 2/3 epoch (loss 0.0114):  36%|███▌      | 6106/16950 [1:09:50<1:52:34,  1.61it/s]Training 2/3 epoch (loss 0.0114):  36%|███▌      | 6107/16950 [1:09:50<1:57:59,  1.53it/s]Training 2/3 epoch (loss 1.2609):  36%|███▌      | 6107/16950 [1:09:51<1:57:59,  1.53it/s]Training 2/3 epoch (loss 1.2609):  36%|███▌      | 6108/16950 [1:09:51<2:09:19,  1.40it/s]Training 2/3 epoch (loss 0.0108):  36%|███▌      | 6108/16950 [1:09:51<2:09:19,  1.40it/s]Training 2/3 epoch (loss 0.0108):  36%|███▌      | 6109/16950 [1:09:51<2:02:10,  1.48it/s]Training 2/3 epoch (loss 0.0040):  36%|███▌      | 6109/16950 [1:09:52<2:02:10,  1.48it/s]Training 2/3 epoch (loss 0.0040):  36%|███▌      | 6110/16950 [1:09:52<1:49:34,  1.65it/s]Training 2/3 epoch (loss 0.2352):  36%|███▌      | 6110/16950 [1:09:53<1:49:34,  1.65it/s]Training 2/3 epoch (loss 0.2352):  36%|███▌      | 6111/16950 [1:09:53<2:04:05,  1.46it/s]Training 2/3 epoch (loss 0.1001):  36%|███▌      | 6111/16950 [1:09:54<2:04:05,  1.46it/s]Training 2/3 epoch (loss 0.1001):  36%|███▌      | 6112/16950 [1:09:54<2:12:13,  1.37it/s]Training 2/3 epoch (loss 0.1457):  36%|███▌      | 6112/16950 [1:09:54<2:12:13,  1.37it/s]Training 2/3 epoch (loss 0.1457):  36%|███▌      | 6113/16950 [1:09:54<2:01:10,  1.49it/s]Training 2/3 epoch (loss 0.6770):  36%|███▌      | 6113/16950 [1:09:55<2:01:10,  1.49it/s]Training 2/3 epoch (loss 0.6770):  36%|███▌      | 6114/16950 [1:09:55<1:59:48,  1.51it/s]Training 2/3 epoch (loss 0.4736):  36%|███▌      | 6114/16950 [1:09:55<1:59:48,  1.51it/s]Training 2/3 epoch (loss 0.4736):  36%|███▌      | 6115/16950 [1:09:55<1:53:49,  1.59it/s]Training 2/3 epoch (loss 0.3718):  36%|███▌      | 6115/16950 [1:09:56<1:53:49,  1.59it/s]Training 2/3 epoch (loss 0.3718):  36%|███▌      | 6116/16950 [1:09:56<1:44:10,  1.73it/s]Training 2/3 epoch (loss 0.3303):  36%|███▌      | 6116/16950 [1:09:56<1:44:10,  1.73it/s]Training 2/3 epoch (loss 0.3303):  36%|███▌      | 6117/16950 [1:09:56<1:41:26,  1.78it/s]Training 2/3 epoch (loss 0.0798):  36%|███▌      | 6117/16950 [1:09:57<1:41:26,  1.78it/s]Training 2/3 epoch (loss 0.0798):  36%|███▌      | 6118/16950 [1:09:57<1:47:45,  1.68it/s]Training 2/3 epoch (loss 0.1674):  36%|███▌      | 6118/16950 [1:09:58<1:47:45,  1.68it/s]Training 2/3 epoch (loss 0.1674):  36%|███▌      | 6119/16950 [1:09:58<1:53:33,  1.59it/s]Training 2/3 epoch (loss 0.1520):  36%|███▌      | 6119/16950 [1:09:58<1:53:33,  1.59it/s]Training 2/3 epoch (loss 0.1520):  36%|███▌      | 6120/16950 [1:09:58<1:45:26,  1.71it/s]Training 2/3 epoch (loss 0.2931):  36%|███▌      | 6120/16950 [1:09:59<1:45:26,  1.71it/s]Training 2/3 epoch (loss 0.2931):  36%|███▌      | 6121/16950 [1:09:59<1:39:16,  1.82it/s]Training 2/3 epoch (loss 0.6772):  36%|███▌      | 6121/16950 [1:09:59<1:39:16,  1.82it/s]Training 2/3 epoch (loss 0.6772):  36%|███▌      | 6122/16950 [1:09:59<1:30:16,  2.00it/s]Training 2/3 epoch (loss 0.4278):  36%|███▌      | 6122/16950 [1:10:00<1:30:16,  2.00it/s]Training 2/3 epoch (loss 0.4278):  36%|███▌      | 6123/16950 [1:10:00<1:30:10,  2.00it/s]Training 2/3 epoch (loss 0.4840):  36%|███▌      | 6123/16950 [1:10:00<1:30:10,  2.00it/s]Training 2/3 epoch (loss 0.4840):  36%|███▌      | 6124/16950 [1:10:00<1:22:00,  2.20it/s]Training 2/3 epoch (loss 0.5944):  36%|███▌      | 6124/16950 [1:10:01<1:22:00,  2.20it/s]Training 2/3 epoch (loss 0.5944):  36%|███▌      | 6125/16950 [1:10:01<1:33:19,  1.93it/s]Training 2/3 epoch (loss 0.4005):  36%|███▌      | 6125/16950 [1:10:01<1:33:19,  1.93it/s]Training 2/3 epoch (loss 0.4005):  36%|███▌      | 6126/16950 [1:10:01<1:39:22,  1.82it/s]Training 2/3 epoch (loss 0.0366):  36%|███▌      | 6126/16950 [1:10:02<1:39:22,  1.82it/s]Training 2/3 epoch (loss 0.0366):  36%|███▌      | 6127/16950 [1:10:02<1:32:10,  1.96it/s]Training 2/3 epoch (loss 0.0028):  36%|███▌      | 6127/16950 [1:10:02<1:32:10,  1.96it/s]Training 2/3 epoch (loss 0.0028):  36%|███▌      | 6128/16950 [1:10:02<1:25:31,  2.11it/s]Training 2/3 epoch (loss 0.0288):  36%|███▌      | 6128/16950 [1:10:03<1:25:31,  2.11it/s]Training 2/3 epoch (loss 0.0288):  36%|███▌      | 6129/16950 [1:10:03<1:31:14,  1.98it/s]Training 2/3 epoch (loss 0.4256):  36%|███▌      | 6129/16950 [1:10:03<1:31:14,  1.98it/s]Training 2/3 epoch (loss 0.4256):  36%|███▌      | 6130/16950 [1:10:03<1:28:12,  2.04it/s]Training 2/3 epoch (loss 0.1037):  36%|███▌      | 6130/16950 [1:10:04<1:28:12,  2.04it/s]Training 2/3 epoch (loss 0.1037):  36%|███▌      | 6131/16950 [1:10:04<1:35:27,  1.89it/s]Training 2/3 epoch (loss 0.0115):  36%|███▌      | 6131/16950 [1:10:04<1:35:27,  1.89it/s]Training 2/3 epoch (loss 0.0115):  36%|███▌      | 6132/16950 [1:10:04<1:35:08,  1.89it/s]Training 2/3 epoch (loss 0.0028):  36%|███▌      | 6132/16950 [1:10:05<1:35:08,  1.89it/s]Training 2/3 epoch (loss 0.0028):  36%|███▌      | 6133/16950 [1:10:05<1:30:31,  1.99it/s]Training 2/3 epoch (loss 0.0018):  36%|███▌      | 6133/16950 [1:10:05<1:30:31,  1.99it/s]Training 2/3 epoch (loss 0.0018):  36%|███▌      | 6134/16950 [1:10:05<1:25:50,  2.10it/s]Training 2/3 epoch (loss 0.2857):  36%|███▌      | 6134/16950 [1:10:06<1:25:50,  2.10it/s]Training 2/3 epoch (loss 0.2857):  36%|███▌      | 6135/16950 [1:10:06<1:30:11,  2.00it/s]Training 2/3 epoch (loss 0.2751):  36%|███▌      | 6135/16950 [1:10:06<1:30:11,  2.00it/s]Training 2/3 epoch (loss 0.2751):  36%|███▌      | 6136/16950 [1:10:06<1:33:58,  1.92it/s]Training 2/3 epoch (loss 0.3647):  36%|███▌      | 6136/16950 [1:10:07<1:33:58,  1.92it/s]Training 2/3 epoch (loss 0.3647):  36%|███▌      | 6137/16950 [1:10:07<1:41:13,  1.78it/s]Training 2/3 epoch (loss 0.4910):  36%|███▌      | 6137/16950 [1:10:07<1:41:13,  1.78it/s]Training 2/3 epoch (loss 0.4910):  36%|███▌      | 6138/16950 [1:10:07<1:29:40,  2.01it/s]Training 2/3 epoch (loss 0.0552):  36%|███▌      | 6138/16950 [1:10:08<1:29:40,  2.01it/s]Training 2/3 epoch (loss 0.0552):  36%|███▌      | 6139/16950 [1:10:08<1:35:41,  1.88it/s]Training 2/3 epoch (loss 0.3556):  36%|███▌      | 6139/16950 [1:10:08<1:35:41,  1.88it/s]Training 2/3 epoch (loss 0.3556):  36%|███▌      | 6140/16950 [1:10:08<1:33:27,  1.93it/s]Training 2/3 epoch (loss 0.3503):  36%|███▌      | 6140/16950 [1:10:09<1:33:27,  1.93it/s]Training 2/3 epoch (loss 0.3503):  36%|███▌      | 6141/16950 [1:10:09<1:28:19,  2.04it/s]Training 2/3 epoch (loss 0.0220):  36%|███▌      | 6141/16950 [1:10:09<1:28:19,  2.04it/s]Training 2/3 epoch (loss 0.0220):  36%|███▌      | 6142/16950 [1:10:09<1:29:47,  2.01it/s]Training 2/3 epoch (loss 0.3345):  36%|███▌      | 6142/16950 [1:10:10<1:29:47,  2.01it/s]Training 2/3 epoch (loss 0.3345):  36%|███▌      | 6143/16950 [1:10:10<1:20:35,  2.23it/s]Training 2/3 epoch (loss 0.0036):  36%|███▌      | 6143/16950 [1:10:10<1:20:35,  2.23it/s]Training 2/3 epoch (loss 0.0036):  36%|███▌      | 6144/16950 [1:10:10<1:30:58,  1.98it/s]Training 2/3 epoch (loss 0.0168):  36%|███▌      | 6144/16950 [1:10:11<1:30:58,  1.98it/s]Training 2/3 epoch (loss 0.0168):  36%|███▋      | 6145/16950 [1:10:11<1:40:48,  1.79it/s]Training 2/3 epoch (loss 0.0100):  36%|███▋      | 6145/16950 [1:10:12<1:40:48,  1.79it/s]Training 2/3 epoch (loss 0.0100):  36%|███▋      | 6146/16950 [1:10:12<1:49:09,  1.65it/s]Training 2/3 epoch (loss 0.0103):  36%|███▋      | 6146/16950 [1:10:12<1:49:09,  1.65it/s]Training 2/3 epoch (loss 0.0103):  36%|███▋      | 6147/16950 [1:10:12<1:46:47,  1.69it/s]Training 2/3 epoch (loss 0.5571):  36%|███▋      | 6147/16950 [1:10:13<1:46:47,  1.69it/s]Training 2/3 epoch (loss 0.5571):  36%|███▋      | 6148/16950 [1:10:13<1:49:37,  1.64it/s]Training 2/3 epoch (loss 0.0905):  36%|███▋      | 6148/16950 [1:10:13<1:49:37,  1.64it/s]Training 2/3 epoch (loss 0.0905):  36%|███▋      | 6149/16950 [1:10:13<1:43:34,  1.74it/s]Training 2/3 epoch (loss 0.3733):  36%|███▋      | 6149/16950 [1:10:14<1:43:34,  1.74it/s]Training 2/3 epoch (loss 0.3733):  36%|███▋      | 6150/16950 [1:10:14<1:48:16,  1.66it/s]Training 2/3 epoch (loss 0.2429):  36%|███▋      | 6150/16950 [1:10:14<1:48:16,  1.66it/s]Training 2/3 epoch (loss 0.2429):  36%|███▋      | 6151/16950 [1:10:14<1:42:14,  1.76it/s]Training 2/3 epoch (loss 0.0124):  36%|███▋      | 6151/16950 [1:10:15<1:42:14,  1.76it/s]Training 2/3 epoch (loss 0.0124):  36%|███▋      | 6152/16950 [1:10:15<1:45:55,  1.70it/s]Training 2/3 epoch (loss 0.2839):  36%|███▋      | 6152/16950 [1:10:16<1:45:55,  1.70it/s]Training 2/3 epoch (loss 0.2839):  36%|███▋      | 6153/16950 [1:10:16<1:43:44,  1.73it/s]Training 2/3 epoch (loss 0.0619):  36%|███▋      | 6153/16950 [1:10:16<1:43:44,  1.73it/s]Training 2/3 epoch (loss 0.0619):  36%|███▋      | 6154/16950 [1:10:16<1:46:28,  1.69it/s]Training 2/3 epoch (loss 0.0167):  36%|███▋      | 6154/16950 [1:10:17<1:46:28,  1.69it/s]Training 2/3 epoch (loss 0.0167):  36%|███▋      | 6155/16950 [1:10:17<1:39:34,  1.81it/s]Training 2/3 epoch (loss 0.0006):  36%|███▋      | 6155/16950 [1:10:17<1:39:34,  1.81it/s]Training 2/3 epoch (loss 0.0006):  36%|███▋      | 6156/16950 [1:10:17<1:30:18,  1.99it/s]Training 2/3 epoch (loss 0.4075):  36%|███▋      | 6156/16950 [1:10:18<1:30:18,  1.99it/s]Training 2/3 epoch (loss 0.4075):  36%|███▋      | 6157/16950 [1:10:18<1:40:36,  1.79it/s]Training 2/3 epoch (loss 0.0260):  36%|███▋      | 6157/16950 [1:10:19<1:40:36,  1.79it/s]Training 2/3 epoch (loss 0.0260):  36%|███▋      | 6158/16950 [1:10:19<1:50:01,  1.63it/s]Training 2/3 epoch (loss 0.0111):  36%|███▋      | 6158/16950 [1:10:20<1:50:01,  1.63it/s]Training 2/3 epoch (loss 0.0111):  36%|███▋      | 6159/16950 [1:10:20<2:12:34,  1.36it/s]Training 2/3 epoch (loss 0.2858):  36%|███▋      | 6159/16950 [1:10:20<2:12:34,  1.36it/s]Training 2/3 epoch (loss 0.2858):  36%|███▋      | 6160/16950 [1:10:20<2:14:38,  1.34it/s]Training 2/3 epoch (loss 0.0452):  36%|███▋      | 6160/16950 [1:10:21<2:14:38,  1.34it/s]Training 2/3 epoch (loss 0.0452):  36%|███▋      | 6161/16950 [1:10:21<1:58:32,  1.52it/s]Training 2/3 epoch (loss 0.0084):  36%|███▋      | 6161/16950 [1:10:21<1:58:32,  1.52it/s]Training 2/3 epoch (loss 0.0084):  36%|███▋      | 6162/16950 [1:10:21<1:56:50,  1.54it/s]Training 2/3 epoch (loss 0.0600):  36%|███▋      | 6162/16950 [1:10:22<1:56:50,  1.54it/s]Training 2/3 epoch (loss 0.0600):  36%|███▋      | 6163/16950 [1:10:22<2:00:21,  1.49it/s]Training 2/3 epoch (loss 0.5398):  36%|███▋      | 6163/16950 [1:10:23<2:00:21,  1.49it/s]Training 2/3 epoch (loss 0.5398):  36%|███▋      | 6164/16950 [1:10:23<2:06:08,  1.43it/s]Training 2/3 epoch (loss 0.4057):  36%|███▋      | 6164/16950 [1:10:24<2:06:08,  1.43it/s]Training 2/3 epoch (loss 0.4057):  36%|███▋      | 6165/16950 [1:10:24<2:17:59,  1.30it/s]Training 2/3 epoch (loss 0.3505):  36%|███▋      | 6165/16950 [1:10:24<2:17:59,  1.30it/s]Training 2/3 epoch (loss 0.3505):  36%|███▋      | 6166/16950 [1:10:24<2:04:31,  1.44it/s]Training 2/3 epoch (loss 0.7746):  36%|███▋      | 6166/16950 [1:10:25<2:04:31,  1.44it/s]Training 2/3 epoch (loss 0.7746):  36%|███▋      | 6167/16950 [1:10:25<2:02:28,  1.47it/s]Training 2/3 epoch (loss 0.0023):  36%|███▋      | 6167/16950 [1:10:25<2:02:28,  1.47it/s]Training 2/3 epoch (loss 0.0023):  36%|███▋      | 6168/16950 [1:10:25<1:44:52,  1.71it/s]Training 2/3 epoch (loss 0.3050):  36%|███▋      | 6168/16950 [1:10:26<1:44:52,  1.71it/s]Training 2/3 epoch (loss 0.3050):  36%|███▋      | 6169/16950 [1:10:26<1:44:14,  1.72it/s]Training 2/3 epoch (loss 0.5774):  36%|███▋      | 6169/16950 [1:10:26<1:44:14,  1.72it/s]Training 2/3 epoch (loss 0.5774):  36%|███▋      | 6170/16950 [1:10:26<1:42:55,  1.75it/s]Training 2/3 epoch (loss 0.0842):  36%|███▋      | 6170/16950 [1:10:27<1:42:55,  1.75it/s]Training 2/3 epoch (loss 0.0842):  36%|███▋      | 6171/16950 [1:10:27<1:48:24,  1.66it/s]Training 2/3 epoch (loss 0.0198):  36%|███▋      | 6171/16950 [1:10:28<1:48:24,  1.66it/s]Training 2/3 epoch (loss 0.0198):  36%|███▋      | 6172/16950 [1:10:28<1:48:28,  1.66it/s]Training 2/3 epoch (loss 0.1429):  36%|███▋      | 6172/16950 [1:10:28<1:48:28,  1.66it/s]Training 2/3 epoch (loss 0.1429):  36%|███▋      | 6173/16950 [1:10:28<1:55:09,  1.56it/s]Training 2/3 epoch (loss 0.0252):  36%|███▋      | 6173/16950 [1:10:29<1:55:09,  1.56it/s]Training 2/3 epoch (loss 0.0252):  36%|███▋      | 6174/16950 [1:10:29<1:54:50,  1.56it/s]Training 2/3 epoch (loss 0.0542):  36%|███▋      | 6174/16950 [1:10:30<1:54:50,  1.56it/s]Training 2/3 epoch (loss 0.0542):  36%|███▋      | 6175/16950 [1:10:30<2:11:10,  1.37it/s]Training 2/3 epoch (loss 0.3627):  36%|███▋      | 6175/16950 [1:10:31<2:11:10,  1.37it/s]Training 2/3 epoch (loss 0.3627):  36%|███▋      | 6176/16950 [1:10:31<2:29:05,  1.20it/s]Training 2/3 epoch (loss 0.0013):  36%|███▋      | 6176/16950 [1:10:32<2:29:05,  1.20it/s]Training 2/3 epoch (loss 0.0013):  36%|███▋      | 6177/16950 [1:10:32<2:14:54,  1.33it/s]Training 2/3 epoch (loss 0.1132):  36%|███▋      | 6177/16950 [1:10:32<2:14:54,  1.33it/s]Training 2/3 epoch (loss 0.1132):  36%|███▋      | 6178/16950 [1:10:32<2:14:35,  1.33it/s]Training 2/3 epoch (loss 0.4958):  36%|███▋      | 6178/16950 [1:10:33<2:14:35,  1.33it/s]Training 2/3 epoch (loss 0.4958):  36%|███▋      | 6179/16950 [1:10:33<2:02:45,  1.46it/s]Training 2/3 epoch (loss 0.2631):  36%|███▋      | 6179/16950 [1:10:33<2:02:45,  1.46it/s]Training 2/3 epoch (loss 0.2631):  36%|███▋      | 6180/16950 [1:10:33<1:53:35,  1.58it/s]Training 2/3 epoch (loss 0.3141):  36%|███▋      | 6180/16950 [1:10:34<1:53:35,  1.58it/s]Training 2/3 epoch (loss 0.3141):  36%|███▋      | 6181/16950 [1:10:34<1:46:50,  1.68it/s]Training 2/3 epoch (loss 0.7751):  36%|███▋      | 6181/16950 [1:10:35<1:46:50,  1.68it/s]Training 2/3 epoch (loss 0.7751):  36%|███▋      | 6182/16950 [1:10:35<1:43:49,  1.73it/s]Training 2/3 epoch (loss 0.0181):  36%|███▋      | 6182/16950 [1:10:35<1:43:49,  1.73it/s]Training 2/3 epoch (loss 0.0181):  36%|███▋      | 6183/16950 [1:10:35<1:47:48,  1.66it/s]Training 2/3 epoch (loss 0.0008):  36%|███▋      | 6183/16950 [1:10:36<1:47:48,  1.66it/s]Training 2/3 epoch (loss 0.0008):  36%|███▋      | 6184/16950 [1:10:36<1:36:26,  1.86it/s]Training 2/3 epoch (loss 0.0334):  36%|███▋      | 6184/16950 [1:10:36<1:36:26,  1.86it/s]Training 2/3 epoch (loss 0.0334):  36%|███▋      | 6185/16950 [1:10:36<1:36:12,  1.86it/s]Training 2/3 epoch (loss 0.0131):  36%|███▋      | 6185/16950 [1:10:37<1:36:12,  1.86it/s]Training 2/3 epoch (loss 0.0131):  36%|███▋      | 6186/16950 [1:10:37<1:35:03,  1.89it/s]Training 2/3 epoch (loss 0.0090):  36%|███▋      | 6186/16950 [1:10:37<1:35:03,  1.89it/s]Training 2/3 epoch (loss 0.0090):  37%|███▋      | 6187/16950 [1:10:37<1:41:38,  1.76it/s]Training 2/3 epoch (loss 0.0135):  37%|███▋      | 6187/16950 [1:10:38<1:41:38,  1.76it/s]Training 2/3 epoch (loss 0.0135):  37%|███▋      | 6188/16950 [1:10:38<1:50:44,  1.62it/s]Training 2/3 epoch (loss 1.0683):  37%|███▋      | 6188/16950 [1:10:38<1:50:44,  1.62it/s]Training 2/3 epoch (loss 1.0683):  37%|███▋      | 6189/16950 [1:10:38<1:40:03,  1.79it/s]Training 2/3 epoch (loss 0.2139):  37%|███▋      | 6189/16950 [1:10:39<1:40:03,  1.79it/s]Training 2/3 epoch (loss 0.2139):  37%|███▋      | 6190/16950 [1:10:39<1:28:44,  2.02it/s]Training 2/3 epoch (loss 0.0225):  37%|███▋      | 6190/16950 [1:10:39<1:28:44,  2.02it/s]Training 2/3 epoch (loss 0.0225):  37%|███▋      | 6191/16950 [1:10:39<1:33:45,  1.91it/s]Training 2/3 epoch (loss 0.0048):  37%|███▋      | 6191/16950 [1:10:40<1:33:45,  1.91it/s]Training 2/3 epoch (loss 0.0048):  37%|███▋      | 6192/16950 [1:10:40<1:28:02,  2.04it/s]Training 2/3 epoch (loss 0.0156):  37%|███▋      | 6192/16950 [1:10:40<1:28:02,  2.04it/s]Training 2/3 epoch (loss 0.0156):  37%|███▋      | 6193/16950 [1:10:40<1:23:18,  2.15it/s]Training 2/3 epoch (loss 0.0077):  37%|███▋      | 6193/16950 [1:10:41<1:23:18,  2.15it/s]Training 2/3 epoch (loss 0.0077):  37%|███▋      | 6194/16950 [1:10:41<1:24:54,  2.11it/s]Training 2/3 epoch (loss 0.0925):  37%|███▋      | 6194/16950 [1:10:41<1:24:54,  2.11it/s]Training 2/3 epoch (loss 0.0925):  37%|███▋      | 6195/16950 [1:10:41<1:21:55,  2.19it/s]Training 2/3 epoch (loss 0.0026):  37%|███▋      | 6195/16950 [1:10:42<1:21:55,  2.19it/s]Training 2/3 epoch (loss 0.0026):  37%|███▋      | 6196/16950 [1:10:42<1:23:56,  2.14it/s]Training 2/3 epoch (loss 0.3315):  37%|███▋      | 6196/16950 [1:10:42<1:23:56,  2.14it/s]Training 2/3 epoch (loss 0.3315):  37%|███▋      | 6197/16950 [1:10:42<1:25:36,  2.09it/s]Training 2/3 epoch (loss 0.3680):  37%|███▋      | 6197/16950 [1:10:43<1:25:36,  2.09it/s]Training 2/3 epoch (loss 0.3680):  37%|███▋      | 6198/16950 [1:10:43<1:34:58,  1.89it/s]Training 2/3 epoch (loss 0.0004):  37%|███▋      | 6198/16950 [1:10:43<1:34:58,  1.89it/s]Training 2/3 epoch (loss 0.0004):  37%|███▋      | 6199/16950 [1:10:43<1:29:09,  2.01it/s]Training 2/3 epoch (loss 0.1115):  37%|███▋      | 6199/16950 [1:10:44<1:29:09,  2.01it/s]Training 2/3 epoch (loss 0.1115):  37%|███▋      | 6200/16950 [1:10:44<1:31:21,  1.96it/s]Training 2/3 epoch (loss 0.0016):  37%|███▋      | 6200/16950 [1:10:44<1:31:21,  1.96it/s]Training 2/3 epoch (loss 0.0016):  37%|███▋      | 6201/16950 [1:10:44<1:25:53,  2.09it/s]Training 2/3 epoch (loss 0.0047):  37%|███▋      | 6201/16950 [1:10:45<1:25:53,  2.09it/s]Training 2/3 epoch (loss 0.0047):  37%|███▋      | 6202/16950 [1:10:45<1:23:41,  2.14it/s]Training 2/3 epoch (loss 0.6580):  37%|███▋      | 6202/16950 [1:10:45<1:23:41,  2.14it/s]Training 2/3 epoch (loss 0.6580):  37%|███▋      | 6203/16950 [1:10:45<1:38:48,  1.81it/s]Training 2/3 epoch (loss 0.4360):  37%|███▋      | 6203/16950 [1:10:46<1:38:48,  1.81it/s]Training 2/3 epoch (loss 0.4360):  37%|███▋      | 6204/16950 [1:10:46<1:36:20,  1.86it/s]Training 2/3 epoch (loss 0.1905):  37%|███▋      | 6204/16950 [1:10:46<1:36:20,  1.86it/s]Training 2/3 epoch (loss 0.1905):  37%|███▋      | 6205/16950 [1:10:46<1:31:29,  1.96it/s]Training 2/3 epoch (loss 0.3812):  37%|███▋      | 6205/16950 [1:10:47<1:31:29,  1.96it/s]Training 2/3 epoch (loss 0.3812):  37%|███▋      | 6206/16950 [1:10:47<1:34:19,  1.90it/s]Training 2/3 epoch (loss 0.0070):  37%|███▋      | 6206/16950 [1:10:48<1:34:19,  1.90it/s]Training 2/3 epoch (loss 0.0070):  37%|███▋      | 6207/16950 [1:10:48<1:43:25,  1.73it/s]Training 2/3 epoch (loss 0.0074):  37%|███▋      | 6207/16950 [1:10:48<1:43:25,  1.73it/s]Training 2/3 epoch (loss 0.0074):  37%|███▋      | 6208/16950 [1:10:48<1:45:30,  1.70it/s]Training 2/3 epoch (loss 0.5229):  37%|███▋      | 6208/16950 [1:10:49<1:45:30,  1.70it/s]Training 2/3 epoch (loss 0.5229):  37%|███▋      | 6209/16950 [1:10:49<1:43:19,  1.73it/s]Training 2/3 epoch (loss 0.0116):  37%|███▋      | 6209/16950 [1:10:49<1:43:19,  1.73it/s]Training 2/3 epoch (loss 0.0116):  37%|███▋      | 6210/16950 [1:10:49<1:49:05,  1.64it/s]Training 2/3 epoch (loss nan):  37%|███▋      | 6210/16950 [1:10:51<1:49:05,  1.64it/s]   Training 2/3 epoch (loss nan):  37%|███▋      | 6211/16950 [1:10:51<2:16:47,  1.31it/s]Training 2/3 epoch (loss 0.0731):  37%|███▋      | 6211/16950 [1:10:51<2:16:47,  1.31it/s]Training 2/3 epoch (loss 0.0731):  37%|███▋      | 6212/16950 [1:10:51<2:15:46,  1.32it/s]Training 2/3 epoch (loss 0.0471):  37%|███▋      | 6212/16950 [1:10:52<2:15:46,  1.32it/s]Training 2/3 epoch (loss 0.0471):  37%|███▋      | 6213/16950 [1:10:52<2:08:49,  1.39it/s]Training 2/3 epoch (loss 0.4479):  37%|███▋      | 6213/16950 [1:10:52<2:08:49,  1.39it/s]Training 2/3 epoch (loss 0.4479):  37%|███▋      | 6214/16950 [1:10:52<1:58:02,  1.52it/s]Training 2/3 epoch (loss 0.5050):  37%|███▋      | 6214/16950 [1:10:53<1:58:02,  1.52it/s]Training 2/3 epoch (loss 0.5050):  37%|███▋      | 6215/16950 [1:10:53<1:39:17,  1.80it/s]Training 2/3 epoch (loss 0.0038):  37%|███▋      | 6215/16950 [1:10:53<1:39:17,  1.80it/s]Training 2/3 epoch (loss 0.0038):  37%|███▋      | 6216/16950 [1:10:53<1:27:18,  2.05it/s]Training 2/3 epoch (loss 0.3296):  37%|███▋      | 6216/16950 [1:10:54<1:27:18,  2.05it/s]Training 2/3 epoch (loss 0.3296):  37%|███▋      | 6217/16950 [1:10:54<1:38:43,  1.81it/s]Training 2/3 epoch (loss 0.0007):  37%|███▋      | 6217/16950 [1:10:54<1:38:43,  1.81it/s]Training 2/3 epoch (loss 0.0007):  37%|███▋      | 6218/16950 [1:10:54<1:38:59,  1.81it/s]Training 2/3 epoch (loss 0.3999):  37%|███▋      | 6218/16950 [1:10:55<1:38:59,  1.81it/s]Training 2/3 epoch (loss 0.3999):  37%|███▋      | 6219/16950 [1:10:55<1:34:55,  1.88it/s]Training 2/3 epoch (loss 0.5882):  37%|███▋      | 6219/16950 [1:10:55<1:34:55,  1.88it/s]Training 2/3 epoch (loss 0.5882):  37%|███▋      | 6220/16950 [1:10:55<1:29:58,  1.99it/s]Training 2/3 epoch (loss 0.6020):  37%|███▋      | 6220/16950 [1:10:56<1:29:58,  1.99it/s]Training 2/3 epoch (loss 0.6020):  37%|███▋      | 6221/16950 [1:10:56<1:57:59,  1.52it/s]Training 2/3 epoch (loss 0.0742):  37%|███▋      | 6221/16950 [1:10:57<1:57:59,  1.52it/s]Training 2/3 epoch (loss 0.0742):  37%|███▋      | 6222/16950 [1:10:57<1:57:19,  1.52it/s]Training 2/3 epoch (loss 0.2862):  37%|███▋      | 6222/16950 [1:10:57<1:57:19,  1.52it/s]Training 2/3 epoch (loss 0.2862):  37%|███▋      | 6223/16950 [1:10:57<1:47:09,  1.67it/s]Training 2/3 epoch (loss 0.0043):  37%|███▋      | 6223/16950 [1:10:58<1:47:09,  1.67it/s]Training 2/3 epoch (loss 0.0043):  37%|███▋      | 6224/16950 [1:10:58<1:35:17,  1.88it/s]Training 2/3 epoch (loss 0.0029):  37%|███▋      | 6224/16950 [1:10:58<1:35:17,  1.88it/s]Training 2/3 epoch (loss 0.0029):  37%|███▋      | 6225/16950 [1:10:58<1:29:10,  2.00it/s]Training 2/3 epoch (loss 0.4344):  37%|███▋      | 6225/16950 [1:10:59<1:29:10,  2.00it/s]Training 2/3 epoch (loss 0.4344):  37%|███▋      | 6226/16950 [1:10:59<1:27:37,  2.04it/s]Training 2/3 epoch (loss 0.0065):  37%|███▋      | 6226/16950 [1:10:59<1:27:37,  2.04it/s]Training 2/3 epoch (loss 0.0065):  37%|███▋      | 6227/16950 [1:10:59<1:17:06,  2.32it/s]Training 2/3 epoch (loss 0.3742):  37%|███▋      | 6227/16950 [1:10:59<1:17:06,  2.32it/s]Training 2/3 epoch (loss 0.3742):  37%|███▋      | 6228/16950 [1:10:59<1:16:29,  2.34it/s]Training 2/3 epoch (loss 0.1705):  37%|███▋      | 6228/16950 [1:11:00<1:16:29,  2.34it/s]Training 2/3 epoch (loss 0.1705):  37%|███▋      | 6229/16950 [1:11:00<1:29:53,  1.99it/s]Training 2/3 epoch (loss 0.7459):  37%|███▋      | 6229/16950 [1:11:01<1:29:53,  1.99it/s]Training 2/3 epoch (loss 0.7459):  37%|███▋      | 6230/16950 [1:11:01<1:40:34,  1.78it/s]Training 2/3 epoch (loss 0.0445):  37%|███▋      | 6230/16950 [1:11:01<1:40:34,  1.78it/s]Training 2/3 epoch (loss 0.0445):  37%|███▋      | 6231/16950 [1:11:01<1:36:24,  1.85it/s]Training 2/3 epoch (loss 0.0122):  37%|███▋      | 6231/16950 [1:11:02<1:36:24,  1.85it/s]Training 2/3 epoch (loss 0.0122):  37%|███▋      | 6232/16950 [1:11:02<1:33:48,  1.90it/s]Training 2/3 epoch (loss 0.0220):  37%|███▋      | 6232/16950 [1:11:02<1:33:48,  1.90it/s]Training 2/3 epoch (loss 0.0220):  37%|███▋      | 6233/16950 [1:11:02<1:31:11,  1.96it/s]Training 2/3 epoch (loss 0.4561):  37%|███▋      | 6233/16950 [1:11:03<1:31:11,  1.96it/s]Training 2/3 epoch (loss 0.4561):  37%|███▋      | 6234/16950 [1:11:03<1:45:07,  1.70it/s]Training 2/3 epoch (loss 0.0934):  37%|███▋      | 6234/16950 [1:11:04<1:45:07,  1.70it/s]Training 2/3 epoch (loss 0.0934):  37%|███▋      | 6235/16950 [1:11:04<1:46:41,  1.67it/s]Training 2/3 epoch (loss 0.2495):  37%|███▋      | 6235/16950 [1:11:04<1:46:41,  1.67it/s]Training 2/3 epoch (loss 0.2495):  37%|███▋      | 6236/16950 [1:11:04<1:57:55,  1.51it/s]Training 2/3 epoch (loss 0.0010):  37%|███▋      | 6236/16950 [1:11:05<1:57:55,  1.51it/s]Training 2/3 epoch (loss 0.0010):  37%|███▋      | 6237/16950 [1:11:05<1:54:17,  1.56it/s]Training 2/3 epoch (loss 0.5277):  37%|███▋      | 6237/16950 [1:11:05<1:54:17,  1.56it/s]Training 2/3 epoch (loss 0.5277):  37%|███▋      | 6238/16950 [1:11:05<1:47:16,  1.66it/s]Training 2/3 epoch (loss 0.0009):  37%|███▋      | 6238/16950 [1:11:06<1:47:16,  1.66it/s]Training 2/3 epoch (loss 0.0009):  37%|███▋      | 6239/16950 [1:11:06<1:38:31,  1.81it/s]Training 2/3 epoch (loss 0.4605):  37%|███▋      | 6239/16950 [1:11:06<1:38:31,  1.81it/s]Training 2/3 epoch (loss 0.4605):  37%|███▋      | 6240/16950 [1:11:06<1:38:17,  1.82it/s]Training 2/3 epoch (loss 0.0041):  37%|███▋      | 6240/16950 [1:11:07<1:38:17,  1.82it/s]Training 2/3 epoch (loss 0.0041):  37%|███▋      | 6241/16950 [1:11:07<1:38:15,  1.82it/s]Training 2/3 epoch (loss 0.5487):  37%|███▋      | 6241/16950 [1:11:08<1:38:15,  1.82it/s]Training 2/3 epoch (loss 0.5487):  37%|███▋      | 6242/16950 [1:11:08<1:57:43,  1.52it/s]Training 2/3 epoch (loss 0.0031):  37%|███▋      | 6242/16950 [1:11:08<1:57:43,  1.52it/s]Training 2/3 epoch (loss 0.0031):  37%|███▋      | 6243/16950 [1:11:08<1:50:19,  1.62it/s]Training 2/3 epoch (loss 0.0517):  37%|███▋      | 6243/16950 [1:11:09<1:50:19,  1.62it/s]Training 2/3 epoch (loss 0.0517):  37%|███▋      | 6244/16950 [1:11:09<1:53:26,  1.57it/s]Training 2/3 epoch (loss 0.0176):  37%|███▋      | 6244/16950 [1:11:10<1:53:26,  1.57it/s]Training 2/3 epoch (loss 0.0176):  37%|███▋      | 6245/16950 [1:11:10<1:55:09,  1.55it/s]Training 2/3 epoch (loss 0.2588):  37%|███▋      | 6245/16950 [1:11:10<1:55:09,  1.55it/s]Training 2/3 epoch (loss 0.2588):  37%|███▋      | 6246/16950 [1:11:10<1:41:51,  1.75it/s]Training 2/3 epoch (loss 0.0010):  37%|███▋      | 6246/16950 [1:11:11<1:41:51,  1.75it/s]Training 2/3 epoch (loss 0.0010):  37%|███▋      | 6247/16950 [1:11:11<1:44:43,  1.70it/s]Training 2/3 epoch (loss 0.2113):  37%|███▋      | 6247/16950 [1:11:12<1:44:43,  1.70it/s]Training 2/3 epoch (loss 0.2113):  37%|███▋      | 6248/16950 [1:11:12<1:54:05,  1.56it/s]Training 2/3 epoch (loss 0.0329):  37%|███▋      | 6248/16950 [1:11:12<1:54:05,  1.56it/s]Training 2/3 epoch (loss 0.0329):  37%|███▋      | 6249/16950 [1:11:12<2:00:34,  1.48it/s]Training 2/3 epoch (loss 0.3571):  37%|███▋      | 6249/16950 [1:11:13<2:00:34,  1.48it/s]Training 2/3 epoch (loss 0.3571):  37%|███▋      | 6250/16950 [1:11:13<1:57:06,  1.52it/s]Training 2/3 epoch (loss 0.5353):  37%|███▋      | 6250/16950 [1:11:14<1:57:06,  1.52it/s]Training 2/3 epoch (loss 0.5353):  37%|███▋      | 6251/16950 [1:11:14<2:08:58,  1.38it/s]Training 2/3 epoch (loss 0.0570):  37%|███▋      | 6251/16950 [1:11:14<2:08:58,  1.38it/s]Training 2/3 epoch (loss 0.0570):  37%|███▋      | 6252/16950 [1:11:14<1:52:49,  1.58it/s]Training 2/3 epoch (loss 0.1366):  37%|███▋      | 6252/16950 [1:11:15<1:52:49,  1.58it/s]Training 2/3 epoch (loss 0.1366):  37%|███▋      | 6253/16950 [1:11:15<1:52:51,  1.58it/s]Training 2/3 epoch (loss 0.0081):  37%|███▋      | 6253/16950 [1:11:15<1:52:51,  1.58it/s]Training 2/3 epoch (loss 0.0081):  37%|███▋      | 6254/16950 [1:11:15<1:48:11,  1.65it/s]Training 2/3 epoch (loss 0.0078):  37%|███▋      | 6254/16950 [1:11:16<1:48:11,  1.65it/s]Training 2/3 epoch (loss 0.0078):  37%|███▋      | 6255/16950 [1:11:16<1:49:42,  1.62it/s]Training 2/3 epoch (loss 0.2668):  37%|███▋      | 6255/16950 [1:11:17<1:49:42,  1.62it/s]Training 2/3 epoch (loss 0.2668):  37%|███▋      | 6256/16950 [1:11:17<1:50:26,  1.61it/s]Training 2/3 epoch (loss 0.0042):  37%|███▋      | 6256/16950 [1:11:17<1:50:26,  1.61it/s]Training 2/3 epoch (loss 0.0042):  37%|███▋      | 6257/16950 [1:11:17<1:46:50,  1.67it/s]Training 2/3 epoch (loss 0.0018):  37%|███▋      | 6257/16950 [1:11:18<1:46:50,  1.67it/s]Training 2/3 epoch (loss 0.0018):  37%|███▋      | 6258/16950 [1:11:18<1:48:49,  1.64it/s]Training 2/3 epoch (loss 0.4371):  37%|███▋      | 6258/16950 [1:11:18<1:48:49,  1.64it/s]Training 2/3 epoch (loss 0.4371):  37%|███▋      | 6259/16950 [1:11:18<1:46:02,  1.68it/s]Training 2/3 epoch (loss 0.3749):  37%|███▋      | 6259/16950 [1:11:19<1:46:02,  1.68it/s]Training 2/3 epoch (loss 0.3749):  37%|███▋      | 6260/16950 [1:11:19<1:37:30,  1.83it/s]Training 2/3 epoch (loss 0.0335):  37%|███▋      | 6260/16950 [1:11:19<1:37:30,  1.83it/s]Training 2/3 epoch (loss 0.0335):  37%|███▋      | 6261/16950 [1:11:19<1:36:36,  1.84it/s]Training 2/3 epoch (loss 0.5013):  37%|███▋      | 6261/16950 [1:11:20<1:36:36,  1.84it/s]Training 2/3 epoch (loss 0.5013):  37%|███▋      | 6262/16950 [1:11:20<1:28:58,  2.00it/s]Training 2/3 epoch (loss 0.1699):  37%|███▋      | 6262/16950 [1:11:20<1:28:58,  2.00it/s]Training 2/3 epoch (loss 0.1699):  37%|███▋      | 6263/16950 [1:11:20<1:27:17,  2.04it/s]Training 2/3 epoch (loss 0.5610):  37%|███▋      | 6263/16950 [1:11:21<1:27:17,  2.04it/s]Training 2/3 epoch (loss 0.5610):  37%|███▋      | 6264/16950 [1:11:21<2:01:16,  1.47it/s]Training 2/3 epoch (loss 0.0135):  37%|███▋      | 6264/16950 [1:11:22<2:01:16,  1.47it/s]Training 2/3 epoch (loss 0.0135):  37%|███▋      | 6265/16950 [1:11:22<1:52:22,  1.58it/s]Training 2/3 epoch (loss 0.1591):  37%|███▋      | 6265/16950 [1:11:23<1:52:22,  1.58it/s]Training 2/3 epoch (loss 0.1591):  37%|███▋      | 6266/16950 [1:11:23<1:58:18,  1.51it/s]Training 2/3 epoch (loss 0.0121):  37%|███▋      | 6266/16950 [1:11:23<1:58:18,  1.51it/s]Training 2/3 epoch (loss 0.0121):  37%|███▋      | 6267/16950 [1:11:23<1:52:14,  1.59it/s]Training 2/3 epoch (loss 0.0639):  37%|███▋      | 6267/16950 [1:11:24<1:52:14,  1.59it/s]Training 2/3 epoch (loss 0.0639):  37%|███▋      | 6268/16950 [1:11:24<1:44:28,  1.70it/s]Training 2/3 epoch (loss 0.0899):  37%|███▋      | 6268/16950 [1:11:24<1:44:28,  1.70it/s]Training 2/3 epoch (loss 0.0899):  37%|███▋      | 6269/16950 [1:11:24<1:46:08,  1.68it/s]Training 2/3 epoch (loss 0.2626):  37%|███▋      | 6269/16950 [1:11:25<1:46:08,  1.68it/s]Training 2/3 epoch (loss 0.2626):  37%|███▋      | 6270/16950 [1:11:25<1:38:22,  1.81it/s]Training 2/3 epoch (loss 0.0112):  37%|███▋      | 6270/16950 [1:11:25<1:38:22,  1.81it/s]Training 2/3 epoch (loss 0.0112):  37%|███▋      | 6271/16950 [1:11:25<1:43:26,  1.72it/s]Training 2/3 epoch (loss 0.2772):  37%|███▋      | 6271/16950 [1:11:26<1:43:26,  1.72it/s]Training 2/3 epoch (loss 0.2772):  37%|███▋      | 6272/16950 [1:11:26<1:42:23,  1.74it/s]Training 2/3 epoch (loss 0.0989):  37%|███▋      | 6272/16950 [1:11:27<1:42:23,  1.74it/s]Training 2/3 epoch (loss 0.0989):  37%|███▋      | 6273/16950 [1:11:27<1:48:51,  1.63it/s]Training 2/3 epoch (loss 0.5541):  37%|███▋      | 6273/16950 [1:11:27<1:48:51,  1.63it/s]Training 2/3 epoch (loss 0.5541):  37%|███▋      | 6274/16950 [1:11:27<1:51:29,  1.60it/s]Training 2/3 epoch (loss 0.0055):  37%|███▋      | 6274/16950 [1:11:28<1:51:29,  1.60it/s]Training 2/3 epoch (loss 0.0055):  37%|███▋      | 6275/16950 [1:11:28<1:47:56,  1.65it/s]Training 2/3 epoch (loss 0.0270):  37%|███▋      | 6275/16950 [1:11:28<1:47:56,  1.65it/s]Training 2/3 epoch (loss 0.0270):  37%|███▋      | 6276/16950 [1:11:28<1:43:14,  1.72it/s]Training 2/3 epoch (loss 0.0571):  37%|███▋      | 6276/16950 [1:11:29<1:43:14,  1.72it/s]Training 2/3 epoch (loss 0.0571):  37%|███▋      | 6277/16950 [1:11:29<1:39:27,  1.79it/s]Training 2/3 epoch (loss 0.2200):  37%|███▋      | 6277/16950 [1:11:30<1:39:27,  1.79it/s]Training 2/3 epoch (loss 0.2200):  37%|███▋      | 6278/16950 [1:11:30<1:54:35,  1.55it/s]Training 2/3 epoch (loss 0.1571):  37%|███▋      | 6278/16950 [1:11:30<1:54:35,  1.55it/s]Training 2/3 epoch (loss 0.1571):  37%|███▋      | 6279/16950 [1:11:30<1:49:13,  1.63it/s]Training 2/3 epoch (loss 0.4782):  37%|███▋      | 6279/16950 [1:11:31<1:49:13,  1.63it/s]Training 2/3 epoch (loss 0.4782):  37%|███▋      | 6280/16950 [1:11:31<1:51:55,  1.59it/s]Training 2/3 epoch (loss 0.0042):  37%|███▋      | 6280/16950 [1:11:31<1:51:55,  1.59it/s]Training 2/3 epoch (loss 0.0042):  37%|███▋      | 6281/16950 [1:11:31<1:40:04,  1.78it/s]Training 2/3 epoch (loss 0.0042):  37%|███▋      | 6281/16950 [1:11:32<1:40:04,  1.78it/s]Training 2/3 epoch (loss 0.0042):  37%|███▋      | 6282/16950 [1:11:32<1:45:03,  1.69it/s]Training 2/3 epoch (loss 0.0086):  37%|███▋      | 6282/16950 [1:11:32<1:45:03,  1.69it/s]Training 2/3 epoch (loss 0.0086):  37%|███▋      | 6283/16950 [1:11:32<1:37:39,  1.82it/s]Training 2/3 epoch (loss 0.1381):  37%|███▋      | 6283/16950 [1:11:33<1:37:39,  1.82it/s]Training 2/3 epoch (loss 0.1381):  37%|███▋      | 6284/16950 [1:11:33<1:39:49,  1.78it/s]Training 2/3 epoch (loss 0.0092):  37%|███▋      | 6284/16950 [1:11:34<1:39:49,  1.78it/s]Training 2/3 epoch (loss 0.0092):  37%|███▋      | 6285/16950 [1:11:34<1:37:58,  1.81it/s]Training 2/3 epoch (loss 0.0541):  37%|███▋      | 6285/16950 [1:11:34<1:37:58,  1.81it/s]Training 2/3 epoch (loss 0.0541):  37%|███▋      | 6286/16950 [1:11:34<1:42:02,  1.74it/s]Training 2/3 epoch (loss 0.1256):  37%|███▋      | 6286/16950 [1:11:35<1:42:02,  1.74it/s]Training 2/3 epoch (loss 0.1256):  37%|███▋      | 6287/16950 [1:11:35<1:42:14,  1.74it/s]Training 2/3 epoch (loss 0.2299):  37%|███▋      | 6287/16950 [1:11:35<1:42:14,  1.74it/s]Training 2/3 epoch (loss 0.2299):  37%|███▋      | 6288/16950 [1:11:35<1:44:10,  1.71it/s]Training 2/3 epoch (loss 0.0352):  37%|███▋      | 6288/16950 [1:11:36<1:44:10,  1.71it/s]Training 2/3 epoch (loss 0.0352):  37%|███▋      | 6289/16950 [1:11:36<1:41:04,  1.76it/s]Training 2/3 epoch (loss 0.1893):  37%|███▋      | 6289/16950 [1:11:36<1:41:04,  1.76it/s]Training 2/3 epoch (loss 0.1893):  37%|███▋      | 6290/16950 [1:11:36<1:40:26,  1.77it/s]Training 2/3 epoch (loss 0.7206):  37%|███▋      | 6290/16950 [1:11:37<1:40:26,  1.77it/s]Training 2/3 epoch (loss 0.7206):  37%|███▋      | 6291/16950 [1:11:37<1:36:53,  1.83it/s]Training 2/3 epoch (loss 0.4730):  37%|███▋      | 6291/16950 [1:11:37<1:36:53,  1.83it/s]Training 2/3 epoch (loss 0.4730):  37%|███▋      | 6292/16950 [1:11:37<1:34:06,  1.89it/s]Training 2/3 epoch (loss 0.0163):  37%|███▋      | 6292/16950 [1:11:38<1:34:06,  1.89it/s]Training 2/3 epoch (loss 0.0163):  37%|███▋      | 6293/16950 [1:11:38<1:39:20,  1.79it/s]Training 2/3 epoch (loss 0.1180):  37%|███▋      | 6293/16950 [1:11:39<1:39:20,  1.79it/s]Training 2/3 epoch (loss 0.1180):  37%|███▋      | 6294/16950 [1:11:39<1:46:26,  1.67it/s]Training 2/3 epoch (loss 0.0007):  37%|███▋      | 6294/16950 [1:11:39<1:46:26,  1.67it/s]Training 2/3 epoch (loss 0.0007):  37%|███▋      | 6295/16950 [1:11:39<1:47:56,  1.65it/s]Training 2/3 epoch (loss 0.0610):  37%|███▋      | 6295/16950 [1:11:40<1:47:56,  1.65it/s]Training 2/3 epoch (loss 0.0610):  37%|███▋      | 6296/16950 [1:11:40<1:46:13,  1.67it/s]Training 2/3 epoch (loss 0.0110):  37%|███▋      | 6296/16950 [1:11:41<1:46:13,  1.67it/s]Training 2/3 epoch (loss 0.0110):  37%|███▋      | 6297/16950 [1:11:41<1:41:50,  1.74it/s]Training 2/3 epoch (loss 0.0025):  37%|███▋      | 6297/16950 [1:11:41<1:41:50,  1.74it/s]Training 2/3 epoch (loss 0.0025):  37%|███▋      | 6298/16950 [1:11:41<1:31:16,  1.95it/s]Training 2/3 epoch (loss 0.3669):  37%|███▋      | 6298/16950 [1:11:41<1:31:16,  1.95it/s]Training 2/3 epoch (loss 0.3669):  37%|███▋      | 6299/16950 [1:11:41<1:34:16,  1.88it/s]Training 2/3 epoch (loss 0.0003):  37%|███▋      | 6299/16950 [1:11:42<1:34:16,  1.88it/s]Training 2/3 epoch (loss 0.0003):  37%|███▋      | 6300/16950 [1:11:42<1:27:53,  2.02it/s]Training 2/3 epoch (loss 0.6029):  37%|███▋      | 6300/16950 [1:11:42<1:27:53,  2.02it/s]Training 2/3 epoch (loss 0.6029):  37%|███▋      | 6301/16950 [1:11:42<1:17:32,  2.29it/s]Training 2/3 epoch (loss 0.0022):  37%|███▋      | 6301/16950 [1:11:43<1:17:32,  2.29it/s]Training 2/3 epoch (loss 0.0022):  37%|███▋      | 6302/16950 [1:11:43<1:15:50,  2.34it/s]Training 2/3 epoch (loss 0.1203):  37%|███▋      | 6302/16950 [1:11:43<1:15:50,  2.34it/s]Training 2/3 epoch (loss 0.1203):  37%|███▋      | 6303/16950 [1:11:43<1:14:07,  2.39it/s]Training 2/3 epoch (loss 0.4419):  37%|███▋      | 6303/16950 [1:11:44<1:14:07,  2.39it/s]Training 2/3 epoch (loss 0.4419):  37%|███▋      | 6304/16950 [1:11:44<1:26:07,  2.06it/s]Training 2/3 epoch (loss 0.0013):  37%|███▋      | 6304/16950 [1:11:44<1:26:07,  2.06it/s]Training 2/3 epoch (loss 0.0013):  37%|███▋      | 6305/16950 [1:11:44<1:28:14,  2.01it/s]Training 2/3 epoch (loss 0.2854):  37%|███▋      | 6305/16950 [1:11:45<1:28:14,  2.01it/s]Training 2/3 epoch (loss 0.2854):  37%|███▋      | 6306/16950 [1:11:45<1:24:37,  2.10it/s]Training 2/3 epoch (loss 0.6448):  37%|███▋      | 6306/16950 [1:11:45<1:24:37,  2.10it/s]Training 2/3 epoch (loss 0.6448):  37%|███▋      | 6307/16950 [1:11:45<1:43:22,  1.72it/s]Training 2/3 epoch (loss 0.4530):  37%|███▋      | 6307/16950 [1:11:46<1:43:22,  1.72it/s]Training 2/3 epoch (loss 0.4530):  37%|███▋      | 6308/16950 [1:11:46<1:37:40,  1.82it/s]Training 2/3 epoch (loss 0.0156):  37%|███▋      | 6308/16950 [1:11:46<1:37:40,  1.82it/s]Training 2/3 epoch (loss 0.0156):  37%|███▋      | 6309/16950 [1:11:46<1:39:46,  1.78it/s]Training 2/3 epoch (loss 0.6791):  37%|███▋      | 6309/16950 [1:11:47<1:39:46,  1.78it/s]Training 2/3 epoch (loss 0.6791):  37%|███▋      | 6310/16950 [1:11:47<1:38:40,  1.80it/s]Training 2/3 epoch (loss 0.5611):  37%|███▋      | 6310/16950 [1:11:47<1:38:40,  1.80it/s]Training 2/3 epoch (loss 0.5611):  37%|███▋      | 6311/16950 [1:11:47<1:29:26,  1.98it/s]Training 2/3 epoch (loss 0.0007):  37%|███▋      | 6311/16950 [1:11:48<1:29:26,  1.98it/s]Training 2/3 epoch (loss 0.0007):  37%|███▋      | 6312/16950 [1:11:48<1:20:08,  2.21it/s]Training 2/3 epoch (loss 0.0051):  37%|███▋      | 6312/16950 [1:11:48<1:20:08,  2.21it/s]Training 2/3 epoch (loss 0.0051):  37%|███▋      | 6313/16950 [1:11:48<1:27:34,  2.02it/s]Training 2/3 epoch (loss 0.1499):  37%|███▋      | 6313/16950 [1:11:49<1:27:34,  2.02it/s]Training 2/3 epoch (loss 0.1499):  37%|███▋      | 6314/16950 [1:11:49<1:29:13,  1.99it/s]Training 2/3 epoch (loss 0.1645):  37%|███▋      | 6314/16950 [1:11:50<1:29:13,  1.99it/s]Training 2/3 epoch (loss 0.1645):  37%|███▋      | 6315/16950 [1:11:50<1:49:13,  1.62it/s]Training 2/3 epoch (loss 0.0047):  37%|███▋      | 6315/16950 [1:11:50<1:49:13,  1.62it/s]Training 2/3 epoch (loss 0.0047):  37%|███▋      | 6316/16950 [1:11:50<1:46:01,  1.67it/s]Training 2/3 epoch (loss 0.0081):  37%|███▋      | 6316/16950 [1:11:51<1:46:01,  1.67it/s]Training 2/3 epoch (loss 0.0081):  37%|███▋      | 6317/16950 [1:11:51<1:46:41,  1.66it/s]Training 2/3 epoch (loss 0.0782):  37%|███▋      | 6317/16950 [1:11:52<1:46:41,  1.66it/s]Training 2/3 epoch (loss 0.0782):  37%|███▋      | 6318/16950 [1:11:52<1:59:49,  1.48it/s]Training 2/3 epoch (loss 0.2454):  37%|███▋      | 6318/16950 [1:11:52<1:59:49,  1.48it/s]Training 2/3 epoch (loss 0.2454):  37%|███▋      | 6319/16950 [1:11:52<1:52:52,  1.57it/s]Training 2/3 epoch (loss 0.3812):  37%|███▋      | 6319/16950 [1:11:53<1:52:52,  1.57it/s]Training 2/3 epoch (loss 0.3812):  37%|███▋      | 6320/16950 [1:11:53<1:41:58,  1.74it/s]Training 2/3 epoch (loss 0.4086):  37%|███▋      | 6320/16950 [1:11:53<1:41:58,  1.74it/s]Training 2/3 epoch (loss 0.4086):  37%|███▋      | 6321/16950 [1:11:53<1:45:23,  1.68it/s]Training 2/3 epoch (loss 0.1018):  37%|███▋      | 6321/16950 [1:11:54<1:45:23,  1.68it/s]Training 2/3 epoch (loss 0.1018):  37%|███▋      | 6322/16950 [1:11:54<1:40:44,  1.76it/s]Training 2/3 epoch (loss 0.4285):  37%|███▋      | 6322/16950 [1:11:54<1:40:44,  1.76it/s]Training 2/3 epoch (loss 0.4285):  37%|███▋      | 6323/16950 [1:11:54<1:43:28,  1.71it/s]Training 2/3 epoch (loss 0.0018):  37%|███▋      | 6323/16950 [1:11:55<1:43:28,  1.71it/s]Training 2/3 epoch (loss 0.0018):  37%|███▋      | 6324/16950 [1:11:55<1:45:43,  1.68it/s]Training 2/3 epoch (loss 0.0922):  37%|███▋      | 6324/16950 [1:11:56<1:45:43,  1.68it/s]Training 2/3 epoch (loss 0.0922):  37%|███▋      | 6325/16950 [1:11:56<1:45:36,  1.68it/s]Training 2/3 epoch (loss 0.1311):  37%|███▋      | 6325/16950 [1:11:56<1:45:36,  1.68it/s]Training 2/3 epoch (loss 0.1311):  37%|███▋      | 6326/16950 [1:11:56<1:40:14,  1.77it/s]Training 2/3 epoch (loss 0.3017):  37%|███▋      | 6326/16950 [1:11:57<1:40:14,  1.77it/s]Training 2/3 epoch (loss 0.3017):  37%|███▋      | 6327/16950 [1:11:57<1:36:51,  1.83it/s]Training 2/3 epoch (loss 0.4742):  37%|███▋      | 6327/16950 [1:11:57<1:36:51,  1.83it/s]Training 2/3 epoch (loss 0.4742):  37%|███▋      | 6328/16950 [1:11:57<1:33:40,  1.89it/s]Training 2/3 epoch (loss 0.2609):  37%|███▋      | 6328/16950 [1:11:58<1:33:40,  1.89it/s]Training 2/3 epoch (loss 0.2609):  37%|███▋      | 6329/16950 [1:11:58<1:34:27,  1.87it/s]Training 2/3 epoch (loss 0.0054):  37%|███▋      | 6329/16950 [1:11:58<1:34:27,  1.87it/s]Training 2/3 epoch (loss 0.0054):  37%|███▋      | 6330/16950 [1:11:58<1:29:54,  1.97it/s]Training 2/3 epoch (loss 0.0724):  37%|███▋      | 6330/16950 [1:11:59<1:29:54,  1.97it/s]Training 2/3 epoch (loss 0.0724):  37%|███▋      | 6331/16950 [1:11:59<1:31:05,  1.94it/s]Training 2/3 epoch (loss 0.2605):  37%|███▋      | 6331/16950 [1:11:59<1:31:05,  1.94it/s]Training 2/3 epoch (loss 0.2605):  37%|███▋      | 6332/16950 [1:11:59<1:31:54,  1.93it/s]Training 2/3 epoch (loss 0.0625):  37%|███▋      | 6332/16950 [1:12:00<1:31:54,  1.93it/s]Training 2/3 epoch (loss 0.0625):  37%|███▋      | 6333/16950 [1:12:00<1:30:51,  1.95it/s]Training 2/3 epoch (loss 1.2270):  37%|███▋      | 6333/16950 [1:12:00<1:30:51,  1.95it/s]Training 2/3 epoch (loss 1.2270):  37%|███▋      | 6334/16950 [1:12:00<1:39:18,  1.78it/s]Training 2/3 epoch (loss 0.1172):  37%|███▋      | 6334/16950 [1:12:01<1:39:18,  1.78it/s]Training 2/3 epoch (loss 0.1172):  37%|███▋      | 6335/16950 [1:12:01<1:45:38,  1.67it/s]Training 2/3 epoch (loss 0.0001):  37%|███▋      | 6335/16950 [1:12:01<1:45:38,  1.67it/s]Training 2/3 epoch (loss 0.0001):  37%|███▋      | 6336/16950 [1:12:01<1:31:03,  1.94it/s]Training 2/3 epoch (loss 0.0009):  37%|███▋      | 6336/16950 [1:12:02<1:31:03,  1.94it/s]Training 2/3 epoch (loss 0.0009):  37%|███▋      | 6337/16950 [1:12:02<1:35:10,  1.86it/s]Training 2/3 epoch (loss 0.0479):  37%|███▋      | 6337/16950 [1:12:03<1:35:10,  1.86it/s]Training 2/3 epoch (loss 0.0479):  37%|███▋      | 6338/16950 [1:12:03<1:40:21,  1.76it/s]Training 2/3 epoch (loss 0.1350):  37%|███▋      | 6338/16950 [1:12:03<1:40:21,  1.76it/s]Training 2/3 epoch (loss 0.1350):  37%|███▋      | 6339/16950 [1:12:03<1:48:11,  1.63it/s]Training 2/3 epoch (loss 0.3852):  37%|███▋      | 6339/16950 [1:12:04<1:48:11,  1.63it/s]Training 2/3 epoch (loss 0.3852):  37%|███▋      | 6340/16950 [1:12:04<1:40:53,  1.75it/s]Training 2/3 epoch (loss 0.5883):  37%|███▋      | 6340/16950 [1:12:05<1:40:53,  1.75it/s]Training 2/3 epoch (loss 0.5883):  37%|███▋      | 6341/16950 [1:12:05<1:55:40,  1.53it/s]Training 2/3 epoch (loss 0.0055):  37%|███▋      | 6341/16950 [1:12:05<1:55:40,  1.53it/s]Training 2/3 epoch (loss 0.0055):  37%|███▋      | 6342/16950 [1:12:05<1:54:16,  1.55it/s]Training 2/3 epoch (loss 0.1410):  37%|███▋      | 6342/16950 [1:12:06<1:54:16,  1.55it/s]Training 2/3 epoch (loss 0.1410):  37%|███▋      | 6343/16950 [1:12:06<1:44:02,  1.70it/s]Training 2/3 epoch (loss 0.0146):  37%|███▋      | 6343/16950 [1:12:06<1:44:02,  1.70it/s]Training 2/3 epoch (loss 0.0146):  37%|███▋      | 6344/16950 [1:12:06<1:47:39,  1.64it/s]Training 2/3 epoch (loss 0.0017):  37%|███▋      | 6344/16950 [1:12:07<1:47:39,  1.64it/s]Training 2/3 epoch (loss 0.0017):  37%|███▋      | 6345/16950 [1:12:07<1:46:38,  1.66it/s]Training 2/3 epoch (loss 0.2601):  37%|███▋      | 6345/16950 [1:12:08<1:46:38,  1.66it/s]Training 2/3 epoch (loss 0.2601):  37%|███▋      | 6346/16950 [1:12:08<1:47:16,  1.65it/s]Training 2/3 epoch (loss 0.4711):  37%|███▋      | 6346/16950 [1:12:08<1:47:16,  1.65it/s]Training 2/3 epoch (loss 0.4711):  37%|███▋      | 6347/16950 [1:12:08<1:50:29,  1.60it/s]Training 2/3 epoch (loss 0.0639):  37%|███▋      | 6347/16950 [1:12:09<1:50:29,  1.60it/s]Training 2/3 epoch (loss 0.0639):  37%|███▋      | 6348/16950 [1:12:09<1:54:46,  1.54it/s]Training 2/3 epoch (loss 0.0046):  37%|███▋      | 6348/16950 [1:12:10<1:54:46,  1.54it/s]Training 2/3 epoch (loss 0.0046):  37%|███▋      | 6349/16950 [1:12:10<1:47:19,  1.65it/s]Training 2/3 epoch (loss 0.6681):  37%|███▋      | 6349/16950 [1:12:10<1:47:19,  1.65it/s]Training 2/3 epoch (loss 0.6681):  37%|███▋      | 6350/16950 [1:12:10<1:33:42,  1.89it/s]Training 2/3 epoch (loss 0.0018):  37%|███▋      | 6350/16950 [1:12:10<1:33:42,  1.89it/s]Training 2/3 epoch (loss 0.0018):  37%|███▋      | 6351/16950 [1:12:10<1:30:29,  1.95it/s]Training 2/3 epoch (loss 0.0207):  37%|███▋      | 6351/16950 [1:12:11<1:30:29,  1.95it/s]Training 2/3 epoch (loss 0.0207):  37%|███▋      | 6352/16950 [1:12:11<1:30:21,  1.95it/s]Training 2/3 epoch (loss 0.1717):  37%|███▋      | 6352/16950 [1:12:12<1:30:21,  1.95it/s]Training 2/3 epoch (loss 0.1717):  37%|███▋      | 6353/16950 [1:12:12<1:39:18,  1.78it/s]Training 2/3 epoch (loss 0.2879):  37%|███▋      | 6353/16950 [1:12:12<1:39:18,  1.78it/s]Training 2/3 epoch (loss 0.2879):  37%|███▋      | 6354/16950 [1:12:12<1:29:45,  1.97it/s]Training 2/3 epoch (loss 0.0244):  37%|███▋      | 6354/16950 [1:12:13<1:29:45,  1.97it/s]Training 2/3 epoch (loss 0.0244):  37%|███▋      | 6355/16950 [1:12:13<1:35:42,  1.85it/s]Training 2/3 epoch (loss 0.4875):  37%|███▋      | 6355/16950 [1:12:13<1:35:42,  1.85it/s]Training 2/3 epoch (loss 0.4875):  37%|███▋      | 6356/16950 [1:12:13<1:31:45,  1.92it/s]Training 2/3 epoch (loss 0.0846):  37%|███▋      | 6356/16950 [1:12:14<1:31:45,  1.92it/s]Training 2/3 epoch (loss 0.0846):  38%|███▊      | 6357/16950 [1:12:14<1:46:05,  1.66it/s]Training 2/3 epoch (loss 0.0331):  38%|███▊      | 6357/16950 [1:12:14<1:46:05,  1.66it/s]Training 2/3 epoch (loss 0.0331):  38%|███▊      | 6358/16950 [1:12:14<1:47:32,  1.64it/s]Training 2/3 epoch (loss 0.3409):  38%|███▊      | 6358/16950 [1:12:15<1:47:32,  1.64it/s]Training 2/3 epoch (loss 0.3409):  38%|███▊      | 6359/16950 [1:12:15<1:48:42,  1.62it/s]Training 2/3 epoch (loss 0.0046):  38%|███▊      | 6359/16950 [1:12:16<1:48:42,  1.62it/s]Training 2/3 epoch (loss 0.0046):  38%|███▊      | 6360/16950 [1:12:16<1:39:27,  1.77it/s]Training 2/3 epoch (loss 0.0023):  38%|███▊      | 6360/16950 [1:12:16<1:39:27,  1.77it/s]Training 2/3 epoch (loss 0.0023):  38%|███▊      | 6361/16950 [1:12:16<1:31:48,  1.92it/s]Training 2/3 epoch (loss 0.3952):  38%|███▊      | 6361/16950 [1:12:16<1:31:48,  1.92it/s]Training 2/3 epoch (loss 0.3952):  38%|███▊      | 6362/16950 [1:12:16<1:29:29,  1.97it/s]Training 2/3 epoch (loss 0.5752):  38%|███▊      | 6362/16950 [1:12:17<1:29:29,  1.97it/s]Training 2/3 epoch (loss 0.5752):  38%|███▊      | 6363/16950 [1:12:17<1:42:50,  1.72it/s]Training 2/3 epoch (loss 0.0008):  38%|███▊      | 6363/16950 [1:12:18<1:42:50,  1.72it/s]Training 2/3 epoch (loss 0.0008):  38%|███▊      | 6364/16950 [1:12:18<1:39:12,  1.78it/s]Training 2/3 epoch (loss 0.5100):  38%|███▊      | 6364/16950 [1:12:18<1:39:12,  1.78it/s]Training 2/3 epoch (loss 0.5100):  38%|███▊      | 6365/16950 [1:12:18<1:29:21,  1.97it/s]Training 2/3 epoch (loss 0.0015):  38%|███▊      | 6365/16950 [1:12:19<1:29:21,  1.97it/s]Training 2/3 epoch (loss 0.0015):  38%|███▊      | 6366/16950 [1:12:19<1:28:05,  2.00it/s]Training 2/3 epoch (loss 0.0375):  38%|███▊      | 6366/16950 [1:12:19<1:28:05,  2.00it/s]Training 2/3 epoch (loss 0.0375):  38%|███▊      | 6367/16950 [1:12:19<1:28:00,  2.00it/s]Training 2/3 epoch (loss 0.0386):  38%|███▊      | 6367/16950 [1:12:20<1:28:00,  2.00it/s]Training 2/3 epoch (loss 0.0386):  38%|███▊      | 6368/16950 [1:12:20<1:29:57,  1.96it/s]Training 2/3 epoch (loss 0.1113):  38%|███▊      | 6368/16950 [1:12:20<1:29:57,  1.96it/s]Training 2/3 epoch (loss 0.1113):  38%|███▊      | 6369/16950 [1:12:20<1:37:06,  1.82it/s]Training 2/3 epoch (loss 0.0477):  38%|███▊      | 6369/16950 [1:12:21<1:37:06,  1.82it/s]Training 2/3 epoch (loss 0.0477):  38%|███▊      | 6370/16950 [1:12:21<1:40:37,  1.75it/s]Training 2/3 epoch (loss 0.6179):  38%|███▊      | 6370/16950 [1:12:21<1:40:37,  1.75it/s]Training 2/3 epoch (loss 0.6179):  38%|███▊      | 6371/16950 [1:12:21<1:34:21,  1.87it/s]Training 2/3 epoch (loss 0.0046):  38%|███▊      | 6371/16950 [1:12:22<1:34:21,  1.87it/s]Training 2/3 epoch (loss 0.0046):  38%|███▊      | 6372/16950 [1:12:22<1:33:48,  1.88it/s]Training 2/3 epoch (loss 0.5011):  38%|███▊      | 6372/16950 [1:12:22<1:33:48,  1.88it/s]Training 2/3 epoch (loss 0.5011):  38%|███▊      | 6373/16950 [1:12:22<1:40:52,  1.75it/s]Training 2/3 epoch (loss 0.0276):  38%|███▊      | 6373/16950 [1:12:23<1:40:52,  1.75it/s]Training 2/3 epoch (loss 0.0276):  38%|███▊      | 6374/16950 [1:12:23<1:39:16,  1.78it/s]Training 2/3 epoch (loss 0.5231):  38%|███▊      | 6374/16950 [1:12:23<1:39:16,  1.78it/s]Training 2/3 epoch (loss 0.5231):  38%|███▊      | 6375/16950 [1:12:23<1:32:43,  1.90it/s]Training 2/3 epoch (loss 0.2662):  38%|███▊      | 6375/16950 [1:12:24<1:32:43,  1.90it/s]Training 2/3 epoch (loss 0.2662):  38%|███▊      | 6376/16950 [1:12:24<1:40:52,  1.75it/s]Training 2/3 epoch (loss 0.0037):  38%|███▊      | 6376/16950 [1:12:25<1:40:52,  1.75it/s]Training 2/3 epoch (loss 0.0037):  38%|███▊      | 6377/16950 [1:12:25<1:43:06,  1.71it/s]Training 2/3 epoch (loss 0.0610):  38%|███▊      | 6377/16950 [1:12:25<1:43:06,  1.71it/s]Training 2/3 epoch (loss 0.0610):  38%|███▊      | 6378/16950 [1:12:25<1:34:51,  1.86it/s]Training 2/3 epoch (loss 0.1619):  38%|███▊      | 6378/16950 [1:12:26<1:34:51,  1.86it/s]Training 2/3 epoch (loss 0.1619):  38%|███▊      | 6379/16950 [1:12:26<1:38:42,  1.78it/s]Training 2/3 epoch (loss 0.0428):  38%|███▊      | 6379/16950 [1:12:27<1:38:42,  1.78it/s]Training 2/3 epoch (loss 0.0428):  38%|███▊      | 6380/16950 [1:12:27<1:47:32,  1.64it/s]Training 2/3 epoch (loss 0.0034):  38%|███▊      | 6380/16950 [1:12:27<1:47:32,  1.64it/s]Training 2/3 epoch (loss 0.0034):  38%|███▊      | 6381/16950 [1:12:27<1:44:23,  1.69it/s]Training 2/3 epoch (loss 0.0075):  38%|███▊      | 6381/16950 [1:12:28<1:44:23,  1.69it/s]Training 2/3 epoch (loss 0.0075):  38%|███▊      | 6382/16950 [1:12:28<1:42:51,  1.71it/s]Training 2/3 epoch (loss 0.4327):  38%|███▊      | 6382/16950 [1:12:28<1:42:51,  1.71it/s]Training 2/3 epoch (loss 0.4327):  38%|███▊      | 6383/16950 [1:12:28<1:34:23,  1.87it/s]Training 2/3 epoch (loss 0.6509):  38%|███▊      | 6383/16950 [1:12:29<1:34:23,  1.87it/s]Training 2/3 epoch (loss 0.6509):  38%|███▊      | 6384/16950 [1:12:29<1:57:56,  1.49it/s]Training 2/3 epoch (loss 0.0383):  38%|███▊      | 6384/16950 [1:12:29<1:57:56,  1.49it/s]Training 2/3 epoch (loss 0.0383):  38%|███▊      | 6385/16950 [1:12:29<1:44:45,  1.68it/s]Training 2/3 epoch (loss 0.0276):  38%|███▊      | 6385/16950 [1:12:30<1:44:45,  1.68it/s]Training 2/3 epoch (loss 0.0276):  38%|███▊      | 6386/16950 [1:12:30<1:45:20,  1.67it/s]Training 2/3 epoch (loss 0.0401):  38%|███▊      | 6386/16950 [1:12:31<1:45:20,  1.67it/s]Training 2/3 epoch (loss 0.0401):  38%|███▊      | 6387/16950 [1:12:31<1:43:12,  1.71it/s]Training 2/3 epoch (loss 0.4752):  38%|███▊      | 6387/16950 [1:12:31<1:43:12,  1.71it/s]Training 2/3 epoch (loss 0.4752):  38%|███▊      | 6388/16950 [1:12:31<1:57:20,  1.50it/s]Training 2/3 epoch (loss 0.2834):  38%|███▊      | 6388/16950 [1:12:32<1:57:20,  1.50it/s]Training 2/3 epoch (loss 0.2834):  38%|███▊      | 6389/16950 [1:12:32<1:53:38,  1.55it/s]Training 2/3 epoch (loss 0.2238):  38%|███▊      | 6389/16950 [1:12:33<1:53:38,  1.55it/s]Training 2/3 epoch (loss 0.2238):  38%|███▊      | 6390/16950 [1:12:33<2:15:53,  1.30it/s]Training 2/3 epoch (loss 0.1534):  38%|███▊      | 6390/16950 [1:12:34<2:15:53,  1.30it/s]Training 2/3 epoch (loss 0.1534):  38%|███▊      | 6391/16950 [1:12:34<2:02:10,  1.44it/s]Training 2/3 epoch (loss 0.0526):  38%|███▊      | 6391/16950 [1:12:35<2:02:10,  1.44it/s]Training 2/3 epoch (loss 0.0526):  38%|███▊      | 6392/16950 [1:12:35<2:22:26,  1.24it/s]Training 2/3 epoch (loss 0.0050):  38%|███▊      | 6392/16950 [1:12:35<2:22:26,  1.24it/s]Training 2/3 epoch (loss 0.0050):  38%|███▊      | 6393/16950 [1:12:35<2:06:35,  1.39it/s]Training 2/3 epoch (loss 0.0016):  38%|███▊      | 6393/16950 [1:12:36<2:06:35,  1.39it/s]Training 2/3 epoch (loss 0.0016):  38%|███▊      | 6394/16950 [1:12:36<1:46:46,  1.65it/s]Training 2/3 epoch (loss 0.5377):  38%|███▊      | 6394/16950 [1:12:37<1:46:46,  1.65it/s]Training 2/3 epoch (loss 0.5377):  38%|███▊      | 6395/16950 [1:12:37<2:12:59,  1.32it/s]Training 2/3 epoch (loss 0.0289):  38%|███▊      | 6395/16950 [1:12:37<2:12:59,  1.32it/s]Training 2/3 epoch (loss 0.0289):  38%|███▊      | 6396/16950 [1:12:37<2:04:35,  1.41it/s]Training 2/3 epoch (loss 0.4634):  38%|███▊      | 6396/16950 [1:12:38<2:04:35,  1.41it/s]Training 2/3 epoch (loss 0.4634):  38%|███▊      | 6397/16950 [1:12:38<2:08:03,  1.37it/s]Training 2/3 epoch (loss 0.5592):  38%|███▊      | 6397/16950 [1:12:39<2:08:03,  1.37it/s]Training 2/3 epoch (loss 0.5592):  38%|███▊      | 6398/16950 [1:12:39<2:30:48,  1.17it/s]Training 2/3 epoch (loss 0.5972):  38%|███▊      | 6398/16950 [1:12:40<2:30:48,  1.17it/s]Training 2/3 epoch (loss 0.5972):  38%|███▊      | 6399/16950 [1:12:40<2:46:38,  1.06it/s]Training 2/3 epoch (loss 0.3085):  38%|███▊      | 6399/16950 [1:12:41<2:46:38,  1.06it/s]Training 2/3 epoch (loss 0.3085):  38%|███▊      | 6400/16950 [1:12:41<2:23:42,  1.22it/s]Training 2/3 epoch (loss 0.4523):  38%|███▊      | 6400/16950 [1:12:41<2:23:42,  1.22it/s]Training 2/3 epoch (loss 0.4523):  38%|███▊      | 6401/16950 [1:12:41<2:08:27,  1.37it/s]Training 2/3 epoch (loss 0.0322):  38%|███▊      | 6401/16950 [1:12:42<2:08:27,  1.37it/s]Training 2/3 epoch (loss 0.0322):  38%|███▊      | 6402/16950 [1:12:42<1:52:52,  1.56it/s]Training 2/3 epoch (loss 0.0471):  38%|███▊      | 6402/16950 [1:12:42<1:52:52,  1.56it/s]Training 2/3 epoch (loss 0.0471):  38%|███▊      | 6403/16950 [1:12:42<1:52:13,  1.57it/s]Training 2/3 epoch (loss 0.0438):  38%|███▊      | 6403/16950 [1:12:43<1:52:13,  1.57it/s]Training 2/3 epoch (loss 0.0438):  38%|███▊      | 6404/16950 [1:12:43<1:54:17,  1.54it/s]Training 2/3 epoch (loss 0.8167):  38%|███▊      | 6404/16950 [1:12:44<1:54:17,  1.54it/s]Training 2/3 epoch (loss 0.8167):  38%|███▊      | 6405/16950 [1:12:44<2:07:56,  1.37it/s]Training 2/3 epoch (loss 0.0852):  38%|███▊      | 6405/16950 [1:12:45<2:07:56,  1.37it/s]Training 2/3 epoch (loss 0.0852):  38%|███▊      | 6406/16950 [1:12:45<2:02:48,  1.43it/s]Training 2/3 epoch (loss 0.3483):  38%|███▊      | 6406/16950 [1:12:45<2:02:48,  1.43it/s]Training 2/3 epoch (loss 0.3483):  38%|███▊      | 6407/16950 [1:12:45<1:46:36,  1.65it/s]Training 2/3 epoch (loss 0.0012):  38%|███▊      | 6407/16950 [1:12:46<1:46:36,  1.65it/s]Training 2/3 epoch (loss 0.0012):  38%|███▊      | 6408/16950 [1:12:46<1:43:05,  1.70it/s]Training 2/3 epoch (loss 0.2032):  38%|███▊      | 6408/16950 [1:12:46<1:43:05,  1.70it/s]Training 2/3 epoch (loss 0.2032):  38%|███▊      | 6409/16950 [1:12:46<1:41:53,  1.72it/s]Training 2/3 epoch (loss 0.5782):  38%|███▊      | 6409/16950 [1:12:47<1:41:53,  1.72it/s]Training 2/3 epoch (loss 0.5782):  38%|███▊      | 6410/16950 [1:12:47<1:45:55,  1.66it/s]Training 2/3 epoch (loss 0.3106):  38%|███▊      | 6410/16950 [1:12:48<1:45:55,  1.66it/s]Training 2/3 epoch (loss 0.3106):  38%|███▊      | 6411/16950 [1:12:48<2:08:41,  1.36it/s]Training 2/3 epoch (loss 0.0327):  38%|███▊      | 6411/16950 [1:12:49<2:08:41,  1.36it/s]Training 2/3 epoch (loss 0.0327):  38%|███▊      | 6412/16950 [1:12:49<2:21:52,  1.24it/s]Training 2/3 epoch (loss 0.0005):  38%|███▊      | 6412/16950 [1:12:49<2:21:52,  1.24it/s]Training 2/3 epoch (loss 0.0005):  38%|███▊      | 6413/16950 [1:12:49<2:06:26,  1.39it/s]Training 2/3 epoch (loss 0.0011):  38%|███▊      | 6413/16950 [1:12:50<2:06:26,  1.39it/s]Training 2/3 epoch (loss 0.0011):  38%|███▊      | 6414/16950 [1:12:50<2:01:03,  1.45it/s]Training 2/3 epoch (loss 0.3855):  38%|███▊      | 6414/16950 [1:12:50<2:01:03,  1.45it/s]Training 2/3 epoch (loss 0.3855):  38%|███▊      | 6415/16950 [1:12:50<1:47:19,  1.64it/s]Training 2/3 epoch (loss 0.0615):  38%|███▊      | 6415/16950 [1:12:51<1:47:19,  1.64it/s]Training 2/3 epoch (loss 0.0615):  38%|███▊      | 6416/16950 [1:12:51<1:47:10,  1.64it/s]Training 2/3 epoch (loss 0.2431):  38%|███▊      | 6416/16950 [1:12:52<1:47:10,  1.64it/s]Training 2/3 epoch (loss 0.2431):  38%|███▊      | 6417/16950 [1:12:52<1:40:24,  1.75it/s]Training 2/3 epoch (loss 0.0828):  38%|███▊      | 6417/16950 [1:12:52<1:40:24,  1.75it/s]Training 2/3 epoch (loss 0.0828):  38%|███▊      | 6418/16950 [1:12:52<1:34:22,  1.86it/s]Training 2/3 epoch (loss 0.0636):  38%|███▊      | 6418/16950 [1:12:53<1:34:22,  1.86it/s]Training 2/3 epoch (loss 0.0636):  38%|███▊      | 6419/16950 [1:12:53<1:49:01,  1.61it/s]Training 2/3 epoch (loss 0.4425):  38%|███▊      | 6419/16950 [1:12:53<1:49:01,  1.61it/s]Training 2/3 epoch (loss 0.4425):  38%|███▊      | 6420/16950 [1:12:53<1:42:16,  1.72it/s]Training 2/3 epoch (loss 0.1036):  38%|███▊      | 6420/16950 [1:12:54<1:42:16,  1.72it/s]Training 2/3 epoch (loss 0.1036):  38%|███▊      | 6421/16950 [1:12:54<1:38:11,  1.79it/s]Training 2/3 epoch (loss 0.5441):  38%|███▊      | 6421/16950 [1:12:55<1:38:11,  1.79it/s]Training 2/3 epoch (loss 0.5441):  38%|███▊      | 6422/16950 [1:12:55<1:49:51,  1.60it/s]Training 2/3 epoch (loss 0.0229):  38%|███▊      | 6422/16950 [1:12:55<1:49:51,  1.60it/s]Training 2/3 epoch (loss 0.0229):  38%|███▊      | 6423/16950 [1:12:55<1:52:10,  1.56it/s]Training 2/3 epoch (loss 0.6291):  38%|███▊      | 6423/16950 [1:12:56<1:52:10,  1.56it/s]Training 2/3 epoch (loss 0.6291):  38%|███▊      | 6424/16950 [1:12:56<1:38:29,  1.78it/s]Training 2/3 epoch (loss 0.0426):  38%|███▊      | 6424/16950 [1:12:56<1:38:29,  1.78it/s]Training 2/3 epoch (loss 0.0426):  38%|███▊      | 6425/16950 [1:12:56<1:38:40,  1.78it/s]Training 2/3 epoch (loss 0.1141):  38%|███▊      | 6425/16950 [1:12:57<1:38:40,  1.78it/s]Training 2/3 epoch (loss 0.1141):  38%|███▊      | 6426/16950 [1:12:57<1:53:17,  1.55it/s]Training 2/3 epoch (loss 0.5031):  38%|███▊      | 6426/16950 [1:12:57<1:53:17,  1.55it/s]Training 2/3 epoch (loss 0.5031):  38%|███▊      | 6427/16950 [1:12:57<1:40:14,  1.75it/s]Training 2/3 epoch (loss 0.1817):  38%|███▊      | 6427/16950 [1:12:58<1:40:14,  1.75it/s]Training 2/3 epoch (loss 0.1817):  38%|███▊      | 6428/16950 [1:12:58<1:41:22,  1.73it/s]Training 2/3 epoch (loss 0.0739):  38%|███▊      | 6428/16950 [1:12:58<1:41:22,  1.73it/s]Training 2/3 epoch (loss 0.0739):  38%|███▊      | 6429/16950 [1:12:58<1:35:48,  1.83it/s]Training 2/3 epoch (loss 0.0593):  38%|███▊      | 6429/16950 [1:12:59<1:35:48,  1.83it/s]Training 2/3 epoch (loss 0.0593):  38%|███▊      | 6430/16950 [1:12:59<1:37:12,  1.80it/s]Training 2/3 epoch (loss 0.3162):  38%|███▊      | 6430/16950 [1:13:00<1:37:12,  1.80it/s]Training 2/3 epoch (loss 0.3162):  38%|███▊      | 6431/16950 [1:13:00<1:35:26,  1.84it/s]Training 2/3 epoch (loss 0.0050):  38%|███▊      | 6431/16950 [1:13:00<1:35:26,  1.84it/s]Training 2/3 epoch (loss 0.0050):  38%|███▊      | 6432/16950 [1:13:00<1:38:23,  1.78it/s]Training 2/3 epoch (loss 0.2011):  38%|███▊      | 6432/16950 [1:13:01<1:38:23,  1.78it/s]Training 2/3 epoch (loss 0.2011):  38%|███▊      | 6433/16950 [1:13:01<1:29:19,  1.96it/s]Training 2/3 epoch (loss 0.0162):  38%|███▊      | 6433/16950 [1:13:01<1:29:19,  1.96it/s]Training 2/3 epoch (loss 0.0162):  38%|███▊      | 6434/16950 [1:13:01<1:23:07,  2.11it/s]Training 2/3 epoch (loss 0.0115):  38%|███▊      | 6434/16950 [1:13:01<1:23:07,  2.11it/s]Training 2/3 epoch (loss 0.0115):  38%|███▊      | 6435/16950 [1:13:01<1:20:04,  2.19it/s]Training 2/3 epoch (loss 0.1793):  38%|███▊      | 6435/16950 [1:13:02<1:20:04,  2.19it/s]Training 2/3 epoch (loss 0.1793):  38%|███▊      | 6436/16950 [1:13:02<1:50:25,  1.59it/s]Training 2/3 epoch (loss 0.1481):  38%|███▊      | 6436/16950 [1:13:03<1:50:25,  1.59it/s]Training 2/3 epoch (loss 0.1481):  38%|███▊      | 6437/16950 [1:13:03<1:49:22,  1.60it/s]Training 2/3 epoch (loss 0.3278):  38%|███▊      | 6437/16950 [1:13:04<1:49:22,  1.60it/s]Training 2/3 epoch (loss 0.3278):  38%|███▊      | 6438/16950 [1:13:04<1:49:26,  1.60it/s]Training 2/3 epoch (loss 0.0055):  38%|███▊      | 6438/16950 [1:13:04<1:49:26,  1.60it/s]Training 2/3 epoch (loss 0.0055):  38%|███▊      | 6439/16950 [1:13:04<1:50:59,  1.58it/s]Training 2/3 epoch (loss 0.0221):  38%|███▊      | 6439/16950 [1:13:05<1:50:59,  1.58it/s]Training 2/3 epoch (loss 0.0221):  38%|███▊      | 6440/16950 [1:13:05<1:47:19,  1.63it/s]Training 2/3 epoch (loss 0.0536):  38%|███▊      | 6440/16950 [1:13:05<1:47:19,  1.63it/s]Training 2/3 epoch (loss 0.0536):  38%|███▊      | 6441/16950 [1:13:05<1:37:24,  1.80it/s]Training 2/3 epoch (loss 0.4218):  38%|███▊      | 6441/16950 [1:13:06<1:37:24,  1.80it/s]Training 2/3 epoch (loss 0.4218):  38%|███▊      | 6442/16950 [1:13:06<1:40:46,  1.74it/s]Training 2/3 epoch (loss 0.5256):  38%|███▊      | 6442/16950 [1:13:07<1:40:46,  1.74it/s]Training 2/3 epoch (loss 0.5256):  38%|███▊      | 6443/16950 [1:13:07<2:08:56,  1.36it/s]Training 2/3 epoch (loss 0.6581):  38%|███▊      | 6443/16950 [1:13:08<2:08:56,  1.36it/s]Training 2/3 epoch (loss 0.6581):  38%|███▊      | 6444/16950 [1:13:08<2:23:16,  1.22it/s]Training 2/3 epoch (loss 0.5976):  38%|███▊      | 6444/16950 [1:13:09<2:23:16,  1.22it/s]Training 2/3 epoch (loss 0.5976):  38%|███▊      | 6445/16950 [1:13:09<2:22:02,  1.23it/s]Training 2/3 epoch (loss 0.6033):  38%|███▊      | 6445/16950 [1:13:09<2:22:02,  1.23it/s]Training 2/3 epoch (loss 0.6033):  38%|███▊      | 6446/16950 [1:13:09<2:13:04,  1.32it/s]Training 2/3 epoch (loss 0.6449):  38%|███▊      | 6446/16950 [1:13:10<2:13:04,  1.32it/s]Training 2/3 epoch (loss 0.6449):  38%|███▊      | 6447/16950 [1:13:10<1:54:45,  1.53it/s]Training 2/3 epoch (loss 0.0474):  38%|███▊      | 6447/16950 [1:13:11<1:54:45,  1.53it/s]Training 2/3 epoch (loss 0.0474):  38%|███▊      | 6448/16950 [1:13:11<1:52:29,  1.56it/s]Training 2/3 epoch (loss 0.0076):  38%|███▊      | 6448/16950 [1:13:11<1:52:29,  1.56it/s]Training 2/3 epoch (loss 0.0076):  38%|███▊      | 6449/16950 [1:13:11<1:54:35,  1.53it/s]Training 2/3 epoch (loss 0.0121):  38%|███▊      | 6449/16950 [1:13:12<1:54:35,  1.53it/s]Training 2/3 epoch (loss 0.0121):  38%|███▊      | 6450/16950 [1:13:12<1:48:35,  1.61it/s]Training 2/3 epoch (loss 0.0091):  38%|███▊      | 6450/16950 [1:13:12<1:48:35,  1.61it/s]Training 2/3 epoch (loss 0.0091):  38%|███▊      | 6451/16950 [1:13:12<1:42:28,  1.71it/s]Training 2/3 epoch (loss 0.0183):  38%|███▊      | 6451/16950 [1:13:13<1:42:28,  1.71it/s]Training 2/3 epoch (loss 0.0183):  38%|███▊      | 6452/16950 [1:13:13<1:41:22,  1.73it/s]Training 2/3 epoch (loss 0.4357):  38%|███▊      | 6452/16950 [1:13:13<1:41:22,  1.73it/s]Training 2/3 epoch (loss 0.4357):  38%|███▊      | 6453/16950 [1:13:13<1:46:51,  1.64it/s]Training 2/3 epoch (loss 0.0011):  38%|███▊      | 6453/16950 [1:13:14<1:46:51,  1.64it/s]Training 2/3 epoch (loss 0.0011):  38%|███▊      | 6454/16950 [1:13:14<1:45:56,  1.65it/s]Training 2/3 epoch (loss 0.0094):  38%|███▊      | 6454/16950 [1:13:15<1:45:56,  1.65it/s]Training 2/3 epoch (loss 0.0094):  38%|███▊      | 6455/16950 [1:13:15<2:01:21,  1.44it/s]Training 2/3 epoch (loss 0.0039):  38%|███▊      | 6455/16950 [1:13:15<2:01:21,  1.44it/s]Training 2/3 epoch (loss 0.0039):  38%|███▊      | 6456/16950 [1:13:15<1:46:38,  1.64it/s]Training 2/3 epoch (loss 0.3856):  38%|███▊      | 6456/16950 [1:13:16<1:46:38,  1.64it/s]Training 2/3 epoch (loss 0.3856):  38%|███▊      | 6457/16950 [1:13:16<1:32:32,  1.89it/s]Training 2/3 epoch (loss 0.0011):  38%|███▊      | 6457/16950 [1:13:16<1:32:32,  1.89it/s]Training 2/3 epoch (loss 0.0011):  38%|███▊      | 6458/16950 [1:13:16<1:29:44,  1.95it/s]Training 2/3 epoch (loss 0.0257):  38%|███▊      | 6458/16950 [1:13:17<1:29:44,  1.95it/s]Training 2/3 epoch (loss 0.0257):  38%|███▊      | 6459/16950 [1:13:17<1:53:59,  1.53it/s]Training 2/3 epoch (loss 0.6077):  38%|███▊      | 6459/16950 [1:13:18<1:53:59,  1.53it/s]Training 2/3 epoch (loss 0.6077):  38%|███▊      | 6460/16950 [1:13:18<1:41:57,  1.71it/s]Training 2/3 epoch (loss 0.0525):  38%|███▊      | 6460/16950 [1:13:18<1:41:57,  1.71it/s]Training 2/3 epoch (loss 0.0525):  38%|███▊      | 6461/16950 [1:13:18<1:55:41,  1.51it/s]Training 2/3 epoch (loss 0.0097):  38%|███▊      | 6461/16950 [1:13:19<1:55:41,  1.51it/s]Training 2/3 epoch (loss 0.0097):  38%|███▊      | 6462/16950 [1:13:19<1:49:43,  1.59it/s]Training 2/3 epoch (loss 0.0214):  38%|███▊      | 6462/16950 [1:13:20<1:49:43,  1.59it/s]Training 2/3 epoch (loss 0.0214):  38%|███▊      | 6463/16950 [1:13:20<1:50:56,  1.58it/s]Training 2/3 epoch (loss 0.1428):  38%|███▊      | 6463/16950 [1:13:20<1:50:56,  1.58it/s]Training 2/3 epoch (loss 0.1428):  38%|███▊      | 6464/16950 [1:13:20<1:48:33,  1.61it/s]Training 2/3 epoch (loss 0.3710):  38%|███▊      | 6464/16950 [1:13:21<1:48:33,  1.61it/s]Training 2/3 epoch (loss 0.3710):  38%|███▊      | 6465/16950 [1:13:21<1:41:05,  1.73it/s]Training 2/3 epoch (loss 0.5558):  38%|███▊      | 6465/16950 [1:13:21<1:41:05,  1.73it/s]Training 2/3 epoch (loss 0.5558):  38%|███▊      | 6466/16950 [1:13:21<1:29:04,  1.96it/s]Training 2/3 epoch (loss 0.0162):  38%|███▊      | 6466/16950 [1:13:22<1:29:04,  1.96it/s]Training 2/3 epoch (loss 0.0162):  38%|███▊      | 6467/16950 [1:13:22<1:36:10,  1.82it/s]Training 2/3 epoch (loss 0.6729):  38%|███▊      | 6467/16950 [1:13:22<1:36:10,  1.82it/s]Training 2/3 epoch (loss 0.6729):  38%|███▊      | 6468/16950 [1:13:22<1:28:54,  1.96it/s]Training 2/3 epoch (loss 0.0482):  38%|███▊      | 6468/16950 [1:13:23<1:28:54,  1.96it/s]Training 2/3 epoch (loss 0.0482):  38%|███▊      | 6469/16950 [1:13:23<1:38:13,  1.78it/s]Training 2/3 epoch (loss 0.1195):  38%|███▊      | 6469/16950 [1:13:23<1:38:13,  1.78it/s]Training 2/3 epoch (loss 0.1195):  38%|███▊      | 6470/16950 [1:13:23<1:42:15,  1.71it/s]Training 2/3 epoch (loss 0.2157):  38%|███▊      | 6470/16950 [1:13:24<1:42:15,  1.71it/s]Training 2/3 epoch (loss 0.2157):  38%|███▊      | 6471/16950 [1:13:24<1:43:34,  1.69it/s]Training 2/3 epoch (loss 0.0588):  38%|███▊      | 6471/16950 [1:13:25<1:43:34,  1.69it/s]Training 2/3 epoch (loss 0.0588):  38%|███▊      | 6472/16950 [1:13:25<1:37:24,  1.79it/s]Training 2/3 epoch (loss 0.0179):  38%|███▊      | 6472/16950 [1:13:25<1:37:24,  1.79it/s]Training 2/3 epoch (loss 0.0179):  38%|███▊      | 6473/16950 [1:13:25<1:36:05,  1.82it/s]Training 2/3 epoch (loss 0.0024):  38%|███▊      | 6473/16950 [1:13:26<1:36:05,  1.82it/s]Training 2/3 epoch (loss 0.0024):  38%|███▊      | 6474/16950 [1:13:26<1:31:01,  1.92it/s]Training 2/3 epoch (loss 0.0316):  38%|███▊      | 6474/16950 [1:13:26<1:31:01,  1.92it/s]Training 2/3 epoch (loss 0.0316):  38%|███▊      | 6475/16950 [1:13:26<1:36:21,  1.81it/s]Training 2/3 epoch (loss 0.0873):  38%|███▊      | 6475/16950 [1:13:27<1:36:21,  1.81it/s]Training 2/3 epoch (loss 0.0873):  38%|███▊      | 6476/16950 [1:13:27<1:42:13,  1.71it/s]Training 2/3 epoch (loss 0.0035):  38%|███▊      | 6476/16950 [1:13:27<1:42:13,  1.71it/s]Training 2/3 epoch (loss 0.0035):  38%|███▊      | 6477/16950 [1:13:27<1:47:04,  1.63it/s]Training 2/3 epoch (loss 0.0087):  38%|███▊      | 6477/16950 [1:13:28<1:47:04,  1.63it/s]Training 2/3 epoch (loss 0.0087):  38%|███▊      | 6478/16950 [1:13:28<1:38:44,  1.77it/s]Training 2/3 epoch (loss 0.0162):  38%|███▊      | 6478/16950 [1:13:28<1:38:44,  1.77it/s]Training 2/3 epoch (loss 0.0162):  38%|███▊      | 6479/16950 [1:13:28<1:33:05,  1.87it/s]Training 2/3 epoch (loss 0.0223):  38%|███▊      | 6479/16950 [1:13:29<1:33:05,  1.87it/s]Training 2/3 epoch (loss 0.0223):  38%|███▊      | 6480/16950 [1:13:29<1:38:31,  1.77it/s]Training 2/3 epoch (loss 0.0060):  38%|███▊      | 6480/16950 [1:13:30<1:38:31,  1.77it/s]Training 2/3 epoch (loss 0.0060):  38%|███▊      | 6481/16950 [1:13:30<1:43:24,  1.69it/s]Training 2/3 epoch (loss 0.8172):  38%|███▊      | 6481/16950 [1:13:30<1:43:24,  1.69it/s]Training 2/3 epoch (loss 0.8172):  38%|███▊      | 6482/16950 [1:13:30<1:38:45,  1.77it/s]Training 2/3 epoch (loss 0.2005):  38%|███▊      | 6482/16950 [1:13:31<1:38:45,  1.77it/s]Training 2/3 epoch (loss 0.2005):  38%|███▊      | 6483/16950 [1:13:31<1:44:37,  1.67it/s]Training 2/3 epoch (loss 0.0357):  38%|███▊      | 6483/16950 [1:13:31<1:44:37,  1.67it/s]Training 2/3 epoch (loss 0.0357):  38%|███▊      | 6484/16950 [1:13:31<1:39:06,  1.76it/s]Training 2/3 epoch (loss 0.4324):  38%|███▊      | 6484/16950 [1:13:32<1:39:06,  1.76it/s]Training 2/3 epoch (loss 0.4324):  38%|███▊      | 6485/16950 [1:13:32<1:29:34,  1.95it/s]Training 2/3 epoch (loss 0.4251):  38%|███▊      | 6485/16950 [1:13:32<1:29:34,  1.95it/s]Training 2/3 epoch (loss 0.4251):  38%|███▊      | 6486/16950 [1:13:32<1:22:16,  2.12it/s]Training 2/3 epoch (loss 0.0006):  38%|███▊      | 6486/16950 [1:13:33<1:22:16,  2.12it/s]Training 2/3 epoch (loss 0.0006):  38%|███▊      | 6487/16950 [1:13:33<1:29:39,  1.94it/s]Training 2/3 epoch (loss 0.0339):  38%|███▊      | 6487/16950 [1:13:33<1:29:39,  1.94it/s]Training 2/3 epoch (loss 0.0339):  38%|███▊      | 6488/16950 [1:13:33<1:32:49,  1.88it/s]Training 2/3 epoch (loss 0.0920):  38%|███▊      | 6488/16950 [1:13:34<1:32:49,  1.88it/s]Training 2/3 epoch (loss 0.0920):  38%|███▊      | 6489/16950 [1:13:34<1:25:40,  2.03it/s]Training 2/3 epoch (loss 0.0481):  38%|███▊      | 6489/16950 [1:13:34<1:25:40,  2.03it/s]Training 2/3 epoch (loss 0.0481):  38%|███▊      | 6490/16950 [1:13:34<1:24:32,  2.06it/s]Training 2/3 epoch (loss 0.5410):  38%|███▊      | 6490/16950 [1:13:35<1:24:32,  2.06it/s]Training 2/3 epoch (loss 0.5410):  38%|███▊      | 6491/16950 [1:13:35<1:20:23,  2.17it/s]Training 2/3 epoch (loss 0.0430):  38%|███▊      | 6491/16950 [1:13:35<1:20:23,  2.17it/s]Training 2/3 epoch (loss 0.0430):  38%|███▊      | 6492/16950 [1:13:35<1:31:39,  1.90it/s]Training 2/3 epoch (loss 0.3258):  38%|███▊      | 6492/16950 [1:13:36<1:31:39,  1.90it/s]Training 2/3 epoch (loss 0.3258):  38%|███▊      | 6493/16950 [1:13:36<1:29:14,  1.95it/s]Training 2/3 epoch (loss 0.4787):  38%|███▊      | 6493/16950 [1:13:36<1:29:14,  1.95it/s]Training 2/3 epoch (loss 0.4787):  38%|███▊      | 6494/16950 [1:13:36<1:27:56,  1.98it/s]Training 2/3 epoch (loss 0.0302):  38%|███▊      | 6494/16950 [1:13:37<1:27:56,  1.98it/s]Training 2/3 epoch (loss 0.0302):  38%|███▊      | 6495/16950 [1:13:37<1:29:48,  1.94it/s]Training 2/3 epoch (loss 0.2769):  38%|███▊      | 6495/16950 [1:13:37<1:29:48,  1.94it/s]Training 2/3 epoch (loss 0.2769):  38%|███▊      | 6496/16950 [1:13:37<1:34:50,  1.84it/s]Training 2/3 epoch (loss 0.0539):  38%|███▊      | 6496/16950 [1:13:38<1:34:50,  1.84it/s]Training 2/3 epoch (loss 0.0539):  38%|███▊      | 6497/16950 [1:13:38<1:41:59,  1.71it/s]Training 2/3 epoch (loss 0.1589):  38%|███▊      | 6497/16950 [1:13:39<1:41:59,  1.71it/s]Training 2/3 epoch (loss 0.1589):  38%|███▊      | 6498/16950 [1:13:39<1:41:42,  1.71it/s]Training 2/3 epoch (loss 0.0214):  38%|███▊      | 6498/16950 [1:13:39<1:41:42,  1.71it/s]Training 2/3 epoch (loss 0.0214):  38%|███▊      | 6499/16950 [1:13:39<1:37:37,  1.78it/s]Training 2/3 epoch (loss 0.3713):  38%|███▊      | 6499/16950 [1:13:39<1:37:37,  1.78it/s]Training 2/3 epoch (loss 0.3713):  38%|███▊      | 6500/16950 [1:13:39<1:23:53,  2.08it/s]Training 2/3 epoch (loss 0.0342):  38%|███▊      | 6500/16950 [1:13:40<1:23:53,  2.08it/s]Training 2/3 epoch (loss 0.0342):  38%|███▊      | 6501/16950 [1:13:40<1:20:11,  2.17it/s]Training 2/3 epoch (loss 0.0807):  38%|███▊      | 6501/16950 [1:13:41<1:20:11,  2.17it/s]Training 2/3 epoch (loss 0.0807):  38%|███▊      | 6502/16950 [1:13:41<1:33:35,  1.86it/s]Training 2/3 epoch (loss 0.2518):  38%|███▊      | 6502/16950 [1:13:41<1:33:35,  1.86it/s]Training 2/3 epoch (loss 0.2518):  38%|███▊      | 6503/16950 [1:13:41<1:41:19,  1.72it/s]Training 2/3 epoch (loss 0.0141):  38%|███▊      | 6503/16950 [1:13:42<1:41:19,  1.72it/s]Training 2/3 epoch (loss 0.0141):  38%|███▊      | 6504/16950 [1:13:42<1:40:08,  1.74it/s]Training 2/3 epoch (loss 0.1405):  38%|███▊      | 6504/16950 [1:13:42<1:40:08,  1.74it/s]Training 2/3 epoch (loss 0.1405):  38%|███▊      | 6505/16950 [1:13:42<1:44:09,  1.67it/s]Training 2/3 epoch (loss 0.0620):  38%|███▊      | 6505/16950 [1:13:43<1:44:09,  1.67it/s]Training 2/3 epoch (loss 0.0620):  38%|███▊      | 6506/16950 [1:13:43<1:50:37,  1.57it/s]Training 2/3 epoch (loss 0.3919):  38%|███▊      | 6506/16950 [1:13:44<1:50:37,  1.57it/s]Training 2/3 epoch (loss 0.3919):  38%|███▊      | 6507/16950 [1:13:44<1:54:18,  1.52it/s]Training 2/3 epoch (loss 0.0054):  38%|███▊      | 6507/16950 [1:13:45<1:54:18,  1.52it/s]Training 2/3 epoch (loss 0.0054):  38%|███▊      | 6508/16950 [1:13:45<1:53:08,  1.54it/s]Training 2/3 epoch (loss 0.0109):  38%|███▊      | 6508/16950 [1:13:45<1:53:08,  1.54it/s]Training 2/3 epoch (loss 0.0109):  38%|███▊      | 6509/16950 [1:13:45<1:43:39,  1.68it/s]Training 2/3 epoch (loss 0.3949):  38%|███▊      | 6509/16950 [1:13:46<1:43:39,  1.68it/s]Training 2/3 epoch (loss 0.3949):  38%|███▊      | 6510/16950 [1:13:46<1:55:02,  1.51it/s]Training 2/3 epoch (loss 0.0593):  38%|███▊      | 6510/16950 [1:13:47<1:55:02,  1.51it/s]Training 2/3 epoch (loss 0.0593):  38%|███▊      | 6511/16950 [1:13:47<1:56:17,  1.50it/s]Training 2/3 epoch (loss 0.0023):  38%|███▊      | 6511/16950 [1:13:47<1:56:17,  1.50it/s]Training 2/3 epoch (loss 0.0023):  38%|███▊      | 6512/16950 [1:13:47<1:49:24,  1.59it/s]Training 2/3 epoch (loss 0.0922):  38%|███▊      | 6512/16950 [1:13:48<1:49:24,  1.59it/s]Training 2/3 epoch (loss 0.0922):  38%|███▊      | 6513/16950 [1:13:48<1:43:01,  1.69it/s]Training 2/3 epoch (loss 0.6233):  38%|███▊      | 6513/16950 [1:13:48<1:43:01,  1.69it/s]Training 2/3 epoch (loss 0.6233):  38%|███▊      | 6514/16950 [1:13:48<1:52:26,  1.55it/s]Training 2/3 epoch (loss 0.1641):  38%|███▊      | 6514/16950 [1:13:49<1:52:26,  1.55it/s]Training 2/3 epoch (loss 0.1641):  38%|███▊      | 6515/16950 [1:13:49<1:49:39,  1.59it/s]Training 2/3 epoch (loss 0.2444):  38%|███▊      | 6515/16950 [1:13:50<1:49:39,  1.59it/s]Training 2/3 epoch (loss 0.2444):  38%|███▊      | 6516/16950 [1:13:50<1:56:22,  1.49it/s]Training 2/3 epoch (loss 0.0361):  38%|███▊      | 6516/16950 [1:13:50<1:56:22,  1.49it/s]Training 2/3 epoch (loss 0.0361):  38%|███▊      | 6517/16950 [1:13:50<1:48:19,  1.61it/s]Training 2/3 epoch (loss 0.0025):  38%|███▊      | 6517/16950 [1:13:51<1:48:19,  1.61it/s]Training 2/3 epoch (loss 0.0025):  38%|███▊      | 6518/16950 [1:13:51<1:43:29,  1.68it/s]Training 2/3 epoch (loss 0.0246):  38%|███▊      | 6518/16950 [1:13:51<1:43:29,  1.68it/s]Training 2/3 epoch (loss 0.0246):  38%|███▊      | 6519/16950 [1:13:51<1:48:03,  1.61it/s]Training 2/3 epoch (loss 0.0252):  38%|███▊      | 6519/16950 [1:13:52<1:48:03,  1.61it/s]Training 2/3 epoch (loss 0.0252):  38%|███▊      | 6520/16950 [1:13:52<1:53:39,  1.53it/s]Training 2/3 epoch (loss 0.0196):  38%|███▊      | 6520/16950 [1:13:53<1:53:39,  1.53it/s]Training 2/3 epoch (loss 0.0196):  38%|███▊      | 6521/16950 [1:13:53<1:48:35,  1.60it/s]Training 2/3 epoch (loss 0.0020):  38%|███▊      | 6521/16950 [1:13:53<1:48:35,  1.60it/s]Training 2/3 epoch (loss 0.0020):  38%|███▊      | 6522/16950 [1:13:53<1:39:28,  1.75it/s]Training 2/3 epoch (loss 0.0735):  38%|███▊      | 6522/16950 [1:13:54<1:39:28,  1.75it/s]Training 2/3 epoch (loss 0.0735):  38%|███▊      | 6523/16950 [1:13:54<1:41:33,  1.71it/s]Training 2/3 epoch (loss 0.6759):  38%|███▊      | 6523/16950 [1:13:55<1:41:33,  1.71it/s]Training 2/3 epoch (loss 0.6759):  38%|███▊      | 6524/16950 [1:13:55<2:12:41,  1.31it/s]Training 2/3 epoch (loss 0.3053):  38%|███▊      | 6524/16950 [1:13:56<2:12:41,  1.31it/s]Training 2/3 epoch (loss 0.3053):  38%|███▊      | 6525/16950 [1:13:56<2:24:19,  1.20it/s]Training 2/3 epoch (loss 0.0103):  38%|███▊      | 6525/16950 [1:13:56<2:24:19,  1.20it/s]Training 2/3 epoch (loss 0.0103):  39%|███▊      | 6526/16950 [1:13:56<2:08:11,  1.36it/s]Training 2/3 epoch (loss 0.0042):  39%|███▊      | 6526/16950 [1:13:57<2:08:11,  1.36it/s]Training 2/3 epoch (loss 0.0042):  39%|███▊      | 6527/16950 [1:13:57<1:59:01,  1.46it/s]Training 2/3 epoch (loss 0.0013):  39%|███▊      | 6527/16950 [1:13:57<1:59:01,  1.46it/s]Training 2/3 epoch (loss 0.0013):  39%|███▊      | 6528/16950 [1:13:57<1:44:30,  1.66it/s]Training 2/3 epoch (loss 0.0062):  39%|███▊      | 6528/16950 [1:13:58<1:44:30,  1.66it/s]Training 2/3 epoch (loss 0.0062):  39%|███▊      | 6529/16950 [1:13:58<1:45:44,  1.64it/s]Training 2/3 epoch (loss 0.0891):  39%|███▊      | 6529/16950 [1:13:58<1:45:44,  1.64it/s]Training 2/3 epoch (loss 0.0891):  39%|███▊      | 6530/16950 [1:13:58<1:37:43,  1.78it/s]Training 2/3 epoch (loss 0.5604):  39%|███▊      | 6530/16950 [1:13:59<1:37:43,  1.78it/s]Training 2/3 epoch (loss 0.5604):  39%|███▊      | 6531/16950 [1:13:59<1:33:06,  1.86it/s]Training 2/3 epoch (loss 0.3951):  39%|███▊      | 6531/16950 [1:14:00<1:33:06,  1.86it/s]Training 2/3 epoch (loss 0.3951):  39%|███▊      | 6532/16950 [1:14:00<1:36:57,  1.79it/s]Training 2/3 epoch (loss 0.0068):  39%|███▊      | 6532/16950 [1:14:00<1:36:57,  1.79it/s]Training 2/3 epoch (loss 0.0068):  39%|███▊      | 6533/16950 [1:14:00<1:38:13,  1.77it/s]Training 2/3 epoch (loss 0.4990):  39%|███▊      | 6533/16950 [1:14:01<1:38:13,  1.77it/s]Training 2/3 epoch (loss 0.4990):  39%|███▊      | 6534/16950 [1:14:01<1:55:44,  1.50it/s]Training 2/3 epoch (loss 0.0012):  39%|███▊      | 6534/16950 [1:14:02<1:55:44,  1.50it/s]Training 2/3 epoch (loss 0.0012):  39%|███▊      | 6535/16950 [1:14:02<1:48:34,  1.60it/s]Training 2/3 epoch (loss 0.0093):  39%|███▊      | 6535/16950 [1:14:02<1:48:34,  1.60it/s]Training 2/3 epoch (loss 0.0093):  39%|███▊      | 6536/16950 [1:14:02<2:00:53,  1.44it/s]Training 2/3 epoch (loss 0.4743):  39%|███▊      | 6536/16950 [1:14:03<2:00:53,  1.44it/s]Training 2/3 epoch (loss 0.4743):  39%|███▊      | 6537/16950 [1:14:03<1:57:35,  1.48it/s]Training 2/3 epoch (loss 0.0004):  39%|███▊      | 6537/16950 [1:14:04<1:57:35,  1.48it/s]Training 2/3 epoch (loss 0.0004):  39%|███▊      | 6538/16950 [1:14:04<1:57:18,  1.48it/s]Training 2/3 epoch (loss 0.0406):  39%|███▊      | 6538/16950 [1:14:04<1:57:18,  1.48it/s]Training 2/3 epoch (loss 0.0406):  39%|███▊      | 6539/16950 [1:14:04<1:44:23,  1.66it/s]Training 2/3 epoch (loss 0.1439):  39%|███▊      | 6539/16950 [1:14:05<1:44:23,  1.66it/s]Training 2/3 epoch (loss 0.1439):  39%|███▊      | 6540/16950 [1:14:05<1:32:11,  1.88it/s]Training 2/3 epoch (loss 0.4539):  39%|███▊      | 6540/16950 [1:14:05<1:32:11,  1.88it/s]Training 2/3 epoch (loss 0.4539):  39%|███▊      | 6541/16950 [1:14:05<1:32:57,  1.87it/s]Training 2/3 epoch (loss 0.0537):  39%|███▊      | 6541/16950 [1:14:06<1:32:57,  1.87it/s]Training 2/3 epoch (loss 0.0537):  39%|███▊      | 6542/16950 [1:14:06<1:40:25,  1.73it/s]Training 2/3 epoch (loss 0.0023):  39%|███▊      | 6542/16950 [1:14:06<1:40:25,  1.73it/s]Training 2/3 epoch (loss 0.0023):  39%|███▊      | 6543/16950 [1:14:06<1:39:45,  1.74it/s]Training 2/3 epoch (loss 0.0206):  39%|███▊      | 6543/16950 [1:14:07<1:39:45,  1.74it/s]Training 2/3 epoch (loss 0.0206):  39%|███▊      | 6544/16950 [1:14:07<1:47:09,  1.62it/s]Training 2/3 epoch (loss 0.4414):  39%|███▊      | 6544/16950 [1:14:08<1:47:09,  1.62it/s]Training 2/3 epoch (loss 0.4414):  39%|███▊      | 6545/16950 [1:14:08<1:40:54,  1.72it/s]Training 2/3 epoch (loss 0.0021):  39%|███▊      | 6545/16950 [1:14:08<1:40:54,  1.72it/s]Training 2/3 epoch (loss 0.0021):  39%|███▊      | 6546/16950 [1:14:08<1:39:03,  1.75it/s]Training 2/3 epoch (loss 0.0201):  39%|███▊      | 6546/16950 [1:14:09<1:39:03,  1.75it/s]Training 2/3 epoch (loss 0.0201):  39%|███▊      | 6547/16950 [1:14:09<1:42:15,  1.70it/s]Training 2/3 epoch (loss 0.0002):  39%|███▊      | 6547/16950 [1:14:09<1:42:15,  1.70it/s]Training 2/3 epoch (loss 0.0002):  39%|███▊      | 6548/16950 [1:14:09<1:47:13,  1.62it/s]Training 2/3 epoch (loss 0.0991):  39%|███▊      | 6548/16950 [1:14:10<1:47:13,  1.62it/s]Training 2/3 epoch (loss 0.0991):  39%|███▊      | 6549/16950 [1:14:10<1:48:15,  1.60it/s]Training 2/3 epoch (loss 0.5310):  39%|███▊      | 6549/16950 [1:14:11<1:48:15,  1.60it/s]Training 2/3 epoch (loss 0.5310):  39%|███▊      | 6550/16950 [1:14:11<1:52:35,  1.54it/s]Training 2/3 epoch (loss 0.0021):  39%|███▊      | 6550/16950 [1:14:11<1:52:35,  1.54it/s]Training 2/3 epoch (loss 0.0021):  39%|███▊      | 6551/16950 [1:14:11<1:47:47,  1.61it/s]Training 2/3 epoch (loss 0.1602):  39%|███▊      | 6551/16950 [1:14:12<1:47:47,  1.61it/s]Training 2/3 epoch (loss 0.1602):  39%|███▊      | 6552/16950 [1:14:12<1:45:39,  1.64it/s]Training 2/3 epoch (loss 0.0013):  39%|███▊      | 6552/16950 [1:14:12<1:45:39,  1.64it/s]Training 2/3 epoch (loss 0.0013):  39%|███▊      | 6553/16950 [1:14:12<1:40:41,  1.72it/s]Training 2/3 epoch (loss 0.0351):  39%|███▊      | 6553/16950 [1:14:13<1:40:41,  1.72it/s]Training 2/3 epoch (loss 0.0351):  39%|███▊      | 6554/16950 [1:14:13<1:32:31,  1.87it/s]Training 2/3 epoch (loss 0.0028):  39%|███▊      | 6554/16950 [1:14:13<1:32:31,  1.87it/s]Training 2/3 epoch (loss 0.0028):  39%|███▊      | 6555/16950 [1:14:13<1:26:44,  2.00it/s]Training 2/3 epoch (loss 0.4409):  39%|███▊      | 6555/16950 [1:14:14<1:26:44,  2.00it/s]Training 2/3 epoch (loss 0.4409):  39%|███▊      | 6556/16950 [1:14:14<1:18:16,  2.21it/s]Training 2/3 epoch (loss 0.0102):  39%|███▊      | 6556/16950 [1:14:14<1:18:16,  2.21it/s]Training 2/3 epoch (loss 0.0102):  39%|███▊      | 6557/16950 [1:14:14<1:13:48,  2.35it/s]Training 2/3 epoch (loss 0.0431):  39%|███▊      | 6557/16950 [1:14:15<1:13:48,  2.35it/s]Training 2/3 epoch (loss 0.0431):  39%|███▊      | 6558/16950 [1:14:15<1:19:22,  2.18it/s]Training 2/3 epoch (loss 0.0016):  39%|███▊      | 6558/16950 [1:14:15<1:19:22,  2.18it/s]Training 2/3 epoch (loss 0.0016):  39%|███▊      | 6559/16950 [1:14:15<1:28:49,  1.95it/s]Training 2/3 epoch (loss 0.2326):  39%|███▊      | 6559/16950 [1:14:16<1:28:49,  1.95it/s]Training 2/3 epoch (loss 0.2326):  39%|███▊      | 6560/16950 [1:14:16<1:34:51,  1.83it/s]Training 2/3 epoch (loss 0.6468):  39%|███▊      | 6560/16950 [1:14:17<1:34:51,  1.83it/s]Training 2/3 epoch (loss 0.6468):  39%|███▊      | 6561/16950 [1:14:17<1:54:55,  1.51it/s]Training 2/3 epoch (loss 0.0005):  39%|███▊      | 6561/16950 [1:14:17<1:54:55,  1.51it/s]Training 2/3 epoch (loss 0.0005):  39%|███▊      | 6562/16950 [1:14:17<1:47:39,  1.61it/s]Training 2/3 epoch (loss 0.7416):  39%|███▊      | 6562/16950 [1:14:18<1:47:39,  1.61it/s]Training 2/3 epoch (loss 0.7416):  39%|███▊      | 6563/16950 [1:14:18<1:40:48,  1.72it/s]Training 2/3 epoch (loss 0.4437):  39%|███▊      | 6563/16950 [1:14:18<1:40:48,  1.72it/s]Training 2/3 epoch (loss 0.4437):  39%|███▊      | 6564/16950 [1:14:18<1:40:38,  1.72it/s]Training 2/3 epoch (loss 0.4025):  39%|███▊      | 6564/16950 [1:14:19<1:40:38,  1.72it/s]Training 2/3 epoch (loss 0.4025):  39%|███▊      | 6565/16950 [1:14:19<1:35:38,  1.81it/s]Training 2/3 epoch (loss 0.0016):  39%|███▊      | 6565/16950 [1:14:19<1:35:38,  1.81it/s]Training 2/3 epoch (loss 0.0016):  39%|███▊      | 6566/16950 [1:14:19<1:36:47,  1.79it/s]Training 2/3 epoch (loss 0.0245):  39%|███▊      | 6566/16950 [1:14:20<1:36:47,  1.79it/s]Training 2/3 epoch (loss 0.0245):  39%|███▊      | 6567/16950 [1:14:20<1:34:14,  1.84it/s]Training 2/3 epoch (loss 0.0640):  39%|███▊      | 6567/16950 [1:14:21<1:34:14,  1.84it/s]Training 2/3 epoch (loss 0.0640):  39%|███▊      | 6568/16950 [1:14:21<1:40:54,  1.71it/s]Training 2/3 epoch (loss 0.0017):  39%|███▊      | 6568/16950 [1:14:21<1:40:54,  1.71it/s]Training 2/3 epoch (loss 0.0017):  39%|███▉      | 6569/16950 [1:14:21<1:42:41,  1.68it/s]Training 2/3 epoch (loss 0.0267):  39%|███▉      | 6569/16950 [1:14:22<1:42:41,  1.68it/s]Training 2/3 epoch (loss 0.0267):  39%|███▉      | 6570/16950 [1:14:22<1:56:38,  1.48it/s]Training 2/3 epoch (loss 0.1313):  39%|███▉      | 6570/16950 [1:14:23<1:56:38,  1.48it/s]Training 2/3 epoch (loss 0.1313):  39%|███▉      | 6571/16950 [1:14:23<1:48:22,  1.60it/s]Training 2/3 epoch (loss 0.0078):  39%|███▉      | 6571/16950 [1:14:23<1:48:22,  1.60it/s]Training 2/3 epoch (loss 0.0078):  39%|███▉      | 6572/16950 [1:14:23<1:43:10,  1.68it/s]Training 2/3 epoch (loss 0.0103):  39%|███▉      | 6572/16950 [1:14:24<1:43:10,  1.68it/s]Training 2/3 epoch (loss 0.0103):  39%|███▉      | 6573/16950 [1:14:24<1:41:09,  1.71it/s]Training 2/3 epoch (loss 0.0419):  39%|███▉      | 6573/16950 [1:14:24<1:41:09,  1.71it/s]Training 2/3 epoch (loss 0.0419):  39%|███▉      | 6574/16950 [1:14:24<1:43:25,  1.67it/s]Training 2/3 epoch (loss 0.4697):  39%|███▉      | 6574/16950 [1:14:25<1:43:25,  1.67it/s]Training 2/3 epoch (loss 0.4697):  39%|███▉      | 6575/16950 [1:14:25<1:43:31,  1.67it/s]Training 2/3 epoch (loss 0.1057):  39%|███▉      | 6575/16950 [1:14:26<1:43:31,  1.67it/s]Training 2/3 epoch (loss 0.1057):  39%|███▉      | 6576/16950 [1:14:26<1:45:29,  1.64it/s]Training 2/3 epoch (loss 0.3878):  39%|███▉      | 6576/16950 [1:14:26<1:45:29,  1.64it/s]Training 2/3 epoch (loss 0.3878):  39%|███▉      | 6577/16950 [1:14:26<1:38:15,  1.76it/s]Training 2/3 epoch (loss 0.0012):  39%|███▉      | 6577/16950 [1:14:27<1:38:15,  1.76it/s]Training 2/3 epoch (loss 0.0012):  39%|███▉      | 6578/16950 [1:14:27<2:02:22,  1.41it/s]Training 2/3 epoch (loss 0.0027):  39%|███▉      | 6578/16950 [1:14:28<2:02:22,  1.41it/s]Training 2/3 epoch (loss 0.0027):  39%|███▉      | 6579/16950 [1:14:28<2:16:12,  1.27it/s]Training 2/3 epoch (loss 0.0224):  39%|███▉      | 6579/16950 [1:14:29<2:16:12,  1.27it/s]Training 2/3 epoch (loss 0.0224):  39%|███▉      | 6580/16950 [1:14:29<2:13:06,  1.30it/s]Training 2/3 epoch (loss 0.3124):  39%|███▉      | 6580/16950 [1:14:29<2:13:06,  1.30it/s]Training 2/3 epoch (loss 0.3124):  39%|███▉      | 6581/16950 [1:14:29<1:56:32,  1.48it/s]Training 2/3 epoch (loss 0.6659):  39%|███▉      | 6581/16950 [1:14:30<1:56:32,  1.48it/s]Training 2/3 epoch (loss 0.6659):  39%|███▉      | 6582/16950 [1:14:30<1:55:56,  1.49it/s]Training 2/3 epoch (loss 0.4769):  39%|███▉      | 6582/16950 [1:14:30<1:55:56,  1.49it/s]Training 2/3 epoch (loss 0.4769):  39%|███▉      | 6583/16950 [1:14:30<1:55:30,  1.50it/s]Training 2/3 epoch (loss 0.3910):  39%|███▉      | 6583/16950 [1:14:31<1:55:30,  1.50it/s]Training 2/3 epoch (loss 0.3910):  39%|███▉      | 6584/16950 [1:14:31<1:49:13,  1.58it/s]Training 2/3 epoch (loss 0.1467):  39%|███▉      | 6584/16950 [1:14:32<1:49:13,  1.58it/s]Training 2/3 epoch (loss 0.1467):  39%|███▉      | 6585/16950 [1:14:32<1:40:42,  1.72it/s]Training 2/3 epoch (loss 0.6412):  39%|███▉      | 6585/16950 [1:14:32<1:40:42,  1.72it/s]Training 2/3 epoch (loss 0.6412):  39%|███▉      | 6586/16950 [1:14:32<1:44:04,  1.66it/s]Training 2/3 epoch (loss 0.0330):  39%|███▉      | 6586/16950 [1:14:33<1:44:04,  1.66it/s]Training 2/3 epoch (loss 0.0330):  39%|███▉      | 6587/16950 [1:14:33<1:48:04,  1.60it/s]Training 2/3 epoch (loss 0.4118):  39%|███▉      | 6587/16950 [1:14:34<1:48:04,  1.60it/s]Training 2/3 epoch (loss 0.4118):  39%|███▉      | 6588/16950 [1:14:34<2:03:37,  1.40it/s]Training 2/3 epoch (loss 0.0122):  39%|███▉      | 6588/16950 [1:14:34<2:03:37,  1.40it/s]Training 2/3 epoch (loss 0.0122):  39%|███▉      | 6589/16950 [1:14:34<2:03:13,  1.40it/s]Training 2/3 epoch (loss 0.0307):  39%|███▉      | 6589/16950 [1:14:35<2:03:13,  1.40it/s]Training 2/3 epoch (loss 0.0307):  39%|███▉      | 6590/16950 [1:14:35<1:55:41,  1.49it/s]Training 2/3 epoch (loss 0.0250):  39%|███▉      | 6590/16950 [1:14:36<1:55:41,  1.49it/s]Training 2/3 epoch (loss 0.0250):  39%|███▉      | 6591/16950 [1:14:36<1:49:51,  1.57it/s]Training 2/3 epoch (loss 0.5923):  39%|███▉      | 6591/16950 [1:14:36<1:49:51,  1.57it/s]Training 2/3 epoch (loss 0.5923):  39%|███▉      | 6592/16950 [1:14:36<1:59:57,  1.44it/s]Training 2/3 epoch (loss 0.0095):  39%|███▉      | 6592/16950 [1:14:37<1:59:57,  1.44it/s]Training 2/3 epoch (loss 0.0095):  39%|███▉      | 6593/16950 [1:14:37<2:01:47,  1.42it/s]Training 2/3 epoch (loss 0.4867):  39%|███▉      | 6593/16950 [1:14:38<2:01:47,  1.42it/s]Training 2/3 epoch (loss 0.4867):  39%|███▉      | 6594/16950 [1:14:38<2:11:36,  1.31it/s]Training 2/3 epoch (loss 0.0083):  39%|███▉      | 6594/16950 [1:14:38<2:11:36,  1.31it/s]Training 2/3 epoch (loss 0.0083):  39%|███▉      | 6595/16950 [1:14:38<1:54:14,  1.51it/s]Training 2/3 epoch (loss 0.1824):  39%|███▉      | 6595/16950 [1:14:39<1:54:14,  1.51it/s]Training 2/3 epoch (loss 0.1824):  39%|███▉      | 6596/16950 [1:14:39<2:01:11,  1.42it/s]Training 2/3 epoch (loss 0.6489):  39%|███▉      | 6596/16950 [1:14:40<2:01:11,  1.42it/s]Training 2/3 epoch (loss 0.6489):  39%|███▉      | 6597/16950 [1:14:40<1:50:01,  1.57it/s]Training 2/3 epoch (loss 0.4546):  39%|███▉      | 6597/16950 [1:14:40<1:50:01,  1.57it/s]Training 2/3 epoch (loss 0.4546):  39%|███▉      | 6598/16950 [1:14:40<1:40:52,  1.71it/s]Training 2/3 epoch (loss 0.3249):  39%|███▉      | 6598/16950 [1:14:41<1:40:52,  1.71it/s]Training 2/3 epoch (loss 0.3249):  39%|███▉      | 6599/16950 [1:14:41<1:33:30,  1.84it/s]Training 2/3 epoch (loss 0.0005):  39%|███▉      | 6599/16950 [1:14:41<1:33:30,  1.84it/s]Training 2/3 epoch (loss 0.0005):  39%|███▉      | 6600/16950 [1:14:41<1:21:15,  2.12it/s]Training 2/3 epoch (loss 0.5268):  39%|███▉      | 6600/16950 [1:14:42<1:21:15,  2.12it/s]Training 2/3 epoch (loss 0.5268):  39%|███▉      | 6601/16950 [1:14:42<1:40:50,  1.71it/s]Training 2/3 epoch (loss 0.7281):  39%|███▉      | 6601/16950 [1:14:42<1:40:50,  1.71it/s]Training 2/3 epoch (loss 0.7281):  39%|███▉      | 6602/16950 [1:14:42<1:29:17,  1.93it/s]Training 2/3 epoch (loss 0.0015):  39%|███▉      | 6602/16950 [1:14:43<1:29:17,  1.93it/s]Training 2/3 epoch (loss 0.0015):  39%|███▉      | 6603/16950 [1:14:43<1:25:45,  2.01it/s]Training 2/3 epoch (loss 0.0100):  39%|███▉      | 6603/16950 [1:14:43<1:25:45,  2.01it/s]Training 2/3 epoch (loss 0.0100):  39%|███▉      | 6604/16950 [1:14:43<1:24:31,  2.04it/s]Training 2/3 epoch (loss 0.4323):  39%|███▉      | 6604/16950 [1:14:44<1:24:31,  2.04it/s]Training 2/3 epoch (loss 0.4323):  39%|███▉      | 6605/16950 [1:14:44<1:36:46,  1.78it/s]Training 2/3 epoch (loss 0.1039):  39%|███▉      | 6605/16950 [1:14:44<1:36:46,  1.78it/s]Training 2/3 epoch (loss 0.1039):  39%|███▉      | 6606/16950 [1:14:44<1:36:51,  1.78it/s]Training 2/3 epoch (loss 0.0890):  39%|███▉      | 6606/16950 [1:14:45<1:36:51,  1.78it/s]Training 2/3 epoch (loss 0.0890):  39%|███▉      | 6607/16950 [1:14:45<1:31:49,  1.88it/s]Training 2/3 epoch (loss 0.6136):  39%|███▉      | 6607/16950 [1:14:46<1:31:49,  1.88it/s]Training 2/3 epoch (loss 0.6136):  39%|███▉      | 6608/16950 [1:14:46<1:53:13,  1.52it/s]Training 2/3 epoch (loss 0.0152):  39%|███▉      | 6608/16950 [1:14:46<1:53:13,  1.52it/s]Training 2/3 epoch (loss 0.0152):  39%|███▉      | 6609/16950 [1:14:46<1:51:19,  1.55it/s]Training 2/3 epoch (loss 0.0059):  39%|███▉      | 6609/16950 [1:14:47<1:51:19,  1.55it/s]Training 2/3 epoch (loss 0.0059):  39%|███▉      | 6610/16950 [1:14:47<1:51:41,  1.54it/s]Training 2/3 epoch (loss 0.0061):  39%|███▉      | 6610/16950 [1:14:47<1:51:41,  1.54it/s]Training 2/3 epoch (loss 0.0061):  39%|███▉      | 6611/16950 [1:14:47<1:35:34,  1.80it/s]Training 2/3 epoch (loss 0.0038):  39%|███▉      | 6611/16950 [1:14:48<1:35:34,  1.80it/s]Training 2/3 epoch (loss 0.0038):  39%|███▉      | 6612/16950 [1:14:48<1:37:25,  1.77it/s]Training 2/3 epoch (loss 0.2020):  39%|███▉      | 6612/16950 [1:14:49<1:37:25,  1.77it/s]Training 2/3 epoch (loss 0.2020):  39%|███▉      | 6613/16950 [1:14:49<2:01:18,  1.42it/s]Training 2/3 epoch (loss 0.3828):  39%|███▉      | 6613/16950 [1:14:50<2:01:18,  1.42it/s]Training 2/3 epoch (loss 0.3828):  39%|███▉      | 6614/16950 [1:14:50<1:51:53,  1.54it/s]Training 2/3 epoch (loss 0.3108):  39%|███▉      | 6614/16950 [1:14:50<1:51:53,  1.54it/s]Training 2/3 epoch (loss 0.3108):  39%|███▉      | 6615/16950 [1:14:50<1:53:22,  1.52it/s]Training 2/3 epoch (loss 0.3364):  39%|███▉      | 6615/16950 [1:14:51<1:53:22,  1.52it/s]Training 2/3 epoch (loss 0.3364):  39%|███▉      | 6616/16950 [1:14:51<1:56:06,  1.48it/s]Training 2/3 epoch (loss 0.0109):  39%|███▉      | 6616/16950 [1:14:52<1:56:06,  1.48it/s]Training 2/3 epoch (loss 0.0109):  39%|███▉      | 6617/16950 [1:14:52<1:50:00,  1.57it/s]Training 2/3 epoch (loss 0.0097):  39%|███▉      | 6617/16950 [1:14:52<1:50:00,  1.57it/s]Training 2/3 epoch (loss 0.0097):  39%|███▉      | 6618/16950 [1:14:52<1:48:22,  1.59it/s]Training 2/3 epoch (loss 0.1664):  39%|███▉      | 6618/16950 [1:14:53<1:48:22,  1.59it/s]Training 2/3 epoch (loss 0.1664):  39%|███▉      | 6619/16950 [1:14:53<1:39:54,  1.72it/s]Training 2/3 epoch (loss 0.4001):  39%|███▉      | 6619/16950 [1:14:53<1:39:54,  1.72it/s]Training 2/3 epoch (loss 0.4001):  39%|███▉      | 6620/16950 [1:14:53<1:35:14,  1.81it/s]Training 2/3 epoch (loss 0.0016):  39%|███▉      | 6620/16950 [1:14:53<1:35:14,  1.81it/s]Training 2/3 epoch (loss 0.0016):  39%|███▉      | 6621/16950 [1:14:53<1:25:10,  2.02it/s]Training 2/3 epoch (loss 0.0392):  39%|███▉      | 6621/16950 [1:14:54<1:25:10,  2.02it/s]Training 2/3 epoch (loss 0.0392):  39%|███▉      | 6622/16950 [1:14:54<1:17:03,  2.23it/s]Training 2/3 epoch (loss 0.0126):  39%|███▉      | 6622/16950 [1:14:54<1:17:03,  2.23it/s]Training 2/3 epoch (loss 0.0126):  39%|███▉      | 6623/16950 [1:14:54<1:23:55,  2.05it/s]Training 2/3 epoch (loss 0.4046):  39%|███▉      | 6623/16950 [1:14:55<1:23:55,  2.05it/s]Training 2/3 epoch (loss 0.4046):  39%|███▉      | 6624/16950 [1:14:55<1:21:08,  2.12it/s]Training 2/3 epoch (loss 0.6313):  39%|███▉      | 6624/16950 [1:14:55<1:21:08,  2.12it/s]Training 2/3 epoch (loss 0.6313):  39%|███▉      | 6625/16950 [1:14:55<1:21:55,  2.10it/s]Training 2/3 epoch (loss 0.0422):  39%|███▉      | 6625/16950 [1:14:56<1:21:55,  2.10it/s]Training 2/3 epoch (loss 0.0422):  39%|███▉      | 6626/16950 [1:14:56<1:23:39,  2.06it/s]Training 2/3 epoch (loss 0.5706):  39%|███▉      | 6626/16950 [1:14:56<1:23:39,  2.06it/s]Training 2/3 epoch (loss 0.5706):  39%|███▉      | 6627/16950 [1:14:56<1:34:29,  1.82it/s]Training 2/3 epoch (loss 0.0047):  39%|███▉      | 6627/16950 [1:14:57<1:34:29,  1.82it/s]Training 2/3 epoch (loss 0.0047):  39%|███▉      | 6628/16950 [1:14:57<1:39:38,  1.73it/s]Training 2/3 epoch (loss 0.0035):  39%|███▉      | 6628/16950 [1:14:58<1:39:38,  1.73it/s]Training 2/3 epoch (loss 0.0035):  39%|███▉      | 6629/16950 [1:14:58<1:34:27,  1.82it/s]Training 2/3 epoch (loss 0.4225):  39%|███▉      | 6629/16950 [1:14:58<1:34:27,  1.82it/s]Training 2/3 epoch (loss 0.4225):  39%|███▉      | 6630/16950 [1:14:58<1:31:53,  1.87it/s]Training 2/3 epoch (loss 0.1398):  39%|███▉      | 6630/16950 [1:14:58<1:31:53,  1.87it/s]Training 2/3 epoch (loss 0.1398):  39%|███▉      | 6631/16950 [1:14:58<1:24:13,  2.04it/s]Training 2/3 epoch (loss 0.0178):  39%|███▉      | 6631/16950 [1:14:59<1:24:13,  2.04it/s]Training 2/3 epoch (loss 0.0178):  39%|███▉      | 6632/16950 [1:14:59<1:31:41,  1.88it/s]Training 2/3 epoch (loss 0.5047):  39%|███▉      | 6632/16950 [1:15:00<1:31:41,  1.88it/s]Training 2/3 epoch (loss 0.5047):  39%|███▉      | 6633/16950 [1:15:00<1:44:05,  1.65it/s]Training 2/3 epoch (loss 0.0589):  39%|███▉      | 6633/16950 [1:15:01<1:44:05,  1.65it/s]Training 2/3 epoch (loss 0.0589):  39%|███▉      | 6634/16950 [1:15:01<2:01:19,  1.42it/s]Training 2/3 epoch (loss 0.0385):  39%|███▉      | 6634/16950 [1:15:01<2:01:19,  1.42it/s]Training 2/3 epoch (loss 0.0385):  39%|███▉      | 6635/16950 [1:15:01<1:54:38,  1.50it/s]Training 2/3 epoch (loss 0.3482):  39%|███▉      | 6635/16950 [1:15:02<1:54:38,  1.50it/s]Training 2/3 epoch (loss 0.3482):  39%|███▉      | 6636/16950 [1:15:02<1:45:30,  1.63it/s]Training 2/3 epoch (loss 0.4239):  39%|███▉      | 6636/16950 [1:15:02<1:45:30,  1.63it/s]Training 2/3 epoch (loss 0.4239):  39%|███▉      | 6637/16950 [1:15:02<1:40:45,  1.71it/s]Training 2/3 epoch (loss 0.2798):  39%|███▉      | 6637/16950 [1:15:03<1:40:45,  1.71it/s]Training 2/3 epoch (loss 0.2798):  39%|███▉      | 6638/16950 [1:15:03<1:50:27,  1.56it/s]Training 2/3 epoch (loss 0.3559):  39%|███▉      | 6638/16950 [1:15:04<1:50:27,  1.56it/s]Training 2/3 epoch (loss 0.3559):  39%|███▉      | 6639/16950 [1:15:04<1:48:58,  1.58it/s]Training 2/3 epoch (loss 0.4654):  39%|███▉      | 6639/16950 [1:15:04<1:48:58,  1.58it/s]Training 2/3 epoch (loss 0.4654):  39%|███▉      | 6640/16950 [1:15:04<1:37:21,  1.76it/s]Training 2/3 epoch (loss 0.0324):  39%|███▉      | 6640/16950 [1:15:05<1:37:21,  1.76it/s]Training 2/3 epoch (loss 0.0324):  39%|███▉      | 6641/16950 [1:15:05<1:32:37,  1.85it/s]Training 2/3 epoch (loss 0.0006):  39%|███▉      | 6641/16950 [1:15:05<1:32:37,  1.85it/s]Training 2/3 epoch (loss 0.0006):  39%|███▉      | 6642/16950 [1:15:05<1:33:05,  1.85it/s]Training 2/3 epoch (loss 0.0137):  39%|███▉      | 6642/16950 [1:15:06<1:33:05,  1.85it/s]Training 2/3 epoch (loss 0.0137):  39%|███▉      | 6643/16950 [1:15:06<1:36:21,  1.78it/s]Training 2/3 epoch (loss 0.4230):  39%|███▉      | 6643/16950 [1:15:06<1:36:21,  1.78it/s]Training 2/3 epoch (loss 0.4230):  39%|███▉      | 6644/16950 [1:15:06<1:31:26,  1.88it/s]Training 2/3 epoch (loss 0.0133):  39%|███▉      | 6644/16950 [1:15:07<1:31:26,  1.88it/s]Training 2/3 epoch (loss 0.0133):  39%|███▉      | 6645/16950 [1:15:07<1:24:48,  2.03it/s]Training 2/3 epoch (loss 0.0033):  39%|███▉      | 6645/16950 [1:15:07<1:24:48,  2.03it/s]Training 2/3 epoch (loss 0.0033):  39%|███▉      | 6646/16950 [1:15:07<1:31:02,  1.89it/s]Training 2/3 epoch (loss 0.4966):  39%|███▉      | 6646/16950 [1:15:08<1:31:02,  1.89it/s]Training 2/3 epoch (loss 0.4966):  39%|███▉      | 6647/16950 [1:15:08<1:35:38,  1.80it/s]Training 2/3 epoch (loss 0.5480):  39%|███▉      | 6647/16950 [1:15:09<1:35:38,  1.80it/s]Training 2/3 epoch (loss 0.5480):  39%|███▉      | 6648/16950 [1:15:09<1:57:04,  1.47it/s]Training 2/3 epoch (loss 0.8232):  39%|███▉      | 6648/16950 [1:15:10<1:57:04,  1.47it/s]Training 2/3 epoch (loss 0.8232):  39%|███▉      | 6649/16950 [1:15:10<2:15:43,  1.26it/s]Training 2/3 epoch (loss 0.0021):  39%|███▉      | 6649/16950 [1:15:11<2:15:43,  1.26it/s]Training 2/3 epoch (loss 0.0021):  39%|███▉      | 6650/16950 [1:15:11<2:12:14,  1.30it/s]Training 2/3 epoch (loss 0.0027):  39%|███▉      | 6650/16950 [1:15:11<2:12:14,  1.30it/s]Training 2/3 epoch (loss 0.0027):  39%|███▉      | 6651/16950 [1:15:11<2:05:08,  1.37it/s]Training 2/3 epoch (loss 0.0242):  39%|███▉      | 6651/16950 [1:15:12<2:05:08,  1.37it/s]Training 2/3 epoch (loss 0.0242):  39%|███▉      | 6652/16950 [1:15:12<1:57:42,  1.46it/s]Training 2/3 epoch (loss 0.0139):  39%|███▉      | 6652/16950 [1:15:12<1:57:42,  1.46it/s]Training 2/3 epoch (loss 0.0139):  39%|███▉      | 6653/16950 [1:15:12<1:44:15,  1.65it/s]Training 2/3 epoch (loss 0.6101):  39%|███▉      | 6653/16950 [1:15:13<1:44:15,  1.65it/s]Training 2/3 epoch (loss 0.6101):  39%|███▉      | 6654/16950 [1:15:13<1:54:45,  1.50it/s]Training 2/3 epoch (loss 0.1160):  39%|███▉      | 6654/16950 [1:15:14<1:54:45,  1.50it/s]Training 2/3 epoch (loss 0.1160):  39%|███▉      | 6655/16950 [1:15:14<1:48:04,  1.59it/s]Training 2/3 epoch (loss 0.0090):  39%|███▉      | 6655/16950 [1:15:14<1:48:04,  1.59it/s]Training 2/3 epoch (loss 0.0090):  39%|███▉      | 6656/16950 [1:15:14<1:43:40,  1.65it/s]Training 2/3 epoch (loss 0.1150):  39%|███▉      | 6656/16950 [1:15:15<1:43:40,  1.65it/s]Training 2/3 epoch (loss 0.1150):  39%|███▉      | 6657/16950 [1:15:15<1:43:24,  1.66it/s]Training 2/3 epoch (loss 0.7850):  39%|███▉      | 6657/16950 [1:15:15<1:43:24,  1.66it/s]Training 2/3 epoch (loss 0.7850):  39%|███▉      | 6658/16950 [1:15:15<1:46:21,  1.61it/s]Training 2/3 epoch (loss 0.0053):  39%|███▉      | 6658/16950 [1:15:16<1:46:21,  1.61it/s]Training 2/3 epoch (loss 0.0053):  39%|███▉      | 6659/16950 [1:15:16<1:45:55,  1.62it/s]Training 2/3 epoch (loss 0.0060):  39%|███▉      | 6659/16950 [1:15:17<1:45:55,  1.62it/s]Training 2/3 epoch (loss 0.0060):  39%|███▉      | 6660/16950 [1:15:17<1:36:05,  1.78it/s]Training 2/3 epoch (loss 0.0131):  39%|███▉      | 6660/16950 [1:15:17<1:36:05,  1.78it/s]Training 2/3 epoch (loss 0.0131):  39%|███▉      | 6661/16950 [1:15:17<1:35:29,  1.80it/s]Training 2/3 epoch (loss 0.2465):  39%|███▉      | 6661/16950 [1:15:18<1:35:29,  1.80it/s]Training 2/3 epoch (loss 0.2465):  39%|███▉      | 6662/16950 [1:15:18<1:49:01,  1.57it/s]Training 2/3 epoch (loss 0.0042):  39%|███▉      | 6662/16950 [1:15:18<1:49:01,  1.57it/s]Training 2/3 epoch (loss 0.0042):  39%|███▉      | 6663/16950 [1:15:18<1:47:22,  1.60it/s]Training 2/3 epoch (loss 0.4488):  39%|███▉      | 6663/16950 [1:15:20<1:47:22,  1.60it/s]Training 2/3 epoch (loss 0.4488):  39%|███▉      | 6664/16950 [1:15:20<2:10:49,  1.31it/s]Training 2/3 epoch (loss 0.0114):  39%|███▉      | 6664/16950 [1:15:20<2:10:49,  1.31it/s]Training 2/3 epoch (loss 0.0114):  39%|███▉      | 6665/16950 [1:15:20<2:04:28,  1.38it/s]Training 2/3 epoch (loss 0.0407):  39%|███▉      | 6665/16950 [1:15:21<2:04:28,  1.38it/s]Training 2/3 epoch (loss 0.0407):  39%|███▉      | 6666/16950 [1:15:21<1:58:05,  1.45it/s]Training 2/3 epoch (loss 0.0047):  39%|███▉      | 6666/16950 [1:15:21<1:58:05,  1.45it/s]Training 2/3 epoch (loss 0.0047):  39%|███▉      | 6667/16950 [1:15:21<1:46:28,  1.61it/s]Training 2/3 epoch (loss 0.4009):  39%|███▉      | 6667/16950 [1:15:22<1:46:28,  1.61it/s]Training 2/3 epoch (loss 0.4009):  39%|███▉      | 6668/16950 [1:15:22<1:34:10,  1.82it/s]Training 2/3 epoch (loss 0.3950):  39%|███▉      | 6668/16950 [1:15:22<1:34:10,  1.82it/s]Training 2/3 epoch (loss 0.3950):  39%|███▉      | 6669/16950 [1:15:22<1:35:31,  1.79it/s]Training 2/3 epoch (loss 0.3866):  39%|███▉      | 6669/16950 [1:15:23<1:35:31,  1.79it/s]Training 2/3 epoch (loss 0.3866):  39%|███▉      | 6670/16950 [1:15:23<1:39:53,  1.72it/s]Training 2/3 epoch (loss 0.2595):  39%|███▉      | 6670/16950 [1:15:23<1:39:53,  1.72it/s]Training 2/3 epoch (loss 0.2595):  39%|███▉      | 6671/16950 [1:15:23<1:34:59,  1.80it/s]Training 2/3 epoch (loss 0.6793):  39%|███▉      | 6671/16950 [1:15:25<1:34:59,  1.80it/s]Training 2/3 epoch (loss 0.6793):  39%|███▉      | 6672/16950 [1:15:25<2:07:23,  1.34it/s]Training 2/3 epoch (loss 0.4320):  39%|███▉      | 6672/16950 [1:15:25<2:07:23,  1.34it/s]Training 2/3 epoch (loss 0.4320):  39%|███▉      | 6673/16950 [1:15:25<2:06:48,  1.35it/s]Training 2/3 epoch (loss 0.0189):  39%|███▉      | 6673/16950 [1:15:26<2:06:48,  1.35it/s]Training 2/3 epoch (loss 0.0189):  39%|███▉      | 6674/16950 [1:15:26<2:02:26,  1.40it/s]Training 2/3 epoch (loss 0.0231):  39%|███▉      | 6674/16950 [1:15:26<2:02:26,  1.40it/s]Training 2/3 epoch (loss 0.0231):  39%|███▉      | 6675/16950 [1:15:26<1:52:44,  1.52it/s]Training 2/3 epoch (loss 0.0135):  39%|███▉      | 6675/16950 [1:15:27<1:52:44,  1.52it/s]Training 2/3 epoch (loss 0.0135):  39%|███▉      | 6676/16950 [1:15:27<1:45:46,  1.62it/s]Training 2/3 epoch (loss 0.3901):  39%|███▉      | 6676/16950 [1:15:27<1:45:46,  1.62it/s]Training 2/3 epoch (loss 0.3901):  39%|███▉      | 6677/16950 [1:15:27<1:36:12,  1.78it/s]Training 2/3 epoch (loss 0.0547):  39%|███▉      | 6677/16950 [1:15:28<1:36:12,  1.78it/s]Training 2/3 epoch (loss 0.0547):  39%|███▉      | 6678/16950 [1:15:28<1:42:15,  1.67it/s]Training 2/3 epoch (loss 0.3049):  39%|███▉      | 6678/16950 [1:15:29<1:42:15,  1.67it/s]Training 2/3 epoch (loss 0.3049):  39%|███▉      | 6679/16950 [1:15:29<1:35:25,  1.79it/s]Training 2/3 epoch (loss 0.0755):  39%|███▉      | 6679/16950 [1:15:30<1:35:25,  1.79it/s]Training 2/3 epoch (loss 0.0755):  39%|███▉      | 6680/16950 [1:15:30<2:01:46,  1.41it/s]Training 2/3 epoch (loss 0.0488):  39%|███▉      | 6680/16950 [1:15:30<2:01:46,  1.41it/s]Training 2/3 epoch (loss 0.0488):  39%|███▉      | 6681/16950 [1:15:30<1:59:07,  1.44it/s]Training 2/3 epoch (loss 0.0550):  39%|███▉      | 6681/16950 [1:15:31<1:59:07,  1.44it/s]Training 2/3 epoch (loss 0.0550):  39%|███▉      | 6682/16950 [1:15:31<1:55:45,  1.48it/s]Training 2/3 epoch (loss 0.0414):  39%|███▉      | 6682/16950 [1:15:32<1:55:45,  1.48it/s]Training 2/3 epoch (loss 0.0414):  39%|███▉      | 6683/16950 [1:15:32<1:56:54,  1.46it/s]Training 2/3 epoch (loss 0.2290):  39%|███▉      | 6683/16950 [1:15:32<1:56:54,  1.46it/s]Training 2/3 epoch (loss 0.2290):  39%|███▉      | 6684/16950 [1:15:32<1:48:12,  1.58it/s]Training 2/3 epoch (loss 0.2448):  39%|███▉      | 6684/16950 [1:15:33<1:48:12,  1.58it/s]Training 2/3 epoch (loss 0.2448):  39%|███▉      | 6685/16950 [1:15:33<1:48:48,  1.57it/s]Training 2/3 epoch (loss 0.0091):  39%|███▉      | 6685/16950 [1:15:33<1:48:48,  1.57it/s]Training 2/3 epoch (loss 0.0091):  39%|███▉      | 6686/16950 [1:15:33<1:46:24,  1.61it/s]Training 2/3 epoch (loss 0.3813):  39%|███▉      | 6686/16950 [1:15:34<1:46:24,  1.61it/s]Training 2/3 epoch (loss 0.3813):  39%|███▉      | 6687/16950 [1:15:34<1:59:09,  1.44it/s]Training 2/3 epoch (loss 0.0216):  39%|███▉      | 6687/16950 [1:15:35<1:59:09,  1.44it/s]Training 2/3 epoch (loss 0.0216):  39%|███▉      | 6688/16950 [1:15:35<1:54:05,  1.50it/s]Training 2/3 epoch (loss 0.0360):  39%|███▉      | 6688/16950 [1:15:35<1:54:05,  1.50it/s]Training 2/3 epoch (loss 0.0360):  39%|███▉      | 6689/16950 [1:15:35<1:43:52,  1.65it/s]Training 2/3 epoch (loss 0.3202):  39%|███▉      | 6689/16950 [1:15:36<1:43:52,  1.65it/s]Training 2/3 epoch (loss 0.3202):  39%|███▉      | 6690/16950 [1:15:36<1:38:17,  1.74it/s]Training 2/3 epoch (loss 0.0473):  39%|███▉      | 6690/16950 [1:15:36<1:38:17,  1.74it/s]Training 2/3 epoch (loss 0.0473):  39%|███▉      | 6691/16950 [1:15:36<1:39:06,  1.73it/s]Training 2/3 epoch (loss 0.0302):  39%|███▉      | 6691/16950 [1:15:37<1:39:06,  1.73it/s]Training 2/3 epoch (loss 0.0302):  39%|███▉      | 6692/16950 [1:15:37<1:42:52,  1.66it/s]Training 2/3 epoch (loss 0.1407):  39%|███▉      | 6692/16950 [1:15:38<1:42:52,  1.66it/s]Training 2/3 epoch (loss 0.1407):  39%|███▉      | 6693/16950 [1:15:38<1:58:59,  1.44it/s]Training 2/3 epoch (loss 0.0141):  39%|███▉      | 6693/16950 [1:15:39<1:58:59,  1.44it/s]Training 2/3 epoch (loss 0.0141):  39%|███▉      | 6694/16950 [1:15:39<1:59:27,  1.43it/s]Training 2/3 epoch (loss 0.5720):  39%|███▉      | 6694/16950 [1:15:39<1:59:27,  1.43it/s]Training 2/3 epoch (loss 0.5720):  39%|███▉      | 6695/16950 [1:15:39<1:50:59,  1.54it/s]Training 2/3 epoch (loss 0.0765):  39%|███▉      | 6695/16950 [1:15:40<1:50:59,  1.54it/s]Training 2/3 epoch (loss 0.0765):  40%|███▉      | 6696/16950 [1:15:40<1:58:46,  1.44it/s]Training 2/3 epoch (loss 0.0041):  40%|███▉      | 6696/16950 [1:15:41<1:58:46,  1.44it/s]Training 2/3 epoch (loss 0.0041):  40%|███▉      | 6697/16950 [1:15:41<1:49:46,  1.56it/s]Training 2/3 epoch (loss 0.0093):  40%|███▉      | 6697/16950 [1:15:41<1:49:46,  1.56it/s]Training 2/3 epoch (loss 0.0093):  40%|███▉      | 6698/16950 [1:15:41<1:39:39,  1.71it/s]Training 2/3 epoch (loss 0.0229):  40%|███▉      | 6698/16950 [1:15:41<1:39:39,  1.71it/s]Training 2/3 epoch (loss 0.0229):  40%|███▉      | 6699/16950 [1:15:41<1:34:06,  1.82it/s]Training 2/3 epoch (loss 0.2796):  40%|███▉      | 6699/16950 [1:15:42<1:34:06,  1.82it/s]Training 2/3 epoch (loss 0.2796):  40%|███▉      | 6700/16950 [1:15:42<1:48:51,  1.57it/s]Training 2/3 epoch (loss 0.0423):  40%|███▉      | 6700/16950 [1:15:43<1:48:51,  1.57it/s]Training 2/3 epoch (loss 0.0423):  40%|███▉      | 6701/16950 [1:15:43<1:41:25,  1.68it/s]Training 2/3 epoch (loss nan):  40%|███▉      | 6701/16950 [1:15:44<1:41:25,  1.68it/s]   Training 2/3 epoch (loss nan):  40%|███▉      | 6702/16950 [1:15:44<2:07:41,  1.34it/s]Training 2/3 epoch (loss 0.0299):  40%|███▉      | 6702/16950 [1:15:45<2:07:41,  1.34it/s]Training 2/3 epoch (loss 0.0299):  40%|███▉      | 6703/16950 [1:15:45<2:02:44,  1.39it/s]Training 2/3 epoch (loss 0.0029):  40%|███▉      | 6703/16950 [1:15:45<2:02:44,  1.39it/s]Training 2/3 epoch (loss 0.0029):  40%|███▉      | 6704/16950 [1:15:45<1:54:26,  1.49it/s]Training 2/3 epoch (loss 0.0007):  40%|███▉      | 6704/16950 [1:15:46<1:54:26,  1.49it/s]Training 2/3 epoch (loss 0.0007):  40%|███▉      | 6705/16950 [1:15:46<1:49:44,  1.56it/s]Training 2/3 epoch (loss 0.5581):  40%|███▉      | 6705/16950 [1:15:46<1:49:44,  1.56it/s]Training 2/3 epoch (loss 0.5581):  40%|███▉      | 6706/16950 [1:15:46<1:51:18,  1.53it/s]Training 2/3 epoch (loss 0.2405):  40%|███▉      | 6706/16950 [1:15:47<1:51:18,  1.53it/s]Training 2/3 epoch (loss 0.2405):  40%|███▉      | 6707/16950 [1:15:47<1:42:07,  1.67it/s]Training 2/3 epoch (loss 0.4857):  40%|███▉      | 6707/16950 [1:15:47<1:42:07,  1.67it/s]Training 2/3 epoch (loss 0.4857):  40%|███▉      | 6708/16950 [1:15:47<1:34:51,  1.80it/s]Training 2/3 epoch (loss 0.0006):  40%|███▉      | 6708/16950 [1:15:48<1:34:51,  1.80it/s]Training 2/3 epoch (loss 0.0006):  40%|███▉      | 6709/16950 [1:15:48<1:30:34,  1.88it/s]Training 2/3 epoch (loss 0.0566):  40%|███▉      | 6709/16950 [1:15:49<1:30:34,  1.88it/s]Training 2/3 epoch (loss 0.0566):  40%|███▉      | 6710/16950 [1:15:49<1:51:24,  1.53it/s]Training 2/3 epoch (loss 0.4354):  40%|███▉      | 6710/16950 [1:15:49<1:51:24,  1.53it/s]Training 2/3 epoch (loss 0.4354):  40%|███▉      | 6711/16950 [1:15:49<1:44:46,  1.63it/s]Training 2/3 epoch (loss 0.0857):  40%|███▉      | 6711/16950 [1:15:50<1:44:46,  1.63it/s]Training 2/3 epoch (loss 0.0857):  40%|███▉      | 6712/16950 [1:15:50<1:38:05,  1.74it/s]Training 2/3 epoch (loss 0.3354):  40%|███▉      | 6712/16950 [1:15:50<1:38:05,  1.74it/s]Training 2/3 epoch (loss 0.3354):  40%|███▉      | 6713/16950 [1:15:50<1:39:20,  1.72it/s]Training 2/3 epoch (loss 0.0188):  40%|███▉      | 6713/16950 [1:15:51<1:39:20,  1.72it/s]Training 2/3 epoch (loss 0.0188):  40%|███▉      | 6714/16950 [1:15:51<1:59:19,  1.43it/s]Training 2/3 epoch (loss 0.4401):  40%|███▉      | 6714/16950 [1:15:52<1:59:19,  1.43it/s]Training 2/3 epoch (loss 0.4401):  40%|███▉      | 6715/16950 [1:15:52<1:54:41,  1.49it/s]Training 2/3 epoch (loss 0.9897):  40%|███▉      | 6715/16950 [1:15:53<1:54:41,  1.49it/s]Training 2/3 epoch (loss 0.9897):  40%|███▉      | 6716/16950 [1:15:53<2:12:30,  1.29it/s]Training 2/3 epoch (loss 0.0126):  40%|███▉      | 6716/16950 [1:15:54<2:12:30,  1.29it/s]Training 2/3 epoch (loss 0.0126):  40%|███▉      | 6717/16950 [1:15:54<2:09:00,  1.32it/s]Training 2/3 epoch (loss 0.0377):  40%|███▉      | 6717/16950 [1:15:54<2:09:00,  1.32it/s]Training 2/3 epoch (loss 0.0377):  40%|███▉      | 6718/16950 [1:15:54<2:01:58,  1.40it/s]Training 2/3 epoch (loss 0.0018):  40%|███▉      | 6718/16950 [1:15:55<2:01:58,  1.40it/s]Training 2/3 epoch (loss 0.0018):  40%|███▉      | 6719/16950 [1:15:55<1:49:11,  1.56it/s]Training 2/3 epoch (loss 0.0019):  40%|███▉      | 6719/16950 [1:15:55<1:49:11,  1.56it/s]Training 2/3 epoch (loss 0.0019):  40%|███▉      | 6720/16950 [1:15:55<1:52:57,  1.51it/s]Training 2/3 epoch (loss 0.0008):  40%|███▉      | 6720/16950 [1:15:56<1:52:57,  1.51it/s]Training 2/3 epoch (loss 0.0008):  40%|███▉      | 6721/16950 [1:15:56<1:51:21,  1.53it/s]Training 2/3 epoch (loss 0.3553):  40%|███▉      | 6721/16950 [1:15:57<1:51:21,  1.53it/s]Training 2/3 epoch (loss 0.3553):  40%|███▉      | 6722/16950 [1:15:57<2:07:29,  1.34it/s]Training 2/3 epoch (loss 0.1438):  40%|███▉      | 6722/16950 [1:15:58<2:07:29,  1.34it/s]Training 2/3 epoch (loss 0.1438):  40%|███▉      | 6723/16950 [1:15:58<2:00:25,  1.42it/s]Training 2/3 epoch (loss 1.0477):  40%|███▉      | 6723/16950 [1:15:59<2:00:25,  1.42it/s]Training 2/3 epoch (loss 1.0477):  40%|███▉      | 6724/16950 [1:15:59<2:23:49,  1.19it/s]Training 2/3 epoch (loss 0.0143):  40%|███▉      | 6724/16950 [1:15:59<2:23:49,  1.19it/s]Training 2/3 epoch (loss 0.0143):  40%|███▉      | 6725/16950 [1:15:59<2:14:13,  1.27it/s]Training 2/3 epoch (loss 0.0404):  40%|███▉      | 6725/16950 [1:16:00<2:14:13,  1.27it/s]Training 2/3 epoch (loss 0.0404):  40%|███▉      | 6726/16950 [1:16:00<1:56:54,  1.46it/s]Training 2/3 epoch (loss 0.0021):  40%|███▉      | 6726/16950 [1:16:00<1:56:54,  1.46it/s]Training 2/3 epoch (loss 0.0021):  40%|███▉      | 6727/16950 [1:16:00<1:52:04,  1.52it/s]Training 2/3 epoch (loss 0.0059):  40%|███▉      | 6727/16950 [1:16:01<1:52:04,  1.52it/s]Training 2/3 epoch (loss 0.0059):  40%|███▉      | 6728/16950 [1:16:01<2:08:25,  1.33it/s]Training 2/3 epoch (loss 0.0055):  40%|███▉      | 6728/16950 [1:16:02<2:08:25,  1.33it/s]Training 2/3 epoch (loss 0.0055):  40%|███▉      | 6729/16950 [1:16:02<1:58:22,  1.44it/s]Training 2/3 epoch (loss 0.1730):  40%|███▉      | 6729/16950 [1:16:03<1:58:22,  1.44it/s]Training 2/3 epoch (loss 0.1730):  40%|███▉      | 6730/16950 [1:16:03<1:51:51,  1.52it/s]Training 2/3 epoch (loss 0.0130):  40%|███▉      | 6730/16950 [1:16:03<1:51:51,  1.52it/s]Training 2/3 epoch (loss 0.0130):  40%|███▉      | 6731/16950 [1:16:03<1:40:40,  1.69it/s]Training 2/3 epoch (loss 0.0738):  40%|███▉      | 6731/16950 [1:16:03<1:40:40,  1.69it/s]Training 2/3 epoch (loss 0.0738):  40%|███▉      | 6732/16950 [1:16:03<1:33:13,  1.83it/s]Training 2/3 epoch (loss 0.0071):  40%|███▉      | 6732/16950 [1:16:04<1:33:13,  1.83it/s]Training 2/3 epoch (loss 0.0071):  40%|███▉      | 6733/16950 [1:16:04<1:32:03,  1.85it/s]Training 2/3 epoch (loss 0.0101):  40%|███▉      | 6733/16950 [1:16:04<1:32:03,  1.85it/s]Training 2/3 epoch (loss 0.0101):  40%|███▉      | 6734/16950 [1:16:04<1:27:53,  1.94it/s]Training 2/3 epoch (loss 0.0005):  40%|███▉      | 6734/16950 [1:16:05<1:27:53,  1.94it/s]Training 2/3 epoch (loss 0.0005):  40%|███▉      | 6735/16950 [1:16:05<1:22:18,  2.07it/s]Training 2/3 epoch (loss 0.0083):  40%|███▉      | 6735/16950 [1:16:05<1:22:18,  2.07it/s]Training 2/3 epoch (loss 0.0083):  40%|███▉      | 6736/16950 [1:16:06<1:30:09,  1.89it/s]Training 2/3 epoch (loss 0.1500):  40%|███▉      | 6736/16950 [1:16:06<1:30:09,  1.89it/s]Training 2/3 epoch (loss 0.1500):  40%|███▉      | 6737/16950 [1:16:06<1:47:13,  1.59it/s]Training 2/3 epoch (loss 0.0680):  40%|███▉      | 6737/16950 [1:16:07<1:47:13,  1.59it/s]Training 2/3 epoch (loss 0.0680):  40%|███▉      | 6738/16950 [1:16:07<1:53:25,  1.50it/s]Training 2/3 epoch (loss 0.1110):  40%|███▉      | 6738/16950 [1:16:08<1:53:25,  1.50it/s]Training 2/3 epoch (loss 0.1110):  40%|███▉      | 6739/16950 [1:16:08<2:02:04,  1.39it/s]Training 2/3 epoch (loss 0.2406):  40%|███▉      | 6739/16950 [1:16:09<2:02:04,  1.39it/s]Training 2/3 epoch (loss 0.2406):  40%|███▉      | 6740/16950 [1:16:09<2:05:02,  1.36it/s]Training 2/3 epoch (loss 0.0958):  40%|███▉      | 6740/16950 [1:16:09<2:05:02,  1.36it/s]Training 2/3 epoch (loss 0.0958):  40%|███▉      | 6741/16950 [1:16:09<2:04:17,  1.37it/s]Training 2/3 epoch (loss 0.0007):  40%|███▉      | 6741/16950 [1:16:10<2:04:17,  1.37it/s]Training 2/3 epoch (loss 0.0007):  40%|███▉      | 6742/16950 [1:16:10<1:54:02,  1.49it/s]Training 2/3 epoch (loss 0.7289):  40%|███▉      | 6742/16950 [1:16:11<1:54:02,  1.49it/s]Training 2/3 epoch (loss 0.7289):  40%|███▉      | 6743/16950 [1:16:11<2:07:23,  1.34it/s]Training 2/3 epoch (loss 0.0199):  40%|███▉      | 6743/16950 [1:16:11<2:07:23,  1.34it/s]Training 2/3 epoch (loss 0.0199):  40%|███▉      | 6744/16950 [1:16:11<1:54:35,  1.48it/s]Training 2/3 epoch (loss 0.0039):  40%|███▉      | 6744/16950 [1:16:12<1:54:35,  1.48it/s]Training 2/3 epoch (loss 0.0039):  40%|███▉      | 6745/16950 [1:16:12<1:51:06,  1.53it/s]Training 2/3 epoch (loss 0.6327):  40%|███▉      | 6745/16950 [1:16:13<1:51:06,  1.53it/s]Training 2/3 epoch (loss 0.6327):  40%|███▉      | 6746/16950 [1:16:13<1:58:56,  1.43it/s]Training 2/3 epoch (loss 0.0188):  40%|███▉      | 6746/16950 [1:16:13<1:58:56,  1.43it/s]Training 2/3 epoch (loss 0.0188):  40%|███▉      | 6747/16950 [1:16:13<1:48:21,  1.57it/s]Training 2/3 epoch (loss 0.5128):  40%|███▉      | 6747/16950 [1:16:14<1:48:21,  1.57it/s]Training 2/3 epoch (loss 0.5128):  40%|███▉      | 6748/16950 [1:16:14<1:43:05,  1.65it/s]Training 2/3 epoch (loss 0.5779):  40%|███▉      | 6748/16950 [1:16:14<1:43:05,  1.65it/s]Training 2/3 epoch (loss 0.5779):  40%|███▉      | 6749/16950 [1:16:14<1:39:22,  1.71it/s]Training 2/3 epoch (loss 0.0455):  40%|███▉      | 6749/16950 [1:16:15<1:39:22,  1.71it/s]Training 2/3 epoch (loss 0.0455):  40%|███▉      | 6750/16950 [1:16:15<1:38:09,  1.73it/s]Training 2/3 epoch (loss 0.0041):  40%|███▉      | 6750/16950 [1:16:16<1:38:09,  1.73it/s]Training 2/3 epoch (loss 0.0041):  40%|███▉      | 6751/16950 [1:16:16<1:42:38,  1.66it/s]Training 2/3 epoch (loss 0.0003):  40%|███▉      | 6751/16950 [1:16:16<1:42:38,  1.66it/s]Training 2/3 epoch (loss 0.0003):  40%|███▉      | 6752/16950 [1:16:16<1:27:51,  1.93it/s]Training 2/3 epoch (loss 0.0287):  40%|███▉      | 6752/16950 [1:16:16<1:27:51,  1.93it/s]Training 2/3 epoch (loss 0.0287):  40%|███▉      | 6753/16950 [1:16:16<1:21:51,  2.08it/s]Training 2/3 epoch (loss 0.0005):  40%|███▉      | 6753/16950 [1:16:17<1:21:51,  2.08it/s]Training 2/3 epoch (loss 0.0005):  40%|███▉      | 6754/16950 [1:16:17<1:28:32,  1.92it/s]Training 2/3 epoch (loss 0.4404):  40%|███▉      | 6754/16950 [1:16:17<1:28:32,  1.92it/s]Training 2/3 epoch (loss 0.4404):  40%|███▉      | 6755/16950 [1:16:17<1:20:30,  2.11it/s]Training 2/3 epoch (loss 0.0455):  40%|███▉      | 6755/16950 [1:16:18<1:20:30,  2.11it/s]Training 2/3 epoch (loss 0.0455):  40%|███▉      | 6756/16950 [1:16:18<1:27:03,  1.95it/s]Training 2/3 epoch (loss 0.4214):  40%|███▉      | 6756/16950 [1:16:18<1:27:03,  1.95it/s]Training 2/3 epoch (loss 0.4214):  40%|███▉      | 6757/16950 [1:16:18<1:19:21,  2.14it/s]Training 2/3 epoch (loss 0.0056):  40%|███▉      | 6757/16950 [1:16:19<1:19:21,  2.14it/s]Training 2/3 epoch (loss 0.0056):  40%|███▉      | 6758/16950 [1:16:19<1:13:51,  2.30it/s]Training 2/3 epoch (loss 0.0107):  40%|███▉      | 6758/16950 [1:16:19<1:13:51,  2.30it/s]Training 2/3 epoch (loss 0.0107):  40%|███▉      | 6759/16950 [1:16:19<1:27:05,  1.95it/s]Training 2/3 epoch (loss 0.0331):  40%|███▉      | 6759/16950 [1:16:20<1:27:05,  1.95it/s]Training 2/3 epoch (loss 0.0331):  40%|███▉      | 6760/16950 [1:16:20<1:24:29,  2.01it/s]Training 2/3 epoch (loss 0.0035):  40%|███▉      | 6760/16950 [1:16:20<1:24:29,  2.01it/s]Training 2/3 epoch (loss 0.0035):  40%|███▉      | 6761/16950 [1:16:20<1:25:09,  1.99it/s]Training 2/3 epoch (loss 0.6174):  40%|███▉      | 6761/16950 [1:16:21<1:25:09,  1.99it/s]Training 2/3 epoch (loss 0.6174):  40%|███▉      | 6762/16950 [1:16:21<1:43:06,  1.65it/s]Training 2/3 epoch (loss 0.4633):  40%|███▉      | 6762/16950 [1:16:22<1:43:06,  1.65it/s]Training 2/3 epoch (loss 0.4633):  40%|███▉      | 6763/16950 [1:16:22<1:37:44,  1.74it/s]Training 2/3 epoch (loss 1.0284):  40%|███▉      | 6763/16950 [1:16:22<1:37:44,  1.74it/s]Training 2/3 epoch (loss 1.0284):  40%|███▉      | 6764/16950 [1:16:22<1:41:29,  1.67it/s]Training 2/3 epoch (loss 0.0342):  40%|███▉      | 6764/16950 [1:16:23<1:41:29,  1.67it/s]Training 2/3 epoch (loss 0.0342):  40%|███▉      | 6765/16950 [1:16:23<1:45:31,  1.61it/s]Training 2/3 epoch (loss 0.0179):  40%|███▉      | 6765/16950 [1:16:24<1:45:31,  1.61it/s]Training 2/3 epoch (loss 0.0179):  40%|███▉      | 6766/16950 [1:16:24<1:47:13,  1.58it/s]Training 2/3 epoch (loss 0.1516):  40%|███▉      | 6766/16950 [1:16:24<1:47:13,  1.58it/s]Training 2/3 epoch (loss 0.1516):  40%|███▉      | 6767/16950 [1:16:24<1:54:03,  1.49it/s]Training 2/3 epoch (loss 0.1912):  40%|███▉      | 6767/16950 [1:16:25<1:54:03,  1.49it/s]Training 2/3 epoch (loss 0.1912):  40%|███▉      | 6768/16950 [1:16:25<1:46:54,  1.59it/s]Training 2/3 epoch (loss 0.0004):  40%|███▉      | 6768/16950 [1:16:25<1:46:54,  1.59it/s]Training 2/3 epoch (loss 0.0004):  40%|███▉      | 6769/16950 [1:16:25<1:40:44,  1.68it/s]Training 2/3 epoch (loss 0.4315):  40%|███▉      | 6769/16950 [1:16:26<1:40:44,  1.68it/s]Training 2/3 epoch (loss 0.4315):  40%|███▉      | 6770/16950 [1:16:26<1:30:42,  1.87it/s]Training 2/3 epoch (loss 0.3282):  40%|███▉      | 6770/16950 [1:16:26<1:30:42,  1.87it/s]Training 2/3 epoch (loss 0.3282):  40%|███▉      | 6771/16950 [1:16:26<1:27:21,  1.94it/s]Training 2/3 epoch (loss 0.0339):  40%|███▉      | 6771/16950 [1:16:27<1:27:21,  1.94it/s]Training 2/3 epoch (loss 0.0339):  40%|███▉      | 6772/16950 [1:16:27<1:26:40,  1.96it/s]Training 2/3 epoch (loss 0.0841):  40%|███▉      | 6772/16950 [1:16:27<1:26:40,  1.96it/s]Training 2/3 epoch (loss 0.0841):  40%|███▉      | 6773/16950 [1:16:27<1:30:48,  1.87it/s]Training 2/3 epoch (loss 0.6016):  40%|███▉      | 6773/16950 [1:16:28<1:30:48,  1.87it/s]Training 2/3 epoch (loss 0.6016):  40%|███▉      | 6774/16950 [1:16:28<1:29:32,  1.89it/s]Training 2/3 epoch (loss 0.0143):  40%|███▉      | 6774/16950 [1:16:29<1:29:32,  1.89it/s]Training 2/3 epoch (loss 0.0143):  40%|███▉      | 6775/16950 [1:16:29<1:42:05,  1.66it/s]Training 2/3 epoch (loss 0.1046):  40%|███▉      | 6775/16950 [1:16:29<1:42:05,  1.66it/s]Training 2/3 epoch (loss 0.1046):  40%|███▉      | 6776/16950 [1:16:29<1:39:23,  1.71it/s]Training 2/3 epoch (loss 0.0022):  40%|███▉      | 6776/16950 [1:16:30<1:39:23,  1.71it/s]Training 2/3 epoch (loss 0.0022):  40%|███▉      | 6777/16950 [1:16:30<1:33:05,  1.82it/s]Training 2/3 epoch (loss 0.0536):  40%|███▉      | 6777/16950 [1:16:31<1:33:05,  1.82it/s]Training 2/3 epoch (loss 0.0536):  40%|███▉      | 6778/16950 [1:16:31<1:48:36,  1.56it/s]Training 2/3 epoch (loss 0.0339):  40%|███▉      | 6778/16950 [1:16:31<1:48:36,  1.56it/s]Training 2/3 epoch (loss 0.0339):  40%|███▉      | 6779/16950 [1:16:31<1:42:11,  1.66it/s]Training 2/3 epoch (loss 0.0322):  40%|███▉      | 6779/16950 [1:16:32<1:42:11,  1.66it/s]Training 2/3 epoch (loss 0.0322):  40%|████      | 6780/16950 [1:16:32<1:37:25,  1.74it/s]Training 2/3 epoch (loss 0.3517):  40%|████      | 6780/16950 [1:16:32<1:37:25,  1.74it/s]Training 2/3 epoch (loss 0.3517):  40%|████      | 6781/16950 [1:16:32<1:33:35,  1.81it/s]Training 2/3 epoch (loss 0.2951):  40%|████      | 6781/16950 [1:16:33<1:33:35,  1.81it/s]Training 2/3 epoch (loss 0.2951):  40%|████      | 6782/16950 [1:16:33<1:28:33,  1.91it/s]Training 2/3 epoch (loss 0.0606):  40%|████      | 6782/16950 [1:16:33<1:28:33,  1.91it/s]Training 2/3 epoch (loss 0.0606):  40%|████      | 6783/16950 [1:16:33<1:33:29,  1.81it/s]Training 2/3 epoch (loss 0.0033):  40%|████      | 6783/16950 [1:16:34<1:33:29,  1.81it/s]Training 2/3 epoch (loss 0.0033):  40%|████      | 6784/16950 [1:16:34<1:59:46,  1.41it/s]Training 2/3 epoch (loss 0.0265):  40%|████      | 6784/16950 [1:16:35<1:59:46,  1.41it/s]Training 2/3 epoch (loss 0.0265):  40%|████      | 6785/16950 [1:16:35<1:49:44,  1.54it/s]Training 2/3 epoch (loss 0.0373):  40%|████      | 6785/16950 [1:16:35<1:49:44,  1.54it/s]Training 2/3 epoch (loss 0.0373):  40%|████      | 6786/16950 [1:16:35<1:49:59,  1.54it/s]Training 2/3 epoch (loss 0.0113):  40%|████      | 6786/16950 [1:16:36<1:49:59,  1.54it/s]Training 2/3 epoch (loss 0.0113):  40%|████      | 6787/16950 [1:16:36<1:52:16,  1.51it/s]Training 2/3 epoch (loss 0.3105):  40%|████      | 6787/16950 [1:16:37<1:52:16,  1.51it/s]Training 2/3 epoch (loss 0.3105):  40%|████      | 6788/16950 [1:16:37<1:41:45,  1.66it/s]Training 2/3 epoch (loss 0.0037):  40%|████      | 6788/16950 [1:16:37<1:41:45,  1.66it/s]Training 2/3 epoch (loss 0.0037):  40%|████      | 6789/16950 [1:16:37<1:34:55,  1.78it/s]Training 2/3 epoch (loss 0.1193):  40%|████      | 6789/16950 [1:16:37<1:34:55,  1.78it/s]Training 2/3 epoch (loss 0.1193):  40%|████      | 6790/16950 [1:16:37<1:31:19,  1.85it/s]Training 2/3 epoch (loss 0.0748):  40%|████      | 6790/16950 [1:16:38<1:31:19,  1.85it/s]Training 2/3 epoch (loss 0.0748):  40%|████      | 6791/16950 [1:16:38<1:46:18,  1.59it/s]Training 2/3 epoch (loss 0.0186):  40%|████      | 6791/16950 [1:16:39<1:46:18,  1.59it/s]Training 2/3 epoch (loss 0.0186):  40%|████      | 6792/16950 [1:16:39<2:01:07,  1.40it/s]Training 2/3 epoch (loss 0.0276):  40%|████      | 6792/16950 [1:16:40<2:01:07,  1.40it/s]Training 2/3 epoch (loss 0.0276):  40%|████      | 6793/16950 [1:16:40<1:49:43,  1.54it/s]Training 2/3 epoch (loss 0.1899):  40%|████      | 6793/16950 [1:16:40<1:49:43,  1.54it/s]Training 2/3 epoch (loss 0.1899):  40%|████      | 6794/16950 [1:16:40<1:37:31,  1.74it/s]Training 2/3 epoch (loss 0.5010):  40%|████      | 6794/16950 [1:16:41<1:37:31,  1.74it/s]Training 2/3 epoch (loss 0.5010):  40%|████      | 6795/16950 [1:16:41<1:50:42,  1.53it/s]Training 2/3 epoch (loss 0.4223):  40%|████      | 6795/16950 [1:16:41<1:50:42,  1.53it/s]Training 2/3 epoch (loss 0.4223):  40%|████      | 6796/16950 [1:16:41<1:39:48,  1.70it/s]Training 2/3 epoch (loss 0.0012):  40%|████      | 6796/16950 [1:16:42<1:39:48,  1.70it/s]Training 2/3 epoch (loss 0.0012):  40%|████      | 6797/16950 [1:16:42<1:42:15,  1.65it/s]Training 2/3 epoch (loss 0.0055):  40%|████      | 6797/16950 [1:16:42<1:42:15,  1.65it/s]Training 2/3 epoch (loss 0.0055):  40%|████      | 6798/16950 [1:16:42<1:27:46,  1.93it/s]Training 2/3 epoch (loss 0.0132):  40%|████      | 6798/16950 [1:16:43<1:27:46,  1.93it/s]Training 2/3 epoch (loss 0.0132):  40%|████      | 6799/16950 [1:16:43<1:31:27,  1.85it/s]Training 2/3 epoch (loss 0.0177):  40%|████      | 6799/16950 [1:16:44<1:31:27,  1.85it/s]Training 2/3 epoch (loss 0.0177):  40%|████      | 6800/16950 [1:16:44<1:33:01,  1.82it/s]Training 2/3 epoch (loss 0.2322):  40%|████      | 6800/16950 [1:16:44<1:33:01,  1.82it/s]Training 2/3 epoch (loss 0.2322):  40%|████      | 6801/16950 [1:16:44<1:36:39,  1.75it/s]Training 2/3 epoch (loss 0.3768):  40%|████      | 6801/16950 [1:16:45<1:36:39,  1.75it/s]Training 2/3 epoch (loss 0.3768):  40%|████      | 6802/16950 [1:16:45<1:27:49,  1.93it/s]Training 2/3 epoch (loss 0.3087):  40%|████      | 6802/16950 [1:16:45<1:27:49,  1.93it/s]Training 2/3 epoch (loss 0.3087):  40%|████      | 6803/16950 [1:16:45<1:31:03,  1.86it/s]Training 2/3 epoch (loss 0.0976):  40%|████      | 6803/16950 [1:16:45<1:31:03,  1.86it/s]Training 2/3 epoch (loss 0.0976):  40%|████      | 6804/16950 [1:16:45<1:21:06,  2.08it/s]Training 2/3 epoch (loss 0.0134):  40%|████      | 6804/16950 [1:16:46<1:21:06,  2.08it/s]Training 2/3 epoch (loss 0.0134):  40%|████      | 6805/16950 [1:16:46<1:36:43,  1.75it/s]Training 2/3 epoch (loss 0.0330):  40%|████      | 6805/16950 [1:16:47<1:36:43,  1.75it/s]Training 2/3 epoch (loss 0.0330):  40%|████      | 6806/16950 [1:16:47<1:41:04,  1.67it/s]Training 2/3 epoch (loss 0.0384):  40%|████      | 6806/16950 [1:16:47<1:41:04,  1.67it/s]Training 2/3 epoch (loss 0.0384):  40%|████      | 6807/16950 [1:16:47<1:37:51,  1.73it/s]Training 2/3 epoch (loss 0.0167):  40%|████      | 6807/16950 [1:16:48<1:37:51,  1.73it/s]Training 2/3 epoch (loss 0.0167):  40%|████      | 6808/16950 [1:16:48<1:29:21,  1.89it/s]Training 2/3 epoch (loss 0.4418):  40%|████      | 6808/16950 [1:16:49<1:29:21,  1.89it/s]Training 2/3 epoch (loss 0.4418):  40%|████      | 6809/16950 [1:16:49<1:47:06,  1.58it/s]Training 2/3 epoch (loss 0.3254):  40%|████      | 6809/16950 [1:16:49<1:47:06,  1.58it/s]Training 2/3 epoch (loss 0.3254):  40%|████      | 6810/16950 [1:16:49<1:39:10,  1.70it/s]Training 2/3 epoch (loss 0.0036):  40%|████      | 6810/16950 [1:16:50<1:39:10,  1.70it/s]Training 2/3 epoch (loss 0.0036):  40%|████      | 6811/16950 [1:16:50<1:36:20,  1.75it/s]Training 2/3 epoch (loss 0.0153):  40%|████      | 6811/16950 [1:16:50<1:36:20,  1.75it/s]Training 2/3 epoch (loss 0.0153):  40%|████      | 6812/16950 [1:16:50<1:32:23,  1.83it/s]Training 2/3 epoch (loss 0.0014):  40%|████      | 6812/16950 [1:16:51<1:32:23,  1.83it/s]Training 2/3 epoch (loss 0.0014):  40%|████      | 6813/16950 [1:16:51<1:26:38,  1.95it/s]Training 2/3 epoch (loss 0.5635):  40%|████      | 6813/16950 [1:16:52<1:26:38,  1.95it/s]Training 2/3 epoch (loss 0.5635):  40%|████      | 6814/16950 [1:16:52<1:50:24,  1.53it/s]Training 2/3 epoch (loss 0.0999):  40%|████      | 6814/16950 [1:16:52<1:50:24,  1.53it/s]Training 2/3 epoch (loss 0.0999):  40%|████      | 6815/16950 [1:16:52<1:44:09,  1.62it/s]Training 2/3 epoch (loss 0.0008):  40%|████      | 6815/16950 [1:16:53<1:44:09,  1.62it/s]Training 2/3 epoch (loss 0.0008):  40%|████      | 6816/16950 [1:16:53<1:44:00,  1.62it/s]Training 2/3 epoch (loss 0.0011):  40%|████      | 6816/16950 [1:16:53<1:44:00,  1.62it/s]Training 2/3 epoch (loss 0.0011):  40%|████      | 6817/16950 [1:16:53<1:36:56,  1.74it/s]Training 2/3 epoch (loss 0.0225):  40%|████      | 6817/16950 [1:16:54<1:36:56,  1.74it/s]Training 2/3 epoch (loss 0.0225):  40%|████      | 6818/16950 [1:16:54<1:38:45,  1.71it/s]Training 2/3 epoch (loss 0.0039):  40%|████      | 6818/16950 [1:16:55<1:38:45,  1.71it/s]Training 2/3 epoch (loss 0.0039):  40%|████      | 6819/16950 [1:16:55<1:42:44,  1.64it/s]Training 2/3 epoch (loss 0.0104):  40%|████      | 6819/16950 [1:16:55<1:42:44,  1.64it/s]Training 2/3 epoch (loss 0.0104):  40%|████      | 6820/16950 [1:16:55<1:34:30,  1.79it/s]Training 2/3 epoch (loss 0.0694):  40%|████      | 6820/16950 [1:16:56<1:34:30,  1.79it/s]Training 2/3 epoch (loss 0.0694):  40%|████      | 6821/16950 [1:16:56<1:39:23,  1.70it/s]Training 2/3 epoch (loss 0.1020):  40%|████      | 6821/16950 [1:16:56<1:39:23,  1.70it/s]Training 2/3 epoch (loss 0.1020):  40%|████      | 6822/16950 [1:16:56<1:36:42,  1.75it/s]Training 2/3 epoch (loss 0.0044):  40%|████      | 6822/16950 [1:16:57<1:36:42,  1.75it/s]Training 2/3 epoch (loss 0.0044):  40%|████      | 6823/16950 [1:16:57<1:37:22,  1.73it/s]Training 2/3 epoch (loss 0.0523):  40%|████      | 6823/16950 [1:16:57<1:37:22,  1.73it/s]Training 2/3 epoch (loss 0.0523):  40%|████      | 6824/16950 [1:16:57<1:35:42,  1.76it/s]Training 2/3 epoch (loss 0.2265):  40%|████      | 6824/16950 [1:16:58<1:35:42,  1.76it/s]Training 2/3 epoch (loss 0.2265):  40%|████      | 6825/16950 [1:16:58<1:37:29,  1.73it/s]Training 2/3 epoch (loss 0.0007):  40%|████      | 6825/16950 [1:16:59<1:37:29,  1.73it/s]Training 2/3 epoch (loss 0.0007):  40%|████      | 6826/16950 [1:16:59<1:40:52,  1.67it/s]Training 2/3 epoch (loss 0.1910):  40%|████      | 6826/16950 [1:16:59<1:40:52,  1.67it/s]Training 2/3 epoch (loss 0.1910):  40%|████      | 6827/16950 [1:16:59<1:43:21,  1.63it/s]Training 2/3 epoch (loss 0.0097):  40%|████      | 6827/16950 [1:17:00<1:43:21,  1.63it/s]Training 2/3 epoch (loss 0.0097):  40%|████      | 6828/16950 [1:17:00<1:38:50,  1.71it/s]Training 2/3 epoch (loss 0.2248):  40%|████      | 6828/16950 [1:17:00<1:38:50,  1.71it/s]Training 2/3 epoch (loss 0.2248):  40%|████      | 6829/16950 [1:17:00<1:41:49,  1.66it/s]Training 2/3 epoch (loss 0.4743):  40%|████      | 6829/16950 [1:17:01<1:41:49,  1.66it/s]Training 2/3 epoch (loss 0.4743):  40%|████      | 6830/16950 [1:17:01<1:37:52,  1.72it/s]Training 2/3 epoch (loss 0.2363):  40%|████      | 6830/16950 [1:17:01<1:37:52,  1.72it/s]Training 2/3 epoch (loss 0.2363):  40%|████      | 6831/16950 [1:17:01<1:29:32,  1.88it/s]Training 2/3 epoch (loss 0.2615):  40%|████      | 6831/16950 [1:17:02<1:29:32,  1.88it/s]Training 2/3 epoch (loss 0.2615):  40%|████      | 6832/16950 [1:17:02<1:46:57,  1.58it/s]Training 2/3 epoch (loss 0.3494):  40%|████      | 6832/16950 [1:17:03<1:46:57,  1.58it/s]Training 2/3 epoch (loss 0.3494):  40%|████      | 6833/16950 [1:17:03<1:51:10,  1.52it/s]Training 2/3 epoch (loss 0.1351):  40%|████      | 6833/16950 [1:17:04<1:51:10,  1.52it/s]Training 2/3 epoch (loss 0.1351):  40%|████      | 6834/16950 [1:17:04<1:53:00,  1.49it/s]Training 2/3 epoch (loss 0.3053):  40%|████      | 6834/16950 [1:17:05<1:53:00,  1.49it/s]Training 2/3 epoch (loss 0.3053):  40%|████      | 6835/16950 [1:17:05<2:14:20,  1.25it/s]Training 2/3 epoch (loss 1.1690):  40%|████      | 6835/16950 [1:17:06<2:14:20,  1.25it/s]Training 2/3 epoch (loss 1.1690):  40%|████      | 6836/16950 [1:17:06<2:15:57,  1.24it/s]Training 2/3 epoch (loss 0.0454):  40%|████      | 6836/16950 [1:17:06<2:15:57,  1.24it/s]Training 2/3 epoch (loss 0.0454):  40%|████      | 6837/16950 [1:17:06<2:01:39,  1.39it/s]Training 2/3 epoch (loss 0.0461):  40%|████      | 6837/16950 [1:17:07<2:01:39,  1.39it/s]Training 2/3 epoch (loss 0.0461):  40%|████      | 6838/16950 [1:17:07<1:51:03,  1.52it/s]Training 2/3 epoch (loss 0.5351):  40%|████      | 6838/16950 [1:17:07<1:51:03,  1.52it/s]Training 2/3 epoch (loss 0.5351):  40%|████      | 6839/16950 [1:17:07<1:35:53,  1.76it/s]Training 2/3 epoch (loss 0.1899):  40%|████      | 6839/16950 [1:17:08<1:35:53,  1.76it/s]Training 2/3 epoch (loss 0.1899):  40%|████      | 6840/16950 [1:17:08<1:41:26,  1.66it/s]Training 2/3 epoch (loss 0.0046):  40%|████      | 6840/16950 [1:17:08<1:41:26,  1.66it/s]Training 2/3 epoch (loss 0.0046):  40%|████      | 6841/16950 [1:17:08<1:36:29,  1.75it/s]Training 2/3 epoch (loss 0.1178):  40%|████      | 6841/16950 [1:17:09<1:36:29,  1.75it/s]Training 2/3 epoch (loss 0.1178):  40%|████      | 6842/16950 [1:17:09<1:27:55,  1.92it/s]Training 2/3 epoch (loss 0.0757):  40%|████      | 6842/16950 [1:17:09<1:27:55,  1.92it/s]Training 2/3 epoch (loss 0.0757):  40%|████      | 6843/16950 [1:17:09<1:28:19,  1.91it/s]Training 2/3 epoch (loss 0.1148):  40%|████      | 6843/16950 [1:17:10<1:28:19,  1.91it/s]Training 2/3 epoch (loss 0.1148):  40%|████      | 6844/16950 [1:17:10<1:25:18,  1.97it/s]Training 2/3 epoch (loss 0.0520):  40%|████      | 6844/16950 [1:17:10<1:25:18,  1.97it/s]Training 2/3 epoch (loss 0.0520):  40%|████      | 6845/16950 [1:17:10<1:43:58,  1.62it/s]Training 2/3 epoch (loss 0.0002):  40%|████      | 6845/16950 [1:17:11<1:43:58,  1.62it/s]Training 2/3 epoch (loss 0.0002):  40%|████      | 6846/16950 [1:17:11<1:38:47,  1.70it/s]Training 2/3 epoch (loss 0.1049):  40%|████      | 6846/16950 [1:17:12<1:38:47,  1.70it/s]Training 2/3 epoch (loss 0.1049):  40%|████      | 6847/16950 [1:17:12<1:41:14,  1.66it/s]Training 2/3 epoch (loss 0.8421):  40%|████      | 6847/16950 [1:17:12<1:41:14,  1.66it/s]Training 2/3 epoch (loss 0.8421):  40%|████      | 6848/16950 [1:17:12<1:33:10,  1.81it/s]Training 2/3 epoch (loss 0.3002):  40%|████      | 6848/16950 [1:17:12<1:33:10,  1.81it/s]Training 2/3 epoch (loss 0.3002):  40%|████      | 6849/16950 [1:17:12<1:27:02,  1.93it/s]Training 2/3 epoch (loss 0.0177):  40%|████      | 6849/16950 [1:17:13<1:27:02,  1.93it/s]Training 2/3 epoch (loss 0.0177):  40%|████      | 6850/16950 [1:17:13<1:36:06,  1.75it/s]Training 2/3 epoch (loss 0.4421):  40%|████      | 6850/16950 [1:17:14<1:36:06,  1.75it/s]Training 2/3 epoch (loss 0.4421):  40%|████      | 6851/16950 [1:17:14<1:35:19,  1.77it/s]Training 2/3 epoch (loss 0.0171):  40%|████      | 6851/16950 [1:17:14<1:35:19,  1.77it/s]Training 2/3 epoch (loss 0.0171):  40%|████      | 6852/16950 [1:17:14<1:26:11,  1.95it/s]Training 2/3 epoch (loss 0.5103):  40%|████      | 6852/16950 [1:17:15<1:26:11,  1.95it/s]Training 2/3 epoch (loss 0.5103):  40%|████      | 6853/16950 [1:17:15<1:34:27,  1.78it/s]Training 2/3 epoch (loss 0.0840):  40%|████      | 6853/16950 [1:17:15<1:34:27,  1.78it/s]Training 2/3 epoch (loss 0.0840):  40%|████      | 6854/16950 [1:17:15<1:34:26,  1.78it/s]Training 2/3 epoch (loss 0.6553):  40%|████      | 6854/16950 [1:17:16<1:34:26,  1.78it/s]Training 2/3 epoch (loss 0.6553):  40%|████      | 6855/16950 [1:17:16<1:34:21,  1.78it/s]Training 2/3 epoch (loss 0.0849):  40%|████      | 6855/16950 [1:17:17<1:34:21,  1.78it/s]Training 2/3 epoch (loss 0.0849):  40%|████      | 6856/16950 [1:17:17<1:40:12,  1.68it/s]Training 2/3 epoch (loss 0.3426):  40%|████      | 6856/16950 [1:17:17<1:40:12,  1.68it/s]Training 2/3 epoch (loss 0.3426):  40%|████      | 6857/16950 [1:17:17<1:32:48,  1.81it/s]Training 2/3 epoch (loss 0.0187):  40%|████      | 6857/16950 [1:17:17<1:32:48,  1.81it/s]Training 2/3 epoch (loss 0.0187):  40%|████      | 6858/16950 [1:17:17<1:23:00,  2.03it/s]Training 2/3 epoch (loss 0.0030):  40%|████      | 6858/16950 [1:17:18<1:23:00,  2.03it/s]Training 2/3 epoch (loss 0.0030):  40%|████      | 6859/16950 [1:17:18<1:19:37,  2.11it/s]Training 2/3 epoch (loss 0.0619):  40%|████      | 6859/16950 [1:17:18<1:19:37,  2.11it/s]Training 2/3 epoch (loss 0.0619):  40%|████      | 6860/16950 [1:17:18<1:13:39,  2.28it/s]Training 2/3 epoch (loss 0.0325):  40%|████      | 6860/16950 [1:17:19<1:13:39,  2.28it/s]Training 2/3 epoch (loss 0.0325):  40%|████      | 6861/16950 [1:17:19<1:14:51,  2.25it/s]Training 2/3 epoch (loss 0.4280):  40%|████      | 6861/16950 [1:17:19<1:14:51,  2.25it/s]Training 2/3 epoch (loss 0.4280):  40%|████      | 6862/16950 [1:17:19<1:29:28,  1.88it/s]Training 2/3 epoch (loss 0.0068):  40%|████      | 6862/16950 [1:17:20<1:29:28,  1.88it/s]Training 2/3 epoch (loss 0.0068):  40%|████      | 6863/16950 [1:17:20<1:26:40,  1.94it/s]Training 2/3 epoch (loss 0.4476):  40%|████      | 6863/16950 [1:17:20<1:26:40,  1.94it/s]Training 2/3 epoch (loss 0.4476):  40%|████      | 6864/16950 [1:17:20<1:31:21,  1.84it/s]Training 2/3 epoch (loss 0.3747):  40%|████      | 6864/16950 [1:17:21<1:31:21,  1.84it/s]Training 2/3 epoch (loss 0.3747):  41%|████      | 6865/16950 [1:17:21<1:32:36,  1.81it/s]Training 2/3 epoch (loss 0.0106):  41%|████      | 6865/16950 [1:17:22<1:32:36,  1.81it/s]Training 2/3 epoch (loss 0.0106):  41%|████      | 6866/16950 [1:17:22<1:37:14,  1.73it/s]Training 2/3 epoch (loss 0.4133):  41%|████      | 6866/16950 [1:17:23<1:37:14,  1.73it/s]Training 2/3 epoch (loss 0.4133):  41%|████      | 6867/16950 [1:17:23<1:59:21,  1.41it/s]Training 2/3 epoch (loss 0.0519):  41%|████      | 6867/16950 [1:17:23<1:59:21,  1.41it/s]Training 2/3 epoch (loss 0.0519):  41%|████      | 6868/16950 [1:17:23<1:56:24,  1.44it/s]Training 2/3 epoch (loss 0.1611):  41%|████      | 6868/16950 [1:17:24<1:56:24,  1.44it/s]Training 2/3 epoch (loss 0.1611):  41%|████      | 6869/16950 [1:17:24<1:46:50,  1.57it/s]Training 2/3 epoch (loss 0.0181):  41%|████      | 6869/16950 [1:17:24<1:46:50,  1.57it/s]Training 2/3 epoch (loss 0.0181):  41%|████      | 6870/16950 [1:17:24<1:42:19,  1.64it/s]Training 2/3 epoch (loss 0.0234):  41%|████      | 6870/16950 [1:17:25<1:42:19,  1.64it/s]Training 2/3 epoch (loss 0.0234):  41%|████      | 6871/16950 [1:17:25<1:48:28,  1.55it/s]Training 2/3 epoch (loss 0.3634):  41%|████      | 6871/16950 [1:17:26<1:48:28,  1.55it/s]Training 2/3 epoch (loss 0.3634):  41%|████      | 6872/16950 [1:17:26<1:46:12,  1.58it/s]Training 2/3 epoch (loss 0.0421):  41%|████      | 6872/16950 [1:17:26<1:46:12,  1.58it/s]Training 2/3 epoch (loss 0.0421):  41%|████      | 6873/16950 [1:17:26<1:46:12,  1.58it/s]Training 2/3 epoch (loss 0.0047):  41%|████      | 6873/16950 [1:17:27<1:46:12,  1.58it/s]Training 2/3 epoch (loss 0.0047):  41%|████      | 6874/16950 [1:17:27<1:46:15,  1.58it/s]Training 2/3 epoch (loss 0.4975):  41%|████      | 6874/16950 [1:17:28<1:46:15,  1.58it/s]Training 2/3 epoch (loss 0.4975):  41%|████      | 6875/16950 [1:17:28<1:45:56,  1.59it/s]Training 2/3 epoch (loss 0.0242):  41%|████      | 6875/16950 [1:17:28<1:45:56,  1.59it/s]Training 2/3 epoch (loss 0.0242):  41%|████      | 6876/16950 [1:17:28<1:36:00,  1.75it/s]Training 2/3 epoch (loss 0.1650):  41%|████      | 6876/16950 [1:17:29<1:36:00,  1.75it/s]Training 2/3 epoch (loss 0.1650):  41%|████      | 6877/16950 [1:17:29<1:44:36,  1.60it/s]Training 2/3 epoch (loss 0.3963):  41%|████      | 6877/16950 [1:17:29<1:44:36,  1.60it/s]Training 2/3 epoch (loss 0.3963):  41%|████      | 6878/16950 [1:17:29<1:39:02,  1.69it/s]Training 2/3 epoch (loss 0.0009):  41%|████      | 6878/16950 [1:17:30<1:39:02,  1.69it/s]Training 2/3 epoch (loss 0.0009):  41%|████      | 6879/16950 [1:17:30<1:33:46,  1.79it/s]Training 2/3 epoch (loss 0.0298):  41%|████      | 6879/16950 [1:17:30<1:33:46,  1.79it/s]Training 2/3 epoch (loss 0.0298):  41%|████      | 6880/16950 [1:17:30<1:30:18,  1.86it/s]Training 2/3 epoch (loss 0.0101):  41%|████      | 6880/16950 [1:17:31<1:30:18,  1.86it/s]Training 2/3 epoch (loss 0.0101):  41%|████      | 6881/16950 [1:17:31<1:33:27,  1.80it/s]Training 2/3 epoch (loss 0.9380):  41%|████      | 6881/16950 [1:17:31<1:33:27,  1.80it/s]Training 2/3 epoch (loss 0.9380):  41%|████      | 6882/16950 [1:17:31<1:24:50,  1.98it/s]Training 2/3 epoch (loss 0.0021):  41%|████      | 6882/16950 [1:17:32<1:24:50,  1.98it/s]Training 2/3 epoch (loss 0.0021):  41%|████      | 6883/16950 [1:17:32<1:27:23,  1.92it/s]Training 2/3 epoch (loss 0.0281):  41%|████      | 6883/16950 [1:17:32<1:27:23,  1.92it/s]Training 2/3 epoch (loss 0.0281):  41%|████      | 6884/16950 [1:17:32<1:24:40,  1.98it/s]Training 2/3 epoch (loss 0.0189):  41%|████      | 6884/16950 [1:17:33<1:24:40,  1.98it/s]Training 2/3 epoch (loss 0.0189):  41%|████      | 6885/16950 [1:17:33<1:33:18,  1.80it/s]Training 2/3 epoch (loss 0.0608):  41%|████      | 6885/16950 [1:17:34<1:33:18,  1.80it/s]Training 2/3 epoch (loss 0.0608):  41%|████      | 6886/16950 [1:17:34<1:38:05,  1.71it/s]Training 2/3 epoch (loss 0.0155):  41%|████      | 6886/16950 [1:17:34<1:38:05,  1.71it/s]Training 2/3 epoch (loss 0.0155):  41%|████      | 6887/16950 [1:17:34<1:35:21,  1.76it/s]Training 2/3 epoch (loss 0.5456):  41%|████      | 6887/16950 [1:17:35<1:35:21,  1.76it/s]Training 2/3 epoch (loss 0.5456):  41%|████      | 6888/16950 [1:17:35<1:42:16,  1.64it/s]Training 2/3 epoch (loss 0.0423):  41%|████      | 6888/16950 [1:17:36<1:42:16,  1.64it/s]Training 2/3 epoch (loss 0.0423):  41%|████      | 6889/16950 [1:17:36<2:02:54,  1.36it/s]Training 2/3 epoch (loss 0.0235):  41%|████      | 6889/16950 [1:17:37<2:02:54,  1.36it/s]Training 2/3 epoch (loss 0.0235):  41%|████      | 6890/16950 [1:17:37<2:02:32,  1.37it/s]Training 2/3 epoch (loss 0.2696):  41%|████      | 6890/16950 [1:17:37<2:02:32,  1.37it/s]Training 2/3 epoch (loss 0.2696):  41%|████      | 6891/16950 [1:17:37<1:53:34,  1.48it/s]Training 2/3 epoch (loss 0.4149):  41%|████      | 6891/16950 [1:17:38<1:53:34,  1.48it/s]Training 2/3 epoch (loss 0.4149):  41%|████      | 6892/16950 [1:17:38<2:07:17,  1.32it/s]Training 2/3 epoch (loss 0.0151):  41%|████      | 6892/16950 [1:17:39<2:07:17,  1.32it/s]Training 2/3 epoch (loss 0.0151):  41%|████      | 6893/16950 [1:17:39<2:03:22,  1.36it/s]Training 2/3 epoch (loss 0.0126):  41%|████      | 6893/16950 [1:17:39<2:03:22,  1.36it/s]Training 2/3 epoch (loss 0.0126):  41%|████      | 6894/16950 [1:17:39<1:58:05,  1.42it/s]Training 2/3 epoch (loss 0.3256):  41%|████      | 6894/16950 [1:17:40<1:58:05,  1.42it/s]Training 2/3 epoch (loss 0.3256):  41%|████      | 6895/16950 [1:17:40<1:57:41,  1.42it/s]Training 2/3 epoch (loss 0.0249):  41%|████      | 6895/16950 [1:17:41<1:57:41,  1.42it/s]Training 2/3 epoch (loss 0.0249):  41%|████      | 6896/16950 [1:17:41<1:52:25,  1.49it/s]Training 2/3 epoch (loss 0.0190):  41%|████      | 6896/16950 [1:17:41<1:52:25,  1.49it/s]Training 2/3 epoch (loss 0.0190):  41%|████      | 6897/16950 [1:17:41<1:50:59,  1.51it/s]Training 2/3 epoch (loss 0.1553):  41%|████      | 6897/16950 [1:17:42<1:50:59,  1.51it/s]Training 2/3 epoch (loss 0.1553):  41%|████      | 6898/16950 [1:17:42<1:53:36,  1.47it/s]Training 2/3 epoch (loss 0.0039):  41%|████      | 6898/16950 [1:17:43<1:53:36,  1.47it/s]Training 2/3 epoch (loss 0.0039):  41%|████      | 6899/16950 [1:17:43<1:55:54,  1.45it/s]Training 2/3 epoch (loss 0.4942):  41%|████      | 6899/16950 [1:17:44<1:55:54,  1.45it/s]Training 2/3 epoch (loss 0.4942):  41%|████      | 6900/16950 [1:17:44<1:59:39,  1.40it/s]Training 2/3 epoch (loss 0.0200):  41%|████      | 6900/16950 [1:17:44<1:59:39,  1.40it/s]Training 2/3 epoch (loss 0.0200):  41%|████      | 6901/16950 [1:17:44<1:51:49,  1.50it/s]Training 2/3 epoch (loss 0.0097):  41%|████      | 6901/16950 [1:17:45<1:51:49,  1.50it/s]Training 2/3 epoch (loss 0.0097):  41%|████      | 6902/16950 [1:17:45<1:41:56,  1.64it/s]Training 2/3 epoch (loss 0.1033):  41%|████      | 6902/16950 [1:17:45<1:41:56,  1.64it/s]Training 2/3 epoch (loss 0.1033):  41%|████      | 6903/16950 [1:17:45<1:43:09,  1.62it/s]Training 2/3 epoch (loss 0.2588):  41%|████      | 6903/16950 [1:17:46<1:43:09,  1.62it/s]Training 2/3 epoch (loss 0.2588):  41%|████      | 6904/16950 [1:17:46<2:07:44,  1.31it/s]Training 2/3 epoch (loss 0.0630):  41%|████      | 6904/16950 [1:17:47<2:07:44,  1.31it/s]Training 2/3 epoch (loss 0.0630):  41%|████      | 6905/16950 [1:17:47<1:54:12,  1.47it/s]Training 2/3 epoch (loss 0.0874):  41%|████      | 6905/16950 [1:17:47<1:54:12,  1.47it/s]Training 2/3 epoch (loss 0.0874):  41%|████      | 6906/16950 [1:17:47<1:39:24,  1.68it/s]Training 2/3 epoch (loss 0.0441):  41%|████      | 6906/16950 [1:17:48<1:39:24,  1.68it/s]Training 2/3 epoch (loss 0.0441):  41%|████      | 6907/16950 [1:17:48<1:33:19,  1.79it/s]Training 2/3 epoch (loss 0.0066):  41%|████      | 6907/16950 [1:17:48<1:33:19,  1.79it/s]Training 2/3 epoch (loss 0.0066):  41%|████      | 6908/16950 [1:17:48<1:37:25,  1.72it/s]Training 2/3 epoch (loss 0.0142):  41%|████      | 6908/16950 [1:17:49<1:37:25,  1.72it/s]Training 2/3 epoch (loss 0.0142):  41%|████      | 6909/16950 [1:17:49<1:43:23,  1.62it/s]Training 2/3 epoch (loss 0.2966):  41%|████      | 6909/16950 [1:17:50<1:43:23,  1.62it/s]Training 2/3 epoch (loss 0.2966):  41%|████      | 6910/16950 [1:17:50<1:52:31,  1.49it/s]Training 2/3 epoch (loss 0.0146):  41%|████      | 6910/16950 [1:17:51<1:52:31,  1.49it/s]Training 2/3 epoch (loss 0.0146):  41%|████      | 6911/16950 [1:17:51<1:59:56,  1.39it/s]Training 2/3 epoch (loss 0.1805):  41%|████      | 6911/16950 [1:17:51<1:59:56,  1.39it/s]Training 2/3 epoch (loss 0.1805):  41%|████      | 6912/16950 [1:17:51<1:41:38,  1.65it/s]Training 2/3 epoch (loss 0.0029):  41%|████      | 6912/16950 [1:17:51<1:41:38,  1.65it/s]Training 2/3 epoch (loss 0.0029):  41%|████      | 6913/16950 [1:17:51<1:37:51,  1.71it/s]Training 2/3 epoch (loss 0.0396):  41%|████      | 6913/16950 [1:17:52<1:37:51,  1.71it/s]Training 2/3 epoch (loss 0.0396):  41%|████      | 6914/16950 [1:17:52<1:41:50,  1.64it/s]Training 2/3 epoch (loss 0.3720):  41%|████      | 6914/16950 [1:17:53<1:41:50,  1.64it/s]Training 2/3 epoch (loss 0.3720):  41%|████      | 6915/16950 [1:17:53<1:55:27,  1.45it/s]Training 2/3 epoch (loss 0.0048):  41%|████      | 6915/16950 [1:17:54<1:55:27,  1.45it/s]Training 2/3 epoch (loss 0.0048):  41%|████      | 6916/16950 [1:17:54<1:58:46,  1.41it/s]Training 2/3 epoch (loss 0.0029):  41%|████      | 6916/16950 [1:17:54<1:58:46,  1.41it/s]Training 2/3 epoch (loss 0.0029):  41%|████      | 6917/16950 [1:17:54<1:53:43,  1.47it/s]Training 2/3 epoch (loss 0.0097):  41%|████      | 6917/16950 [1:17:56<1:53:43,  1.47it/s]Training 2/3 epoch (loss 0.0097):  41%|████      | 6918/16950 [1:17:56<2:16:48,  1.22it/s]Training 2/3 epoch (loss 0.2696):  41%|████      | 6918/16950 [1:17:56<2:16:48,  1.22it/s]Training 2/3 epoch (loss 0.2696):  41%|████      | 6919/16950 [1:17:56<2:16:24,  1.23it/s]Training 2/3 epoch (loss 0.0090):  41%|████      | 6919/16950 [1:17:57<2:16:24,  1.23it/s]Training 2/3 epoch (loss 0.0090):  41%|████      | 6920/16950 [1:17:57<2:13:07,  1.26it/s]Training 2/3 epoch (loss 0.0263):  41%|████      | 6920/16950 [1:17:58<2:13:07,  1.26it/s]Training 2/3 epoch (loss 0.0263):  41%|████      | 6921/16950 [1:17:58<1:57:56,  1.42it/s]Training 2/3 epoch (loss 0.0419):  41%|████      | 6921/16950 [1:17:58<1:57:56,  1.42it/s]Training 2/3 epoch (loss 0.0419):  41%|████      | 6922/16950 [1:17:58<1:46:55,  1.56it/s]Training 2/3 epoch (loss 0.2523):  41%|████      | 6922/16950 [1:17:59<1:46:55,  1.56it/s]Training 2/3 epoch (loss 0.2523):  41%|████      | 6923/16950 [1:17:59<1:55:29,  1.45it/s]Training 2/3 epoch (loss 0.0902):  41%|████      | 6923/16950 [1:18:00<1:55:29,  1.45it/s]Training 2/3 epoch (loss 0.0902):  41%|████      | 6924/16950 [1:18:00<1:56:12,  1.44it/s]Training 2/3 epoch (loss 0.5921):  41%|████      | 6924/16950 [1:18:00<1:56:12,  1.44it/s]Training 2/3 epoch (loss 0.5921):  41%|████      | 6925/16950 [1:18:00<1:54:27,  1.46it/s]Training 2/3 epoch (loss 0.0031):  41%|████      | 6925/16950 [1:18:01<1:54:27,  1.46it/s]Training 2/3 epoch (loss 0.0031):  41%|████      | 6926/16950 [1:18:01<1:44:03,  1.61it/s]Training 2/3 epoch (loss 0.0217):  41%|████      | 6926/16950 [1:18:02<1:44:03,  1.61it/s]Training 2/3 epoch (loss 0.0217):  41%|████      | 6927/16950 [1:18:02<1:54:29,  1.46it/s]Training 2/3 epoch (loss 0.4261):  41%|████      | 6927/16950 [1:18:02<1:54:29,  1.46it/s]Training 2/3 epoch (loss 0.4261):  41%|████      | 6928/16950 [1:18:02<1:45:56,  1.58it/s]Training 2/3 epoch (loss 0.1134):  41%|████      | 6928/16950 [1:18:03<1:45:56,  1.58it/s]Training 2/3 epoch (loss 0.1134):  41%|████      | 6929/16950 [1:18:03<1:44:28,  1.60it/s]Training 2/3 epoch (loss 0.0728):  41%|████      | 6929/16950 [1:18:03<1:44:28,  1.60it/s]Training 2/3 epoch (loss 0.0728):  41%|████      | 6930/16950 [1:18:03<1:37:19,  1.72it/s]Training 2/3 epoch (loss 0.5696):  41%|████      | 6930/16950 [1:18:04<1:37:19,  1.72it/s]Training 2/3 epoch (loss 0.5696):  41%|████      | 6931/16950 [1:18:04<1:39:54,  1.67it/s]Training 2/3 epoch (loss 0.6440):  41%|████      | 6931/16950 [1:18:05<1:39:54,  1.67it/s]Training 2/3 epoch (loss 0.6440):  41%|████      | 6932/16950 [1:18:05<2:09:58,  1.28it/s]Training 2/3 epoch (loss 0.0014):  41%|████      | 6932/16950 [1:18:06<2:09:58,  1.28it/s]Training 2/3 epoch (loss 0.0014):  41%|████      | 6933/16950 [1:18:06<2:08:14,  1.30it/s]Training 2/3 epoch (loss 0.0401):  41%|████      | 6933/16950 [1:18:06<2:08:14,  1.30it/s]Training 2/3 epoch (loss 0.0401):  41%|████      | 6934/16950 [1:18:06<1:55:47,  1.44it/s]Training 2/3 epoch (loss 0.0334):  41%|████      | 6934/16950 [1:18:07<1:55:47,  1.44it/s]Training 2/3 epoch (loss 0.0334):  41%|████      | 6935/16950 [1:18:07<2:08:02,  1.30it/s]Training 2/3 epoch (loss 0.0439):  41%|████      | 6935/16950 [1:18:08<2:08:02,  1.30it/s]Training 2/3 epoch (loss 0.0439):  41%|████      | 6936/16950 [1:18:08<2:18:54,  1.20it/s]Training 2/3 epoch (loss 0.5389):  41%|████      | 6936/16950 [1:18:09<2:18:54,  1.20it/s]Training 2/3 epoch (loss 0.5389):  41%|████      | 6937/16950 [1:18:09<2:02:21,  1.36it/s]Training 2/3 epoch (loss 0.0940):  41%|████      | 6937/16950 [1:18:09<2:02:21,  1.36it/s]Training 2/3 epoch (loss 0.0940):  41%|████      | 6938/16950 [1:18:09<1:56:36,  1.43it/s]Training 2/3 epoch (loss 0.4863):  41%|████      | 6938/16950 [1:18:10<1:56:36,  1.43it/s]Training 2/3 epoch (loss 0.4863):  41%|████      | 6939/16950 [1:18:10<1:41:26,  1.64it/s]Training 2/3 epoch (loss 0.1341):  41%|████      | 6939/16950 [1:18:10<1:41:26,  1.64it/s]Training 2/3 epoch (loss 0.1341):  41%|████      | 6940/16950 [1:18:10<1:40:38,  1.66it/s]Training 2/3 epoch (loss 0.0890):  41%|████      | 6940/16950 [1:18:11<1:40:38,  1.66it/s]Training 2/3 epoch (loss 0.0890):  41%|████      | 6941/16950 [1:18:11<1:38:34,  1.69it/s]Training 2/3 epoch (loss 0.0005):  41%|████      | 6941/16950 [1:18:11<1:38:34,  1.69it/s]Training 2/3 epoch (loss 0.0005):  41%|████      | 6942/16950 [1:18:11<1:40:00,  1.67it/s]Training 2/3 epoch (loss 0.7082):  41%|████      | 6942/16950 [1:18:12<1:40:00,  1.67it/s]Training 2/3 epoch (loss 0.7082):  41%|████      | 6943/16950 [1:18:12<1:53:21,  1.47it/s]Training 2/3 epoch (loss 0.0528):  41%|████      | 6943/16950 [1:18:13<1:53:21,  1.47it/s]Training 2/3 epoch (loss 0.0528):  41%|████      | 6944/16950 [1:18:13<1:47:27,  1.55it/s]Training 2/3 epoch (loss 0.0489):  41%|████      | 6944/16950 [1:18:13<1:47:27,  1.55it/s]Training 2/3 epoch (loss 0.0489):  41%|████      | 6945/16950 [1:18:13<1:42:40,  1.62it/s]Training 2/3 epoch (loss 0.0236):  41%|████      | 6945/16950 [1:18:14<1:42:40,  1.62it/s]Training 2/3 epoch (loss 0.0236):  41%|████      | 6946/16950 [1:18:14<1:45:21,  1.58it/s]Training 2/3 epoch (loss 0.4769):  41%|████      | 6946/16950 [1:18:15<1:45:21,  1.58it/s]Training 2/3 epoch (loss 0.4769):  41%|████      | 6947/16950 [1:18:15<1:45:46,  1.58it/s]Training 2/3 epoch (loss 0.0790):  41%|████      | 6947/16950 [1:18:15<1:45:46,  1.58it/s]Training 2/3 epoch (loss 0.0790):  41%|████      | 6948/16950 [1:18:15<1:45:30,  1.58it/s]Training 2/3 epoch (loss 0.2121):  41%|████      | 6948/16950 [1:18:16<1:45:30,  1.58it/s]Training 2/3 epoch (loss 0.2121):  41%|████      | 6949/16950 [1:18:16<1:43:28,  1.61it/s]Training 2/3 epoch (loss 0.0135):  41%|████      | 6949/16950 [1:18:16<1:43:28,  1.61it/s]Training 2/3 epoch (loss 0.0135):  41%|████      | 6950/16950 [1:18:16<1:38:42,  1.69it/s]Training 2/3 epoch (loss 0.0245):  41%|████      | 6950/16950 [1:18:17<1:38:42,  1.69it/s]Training 2/3 epoch (loss 0.0245):  41%|████      | 6951/16950 [1:18:17<1:29:34,  1.86it/s]Training 2/3 epoch (loss 0.0139):  41%|████      | 6951/16950 [1:18:17<1:29:34,  1.86it/s]Training 2/3 epoch (loss 0.0139):  41%|████      | 6952/16950 [1:18:17<1:31:58,  1.81it/s]Training 2/3 epoch (loss 0.0031):  41%|████      | 6952/16950 [1:18:18<1:31:58,  1.81it/s]Training 2/3 epoch (loss 0.0031):  41%|████      | 6953/16950 [1:18:18<1:25:57,  1.94it/s]Training 2/3 epoch (loss 0.0091):  41%|████      | 6953/16950 [1:18:18<1:25:57,  1.94it/s]Training 2/3 epoch (loss 0.0091):  41%|████      | 6954/16950 [1:18:18<1:22:03,  2.03it/s]Training 2/3 epoch (loss 0.0250):  41%|████      | 6954/16950 [1:18:19<1:22:03,  2.03it/s]Training 2/3 epoch (loss 0.0250):  41%|████      | 6955/16950 [1:18:19<1:31:06,  1.83it/s]Training 2/3 epoch (loss 0.1588):  41%|████      | 6955/16950 [1:18:20<1:31:06,  1.83it/s]Training 2/3 epoch (loss 0.1588):  41%|████      | 6956/16950 [1:18:20<1:28:30,  1.88it/s]Training 2/3 epoch (loss 0.4505):  41%|████      | 6956/16950 [1:18:20<1:28:30,  1.88it/s]Training 2/3 epoch (loss 0.4505):  41%|████      | 6957/16950 [1:18:20<1:25:49,  1.94it/s]Training 2/3 epoch (loss 0.1419):  41%|████      | 6957/16950 [1:18:21<1:25:49,  1.94it/s]Training 2/3 epoch (loss 0.1419):  41%|████      | 6958/16950 [1:18:21<1:35:22,  1.75it/s]Training 2/3 epoch (loss 0.0457):  41%|████      | 6958/16950 [1:18:21<1:35:22,  1.75it/s]Training 2/3 epoch (loss 0.0457):  41%|████      | 6959/16950 [1:18:21<1:37:45,  1.70it/s]Training 2/3 epoch (loss 0.3260):  41%|████      | 6959/16950 [1:18:22<1:37:45,  1.70it/s]Training 2/3 epoch (loss 0.3260):  41%|████      | 6960/16950 [1:18:22<1:40:39,  1.65it/s]Training 2/3 epoch (loss 0.0642):  41%|████      | 6960/16950 [1:18:23<1:40:39,  1.65it/s]Training 2/3 epoch (loss 0.0642):  41%|████      | 6961/16950 [1:18:23<1:39:01,  1.68it/s]Training 2/3 epoch (loss 0.0014):  41%|████      | 6961/16950 [1:18:23<1:39:01,  1.68it/s]Training 2/3 epoch (loss 0.0014):  41%|████      | 6962/16950 [1:18:23<1:37:21,  1.71it/s]Training 2/3 epoch (loss 0.0080):  41%|████      | 6962/16950 [1:18:24<1:37:21,  1.71it/s]Training 2/3 epoch (loss 0.0080):  41%|████      | 6963/16950 [1:18:24<1:42:03,  1.63it/s]Training 2/3 epoch (loss 0.0083):  41%|████      | 6963/16950 [1:18:24<1:42:03,  1.63it/s]Training 2/3 epoch (loss 0.0083):  41%|████      | 6964/16950 [1:18:24<1:39:57,  1.67it/s]Training 2/3 epoch (loss 0.4025):  41%|████      | 6964/16950 [1:18:25<1:39:57,  1.67it/s]Training 2/3 epoch (loss 0.4025):  41%|████      | 6965/16950 [1:18:25<1:42:31,  1.62it/s]Training 2/3 epoch (loss 0.1030):  41%|████      | 6965/16950 [1:18:26<1:42:31,  1.62it/s]Training 2/3 epoch (loss 0.1030):  41%|████      | 6966/16950 [1:18:26<1:48:55,  1.53it/s]Training 2/3 epoch (loss 0.0437):  41%|████      | 6966/16950 [1:18:26<1:48:55,  1.53it/s]Training 2/3 epoch (loss 0.0437):  41%|████      | 6967/16950 [1:18:26<1:46:13,  1.57it/s]Training 2/3 epoch (loss 0.0009):  41%|████      | 6967/16950 [1:18:27<1:46:13,  1.57it/s]Training 2/3 epoch (loss 0.0009):  41%|████      | 6968/16950 [1:18:27<1:35:08,  1.75it/s]Training 2/3 epoch (loss 0.2610):  41%|████      | 6968/16950 [1:18:27<1:35:08,  1.75it/s]Training 2/3 epoch (loss 0.2610):  41%|████      | 6969/16950 [1:18:27<1:32:03,  1.81it/s]Training 2/3 epoch (loss 0.3806):  41%|████      | 6969/16950 [1:18:28<1:32:03,  1.81it/s]Training 2/3 epoch (loss 0.3806):  41%|████      | 6970/16950 [1:18:28<1:21:15,  2.05it/s]Training 2/3 epoch (loss 0.0306):  41%|████      | 6970/16950 [1:18:28<1:21:15,  2.05it/s]Training 2/3 epoch (loss 0.0306):  41%|████      | 6971/16950 [1:18:28<1:26:32,  1.92it/s]Training 2/3 epoch (loss 0.2746):  41%|████      | 6971/16950 [1:18:29<1:26:32,  1.92it/s]Training 2/3 epoch (loss 0.2746):  41%|████      | 6972/16950 [1:18:29<1:21:04,  2.05it/s]Training 2/3 epoch (loss 0.0026):  41%|████      | 6972/16950 [1:18:29<1:21:04,  2.05it/s]Training 2/3 epoch (loss 0.0026):  41%|████      | 6973/16950 [1:18:29<1:13:44,  2.26it/s]Training 2/3 epoch (loss 0.6307):  41%|████      | 6973/16950 [1:18:29<1:13:44,  2.26it/s]Training 2/3 epoch (loss 0.6307):  41%|████      | 6974/16950 [1:18:29<1:15:00,  2.22it/s]Training 2/3 epoch (loss 0.0644):  41%|████      | 6974/16950 [1:18:30<1:15:00,  2.22it/s]Training 2/3 epoch (loss 0.0644):  41%|████      | 6975/16950 [1:18:30<1:12:20,  2.30it/s]Training 2/3 epoch (loss 0.0078):  41%|████      | 6975/16950 [1:18:30<1:12:20,  2.30it/s]Training 2/3 epoch (loss 0.0078):  41%|████      | 6976/16950 [1:18:30<1:15:53,  2.19it/s]Training 2/3 epoch (loss 0.3853):  41%|████      | 6976/16950 [1:18:31<1:15:53,  2.19it/s]Training 2/3 epoch (loss 0.3853):  41%|████      | 6977/16950 [1:18:31<1:17:35,  2.14it/s]Training 2/3 epoch (loss 0.0128):  41%|████      | 6977/16950 [1:18:31<1:17:35,  2.14it/s]Training 2/3 epoch (loss 0.0128):  41%|████      | 6978/16950 [1:18:31<1:15:55,  2.19it/s]Training 2/3 epoch (loss 0.9443):  41%|████      | 6978/16950 [1:18:32<1:15:55,  2.19it/s]Training 2/3 epoch (loss 0.9443):  41%|████      | 6979/16950 [1:18:32<1:08:08,  2.44it/s]Training 2/3 epoch (loss 0.1235):  41%|████      | 6979/16950 [1:18:32<1:08:08,  2.44it/s]Training 2/3 epoch (loss 0.1235):  41%|████      | 6980/16950 [1:18:32<1:08:12,  2.44it/s]Training 2/3 epoch (loss 0.0284):  41%|████      | 6980/16950 [1:18:33<1:08:12,  2.44it/s]Training 2/3 epoch (loss 0.0284):  41%|████      | 6981/16950 [1:18:33<1:19:52,  2.08it/s]Training 2/3 epoch (loss 0.3215):  41%|████      | 6981/16950 [1:18:33<1:19:52,  2.08it/s]Training 2/3 epoch (loss 0.3215):  41%|████      | 6982/16950 [1:18:33<1:29:47,  1.85it/s]Training 2/3 epoch (loss 0.0113):  41%|████      | 6982/16950 [1:18:34<1:29:47,  1.85it/s]Training 2/3 epoch (loss 0.0113):  41%|████      | 6983/16950 [1:18:34<1:34:10,  1.76it/s]Training 2/3 epoch (loss 0.2093):  41%|████      | 6983/16950 [1:18:34<1:34:10,  1.76it/s]Training 2/3 epoch (loss 0.2093):  41%|████      | 6984/16950 [1:18:34<1:28:08,  1.88it/s]Training 2/3 epoch (loss 0.0055):  41%|████      | 6984/16950 [1:18:35<1:28:08,  1.88it/s]Training 2/3 epoch (loss 0.0055):  41%|████      | 6985/16950 [1:18:35<1:21:23,  2.04it/s]Training 2/3 epoch (loss 0.8127):  41%|████      | 6985/16950 [1:18:36<1:21:23,  2.04it/s]Training 2/3 epoch (loss 0.8127):  41%|████      | 6986/16950 [1:18:36<1:51:14,  1.49it/s]Training 2/3 epoch (loss 0.1626):  41%|████      | 6986/16950 [1:18:37<1:51:14,  1.49it/s]Training 2/3 epoch (loss 0.1626):  41%|████      | 6987/16950 [1:18:37<2:16:28,  1.22it/s]Training 2/3 epoch (loss 0.0216):  41%|████      | 6987/16950 [1:18:38<2:16:28,  1.22it/s]Training 2/3 epoch (loss 0.0216):  41%|████      | 6988/16950 [1:18:38<2:01:16,  1.37it/s]Training 2/3 epoch (loss 0.7746):  41%|████      | 6988/16950 [1:18:39<2:01:16,  1.37it/s]Training 2/3 epoch (loss 0.7746):  41%|████      | 6989/16950 [1:18:39<2:12:40,  1.25it/s]Training 2/3 epoch (loss 0.0366):  41%|████      | 6989/16950 [1:18:39<2:12:40,  1.25it/s]Training 2/3 epoch (loss 0.0366):  41%|████      | 6990/16950 [1:18:39<2:05:35,  1.32it/s]Training 2/3 epoch (loss 0.0002):  41%|████      | 6990/16950 [1:18:40<2:05:35,  1.32it/s]Training 2/3 epoch (loss 0.0002):  41%|████      | 6991/16950 [1:18:40<1:51:36,  1.49it/s]Training 2/3 epoch (loss 0.6353):  41%|████      | 6991/16950 [1:18:40<1:51:36,  1.49it/s]Training 2/3 epoch (loss 0.6353):  41%|████▏     | 6992/16950 [1:18:40<1:55:45,  1.43it/s]Training 2/3 epoch (loss 0.0412):  41%|████▏     | 6992/16950 [1:18:41<1:55:45,  1.43it/s]Training 2/3 epoch (loss 0.0412):  41%|████▏     | 6993/16950 [1:18:41<2:02:20,  1.36it/s]Training 2/3 epoch (loss 0.5105):  41%|████▏     | 6993/16950 [1:18:42<2:02:20,  1.36it/s]Training 2/3 epoch (loss 0.5105):  41%|████▏     | 6994/16950 [1:18:42<1:54:25,  1.45it/s]Training 2/3 epoch (loss 0.0402):  41%|████▏     | 6994/16950 [1:18:42<1:54:25,  1.45it/s]Training 2/3 epoch (loss 0.0402):  41%|████▏     | 6995/16950 [1:18:42<1:41:43,  1.63it/s]Training 2/3 epoch (loss 0.0454):  41%|████▏     | 6995/16950 [1:18:43<1:41:43,  1.63it/s]Training 2/3 epoch (loss 0.0454):  41%|████▏     | 6996/16950 [1:18:43<1:44:17,  1.59it/s]Training 2/3 epoch (loss 0.0003):  41%|████▏     | 6996/16950 [1:18:43<1:44:17,  1.59it/s]Training 2/3 epoch (loss 0.0003):  41%|████▏     | 6997/16950 [1:18:43<1:37:25,  1.70it/s]Training 2/3 epoch (loss 0.1434):  41%|████▏     | 6997/16950 [1:18:44<1:37:25,  1.70it/s]Training 2/3 epoch (loss 0.1434):  41%|████▏     | 6998/16950 [1:18:44<1:39:17,  1.67it/s]Training 2/3 epoch (loss 0.2061):  41%|████▏     | 6998/16950 [1:18:45<1:39:17,  1.67it/s]Training 2/3 epoch (loss 0.2061):  41%|████▏     | 6999/16950 [1:18:45<1:34:15,  1.76it/s]Training 2/3 epoch (loss 0.5577):  41%|████▏     | 6999/16950 [1:18:45<1:34:15,  1.76it/s]Training 2/3 epoch (loss 0.5577):  41%|████▏     | 7000/16950 [1:18:45<1:38:01,  1.69it/s]Training 2/3 epoch (loss 0.0217):  41%|████▏     | 7000/16950 [1:18:46<1:38:01,  1.69it/s]Training 2/3 epoch (loss 0.0217):  41%|████▏     | 7001/16950 [1:18:46<1:32:42,  1.79it/s]Training 2/3 epoch (loss 0.0949):  41%|████▏     | 7001/16950 [1:18:46<1:32:42,  1.79it/s]Training 2/3 epoch (loss 0.0949):  41%|████▏     | 7002/16950 [1:18:46<1:35:33,  1.74it/s]Training 2/3 epoch (loss 0.0004):  41%|████▏     | 7002/16950 [1:18:47<1:35:33,  1.74it/s]Training 2/3 epoch (loss 0.0004):  41%|████▏     | 7003/16950 [1:18:47<1:52:00,  1.48it/s]Training 2/3 epoch (loss 0.0014):  41%|████▏     | 7003/16950 [1:18:48<1:52:00,  1.48it/s]Training 2/3 epoch (loss 0.0014):  41%|████▏     | 7004/16950 [1:18:48<1:58:57,  1.39it/s]Training 2/3 epoch (loss 0.0294):  41%|████▏     | 7004/16950 [1:18:49<1:58:57,  1.39it/s]Training 2/3 epoch (loss 0.0294):  41%|████▏     | 7005/16950 [1:18:49<1:52:12,  1.48it/s]Training 2/3 epoch (loss 0.0186):  41%|████▏     | 7005/16950 [1:18:49<1:52:12,  1.48it/s]Training 2/3 epoch (loss 0.0186):  41%|████▏     | 7006/16950 [1:18:49<2:02:38,  1.35it/s]Training 2/3 epoch (loss 0.7530):  41%|████▏     | 7006/16950 [1:18:50<2:02:38,  1.35it/s]Training 2/3 epoch (loss 0.7530):  41%|████▏     | 7007/16950 [1:18:50<1:41:38,  1.63it/s]Training 2/3 epoch (loss 0.0004):  41%|████▏     | 7007/16950 [1:18:50<1:41:38,  1.63it/s]Training 2/3 epoch (loss 0.0004):  41%|████▏     | 7008/16950 [1:18:50<1:35:31,  1.73it/s]Training 2/3 epoch (loss 0.3278):  41%|████▏     | 7008/16950 [1:18:51<1:35:31,  1.73it/s]Training 2/3 epoch (loss 0.3278):  41%|████▏     | 7009/16950 [1:18:51<1:27:10,  1.90it/s]Training 2/3 epoch (loss 0.0083):  41%|████▏     | 7009/16950 [1:18:51<1:27:10,  1.90it/s]Training 2/3 epoch (loss 0.0083):  41%|████▏     | 7010/16950 [1:18:51<1:27:28,  1.89it/s]Training 2/3 epoch (loss 0.0957):  41%|████▏     | 7010/16950 [1:18:52<1:27:28,  1.89it/s]Training 2/3 epoch (loss 0.0957):  41%|████▏     | 7011/16950 [1:18:52<1:22:32,  2.01it/s]Training 2/3 epoch (loss 0.4962):  41%|████▏     | 7011/16950 [1:18:52<1:22:32,  2.01it/s]Training 2/3 epoch (loss 0.4962):  41%|████▏     | 7012/16950 [1:18:52<1:36:30,  1.72it/s]Training 2/3 epoch (loss 0.3275):  41%|████▏     | 7012/16950 [1:18:53<1:36:30,  1.72it/s]Training 2/3 epoch (loss 0.3275):  41%|████▏     | 7013/16950 [1:18:53<1:25:58,  1.93it/s]Training 2/3 epoch (loss 0.6498):  41%|████▏     | 7013/16950 [1:18:54<1:25:58,  1.93it/s]Training 2/3 epoch (loss 0.6498):  41%|████▏     | 7014/16950 [1:18:54<1:41:29,  1.63it/s]Training 2/3 epoch (loss 0.0603):  41%|████▏     | 7014/16950 [1:18:54<1:41:29,  1.63it/s]Training 2/3 epoch (loss 0.0603):  41%|████▏     | 7015/16950 [1:18:54<1:39:46,  1.66it/s]Training 2/3 epoch (loss 0.4461):  41%|████▏     | 7015/16950 [1:18:55<1:39:46,  1.66it/s]Training 2/3 epoch (loss 0.4461):  41%|████▏     | 7016/16950 [1:18:55<1:34:00,  1.76it/s]Training 2/3 epoch (loss 0.0102):  41%|████▏     | 7016/16950 [1:18:55<1:34:00,  1.76it/s]Training 2/3 epoch (loss 0.0102):  41%|████▏     | 7017/16950 [1:18:55<1:30:14,  1.83it/s]Training 2/3 epoch (loss 0.2655):  41%|████▏     | 7017/16950 [1:18:56<1:30:14,  1.83it/s]Training 2/3 epoch (loss 0.2655):  41%|████▏     | 7018/16950 [1:18:56<1:34:31,  1.75it/s]Training 2/3 epoch (loss 0.0320):  41%|████▏     | 7018/16950 [1:18:57<1:34:31,  1.75it/s]Training 2/3 epoch (loss 0.0320):  41%|████▏     | 7019/16950 [1:18:57<1:51:48,  1.48it/s]Training 2/3 epoch (loss 0.0134):  41%|████▏     | 7019/16950 [1:18:57<1:51:48,  1.48it/s]Training 2/3 epoch (loss 0.0134):  41%|████▏     | 7020/16950 [1:18:57<1:41:50,  1.63it/s]Training 2/3 epoch (loss 0.5502):  41%|████▏     | 7020/16950 [1:18:58<1:41:50,  1.63it/s]Training 2/3 epoch (loss 0.5502):  41%|████▏     | 7021/16950 [1:18:58<1:32:46,  1.78it/s]Training 2/3 epoch (loss 0.5576):  41%|████▏     | 7021/16950 [1:18:58<1:32:46,  1.78it/s]Training 2/3 epoch (loss 0.5576):  41%|████▏     | 7022/16950 [1:18:58<1:28:53,  1.86it/s]Training 2/3 epoch (loss 0.1847):  41%|████▏     | 7022/16950 [1:18:59<1:28:53,  1.86it/s]Training 2/3 epoch (loss 0.1847):  41%|████▏     | 7023/16950 [1:18:59<1:46:03,  1.56it/s]Training 2/3 epoch (loss 0.3262):  41%|████▏     | 7023/16950 [1:19:00<1:46:03,  1.56it/s]Training 2/3 epoch (loss 0.3262):  41%|████▏     | 7024/16950 [1:19:00<1:54:24,  1.45it/s]Training 2/3 epoch (loss 0.0111):  41%|████▏     | 7024/16950 [1:19:00<1:54:24,  1.45it/s]Training 2/3 epoch (loss 0.0111):  41%|████▏     | 7025/16950 [1:19:00<1:45:30,  1.57it/s]Training 2/3 epoch (loss 0.0021):  41%|████▏     | 7025/16950 [1:19:01<1:45:30,  1.57it/s]Training 2/3 epoch (loss 0.0021):  41%|████▏     | 7026/16950 [1:19:01<1:39:25,  1.66it/s]Training 2/3 epoch (loss 0.0301):  41%|████▏     | 7026/16950 [1:19:01<1:39:25,  1.66it/s]Training 2/3 epoch (loss 0.0301):  41%|████▏     | 7027/16950 [1:19:01<1:40:31,  1.65it/s]Training 2/3 epoch (loss 0.0330):  41%|████▏     | 7027/16950 [1:19:02<1:40:31,  1.65it/s]Training 2/3 epoch (loss 0.0330):  41%|████▏     | 7028/16950 [1:19:02<1:34:10,  1.76it/s]Training 2/3 epoch (loss 0.0023):  41%|████▏     | 7028/16950 [1:19:02<1:34:10,  1.76it/s]Training 2/3 epoch (loss 0.0023):  41%|████▏     | 7029/16950 [1:19:02<1:31:20,  1.81it/s]Training 2/3 epoch (loss 0.2046):  41%|████▏     | 7029/16950 [1:19:03<1:31:20,  1.81it/s]Training 2/3 epoch (loss 0.2046):  41%|████▏     | 7030/16950 [1:19:03<1:34:21,  1.75it/s]Training 2/3 epoch (loss 0.3813):  41%|████▏     | 7030/16950 [1:19:04<1:34:21,  1.75it/s]Training 2/3 epoch (loss 0.3813):  41%|████▏     | 7031/16950 [1:19:04<1:53:25,  1.46it/s]Training 2/3 epoch (loss 0.0024):  41%|████▏     | 7031/16950 [1:19:05<1:53:25,  1.46it/s]Training 2/3 epoch (loss 0.0024):  41%|████▏     | 7032/16950 [1:19:05<1:59:26,  1.38it/s]Training 2/3 epoch (loss 0.0226):  41%|████▏     | 7032/16950 [1:19:06<1:59:26,  1.38it/s]Training 2/3 epoch (loss 0.0226):  41%|████▏     | 7033/16950 [1:19:06<2:08:26,  1.29it/s]Training 2/3 epoch (loss 0.0216):  41%|████▏     | 7033/16950 [1:19:06<2:08:26,  1.29it/s]Training 2/3 epoch (loss 0.0216):  41%|████▏     | 7034/16950 [1:19:06<2:00:43,  1.37it/s]Training 2/3 epoch (loss 0.0020):  41%|████▏     | 7034/16950 [1:19:07<2:00:43,  1.37it/s]Training 2/3 epoch (loss 0.0020):  42%|████▏     | 7035/16950 [1:19:07<1:45:56,  1.56it/s]Training 2/3 epoch (loss 0.3388):  42%|████▏     | 7035/16950 [1:19:08<1:45:56,  1.56it/s]Training 2/3 epoch (loss 0.3388):  42%|████▏     | 7036/16950 [1:19:08<1:56:26,  1.42it/s]Training 2/3 epoch (loss 0.0104):  42%|████▏     | 7036/16950 [1:19:08<1:56:26,  1.42it/s]Training 2/3 epoch (loss 0.0104):  42%|████▏     | 7037/16950 [1:19:08<1:48:10,  1.53it/s]Training 2/3 epoch (loss 0.0080):  42%|████▏     | 7037/16950 [1:19:09<1:48:10,  1.53it/s]Training 2/3 epoch (loss 0.0080):  42%|████▏     | 7038/16950 [1:19:09<1:42:01,  1.62it/s]Training 2/3 epoch (loss 0.0654):  42%|████▏     | 7038/16950 [1:19:09<1:42:01,  1.62it/s]Training 2/3 epoch (loss 0.0654):  42%|████▏     | 7039/16950 [1:19:09<1:34:17,  1.75it/s]Training 2/3 epoch (loss 0.0632):  42%|████▏     | 7039/16950 [1:19:10<1:34:17,  1.75it/s]Training 2/3 epoch (loss 0.0632):  42%|████▏     | 7040/16950 [1:19:10<1:30:57,  1.82it/s]Training 2/3 epoch (loss 0.0744):  42%|████▏     | 7040/16950 [1:19:10<1:30:57,  1.82it/s]Training 2/3 epoch (loss 0.0744):  42%|████▏     | 7041/16950 [1:19:10<1:39:38,  1.66it/s]Training 2/3 epoch (loss 0.0024):  42%|████▏     | 7041/16950 [1:19:11<1:39:38,  1.66it/s]Training 2/3 epoch (loss 0.0024):  42%|████▏     | 7042/16950 [1:19:11<1:32:11,  1.79it/s]Training 2/3 epoch (loss 0.0487):  42%|████▏     | 7042/16950 [1:19:12<1:32:11,  1.79it/s]Training 2/3 epoch (loss 0.0487):  42%|████▏     | 7043/16950 [1:19:12<1:37:14,  1.70it/s]Training 2/3 epoch (loss 0.0378):  42%|████▏     | 7043/16950 [1:19:12<1:37:14,  1.70it/s]Training 2/3 epoch (loss 0.0378):  42%|████▏     | 7044/16950 [1:19:12<1:34:00,  1.76it/s]Training 2/3 epoch (loss 0.0627):  42%|████▏     | 7044/16950 [1:19:13<1:34:00,  1.76it/s]Training 2/3 epoch (loss 0.0627):  42%|████▏     | 7045/16950 [1:19:13<1:37:06,  1.70it/s]Training 2/3 epoch (loss 0.0556):  42%|████▏     | 7045/16950 [1:19:13<1:37:06,  1.70it/s]Training 2/3 epoch (loss 0.0556):  42%|████▏     | 7046/16950 [1:19:13<1:39:11,  1.66it/s]Training 2/3 epoch (loss 0.1486):  42%|████▏     | 7046/16950 [1:19:14<1:39:11,  1.66it/s]Training 2/3 epoch (loss 0.1486):  42%|████▏     | 7047/16950 [1:19:14<1:45:15,  1.57it/s]Training 2/3 epoch (loss 0.1975):  42%|████▏     | 7047/16950 [1:19:15<1:45:15,  1.57it/s]Training 2/3 epoch (loss 0.1975):  42%|████▏     | 7048/16950 [1:19:15<2:12:13,  1.25it/s]Training 2/3 epoch (loss 0.0020):  42%|████▏     | 7048/16950 [1:19:16<2:12:13,  1.25it/s]Training 2/3 epoch (loss 0.0020):  42%|████▏     | 7049/16950 [1:19:16<1:55:30,  1.43it/s]Training 2/3 epoch (loss 0.0761):  42%|████▏     | 7049/16950 [1:19:16<1:55:30,  1.43it/s]Training 2/3 epoch (loss 0.0761):  42%|████▏     | 7050/16950 [1:19:16<2:00:00,  1.37it/s]Training 2/3 epoch (loss 0.3032):  42%|████▏     | 7050/16950 [1:19:17<2:00:00,  1.37it/s]Training 2/3 epoch (loss 0.3032):  42%|████▏     | 7051/16950 [1:19:17<1:41:02,  1.63it/s]Training 2/3 epoch (loss 0.2315):  42%|████▏     | 7051/16950 [1:19:17<1:41:02,  1.63it/s]Training 2/3 epoch (loss 0.2315):  42%|████▏     | 7052/16950 [1:19:17<1:29:20,  1.85it/s]Training 2/3 epoch (loss 0.3087):  42%|████▏     | 7052/16950 [1:19:18<1:29:20,  1.85it/s]Training 2/3 epoch (loss 0.3087):  42%|████▏     | 7053/16950 [1:19:18<1:21:48,  2.02it/s]Training 2/3 epoch (loss 0.6199):  42%|████▏     | 7053/16950 [1:19:18<1:21:48,  2.02it/s]Training 2/3 epoch (loss 0.6199):  42%|████▏     | 7054/16950 [1:19:18<1:24:51,  1.94it/s]Training 2/3 epoch (loss 0.5484):  42%|████▏     | 7054/16950 [1:19:19<1:24:51,  1.94it/s]Training 2/3 epoch (loss 0.5484):  42%|████▏     | 7055/16950 [1:19:19<1:19:38,  2.07it/s]Training 2/3 epoch (loss 0.3639):  42%|████▏     | 7055/16950 [1:19:19<1:19:38,  2.07it/s]Training 2/3 epoch (loss 0.3639):  42%|████▏     | 7056/16950 [1:19:19<1:25:19,  1.93it/s]Training 2/3 epoch (loss 0.0004):  42%|████▏     | 7056/16950 [1:19:20<1:25:19,  1.93it/s]Training 2/3 epoch (loss 0.0004):  42%|████▏     | 7057/16950 [1:19:20<1:23:04,  1.98it/s]Training 2/3 epoch (loss 0.2127):  42%|████▏     | 7057/16950 [1:19:20<1:23:04,  1.98it/s]Training 2/3 epoch (loss 0.2127):  42%|████▏     | 7058/16950 [1:19:20<1:19:43,  2.07it/s]Training 2/3 epoch (loss 0.0152):  42%|████▏     | 7058/16950 [1:19:21<1:19:43,  2.07it/s]Training 2/3 epoch (loss 0.0152):  42%|████▏     | 7059/16950 [1:19:21<1:46:42,  1.54it/s]Training 2/3 epoch (loss 0.2116):  42%|████▏     | 7059/16950 [1:19:22<1:46:42,  1.54it/s]Training 2/3 epoch (loss 0.2116):  42%|████▏     | 7060/16950 [1:19:22<1:44:27,  1.58it/s]Training 2/3 epoch (loss 0.0012):  42%|████▏     | 7060/16950 [1:19:22<1:44:27,  1.58it/s]Training 2/3 epoch (loss 0.0012):  42%|████▏     | 7061/16950 [1:19:22<1:38:07,  1.68it/s]Training 2/3 epoch (loss 0.0015):  42%|████▏     | 7061/16950 [1:19:23<1:38:07,  1.68it/s]Training 2/3 epoch (loss 0.0015):  42%|████▏     | 7062/16950 [1:19:23<1:34:30,  1.74it/s]Training 2/3 epoch (loss 0.4904):  42%|████▏     | 7062/16950 [1:19:24<1:34:30,  1.74it/s]Training 2/3 epoch (loss 0.4904):  42%|████▏     | 7063/16950 [1:19:24<1:58:17,  1.39it/s]Training 2/3 epoch (loss 0.0165):  42%|████▏     | 7063/16950 [1:19:24<1:58:17,  1.39it/s]Training 2/3 epoch (loss 0.0165):  42%|████▏     | 7064/16950 [1:19:24<1:52:29,  1.46it/s]Training 2/3 epoch (loss 0.0036):  42%|████▏     | 7064/16950 [1:19:25<1:52:29,  1.46it/s]Training 2/3 epoch (loss 0.0036):  42%|████▏     | 7065/16950 [1:19:25<1:49:38,  1.50it/s]Training 2/3 epoch (loss 0.3911):  42%|████▏     | 7065/16950 [1:19:26<1:49:38,  1.50it/s]Training 2/3 epoch (loss 0.3911):  42%|████▏     | 7066/16950 [1:19:26<1:48:53,  1.51it/s]Training 2/3 epoch (loss 0.2435):  42%|████▏     | 7066/16950 [1:19:26<1:48:53,  1.51it/s]Training 2/3 epoch (loss 0.2435):  42%|████▏     | 7067/16950 [1:19:26<1:37:26,  1.69it/s]Training 2/3 epoch (loss 0.0025):  42%|████▏     | 7067/16950 [1:19:27<1:37:26,  1.69it/s]Training 2/3 epoch (loss 0.0025):  42%|████▏     | 7068/16950 [1:19:27<1:33:38,  1.76it/s]Training 2/3 epoch (loss 0.0095):  42%|████▏     | 7068/16950 [1:19:27<1:33:38,  1.76it/s]Training 2/3 epoch (loss 0.0095):  42%|████▏     | 7069/16950 [1:19:27<1:26:02,  1.91it/s]Training 2/3 epoch (loss 0.0370):  42%|████▏     | 7069/16950 [1:19:27<1:26:02,  1.91it/s]Training 2/3 epoch (loss 0.0370):  42%|████▏     | 7070/16950 [1:19:27<1:22:43,  1.99it/s]Training 2/3 epoch (loss 0.0823):  42%|████▏     | 7070/16950 [1:19:28<1:22:43,  1.99it/s]Training 2/3 epoch (loss 0.0823):  42%|████▏     | 7071/16950 [1:19:28<1:22:22,  2.00it/s]Training 2/3 epoch (loss 0.1434):  42%|████▏     | 7071/16950 [1:19:28<1:22:22,  2.00it/s]Training 2/3 epoch (loss 0.1434):  42%|████▏     | 7072/16950 [1:19:28<1:17:52,  2.11it/s]Training 2/3 epoch (loss 0.0755):  42%|████▏     | 7072/16950 [1:19:29<1:17:52,  2.11it/s]Training 2/3 epoch (loss 0.0755):  42%|████▏     | 7073/16950 [1:19:29<1:20:00,  2.06it/s]Training 2/3 epoch (loss 0.0266):  42%|████▏     | 7073/16950 [1:19:30<1:20:00,  2.06it/s]Training 2/3 epoch (loss 0.0266):  42%|████▏     | 7074/16950 [1:19:30<1:37:57,  1.68it/s]Training 2/3 epoch (loss 0.0294):  42%|████▏     | 7074/16950 [1:19:30<1:37:57,  1.68it/s]Training 2/3 epoch (loss 0.0294):  42%|████▏     | 7075/16950 [1:19:30<1:32:32,  1.78it/s]Training 2/3 epoch (loss 0.0193):  42%|████▏     | 7075/16950 [1:19:31<1:32:32,  1.78it/s]Training 2/3 epoch (loss 0.0193):  42%|████▏     | 7076/16950 [1:19:31<1:24:46,  1.94it/s]Training 2/3 epoch (loss nan):  42%|████▏     | 7076/16950 [1:19:32<1:24:46,  1.94it/s]   Training 2/3 epoch (loss nan):  42%|████▏     | 7077/16950 [1:19:32<1:51:19,  1.48it/s]Training 2/3 epoch (loss 0.7272):  42%|████▏     | 7077/16950 [1:19:32<1:51:19,  1.48it/s]Training 2/3 epoch (loss 0.7272):  42%|████▏     | 7078/16950 [1:19:32<1:44:42,  1.57it/s]Training 2/3 epoch (loss 0.0156):  42%|████▏     | 7078/16950 [1:19:33<1:44:42,  1.57it/s]Training 2/3 epoch (loss 0.0156):  42%|████▏     | 7079/16950 [1:19:33<1:43:07,  1.60it/s]Training 2/3 epoch (loss 0.0044):  42%|████▏     | 7079/16950 [1:19:33<1:43:07,  1.60it/s]Training 2/3 epoch (loss 0.0044):  42%|████▏     | 7080/16950 [1:19:33<1:28:11,  1.87it/s]Training 2/3 epoch (loss 0.0066):  42%|████▏     | 7080/16950 [1:19:33<1:28:11,  1.87it/s]Training 2/3 epoch (loss 0.0066):  42%|████▏     | 7081/16950 [1:19:33<1:18:06,  2.11it/s]Training 2/3 epoch (loss 0.3718):  42%|████▏     | 7081/16950 [1:19:34<1:18:06,  2.11it/s]Training 2/3 epoch (loss 0.3718):  42%|████▏     | 7082/16950 [1:19:34<1:17:26,  2.12it/s]Training 2/3 epoch (loss 0.0022):  42%|████▏     | 7082/16950 [1:19:34<1:17:26,  2.12it/s]Training 2/3 epoch (loss 0.0022):  42%|████▏     | 7083/16950 [1:19:34<1:17:10,  2.13it/s]Training 2/3 epoch (loss 0.0059):  42%|████▏     | 7083/16950 [1:19:35<1:17:10,  2.13it/s]Training 2/3 epoch (loss 0.0059):  42%|████▏     | 7084/16950 [1:19:35<1:18:38,  2.09it/s]Training 2/3 epoch (loss 0.5051):  42%|████▏     | 7084/16950 [1:19:35<1:18:38,  2.09it/s]Training 2/3 epoch (loss 0.5051):  42%|████▏     | 7085/16950 [1:19:35<1:18:31,  2.09it/s]Training 2/3 epoch (loss 0.0620):  42%|████▏     | 7085/16950 [1:19:36<1:18:31,  2.09it/s]Training 2/3 epoch (loss 0.0620):  42%|████▏     | 7086/16950 [1:19:36<1:25:45,  1.92it/s]Training 2/3 epoch (loss 0.1334):  42%|████▏     | 7086/16950 [1:19:37<1:25:45,  1.92it/s]Training 2/3 epoch (loss 0.1334):  42%|████▏     | 7087/16950 [1:19:37<1:32:07,  1.78it/s]Training 2/3 epoch (loss 0.0110):  42%|████▏     | 7087/16950 [1:19:37<1:32:07,  1.78it/s]Training 2/3 epoch (loss 0.0110):  42%|████▏     | 7088/16950 [1:19:37<1:34:21,  1.74it/s]Training 2/3 epoch (loss 0.0509):  42%|████▏     | 7088/16950 [1:19:38<1:34:21,  1.74it/s]Training 2/3 epoch (loss 0.0509):  42%|████▏     | 7089/16950 [1:19:38<1:39:00,  1.66it/s]Training 2/3 epoch (loss 0.0025):  42%|████▏     | 7089/16950 [1:19:38<1:39:00,  1.66it/s]Training 2/3 epoch (loss 0.0025):  42%|████▏     | 7090/16950 [1:19:38<1:35:44,  1.72it/s]Training 2/3 epoch (loss 0.0016):  42%|████▏     | 7090/16950 [1:19:39<1:35:44,  1.72it/s]Training 2/3 epoch (loss 0.0016):  42%|████▏     | 7091/16950 [1:19:39<1:27:16,  1.88it/s]Training 2/3 epoch (loss 0.3359):  42%|████▏     | 7091/16950 [1:19:39<1:27:16,  1.88it/s]Training 2/3 epoch (loss 0.3359):  42%|████▏     | 7092/16950 [1:19:39<1:27:17,  1.88it/s]Training 2/3 epoch (loss 0.0088):  42%|████▏     | 7092/16950 [1:19:40<1:27:17,  1.88it/s]Training 2/3 epoch (loss 0.0088):  42%|████▏     | 7093/16950 [1:19:40<1:30:02,  1.82it/s]Training 2/3 epoch (loss 0.0020):  42%|████▏     | 7093/16950 [1:19:41<1:30:02,  1.82it/s]Training 2/3 epoch (loss 0.0020):  42%|████▏     | 7094/16950 [1:19:41<1:59:54,  1.37it/s]Training 2/3 epoch (loss 0.3147):  42%|████▏     | 7094/16950 [1:19:42<1:59:54,  1.37it/s]Training 2/3 epoch (loss 0.3147):  42%|████▏     | 7095/16950 [1:19:42<2:14:23,  1.22it/s]Training 2/3 epoch (loss 0.0109):  42%|████▏     | 7095/16950 [1:19:43<2:14:23,  1.22it/s]Training 2/3 epoch (loss 0.0109):  42%|████▏     | 7096/16950 [1:19:43<2:00:12,  1.37it/s]Training 2/3 epoch (loss 0.1007):  42%|████▏     | 7096/16950 [1:19:43<2:00:12,  1.37it/s]Training 2/3 epoch (loss 0.1007):  42%|████▏     | 7097/16950 [1:19:43<1:54:53,  1.43it/s]Training 2/3 epoch (loss 0.0056):  42%|████▏     | 7097/16950 [1:19:44<1:54:53,  1.43it/s]Training 2/3 epoch (loss 0.0056):  42%|████▏     | 7098/16950 [1:19:44<1:43:56,  1.58it/s]Training 2/3 epoch (loss 0.1676):  42%|████▏     | 7098/16950 [1:19:45<1:43:56,  1.58it/s]Training 2/3 epoch (loss 0.1676):  42%|████▏     | 7099/16950 [1:19:45<1:52:14,  1.46it/s]Training 2/3 epoch (loss 0.0722):  42%|████▏     | 7099/16950 [1:19:45<1:52:14,  1.46it/s]Training 2/3 epoch (loss 0.0722):  42%|████▏     | 7100/16950 [1:19:45<1:47:11,  1.53it/s]Training 2/3 epoch (loss 0.0037):  42%|████▏     | 7100/16950 [1:19:46<1:47:11,  1.53it/s]Training 2/3 epoch (loss 0.0037):  42%|████▏     | 7101/16950 [1:19:46<1:37:08,  1.69it/s]Training 2/3 epoch (loss 0.0116):  42%|████▏     | 7101/16950 [1:19:46<1:37:08,  1.69it/s]Training 2/3 epoch (loss 0.0116):  42%|████▏     | 7102/16950 [1:19:46<1:42:36,  1.60it/s]Training 2/3 epoch (loss 0.2436):  42%|████▏     | 7102/16950 [1:19:47<1:42:36,  1.60it/s]Training 2/3 epoch (loss 0.2436):  42%|████▏     | 7103/16950 [1:19:47<1:31:51,  1.79it/s]Training 2/3 epoch (loss 0.0210):  42%|████▏     | 7103/16950 [1:19:47<1:31:51,  1.79it/s]Training 2/3 epoch (loss 0.0210):  42%|████▏     | 7104/16950 [1:19:47<1:27:54,  1.87it/s]Training 2/3 epoch (loss 0.0009):  42%|████▏     | 7104/16950 [1:19:48<1:27:54,  1.87it/s]Training 2/3 epoch (loss 0.0009):  42%|████▏     | 7105/16950 [1:19:48<1:32:50,  1.77it/s]Training 2/3 epoch (loss 0.2487):  42%|████▏     | 7105/16950 [1:19:48<1:32:50,  1.77it/s]Training 2/3 epoch (loss 0.2487):  42%|████▏     | 7106/16950 [1:19:48<1:29:50,  1.83it/s]Training 2/3 epoch (loss 0.0041):  42%|████▏     | 7106/16950 [1:19:49<1:29:50,  1.83it/s]Training 2/3 epoch (loss 0.0041):  42%|████▏     | 7107/16950 [1:19:49<1:23:19,  1.97it/s]Training 2/3 epoch (loss 0.0122):  42%|████▏     | 7107/16950 [1:19:49<1:23:19,  1.97it/s]Training 2/3 epoch (loss 0.0122):  42%|████▏     | 7108/16950 [1:19:49<1:23:08,  1.97it/s]Training 2/3 epoch (loss 0.5942):  42%|████▏     | 7108/16950 [1:19:50<1:23:08,  1.97it/s]Training 2/3 epoch (loss 0.5942):  42%|████▏     | 7109/16950 [1:19:50<1:17:58,  2.10it/s]Training 2/3 epoch (loss 0.0024):  42%|████▏     | 7109/16950 [1:19:50<1:17:58,  2.10it/s]Training 2/3 epoch (loss 0.0024):  42%|████▏     | 7110/16950 [1:19:50<1:14:55,  2.19it/s]Training 2/3 epoch (loss 0.0150):  42%|████▏     | 7110/16950 [1:19:51<1:14:55,  2.19it/s]Training 2/3 epoch (loss 0.0150):  42%|████▏     | 7111/16950 [1:19:51<1:21:24,  2.01it/s]Training 2/3 epoch (loss 0.1651):  42%|████▏     | 7111/16950 [1:19:51<1:21:24,  2.01it/s]Training 2/3 epoch (loss 0.1651):  42%|████▏     | 7112/16950 [1:19:51<1:15:03,  2.18it/s]Training 2/3 epoch (loss 0.0907):  42%|████▏     | 7112/16950 [1:19:52<1:15:03,  2.18it/s]Training 2/3 epoch (loss 0.0907):  42%|████▏     | 7113/16950 [1:19:52<1:22:36,  1.98it/s]Training 2/3 epoch (loss 0.4705):  42%|████▏     | 7113/16950 [1:19:52<1:22:36,  1.98it/s]Training 2/3 epoch (loss 0.4705):  42%|████▏     | 7114/16950 [1:19:52<1:20:15,  2.04it/s]Training 2/3 epoch (loss 0.0217):  42%|████▏     | 7114/16950 [1:19:53<1:20:15,  2.04it/s]Training 2/3 epoch (loss 0.0217):  42%|████▏     | 7115/16950 [1:19:53<1:24:19,  1.94it/s]Training 2/3 epoch (loss 0.4389):  42%|████▏     | 7115/16950 [1:19:53<1:24:19,  1.94it/s]Training 2/3 epoch (loss 0.4389):  42%|████▏     | 7116/16950 [1:19:53<1:28:30,  1.85it/s]Training 2/3 epoch (loss 0.2547):  42%|████▏     | 7116/16950 [1:19:54<1:28:30,  1.85it/s]Training 2/3 epoch (loss 0.2547):  42%|████▏     | 7117/16950 [1:19:54<1:33:24,  1.75it/s]Training 2/3 epoch (loss 0.0693):  42%|████▏     | 7117/16950 [1:19:55<1:33:24,  1.75it/s]Training 2/3 epoch (loss 0.0693):  42%|████▏     | 7118/16950 [1:19:55<1:40:51,  1.62it/s]Training 2/3 epoch (loss 0.6087):  42%|████▏     | 7118/16950 [1:19:56<1:40:51,  1.62it/s]Training 2/3 epoch (loss 0.6087):  42%|████▏     | 7119/16950 [1:19:56<2:01:34,  1.35it/s]Training 2/3 epoch (loss 0.0167):  42%|████▏     | 7119/16950 [1:19:56<2:01:34,  1.35it/s]Training 2/3 epoch (loss 0.0167):  42%|████▏     | 7120/16950 [1:19:56<1:56:12,  1.41it/s]Training 2/3 epoch (loss 0.3880):  42%|████▏     | 7120/16950 [1:19:57<1:56:12,  1.41it/s]Training 2/3 epoch (loss 0.3880):  42%|████▏     | 7121/16950 [1:19:57<1:49:54,  1.49it/s]Training 2/3 epoch (loss 0.4058):  42%|████▏     | 7121/16950 [1:19:58<1:49:54,  1.49it/s]Training 2/3 epoch (loss 0.4058):  42%|████▏     | 7122/16950 [1:19:58<1:50:53,  1.48it/s]Training 2/3 epoch (loss 0.3138):  42%|████▏     | 7122/16950 [1:19:58<1:50:53,  1.48it/s]Training 2/3 epoch (loss 0.3138):  42%|████▏     | 7123/16950 [1:19:58<1:40:46,  1.63it/s]Training 2/3 epoch (loss 0.0898):  42%|████▏     | 7123/16950 [1:19:59<1:40:46,  1.63it/s]Training 2/3 epoch (loss 0.0898):  42%|████▏     | 7124/16950 [1:19:59<1:41:27,  1.61it/s]Training 2/3 epoch (loss 0.9353):  42%|████▏     | 7124/16950 [1:20:00<1:41:27,  1.61it/s]Training 2/3 epoch (loss 0.9353):  42%|████▏     | 7125/16950 [1:20:00<2:05:34,  1.30it/s]Training 2/3 epoch (loss 0.0003):  42%|████▏     | 7125/16950 [1:20:00<2:05:34,  1.30it/s]Training 2/3 epoch (loss 0.0003):  42%|████▏     | 7126/16950 [1:20:00<2:00:35,  1.36it/s]Training 2/3 epoch (loss 0.2906):  42%|████▏     | 7126/16950 [1:20:01<2:00:35,  1.36it/s]Training 2/3 epoch (loss 0.2906):  42%|████▏     | 7127/16950 [1:20:01<2:05:36,  1.30it/s]Training 2/3 epoch (loss 0.0120):  42%|████▏     | 7127/16950 [1:20:02<2:05:36,  1.30it/s]Training 2/3 epoch (loss 0.0120):  42%|████▏     | 7128/16950 [1:20:02<2:16:54,  1.20it/s]Training 2/3 epoch (loss 0.4370):  42%|████▏     | 7128/16950 [1:20:03<2:16:54,  1.20it/s]Training 2/3 epoch (loss 0.4370):  42%|████▏     | 7129/16950 [1:20:03<2:30:11,  1.09it/s]Training 2/3 epoch (loss 0.0930):  42%|████▏     | 7129/16950 [1:20:04<2:30:11,  1.09it/s]Training 2/3 epoch (loss 0.0930):  42%|████▏     | 7130/16950 [1:20:04<2:20:44,  1.16it/s]Training 2/3 epoch (loss 0.0021):  42%|████▏     | 7130/16950 [1:20:05<2:20:44,  1.16it/s]Training 2/3 epoch (loss 0.0021):  42%|████▏     | 7131/16950 [1:20:05<2:08:25,  1.27it/s]Training 2/3 epoch (loss 0.1735):  42%|████▏     | 7131/16950 [1:20:05<2:08:25,  1.27it/s]Training 2/3 epoch (loss 0.1735):  42%|████▏     | 7132/16950 [1:20:05<1:57:12,  1.40it/s]Training 2/3 epoch (loss 0.0372):  42%|████▏     | 7132/16950 [1:20:06<1:57:12,  1.40it/s]Training 2/3 epoch (loss 0.0372):  42%|████▏     | 7133/16950 [1:20:06<1:39:35,  1.64it/s]Training 2/3 epoch (loss 0.0848):  42%|████▏     | 7133/16950 [1:20:06<1:39:35,  1.64it/s]Training 2/3 epoch (loss 0.0848):  42%|████▏     | 7134/16950 [1:20:06<1:35:23,  1.71it/s]Training 2/3 epoch (loss 0.3024):  42%|████▏     | 7134/16950 [1:20:07<1:35:23,  1.71it/s]Training 2/3 epoch (loss 0.3024):  42%|████▏     | 7135/16950 [1:20:07<1:30:16,  1.81it/s]Training 2/3 epoch (loss 0.5190):  42%|████▏     | 7135/16950 [1:20:07<1:30:16,  1.81it/s]Training 2/3 epoch (loss 0.5190):  42%|████▏     | 7136/16950 [1:20:07<1:22:16,  1.99it/s]Training 2/3 epoch (loss 0.1668):  42%|████▏     | 7136/16950 [1:20:08<1:22:16,  1.99it/s]Training 2/3 epoch (loss 0.1668):  42%|████▏     | 7137/16950 [1:20:08<1:37:02,  1.69it/s]Training 2/3 epoch (loss 0.0003):  42%|████▏     | 7137/16950 [1:20:08<1:37:02,  1.69it/s]Training 2/3 epoch (loss 0.0003):  42%|████▏     | 7138/16950 [1:20:08<1:24:01,  1.95it/s]Training 2/3 epoch (loss 0.0015):  42%|████▏     | 7138/16950 [1:20:09<1:24:01,  1.95it/s]Training 2/3 epoch (loss 0.0015):  42%|████▏     | 7139/16950 [1:20:09<1:28:05,  1.86it/s]Training 2/3 epoch (loss 0.1093):  42%|████▏     | 7139/16950 [1:20:09<1:28:05,  1.86it/s]Training 2/3 epoch (loss 0.1093):  42%|████▏     | 7140/16950 [1:20:09<1:34:28,  1.73it/s]Training 2/3 epoch (loss 0.3004):  42%|████▏     | 7140/16950 [1:20:10<1:34:28,  1.73it/s]Training 2/3 epoch (loss 0.3004):  42%|████▏     | 7141/16950 [1:20:10<1:36:42,  1.69it/s]Training 2/3 epoch (loss 0.0004):  42%|████▏     | 7141/16950 [1:20:11<1:36:42,  1.69it/s]Training 2/3 epoch (loss 0.0004):  42%|████▏     | 7142/16950 [1:20:11<1:28:53,  1.84it/s]Training 2/3 epoch (loss 0.0107):  42%|████▏     | 7142/16950 [1:20:11<1:28:53,  1.84it/s]Training 2/3 epoch (loss 0.0107):  42%|████▏     | 7143/16950 [1:20:11<1:27:38,  1.86it/s]Training 2/3 epoch (loss 0.0511):  42%|████▏     | 7143/16950 [1:20:12<1:27:38,  1.86it/s]Training 2/3 epoch (loss 0.0511):  42%|████▏     | 7144/16950 [1:20:12<1:45:11,  1.55it/s]Training 2/3 epoch (loss 0.2648):  42%|████▏     | 7144/16950 [1:20:13<1:45:11,  1.55it/s]Training 2/3 epoch (loss 0.2648):  42%|████▏     | 7145/16950 [1:20:13<1:48:36,  1.50it/s]Training 2/3 epoch (loss 0.0546):  42%|████▏     | 7145/16950 [1:20:13<1:48:36,  1.50it/s]Training 2/3 epoch (loss 0.0546):  42%|████▏     | 7146/16950 [1:20:13<1:55:29,  1.41it/s]Training 2/3 epoch (loss 0.0005):  42%|████▏     | 7146/16950 [1:20:14<1:55:29,  1.41it/s]Training 2/3 epoch (loss 0.0005):  42%|████▏     | 7147/16950 [1:20:14<1:44:26,  1.56it/s]Training 2/3 epoch (loss 0.2943):  42%|████▏     | 7147/16950 [1:20:15<1:44:26,  1.56it/s]Training 2/3 epoch (loss 0.2943):  42%|████▏     | 7148/16950 [1:20:15<1:42:02,  1.60it/s]Training 2/3 epoch (loss 0.0028):  42%|████▏     | 7148/16950 [1:20:15<1:42:02,  1.60it/s]Training 2/3 epoch (loss 0.0028):  42%|████▏     | 7149/16950 [1:20:15<1:32:47,  1.76it/s]Training 2/3 epoch (loss 0.4154):  42%|████▏     | 7149/16950 [1:20:16<1:32:47,  1.76it/s]Training 2/3 epoch (loss 0.4154):  42%|████▏     | 7150/16950 [1:20:16<1:31:22,  1.79it/s]Training 2/3 epoch (loss 0.0176):  42%|████▏     | 7150/16950 [1:20:16<1:31:22,  1.79it/s]Training 2/3 epoch (loss 0.0176):  42%|████▏     | 7151/16950 [1:20:16<1:36:32,  1.69it/s]Training 2/3 epoch (loss 0.0133):  42%|████▏     | 7151/16950 [1:20:17<1:36:32,  1.69it/s]Training 2/3 epoch (loss 0.0133):  42%|████▏     | 7152/16950 [1:20:17<1:45:05,  1.55it/s]Training 2/3 epoch (loss 0.3955):  42%|████▏     | 7152/16950 [1:20:18<1:45:05,  1.55it/s]Training 2/3 epoch (loss 0.3955):  42%|████▏     | 7153/16950 [1:20:18<1:41:20,  1.61it/s]Training 2/3 epoch (loss 0.0472):  42%|████▏     | 7153/16950 [1:20:18<1:41:20,  1.61it/s]Training 2/3 epoch (loss 0.0472):  42%|████▏     | 7154/16950 [1:20:18<1:36:20,  1.69it/s]Training 2/3 epoch (loss 0.3823):  42%|████▏     | 7154/16950 [1:20:19<1:36:20,  1.69it/s]Training 2/3 epoch (loss 0.3823):  42%|████▏     | 7155/16950 [1:20:19<1:39:16,  1.64it/s]Training 2/3 epoch (loss 0.5088):  42%|████▏     | 7155/16950 [1:20:19<1:39:16,  1.64it/s]Training 2/3 epoch (loss 0.5088):  42%|████▏     | 7156/16950 [1:20:19<1:27:58,  1.86it/s]Training 2/3 epoch (loss 0.2385):  42%|████▏     | 7156/16950 [1:20:20<1:27:58,  1.86it/s]Training 2/3 epoch (loss 0.2385):  42%|████▏     | 7157/16950 [1:20:20<1:31:30,  1.78it/s]Training 2/3 epoch (loss 0.0303):  42%|████▏     | 7157/16950 [1:20:20<1:31:30,  1.78it/s]Training 2/3 epoch (loss 0.0303):  42%|████▏     | 7158/16950 [1:20:20<1:37:24,  1.68it/s]Training 2/3 epoch (loss 0.5706):  42%|████▏     | 7158/16950 [1:20:21<1:37:24,  1.68it/s]Training 2/3 epoch (loss 0.5706):  42%|████▏     | 7159/16950 [1:20:21<1:44:01,  1.57it/s]Training 2/3 epoch (loss 0.1025):  42%|████▏     | 7159/16950 [1:20:22<1:44:01,  1.57it/s]Training 2/3 epoch (loss 0.1025):  42%|████▏     | 7160/16950 [1:20:22<1:46:14,  1.54it/s]Training 2/3 epoch (loss 0.0830):  42%|████▏     | 7160/16950 [1:20:22<1:46:14,  1.54it/s]Training 2/3 epoch (loss 0.0830):  42%|████▏     | 7161/16950 [1:20:22<1:46:13,  1.54it/s]Training 2/3 epoch (loss 0.0298):  42%|████▏     | 7161/16950 [1:20:23<1:46:13,  1.54it/s]Training 2/3 epoch (loss 0.0298):  42%|████▏     | 7162/16950 [1:20:23<1:43:23,  1.58it/s]Training 2/3 epoch (loss 0.0091):  42%|████▏     | 7162/16950 [1:20:23<1:43:23,  1.58it/s]Training 2/3 epoch (loss 0.0091):  42%|████▏     | 7163/16950 [1:20:23<1:35:09,  1.71it/s]Training 2/3 epoch (loss 0.4281):  42%|████▏     | 7163/16950 [1:20:24<1:35:09,  1.71it/s]Training 2/3 epoch (loss 0.4281):  42%|████▏     | 7164/16950 [1:20:24<1:46:06,  1.54it/s]Training 2/3 epoch (loss 0.0183):  42%|████▏     | 7164/16950 [1:20:25<1:46:06,  1.54it/s]Training 2/3 epoch (loss 0.0183):  42%|████▏     | 7165/16950 [1:20:25<1:44:47,  1.56it/s]Training 2/3 epoch (loss 0.0197):  42%|████▏     | 7165/16950 [1:20:25<1:44:47,  1.56it/s]Training 2/3 epoch (loss 0.0197):  42%|████▏     | 7166/16950 [1:20:25<1:38:41,  1.65it/s]Training 2/3 epoch (loss 0.2462):  42%|████▏     | 7166/16950 [1:20:26<1:38:41,  1.65it/s]Training 2/3 epoch (loss 0.2462):  42%|████▏     | 7167/16950 [1:20:26<1:30:35,  1.80it/s]Training 2/3 epoch (loss 0.3250):  42%|████▏     | 7167/16950 [1:20:27<1:30:35,  1.80it/s]Training 2/3 epoch (loss 0.3250):  42%|████▏     | 7168/16950 [1:20:27<1:54:41,  1.42it/s]Training 2/3 epoch (loss 0.4840):  42%|████▏     | 7168/16950 [1:20:27<1:54:41,  1.42it/s]Training 2/3 epoch (loss 0.4840):  42%|████▏     | 7169/16950 [1:20:27<1:45:19,  1.55it/s]Training 2/3 epoch (loss 0.0002):  42%|████▏     | 7169/16950 [1:20:28<1:45:19,  1.55it/s]Training 2/3 epoch (loss 0.0002):  42%|████▏     | 7170/16950 [1:20:28<1:34:03,  1.73it/s]Training 2/3 epoch (loss 0.1101):  42%|████▏     | 7170/16950 [1:20:29<1:34:03,  1.73it/s]Training 2/3 epoch (loss 0.1101):  42%|████▏     | 7171/16950 [1:20:29<1:59:18,  1.37it/s]Training 2/3 epoch (loss 0.0427):  42%|████▏     | 7171/16950 [1:20:30<1:59:18,  1.37it/s]Training 2/3 epoch (loss 0.0427):  42%|████▏     | 7172/16950 [1:20:30<1:59:04,  1.37it/s]Training 2/3 epoch (loss 0.0192):  42%|████▏     | 7172/16950 [1:20:31<1:59:04,  1.37it/s]Training 2/3 epoch (loss 0.0192):  42%|████▏     | 7173/16950 [1:20:31<2:05:14,  1.30it/s]Training 2/3 epoch (loss 0.0325):  42%|████▏     | 7173/16950 [1:20:31<2:05:14,  1.30it/s]Training 2/3 epoch (loss 0.0325):  42%|████▏     | 7174/16950 [1:20:31<2:15:08,  1.21it/s]Training 2/3 epoch (loss 0.0015):  42%|████▏     | 7174/16950 [1:20:32<2:15:08,  1.21it/s]Training 2/3 epoch (loss 0.0015):  42%|████▏     | 7175/16950 [1:20:32<2:06:13,  1.29it/s]Training 2/3 epoch (loss 0.0207):  42%|████▏     | 7175/16950 [1:20:33<2:06:13,  1.29it/s]Training 2/3 epoch (loss 0.0207):  42%|████▏     | 7176/16950 [1:20:33<2:14:51,  1.21it/s]Training 2/3 epoch (loss 0.0501):  42%|████▏     | 7176/16950 [1:20:34<2:14:51,  1.21it/s]Training 2/3 epoch (loss 0.0501):  42%|████▏     | 7177/16950 [1:20:34<2:00:58,  1.35it/s]Training 2/3 epoch (loss 0.5049):  42%|████▏     | 7177/16950 [1:20:34<2:00:58,  1.35it/s]Training 2/3 epoch (loss 0.5049):  42%|████▏     | 7178/16950 [1:20:34<1:48:00,  1.51it/s]Training 2/3 epoch (loss 0.0488):  42%|████▏     | 7178/16950 [1:20:35<1:48:00,  1.51it/s]Training 2/3 epoch (loss 0.0488):  42%|████▏     | 7179/16950 [1:20:35<1:45:41,  1.54it/s]Training 2/3 epoch (loss 0.2526):  42%|████▏     | 7179/16950 [1:20:36<1:45:41,  1.54it/s]Training 2/3 epoch (loss 0.2526):  42%|████▏     | 7180/16950 [1:20:36<2:10:03,  1.25it/s]Training 2/3 epoch (loss 0.0375):  42%|████▏     | 7180/16950 [1:20:37<2:10:03,  1.25it/s]Training 2/3 epoch (loss 0.0375):  42%|████▏     | 7181/16950 [1:20:37<2:05:35,  1.30it/s]Training 2/3 epoch (loss 0.0273):  42%|████▏     | 7181/16950 [1:20:37<2:05:35,  1.30it/s]Training 2/3 epoch (loss 0.0273):  42%|████▏     | 7182/16950 [1:20:37<1:53:51,  1.43it/s]Training 2/3 epoch (loss 0.4808):  42%|████▏     | 7182/16950 [1:20:38<1:53:51,  1.43it/s]Training 2/3 epoch (loss 0.4808):  42%|████▏     | 7183/16950 [1:20:38<1:50:25,  1.47it/s]Training 2/3 epoch (loss 0.0107):  42%|████▏     | 7183/16950 [1:20:38<1:50:25,  1.47it/s]Training 2/3 epoch (loss 0.0107):  42%|████▏     | 7184/16950 [1:20:38<1:43:35,  1.57it/s]Training 2/3 epoch (loss 0.1744):  42%|████▏     | 7184/16950 [1:20:39<1:43:35,  1.57it/s]Training 2/3 epoch (loss 0.1744):  42%|████▏     | 7185/16950 [1:20:39<1:35:02,  1.71it/s]Training 2/3 epoch (loss 0.1205):  42%|████▏     | 7185/16950 [1:20:39<1:35:02,  1.71it/s]Training 2/3 epoch (loss 0.1205):  42%|████▏     | 7186/16950 [1:20:39<1:35:13,  1.71it/s]Training 2/3 epoch (loss 0.0547):  42%|████▏     | 7186/16950 [1:20:40<1:35:13,  1.71it/s]Training 2/3 epoch (loss 0.0547):  42%|████▏     | 7187/16950 [1:20:40<1:32:54,  1.75it/s]Training 2/3 epoch (loss 0.0284):  42%|████▏     | 7187/16950 [1:20:40<1:32:54,  1.75it/s]Training 2/3 epoch (loss 0.0284):  42%|████▏     | 7188/16950 [1:20:40<1:30:38,  1.80it/s]Training 2/3 epoch (loss 0.4067):  42%|████▏     | 7188/16950 [1:20:41<1:30:38,  1.80it/s]Training 2/3 epoch (loss 0.4067):  42%|████▏     | 7189/16950 [1:20:41<1:27:35,  1.86it/s]Training 2/3 epoch (loss 0.1731):  42%|████▏     | 7189/16950 [1:20:41<1:27:35,  1.86it/s]Training 2/3 epoch (loss 0.1731):  42%|████▏     | 7190/16950 [1:20:41<1:28:07,  1.85it/s]Training 2/3 epoch (loss 0.4357):  42%|████▏     | 7190/16950 [1:20:42<1:28:07,  1.85it/s]Training 2/3 epoch (loss 0.4357):  42%|████▏     | 7191/16950 [1:20:42<1:47:54,  1.51it/s]Training 2/3 epoch (loss 0.0013):  42%|████▏     | 7191/16950 [1:20:43<1:47:54,  1.51it/s]Training 2/3 epoch (loss 0.0013):  42%|████▏     | 7192/16950 [1:20:43<1:45:03,  1.55it/s]Training 2/3 epoch (loss 0.5137):  42%|████▏     | 7192/16950 [1:20:44<1:45:03,  1.55it/s]Training 2/3 epoch (loss 0.5137):  42%|████▏     | 7193/16950 [1:20:44<1:40:34,  1.62it/s]Training 2/3 epoch (loss 0.0350):  42%|████▏     | 7193/16950 [1:20:44<1:40:34,  1.62it/s]Training 2/3 epoch (loss 0.0350):  42%|████▏     | 7194/16950 [1:20:44<1:43:52,  1.57it/s]Training 2/3 epoch (loss 0.0997):  42%|████▏     | 7194/16950 [1:20:45<1:43:52,  1.57it/s]Training 2/3 epoch (loss 0.0997):  42%|████▏     | 7195/16950 [1:20:45<1:58:38,  1.37it/s]Training 2/3 epoch (loss 0.4557):  42%|████▏     | 7195/16950 [1:20:46<1:58:38,  1.37it/s]Training 2/3 epoch (loss 0.4557):  42%|████▏     | 7196/16950 [1:20:46<1:57:15,  1.39it/s]Training 2/3 epoch (loss 0.1223):  42%|████▏     | 7196/16950 [1:20:47<1:57:15,  1.39it/s]Training 2/3 epoch (loss 0.1223):  42%|████▏     | 7197/16950 [1:20:47<1:53:35,  1.43it/s]Training 2/3 epoch (loss 0.4630):  42%|████▏     | 7197/16950 [1:20:47<1:53:35,  1.43it/s]Training 2/3 epoch (loss 0.4630):  42%|████▏     | 7198/16950 [1:20:47<1:35:01,  1.71it/s]Training 2/3 epoch (loss 0.0003):  42%|████▏     | 7198/16950 [1:20:47<1:35:01,  1.71it/s]Training 2/3 epoch (loss 0.0003):  42%|████▏     | 7199/16950 [1:20:47<1:25:25,  1.90it/s]Training 2/3 epoch (loss 0.0064):  42%|████▏     | 7199/16950 [1:20:48<1:25:25,  1.90it/s]Training 2/3 epoch (loss 0.0064):  42%|████▏     | 7200/16950 [1:20:48<1:21:50,  1.99it/s]Training 2/3 epoch (loss 0.0019):  42%|████▏     | 7200/16950 [1:20:48<1:21:50,  1.99it/s]Training 2/3 epoch (loss 0.0019):  42%|████▏     | 7201/16950 [1:20:48<1:30:38,  1.79it/s]Training 2/3 epoch (loss 0.1621):  42%|████▏     | 7201/16950 [1:20:49<1:30:38,  1.79it/s]Training 2/3 epoch (loss 0.1621):  42%|████▏     | 7202/16950 [1:20:49<1:36:22,  1.69it/s]Training 2/3 epoch (loss 0.6724):  42%|████▏     | 7202/16950 [1:20:49<1:36:22,  1.69it/s]Training 2/3 epoch (loss 0.6724):  42%|████▏     | 7203/16950 [1:20:49<1:29:03,  1.82it/s]Training 2/3 epoch (loss 0.0222):  42%|████▏     | 7203/16950 [1:20:50<1:29:03,  1.82it/s]Training 2/3 epoch (loss 0.0222):  43%|████▎     | 7204/16950 [1:20:50<1:31:12,  1.78it/s]Training 2/3 epoch (loss 0.7857):  43%|████▎     | 7204/16950 [1:20:51<1:31:12,  1.78it/s]Training 2/3 epoch (loss 0.7857):  43%|████▎     | 7205/16950 [1:20:51<1:42:46,  1.58it/s]Training 2/3 epoch (loss 0.0008):  43%|████▎     | 7205/16950 [1:20:51<1:42:46,  1.58it/s]Training 2/3 epoch (loss 0.0008):  43%|████▎     | 7206/16950 [1:20:51<1:39:23,  1.63it/s]Training 2/3 epoch (loss 0.1176):  43%|████▎     | 7206/16950 [1:20:52<1:39:23,  1.63it/s]Training 2/3 epoch (loss 0.1176):  43%|████▎     | 7207/16950 [1:20:52<1:30:35,  1.79it/s]Training 2/3 epoch (loss 0.0009):  43%|████▎     | 7207/16950 [1:20:52<1:30:35,  1.79it/s]Training 2/3 epoch (loss 0.0009):  43%|████▎     | 7208/16950 [1:20:52<1:23:56,  1.93it/s]Training 2/3 epoch (loss 0.4171):  43%|████▎     | 7208/16950 [1:20:53<1:23:56,  1.93it/s]Training 2/3 epoch (loss 0.4171):  43%|████▎     | 7209/16950 [1:20:53<1:28:40,  1.83it/s]Training 2/3 epoch (loss 0.3488):  43%|████▎     | 7209/16950 [1:20:54<1:28:40,  1.83it/s]Training 2/3 epoch (loss 0.3488):  43%|████▎     | 7210/16950 [1:20:54<1:32:57,  1.75it/s]Training 2/3 epoch (loss 0.0398):  43%|████▎     | 7210/16950 [1:20:55<1:32:57,  1.75it/s]Training 2/3 epoch (loss 0.0398):  43%|████▎     | 7211/16950 [1:20:55<1:55:45,  1.40it/s]Training 2/3 epoch (loss 0.0013):  43%|████▎     | 7211/16950 [1:20:55<1:55:45,  1.40it/s]Training 2/3 epoch (loss 0.0013):  43%|████▎     | 7212/16950 [1:20:55<1:46:26,  1.52it/s]Training 2/3 epoch (loss 0.0041):  43%|████▎     | 7212/16950 [1:20:56<1:46:26,  1.52it/s]Training 2/3 epoch (loss 0.0041):  43%|████▎     | 7213/16950 [1:20:56<1:48:18,  1.50it/s]Training 2/3 epoch (loss 0.0112):  43%|████▎     | 7213/16950 [1:20:56<1:48:18,  1.50it/s]Training 2/3 epoch (loss 0.0112):  43%|████▎     | 7214/16950 [1:20:56<1:45:54,  1.53it/s]Training 2/3 epoch (loss 0.0480):  43%|████▎     | 7214/16950 [1:20:57<1:45:54,  1.53it/s]Training 2/3 epoch (loss 0.0480):  43%|████▎     | 7215/16950 [1:20:57<1:36:41,  1.68it/s]Training 2/3 epoch (loss 0.0239):  43%|████▎     | 7215/16950 [1:20:58<1:36:41,  1.68it/s]Training 2/3 epoch (loss 0.0239):  43%|████▎     | 7216/16950 [1:20:58<1:39:45,  1.63it/s]Training 2/3 epoch (loss 0.2991):  43%|████▎     | 7216/16950 [1:20:58<1:39:45,  1.63it/s]Training 2/3 epoch (loss 0.2991):  43%|████▎     | 7217/16950 [1:20:58<1:27:22,  1.86it/s]Training 2/3 epoch (loss 0.4779):  43%|████▎     | 7217/16950 [1:20:58<1:27:22,  1.86it/s]Training 2/3 epoch (loss 0.4779):  43%|████▎     | 7218/16950 [1:20:58<1:23:49,  1.94it/s]Training 2/3 epoch (loss 0.0304):  43%|████▎     | 7218/16950 [1:20:59<1:23:49,  1.94it/s]Training 2/3 epoch (loss 0.0304):  43%|████▎     | 7219/16950 [1:20:59<1:26:03,  1.88it/s]Training 2/3 epoch (loss 0.3897):  43%|████▎     | 7219/16950 [1:21:00<1:26:03,  1.88it/s]Training 2/3 epoch (loss 0.3897):  43%|████▎     | 7220/16950 [1:21:00<1:31:21,  1.78it/s]Training 2/3 epoch (loss 0.5558):  43%|████▎     | 7220/16950 [1:21:00<1:31:21,  1.78it/s]Training 2/3 epoch (loss 0.5558):  43%|████▎     | 7221/16950 [1:21:00<1:29:35,  1.81it/s]Training 2/3 epoch (loss 0.0108):  43%|████▎     | 7221/16950 [1:21:01<1:29:35,  1.81it/s]Training 2/3 epoch (loss 0.0108):  43%|████▎     | 7222/16950 [1:21:01<1:33:09,  1.74it/s]Training 2/3 epoch (loss 0.0246):  43%|████▎     | 7222/16950 [1:21:01<1:33:09,  1.74it/s]Training 2/3 epoch (loss 0.0246):  43%|████▎     | 7223/16950 [1:21:01<1:32:44,  1.75it/s]Training 2/3 epoch (loss 0.0038):  43%|████▎     | 7223/16950 [1:21:02<1:32:44,  1.75it/s]Training 2/3 epoch (loss 0.0038):  43%|████▎     | 7224/16950 [1:21:02<1:33:11,  1.74it/s]Training 2/3 epoch (loss 0.0277):  43%|████▎     | 7224/16950 [1:21:02<1:33:11,  1.74it/s]Training 2/3 epoch (loss 0.0277):  43%|████▎     | 7225/16950 [1:21:02<1:25:17,  1.90it/s]Training 2/3 epoch (loss 0.6034):  43%|████▎     | 7225/16950 [1:21:03<1:25:17,  1.90it/s]Training 2/3 epoch (loss 0.6034):  43%|████▎     | 7226/16950 [1:21:03<1:49:00,  1.49it/s]Training 2/3 epoch (loss 0.0509):  43%|████▎     | 7226/16950 [1:21:04<1:49:00,  1.49it/s]Training 2/3 epoch (loss 0.0509):  43%|████▎     | 7227/16950 [1:21:04<1:52:21,  1.44it/s]Training 2/3 epoch (loss 0.0258):  43%|████▎     | 7227/16950 [1:21:04<1:52:21,  1.44it/s]Training 2/3 epoch (loss 0.0258):  43%|████▎     | 7228/16950 [1:21:04<1:36:50,  1.67it/s]Training 2/3 epoch (loss 0.0414):  43%|████▎     | 7228/16950 [1:21:05<1:36:50,  1.67it/s]Training 2/3 epoch (loss 0.0414):  43%|████▎     | 7229/16950 [1:21:05<1:30:32,  1.79it/s]Training 2/3 epoch (loss 0.0109):  43%|████▎     | 7229/16950 [1:21:06<1:30:32,  1.79it/s]Training 2/3 epoch (loss 0.0109):  43%|████▎     | 7230/16950 [1:21:06<1:41:10,  1.60it/s]Training 2/3 epoch (loss 0.0032):  43%|████▎     | 7230/16950 [1:21:06<1:41:10,  1.60it/s]Training 2/3 epoch (loss 0.0032):  43%|████▎     | 7231/16950 [1:21:06<1:33:09,  1.74it/s]Training 2/3 epoch (loss 0.0241):  43%|████▎     | 7231/16950 [1:21:07<1:33:09,  1.74it/s]Training 2/3 epoch (loss 0.0241):  43%|████▎     | 7232/16950 [1:21:07<1:34:51,  1.71it/s]Training 2/3 epoch (loss 0.2598):  43%|████▎     | 7232/16950 [1:21:07<1:34:51,  1.71it/s]Training 2/3 epoch (loss 0.2598):  43%|████▎     | 7233/16950 [1:21:07<1:31:31,  1.77it/s]Training 2/3 epoch (loss 0.0269):  43%|████▎     | 7233/16950 [1:21:08<1:31:31,  1.77it/s]Training 2/3 epoch (loss 0.0269):  43%|████▎     | 7234/16950 [1:21:08<1:27:24,  1.85it/s]Training 2/3 epoch (loss 0.0127):  43%|████▎     | 7234/16950 [1:21:08<1:27:24,  1.85it/s]Training 2/3 epoch (loss 0.0127):  43%|████▎     | 7235/16950 [1:21:08<1:27:37,  1.85it/s]Training 2/3 epoch (loss 0.4663):  43%|████▎     | 7235/16950 [1:21:09<1:27:37,  1.85it/s]Training 2/3 epoch (loss 0.4663):  43%|████▎     | 7236/16950 [1:21:09<1:34:51,  1.71it/s]Training 2/3 epoch (loss 0.1385):  43%|████▎     | 7236/16950 [1:21:10<1:34:51,  1.71it/s]Training 2/3 epoch (loss 0.1385):  43%|████▎     | 7237/16950 [1:21:10<1:34:59,  1.70it/s]Training 2/3 epoch (loss 0.0085):  43%|████▎     | 7237/16950 [1:21:10<1:34:59,  1.70it/s]Training 2/3 epoch (loss 0.0085):  43%|████▎     | 7238/16950 [1:21:10<1:34:01,  1.72it/s]Training 2/3 epoch (loss 0.0061):  43%|████▎     | 7238/16950 [1:21:11<1:34:01,  1.72it/s]Training 2/3 epoch (loss 0.0061):  43%|████▎     | 7239/16950 [1:21:11<1:31:14,  1.77it/s]Training 2/3 epoch (loss 0.0018):  43%|████▎     | 7239/16950 [1:21:11<1:31:14,  1.77it/s]Training 2/3 epoch (loss 0.0018):  43%|████▎     | 7240/16950 [1:21:11<1:30:19,  1.79it/s]Training 2/3 epoch (loss 0.1644):  43%|████▎     | 7240/16950 [1:21:12<1:30:19,  1.79it/s]Training 2/3 epoch (loss 0.1644):  43%|████▎     | 7241/16950 [1:21:12<1:31:56,  1.76it/s]Training 2/3 epoch (loss 0.1481):  43%|████▎     | 7241/16950 [1:21:12<1:31:56,  1.76it/s]Training 2/3 epoch (loss 0.1481):  43%|████▎     | 7242/16950 [1:21:12<1:26:06,  1.88it/s]Training 2/3 epoch (loss 0.0254):  43%|████▎     | 7242/16950 [1:21:13<1:26:06,  1.88it/s]Training 2/3 epoch (loss 0.0254):  43%|████▎     | 7243/16950 [1:21:13<1:33:52,  1.72it/s]Training 2/3 epoch (loss 0.1370):  43%|████▎     | 7243/16950 [1:21:14<1:33:52,  1.72it/s]Training 2/3 epoch (loss 0.1370):  43%|████▎     | 7244/16950 [1:21:14<1:41:39,  1.59it/s]Training 2/3 epoch (loss 0.0803):  43%|████▎     | 7244/16950 [1:21:15<1:41:39,  1.59it/s]Training 2/3 epoch (loss 0.0803):  43%|████▎     | 7245/16950 [1:21:15<1:58:49,  1.36it/s]Training 2/3 epoch (loss 0.5651):  43%|████▎     | 7245/16950 [1:21:15<1:58:49,  1.36it/s]Training 2/3 epoch (loss 0.5651):  43%|████▎     | 7246/16950 [1:21:15<1:54:26,  1.41it/s]Training 2/3 epoch (loss 0.0679):  43%|████▎     | 7246/16950 [1:21:16<1:54:26,  1.41it/s]Training 2/3 epoch (loss 0.0679):  43%|████▎     | 7247/16950 [1:21:16<1:51:49,  1.45it/s]Training 2/3 epoch (loss 0.0014):  43%|████▎     | 7247/16950 [1:21:16<1:51:49,  1.45it/s]Training 2/3 epoch (loss 0.0014):  43%|████▎     | 7248/16950 [1:21:16<1:45:31,  1.53it/s]Training 2/3 epoch (loss 0.2551):  43%|████▎     | 7248/16950 [1:21:17<1:45:31,  1.53it/s]Training 2/3 epoch (loss 0.2551):  43%|████▎     | 7249/16950 [1:21:17<1:38:28,  1.64it/s]Training 2/3 epoch (loss 0.0821):  43%|████▎     | 7249/16950 [1:21:18<1:38:28,  1.64it/s]Training 2/3 epoch (loss 0.0821):  43%|████▎     | 7250/16950 [1:21:18<1:50:17,  1.47it/s]Training 2/3 epoch (loss 0.0008):  43%|████▎     | 7250/16950 [1:21:18<1:50:17,  1.47it/s]Training 2/3 epoch (loss 0.0008):  43%|████▎     | 7251/16950 [1:21:18<1:45:07,  1.54it/s]Training 2/3 epoch (loss 0.0184):  43%|████▎     | 7251/16950 [1:21:19<1:45:07,  1.54it/s]Training 2/3 epoch (loss 0.0184):  43%|████▎     | 7252/16950 [1:21:19<1:34:43,  1.71it/s]Training 2/3 epoch (loss 0.3459):  43%|████▎     | 7252/16950 [1:21:19<1:34:43,  1.71it/s]Training 2/3 epoch (loss 0.3459):  43%|████▎     | 7253/16950 [1:21:19<1:27:18,  1.85it/s]Training 2/3 epoch (loss 0.0021):  43%|████▎     | 7253/16950 [1:21:20<1:27:18,  1.85it/s]Training 2/3 epoch (loss 0.0021):  43%|████▎     | 7254/16950 [1:21:20<1:29:47,  1.80it/s]Training 2/3 epoch (loss 0.1593):  43%|████▎     | 7254/16950 [1:21:21<1:29:47,  1.80it/s]Training 2/3 epoch (loss 0.1593):  43%|████▎     | 7255/16950 [1:21:21<1:39:01,  1.63it/s]Training 2/3 epoch (loss 0.0176):  43%|████▎     | 7255/16950 [1:21:21<1:39:01,  1.63it/s]Training 2/3 epoch (loss 0.0176):  43%|████▎     | 7256/16950 [1:21:21<1:48:47,  1.49it/s]Training 2/3 epoch (loss 0.6494):  43%|████▎     | 7256/16950 [1:21:22<1:48:47,  1.49it/s]Training 2/3 epoch (loss 0.6494):  43%|████▎     | 7257/16950 [1:21:22<1:49:09,  1.48it/s]Training 2/3 epoch (loss 0.4560):  43%|████▎     | 7257/16950 [1:21:23<1:49:09,  1.48it/s]Training 2/3 epoch (loss 0.4560):  43%|████▎     | 7258/16950 [1:21:23<1:46:49,  1.51it/s]Training 2/3 epoch (loss 0.0838):  43%|████▎     | 7258/16950 [1:21:23<1:46:49,  1.51it/s]Training 2/3 epoch (loss 0.0838):  43%|████▎     | 7259/16950 [1:21:23<1:35:11,  1.70it/s]Training 2/3 epoch (loss 0.0201):  43%|████▎     | 7259/16950 [1:21:24<1:35:11,  1.70it/s]Training 2/3 epoch (loss 0.0201):  43%|████▎     | 7260/16950 [1:21:24<1:42:59,  1.57it/s]Training 2/3 epoch (loss 0.3250):  43%|████▎     | 7260/16950 [1:21:25<1:42:59,  1.57it/s]Training 2/3 epoch (loss 0.3250):  43%|████▎     | 7261/16950 [1:21:25<1:44:59,  1.54it/s]Training 2/3 epoch (loss 0.0137):  43%|████▎     | 7261/16950 [1:21:25<1:44:59,  1.54it/s]Training 2/3 epoch (loss 0.0137):  43%|████▎     | 7262/16950 [1:21:25<1:36:07,  1.68it/s]Training 2/3 epoch (loss 0.0136):  43%|████▎     | 7262/16950 [1:21:25<1:36:07,  1.68it/s]Training 2/3 epoch (loss 0.0136):  43%|████▎     | 7263/16950 [1:21:25<1:27:28,  1.85it/s]Training 2/3 epoch (loss 0.0048):  43%|████▎     | 7263/16950 [1:21:26<1:27:28,  1.85it/s]Training 2/3 epoch (loss 0.0048):  43%|████▎     | 7264/16950 [1:21:26<1:28:44,  1.82it/s]Training 2/3 epoch (loss 0.7599):  43%|████▎     | 7264/16950 [1:21:27<1:28:44,  1.82it/s]Training 2/3 epoch (loss 0.7599):  43%|████▎     | 7265/16950 [1:21:27<1:56:37,  1.38it/s]Training 2/3 epoch (loss 0.0507):  43%|████▎     | 7265/16950 [1:21:28<1:56:37,  1.38it/s]Training 2/3 epoch (loss 0.0507):  43%|████▎     | 7266/16950 [1:21:28<1:52:20,  1.44it/s]Training 2/3 epoch (loss 0.5789):  43%|████▎     | 7266/16950 [1:21:28<1:52:20,  1.44it/s]Training 2/3 epoch (loss 0.5789):  43%|████▎     | 7267/16950 [1:21:28<1:50:36,  1.46it/s]Training 2/3 epoch (loss 0.1925):  43%|████▎     | 7267/16950 [1:21:29<1:50:36,  1.46it/s]Training 2/3 epoch (loss 0.1925):  43%|████▎     | 7268/16950 [1:21:29<1:41:05,  1.60it/s]Training 2/3 epoch (loss 0.0008):  43%|████▎     | 7268/16950 [1:21:29<1:41:05,  1.60it/s]Training 2/3 epoch (loss 0.0008):  43%|████▎     | 7269/16950 [1:21:29<1:29:07,  1.81it/s]Training 2/3 epoch (loss 0.0521):  43%|████▎     | 7269/16950 [1:21:30<1:29:07,  1.81it/s]Training 2/3 epoch (loss 0.0521):  43%|████▎     | 7270/16950 [1:21:30<1:27:30,  1.84it/s]Training 2/3 epoch (loss 0.0208):  43%|████▎     | 7270/16950 [1:21:31<1:27:30,  1.84it/s]Training 2/3 epoch (loss 0.0208):  43%|████▎     | 7271/16950 [1:21:31<1:34:44,  1.70it/s]Training 2/3 epoch (loss 0.0611):  43%|████▎     | 7271/16950 [1:21:32<1:34:44,  1.70it/s]Training 2/3 epoch (loss 0.0611):  43%|████▎     | 7272/16950 [1:21:32<2:04:07,  1.30it/s]Training 2/3 epoch (loss 0.0017):  43%|████▎     | 7272/16950 [1:21:32<2:04:07,  1.30it/s]Training 2/3 epoch (loss 0.0017):  43%|████▎     | 7273/16950 [1:21:32<1:58:01,  1.37it/s]Training 2/3 epoch (loss 0.0061):  43%|████▎     | 7273/16950 [1:21:33<1:58:01,  1.37it/s]Training 2/3 epoch (loss 0.0061):  43%|████▎     | 7274/16950 [1:21:33<1:48:33,  1.49it/s]Training 2/3 epoch (loss 0.0011):  43%|████▎     | 7274/16950 [1:21:33<1:48:33,  1.49it/s]Training 2/3 epoch (loss 0.0011):  43%|████▎     | 7275/16950 [1:21:33<1:38:12,  1.64it/s]Training 2/3 epoch (loss 0.0018):  43%|████▎     | 7275/16950 [1:21:34<1:38:12,  1.64it/s]Training 2/3 epoch (loss 0.0018):  43%|████▎     | 7276/16950 [1:21:34<1:35:30,  1.69it/s]Training 2/3 epoch (loss 0.5676):  43%|████▎     | 7276/16950 [1:21:34<1:35:30,  1.69it/s]Training 2/3 epoch (loss 0.5676):  43%|████▎     | 7277/16950 [1:21:34<1:25:34,  1.88it/s]Training 2/3 epoch (loss 0.0990):  43%|████▎     | 7277/16950 [1:21:35<1:25:34,  1.88it/s]Training 2/3 epoch (loss 0.0990):  43%|████▎     | 7278/16950 [1:21:35<1:29:09,  1.81it/s]Training 2/3 epoch (loss 0.0021):  43%|████▎     | 7278/16950 [1:21:35<1:29:09,  1.81it/s]Training 2/3 epoch (loss 0.0021):  43%|████▎     | 7279/16950 [1:21:35<1:28:32,  1.82it/s]Training 2/3 epoch (loss 0.4982):  43%|████▎     | 7279/16950 [1:21:36<1:28:32,  1.82it/s]Training 2/3 epoch (loss 0.4982):  43%|████▎     | 7280/16950 [1:21:36<1:42:59,  1.56it/s]Training 2/3 epoch (loss 0.4688):  43%|████▎     | 7280/16950 [1:21:37<1:42:59,  1.56it/s]Training 2/3 epoch (loss 0.4688):  43%|████▎     | 7281/16950 [1:21:37<1:58:46,  1.36it/s]Training 2/3 epoch (loss 0.0830):  43%|████▎     | 7281/16950 [1:21:38<1:58:46,  1.36it/s]Training 2/3 epoch (loss 0.0830):  43%|████▎     | 7282/16950 [1:21:38<1:54:08,  1.41it/s]Training 2/3 epoch (loss 0.7572):  43%|████▎     | 7282/16950 [1:21:38<1:54:08,  1.41it/s]Training 2/3 epoch (loss 0.7572):  43%|████▎     | 7283/16950 [1:21:38<1:35:31,  1.69it/s]Training 2/3 epoch (loss 0.0435):  43%|████▎     | 7283/16950 [1:21:39<1:35:31,  1.69it/s]Training 2/3 epoch (loss 0.0435):  43%|████▎     | 7284/16950 [1:21:39<1:33:48,  1.72it/s]Training 2/3 epoch (loss 1.0319):  43%|████▎     | 7284/16950 [1:21:39<1:33:48,  1.72it/s]Training 2/3 epoch (loss 1.0319):  43%|████▎     | 7285/16950 [1:21:39<1:37:28,  1.65it/s]Training 2/3 epoch (loss 0.0373):  43%|████▎     | 7285/16950 [1:21:40<1:37:28,  1.65it/s]Training 2/3 epoch (loss 0.0373):  43%|████▎     | 7286/16950 [1:21:40<1:34:13,  1.71it/s]Training 2/3 epoch (loss 0.0283):  43%|████▎     | 7286/16950 [1:21:41<1:34:13,  1.71it/s]Training 2/3 epoch (loss 0.0283):  43%|████▎     | 7287/16950 [1:21:41<1:44:04,  1.55it/s]Training 2/3 epoch (loss 0.0027):  43%|████▎     | 7287/16950 [1:21:41<1:44:04,  1.55it/s]Training 2/3 epoch (loss 0.0027):  43%|████▎     | 7288/16950 [1:21:41<1:39:22,  1.62it/s]Training 2/3 epoch (loss 0.1368):  43%|████▎     | 7288/16950 [1:21:42<1:39:22,  1.62it/s]Training 2/3 epoch (loss 0.1368):  43%|████▎     | 7289/16950 [1:21:42<1:30:03,  1.79it/s]Training 2/3 epoch (loss 0.0029):  43%|████▎     | 7289/16950 [1:21:42<1:30:03,  1.79it/s]Training 2/3 epoch (loss 0.0029):  43%|████▎     | 7290/16950 [1:21:42<1:26:30,  1.86it/s]Training 2/3 epoch (loss 0.0019):  43%|████▎     | 7290/16950 [1:21:43<1:26:30,  1.86it/s]Training 2/3 epoch (loss 0.0019):  43%|████▎     | 7291/16950 [1:21:43<1:20:25,  2.00it/s]Training 2/3 epoch (loss 0.3020):  43%|████▎     | 7291/16950 [1:21:43<1:20:25,  2.00it/s]Training 2/3 epoch (loss 0.3020):  43%|████▎     | 7292/16950 [1:21:43<1:16:55,  2.09it/s]Training 2/3 epoch (loss 0.0001):  43%|████▎     | 7292/16950 [1:21:44<1:16:55,  2.09it/s]Training 2/3 epoch (loss 0.0001):  43%|████▎     | 7293/16950 [1:21:44<1:13:35,  2.19it/s]Training 2/3 epoch (loss 0.0516):  43%|████▎     | 7293/16950 [1:21:44<1:13:35,  2.19it/s]Training 2/3 epoch (loss 0.0516):  43%|████▎     | 7294/16950 [1:21:44<1:19:51,  2.02it/s]Training 2/3 epoch (loss 0.0327):  43%|████▎     | 7294/16950 [1:21:45<1:19:51,  2.02it/s]Training 2/3 epoch (loss 0.0327):  43%|████▎     | 7295/16950 [1:21:45<1:18:43,  2.04it/s]Training 2/3 epoch (loss 0.0589):  43%|████▎     | 7295/16950 [1:21:45<1:18:43,  2.04it/s]Training 2/3 epoch (loss 0.0589):  43%|████▎     | 7296/16950 [1:21:45<1:28:25,  1.82it/s]Training 2/3 epoch (loss 0.5724):  43%|████▎     | 7296/16950 [1:21:46<1:28:25,  1.82it/s]Training 2/3 epoch (loss 0.5724):  43%|████▎     | 7297/16950 [1:21:46<1:23:41,  1.92it/s]Training 2/3 epoch (loss 0.0010):  43%|████▎     | 7297/16950 [1:21:46<1:23:41,  1.92it/s]Training 2/3 epoch (loss 0.0010):  43%|████▎     | 7298/16950 [1:21:46<1:22:02,  1.96it/s]Training 2/3 epoch (loss 0.0229):  43%|████▎     | 7298/16950 [1:21:47<1:22:02,  1.96it/s]Training 2/3 epoch (loss 0.0229):  43%|████▎     | 7299/16950 [1:21:47<1:22:01,  1.96it/s]Training 2/3 epoch (loss 0.0949):  43%|████▎     | 7299/16950 [1:21:48<1:22:01,  1.96it/s]Training 2/3 epoch (loss 0.0949):  43%|████▎     | 7300/16950 [1:21:48<1:40:29,  1.60it/s]Training 2/3 epoch (loss 0.3100):  43%|████▎     | 7300/16950 [1:21:48<1:40:29,  1.60it/s]Training 2/3 epoch (loss 0.3100):  43%|████▎     | 7301/16950 [1:21:48<1:40:57,  1.59it/s]Training 2/3 epoch (loss 0.2923):  43%|████▎     | 7301/16950 [1:21:49<1:40:57,  1.59it/s]Training 2/3 epoch (loss 0.2923):  43%|████▎     | 7302/16950 [1:21:49<1:29:40,  1.79it/s]Training 2/3 epoch (loss 0.1461):  43%|████▎     | 7302/16950 [1:21:49<1:29:40,  1.79it/s]Training 2/3 epoch (loss 0.1461):  43%|████▎     | 7303/16950 [1:21:49<1:34:25,  1.70it/s]Training 2/3 epoch (loss 0.0060):  43%|████▎     | 7303/16950 [1:21:50<1:34:25,  1.70it/s]Training 2/3 epoch (loss 0.0060):  43%|████▎     | 7304/16950 [1:21:50<1:47:39,  1.49it/s]Training 2/3 epoch (loss 0.0044):  43%|████▎     | 7304/16950 [1:21:51<1:47:39,  1.49it/s]Training 2/3 epoch (loss 0.0044):  43%|████▎     | 7305/16950 [1:21:51<1:54:10,  1.41it/s]Training 2/3 epoch (loss 0.0018):  43%|████▎     | 7305/16950 [1:21:52<1:54:10,  1.41it/s]Training 2/3 epoch (loss 0.0018):  43%|████▎     | 7306/16950 [1:21:52<1:48:55,  1.48it/s]Training 2/3 epoch (loss 0.3932):  43%|████▎     | 7306/16950 [1:21:52<1:48:55,  1.48it/s]Training 2/3 epoch (loss 0.3932):  43%|████▎     | 7307/16950 [1:21:52<1:36:28,  1.67it/s]Training 2/3 epoch (loss 0.0087):  43%|████▎     | 7307/16950 [1:21:52<1:36:28,  1.67it/s]Training 2/3 epoch (loss 0.0087):  43%|████▎     | 7308/16950 [1:21:52<1:25:55,  1.87it/s]Training 2/3 epoch (loss 0.0085):  43%|████▎     | 7308/16950 [1:21:53<1:25:55,  1.87it/s]Training 2/3 epoch (loss 0.0085):  43%|████▎     | 7309/16950 [1:21:53<1:25:35,  1.88it/s]Training 2/3 epoch (loss 0.2284):  43%|████▎     | 7309/16950 [1:21:54<1:25:35,  1.88it/s]Training 2/3 epoch (loss 0.2284):  43%|████▎     | 7310/16950 [1:21:54<1:32:12,  1.74it/s]Training 2/3 epoch (loss 0.1415):  43%|████▎     | 7310/16950 [1:21:54<1:32:12,  1.74it/s]Training 2/3 epoch (loss 0.1415):  43%|████▎     | 7311/16950 [1:21:54<1:31:41,  1.75it/s]Training 2/3 epoch (loss 0.0597):  43%|████▎     | 7311/16950 [1:21:55<1:31:41,  1.75it/s]Training 2/3 epoch (loss 0.0597):  43%|████▎     | 7312/16950 [1:21:55<1:26:28,  1.86it/s]Training 2/3 epoch (loss 0.1124):  43%|████▎     | 7312/16950 [1:21:56<1:26:28,  1.86it/s]Training 2/3 epoch (loss 0.1124):  43%|████▎     | 7313/16950 [1:21:56<1:52:24,  1.43it/s]Training 2/3 epoch (loss 0.0535):  43%|████▎     | 7313/16950 [1:21:56<1:52:24,  1.43it/s]Training 2/3 epoch (loss 0.0535):  43%|████▎     | 7314/16950 [1:21:56<1:45:55,  1.52it/s]Training 2/3 epoch (loss 0.0012):  43%|████▎     | 7314/16950 [1:21:57<1:45:55,  1.52it/s]Training 2/3 epoch (loss 0.0012):  43%|████▎     | 7315/16950 [1:21:57<1:35:29,  1.68it/s]Training 2/3 epoch (loss 0.1778):  43%|████▎     | 7315/16950 [1:21:57<1:35:29,  1.68it/s]Training 2/3 epoch (loss 0.1778):  43%|████▎     | 7316/16950 [1:21:57<1:36:42,  1.66it/s]Training 2/3 epoch (loss 0.0895):  43%|████▎     | 7316/16950 [1:21:58<1:36:42,  1.66it/s]Training 2/3 epoch (loss 0.0895):  43%|████▎     | 7317/16950 [1:21:58<1:50:31,  1.45it/s]Training 2/3 epoch (loss 0.2066):  43%|████▎     | 7317/16950 [1:21:59<1:50:31,  1.45it/s]Training 2/3 epoch (loss 0.2066):  43%|████▎     | 7318/16950 [1:21:59<1:55:33,  1.39it/s]Training 2/3 epoch (loss 0.0010):  43%|████▎     | 7318/16950 [1:22:00<1:55:33,  1.39it/s]Training 2/3 epoch (loss 0.0010):  43%|████▎     | 7319/16950 [1:22:00<1:55:25,  1.39it/s]Training 2/3 epoch (loss 0.1944):  43%|████▎     | 7319/16950 [1:22:00<1:55:25,  1.39it/s]Training 2/3 epoch (loss 0.1944):  43%|████▎     | 7320/16950 [1:22:00<1:54:51,  1.40it/s]Training 2/3 epoch (loss 0.0020):  43%|████▎     | 7320/16950 [1:22:01<1:54:51,  1.40it/s]Training 2/3 epoch (loss 0.0020):  43%|████▎     | 7321/16950 [1:22:01<1:47:56,  1.49it/s]Training 2/3 epoch (loss 0.0245):  43%|████▎     | 7321/16950 [1:22:02<1:47:56,  1.49it/s]Training 2/3 epoch (loss 0.0245):  43%|████▎     | 7322/16950 [1:22:02<1:45:39,  1.52it/s]Training 2/3 epoch (loss 0.0881):  43%|████▎     | 7322/16950 [1:22:02<1:45:39,  1.52it/s]Training 2/3 epoch (loss 0.0881):  43%|████▎     | 7323/16950 [1:22:02<1:35:43,  1.68it/s]Training 2/3 epoch (loss 0.0021):  43%|████▎     | 7323/16950 [1:22:02<1:35:43,  1.68it/s]Training 2/3 epoch (loss 0.0021):  43%|████▎     | 7324/16950 [1:22:02<1:26:08,  1.86it/s]Training 2/3 epoch (loss 0.0039):  43%|████▎     | 7324/16950 [1:22:03<1:26:08,  1.86it/s]Training 2/3 epoch (loss 0.0039):  43%|████▎     | 7325/16950 [1:22:03<1:24:38,  1.90it/s]Training 2/3 epoch (loss 0.0925):  43%|████▎     | 7325/16950 [1:22:03<1:24:38,  1.90it/s]Training 2/3 epoch (loss 0.0925):  43%|████▎     | 7326/16950 [1:22:03<1:20:59,  1.98it/s]Training 2/3 epoch (loss 0.0045):  43%|████▎     | 7326/16950 [1:22:04<1:20:59,  1.98it/s]Training 2/3 epoch (loss 0.0045):  43%|████▎     | 7327/16950 [1:22:04<1:15:55,  2.11it/s]Training 2/3 epoch (loss 0.1952):  43%|████▎     | 7327/16950 [1:22:04<1:15:55,  2.11it/s]Training 2/3 epoch (loss 0.1952):  43%|████▎     | 7328/16950 [1:22:04<1:16:57,  2.08it/s]Training 2/3 epoch (loss 0.2812):  43%|████▎     | 7328/16950 [1:22:05<1:16:57,  2.08it/s]Training 2/3 epoch (loss 0.2812):  43%|████▎     | 7329/16950 [1:22:05<1:10:44,  2.27it/s]Training 2/3 epoch (loss 0.6885):  43%|████▎     | 7329/16950 [1:22:05<1:10:44,  2.27it/s]Training 2/3 epoch (loss 0.6885):  43%|████▎     | 7330/16950 [1:22:05<1:12:37,  2.21it/s]Training 2/3 epoch (loss 0.3843):  43%|████▎     | 7330/16950 [1:22:06<1:12:37,  2.21it/s]Training 2/3 epoch (loss 0.3843):  43%|████▎     | 7331/16950 [1:22:06<1:35:15,  1.68it/s]Training 2/3 epoch (loss 0.0067):  43%|████▎     | 7331/16950 [1:22:07<1:35:15,  1.68it/s]Training 2/3 epoch (loss 0.0067):  43%|████▎     | 7332/16950 [1:22:07<1:36:21,  1.66it/s]Training 2/3 epoch (loss 0.0366):  43%|████▎     | 7332/16950 [1:22:07<1:36:21,  1.66it/s]Training 2/3 epoch (loss 0.0366):  43%|████▎     | 7333/16950 [1:22:07<1:33:09,  1.72it/s]Training 2/3 epoch (loss 0.0485):  43%|████▎     | 7333/16950 [1:22:08<1:33:09,  1.72it/s]Training 2/3 epoch (loss 0.0485):  43%|████▎     | 7334/16950 [1:22:08<1:24:14,  1.90it/s]Training 2/3 epoch (loss 0.0708):  43%|████▎     | 7334/16950 [1:22:08<1:24:14,  1.90it/s]Training 2/3 epoch (loss 0.0708):  43%|████▎     | 7335/16950 [1:22:08<1:27:52,  1.82it/s]Training 2/3 epoch (loss 0.0100):  43%|████▎     | 7335/16950 [1:22:09<1:27:52,  1.82it/s]Training 2/3 epoch (loss 0.0100):  43%|████▎     | 7336/16950 [1:22:09<1:24:40,  1.89it/s]Training 2/3 epoch (loss 0.0044):  43%|████▎     | 7336/16950 [1:22:09<1:24:40,  1.89it/s]Training 2/3 epoch (loss 0.0044):  43%|████▎     | 7337/16950 [1:22:09<1:33:01,  1.72it/s]Training 2/3 epoch (loss 0.0059):  43%|████▎     | 7337/16950 [1:22:10<1:33:01,  1.72it/s]Training 2/3 epoch (loss 0.0059):  43%|████▎     | 7338/16950 [1:22:10<1:34:39,  1.69it/s]Training 2/3 epoch (loss 0.0145):  43%|████▎     | 7338/16950 [1:22:11<1:34:39,  1.69it/s]Training 2/3 epoch (loss 0.0145):  43%|████▎     | 7339/16950 [1:22:11<1:40:14,  1.60it/s]Training 2/3 epoch (loss 0.0049):  43%|████▎     | 7339/16950 [1:22:12<1:40:14,  1.60it/s]Training 2/3 epoch (loss 0.0049):  43%|████▎     | 7340/16950 [1:22:12<1:51:42,  1.43it/s]Training 2/3 epoch (loss 0.0041):  43%|████▎     | 7340/16950 [1:22:12<1:51:42,  1.43it/s]Training 2/3 epoch (loss 0.0041):  43%|████▎     | 7341/16950 [1:22:12<1:47:33,  1.49it/s]Training 2/3 epoch (loss 0.2962):  43%|████▎     | 7341/16950 [1:22:13<1:47:33,  1.49it/s]Training 2/3 epoch (loss 0.2962):  43%|████▎     | 7342/16950 [1:22:13<1:46:46,  1.50it/s]Training 2/3 epoch (loss 0.3603):  43%|████▎     | 7342/16950 [1:22:13<1:46:46,  1.50it/s]Training 2/3 epoch (loss 0.3603):  43%|████▎     | 7343/16950 [1:22:13<1:31:57,  1.74it/s]Training 2/3 epoch (loss 0.0297):  43%|████▎     | 7343/16950 [1:22:14<1:31:57,  1.74it/s]Training 2/3 epoch (loss 0.0297):  43%|████▎     | 7344/16950 [1:22:14<1:41:10,  1.58it/s]Training 2/3 epoch (loss 0.4733):  43%|████▎     | 7344/16950 [1:22:14<1:41:10,  1.58it/s]Training 2/3 epoch (loss 0.4733):  43%|████▎     | 7345/16950 [1:22:14<1:34:00,  1.70it/s]Training 2/3 epoch (loss 0.2084):  43%|████▎     | 7345/16950 [1:22:15<1:34:00,  1.70it/s]Training 2/3 epoch (loss 0.2084):  43%|████▎     | 7346/16950 [1:22:15<1:24:36,  1.89it/s]Training 2/3 epoch (loss 0.5795):  43%|████▎     | 7346/16950 [1:22:16<1:24:36,  1.89it/s]Training 2/3 epoch (loss 0.5795):  43%|████▎     | 7347/16950 [1:22:16<1:54:41,  1.40it/s]Training 2/3 epoch (loss 0.4440):  43%|████▎     | 7347/16950 [1:22:17<1:54:41,  1.40it/s]Training 2/3 epoch (loss 0.4440):  43%|████▎     | 7348/16950 [1:22:17<2:14:31,  1.19it/s]Training 2/3 epoch (loss 0.0163):  43%|████▎     | 7348/16950 [1:22:18<2:14:31,  1.19it/s]Training 2/3 epoch (loss 0.0163):  43%|████▎     | 7349/16950 [1:22:18<2:07:19,  1.26it/s]Training 2/3 epoch (loss 0.0527):  43%|████▎     | 7349/16950 [1:22:18<2:07:19,  1.26it/s]Training 2/3 epoch (loss 0.0527):  43%|████▎     | 7350/16950 [1:22:18<2:00:52,  1.32it/s]Training 2/3 epoch (loss 0.0145):  43%|████▎     | 7350/16950 [1:22:19<2:00:52,  1.32it/s]Training 2/3 epoch (loss 0.0145):  43%|████▎     | 7351/16950 [1:22:19<1:51:26,  1.44it/s]Training 2/3 epoch (loss 0.0001):  43%|████▎     | 7351/16950 [1:22:19<1:51:26,  1.44it/s]Training 2/3 epoch (loss 0.0001):  43%|████▎     | 7352/16950 [1:22:19<1:35:01,  1.68it/s]Training 2/3 epoch (loss 0.5874):  43%|████▎     | 7352/16950 [1:22:20<1:35:01,  1.68it/s]Training 2/3 epoch (loss 0.5874):  43%|████▎     | 7353/16950 [1:22:20<1:35:34,  1.67it/s]Training 2/3 epoch (loss 0.7931):  43%|████▎     | 7353/16950 [1:22:21<1:35:34,  1.67it/s]Training 2/3 epoch (loss 0.7931):  43%|████▎     | 7354/16950 [1:22:21<1:36:15,  1.66it/s]Training 2/3 epoch (loss 0.2470):  43%|████▎     | 7354/16950 [1:22:21<1:36:15,  1.66it/s]Training 2/3 epoch (loss 0.2470):  43%|████▎     | 7355/16950 [1:22:21<1:25:14,  1.88it/s]Training 2/3 epoch (loss 0.0072):  43%|████▎     | 7355/16950 [1:22:22<1:25:14,  1.88it/s]Training 2/3 epoch (loss 0.0072):  43%|████▎     | 7356/16950 [1:22:22<1:35:48,  1.67it/s]Training 2/3 epoch (loss 0.0044):  43%|████▎     | 7356/16950 [1:22:22<1:35:48,  1.67it/s]Training 2/3 epoch (loss 0.0044):  43%|████▎     | 7357/16950 [1:22:22<1:30:42,  1.76it/s]Training 2/3 epoch (loss 0.6945):  43%|████▎     | 7357/16950 [1:22:23<1:30:42,  1.76it/s]Training 2/3 epoch (loss 0.6945):  43%|████▎     | 7358/16950 [1:22:23<1:29:31,  1.79it/s]Training 2/3 epoch (loss 0.0331):  43%|████▎     | 7358/16950 [1:22:23<1:29:31,  1.79it/s]Training 2/3 epoch (loss 0.0331):  43%|████▎     | 7359/16950 [1:22:23<1:33:00,  1.72it/s]Training 2/3 epoch (loss 0.0949):  43%|████▎     | 7359/16950 [1:22:24<1:33:00,  1.72it/s]Training 2/3 epoch (loss 0.0949):  43%|████▎     | 7360/16950 [1:22:24<1:36:39,  1.65it/s]Training 2/3 epoch (loss 0.4255):  43%|████▎     | 7360/16950 [1:22:24<1:36:39,  1.65it/s]Training 2/3 epoch (loss 0.4255):  43%|████▎     | 7361/16950 [1:22:24<1:23:12,  1.92it/s]Training 2/3 epoch (loss 0.0035):  43%|████▎     | 7361/16950 [1:22:25<1:23:12,  1.92it/s]Training 2/3 epoch (loss 0.0035):  43%|████▎     | 7362/16950 [1:22:25<1:19:51,  2.00it/s]Training 2/3 epoch (loss 0.0026):  43%|████▎     | 7362/16950 [1:22:25<1:19:51,  2.00it/s]Training 2/3 epoch (loss 0.0026):  43%|████▎     | 7363/16950 [1:22:25<1:15:04,  2.13it/s]Training 2/3 epoch (loss 0.0779):  43%|████▎     | 7363/16950 [1:22:26<1:15:04,  2.13it/s]Training 2/3 epoch (loss 0.0779):  43%|████▎     | 7364/16950 [1:22:26<1:20:51,  1.98it/s]Training 2/3 epoch (loss 0.0618):  43%|████▎     | 7364/16950 [1:22:27<1:20:51,  1.98it/s]Training 2/3 epoch (loss 0.0618):  43%|████▎     | 7365/16950 [1:22:27<1:31:06,  1.75it/s]Training 2/3 epoch (loss 0.0728):  43%|████▎     | 7365/16950 [1:22:27<1:31:06,  1.75it/s]Training 2/3 epoch (loss 0.0728):  43%|████▎     | 7366/16950 [1:22:27<1:30:33,  1.76it/s]Training 2/3 epoch (loss 0.0002):  43%|████▎     | 7366/16950 [1:22:27<1:30:33,  1.76it/s]Training 2/3 epoch (loss 0.0002):  43%|████▎     | 7367/16950 [1:22:27<1:18:11,  2.04it/s]Training 2/3 epoch (loss 0.2587):  43%|████▎     | 7367/16950 [1:22:28<1:18:11,  2.04it/s]Training 2/3 epoch (loss 0.2587):  43%|████▎     | 7368/16950 [1:22:28<1:18:40,  2.03it/s]Training 2/3 epoch (loss 0.1676):  43%|████▎     | 7368/16950 [1:22:29<1:18:40,  2.03it/s]Training 2/3 epoch (loss 0.1676):  43%|████▎     | 7369/16950 [1:22:29<1:28:31,  1.80it/s]Training 2/3 epoch (loss 0.0414):  43%|████▎     | 7369/16950 [1:22:29<1:28:31,  1.80it/s]Training 2/3 epoch (loss 0.0414):  43%|████▎     | 7370/16950 [1:22:29<1:31:36,  1.74it/s]Training 2/3 epoch (loss 0.0098):  43%|████▎     | 7370/16950 [1:22:30<1:31:36,  1.74it/s]Training 2/3 epoch (loss 0.0098):  43%|████▎     | 7371/16950 [1:22:30<1:30:14,  1.77it/s]Training 2/3 epoch (loss 0.4975):  43%|████▎     | 7371/16950 [1:22:30<1:30:14,  1.77it/s]Training 2/3 epoch (loss 0.4975):  43%|████▎     | 7372/16950 [1:22:30<1:21:38,  1.96it/s]Training 2/3 epoch (loss 0.0136):  43%|████▎     | 7372/16950 [1:22:31<1:21:38,  1.96it/s]Training 2/3 epoch (loss 0.0136):  43%|████▎     | 7373/16950 [1:22:31<1:21:16,  1.96it/s]Training 2/3 epoch (loss 0.0800):  43%|████▎     | 7373/16950 [1:22:31<1:21:16,  1.96it/s]Training 2/3 epoch (loss 0.0800):  44%|████▎     | 7374/16950 [1:22:31<1:21:10,  1.97it/s]Training 2/3 epoch (loss 0.0122):  44%|████▎     | 7374/16950 [1:22:32<1:21:10,  1.97it/s]Training 2/3 epoch (loss 0.0122):  44%|████▎     | 7375/16950 [1:22:32<1:26:50,  1.84it/s]Training 2/3 epoch (loss 0.0007):  44%|████▎     | 7375/16950 [1:22:32<1:26:50,  1.84it/s]Training 2/3 epoch (loss 0.0007):  44%|████▎     | 7376/16950 [1:22:32<1:22:11,  1.94it/s]Training 2/3 epoch (loss 0.0080):  44%|████▎     | 7376/16950 [1:22:33<1:22:11,  1.94it/s]Training 2/3 epoch (loss 0.0080):  44%|████▎     | 7377/16950 [1:22:33<1:27:41,  1.82it/s]Training 2/3 epoch (loss 0.0266):  44%|████▎     | 7377/16950 [1:22:33<1:27:41,  1.82it/s]Training 2/3 epoch (loss 0.0266):  44%|████▎     | 7378/16950 [1:22:33<1:26:56,  1.83it/s]Training 2/3 epoch (loss 0.0028):  44%|████▎     | 7378/16950 [1:22:34<1:26:56,  1.83it/s]Training 2/3 epoch (loss 0.0028):  44%|████▎     | 7379/16950 [1:22:34<1:23:21,  1.91it/s]Training 2/3 epoch (loss 0.3527):  44%|████▎     | 7379/16950 [1:22:35<1:23:21,  1.91it/s]Training 2/3 epoch (loss 0.3527):  44%|████▎     | 7380/16950 [1:22:35<1:30:18,  1.77it/s]Training 2/3 epoch (loss 0.0024):  44%|████▎     | 7380/16950 [1:22:35<1:30:18,  1.77it/s]Training 2/3 epoch (loss 0.0024):  44%|████▎     | 7381/16950 [1:22:35<1:30:11,  1.77it/s]Training 2/3 epoch (loss 0.0029):  44%|████▎     | 7381/16950 [1:22:36<1:30:11,  1.77it/s]Training 2/3 epoch (loss 0.0029):  44%|████▎     | 7382/16950 [1:22:36<1:28:47,  1.80it/s]Training 2/3 epoch (loss 0.0002):  44%|████▎     | 7382/16950 [1:22:36<1:28:47,  1.80it/s]Training 2/3 epoch (loss 0.0002):  44%|████▎     | 7383/16950 [1:22:36<1:21:29,  1.96it/s]Training 2/3 epoch (loss 0.0023):  44%|████▎     | 7383/16950 [1:22:37<1:21:29,  1.96it/s]Training 2/3 epoch (loss 0.0023):  44%|████▎     | 7384/16950 [1:22:37<1:25:32,  1.86it/s]Training 2/3 epoch (loss 0.7142):  44%|████▎     | 7384/16950 [1:22:37<1:25:32,  1.86it/s]Training 2/3 epoch (loss 0.7142):  44%|████▎     | 7385/16950 [1:22:37<1:21:37,  1.95it/s]Training 2/3 epoch (loss 0.0393):  44%|████▎     | 7385/16950 [1:22:38<1:21:37,  1.95it/s]Training 2/3 epoch (loss 0.0393):  44%|████▎     | 7386/16950 [1:22:38<1:19:43,  2.00it/s]Training 2/3 epoch (loss 0.0083):  44%|████▎     | 7386/16950 [1:22:38<1:19:43,  2.00it/s]Training 2/3 epoch (loss 0.0083):  44%|████▎     | 7387/16950 [1:22:38<1:18:39,  2.03it/s]Training 2/3 epoch (loss 0.3538):  44%|████▎     | 7387/16950 [1:22:39<1:18:39,  2.03it/s]Training 2/3 epoch (loss 0.3538):  44%|████▎     | 7388/16950 [1:22:39<1:17:49,  2.05it/s]Training 2/3 epoch (loss 0.2761):  44%|████▎     | 7388/16950 [1:22:39<1:17:49,  2.05it/s]Training 2/3 epoch (loss 0.2761):  44%|████▎     | 7389/16950 [1:22:39<1:28:38,  1.80it/s]Training 2/3 epoch (loss 0.3367):  44%|████▎     | 7389/16950 [1:22:40<1:28:38,  1.80it/s]Training 2/3 epoch (loss 0.3367):  44%|████▎     | 7390/16950 [1:22:40<1:19:12,  2.01it/s]Training 2/3 epoch (loss 0.1911):  44%|████▎     | 7390/16950 [1:22:40<1:19:12,  2.01it/s]Training 2/3 epoch (loss 0.1911):  44%|████▎     | 7391/16950 [1:22:40<1:17:33,  2.05it/s]Training 2/3 epoch (loss 0.1924):  44%|████▎     | 7391/16950 [1:22:41<1:17:33,  2.05it/s]Training 2/3 epoch (loss 0.1924):  44%|████▎     | 7392/16950 [1:22:41<1:46:21,  1.50it/s]Training 2/3 epoch (loss 0.0006):  44%|████▎     | 7392/16950 [1:22:42<1:46:21,  1.50it/s]Training 2/3 epoch (loss 0.0006):  44%|████▎     | 7393/16950 [1:22:42<1:41:03,  1.58it/s]Training 2/3 epoch (loss 0.8792):  44%|████▎     | 7393/16950 [1:22:42<1:41:03,  1.58it/s]Training 2/3 epoch (loss 0.8792):  44%|████▎     | 7394/16950 [1:22:42<1:29:48,  1.77it/s]Training 2/3 epoch (loss 0.0009):  44%|████▎     | 7394/16950 [1:22:43<1:29:48,  1.77it/s]Training 2/3 epoch (loss 0.0009):  44%|████▎     | 7395/16950 [1:22:43<1:23:36,  1.90it/s]Training 2/3 epoch (loss 0.0357):  44%|████▎     | 7395/16950 [1:22:43<1:23:36,  1.90it/s]Training 2/3 epoch (loss 0.0357):  44%|████▎     | 7396/16950 [1:22:43<1:28:06,  1.81it/s]Training 2/3 epoch (loss 0.0507):  44%|████▎     | 7396/16950 [1:22:44<1:28:06,  1.81it/s]Training 2/3 epoch (loss 0.0507):  44%|████▎     | 7397/16950 [1:22:44<1:35:02,  1.68it/s]Training 2/3 epoch (loss 0.5615):  44%|████▎     | 7397/16950 [1:22:44<1:35:02,  1.68it/s]Training 2/3 epoch (loss 0.5615):  44%|████▎     | 7398/16950 [1:22:44<1:27:37,  1.82it/s]Training 2/3 epoch (loss 0.0004):  44%|████▎     | 7398/16950 [1:22:45<1:27:37,  1.82it/s]Training 2/3 epoch (loss 0.0004):  44%|████▎     | 7399/16950 [1:22:45<1:22:36,  1.93it/s]Training 2/3 epoch (loss 0.0052):  44%|████▎     | 7399/16950 [1:22:45<1:22:36,  1.93it/s]Training 2/3 epoch (loss 0.0052):  44%|████▎     | 7400/16950 [1:22:45<1:17:20,  2.06it/s]Training 2/3 epoch (loss 0.0433):  44%|████▎     | 7400/16950 [1:22:46<1:17:20,  2.06it/s]Training 2/3 epoch (loss 0.0433):  44%|████▎     | 7401/16950 [1:22:46<1:14:14,  2.14it/s]Training 2/3 epoch (loss 0.0607):  44%|████▎     | 7401/16950 [1:22:46<1:14:14,  2.14it/s]Training 2/3 epoch (loss 0.0607):  44%|████▎     | 7402/16950 [1:22:46<1:29:26,  1.78it/s]Training 2/3 epoch (loss 0.0012):  44%|████▎     | 7402/16950 [1:22:47<1:29:26,  1.78it/s]Training 2/3 epoch (loss 0.0012):  44%|████▎     | 7403/16950 [1:22:47<1:25:21,  1.86it/s]Training 2/3 epoch (loss 0.0614):  44%|████▎     | 7403/16950 [1:22:47<1:25:21,  1.86it/s]Training 2/3 epoch (loss 0.0614):  44%|████▎     | 7404/16950 [1:22:47<1:16:58,  2.07it/s]Training 2/3 epoch (loss 0.0011):  44%|████▎     | 7404/16950 [1:22:48<1:16:58,  2.07it/s]Training 2/3 epoch (loss 0.0011):  44%|████▎     | 7405/16950 [1:22:48<1:18:51,  2.02it/s]Training 2/3 epoch (loss 0.0623):  44%|████▎     | 7405/16950 [1:22:48<1:18:51,  2.02it/s]Training 2/3 epoch (loss 0.0623):  44%|████▎     | 7406/16950 [1:22:48<1:30:09,  1.76it/s]Training 2/3 epoch (loss 0.0305):  44%|████▎     | 7406/16950 [1:22:49<1:30:09,  1.76it/s]Training 2/3 epoch (loss 0.0305):  44%|████▎     | 7407/16950 [1:22:49<1:30:44,  1.75it/s]Training 2/3 epoch (loss 0.6349):  44%|████▎     | 7407/16950 [1:22:50<1:30:44,  1.75it/s]Training 2/3 epoch (loss 0.6349):  44%|████▎     | 7408/16950 [1:22:50<1:57:34,  1.35it/s]Training 2/3 epoch (loss 0.4938):  44%|████▎     | 7408/16950 [1:22:51<1:57:34,  1.35it/s]Training 2/3 epoch (loss 0.4938):  44%|████▎     | 7409/16950 [1:22:51<1:38:57,  1.61it/s]Training 2/3 epoch (loss 0.1049):  44%|████▎     | 7409/16950 [1:22:51<1:38:57,  1.61it/s]Training 2/3 epoch (loss 0.1049):  44%|████▎     | 7410/16950 [1:22:51<1:42:32,  1.55it/s]Training 2/3 epoch (loss 0.3149):  44%|████▎     | 7410/16950 [1:22:52<1:42:32,  1.55it/s]Training 2/3 epoch (loss 0.3149):  44%|████▎     | 7411/16950 [1:22:52<1:38:05,  1.62it/s]Training 2/3 epoch (loss 0.2949):  44%|████▎     | 7411/16950 [1:22:52<1:38:05,  1.62it/s]Training 2/3 epoch (loss 0.2949):  44%|████▎     | 7412/16950 [1:22:52<1:35:05,  1.67it/s]Training 2/3 epoch (loss 0.0237):  44%|████▎     | 7412/16950 [1:22:53<1:35:05,  1.67it/s]Training 2/3 epoch (loss 0.0237):  44%|████▎     | 7413/16950 [1:22:53<1:33:58,  1.69it/s]Training 2/3 epoch (loss 0.1825):  44%|████▎     | 7413/16950 [1:22:54<1:33:58,  1.69it/s]Training 2/3 epoch (loss 0.1825):  44%|████▎     | 7414/16950 [1:22:54<1:36:39,  1.64it/s]Training 2/3 epoch (loss 0.6529):  44%|████▎     | 7414/16950 [1:22:54<1:36:39,  1.64it/s]Training 2/3 epoch (loss 0.6529):  44%|████▎     | 7415/16950 [1:22:54<1:33:14,  1.70it/s]Training 2/3 epoch (loss 0.0738):  44%|████▎     | 7415/16950 [1:22:55<1:33:14,  1.70it/s]Training 2/3 epoch (loss 0.0738):  44%|████▍     | 7416/16950 [1:22:55<1:27:00,  1.83it/s]Training 2/3 epoch (loss 0.0405):  44%|████▍     | 7416/16950 [1:22:55<1:27:00,  1.83it/s]Training 2/3 epoch (loss 0.0405):  44%|████▍     | 7417/16950 [1:22:55<1:30:24,  1.76it/s]Training 2/3 epoch (loss 0.0881):  44%|████▍     | 7417/16950 [1:22:56<1:30:24,  1.76it/s]Training 2/3 epoch (loss 0.0881):  44%|████▍     | 7418/16950 [1:22:56<1:35:22,  1.67it/s]Training 2/3 epoch (loss 0.0590):  44%|████▍     | 7418/16950 [1:22:56<1:35:22,  1.67it/s]Training 2/3 epoch (loss 0.0590):  44%|████▍     | 7419/16950 [1:22:56<1:27:17,  1.82it/s]Training 2/3 epoch (loss 0.5904):  44%|████▍     | 7419/16950 [1:22:57<1:27:17,  1.82it/s]Training 2/3 epoch (loss 0.5904):  44%|████▍     | 7420/16950 [1:22:57<1:29:08,  1.78it/s]Training 2/3 epoch (loss 0.2409):  44%|████▍     | 7420/16950 [1:22:57<1:29:08,  1.78it/s]Training 2/3 epoch (loss 0.2409):  44%|████▍     | 7421/16950 [1:22:57<1:24:39,  1.88it/s]Training 2/3 epoch (loss 0.0010):  44%|████▍     | 7421/16950 [1:22:58<1:24:39,  1.88it/s]Training 2/3 epoch (loss 0.0010):  44%|████▍     | 7422/16950 [1:22:58<1:23:10,  1.91it/s]Training 2/3 epoch (loss 0.0089):  44%|████▍     | 7422/16950 [1:22:58<1:23:10,  1.91it/s]Training 2/3 epoch (loss 0.0089):  44%|████▍     | 7423/16950 [1:22:58<1:30:02,  1.76it/s]Training 2/3 epoch (loss 0.2254):  44%|████▍     | 7423/16950 [1:22:59<1:30:02,  1.76it/s]Training 2/3 epoch (loss 0.2254):  44%|████▍     | 7424/16950 [1:22:59<1:37:05,  1.64it/s]Training 2/3 epoch (loss 0.6845):  44%|████▍     | 7424/16950 [1:23:00<1:37:05,  1.64it/s]Training 2/3 epoch (loss 0.6845):  44%|████▍     | 7425/16950 [1:23:00<1:58:25,  1.34it/s]Training 2/3 epoch (loss 0.0042):  44%|████▍     | 7425/16950 [1:23:01<1:58:25,  1.34it/s]Training 2/3 epoch (loss 0.0042):  44%|████▍     | 7426/16950 [1:23:01<1:56:16,  1.37it/s]Training 2/3 epoch (loss 0.8812):  44%|████▍     | 7426/16950 [1:23:01<1:56:16,  1.37it/s]Training 2/3 epoch (loss 0.8812):  44%|████▍     | 7427/16950 [1:23:01<1:37:42,  1.62it/s]Training 2/3 epoch (loss 0.3117):  44%|████▍     | 7427/16950 [1:23:02<1:37:42,  1.62it/s]Training 2/3 epoch (loss 0.3117):  44%|████▍     | 7428/16950 [1:23:02<1:29:56,  1.76it/s]Training 2/3 epoch (loss 0.0709):  44%|████▍     | 7428/16950 [1:23:02<1:29:56,  1.76it/s]Training 2/3 epoch (loss 0.0709):  44%|████▍     | 7429/16950 [1:23:02<1:32:29,  1.72it/s]Training 2/3 epoch (loss 0.0062):  44%|████▍     | 7429/16950 [1:23:03<1:32:29,  1.72it/s]Training 2/3 epoch (loss 0.0062):  44%|████▍     | 7430/16950 [1:23:03<1:27:51,  1.81it/s]Training 2/3 epoch (loss 0.0009):  44%|████▍     | 7430/16950 [1:23:04<1:27:51,  1.81it/s]Training 2/3 epoch (loss 0.0009):  44%|████▍     | 7431/16950 [1:23:04<1:31:30,  1.73it/s]Training 2/3 epoch (loss 0.1248):  44%|████▍     | 7431/16950 [1:23:04<1:31:30,  1.73it/s]Training 2/3 epoch (loss 0.1248):  44%|████▍     | 7432/16950 [1:23:04<1:36:17,  1.65it/s]Training 2/3 epoch (loss 0.2380):  44%|████▍     | 7432/16950 [1:23:05<1:36:17,  1.65it/s]Training 2/3 epoch (loss 0.2380):  44%|████▍     | 7433/16950 [1:23:05<2:01:49,  1.30it/s]Training 2/3 epoch (loss 0.0266):  44%|████▍     | 7433/16950 [1:23:06<2:01:49,  1.30it/s]Training 2/3 epoch (loss 0.0266):  44%|████▍     | 7434/16950 [1:23:06<1:52:07,  1.41it/s]Training 2/3 epoch (loss 0.5260):  44%|████▍     | 7434/16950 [1:23:07<1:52:07,  1.41it/s]Training 2/3 epoch (loss 0.5260):  44%|████▍     | 7435/16950 [1:23:07<1:57:10,  1.35it/s]Training 2/3 epoch (loss 0.4775):  44%|████▍     | 7435/16950 [1:23:08<1:57:10,  1.35it/s]Training 2/3 epoch (loss 0.4775):  44%|████▍     | 7436/16950 [1:23:08<2:07:02,  1.25it/s]Training 2/3 epoch (loss 0.1116):  44%|████▍     | 7436/16950 [1:23:08<2:07:02,  1.25it/s]Training 2/3 epoch (loss 0.1116):  44%|████▍     | 7437/16950 [1:23:08<1:57:06,  1.35it/s]Training 2/3 epoch (loss 0.0447):  44%|████▍     | 7437/16950 [1:23:09<1:57:06,  1.35it/s]Training 2/3 epoch (loss 0.0447):  44%|████▍     | 7438/16950 [1:23:09<1:41:49,  1.56it/s]Training 2/3 epoch (loss 0.0197):  44%|████▍     | 7438/16950 [1:23:09<1:41:49,  1.56it/s]Training 2/3 epoch (loss 0.0197):  44%|████▍     | 7439/16950 [1:23:09<1:42:25,  1.55it/s]Training 2/3 epoch (loss 0.0050):  44%|████▍     | 7439/16950 [1:23:10<1:42:25,  1.55it/s]Training 2/3 epoch (loss 0.0050):  44%|████▍     | 7440/16950 [1:23:10<1:54:19,  1.39it/s]Training 2/3 epoch (loss 0.0466):  44%|████▍     | 7440/16950 [1:23:11<1:54:19,  1.39it/s]Training 2/3 epoch (loss 0.0466):  44%|████▍     | 7441/16950 [1:23:11<1:46:46,  1.48it/s]Training 2/3 epoch (loss 0.4060):  44%|████▍     | 7441/16950 [1:23:11<1:46:46,  1.48it/s]Training 2/3 epoch (loss 0.4060):  44%|████▍     | 7442/16950 [1:23:11<1:29:54,  1.76it/s]Training 2/3 epoch (loss 0.5626):  44%|████▍     | 7442/16950 [1:23:12<1:29:54,  1.76it/s]Training 2/3 epoch (loss 0.5626):  44%|████▍     | 7443/16950 [1:23:12<1:32:21,  1.72it/s]Training 2/3 epoch (loss 0.0054):  44%|████▍     | 7443/16950 [1:23:12<1:32:21,  1.72it/s]Training 2/3 epoch (loss 0.0054):  44%|████▍     | 7444/16950 [1:23:12<1:30:01,  1.76it/s]Training 2/3 epoch (loss 0.1452):  44%|████▍     | 7444/16950 [1:23:13<1:30:01,  1.76it/s]Training 2/3 epoch (loss 0.1452):  44%|████▍     | 7445/16950 [1:23:13<1:23:47,  1.89it/s]Training 2/3 epoch (loss 0.3482):  44%|████▍     | 7445/16950 [1:23:13<1:23:47,  1.89it/s]Training 2/3 epoch (loss 0.3482):  44%|████▍     | 7446/16950 [1:23:13<1:35:25,  1.66it/s]Training 2/3 epoch (loss 0.0209):  44%|████▍     | 7446/16950 [1:23:14<1:35:25,  1.66it/s]Training 2/3 epoch (loss 0.0209):  44%|████▍     | 7447/16950 [1:23:14<1:32:49,  1.71it/s]Training 2/3 epoch (loss 0.0976):  44%|████▍     | 7447/16950 [1:23:15<1:32:49,  1.71it/s]Training 2/3 epoch (loss 0.0976):  44%|████▍     | 7448/16950 [1:23:15<1:37:39,  1.62it/s]Training 2/3 epoch (loss 0.3482):  44%|████▍     | 7448/16950 [1:23:15<1:37:39,  1.62it/s]Training 2/3 epoch (loss 0.3482):  44%|████▍     | 7449/16950 [1:23:15<1:37:05,  1.63it/s]Training 2/3 epoch (loss 0.0623):  44%|████▍     | 7449/16950 [1:23:16<1:37:05,  1.63it/s]Training 2/3 epoch (loss 0.0623):  44%|████▍     | 7450/16950 [1:23:16<1:34:20,  1.68it/s]Training 2/3 epoch (loss 0.0009):  44%|████▍     | 7450/16950 [1:23:16<1:34:20,  1.68it/s]Training 2/3 epoch (loss 0.0009):  44%|████▍     | 7451/16950 [1:23:16<1:29:45,  1.76it/s]Training 2/3 epoch (loss 0.3450):  44%|████▍     | 7451/16950 [1:23:17<1:29:45,  1.76it/s]Training 2/3 epoch (loss 0.3450):  44%|████▍     | 7452/16950 [1:23:17<1:36:33,  1.64it/s]Training 2/3 epoch (loss 0.8594):  44%|████▍     | 7452/16950 [1:23:18<1:36:33,  1.64it/s]Training 2/3 epoch (loss 0.8594):  44%|████▍     | 7453/16950 [1:23:18<1:54:20,  1.38it/s]Training 2/3 epoch (loss 0.5395):  44%|████▍     | 7453/16950 [1:23:19<1:54:20,  1.38it/s]Training 2/3 epoch (loss 0.5395):  44%|████▍     | 7454/16950 [1:23:19<1:49:29,  1.45it/s]Training 2/3 epoch (loss 0.5540):  44%|████▍     | 7454/16950 [1:23:19<1:49:29,  1.45it/s]Training 2/3 epoch (loss 0.5540):  44%|████▍     | 7455/16950 [1:23:19<1:42:23,  1.55it/s]Training 2/3 epoch (loss 0.2957):  44%|████▍     | 7455/16950 [1:23:20<1:42:23,  1.55it/s]Training 2/3 epoch (loss 0.2957):  44%|████▍     | 7456/16950 [1:23:20<1:46:06,  1.49it/s]Training 2/3 epoch (loss 0.2889):  44%|████▍     | 7456/16950 [1:23:21<1:46:06,  1.49it/s]Training 2/3 epoch (loss 0.2889):  44%|████▍     | 7457/16950 [1:23:21<1:43:30,  1.53it/s]Training 2/3 epoch (loss 0.2481):  44%|████▍     | 7457/16950 [1:23:21<1:43:30,  1.53it/s]Training 2/3 epoch (loss 0.2481):  44%|████▍     | 7458/16950 [1:23:21<1:36:55,  1.63it/s]Training 2/3 epoch (loss 0.0525):  44%|████▍     | 7458/16950 [1:23:22<1:36:55,  1.63it/s]Training 2/3 epoch (loss 0.0525):  44%|████▍     | 7459/16950 [1:23:22<1:34:06,  1.68it/s]Training 2/3 epoch (loss 1.0567):  44%|████▍     | 7459/16950 [1:23:22<1:34:06,  1.68it/s]Training 2/3 epoch (loss 1.0567):  44%|████▍     | 7460/16950 [1:23:22<1:25:26,  1.85it/s]Training 2/3 epoch (loss 0.0219):  44%|████▍     | 7460/16950 [1:23:23<1:25:26,  1.85it/s]Training 2/3 epoch (loss 0.0219):  44%|████▍     | 7461/16950 [1:23:23<1:28:49,  1.78it/s]Training 2/3 epoch (loss 0.6491):  44%|████▍     | 7461/16950 [1:23:24<1:28:49,  1.78it/s]Training 2/3 epoch (loss 0.6491):  44%|████▍     | 7462/16950 [1:23:24<1:47:55,  1.47it/s]Training 2/3 epoch (loss 0.0050):  44%|████▍     | 7462/16950 [1:23:24<1:47:55,  1.47it/s]Training 2/3 epoch (loss 0.0050):  44%|████▍     | 7463/16950 [1:23:24<1:42:09,  1.55it/s]Training 2/3 epoch (loss 0.0033):  44%|████▍     | 7463/16950 [1:23:25<1:42:09,  1.55it/s]Training 2/3 epoch (loss 0.0033):  44%|████▍     | 7464/16950 [1:23:25<1:36:22,  1.64it/s]Training 2/3 epoch (loss 0.0990):  44%|████▍     | 7464/16950 [1:23:25<1:36:22,  1.64it/s]Training 2/3 epoch (loss 0.0990):  44%|████▍     | 7465/16950 [1:23:25<1:37:02,  1.63it/s]Training 2/3 epoch (loss 0.0012):  44%|████▍     | 7465/16950 [1:23:26<1:37:02,  1.63it/s]Training 2/3 epoch (loss 0.0012):  44%|████▍     | 7466/16950 [1:23:26<1:48:43,  1.45it/s]Training 2/3 epoch (loss 0.2358):  44%|████▍     | 7466/16950 [1:23:27<1:48:43,  1.45it/s]Training 2/3 epoch (loss 0.2358):  44%|████▍     | 7467/16950 [1:23:27<1:44:07,  1.52it/s]Training 2/3 epoch (loss 0.0059):  44%|████▍     | 7467/16950 [1:23:27<1:44:07,  1.52it/s]Training 2/3 epoch (loss 0.0059):  44%|████▍     | 7468/16950 [1:23:27<1:35:16,  1.66it/s]Training 2/3 epoch (loss 0.0047):  44%|████▍     | 7468/16950 [1:23:28<1:35:16,  1.66it/s]Training 2/3 epoch (loss 0.0047):  44%|████▍     | 7469/16950 [1:23:28<1:32:09,  1.71it/s]Training 2/3 epoch (loss 0.0337):  44%|████▍     | 7469/16950 [1:23:28<1:32:09,  1.71it/s]Training 2/3 epoch (loss 0.0337):  44%|████▍     | 7470/16950 [1:23:28<1:30:53,  1.74it/s]Training 2/3 epoch (loss 0.0312):  44%|████▍     | 7470/16950 [1:23:29<1:30:53,  1.74it/s]Training 2/3 epoch (loss 0.0312):  44%|████▍     | 7471/16950 [1:23:29<1:23:49,  1.88it/s]Training 2/3 epoch (loss 0.3328):  44%|████▍     | 7471/16950 [1:23:29<1:23:49,  1.88it/s]Training 2/3 epoch (loss 0.3328):  44%|████▍     | 7472/16950 [1:23:29<1:20:33,  1.96it/s]Training 2/3 epoch (loss 0.0068):  44%|████▍     | 7472/16950 [1:23:30<1:20:33,  1.96it/s]Training 2/3 epoch (loss 0.0068):  44%|████▍     | 7473/16950 [1:23:30<1:17:55,  2.03it/s]Training 2/3 epoch (loss 0.0050):  44%|████▍     | 7473/16950 [1:23:30<1:17:55,  2.03it/s]Training 2/3 epoch (loss 0.0050):  44%|████▍     | 7474/16950 [1:23:30<1:24:16,  1.87it/s]Training 2/3 epoch (loss 0.0578):  44%|████▍     | 7474/16950 [1:23:31<1:24:16,  1.87it/s]Training 2/3 epoch (loss 0.0578):  44%|████▍     | 7475/16950 [1:23:31<1:29:09,  1.77it/s]Training 2/3 epoch (loss 0.0010):  44%|████▍     | 7475/16950 [1:23:32<1:29:09,  1.77it/s]Training 2/3 epoch (loss 0.0010):  44%|████▍     | 7476/16950 [1:23:32<1:35:27,  1.65it/s]Training 2/3 epoch (loss 0.0571):  44%|████▍     | 7476/16950 [1:23:32<1:35:27,  1.65it/s]Training 2/3 epoch (loss 0.0571):  44%|████▍     | 7477/16950 [1:23:32<1:26:00,  1.84it/s]Training 2/3 epoch (loss 0.0027):  44%|████▍     | 7477/16950 [1:23:33<1:26:00,  1.84it/s]Training 2/3 epoch (loss 0.0027):  44%|████▍     | 7478/16950 [1:23:33<1:21:26,  1.94it/s]Training 2/3 epoch (loss 0.0003):  44%|████▍     | 7478/16950 [1:23:33<1:21:26,  1.94it/s]Training 2/3 epoch (loss 0.0003):  44%|████▍     | 7479/16950 [1:23:33<1:15:28,  2.09it/s]Training 2/3 epoch (loss 0.1654):  44%|████▍     | 7479/16950 [1:23:33<1:15:28,  2.09it/s]Training 2/3 epoch (loss 0.1654):  44%|████▍     | 7480/16950 [1:23:33<1:16:47,  2.06it/s]Training 2/3 epoch (loss 0.0227):  44%|████▍     | 7480/16950 [1:23:34<1:16:47,  2.06it/s]Training 2/3 epoch (loss 0.0227):  44%|████▍     | 7481/16950 [1:23:34<1:16:34,  2.06it/s]Training 2/3 epoch (loss 0.1524):  44%|████▍     | 7481/16950 [1:23:34<1:16:34,  2.06it/s]Training 2/3 epoch (loss 0.1524):  44%|████▍     | 7482/16950 [1:23:34<1:15:47,  2.08it/s]Training 2/3 epoch (loss 0.0002):  44%|████▍     | 7482/16950 [1:23:35<1:15:47,  2.08it/s]Training 2/3 epoch (loss 0.0002):  44%|████▍     | 7483/16950 [1:23:35<1:17:49,  2.03it/s]Training 2/3 epoch (loss 0.0121):  44%|████▍     | 7483/16950 [1:23:36<1:17:49,  2.03it/s]Training 2/3 epoch (loss 0.0121):  44%|████▍     | 7484/16950 [1:23:36<1:32:15,  1.71it/s]Training 2/3 epoch (loss 0.4748):  44%|████▍     | 7484/16950 [1:23:36<1:32:15,  1.71it/s]Training 2/3 epoch (loss 0.4748):  44%|████▍     | 7485/16950 [1:23:36<1:39:19,  1.59it/s]Training 2/3 epoch (loss 0.0031):  44%|████▍     | 7485/16950 [1:23:37<1:39:19,  1.59it/s]Training 2/3 epoch (loss 0.0031):  44%|████▍     | 7486/16950 [1:23:37<1:34:14,  1.67it/s]Training 2/3 epoch (loss 0.5365):  44%|████▍     | 7486/16950 [1:23:37<1:34:14,  1.67it/s]Training 2/3 epoch (loss 0.5365):  44%|████▍     | 7487/16950 [1:23:37<1:28:50,  1.78it/s]Training 2/3 epoch (loss 0.4949):  44%|████▍     | 7487/16950 [1:23:38<1:28:50,  1.78it/s]Training 2/3 epoch (loss 0.4949):  44%|████▍     | 7488/16950 [1:23:38<1:33:29,  1.69it/s]Training 2/3 epoch (loss 0.0591):  44%|████▍     | 7488/16950 [1:23:39<1:33:29,  1.69it/s]Training 2/3 epoch (loss 0.0591):  44%|████▍     | 7489/16950 [1:23:39<1:35:00,  1.66it/s]Training 2/3 epoch (loss 0.0766):  44%|████▍     | 7489/16950 [1:23:39<1:35:00,  1.66it/s]Training 2/3 epoch (loss 0.0766):  44%|████▍     | 7490/16950 [1:23:39<1:36:18,  1.64it/s]Training 2/3 epoch (loss 0.0347):  44%|████▍     | 7490/16950 [1:23:40<1:36:18,  1.64it/s]Training 2/3 epoch (loss 0.0347):  44%|████▍     | 7491/16950 [1:23:40<1:35:49,  1.65it/s]Training 2/3 epoch (loss 0.0018):  44%|████▍     | 7491/16950 [1:23:41<1:35:49,  1.65it/s]Training 2/3 epoch (loss 0.0018):  44%|████▍     | 7492/16950 [1:23:41<1:35:09,  1.66it/s]Training 2/3 epoch (loss 0.0387):  44%|████▍     | 7492/16950 [1:23:41<1:35:09,  1.66it/s]Training 2/3 epoch (loss 0.0387):  44%|████▍     | 7493/16950 [1:23:41<1:39:35,  1.58it/s]Training 2/3 epoch (loss 0.0009):  44%|████▍     | 7493/16950 [1:23:42<1:39:35,  1.58it/s]Training 2/3 epoch (loss 0.0009):  44%|████▍     | 7494/16950 [1:23:42<1:41:17,  1.56it/s]Training 2/3 epoch (loss 0.3886):  44%|████▍     | 7494/16950 [1:23:42<1:41:17,  1.56it/s]Training 2/3 epoch (loss 0.3886):  44%|████▍     | 7495/16950 [1:23:42<1:33:41,  1.68it/s]Training 2/3 epoch (loss 0.3020):  44%|████▍     | 7495/16950 [1:23:43<1:33:41,  1.68it/s]Training 2/3 epoch (loss 0.3020):  44%|████▍     | 7496/16950 [1:23:43<1:24:48,  1.86it/s]Training 2/3 epoch (loss 0.0006):  44%|████▍     | 7496/16950 [1:23:43<1:24:48,  1.86it/s]Training 2/3 epoch (loss 0.0006):  44%|████▍     | 7497/16950 [1:23:43<1:26:45,  1.82it/s]Training 2/3 epoch (loss 0.0010):  44%|████▍     | 7497/16950 [1:23:44<1:26:45,  1.82it/s]Training 2/3 epoch (loss 0.0010):  44%|████▍     | 7498/16950 [1:23:44<1:25:41,  1.84it/s]Training 2/3 epoch (loss 0.0040):  44%|████▍     | 7498/16950 [1:23:44<1:25:41,  1.84it/s]Training 2/3 epoch (loss 0.0040):  44%|████▍     | 7499/16950 [1:23:44<1:23:59,  1.88it/s]Training 2/3 epoch (loss 0.2414):  44%|████▍     | 7499/16950 [1:23:45<1:23:59,  1.88it/s]Training 2/3 epoch (loss 0.2414):  44%|████▍     | 7500/16950 [1:23:45<1:14:32,  2.11it/s]Training 2/3 epoch (loss 0.0005):  44%|████▍     | 7500/16950 [1:23:45<1:14:32,  2.11it/s]Training 2/3 epoch (loss 0.0005):  44%|████▍     | 7501/16950 [1:23:45<1:09:28,  2.27it/s]Training 2/3 epoch (loss 0.5538):  44%|████▍     | 7501/16950 [1:23:45<1:09:28,  2.27it/s]Training 2/3 epoch (loss 0.5538):  44%|████▍     | 7502/16950 [1:23:45<1:04:04,  2.46it/s]Training 2/3 epoch (loss 0.1775):  44%|████▍     | 7502/16950 [1:23:46<1:04:04,  2.46it/s]Training 2/3 epoch (loss 0.1775):  44%|████▍     | 7503/16950 [1:23:46<1:24:08,  1.87it/s]Training 2/3 epoch (loss 0.2725):  44%|████▍     | 7503/16950 [1:23:47<1:24:08,  1.87it/s]Training 2/3 epoch (loss 0.2725):  44%|████▍     | 7504/16950 [1:23:47<1:24:09,  1.87it/s]Training 2/3 epoch (loss 0.1558):  44%|████▍     | 7504/16950 [1:23:47<1:24:09,  1.87it/s]Training 2/3 epoch (loss 0.1558):  44%|████▍     | 7505/16950 [1:23:47<1:20:32,  1.95it/s]Training 2/3 epoch (loss 0.0088):  44%|████▍     | 7505/16950 [1:23:48<1:20:32,  1.95it/s]Training 2/3 epoch (loss 0.0088):  44%|████▍     | 7506/16950 [1:23:48<1:15:01,  2.10it/s]Training 2/3 epoch (loss 0.2260):  44%|████▍     | 7506/16950 [1:23:48<1:15:01,  2.10it/s]Training 2/3 epoch (loss 0.2260):  44%|████▍     | 7507/16950 [1:23:48<1:23:41,  1.88it/s]Training 2/3 epoch (loss 0.1080):  44%|████▍     | 7507/16950 [1:23:49<1:23:41,  1.88it/s]Training 2/3 epoch (loss 0.1080):  44%|████▍     | 7508/16950 [1:23:49<1:26:41,  1.82it/s]Training 2/3 epoch (loss 0.0418):  44%|████▍     | 7508/16950 [1:23:49<1:26:41,  1.82it/s]Training 2/3 epoch (loss 0.0418):  44%|████▍     | 7509/16950 [1:23:49<1:24:40,  1.86it/s]Training 2/3 epoch (loss 0.3509):  44%|████▍     | 7509/16950 [1:23:50<1:24:40,  1.86it/s]Training 2/3 epoch (loss 0.3509):  44%|████▍     | 7510/16950 [1:23:50<1:28:56,  1.77it/s]Training 2/3 epoch (loss 0.0397):  44%|████▍     | 7510/16950 [1:23:51<1:28:56,  1.77it/s]Training 2/3 epoch (loss 0.0397):  44%|████▍     | 7511/16950 [1:23:51<1:44:50,  1.50it/s]Training 2/3 epoch (loss 0.0704):  44%|████▍     | 7511/16950 [1:23:52<1:44:50,  1.50it/s]Training 2/3 epoch (loss 0.0704):  44%|████▍     | 7512/16950 [1:23:52<1:48:58,  1.44it/s]Training 2/3 epoch (loss 0.0977):  44%|████▍     | 7512/16950 [1:23:52<1:48:58,  1.44it/s]Training 2/3 epoch (loss 0.0977):  44%|████▍     | 7513/16950 [1:23:52<1:43:17,  1.52it/s]Training 2/3 epoch (loss 0.2844):  44%|████▍     | 7513/16950 [1:23:53<1:43:17,  1.52it/s]Training 2/3 epoch (loss 0.2844):  44%|████▍     | 7514/16950 [1:23:53<1:45:37,  1.49it/s]Training 2/3 epoch (loss 0.0066):  44%|████▍     | 7514/16950 [1:23:53<1:45:37,  1.49it/s]Training 2/3 epoch (loss 0.0066):  44%|████▍     | 7515/16950 [1:23:53<1:31:26,  1.72it/s]Training 2/3 epoch (loss 0.3399):  44%|████▍     | 7515/16950 [1:23:54<1:31:26,  1.72it/s]Training 2/3 epoch (loss 0.3399):  44%|████▍     | 7516/16950 [1:23:54<1:26:32,  1.82it/s]Training 2/3 epoch (loss 0.1108):  44%|████▍     | 7516/16950 [1:23:54<1:26:32,  1.82it/s]Training 2/3 epoch (loss 0.1108):  44%|████▍     | 7517/16950 [1:23:54<1:26:17,  1.82it/s]Training 2/3 epoch (loss 0.0027):  44%|████▍     | 7517/16950 [1:23:55<1:26:17,  1.82it/s]Training 2/3 epoch (loss 0.0027):  44%|████▍     | 7518/16950 [1:23:55<1:30:52,  1.73it/s]Training 2/3 epoch (loss 0.5918):  44%|████▍     | 7518/16950 [1:23:55<1:30:52,  1.73it/s]Training 2/3 epoch (loss 0.5918):  44%|████▍     | 7519/16950 [1:23:55<1:24:35,  1.86it/s]Training 2/3 epoch (loss 1.0491):  44%|████▍     | 7519/16950 [1:23:56<1:24:35,  1.86it/s]Training 2/3 epoch (loss 1.0491):  44%|████▍     | 7520/16950 [1:23:56<1:30:17,  1.74it/s]Training 2/3 epoch (loss 0.7172):  44%|████▍     | 7520/16950 [1:23:57<1:30:17,  1.74it/s]Training 2/3 epoch (loss 0.7172):  44%|████▍     | 7521/16950 [1:23:57<1:25:54,  1.83it/s]Training 2/3 epoch (loss 0.0038):  44%|████▍     | 7521/16950 [1:23:57<1:25:54,  1.83it/s]Training 2/3 epoch (loss 0.0038):  44%|████▍     | 7522/16950 [1:23:57<1:29:50,  1.75it/s]Training 2/3 epoch (loss 0.0401):  44%|████▍     | 7522/16950 [1:23:58<1:29:50,  1.75it/s]Training 2/3 epoch (loss 0.0401):  44%|████▍     | 7523/16950 [1:23:58<1:36:22,  1.63it/s]Training 2/3 epoch (loss 0.0519):  44%|████▍     | 7523/16950 [1:23:59<1:36:22,  1.63it/s]Training 2/3 epoch (loss 0.0519):  44%|████▍     | 7524/16950 [1:23:59<1:35:58,  1.64it/s]Training 2/3 epoch (loss 0.0029):  44%|████▍     | 7524/16950 [1:23:59<1:35:58,  1.64it/s]Training 2/3 epoch (loss 0.0029):  44%|████▍     | 7525/16950 [1:23:59<1:25:19,  1.84it/s]Training 2/3 epoch (loss 0.2514):  44%|████▍     | 7525/16950 [1:23:59<1:25:19,  1.84it/s]Training 2/3 epoch (loss 0.2514):  44%|████▍     | 7526/16950 [1:23:59<1:19:28,  1.98it/s]Training 2/3 epoch (loss 0.6376):  44%|████▍     | 7526/16950 [1:24:00<1:19:28,  1.98it/s]Training 2/3 epoch (loss 0.6376):  44%|████▍     | 7527/16950 [1:24:00<1:36:26,  1.63it/s]Training 2/3 epoch (loss 0.0315):  44%|████▍     | 7527/16950 [1:24:01<1:36:26,  1.63it/s]Training 2/3 epoch (loss 0.0315):  44%|████▍     | 7528/16950 [1:24:01<1:31:24,  1.72it/s]Training 2/3 epoch (loss 0.0065):  44%|████▍     | 7528/16950 [1:24:01<1:31:24,  1.72it/s]Training 2/3 epoch (loss 0.0065):  44%|████▍     | 7529/16950 [1:24:01<1:28:06,  1.78it/s]Training 2/3 epoch (loss 0.1339):  44%|████▍     | 7529/16950 [1:24:02<1:28:06,  1.78it/s]Training 2/3 epoch (loss 0.1339):  44%|████▍     | 7530/16950 [1:24:02<1:28:57,  1.76it/s]Training 2/3 epoch (loss 0.0024):  44%|████▍     | 7530/16950 [1:24:02<1:28:57,  1.76it/s]Training 2/3 epoch (loss 0.0024):  44%|████▍     | 7531/16950 [1:24:02<1:26:19,  1.82it/s]Training 2/3 epoch (loss 0.0096):  44%|████▍     | 7531/16950 [1:24:03<1:26:19,  1.82it/s]Training 2/3 epoch (loss 0.0096):  44%|████▍     | 7532/16950 [1:24:03<1:24:35,  1.86it/s]Training 2/3 epoch (loss 0.4757):  44%|████▍     | 7532/16950 [1:24:04<1:24:35,  1.86it/s]Training 2/3 epoch (loss 0.4757):  44%|████▍     | 7533/16950 [1:24:04<1:48:48,  1.44it/s]Training 2/3 epoch (loss 0.0991):  44%|████▍     | 7533/16950 [1:24:05<1:48:48,  1.44it/s]Training 2/3 epoch (loss 0.0991):  44%|████▍     | 7534/16950 [1:24:05<1:51:14,  1.41it/s]Training 2/3 epoch (loss 0.1906):  44%|████▍     | 7534/16950 [1:24:05<1:51:14,  1.41it/s]Training 2/3 epoch (loss 0.1906):  44%|████▍     | 7535/16950 [1:24:05<1:42:46,  1.53it/s]Training 2/3 epoch (loss 0.1733):  44%|████▍     | 7535/16950 [1:24:06<1:42:46,  1.53it/s]Training 2/3 epoch (loss 0.1733):  44%|████▍     | 7536/16950 [1:24:06<1:33:06,  1.69it/s]Training 2/3 epoch (loss 0.0055):  44%|████▍     | 7536/16950 [1:24:06<1:33:06,  1.69it/s]Training 2/3 epoch (loss 0.0055):  44%|████▍     | 7537/16950 [1:24:06<1:28:35,  1.77it/s]Training 2/3 epoch (loss 0.0032):  44%|████▍     | 7537/16950 [1:24:07<1:28:35,  1.77it/s]Training 2/3 epoch (loss 0.0032):  44%|████▍     | 7538/16950 [1:24:07<1:24:32,  1.86it/s]Training 2/3 epoch (loss 0.0080):  44%|████▍     | 7538/16950 [1:24:07<1:24:32,  1.86it/s]Training 2/3 epoch (loss 0.0080):  44%|████▍     | 7539/16950 [1:24:07<1:32:43,  1.69it/s]Training 2/3 epoch (loss 0.3178):  44%|████▍     | 7539/16950 [1:24:08<1:32:43,  1.69it/s]Training 2/3 epoch (loss 0.3178):  44%|████▍     | 7540/16950 [1:24:08<1:37:09,  1.61it/s]Training 2/3 epoch (loss 0.0021):  44%|████▍     | 7540/16950 [1:24:09<1:37:09,  1.61it/s]Training 2/3 epoch (loss 0.0021):  44%|████▍     | 7541/16950 [1:24:09<1:40:35,  1.56it/s]Training 2/3 epoch (loss 0.0205):  44%|████▍     | 7541/16950 [1:24:09<1:40:35,  1.56it/s]Training 2/3 epoch (loss 0.0205):  44%|████▍     | 7542/16950 [1:24:09<1:44:43,  1.50it/s]Training 2/3 epoch (loss 0.4521):  44%|████▍     | 7542/16950 [1:24:10<1:44:43,  1.50it/s]Training 2/3 epoch (loss 0.4521):  45%|████▍     | 7543/16950 [1:24:10<1:33:23,  1.68it/s]Training 2/3 epoch (loss 0.0001):  45%|████▍     | 7543/16950 [1:24:10<1:33:23,  1.68it/s]Training 2/3 epoch (loss 0.0001):  45%|████▍     | 7544/16950 [1:24:10<1:28:57,  1.76it/s]Training 2/3 epoch (loss 0.0162):  45%|████▍     | 7544/16950 [1:24:11<1:28:57,  1.76it/s]Training 2/3 epoch (loss 0.0162):  45%|████▍     | 7545/16950 [1:24:11<1:31:53,  1.71it/s]Training 2/3 epoch (loss 0.0097):  45%|████▍     | 7545/16950 [1:24:12<1:31:53,  1.71it/s]Training 2/3 epoch (loss 0.0097):  45%|████▍     | 7546/16950 [1:24:12<1:30:28,  1.73it/s]Training 2/3 epoch (loss 0.0005):  45%|████▍     | 7546/16950 [1:24:12<1:30:28,  1.73it/s]Training 2/3 epoch (loss 0.0005):  45%|████▍     | 7547/16950 [1:24:12<1:35:31,  1.64it/s]Training 2/3 epoch (loss 0.0997):  45%|████▍     | 7547/16950 [1:24:13<1:35:31,  1.64it/s]Training 2/3 epoch (loss 0.0997):  45%|████▍     | 7548/16950 [1:24:13<1:34:05,  1.67it/s]Training 2/3 epoch (loss 0.0025):  45%|████▍     | 7548/16950 [1:24:13<1:34:05,  1.67it/s]Training 2/3 epoch (loss 0.0025):  45%|████▍     | 7549/16950 [1:24:13<1:23:52,  1.87it/s]Training 2/3 epoch (loss 0.0939):  45%|████▍     | 7549/16950 [1:24:14<1:23:52,  1.87it/s]Training 2/3 epoch (loss 0.0939):  45%|████▍     | 7550/16950 [1:24:14<1:20:54,  1.94it/s]Training 2/3 epoch (loss 0.2920):  45%|████▍     | 7550/16950 [1:24:14<1:20:54,  1.94it/s]Training 2/3 epoch (loss 0.2920):  45%|████▍     | 7551/16950 [1:24:14<1:26:27,  1.81it/s]Training 2/3 epoch (loss 0.0506):  45%|████▍     | 7551/16950 [1:24:15<1:26:27,  1.81it/s]Training 2/3 epoch (loss 0.0506):  45%|████▍     | 7552/16950 [1:24:15<1:27:01,  1.80it/s]Training 2/3 epoch (loss 0.3018):  45%|████▍     | 7552/16950 [1:24:15<1:27:01,  1.80it/s]Training 2/3 epoch (loss 0.3018):  45%|████▍     | 7553/16950 [1:24:15<1:30:43,  1.73it/s]Training 2/3 epoch (loss 0.0478):  45%|████▍     | 7553/16950 [1:24:16<1:30:43,  1.73it/s]Training 2/3 epoch (loss 0.0478):  45%|████▍     | 7554/16950 [1:24:16<1:28:04,  1.78it/s]Training 2/3 epoch (loss 0.0017):  45%|████▍     | 7554/16950 [1:24:16<1:28:04,  1.78it/s]Training 2/3 epoch (loss 0.0017):  45%|████▍     | 7555/16950 [1:24:16<1:21:37,  1.92it/s]Training 2/3 epoch (loss 0.0183):  45%|████▍     | 7555/16950 [1:24:17<1:21:37,  1.92it/s]Training 2/3 epoch (loss 0.0183):  45%|████▍     | 7556/16950 [1:24:17<1:23:14,  1.88it/s]Training 2/3 epoch (loss 0.0005):  45%|████▍     | 7556/16950 [1:24:17<1:23:14,  1.88it/s]Training 2/3 epoch (loss 0.0005):  45%|████▍     | 7557/16950 [1:24:17<1:18:40,  1.99it/s]Training 2/3 epoch (loss 0.0042):  45%|████▍     | 7557/16950 [1:24:18<1:18:40,  1.99it/s]Training 2/3 epoch (loss 0.0042):  45%|████▍     | 7558/16950 [1:24:18<1:15:18,  2.08it/s]Training 2/3 epoch (loss 0.0004):  45%|████▍     | 7558/16950 [1:24:18<1:15:18,  2.08it/s]Training 2/3 epoch (loss 0.0004):  45%|████▍     | 7559/16950 [1:24:18<1:16:53,  2.04it/s]Training 2/3 epoch (loss 0.3825):  45%|████▍     | 7559/16950 [1:24:19<1:16:53,  2.04it/s]Training 2/3 epoch (loss 0.3825):  45%|████▍     | 7560/16950 [1:24:19<1:11:22,  2.19it/s]Training 2/3 epoch (loss 0.3489):  45%|████▍     | 7560/16950 [1:24:20<1:11:22,  2.19it/s]Training 2/3 epoch (loss 0.3489):  45%|████▍     | 7561/16950 [1:24:20<1:27:49,  1.78it/s]Training 2/3 epoch (loss 0.0006):  45%|████▍     | 7561/16950 [1:24:20<1:27:49,  1.78it/s]Training 2/3 epoch (loss 0.0006):  45%|████▍     | 7562/16950 [1:24:20<1:28:26,  1.77it/s]Training 2/3 epoch (loss 0.3095):  45%|████▍     | 7562/16950 [1:24:21<1:28:26,  1.77it/s]Training 2/3 epoch (loss 0.3095):  45%|████▍     | 7563/16950 [1:24:21<1:22:15,  1.90it/s]Training 2/3 epoch (loss 0.0205):  45%|████▍     | 7563/16950 [1:24:21<1:22:15,  1.90it/s]Training 2/3 epoch (loss 0.0205):  45%|████▍     | 7564/16950 [1:24:21<1:39:46,  1.57it/s]Training 2/3 epoch (loss 0.1857):  45%|████▍     | 7564/16950 [1:24:22<1:39:46,  1.57it/s]Training 2/3 epoch (loss 0.1857):  45%|████▍     | 7565/16950 [1:24:22<1:39:52,  1.57it/s]Training 2/3 epoch (loss 0.1621):  45%|████▍     | 7565/16950 [1:24:23<1:39:52,  1.57it/s]Training 2/3 epoch (loss 0.1621):  45%|████▍     | 7566/16950 [1:24:23<1:32:08,  1.70it/s]Training 2/3 epoch (loss 0.0004):  45%|████▍     | 7566/16950 [1:24:23<1:32:08,  1.70it/s]Training 2/3 epoch (loss 0.0004):  45%|████▍     | 7567/16950 [1:24:23<1:23:42,  1.87it/s]Training 2/3 epoch (loss 0.0112):  45%|████▍     | 7567/16950 [1:24:23<1:23:42,  1.87it/s]Training 2/3 epoch (loss 0.0112):  45%|████▍     | 7568/16950 [1:24:23<1:19:56,  1.96it/s]Training 2/3 epoch (loss 0.0502):  45%|████▍     | 7568/16950 [1:24:24<1:19:56,  1.96it/s]Training 2/3 epoch (loss 0.0502):  45%|████▍     | 7569/16950 [1:24:24<1:19:44,  1.96it/s]Training 2/3 epoch (loss 0.3126):  45%|████▍     | 7569/16950 [1:24:25<1:19:44,  1.96it/s]Training 2/3 epoch (loss 0.3126):  45%|████▍     | 7570/16950 [1:24:25<1:35:19,  1.64it/s]Training 2/3 epoch (loss 0.0178):  45%|████▍     | 7570/16950 [1:24:26<1:35:19,  1.64it/s]Training 2/3 epoch (loss 0.0178):  45%|████▍     | 7571/16950 [1:24:26<1:41:37,  1.54it/s]Training 2/3 epoch (loss 0.0840):  45%|████▍     | 7571/16950 [1:24:26<1:41:37,  1.54it/s]Training 2/3 epoch (loss 0.0840):  45%|████▍     | 7572/16950 [1:24:26<1:56:53,  1.34it/s]Training 2/3 epoch (loss 0.0450):  45%|████▍     | 7572/16950 [1:24:27<1:56:53,  1.34it/s]Training 2/3 epoch (loss 0.0450):  45%|████▍     | 7573/16950 [1:24:27<1:50:14,  1.42it/s]Training 2/3 epoch (loss 0.0211):  45%|████▍     | 7573/16950 [1:24:28<1:50:14,  1.42it/s]Training 2/3 epoch (loss 0.0211):  45%|████▍     | 7574/16950 [1:24:28<1:37:14,  1.61it/s]Training 2/3 epoch (loss 0.0034):  45%|████▍     | 7574/16950 [1:24:28<1:37:14,  1.61it/s]Training 2/3 epoch (loss 0.0034):  45%|████▍     | 7575/16950 [1:24:28<1:30:55,  1.72it/s]Training 2/3 epoch (loss 0.4403):  45%|████▍     | 7575/16950 [1:24:29<1:30:55,  1.72it/s]Training 2/3 epoch (loss 0.4403):  45%|████▍     | 7576/16950 [1:24:29<1:30:28,  1.73it/s]Training 2/3 epoch (loss 0.6477):  45%|████▍     | 7576/16950 [1:24:29<1:30:28,  1.73it/s]Training 2/3 epoch (loss 0.6477):  45%|████▍     | 7577/16950 [1:24:29<1:28:02,  1.77it/s]Training 2/3 epoch (loss 0.0590):  45%|████▍     | 7577/16950 [1:24:30<1:28:02,  1.77it/s]Training 2/3 epoch (loss 0.0590):  45%|████▍     | 7578/16950 [1:24:30<1:22:33,  1.89it/s]Training 2/3 epoch (loss 0.0073):  45%|████▍     | 7578/16950 [1:24:30<1:22:33,  1.89it/s]Training 2/3 epoch (loss 0.0073):  45%|████▍     | 7579/16950 [1:24:30<1:17:55,  2.00it/s]Training 2/3 epoch (loss 0.0014):  45%|████▍     | 7579/16950 [1:24:31<1:17:55,  2.00it/s]Training 2/3 epoch (loss 0.0014):  45%|████▍     | 7580/16950 [1:24:31<1:23:05,  1.88it/s]Training 2/3 epoch (loss 0.5869):  45%|████▍     | 7580/16950 [1:24:32<1:23:05,  1.88it/s]Training 2/3 epoch (loss 0.5869):  45%|████▍     | 7581/16950 [1:24:32<1:43:16,  1.51it/s]Training 2/3 epoch (loss 0.0847):  45%|████▍     | 7581/16950 [1:24:32<1:43:16,  1.51it/s]Training 2/3 epoch (loss 0.0847):  45%|████▍     | 7582/16950 [1:24:32<1:40:47,  1.55it/s]Training 2/3 epoch (loss 0.0154):  45%|████▍     | 7582/16950 [1:24:33<1:40:47,  1.55it/s]Training 2/3 epoch (loss 0.0154):  45%|████▍     | 7583/16950 [1:24:33<1:38:07,  1.59it/s]Training 2/3 epoch (loss 0.2755):  45%|████▍     | 7583/16950 [1:24:34<1:38:07,  1.59it/s]Training 2/3 epoch (loss 0.2755):  45%|████▍     | 7584/16950 [1:24:34<1:49:53,  1.42it/s]Training 2/3 epoch (loss 0.0034):  45%|████▍     | 7584/16950 [1:24:34<1:49:53,  1.42it/s]Training 2/3 epoch (loss 0.0034):  45%|████▍     | 7585/16950 [1:24:34<1:52:57,  1.38it/s]Training 2/3 epoch (loss 0.0282):  45%|████▍     | 7585/16950 [1:24:35<1:52:57,  1.38it/s]Training 2/3 epoch (loss 0.0282):  45%|████▍     | 7586/16950 [1:24:35<1:47:23,  1.45it/s]Training 2/3 epoch (loss 0.3208):  45%|████▍     | 7586/16950 [1:24:36<1:47:23,  1.45it/s]Training 2/3 epoch (loss 0.3208):  45%|████▍     | 7587/16950 [1:24:36<1:38:11,  1.59it/s]Training 2/3 epoch (loss 0.0003):  45%|████▍     | 7587/16950 [1:24:36<1:38:11,  1.59it/s]Training 2/3 epoch (loss 0.0003):  45%|████▍     | 7588/16950 [1:24:36<1:33:13,  1.67it/s]Training 2/3 epoch (loss 0.0410):  45%|████▍     | 7588/16950 [1:24:37<1:33:13,  1.67it/s]Training 2/3 epoch (loss 0.0410):  45%|████▍     | 7589/16950 [1:24:37<1:31:16,  1.71it/s]Training 2/3 epoch (loss 0.0193):  45%|████▍     | 7589/16950 [1:24:37<1:31:16,  1.71it/s]Training 2/3 epoch (loss 0.0193):  45%|████▍     | 7590/16950 [1:24:37<1:27:40,  1.78it/s]Training 2/3 epoch (loss 0.5638):  45%|████▍     | 7590/16950 [1:24:38<1:27:40,  1.78it/s]Training 2/3 epoch (loss 0.5638):  45%|████▍     | 7591/16950 [1:24:38<1:22:48,  1.88it/s]Training 2/3 epoch (loss 0.0040):  45%|████▍     | 7591/16950 [1:24:38<1:22:48,  1.88it/s]Training 2/3 epoch (loss 0.0040):  45%|████▍     | 7592/16950 [1:24:38<1:23:34,  1.87it/s]Training 2/3 epoch (loss 0.0030):  45%|████▍     | 7592/16950 [1:24:39<1:23:34,  1.87it/s]Training 2/3 epoch (loss 0.0030):  45%|████▍     | 7593/16950 [1:24:39<1:25:16,  1.83it/s]Training 2/3 epoch (loss 0.0052):  45%|████▍     | 7593/16950 [1:24:39<1:25:16,  1.83it/s]Training 2/3 epoch (loss 0.0052):  45%|████▍     | 7594/16950 [1:24:39<1:25:31,  1.82it/s]Training 2/3 epoch (loss 0.0045):  45%|████▍     | 7594/16950 [1:24:40<1:25:31,  1.82it/s]Training 2/3 epoch (loss 0.0045):  45%|████▍     | 7595/16950 [1:24:40<1:24:23,  1.85it/s]Training 2/3 epoch (loss 0.4354):  45%|████▍     | 7595/16950 [1:24:40<1:24:23,  1.85it/s]Training 2/3 epoch (loss 0.4354):  45%|████▍     | 7596/16950 [1:24:40<1:22:03,  1.90it/s]Training 2/3 epoch (loss 0.0192):  45%|████▍     | 7596/16950 [1:24:41<1:22:03,  1.90it/s]Training 2/3 epoch (loss 0.0192):  45%|████▍     | 7597/16950 [1:24:41<1:19:57,  1.95it/s]Training 2/3 epoch (loss 0.0475):  45%|████▍     | 7597/16950 [1:24:41<1:19:57,  1.95it/s]Training 2/3 epoch (loss 0.0475):  45%|████▍     | 7598/16950 [1:24:41<1:17:17,  2.02it/s]Training 2/3 epoch (loss 0.4994):  45%|████▍     | 7598/16950 [1:24:42<1:17:17,  2.02it/s]Training 2/3 epoch (loss 0.4994):  45%|████▍     | 7599/16950 [1:24:42<1:18:14,  1.99it/s]Training 2/3 epoch (loss 0.0160):  45%|████▍     | 7599/16950 [1:24:42<1:18:14,  1.99it/s]Training 2/3 epoch (loss 0.0160):  45%|████▍     | 7600/16950 [1:24:42<1:28:39,  1.76it/s]Training 2/3 epoch (loss 0.1545):  45%|████▍     | 7600/16950 [1:24:43<1:28:39,  1.76it/s]Training 2/3 epoch (loss 0.1545):  45%|████▍     | 7601/16950 [1:24:43<1:44:27,  1.49it/s]Training 2/3 epoch (loss 0.1166):  45%|████▍     | 7601/16950 [1:24:44<1:44:27,  1.49it/s]Training 2/3 epoch (loss 0.1166):  45%|████▍     | 7602/16950 [1:24:44<1:40:29,  1.55it/s]Training 2/3 epoch (loss 0.1991):  45%|████▍     | 7602/16950 [1:24:44<1:40:29,  1.55it/s]Training 2/3 epoch (loss 0.1991):  45%|████▍     | 7603/16950 [1:24:44<1:36:31,  1.61it/s]Training 2/3 epoch (loss 0.1914):  45%|████▍     | 7603/16950 [1:24:45<1:36:31,  1.61it/s]Training 2/3 epoch (loss 0.1914):  45%|████▍     | 7604/16950 [1:24:45<1:32:34,  1.68it/s]Training 2/3 epoch (loss 0.3178):  45%|████▍     | 7604/16950 [1:24:45<1:32:34,  1.68it/s]Training 2/3 epoch (loss 0.3178):  45%|████▍     | 7605/16950 [1:24:45<1:24:16,  1.85it/s]Training 2/3 epoch (loss 0.3468):  45%|████▍     | 7605/16950 [1:24:46<1:24:16,  1.85it/s]Training 2/3 epoch (loss 0.3468):  45%|████▍     | 7606/16950 [1:24:46<1:19:51,  1.95it/s]Training 2/3 epoch (loss 0.0350):  45%|████▍     | 7606/16950 [1:24:46<1:19:51,  1.95it/s]Training 2/3 epoch (loss 0.0350):  45%|████▍     | 7607/16950 [1:24:46<1:21:35,  1.91it/s]Training 2/3 epoch (loss 0.2605):  45%|████▍     | 7607/16950 [1:24:47<1:21:35,  1.91it/s]Training 2/3 epoch (loss 0.2605):  45%|████▍     | 7608/16950 [1:24:47<1:12:59,  2.13it/s]Training 2/3 epoch (loss 0.0279):  45%|████▍     | 7608/16950 [1:24:47<1:12:59,  2.13it/s]Training 2/3 epoch (loss 0.0279):  45%|████▍     | 7609/16950 [1:24:47<1:15:45,  2.05it/s]Training 2/3 epoch (loss 0.5384):  45%|████▍     | 7609/16950 [1:24:48<1:15:45,  2.05it/s]Training 2/3 epoch (loss 0.5384):  45%|████▍     | 7610/16950 [1:24:48<1:20:12,  1.94it/s]Training 2/3 epoch (loss 0.1865):  45%|████▍     | 7610/16950 [1:24:49<1:20:12,  1.94it/s]Training 2/3 epoch (loss 0.1865):  45%|████▍     | 7611/16950 [1:24:49<1:28:56,  1.75it/s]Training 2/3 epoch (loss 0.0079):  45%|████▍     | 7611/16950 [1:24:49<1:28:56,  1.75it/s]Training 2/3 epoch (loss 0.0079):  45%|████▍     | 7612/16950 [1:24:49<1:33:48,  1.66it/s]Training 2/3 epoch (loss 0.5111):  45%|████▍     | 7612/16950 [1:24:50<1:33:48,  1.66it/s]Training 2/3 epoch (loss 0.5111):  45%|████▍     | 7613/16950 [1:24:50<1:55:26,  1.35it/s]Training 2/3 epoch (loss 0.4624):  45%|████▍     | 7613/16950 [1:24:51<1:55:26,  1.35it/s]Training 2/3 epoch (loss 0.4624):  45%|████▍     | 7614/16950 [1:24:51<1:58:30,  1.31it/s]Training 2/3 epoch (loss 0.0555):  45%|████▍     | 7614/16950 [1:24:52<1:58:30,  1.31it/s]Training 2/3 epoch (loss 0.0555):  45%|████▍     | 7615/16950 [1:24:52<1:51:21,  1.40it/s]Training 2/3 epoch (loss 0.3956):  45%|████▍     | 7615/16950 [1:24:52<1:51:21,  1.40it/s]Training 2/3 epoch (loss 0.3956):  45%|████▍     | 7616/16950 [1:24:52<1:38:50,  1.57it/s]Training 2/3 epoch (loss 0.0141):  45%|████▍     | 7616/16950 [1:24:53<1:38:50,  1.57it/s]Training 2/3 epoch (loss 0.0141):  45%|████▍     | 7617/16950 [1:24:53<1:29:13,  1.74it/s]Training 2/3 epoch (loss 0.8258):  45%|████▍     | 7617/16950 [1:24:53<1:29:13,  1.74it/s]Training 2/3 epoch (loss 0.8258):  45%|████▍     | 7618/16950 [1:24:53<1:41:12,  1.54it/s]Training 2/3 epoch (loss 0.0041):  45%|████▍     | 7618/16950 [1:24:54<1:41:12,  1.54it/s]Training 2/3 epoch (loss 0.0041):  45%|████▍     | 7619/16950 [1:24:54<1:37:14,  1.60it/s]Training 2/3 epoch (loss 0.0236):  45%|████▍     | 7619/16950 [1:24:54<1:37:14,  1.60it/s]Training 2/3 epoch (loss 0.0236):  45%|████▍     | 7620/16950 [1:24:54<1:26:18,  1.80it/s]Training 2/3 epoch (loss 0.7409):  45%|████▍     | 7620/16950 [1:24:56<1:26:18,  1.80it/s]Training 2/3 epoch (loss 0.7409):  45%|████▍     | 7621/16950 [1:24:56<1:52:27,  1.38it/s]Training 2/3 epoch (loss 0.1883):  45%|████▍     | 7621/16950 [1:24:56<1:52:27,  1.38it/s]Training 2/3 epoch (loss 0.1883):  45%|████▍     | 7622/16950 [1:24:56<1:43:04,  1.51it/s]Training 2/3 epoch (loss 0.0030):  45%|████▍     | 7622/16950 [1:24:57<1:43:04,  1.51it/s]Training 2/3 epoch (loss 0.0030):  45%|████▍     | 7623/16950 [1:24:57<1:37:47,  1.59it/s]Training 2/3 epoch (loss 0.7096):  45%|████▍     | 7623/16950 [1:24:57<1:37:47,  1.59it/s]Training 2/3 epoch (loss 0.7096):  45%|████▍     | 7624/16950 [1:24:57<1:32:22,  1.68it/s]Training 2/3 epoch (loss 0.0791):  45%|████▍     | 7624/16950 [1:24:58<1:32:22,  1.68it/s]Training 2/3 epoch (loss 0.0791):  45%|████▍     | 7625/16950 [1:24:58<1:31:14,  1.70it/s]Training 2/3 epoch (loss 0.0011):  45%|████▍     | 7625/16950 [1:24:58<1:31:14,  1.70it/s]Training 2/3 epoch (loss 0.0011):  45%|████▍     | 7626/16950 [1:24:58<1:26:00,  1.81it/s]Training 2/3 epoch (loss 0.0792):  45%|████▍     | 7626/16950 [1:24:59<1:26:00,  1.81it/s]Training 2/3 epoch (loss 0.0792):  45%|████▍     | 7627/16950 [1:24:59<1:25:19,  1.82it/s]Training 2/3 epoch (loss 0.0014):  45%|████▍     | 7627/16950 [1:24:59<1:25:19,  1.82it/s]Training 2/3 epoch (loss 0.0014):  45%|████▌     | 7628/16950 [1:24:59<1:26:13,  1.80it/s]Training 2/3 epoch (loss 0.0137):  45%|████▌     | 7628/16950 [1:25:00<1:26:13,  1.80it/s]Training 2/3 epoch (loss 0.0137):  45%|████▌     | 7629/16950 [1:25:00<1:26:18,  1.80it/s]Training 2/3 epoch (loss 0.2063):  45%|████▌     | 7629/16950 [1:25:00<1:26:18,  1.80it/s]Training 2/3 epoch (loss 0.2063):  45%|████▌     | 7630/16950 [1:25:00<1:21:02,  1.92it/s]Training 2/3 epoch (loss 0.1201):  45%|████▌     | 7630/16950 [1:25:01<1:21:02,  1.92it/s]Training 2/3 epoch (loss 0.1201):  45%|████▌     | 7631/16950 [1:25:01<1:19:05,  1.96it/s]Training 2/3 epoch (loss 0.0005):  45%|████▌     | 7631/16950 [1:25:01<1:19:05,  1.96it/s]Training 2/3 epoch (loss 0.0005):  45%|████▌     | 7632/16950 [1:25:01<1:17:57,  1.99it/s]Training 2/3 epoch (loss 0.0028):  45%|████▌     | 7632/16950 [1:25:02<1:17:57,  1.99it/s]Training 2/3 epoch (loss 0.0028):  45%|████▌     | 7633/16950 [1:25:02<1:24:37,  1.83it/s]Training 2/3 epoch (loss 0.1297):  45%|████▌     | 7633/16950 [1:25:03<1:24:37,  1.83it/s]Training 2/3 epoch (loss 0.1297):  45%|████▌     | 7634/16950 [1:25:03<1:28:38,  1.75it/s]Training 2/3 epoch (loss 0.0738):  45%|████▌     | 7634/16950 [1:25:03<1:28:38,  1.75it/s]Training 2/3 epoch (loss 0.0738):  45%|████▌     | 7635/16950 [1:25:03<1:36:56,  1.60it/s]Training 2/3 epoch (loss 0.2719):  45%|████▌     | 7635/16950 [1:25:04<1:36:56,  1.60it/s]Training 2/3 epoch (loss 0.2719):  45%|████▌     | 7636/16950 [1:25:04<1:56:09,  1.34it/s]Training 2/3 epoch (loss 0.0023):  45%|████▌     | 7636/16950 [1:25:05<1:56:09,  1.34it/s]Training 2/3 epoch (loss 0.0023):  45%|████▌     | 7637/16950 [1:25:05<1:39:21,  1.56it/s]Training 2/3 epoch (loss 0.0225):  45%|████▌     | 7637/16950 [1:25:05<1:39:21,  1.56it/s]Training 2/3 epoch (loss 0.0225):  45%|████▌     | 7638/16950 [1:25:05<1:34:25,  1.64it/s]Training 2/3 epoch (loss 0.1719):  45%|████▌     | 7638/16950 [1:25:06<1:34:25,  1.64it/s]Training 2/3 epoch (loss 0.1719):  45%|████▌     | 7639/16950 [1:25:06<1:27:52,  1.77it/s]Training 2/3 epoch (loss 0.0023):  45%|████▌     | 7639/16950 [1:25:06<1:27:52,  1.77it/s]Training 2/3 epoch (loss 0.0023):  45%|████▌     | 7640/16950 [1:25:06<1:21:47,  1.90it/s]Training 2/3 epoch (loss 0.0027):  45%|████▌     | 7640/16950 [1:25:07<1:21:47,  1.90it/s]Training 2/3 epoch (loss 0.0027):  45%|████▌     | 7641/16950 [1:25:07<1:32:29,  1.68it/s]Training 2/3 epoch (loss 0.2791):  45%|████▌     | 7641/16950 [1:25:07<1:32:29,  1.68it/s]Training 2/3 epoch (loss 0.2791):  45%|████▌     | 7642/16950 [1:25:07<1:32:40,  1.67it/s]Training 2/3 epoch (loss 0.0119):  45%|████▌     | 7642/16950 [1:25:09<1:32:40,  1.67it/s]Training 2/3 epoch (loss 0.0119):  45%|████▌     | 7643/16950 [1:25:09<1:58:51,  1.31it/s]Training 2/3 epoch (loss 0.0004):  45%|████▌     | 7643/16950 [1:25:09<1:58:51,  1.31it/s]Training 2/3 epoch (loss 0.0004):  45%|████▌     | 7644/16950 [1:25:09<1:51:04,  1.40it/s]Training 2/3 epoch (loss 0.0022):  45%|████▌     | 7644/16950 [1:25:10<1:51:04,  1.40it/s]Training 2/3 epoch (loss 0.0022):  45%|████▌     | 7645/16950 [1:25:10<1:44:36,  1.48it/s]Training 2/3 epoch (loss 0.0135):  45%|████▌     | 7645/16950 [1:25:11<1:44:36,  1.48it/s]Training 2/3 epoch (loss 0.0135):  45%|████▌     | 7646/16950 [1:25:11<1:54:29,  1.35it/s]Training 2/3 epoch (loss 0.0160):  45%|████▌     | 7646/16950 [1:25:11<1:54:29,  1.35it/s]Training 2/3 epoch (loss 0.0160):  45%|████▌     | 7647/16950 [1:25:11<1:47:52,  1.44it/s]Training 2/3 epoch (loss 0.0236):  45%|████▌     | 7647/16950 [1:25:12<1:47:52,  1.44it/s]Training 2/3 epoch (loss 0.0236):  45%|████▌     | 7648/16950 [1:25:12<1:50:12,  1.41it/s]Training 2/3 epoch (loss 0.0006):  45%|████▌     | 7648/16950 [1:25:13<1:50:12,  1.41it/s]Training 2/3 epoch (loss 0.0006):  45%|████▌     | 7649/16950 [1:25:13<1:52:43,  1.38it/s]Training 2/3 epoch (loss 0.3589):  45%|████▌     | 7649/16950 [1:25:13<1:52:43,  1.38it/s]Training 2/3 epoch (loss 0.3589):  45%|████▌     | 7650/16950 [1:25:13<1:46:01,  1.46it/s]Training 2/3 epoch (loss 0.3356):  45%|████▌     | 7650/16950 [1:25:14<1:46:01,  1.46it/s]Training 2/3 epoch (loss 0.3356):  45%|████▌     | 7651/16950 [1:25:14<1:39:02,  1.56it/s]Training 2/3 epoch (loss 0.3302):  45%|████▌     | 7651/16950 [1:25:14<1:39:02,  1.56it/s]Training 2/3 epoch (loss 0.3302):  45%|████▌     | 7652/16950 [1:25:14<1:32:54,  1.67it/s]Training 2/3 epoch (loss 0.0728):  45%|████▌     | 7652/16950 [1:25:15<1:32:54,  1.67it/s]Training 2/3 epoch (loss 0.0728):  45%|████▌     | 7653/16950 [1:25:15<1:36:04,  1.61it/s]Training 2/3 epoch (loss 0.0403):  45%|████▌     | 7653/16950 [1:25:16<1:36:04,  1.61it/s]Training 2/3 epoch (loss 0.0403):  45%|████▌     | 7654/16950 [1:25:16<1:40:25,  1.54it/s]Training 2/3 epoch (loss 0.0258):  45%|████▌     | 7654/16950 [1:25:16<1:40:25,  1.54it/s]Training 2/3 epoch (loss 0.0258):  45%|████▌     | 7655/16950 [1:25:16<1:39:35,  1.56it/s]Training 2/3 epoch (loss 0.1847):  45%|████▌     | 7655/16950 [1:25:17<1:39:35,  1.56it/s]Training 2/3 epoch (loss 0.1847):  45%|████▌     | 7656/16950 [1:25:17<1:32:08,  1.68it/s]Training 2/3 epoch (loss 0.0764):  45%|████▌     | 7656/16950 [1:25:18<1:32:08,  1.68it/s]Training 2/3 epoch (loss 0.0764):  45%|████▌     | 7657/16950 [1:25:18<1:33:24,  1.66it/s]Training 2/3 epoch (loss 0.0064):  45%|████▌     | 7657/16950 [1:25:18<1:33:24,  1.66it/s]Training 2/3 epoch (loss 0.0064):  45%|████▌     | 7658/16950 [1:25:18<1:38:56,  1.57it/s]Training 2/3 epoch (loss 0.0013):  45%|████▌     | 7658/16950 [1:25:19<1:38:56,  1.57it/s]Training 2/3 epoch (loss 0.0013):  45%|████▌     | 7659/16950 [1:25:19<1:36:02,  1.61it/s]Training 2/3 epoch (loss 0.5385):  45%|████▌     | 7659/16950 [1:25:20<1:36:02,  1.61it/s]Training 2/3 epoch (loss 0.5385):  45%|████▌     | 7660/16950 [1:25:20<1:47:26,  1.44it/s]Training 2/3 epoch (loss 0.0178):  45%|████▌     | 7660/16950 [1:25:20<1:47:26,  1.44it/s]Training 2/3 epoch (loss 0.0178):  45%|████▌     | 7661/16950 [1:25:20<1:48:50,  1.42it/s]Training 2/3 epoch (loss 0.4226):  45%|████▌     | 7661/16950 [1:25:21<1:48:50,  1.42it/s]Training 2/3 epoch (loss 0.4226):  45%|████▌     | 7662/16950 [1:25:21<1:43:21,  1.50it/s]Training 2/3 epoch (loss 0.4501):  45%|████▌     | 7662/16950 [1:25:22<1:43:21,  1.50it/s]Training 2/3 epoch (loss 0.4501):  45%|████▌     | 7663/16950 [1:25:22<2:05:12,  1.24it/s]Training 2/3 epoch (loss 0.0021):  45%|████▌     | 7663/16950 [1:25:23<2:05:12,  1.24it/s]Training 2/3 epoch (loss 0.0021):  45%|████▌     | 7664/16950 [1:25:23<1:54:18,  1.35it/s]Training 2/3 epoch (loss 0.1366):  45%|████▌     | 7664/16950 [1:25:23<1:54:18,  1.35it/s]Training 2/3 epoch (loss 0.1366):  45%|████▌     | 7665/16950 [1:25:23<1:45:06,  1.47it/s]Training 2/3 epoch (loss 0.0026):  45%|████▌     | 7665/16950 [1:25:24<1:45:06,  1.47it/s]Training 2/3 epoch (loss 0.0026):  45%|████▌     | 7666/16950 [1:25:24<1:37:07,  1.59it/s]Training 2/3 epoch (loss 0.0089):  45%|████▌     | 7666/16950 [1:25:24<1:37:07,  1.59it/s]Training 2/3 epoch (loss 0.0089):  45%|████▌     | 7667/16950 [1:25:24<1:32:55,  1.66it/s]Training 2/3 epoch (loss 0.5122):  45%|████▌     | 7667/16950 [1:25:25<1:32:55,  1.66it/s]Training 2/3 epoch (loss 0.5122):  45%|████▌     | 7668/16950 [1:25:25<1:27:35,  1.77it/s]Training 2/3 epoch (loss 0.3872):  45%|████▌     | 7668/16950 [1:25:25<1:27:35,  1.77it/s]Training 2/3 epoch (loss 0.3872):  45%|████▌     | 7669/16950 [1:25:25<1:33:11,  1.66it/s]Training 2/3 epoch (loss 0.2680):  45%|████▌     | 7669/16950 [1:25:26<1:33:11,  1.66it/s]Training 2/3 epoch (loss 0.2680):  45%|████▌     | 7670/16950 [1:25:26<1:47:11,  1.44it/s]Training 2/3 epoch (loss 0.0090):  45%|████▌     | 7670/16950 [1:25:27<1:47:11,  1.44it/s]Training 2/3 epoch (loss 0.0090):  45%|████▌     | 7671/16950 [1:25:27<1:55:14,  1.34it/s]Training 2/3 epoch (loss 0.4866):  45%|████▌     | 7671/16950 [1:25:28<1:55:14,  1.34it/s]Training 2/3 epoch (loss 0.4866):  45%|████▌     | 7672/16950 [1:25:28<1:54:51,  1.35it/s]Training 2/3 epoch (loss 0.0002):  45%|████▌     | 7672/16950 [1:25:29<1:54:51,  1.35it/s]Training 2/3 epoch (loss 0.0002):  45%|████▌     | 7673/16950 [1:25:29<1:58:29,  1.30it/s]Training 2/3 epoch (loss 0.0635):  45%|████▌     | 7673/16950 [1:25:30<1:58:29,  1.30it/s]Training 2/3 epoch (loss 0.0635):  45%|████▌     | 7674/16950 [1:25:30<2:00:10,  1.29it/s]Training 2/3 epoch (loss 0.0129):  45%|████▌     | 7674/16950 [1:25:30<2:00:10,  1.29it/s]Training 2/3 epoch (loss 0.0129):  45%|████▌     | 7675/16950 [1:25:30<1:51:01,  1.39it/s]Training 2/3 epoch (loss 0.0001):  45%|████▌     | 7675/16950 [1:25:31<1:51:01,  1.39it/s]Training 2/3 epoch (loss 0.0001):  45%|████▌     | 7676/16950 [1:25:31<1:41:06,  1.53it/s]Training 2/3 epoch (loss 0.0142):  45%|████▌     | 7676/16950 [1:25:31<1:41:06,  1.53it/s]Training 2/3 epoch (loss 0.0142):  45%|████▌     | 7677/16950 [1:25:31<1:42:20,  1.51it/s]Training 2/3 epoch (loss 0.6897):  45%|████▌     | 7677/16950 [1:25:32<1:42:20,  1.51it/s]Training 2/3 epoch (loss 0.6897):  45%|████▌     | 7678/16950 [1:25:32<1:31:25,  1.69it/s]Training 2/3 epoch (loss 0.1466):  45%|████▌     | 7678/16950 [1:25:33<1:31:25,  1.69it/s]Training 2/3 epoch (loss 0.1466):  45%|████▌     | 7679/16950 [1:25:33<1:39:22,  1.55it/s]Training 2/3 epoch (loss 0.3136):  45%|████▌     | 7679/16950 [1:25:33<1:39:22,  1.55it/s]Training 2/3 epoch (loss 0.3136):  45%|████▌     | 7680/16950 [1:25:33<1:46:17,  1.45it/s]Training 2/3 epoch (loss 0.6678):  45%|████▌     | 7680/16950 [1:25:34<1:46:17,  1.45it/s]Training 2/3 epoch (loss 0.6678):  45%|████▌     | 7681/16950 [1:25:34<2:03:11,  1.25it/s]Training 2/3 epoch (loss 0.0133):  45%|████▌     | 7681/16950 [1:25:35<2:03:11,  1.25it/s]Training 2/3 epoch (loss 0.0133):  45%|████▌     | 7682/16950 [1:25:35<1:59:36,  1.29it/s]Training 2/3 epoch (loss 0.0261):  45%|████▌     | 7682/16950 [1:25:36<1:59:36,  1.29it/s]Training 2/3 epoch (loss 0.0261):  45%|████▌     | 7683/16950 [1:25:36<1:50:45,  1.39it/s]Training 2/3 epoch (loss 0.6791):  45%|████▌     | 7683/16950 [1:25:36<1:50:45,  1.39it/s]Training 2/3 epoch (loss 0.6791):  45%|████▌     | 7684/16950 [1:25:36<1:37:43,  1.58it/s]Training 2/3 epoch (loss 0.6247):  45%|████▌     | 7684/16950 [1:25:37<1:37:43,  1.58it/s]Training 2/3 epoch (loss 0.6247):  45%|████▌     | 7685/16950 [1:25:37<1:28:46,  1.74it/s]Training 2/3 epoch (loss 0.0004):  45%|████▌     | 7685/16950 [1:25:37<1:28:46,  1.74it/s]Training 2/3 epoch (loss 0.0004):  45%|████▌     | 7686/16950 [1:25:37<1:26:50,  1.78it/s]Training 2/3 epoch (loss 0.5548):  45%|████▌     | 7686/16950 [1:25:37<1:26:50,  1.78it/s]Training 2/3 epoch (loss 0.5548):  45%|████▌     | 7687/16950 [1:25:37<1:16:05,  2.03it/s]Training 2/3 epoch (loss 0.0049):  45%|████▌     | 7687/16950 [1:25:38<1:16:05,  2.03it/s]Training 2/3 epoch (loss 0.0049):  45%|████▌     | 7688/16950 [1:25:38<1:29:40,  1.72it/s]Training 2/3 epoch (loss 0.0181):  45%|████▌     | 7688/16950 [1:25:39<1:29:40,  1.72it/s]Training 2/3 epoch (loss 0.0181):  45%|████▌     | 7689/16950 [1:25:39<1:29:07,  1.73it/s]Training 2/3 epoch (loss 0.0533):  45%|████▌     | 7689/16950 [1:25:39<1:29:07,  1.73it/s]Training 2/3 epoch (loss 0.0533):  45%|████▌     | 7690/16950 [1:25:39<1:24:51,  1.82it/s]Training 2/3 epoch (loss 0.2504):  45%|████▌     | 7690/16950 [1:25:40<1:24:51,  1.82it/s]Training 2/3 epoch (loss 0.2504):  45%|████▌     | 7691/16950 [1:25:40<1:15:21,  2.05it/s]Training 2/3 epoch (loss 0.0009):  45%|████▌     | 7691/16950 [1:25:40<1:15:21,  2.05it/s]Training 2/3 epoch (loss 0.0009):  45%|████▌     | 7692/16950 [1:25:40<1:10:39,  2.18it/s]Training 2/3 epoch (loss 0.0275):  45%|████▌     | 7692/16950 [1:25:41<1:10:39,  2.18it/s]Training 2/3 epoch (loss 0.0275):  45%|████▌     | 7693/16950 [1:25:41<1:16:35,  2.01it/s]Training 2/3 epoch (loss 0.2860):  45%|████▌     | 7693/16950 [1:25:41<1:16:35,  2.01it/s]Training 2/3 epoch (loss 0.2860):  45%|████▌     | 7694/16950 [1:25:41<1:18:28,  1.97it/s]Training 2/3 epoch (loss 0.3448):  45%|████▌     | 7694/16950 [1:25:42<1:18:28,  1.97it/s]Training 2/3 epoch (loss 0.3448):  45%|████▌     | 7695/16950 [1:25:42<1:14:21,  2.07it/s]Training 2/3 epoch (loss 0.5161):  45%|████▌     | 7695/16950 [1:25:42<1:14:21,  2.07it/s]Training 2/3 epoch (loss 0.5161):  45%|████▌     | 7696/16950 [1:25:42<1:09:40,  2.21it/s]Training 2/3 epoch (loss 0.1968):  45%|████▌     | 7696/16950 [1:25:43<1:09:40,  2.21it/s]Training 2/3 epoch (loss 0.1968):  45%|████▌     | 7697/16950 [1:25:43<1:17:14,  2.00it/s]Training 2/3 epoch (loss 0.3391):  45%|████▌     | 7697/16950 [1:25:44<1:17:14,  2.00it/s]Training 2/3 epoch (loss 0.3391):  45%|████▌     | 7698/16950 [1:25:44<1:40:38,  1.53it/s]Training 2/3 epoch (loss 0.0098):  45%|████▌     | 7698/16950 [1:25:44<1:40:38,  1.53it/s]Training 2/3 epoch (loss 0.0098):  45%|████▌     | 7699/16950 [1:25:44<1:34:22,  1.63it/s]Training 2/3 epoch (loss 0.0080):  45%|████▌     | 7699/16950 [1:25:45<1:34:22,  1.63it/s]Training 2/3 epoch (loss 0.0080):  45%|████▌     | 7700/16950 [1:25:45<1:27:48,  1.76it/s]Training 2/3 epoch (loss 0.0102):  45%|████▌     | 7700/16950 [1:25:45<1:27:48,  1.76it/s]Training 2/3 epoch (loss 0.0102):  45%|████▌     | 7701/16950 [1:25:45<1:24:14,  1.83it/s]Training 2/3 epoch (loss 0.1997):  45%|████▌     | 7701/16950 [1:25:46<1:24:14,  1.83it/s]Training 2/3 epoch (loss 0.1997):  45%|████▌     | 7702/16950 [1:25:46<1:20:51,  1.91it/s]Training 2/3 epoch (loss 0.0130):  45%|████▌     | 7702/16950 [1:25:47<1:20:51,  1.91it/s]Training 2/3 epoch (loss 0.0130):  45%|████▌     | 7703/16950 [1:25:47<1:43:18,  1.49it/s]Training 2/3 epoch (loss 0.0150):  45%|████▌     | 7703/16950 [1:25:47<1:43:18,  1.49it/s]Training 2/3 epoch (loss 0.0150):  45%|████▌     | 7704/16950 [1:25:47<1:41:27,  1.52it/s]Training 2/3 epoch (loss 0.4597):  45%|████▌     | 7704/16950 [1:25:48<1:41:27,  1.52it/s]Training 2/3 epoch (loss 0.4597):  45%|████▌     | 7705/16950 [1:25:48<1:34:42,  1.63it/s]Training 2/3 epoch (loss 0.0029):  45%|████▌     | 7705/16950 [1:25:48<1:34:42,  1.63it/s]Training 2/3 epoch (loss 0.0029):  45%|████▌     | 7706/16950 [1:25:48<1:39:08,  1.55it/s]Training 2/3 epoch (loss 0.2136):  45%|████▌     | 7706/16950 [1:25:49<1:39:08,  1.55it/s]Training 2/3 epoch (loss 0.2136):  45%|████▌     | 7707/16950 [1:25:49<1:49:52,  1.40it/s]Training 2/3 epoch (loss 0.1005):  45%|████▌     | 7707/16950 [1:25:50<1:49:52,  1.40it/s]Training 2/3 epoch (loss 0.1005):  45%|████▌     | 7708/16950 [1:25:50<1:49:01,  1.41it/s]Training 2/3 epoch (loss 0.0196):  45%|████▌     | 7708/16950 [1:25:51<1:49:01,  1.41it/s]Training 2/3 epoch (loss 0.0196):  45%|████▌     | 7709/16950 [1:25:51<1:57:57,  1.31it/s]Training 2/3 epoch (loss 0.6152):  45%|████▌     | 7709/16950 [1:25:52<1:57:57,  1.31it/s]Training 2/3 epoch (loss 0.6152):  45%|████▌     | 7710/16950 [1:25:52<2:17:41,  1.12it/s]Training 2/3 epoch (loss 0.0223):  45%|████▌     | 7710/16950 [1:25:53<2:17:41,  1.12it/s]Training 2/3 epoch (loss 0.0223):  45%|████▌     | 7711/16950 [1:25:53<2:03:56,  1.24it/s]Training 2/3 epoch (loss 0.0333):  45%|████▌     | 7711/16950 [1:25:53<2:03:56,  1.24it/s]Training 2/3 epoch (loss 0.0333):  45%|████▌     | 7712/16950 [1:25:53<1:53:08,  1.36it/s]Training 2/3 epoch (loss 0.1342):  45%|████▌     | 7712/16950 [1:25:54<1:53:08,  1.36it/s]Training 2/3 epoch (loss 0.1342):  46%|████▌     | 7713/16950 [1:25:54<2:13:46,  1.15it/s]Training 2/3 epoch (loss 0.0198):  46%|████▌     | 7713/16950 [1:25:55<2:13:46,  1.15it/s]Training 2/3 epoch (loss 0.0198):  46%|████▌     | 7714/16950 [1:25:55<2:01:31,  1.27it/s]Training 2/3 epoch (loss 0.0698):  46%|████▌     | 7714/16950 [1:25:56<2:01:31,  1.27it/s]Training 2/3 epoch (loss 0.0698):  46%|████▌     | 7715/16950 [1:25:56<1:50:52,  1.39it/s]Training 2/3 epoch (loss 0.0161):  46%|████▌     | 7715/16950 [1:25:56<1:50:52,  1.39it/s]Training 2/3 epoch (loss 0.0161):  46%|████▌     | 7716/16950 [1:25:56<1:45:58,  1.45it/s]Training 2/3 epoch (loss 0.2397):  46%|████▌     | 7716/16950 [1:25:57<1:45:58,  1.45it/s]Training 2/3 epoch (loss 0.2397):  46%|████▌     | 7717/16950 [1:25:57<1:42:35,  1.50it/s]Training 2/3 epoch (loss 0.0158):  46%|████▌     | 7717/16950 [1:25:57<1:42:35,  1.50it/s]Training 2/3 epoch (loss 0.0158):  46%|████▌     | 7718/16950 [1:25:57<1:34:37,  1.63it/s]Training 2/3 epoch (loss 0.6917):  46%|████▌     | 7718/16950 [1:25:58<1:34:37,  1.63it/s]Training 2/3 epoch (loss 0.6917):  46%|████▌     | 7719/16950 [1:25:58<1:25:23,  1.80it/s]Training 2/3 epoch (loss 0.0920):  46%|████▌     | 7719/16950 [1:25:58<1:25:23,  1.80it/s]Training 2/3 epoch (loss 0.0920):  46%|████▌     | 7720/16950 [1:25:58<1:21:53,  1.88it/s]Training 2/3 epoch (loss 0.3092):  46%|████▌     | 7720/16950 [1:25:59<1:21:53,  1.88it/s]Training 2/3 epoch (loss 0.3092):  46%|████▌     | 7721/16950 [1:25:59<1:22:25,  1.87it/s]Training 2/3 epoch (loss 0.0012):  46%|████▌     | 7721/16950 [1:25:59<1:22:25,  1.87it/s]Training 2/3 epoch (loss 0.0012):  46%|████▌     | 7722/16950 [1:25:59<1:16:11,  2.02it/s]Training 2/3 epoch (loss 0.2306):  46%|████▌     | 7722/16950 [1:26:00<1:16:11,  2.02it/s]Training 2/3 epoch (loss 0.2306):  46%|████▌     | 7723/16950 [1:26:00<1:30:11,  1.71it/s]Training 2/3 epoch (loss 0.0130):  46%|████▌     | 7723/16950 [1:26:01<1:30:11,  1.71it/s]Training 2/3 epoch (loss 0.0130):  46%|████▌     | 7724/16950 [1:26:01<1:32:46,  1.66it/s]Training 2/3 epoch (loss 0.0022):  46%|████▌     | 7724/16950 [1:26:01<1:32:46,  1.66it/s]Training 2/3 epoch (loss 0.0022):  46%|████▌     | 7725/16950 [1:26:01<1:36:00,  1.60it/s]Training 2/3 epoch (loss 0.2877):  46%|████▌     | 7725/16950 [1:26:02<1:36:00,  1.60it/s]Training 2/3 epoch (loss 0.2877):  46%|████▌     | 7726/16950 [1:26:02<1:28:32,  1.74it/s]Training 2/3 epoch (loss 0.7048):  46%|████▌     | 7726/16950 [1:26:02<1:28:32,  1.74it/s]Training 2/3 epoch (loss 0.7048):  46%|████▌     | 7727/16950 [1:26:02<1:22:27,  1.86it/s]Training 2/3 epoch (loss 0.0011):  46%|████▌     | 7727/16950 [1:26:03<1:22:27,  1.86it/s]Training 2/3 epoch (loss 0.0011):  46%|████▌     | 7728/16950 [1:26:03<1:19:33,  1.93it/s]Training 2/3 epoch (loss 0.0051):  46%|████▌     | 7728/16950 [1:26:03<1:19:33,  1.93it/s]Training 2/3 epoch (loss 0.0051):  46%|████▌     | 7729/16950 [1:26:03<1:26:09,  1.78it/s]Training 2/3 epoch (loss 0.2618):  46%|████▌     | 7729/16950 [1:26:05<1:26:09,  1.78it/s]Training 2/3 epoch (loss 0.2618):  46%|████▌     | 7730/16950 [1:26:05<1:55:28,  1.33it/s]Training 2/3 epoch (loss 0.2532):  46%|████▌     | 7730/16950 [1:26:05<1:55:28,  1.33it/s]Training 2/3 epoch (loss 0.2532):  46%|████▌     | 7731/16950 [1:26:05<1:44:20,  1.47it/s]Training 2/3 epoch (loss 0.0008):  46%|████▌     | 7731/16950 [1:26:06<1:44:20,  1.47it/s]Training 2/3 epoch (loss 0.0008):  46%|████▌     | 7732/16950 [1:26:06<1:36:10,  1.60it/s]Training 2/3 epoch (loss 0.0413):  46%|████▌     | 7732/16950 [1:26:06<1:36:10,  1.60it/s]Training 2/3 epoch (loss 0.0413):  46%|████▌     | 7733/16950 [1:26:06<1:32:31,  1.66it/s]Training 2/3 epoch (loss 0.0189):  46%|████▌     | 7733/16950 [1:26:07<1:32:31,  1.66it/s]Training 2/3 epoch (loss 0.0189):  46%|████▌     | 7734/16950 [1:26:07<1:34:47,  1.62it/s]Training 2/3 epoch (loss 0.0574):  46%|████▌     | 7734/16950 [1:26:07<1:34:47,  1.62it/s]Training 2/3 epoch (loss 0.0574):  46%|████▌     | 7735/16950 [1:26:07<1:39:13,  1.55it/s]Training 2/3 epoch (loss 0.0061):  46%|████▌     | 7735/16950 [1:26:08<1:39:13,  1.55it/s]Training 2/3 epoch (loss 0.0061):  46%|████▌     | 7736/16950 [1:26:08<1:32:20,  1.66it/s]Training 2/3 epoch (loss 0.2183):  46%|████▌     | 7736/16950 [1:26:08<1:32:20,  1.66it/s]Training 2/3 epoch (loss 0.2183):  46%|████▌     | 7737/16950 [1:26:08<1:23:52,  1.83it/s]Training 2/3 epoch (loss 0.0395):  46%|████▌     | 7737/16950 [1:26:09<1:23:52,  1.83it/s]Training 2/3 epoch (loss 0.0395):  46%|████▌     | 7738/16950 [1:26:09<1:25:34,  1.79it/s]Training 2/3 epoch (loss 0.0004):  46%|████▌     | 7738/16950 [1:26:10<1:25:34,  1.79it/s]Training 2/3 epoch (loss 0.0004):  46%|████▌     | 7739/16950 [1:26:10<1:30:32,  1.70it/s]Training 2/3 epoch (loss 0.0092):  46%|████▌     | 7739/16950 [1:26:10<1:30:32,  1.70it/s]Training 2/3 epoch (loss 0.0092):  46%|████▌     | 7740/16950 [1:26:10<1:26:15,  1.78it/s]Training 2/3 epoch (loss 0.5179):  46%|████▌     | 7740/16950 [1:26:11<1:26:15,  1.78it/s]Training 2/3 epoch (loss 0.5179):  46%|████▌     | 7741/16950 [1:26:11<1:28:12,  1.74it/s]Training 2/3 epoch (loss 0.0475):  46%|████▌     | 7741/16950 [1:26:11<1:28:12,  1.74it/s]Training 2/3 epoch (loss 0.0475):  46%|████▌     | 7742/16950 [1:26:11<1:21:23,  1.89it/s]Training 2/3 epoch (loss 0.3813):  46%|████▌     | 7742/16950 [1:26:12<1:21:23,  1.89it/s]Training 2/3 epoch (loss 0.3813):  46%|████▌     | 7743/16950 [1:26:12<1:44:08,  1.47it/s]Training 2/3 epoch (loss 0.0018):  46%|████▌     | 7743/16950 [1:26:13<1:44:08,  1.47it/s]Training 2/3 epoch (loss 0.0018):  46%|████▌     | 7744/16950 [1:26:13<1:35:44,  1.60it/s]Training 2/3 epoch (loss 0.0191):  46%|████▌     | 7744/16950 [1:26:13<1:35:44,  1.60it/s]Training 2/3 epoch (loss 0.0191):  46%|████▌     | 7745/16950 [1:26:13<1:36:09,  1.60it/s]Training 2/3 epoch (loss 0.0319):  46%|████▌     | 7745/16950 [1:26:14<1:36:09,  1.60it/s]Training 2/3 epoch (loss 0.0319):  46%|████▌     | 7746/16950 [1:26:14<1:57:34,  1.30it/s]Training 2/3 epoch (loss 0.0326):  46%|████▌     | 7746/16950 [1:26:15<1:57:34,  1.30it/s]Training 2/3 epoch (loss 0.0326):  46%|████▌     | 7747/16950 [1:26:15<1:59:04,  1.29it/s]Training 2/3 epoch (loss 0.0015):  46%|████▌     | 7747/16950 [1:26:16<1:59:04,  1.29it/s]Training 2/3 epoch (loss 0.0015):  46%|████▌     | 7748/16950 [1:26:16<1:52:05,  1.37it/s]Training 2/3 epoch (loss 0.0209):  46%|████▌     | 7748/16950 [1:26:16<1:52:05,  1.37it/s]Training 2/3 epoch (loss 0.0209):  46%|████▌     | 7749/16950 [1:26:16<1:41:23,  1.51it/s]Training 2/3 epoch (loss 0.0004):  46%|████▌     | 7749/16950 [1:26:17<1:41:23,  1.51it/s]Training 2/3 epoch (loss 0.0004):  46%|████▌     | 7750/16950 [1:26:17<1:34:33,  1.62it/s]Training 2/3 epoch (loss 0.2984):  46%|████▌     | 7750/16950 [1:26:18<1:34:33,  1.62it/s]Training 2/3 epoch (loss 0.2984):  46%|████▌     | 7751/16950 [1:26:18<1:47:58,  1.42it/s]Training 2/3 epoch (loss 0.4658):  46%|████▌     | 7751/16950 [1:26:19<1:47:58,  1.42it/s]Training 2/3 epoch (loss 0.4658):  46%|████▌     | 7752/16950 [1:26:19<1:55:52,  1.32it/s]Training 2/3 epoch (loss 0.0154):  46%|████▌     | 7752/16950 [1:26:19<1:55:52,  1.32it/s]Training 2/3 epoch (loss 0.0154):  46%|████▌     | 7753/16950 [1:26:19<1:51:39,  1.37it/s]Training 2/3 epoch (loss 0.4721):  46%|████▌     | 7753/16950 [1:26:20<1:51:39,  1.37it/s]Training 2/3 epoch (loss 0.4721):  46%|████▌     | 7754/16950 [1:26:20<1:52:31,  1.36it/s]Training 2/3 epoch (loss 0.0003):  46%|████▌     | 7754/16950 [1:26:20<1:52:31,  1.36it/s]Training 2/3 epoch (loss 0.0003):  46%|████▌     | 7755/16950 [1:26:20<1:36:05,  1.59it/s]Training 2/3 epoch (loss 0.0553):  46%|████▌     | 7755/16950 [1:26:21<1:36:05,  1.59it/s]Training 2/3 epoch (loss 0.0553):  46%|████▌     | 7756/16950 [1:26:21<1:29:24,  1.71it/s]Training 2/3 epoch (loss 0.3695):  46%|████▌     | 7756/16950 [1:26:22<1:29:24,  1.71it/s]Training 2/3 epoch (loss 0.3695):  46%|████▌     | 7757/16950 [1:26:22<1:46:54,  1.43it/s]Training 2/3 epoch (loss 0.6491):  46%|████▌     | 7757/16950 [1:26:22<1:46:54,  1.43it/s]Training 2/3 epoch (loss 0.6491):  46%|████▌     | 7758/16950 [1:26:22<1:31:34,  1.67it/s]Training 2/3 epoch (loss 0.4120):  46%|████▌     | 7758/16950 [1:26:23<1:31:34,  1.67it/s]Training 2/3 epoch (loss 0.4120):  46%|████▌     | 7759/16950 [1:26:23<1:56:03,  1.32it/s]Training 2/3 epoch (loss 0.0062):  46%|████▌     | 7759/16950 [1:26:24<1:56:03,  1.32it/s]Training 2/3 epoch (loss 0.0062):  46%|████▌     | 7760/16950 [1:26:24<1:44:28,  1.47it/s]Training 2/3 epoch (loss 0.0002):  46%|████▌     | 7760/16950 [1:26:24<1:44:28,  1.47it/s]Training 2/3 epoch (loss 0.0002):  46%|████▌     | 7761/16950 [1:26:24<1:39:46,  1.53it/s]Training 2/3 epoch (loss 0.2324):  46%|████▌     | 7761/16950 [1:26:25<1:39:46,  1.53it/s]Training 2/3 epoch (loss 0.2324):  46%|████▌     | 7762/16950 [1:26:25<1:31:58,  1.66it/s]Training 2/3 epoch (loss 0.0005):  46%|████▌     | 7762/16950 [1:26:25<1:31:58,  1.66it/s]Training 2/3 epoch (loss 0.0005):  46%|████▌     | 7763/16950 [1:26:25<1:28:43,  1.73it/s]Training 2/3 epoch (loss 0.1993):  46%|████▌     | 7763/16950 [1:26:26<1:28:43,  1.73it/s]Training 2/3 epoch (loss 0.1993):  46%|████▌     | 7764/16950 [1:26:26<1:27:46,  1.74it/s]Training 2/3 epoch (loss 0.0310):  46%|████▌     | 7764/16950 [1:26:27<1:27:46,  1.74it/s]Training 2/3 epoch (loss 0.0310):  46%|████▌     | 7765/16950 [1:26:27<1:26:30,  1.77it/s]Training 2/3 epoch (loss 0.0076):  46%|████▌     | 7765/16950 [1:26:27<1:26:30,  1.77it/s]Training 2/3 epoch (loss 0.0076):  46%|████▌     | 7766/16950 [1:26:27<1:24:42,  1.81it/s]Training 2/3 epoch (loss 0.1679):  46%|████▌     | 7766/16950 [1:26:28<1:24:42,  1.81it/s]Training 2/3 epoch (loss 0.1679):  46%|████▌     | 7767/16950 [1:26:28<1:42:44,  1.49it/s]Training 2/3 epoch (loss 0.3609):  46%|████▌     | 7767/16950 [1:26:29<1:42:44,  1.49it/s]Training 2/3 epoch (loss 0.3609):  46%|████▌     | 7768/16950 [1:26:29<1:50:19,  1.39it/s]Training 2/3 epoch (loss 0.0072):  46%|████▌     | 7768/16950 [1:26:30<1:50:19,  1.39it/s]Training 2/3 epoch (loss 0.0072):  46%|████▌     | 7769/16950 [1:26:30<1:50:08,  1.39it/s]Training 2/3 epoch (loss 0.0263):  46%|████▌     | 7769/16950 [1:26:30<1:50:08,  1.39it/s]Training 2/3 epoch (loss 0.0263):  46%|████▌     | 7770/16950 [1:26:30<1:45:17,  1.45it/s]Training 2/3 epoch (loss 0.0155):  46%|████▌     | 7770/16950 [1:26:31<1:45:17,  1.45it/s]Training 2/3 epoch (loss 0.0155):  46%|████▌     | 7771/16950 [1:26:31<1:41:36,  1.51it/s]Training 2/3 epoch (loss 0.4086):  46%|████▌     | 7771/16950 [1:26:32<1:41:36,  1.51it/s]Training 2/3 epoch (loss 0.4086):  46%|████▌     | 7772/16950 [1:26:32<1:50:29,  1.38it/s]Training 2/3 epoch (loss 0.0474):  46%|████▌     | 7772/16950 [1:26:32<1:50:29,  1.38it/s]Training 2/3 epoch (loss 0.0474):  46%|████▌     | 7773/16950 [1:26:32<1:46:16,  1.44it/s]Training 2/3 epoch (loss 0.0049):  46%|████▌     | 7773/16950 [1:26:33<1:46:16,  1.44it/s]Training 2/3 epoch (loss 0.0049):  46%|████▌     | 7774/16950 [1:26:33<1:45:26,  1.45it/s]Training 2/3 epoch (loss 0.0487):  46%|████▌     | 7774/16950 [1:26:33<1:45:26,  1.45it/s]Training 2/3 epoch (loss 0.0487):  46%|████▌     | 7775/16950 [1:26:33<1:34:53,  1.61it/s]Training 2/3 epoch (loss 0.0624):  46%|████▌     | 7775/16950 [1:26:34<1:34:53,  1.61it/s]Training 2/3 epoch (loss 0.0624):  46%|████▌     | 7776/16950 [1:26:34<1:31:03,  1.68it/s]Training 2/3 epoch (loss 0.0004):  46%|████▌     | 7776/16950 [1:26:34<1:31:03,  1.68it/s]Training 2/3 epoch (loss 0.0004):  46%|████▌     | 7777/16950 [1:26:34<1:29:22,  1.71it/s]Training 2/3 epoch (loss 0.1060):  46%|████▌     | 7777/16950 [1:26:35<1:29:22,  1.71it/s]Training 2/3 epoch (loss 0.1060):  46%|████▌     | 7778/16950 [1:26:35<1:27:19,  1.75it/s]Training 2/3 epoch (loss 0.0034):  46%|████▌     | 7778/16950 [1:26:36<1:27:19,  1.75it/s]Training 2/3 epoch (loss 0.0034):  46%|████▌     | 7779/16950 [1:26:36<1:23:38,  1.83it/s]Training 2/3 epoch (loss 0.0368):  46%|████▌     | 7779/16950 [1:26:36<1:23:38,  1.83it/s]Training 2/3 epoch (loss 0.0368):  46%|████▌     | 7780/16950 [1:26:36<1:18:56,  1.94it/s]Training 2/3 epoch (loss 0.0105):  46%|████▌     | 7780/16950 [1:26:37<1:18:56,  1.94it/s]Training 2/3 epoch (loss 0.0105):  46%|████▌     | 7781/16950 [1:26:37<1:23:59,  1.82it/s]Training 2/3 epoch (loss 0.3504):  46%|████▌     | 7781/16950 [1:26:38<1:23:59,  1.82it/s]Training 2/3 epoch (loss 0.3504):  46%|████▌     | 7782/16950 [1:26:38<1:41:01,  1.51it/s]Training 2/3 epoch (loss 0.0352):  46%|████▌     | 7782/16950 [1:26:38<1:41:01,  1.51it/s]Training 2/3 epoch (loss 0.0352):  46%|████▌     | 7783/16950 [1:26:38<1:35:52,  1.59it/s]Training 2/3 epoch (loss 0.0819):  46%|████▌     | 7783/16950 [1:26:39<1:35:52,  1.59it/s]Training 2/3 epoch (loss 0.0819):  46%|████▌     | 7784/16950 [1:26:39<1:31:02,  1.68it/s]Training 2/3 epoch (loss 0.0047):  46%|████▌     | 7784/16950 [1:26:39<1:31:02,  1.68it/s]Training 2/3 epoch (loss 0.0047):  46%|████▌     | 7785/16950 [1:26:39<1:26:15,  1.77it/s]Training 2/3 epoch (loss 0.0028):  46%|████▌     | 7785/16950 [1:26:40<1:26:15,  1.77it/s]Training 2/3 epoch (loss 0.0028):  46%|████▌     | 7786/16950 [1:26:40<1:20:31,  1.90it/s]Training 2/3 epoch (loss 0.0464):  46%|████▌     | 7786/16950 [1:26:40<1:20:31,  1.90it/s]Training 2/3 epoch (loss 0.0464):  46%|████▌     | 7787/16950 [1:26:40<1:17:58,  1.96it/s]Training 2/3 epoch (loss 0.0438):  46%|████▌     | 7787/16950 [1:26:41<1:17:58,  1.96it/s]Training 2/3 epoch (loss 0.0438):  46%|████▌     | 7788/16950 [1:26:41<1:20:46,  1.89it/s]Training 2/3 epoch (loss 0.0705):  46%|████▌     | 7788/16950 [1:26:41<1:20:46,  1.89it/s]Training 2/3 epoch (loss 0.0705):  46%|████▌     | 7789/16950 [1:26:41<1:30:45,  1.68it/s]Training 2/3 epoch (loss 0.1676):  46%|████▌     | 7789/16950 [1:26:42<1:30:45,  1.68it/s]Training 2/3 epoch (loss 0.1676):  46%|████▌     | 7790/16950 [1:26:42<1:23:28,  1.83it/s]Training 2/3 epoch (loss 0.6239):  46%|████▌     | 7790/16950 [1:26:42<1:23:28,  1.83it/s]Training 2/3 epoch (loss 0.6239):  46%|████▌     | 7791/16950 [1:26:42<1:19:43,  1.91it/s]Training 2/3 epoch (loss 0.4502):  46%|████▌     | 7791/16950 [1:26:43<1:19:43,  1.91it/s]Training 2/3 epoch (loss 0.4502):  46%|████▌     | 7792/16950 [1:26:43<1:34:42,  1.61it/s]Training 2/3 epoch (loss 0.1465):  46%|████▌     | 7792/16950 [1:26:44<1:34:42,  1.61it/s]Training 2/3 epoch (loss 0.1465):  46%|████▌     | 7793/16950 [1:26:44<1:35:04,  1.61it/s]Training 2/3 epoch (loss 0.0006):  46%|████▌     | 7793/16950 [1:26:44<1:35:04,  1.61it/s]Training 2/3 epoch (loss 0.0006):  46%|████▌     | 7794/16950 [1:26:44<1:29:27,  1.71it/s]Training 2/3 epoch (loss 0.0730):  46%|████▌     | 7794/16950 [1:26:45<1:29:27,  1.71it/s]Training 2/3 epoch (loss 0.0730):  46%|████▌     | 7795/16950 [1:26:45<1:31:41,  1.66it/s]Training 2/3 epoch (loss 0.1553):  46%|████▌     | 7795/16950 [1:26:45<1:31:41,  1.66it/s]Training 2/3 epoch (loss 0.1553):  46%|████▌     | 7796/16950 [1:26:45<1:34:47,  1.61it/s]Training 2/3 epoch (loss 0.0027):  46%|████▌     | 7796/16950 [1:26:46<1:34:47,  1.61it/s]Training 2/3 epoch (loss 0.0027):  46%|████▌     | 7797/16950 [1:26:46<1:41:51,  1.50it/s]Training 2/3 epoch (loss 0.2427):  46%|████▌     | 7797/16950 [1:26:47<1:41:51,  1.50it/s]Training 2/3 epoch (loss 0.2427):  46%|████▌     | 7798/16950 [1:26:47<1:51:11,  1.37it/s]Training 2/3 epoch (loss 0.0726):  46%|████▌     | 7798/16950 [1:26:48<1:51:11,  1.37it/s]Training 2/3 epoch (loss 0.0726):  46%|████▌     | 7799/16950 [1:26:48<1:44:27,  1.46it/s]Training 2/3 epoch (loss 0.0005):  46%|████▌     | 7799/16950 [1:26:48<1:44:27,  1.46it/s]Training 2/3 epoch (loss 0.0005):  46%|████▌     | 7800/16950 [1:26:48<1:36:09,  1.59it/s]Training 2/3 epoch (loss 0.0037):  46%|████▌     | 7800/16950 [1:26:49<1:36:09,  1.59it/s]Training 2/3 epoch (loss 0.0037):  46%|████▌     | 7801/16950 [1:26:49<1:28:29,  1.72it/s]Training 2/3 epoch (loss 0.1235):  46%|████▌     | 7801/16950 [1:26:49<1:28:29,  1.72it/s]Training 2/3 epoch (loss 0.1235):  46%|████▌     | 7802/16950 [1:26:49<1:33:56,  1.62it/s]Training 2/3 epoch (loss 0.4164):  46%|████▌     | 7802/16950 [1:26:50<1:33:56,  1.62it/s]Training 2/3 epoch (loss 0.4164):  46%|████▌     | 7803/16950 [1:26:50<1:37:32,  1.56it/s]Training 2/3 epoch (loss 0.0011):  46%|████▌     | 7803/16950 [1:26:51<1:37:32,  1.56it/s]Training 2/3 epoch (loss 0.0011):  46%|████▌     | 7804/16950 [1:26:51<1:32:20,  1.65it/s]Training 2/3 epoch (loss 0.0038):  46%|████▌     | 7804/16950 [1:26:51<1:32:20,  1.65it/s]Training 2/3 epoch (loss 0.0038):  46%|████▌     | 7805/16950 [1:26:51<1:29:42,  1.70it/s]Training 2/3 epoch (loss 0.1893):  46%|████▌     | 7805/16950 [1:26:52<1:29:42,  1.70it/s]Training 2/3 epoch (loss 0.1893):  46%|████▌     | 7806/16950 [1:26:52<1:25:52,  1.77it/s]Training 2/3 epoch (loss 0.0009):  46%|████▌     | 7806/16950 [1:26:52<1:25:52,  1.77it/s]Training 2/3 epoch (loss 0.0009):  46%|████▌     | 7807/16950 [1:26:52<1:24:58,  1.79it/s]Training 2/3 epoch (loss 0.0118):  46%|████▌     | 7807/16950 [1:26:53<1:24:58,  1.79it/s]Training 2/3 epoch (loss 0.0118):  46%|████▌     | 7808/16950 [1:26:53<1:19:41,  1.91it/s]Training 2/3 epoch (loss 0.0029):  46%|████▌     | 7808/16950 [1:26:54<1:19:41,  1.91it/s]Training 2/3 epoch (loss 0.0029):  46%|████▌     | 7809/16950 [1:26:54<1:40:26,  1.52it/s]Training 2/3 epoch (loss 0.0347):  46%|████▌     | 7809/16950 [1:26:54<1:40:26,  1.52it/s]Training 2/3 epoch (loss 0.0347):  46%|████▌     | 7810/16950 [1:26:54<1:44:37,  1.46it/s]Training 2/3 epoch (loss 0.0217):  46%|████▌     | 7810/16950 [1:26:55<1:44:37,  1.46it/s]Training 2/3 epoch (loss 0.0217):  46%|████▌     | 7811/16950 [1:26:55<1:43:30,  1.47it/s]Training 2/3 epoch (loss 0.2745):  46%|████▌     | 7811/16950 [1:26:56<1:43:30,  1.47it/s]Training 2/3 epoch (loss 0.2745):  46%|████▌     | 7812/16950 [1:26:56<1:37:23,  1.56it/s]Training 2/3 epoch (loss 0.2314):  46%|████▌     | 7812/16950 [1:26:56<1:37:23,  1.56it/s]Training 2/3 epoch (loss 0.2314):  46%|████▌     | 7813/16950 [1:26:56<1:27:22,  1.74it/s]Training 2/3 epoch (loss 0.3025):  46%|████▌     | 7813/16950 [1:26:57<1:27:22,  1.74it/s]Training 2/3 epoch (loss 0.3025):  46%|████▌     | 7814/16950 [1:26:57<1:36:03,  1.59it/s]Training 2/3 epoch (loss 0.4889):  46%|████▌     | 7814/16950 [1:26:57<1:36:03,  1.59it/s]Training 2/3 epoch (loss 0.4889):  46%|████▌     | 7815/16950 [1:26:57<1:25:37,  1.78it/s]Training 2/3 epoch (loss 0.0112):  46%|████▌     | 7815/16950 [1:26:58<1:25:37,  1.78it/s]Training 2/3 epoch (loss 0.0112):  46%|████▌     | 7816/16950 [1:26:58<1:31:36,  1.66it/s]Training 2/3 epoch (loss 0.0270):  46%|████▌     | 7816/16950 [1:26:58<1:31:36,  1.66it/s]Training 2/3 epoch (loss 0.0270):  46%|████▌     | 7817/16950 [1:26:58<1:30:41,  1.68it/s]Training 2/3 epoch (loss 0.2699):  46%|████▌     | 7817/16950 [1:26:59<1:30:41,  1.68it/s]Training 2/3 epoch (loss 0.2699):  46%|████▌     | 7818/16950 [1:26:59<1:23:36,  1.82it/s]Training 2/3 epoch (loss 0.0815):  46%|████▌     | 7818/16950 [1:27:00<1:23:36,  1.82it/s]Training 2/3 epoch (loss 0.0815):  46%|████▌     | 7819/16950 [1:27:00<1:27:02,  1.75it/s]Training 2/3 epoch (loss 0.0050):  46%|████▌     | 7819/16950 [1:27:00<1:27:02,  1.75it/s]Training 2/3 epoch (loss 0.0050):  46%|████▌     | 7820/16950 [1:27:00<1:31:00,  1.67it/s]Training 2/3 epoch (loss 0.0012):  46%|████▌     | 7820/16950 [1:27:01<1:31:00,  1.67it/s]Training 2/3 epoch (loss 0.0012):  46%|████▌     | 7821/16950 [1:27:01<1:36:37,  1.57it/s]Training 2/3 epoch (loss 0.0003):  46%|████▌     | 7821/16950 [1:27:01<1:36:37,  1.57it/s]Training 2/3 epoch (loss 0.0003):  46%|████▌     | 7822/16950 [1:27:01<1:30:43,  1.68it/s]Training 2/3 epoch (loss 0.9899):  46%|████▌     | 7822/16950 [1:27:02<1:30:43,  1.68it/s]Training 2/3 epoch (loss 0.9899):  46%|████▌     | 7823/16950 [1:27:02<1:42:22,  1.49it/s]Training 2/3 epoch (loss 0.0182):  46%|████▌     | 7823/16950 [1:27:03<1:42:22,  1.49it/s]Training 2/3 epoch (loss 0.0182):  46%|████▌     | 7824/16950 [1:27:03<1:49:28,  1.39it/s]Training 2/3 epoch (loss 0.4095):  46%|████▌     | 7824/16950 [1:27:04<1:49:28,  1.39it/s]Training 2/3 epoch (loss 0.4095):  46%|████▌     | 7825/16950 [1:27:04<2:02:19,  1.24it/s]Training 2/3 epoch (loss 0.0317):  46%|████▌     | 7825/16950 [1:27:05<2:02:19,  1.24it/s]Training 2/3 epoch (loss 0.0317):  46%|████▌     | 7826/16950 [1:27:05<2:02:39,  1.24it/s]Training 2/3 epoch (loss 0.0002):  46%|████▌     | 7826/16950 [1:27:05<2:02:39,  1.24it/s]Training 2/3 epoch (loss 0.0002):  46%|████▌     | 7827/16950 [1:27:05<1:49:50,  1.38it/s]Training 2/3 epoch (loss 0.0270):  46%|████▌     | 7827/16950 [1:27:06<1:49:50,  1.38it/s]Training 2/3 epoch (loss 0.0270):  46%|████▌     | 7828/16950 [1:27:06<1:39:11,  1.53it/s]Training 2/3 epoch (loss 0.0002):  46%|████▌     | 7828/16950 [1:27:07<1:39:11,  1.53it/s]Training 2/3 epoch (loss 0.0002):  46%|████▌     | 7829/16950 [1:27:07<1:38:26,  1.54it/s]Training 2/3 epoch (loss 0.1680):  46%|████▌     | 7829/16950 [1:27:07<1:38:26,  1.54it/s]Training 2/3 epoch (loss 0.1680):  46%|████▌     | 7830/16950 [1:27:07<1:32:56,  1.64it/s]Training 2/3 epoch (loss 0.1189):  46%|████▌     | 7830/16950 [1:27:08<1:32:56,  1.64it/s]Training 2/3 epoch (loss 0.1189):  46%|████▌     | 7831/16950 [1:27:08<1:35:12,  1.60it/s]Training 2/3 epoch (loss 0.4095):  46%|████▌     | 7831/16950 [1:27:08<1:35:12,  1.60it/s]Training 2/3 epoch (loss 0.4095):  46%|████▌     | 7832/16950 [1:27:08<1:27:41,  1.73it/s]Training 2/3 epoch (loss 0.0531):  46%|████▌     | 7832/16950 [1:27:09<1:27:41,  1.73it/s]Training 2/3 epoch (loss 0.0531):  46%|████▌     | 7833/16950 [1:27:09<1:25:06,  1.79it/s]Training 2/3 epoch (loss 0.0216):  46%|████▌     | 7833/16950 [1:27:09<1:25:06,  1.79it/s]Training 2/3 epoch (loss 0.0216):  46%|████▌     | 7834/16950 [1:27:09<1:27:12,  1.74it/s]Training 2/3 epoch (loss 0.0178):  46%|████▌     | 7834/16950 [1:27:10<1:27:12,  1.74it/s]Training 2/3 epoch (loss 0.0178):  46%|████▌     | 7835/16950 [1:27:10<1:25:09,  1.78it/s]Training 2/3 epoch (loss 0.0019):  46%|████▌     | 7835/16950 [1:27:10<1:25:09,  1.78it/s]Training 2/3 epoch (loss 0.0019):  46%|████▌     | 7836/16950 [1:27:10<1:24:15,  1.80it/s]Training 2/3 epoch (loss 0.2083):  46%|████▌     | 7836/16950 [1:27:11<1:24:15,  1.80it/s]Training 2/3 epoch (loss 0.2083):  46%|████▌     | 7837/16950 [1:27:11<1:22:37,  1.84it/s]Training 2/3 epoch (loss 0.0036):  46%|████▌     | 7837/16950 [1:27:11<1:22:37,  1.84it/s]Training 2/3 epoch (loss 0.0036):  46%|████▌     | 7838/16950 [1:27:11<1:23:26,  1.82it/s]Training 2/3 epoch (loss 0.1630):  46%|████▌     | 7838/16950 [1:27:12<1:23:26,  1.82it/s]Training 2/3 epoch (loss 0.1630):  46%|████▌     | 7839/16950 [1:27:12<1:30:47,  1.67it/s]Training 2/3 epoch (loss 0.0256):  46%|████▌     | 7839/16950 [1:27:13<1:30:47,  1.67it/s]Training 2/3 epoch (loss 0.0256):  46%|████▋     | 7840/16950 [1:27:13<1:43:54,  1.46it/s]Training 2/3 epoch (loss 0.2207):  46%|████▋     | 7840/16950 [1:27:14<1:43:54,  1.46it/s]Training 2/3 epoch (loss 0.2207):  46%|████▋     | 7841/16950 [1:27:14<1:32:51,  1.63it/s]Training 2/3 epoch (loss 0.0003):  46%|████▋     | 7841/16950 [1:27:14<1:32:51,  1.63it/s]Training 2/3 epoch (loss 0.0003):  46%|████▋     | 7842/16950 [1:27:14<1:26:48,  1.75it/s]Training 2/3 epoch (loss 0.1454):  46%|████▋     | 7842/16950 [1:27:15<1:26:48,  1.75it/s]Training 2/3 epoch (loss 0.1454):  46%|████▋     | 7843/16950 [1:27:15<1:25:31,  1.77it/s]Training 2/3 epoch (loss 0.2416):  46%|████▋     | 7843/16950 [1:27:15<1:25:31,  1.77it/s]Training 2/3 epoch (loss 0.2416):  46%|████▋     | 7844/16950 [1:27:15<1:19:28,  1.91it/s]Training 2/3 epoch (loss 0.1636):  46%|████▋     | 7844/16950 [1:27:16<1:19:28,  1.91it/s]Training 2/3 epoch (loss 0.1636):  46%|████▋     | 7845/16950 [1:27:16<1:26:08,  1.76it/s]Training 2/3 epoch (loss 0.0001):  46%|████▋     | 7845/16950 [1:27:16<1:26:08,  1.76it/s]Training 2/3 epoch (loss 0.0001):  46%|████▋     | 7846/16950 [1:27:16<1:26:19,  1.76it/s]Training 2/3 epoch (loss 0.3870):  46%|████▋     | 7846/16950 [1:27:17<1:26:19,  1.76it/s]Training 2/3 epoch (loss 0.3870):  46%|████▋     | 7847/16950 [1:27:17<1:25:53,  1.77it/s]Training 2/3 epoch (loss 0.3733):  46%|████▋     | 7847/16950 [1:27:17<1:25:53,  1.77it/s]Training 2/3 epoch (loss 0.3733):  46%|████▋     | 7848/16950 [1:27:17<1:29:48,  1.69it/s]Training 2/3 epoch (loss 0.0004):  46%|████▋     | 7848/16950 [1:27:18<1:29:48,  1.69it/s]Training 2/3 epoch (loss 0.0004):  46%|████▋     | 7849/16950 [1:27:18<1:27:15,  1.74it/s]Training 2/3 epoch (loss 0.2606):  46%|████▋     | 7849/16950 [1:27:19<1:27:15,  1.74it/s]Training 2/3 epoch (loss 0.2606):  46%|████▋     | 7850/16950 [1:27:19<1:27:14,  1.74it/s]Training 2/3 epoch (loss 0.2042):  46%|████▋     | 7850/16950 [1:27:19<1:27:14,  1.74it/s]Training 2/3 epoch (loss 0.2042):  46%|████▋     | 7851/16950 [1:27:19<1:23:53,  1.81it/s]Training 2/3 epoch (loss 0.0004):  46%|████▋     | 7851/16950 [1:27:20<1:23:53,  1.81it/s]Training 2/3 epoch (loss 0.0004):  46%|████▋     | 7852/16950 [1:27:20<1:21:55,  1.85it/s]Training 2/3 epoch (loss 0.0674):  46%|████▋     | 7852/16950 [1:27:20<1:21:55,  1.85it/s]Training 2/3 epoch (loss 0.0674):  46%|████▋     | 7853/16950 [1:27:20<1:18:58,  1.92it/s]Training 2/3 epoch (loss 0.0569):  46%|████▋     | 7853/16950 [1:27:20<1:18:58,  1.92it/s]Training 2/3 epoch (loss 0.0569):  46%|████▋     | 7854/16950 [1:27:20<1:16:49,  1.97it/s]Training 2/3 epoch (loss 0.0028):  46%|████▋     | 7854/16950 [1:27:21<1:16:49,  1.97it/s]Training 2/3 epoch (loss 0.0028):  46%|████▋     | 7855/16950 [1:27:21<1:22:56,  1.83it/s]Training 2/3 epoch (loss 0.2956):  46%|████▋     | 7855/16950 [1:27:22<1:22:56,  1.83it/s]Training 2/3 epoch (loss 0.2956):  46%|████▋     | 7856/16950 [1:27:22<1:22:37,  1.83it/s]Training 2/3 epoch (loss 0.5518):  46%|████▋     | 7856/16950 [1:27:23<1:22:37,  1.83it/s]Training 2/3 epoch (loss 0.5518):  46%|████▋     | 7857/16950 [1:27:23<1:50:56,  1.37it/s]Training 2/3 epoch (loss 0.0080):  46%|████▋     | 7857/16950 [1:27:23<1:50:56,  1.37it/s]Training 2/3 epoch (loss 0.0080):  46%|████▋     | 7858/16950 [1:27:23<1:41:36,  1.49it/s]Training 2/3 epoch (loss 0.0853):  46%|████▋     | 7858/16950 [1:27:24<1:41:36,  1.49it/s]Training 2/3 epoch (loss 0.0853):  46%|████▋     | 7859/16950 [1:27:24<1:29:43,  1.69it/s]Training 2/3 epoch (loss 0.8003):  46%|████▋     | 7859/16950 [1:27:25<1:29:43,  1.69it/s]Training 2/3 epoch (loss 0.8003):  46%|████▋     | 7860/16950 [1:27:25<1:37:38,  1.55it/s]Training 2/3 epoch (loss 0.0324):  46%|████▋     | 7860/16950 [1:27:25<1:37:38,  1.55it/s]Training 2/3 epoch (loss 0.0324):  46%|████▋     | 7861/16950 [1:27:25<1:41:24,  1.49it/s]Training 2/3 epoch (loss 0.0030):  46%|████▋     | 7861/16950 [1:27:26<1:41:24,  1.49it/s]Training 2/3 epoch (loss 0.0030):  46%|████▋     | 7862/16950 [1:27:26<1:31:25,  1.66it/s]Training 2/3 epoch (loss 0.0796):  46%|████▋     | 7862/16950 [1:27:26<1:31:25,  1.66it/s]Training 2/3 epoch (loss 0.0796):  46%|████▋     | 7863/16950 [1:27:26<1:28:08,  1.72it/s]Training 2/3 epoch (loss 0.0310):  46%|████▋     | 7863/16950 [1:27:27<1:28:08,  1.72it/s]Training 2/3 epoch (loss 0.0310):  46%|████▋     | 7864/16950 [1:27:27<1:30:54,  1.67it/s]Training 2/3 epoch (loss 0.0202):  46%|████▋     | 7864/16950 [1:27:28<1:30:54,  1.67it/s]Training 2/3 epoch (loss 0.0202):  46%|████▋     | 7865/16950 [1:27:28<1:34:20,  1.61it/s]Training 2/3 epoch (loss 0.1990):  46%|████▋     | 7865/16950 [1:27:28<1:34:20,  1.61it/s]Training 2/3 epoch (loss 0.1990):  46%|████▋     | 7866/16950 [1:27:28<1:33:22,  1.62it/s]Training 2/3 epoch (loss 0.0388):  46%|████▋     | 7866/16950 [1:27:29<1:33:22,  1.62it/s]Training 2/3 epoch (loss 0.0388):  46%|████▋     | 7867/16950 [1:27:29<1:28:42,  1.71it/s]Training 2/3 epoch (loss 0.2765):  46%|████▋     | 7867/16950 [1:27:29<1:28:42,  1.71it/s]Training 2/3 epoch (loss 0.2765):  46%|████▋     | 7868/16950 [1:27:29<1:21:22,  1.86it/s]Training 2/3 epoch (loss 0.0003):  46%|████▋     | 7868/16950 [1:27:29<1:21:22,  1.86it/s]Training 2/3 epoch (loss 0.0003):  46%|████▋     | 7869/16950 [1:27:29<1:14:04,  2.04it/s]Training 2/3 epoch (loss 0.4527):  46%|████▋     | 7869/16950 [1:27:30<1:14:04,  2.04it/s]Training 2/3 epoch (loss 0.4527):  46%|████▋     | 7870/16950 [1:27:30<1:20:00,  1.89it/s]Training 2/3 epoch (loss 0.0848):  46%|████▋     | 7870/16950 [1:27:31<1:20:00,  1.89it/s]Training 2/3 epoch (loss 0.0848):  46%|████▋     | 7871/16950 [1:27:31<1:27:17,  1.73it/s]Training 2/3 epoch (loss 0.0986):  46%|████▋     | 7871/16950 [1:27:31<1:27:17,  1.73it/s]Training 2/3 epoch (loss 0.0986):  46%|████▋     | 7872/16950 [1:27:31<1:32:21,  1.64it/s]Training 2/3 epoch (loss 0.1672):  46%|████▋     | 7872/16950 [1:27:32<1:32:21,  1.64it/s]Training 2/3 epoch (loss 0.1672):  46%|████▋     | 7873/16950 [1:27:32<1:37:52,  1.55it/s]Training 2/3 epoch (loss 0.3567):  46%|████▋     | 7873/16950 [1:27:33<1:37:52,  1.55it/s]Training 2/3 epoch (loss 0.3567):  46%|████▋     | 7874/16950 [1:27:33<1:34:32,  1.60it/s]Training 2/3 epoch (loss 0.0005):  46%|████▋     | 7874/16950 [1:27:33<1:34:32,  1.60it/s]Training 2/3 epoch (loss 0.0005):  46%|████▋     | 7875/16950 [1:27:33<1:36:08,  1.57it/s]Training 2/3 epoch (loss 0.0671):  46%|████▋     | 7875/16950 [1:27:34<1:36:08,  1.57it/s]Training 2/3 epoch (loss 0.0671):  46%|████▋     | 7876/16950 [1:27:34<1:37:05,  1.56it/s]Training 2/3 epoch (loss 0.2110):  46%|████▋     | 7876/16950 [1:27:35<1:37:05,  1.56it/s]Training 2/3 epoch (loss 0.2110):  46%|████▋     | 7877/16950 [1:27:35<1:33:21,  1.62it/s]Training 2/3 epoch (loss 0.0050):  46%|████▋     | 7877/16950 [1:27:35<1:33:21,  1.62it/s]Training 2/3 epoch (loss 0.0050):  46%|████▋     | 7878/16950 [1:27:35<1:29:36,  1.69it/s]Training 2/3 epoch (loss 0.0732):  46%|████▋     | 7878/16950 [1:27:36<1:29:36,  1.69it/s]Training 2/3 epoch (loss 0.0732):  46%|████▋     | 7879/16950 [1:27:36<1:29:20,  1.69it/s]Training 2/3 epoch (loss 0.0273):  46%|████▋     | 7879/16950 [1:27:36<1:29:20,  1.69it/s]Training 2/3 epoch (loss 0.0273):  46%|████▋     | 7880/16950 [1:27:36<1:30:02,  1.68it/s]Training 2/3 epoch (loss 0.4086):  46%|████▋     | 7880/16950 [1:27:37<1:30:02,  1.68it/s]Training 2/3 epoch (loss 0.4086):  46%|████▋     | 7881/16950 [1:27:37<1:36:33,  1.57it/s]Training 2/3 epoch (loss 0.0119):  46%|████▋     | 7881/16950 [1:27:38<1:36:33,  1.57it/s]Training 2/3 epoch (loss 0.0119):  47%|████▋     | 7882/16950 [1:27:38<1:34:32,  1.60it/s]Training 2/3 epoch (loss 0.0065):  47%|████▋     | 7882/16950 [1:27:38<1:34:32,  1.60it/s]Training 2/3 epoch (loss 0.0065):  47%|████▋     | 7883/16950 [1:27:38<1:26:09,  1.75it/s]Training 2/3 epoch (loss 0.8287):  47%|████▋     | 7883/16950 [1:27:39<1:26:09,  1.75it/s]Training 2/3 epoch (loss 0.8287):  47%|████▋     | 7884/16950 [1:27:39<1:23:40,  1.81it/s]Training 2/3 epoch (loss 0.0064):  47%|████▋     | 7884/16950 [1:27:39<1:23:40,  1.81it/s]Training 2/3 epoch (loss 0.0064):  47%|████▋     | 7885/16950 [1:27:39<1:26:59,  1.74it/s]Training 2/3 epoch (loss 0.4733):  47%|████▋     | 7885/16950 [1:27:40<1:26:59,  1.74it/s]Training 2/3 epoch (loss 0.4733):  47%|████▋     | 7886/16950 [1:27:40<1:31:14,  1.66it/s]Training 2/3 epoch (loss 0.0035):  47%|████▋     | 7886/16950 [1:27:40<1:31:14,  1.66it/s]Training 2/3 epoch (loss 0.0035):  47%|████▋     | 7887/16950 [1:27:40<1:23:02,  1.82it/s]Training 2/3 epoch (loss 0.4560):  47%|████▋     | 7887/16950 [1:27:41<1:23:02,  1.82it/s]Training 2/3 epoch (loss 0.4560):  47%|████▋     | 7888/16950 [1:27:41<1:33:14,  1.62it/s]Training 2/3 epoch (loss 0.2364):  47%|████▋     | 7888/16950 [1:27:42<1:33:14,  1.62it/s]Training 2/3 epoch (loss 0.2364):  47%|████▋     | 7889/16950 [1:27:42<1:23:42,  1.80it/s]Training 2/3 epoch (loss 0.5655):  47%|████▋     | 7889/16950 [1:27:42<1:23:42,  1.80it/s]Training 2/3 epoch (loss 0.5655):  47%|████▋     | 7890/16950 [1:27:42<1:14:25,  2.03it/s]Training 2/3 epoch (loss 0.0051):  47%|████▋     | 7890/16950 [1:27:43<1:14:25,  2.03it/s]Training 2/3 epoch (loss 0.0051):  47%|████▋     | 7891/16950 [1:27:43<1:17:52,  1.94it/s]Training 2/3 epoch (loss 0.1894):  47%|████▋     | 7891/16950 [1:27:43<1:17:52,  1.94it/s]Training 2/3 epoch (loss 0.1894):  47%|████▋     | 7892/16950 [1:27:43<1:19:57,  1.89it/s]Training 2/3 epoch (loss 0.0192):  47%|████▋     | 7892/16950 [1:27:43<1:19:57,  1.89it/s]Training 2/3 epoch (loss 0.0192):  47%|████▋     | 7893/16950 [1:27:43<1:14:32,  2.03it/s]Training 2/3 epoch (loss 0.0016):  47%|████▋     | 7893/16950 [1:27:44<1:14:32,  2.03it/s]Training 2/3 epoch (loss 0.0016):  47%|████▋     | 7894/16950 [1:27:44<1:19:47,  1.89it/s]Training 2/3 epoch (loss 0.0048):  47%|████▋     | 7894/16950 [1:27:45<1:19:47,  1.89it/s]Training 2/3 epoch (loss 0.0048):  47%|████▋     | 7895/16950 [1:27:45<1:17:30,  1.95it/s]Training 2/3 epoch (loss 0.0245):  47%|████▋     | 7895/16950 [1:27:45<1:17:30,  1.95it/s]Training 2/3 epoch (loss 0.0245):  47%|████▋     | 7896/16950 [1:27:45<1:33:56,  1.61it/s]Training 2/3 epoch (loss 0.0208):  47%|████▋     | 7896/16950 [1:27:46<1:33:56,  1.61it/s]Training 2/3 epoch (loss 0.0208):  47%|████▋     | 7897/16950 [1:27:46<1:29:47,  1.68it/s]Training 2/3 epoch (loss 0.3022):  47%|████▋     | 7897/16950 [1:27:46<1:29:47,  1.68it/s]Training 2/3 epoch (loss 0.3022):  47%|████▋     | 7898/16950 [1:27:46<1:20:56,  1.86it/s]Training 2/3 epoch (loss 0.3083):  47%|████▋     | 7898/16950 [1:27:47<1:20:56,  1.86it/s]Training 2/3 epoch (loss 0.3083):  47%|████▋     | 7899/16950 [1:27:47<1:34:15,  1.60it/s]Training 2/3 epoch (loss 0.0161):  47%|████▋     | 7899/16950 [1:27:48<1:34:15,  1.60it/s]Training 2/3 epoch (loss 0.0161):  47%|████▋     | 7900/16950 [1:27:48<1:34:08,  1.60it/s]Training 2/3 epoch (loss 0.2699):  47%|████▋     | 7900/16950 [1:27:48<1:34:08,  1.60it/s]Training 2/3 epoch (loss 0.2699):  47%|████▋     | 7901/16950 [1:27:48<1:24:17,  1.79it/s]Training 2/3 epoch (loss 0.1213):  47%|████▋     | 7901/16950 [1:27:49<1:24:17,  1.79it/s]Training 2/3 epoch (loss 0.1213):  47%|████▋     | 7902/16950 [1:27:49<1:26:36,  1.74it/s]Training 2/3 epoch (loss 0.5036):  47%|████▋     | 7902/16950 [1:27:49<1:26:36,  1.74it/s]Training 2/3 epoch (loss 0.5036):  47%|████▋     | 7903/16950 [1:27:49<1:22:18,  1.83it/s]Training 2/3 epoch (loss 0.4444):  47%|████▋     | 7903/16950 [1:27:50<1:22:18,  1.83it/s]Training 2/3 epoch (loss 0.4444):  47%|████▋     | 7904/16950 [1:27:50<1:17:22,  1.95it/s]Training 2/3 epoch (loss 0.0040):  47%|████▋     | 7904/16950 [1:27:50<1:17:22,  1.95it/s]Training 2/3 epoch (loss 0.0040):  47%|████▋     | 7905/16950 [1:27:50<1:13:56,  2.04it/s]Training 2/3 epoch (loss 0.0040):  47%|████▋     | 7905/16950 [1:27:51<1:13:56,  2.04it/s]Training 2/3 epoch (loss 0.0040):  47%|████▋     | 7906/16950 [1:27:51<1:16:53,  1.96it/s]Training 2/3 epoch (loss 0.2805):  47%|████▋     | 7906/16950 [1:27:51<1:16:53,  1.96it/s]Training 2/3 epoch (loss 0.2805):  47%|████▋     | 7907/16950 [1:27:51<1:14:37,  2.02it/s]Training 2/3 epoch (loss 0.5863):  47%|████▋     | 7907/16950 [1:27:52<1:14:37,  2.02it/s]Training 2/3 epoch (loss 0.5863):  47%|████▋     | 7908/16950 [1:27:52<1:23:29,  1.80it/s]Training 2/3 epoch (loss 0.3496):  47%|████▋     | 7908/16950 [1:27:53<1:23:29,  1.80it/s]Training 2/3 epoch (loss 0.3496):  47%|████▋     | 7909/16950 [1:27:53<1:30:56,  1.66it/s]Training 2/3 epoch (loss 0.3440):  47%|████▋     | 7909/16950 [1:27:53<1:30:56,  1.66it/s]Training 2/3 epoch (loss 0.3440):  47%|████▋     | 7910/16950 [1:27:53<1:32:49,  1.62it/s]Training 2/3 epoch (loss 0.0079):  47%|████▋     | 7910/16950 [1:27:54<1:32:49,  1.62it/s]Training 2/3 epoch (loss 0.0079):  47%|████▋     | 7911/16950 [1:27:54<1:34:58,  1.59it/s]Training 2/3 epoch (loss 0.1560):  47%|████▋     | 7911/16950 [1:27:54<1:34:58,  1.59it/s]Training 2/3 epoch (loss 0.1560):  47%|████▋     | 7912/16950 [1:27:54<1:28:46,  1.70it/s]Training 2/3 epoch (loss 0.5467):  47%|████▋     | 7912/16950 [1:27:55<1:28:46,  1.70it/s]Training 2/3 epoch (loss 0.5467):  47%|████▋     | 7913/16950 [1:27:55<1:36:14,  1.56it/s]Training 2/3 epoch (loss 0.0042):  47%|████▋     | 7913/16950 [1:27:56<1:36:14,  1.56it/s]Training 2/3 epoch (loss 0.0042):  47%|████▋     | 7914/16950 [1:27:56<1:31:45,  1.64it/s]Training 2/3 epoch (loss 0.0087):  47%|████▋     | 7914/16950 [1:27:56<1:31:45,  1.64it/s]Training 2/3 epoch (loss 0.0087):  47%|████▋     | 7915/16950 [1:27:56<1:25:23,  1.76it/s]Training 2/3 epoch (loss 0.0041):  47%|████▋     | 7915/16950 [1:27:57<1:25:23,  1.76it/s]Training 2/3 epoch (loss 0.0041):  47%|████▋     | 7916/16950 [1:27:57<1:24:59,  1.77it/s]Training 2/3 epoch (loss 0.0181):  47%|████▋     | 7916/16950 [1:27:57<1:24:59,  1.77it/s]Training 2/3 epoch (loss 0.0181):  47%|████▋     | 7917/16950 [1:27:57<1:25:43,  1.76it/s]Training 2/3 epoch (loss 0.6502):  47%|████▋     | 7917/16950 [1:27:58<1:25:43,  1.76it/s]Training 2/3 epoch (loss 0.6502):  47%|████▋     | 7918/16950 [1:27:58<1:49:55,  1.37it/s]Training 2/3 epoch (loss 0.3773):  47%|████▋     | 7918/16950 [1:27:59<1:49:55,  1.37it/s]Training 2/3 epoch (loss 0.3773):  47%|████▋     | 7919/16950 [1:27:59<1:48:18,  1.39it/s]Training 2/3 epoch (loss 0.0370):  47%|████▋     | 7919/16950 [1:28:00<1:48:18,  1.39it/s]Training 2/3 epoch (loss 0.0370):  47%|████▋     | 7920/16950 [1:28:00<1:32:28,  1.63it/s]Training 2/3 epoch (loss 0.0061):  47%|████▋     | 7920/16950 [1:28:00<1:32:28,  1.63it/s]Training 2/3 epoch (loss 0.0061):  47%|████▋     | 7921/16950 [1:28:00<1:23:26,  1.80it/s]Training 2/3 epoch (loss 0.0352):  47%|████▋     | 7921/16950 [1:28:01<1:23:26,  1.80it/s]Training 2/3 epoch (loss 0.0352):  47%|████▋     | 7922/16950 [1:28:01<1:26:02,  1.75it/s]Training 2/3 epoch (loss 0.0843):  47%|████▋     | 7922/16950 [1:28:01<1:26:02,  1.75it/s]Training 2/3 epoch (loss 0.0843):  47%|████▋     | 7923/16950 [1:28:01<1:22:06,  1.83it/s]Training 2/3 epoch (loss 0.2640):  47%|████▋     | 7923/16950 [1:28:02<1:22:06,  1.83it/s]Training 2/3 epoch (loss 0.2640):  47%|████▋     | 7924/16950 [1:28:02<1:27:21,  1.72it/s]Training 2/3 epoch (loss 0.0604):  47%|████▋     | 7924/16950 [1:28:02<1:27:21,  1.72it/s]Training 2/3 epoch (loss 0.0604):  47%|████▋     | 7925/16950 [1:28:02<1:35:05,  1.58it/s]Training 2/3 epoch (loss 0.3989):  47%|████▋     | 7925/16950 [1:28:03<1:35:05,  1.58it/s]Training 2/3 epoch (loss 0.3989):  47%|████▋     | 7926/16950 [1:28:03<1:39:46,  1.51it/s]Training 2/3 epoch (loss 0.0003):  47%|████▋     | 7926/16950 [1:28:04<1:39:46,  1.51it/s]Training 2/3 epoch (loss 0.0003):  47%|████▋     | 7927/16950 [1:28:04<1:35:45,  1.57it/s]Training 2/3 epoch (loss 0.0032):  47%|████▋     | 7927/16950 [1:28:04<1:35:45,  1.57it/s]Training 2/3 epoch (loss 0.0032):  47%|████▋     | 7928/16950 [1:28:04<1:27:45,  1.71it/s]Training 2/3 epoch (loss 0.0413):  47%|████▋     | 7928/16950 [1:28:05<1:27:45,  1.71it/s]Training 2/3 epoch (loss 0.0413):  47%|████▋     | 7929/16950 [1:28:05<1:24:54,  1.77it/s]Training 2/3 epoch (loss 0.0148):  47%|████▋     | 7929/16950 [1:28:05<1:24:54,  1.77it/s]Training 2/3 epoch (loss 0.0148):  47%|████▋     | 7930/16950 [1:28:05<1:19:46,  1.88it/s]Training 2/3 epoch (loss 0.0335):  47%|████▋     | 7930/16950 [1:28:06<1:19:46,  1.88it/s]Training 2/3 epoch (loss 0.0335):  47%|████▋     | 7931/16950 [1:28:06<1:19:14,  1.90it/s]Training 2/3 epoch (loss 0.6308):  47%|████▋     | 7931/16950 [1:28:06<1:19:14,  1.90it/s]Training 2/3 epoch (loss 0.6308):  47%|████▋     | 7932/16950 [1:28:06<1:28:57,  1.69it/s]Training 2/3 epoch (loss 0.0786):  47%|████▋     | 7932/16950 [1:28:07<1:28:57,  1.69it/s]Training 2/3 epoch (loss 0.0786):  47%|████▋     | 7933/16950 [1:28:07<1:28:24,  1.70it/s]Training 2/3 epoch (loss 0.0118):  47%|████▋     | 7933/16950 [1:28:07<1:28:24,  1.70it/s]Training 2/3 epoch (loss 0.0118):  47%|████▋     | 7934/16950 [1:28:07<1:22:11,  1.83it/s]Training 2/3 epoch (loss 0.2330):  47%|████▋     | 7934/16950 [1:28:08<1:22:11,  1.83it/s]Training 2/3 epoch (loss 0.2330):  47%|████▋     | 7935/16950 [1:28:08<1:19:32,  1.89it/s]Training 2/3 epoch (loss 0.0700):  47%|████▋     | 7935/16950 [1:28:09<1:19:32,  1.89it/s]Training 2/3 epoch (loss 0.0700):  47%|████▋     | 7936/16950 [1:28:09<1:28:33,  1.70it/s]Training 2/3 epoch (loss 0.4301):  47%|████▋     | 7936/16950 [1:28:09<1:28:33,  1.70it/s]Training 2/3 epoch (loss 0.4301):  47%|████▋     | 7937/16950 [1:28:09<1:37:26,  1.54it/s]Training 2/3 epoch (loss 0.1237):  47%|████▋     | 7937/16950 [1:28:10<1:37:26,  1.54it/s]Training 2/3 epoch (loss 0.1237):  47%|████▋     | 7938/16950 [1:28:10<1:32:20,  1.63it/s]Training 2/3 epoch (loss 0.3716):  47%|████▋     | 7938/16950 [1:28:10<1:32:20,  1.63it/s]Training 2/3 epoch (loss 0.3716):  47%|████▋     | 7939/16950 [1:28:10<1:24:01,  1.79it/s]Training 2/3 epoch (loss 0.4057):  47%|████▋     | 7939/16950 [1:28:11<1:24:01,  1.79it/s]Training 2/3 epoch (loss 0.4057):  47%|████▋     | 7940/16950 [1:28:11<1:26:12,  1.74it/s]Training 2/3 epoch (loss 0.2336):  47%|████▋     | 7940/16950 [1:28:12<1:26:12,  1.74it/s]Training 2/3 epoch (loss 0.2336):  47%|████▋     | 7941/16950 [1:28:12<1:45:22,  1.42it/s]Training 2/3 epoch (loss 0.0170):  47%|████▋     | 7941/16950 [1:28:13<1:45:22,  1.42it/s]Training 2/3 epoch (loss 0.0170):  47%|████▋     | 7942/16950 [1:28:13<1:37:35,  1.54it/s]Training 2/3 epoch (loss 0.3199):  47%|████▋     | 7942/16950 [1:28:13<1:37:35,  1.54it/s]Training 2/3 epoch (loss 0.3199):  47%|████▋     | 7943/16950 [1:28:13<1:32:03,  1.63it/s]Training 2/3 epoch (loss 0.0352):  47%|████▋     | 7943/16950 [1:28:14<1:32:03,  1.63it/s]Training 2/3 epoch (loss 0.0352):  47%|████▋     | 7944/16950 [1:28:14<1:37:07,  1.55it/s]Training 2/3 epoch (loss 0.1600):  47%|████▋     | 7944/16950 [1:28:14<1:37:07,  1.55it/s]Training 2/3 epoch (loss 0.1600):  47%|████▋     | 7945/16950 [1:28:14<1:34:33,  1.59it/s]Training 2/3 epoch (loss 0.1325):  47%|████▋     | 7945/16950 [1:28:15<1:34:33,  1.59it/s]Training 2/3 epoch (loss 0.1325):  47%|████▋     | 7946/16950 [1:28:15<1:26:09,  1.74it/s]Training 2/3 epoch (loss 0.1349):  47%|████▋     | 7946/16950 [1:28:16<1:26:09,  1.74it/s]Training 2/3 epoch (loss 0.1349):  47%|████▋     | 7947/16950 [1:28:16<1:28:43,  1.69it/s]Training 2/3 epoch (loss 0.0162):  47%|████▋     | 7947/16950 [1:28:16<1:28:43,  1.69it/s]Training 2/3 epoch (loss 0.0162):  47%|████▋     | 7948/16950 [1:28:16<1:43:15,  1.45it/s]Training 2/3 epoch (loss 0.0069):  47%|████▋     | 7948/16950 [1:28:17<1:43:15,  1.45it/s]Training 2/3 epoch (loss 0.0069):  47%|████▋     | 7949/16950 [1:28:17<1:42:29,  1.46it/s]Training 2/3 epoch (loss 0.0004):  47%|████▋     | 7949/16950 [1:28:18<1:42:29,  1.46it/s]Training 2/3 epoch (loss 0.0004):  47%|████▋     | 7950/16950 [1:28:18<1:39:07,  1.51it/s]Training 2/3 epoch (loss 0.5423):  47%|████▋     | 7950/16950 [1:28:18<1:39:07,  1.51it/s]Training 2/3 epoch (loss 0.5423):  47%|████▋     | 7951/16950 [1:28:18<1:36:26,  1.56it/s]Training 2/3 epoch (loss 0.0157):  47%|████▋     | 7951/16950 [1:28:19<1:36:26,  1.56it/s]Training 2/3 epoch (loss 0.0157):  47%|████▋     | 7952/16950 [1:28:19<1:36:25,  1.56it/s]Training 2/3 epoch (loss 0.0251):  47%|████▋     | 7952/16950 [1:28:20<1:36:25,  1.56it/s]Training 2/3 epoch (loss 0.0251):  47%|████▋     | 7953/16950 [1:28:20<1:34:47,  1.58it/s]Training 2/3 epoch (loss 0.0171):  47%|████▋     | 7953/16950 [1:28:20<1:34:47,  1.58it/s]Training 2/3 epoch (loss 0.0171):  47%|████▋     | 7954/16950 [1:28:20<1:29:55,  1.67it/s]Training 2/3 epoch (loss nan):  47%|████▋     | 7954/16950 [1:28:21<1:29:55,  1.67it/s]   Training 2/3 epoch (loss nan):  47%|████▋     | 7955/16950 [1:28:21<1:50:34,  1.36it/s]Training 2/3 epoch (loss 0.6066):  47%|████▋     | 7955/16950 [1:28:22<1:50:34,  1.36it/s]Training 2/3 epoch (loss 0.6066):  47%|████▋     | 7956/16950 [1:28:22<2:07:45,  1.17it/s]Training 2/3 epoch (loss 0.0021):  47%|████▋     | 7956/16950 [1:28:23<2:07:45,  1.17it/s]Training 2/3 epoch (loss 0.0021):  47%|████▋     | 7957/16950 [1:28:23<1:55:31,  1.30it/s]Training 2/3 epoch (loss 0.0579):  47%|████▋     | 7957/16950 [1:28:23<1:55:31,  1.30it/s]Training 2/3 epoch (loss 0.0579):  47%|████▋     | 7958/16950 [1:28:23<1:49:52,  1.36it/s]Training 2/3 epoch (loss 0.3535):  47%|████▋     | 7958/16950 [1:28:24<1:49:52,  1.36it/s]Training 2/3 epoch (loss 0.3535):  47%|████▋     | 7959/16950 [1:28:24<1:38:31,  1.52it/s]Training 2/3 epoch (loss 0.0065):  47%|████▋     | 7959/16950 [1:28:24<1:38:31,  1.52it/s]Training 2/3 epoch (loss 0.0065):  47%|████▋     | 7960/16950 [1:28:24<1:28:14,  1.70it/s]Training 2/3 epoch (loss 0.4792):  47%|████▋     | 7960/16950 [1:28:25<1:28:14,  1.70it/s]Training 2/3 epoch (loss 0.4792):  47%|████▋     | 7961/16950 [1:28:25<1:38:42,  1.52it/s]Training 2/3 epoch (loss 0.2131):  47%|████▋     | 7961/16950 [1:28:26<1:38:42,  1.52it/s]Training 2/3 epoch (loss 0.2131):  47%|████▋     | 7962/16950 [1:28:26<1:40:36,  1.49it/s]Training 2/3 epoch (loss 0.5768):  47%|████▋     | 7962/16950 [1:28:27<1:40:36,  1.49it/s]Training 2/3 epoch (loss 0.5768):  47%|████▋     | 7963/16950 [1:28:27<1:44:01,  1.44it/s]Training 2/3 epoch (loss 0.1875):  47%|████▋     | 7963/16950 [1:28:27<1:44:01,  1.44it/s]Training 2/3 epoch (loss 0.1875):  47%|████▋     | 7964/16950 [1:28:27<1:40:54,  1.48it/s]Training 2/3 epoch (loss 0.0803):  47%|████▋     | 7964/16950 [1:28:28<1:40:54,  1.48it/s]Training 2/3 epoch (loss 0.0803):  47%|████▋     | 7965/16950 [1:28:28<1:53:43,  1.32it/s]Training 2/3 epoch (loss 0.4022):  47%|████▋     | 7965/16950 [1:28:29<1:53:43,  1.32it/s]Training 2/3 epoch (loss 0.4022):  47%|████▋     | 7966/16950 [1:28:29<2:08:56,  1.16it/s]Training 2/3 epoch (loss 0.0046):  47%|████▋     | 7966/16950 [1:28:30<2:08:56,  1.16it/s]Training 2/3 epoch (loss 0.0046):  47%|████▋     | 7967/16950 [1:28:30<1:59:05,  1.26it/s]Training 2/3 epoch (loss 0.0017):  47%|████▋     | 7967/16950 [1:28:31<1:59:05,  1.26it/s]Training 2/3 epoch (loss 0.0017):  47%|████▋     | 7968/16950 [1:28:31<1:50:23,  1.36it/s]Training 2/3 epoch (loss 0.0278):  47%|████▋     | 7968/16950 [1:28:31<1:50:23,  1.36it/s]Training 2/3 epoch (loss 0.0278):  47%|████▋     | 7969/16950 [1:28:31<1:46:16,  1.41it/s]Training 2/3 epoch (loss 0.4171):  47%|████▋     | 7969/16950 [1:28:32<1:46:16,  1.41it/s]Training 2/3 epoch (loss 0.4171):  47%|████▋     | 7970/16950 [1:28:32<1:30:12,  1.66it/s]Training 2/3 epoch (loss 0.7340):  47%|████▋     | 7970/16950 [1:28:32<1:30:12,  1.66it/s]Training 2/3 epoch (loss 0.7340):  47%|████▋     | 7971/16950 [1:28:32<1:32:44,  1.61it/s]Training 2/3 epoch (loss 0.6513):  47%|████▋     | 7971/16950 [1:28:33<1:32:44,  1.61it/s]Training 2/3 epoch (loss 0.6513):  47%|████▋     | 7972/16950 [1:28:33<1:26:44,  1.73it/s]Training 2/3 epoch (loss 0.1493):  47%|████▋     | 7972/16950 [1:28:33<1:26:44,  1.73it/s]Training 2/3 epoch (loss 0.1493):  47%|████▋     | 7973/16950 [1:28:33<1:28:47,  1.68it/s]Training 2/3 epoch (loss 0.0499):  47%|████▋     | 7973/16950 [1:28:34<1:28:47,  1.68it/s]Training 2/3 epoch (loss 0.0499):  47%|████▋     | 7974/16950 [1:28:34<1:33:54,  1.59it/s]Training 2/3 epoch (loss 0.0003):  47%|████▋     | 7974/16950 [1:28:35<1:33:54,  1.59it/s]Training 2/3 epoch (loss 0.0003):  47%|████▋     | 7975/16950 [1:28:35<1:35:52,  1.56it/s]Training 2/3 epoch (loss 0.0020):  47%|████▋     | 7975/16950 [1:28:35<1:35:52,  1.56it/s]Training 2/3 epoch (loss 0.0020):  47%|████▋     | 7976/16950 [1:28:35<1:31:29,  1.63it/s]Training 2/3 epoch (loss 0.6688):  47%|████▋     | 7976/16950 [1:28:36<1:31:29,  1.63it/s]Training 2/3 epoch (loss 0.6688):  47%|████▋     | 7977/16950 [1:28:36<1:32:11,  1.62it/s]Training 2/3 epoch (loss 0.0174):  47%|████▋     | 7977/16950 [1:28:36<1:32:11,  1.62it/s]Training 2/3 epoch (loss 0.0174):  47%|████▋     | 7978/16950 [1:28:36<1:24:33,  1.77it/s]Training 2/3 epoch (loss 0.0176):  47%|████▋     | 7978/16950 [1:28:37<1:24:33,  1.77it/s]Training 2/3 epoch (loss 0.0176):  47%|████▋     | 7979/16950 [1:28:37<1:21:11,  1.84it/s]Training 2/3 epoch (loss 0.4120):  47%|████▋     | 7979/16950 [1:28:37<1:21:11,  1.84it/s]Training 2/3 epoch (loss 0.4120):  47%|████▋     | 7980/16950 [1:28:37<1:18:15,  1.91it/s]Training 2/3 epoch (loss 0.2274):  47%|████▋     | 7980/16950 [1:28:38<1:18:15,  1.91it/s]Training 2/3 epoch (loss 0.2274):  47%|████▋     | 7981/16950 [1:28:38<1:13:11,  2.04it/s]Training 2/3 epoch (loss 0.0051):  47%|████▋     | 7981/16950 [1:28:38<1:13:11,  2.04it/s]Training 2/3 epoch (loss 0.0051):  47%|████▋     | 7982/16950 [1:28:38<1:09:18,  2.16it/s]Training 2/3 epoch (loss 0.0519):  47%|████▋     | 7982/16950 [1:28:39<1:09:18,  2.16it/s]Training 2/3 epoch (loss 0.0519):  47%|████▋     | 7983/16950 [1:28:39<1:16:32,  1.95it/s]Training 2/3 epoch (loss 0.1531):  47%|████▋     | 7983/16950 [1:28:39<1:16:32,  1.95it/s]Training 2/3 epoch (loss 0.1531):  47%|████▋     | 7984/16950 [1:28:39<1:20:31,  1.86it/s]Training 2/3 epoch (loss 0.3794):  47%|████▋     | 7984/16950 [1:28:40<1:20:31,  1.86it/s]Training 2/3 epoch (loss 0.3794):  47%|████▋     | 7985/16950 [1:28:40<1:12:55,  2.05it/s]Training 2/3 epoch (loss 0.3479):  47%|████▋     | 7985/16950 [1:28:40<1:12:55,  2.05it/s]Training 2/3 epoch (loss 0.3479):  47%|████▋     | 7986/16950 [1:28:40<1:17:21,  1.93it/s]Training 2/3 epoch (loss 0.3408):  47%|████▋     | 7986/16950 [1:28:41<1:17:21,  1.93it/s]Training 2/3 epoch (loss 0.3408):  47%|████▋     | 7987/16950 [1:28:41<1:15:51,  1.97it/s]Training 2/3 epoch (loss 0.0589):  47%|████▋     | 7987/16950 [1:28:41<1:15:51,  1.97it/s]Training 2/3 epoch (loss 0.0589):  47%|████▋     | 7988/16950 [1:28:41<1:11:49,  2.08it/s]Training 2/3 epoch (loss 0.3111):  47%|████▋     | 7988/16950 [1:28:42<1:11:49,  2.08it/s]Training 2/3 epoch (loss 0.3111):  47%|████▋     | 7989/16950 [1:28:42<1:04:09,  2.33it/s]Training 2/3 epoch (loss 0.2430):  47%|████▋     | 7989/16950 [1:28:42<1:04:09,  2.33it/s]Training 2/3 epoch (loss 0.2430):  47%|████▋     | 7990/16950 [1:28:42<1:24:01,  1.78it/s]Training 2/3 epoch (loss 0.3557):  47%|████▋     | 7990/16950 [1:28:43<1:24:01,  1.78it/s]Training 2/3 epoch (loss 0.3557):  47%|████▋     | 7991/16950 [1:28:43<1:28:26,  1.69it/s]Training 2/3 epoch (loss 0.3326):  47%|████▋     | 7991/16950 [1:28:44<1:28:26,  1.69it/s]Training 2/3 epoch (loss 0.3326):  47%|████▋     | 7992/16950 [1:28:44<1:29:16,  1.67it/s]Training 2/3 epoch (loss 0.0021):  47%|████▋     | 7992/16950 [1:28:44<1:29:16,  1.67it/s]Training 2/3 epoch (loss 0.0021):  47%|████▋     | 7993/16950 [1:28:44<1:25:23,  1.75it/s]Training 2/3 epoch (loss 0.5731):  47%|████▋     | 7993/16950 [1:28:45<1:25:23,  1.75it/s]Training 2/3 epoch (loss 0.5731):  47%|████▋     | 7994/16950 [1:28:45<1:16:45,  1.94it/s]Training 2/3 epoch (loss 0.0014):  47%|████▋     | 7994/16950 [1:28:45<1:16:45,  1.94it/s]Training 2/3 epoch (loss 0.0014):  47%|████▋     | 7995/16950 [1:28:45<1:11:47,  2.08it/s]Training 2/3 epoch (loss 0.0182):  47%|████▋     | 7995/16950 [1:28:46<1:11:47,  2.08it/s]Training 2/3 epoch (loss 0.0182):  47%|████▋     | 7996/16950 [1:28:46<1:17:30,  1.93it/s]Training 2/3 epoch (loss 0.4057):  47%|████▋     | 7996/16950 [1:28:46<1:17:30,  1.93it/s]Training 2/3 epoch (loss 0.4057):  47%|████▋     | 7997/16950 [1:28:46<1:17:57,  1.91it/s]Training 2/3 epoch (loss 0.0012):  47%|████▋     | 7997/16950 [1:28:47<1:17:57,  1.91it/s]Training 2/3 epoch (loss 0.0012):  47%|████▋     | 7998/16950 [1:28:47<1:25:24,  1.75it/s]Training 2/3 epoch (loss 0.2574):  47%|████▋     | 7998/16950 [1:28:47<1:25:24,  1.75it/s]Training 2/3 epoch (loss 0.2574):  47%|████▋     | 7999/16950 [1:28:47<1:20:42,  1.85it/s]Training 2/3 epoch (loss 0.0091):  47%|████▋     | 7999/16950 [1:28:48<1:20:42,  1.85it/s]Training 2/3 epoch (loss 0.0091):  47%|████▋     | 8000/16950 [1:28:48<1:14:07,  2.01it/s]Training 2/3 epoch (loss 0.0053):  47%|████▋     | 8000/16950 [1:28:49<1:14:07,  2.01it/s]Training 2/3 epoch (loss 0.0053):  47%|████▋     | 8001/16950 [1:28:49<1:30:18,  1.65it/s]Training 2/3 epoch (loss 0.0016):  47%|████▋     | 8001/16950 [1:28:49<1:30:18,  1.65it/s]Training 2/3 epoch (loss 0.0016):  47%|████▋     | 8002/16950 [1:28:49<1:38:57,  1.51it/s]Training 2/3 epoch (loss 0.1350):  47%|████▋     | 8002/16950 [1:28:50<1:38:57,  1.51it/s]Training 2/3 epoch (loss 0.1350):  47%|████▋     | 8003/16950 [1:28:50<1:28:54,  1.68it/s]Training 2/3 epoch (loss 0.3791):  47%|████▋     | 8003/16950 [1:28:50<1:28:54,  1.68it/s]Training 2/3 epoch (loss 0.3791):  47%|████▋     | 8004/16950 [1:28:50<1:26:29,  1.72it/s]Training 2/3 epoch (loss 0.4255):  47%|████▋     | 8004/16950 [1:28:51<1:26:29,  1.72it/s]Training 2/3 epoch (loss 0.4255):  47%|████▋     | 8005/16950 [1:28:51<1:21:53,  1.82it/s]Training 2/3 epoch (loss 0.0008):  47%|████▋     | 8005/16950 [1:28:51<1:21:53,  1.82it/s]Training 2/3 epoch (loss 0.0008):  47%|████▋     | 8006/16950 [1:28:51<1:14:57,  1.99it/s]Training 2/3 epoch (loss 0.0330):  47%|████▋     | 8006/16950 [1:28:52<1:14:57,  1.99it/s]Training 2/3 epoch (loss 0.0330):  47%|████▋     | 8007/16950 [1:28:52<1:12:47,  2.05it/s]Training 2/3 epoch (loss 0.2193):  47%|████▋     | 8007/16950 [1:28:52<1:12:47,  2.05it/s]Training 2/3 epoch (loss 0.2193):  47%|████▋     | 8008/16950 [1:28:52<1:08:42,  2.17it/s]Training 2/3 epoch (loss 0.1024):  47%|████▋     | 8008/16950 [1:28:53<1:08:42,  2.17it/s]Training 2/3 epoch (loss 0.1024):  47%|████▋     | 8009/16950 [1:28:53<1:13:41,  2.02it/s]Training 2/3 epoch (loss 0.0224):  47%|████▋     | 8009/16950 [1:28:53<1:13:41,  2.02it/s]Training 2/3 epoch (loss 0.0224):  47%|████▋     | 8010/16950 [1:28:53<1:18:36,  1.90it/s]Training 2/3 epoch (loss 0.0013):  47%|████▋     | 8010/16950 [1:28:54<1:18:36,  1.90it/s]Training 2/3 epoch (loss 0.0013):  47%|████▋     | 8011/16950 [1:28:54<1:15:10,  1.98it/s]Training 2/3 epoch (loss 0.0120):  47%|████▋     | 8011/16950 [1:28:54<1:15:10,  1.98it/s]Training 2/3 epoch (loss 0.0120):  47%|████▋     | 8012/16950 [1:28:54<1:19:12,  1.88it/s]Training 2/3 epoch (loss 0.1124):  47%|████▋     | 8012/16950 [1:28:55<1:19:12,  1.88it/s]Training 2/3 epoch (loss 0.1124):  47%|████▋     | 8013/16950 [1:28:55<1:24:27,  1.76it/s]Training 2/3 epoch (loss 0.0082):  47%|████▋     | 8013/16950 [1:28:55<1:24:27,  1.76it/s]Training 2/3 epoch (loss 0.0082):  47%|████▋     | 8014/16950 [1:28:55<1:21:28,  1.83it/s]Training 2/3 epoch (loss 0.4014):  47%|████▋     | 8014/16950 [1:28:56<1:21:28,  1.83it/s]Training 2/3 epoch (loss 0.4014):  47%|████▋     | 8015/16950 [1:28:56<1:25:28,  1.74it/s]Training 2/3 epoch (loss 0.0012):  47%|████▋     | 8015/16950 [1:28:57<1:25:28,  1.74it/s]Training 2/3 epoch (loss 0.0012):  47%|████▋     | 8016/16950 [1:28:57<1:21:00,  1.84it/s]Training 2/3 epoch (loss 0.0396):  47%|████▋     | 8016/16950 [1:28:57<1:21:00,  1.84it/s]Training 2/3 epoch (loss 0.0396):  47%|████▋     | 8017/16950 [1:28:57<1:19:06,  1.88it/s]Training 2/3 epoch (loss 0.0752):  47%|████▋     | 8017/16950 [1:28:58<1:19:06,  1.88it/s]Training 2/3 epoch (loss 0.0752):  47%|████▋     | 8018/16950 [1:28:58<1:20:04,  1.86it/s]Training 2/3 epoch (loss 0.0403):  47%|████▋     | 8018/16950 [1:28:58<1:20:04,  1.86it/s]Training 2/3 epoch (loss 0.0403):  47%|████▋     | 8019/16950 [1:28:58<1:26:05,  1.73it/s]Training 2/3 epoch (loss 0.0353):  47%|████▋     | 8019/16950 [1:28:59<1:26:05,  1.73it/s]Training 2/3 epoch (loss 0.0353):  47%|████▋     | 8020/16950 [1:28:59<1:27:49,  1.69it/s]Training 2/3 epoch (loss 0.1259):  47%|████▋     | 8020/16950 [1:29:00<1:27:49,  1.69it/s]Training 2/3 epoch (loss 0.1259):  47%|████▋     | 8021/16950 [1:29:00<1:40:27,  1.48it/s]Training 2/3 epoch (loss 0.0067):  47%|████▋     | 8021/16950 [1:29:00<1:40:27,  1.48it/s]Training 2/3 epoch (loss 0.0067):  47%|████▋     | 8022/16950 [1:29:00<1:30:55,  1.64it/s]Training 2/3 epoch (loss 0.0536):  47%|████▋     | 8022/16950 [1:29:01<1:30:55,  1.64it/s]Training 2/3 epoch (loss 0.0536):  47%|████▋     | 8023/16950 [1:29:01<1:40:37,  1.48it/s]Training 2/3 epoch (loss 0.0722):  47%|████▋     | 8023/16950 [1:29:02<1:40:37,  1.48it/s]Training 2/3 epoch (loss 0.0722):  47%|████▋     | 8024/16950 [1:29:02<1:43:20,  1.44it/s]Training 2/3 epoch (loss 0.0072):  47%|████▋     | 8024/16950 [1:29:02<1:43:20,  1.44it/s]Training 2/3 epoch (loss 0.0072):  47%|████▋     | 8025/16950 [1:29:02<1:38:42,  1.51it/s]Training 2/3 epoch (loss 0.3738):  47%|████▋     | 8025/16950 [1:29:03<1:38:42,  1.51it/s]Training 2/3 epoch (loss 0.3738):  47%|████▋     | 8026/16950 [1:29:03<1:35:32,  1.56it/s]Training 2/3 epoch (loss 0.0001):  47%|████▋     | 8026/16950 [1:29:03<1:35:32,  1.56it/s]Training 2/3 epoch (loss 0.0001):  47%|████▋     | 8027/16950 [1:29:03<1:27:24,  1.70it/s]Training 2/3 epoch (loss 0.0073):  47%|████▋     | 8027/16950 [1:29:04<1:27:24,  1.70it/s]Training 2/3 epoch (loss 0.0073):  47%|████▋     | 8028/16950 [1:29:04<1:25:23,  1.74it/s]Training 2/3 epoch (loss 0.0236):  47%|████▋     | 8028/16950 [1:29:05<1:25:23,  1.74it/s]Training 2/3 epoch (loss 0.0236):  47%|████▋     | 8029/16950 [1:29:05<1:24:53,  1.75it/s]Training 2/3 epoch (loss 0.0131):  47%|████▋     | 8029/16950 [1:29:05<1:24:53,  1.75it/s]Training 2/3 epoch (loss 0.0131):  47%|████▋     | 8030/16950 [1:29:05<1:29:33,  1.66it/s]Training 2/3 epoch (loss 0.0709):  47%|████▋     | 8030/16950 [1:29:06<1:29:33,  1.66it/s]Training 2/3 epoch (loss 0.0709):  47%|████▋     | 8031/16950 [1:29:06<1:32:40,  1.60it/s]Training 2/3 epoch (loss 0.2168):  47%|████▋     | 8031/16950 [1:29:06<1:32:40,  1.60it/s]Training 2/3 epoch (loss 0.2168):  47%|████▋     | 8032/16950 [1:29:06<1:30:05,  1.65it/s]Training 2/3 epoch (loss 0.0504):  47%|████▋     | 8032/16950 [1:29:07<1:30:05,  1.65it/s]Training 2/3 epoch (loss 0.0504):  47%|████▋     | 8033/16950 [1:29:07<1:26:23,  1.72it/s]Training 2/3 epoch (loss nan):  47%|████▋     | 8033/16950 [1:29:08<1:26:23,  1.72it/s]   Training 2/3 epoch (loss nan):  47%|████▋     | 8034/16950 [1:29:08<1:50:38,  1.34it/s]Training 2/3 epoch (loss 0.0233):  47%|████▋     | 8034/16950 [1:29:09<1:50:38,  1.34it/s]Training 2/3 epoch (loss 0.0233):  47%|████▋     | 8035/16950 [1:29:09<1:41:34,  1.46it/s]Training 2/3 epoch (loss 0.2416):  47%|████▋     | 8035/16950 [1:29:09<1:41:34,  1.46it/s]Training 2/3 epoch (loss 0.2416):  47%|████▋     | 8036/16950 [1:29:09<1:49:51,  1.35it/s]Training 2/3 epoch (loss 0.2957):  47%|████▋     | 8036/16950 [1:29:10<1:49:51,  1.35it/s]Training 2/3 epoch (loss 0.2957):  47%|████▋     | 8037/16950 [1:29:10<1:42:58,  1.44it/s]Training 2/3 epoch (loss 0.4264):  47%|████▋     | 8037/16950 [1:29:11<1:42:58,  1.44it/s]Training 2/3 epoch (loss 0.4264):  47%|████▋     | 8038/16950 [1:29:11<1:36:05,  1.55it/s]Training 2/3 epoch (loss 0.0647):  47%|████▋     | 8038/16950 [1:29:11<1:36:05,  1.55it/s]Training 2/3 epoch (loss 0.0647):  47%|████▋     | 8039/16950 [1:29:11<1:37:13,  1.53it/s]Training 2/3 epoch (loss 0.1998):  47%|████▋     | 8039/16950 [1:29:12<1:37:13,  1.53it/s]Training 2/3 epoch (loss 0.1998):  47%|████▋     | 8040/16950 [1:29:12<1:39:43,  1.49it/s]Training 2/3 epoch (loss 0.0026):  47%|████▋     | 8040/16950 [1:29:13<1:39:43,  1.49it/s]Training 2/3 epoch (loss 0.0026):  47%|████▋     | 8041/16950 [1:29:13<1:38:25,  1.51it/s]Training 2/3 epoch (loss 0.6266):  47%|████▋     | 8041/16950 [1:29:13<1:38:25,  1.51it/s]Training 2/3 epoch (loss 0.6266):  47%|████▋     | 8042/16950 [1:29:13<1:30:02,  1.65it/s]Training 2/3 epoch (loss 0.4723):  47%|████▋     | 8042/16950 [1:29:14<1:30:02,  1.65it/s]Training 2/3 epoch (loss 0.4723):  47%|████▋     | 8043/16950 [1:29:14<1:42:28,  1.45it/s]Training 2/3 epoch (loss 0.0058):  47%|████▋     | 8043/16950 [1:29:15<1:42:28,  1.45it/s]Training 2/3 epoch (loss 0.0058):  47%|████▋     | 8044/16950 [1:29:15<1:40:09,  1.48it/s]Training 2/3 epoch (loss 0.0068):  47%|████▋     | 8044/16950 [1:29:15<1:40:09,  1.48it/s]Training 2/3 epoch (loss 0.0068):  47%|████▋     | 8045/16950 [1:29:15<1:29:06,  1.67it/s]Training 2/3 epoch (loss 0.0190):  47%|████▋     | 8045/16950 [1:29:16<1:29:06,  1.67it/s]Training 2/3 epoch (loss 0.0190):  47%|████▋     | 8046/16950 [1:29:16<1:23:19,  1.78it/s]Training 2/3 epoch (loss 0.0102):  47%|████▋     | 8046/16950 [1:29:16<1:23:19,  1.78it/s]Training 2/3 epoch (loss 0.0102):  47%|████▋     | 8047/16950 [1:29:16<1:25:10,  1.74it/s]Training 2/3 epoch (loss 0.0427):  47%|████▋     | 8047/16950 [1:29:17<1:25:10,  1.74it/s]Training 2/3 epoch (loss 0.0427):  47%|████▋     | 8048/16950 [1:29:17<1:26:42,  1.71it/s]Training 2/3 epoch (loss 0.0027):  47%|████▋     | 8048/16950 [1:29:17<1:26:42,  1.71it/s]Training 2/3 epoch (loss 0.0027):  47%|████▋     | 8049/16950 [1:29:17<1:27:16,  1.70it/s]Training 2/3 epoch (loss 0.1281):  47%|████▋     | 8049/16950 [1:29:18<1:27:16,  1.70it/s]Training 2/3 epoch (loss 0.1281):  47%|████▋     | 8050/16950 [1:29:18<1:28:57,  1.67it/s]Training 2/3 epoch (loss 0.1435):  47%|████▋     | 8050/16950 [1:29:19<1:28:57,  1.67it/s]Training 2/3 epoch (loss 0.1435):  47%|████▋     | 8051/16950 [1:29:19<1:29:31,  1.66it/s]Training 2/3 epoch (loss 0.0005):  47%|████▋     | 8051/16950 [1:29:19<1:29:31,  1.66it/s]Training 2/3 epoch (loss 0.0005):  48%|████▊     | 8052/16950 [1:29:19<1:28:26,  1.68it/s]Training 2/3 epoch (loss 0.0077):  48%|████▊     | 8052/16950 [1:29:20<1:28:26,  1.68it/s]Training 2/3 epoch (loss 0.0077):  48%|████▊     | 8053/16950 [1:29:20<1:23:28,  1.78it/s]Training 2/3 epoch (loss 0.3672):  48%|████▊     | 8053/16950 [1:29:21<1:23:28,  1.78it/s]Training 2/3 epoch (loss 0.3672):  48%|████▊     | 8054/16950 [1:29:21<1:44:36,  1.42it/s]Training 2/3 epoch (loss 0.2101):  48%|████▊     | 8054/16950 [1:29:21<1:44:36,  1.42it/s]Training 2/3 epoch (loss 0.2101):  48%|████▊     | 8055/16950 [1:29:21<1:49:09,  1.36it/s]Training 2/3 epoch (loss 0.0690):  48%|████▊     | 8055/16950 [1:29:22<1:49:09,  1.36it/s]Training 2/3 epoch (loss 0.0690):  48%|████▊     | 8056/16950 [1:29:22<1:50:56,  1.34it/s]Training 2/3 epoch (loss 0.0173):  48%|████▊     | 8056/16950 [1:29:23<1:50:56,  1.34it/s]Training 2/3 epoch (loss 0.0173):  48%|████▊     | 8057/16950 [1:29:23<1:46:19,  1.39it/s]Training 2/3 epoch (loss 0.0099):  48%|████▊     | 8057/16950 [1:29:23<1:46:19,  1.39it/s]Training 2/3 epoch (loss 0.0099):  48%|████▊     | 8058/16950 [1:29:23<1:34:49,  1.56it/s]Training 2/3 epoch (loss 0.4881):  48%|████▊     | 8058/16950 [1:29:24<1:34:49,  1.56it/s]Training 2/3 epoch (loss 0.4881):  48%|████▊     | 8059/16950 [1:29:24<1:25:16,  1.74it/s]Training 2/3 epoch (loss 0.4266):  48%|████▊     | 8059/16950 [1:29:24<1:25:16,  1.74it/s]Training 2/3 epoch (loss 0.4266):  48%|████▊     | 8060/16950 [1:29:24<1:20:24,  1.84it/s]Training 2/3 epoch (loss 0.0405):  48%|████▊     | 8060/16950 [1:29:25<1:20:24,  1.84it/s]Training 2/3 epoch (loss 0.0405):  48%|████▊     | 8061/16950 [1:29:25<1:23:34,  1.77it/s]Training 2/3 epoch (loss 0.0049):  48%|████▊     | 8061/16950 [1:29:26<1:23:34,  1.77it/s]Training 2/3 epoch (loss 0.0049):  48%|████▊     | 8062/16950 [1:29:26<1:27:30,  1.69it/s]Training 2/3 epoch (loss 0.0022):  48%|████▊     | 8062/16950 [1:29:26<1:27:30,  1.69it/s]Training 2/3 epoch (loss 0.0022):  48%|████▊     | 8063/16950 [1:29:26<1:30:13,  1.64it/s]Training 2/3 epoch (loss 0.0559):  48%|████▊     | 8063/16950 [1:29:27<1:30:13,  1.64it/s]Training 2/3 epoch (loss 0.0559):  48%|████▊     | 8064/16950 [1:29:27<1:45:03,  1.41it/s]Training 2/3 epoch (loss 0.1318):  48%|████▊     | 8064/16950 [1:29:28<1:45:03,  1.41it/s]Training 2/3 epoch (loss 0.1318):  48%|████▊     | 8065/16950 [1:29:28<1:54:35,  1.29it/s]Training 2/3 epoch (loss 0.5285):  48%|████▊     | 8065/16950 [1:29:29<1:54:35,  1.29it/s]Training 2/3 epoch (loss 0.5285):  48%|████▊     | 8066/16950 [1:29:29<1:54:26,  1.29it/s]Training 2/3 epoch (loss 0.3384):  48%|████▊     | 8066/16950 [1:29:29<1:54:26,  1.29it/s]Training 2/3 epoch (loss 0.3384):  48%|████▊     | 8067/16950 [1:29:29<1:41:18,  1.46it/s]Training 2/3 epoch (loss 0.0008):  48%|████▊     | 8067/16950 [1:29:30<1:41:18,  1.46it/s]Training 2/3 epoch (loss 0.0008):  48%|████▊     | 8068/16950 [1:29:30<1:27:11,  1.70it/s]Training 2/3 epoch (loss 0.7517):  48%|████▊     | 8068/16950 [1:29:30<1:27:11,  1.70it/s]Training 2/3 epoch (loss 0.7517):  48%|████▊     | 8069/16950 [1:29:30<1:28:15,  1.68it/s]Training 2/3 epoch (loss 0.3850):  48%|████▊     | 8069/16950 [1:29:31<1:28:15,  1.68it/s]Training 2/3 epoch (loss 0.3850):  48%|████▊     | 8070/16950 [1:29:31<1:15:16,  1.97it/s]Training 2/3 epoch (loss 0.1138):  48%|████▊     | 8070/16950 [1:29:31<1:15:16,  1.97it/s]Training 2/3 epoch (loss 0.1138):  48%|████▊     | 8071/16950 [1:29:31<1:15:49,  1.95it/s]Training 2/3 epoch (loss 0.1156):  48%|████▊     | 8071/16950 [1:29:32<1:15:49,  1.95it/s]Training 2/3 epoch (loss 0.1156):  48%|████▊     | 8072/16950 [1:29:32<1:25:53,  1.72it/s]Training 2/3 epoch (loss 0.0197):  48%|████▊     | 8072/16950 [1:29:32<1:25:53,  1.72it/s]Training 2/3 epoch (loss 0.0197):  48%|████▊     | 8073/16950 [1:29:32<1:25:00,  1.74it/s]Training 2/3 epoch (loss 0.0036):  48%|████▊     | 8073/16950 [1:29:33<1:25:00,  1.74it/s]Training 2/3 epoch (loss 0.0036):  48%|████▊     | 8074/16950 [1:29:33<1:23:07,  1.78it/s]Training 2/3 epoch (loss 0.0136):  48%|████▊     | 8074/16950 [1:29:33<1:23:07,  1.78it/s]Training 2/3 epoch (loss 0.0136):  48%|████▊     | 8075/16950 [1:29:33<1:22:24,  1.79it/s]Training 2/3 epoch (loss 0.0405):  48%|████▊     | 8075/16950 [1:29:34<1:22:24,  1.79it/s]Training 2/3 epoch (loss 0.0405):  48%|████▊     | 8076/16950 [1:29:34<1:20:53,  1.83it/s]Training 2/3 epoch (loss 0.0128):  48%|████▊     | 8076/16950 [1:29:34<1:20:53,  1.83it/s]Training 2/3 epoch (loss 0.0128):  48%|████▊     | 8077/16950 [1:29:34<1:16:23,  1.94it/s]Training 2/3 epoch (loss 0.1604):  48%|████▊     | 8077/16950 [1:29:35<1:16:23,  1.94it/s]Training 2/3 epoch (loss 0.1604):  48%|████▊     | 8078/16950 [1:29:35<1:20:22,  1.84it/s]Training 2/3 epoch (loss 0.2458):  48%|████▊     | 8078/16950 [1:29:35<1:20:22,  1.84it/s]Training 2/3 epoch (loss 0.2458):  48%|████▊     | 8079/16950 [1:29:35<1:11:36,  2.06it/s]Training 2/3 epoch (loss 0.0086):  48%|████▊     | 8079/16950 [1:29:36<1:11:36,  2.06it/s]Training 2/3 epoch (loss 0.0086):  48%|████▊     | 8080/16950 [1:29:36<1:08:02,  2.17it/s]Training 2/3 epoch (loss 0.1790):  48%|████▊     | 8080/16950 [1:29:36<1:08:02,  2.17it/s]Training 2/3 epoch (loss 0.1790):  48%|████▊     | 8081/16950 [1:29:36<1:13:50,  2.00it/s]Training 2/3 epoch (loss 0.0199):  48%|████▊     | 8081/16950 [1:29:37<1:13:50,  2.00it/s]Training 2/3 epoch (loss 0.0199):  48%|████▊     | 8082/16950 [1:29:37<1:21:39,  1.81it/s]Training 2/3 epoch (loss 0.0020):  48%|████▊     | 8082/16950 [1:29:38<1:21:39,  1.81it/s]Training 2/3 epoch (loss 0.0020):  48%|████▊     | 8083/16950 [1:29:38<1:27:35,  1.69it/s]Training 2/3 epoch (loss 0.0035):  48%|████▊     | 8083/16950 [1:29:38<1:27:35,  1.69it/s]Training 2/3 epoch (loss 0.0035):  48%|████▊     | 8084/16950 [1:29:38<1:25:16,  1.73it/s]Training 2/3 epoch (loss 0.5325):  48%|████▊     | 8084/16950 [1:29:39<1:25:16,  1.73it/s]Training 2/3 epoch (loss 0.5325):  48%|████▊     | 8085/16950 [1:29:39<1:50:52,  1.33it/s]Training 2/3 epoch (loss 0.3369):  48%|████▊     | 8085/16950 [1:29:40<1:50:52,  1.33it/s]Training 2/3 epoch (loss 0.3369):  48%|████▊     | 8086/16950 [1:29:40<1:39:03,  1.49it/s]Training 2/3 epoch (loss 0.0002):  48%|████▊     | 8086/16950 [1:29:40<1:39:03,  1.49it/s]Training 2/3 epoch (loss 0.0002):  48%|████▊     | 8087/16950 [1:29:40<1:30:05,  1.64it/s]Training 2/3 epoch (loss 0.0281):  48%|████▊     | 8087/16950 [1:29:41<1:30:05,  1.64it/s]Training 2/3 epoch (loss 0.0281):  48%|████▊     | 8088/16950 [1:29:41<1:24:17,  1.75it/s]Training 2/3 epoch (loss 0.0080):  48%|████▊     | 8088/16950 [1:29:41<1:24:17,  1.75it/s]Training 2/3 epoch (loss 0.0080):  48%|████▊     | 8089/16950 [1:29:41<1:24:57,  1.74it/s]Training 2/3 epoch (loss 0.0189):  48%|████▊     | 8089/16950 [1:29:42<1:24:57,  1.74it/s]Training 2/3 epoch (loss 0.0189):  48%|████▊     | 8090/16950 [1:29:42<1:29:57,  1.64it/s]Training 2/3 epoch (loss 0.0183):  48%|████▊     | 8090/16950 [1:29:43<1:29:57,  1.64it/s]Training 2/3 epoch (loss 0.0183):  48%|████▊     | 8091/16950 [1:29:43<1:31:01,  1.62it/s]Training 2/3 epoch (loss 0.9196):  48%|████▊     | 8091/16950 [1:29:43<1:31:01,  1.62it/s]Training 2/3 epoch (loss 0.9196):  48%|████▊     | 8092/16950 [1:29:43<1:23:36,  1.77it/s]Training 2/3 epoch (loss 0.1808):  48%|████▊     | 8092/16950 [1:29:44<1:23:36,  1.77it/s]Training 2/3 epoch (loss 0.1808):  48%|████▊     | 8093/16950 [1:29:44<1:25:22,  1.73it/s]Training 2/3 epoch (loss 0.0787):  48%|████▊     | 8093/16950 [1:29:44<1:25:22,  1.73it/s]Training 2/3 epoch (loss 0.0787):  48%|████▊     | 8094/16950 [1:29:44<1:21:47,  1.80it/s]Training 2/3 epoch (loss 0.0117):  48%|████▊     | 8094/16950 [1:29:45<1:21:47,  1.80it/s]Training 2/3 epoch (loss 0.0117):  48%|████▊     | 8095/16950 [1:29:45<1:24:12,  1.75it/s]Training 2/3 epoch (loss 0.1270):  48%|████▊     | 8095/16950 [1:29:46<1:24:12,  1.75it/s]Training 2/3 epoch (loss 0.1270):  48%|████▊     | 8096/16950 [1:29:46<1:24:03,  1.76it/s]Training 2/3 epoch (loss 0.0229):  48%|████▊     | 8096/16950 [1:29:46<1:24:03,  1.76it/s]Training 2/3 epoch (loss 0.0229):  48%|████▊     | 8097/16950 [1:29:46<1:30:58,  1.62it/s]Training 2/3 epoch (loss 0.0045):  48%|████▊     | 8097/16950 [1:29:47<1:30:58,  1.62it/s]Training 2/3 epoch (loss 0.0045):  48%|████▊     | 8098/16950 [1:29:47<1:26:08,  1.71it/s]Training 2/3 epoch (loss 0.0079):  48%|████▊     | 8098/16950 [1:29:48<1:26:08,  1.71it/s]Training 2/3 epoch (loss 0.0079):  48%|████▊     | 8099/16950 [1:29:48<1:36:03,  1.54it/s]Training 2/3 epoch (loss 0.0706):  48%|████▊     | 8099/16950 [1:29:48<1:36:03,  1.54it/s]Training 2/3 epoch (loss 0.0706):  48%|████▊     | 8100/16950 [1:29:48<1:37:44,  1.51it/s]Training 2/3 epoch (loss 0.0067):  48%|████▊     | 8100/16950 [1:29:49<1:37:44,  1.51it/s]Training 2/3 epoch (loss 0.0067):  48%|████▊     | 8101/16950 [1:29:49<1:29:29,  1.65it/s]Training 2/3 epoch (loss 0.0014):  48%|████▊     | 8101/16950 [1:29:49<1:29:29,  1.65it/s]Training 2/3 epoch (loss 0.0014):  48%|████▊     | 8102/16950 [1:29:49<1:26:59,  1.70it/s]Training 2/3 epoch (loss 0.5889):  48%|████▊     | 8102/16950 [1:29:50<1:26:59,  1.70it/s]Training 2/3 epoch (loss 0.5889):  48%|████▊     | 8103/16950 [1:29:50<1:41:10,  1.46it/s]Training 2/3 epoch (loss 0.0032):  48%|████▊     | 8103/16950 [1:29:51<1:41:10,  1.46it/s]Training 2/3 epoch (loss 0.0032):  48%|████▊     | 8104/16950 [1:29:51<1:37:06,  1.52it/s]Training 2/3 epoch (loss 0.0822):  48%|████▊     | 8104/16950 [1:29:52<1:37:06,  1.52it/s]Training 2/3 epoch (loss 0.0822):  48%|████▊     | 8105/16950 [1:29:52<1:46:07,  1.39it/s]Training 2/3 epoch (loss 0.0009):  48%|████▊     | 8105/16950 [1:29:52<1:46:07,  1.39it/s]Training 2/3 epoch (loss 0.0009):  48%|████▊     | 8106/16950 [1:29:52<1:36:14,  1.53it/s]Training 2/3 epoch (loss 0.0184):  48%|████▊     | 8106/16950 [1:29:53<1:36:14,  1.53it/s]Training 2/3 epoch (loss 0.0184):  48%|████▊     | 8107/16950 [1:29:53<1:26:47,  1.70it/s]Training 2/3 epoch (loss 0.3680):  48%|████▊     | 8107/16950 [1:29:53<1:26:47,  1.70it/s]Training 2/3 epoch (loss 0.3680):  48%|████▊     | 8108/16950 [1:29:53<1:29:09,  1.65it/s]Training 2/3 epoch (loss 0.3001):  48%|████▊     | 8108/16950 [1:29:54<1:29:09,  1.65it/s]Training 2/3 epoch (loss 0.3001):  48%|████▊     | 8109/16950 [1:29:54<1:31:17,  1.61it/s]Training 2/3 epoch (loss 0.1668):  48%|████▊     | 8109/16950 [1:29:55<1:31:17,  1.61it/s]Training 2/3 epoch (loss 0.1668):  48%|████▊     | 8110/16950 [1:29:55<1:42:13,  1.44it/s]Training 2/3 epoch (loss 0.0236):  48%|████▊     | 8110/16950 [1:29:55<1:42:13,  1.44it/s]Training 2/3 epoch (loss 0.0236):  48%|████▊     | 8111/16950 [1:29:55<1:42:11,  1.44it/s]Training 2/3 epoch (loss 0.3555):  48%|████▊     | 8111/16950 [1:29:56<1:42:11,  1.44it/s]Training 2/3 epoch (loss 0.3555):  48%|████▊     | 8112/16950 [1:29:56<1:31:02,  1.62it/s]Training 2/3 epoch (loss 0.4198):  48%|████▊     | 8112/16950 [1:29:57<1:31:02,  1.62it/s]Training 2/3 epoch (loss 0.4198):  48%|████▊     | 8113/16950 [1:29:57<1:39:06,  1.49it/s]Training 2/3 epoch (loss 0.2399):  48%|████▊     | 8113/16950 [1:29:57<1:39:06,  1.49it/s]Training 2/3 epoch (loss 0.2399):  48%|████▊     | 8114/16950 [1:29:57<1:43:49,  1.42it/s]Training 2/3 epoch (loss nan):  48%|████▊     | 8114/16950 [1:29:59<1:43:49,  1.42it/s]   Training 2/3 epoch (loss nan):  48%|████▊     | 8115/16950 [1:29:59<2:04:27,  1.18it/s]Training 2/3 epoch (loss 0.0644):  48%|████▊     | 8115/16950 [1:30:00<2:04:27,  1.18it/s]Training 2/3 epoch (loss 0.0644):  48%|████▊     | 8116/16950 [1:30:00<2:23:08,  1.03it/s]Training 2/3 epoch (loss 0.0393):  48%|████▊     | 8116/16950 [1:30:01<2:23:08,  1.03it/s]Training 2/3 epoch (loss 0.0393):  48%|████▊     | 8117/16950 [1:30:01<2:15:36,  1.09it/s]Training 2/3 epoch (loss 0.0319):  48%|████▊     | 8117/16950 [1:30:01<2:15:36,  1.09it/s]Training 2/3 epoch (loss 0.0319):  48%|████▊     | 8118/16950 [1:30:01<2:04:17,  1.18it/s]Training 2/3 epoch (loss 0.3217):  48%|████▊     | 8118/16950 [1:30:02<2:04:17,  1.18it/s]Training 2/3 epoch (loss 0.3217):  48%|████▊     | 8119/16950 [1:30:02<1:46:22,  1.38it/s]Training 2/3 epoch (loss 0.0115):  48%|████▊     | 8119/16950 [1:30:02<1:46:22,  1.38it/s]Training 2/3 epoch (loss 0.0115):  48%|████▊     | 8120/16950 [1:30:02<1:37:46,  1.51it/s]Training 2/3 epoch (loss 0.0656):  48%|████▊     | 8120/16950 [1:30:03<1:37:46,  1.51it/s]Training 2/3 epoch (loss 0.0656):  48%|████▊     | 8121/16950 [1:30:03<1:58:14,  1.24it/s]Training 2/3 epoch (loss 0.0490):  48%|████▊     | 8121/16950 [1:30:04<1:58:14,  1.24it/s]Training 2/3 epoch (loss 0.0490):  48%|████▊     | 8122/16950 [1:30:04<2:06:31,  1.16it/s]Training 2/3 epoch (loss 0.0002):  48%|████▊     | 8122/16950 [1:30:05<2:06:31,  1.16it/s]Training 2/3 epoch (loss 0.0002):  48%|████▊     | 8123/16950 [1:30:05<1:55:19,  1.28it/s]Training 2/3 epoch (loss 0.3367):  48%|████▊     | 8123/16950 [1:30:06<1:55:19,  1.28it/s]Training 2/3 epoch (loss 0.3367):  48%|████▊     | 8124/16950 [1:30:06<1:40:53,  1.46it/s]Training 2/3 epoch (loss 0.4157):  48%|████▊     | 8124/16950 [1:30:06<1:40:53,  1.46it/s]Training 2/3 epoch (loss 0.4157):  48%|████▊     | 8125/16950 [1:30:06<1:49:28,  1.34it/s]Training 2/3 epoch (loss 0.3326):  48%|████▊     | 8125/16950 [1:30:07<1:49:28,  1.34it/s]Training 2/3 epoch (loss 0.3326):  48%|████▊     | 8126/16950 [1:30:07<1:43:52,  1.42it/s]Training 2/3 epoch (loss 0.0197):  48%|████▊     | 8126/16950 [1:30:07<1:43:52,  1.42it/s]Training 2/3 epoch (loss 0.0197):  48%|████▊     | 8127/16950 [1:30:07<1:32:18,  1.59it/s]Training 2/3 epoch (loss 0.0349):  48%|████▊     | 8127/16950 [1:30:08<1:32:18,  1.59it/s]Training 2/3 epoch (loss 0.0349):  48%|████▊     | 8128/16950 [1:30:08<1:33:49,  1.57it/s]Training 2/3 epoch (loss 0.2846):  48%|████▊     | 8128/16950 [1:30:09<1:33:49,  1.57it/s]Training 2/3 epoch (loss 0.2846):  48%|████▊     | 8129/16950 [1:30:09<1:43:59,  1.41it/s]Training 2/3 epoch (loss 0.3036):  48%|████▊     | 8129/16950 [1:30:10<1:43:59,  1.41it/s]Training 2/3 epoch (loss 0.3036):  48%|████▊     | 8130/16950 [1:30:10<1:38:22,  1.49it/s]Training 2/3 epoch (loss 0.0112):  48%|████▊     | 8130/16950 [1:30:10<1:38:22,  1.49it/s]Training 2/3 epoch (loss 0.0112):  48%|████▊     | 8131/16950 [1:30:10<1:31:09,  1.61it/s]Training 2/3 epoch (loss 0.0039):  48%|████▊     | 8131/16950 [1:30:11<1:31:09,  1.61it/s]Training 2/3 epoch (loss 0.0039):  48%|████▊     | 8132/16950 [1:30:11<1:31:54,  1.60it/s]Training 2/3 epoch (loss 0.0036):  48%|████▊     | 8132/16950 [1:30:11<1:31:54,  1.60it/s]Training 2/3 epoch (loss 0.0036):  48%|████▊     | 8133/16950 [1:30:11<1:27:45,  1.67it/s]Training 2/3 epoch (loss 0.0071):  48%|████▊     | 8133/16950 [1:30:12<1:27:45,  1.67it/s]Training 2/3 epoch (loss 0.0071):  48%|████▊     | 8134/16950 [1:30:12<1:21:11,  1.81it/s]Training 2/3 epoch (loss 0.0572):  48%|████▊     | 8134/16950 [1:30:12<1:21:11,  1.81it/s]Training 2/3 epoch (loss 0.0572):  48%|████▊     | 8135/16950 [1:30:12<1:26:37,  1.70it/s]Training 2/3 epoch (loss 0.0016):  48%|████▊     | 8135/16950 [1:30:13<1:26:37,  1.70it/s]Training 2/3 epoch (loss 0.0016):  48%|████▊     | 8136/16950 [1:30:13<1:32:34,  1.59it/s]Training 2/3 epoch (loss 0.0036):  48%|████▊     | 8136/16950 [1:30:14<1:32:34,  1.59it/s]Training 2/3 epoch (loss 0.0036):  48%|████▊     | 8137/16950 [1:30:14<1:27:17,  1.68it/s]Training 2/3 epoch (loss 0.0252):  48%|████▊     | 8137/16950 [1:30:14<1:27:17,  1.68it/s]Training 2/3 epoch (loss 0.0252):  48%|████▊     | 8138/16950 [1:30:14<1:23:48,  1.75it/s]Training 2/3 epoch (loss 0.0065):  48%|████▊     | 8138/16950 [1:30:15<1:23:48,  1.75it/s]Training 2/3 epoch (loss 0.0065):  48%|████▊     | 8139/16950 [1:30:15<1:25:50,  1.71it/s]Training 2/3 epoch (loss 0.0519):  48%|████▊     | 8139/16950 [1:30:15<1:25:50,  1.71it/s]Training 2/3 epoch (loss 0.0519):  48%|████▊     | 8140/16950 [1:30:15<1:27:30,  1.68it/s]Training 2/3 epoch (loss 0.0475):  48%|████▊     | 8140/16950 [1:30:16<1:27:30,  1.68it/s]Training 2/3 epoch (loss 0.0475):  48%|████▊     | 8141/16950 [1:30:16<1:29:50,  1.63it/s]Training 2/3 epoch (loss 0.0334):  48%|████▊     | 8141/16950 [1:30:17<1:29:50,  1.63it/s]Training 2/3 epoch (loss 0.0334):  48%|████▊     | 8142/16950 [1:30:17<1:27:45,  1.67it/s]Training 2/3 epoch (loss 0.0813):  48%|████▊     | 8142/16950 [1:30:17<1:27:45,  1.67it/s]Training 2/3 epoch (loss 0.0813):  48%|████▊     | 8143/16950 [1:30:17<1:41:48,  1.44it/s]Training 2/3 epoch (loss 0.0321):  48%|████▊     | 8143/16950 [1:30:18<1:41:48,  1.44it/s]Training 2/3 epoch (loss 0.0321):  48%|████▊     | 8144/16950 [1:30:18<1:44:00,  1.41it/s]Training 2/3 epoch (loss 0.0143):  48%|████▊     | 8144/16950 [1:30:19<1:44:00,  1.41it/s]Training 2/3 epoch (loss 0.0143):  48%|████▊     | 8145/16950 [1:30:19<1:44:15,  1.41it/s]Training 2/3 epoch (loss 0.0018):  48%|████▊     | 8145/16950 [1:30:20<1:44:15,  1.41it/s]Training 2/3 epoch (loss 0.0018):  48%|████▊     | 8146/16950 [1:30:20<1:50:59,  1.32it/s]Training 2/3 epoch (loss 0.0066):  48%|████▊     | 8146/16950 [1:30:20<1:50:59,  1.32it/s]Training 2/3 epoch (loss 0.0066):  48%|████▊     | 8147/16950 [1:30:20<1:43:41,  1.41it/s]Training 2/3 epoch (loss 0.0290):  48%|████▊     | 8147/16950 [1:30:21<1:43:41,  1.41it/s]Training 2/3 epoch (loss 0.0290):  48%|████▊     | 8148/16950 [1:30:21<1:35:10,  1.54it/s]Training 2/3 epoch (loss 0.3385):  48%|████▊     | 8148/16950 [1:30:21<1:35:10,  1.54it/s]Training 2/3 epoch (loss 0.3385):  48%|████▊     | 8149/16950 [1:30:21<1:23:39,  1.75it/s]Training 2/3 epoch (loss 0.0014):  48%|████▊     | 8149/16950 [1:30:22<1:23:39,  1.75it/s]Training 2/3 epoch (loss 0.0014):  48%|████▊     | 8150/16950 [1:30:22<1:24:13,  1.74it/s]Training 2/3 epoch (loss 0.0166):  48%|████▊     | 8150/16950 [1:30:22<1:24:13,  1.74it/s]Training 2/3 epoch (loss 0.0166):  48%|████▊     | 8151/16950 [1:30:22<1:24:38,  1.73it/s]Training 2/3 epoch (loss 0.0001):  48%|████▊     | 8151/16950 [1:30:23<1:24:38,  1.73it/s]Training 2/3 epoch (loss 0.0001):  48%|████▊     | 8152/16950 [1:30:23<1:16:49,  1.91it/s]Training 2/3 epoch (loss 0.1926):  48%|████▊     | 8152/16950 [1:30:23<1:16:49,  1.91it/s]Training 2/3 epoch (loss 0.1926):  48%|████▊     | 8153/16950 [1:30:23<1:14:01,  1.98it/s]Training 2/3 epoch (loss 0.0003):  48%|████▊     | 8153/16950 [1:30:24<1:14:01,  1.98it/s]Training 2/3 epoch (loss 0.0003):  48%|████▊     | 8154/16950 [1:30:24<1:13:42,  1.99it/s]Training 2/3 epoch (loss 0.3926):  48%|████▊     | 8154/16950 [1:30:24<1:13:42,  1.99it/s]Training 2/3 epoch (loss 0.3926):  48%|████▊     | 8155/16950 [1:30:24<1:05:52,  2.23it/s]Training 2/3 epoch (loss 0.0384):  48%|████▊     | 8155/16950 [1:30:25<1:05:52,  2.23it/s]Training 2/3 epoch (loss 0.0384):  48%|████▊     | 8156/16950 [1:30:25<1:16:18,  1.92it/s]Training 2/3 epoch (loss 0.4896):  48%|████▊     | 8156/16950 [1:30:26<1:16:18,  1.92it/s]Training 2/3 epoch (loss 0.4896):  48%|████▊     | 8157/16950 [1:30:26<1:37:27,  1.50it/s]Training 2/3 epoch (loss 0.0272):  48%|████▊     | 8157/16950 [1:30:26<1:37:27,  1.50it/s]Training 2/3 epoch (loss 0.0272):  48%|████▊     | 8158/16950 [1:30:26<1:34:15,  1.55it/s]Training 2/3 epoch (loss 0.0846):  48%|████▊     | 8158/16950 [1:30:27<1:34:15,  1.55it/s]Training 2/3 epoch (loss 0.0846):  48%|████▊     | 8159/16950 [1:30:27<1:33:33,  1.57it/s]Training 2/3 epoch (loss 0.5888):  48%|████▊     | 8159/16950 [1:30:28<1:33:33,  1.57it/s]Training 2/3 epoch (loss 0.5888):  48%|████▊     | 8160/16950 [1:30:28<1:26:35,  1.69it/s]Training 2/3 epoch (loss 0.0009):  48%|████▊     | 8160/16950 [1:30:28<1:26:35,  1.69it/s]Training 2/3 epoch (loss 0.0009):  48%|████▊     | 8161/16950 [1:30:28<1:18:57,  1.86it/s]Training 2/3 epoch (loss 0.2408):  48%|████▊     | 8161/16950 [1:30:29<1:18:57,  1.86it/s]Training 2/3 epoch (loss 0.2408):  48%|████▊     | 8162/16950 [1:30:29<1:22:49,  1.77it/s]Training 2/3 epoch (loss 0.0007):  48%|████▊     | 8162/16950 [1:30:29<1:22:49,  1.77it/s]Training 2/3 epoch (loss 0.0007):  48%|████▊     | 8163/16950 [1:30:29<1:20:56,  1.81it/s]Training 2/3 epoch (loss 0.1413):  48%|████▊     | 8163/16950 [1:30:30<1:20:56,  1.81it/s]Training 2/3 epoch (loss 0.1413):  48%|████▊     | 8164/16950 [1:30:30<1:21:51,  1.79it/s]Training 2/3 epoch (loss 0.0185):  48%|████▊     | 8164/16950 [1:30:30<1:21:51,  1.79it/s]Training 2/3 epoch (loss 0.0185):  48%|████▊     | 8165/16950 [1:30:30<1:29:24,  1.64it/s]Training 2/3 epoch (loss 0.0233):  48%|████▊     | 8165/16950 [1:30:31<1:29:24,  1.64it/s]Training 2/3 epoch (loss 0.0233):  48%|████▊     | 8166/16950 [1:30:31<1:28:17,  1.66it/s]Training 2/3 epoch (loss 0.0033):  48%|████▊     | 8166/16950 [1:30:32<1:28:17,  1.66it/s]Training 2/3 epoch (loss 0.0033):  48%|████▊     | 8167/16950 [1:30:32<1:40:11,  1.46it/s]Training 2/3 epoch (loss 0.1107):  48%|████▊     | 8167/16950 [1:30:32<1:40:11,  1.46it/s]Training 2/3 epoch (loss 0.1107):  48%|████▊     | 8168/16950 [1:30:32<1:32:40,  1.58it/s]Training 2/3 epoch (loss 0.1011):  48%|████▊     | 8168/16950 [1:30:33<1:32:40,  1.58it/s]Training 2/3 epoch (loss 0.1011):  48%|████▊     | 8169/16950 [1:30:33<1:28:57,  1.65it/s]Training 2/3 epoch (loss 0.0192):  48%|████▊     | 8169/16950 [1:30:33<1:28:57,  1.65it/s]Training 2/3 epoch (loss 0.0192):  48%|████▊     | 8170/16950 [1:30:33<1:23:16,  1.76it/s]Training 2/3 epoch (loss 0.0087):  48%|████▊     | 8170/16950 [1:30:34<1:23:16,  1.76it/s]Training 2/3 epoch (loss 0.0087):  48%|████▊     | 8171/16950 [1:30:34<1:25:44,  1.71it/s]Training 2/3 epoch (loss 0.5030):  48%|████▊     | 8171/16950 [1:30:35<1:25:44,  1.71it/s]Training 2/3 epoch (loss 0.5030):  48%|████▊     | 8172/16950 [1:30:35<1:42:50,  1.42it/s]Training 2/3 epoch (loss 0.0291):  48%|████▊     | 8172/16950 [1:30:36<1:42:50,  1.42it/s]Training 2/3 epoch (loss 0.0291):  48%|████▊     | 8173/16950 [1:30:36<1:42:30,  1.43it/s]Training 2/3 epoch (loss 0.0285):  48%|████▊     | 8173/16950 [1:30:36<1:42:30,  1.43it/s]Training 2/3 epoch (loss 0.0285):  48%|████▊     | 8174/16950 [1:30:36<1:30:35,  1.61it/s]Training 2/3 epoch (loss 0.0368):  48%|████▊     | 8174/16950 [1:30:37<1:30:35,  1.61it/s]Training 2/3 epoch (loss 0.0368):  48%|████▊     | 8175/16950 [1:30:37<1:26:58,  1.68it/s]Training 2/3 epoch (loss 0.0496):  48%|████▊     | 8175/16950 [1:30:37<1:26:58,  1.68it/s]Training 2/3 epoch (loss 0.0496):  48%|████▊     | 8176/16950 [1:30:37<1:25:19,  1.71it/s]Training 2/3 epoch (loss 0.2736):  48%|████▊     | 8176/16950 [1:30:38<1:25:19,  1.71it/s]Training 2/3 epoch (loss 0.2736):  48%|████▊     | 8177/16950 [1:30:38<1:34:25,  1.55it/s]Training 2/3 epoch (loss 0.4623):  48%|████▊     | 8177/16950 [1:30:39<1:34:25,  1.55it/s]Training 2/3 epoch (loss 0.4623):  48%|████▊     | 8178/16950 [1:30:39<1:28:37,  1.65it/s]Training 2/3 epoch (loss 0.0039):  48%|████▊     | 8178/16950 [1:30:39<1:28:37,  1.65it/s]Training 2/3 epoch (loss 0.0039):  48%|████▊     | 8179/16950 [1:30:39<1:22:35,  1.77it/s]Training 2/3 epoch (loss 0.0275):  48%|████▊     | 8179/16950 [1:30:40<1:22:35,  1.77it/s]Training 2/3 epoch (loss 0.0275):  48%|████▊     | 8180/16950 [1:30:40<1:19:39,  1.83it/s]Training 2/3 epoch (loss 0.0307):  48%|████▊     | 8180/16950 [1:30:40<1:19:39,  1.83it/s]Training 2/3 epoch (loss 0.0307):  48%|████▊     | 8181/16950 [1:30:40<1:26:30,  1.69it/s]Training 2/3 epoch (loss 0.4267):  48%|████▊     | 8181/16950 [1:30:41<1:26:30,  1.69it/s]Training 2/3 epoch (loss 0.4267):  48%|████▊     | 8182/16950 [1:30:41<1:23:26,  1.75it/s]Training 2/3 epoch (loss 0.7396):  48%|████▊     | 8182/16950 [1:30:41<1:23:26,  1.75it/s]Training 2/3 epoch (loss 0.7396):  48%|████▊     | 8183/16950 [1:30:41<1:28:41,  1.65it/s]Training 2/3 epoch (loss 0.0025):  48%|████▊     | 8183/16950 [1:30:42<1:28:41,  1.65it/s]Training 2/3 epoch (loss 0.0025):  48%|████▊     | 8184/16950 [1:30:42<1:34:21,  1.55it/s]Training 2/3 epoch (loss 0.0144):  48%|████▊     | 8184/16950 [1:30:43<1:34:21,  1.55it/s]Training 2/3 epoch (loss 0.0144):  48%|████▊     | 8185/16950 [1:30:43<1:27:46,  1.66it/s]Training 2/3 epoch (loss 0.5373):  48%|████▊     | 8185/16950 [1:30:43<1:27:46,  1.66it/s]Training 2/3 epoch (loss 0.5373):  48%|████▊     | 8186/16950 [1:30:43<1:30:47,  1.61it/s]Training 2/3 epoch (loss 0.0427):  48%|████▊     | 8186/16950 [1:30:44<1:30:47,  1.61it/s]Training 2/3 epoch (loss 0.0427):  48%|████▊     | 8187/16950 [1:30:44<1:31:19,  1.60it/s]Training 2/3 epoch (loss 0.2117):  48%|████▊     | 8187/16950 [1:30:44<1:31:19,  1.60it/s]Training 2/3 epoch (loss 0.2117):  48%|████▊     | 8188/16950 [1:30:44<1:23:26,  1.75it/s]Training 2/3 epoch (loss 0.1795):  48%|████▊     | 8188/16950 [1:30:45<1:23:26,  1.75it/s]Training 2/3 epoch (loss 0.1795):  48%|████▊     | 8189/16950 [1:30:45<1:23:48,  1.74it/s]Training 2/3 epoch (loss 0.1116):  48%|████▊     | 8189/16950 [1:30:46<1:23:48,  1.74it/s]Training 2/3 epoch (loss 0.1116):  48%|████▊     | 8190/16950 [1:30:46<1:24:37,  1.73it/s]Training 2/3 epoch (loss 0.0288):  48%|████▊     | 8190/16950 [1:30:46<1:24:37,  1.73it/s]Training 2/3 epoch (loss 0.0288):  48%|████▊     | 8191/16950 [1:30:46<1:20:00,  1.82it/s]Training 2/3 epoch (loss 0.3076):  48%|████▊     | 8191/16950 [1:30:46<1:20:00,  1.82it/s]Training 2/3 epoch (loss 0.3076):  48%|████▊     | 8192/16950 [1:30:46<1:12:57,  2.00it/s]Training 2/3 epoch (loss 0.2377):  48%|████▊     | 8192/16950 [1:30:47<1:12:57,  2.00it/s]Training 2/3 epoch (loss 0.2377):  48%|████▊     | 8193/16950 [1:30:47<1:04:52,  2.25it/s]Training 2/3 epoch (loss 0.5490):  48%|████▊     | 8193/16950 [1:30:47<1:04:52,  2.25it/s]Training 2/3 epoch (loss 0.5490):  48%|████▊     | 8194/16950 [1:30:47<59:23,  2.46it/s]  Training 2/3 epoch (loss 0.5369):  48%|████▊     | 8194/16950 [1:30:48<59:23,  2.46it/s]Training 2/3 epoch (loss 0.5369):  48%|████▊     | 8195/16950 [1:30:48<1:03:27,  2.30it/s]Training 2/3 epoch (loss 0.0552):  48%|████▊     | 8195/16950 [1:30:48<1:03:27,  2.30it/s]Training 2/3 epoch (loss 0.0552):  48%|████▊     | 8196/16950 [1:30:48<1:09:01,  2.11it/s]Training 2/3 epoch (loss 0.0238):  48%|████▊     | 8196/16950 [1:30:49<1:09:01,  2.11it/s]Training 2/3 epoch (loss 0.0238):  48%|████▊     | 8197/16950 [1:30:49<1:17:57,  1.87it/s]Training 2/3 epoch (loss 0.0018):  48%|████▊     | 8197/16950 [1:30:50<1:17:57,  1.87it/s]Training 2/3 epoch (loss 0.0018):  48%|████▊     | 8198/16950 [1:30:50<1:27:33,  1.67it/s]Training 2/3 epoch (loss 0.2397):  48%|████▊     | 8198/16950 [1:30:50<1:27:33,  1.67it/s]Training 2/3 epoch (loss 0.2397):  48%|████▊     | 8199/16950 [1:30:50<1:23:56,  1.74it/s]Training 2/3 epoch (loss 0.1528):  48%|████▊     | 8199/16950 [1:30:51<1:23:56,  1.74it/s]Training 2/3 epoch (loss 0.1528):  48%|████▊     | 8200/16950 [1:30:51<1:22:27,  1.77it/s]Training 2/3 epoch (loss 0.0388):  48%|████▊     | 8200/16950 [1:30:51<1:22:27,  1.77it/s]Training 2/3 epoch (loss 0.0388):  48%|████▊     | 8201/16950 [1:30:51<1:21:56,  1.78it/s]Training 2/3 epoch (loss 0.0887):  48%|████▊     | 8201/16950 [1:30:52<1:21:56,  1.78it/s]Training 2/3 epoch (loss 0.0887):  48%|████▊     | 8202/16950 [1:30:52<1:24:32,  1.72it/s]Training 2/3 epoch (loss 0.0047):  48%|████▊     | 8202/16950 [1:30:52<1:24:32,  1.72it/s]Training 2/3 epoch (loss 0.0047):  48%|████▊     | 8203/16950 [1:30:52<1:24:22,  1.73it/s]Training 2/3 epoch (loss 0.1410):  48%|████▊     | 8203/16950 [1:30:53<1:24:22,  1.73it/s]Training 2/3 epoch (loss 0.1410):  48%|████▊     | 8204/16950 [1:30:53<1:29:20,  1.63it/s]Training 2/3 epoch (loss 0.0055):  48%|████▊     | 8204/16950 [1:30:54<1:29:20,  1.63it/s]Training 2/3 epoch (loss 0.0055):  48%|████▊     | 8205/16950 [1:30:54<1:30:26,  1.61it/s]Training 2/3 epoch (loss 0.0121):  48%|████▊     | 8205/16950 [1:30:54<1:30:26,  1.61it/s]Training 2/3 epoch (loss 0.0121):  48%|████▊     | 8206/16950 [1:30:54<1:20:22,  1.81it/s]Training 2/3 epoch (loss 0.0043):  48%|████▊     | 8206/16950 [1:30:55<1:20:22,  1.81it/s]Training 2/3 epoch (loss 0.0043):  48%|████▊     | 8207/16950 [1:30:55<1:33:40,  1.56it/s]Training 2/3 epoch (loss 0.4268):  48%|████▊     | 8207/16950 [1:30:56<1:33:40,  1.56it/s]Training 2/3 epoch (loss 0.4268):  48%|████▊     | 8208/16950 [1:30:56<1:36:14,  1.51it/s]Training 2/3 epoch (loss 0.0151):  48%|████▊     | 8208/16950 [1:30:56<1:36:14,  1.51it/s]Training 2/3 epoch (loss 0.0151):  48%|████▊     | 8209/16950 [1:30:56<1:38:23,  1.48it/s]Training 2/3 epoch (loss 0.0259):  48%|████▊     | 8209/16950 [1:30:57<1:38:23,  1.48it/s]Training 2/3 epoch (loss 0.0259):  48%|████▊     | 8210/16950 [1:30:57<1:29:52,  1.62it/s]Training 2/3 epoch (loss 0.5334):  48%|████▊     | 8210/16950 [1:30:58<1:29:52,  1.62it/s]Training 2/3 epoch (loss 0.5334):  48%|████▊     | 8211/16950 [1:30:58<1:32:27,  1.58it/s]Training 2/3 epoch (loss 0.2865):  48%|████▊     | 8211/16950 [1:30:58<1:32:27,  1.58it/s]Training 2/3 epoch (loss 0.2865):  48%|████▊     | 8212/16950 [1:30:58<1:32:30,  1.57it/s]Training 2/3 epoch (loss 0.0292):  48%|████▊     | 8212/16950 [1:30:59<1:32:30,  1.57it/s]Training 2/3 epoch (loss 0.0292):  48%|████▊     | 8213/16950 [1:30:59<1:37:03,  1.50it/s]Training 2/3 epoch (loss 0.1162):  48%|████▊     | 8213/16950 [1:30:59<1:37:03,  1.50it/s]Training 2/3 epoch (loss 0.1162):  48%|████▊     | 8214/16950 [1:30:59<1:29:23,  1.63it/s]Training 2/3 epoch (loss 0.5787):  48%|████▊     | 8214/16950 [1:31:00<1:29:23,  1.63it/s]Training 2/3 epoch (loss 0.5787):  48%|████▊     | 8215/16950 [1:31:00<1:43:25,  1.41it/s]Training 2/3 epoch (loss 0.0020):  48%|████▊     | 8215/16950 [1:31:01<1:43:25,  1.41it/s]Training 2/3 epoch (loss 0.0020):  48%|████▊     | 8216/16950 [1:31:01<1:34:54,  1.53it/s]Training 2/3 epoch (loss 0.0152):  48%|████▊     | 8216/16950 [1:31:01<1:34:54,  1.53it/s]Training 2/3 epoch (loss 0.0152):  48%|████▊     | 8217/16950 [1:31:01<1:26:55,  1.67it/s]Training 2/3 epoch (loss 0.1676):  48%|████▊     | 8217/16950 [1:31:02<1:26:55,  1.67it/s]Training 2/3 epoch (loss 0.1676):  48%|████▊     | 8218/16950 [1:31:02<1:23:21,  1.75it/s]Training 2/3 epoch (loss 0.1599):  48%|████▊     | 8218/16950 [1:31:02<1:23:21,  1.75it/s]Training 2/3 epoch (loss 0.1599):  48%|████▊     | 8219/16950 [1:31:02<1:26:15,  1.69it/s]Training 2/3 epoch (loss 0.4182):  48%|████▊     | 8219/16950 [1:31:03<1:26:15,  1.69it/s]Training 2/3 epoch (loss 0.4182):  48%|████▊     | 8220/16950 [1:31:03<1:29:37,  1.62it/s]Training 2/3 epoch (loss 0.0643):  48%|████▊     | 8220/16950 [1:31:04<1:29:37,  1.62it/s]Training 2/3 epoch (loss 0.0643):  49%|████▊     | 8221/16950 [1:31:04<1:22:33,  1.76it/s]Training 2/3 epoch (loss 0.4313):  49%|████▊     | 8221/16950 [1:31:04<1:22:33,  1.76it/s]Training 2/3 epoch (loss 0.4313):  49%|████▊     | 8222/16950 [1:31:04<1:25:43,  1.70it/s]Training 2/3 epoch (loss 0.1099):  49%|████▊     | 8222/16950 [1:31:05<1:25:43,  1.70it/s]Training 2/3 epoch (loss 0.1099):  49%|████▊     | 8223/16950 [1:31:05<1:23:43,  1.74it/s]Training 2/3 epoch (loss 0.1455):  49%|████▊     | 8223/16950 [1:31:05<1:23:43,  1.74it/s]Training 2/3 epoch (loss 0.1455):  49%|████▊     | 8224/16950 [1:31:05<1:19:39,  1.83it/s]Training 2/3 epoch (loss 0.0605):  49%|████▊     | 8224/16950 [1:31:06<1:19:39,  1.83it/s]Training 2/3 epoch (loss 0.0605):  49%|████▊     | 8225/16950 [1:31:06<1:20:08,  1.81it/s]Training 2/3 epoch (loss 0.0058):  49%|████▊     | 8225/16950 [1:31:06<1:20:08,  1.81it/s]Training 2/3 epoch (loss 0.0058):  49%|████▊     | 8226/16950 [1:31:06<1:13:05,  1.99it/s]Training 2/3 epoch (loss 0.3758):  49%|████▊     | 8226/16950 [1:31:07<1:13:05,  1.99it/s]Training 2/3 epoch (loss 0.3758):  49%|████▊     | 8227/16950 [1:31:07<1:15:20,  1.93it/s]Training 2/3 epoch (loss 0.0029):  49%|████▊     | 8227/16950 [1:31:07<1:15:20,  1.93it/s]Training 2/3 epoch (loss 0.0029):  49%|████▊     | 8228/16950 [1:31:07<1:16:41,  1.90it/s]Training 2/3 epoch (loss 0.0015):  49%|████▊     | 8228/16950 [1:31:08<1:16:41,  1.90it/s]Training 2/3 epoch (loss 0.0015):  49%|████▊     | 8229/16950 [1:31:08<1:31:11,  1.59it/s]Training 2/3 epoch (loss 0.0158):  49%|████▊     | 8229/16950 [1:31:09<1:31:11,  1.59it/s]Training 2/3 epoch (loss 0.0158):  49%|████▊     | 8230/16950 [1:31:09<1:29:58,  1.62it/s]Training 2/3 epoch (loss 0.0054):  49%|████▊     | 8230/16950 [1:31:09<1:29:58,  1.62it/s]Training 2/3 epoch (loss 0.0054):  49%|████▊     | 8231/16950 [1:31:09<1:30:40,  1.60it/s]Training 2/3 epoch (loss 0.4733):  49%|████▊     | 8231/16950 [1:31:10<1:30:40,  1.60it/s]Training 2/3 epoch (loss 0.4733):  49%|████▊     | 8232/16950 [1:31:10<1:22:23,  1.76it/s]Training 2/3 epoch (loss 0.0055):  49%|████▊     | 8232/16950 [1:31:10<1:22:23,  1.76it/s]Training 2/3 epoch (loss 0.0055):  49%|████▊     | 8233/16950 [1:31:10<1:23:42,  1.74it/s]Training 2/3 epoch (loss 0.4206):  49%|████▊     | 8233/16950 [1:31:11<1:23:42,  1.74it/s]Training 2/3 epoch (loss 0.4206):  49%|████▊     | 8234/16950 [1:31:11<1:23:19,  1.74it/s]Training 2/3 epoch (loss 0.0222):  49%|████▊     | 8234/16950 [1:31:11<1:23:19,  1.74it/s]Training 2/3 epoch (loss 0.0222):  49%|████▊     | 8235/16950 [1:31:11<1:17:36,  1.87it/s]Training 2/3 epoch (loss 0.2137):  49%|████▊     | 8235/16950 [1:31:12<1:17:36,  1.87it/s]Training 2/3 epoch (loss 0.2137):  49%|████▊     | 8236/16950 [1:31:12<1:21:39,  1.78it/s]Training 2/3 epoch (loss 0.0186):  49%|████▊     | 8236/16950 [1:31:13<1:21:39,  1.78it/s]Training 2/3 epoch (loss 0.0186):  49%|████▊     | 8237/16950 [1:31:13<1:20:26,  1.81it/s]Training 2/3 epoch (loss 0.4773):  49%|████▊     | 8237/16950 [1:31:14<1:20:26,  1.81it/s]Training 2/3 epoch (loss 0.4773):  49%|████▊     | 8238/16950 [1:31:14<1:41:47,  1.43it/s]Training 2/3 epoch (loss 0.0383):  49%|████▊     | 8238/16950 [1:31:14<1:41:47,  1.43it/s]Training 2/3 epoch (loss 0.0383):  49%|████▊     | 8239/16950 [1:31:14<1:36:00,  1.51it/s]Training 2/3 epoch (loss 0.1575):  49%|████▊     | 8239/16950 [1:31:15<1:36:00,  1.51it/s]Training 2/3 epoch (loss 0.1575):  49%|████▊     | 8240/16950 [1:31:15<1:30:54,  1.60it/s]Training 2/3 epoch (loss 0.0041):  49%|████▊     | 8240/16950 [1:31:15<1:30:54,  1.60it/s]Training 2/3 epoch (loss 0.0041):  49%|████▊     | 8241/16950 [1:31:15<1:28:05,  1.65it/s]Training 2/3 epoch (loss 0.3088):  49%|████▊     | 8241/16950 [1:31:16<1:28:05,  1.65it/s]Training 2/3 epoch (loss 0.3088):  49%|████▊     | 8242/16950 [1:31:16<1:24:11,  1.72it/s]Training 2/3 epoch (loss 0.0004):  49%|████▊     | 8242/16950 [1:31:16<1:24:11,  1.72it/s]Training 2/3 epoch (loss 0.0004):  49%|████▊     | 8243/16950 [1:31:16<1:20:40,  1.80it/s]Training 2/3 epoch (loss 0.0253):  49%|████▊     | 8243/16950 [1:31:17<1:20:40,  1.80it/s]Training 2/3 epoch (loss 0.0253):  49%|████▊     | 8244/16950 [1:31:17<1:19:44,  1.82it/s]Training 2/3 epoch (loss 0.3669):  49%|████▊     | 8244/16950 [1:31:18<1:19:44,  1.82it/s]Training 2/3 epoch (loss 0.3669):  49%|████▊     | 8245/16950 [1:31:18<1:24:18,  1.72it/s]Training 2/3 epoch (loss 0.0805):  49%|████▊     | 8245/16950 [1:31:18<1:24:18,  1.72it/s]Training 2/3 epoch (loss 0.0805):  49%|████▊     | 8246/16950 [1:31:18<1:24:32,  1.72it/s]Training 2/3 epoch (loss 0.0087):  49%|████▊     | 8246/16950 [1:31:19<1:24:32,  1.72it/s]Training 2/3 epoch (loss 0.0087):  49%|████▊     | 8247/16950 [1:31:19<1:23:11,  1.74it/s]Training 2/3 epoch (loss 0.0430):  49%|████▊     | 8247/16950 [1:31:19<1:23:11,  1.74it/s]Training 2/3 epoch (loss 0.0430):  49%|████▊     | 8248/16950 [1:31:19<1:28:44,  1.63it/s]Training 2/3 epoch (loss 0.2121):  49%|████▊     | 8248/16950 [1:31:20<1:28:44,  1.63it/s]Training 2/3 epoch (loss 0.2121):  49%|████▊     | 8249/16950 [1:31:20<1:29:49,  1.61it/s]Training 2/3 epoch (loss 0.0492):  49%|████▊     | 8249/16950 [1:31:21<1:29:49,  1.61it/s]Training 2/3 epoch (loss 0.0492):  49%|████▊     | 8250/16950 [1:31:21<1:45:36,  1.37it/s]Training 2/3 epoch (loss 0.0128):  49%|████▊     | 8250/16950 [1:31:22<1:45:36,  1.37it/s]Training 2/3 epoch (loss 0.0128):  49%|████▊     | 8251/16950 [1:31:22<1:40:17,  1.45it/s]Training 2/3 epoch (loss 0.0049):  49%|████▊     | 8251/16950 [1:31:22<1:40:17,  1.45it/s]Training 2/3 epoch (loss 0.0049):  49%|████▊     | 8252/16950 [1:31:22<1:33:30,  1.55it/s]Training 2/3 epoch (loss 0.2735):  49%|████▊     | 8252/16950 [1:31:23<1:33:30,  1.55it/s]Training 2/3 epoch (loss 0.2735):  49%|████▊     | 8253/16950 [1:31:23<1:24:41,  1.71it/s]Training 2/3 epoch (loss 0.0008):  49%|████▊     | 8253/16950 [1:31:23<1:24:41,  1.71it/s]Training 2/3 epoch (loss 0.0008):  49%|████▊     | 8254/16950 [1:31:23<1:19:40,  1.82it/s]Training 2/3 epoch (loss 0.1220):  49%|████▊     | 8254/16950 [1:31:24<1:19:40,  1.82it/s]Training 2/3 epoch (loss 0.1220):  49%|████▊     | 8255/16950 [1:31:24<1:31:43,  1.58it/s]Training 2/3 epoch (loss 0.0017):  49%|████▊     | 8255/16950 [1:31:24<1:31:43,  1.58it/s]Training 2/3 epoch (loss 0.0017):  49%|████▊     | 8256/16950 [1:31:24<1:28:42,  1.63it/s]Training 2/3 epoch (loss 0.3707):  49%|████▊     | 8256/16950 [1:31:25<1:28:42,  1.63it/s]Training 2/3 epoch (loss 0.3707):  49%|████▊     | 8257/16950 [1:31:25<1:30:52,  1.59it/s]Training 2/3 epoch (loss 0.0233):  49%|████▊     | 8257/16950 [1:31:26<1:30:52,  1.59it/s]Training 2/3 epoch (loss 0.0233):  49%|████▊     | 8258/16950 [1:31:26<1:27:46,  1.65it/s]Training 2/3 epoch (loss 0.4517):  49%|████▊     | 8258/16950 [1:31:26<1:27:46,  1.65it/s]Training 2/3 epoch (loss 0.4517):  49%|████▊     | 8259/16950 [1:31:26<1:19:52,  1.81it/s]Training 2/3 epoch (loss 0.3354):  49%|████▊     | 8259/16950 [1:31:27<1:19:52,  1.81it/s]Training 2/3 epoch (loss 0.3354):  49%|████▊     | 8260/16950 [1:31:27<1:15:55,  1.91it/s]Training 2/3 epoch (loss 0.3759):  49%|████▊     | 8260/16950 [1:31:27<1:15:55,  1.91it/s]Training 2/3 epoch (loss 0.3759):  49%|████▊     | 8261/16950 [1:31:27<1:26:20,  1.68it/s]Training 2/3 epoch (loss 0.7546):  49%|████▊     | 8261/16950 [1:31:28<1:26:20,  1.68it/s]Training 2/3 epoch (loss 0.7546):  49%|████▊     | 8262/16950 [1:31:28<1:15:35,  1.92it/s]Training 2/3 epoch (loss 0.2029):  49%|████▊     | 8262/16950 [1:31:28<1:15:35,  1.92it/s]Training 2/3 epoch (loss 0.2029):  49%|████▊     | 8263/16950 [1:31:28<1:20:55,  1.79it/s]Training 2/3 epoch (loss 0.3147):  49%|████▊     | 8263/16950 [1:31:29<1:20:55,  1.79it/s]Training 2/3 epoch (loss 0.3147):  49%|████▉     | 8264/16950 [1:31:29<1:16:01,  1.90it/s]Training 2/3 epoch (loss 0.4901):  49%|████▉     | 8264/16950 [1:31:30<1:16:01,  1.90it/s]Training 2/3 epoch (loss 0.4901):  49%|████▉     | 8265/16950 [1:31:30<1:26:40,  1.67it/s]Training 2/3 epoch (loss 0.0005):  49%|████▉     | 8265/16950 [1:31:30<1:26:40,  1.67it/s]Training 2/3 epoch (loss 0.0005):  49%|████▉     | 8266/16950 [1:31:30<1:22:12,  1.76it/s]Training 2/3 epoch (loss 0.0356):  49%|████▉     | 8266/16950 [1:31:31<1:22:12,  1.76it/s]Training 2/3 epoch (loss 0.0356):  49%|████▉     | 8267/16950 [1:31:31<1:20:49,  1.79it/s]Training 2/3 epoch (loss 0.0031):  49%|████▉     | 8267/16950 [1:31:31<1:20:49,  1.79it/s]Training 2/3 epoch (loss 0.0031):  49%|████▉     | 8268/16950 [1:31:31<1:16:08,  1.90it/s]Training 2/3 epoch (loss 0.0207):  49%|████▉     | 8268/16950 [1:31:32<1:16:08,  1.90it/s]Training 2/3 epoch (loss 0.0207):  49%|████▉     | 8269/16950 [1:31:32<1:23:18,  1.74it/s]Training 2/3 epoch (loss 0.0962):  49%|████▉     | 8269/16950 [1:31:32<1:23:18,  1.74it/s]Training 2/3 epoch (loss 0.0962):  49%|████▉     | 8270/16950 [1:31:32<1:24:21,  1.71it/s]Training 2/3 epoch (loss 0.0466):  49%|████▉     | 8270/16950 [1:31:33<1:24:21,  1.71it/s]Training 2/3 epoch (loss 0.0466):  49%|████▉     | 8271/16950 [1:31:33<1:22:46,  1.75it/s]Training 2/3 epoch (loss 0.0247):  49%|████▉     | 8271/16950 [1:31:33<1:22:46,  1.75it/s]Training 2/3 epoch (loss 0.0247):  49%|████▉     | 8272/16950 [1:31:33<1:21:19,  1.78it/s]Training 2/3 epoch (loss 0.0019):  49%|████▉     | 8272/16950 [1:31:34<1:21:19,  1.78it/s]Training 2/3 epoch (loss 0.0019):  49%|████▉     | 8273/16950 [1:31:34<1:13:09,  1.98it/s]Training 2/3 epoch (loss 0.0015):  49%|████▉     | 8273/16950 [1:31:34<1:13:09,  1.98it/s]Training 2/3 epoch (loss 0.0015):  49%|████▉     | 8274/16950 [1:31:34<1:08:49,  2.10it/s]Training 2/3 epoch (loss 0.1261):  49%|████▉     | 8274/16950 [1:31:35<1:08:49,  2.10it/s]Training 2/3 epoch (loss 0.1261):  49%|████▉     | 8275/16950 [1:31:35<1:10:08,  2.06it/s]Training 2/3 epoch (loss 0.0213):  49%|████▉     | 8275/16950 [1:31:35<1:10:08,  2.06it/s]Training 2/3 epoch (loss 0.0213):  49%|████▉     | 8276/16950 [1:31:35<1:09:24,  2.08it/s]Training 2/3 epoch (loss 0.0425):  49%|████▉     | 8276/16950 [1:31:36<1:09:24,  2.08it/s]Training 2/3 epoch (loss 0.0425):  49%|████▉     | 8277/16950 [1:31:36<1:15:09,  1.92it/s]Training 2/3 epoch (loss 0.2205):  49%|████▉     | 8277/16950 [1:31:36<1:15:09,  1.92it/s]Training 2/3 epoch (loss 0.2205):  49%|████▉     | 8278/16950 [1:31:36<1:11:50,  2.01it/s]Training 2/3 epoch (loss 0.0110):  49%|████▉     | 8278/16950 [1:31:37<1:11:50,  2.01it/s]Training 2/3 epoch (loss 0.0110):  49%|████▉     | 8279/16950 [1:31:37<1:06:45,  2.16it/s]Training 2/3 epoch (loss 0.0159):  49%|████▉     | 8279/16950 [1:31:37<1:06:45,  2.16it/s]Training 2/3 epoch (loss 0.0159):  49%|████▉     | 8280/16950 [1:31:37<1:08:31,  2.11it/s]Training 2/3 epoch (loss 0.0200):  49%|████▉     | 8280/16950 [1:31:38<1:08:31,  2.11it/s]Training 2/3 epoch (loss 0.0200):  49%|████▉     | 8281/16950 [1:31:38<1:17:34,  1.86it/s]Training 2/3 epoch (loss 0.0052):  49%|████▉     | 8281/16950 [1:31:38<1:17:34,  1.86it/s]Training 2/3 epoch (loss 0.0052):  49%|████▉     | 8282/16950 [1:31:38<1:22:13,  1.76it/s]Training 2/3 epoch (loss 0.0434):  49%|████▉     | 8282/16950 [1:31:39<1:22:13,  1.76it/s]Training 2/3 epoch (loss 0.0434):  49%|████▉     | 8283/16950 [1:31:39<1:19:42,  1.81it/s]Training 2/3 epoch (loss 0.0511):  49%|████▉     | 8283/16950 [1:31:40<1:19:42,  1.81it/s]Training 2/3 epoch (loss 0.0511):  49%|████▉     | 8284/16950 [1:31:40<1:23:27,  1.73it/s]Training 2/3 epoch (loss 0.1710):  49%|████▉     | 8284/16950 [1:31:40<1:23:27,  1.73it/s]Training 2/3 epoch (loss 0.1710):  49%|████▉     | 8285/16950 [1:31:40<1:27:44,  1.65it/s]Training 2/3 epoch (loss 0.1086):  49%|████▉     | 8285/16950 [1:31:41<1:27:44,  1.65it/s]Training 2/3 epoch (loss 0.1086):  49%|████▉     | 8286/16950 [1:31:41<1:23:50,  1.72it/s]Training 2/3 epoch (loss 0.0133):  49%|████▉     | 8286/16950 [1:31:41<1:23:50,  1.72it/s]Training 2/3 epoch (loss 0.0133):  49%|████▉     | 8287/16950 [1:31:41<1:24:16,  1.71it/s]Training 2/3 epoch (loss 0.0244):  49%|████▉     | 8287/16950 [1:31:42<1:24:16,  1.71it/s]Training 2/3 epoch (loss 0.0244):  49%|████▉     | 8288/16950 [1:31:42<1:26:03,  1.68it/s]Training 2/3 epoch (loss 0.0003):  49%|████▉     | 8288/16950 [1:31:42<1:26:03,  1.68it/s]Training 2/3 epoch (loss 0.0003):  49%|████▉     | 8289/16950 [1:31:42<1:22:56,  1.74it/s]Training 2/3 epoch (loss 0.0006):  49%|████▉     | 8289/16950 [1:31:43<1:22:56,  1.74it/s]Training 2/3 epoch (loss 0.0006):  49%|████▉     | 8290/16950 [1:31:43<1:24:55,  1.70it/s]Training 2/3 epoch (loss 0.4670):  49%|████▉     | 8290/16950 [1:31:44<1:24:55,  1.70it/s]Training 2/3 epoch (loss 0.4670):  49%|████▉     | 8291/16950 [1:31:44<1:42:32,  1.41it/s]Training 2/3 epoch (loss 0.0128):  49%|████▉     | 8291/16950 [1:31:45<1:42:32,  1.41it/s]Training 2/3 epoch (loss 0.0128):  49%|████▉     | 8292/16950 [1:31:45<1:43:19,  1.40it/s]Training 2/3 epoch (loss 0.0212):  49%|████▉     | 8292/16950 [1:31:45<1:43:19,  1.40it/s]Training 2/3 epoch (loss 0.0212):  49%|████▉     | 8293/16950 [1:31:45<1:31:05,  1.58it/s]Training 2/3 epoch (loss 0.4266):  49%|████▉     | 8293/16950 [1:31:46<1:31:05,  1.58it/s]Training 2/3 epoch (loss 0.4266):  49%|████▉     | 8294/16950 [1:31:46<1:33:31,  1.54it/s]Training 2/3 epoch (loss 0.0608):  49%|████▉     | 8294/16950 [1:31:47<1:33:31,  1.54it/s]Training 2/3 epoch (loss 0.0608):  49%|████▉     | 8295/16950 [1:31:47<1:35:49,  1.51it/s]Training 2/3 epoch (loss 0.0086):  49%|████▉     | 8295/16950 [1:31:47<1:35:49,  1.51it/s]Training 2/3 epoch (loss 0.0086):  49%|████▉     | 8296/16950 [1:31:47<1:29:02,  1.62it/s]Training 2/3 epoch (loss 0.1516):  49%|████▉     | 8296/16950 [1:31:47<1:29:02,  1.62it/s]Training 2/3 epoch (loss 0.1516):  49%|████▉     | 8297/16950 [1:31:47<1:16:12,  1.89it/s]Training 2/3 epoch (loss 0.0130):  49%|████▉     | 8297/16950 [1:31:48<1:16:12,  1.89it/s]Training 2/3 epoch (loss 0.0130):  49%|████▉     | 8298/16950 [1:31:48<1:20:23,  1.79it/s]Training 2/3 epoch (loss 0.0762):  49%|████▉     | 8298/16950 [1:31:49<1:20:23,  1.79it/s]Training 2/3 epoch (loss 0.0762):  49%|████▉     | 8299/16950 [1:31:49<1:35:38,  1.51it/s]Training 2/3 epoch (loss 0.1426):  49%|████▉     | 8299/16950 [1:31:50<1:35:38,  1.51it/s]Training 2/3 epoch (loss 0.1426):  49%|████▉     | 8300/16950 [1:31:50<1:28:27,  1.63it/s]Training 2/3 epoch (loss 0.0007):  49%|████▉     | 8300/16950 [1:31:50<1:28:27,  1.63it/s]Training 2/3 epoch (loss 0.0007):  49%|████▉     | 8301/16950 [1:31:50<1:32:03,  1.57it/s]Training 2/3 epoch (loss 0.0001):  49%|████▉     | 8301/16950 [1:31:51<1:32:03,  1.57it/s]Training 2/3 epoch (loss 0.0001):  49%|████▉     | 8302/16950 [1:31:51<1:30:26,  1.59it/s]Training 2/3 epoch (loss 0.0001):  49%|████▉     | 8302/16950 [1:31:51<1:30:26,  1.59it/s]Training 2/3 epoch (loss 0.0001):  49%|████▉     | 8303/16950 [1:31:51<1:23:20,  1.73it/s]Training 2/3 epoch (loss 0.0005):  49%|████▉     | 8303/16950 [1:31:52<1:23:20,  1.73it/s]Training 2/3 epoch (loss 0.0005):  49%|████▉     | 8304/16950 [1:31:52<1:20:36,  1.79it/s]Training 2/3 epoch (loss 0.0084):  49%|████▉     | 8304/16950 [1:31:52<1:20:36,  1.79it/s]Training 2/3 epoch (loss 0.0084):  49%|████▉     | 8305/16950 [1:31:52<1:18:05,  1.85it/s]Training 2/3 epoch (loss 0.0267):  49%|████▉     | 8305/16950 [1:31:53<1:18:05,  1.85it/s]Training 2/3 epoch (loss 0.0267):  49%|████▉     | 8306/16950 [1:31:53<1:16:25,  1.89it/s]Training 2/3 epoch (loss 0.2089):  49%|████▉     | 8306/16950 [1:31:54<1:16:25,  1.89it/s]Training 2/3 epoch (loss 0.2089):  49%|████▉     | 8307/16950 [1:31:54<1:23:59,  1.72it/s]Training 2/3 epoch (loss 0.6014):  49%|████▉     | 8307/16950 [1:31:54<1:23:59,  1.72it/s]Training 2/3 epoch (loss 0.6014):  49%|████▉     | 8308/16950 [1:31:54<1:18:27,  1.84it/s]Training 2/3 epoch (loss 0.0087):  49%|████▉     | 8308/16950 [1:31:55<1:18:27,  1.84it/s]Training 2/3 epoch (loss 0.0087):  49%|████▉     | 8309/16950 [1:31:55<1:23:54,  1.72it/s]Training 2/3 epoch (loss 0.1952):  49%|████▉     | 8309/16950 [1:31:55<1:23:54,  1.72it/s]Training 2/3 epoch (loss 0.1952):  49%|████▉     | 8310/16950 [1:31:55<1:21:38,  1.76it/s]Training 2/3 epoch (loss 0.4675):  49%|████▉     | 8310/16950 [1:31:56<1:21:38,  1.76it/s]Training 2/3 epoch (loss 0.4675):  49%|████▉     | 8311/16950 [1:31:56<1:32:42,  1.55it/s]Training 2/3 epoch (loss 0.0035):  49%|████▉     | 8311/16950 [1:31:57<1:32:42,  1.55it/s]Training 2/3 epoch (loss 0.0035):  49%|████▉     | 8312/16950 [1:31:57<1:31:35,  1.57it/s]Training 2/3 epoch (loss 0.2732):  49%|████▉     | 8312/16950 [1:31:57<1:31:35,  1.57it/s]Training 2/3 epoch (loss 0.2732):  49%|████▉     | 8313/16950 [1:31:57<1:40:44,  1.43it/s]Training 2/3 epoch (loss 0.0793):  49%|████▉     | 8313/16950 [1:31:58<1:40:44,  1.43it/s]Training 2/3 epoch (loss 0.0793):  49%|████▉     | 8314/16950 [1:31:58<1:39:37,  1.44it/s]Training 2/3 epoch (loss 0.0070):  49%|████▉     | 8314/16950 [1:31:59<1:39:37,  1.44it/s]Training 2/3 epoch (loss 0.0070):  49%|████▉     | 8315/16950 [1:31:59<1:31:45,  1.57it/s]Training 2/3 epoch (loss 0.0965):  49%|████▉     | 8315/16950 [1:31:59<1:31:45,  1.57it/s]Training 2/3 epoch (loss 0.0965):  49%|████▉     | 8316/16950 [1:31:59<1:31:51,  1.57it/s]Training 2/3 epoch (loss 0.0379):  49%|████▉     | 8316/16950 [1:32:00<1:31:51,  1.57it/s]Training 2/3 epoch (loss 0.0379):  49%|████▉     | 8317/16950 [1:32:00<1:24:04,  1.71it/s]Training 2/3 epoch (loss 0.0022):  49%|████▉     | 8317/16950 [1:32:00<1:24:04,  1.71it/s]Training 2/3 epoch (loss 0.0022):  49%|████▉     | 8318/16950 [1:32:00<1:23:01,  1.73it/s]Training 2/3 epoch (loss 0.0065):  49%|████▉     | 8318/16950 [1:32:01<1:23:01,  1.73it/s]Training 2/3 epoch (loss 0.0065):  49%|████▉     | 8319/16950 [1:32:01<1:20:27,  1.79it/s]Training 2/3 epoch (loss 0.0016):  49%|████▉     | 8319/16950 [1:32:02<1:20:27,  1.79it/s]Training 2/3 epoch (loss 0.0016):  49%|████▉     | 8320/16950 [1:32:02<1:34:53,  1.52it/s]Training 2/3 epoch (loss 0.4444):  49%|████▉     | 8320/16950 [1:32:03<1:34:53,  1.52it/s]Training 2/3 epoch (loss 0.4444):  49%|████▉     | 8321/16950 [1:32:03<1:47:35,  1.34it/s]Training 2/3 epoch (loss 0.0693):  49%|████▉     | 8321/16950 [1:32:03<1:47:35,  1.34it/s]Training 2/3 epoch (loss 0.0693):  49%|████▉     | 8322/16950 [1:32:03<1:42:08,  1.41it/s]Training 2/3 epoch (loss 0.0731):  49%|████▉     | 8322/16950 [1:32:04<1:42:08,  1.41it/s]Training 2/3 epoch (loss 0.0731):  49%|████▉     | 8323/16950 [1:32:04<1:42:23,  1.40it/s]Training 2/3 epoch (loss 0.6350):  49%|████▉     | 8323/16950 [1:32:05<1:42:23,  1.40it/s]Training 2/3 epoch (loss 0.6350):  49%|████▉     | 8324/16950 [1:32:05<1:40:11,  1.43it/s]Training 2/3 epoch (loss 0.1896):  49%|████▉     | 8324/16950 [1:32:06<1:40:11,  1.43it/s]Training 2/3 epoch (loss 0.1896):  49%|████▉     | 8325/16950 [1:32:06<1:48:29,  1.32it/s]Training 2/3 epoch (loss 0.2211):  49%|████▉     | 8325/16950 [1:32:06<1:48:29,  1.32it/s]Training 2/3 epoch (loss 0.2211):  49%|████▉     | 8326/16950 [1:32:06<1:41:21,  1.42it/s]Training 2/3 epoch (loss 0.9648):  49%|████▉     | 8326/16950 [1:32:07<1:41:21,  1.42it/s]Training 2/3 epoch (loss 0.9648):  49%|████▉     | 8327/16950 [1:32:07<1:42:22,  1.40it/s]Training 2/3 epoch (loss 0.3201):  49%|████▉     | 8327/16950 [1:32:07<1:42:22,  1.40it/s]Training 2/3 epoch (loss 0.3201):  49%|████▉     | 8328/16950 [1:32:07<1:31:17,  1.57it/s]Training 2/3 epoch (loss 0.0519):  49%|████▉     | 8328/16950 [1:32:08<1:31:17,  1.57it/s]Training 2/3 epoch (loss 0.0519):  49%|████▉     | 8329/16950 [1:32:08<1:43:16,  1.39it/s]Training 2/3 epoch (loss 0.1027):  49%|████▉     | 8329/16950 [1:32:09<1:43:16,  1.39it/s]Training 2/3 epoch (loss 0.1027):  49%|████▉     | 8330/16950 [1:32:09<1:45:55,  1.36it/s]Training 2/3 epoch (loss 0.0738):  49%|████▉     | 8330/16950 [1:32:10<1:45:55,  1.36it/s]Training 2/3 epoch (loss 0.0738):  49%|████▉     | 8331/16950 [1:32:10<1:39:36,  1.44it/s]Training 2/3 epoch (loss 0.0960):  49%|████▉     | 8331/16950 [1:32:10<1:39:36,  1.44it/s]Training 2/3 epoch (loss 0.0960):  49%|████▉     | 8332/16950 [1:32:10<1:40:19,  1.43it/s]Training 2/3 epoch (loss 0.0009):  49%|████▉     | 8332/16950 [1:32:11<1:40:19,  1.43it/s]Training 2/3 epoch (loss 0.0009):  49%|████▉     | 8333/16950 [1:32:11<1:31:10,  1.58it/s]Training 2/3 epoch (loss 0.7838):  49%|████▉     | 8333/16950 [1:32:11<1:31:10,  1.58it/s]Training 2/3 epoch (loss 0.7838):  49%|████▉     | 8334/16950 [1:32:11<1:24:20,  1.70it/s]Training 2/3 epoch (loss 0.0157):  49%|████▉     | 8334/16950 [1:32:12<1:24:20,  1.70it/s]Training 2/3 epoch (loss 0.0157):  49%|████▉     | 8335/16950 [1:32:12<1:19:54,  1.80it/s]Training 2/3 epoch (loss 0.4179):  49%|████▉     | 8335/16950 [1:32:13<1:19:54,  1.80it/s]Training 2/3 epoch (loss 0.4179):  49%|████▉     | 8336/16950 [1:32:13<1:29:19,  1.61it/s]Training 2/3 epoch (loss 0.0046):  49%|████▉     | 8336/16950 [1:32:13<1:29:19,  1.61it/s]Training 2/3 epoch (loss 0.0046):  49%|████▉     | 8337/16950 [1:32:13<1:27:47,  1.63it/s]Training 2/3 epoch (loss 0.1236):  49%|████▉     | 8337/16950 [1:32:14<1:27:47,  1.63it/s]Training 2/3 epoch (loss 0.1236):  49%|████▉     | 8338/16950 [1:32:14<1:22:10,  1.75it/s]Training 2/3 epoch (loss 0.0060):  49%|████▉     | 8338/16950 [1:32:14<1:22:10,  1.75it/s]Training 2/3 epoch (loss 0.0060):  49%|████▉     | 8339/16950 [1:32:14<1:16:21,  1.88it/s]Training 2/3 epoch (loss 0.1139):  49%|████▉     | 8339/16950 [1:32:15<1:16:21,  1.88it/s]Training 2/3 epoch (loss 0.1139):  49%|████▉     | 8340/16950 [1:32:15<1:26:23,  1.66it/s]Training 2/3 epoch (loss 0.3924):  49%|████▉     | 8340/16950 [1:32:15<1:26:23,  1.66it/s]Training 2/3 epoch (loss 0.3924):  49%|████▉     | 8341/16950 [1:32:15<1:29:15,  1.61it/s]Training 2/3 epoch (loss 0.0019):  49%|████▉     | 8341/16950 [1:32:16<1:29:15,  1.61it/s]Training 2/3 epoch (loss 0.0019):  49%|████▉     | 8342/16950 [1:32:16<1:20:30,  1.78it/s]Training 2/3 epoch (loss 0.2283):  49%|████▉     | 8342/16950 [1:32:17<1:20:30,  1.78it/s]Training 2/3 epoch (loss 0.2283):  49%|████▉     | 8343/16950 [1:32:17<1:30:33,  1.58it/s]Training 2/3 epoch (loss 0.0248):  49%|████▉     | 8343/16950 [1:32:17<1:30:33,  1.58it/s]Training 2/3 epoch (loss 0.0248):  49%|████▉     | 8344/16950 [1:32:17<1:28:21,  1.62it/s]Training 2/3 epoch (loss 0.0087):  49%|████▉     | 8344/16950 [1:32:18<1:28:21,  1.62it/s]Training 2/3 epoch (loss 0.0087):  49%|████▉     | 8345/16950 [1:32:18<1:32:01,  1.56it/s]Training 2/3 epoch (loss 0.9635):  49%|████▉     | 8345/16950 [1:32:19<1:32:01,  1.56it/s]Training 2/3 epoch (loss 0.9635):  49%|████▉     | 8346/16950 [1:32:19<1:33:11,  1.54it/s]Training 2/3 epoch (loss 0.0323):  49%|████▉     | 8346/16950 [1:32:19<1:33:11,  1.54it/s]Training 2/3 epoch (loss 0.0323):  49%|████▉     | 8347/16950 [1:32:19<1:36:40,  1.48it/s]Training 2/3 epoch (loss 0.1188):  49%|████▉     | 8347/16950 [1:32:20<1:36:40,  1.48it/s]Training 2/3 epoch (loss 0.1188):  49%|████▉     | 8348/16950 [1:32:20<1:30:57,  1.58it/s]Training 2/3 epoch (loss 0.0205):  49%|████▉     | 8348/16950 [1:32:20<1:30:57,  1.58it/s]Training 2/3 epoch (loss 0.0205):  49%|████▉     | 8349/16950 [1:32:20<1:23:01,  1.73it/s]Training 2/3 epoch (loss 0.5235):  49%|████▉     | 8349/16950 [1:32:21<1:23:01,  1.73it/s]Training 2/3 epoch (loss 0.5235):  49%|████▉     | 8350/16950 [1:32:21<1:15:15,  1.90it/s]Training 2/3 epoch (loss 0.1905):  49%|████▉     | 8350/16950 [1:32:21<1:15:15,  1.90it/s]Training 2/3 epoch (loss 0.1905):  49%|████▉     | 8351/16950 [1:32:21<1:17:40,  1.85it/s]Training 2/3 epoch (loss 0.6234):  49%|████▉     | 8351/16950 [1:32:22<1:17:40,  1.85it/s]Training 2/3 epoch (loss 0.6234):  49%|████▉     | 8352/16950 [1:32:22<1:14:21,  1.93it/s]Training 2/3 epoch (loss 0.0234):  49%|████▉     | 8352/16950 [1:32:22<1:14:21,  1.93it/s]Training 2/3 epoch (loss 0.0234):  49%|████▉     | 8353/16950 [1:32:22<1:12:30,  1.98it/s]Training 2/3 epoch (loss 0.0599):  49%|████▉     | 8353/16950 [1:32:23<1:12:30,  1.98it/s]Training 2/3 epoch (loss 0.0599):  49%|████▉     | 8354/16950 [1:32:23<1:13:26,  1.95it/s]Training 2/3 epoch (loss 0.0002):  49%|████▉     | 8354/16950 [1:32:23<1:13:26,  1.95it/s]Training 2/3 epoch (loss 0.0002):  49%|████▉     | 8355/16950 [1:32:23<1:11:41,  2.00it/s]Training 2/3 epoch (loss 0.1640):  49%|████▉     | 8355/16950 [1:32:24<1:11:41,  2.00it/s]Training 2/3 epoch (loss 0.1640):  49%|████▉     | 8356/16950 [1:32:24<1:17:04,  1.86it/s]Training 2/3 epoch (loss 0.3113):  49%|████▉     | 8356/16950 [1:32:25<1:17:04,  1.86it/s]Training 2/3 epoch (loss 0.3113):  49%|████▉     | 8357/16950 [1:32:25<1:20:34,  1.78it/s]Training 2/3 epoch (loss 0.0018):  49%|████▉     | 8357/16950 [1:32:25<1:20:34,  1.78it/s]Training 2/3 epoch (loss 0.0018):  49%|████▉     | 8358/16950 [1:32:25<1:20:20,  1.78it/s]Training 2/3 epoch (loss 0.0077):  49%|████▉     | 8358/16950 [1:32:26<1:20:20,  1.78it/s]Training 2/3 epoch (loss 0.0077):  49%|████▉     | 8359/16950 [1:32:26<1:22:24,  1.74it/s]Training 2/3 epoch (loss 0.0039):  49%|████▉     | 8359/16950 [1:32:27<1:22:24,  1.74it/s]Training 2/3 epoch (loss 0.0039):  49%|████▉     | 8360/16950 [1:32:27<1:35:00,  1.51it/s]Training 2/3 epoch (loss 0.0035):  49%|████▉     | 8360/16950 [1:32:27<1:35:00,  1.51it/s]Training 2/3 epoch (loss 0.0035):  49%|████▉     | 8361/16950 [1:32:27<1:29:06,  1.61it/s]Training 2/3 epoch (loss 0.0006):  49%|████▉     | 8361/16950 [1:32:28<1:29:06,  1.61it/s]Training 2/3 epoch (loss 0.0006):  49%|████▉     | 8362/16950 [1:32:28<1:22:41,  1.73it/s]Training 2/3 epoch (loss 0.2464):  49%|████▉     | 8362/16950 [1:32:28<1:22:41,  1.73it/s]Training 2/3 epoch (loss 0.2464):  49%|████▉     | 8363/16950 [1:32:28<1:27:45,  1.63it/s]Training 2/3 epoch (loss 0.1648):  49%|████▉     | 8363/16950 [1:32:29<1:27:45,  1.63it/s]Training 2/3 epoch (loss 0.1648):  49%|████▉     | 8364/16950 [1:32:29<1:30:10,  1.59it/s]Training 2/3 epoch (loss 0.0294):  49%|████▉     | 8364/16950 [1:32:29<1:30:10,  1.59it/s]Training 2/3 epoch (loss 0.0294):  49%|████▉     | 8365/16950 [1:32:29<1:26:49,  1.65it/s]Training 2/3 epoch (loss 0.0849):  49%|████▉     | 8365/16950 [1:32:30<1:26:49,  1.65it/s]Training 2/3 epoch (loss 0.0849):  49%|████▉     | 8366/16950 [1:32:30<1:20:35,  1.78it/s]Training 2/3 epoch (loss 0.1905):  49%|████▉     | 8366/16950 [1:32:30<1:20:35,  1.78it/s]Training 2/3 epoch (loss 0.1905):  49%|████▉     | 8367/16950 [1:32:30<1:12:27,  1.97it/s]Training 2/3 epoch (loss 0.0003):  49%|████▉     | 8367/16950 [1:32:31<1:12:27,  1.97it/s]Training 2/3 epoch (loss 0.0003):  49%|████▉     | 8368/16950 [1:32:31<1:09:48,  2.05it/s]Training 2/3 epoch (loss 0.0729):  49%|████▉     | 8368/16950 [1:32:31<1:09:48,  2.05it/s]Training 2/3 epoch (loss 0.0729):  49%|████▉     | 8369/16950 [1:32:31<1:06:56,  2.14it/s]Training 2/3 epoch (loss 0.0379):  49%|████▉     | 8369/16950 [1:32:32<1:06:56,  2.14it/s]Training 2/3 epoch (loss 0.0379):  49%|████▉     | 8370/16950 [1:32:32<1:13:55,  1.93it/s]Training 2/3 epoch (loss 0.0003):  49%|████▉     | 8370/16950 [1:32:32<1:13:55,  1.93it/s]Training 2/3 epoch (loss 0.0003):  49%|████▉     | 8371/16950 [1:32:32<1:15:44,  1.89it/s]Training 2/3 epoch (loss 0.6756):  49%|████▉     | 8371/16950 [1:32:33<1:15:44,  1.89it/s]Training 2/3 epoch (loss 0.6756):  49%|████▉     | 8372/16950 [1:32:33<1:35:21,  1.50it/s]Training 2/3 epoch (loss 0.0143):  49%|████▉     | 8372/16950 [1:32:34<1:35:21,  1.50it/s]Training 2/3 epoch (loss 0.0143):  49%|████▉     | 8373/16950 [1:32:34<1:35:07,  1.50it/s]Training 2/3 epoch (loss 0.1215):  49%|████▉     | 8373/16950 [1:32:35<1:35:07,  1.50it/s]Training 2/3 epoch (loss 0.1215):  49%|████▉     | 8374/16950 [1:32:35<1:29:36,  1.60it/s]Training 2/3 epoch (loss 0.0007):  49%|████▉     | 8374/16950 [1:32:35<1:29:36,  1.60it/s]Training 2/3 epoch (loss 0.0007):  49%|████▉     | 8375/16950 [1:32:35<1:25:52,  1.66it/s]Training 2/3 epoch (loss 0.2447):  49%|████▉     | 8375/16950 [1:32:36<1:25:52,  1.66it/s]Training 2/3 epoch (loss 0.2447):  49%|████▉     | 8376/16950 [1:32:36<1:50:16,  1.30it/s]Training 2/3 epoch (loss 0.0188):  49%|████▉     | 8376/16950 [1:32:37<1:50:16,  1.30it/s]Training 2/3 epoch (loss 0.0188):  49%|████▉     | 8377/16950 [1:32:37<1:42:55,  1.39it/s]Training 2/3 epoch (loss 0.0067):  49%|████▉     | 8377/16950 [1:32:37<1:42:55,  1.39it/s]Training 2/3 epoch (loss 0.0067):  49%|████▉     | 8378/16950 [1:32:37<1:36:06,  1.49it/s]Training 2/3 epoch (loss 0.0649):  49%|████▉     | 8378/16950 [1:32:38<1:36:06,  1.49it/s]Training 2/3 epoch (loss 0.0649):  49%|████▉     | 8379/16950 [1:32:38<1:31:44,  1.56it/s]Training 2/3 epoch (loss 0.0575):  49%|████▉     | 8379/16950 [1:32:39<1:31:44,  1.56it/s]Training 2/3 epoch (loss 0.0575):  49%|████▉     | 8380/16950 [1:32:39<1:28:07,  1.62it/s]Training 2/3 epoch (loss 0.3521):  49%|████▉     | 8380/16950 [1:32:39<1:28:07,  1.62it/s]Training 2/3 epoch (loss 0.3521):  49%|████▉     | 8381/16950 [1:32:39<1:20:39,  1.77it/s]Training 2/3 epoch (loss 0.2892):  49%|████▉     | 8381/16950 [1:32:39<1:20:39,  1.77it/s]Training 2/3 epoch (loss 0.2892):  49%|████▉     | 8382/16950 [1:32:39<1:11:17,  2.00it/s]Training 2/3 epoch (loss 0.2637):  49%|████▉     | 8382/16950 [1:32:40<1:11:17,  2.00it/s]Training 2/3 epoch (loss 0.2637):  49%|████▉     | 8383/16950 [1:32:40<1:18:01,  1.83it/s]Training 2/3 epoch (loss 0.0275):  49%|████▉     | 8383/16950 [1:32:41<1:18:01,  1.83it/s]Training 2/3 epoch (loss 0.0275):  49%|████▉     | 8384/16950 [1:32:41<1:25:58,  1.66it/s]Training 2/3 epoch (loss 0.0256):  49%|████▉     | 8384/16950 [1:32:41<1:25:58,  1.66it/s]Training 2/3 epoch (loss 0.0256):  49%|████▉     | 8385/16950 [1:32:41<1:29:35,  1.59it/s]Training 2/3 epoch (loss 0.0122):  49%|████▉     | 8385/16950 [1:32:42<1:29:35,  1.59it/s]Training 2/3 epoch (loss 0.0122):  49%|████▉     | 8386/16950 [1:32:42<1:32:53,  1.54it/s]Training 2/3 epoch (loss 0.0807):  49%|████▉     | 8386/16950 [1:32:43<1:32:53,  1.54it/s]Training 2/3 epoch (loss 0.0807):  49%|████▉     | 8387/16950 [1:32:43<1:35:30,  1.49it/s]Training 2/3 epoch (loss 0.0021):  49%|████▉     | 8387/16950 [1:32:44<1:35:30,  1.49it/s]Training 2/3 epoch (loss 0.0021):  49%|████▉     | 8388/16950 [1:32:44<1:34:31,  1.51it/s]Training 2/3 epoch (loss 0.3952):  49%|████▉     | 8388/16950 [1:32:44<1:34:31,  1.51it/s]Training 2/3 epoch (loss 0.3952):  49%|████▉     | 8389/16950 [1:32:44<1:30:25,  1.58it/s]Training 2/3 epoch (loss 0.0172):  49%|████▉     | 8389/16950 [1:32:45<1:30:25,  1.58it/s]Training 2/3 epoch (loss 0.0172):  49%|████▉     | 8390/16950 [1:32:45<1:23:09,  1.72it/s]Training 2/3 epoch (loss 0.2387):  49%|████▉     | 8390/16950 [1:32:45<1:23:09,  1.72it/s]Training 2/3 epoch (loss 0.2387):  50%|████▉     | 8391/16950 [1:32:45<1:16:32,  1.86it/s]Training 2/3 epoch (loss 0.1833):  50%|████▉     | 8391/16950 [1:32:45<1:16:32,  1.86it/s]Training 2/3 epoch (loss 0.1833):  50%|████▉     | 8392/16950 [1:32:45<1:16:14,  1.87it/s]Training 2/3 epoch (loss 0.0277):  50%|████▉     | 8392/16950 [1:32:46<1:16:14,  1.87it/s]Training 2/3 epoch (loss 0.0277):  50%|████▉     | 8393/16950 [1:32:46<1:30:20,  1.58it/s]Training 2/3 epoch (loss 0.0005):  50%|████▉     | 8393/16950 [1:32:47<1:30:20,  1.58it/s]Training 2/3 epoch (loss 0.0005):  50%|████▉     | 8394/16950 [1:32:47<1:22:13,  1.73it/s]Training 2/3 epoch (loss 0.0018):  50%|████▉     | 8394/16950 [1:32:47<1:22:13,  1.73it/s]Training 2/3 epoch (loss 0.0018):  50%|████▉     | 8395/16950 [1:32:47<1:20:20,  1.77it/s]Training 2/3 epoch (loss 0.0152):  50%|████▉     | 8395/16950 [1:32:48<1:20:20,  1.77it/s]Training 2/3 epoch (loss 0.0152):  50%|████▉     | 8396/16950 [1:32:48<1:37:40,  1.46it/s]Training 2/3 epoch (loss 0.0428):  50%|████▉     | 8396/16950 [1:32:49<1:37:40,  1.46it/s]Training 2/3 epoch (loss 0.0428):  50%|████▉     | 8397/16950 [1:32:49<1:31:14,  1.56it/s]Training 2/3 epoch (loss 0.5105):  50%|████▉     | 8397/16950 [1:32:49<1:31:14,  1.56it/s]Training 2/3 epoch (loss 0.5105):  50%|████▉     | 8398/16950 [1:32:49<1:32:04,  1.55it/s]Training 2/3 epoch (loss 0.0993):  50%|████▉     | 8398/16950 [1:32:50<1:32:04,  1.55it/s]Training 2/3 epoch (loss 0.0993):  50%|████▉     | 8399/16950 [1:32:50<1:41:40,  1.40it/s]Training 2/3 epoch (loss 0.0047):  50%|████▉     | 8399/16950 [1:32:51<1:41:40,  1.40it/s]Training 2/3 epoch (loss 0.0047):  50%|████▉     | 8400/16950 [1:32:51<1:49:10,  1.31it/s]Training 2/3 epoch (loss 0.0016):  50%|████▉     | 8400/16950 [1:32:52<1:49:10,  1.31it/s]Training 2/3 epoch (loss 0.0016):  50%|████▉     | 8401/16950 [1:32:52<1:38:25,  1.45it/s]Training 2/3 epoch (loss 0.5563):  50%|████▉     | 8401/16950 [1:32:52<1:38:25,  1.45it/s]Training 2/3 epoch (loss 0.5563):  50%|████▉     | 8402/16950 [1:32:52<1:26:43,  1.64it/s]Training 2/3 epoch (loss 0.0268):  50%|████▉     | 8402/16950 [1:32:53<1:26:43,  1.64it/s]Training 2/3 epoch (loss 0.0268):  50%|████▉     | 8403/16950 [1:32:53<1:27:39,  1.62it/s]Training 2/3 epoch (loss 0.0245):  50%|████▉     | 8403/16950 [1:32:54<1:27:39,  1.62it/s]Training 2/3 epoch (loss 0.0245):  50%|████▉     | 8404/16950 [1:32:54<1:32:44,  1.54it/s]Training 2/3 epoch (loss 0.0306):  50%|████▉     | 8404/16950 [1:32:54<1:32:44,  1.54it/s]Training 2/3 epoch (loss 0.0306):  50%|████▉     | 8405/16950 [1:32:54<1:34:31,  1.51it/s]Training 2/3 epoch (loss 0.0223):  50%|████▉     | 8405/16950 [1:32:55<1:34:31,  1.51it/s]Training 2/3 epoch (loss 0.0223):  50%|████▉     | 8406/16950 [1:32:55<1:21:15,  1.75it/s]Training 2/3 epoch (loss 0.0508):  50%|████▉     | 8406/16950 [1:32:56<1:21:15,  1.75it/s]Training 2/3 epoch (loss 0.0508):  50%|████▉     | 8407/16950 [1:32:56<1:36:30,  1.48it/s]Training 2/3 epoch (loss 0.1290):  50%|████▉     | 8407/16950 [1:32:56<1:36:30,  1.48it/s]Training 2/3 epoch (loss 0.1290):  50%|████▉     | 8408/16950 [1:32:56<1:31:50,  1.55it/s]Training 2/3 epoch (loss 0.0064):  50%|████▉     | 8408/16950 [1:32:57<1:31:50,  1.55it/s]Training 2/3 epoch (loss 0.0064):  50%|████▉     | 8409/16950 [1:32:57<1:26:00,  1.66it/s]Training 2/3 epoch (loss 0.0424):  50%|████▉     | 8409/16950 [1:32:57<1:26:00,  1.66it/s]Training 2/3 epoch (loss 0.0424):  50%|████▉     | 8410/16950 [1:32:57<1:17:55,  1.83it/s]Training 2/3 epoch (loss 0.7476):  50%|████▉     | 8410/16950 [1:32:58<1:17:55,  1.83it/s]Training 2/3 epoch (loss 0.7476):  50%|████▉     | 8411/16950 [1:32:58<1:24:24,  1.69it/s]Training 2/3 epoch (loss 0.0861):  50%|████▉     | 8411/16950 [1:32:59<1:24:24,  1.69it/s]Training 2/3 epoch (loss 0.0861):  50%|████▉     | 8412/16950 [1:32:59<1:36:53,  1.47it/s]Training 2/3 epoch (loss 0.4141):  50%|████▉     | 8412/16950 [1:33:00<1:36:53,  1.47it/s]Training 2/3 epoch (loss 0.4141):  50%|████▉     | 8413/16950 [1:33:00<1:48:08,  1.32it/s]Training 2/3 epoch (loss 0.4727):  50%|████▉     | 8413/16950 [1:33:00<1:48:08,  1.32it/s]Training 2/3 epoch (loss 0.4727):  50%|████▉     | 8414/16950 [1:33:00<1:44:22,  1.36it/s]Training 2/3 epoch (loss 0.2738):  50%|████▉     | 8414/16950 [1:33:01<1:44:22,  1.36it/s]Training 2/3 epoch (loss 0.2738):  50%|████▉     | 8415/16950 [1:33:01<1:38:41,  1.44it/s]Training 2/3 epoch (loss 0.3212):  50%|████▉     | 8415/16950 [1:33:01<1:38:41,  1.44it/s]Training 2/3 epoch (loss 0.3212):  50%|████▉     | 8416/16950 [1:33:01<1:28:11,  1.61it/s]Training 2/3 epoch (loss 0.1595):  50%|████▉     | 8416/16950 [1:33:02<1:28:11,  1.61it/s]Training 2/3 epoch (loss 0.1595):  50%|████▉     | 8417/16950 [1:33:02<1:25:14,  1.67it/s]Training 2/3 epoch (loss 0.8340):  50%|████▉     | 8417/16950 [1:33:03<1:25:14,  1.67it/s]Training 2/3 epoch (loss 0.8340):  50%|████▉     | 8418/16950 [1:33:03<1:48:17,  1.31it/s]Training 2/3 epoch (loss 0.6497):  50%|████▉     | 8418/16950 [1:33:03<1:48:17,  1.31it/s]Training 2/3 epoch (loss 0.6497):  50%|████▉     | 8419/16950 [1:33:03<1:34:56,  1.50it/s]Training 2/3 epoch (loss 0.0085):  50%|████▉     | 8419/16950 [1:33:04<1:34:56,  1.50it/s]Training 2/3 epoch (loss 0.0085):  50%|████▉     | 8420/16950 [1:33:04<1:30:11,  1.58it/s]Training 2/3 epoch (loss 0.1909):  50%|████▉     | 8420/16950 [1:33:05<1:30:11,  1.58it/s]Training 2/3 epoch (loss 0.1909):  50%|████▉     | 8421/16950 [1:33:05<1:27:12,  1.63it/s]Training 2/3 epoch (loss 0.0031):  50%|████▉     | 8421/16950 [1:33:05<1:27:12,  1.63it/s]Training 2/3 epoch (loss 0.0031):  50%|████▉     | 8422/16950 [1:33:05<1:20:34,  1.76it/s]Training 2/3 epoch (loss 0.0001):  50%|████▉     | 8422/16950 [1:33:05<1:20:34,  1.76it/s]Training 2/3 epoch (loss 0.0001):  50%|████▉     | 8423/16950 [1:33:05<1:14:09,  1.92it/s]Training 2/3 epoch (loss 0.0092):  50%|████▉     | 8423/16950 [1:33:06<1:14:09,  1.92it/s]Training 2/3 epoch (loss 0.0092):  50%|████▉     | 8424/16950 [1:33:06<1:14:40,  1.90it/s]Training 2/3 epoch (loss 0.0327):  50%|████▉     | 8424/16950 [1:33:07<1:14:40,  1.90it/s]Training 2/3 epoch (loss 0.0327):  50%|████▉     | 8425/16950 [1:33:07<1:22:28,  1.72it/s]Training 2/3 epoch (loss 0.8386):  50%|████▉     | 8425/16950 [1:33:07<1:22:28,  1.72it/s]Training 2/3 epoch (loss 0.8386):  50%|████▉     | 8426/16950 [1:33:07<1:15:16,  1.89it/s]Training 2/3 epoch (loss 0.0005):  50%|████▉     | 8426/16950 [1:33:08<1:15:16,  1.89it/s]Training 2/3 epoch (loss 0.0005):  50%|████▉     | 8427/16950 [1:33:08<1:19:18,  1.79it/s]Training 2/3 epoch (loss 0.0379):  50%|████▉     | 8427/16950 [1:33:08<1:19:18,  1.79it/s]Training 2/3 epoch (loss 0.0379):  50%|████▉     | 8428/16950 [1:33:08<1:15:11,  1.89it/s]Training 2/3 epoch (loss 0.0006):  50%|████▉     | 8428/16950 [1:33:09<1:15:11,  1.89it/s]Training 2/3 epoch (loss 0.0006):  50%|████▉     | 8429/16950 [1:33:09<1:27:59,  1.61it/s]Training 2/3 epoch (loss 0.3424):  50%|████▉     | 8429/16950 [1:33:09<1:27:59,  1.61it/s]Training 2/3 epoch (loss 0.3424):  50%|████▉     | 8430/16950 [1:33:09<1:22:19,  1.72it/s]Training 2/3 epoch (loss nan):  50%|████▉     | 8430/16950 [1:33:11<1:22:19,  1.72it/s]   Training 2/3 epoch (loss nan):  50%|████▉     | 8431/16950 [1:33:11<1:45:37,  1.34it/s]Training 2/3 epoch (loss 0.0054):  50%|████▉     | 8431/16950 [1:33:11<1:45:37,  1.34it/s]Training 2/3 epoch (loss 0.0054):  50%|████▉     | 8432/16950 [1:33:11<1:37:17,  1.46it/s]Training 2/3 epoch (loss 0.6674):  50%|████▉     | 8432/16950 [1:33:12<1:37:17,  1.46it/s]Training 2/3 epoch (loss 0.6674):  50%|████▉     | 8433/16950 [1:33:12<1:47:23,  1.32it/s]Training 2/3 epoch (loss 0.0221):  50%|████▉     | 8433/16950 [1:33:13<1:47:23,  1.32it/s]Training 2/3 epoch (loss 0.0221):  50%|████▉     | 8434/16950 [1:33:13<1:56:37,  1.22it/s]Training 2/3 epoch (loss 0.2567):  50%|████▉     | 8434/16950 [1:33:14<1:56:37,  1.22it/s]Training 2/3 epoch (loss 0.2567):  50%|████▉     | 8435/16950 [1:33:14<1:53:42,  1.25it/s]Training 2/3 epoch (loss 0.0188):  50%|████▉     | 8435/16950 [1:33:14<1:53:42,  1.25it/s]Training 2/3 epoch (loss 0.0188):  50%|████▉     | 8436/16950 [1:33:14<1:48:59,  1.30it/s]Training 2/3 epoch (loss 0.3581):  50%|████▉     | 8436/16950 [1:33:15<1:48:59,  1.30it/s]Training 2/3 epoch (loss 0.3581):  50%|████▉     | 8437/16950 [1:33:15<1:41:20,  1.40it/s]Training 2/3 epoch (loss 0.4855):  50%|████▉     | 8437/16950 [1:33:16<1:41:20,  1.40it/s]Training 2/3 epoch (loss 0.4855):  50%|████▉     | 8438/16950 [1:33:16<1:53:12,  1.25it/s]Training 2/3 epoch (loss 0.3595):  50%|████▉     | 8438/16950 [1:33:17<1:53:12,  1.25it/s]Training 2/3 epoch (loss 0.3595):  50%|████▉     | 8439/16950 [1:33:17<1:46:57,  1.33it/s]Training 2/3 epoch (loss 0.3941):  50%|████▉     | 8439/16950 [1:33:18<1:46:57,  1.33it/s]Training 2/3 epoch (loss 0.3941):  50%|████▉     | 8440/16950 [1:33:18<1:51:07,  1.28it/s]Training 2/3 epoch (loss 0.0177):  50%|████▉     | 8440/16950 [1:33:18<1:51:07,  1.28it/s]Training 2/3 epoch (loss 0.0177):  50%|████▉     | 8441/16950 [1:33:18<1:40:11,  1.42it/s]Training 2/3 epoch (loss 0.4324):  50%|████▉     | 8441/16950 [1:33:19<1:40:11,  1.42it/s]Training 2/3 epoch (loss 0.4324):  50%|████▉     | 8442/16950 [1:33:19<1:59:10,  1.19it/s]Training 2/3 epoch (loss 0.0857):  50%|████▉     | 8442/16950 [1:33:20<1:59:10,  1.19it/s]Training 2/3 epoch (loss 0.0857):  50%|████▉     | 8443/16950 [1:33:20<1:46:30,  1.33it/s]Training 2/3 epoch (loss 0.0476):  50%|████▉     | 8443/16950 [1:33:20<1:46:30,  1.33it/s]Training 2/3 epoch (loss 0.0476):  50%|████▉     | 8444/16950 [1:33:20<1:32:25,  1.53it/s]Training 2/3 epoch (loss 0.4695):  50%|████▉     | 8444/16950 [1:33:21<1:32:25,  1.53it/s]Training 2/3 epoch (loss 0.4695):  50%|████▉     | 8445/16950 [1:33:21<1:24:43,  1.67it/s]Training 2/3 epoch (loss 0.0004):  50%|████▉     | 8445/16950 [1:33:21<1:24:43,  1.67it/s]Training 2/3 epoch (loss 0.0004):  50%|████▉     | 8446/16950 [1:33:21<1:17:45,  1.82it/s]Training 2/3 epoch (loss 0.4825):  50%|████▉     | 8446/16950 [1:33:22<1:17:45,  1.82it/s]Training 2/3 epoch (loss 0.4825):  50%|████▉     | 8447/16950 [1:33:22<1:15:15,  1.88it/s]Training 2/3 epoch (loss 0.1172):  50%|████▉     | 8447/16950 [1:33:22<1:15:15,  1.88it/s]Training 2/3 epoch (loss 0.1172):  50%|████▉     | 8448/16950 [1:33:22<1:18:43,  1.80it/s]Training 2/3 epoch (loss 0.0341):  50%|████▉     | 8448/16950 [1:33:23<1:18:43,  1.80it/s]Training 2/3 epoch (loss 0.0341):  50%|████▉     | 8449/16950 [1:33:23<1:20:28,  1.76it/s]Training 2/3 epoch (loss 0.0358):  50%|████▉     | 8449/16950 [1:33:23<1:20:28,  1.76it/s]Training 2/3 epoch (loss 0.0358):  50%|████▉     | 8450/16950 [1:33:23<1:24:58,  1.67it/s]Training 2/3 epoch (loss 0.3266):  50%|████▉     | 8450/16950 [1:33:24<1:24:58,  1.67it/s]Training 2/3 epoch (loss 0.3266):  50%|████▉     | 8451/16950 [1:33:24<1:29:50,  1.58it/s]Training 2/3 epoch (loss 0.0028):  50%|████▉     | 8451/16950 [1:33:25<1:29:50,  1.58it/s]Training 2/3 epoch (loss 0.0028):  50%|████▉     | 8452/16950 [1:33:25<1:26:25,  1.64it/s]Training 2/3 epoch (loss 0.1741):  50%|████▉     | 8452/16950 [1:33:25<1:26:25,  1.64it/s]Training 2/3 epoch (loss 0.1741):  50%|████▉     | 8453/16950 [1:33:25<1:17:01,  1.84it/s]Training 2/3 epoch (loss 0.0194):  50%|████▉     | 8453/16950 [1:33:26<1:17:01,  1.84it/s]Training 2/3 epoch (loss 0.0194):  50%|████▉     | 8454/16950 [1:33:26<1:12:43,  1.95it/s]Training 2/3 epoch (loss 0.0373):  50%|████▉     | 8454/16950 [1:33:26<1:12:43,  1.95it/s]Training 2/3 epoch (loss 0.0373):  50%|████▉     | 8455/16950 [1:33:26<1:13:47,  1.92it/s]Training 2/3 epoch (loss 0.4572):  50%|████▉     | 8455/16950 [1:33:27<1:13:47,  1.92it/s]Training 2/3 epoch (loss 0.4572):  50%|████▉     | 8456/16950 [1:33:27<1:12:44,  1.95it/s]Training 2/3 epoch (loss 0.0153):  50%|████▉     | 8456/16950 [1:33:27<1:12:44,  1.95it/s]Training 2/3 epoch (loss 0.0153):  50%|████▉     | 8457/16950 [1:33:27<1:13:32,  1.92it/s]Training 2/3 epoch (loss 0.2929):  50%|████▉     | 8457/16950 [1:33:28<1:13:32,  1.92it/s]Training 2/3 epoch (loss 0.2929):  50%|████▉     | 8458/16950 [1:33:28<1:25:09,  1.66it/s]Training 2/3 epoch (loss 0.2646):  50%|████▉     | 8458/16950 [1:33:29<1:25:09,  1.66it/s]Training 2/3 epoch (loss 0.2646):  50%|████▉     | 8459/16950 [1:33:29<1:29:30,  1.58it/s]Training 2/3 epoch (loss 0.0156):  50%|████▉     | 8459/16950 [1:33:29<1:29:30,  1.58it/s]Training 2/3 epoch (loss 0.0156):  50%|████▉     | 8460/16950 [1:33:29<1:28:58,  1.59it/s]Training 2/3 epoch (loss 0.5378):  50%|████▉     | 8460/16950 [1:33:30<1:28:58,  1.59it/s]Training 2/3 epoch (loss 0.5378):  50%|████▉     | 8461/16950 [1:33:30<1:45:50,  1.34it/s]Training 2/3 epoch (loss 0.0907):  50%|████▉     | 8461/16950 [1:33:31<1:45:50,  1.34it/s]Training 2/3 epoch (loss 0.0907):  50%|████▉     | 8462/16950 [1:33:31<1:49:22,  1.29it/s]Training 2/3 epoch (loss 0.1600):  50%|████▉     | 8462/16950 [1:33:32<1:49:22,  1.29it/s]Training 2/3 epoch (loss 0.1600):  50%|████▉     | 8463/16950 [1:33:32<1:37:52,  1.45it/s]Training 2/3 epoch (loss 0.0718):  50%|████▉     | 8463/16950 [1:33:33<1:37:52,  1.45it/s]Training 2/3 epoch (loss 0.0718):  50%|████▉     | 8464/16950 [1:33:33<1:45:59,  1.33it/s]Training 2/3 epoch (loss 0.0085):  50%|████▉     | 8464/16950 [1:33:33<1:45:59,  1.33it/s]Training 2/3 epoch (loss 0.0085):  50%|████▉     | 8465/16950 [1:33:33<1:44:48,  1.35it/s]Training 2/3 epoch (loss 0.0006):  50%|████▉     | 8465/16950 [1:33:34<1:44:48,  1.35it/s]Training 2/3 epoch (loss 0.0006):  50%|████▉     | 8466/16950 [1:33:34<1:52:19,  1.26it/s]Training 2/3 epoch (loss 0.5458):  50%|████▉     | 8466/16950 [1:33:35<1:52:19,  1.26it/s]Training 2/3 epoch (loss 0.5458):  50%|████▉     | 8467/16950 [1:33:35<1:40:50,  1.40it/s]Training 2/3 epoch (loss 0.1250):  50%|████▉     | 8467/16950 [1:33:35<1:40:50,  1.40it/s]Training 2/3 epoch (loss 0.1250):  50%|████▉     | 8468/16950 [1:33:35<1:32:45,  1.52it/s]Training 2/3 epoch (loss 0.5606):  50%|████▉     | 8468/16950 [1:33:36<1:32:45,  1.52it/s]Training 2/3 epoch (loss 0.5606):  50%|████▉     | 8469/16950 [1:33:36<1:21:43,  1.73it/s]Training 2/3 epoch (loss 0.0003):  50%|████▉     | 8469/16950 [1:33:36<1:21:43,  1.73it/s]Training 2/3 epoch (loss 0.0003):  50%|████▉     | 8470/16950 [1:33:36<1:19:24,  1.78it/s]Training 2/3 epoch (loss 0.0046):  50%|████▉     | 8470/16950 [1:33:37<1:19:24,  1.78it/s]Training 2/3 epoch (loss 0.0046):  50%|████▉     | 8471/16950 [1:33:37<1:24:28,  1.67it/s]Training 2/3 epoch (loss 0.4722):  50%|████▉     | 8471/16950 [1:33:37<1:24:28,  1.67it/s]Training 2/3 epoch (loss 0.4722):  50%|████▉     | 8472/16950 [1:33:37<1:17:44,  1.82it/s]Training 2/3 epoch (loss 0.4235):  50%|████▉     | 8472/16950 [1:33:38<1:17:44,  1.82it/s]Training 2/3 epoch (loss 0.4235):  50%|████▉     | 8473/16950 [1:33:38<1:13:06,  1.93it/s]Training 2/3 epoch (loss 0.4610):  50%|████▉     | 8473/16950 [1:33:38<1:13:06,  1.93it/s]Training 2/3 epoch (loss 0.4610):  50%|████▉     | 8474/16950 [1:33:38<1:14:23,  1.90it/s]Training 2/3 epoch (loss 0.0003):  50%|████▉     | 8474/16950 [1:33:39<1:14:23,  1.90it/s]Training 2/3 epoch (loss 0.0003):  50%|█████     | 8475/16950 [1:33:39<1:11:07,  1.99it/s]Training 2/3 epoch (loss 0.0012):  50%|█████     | 8475/16950 [1:33:39<1:11:07,  1.99it/s]Training 2/3 epoch (loss 0.0012):  50%|█████     | 8476/16950 [1:33:39<1:04:36,  2.19it/s]Training 2/3 epoch (loss 0.0312):  50%|█████     | 8476/16950 [1:33:40<1:04:36,  2.19it/s]Training 2/3 epoch (loss 0.0312):  50%|█████     | 8477/16950 [1:33:40<1:06:37,  2.12it/s]Training 2/3 epoch (loss 0.0225):  50%|█████     | 8477/16950 [1:33:40<1:06:37,  2.12it/s]Training 2/3 epoch (loss 0.0225):  50%|█████     | 8478/16950 [1:33:40<1:10:17,  2.01it/s]Training 2/3 epoch (loss 0.2681):  50%|█████     | 8478/16950 [1:33:41<1:10:17,  2.01it/s]Training 2/3 epoch (loss 0.2681):  50%|█████     | 8479/16950 [1:33:41<1:06:32,  2.12it/s]Training 2/3 epoch (loss 0.6002):  50%|█████     | 8479/16950 [1:33:41<1:06:32,  2.12it/s]Training 2/3 epoch (loss 0.6002):  50%|█████     | 8480/16950 [1:33:41<1:28:01,  1.60it/s]Training 2/3 epoch (loss 0.0514):  50%|█████     | 8480/16950 [1:33:42<1:28:01,  1.60it/s]Training 2/3 epoch (loss 0.0514):  50%|█████     | 8481/16950 [1:33:42<1:37:15,  1.45it/s]Training 2/3 epoch (loss 0.3655):  50%|█████     | 8481/16950 [1:33:43<1:37:15,  1.45it/s]Training 2/3 epoch (loss 0.3655):  50%|█████     | 8482/16950 [1:33:43<1:30:46,  1.55it/s]Training 2/3 epoch (loss 0.3492):  50%|█████     | 8482/16950 [1:33:44<1:30:46,  1.55it/s]Training 2/3 epoch (loss 0.3492):  50%|█████     | 8483/16950 [1:33:44<1:41:23,  1.39it/s]Training 2/3 epoch (loss 0.0746):  50%|█████     | 8483/16950 [1:33:44<1:41:23,  1.39it/s]Training 2/3 epoch (loss 0.0746):  50%|█████     | 8484/16950 [1:33:44<1:36:17,  1.47it/s]Training 2/3 epoch (loss 0.6455):  50%|█████     | 8484/16950 [1:33:46<1:36:17,  1.47it/s]Training 2/3 epoch (loss 0.6455):  50%|█████     | 8485/16950 [1:33:46<1:56:09,  1.21it/s]Training 2/3 epoch (loss 0.1512):  50%|█████     | 8485/16950 [1:33:46<1:56:09,  1.21it/s]Training 2/3 epoch (loss 0.1512):  50%|█████     | 8486/16950 [1:33:46<1:47:21,  1.31it/s]Training 2/3 epoch (loss 0.0167):  50%|█████     | 8486/16950 [1:33:47<1:47:21,  1.31it/s]Training 2/3 epoch (loss 0.0167):  50%|█████     | 8487/16950 [1:33:47<1:42:16,  1.38it/s]Training 2/3 epoch (loss 0.0014):  50%|█████     | 8487/16950 [1:33:47<1:42:16,  1.38it/s]Training 2/3 epoch (loss 0.0014):  50%|█████     | 8488/16950 [1:33:47<1:30:04,  1.57it/s]Training 2/3 epoch (loss 0.0277):  50%|█████     | 8488/16950 [1:33:48<1:30:04,  1.57it/s]Training 2/3 epoch (loss 0.0277):  50%|█████     | 8489/16950 [1:33:48<1:22:31,  1.71it/s]Training 2/3 epoch (loss 0.0380):  50%|█████     | 8489/16950 [1:33:48<1:22:31,  1.71it/s]Training 2/3 epoch (loss 0.0380):  50%|█████     | 8490/16950 [1:33:48<1:21:30,  1.73it/s]Training 2/3 epoch (loss 0.4421):  50%|█████     | 8490/16950 [1:33:49<1:21:30,  1.73it/s]Training 2/3 epoch (loss 0.4421):  50%|█████     | 8491/16950 [1:33:49<1:41:15,  1.39it/s]Training 2/3 epoch (loss 0.0928):  50%|█████     | 8491/16950 [1:33:50<1:41:15,  1.39it/s]Training 2/3 epoch (loss 0.0928):  50%|█████     | 8492/16950 [1:33:50<1:38:07,  1.44it/s]Training 2/3 epoch (loss 0.0021):  50%|█████     | 8492/16950 [1:33:50<1:38:07,  1.44it/s]Training 2/3 epoch (loss 0.0021):  50%|█████     | 8493/16950 [1:33:50<1:28:07,  1.60it/s]Training 2/3 epoch (loss 0.7641):  50%|█████     | 8493/16950 [1:33:52<1:28:07,  1.60it/s]Training 2/3 epoch (loss 0.7641):  50%|█████     | 8494/16950 [1:33:52<1:49:22,  1.29it/s]Training 2/3 epoch (loss 0.0488):  50%|█████     | 8494/16950 [1:33:52<1:49:22,  1.29it/s]Training 2/3 epoch (loss 0.0488):  50%|█████     | 8495/16950 [1:33:52<1:38:09,  1.44it/s]Training 2/3 epoch (loss 0.0020):  50%|█████     | 8495/16950 [1:33:53<1:38:09,  1.44it/s]Training 2/3 epoch (loss 0.0020):  50%|█████     | 8496/16950 [1:33:53<1:33:54,  1.50it/s]Training 2/3 epoch (loss 0.0926):  50%|█████     | 8496/16950 [1:33:53<1:33:54,  1.50it/s]Training 2/3 epoch (loss 0.0926):  50%|█████     | 8497/16950 [1:33:53<1:31:02,  1.55it/s]Training 2/3 epoch (loss 0.0006):  50%|█████     | 8497/16950 [1:33:54<1:31:02,  1.55it/s]Training 2/3 epoch (loss 0.0006):  50%|█████     | 8498/16950 [1:33:54<1:38:30,  1.43it/s]Training 2/3 epoch (loss 0.0097):  50%|█████     | 8498/16950 [1:33:55<1:38:30,  1.43it/s]Training 2/3 epoch (loss 0.0097):  50%|█████     | 8499/16950 [1:33:55<1:39:06,  1.42it/s]Training 2/3 epoch (loss 0.6117):  50%|█████     | 8499/16950 [1:33:55<1:39:06,  1.42it/s]Training 2/3 epoch (loss 0.6117):  50%|█████     | 8500/16950 [1:33:55<1:32:03,  1.53it/s]Training 2/3 epoch (loss 0.0574):  50%|█████     | 8500/16950 [1:33:56<1:32:03,  1.53it/s]Training 2/3 epoch (loss 0.0574):  50%|█████     | 8501/16950 [1:33:56<1:29:07,  1.58it/s]Training 2/3 epoch (loss 0.0081):  50%|█████     | 8501/16950 [1:33:56<1:29:07,  1.58it/s]Training 2/3 epoch (loss 0.0081):  50%|█████     | 8502/16950 [1:33:56<1:27:41,  1.61it/s]Training 2/3 epoch (loss 0.1763):  50%|█████     | 8502/16950 [1:33:57<1:27:41,  1.61it/s]Training 2/3 epoch (loss 0.1763):  50%|█████     | 8503/16950 [1:33:57<1:43:09,  1.36it/s]Training 2/3 epoch (loss 0.0017):  50%|█████     | 8503/16950 [1:33:58<1:43:09,  1.36it/s]Training 2/3 epoch (loss 0.0017):  50%|█████     | 8504/16950 [1:33:58<1:39:04,  1.42it/s]Training 2/3 epoch (loss 0.0113):  50%|█████     | 8504/16950 [1:33:59<1:39:04,  1.42it/s]Training 2/3 epoch (loss 0.0113):  50%|█████     | 8505/16950 [1:33:59<1:27:21,  1.61it/s]Training 2/3 epoch (loss 0.1029):  50%|█████     | 8505/16950 [1:33:59<1:27:21,  1.61it/s]Training 2/3 epoch (loss 0.1029):  50%|█████     | 8506/16950 [1:33:59<1:20:54,  1.74it/s]Training 2/3 epoch (loss 0.4040):  50%|█████     | 8506/16950 [1:33:59<1:20:54,  1.74it/s]Training 2/3 epoch (loss 0.4040):  50%|█████     | 8507/16950 [1:33:59<1:13:04,  1.93it/s]Training 2/3 epoch (loss 0.3987):  50%|█████     | 8507/16950 [1:34:00<1:13:04,  1.93it/s]Training 2/3 epoch (loss 0.3987):  50%|█████     | 8508/16950 [1:34:00<1:14:44,  1.88it/s]Training 2/3 epoch (loss 0.0019):  50%|█████     | 8508/16950 [1:34:00<1:14:44,  1.88it/s]Training 2/3 epoch (loss 0.0019):  50%|█████     | 8509/16950 [1:34:00<1:13:42,  1.91it/s]Training 2/3 epoch (loss 0.3313):  50%|█████     | 8509/16950 [1:34:01<1:13:42,  1.91it/s]Training 2/3 epoch (loss 0.3313):  50%|█████     | 8510/16950 [1:34:01<1:11:21,  1.97it/s]Training 2/3 epoch (loss 0.4131):  50%|█████     | 8510/16950 [1:34:02<1:11:21,  1.97it/s]Training 2/3 epoch (loss 0.4131):  50%|█████     | 8511/16950 [1:34:02<1:26:07,  1.63it/s]Training 2/3 epoch (loss 0.2791):  50%|█████     | 8511/16950 [1:34:02<1:26:07,  1.63it/s]Training 2/3 epoch (loss 0.2791):  50%|█████     | 8512/16950 [1:34:02<1:30:48,  1.55it/s]Training 2/3 epoch (loss 0.6569):  50%|█████     | 8512/16950 [1:34:03<1:30:48,  1.55it/s]Training 2/3 epoch (loss 0.6569):  50%|█████     | 8513/16950 [1:34:03<1:23:00,  1.69it/s]Training 2/3 epoch (loss 0.0101):  50%|█████     | 8513/16950 [1:34:03<1:23:00,  1.69it/s]Training 2/3 epoch (loss 0.0101):  50%|█████     | 8514/16950 [1:34:03<1:18:22,  1.79it/s]Training 2/3 epoch (loss 0.0847):  50%|█████     | 8514/16950 [1:34:04<1:18:22,  1.79it/s]Training 2/3 epoch (loss 0.0847):  50%|█████     | 8515/16950 [1:34:04<1:25:37,  1.64it/s]Training 2/3 epoch (loss 0.3926):  50%|█████     | 8515/16950 [1:34:05<1:25:37,  1.64it/s]Training 2/3 epoch (loss 0.3926):  50%|█████     | 8516/16950 [1:34:05<1:47:50,  1.30it/s]Training 2/3 epoch (loss 0.0930):  50%|█████     | 8516/16950 [1:34:06<1:47:50,  1.30it/s]Training 2/3 epoch (loss 0.0930):  50%|█████     | 8517/16950 [1:34:06<1:36:31,  1.46it/s]Training 2/3 epoch (loss 0.0010):  50%|█████     | 8517/16950 [1:34:06<1:36:31,  1.46it/s]Training 2/3 epoch (loss 0.0010):  50%|█████     | 8518/16950 [1:34:06<1:25:15,  1.65it/s]Training 2/3 epoch (loss 0.0703):  50%|█████     | 8518/16950 [1:34:07<1:25:15,  1.65it/s]Training 2/3 epoch (loss 0.0703):  50%|█████     | 8519/16950 [1:34:07<1:20:42,  1.74it/s]Training 2/3 epoch (loss 0.2575):  50%|█████     | 8519/16950 [1:34:08<1:20:42,  1.74it/s]Training 2/3 epoch (loss 0.2575):  50%|█████     | 8520/16950 [1:34:08<1:32:06,  1.53it/s]Training 2/3 epoch (loss 0.0657):  50%|█████     | 8520/16950 [1:34:08<1:32:06,  1.53it/s]Training 2/3 epoch (loss 0.0657):  50%|█████     | 8521/16950 [1:34:08<1:25:59,  1.63it/s]Training 2/3 epoch (loss 0.0012):  50%|█████     | 8521/16950 [1:34:09<1:25:59,  1.63it/s]Training 2/3 epoch (loss 0.0012):  50%|█████     | 8522/16950 [1:34:09<1:22:25,  1.70it/s]Training 2/3 epoch (loss 0.0087):  50%|█████     | 8522/16950 [1:34:09<1:22:25,  1.70it/s]Training 2/3 epoch (loss 0.0087):  50%|█████     | 8523/16950 [1:34:09<1:23:26,  1.68it/s]Training 2/3 epoch (loss 0.0004):  50%|█████     | 8523/16950 [1:34:10<1:23:26,  1.68it/s]Training 2/3 epoch (loss 0.0004):  50%|█████     | 8524/16950 [1:34:10<1:21:04,  1.73it/s]Training 2/3 epoch (loss 0.3816):  50%|█████     | 8524/16950 [1:34:10<1:21:04,  1.73it/s]Training 2/3 epoch (loss 0.3816):  50%|█████     | 8525/16950 [1:34:10<1:20:29,  1.74it/s]Training 2/3 epoch (loss 0.0194):  50%|█████     | 8525/16950 [1:34:11<1:20:29,  1.74it/s]Training 2/3 epoch (loss 0.0194):  50%|█████     | 8526/16950 [1:34:11<1:23:16,  1.69it/s]Training 2/3 epoch (loss 0.0238):  50%|█████     | 8526/16950 [1:34:12<1:23:16,  1.69it/s]Training 2/3 epoch (loss 0.0238):  50%|█████     | 8527/16950 [1:34:12<1:36:19,  1.46it/s]Training 2/3 epoch (loss 0.0131):  50%|█████     | 8527/16950 [1:34:12<1:36:19,  1.46it/s]Training 2/3 epoch (loss 0.0131):  50%|█████     | 8528/16950 [1:34:12<1:33:37,  1.50it/s]Training 2/3 epoch (loss 0.4994):  50%|█████     | 8528/16950 [1:34:13<1:33:37,  1.50it/s]Training 2/3 epoch (loss 0.4994):  50%|█████     | 8529/16950 [1:34:13<1:19:54,  1.76it/s]Training 2/3 epoch (loss 0.0051):  50%|█████     | 8529/16950 [1:34:13<1:19:54,  1.76it/s]Training 2/3 epoch (loss 0.0051):  50%|█████     | 8530/16950 [1:34:13<1:16:40,  1.83it/s]Training 2/3 epoch (loss 0.3465):  50%|█████     | 8530/16950 [1:34:14<1:16:40,  1.83it/s]Training 2/3 epoch (loss 0.3465):  50%|█████     | 8531/16950 [1:34:14<1:10:43,  1.98it/s]Training 2/3 epoch (loss 0.0017):  50%|█████     | 8531/16950 [1:34:14<1:10:43,  1.98it/s]Training 2/3 epoch (loss 0.0017):  50%|█████     | 8532/16950 [1:34:14<1:08:02,  2.06it/s]Training 2/3 epoch (loss 0.1962):  50%|█████     | 8532/16950 [1:34:15<1:08:02,  2.06it/s]Training 2/3 epoch (loss 0.1962):  50%|█████     | 8533/16950 [1:34:15<1:07:35,  2.08it/s]Training 2/3 epoch (loss 0.0345):  50%|█████     | 8533/16950 [1:34:16<1:07:35,  2.08it/s]Training 2/3 epoch (loss 0.0345):  50%|█████     | 8534/16950 [1:34:16<1:29:51,  1.56it/s]Training 2/3 epoch (loss 0.0296):  50%|█████     | 8534/16950 [1:34:17<1:29:51,  1.56it/s]Training 2/3 epoch (loss 0.0296):  50%|█████     | 8535/16950 [1:34:17<1:43:46,  1.35it/s]Training 2/3 epoch (loss 0.0146):  50%|█████     | 8535/16950 [1:34:17<1:43:46,  1.35it/s]Training 2/3 epoch (loss 0.0146):  50%|█████     | 8536/16950 [1:34:17<1:36:55,  1.45it/s]Training 2/3 epoch (loss 0.0228):  50%|█████     | 8536/16950 [1:34:18<1:36:55,  1.45it/s]Training 2/3 epoch (loss 0.0228):  50%|█████     | 8537/16950 [1:34:18<1:47:21,  1.31it/s]Training 2/3 epoch (loss 0.0096):  50%|█████     | 8537/16950 [1:34:19<1:47:21,  1.31it/s]Training 2/3 epoch (loss 0.0096):  50%|█████     | 8538/16950 [1:34:19<1:40:57,  1.39it/s]Training 2/3 epoch (loss 0.2931):  50%|█████     | 8538/16950 [1:34:19<1:40:57,  1.39it/s]Training 2/3 epoch (loss 0.2931):  50%|█████     | 8539/16950 [1:34:19<1:30:16,  1.55it/s]Training 2/3 epoch (loss 0.1946):  50%|█████     | 8539/16950 [1:34:20<1:30:16,  1.55it/s]Training 2/3 epoch (loss 0.1946):  50%|█████     | 8540/16950 [1:34:20<1:18:57,  1.78it/s]Training 2/3 epoch (loss 0.2382):  50%|█████     | 8540/16950 [1:34:20<1:18:57,  1.78it/s]Training 2/3 epoch (loss 0.2382):  50%|█████     | 8541/16950 [1:34:20<1:13:52,  1.90it/s]Training 2/3 epoch (loss 0.2501):  50%|█████     | 8541/16950 [1:34:21<1:13:52,  1.90it/s]Training 2/3 epoch (loss 0.2501):  50%|█████     | 8542/16950 [1:34:21<1:13:14,  1.91it/s]Training 2/3 epoch (loss 0.0267):  50%|█████     | 8542/16950 [1:34:21<1:13:14,  1.91it/s]Training 2/3 epoch (loss 0.0267):  50%|█████     | 8543/16950 [1:34:21<1:14:24,  1.88it/s]Training 2/3 epoch (loss 0.0496):  50%|█████     | 8543/16950 [1:34:22<1:14:24,  1.88it/s]Training 2/3 epoch (loss 0.0496):  50%|█████     | 8544/16950 [1:34:22<1:09:25,  2.02it/s]Training 2/3 epoch (loss 0.5862):  50%|█████     | 8544/16950 [1:34:22<1:09:25,  2.02it/s]Training 2/3 epoch (loss 0.5862):  50%|█████     | 8545/16950 [1:34:22<1:03:21,  2.21it/s]Training 2/3 epoch (loss 0.2181):  50%|█████     | 8545/16950 [1:34:23<1:03:21,  2.21it/s]Training 2/3 epoch (loss 0.2181):  50%|█████     | 8546/16950 [1:34:23<1:18:16,  1.79it/s]Training 2/3 epoch (loss 0.6486):  50%|█████     | 8546/16950 [1:34:24<1:18:16,  1.79it/s]Training 2/3 epoch (loss 0.6486):  50%|█████     | 8547/16950 [1:34:24<1:44:54,  1.33it/s]Training 2/3 epoch (loss 0.0339):  50%|█████     | 8547/16950 [1:34:24<1:44:54,  1.33it/s]Training 2/3 epoch (loss 0.0339):  50%|█████     | 8548/16950 [1:34:24<1:39:11,  1.41it/s]Training 2/3 epoch (loss 0.0060):  50%|█████     | 8548/16950 [1:34:25<1:39:11,  1.41it/s]Training 2/3 epoch (loss 0.0060):  50%|█████     | 8549/16950 [1:34:25<1:39:51,  1.40it/s]Training 2/3 epoch (loss 0.4944):  50%|█████     | 8549/16950 [1:34:26<1:39:51,  1.40it/s]Training 2/3 epoch (loss 0.4944):  50%|█████     | 8550/16950 [1:34:26<1:31:17,  1.53it/s]Training 2/3 epoch (loss 0.0376):  50%|█████     | 8550/16950 [1:34:26<1:31:17,  1.53it/s]Training 2/3 epoch (loss 0.0376):  50%|█████     | 8551/16950 [1:34:26<1:31:55,  1.52it/s]Training 2/3 epoch (loss 0.0119):  50%|█████     | 8551/16950 [1:34:27<1:31:55,  1.52it/s]Training 2/3 epoch (loss 0.0119):  50%|█████     | 8552/16950 [1:34:27<1:31:44,  1.53it/s]Training 2/3 epoch (loss 0.1703):  50%|█████     | 8552/16950 [1:34:28<1:31:44,  1.53it/s]Training 2/3 epoch (loss 0.1703):  50%|█████     | 8553/16950 [1:34:28<1:44:31,  1.34it/s]Training 2/3 epoch (loss 0.0238):  50%|█████     | 8553/16950 [1:34:29<1:44:31,  1.34it/s]Training 2/3 epoch (loss 0.0238):  50%|█████     | 8554/16950 [1:34:29<1:36:29,  1.45it/s]Training 2/3 epoch (loss 0.4036):  50%|█████     | 8554/16950 [1:34:29<1:36:29,  1.45it/s]Training 2/3 epoch (loss 0.4036):  50%|█████     | 8555/16950 [1:34:29<1:27:06,  1.61it/s]Training 2/3 epoch (loss 0.0043):  50%|█████     | 8555/16950 [1:34:30<1:27:06,  1.61it/s]Training 2/3 epoch (loss 0.0043):  50%|█████     | 8556/16950 [1:34:30<1:27:03,  1.61it/s]Training 2/3 epoch (loss 0.0929):  50%|█████     | 8556/16950 [1:34:30<1:27:03,  1.61it/s]Training 2/3 epoch (loss 0.0929):  50%|█████     | 8557/16950 [1:34:30<1:20:03,  1.75it/s]Training 2/3 epoch (loss 0.2321):  50%|█████     | 8557/16950 [1:34:31<1:20:03,  1.75it/s]Training 2/3 epoch (loss 0.2321):  50%|█████     | 8558/16950 [1:34:31<1:14:23,  1.88it/s]Training 2/3 epoch (loss 0.3113):  50%|█████     | 8558/16950 [1:34:31<1:14:23,  1.88it/s]Training 2/3 epoch (loss 0.3113):  50%|█████     | 8559/16950 [1:34:31<1:13:06,  1.91it/s]Training 2/3 epoch (loss 0.0493):  50%|█████     | 8559/16950 [1:34:32<1:13:06,  1.91it/s]Training 2/3 epoch (loss 0.0493):  51%|█████     | 8560/16950 [1:34:32<1:11:08,  1.97it/s]Training 2/3 epoch (loss 0.0035):  51%|█████     | 8560/16950 [1:34:32<1:11:08,  1.97it/s]Training 2/3 epoch (loss 0.0035):  51%|█████     | 8561/16950 [1:34:32<1:14:29,  1.88it/s]Training 2/3 epoch (loss 0.0198):  51%|█████     | 8561/16950 [1:34:33<1:14:29,  1.88it/s]Training 2/3 epoch (loss 0.0198):  51%|█████     | 8562/16950 [1:34:33<1:17:30,  1.80it/s]Training 2/3 epoch (loss 0.0063):  51%|█████     | 8562/16950 [1:34:33<1:17:30,  1.80it/s]Training 2/3 epoch (loss 0.0063):  51%|█████     | 8563/16950 [1:34:33<1:11:11,  1.96it/s]Training 2/3 epoch (loss 0.0716):  51%|█████     | 8563/16950 [1:34:33<1:11:11,  1.96it/s]Training 2/3 epoch (loss 0.0716):  51%|█████     | 8564/16950 [1:34:33<1:03:01,  2.22it/s]Training 2/3 epoch (loss 0.2080):  51%|█████     | 8564/16950 [1:34:34<1:03:01,  2.22it/s]Training 2/3 epoch (loss 0.2080):  51%|█████     | 8565/16950 [1:34:34<1:08:04,  2.05it/s]Training 2/3 epoch (loss nan):  51%|█████     | 8565/16950 [1:34:35<1:08:04,  2.05it/s]   Training 2/3 epoch (loss nan):  51%|█████     | 8566/16950 [1:34:35<1:35:21,  1.47it/s]Training 2/3 epoch (loss 0.2966):  51%|█████     | 8566/16950 [1:34:36<1:35:21,  1.47it/s]Training 2/3 epoch (loss 0.2966):  51%|█████     | 8567/16950 [1:34:36<1:32:30,  1.51it/s]Training 2/3 epoch (loss 0.0885):  51%|█████     | 8567/16950 [1:34:36<1:32:30,  1.51it/s]Training 2/3 epoch (loss 0.0885):  51%|█████     | 8568/16950 [1:34:36<1:21:52,  1.71it/s]Training 2/3 epoch (loss 0.0313):  51%|█████     | 8568/16950 [1:34:37<1:21:52,  1.71it/s]Training 2/3 epoch (loss 0.0313):  51%|█████     | 8569/16950 [1:34:37<1:26:13,  1.62it/s]Training 2/3 epoch (loss 0.0034):  51%|█████     | 8569/16950 [1:34:38<1:26:13,  1.62it/s]Training 2/3 epoch (loss 0.0034):  51%|█████     | 8570/16950 [1:34:38<1:34:58,  1.47it/s]Training 2/3 epoch (loss 0.0134):  51%|█████     | 8570/16950 [1:34:38<1:34:58,  1.47it/s]Training 2/3 epoch (loss 0.0134):  51%|█████     | 8571/16950 [1:34:38<1:36:53,  1.44it/s]Training 2/3 epoch (loss 0.0940):  51%|█████     | 8571/16950 [1:34:39<1:36:53,  1.44it/s]Training 2/3 epoch (loss 0.0940):  51%|█████     | 8572/16950 [1:34:39<1:33:59,  1.49it/s]Training 2/3 epoch (loss 0.1283):  51%|█████     | 8572/16950 [1:34:40<1:33:59,  1.49it/s]Training 2/3 epoch (loss 0.1283):  51%|█████     | 8573/16950 [1:34:40<1:28:48,  1.57it/s]Training 2/3 epoch (loss 0.1425):  51%|█████     | 8573/16950 [1:34:40<1:28:48,  1.57it/s]Training 2/3 epoch (loss 0.1425):  51%|█████     | 8574/16950 [1:34:40<1:24:39,  1.65it/s]Training 2/3 epoch (loss 0.0056):  51%|█████     | 8574/16950 [1:34:41<1:24:39,  1.65it/s]Training 2/3 epoch (loss 0.0056):  51%|█████     | 8575/16950 [1:34:41<1:27:39,  1.59it/s]Training 2/3 epoch (loss 0.0005):  51%|█████     | 8575/16950 [1:34:41<1:27:39,  1.59it/s]Training 2/3 epoch (loss 0.0005):  51%|█████     | 8576/16950 [1:34:41<1:27:13,  1.60it/s]Training 2/3 epoch (loss 0.1068):  51%|█████     | 8576/16950 [1:34:42<1:27:13,  1.60it/s]Training 2/3 epoch (loss 0.1068):  51%|█████     | 8577/16950 [1:34:42<1:25:26,  1.63it/s]Training 2/3 epoch (loss 0.0231):  51%|█████     | 8577/16950 [1:34:42<1:25:26,  1.63it/s]Training 2/3 epoch (loss 0.0231):  51%|█████     | 8578/16950 [1:34:42<1:20:55,  1.72it/s]Training 2/3 epoch (loss 0.0048):  51%|█████     | 8578/16950 [1:34:43<1:20:55,  1.72it/s]Training 2/3 epoch (loss 0.0048):  51%|█████     | 8579/16950 [1:34:43<1:14:47,  1.87it/s]Training 2/3 epoch (loss 0.5868):  51%|█████     | 8579/16950 [1:34:43<1:14:47,  1.87it/s]Training 2/3 epoch (loss 0.5868):  51%|█████     | 8580/16950 [1:34:43<1:08:29,  2.04it/s]Training 2/3 epoch (loss 0.0802):  51%|█████     | 8580/16950 [1:34:44<1:08:29,  2.04it/s]Training 2/3 epoch (loss 0.0802):  51%|█████     | 8581/16950 [1:34:44<1:07:56,  2.05it/s]Training 2/3 epoch (loss 0.0014):  51%|█████     | 8581/16950 [1:34:44<1:07:56,  2.05it/s]Training 2/3 epoch (loss 0.0014):  51%|█████     | 8582/16950 [1:34:44<1:04:22,  2.17it/s]Training 2/3 epoch (loss 0.0040):  51%|█████     | 8582/16950 [1:34:45<1:04:22,  2.17it/s]Training 2/3 epoch (loss 0.0040):  51%|█████     | 8583/16950 [1:34:45<1:01:47,  2.26it/s]Training 2/3 epoch (loss 0.9327):  51%|█████     | 8583/16950 [1:34:45<1:01:47,  2.26it/s]Training 2/3 epoch (loss 0.9327):  51%|█████     | 8584/16950 [1:34:45<56:37,  2.46it/s]  Training 2/3 epoch (loss 0.0373):  51%|█████     | 8584/16950 [1:34:45<56:37,  2.46it/s]Training 2/3 epoch (loss 0.0373):  51%|█████     | 8585/16950 [1:34:45<57:38,  2.42it/s]Training 2/3 epoch (loss 0.0143):  51%|█████     | 8585/16950 [1:34:46<57:38,  2.42it/s]Training 2/3 epoch (loss 0.0143):  51%|█████     | 8586/16950 [1:34:46<59:58,  2.32it/s]Training 2/3 epoch (loss 0.0099):  51%|█████     | 8586/16950 [1:34:46<59:58,  2.32it/s]Training 2/3 epoch (loss 0.0099):  51%|█████     | 8587/16950 [1:34:46<1:08:34,  2.03it/s]Training 2/3 epoch (loss 0.0727):  51%|█████     | 8587/16950 [1:34:47<1:08:34,  2.03it/s]Training 2/3 epoch (loss 0.0727):  51%|█████     | 8588/16950 [1:34:47<1:22:34,  1.69it/s]Training 2/3 epoch (loss 0.0001):  51%|█████     | 8588/16950 [1:34:48<1:22:34,  1.69it/s]Training 2/3 epoch (loss 0.0001):  51%|█████     | 8589/16950 [1:34:48<1:22:59,  1.68it/s]Training 2/3 epoch (loss 0.0009):  51%|█████     | 8589/16950 [1:34:48<1:22:59,  1.68it/s]Training 2/3 epoch (loss 0.0009):  51%|█████     | 8590/16950 [1:34:48<1:21:14,  1.72it/s]Training 2/3 epoch (loss 0.2478):  51%|█████     | 8590/16950 [1:34:49<1:21:14,  1.72it/s]Training 2/3 epoch (loss 0.2478):  51%|█████     | 8591/16950 [1:34:49<1:25:47,  1.62it/s]Training 2/3 epoch (loss 0.0116):  51%|█████     | 8591/16950 [1:34:50<1:25:47,  1.62it/s]Training 2/3 epoch (loss 0.0116):  51%|█████     | 8592/16950 [1:34:50<1:23:34,  1.67it/s]Training 2/3 epoch (loss 0.5971):  51%|█████     | 8592/16950 [1:34:50<1:23:34,  1.67it/s]Training 2/3 epoch (loss 0.5971):  51%|█████     | 8593/16950 [1:34:50<1:22:37,  1.69it/s]Training 2/3 epoch (loss 0.1337):  51%|█████     | 8593/16950 [1:34:51<1:22:37,  1.69it/s]Training 2/3 epoch (loss 0.1337):  51%|█████     | 8594/16950 [1:34:51<1:41:23,  1.37it/s]Training 2/3 epoch (loss 0.0031):  51%|█████     | 8594/16950 [1:34:52<1:41:23,  1.37it/s]Training 2/3 epoch (loss 0.0031):  51%|█████     | 8595/16950 [1:34:52<1:32:12,  1.51it/s]Training 2/3 epoch (loss 0.0078):  51%|█████     | 8595/16950 [1:34:52<1:32:12,  1.51it/s]Training 2/3 epoch (loss 0.0078):  51%|█████     | 8596/16950 [1:34:52<1:23:55,  1.66it/s]Training 2/3 epoch (loss 0.2569):  51%|█████     | 8596/16950 [1:34:53<1:23:55,  1.66it/s]Training 2/3 epoch (loss 0.2569):  51%|█████     | 8597/16950 [1:34:53<1:22:06,  1.70it/s]Training 2/3 epoch (loss 0.0399):  51%|█████     | 8597/16950 [1:34:53<1:22:06,  1.70it/s]Training 2/3 epoch (loss 0.0399):  51%|█████     | 8598/16950 [1:34:53<1:23:01,  1.68it/s]Training 2/3 epoch (loss 0.3054):  51%|█████     | 8598/16950 [1:34:54<1:23:01,  1.68it/s]Training 2/3 epoch (loss 0.3054):  51%|█████     | 8599/16950 [1:34:54<1:26:55,  1.60it/s]Training 2/3 epoch (loss 0.2338):  51%|█████     | 8599/16950 [1:34:55<1:26:55,  1.60it/s]Training 2/3 epoch (loss 0.2338):  51%|█████     | 8600/16950 [1:34:55<1:19:50,  1.74it/s]Training 2/3 epoch (loss 0.0017):  51%|█████     | 8600/16950 [1:34:55<1:19:50,  1.74it/s]Training 2/3 epoch (loss 0.0017):  51%|█████     | 8601/16950 [1:34:55<1:12:04,  1.93it/s]Training 2/3 epoch (loss 0.2685):  51%|█████     | 8601/16950 [1:34:55<1:12:04,  1.93it/s]Training 2/3 epoch (loss 0.2685):  51%|█████     | 8602/16950 [1:34:55<1:10:58,  1.96it/s]Training 2/3 epoch (loss 0.4094):  51%|█████     | 8602/16950 [1:34:56<1:10:58,  1.96it/s]Training 2/3 epoch (loss 0.4094):  51%|█████     | 8603/16950 [1:34:56<1:04:51,  2.14it/s]Training 2/3 epoch (loss 0.0131):  51%|█████     | 8603/16950 [1:34:56<1:04:51,  2.14it/s]Training 2/3 epoch (loss 0.0131):  51%|█████     | 8604/16950 [1:34:56<1:11:22,  1.95it/s]Training 2/3 epoch (loss 0.0942):  51%|█████     | 8604/16950 [1:34:57<1:11:22,  1.95it/s]Training 2/3 epoch (loss 0.0942):  51%|█████     | 8605/16950 [1:34:57<1:13:00,  1.90it/s]Training 2/3 epoch (loss 0.1287):  51%|█████     | 8605/16950 [1:34:57<1:13:00,  1.90it/s]Training 2/3 epoch (loss 0.1287):  51%|█████     | 8606/16950 [1:34:57<1:10:54,  1.96it/s]Training 2/3 epoch (loss 0.2753):  51%|█████     | 8606/16950 [1:34:58<1:10:54,  1.96it/s]Training 2/3 epoch (loss 0.2753):  51%|█████     | 8607/16950 [1:34:58<1:09:53,  1.99it/s]Training 2/3 epoch (loss 0.4624):  51%|█████     | 8607/16950 [1:34:59<1:09:53,  1.99it/s]Training 2/3 epoch (loss 0.4624):  51%|█████     | 8608/16950 [1:34:59<1:35:04,  1.46it/s]Training 2/3 epoch (loss 0.3750):  51%|█████     | 8608/16950 [1:35:00<1:35:04,  1.46it/s]Training 2/3 epoch (loss 0.3750):  51%|█████     | 8609/16950 [1:35:00<1:26:38,  1.60it/s]Training 2/3 epoch (loss 0.1555):  51%|█████     | 8609/16950 [1:35:00<1:26:38,  1.60it/s]Training 2/3 epoch (loss 0.1555):  51%|█████     | 8610/16950 [1:35:00<1:35:28,  1.46it/s]Training 2/3 epoch (loss 0.3204):  51%|█████     | 8610/16950 [1:35:01<1:35:28,  1.46it/s]Training 2/3 epoch (loss 0.3204):  51%|█████     | 8611/16950 [1:35:01<1:48:29,  1.28it/s]Training 2/3 epoch (loss 0.0284):  51%|█████     | 8611/16950 [1:35:02<1:48:29,  1.28it/s]Training 2/3 epoch (loss 0.0284):  51%|█████     | 8612/16950 [1:35:02<1:44:13,  1.33it/s]Training 2/3 epoch (loss 0.0060):  51%|█████     | 8612/16950 [1:35:03<1:44:13,  1.33it/s]Training 2/3 epoch (loss 0.0060):  51%|█████     | 8613/16950 [1:35:03<1:35:42,  1.45it/s]Training 2/3 epoch (loss 0.0006):  51%|█████     | 8613/16950 [1:35:03<1:35:42,  1.45it/s]Training 2/3 epoch (loss 0.0006):  51%|█████     | 8614/16950 [1:35:03<1:33:03,  1.49it/s]Training 2/3 epoch (loss 0.0086):  51%|█████     | 8614/16950 [1:35:04<1:33:03,  1.49it/s]Training 2/3 epoch (loss 0.0086):  51%|█████     | 8615/16950 [1:35:04<1:32:04,  1.51it/s]Training 2/3 epoch (loss 0.0466):  51%|█████     | 8615/16950 [1:35:05<1:32:04,  1.51it/s]Training 2/3 epoch (loss 0.0466):  51%|█████     | 8616/16950 [1:35:05<1:34:49,  1.46it/s]Training 2/3 epoch (loss 0.6183):  51%|█████     | 8616/16950 [1:35:05<1:34:49,  1.46it/s]Training 2/3 epoch (loss 0.6183):  51%|█████     | 8617/16950 [1:35:05<1:32:32,  1.50it/s]Training 2/3 epoch (loss 0.0001):  51%|█████     | 8617/16950 [1:35:06<1:32:32,  1.50it/s]Training 2/3 epoch (loss 0.0001):  51%|█████     | 8618/16950 [1:35:06<1:32:08,  1.51it/s]Training 2/3 epoch (loss 0.4710):  51%|█████     | 8618/16950 [1:35:06<1:32:08,  1.51it/s]Training 2/3 epoch (loss 0.4710):  51%|█████     | 8619/16950 [1:35:06<1:22:51,  1.68it/s]Training 2/3 epoch (loss 0.0029):  51%|█████     | 8619/16950 [1:35:07<1:22:51,  1.68it/s]Training 2/3 epoch (loss 0.0029):  51%|█████     | 8620/16950 [1:35:07<1:19:38,  1.74it/s]Training 2/3 epoch (loss 0.0440):  51%|█████     | 8620/16950 [1:35:08<1:19:38,  1.74it/s]Training 2/3 epoch (loss 0.0440):  51%|█████     | 8621/16950 [1:35:08<1:24:47,  1.64it/s]Training 2/3 epoch (loss 0.0344):  51%|█████     | 8621/16950 [1:35:08<1:24:47,  1.64it/s]Training 2/3 epoch (loss 0.0344):  51%|█████     | 8622/16950 [1:35:08<1:22:38,  1.68it/s]Training 2/3 epoch (loss 0.6198):  51%|█████     | 8622/16950 [1:35:09<1:22:38,  1.68it/s]Training 2/3 epoch (loss 0.6198):  51%|█████     | 8623/16950 [1:35:09<1:27:00,  1.59it/s]Training 2/3 epoch (loss 0.1476):  51%|█████     | 8623/16950 [1:35:09<1:27:00,  1.59it/s]Training 2/3 epoch (loss 0.1476):  51%|█████     | 8624/16950 [1:35:09<1:21:22,  1.71it/s]Training 2/3 epoch (loss 0.2715):  51%|█████     | 8624/16950 [1:35:10<1:21:22,  1.71it/s]Training 2/3 epoch (loss 0.2715):  51%|█████     | 8625/16950 [1:35:10<1:09:20,  2.00it/s]Training 2/3 epoch (loss 0.0511):  51%|█████     | 8625/16950 [1:35:10<1:09:20,  2.00it/s]Training 2/3 epoch (loss 0.0511):  51%|█████     | 8626/16950 [1:35:10<1:13:48,  1.88it/s]Training 2/3 epoch (loss 0.0072):  51%|█████     | 8626/16950 [1:35:11<1:13:48,  1.88it/s]Training 2/3 epoch (loss 0.0072):  51%|█████     | 8627/16950 [1:35:11<1:21:03,  1.71it/s]Training 2/3 epoch (loss 0.4211):  51%|█████     | 8627/16950 [1:35:11<1:21:03,  1.71it/s]Training 2/3 epoch (loss 0.4211):  51%|█████     | 8628/16950 [1:35:11<1:17:31,  1.79it/s]Training 2/3 epoch (loss 0.0010):  51%|█████     | 8628/16950 [1:35:12<1:17:31,  1.79it/s]Training 2/3 epoch (loss 0.0010):  51%|█████     | 8629/16950 [1:35:12<1:10:26,  1.97it/s]Training 2/3 epoch (loss 0.0174):  51%|█████     | 8629/16950 [1:35:13<1:10:26,  1.97it/s]Training 2/3 epoch (loss 0.0174):  51%|█████     | 8630/16950 [1:35:13<1:21:49,  1.69it/s]Training 2/3 epoch (loss 0.1072):  51%|█████     | 8630/16950 [1:35:13<1:21:49,  1.69it/s]Training 2/3 epoch (loss 0.1072):  51%|█████     | 8631/16950 [1:35:13<1:25:04,  1.63it/s]Training 2/3 epoch (loss 0.3000):  51%|█████     | 8631/16950 [1:35:14<1:25:04,  1.63it/s]Training 2/3 epoch (loss 0.3000):  51%|█████     | 8632/16950 [1:35:14<1:25:41,  1.62it/s]Training 2/3 epoch (loss 0.0041):  51%|█████     | 8632/16950 [1:35:15<1:25:41,  1.62it/s]Training 2/3 epoch (loss 0.0041):  51%|█████     | 8633/16950 [1:35:15<1:28:00,  1.58it/s]Training 2/3 epoch (loss 0.0043):  51%|█████     | 8633/16950 [1:35:15<1:28:00,  1.58it/s]Training 2/3 epoch (loss 0.0043):  51%|█████     | 8634/16950 [1:35:15<1:37:32,  1.42it/s]Training 2/3 epoch (loss 0.1235):  51%|█████     | 8634/16950 [1:35:16<1:37:32,  1.42it/s]Training 2/3 epoch (loss 0.1235):  51%|█████     | 8635/16950 [1:35:16<1:36:06,  1.44it/s]Training 2/3 epoch (loss 0.5710):  51%|█████     | 8635/16950 [1:35:17<1:36:06,  1.44it/s]Training 2/3 epoch (loss 0.5710):  51%|█████     | 8636/16950 [1:35:17<1:29:25,  1.55it/s]Training 2/3 epoch (loss 0.0449):  51%|█████     | 8636/16950 [1:35:18<1:29:25,  1.55it/s]Training 2/3 epoch (loss 0.0449):  51%|█████     | 8637/16950 [1:35:18<1:49:17,  1.27it/s]Training 2/3 epoch (loss 0.0535):  51%|█████     | 8637/16950 [1:35:18<1:49:17,  1.27it/s]Training 2/3 epoch (loss 0.0535):  51%|█████     | 8638/16950 [1:35:18<1:47:07,  1.29it/s]Training 2/3 epoch (loss 0.0044):  51%|█████     | 8638/16950 [1:35:19<1:47:07,  1.29it/s]Training 2/3 epoch (loss 0.0044):  51%|█████     | 8639/16950 [1:35:19<1:30:04,  1.54it/s]Training 2/3 epoch (loss 0.0005):  51%|█████     | 8639/16950 [1:35:19<1:30:04,  1.54it/s]Training 2/3 epoch (loss 0.0005):  51%|█████     | 8640/16950 [1:35:19<1:18:41,  1.76it/s]Training 2/3 epoch (loss 0.3528):  51%|█████     | 8640/16950 [1:35:20<1:18:41,  1.76it/s]Training 2/3 epoch (loss 0.3528):  51%|█████     | 8641/16950 [1:35:20<1:11:37,  1.93it/s]Training 2/3 epoch (loss 0.0103):  51%|█████     | 8641/16950 [1:35:20<1:11:37,  1.93it/s]Training 2/3 epoch (loss 0.0103):  51%|█████     | 8642/16950 [1:35:20<1:08:54,  2.01it/s]Training 2/3 epoch (loss 0.3871):  51%|█████     | 8642/16950 [1:35:21<1:08:54,  2.01it/s]Training 2/3 epoch (loss 0.3871):  51%|█████     | 8643/16950 [1:35:21<1:06:17,  2.09it/s]Training 2/3 epoch (loss 0.2132):  51%|█████     | 8643/16950 [1:35:21<1:06:17,  2.09it/s]Training 2/3 epoch (loss 0.2132):  51%|█████     | 8644/16950 [1:35:21<1:12:10,  1.92it/s]Training 2/3 epoch (loss 0.0009):  51%|█████     | 8644/16950 [1:35:22<1:12:10,  1.92it/s]Training 2/3 epoch (loss 0.0009):  51%|█████     | 8645/16950 [1:35:22<1:13:32,  1.88it/s]Training 2/3 epoch (loss 0.0299):  51%|█████     | 8645/16950 [1:35:22<1:13:32,  1.88it/s]Training 2/3 epoch (loss 0.0299):  51%|█████     | 8646/16950 [1:35:22<1:21:52,  1.69it/s]Training 2/3 epoch (loss 0.1992):  51%|█████     | 8646/16950 [1:35:23<1:21:52,  1.69it/s]Training 2/3 epoch (loss 0.1992):  51%|█████     | 8647/16950 [1:35:23<1:26:43,  1.60it/s]Training 2/3 epoch (loss 0.0347):  51%|█████     | 8647/16950 [1:35:24<1:26:43,  1.60it/s]Training 2/3 epoch (loss 0.0347):  51%|█████     | 8648/16950 [1:35:24<1:31:09,  1.52it/s]Training 2/3 epoch (loss 0.0669):  51%|█████     | 8648/16950 [1:35:25<1:31:09,  1.52it/s]Training 2/3 epoch (loss 0.0669):  51%|█████     | 8649/16950 [1:35:25<1:29:56,  1.54it/s]Training 2/3 epoch (loss 0.1725):  51%|█████     | 8649/16950 [1:35:26<1:29:56,  1.54it/s]Training 2/3 epoch (loss 0.1725):  51%|█████     | 8650/16950 [1:35:26<1:52:13,  1.23it/s]Training 2/3 epoch (loss 0.3207):  51%|█████     | 8650/16950 [1:35:26<1:52:13,  1.23it/s]Training 2/3 epoch (loss 0.3207):  51%|█████     | 8651/16950 [1:35:26<1:46:04,  1.30it/s]Training 2/3 epoch (loss 0.4408):  51%|█████     | 8651/16950 [1:35:27<1:46:04,  1.30it/s]Training 2/3 epoch (loss 0.4408):  51%|█████     | 8652/16950 [1:35:27<1:32:38,  1.49it/s]Training 2/3 epoch (loss 0.0763):  51%|█████     | 8652/16950 [1:35:27<1:32:38,  1.49it/s]Training 2/3 epoch (loss 0.0763):  51%|█████     | 8653/16950 [1:35:27<1:19:43,  1.73it/s]Training 2/3 epoch (loss 0.0007):  51%|█████     | 8653/16950 [1:35:28<1:19:43,  1.73it/s]Training 2/3 epoch (loss 0.0007):  51%|█████     | 8654/16950 [1:35:28<1:20:07,  1.73it/s]Training 2/3 epoch (loss 0.0048):  51%|█████     | 8654/16950 [1:35:28<1:20:07,  1.73it/s]Training 2/3 epoch (loss 0.0048):  51%|█████     | 8655/16950 [1:35:28<1:14:42,  1.85it/s]Training 2/3 epoch (loss 0.0027):  51%|█████     | 8655/16950 [1:35:29<1:14:42,  1.85it/s]Training 2/3 epoch (loss 0.0027):  51%|█████     | 8656/16950 [1:35:29<1:11:55,  1.92it/s]Training 2/3 epoch (loss 0.0018):  51%|█████     | 8656/16950 [1:35:29<1:11:55,  1.92it/s]Training 2/3 epoch (loss 0.0018):  51%|█████     | 8657/16950 [1:35:29<1:13:06,  1.89it/s]Training 2/3 epoch (loss 0.0016):  51%|█████     | 8657/16950 [1:35:30<1:13:06,  1.89it/s]Training 2/3 epoch (loss 0.0016):  51%|█████     | 8658/16950 [1:35:30<1:12:48,  1.90it/s]Training 2/3 epoch (loss 0.0019):  51%|█████     | 8658/16950 [1:35:30<1:12:48,  1.90it/s]Training 2/3 epoch (loss 0.0019):  51%|█████     | 8659/16950 [1:35:30<1:17:38,  1.78it/s]Training 2/3 epoch (loss 0.3862):  51%|█████     | 8659/16950 [1:35:31<1:17:38,  1.78it/s]Training 2/3 epoch (loss 0.3862):  51%|█████     | 8660/16950 [1:35:31<1:17:51,  1.77it/s]Training 2/3 epoch (loss 0.0050):  51%|█████     | 8660/16950 [1:35:32<1:17:51,  1.77it/s]Training 2/3 epoch (loss 0.0050):  51%|█████     | 8661/16950 [1:35:32<1:22:53,  1.67it/s]Training 2/3 epoch (loss 0.2130):  51%|█████     | 8661/16950 [1:35:32<1:22:53,  1.67it/s]Training 2/3 epoch (loss 0.2130):  51%|█████     | 8662/16950 [1:35:32<1:13:10,  1.89it/s]Training 2/3 epoch (loss 0.0565):  51%|█████     | 8662/16950 [1:35:32<1:13:10,  1.89it/s]Training 2/3 epoch (loss 0.0565):  51%|█████     | 8663/16950 [1:35:32<1:04:47,  2.13it/s]Training 2/3 epoch (loss 0.2870):  51%|█████     | 8663/16950 [1:35:33<1:04:47,  2.13it/s]Training 2/3 epoch (loss 0.2870):  51%|█████     | 8664/16950 [1:35:33<1:14:05,  1.86it/s]Training 2/3 epoch (loss 0.0019):  51%|█████     | 8664/16950 [1:35:34<1:14:05,  1.86it/s]Training 2/3 epoch (loss 0.0019):  51%|█████     | 8665/16950 [1:35:34<1:32:20,  1.50it/s]Training 2/3 epoch (loss 0.1047):  51%|█████     | 8665/16950 [1:35:35<1:32:20,  1.50it/s]Training 2/3 epoch (loss 0.1047):  51%|█████     | 8666/16950 [1:35:35<1:34:34,  1.46it/s]Training 2/3 epoch (loss 0.0012):  51%|█████     | 8666/16950 [1:35:35<1:34:34,  1.46it/s]Training 2/3 epoch (loss 0.0012):  51%|█████     | 8667/16950 [1:35:35<1:31:23,  1.51it/s]Training 2/3 epoch (loss 0.0051):  51%|█████     | 8667/16950 [1:35:36<1:31:23,  1.51it/s]Training 2/3 epoch (loss 0.0051):  51%|█████     | 8668/16950 [1:35:36<1:30:11,  1.53it/s]Training 2/3 epoch (loss 0.0279):  51%|█████     | 8668/16950 [1:35:37<1:30:11,  1.53it/s]Training 2/3 epoch (loss 0.0279):  51%|█████     | 8669/16950 [1:35:37<1:31:52,  1.50it/s]Training 2/3 epoch (loss 0.5659):  51%|█████     | 8669/16950 [1:35:37<1:31:52,  1.50it/s]Training 2/3 epoch (loss 0.5659):  51%|█████     | 8670/16950 [1:35:37<1:33:51,  1.47it/s]Training 2/3 epoch (loss 0.0426):  51%|█████     | 8670/16950 [1:35:38<1:33:51,  1.47it/s]Training 2/3 epoch (loss 0.0426):  51%|█████     | 8671/16950 [1:35:38<1:36:54,  1.42it/s]Training 2/3 epoch (loss 0.3653):  51%|█████     | 8671/16950 [1:35:39<1:36:54,  1.42it/s]Training 2/3 epoch (loss 0.3653):  51%|█████     | 8672/16950 [1:35:39<1:33:51,  1.47it/s]Training 2/3 epoch (loss 0.0206):  51%|█████     | 8672/16950 [1:35:39<1:33:51,  1.47it/s]Training 2/3 epoch (loss 0.0206):  51%|█████     | 8673/16950 [1:35:39<1:30:37,  1.52it/s]Training 2/3 epoch (loss 0.0146):  51%|█████     | 8673/16950 [1:35:40<1:30:37,  1.52it/s]Training 2/3 epoch (loss 0.0146):  51%|█████     | 8674/16950 [1:35:40<1:30:05,  1.53it/s]Training 2/3 epoch (loss 0.0415):  51%|█████     | 8674/16950 [1:35:40<1:30:05,  1.53it/s]Training 2/3 epoch (loss 0.0415):  51%|█████     | 8675/16950 [1:35:40<1:23:24,  1.65it/s]Training 2/3 epoch (loss 0.0154):  51%|█████     | 8675/16950 [1:35:41<1:23:24,  1.65it/s]Training 2/3 epoch (loss 0.0154):  51%|█████     | 8676/16950 [1:35:41<1:15:35,  1.82it/s]Training 2/3 epoch (loss 0.0487):  51%|█████     | 8676/16950 [1:35:42<1:15:35,  1.82it/s]Training 2/3 epoch (loss 0.0487):  51%|█████     | 8677/16950 [1:35:42<1:19:02,  1.74it/s]Training 2/3 epoch (loss 0.0032):  51%|█████     | 8677/16950 [1:35:42<1:19:02,  1.74it/s]Training 2/3 epoch (loss 0.0032):  51%|█████     | 8678/16950 [1:35:42<1:15:10,  1.83it/s]Training 2/3 epoch (loss 0.1148):  51%|█████     | 8678/16950 [1:35:43<1:15:10,  1.83it/s]Training 2/3 epoch (loss 0.1148):  51%|█████     | 8679/16950 [1:35:43<1:18:15,  1.76it/s]Training 2/3 epoch (loss 0.0176):  51%|█████     | 8679/16950 [1:35:43<1:18:15,  1.76it/s]Training 2/3 epoch (loss 0.0176):  51%|█████     | 8680/16950 [1:35:43<1:17:53,  1.77it/s]Training 2/3 epoch (loss 0.0047):  51%|█████     | 8680/16950 [1:35:44<1:17:53,  1.77it/s]Training 2/3 epoch (loss 0.0047):  51%|█████     | 8681/16950 [1:35:44<1:33:09,  1.48it/s]Training 2/3 epoch (loss 0.0035):  51%|█████     | 8681/16950 [1:35:45<1:33:09,  1.48it/s]Training 2/3 epoch (loss 0.0035):  51%|█████     | 8682/16950 [1:35:45<1:35:31,  1.44it/s]Training 2/3 epoch (loss 0.0002):  51%|█████     | 8682/16950 [1:35:45<1:35:31,  1.44it/s]Training 2/3 epoch (loss 0.0002):  51%|█████     | 8683/16950 [1:35:45<1:26:21,  1.60it/s]Training 2/3 epoch (loss 0.2501):  51%|█████     | 8683/16950 [1:35:46<1:26:21,  1.60it/s]Training 2/3 epoch (loss 0.2501):  51%|█████     | 8684/16950 [1:35:46<1:17:33,  1.78it/s]Training 2/3 epoch (loss 0.2631):  51%|█████     | 8684/16950 [1:35:46<1:17:33,  1.78it/s]Training 2/3 epoch (loss 0.2631):  51%|█████     | 8685/16950 [1:35:46<1:22:32,  1.67it/s]Training 2/3 epoch (loss 0.0604):  51%|█████     | 8685/16950 [1:35:47<1:22:32,  1.67it/s]Training 2/3 epoch (loss 0.0604):  51%|█████     | 8686/16950 [1:35:47<1:23:53,  1.64it/s]Training 2/3 epoch (loss 0.0210):  51%|█████     | 8686/16950 [1:35:48<1:23:53,  1.64it/s]Training 2/3 epoch (loss 0.0210):  51%|█████▏    | 8687/16950 [1:35:48<1:19:58,  1.72it/s]Training 2/3 epoch (loss 0.0022):  51%|█████▏    | 8687/16950 [1:35:48<1:19:58,  1.72it/s]Training 2/3 epoch (loss 0.0022):  51%|█████▏    | 8688/16950 [1:35:48<1:15:17,  1.83it/s]Training 2/3 epoch (loss 0.0015):  51%|█████▏    | 8688/16950 [1:35:49<1:15:17,  1.83it/s]Training 2/3 epoch (loss 0.0015):  51%|█████▏    | 8689/16950 [1:35:49<1:16:46,  1.79it/s]Training 2/3 epoch (loss 0.6504):  51%|█████▏    | 8689/16950 [1:35:49<1:16:46,  1.79it/s]Training 2/3 epoch (loss 0.6504):  51%|█████▏    | 8690/16950 [1:35:49<1:11:06,  1.94it/s]Training 2/3 epoch (loss 0.0002):  51%|█████▏    | 8690/16950 [1:35:49<1:11:06,  1.94it/s]Training 2/3 epoch (loss 0.0002):  51%|█████▏    | 8691/16950 [1:35:49<1:05:53,  2.09it/s]Training 2/3 epoch (loss 0.4895):  51%|█████▏    | 8691/16950 [1:35:50<1:05:53,  2.09it/s]Training 2/3 epoch (loss 0.4895):  51%|█████▏    | 8692/16950 [1:35:50<1:10:20,  1.96it/s]Training 2/3 epoch (loss 0.1108):  51%|█████▏    | 8692/16950 [1:35:51<1:10:20,  1.96it/s]Training 2/3 epoch (loss 0.1108):  51%|█████▏    | 8693/16950 [1:35:51<1:16:20,  1.80it/s]Training 2/3 epoch (loss 0.4478):  51%|█████▏    | 8693/16950 [1:35:51<1:16:20,  1.80it/s]Training 2/3 epoch (loss 0.4478):  51%|█████▏    | 8694/16950 [1:35:51<1:10:15,  1.96it/s]Training 2/3 epoch (loss 0.3422):  51%|█████▏    | 8694/16950 [1:35:52<1:10:15,  1.96it/s]Training 2/3 epoch (loss 0.3422):  51%|█████▏    | 8695/16950 [1:35:52<1:13:22,  1.88it/s]Training 2/3 epoch (loss 0.0145):  51%|█████▏    | 8695/16950 [1:35:52<1:13:22,  1.88it/s]Training 2/3 epoch (loss 0.0145):  51%|█████▏    | 8696/16950 [1:35:52<1:15:17,  1.83it/s]Training 2/3 epoch (loss 0.0045):  51%|█████▏    | 8696/16950 [1:35:53<1:15:17,  1.83it/s]Training 2/3 epoch (loss 0.0045):  51%|█████▏    | 8697/16950 [1:35:53<1:14:21,  1.85it/s]Training 2/3 epoch (loss 0.2137):  51%|█████▏    | 8697/16950 [1:35:53<1:14:21,  1.85it/s]Training 2/3 epoch (loss 0.2137):  51%|█████▏    | 8698/16950 [1:35:53<1:15:55,  1.81it/s]Training 2/3 epoch (loss 0.0685):  51%|█████▏    | 8698/16950 [1:35:54<1:15:55,  1.81it/s]Training 2/3 epoch (loss 0.0685):  51%|█████▏    | 8699/16950 [1:35:54<1:15:31,  1.82it/s]Training 2/3 epoch (loss 0.0552):  51%|█████▏    | 8699/16950 [1:35:55<1:15:31,  1.82it/s]Training 2/3 epoch (loss 0.0552):  51%|█████▏    | 8700/16950 [1:35:55<1:18:04,  1.76it/s]Training 2/3 epoch (loss 0.0005):  51%|█████▏    | 8700/16950 [1:35:55<1:18:04,  1.76it/s]Training 2/3 epoch (loss 0.0005):  51%|█████▏    | 8701/16950 [1:35:55<1:17:55,  1.76it/s]Training 2/3 epoch (loss 0.0486):  51%|█████▏    | 8701/16950 [1:35:56<1:17:55,  1.76it/s]Training 2/3 epoch (loss 0.0486):  51%|█████▏    | 8702/16950 [1:35:56<1:19:22,  1.73it/s]Training 2/3 epoch (loss 0.0858):  51%|█████▏    | 8702/16950 [1:35:56<1:19:22,  1.73it/s]Training 2/3 epoch (loss 0.0858):  51%|█████▏    | 8703/16950 [1:35:56<1:28:40,  1.55it/s]Training 2/3 epoch (loss 0.0642):  51%|█████▏    | 8703/16950 [1:35:57<1:28:40,  1.55it/s]Training 2/3 epoch (loss 0.0642):  51%|█████▏    | 8704/16950 [1:35:57<1:23:20,  1.65it/s]Training 2/3 epoch (loss 0.0019):  51%|█████▏    | 8704/16950 [1:35:57<1:23:20,  1.65it/s]Training 2/3 epoch (loss 0.0019):  51%|█████▏    | 8705/16950 [1:35:57<1:16:57,  1.79it/s]Training 2/3 epoch (loss 0.6432):  51%|█████▏    | 8705/16950 [1:35:58<1:16:57,  1.79it/s]Training 2/3 epoch (loss 0.6432):  51%|█████▏    | 8706/16950 [1:35:58<1:30:09,  1.52it/s]Training 2/3 epoch (loss 0.1512):  51%|█████▏    | 8706/16950 [1:35:59<1:30:09,  1.52it/s]Training 2/3 epoch (loss 0.1512):  51%|█████▏    | 8707/16950 [1:35:59<1:33:30,  1.47it/s]Training 2/3 epoch (loss 0.0007):  51%|█████▏    | 8707/16950 [1:36:00<1:33:30,  1.47it/s]Training 2/3 epoch (loss 0.0007):  51%|█████▏    | 8708/16950 [1:36:00<1:32:10,  1.49it/s]Training 2/3 epoch (loss 0.0175):  51%|█████▏    | 8708/16950 [1:36:00<1:32:10,  1.49it/s]Training 2/3 epoch (loss 0.0175):  51%|█████▏    | 8709/16950 [1:36:00<1:30:31,  1.52it/s]Training 2/3 epoch (loss 0.5607):  51%|█████▏    | 8709/16950 [1:36:01<1:30:31,  1.52it/s]Training 2/3 epoch (loss 0.5607):  51%|█████▏    | 8710/16950 [1:36:01<1:32:34,  1.48it/s]Training 2/3 epoch (loss 0.3379):  51%|█████▏    | 8710/16950 [1:36:02<1:32:34,  1.48it/s]Training 2/3 epoch (loss 0.3379):  51%|█████▏    | 8711/16950 [1:36:02<1:37:56,  1.40it/s]Training 2/3 epoch (loss 0.0117):  51%|█████▏    | 8711/16950 [1:36:02<1:37:56,  1.40it/s]Training 2/3 epoch (loss 0.0117):  51%|█████▏    | 8712/16950 [1:36:02<1:30:18,  1.52it/s]Training 2/3 epoch (loss 0.1502):  51%|█████▏    | 8712/16950 [1:36:03<1:30:18,  1.52it/s]Training 2/3 epoch (loss 0.1502):  51%|█████▏    | 8713/16950 [1:36:03<1:28:51,  1.55it/s]Training 2/3 epoch (loss 0.0040):  51%|█████▏    | 8713/16950 [1:36:04<1:28:51,  1.55it/s]Training 2/3 epoch (loss 0.0040):  51%|█████▏    | 8714/16950 [1:36:04<1:22:15,  1.67it/s]Training 2/3 epoch (loss 0.0003):  51%|█████▏    | 8714/16950 [1:36:04<1:22:15,  1.67it/s]Training 2/3 epoch (loss 0.0003):  51%|█████▏    | 8715/16950 [1:36:04<1:22:12,  1.67it/s]Training 2/3 epoch (loss 0.0010):  51%|█████▏    | 8715/16950 [1:36:05<1:22:12,  1.67it/s]Training 2/3 epoch (loss 0.0010):  51%|█████▏    | 8716/16950 [1:36:05<1:16:21,  1.80it/s]Training 2/3 epoch (loss 0.0054):  51%|█████▏    | 8716/16950 [1:36:05<1:16:21,  1.80it/s]Training 2/3 epoch (loss 0.0054):  51%|█████▏    | 8717/16950 [1:36:05<1:12:31,  1.89it/s]Training 2/3 epoch (loss 0.3710):  51%|█████▏    | 8717/16950 [1:36:06<1:12:31,  1.89it/s]Training 2/3 epoch (loss 0.3710):  51%|█████▏    | 8718/16950 [1:36:06<1:19:13,  1.73it/s]Training 2/3 epoch (loss 0.0184):  51%|█████▏    | 8718/16950 [1:36:06<1:19:13,  1.73it/s]Training 2/3 epoch (loss 0.0184):  51%|█████▏    | 8719/16950 [1:36:06<1:23:35,  1.64it/s]Training 2/3 epoch (loss 0.0069):  51%|█████▏    | 8719/16950 [1:36:07<1:23:35,  1.64it/s]Training 2/3 epoch (loss 0.0069):  51%|█████▏    | 8720/16950 [1:36:07<1:17:45,  1.76it/s]Training 2/3 epoch (loss 0.5077):  51%|█████▏    | 8720/16950 [1:36:07<1:17:45,  1.76it/s]Training 2/3 epoch (loss 0.5077):  51%|█████▏    | 8721/16950 [1:36:07<1:12:00,  1.90it/s]Training 2/3 epoch (loss 0.0194):  51%|█████▏    | 8721/16950 [1:36:08<1:12:00,  1.90it/s]Training 2/3 epoch (loss 0.0194):  51%|█████▏    | 8722/16950 [1:36:08<1:23:13,  1.65it/s]Training 2/3 epoch (loss 0.4906):  51%|█████▏    | 8722/16950 [1:36:09<1:23:13,  1.65it/s]Training 2/3 epoch (loss 0.4906):  51%|█████▏    | 8723/16950 [1:36:09<1:18:35,  1.74it/s]Training 2/3 epoch (loss 0.0541):  51%|█████▏    | 8723/16950 [1:36:09<1:18:35,  1.74it/s]Training 2/3 epoch (loss 0.0541):  51%|█████▏    | 8724/16950 [1:36:09<1:22:59,  1.65it/s]Training 2/3 epoch (loss 0.3043):  51%|█████▏    | 8724/16950 [1:36:10<1:22:59,  1.65it/s]Training 2/3 epoch (loss 0.3043):  51%|█████▏    | 8725/16950 [1:36:10<1:19:42,  1.72it/s]Training 2/3 epoch (loss 0.2900):  51%|█████▏    | 8725/16950 [1:36:10<1:19:42,  1.72it/s]Training 2/3 epoch (loss 0.2900):  51%|█████▏    | 8726/16950 [1:36:10<1:16:10,  1.80it/s]Training 2/3 epoch (loss 0.5282):  51%|█████▏    | 8726/16950 [1:36:11<1:16:10,  1.80it/s]Training 2/3 epoch (loss 0.5282):  51%|█████▏    | 8727/16950 [1:36:11<1:17:31,  1.77it/s]Training 2/3 epoch (loss 0.0017):  51%|█████▏    | 8727/16950 [1:36:11<1:17:31,  1.77it/s]Training 2/3 epoch (loss 0.0017):  51%|█████▏    | 8728/16950 [1:36:11<1:14:09,  1.85it/s]Training 2/3 epoch (loss 0.0342):  51%|█████▏    | 8728/16950 [1:36:12<1:14:09,  1.85it/s]Training 2/3 epoch (loss 0.0342):  51%|█████▏    | 8729/16950 [1:36:12<1:16:11,  1.80it/s]Training 2/3 epoch (loss 0.0321):  51%|█████▏    | 8729/16950 [1:36:13<1:16:11,  1.80it/s]Training 2/3 epoch (loss 0.0321):  52%|█████▏    | 8730/16950 [1:36:13<1:15:54,  1.80it/s]Training 2/3 epoch (loss 0.3623):  52%|█████▏    | 8730/16950 [1:36:13<1:15:54,  1.80it/s]Training 2/3 epoch (loss 0.3623):  52%|█████▏    | 8731/16950 [1:36:13<1:07:22,  2.03it/s]Training 2/3 epoch (loss 0.0029):  52%|█████▏    | 8731/16950 [1:36:13<1:07:22,  2.03it/s]Training 2/3 epoch (loss 0.0029):  52%|█████▏    | 8732/16950 [1:36:13<1:05:12,  2.10it/s]Training 2/3 epoch (loss 0.0001):  52%|█████▏    | 8732/16950 [1:36:14<1:05:12,  2.10it/s]Training 2/3 epoch (loss 0.0001):  52%|█████▏    | 8733/16950 [1:36:14<1:05:51,  2.08it/s]Training 2/3 epoch (loss 0.2398):  52%|█████▏    | 8733/16950 [1:36:14<1:05:51,  2.08it/s]Training 2/3 epoch (loss 0.2398):  52%|█████▏    | 8734/16950 [1:36:14<1:14:14,  1.84it/s]Training 2/3 epoch (loss 0.4711):  52%|█████▏    | 8734/16950 [1:36:15<1:14:14,  1.84it/s]Training 2/3 epoch (loss 0.4711):  52%|█████▏    | 8735/16950 [1:36:15<1:16:31,  1.79it/s]Training 2/3 epoch (loss 0.3107):  52%|█████▏    | 8735/16950 [1:36:16<1:16:31,  1.79it/s]Training 2/3 epoch (loss 0.3107):  52%|█████▏    | 8736/16950 [1:36:16<1:19:47,  1.72it/s]Training 2/3 epoch (loss 0.4182):  52%|█████▏    | 8736/16950 [1:36:16<1:19:47,  1.72it/s]Training 2/3 epoch (loss 0.4182):  52%|█████▏    | 8737/16950 [1:36:16<1:20:46,  1.69it/s]Training 2/3 epoch (loss 0.0315):  52%|█████▏    | 8737/16950 [1:36:17<1:20:46,  1.69it/s]Training 2/3 epoch (loss 0.0315):  52%|█████▏    | 8738/16950 [1:36:17<1:18:50,  1.74it/s]Training 2/3 epoch (loss 0.0469):  52%|█████▏    | 8738/16950 [1:36:18<1:18:50,  1.74it/s]Training 2/3 epoch (loss 0.0469):  52%|█████▏    | 8739/16950 [1:36:18<1:32:33,  1.48it/s]Training 2/3 epoch (loss 0.1637):  52%|█████▏    | 8739/16950 [1:36:19<1:32:33,  1.48it/s]Training 2/3 epoch (loss 0.1637):  52%|█████▏    | 8740/16950 [1:36:19<1:50:25,  1.24it/s]Training 2/3 epoch (loss 0.2004):  52%|█████▏    | 8740/16950 [1:36:20<1:50:25,  1.24it/s]Training 2/3 epoch (loss 0.2004):  52%|█████▏    | 8741/16950 [1:36:20<1:44:03,  1.31it/s]Training 2/3 epoch (loss 0.4833):  52%|█████▏    | 8741/16950 [1:36:20<1:44:03,  1.31it/s]Training 2/3 epoch (loss 0.4833):  52%|█████▏    | 8742/16950 [1:36:20<1:29:09,  1.53it/s]Training 2/3 epoch (loss 0.1060):  52%|█████▏    | 8742/16950 [1:36:20<1:29:09,  1.53it/s]Training 2/3 epoch (loss 0.1060):  52%|█████▏    | 8743/16950 [1:36:20<1:21:02,  1.69it/s]Training 2/3 epoch (loss 0.4727):  52%|█████▏    | 8743/16950 [1:36:21<1:21:02,  1.69it/s]Training 2/3 epoch (loss 0.4727):  52%|█████▏    | 8744/16950 [1:36:21<1:32:09,  1.48it/s]Training 2/3 epoch (loss 0.5490):  52%|█████▏    | 8744/16950 [1:36:22<1:32:09,  1.48it/s]Training 2/3 epoch (loss 0.5490):  52%|█████▏    | 8745/16950 [1:36:22<1:28:03,  1.55it/s]Training 2/3 epoch (loss 0.3553):  52%|█████▏    | 8745/16950 [1:36:23<1:28:03,  1.55it/s]Training 2/3 epoch (loss 0.3553):  52%|█████▏    | 8746/16950 [1:36:23<1:31:53,  1.49it/s]Training 2/3 epoch (loss 0.0171):  52%|█████▏    | 8746/16950 [1:36:23<1:31:53,  1.49it/s]Training 2/3 epoch (loss 0.0171):  52%|█████▏    | 8747/16950 [1:36:23<1:39:21,  1.38it/s]Training 2/3 epoch (loss 0.0085):  52%|█████▏    | 8747/16950 [1:36:24<1:39:21,  1.38it/s]Training 2/3 epoch (loss 0.0085):  52%|█████▏    | 8748/16950 [1:36:24<1:30:33,  1.51it/s]Training 2/3 epoch (loss 0.0721):  52%|█████▏    | 8748/16950 [1:36:24<1:30:33,  1.51it/s]Training 2/3 epoch (loss 0.0721):  52%|█████▏    | 8749/16950 [1:36:24<1:26:31,  1.58it/s]Training 2/3 epoch (loss 0.2399):  52%|█████▏    | 8749/16950 [1:36:25<1:26:31,  1.58it/s]Training 2/3 epoch (loss 0.2399):  52%|█████▏    | 8750/16950 [1:36:25<1:18:23,  1.74it/s]Training 2/3 epoch (loss 0.0083):  52%|█████▏    | 8750/16950 [1:36:26<1:18:23,  1.74it/s]Training 2/3 epoch (loss 0.0083):  52%|█████▏    | 8751/16950 [1:36:26<1:20:48,  1.69it/s]Training 2/3 epoch (loss 0.0036):  52%|█████▏    | 8751/16950 [1:36:26<1:20:48,  1.69it/s]Training 2/3 epoch (loss 0.0036):  52%|█████▏    | 8752/16950 [1:36:26<1:11:43,  1.91it/s]Training 2/3 epoch (loss 0.0030):  52%|█████▏    | 8752/16950 [1:36:27<1:11:43,  1.91it/s]Training 2/3 epoch (loss 0.0030):  52%|█████▏    | 8753/16950 [1:36:27<1:15:57,  1.80it/s]Training 2/3 epoch (loss 0.0025):  52%|█████▏    | 8753/16950 [1:36:27<1:15:57,  1.80it/s]Training 2/3 epoch (loss 0.0025):  52%|█████▏    | 8754/16950 [1:36:27<1:22:57,  1.65it/s]Training 2/3 epoch (loss 0.0020):  52%|█████▏    | 8754/16950 [1:36:28<1:22:57,  1.65it/s]Training 2/3 epoch (loss 0.0020):  52%|█████▏    | 8755/16950 [1:36:28<1:23:19,  1.64it/s]Training 2/3 epoch (loss 0.0070):  52%|█████▏    | 8755/16950 [1:36:28<1:23:19,  1.64it/s]Training 2/3 epoch (loss 0.0070):  52%|█████▏    | 8756/16950 [1:36:28<1:21:16,  1.68it/s]Training 2/3 epoch (loss 0.2095):  52%|█████▏    | 8756/16950 [1:36:29<1:21:16,  1.68it/s]Training 2/3 epoch (loss 0.2095):  52%|█████▏    | 8757/16950 [1:36:29<1:21:12,  1.68it/s]Training 2/3 epoch (loss 0.5300):  52%|█████▏    | 8757/16950 [1:36:30<1:21:12,  1.68it/s]Training 2/3 epoch (loss 0.5300):  52%|█████▏    | 8758/16950 [1:36:30<1:32:33,  1.48it/s]Training 2/3 epoch (loss 0.0015):  52%|█████▏    | 8758/16950 [1:36:31<1:32:33,  1.48it/s]Training 2/3 epoch (loss 0.0015):  52%|█████▏    | 8759/16950 [1:36:31<1:33:02,  1.47it/s]Training 2/3 epoch (loss 0.3814):  52%|█████▏    | 8759/16950 [1:36:31<1:33:02,  1.47it/s]Training 2/3 epoch (loss 0.3814):  52%|█████▏    | 8760/16950 [1:36:31<1:31:19,  1.49it/s]Training 2/3 epoch (loss 0.0330):  52%|█████▏    | 8760/16950 [1:36:32<1:31:19,  1.49it/s]Training 2/3 epoch (loss 0.0330):  52%|█████▏    | 8761/16950 [1:36:32<1:20:54,  1.69it/s]Training 2/3 epoch (loss 0.4452):  52%|█████▏    | 8761/16950 [1:36:32<1:20:54,  1.69it/s]Training 2/3 epoch (loss 0.4452):  52%|█████▏    | 8762/16950 [1:36:32<1:13:24,  1.86it/s]Training 2/3 epoch (loss 0.1336):  52%|█████▏    | 8762/16950 [1:36:33<1:13:24,  1.86it/s]Training 2/3 epoch (loss 0.1336):  52%|█████▏    | 8763/16950 [1:36:33<1:14:58,  1.82it/s]Training 2/3 epoch (loss 0.0233):  52%|█████▏    | 8763/16950 [1:36:33<1:14:58,  1.82it/s]Training 2/3 epoch (loss 0.0233):  52%|█████▏    | 8764/16950 [1:36:33<1:21:12,  1.68it/s]Training 2/3 epoch (loss 0.0376):  52%|█████▏    | 8764/16950 [1:36:34<1:21:12,  1.68it/s]Training 2/3 epoch (loss 0.0376):  52%|█████▏    | 8765/16950 [1:36:34<1:26:44,  1.57it/s]Training 2/3 epoch (loss 0.2499):  52%|█████▏    | 8765/16950 [1:36:35<1:26:44,  1.57it/s]Training 2/3 epoch (loss 0.2499):  52%|█████▏    | 8766/16950 [1:36:35<1:18:18,  1.74it/s]Training 2/3 epoch (loss 0.0561):  52%|█████▏    | 8766/16950 [1:36:35<1:18:18,  1.74it/s]Training 2/3 epoch (loss 0.0561):  52%|█████▏    | 8767/16950 [1:36:35<1:11:03,  1.92it/s]Training 2/3 epoch (loss 0.0533):  52%|█████▏    | 8767/16950 [1:36:36<1:11:03,  1.92it/s]Training 2/3 epoch (loss 0.0533):  52%|█████▏    | 8768/16950 [1:36:36<1:17:41,  1.76it/s]Training 2/3 epoch (loss 0.0085):  52%|█████▏    | 8768/16950 [1:36:36<1:17:41,  1.76it/s]Training 2/3 epoch (loss 0.0085):  52%|█████▏    | 8769/16950 [1:36:36<1:21:58,  1.66it/s]Training 2/3 epoch (loss 0.0009):  52%|█████▏    | 8769/16950 [1:36:37<1:21:58,  1.66it/s]Training 2/3 epoch (loss 0.0009):  52%|█████▏    | 8770/16950 [1:36:37<1:18:52,  1.73it/s]Training 2/3 epoch (loss 0.0023):  52%|█████▏    | 8770/16950 [1:36:37<1:18:52,  1.73it/s]Training 2/3 epoch (loss 0.0023):  52%|█████▏    | 8771/16950 [1:36:37<1:17:26,  1.76it/s]Training 2/3 epoch (loss 0.0802):  52%|█████▏    | 8771/16950 [1:36:38<1:17:26,  1.76it/s]Training 2/3 epoch (loss 0.0802):  52%|█████▏    | 8772/16950 [1:36:38<1:12:09,  1.89it/s]Training 2/3 epoch (loss 0.0117):  52%|█████▏    | 8772/16950 [1:36:38<1:12:09,  1.89it/s]Training 2/3 epoch (loss 0.0117):  52%|█████▏    | 8773/16950 [1:36:38<1:10:35,  1.93it/s]Training 2/3 epoch (loss 0.0007):  52%|█████▏    | 8773/16950 [1:36:39<1:10:35,  1.93it/s]Training 2/3 epoch (loss 0.0007):  52%|█████▏    | 8774/16950 [1:36:39<1:15:06,  1.81it/s]Training 2/3 epoch (loss 0.0716):  52%|█████▏    | 8774/16950 [1:36:39<1:15:06,  1.81it/s]Training 2/3 epoch (loss 0.0716):  52%|█████▏    | 8775/16950 [1:36:39<1:15:18,  1.81it/s]Training 2/3 epoch (loss 0.0083):  52%|█████▏    | 8775/16950 [1:36:40<1:15:18,  1.81it/s]Training 2/3 epoch (loss 0.0083):  52%|█████▏    | 8776/16950 [1:36:40<1:19:12,  1.72it/s]Training 2/3 epoch (loss 0.0336):  52%|█████▏    | 8776/16950 [1:36:41<1:19:12,  1.72it/s]Training 2/3 epoch (loss 0.0336):  52%|█████▏    | 8777/16950 [1:36:41<1:17:00,  1.77it/s]Training 2/3 epoch (loss 0.0293):  52%|█████▏    | 8777/16950 [1:36:41<1:17:00,  1.77it/s]Training 2/3 epoch (loss 0.0293):  52%|█████▏    | 8778/16950 [1:36:41<1:19:40,  1.71it/s]Training 2/3 epoch (loss 0.0013):  52%|█████▏    | 8778/16950 [1:36:42<1:19:40,  1.71it/s]Training 2/3 epoch (loss 0.0013):  52%|█████▏    | 8779/16950 [1:36:42<1:09:33,  1.96it/s]Training 2/3 epoch (loss 0.1325):  52%|█████▏    | 8779/16950 [1:36:42<1:09:33,  1.96it/s]Training 2/3 epoch (loss 0.1325):  52%|█████▏    | 8780/16950 [1:36:42<1:12:49,  1.87it/s]Training 2/3 epoch (loss 0.2351):  52%|█████▏    | 8780/16950 [1:36:43<1:12:49,  1.87it/s]Training 2/3 epoch (loss 0.2351):  52%|█████▏    | 8781/16950 [1:36:43<1:16:04,  1.79it/s]Training 2/3 epoch (loss 0.2848):  52%|█████▏    | 8781/16950 [1:36:43<1:16:04,  1.79it/s]Training 2/3 epoch (loss 0.2848):  52%|█████▏    | 8782/16950 [1:36:43<1:14:07,  1.84it/s]Training 2/3 epoch (loss 0.2892):  52%|█████▏    | 8782/16950 [1:36:44<1:14:07,  1.84it/s]Training 2/3 epoch (loss 0.2892):  52%|█████▏    | 8783/16950 [1:36:44<1:16:57,  1.77it/s]Training 2/3 epoch (loss 0.0421):  52%|█████▏    | 8783/16950 [1:36:45<1:16:57,  1.77it/s]Training 2/3 epoch (loss 0.0421):  52%|█████▏    | 8784/16950 [1:36:45<1:23:58,  1.62it/s]Training 2/3 epoch (loss 0.0114):  52%|█████▏    | 8784/16950 [1:36:45<1:23:58,  1.62it/s]Training 2/3 epoch (loss 0.0114):  52%|█████▏    | 8785/16950 [1:36:45<1:18:27,  1.73it/s]Training 2/3 epoch (loss 0.0795):  52%|█████▏    | 8785/16950 [1:36:46<1:18:27,  1.73it/s]Training 2/3 epoch (loss 0.0795):  52%|█████▏    | 8786/16950 [1:36:46<1:19:05,  1.72it/s]Training 2/3 epoch (loss 0.1143):  52%|█████▏    | 8786/16950 [1:36:46<1:19:05,  1.72it/s]Training 2/3 epoch (loss 0.1143):  52%|█████▏    | 8787/16950 [1:36:46<1:17:37,  1.75it/s]Training 2/3 epoch (loss 0.0245):  52%|█████▏    | 8787/16950 [1:36:47<1:17:37,  1.75it/s]Training 2/3 epoch (loss 0.0245):  52%|█████▏    | 8788/16950 [1:36:47<1:12:09,  1.89it/s]Training 2/3 epoch (loss 0.0616):  52%|█████▏    | 8788/16950 [1:36:47<1:12:09,  1.89it/s]Training 2/3 epoch (loss 0.0616):  52%|█████▏    | 8789/16950 [1:36:47<1:14:32,  1.82it/s]Training 2/3 epoch (loss 0.7645):  52%|█████▏    | 8789/16950 [1:36:48<1:14:32,  1.82it/s]Training 2/3 epoch (loss 0.7645):  52%|█████▏    | 8790/16950 [1:36:48<1:37:18,  1.40it/s]Training 2/3 epoch (loss 0.5118):  52%|█████▏    | 8790/16950 [1:36:49<1:37:18,  1.40it/s]Training 2/3 epoch (loss 0.5118):  52%|█████▏    | 8791/16950 [1:36:49<1:39:26,  1.37it/s]Training 2/3 epoch (loss 0.0071):  52%|█████▏    | 8791/16950 [1:36:50<1:39:26,  1.37it/s]Training 2/3 epoch (loss 0.0071):  52%|█████▏    | 8792/16950 [1:36:50<1:29:45,  1.51it/s]Training 2/3 epoch (loss 0.6561):  52%|█████▏    | 8792/16950 [1:36:50<1:29:45,  1.51it/s]Training 2/3 epoch (loss 0.6561):  52%|█████▏    | 8793/16950 [1:36:50<1:17:16,  1.76it/s]Training 2/3 epoch (loss 0.0010):  52%|█████▏    | 8793/16950 [1:36:51<1:17:16,  1.76it/s]Training 2/3 epoch (loss 0.0010):  52%|█████▏    | 8794/16950 [1:36:51<1:14:12,  1.83it/s]Training 2/3 epoch (loss 0.4147):  52%|█████▏    | 8794/16950 [1:36:51<1:14:12,  1.83it/s]Training 2/3 epoch (loss 0.4147):  52%|█████▏    | 8795/16950 [1:36:51<1:19:52,  1.70it/s]Training 2/3 epoch (loss 0.0125):  52%|█████▏    | 8795/16950 [1:36:52<1:19:52,  1.70it/s]Training 2/3 epoch (loss 0.0125):  52%|█████▏    | 8796/16950 [1:36:52<1:20:22,  1.69it/s]Training 2/3 epoch (loss 0.0066):  52%|█████▏    | 8796/16950 [1:36:53<1:20:22,  1.69it/s]Training 2/3 epoch (loss 0.0066):  52%|█████▏    | 8797/16950 [1:36:53<1:24:23,  1.61it/s]Training 2/3 epoch (loss 0.0245):  52%|█████▏    | 8797/16950 [1:36:53<1:24:23,  1.61it/s]Training 2/3 epoch (loss 0.0245):  52%|█████▏    | 8798/16950 [1:36:53<1:21:43,  1.66it/s]Training 2/3 epoch (loss 0.1790):  52%|█████▏    | 8798/16950 [1:36:54<1:21:43,  1.66it/s]Training 2/3 epoch (loss 0.1790):  52%|█████▏    | 8799/16950 [1:36:54<1:24:46,  1.60it/s]Training 2/3 epoch (loss 0.3424):  52%|█████▏    | 8799/16950 [1:36:54<1:24:46,  1.60it/s]Training 2/3 epoch (loss 0.3424):  52%|█████▏    | 8800/16950 [1:36:54<1:14:30,  1.82it/s]Training 2/3 epoch (loss 0.0268):  52%|█████▏    | 8800/16950 [1:36:55<1:14:30,  1.82it/s]Training 2/3 epoch (loss 0.0268):  52%|█████▏    | 8801/16950 [1:36:55<1:08:19,  1.99it/s]Training 2/3 epoch (loss 0.0227):  52%|█████▏    | 8801/16950 [1:36:55<1:08:19,  1.99it/s]Training 2/3 epoch (loss 0.0227):  52%|█████▏    | 8802/16950 [1:36:55<1:17:55,  1.74it/s]Training 2/3 epoch (loss 0.3761):  52%|█████▏    | 8802/16950 [1:36:56<1:17:55,  1.74it/s]Training 2/3 epoch (loss 0.3761):  52%|█████▏    | 8803/16950 [1:36:56<1:14:23,  1.83it/s]Training 2/3 epoch (loss 0.3397):  52%|█████▏    | 8803/16950 [1:36:56<1:14:23,  1.83it/s]Training 2/3 epoch (loss 0.3397):  52%|█████▏    | 8804/16950 [1:36:56<1:05:01,  2.09it/s]Training 2/3 epoch (loss 0.0067):  52%|█████▏    | 8804/16950 [1:36:56<1:05:01,  2.09it/s]Training 2/3 epoch (loss 0.0067):  52%|█████▏    | 8805/16950 [1:36:56<1:00:51,  2.23it/s]Training 2/3 epoch (loss 0.0004):  52%|█████▏    | 8805/16950 [1:36:57<1:00:51,  2.23it/s]Training 2/3 epoch (loss 0.0004):  52%|█████▏    | 8806/16950 [1:36:57<1:00:18,  2.25it/s]Training 2/3 epoch (loss 0.2216):  52%|█████▏    | 8806/16950 [1:36:57<1:00:18,  2.25it/s]Training 2/3 epoch (loss 0.2216):  52%|█████▏    | 8807/16950 [1:36:57<1:00:20,  2.25it/s]Training 2/3 epoch (loss 0.3425):  52%|█████▏    | 8807/16950 [1:36:58<1:00:20,  2.25it/s]Training 2/3 epoch (loss 0.3425):  52%|█████▏    | 8808/16950 [1:36:58<54:43,  2.48it/s]  Training 2/3 epoch (loss 0.1017):  52%|█████▏    | 8808/16950 [1:36:58<54:43,  2.48it/s]Training 2/3 epoch (loss 0.1017):  52%|█████▏    | 8809/16950 [1:36:58<1:10:12,  1.93it/s]Training 2/3 epoch (loss 0.0002):  52%|█████▏    | 8809/16950 [1:36:59<1:10:12,  1.93it/s]Training 2/3 epoch (loss 0.0002):  52%|█████▏    | 8810/16950 [1:36:59<1:10:37,  1.92it/s]Training 2/3 epoch (loss 0.0095):  52%|█████▏    | 8810/16950 [1:37:00<1:10:37,  1.92it/s]Training 2/3 epoch (loss 0.0095):  52%|█████▏    | 8811/16950 [1:37:00<1:32:36,  1.46it/s]Training 2/3 epoch (loss 0.3558):  52%|█████▏    | 8811/16950 [1:37:01<1:32:36,  1.46it/s]Training 2/3 epoch (loss 0.3558):  52%|█████▏    | 8812/16950 [1:37:01<1:29:55,  1.51it/s]Training 2/3 epoch (loss 0.2291):  52%|█████▏    | 8812/16950 [1:37:01<1:29:55,  1.51it/s]Training 2/3 epoch (loss 0.2291):  52%|█████▏    | 8813/16950 [1:37:01<1:26:29,  1.57it/s]Training 2/3 epoch (loss 0.0146):  52%|█████▏    | 8813/16950 [1:37:02<1:26:29,  1.57it/s]Training 2/3 epoch (loss 0.0146):  52%|█████▏    | 8814/16950 [1:37:02<1:28:43,  1.53it/s]Training 2/3 epoch (loss 0.0295):  52%|█████▏    | 8814/16950 [1:37:02<1:28:43,  1.53it/s]Training 2/3 epoch (loss 0.0295):  52%|█████▏    | 8815/16950 [1:37:02<1:21:34,  1.66it/s]Training 2/3 epoch (loss 0.0406):  52%|█████▏    | 8815/16950 [1:37:03<1:21:34,  1.66it/s]Training 2/3 epoch (loss 0.0406):  52%|█████▏    | 8816/16950 [1:37:03<1:18:15,  1.73it/s]Training 2/3 epoch (loss 0.4418):  52%|█████▏    | 8816/16950 [1:37:04<1:18:15,  1.73it/s]Training 2/3 epoch (loss 0.4418):  52%|█████▏    | 8817/16950 [1:37:04<1:34:12,  1.44it/s]Training 2/3 epoch (loss 0.0046):  52%|█████▏    | 8817/16950 [1:37:04<1:34:12,  1.44it/s]Training 2/3 epoch (loss 0.0046):  52%|█████▏    | 8818/16950 [1:37:04<1:29:27,  1.52it/s]Training 2/3 epoch (loss 0.6795):  52%|█████▏    | 8818/16950 [1:37:05<1:29:27,  1.52it/s]Training 2/3 epoch (loss 0.6795):  52%|█████▏    | 8819/16950 [1:37:05<1:21:11,  1.67it/s]Training 2/3 epoch (loss 0.2922):  52%|█████▏    | 8819/16950 [1:37:05<1:21:11,  1.67it/s]Training 2/3 epoch (loss 0.2922):  52%|█████▏    | 8820/16950 [1:37:05<1:20:19,  1.69it/s]Training 2/3 epoch (loss 0.4530):  52%|█████▏    | 8820/16950 [1:37:06<1:20:19,  1.69it/s]Training 2/3 epoch (loss 0.4530):  52%|█████▏    | 8821/16950 [1:37:06<1:12:41,  1.86it/s]Training 2/3 epoch (loss 0.0182):  52%|█████▏    | 8821/16950 [1:37:07<1:12:41,  1.86it/s]Training 2/3 epoch (loss 0.0182):  52%|█████▏    | 8822/16950 [1:37:07<1:18:19,  1.73it/s]Training 2/3 epoch (loss 0.0107):  52%|█████▏    | 8822/16950 [1:37:07<1:18:19,  1.73it/s]Training 2/3 epoch (loss 0.0107):  52%|█████▏    | 8823/16950 [1:37:07<1:17:58,  1.74it/s]Training 2/3 epoch (loss 0.0042):  52%|█████▏    | 8823/16950 [1:37:08<1:17:58,  1.74it/s]Training 2/3 epoch (loss 0.0042):  52%|█████▏    | 8824/16950 [1:37:08<1:15:00,  1.81it/s]Training 2/3 epoch (loss nan):  52%|█████▏    | 8824/16950 [1:37:09<1:15:00,  1.81it/s]   Training 2/3 epoch (loss nan):  52%|█████▏    | 8825/16950 [1:37:09<1:35:48,  1.41it/s]Training 2/3 epoch (loss 0.3724):  52%|█████▏    | 8825/16950 [1:37:10<1:35:48,  1.41it/s]Training 2/3 epoch (loss 0.3724):  52%|█████▏    | 8826/16950 [1:37:10<1:55:04,  1.18it/s]Training 2/3 epoch (loss 0.1490):  52%|█████▏    | 8826/16950 [1:37:11<1:55:04,  1.18it/s]Training 2/3 epoch (loss 0.1490):  52%|█████▏    | 8827/16950 [1:37:11<1:51:28,  1.21it/s]Training 2/3 epoch (loss 0.4703):  52%|█████▏    | 8827/16950 [1:37:11<1:51:28,  1.21it/s]Training 2/3 epoch (loss 0.4703):  52%|█████▏    | 8828/16950 [1:37:11<1:42:12,  1.32it/s]Training 2/3 epoch (loss 0.1855):  52%|█████▏    | 8828/16950 [1:37:12<1:42:12,  1.32it/s]Training 2/3 epoch (loss 0.1855):  52%|█████▏    | 8829/16950 [1:37:12<1:32:53,  1.46it/s]Training 2/3 epoch (loss 0.1613):  52%|█████▏    | 8829/16950 [1:37:13<1:32:53,  1.46it/s]Training 2/3 epoch (loss 0.1613):  52%|█████▏    | 8830/16950 [1:37:13<1:39:52,  1.36it/s]Training 2/3 epoch (loss 0.3889):  52%|█████▏    | 8830/16950 [1:37:14<1:39:52,  1.36it/s]Training 2/3 epoch (loss 0.3889):  52%|█████▏    | 8831/16950 [1:37:14<1:49:32,  1.24it/s]Training 2/3 epoch (loss 0.0089):  52%|█████▏    | 8831/16950 [1:37:15<1:49:32,  1.24it/s]Training 2/3 epoch (loss 0.0089):  52%|█████▏    | 8832/16950 [1:37:15<1:55:23,  1.17it/s]Training 2/3 epoch (loss 0.0067):  52%|█████▏    | 8832/16950 [1:37:15<1:55:23,  1.17it/s]Training 2/3 epoch (loss 0.0067):  52%|█████▏    | 8833/16950 [1:37:15<1:50:56,  1.22it/s]Training 2/3 epoch (loss 0.0003):  52%|█████▏    | 8833/16950 [1:37:16<1:50:56,  1.22it/s]Training 2/3 epoch (loss 0.0003):  52%|█████▏    | 8834/16950 [1:37:16<1:37:35,  1.39it/s]Training 2/3 epoch (loss 0.0287):  52%|█████▏    | 8834/16950 [1:37:16<1:37:35,  1.39it/s]Training 2/3 epoch (loss 0.0287):  52%|█████▏    | 8835/16950 [1:37:16<1:30:37,  1.49it/s]Training 2/3 epoch (loss 0.1637):  52%|█████▏    | 8835/16950 [1:37:17<1:30:37,  1.49it/s]Training 2/3 epoch (loss 0.1637):  52%|█████▏    | 8836/16950 [1:37:17<1:24:02,  1.61it/s]Training 2/3 epoch (loss 0.0426):  52%|█████▏    | 8836/16950 [1:37:17<1:24:02,  1.61it/s]Training 2/3 epoch (loss 0.0426):  52%|█████▏    | 8837/16950 [1:37:17<1:25:51,  1.57it/s]Training 2/3 epoch (loss 0.0015):  52%|█████▏    | 8837/16950 [1:37:18<1:25:51,  1.57it/s]Training 2/3 epoch (loss 0.0015):  52%|█████▏    | 8838/16950 [1:37:18<1:20:37,  1.68it/s]Training 2/3 epoch (loss 0.6173):  52%|█████▏    | 8838/16950 [1:37:19<1:20:37,  1.68it/s]Training 2/3 epoch (loss 0.6173):  52%|█████▏    | 8839/16950 [1:37:19<1:20:57,  1.67it/s]Training 2/3 epoch (loss 0.4893):  52%|█████▏    | 8839/16950 [1:37:19<1:20:57,  1.67it/s]Training 2/3 epoch (loss 0.4893):  52%|█████▏    | 8840/16950 [1:37:19<1:24:46,  1.59it/s]Training 2/3 epoch (loss 0.4742):  52%|█████▏    | 8840/16950 [1:37:20<1:24:46,  1.59it/s]Training 2/3 epoch (loss 0.4742):  52%|█████▏    | 8841/16950 [1:37:20<1:27:07,  1.55it/s]Training 2/3 epoch (loss 0.0029):  52%|█████▏    | 8841/16950 [1:37:20<1:27:07,  1.55it/s]Training 2/3 epoch (loss 0.0029):  52%|█████▏    | 8842/16950 [1:37:20<1:21:25,  1.66it/s]Training 2/3 epoch (loss 0.0433):  52%|█████▏    | 8842/16950 [1:37:21<1:21:25,  1.66it/s]Training 2/3 epoch (loss 0.0433):  52%|█████▏    | 8843/16950 [1:37:21<1:36:56,  1.39it/s]Training 2/3 epoch (loss 0.0532):  52%|█████▏    | 8843/16950 [1:37:22<1:36:56,  1.39it/s]Training 2/3 epoch (loss 0.0532):  52%|█████▏    | 8844/16950 [1:37:22<1:39:16,  1.36it/s]Training 2/3 epoch (loss 0.0001):  52%|█████▏    | 8844/16950 [1:37:23<1:39:16,  1.36it/s]Training 2/3 epoch (loss 0.0001):  52%|█████▏    | 8845/16950 [1:37:23<1:28:56,  1.52it/s]Training 2/3 epoch (loss 0.0196):  52%|█████▏    | 8845/16950 [1:37:23<1:28:56,  1.52it/s]Training 2/3 epoch (loss 0.0196):  52%|█████▏    | 8846/16950 [1:37:23<1:26:23,  1.56it/s]Training 2/3 epoch (loss 0.0040):  52%|█████▏    | 8846/16950 [1:37:24<1:26:23,  1.56it/s]Training 2/3 epoch (loss 0.0040):  52%|█████▏    | 8847/16950 [1:37:24<1:23:29,  1.62it/s]Training 2/3 epoch (loss 0.2302):  52%|█████▏    | 8847/16950 [1:37:25<1:23:29,  1.62it/s]Training 2/3 epoch (loss 0.2302):  52%|█████▏    | 8848/16950 [1:37:25<1:24:31,  1.60it/s]Training 2/3 epoch (loss 0.0001):  52%|█████▏    | 8848/16950 [1:37:25<1:24:31,  1.60it/s]Training 2/3 epoch (loss 0.0001):  52%|█████▏    | 8849/16950 [1:37:25<1:25:14,  1.58it/s]Training 2/3 epoch (loss 0.0007):  52%|█████▏    | 8849/16950 [1:37:26<1:25:14,  1.58it/s]Training 2/3 epoch (loss 0.0007):  52%|█████▏    | 8850/16950 [1:37:26<1:20:41,  1.67it/s]Training 2/3 epoch (loss 0.0636):  52%|█████▏    | 8850/16950 [1:37:26<1:20:41,  1.67it/s]Training 2/3 epoch (loss 0.0636):  52%|█████▏    | 8851/16950 [1:37:26<1:22:19,  1.64it/s]Training 2/3 epoch (loss 0.0120):  52%|█████▏    | 8851/16950 [1:37:27<1:22:19,  1.64it/s]Training 2/3 epoch (loss 0.0120):  52%|█████▏    | 8852/16950 [1:37:27<1:17:26,  1.74it/s]Training 2/3 epoch (loss 0.0549):  52%|█████▏    | 8852/16950 [1:37:27<1:17:26,  1.74it/s]Training 2/3 epoch (loss 0.0549):  52%|█████▏    | 8853/16950 [1:37:27<1:13:24,  1.84it/s]Training 2/3 epoch (loss 0.2682):  52%|█████▏    | 8853/16950 [1:37:28<1:13:24,  1.84it/s]Training 2/3 epoch (loss 0.2682):  52%|█████▏    | 8854/16950 [1:37:28<1:12:56,  1.85it/s]Training 2/3 epoch (loss 0.3150):  52%|█████▏    | 8854/16950 [1:37:29<1:12:56,  1.85it/s]Training 2/3 epoch (loss 0.3150):  52%|█████▏    | 8855/16950 [1:37:29<1:18:41,  1.71it/s]Training 2/3 epoch (loss 0.0032):  52%|█████▏    | 8855/16950 [1:37:29<1:18:41,  1.71it/s]Training 2/3 epoch (loss 0.0032):  52%|█████▏    | 8856/16950 [1:37:29<1:18:35,  1.72it/s]Training 2/3 epoch (loss 0.0024):  52%|█████▏    | 8856/16950 [1:37:30<1:18:35,  1.72it/s]Training 2/3 epoch (loss 0.0024):  52%|█████▏    | 8857/16950 [1:37:30<1:17:12,  1.75it/s]Training 2/3 epoch (loss 0.0287):  52%|█████▏    | 8857/16950 [1:37:30<1:17:12,  1.75it/s]Training 2/3 epoch (loss 0.0287):  52%|█████▏    | 8858/16950 [1:37:30<1:19:54,  1.69it/s]Training 2/3 epoch (loss 0.5443):  52%|█████▏    | 8858/16950 [1:37:31<1:19:54,  1.69it/s]Training 2/3 epoch (loss 0.5443):  52%|█████▏    | 8859/16950 [1:37:31<1:14:39,  1.81it/s]Training 2/3 epoch (loss 0.1842):  52%|█████▏    | 8859/16950 [1:37:31<1:14:39,  1.81it/s]Training 2/3 epoch (loss 0.1842):  52%|█████▏    | 8860/16950 [1:37:31<1:13:37,  1.83it/s]Training 2/3 epoch (loss 0.0322):  52%|█████▏    | 8860/16950 [1:37:32<1:13:37,  1.83it/s]Training 2/3 epoch (loss 0.0322):  52%|█████▏    | 8861/16950 [1:37:32<1:28:10,  1.53it/s]Training 2/3 epoch (loss 0.0563):  52%|█████▏    | 8861/16950 [1:37:33<1:28:10,  1.53it/s]Training 2/3 epoch (loss 0.0563):  52%|█████▏    | 8862/16950 [1:37:33<1:22:47,  1.63it/s]Training 2/3 epoch (loss 0.1600):  52%|█████▏    | 8862/16950 [1:37:33<1:22:47,  1.63it/s]Training 2/3 epoch (loss 0.1600):  52%|█████▏    | 8863/16950 [1:37:33<1:14:57,  1.80it/s]Training 2/3 epoch (loss 0.3507):  52%|█████▏    | 8863/16950 [1:37:34<1:14:57,  1.80it/s]Training 2/3 epoch (loss 0.3507):  52%|█████▏    | 8864/16950 [1:37:34<1:18:11,  1.72it/s]Training 2/3 epoch (loss 0.1132):  52%|█████▏    | 8864/16950 [1:37:34<1:18:11,  1.72it/s]Training 2/3 epoch (loss 0.1132):  52%|█████▏    | 8865/16950 [1:37:34<1:17:31,  1.74it/s]Training 2/3 epoch (loss 0.3801):  52%|█████▏    | 8865/16950 [1:37:35<1:17:31,  1.74it/s]Training 2/3 epoch (loss 0.3801):  52%|█████▏    | 8866/16950 [1:37:35<1:10:46,  1.90it/s]Training 2/3 epoch (loss 0.0421):  52%|█████▏    | 8866/16950 [1:37:36<1:10:46,  1.90it/s]Training 2/3 epoch (loss 0.0421):  52%|█████▏    | 8867/16950 [1:37:36<1:34:47,  1.42it/s]Training 2/3 epoch (loss 0.0000):  52%|█████▏    | 8867/16950 [1:37:36<1:34:47,  1.42it/s]Training 2/3 epoch (loss 0.0000):  52%|█████▏    | 8868/16950 [1:37:36<1:23:14,  1.62it/s]Training 2/3 epoch (loss 0.9228):  52%|█████▏    | 8868/16950 [1:37:37<1:23:14,  1.62it/s]Training 2/3 epoch (loss 0.9228):  52%|█████▏    | 8869/16950 [1:37:37<1:36:57,  1.39it/s]Training 2/3 epoch (loss 0.1727):  52%|█████▏    | 8869/16950 [1:37:38<1:36:57,  1.39it/s]Training 2/3 epoch (loss 0.1727):  52%|█████▏    | 8870/16950 [1:37:38<1:28:25,  1.52it/s]Training 2/3 epoch (loss 0.4539):  52%|█████▏    | 8870/16950 [1:37:38<1:28:25,  1.52it/s]Training 2/3 epoch (loss 0.4539):  52%|█████▏    | 8871/16950 [1:37:38<1:18:34,  1.71it/s]Training 2/3 epoch (loss 0.7588):  52%|█████▏    | 8871/16950 [1:37:39<1:18:34,  1.71it/s]Training 2/3 epoch (loss 0.7588):  52%|█████▏    | 8872/16950 [1:37:39<1:09:58,  1.92it/s]Training 2/3 epoch (loss 0.0884):  52%|█████▏    | 8872/16950 [1:37:39<1:09:58,  1.92it/s]Training 2/3 epoch (loss 0.0884):  52%|█████▏    | 8873/16950 [1:37:39<1:07:21,  2.00it/s]Training 2/3 epoch (loss 0.2402):  52%|█████▏    | 8873/16950 [1:37:40<1:07:21,  2.00it/s]Training 2/3 epoch (loss 0.2402):  52%|█████▏    | 8874/16950 [1:37:40<1:14:32,  1.81it/s]Training 2/3 epoch (loss 0.0005):  52%|█████▏    | 8874/16950 [1:37:40<1:14:32,  1.81it/s]Training 2/3 epoch (loss 0.0005):  52%|█████▏    | 8875/16950 [1:37:40<1:15:20,  1.79it/s]Training 2/3 epoch (loss 0.1398):  52%|█████▏    | 8875/16950 [1:37:41<1:15:20,  1.79it/s]Training 2/3 epoch (loss 0.1398):  52%|█████▏    | 8876/16950 [1:37:41<1:12:18,  1.86it/s]Training 2/3 epoch (loss 0.5819):  52%|█████▏    | 8876/16950 [1:37:42<1:12:18,  1.86it/s]Training 2/3 epoch (loss 0.5819):  52%|█████▏    | 8877/16950 [1:37:42<1:30:09,  1.49it/s]Training 2/3 epoch (loss 0.0043):  52%|█████▏    | 8877/16950 [1:37:42<1:30:09,  1.49it/s]Training 2/3 epoch (loss 0.0043):  52%|█████▏    | 8878/16950 [1:37:42<1:28:28,  1.52it/s]Training 2/3 epoch (loss 0.0295):  52%|█████▏    | 8878/16950 [1:37:43<1:28:28,  1.52it/s]Training 2/3 epoch (loss 0.0295):  52%|█████▏    | 8879/16950 [1:37:43<1:21:14,  1.66it/s]Training 2/3 epoch (loss 0.0010):  52%|█████▏    | 8879/16950 [1:37:43<1:21:14,  1.66it/s]Training 2/3 epoch (loss 0.0010):  52%|█████▏    | 8880/16950 [1:37:43<1:23:05,  1.62it/s]Training 2/3 epoch (loss 0.0007):  52%|█████▏    | 8880/16950 [1:37:44<1:23:05,  1.62it/s]Training 2/3 epoch (loss 0.0007):  52%|█████▏    | 8881/16950 [1:37:44<1:19:07,  1.70it/s]Training 2/3 epoch (loss 0.0181):  52%|█████▏    | 8881/16950 [1:37:45<1:19:07,  1.70it/s]Training 2/3 epoch (loss 0.0181):  52%|█████▏    | 8882/16950 [1:37:45<1:17:28,  1.74it/s]Training 2/3 epoch (loss 0.0006):  52%|█████▏    | 8882/16950 [1:37:45<1:17:28,  1.74it/s]Training 2/3 epoch (loss 0.0006):  52%|█████▏    | 8883/16950 [1:37:45<1:18:37,  1.71it/s]Training 2/3 epoch (loss 0.0025):  52%|█████▏    | 8883/16950 [1:37:46<1:18:37,  1.71it/s]Training 2/3 epoch (loss 0.0025):  52%|█████▏    | 8884/16950 [1:37:46<1:34:26,  1.42it/s]Training 2/3 epoch (loss 0.0057):  52%|█████▏    | 8884/16950 [1:37:47<1:34:26,  1.42it/s]Training 2/3 epoch (loss 0.0057):  52%|█████▏    | 8885/16950 [1:37:47<1:31:41,  1.47it/s]Training 2/3 epoch (loss 0.0211):  52%|█████▏    | 8885/16950 [1:37:47<1:31:41,  1.47it/s]Training 2/3 epoch (loss 0.0211):  52%|█████▏    | 8886/16950 [1:37:47<1:20:53,  1.66it/s]Training 2/3 epoch (loss 0.4352):  52%|█████▏    | 8886/16950 [1:37:48<1:20:53,  1.66it/s]Training 2/3 epoch (loss 0.4352):  52%|█████▏    | 8887/16950 [1:37:48<1:19:29,  1.69it/s]Training 2/3 epoch (loss 0.0258):  52%|█████▏    | 8887/16950 [1:37:48<1:19:29,  1.69it/s]Training 2/3 epoch (loss 0.0258):  52%|█████▏    | 8888/16950 [1:37:48<1:22:34,  1.63it/s]Training 2/3 epoch (loss 0.0175):  52%|█████▏    | 8888/16950 [1:37:49<1:22:34,  1.63it/s]Training 2/3 epoch (loss 0.0175):  52%|█████▏    | 8889/16950 [1:37:49<1:18:56,  1.70it/s]Training 2/3 epoch (loss 0.1711):  52%|█████▏    | 8889/16950 [1:37:50<1:18:56,  1.70it/s]Training 2/3 epoch (loss 0.1711):  52%|█████▏    | 8890/16950 [1:37:50<1:27:57,  1.53it/s]Training 2/3 epoch (loss 0.0076):  52%|█████▏    | 8890/16950 [1:37:51<1:27:57,  1.53it/s]Training 2/3 epoch (loss 0.0076):  52%|█████▏    | 8891/16950 [1:37:51<1:34:25,  1.42it/s]Training 2/3 epoch (loss 0.0548):  52%|█████▏    | 8891/16950 [1:37:51<1:34:25,  1.42it/s]Training 2/3 epoch (loss 0.0548):  52%|█████▏    | 8892/16950 [1:37:51<1:35:23,  1.41it/s]Training 2/3 epoch (loss 0.0666):  52%|█████▏    | 8892/16950 [1:37:52<1:35:23,  1.41it/s]Training 2/3 epoch (loss 0.0666):  52%|█████▏    | 8893/16950 [1:37:52<1:31:54,  1.46it/s]Training 2/3 epoch (loss 0.5931):  52%|█████▏    | 8893/16950 [1:37:52<1:31:54,  1.46it/s]Training 2/3 epoch (loss 0.5931):  52%|█████▏    | 8894/16950 [1:37:52<1:21:57,  1.64it/s]Training 2/3 epoch (loss 0.3215):  52%|█████▏    | 8894/16950 [1:37:53<1:21:57,  1.64it/s]Training 2/3 epoch (loss 0.3215):  52%|█████▏    | 8895/16950 [1:37:53<1:18:02,  1.72it/s]Training 2/3 epoch (loss 0.0590):  52%|█████▏    | 8895/16950 [1:37:53<1:18:02,  1.72it/s]Training 2/3 epoch (loss 0.0590):  52%|█████▏    | 8896/16950 [1:37:53<1:21:10,  1.65it/s]Training 2/3 epoch (loss 0.4108):  52%|█████▏    | 8896/16950 [1:37:54<1:21:10,  1.65it/s]Training 2/3 epoch (loss 0.4108):  52%|█████▏    | 8897/16950 [1:37:54<1:10:58,  1.89it/s]Training 2/3 epoch (loss 0.2741):  52%|█████▏    | 8897/16950 [1:37:54<1:10:58,  1.89it/s]Training 2/3 epoch (loss 0.2741):  52%|█████▏    | 8898/16950 [1:37:54<1:10:29,  1.90it/s]Training 2/3 epoch (loss 0.3222):  52%|█████▏    | 8898/16950 [1:37:55<1:10:29,  1.90it/s]Training 2/3 epoch (loss 0.3222):  53%|█████▎    | 8899/16950 [1:37:55<1:13:56,  1.81it/s]Training 2/3 epoch (loss 0.5673):  53%|█████▎    | 8899/16950 [1:37:56<1:13:56,  1.81it/s]Training 2/3 epoch (loss 0.5673):  53%|█████▎    | 8900/16950 [1:37:56<1:28:09,  1.52it/s]Training 2/3 epoch (loss 0.2150):  53%|█████▎    | 8900/16950 [1:37:56<1:28:09,  1.52it/s]Training 2/3 epoch (loss 0.2150):  53%|█████▎    | 8901/16950 [1:37:56<1:18:35,  1.71it/s]Training 2/3 epoch (loss 0.2899):  53%|█████▎    | 8901/16950 [1:37:57<1:18:35,  1.71it/s]Training 2/3 epoch (loss 0.2899):  53%|█████▎    | 8902/16950 [1:37:57<1:26:37,  1.55it/s]Training 2/3 epoch (loss 0.0115):  53%|█████▎    | 8902/16950 [1:37:58<1:26:37,  1.55it/s]Training 2/3 epoch (loss 0.0115):  53%|█████▎    | 8903/16950 [1:37:58<1:25:57,  1.56it/s]Training 2/3 epoch (loss 0.2559):  53%|█████▎    | 8903/16950 [1:37:58<1:25:57,  1.56it/s]Training 2/3 epoch (loss 0.2559):  53%|█████▎    | 8904/16950 [1:37:58<1:12:44,  1.84it/s]Training 2/3 epoch (loss 0.1409):  53%|█████▎    | 8904/16950 [1:37:59<1:12:44,  1.84it/s]Training 2/3 epoch (loss 0.1409):  53%|█████▎    | 8905/16950 [1:37:59<1:11:02,  1.89it/s]Training 2/3 epoch (loss 0.0005):  53%|█████▎    | 8905/16950 [1:37:59<1:11:02,  1.89it/s]Training 2/3 epoch (loss 0.0005):  53%|█████▎    | 8906/16950 [1:37:59<1:07:43,  1.98it/s]Training 2/3 epoch (loss 0.0280):  53%|█████▎    | 8906/16950 [1:38:00<1:07:43,  1.98it/s]Training 2/3 epoch (loss 0.0280):  53%|█████▎    | 8907/16950 [1:38:00<1:11:45,  1.87it/s]Training 2/3 epoch (loss 0.0023):  53%|█████▎    | 8907/16950 [1:38:00<1:11:45,  1.87it/s]Training 2/3 epoch (loss 0.0023):  53%|█████▎    | 8908/16950 [1:38:00<1:15:50,  1.77it/s]Training 2/3 epoch (loss 0.0090):  53%|█████▎    | 8908/16950 [1:38:01<1:15:50,  1.77it/s]Training 2/3 epoch (loss 0.0090):  53%|█████▎    | 8909/16950 [1:38:01<1:17:51,  1.72it/s]Training 2/3 epoch (loss 0.1727):  53%|█████▎    | 8909/16950 [1:38:02<1:17:51,  1.72it/s]Training 2/3 epoch (loss 0.1727):  53%|█████▎    | 8910/16950 [1:38:02<1:21:17,  1.65it/s]Training 2/3 epoch (loss 0.0588):  53%|█████▎    | 8910/16950 [1:38:02<1:21:17,  1.65it/s]Training 2/3 epoch (loss 0.0588):  53%|█████▎    | 8911/16950 [1:38:02<1:21:20,  1.65it/s]Training 2/3 epoch (loss 0.0931):  53%|█████▎    | 8911/16950 [1:38:03<1:21:20,  1.65it/s]Training 2/3 epoch (loss 0.0931):  53%|█████▎    | 8912/16950 [1:38:03<1:28:14,  1.52it/s]Training 2/3 epoch (loss 0.3431):  53%|█████▎    | 8912/16950 [1:38:04<1:28:14,  1.52it/s]Training 2/3 epoch (loss 0.3431):  53%|█████▎    | 8913/16950 [1:38:04<1:29:56,  1.49it/s]Training 2/3 epoch (loss 0.4418):  53%|█████▎    | 8913/16950 [1:38:04<1:29:56,  1.49it/s]Training 2/3 epoch (loss 0.4418):  53%|█████▎    | 8914/16950 [1:38:04<1:19:59,  1.67it/s]Training 2/3 epoch (loss 0.4426):  53%|█████▎    | 8914/16950 [1:38:04<1:19:59,  1.67it/s]Training 2/3 epoch (loss 0.4426):  53%|█████▎    | 8915/16950 [1:38:04<1:11:06,  1.88it/s]Training 2/3 epoch (loss 0.7479):  53%|█████▎    | 8915/16950 [1:38:05<1:11:06,  1.88it/s]Training 2/3 epoch (loss 0.7479):  53%|█████▎    | 8916/16950 [1:38:05<1:19:13,  1.69it/s]Training 2/3 epoch (loss 0.3332):  53%|█████▎    | 8916/16950 [1:38:06<1:19:13,  1.69it/s]Training 2/3 epoch (loss 0.3332):  53%|█████▎    | 8917/16950 [1:38:06<1:21:04,  1.65it/s]Training 2/3 epoch (loss 0.4215):  53%|█████▎    | 8917/16950 [1:38:06<1:21:04,  1.65it/s]Training 2/3 epoch (loss 0.4215):  53%|█████▎    | 8918/16950 [1:38:06<1:22:01,  1.63it/s]Training 2/3 epoch (loss 0.0034):  53%|█████▎    | 8918/16950 [1:38:07<1:22:01,  1.63it/s]Training 2/3 epoch (loss 0.0034):  53%|█████▎    | 8919/16950 [1:38:07<1:17:25,  1.73it/s]Training 2/3 epoch (loss 0.1606):  53%|█████▎    | 8919/16950 [1:38:07<1:17:25,  1.73it/s]Training 2/3 epoch (loss 0.1606):  53%|█████▎    | 8920/16950 [1:38:07<1:18:32,  1.70it/s]Training 2/3 epoch (loss 0.0083):  53%|█████▎    | 8920/16950 [1:38:08<1:18:32,  1.70it/s]Training 2/3 epoch (loss 0.0083):  53%|█████▎    | 8921/16950 [1:38:08<1:15:40,  1.77it/s]Training 2/3 epoch (loss 0.4056):  53%|█████▎    | 8921/16950 [1:38:09<1:15:40,  1.77it/s]Training 2/3 epoch (loss 0.4056):  53%|█████▎    | 8922/16950 [1:38:09<1:17:45,  1.72it/s]Training 2/3 epoch (loss 0.0174):  53%|█████▎    | 8922/16950 [1:38:09<1:17:45,  1.72it/s]Training 2/3 epoch (loss 0.0174):  53%|█████▎    | 8923/16950 [1:38:09<1:13:54,  1.81it/s]Training 2/3 epoch (loss 0.0005):  53%|█████▎    | 8923/16950 [1:38:10<1:13:54,  1.81it/s]Training 2/3 epoch (loss 0.0005):  53%|█████▎    | 8924/16950 [1:38:10<1:16:16,  1.75it/s]Training 2/3 epoch (loss 0.0054):  53%|█████▎    | 8924/16950 [1:38:10<1:16:16,  1.75it/s]Training 2/3 epoch (loss 0.0054):  53%|█████▎    | 8925/16950 [1:38:10<1:18:27,  1.70it/s]Training 2/3 epoch (loss 0.5013):  53%|█████▎    | 8925/16950 [1:38:11<1:18:27,  1.70it/s]Training 2/3 epoch (loss 0.5013):  53%|█████▎    | 8926/16950 [1:38:11<1:13:18,  1.82it/s]Training 2/3 epoch (loss 0.0511):  53%|█████▎    | 8926/16950 [1:38:11<1:13:18,  1.82it/s]Training 2/3 epoch (loss 0.0511):  53%|█████▎    | 8927/16950 [1:38:11<1:15:37,  1.77it/s]Training 2/3 epoch (loss 0.4253):  53%|█████▎    | 8927/16950 [1:38:12<1:15:37,  1.77it/s]Training 2/3 epoch (loss 0.4253):  53%|█████▎    | 8928/16950 [1:38:12<1:12:05,  1.85it/s]Training 2/3 epoch (loss 0.0981):  53%|█████▎    | 8928/16950 [1:38:12<1:12:05,  1.85it/s]Training 2/3 epoch (loss 0.0981):  53%|█████▎    | 8929/16950 [1:38:12<1:11:13,  1.88it/s]Training 2/3 epoch (loss 0.0013):  53%|█████▎    | 8929/16950 [1:38:13<1:11:13,  1.88it/s]Training 2/3 epoch (loss 0.0013):  53%|█████▎    | 8930/16950 [1:38:13<1:15:13,  1.78it/s]Training 2/3 epoch (loss 0.0070):  53%|█████▎    | 8930/16950 [1:38:14<1:15:13,  1.78it/s]Training 2/3 epoch (loss 0.0070):  53%|█████▎    | 8931/16950 [1:38:14<1:12:38,  1.84it/s]Training 2/3 epoch (loss 0.0019):  53%|█████▎    | 8931/16950 [1:38:14<1:12:38,  1.84it/s]Training 2/3 epoch (loss 0.0019):  53%|█████▎    | 8932/16950 [1:38:14<1:14:02,  1.80it/s]Training 2/3 epoch (loss 0.3239):  53%|█████▎    | 8932/16950 [1:38:15<1:14:02,  1.80it/s]Training 2/3 epoch (loss 0.3239):  53%|█████▎    | 8933/16950 [1:38:15<1:16:26,  1.75it/s]Training 2/3 epoch (loss 0.4701):  53%|█████▎    | 8933/16950 [1:38:15<1:16:26,  1.75it/s]Training 2/3 epoch (loss 0.4701):  53%|█████▎    | 8934/16950 [1:38:15<1:15:13,  1.78it/s]Training 2/3 epoch (loss 0.0003):  53%|█████▎    | 8934/16950 [1:38:16<1:15:13,  1.78it/s]Training 2/3 epoch (loss 0.0003):  53%|█████▎    | 8935/16950 [1:38:16<1:14:48,  1.79it/s]Training 2/3 epoch (loss 0.0050):  53%|█████▎    | 8935/16950 [1:38:16<1:14:48,  1.79it/s]Training 2/3 epoch (loss 0.0050):  53%|█████▎    | 8936/16950 [1:38:16<1:11:12,  1.88it/s]Training 2/3 epoch (loss 0.0001):  53%|█████▎    | 8936/16950 [1:38:17<1:11:12,  1.88it/s]Training 2/3 epoch (loss 0.0001):  53%|█████▎    | 8937/16950 [1:38:17<1:02:36,  2.13it/s]Training 2/3 epoch (loss 0.4235):  53%|█████▎    | 8937/16950 [1:38:17<1:02:36,  2.13it/s]Training 2/3 epoch (loss 0.4235):  53%|█████▎    | 8938/16950 [1:38:17<1:07:53,  1.97it/s]Training 2/3 epoch (loss 0.0314):  53%|█████▎    | 8938/16950 [1:38:18<1:07:53,  1.97it/s]Training 2/3 epoch (loss 0.0314):  53%|█████▎    | 8939/16950 [1:38:18<1:21:02,  1.65it/s]Training 2/3 epoch (loss 0.1254):  53%|█████▎    | 8939/16950 [1:38:19<1:21:02,  1.65it/s]Training 2/3 epoch (loss 0.1254):  53%|█████▎    | 8940/16950 [1:38:19<1:14:26,  1.79it/s]Training 2/3 epoch (loss 0.4230):  53%|█████▎    | 8940/16950 [1:38:19<1:14:26,  1.79it/s]Training 2/3 epoch (loss 0.4230):  53%|█████▎    | 8941/16950 [1:38:19<1:18:52,  1.69it/s]Training 2/3 epoch (loss nan):  53%|█████▎    | 8941/16950 [1:38:20<1:18:52,  1.69it/s]   Training 2/3 epoch (loss nan):  53%|█████▎    | 8942/16950 [1:38:20<1:41:34,  1.31it/s]Training 2/3 epoch (loss 0.3632):  53%|█████▎    | 8942/16950 [1:38:21<1:41:34,  1.31it/s]Training 2/3 epoch (loss 0.3632):  53%|█████▎    | 8943/16950 [1:38:21<1:40:55,  1.32it/s]Training 2/3 epoch (loss 0.5657):  53%|█████▎    | 8943/16950 [1:38:22<1:40:55,  1.32it/s]Training 2/3 epoch (loss 0.5657):  53%|█████▎    | 8944/16950 [1:38:22<1:37:10,  1.37it/s]Training 2/3 epoch (loss 0.0039):  53%|█████▎    | 8944/16950 [1:38:22<1:37:10,  1.37it/s]Training 2/3 epoch (loss 0.0039):  53%|█████▎    | 8945/16950 [1:38:22<1:29:50,  1.49it/s]Training 2/3 epoch (loss 0.0002):  53%|█████▎    | 8945/16950 [1:38:23<1:29:50,  1.49it/s]Training 2/3 epoch (loss 0.0002):  53%|█████▎    | 8946/16950 [1:38:23<1:18:01,  1.71it/s]Training 2/3 epoch (loss 0.1134):  53%|█████▎    | 8946/16950 [1:38:23<1:18:01,  1.71it/s]Training 2/3 epoch (loss 0.1134):  53%|█████▎    | 8947/16950 [1:38:23<1:14:22,  1.79it/s]Training 2/3 epoch (loss 0.2264):  53%|█████▎    | 8947/16950 [1:38:24<1:14:22,  1.79it/s]Training 2/3 epoch (loss 0.2264):  53%|█████▎    | 8948/16950 [1:38:24<1:14:53,  1.78it/s]Training 2/3 epoch (loss 0.0562):  53%|█████▎    | 8948/16950 [1:38:24<1:14:53,  1.78it/s]Training 2/3 epoch (loss 0.0562):  53%|█████▎    | 8949/16950 [1:38:24<1:17:46,  1.71it/s]Training 2/3 epoch (loss 0.0008):  53%|█████▎    | 8949/16950 [1:38:25<1:17:46,  1.71it/s]Training 2/3 epoch (loss 0.0008):  53%|█████▎    | 8950/16950 [1:38:25<1:12:08,  1.85it/s]Training 2/3 epoch (loss 0.0416):  53%|█████▎    | 8950/16950 [1:38:26<1:12:08,  1.85it/s]Training 2/3 epoch (loss 0.0416):  53%|█████▎    | 8951/16950 [1:38:26<1:22:23,  1.62it/s]Training 2/3 epoch (loss 0.0106):  53%|█████▎    | 8951/16950 [1:38:26<1:22:23,  1.62it/s]Training 2/3 epoch (loss 0.0106):  53%|█████▎    | 8952/16950 [1:38:26<1:20:27,  1.66it/s]Training 2/3 epoch (loss 0.3132):  53%|█████▎    | 8952/16950 [1:38:27<1:20:27,  1.66it/s]Training 2/3 epoch (loss 0.3132):  53%|█████▎    | 8953/16950 [1:38:27<1:23:46,  1.59it/s]Training 2/3 epoch (loss 0.0128):  53%|█████▎    | 8953/16950 [1:38:27<1:23:46,  1.59it/s]Training 2/3 epoch (loss 0.0128):  53%|█████▎    | 8954/16950 [1:38:27<1:18:06,  1.71it/s]Training 2/3 epoch (loss 0.2933):  53%|█████▎    | 8954/16950 [1:38:28<1:18:06,  1.71it/s]Training 2/3 epoch (loss 0.2933):  53%|█████▎    | 8955/16950 [1:38:28<1:10:51,  1.88it/s]Training 2/3 epoch (loss 0.0001):  53%|█████▎    | 8955/16950 [1:38:28<1:10:51,  1.88it/s]Training 2/3 epoch (loss 0.0001):  53%|█████▎    | 8956/16950 [1:38:28<1:14:17,  1.79it/s]Training 2/3 epoch (loss 0.0073):  53%|█████▎    | 8956/16950 [1:38:29<1:14:17,  1.79it/s]Training 2/3 epoch (loss 0.0073):  53%|█████▎    | 8957/16950 [1:38:29<1:13:45,  1.81it/s]Training 2/3 epoch (loss 0.0974):  53%|█████▎    | 8957/16950 [1:38:30<1:13:45,  1.81it/s]Training 2/3 epoch (loss 0.0974):  53%|█████▎    | 8958/16950 [1:38:30<1:17:35,  1.72it/s]Training 2/3 epoch (loss 0.0290):  53%|█████▎    | 8958/16950 [1:38:30<1:17:35,  1.72it/s]Training 2/3 epoch (loss 0.0290):  53%|█████▎    | 8959/16950 [1:38:30<1:23:35,  1.59it/s]Training 2/3 epoch (loss 0.1594):  53%|█████▎    | 8959/16950 [1:38:31<1:23:35,  1.59it/s]Training 2/3 epoch (loss 0.1594):  53%|█████▎    | 8960/16950 [1:38:31<1:46:18,  1.25it/s]Training 2/3 epoch (loss 0.1930):  53%|█████▎    | 8960/16950 [1:38:32<1:46:18,  1.25it/s]Training 2/3 epoch (loss 0.1930):  53%|█████▎    | 8961/16950 [1:38:32<1:37:45,  1.36it/s]Training 2/3 epoch (loss 0.0034):  53%|█████▎    | 8961/16950 [1:38:33<1:37:45,  1.36it/s]Training 2/3 epoch (loss 0.0034):  53%|█████▎    | 8962/16950 [1:38:33<1:30:11,  1.48it/s]Training 2/3 epoch (loss 0.0010):  53%|█████▎    | 8962/16950 [1:38:33<1:30:11,  1.48it/s]Training 2/3 epoch (loss 0.0010):  53%|█████▎    | 8963/16950 [1:38:33<1:20:18,  1.66it/s]Training 2/3 epoch (loss 0.3264):  53%|█████▎    | 8963/16950 [1:38:34<1:20:18,  1.66it/s]Training 2/3 epoch (loss 0.3264):  53%|█████▎    | 8964/16950 [1:38:34<1:39:44,  1.33it/s]Training 2/3 epoch (loss 0.0250):  53%|█████▎    | 8964/16950 [1:38:35<1:39:44,  1.33it/s]Training 2/3 epoch (loss 0.0250):  53%|█████▎    | 8965/16950 [1:38:35<1:31:58,  1.45it/s]Training 2/3 epoch (loss 0.0010):  53%|█████▎    | 8965/16950 [1:38:35<1:31:58,  1.45it/s]Training 2/3 epoch (loss 0.0010):  53%|█████▎    | 8966/16950 [1:38:35<1:22:49,  1.61it/s]Training 2/3 epoch (loss 0.0165):  53%|█████▎    | 8966/16950 [1:38:36<1:22:49,  1.61it/s]Training 2/3 epoch (loss 0.0165):  53%|█████▎    | 8967/16950 [1:38:36<1:21:25,  1.63it/s]Training 2/3 epoch (loss 0.0463):  53%|█████▎    | 8967/16950 [1:38:36<1:21:25,  1.63it/s]Training 2/3 epoch (loss 0.0463):  53%|█████▎    | 8968/16950 [1:38:36<1:17:36,  1.71it/s]Training 2/3 epoch (loss 0.3767):  53%|█████▎    | 8968/16950 [1:38:37<1:17:36,  1.71it/s]Training 2/3 epoch (loss 0.3767):  53%|█████▎    | 8969/16950 [1:38:37<1:10:19,  1.89it/s]Training 2/3 epoch (loss 0.4890):  53%|█████▎    | 8969/16950 [1:38:37<1:10:19,  1.89it/s]Training 2/3 epoch (loss 0.4890):  53%|█████▎    | 8970/16950 [1:38:37<1:16:17,  1.74it/s]Training 2/3 epoch (loss 0.0004):  53%|█████▎    | 8970/16950 [1:38:38<1:16:17,  1.74it/s]Training 2/3 epoch (loss 0.0004):  53%|█████▎    | 8971/16950 [1:38:38<1:12:15,  1.84it/s]Training 2/3 epoch (loss 0.0123):  53%|█████▎    | 8971/16950 [1:38:38<1:12:15,  1.84it/s]Training 2/3 epoch (loss 0.0123):  53%|█████▎    | 8972/16950 [1:38:38<1:07:05,  1.98it/s]Training 2/3 epoch (loss 0.1817):  53%|█████▎    | 8972/16950 [1:38:39<1:07:05,  1.98it/s]Training 2/3 epoch (loss 0.1817):  53%|█████▎    | 8973/16950 [1:38:39<1:12:45,  1.83it/s]Training 2/3 epoch (loss 0.2269):  53%|█████▎    | 8973/16950 [1:38:39<1:12:45,  1.83it/s]Training 2/3 epoch (loss 0.2269):  53%|█████▎    | 8974/16950 [1:38:39<1:12:09,  1.84it/s]Training 2/3 epoch (loss 0.3541):  53%|█████▎    | 8974/16950 [1:38:40<1:12:09,  1.84it/s]Training 2/3 epoch (loss 0.3541):  53%|█████▎    | 8975/16950 [1:38:40<1:16:17,  1.74it/s]Training 2/3 epoch (loss 0.0357):  53%|█████▎    | 8975/16950 [1:38:41<1:16:17,  1.74it/s]Training 2/3 epoch (loss 0.0357):  53%|█████▎    | 8976/16950 [1:38:41<1:17:20,  1.72it/s]Training 2/3 epoch (loss 0.0122):  53%|█████▎    | 8976/16950 [1:38:41<1:17:20,  1.72it/s]Training 2/3 epoch (loss 0.0122):  53%|█████▎    | 8977/16950 [1:38:41<1:15:03,  1.77it/s]Training 2/3 epoch (loss 0.4993):  53%|█████▎    | 8977/16950 [1:38:42<1:15:03,  1.77it/s]Training 2/3 epoch (loss 0.4993):  53%|█████▎    | 8978/16950 [1:38:42<1:11:19,  1.86it/s]Training 2/3 epoch (loss 0.0546):  53%|█████▎    | 8978/16950 [1:38:42<1:11:19,  1.86it/s]Training 2/3 epoch (loss 0.0546):  53%|█████▎    | 8979/16950 [1:38:42<1:23:01,  1.60it/s]Training 2/3 epoch (loss 0.0014):  53%|█████▎    | 8979/16950 [1:38:43<1:23:01,  1.60it/s]Training 2/3 epoch (loss 0.0014):  53%|█████▎    | 8980/16950 [1:38:43<1:20:15,  1.66it/s]Training 2/3 epoch (loss 0.2889):  53%|█████▎    | 8980/16950 [1:38:44<1:20:15,  1.66it/s]Training 2/3 epoch (loss 0.2889):  53%|█████▎    | 8981/16950 [1:38:44<1:19:19,  1.67it/s]Training 2/3 epoch (loss 0.1364):  53%|█████▎    | 8981/16950 [1:38:44<1:19:19,  1.67it/s]Training 2/3 epoch (loss 0.1364):  53%|█████▎    | 8982/16950 [1:38:44<1:16:29,  1.74it/s]Training 2/3 epoch (loss 0.5698):  53%|█████▎    | 8982/16950 [1:38:45<1:16:29,  1.74it/s]Training 2/3 epoch (loss 0.5698):  53%|█████▎    | 8983/16950 [1:38:45<1:36:52,  1.37it/s]Training 2/3 epoch (loss 0.0180):  53%|█████▎    | 8983/16950 [1:38:46<1:36:52,  1.37it/s]Training 2/3 epoch (loss 0.0180):  53%|█████▎    | 8984/16950 [1:38:46<1:28:36,  1.50it/s]Training 2/3 epoch (loss 0.4216):  53%|█████▎    | 8984/16950 [1:38:46<1:28:36,  1.50it/s]Training 2/3 epoch (loss 0.4216):  53%|█████▎    | 8985/16950 [1:38:46<1:19:44,  1.66it/s]Training 2/3 epoch (loss 0.0112):  53%|█████▎    | 8985/16950 [1:38:47<1:19:44,  1.66it/s]Training 2/3 epoch (loss 0.0112):  53%|█████▎    | 8986/16950 [1:38:47<1:09:32,  1.91it/s]Training 2/3 epoch (loss 0.1878):  53%|█████▎    | 8986/16950 [1:38:47<1:09:32,  1.91it/s]Training 2/3 epoch (loss 0.1878):  53%|█████▎    | 8987/16950 [1:38:47<1:09:07,  1.92it/s]Training 2/3 epoch (loss 0.0438):  53%|█████▎    | 8987/16950 [1:38:48<1:09:07,  1.92it/s]Training 2/3 epoch (loss 0.0438):  53%|█████▎    | 8988/16950 [1:38:48<1:06:39,  1.99it/s]Training 2/3 epoch (loss 0.0389):  53%|█████▎    | 8988/16950 [1:38:48<1:06:39,  1.99it/s]Training 2/3 epoch (loss 0.0389):  53%|█████▎    | 8989/16950 [1:38:48<1:12:44,  1.82it/s]Training 2/3 epoch (loss 0.0505):  53%|█████▎    | 8989/16950 [1:38:49<1:12:44,  1.82it/s]Training 2/3 epoch (loss 0.0505):  53%|█████▎    | 8990/16950 [1:38:49<1:24:15,  1.57it/s]Training 2/3 epoch (loss 0.0641):  53%|█████▎    | 8990/16950 [1:38:50<1:24:15,  1.57it/s]Training 2/3 epoch (loss 0.0641):  53%|█████▎    | 8991/16950 [1:38:50<1:35:21,  1.39it/s]Training 2/3 epoch (loss 0.0315):  53%|█████▎    | 8991/16950 [1:38:51<1:35:21,  1.39it/s]Training 2/3 epoch (loss 0.0315):  53%|█████▎    | 8992/16950 [1:38:51<1:36:19,  1.38it/s]Training 2/3 epoch (loss 0.1928):  53%|█████▎    | 8992/16950 [1:38:51<1:36:19,  1.38it/s]Training 2/3 epoch (loss 0.1928):  53%|█████▎    | 8993/16950 [1:38:51<1:27:14,  1.52it/s]Training 2/3 epoch (loss 0.0249):  53%|█████▎    | 8993/16950 [1:38:52<1:27:14,  1.52it/s]Training 2/3 epoch (loss 0.0249):  53%|█████▎    | 8994/16950 [1:38:52<1:27:16,  1.52it/s]Training 2/3 epoch (loss 0.1632):  53%|█████▎    | 8994/16950 [1:38:53<1:27:16,  1.52it/s]Training 2/3 epoch (loss 0.1632):  53%|█████▎    | 8995/16950 [1:38:53<1:46:29,  1.25it/s]Training 2/3 epoch (loss 0.0008):  53%|█████▎    | 8995/16950 [1:38:54<1:46:29,  1.25it/s]Training 2/3 epoch (loss 0.0008):  53%|█████▎    | 8996/16950 [1:38:54<1:46:28,  1.25it/s]Training 2/3 epoch (loss 0.1120):  53%|█████▎    | 8996/16950 [1:38:54<1:46:28,  1.25it/s]Training 2/3 epoch (loss 0.1120):  53%|█████▎    | 8997/16950 [1:38:54<1:33:19,  1.42it/s]Training 2/3 epoch (loss 0.4866):  53%|█████▎    | 8997/16950 [1:38:55<1:33:19,  1.42it/s]Training 2/3 epoch (loss 0.4866):  53%|█████▎    | 8998/16950 [1:38:55<1:29:51,  1.48it/s]Training 2/3 epoch (loss 0.3294):  53%|█████▎    | 8998/16950 [1:38:55<1:29:51,  1.48it/s]Training 2/3 epoch (loss 0.3294):  53%|█████▎    | 8999/16950 [1:38:55<1:25:27,  1.55it/s]Training 2/3 epoch (loss 0.0556):  53%|█████▎    | 8999/16950 [1:38:56<1:25:27,  1.55it/s]Training 2/3 epoch (loss 0.0556):  53%|█████▎    | 9000/16950 [1:38:56<1:16:54,  1.72it/s]Training 2/3 epoch (loss 0.0033):  53%|█████▎    | 9000/16950 [1:38:56<1:16:54,  1.72it/s]Training 2/3 epoch (loss 0.0033):  53%|█████▎    | 9001/16950 [1:38:56<1:17:25,  1.71it/s]Training 2/3 epoch (loss 0.1543):  53%|█████▎    | 9001/16950 [1:38:57<1:17:25,  1.71it/s]Training 2/3 epoch (loss 0.1543):  53%|█████▎    | 9002/16950 [1:38:57<1:15:06,  1.76it/s]Training 2/3 epoch (loss 0.0004):  53%|█████▎    | 9002/16950 [1:38:57<1:15:06,  1.76it/s]Training 2/3 epoch (loss 0.0004):  53%|█████▎    | 9003/16950 [1:38:57<1:07:44,  1.96it/s]Training 2/3 epoch (loss 0.2008):  53%|█████▎    | 9003/16950 [1:38:58<1:07:44,  1.96it/s]Training 2/3 epoch (loss 0.2008):  53%|█████▎    | 9004/16950 [1:38:58<1:05:44,  2.01it/s]Training 2/3 epoch (loss 0.0155):  53%|█████▎    | 9004/16950 [1:38:58<1:05:44,  2.01it/s]Training 2/3 epoch (loss 0.0155):  53%|█████▎    | 9005/16950 [1:38:58<1:10:21,  1.88it/s]Training 2/3 epoch (loss 0.0238):  53%|█████▎    | 9005/16950 [1:38:59<1:10:21,  1.88it/s]Training 2/3 epoch (loss 0.0238):  53%|█████▎    | 9006/16950 [1:38:59<1:15:07,  1.76it/s]Training 2/3 epoch (loss 0.3308):  53%|█████▎    | 9006/16950 [1:39:00<1:15:07,  1.76it/s]Training 2/3 epoch (loss 0.3308):  53%|█████▎    | 9007/16950 [1:39:00<1:13:41,  1.80it/s]Training 2/3 epoch (loss 0.0022):  53%|█████▎    | 9007/16950 [1:39:00<1:13:41,  1.80it/s]Training 2/3 epoch (loss 0.0022):  53%|█████▎    | 9008/16950 [1:39:00<1:15:15,  1.76it/s]Training 2/3 epoch (loss 0.4618):  53%|█████▎    | 9008/16950 [1:39:01<1:15:15,  1.76it/s]Training 2/3 epoch (loss 0.4618):  53%|█████▎    | 9009/16950 [1:39:01<1:14:35,  1.77it/s]Training 2/3 epoch (loss 0.0208):  53%|█████▎    | 9009/16950 [1:39:01<1:14:35,  1.77it/s]Training 2/3 epoch (loss 0.0208):  53%|█████▎    | 9010/16950 [1:39:01<1:17:24,  1.71it/s]Training 2/3 epoch (loss 0.0017):  53%|█████▎    | 9010/16950 [1:39:02<1:17:24,  1.71it/s]Training 2/3 epoch (loss 0.0017):  53%|█████▎    | 9011/16950 [1:39:02<1:22:36,  1.60it/s]Training 2/3 epoch (loss 0.0091):  53%|█████▎    | 9011/16950 [1:39:03<1:22:36,  1.60it/s]Training 2/3 epoch (loss 0.0091):  53%|█████▎    | 9012/16950 [1:39:03<1:34:38,  1.40it/s]Training 2/3 epoch (loss 0.3594):  53%|█████▎    | 9012/16950 [1:39:04<1:34:38,  1.40it/s]Training 2/3 epoch (loss 0.3594):  53%|█████▎    | 9013/16950 [1:39:04<1:48:58,  1.21it/s]Training 2/3 epoch (loss 0.0014):  53%|█████▎    | 9013/16950 [1:39:05<1:48:58,  1.21it/s]Training 2/3 epoch (loss 0.0014):  53%|█████▎    | 9014/16950 [1:39:05<1:44:17,  1.27it/s]Training 2/3 epoch (loss 0.0003):  53%|█████▎    | 9014/16950 [1:39:05<1:44:17,  1.27it/s]Training 2/3 epoch (loss 0.0003):  53%|█████▎    | 9015/16950 [1:39:05<1:33:43,  1.41it/s]Training 2/3 epoch (loss 0.0008):  53%|█████▎    | 9015/16950 [1:39:06<1:33:43,  1.41it/s]Training 2/3 epoch (loss 0.0008):  53%|█████▎    | 9016/16950 [1:39:06<1:30:18,  1.46it/s]Training 2/3 epoch (loss 0.0162):  53%|█████▎    | 9016/16950 [1:39:07<1:30:18,  1.46it/s]Training 2/3 epoch (loss 0.0162):  53%|█████▎    | 9017/16950 [1:39:07<1:38:33,  1.34it/s]Training 2/3 epoch (loss 0.0898):  53%|█████▎    | 9017/16950 [1:39:08<1:38:33,  1.34it/s]Training 2/3 epoch (loss 0.0898):  53%|█████▎    | 9018/16950 [1:39:08<1:37:47,  1.35it/s]Training 2/3 epoch (loss 0.0056):  53%|█████▎    | 9018/16950 [1:39:08<1:37:47,  1.35it/s]Training 2/3 epoch (loss 0.0056):  53%|█████▎    | 9019/16950 [1:39:08<1:28:08,  1.50it/s]Training 2/3 epoch (loss 0.1177):  53%|█████▎    | 9019/16950 [1:39:09<1:28:08,  1.50it/s]Training 2/3 epoch (loss 0.1177):  53%|█████▎    | 9020/16950 [1:39:09<1:24:11,  1.57it/s]Training 2/3 epoch (loss 0.0010):  53%|█████▎    | 9020/16950 [1:39:09<1:24:11,  1.57it/s]Training 2/3 epoch (loss 0.0010):  53%|█████▎    | 9021/16950 [1:39:09<1:17:28,  1.71it/s]Training 2/3 epoch (loss 0.0401):  53%|█████▎    | 9021/16950 [1:39:10<1:17:28,  1.71it/s]Training 2/3 epoch (loss 0.0401):  53%|█████▎    | 9022/16950 [1:39:10<1:11:23,  1.85it/s]Training 2/3 epoch (loss 0.0217):  53%|█████▎    | 9022/16950 [1:39:11<1:11:23,  1.85it/s]Training 2/3 epoch (loss 0.0217):  53%|█████▎    | 9023/16950 [1:39:11<1:30:03,  1.47it/s]Training 2/3 epoch (loss 0.0008):  53%|█████▎    | 9023/16950 [1:39:11<1:30:03,  1.47it/s]Training 2/3 epoch (loss 0.0008):  53%|█████▎    | 9024/16950 [1:39:11<1:32:42,  1.42it/s]Training 2/3 epoch (loss 0.3622):  53%|█████▎    | 9024/16950 [1:39:12<1:32:42,  1.42it/s]Training 2/3 epoch (loss 0.3622):  53%|█████▎    | 9025/16950 [1:39:12<1:21:42,  1.62it/s]Training 2/3 epoch (loss 0.0501):  53%|█████▎    | 9025/16950 [1:39:12<1:21:42,  1.62it/s]Training 2/3 epoch (loss 0.0501):  53%|█████▎    | 9026/16950 [1:39:12<1:21:09,  1.63it/s]Training 2/3 epoch (loss 0.0706):  53%|█████▎    | 9026/16950 [1:39:13<1:21:09,  1.63it/s]Training 2/3 epoch (loss 0.0706):  53%|█████▎    | 9027/16950 [1:39:13<1:14:54,  1.76it/s]Training 2/3 epoch (loss 0.0001):  53%|█████▎    | 9027/16950 [1:39:13<1:14:54,  1.76it/s]Training 2/3 epoch (loss 0.0001):  53%|█████▎    | 9028/16950 [1:39:13<1:15:01,  1.76it/s]Training 2/3 epoch (loss 0.4041):  53%|█████▎    | 9028/16950 [1:39:14<1:15:01,  1.76it/s]Training 2/3 epoch (loss 0.4041):  53%|█████▎    | 9029/16950 [1:39:14<1:12:18,  1.83it/s]Training 2/3 epoch (loss 0.0348):  53%|█████▎    | 9029/16950 [1:39:14<1:12:18,  1.83it/s]Training 2/3 epoch (loss 0.0348):  53%|█████▎    | 9030/16950 [1:39:14<1:09:18,  1.90it/s]Training 2/3 epoch (loss 0.0110):  53%|█████▎    | 9030/16950 [1:39:15<1:09:18,  1.90it/s]Training 2/3 epoch (loss 0.0110):  53%|█████▎    | 9031/16950 [1:39:15<1:04:17,  2.05it/s]Training 2/3 epoch (loss 0.0008):  53%|█████▎    | 9031/16950 [1:39:15<1:04:17,  2.05it/s]Training 2/3 epoch (loss 0.0008):  53%|█████▎    | 9032/16950 [1:39:15<1:14:41,  1.77it/s]Training 2/3 epoch (loss 0.0003):  53%|█████▎    | 9032/16950 [1:39:16<1:14:41,  1.77it/s]Training 2/3 epoch (loss 0.0003):  53%|█████▎    | 9033/16950 [1:39:16<1:19:37,  1.66it/s]Training 2/3 epoch (loss 0.0028):  53%|█████▎    | 9033/16950 [1:39:17<1:19:37,  1.66it/s]Training 2/3 epoch (loss 0.0028):  53%|█████▎    | 9034/16950 [1:39:17<1:24:12,  1.57it/s]Training 2/3 epoch (loss 0.0033):  53%|█████▎    | 9034/16950 [1:39:18<1:24:12,  1.57it/s]Training 2/3 epoch (loss 0.0033):  53%|█████▎    | 9035/16950 [1:39:18<1:39:09,  1.33it/s]Training 2/3 epoch (loss 0.1139):  53%|█████▎    | 9035/16950 [1:39:18<1:39:09,  1.33it/s]Training 2/3 epoch (loss 0.1139):  53%|█████▎    | 9036/16950 [1:39:18<1:31:24,  1.44it/s]Training 2/3 epoch (loss 0.0751):  53%|█████▎    | 9036/16950 [1:39:19<1:31:24,  1.44it/s]Training 2/3 epoch (loss 0.0751):  53%|█████▎    | 9037/16950 [1:39:19<1:29:15,  1.48it/s]Training 2/3 epoch (loss 0.3326):  53%|█████▎    | 9037/16950 [1:39:20<1:29:15,  1.48it/s]Training 2/3 epoch (loss 0.3326):  53%|█████▎    | 9038/16950 [1:39:20<1:21:11,  1.62it/s]Training 2/3 epoch (loss 0.0035):  53%|█████▎    | 9038/16950 [1:39:20<1:21:11,  1.62it/s]Training 2/3 epoch (loss 0.0035):  53%|█████▎    | 9039/16950 [1:39:20<1:16:26,  1.72it/s]Training 2/3 epoch (loss 0.5968):  53%|█████▎    | 9039/16950 [1:39:21<1:16:26,  1.72it/s]Training 2/3 epoch (loss 0.5968):  53%|█████▎    | 9040/16950 [1:39:21<1:31:05,  1.45it/s]Training 2/3 epoch (loss 0.0361):  53%|█████▎    | 9040/16950 [1:39:22<1:31:05,  1.45it/s]Training 2/3 epoch (loss 0.0361):  53%|█████▎    | 9041/16950 [1:39:22<1:25:10,  1.55it/s]Training 2/3 epoch (loss 0.1074):  53%|█████▎    | 9041/16950 [1:39:22<1:25:10,  1.55it/s]Training 2/3 epoch (loss 0.1074):  53%|█████▎    | 9042/16950 [1:39:22<1:20:40,  1.63it/s]Training 2/3 epoch (loss 0.2466):  53%|█████▎    | 9042/16950 [1:39:23<1:20:40,  1.63it/s]Training 2/3 epoch (loss 0.2466):  53%|█████▎    | 9043/16950 [1:39:23<1:39:20,  1.33it/s]Training 2/3 epoch (loss 0.0004):  53%|█████▎    | 9043/16950 [1:39:24<1:39:20,  1.33it/s]Training 2/3 epoch (loss 0.0004):  53%|█████▎    | 9044/16950 [1:39:24<1:42:14,  1.29it/s]Training 2/3 epoch (loss 0.0050):  53%|█████▎    | 9044/16950 [1:39:25<1:42:14,  1.29it/s]Training 2/3 epoch (loss 0.0050):  53%|█████▎    | 9045/16950 [1:39:25<1:33:33,  1.41it/s]Training 2/3 epoch (loss 0.0642):  53%|█████▎    | 9045/16950 [1:39:25<1:33:33,  1.41it/s]Training 2/3 epoch (loss 0.0642):  53%|█████▎    | 9046/16950 [1:39:25<1:37:26,  1.35it/s]Training 2/3 epoch (loss 0.0051):  53%|█████▎    | 9046/16950 [1:39:26<1:37:26,  1.35it/s]Training 2/3 epoch (loss 0.0051):  53%|█████▎    | 9047/16950 [1:39:26<1:38:15,  1.34it/s]Training 2/3 epoch (loss 0.0006):  53%|█████▎    | 9047/16950 [1:39:27<1:38:15,  1.34it/s]Training 2/3 epoch (loss 0.0006):  53%|█████▎    | 9048/16950 [1:39:27<1:27:58,  1.50it/s]Training 2/3 epoch (loss 0.0213):  53%|█████▎    | 9048/16950 [1:39:27<1:27:58,  1.50it/s]Training 2/3 epoch (loss 0.0213):  53%|█████▎    | 9049/16950 [1:39:27<1:17:54,  1.69it/s]Training 2/3 epoch (loss 0.0184):  53%|█████▎    | 9049/16950 [1:39:28<1:17:54,  1.69it/s]Training 2/3 epoch (loss 0.0184):  53%|█████▎    | 9050/16950 [1:39:28<1:14:41,  1.76it/s]Training 2/3 epoch (loss 0.0013):  53%|█████▎    | 9050/16950 [1:39:28<1:14:41,  1.76it/s]Training 2/3 epoch (loss 0.0013):  53%|█████▎    | 9051/16950 [1:39:28<1:11:28,  1.84it/s]Training 2/3 epoch (loss 0.0061):  53%|█████▎    | 9051/16950 [1:39:29<1:11:28,  1.84it/s]Training 2/3 epoch (loss 0.0061):  53%|█████▎    | 9052/16950 [1:39:29<1:12:33,  1.81it/s]Training 2/3 epoch (loss 0.2985):  53%|█████▎    | 9052/16950 [1:39:30<1:12:33,  1.81it/s]Training 2/3 epoch (loss 0.2985):  53%|█████▎    | 9053/16950 [1:39:30<1:27:32,  1.50it/s]Training 2/3 epoch (loss 0.2054):  53%|█████▎    | 9053/16950 [1:39:30<1:27:32,  1.50it/s]Training 2/3 epoch (loss 0.2054):  53%|█████▎    | 9054/16950 [1:39:30<1:30:16,  1.46it/s]Training 2/3 epoch (loss 0.1720):  53%|█████▎    | 9054/16950 [1:39:31<1:30:16,  1.46it/s]Training 2/3 epoch (loss 0.1720):  53%|█████▎    | 9055/16950 [1:39:31<1:18:18,  1.68it/s]Training 2/3 epoch (loss 0.0060):  53%|█████▎    | 9055/16950 [1:39:31<1:18:18,  1.68it/s]Training 2/3 epoch (loss 0.0060):  53%|█████▎    | 9056/16950 [1:39:31<1:15:30,  1.74it/s]Training 2/3 epoch (loss 0.5111):  53%|█████▎    | 9056/16950 [1:39:32<1:15:30,  1.74it/s]Training 2/3 epoch (loss 0.5111):  53%|█████▎    | 9057/16950 [1:39:32<1:34:52,  1.39it/s]Training 2/3 epoch (loss 0.1566):  53%|█████▎    | 9057/16950 [1:39:33<1:34:52,  1.39it/s]Training 2/3 epoch (loss 0.1566):  53%|█████▎    | 9058/16950 [1:39:33<1:32:10,  1.43it/s]Training 2/3 epoch (loss 0.6716):  53%|█████▎    | 9058/16950 [1:39:34<1:32:10,  1.43it/s]Training 2/3 epoch (loss 0.6716):  53%|█████▎    | 9059/16950 [1:39:34<1:40:52,  1.30it/s]Training 2/3 epoch (loss 0.0469):  53%|█████▎    | 9059/16950 [1:39:35<1:40:52,  1.30it/s]Training 2/3 epoch (loss 0.0469):  53%|█████▎    | 9060/16950 [1:39:35<1:51:56,  1.17it/s]Training 2/3 epoch (loss 0.0236):  53%|█████▎    | 9060/16950 [1:39:35<1:51:56,  1.17it/s]Training 2/3 epoch (loss 0.0236):  53%|█████▎    | 9061/16950 [1:39:35<1:37:35,  1.35it/s]Training 2/3 epoch (loss 0.4270):  53%|█████▎    | 9061/16950 [1:39:36<1:37:35,  1.35it/s]Training 2/3 epoch (loss 0.4270):  53%|█████▎    | 9062/16950 [1:39:36<1:27:37,  1.50it/s]Training 2/3 epoch (loss 0.0123):  53%|█████▎    | 9062/16950 [1:39:36<1:27:37,  1.50it/s]Training 2/3 epoch (loss 0.0123):  53%|█████▎    | 9063/16950 [1:39:36<1:19:55,  1.64it/s]Training 2/3 epoch (loss 0.0032):  53%|█████▎    | 9063/16950 [1:39:37<1:19:55,  1.64it/s]Training 2/3 epoch (loss 0.0032):  53%|█████▎    | 9064/16950 [1:39:37<1:15:30,  1.74it/s]Training 2/3 epoch (loss 0.0074):  53%|█████▎    | 9064/16950 [1:39:37<1:15:30,  1.74it/s]Training 2/3 epoch (loss 0.0074):  53%|█████▎    | 9065/16950 [1:39:37<1:12:12,  1.82it/s]Training 2/3 epoch (loss 0.0001):  53%|█████▎    | 9065/16950 [1:39:38<1:12:12,  1.82it/s]Training 2/3 epoch (loss 0.0001):  53%|█████▎    | 9066/16950 [1:39:38<1:10:14,  1.87it/s]Training 2/3 epoch (loss 0.8341):  53%|█████▎    | 9066/16950 [1:39:39<1:10:14,  1.87it/s]Training 2/3 epoch (loss 0.8341):  53%|█████▎    | 9067/16950 [1:39:39<1:30:28,  1.45it/s]Training 2/3 epoch (loss 0.4083):  53%|█████▎    | 9067/16950 [1:39:40<1:30:28,  1.45it/s]Training 2/3 epoch (loss 0.4083):  53%|█████▎    | 9068/16950 [1:39:40<1:28:40,  1.48it/s]Training 2/3 epoch (loss 0.0063):  53%|█████▎    | 9068/16950 [1:39:40<1:28:40,  1.48it/s]Training 2/3 epoch (loss 0.0063):  54%|█████▎    | 9069/16950 [1:39:40<1:21:39,  1.61it/s]Training 2/3 epoch (loss 0.0624):  54%|█████▎    | 9069/16950 [1:39:41<1:21:39,  1.61it/s]Training 2/3 epoch (loss 0.0624):  54%|█████▎    | 9070/16950 [1:39:41<1:32:02,  1.43it/s]Training 2/3 epoch (loss 0.2510):  54%|█████▎    | 9070/16950 [1:39:42<1:32:02,  1.43it/s]Training 2/3 epoch (loss 0.2510):  54%|█████▎    | 9071/16950 [1:39:42<1:29:29,  1.47it/s]Training 2/3 epoch (loss 0.0055):  54%|█████▎    | 9071/16950 [1:39:42<1:29:29,  1.47it/s]Training 2/3 epoch (loss 0.0055):  54%|█████▎    | 9072/16950 [1:39:42<1:28:24,  1.49it/s]Training 2/3 epoch (loss 0.3412):  54%|█████▎    | 9072/16950 [1:39:43<1:28:24,  1.49it/s]Training 2/3 epoch (loss 0.3412):  54%|█████▎    | 9073/16950 [1:39:43<1:20:20,  1.63it/s]Training 2/3 epoch (loss 0.1318):  54%|█████▎    | 9073/16950 [1:39:43<1:20:20,  1.63it/s]Training 2/3 epoch (loss 0.1318):  54%|█████▎    | 9074/16950 [1:39:43<1:10:35,  1.86it/s]Training 2/3 epoch (loss 0.0035):  54%|█████▎    | 9074/16950 [1:39:44<1:10:35,  1.86it/s]Training 2/3 epoch (loss 0.0035):  54%|█████▎    | 9075/16950 [1:39:44<1:12:16,  1.82it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▎    | 9075/16950 [1:39:44<1:12:16,  1.82it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▎    | 9076/16950 [1:39:44<1:09:17,  1.89it/s]Training 2/3 epoch (loss 0.0062):  54%|█████▎    | 9076/16950 [1:39:45<1:09:17,  1.89it/s]Training 2/3 epoch (loss 0.0062):  54%|█████▎    | 9077/16950 [1:39:45<1:08:32,  1.91it/s]Training 2/3 epoch (loss 0.0325):  54%|█████▎    | 9077/16950 [1:39:45<1:08:32,  1.91it/s]Training 2/3 epoch (loss 0.0325):  54%|█████▎    | 9078/16950 [1:39:45<1:12:08,  1.82it/s]Training 2/3 epoch (loss 0.2514):  54%|█████▎    | 9078/16950 [1:39:46<1:12:08,  1.82it/s]Training 2/3 epoch (loss 0.2514):  54%|█████▎    | 9079/16950 [1:39:46<1:25:50,  1.53it/s]Training 2/3 epoch (loss 0.0003):  54%|█████▎    | 9079/16950 [1:39:47<1:25:50,  1.53it/s]Training 2/3 epoch (loss 0.0003):  54%|█████▎    | 9080/16950 [1:39:47<1:23:02,  1.58it/s]Training 2/3 epoch (loss 0.0074):  54%|█████▎    | 9080/16950 [1:39:48<1:23:02,  1.58it/s]Training 2/3 epoch (loss 0.0074):  54%|█████▎    | 9081/16950 [1:39:48<1:33:12,  1.41it/s]Training 2/3 epoch (loss 0.4882):  54%|█████▎    | 9081/16950 [1:39:48<1:33:12,  1.41it/s]Training 2/3 epoch (loss 0.4882):  54%|█████▎    | 9082/16950 [1:39:48<1:34:42,  1.38it/s]Training 2/3 epoch (loss 0.4263):  54%|█████▎    | 9082/16950 [1:39:49<1:34:42,  1.38it/s]Training 2/3 epoch (loss 0.4263):  54%|█████▎    | 9083/16950 [1:39:49<1:25:24,  1.54it/s]Training 2/3 epoch (loss 0.0000):  54%|█████▎    | 9083/16950 [1:39:49<1:25:24,  1.54it/s]Training 2/3 epoch (loss 0.0000):  54%|█████▎    | 9084/16950 [1:39:49<1:19:11,  1.66it/s]Training 2/3 epoch (loss 0.0345):  54%|█████▎    | 9084/16950 [1:39:50<1:19:11,  1.66it/s]Training 2/3 epoch (loss 0.0345):  54%|█████▎    | 9085/16950 [1:39:50<1:19:13,  1.65it/s]Training 2/3 epoch (loss 0.0218):  54%|█████▎    | 9085/16950 [1:39:51<1:19:13,  1.65it/s]Training 2/3 epoch (loss 0.0218):  54%|█████▎    | 9086/16950 [1:39:51<1:22:08,  1.60it/s]Training 2/3 epoch (loss 0.0114):  54%|█████▎    | 9086/16950 [1:39:51<1:22:08,  1.60it/s]Training 2/3 epoch (loss 0.0114):  54%|█████▎    | 9087/16950 [1:39:51<1:15:08,  1.74it/s]Training 2/3 epoch (loss 0.0040):  54%|█████▎    | 9087/16950 [1:39:51<1:15:08,  1.74it/s]Training 2/3 epoch (loss 0.0040):  54%|█████▎    | 9088/16950 [1:39:51<1:05:06,  2.01it/s]Training 2/3 epoch (loss 0.0006):  54%|█████▎    | 9088/16950 [1:39:52<1:05:06,  2.01it/s]Training 2/3 epoch (loss 0.0006):  54%|█████▎    | 9089/16950 [1:39:52<1:02:49,  2.09it/s]Training 2/3 epoch (loss 0.0100):  54%|█████▎    | 9089/16950 [1:39:52<1:02:49,  2.09it/s]Training 2/3 epoch (loss 0.0100):  54%|█████▎    | 9090/16950 [1:39:52<1:04:06,  2.04it/s]Training 2/3 epoch (loss 0.0607):  54%|█████▎    | 9090/16950 [1:39:53<1:04:06,  2.04it/s]Training 2/3 epoch (loss 0.0607):  54%|█████▎    | 9091/16950 [1:39:53<1:02:38,  2.09it/s]Training 2/3 epoch (loss 0.0207):  54%|█████▎    | 9091/16950 [1:39:53<1:02:38,  2.09it/s]Training 2/3 epoch (loss 0.0207):  54%|█████▎    | 9092/16950 [1:39:53<1:04:43,  2.02it/s]Training 2/3 epoch (loss 0.0008):  54%|█████▎    | 9092/16950 [1:39:54<1:04:43,  2.02it/s]Training 2/3 epoch (loss 0.0008):  54%|█████▎    | 9093/16950 [1:39:54<1:03:38,  2.06it/s]Training 2/3 epoch (loss 0.0056):  54%|█████▎    | 9093/16950 [1:39:54<1:03:38,  2.06it/s]Training 2/3 epoch (loss 0.0056):  54%|█████▎    | 9094/16950 [1:39:54<1:04:41,  2.02it/s]Training 2/3 epoch (loss 0.3931):  54%|█████▎    | 9094/16950 [1:39:55<1:04:41,  2.02it/s]Training 2/3 epoch (loss 0.3931):  54%|█████▎    | 9095/16950 [1:39:55<1:02:08,  2.11it/s]Training 2/3 epoch (loss 0.0032):  54%|█████▎    | 9095/16950 [1:39:55<1:02:08,  2.11it/s]Training 2/3 epoch (loss 0.0032):  54%|█████▎    | 9096/16950 [1:39:55<1:03:22,  2.07it/s]Training 2/3 epoch (loss 0.0002):  54%|█████▎    | 9096/16950 [1:39:56<1:03:22,  2.07it/s]Training 2/3 epoch (loss 0.0002):  54%|█████▎    | 9097/16950 [1:39:56<1:04:24,  2.03it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▎    | 9097/16950 [1:39:56<1:04:24,  2.03it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▎    | 9098/16950 [1:39:56<1:06:44,  1.96it/s]Training 2/3 epoch (loss 0.0291):  54%|█████▎    | 9098/16950 [1:39:57<1:06:44,  1.96it/s]Training 2/3 epoch (loss 0.0291):  54%|█████▎    | 9099/16950 [1:39:57<1:04:16,  2.04it/s]Training 2/3 epoch (loss 0.0005):  54%|█████▎    | 9099/16950 [1:39:57<1:04:16,  2.04it/s]Training 2/3 epoch (loss 0.0005):  54%|█████▎    | 9100/16950 [1:39:57<1:11:37,  1.83it/s]Training 2/3 epoch (loss 0.3180):  54%|█████▎    | 9100/16950 [1:39:58<1:11:37,  1.83it/s]Training 2/3 epoch (loss 0.3180):  54%|█████▎    | 9101/16950 [1:39:58<1:08:53,  1.90it/s]Training 2/3 epoch (loss 0.1188):  54%|█████▎    | 9101/16950 [1:39:59<1:08:53,  1.90it/s]Training 2/3 epoch (loss 0.1188):  54%|█████▎    | 9102/16950 [1:39:59<1:21:11,  1.61it/s]Training 2/3 epoch (loss 0.0027):  54%|█████▎    | 9102/16950 [1:40:00<1:21:11,  1.61it/s]Training 2/3 epoch (loss 0.0027):  54%|█████▎    | 9103/16950 [1:40:00<1:33:14,  1.40it/s]Training 2/3 epoch (loss 0.0008):  54%|█████▎    | 9103/16950 [1:40:00<1:33:14,  1.40it/s]Training 2/3 epoch (loss 0.0008):  54%|█████▎    | 9104/16950 [1:40:00<1:26:31,  1.51it/s]Training 2/3 epoch (loss 0.3731):  54%|█████▎    | 9104/16950 [1:40:01<1:26:31,  1.51it/s]Training 2/3 epoch (loss 0.3731):  54%|█████▎    | 9105/16950 [1:40:01<1:15:51,  1.72it/s]Training 2/3 epoch (loss 0.0002):  54%|█████▎    | 9105/16950 [1:40:01<1:15:51,  1.72it/s]Training 2/3 epoch (loss 0.0002):  54%|█████▎    | 9106/16950 [1:40:01<1:14:21,  1.76it/s]Training 2/3 epoch (loss 0.3810):  54%|█████▎    | 9106/16950 [1:40:02<1:14:21,  1.76it/s]Training 2/3 epoch (loss 0.3810):  54%|█████▎    | 9107/16950 [1:40:02<1:29:29,  1.46it/s]Training 2/3 epoch (loss 0.0000):  54%|█████▎    | 9107/16950 [1:40:03<1:29:29,  1.46it/s]Training 2/3 epoch (loss 0.0000):  54%|█████▎    | 9108/16950 [1:40:03<1:27:12,  1.50it/s]Training 2/3 epoch (loss 0.1557):  54%|█████▎    | 9108/16950 [1:40:03<1:27:12,  1.50it/s]Training 2/3 epoch (loss 0.1557):  54%|█████▎    | 9109/16950 [1:40:03<1:23:16,  1.57it/s]Training 2/3 epoch (loss 0.4160):  54%|█████▎    | 9109/16950 [1:40:04<1:23:16,  1.57it/s]Training 2/3 epoch (loss 0.4160):  54%|█████▎    | 9110/16950 [1:40:04<1:22:47,  1.58it/s]Training 2/3 epoch (loss 0.0005):  54%|█████▎    | 9110/16950 [1:40:05<1:22:47,  1.58it/s]Training 2/3 epoch (loss 0.0005):  54%|█████▍    | 9111/16950 [1:40:05<1:22:37,  1.58it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9111/16950 [1:40:05<1:22:37,  1.58it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9112/16950 [1:40:05<1:23:32,  1.56it/s]Training 2/3 epoch (loss 0.0002):  54%|█████▍    | 9112/16950 [1:40:06<1:23:32,  1.56it/s]Training 2/3 epoch (loss 0.0002):  54%|█████▍    | 9113/16950 [1:40:06<1:22:38,  1.58it/s]Training 2/3 epoch (loss 0.2218):  54%|█████▍    | 9113/16950 [1:40:06<1:22:38,  1.58it/s]Training 2/3 epoch (loss 0.2218):  54%|█████▍    | 9114/16950 [1:40:06<1:24:38,  1.54it/s]Training 2/3 epoch (loss 0.0018):  54%|█████▍    | 9114/16950 [1:40:07<1:24:38,  1.54it/s]Training 2/3 epoch (loss 0.0018):  54%|█████▍    | 9115/16950 [1:40:07<1:17:00,  1.70it/s]Training 2/3 epoch (loss 0.0000):  54%|█████▍    | 9115/16950 [1:40:07<1:17:00,  1.70it/s]Training 2/3 epoch (loss 0.0000):  54%|█████▍    | 9116/16950 [1:40:07<1:11:55,  1.82it/s]Training 2/3 epoch (loss 0.0079):  54%|█████▍    | 9116/16950 [1:40:08<1:11:55,  1.82it/s]Training 2/3 epoch (loss 0.0079):  54%|█████▍    | 9117/16950 [1:40:08<1:05:49,  1.98it/s]Training 2/3 epoch (loss 0.1138):  54%|█████▍    | 9117/16950 [1:40:08<1:05:49,  1.98it/s]Training 2/3 epoch (loss 0.1138):  54%|█████▍    | 9118/16950 [1:40:08<1:10:20,  1.86it/s]Training 2/3 epoch (loss 0.0052):  54%|█████▍    | 9118/16950 [1:40:09<1:10:20,  1.86it/s]Training 2/3 epoch (loss 0.0052):  54%|█████▍    | 9119/16950 [1:40:09<1:10:35,  1.85it/s]Training 2/3 epoch (loss 0.3144):  54%|█████▍    | 9119/16950 [1:40:09<1:10:35,  1.85it/s]Training 2/3 epoch (loss 0.3144):  54%|█████▍    | 9120/16950 [1:40:09<1:07:44,  1.93it/s]Training 2/3 epoch (loss 0.4199):  54%|█████▍    | 9120/16950 [1:40:10<1:07:44,  1.93it/s]Training 2/3 epoch (loss 0.4199):  54%|█████▍    | 9121/16950 [1:40:10<1:03:15,  2.06it/s]Training 2/3 epoch (loss 0.0033):  54%|█████▍    | 9121/16950 [1:40:10<1:03:15,  2.06it/s]Training 2/3 epoch (loss 0.0033):  54%|█████▍    | 9122/16950 [1:40:10<1:01:32,  2.12it/s]Training 2/3 epoch (loss 0.1342):  54%|█████▍    | 9122/16950 [1:40:11<1:01:32,  2.12it/s]Training 2/3 epoch (loss 0.1342):  54%|█████▍    | 9123/16950 [1:40:11<1:11:20,  1.83it/s]Training 2/3 epoch (loss 0.2385):  54%|█████▍    | 9123/16950 [1:40:12<1:11:20,  1.83it/s]Training 2/3 epoch (loss 0.2385):  54%|█████▍    | 9124/16950 [1:40:12<1:17:34,  1.68it/s]Training 2/3 epoch (loss 0.0035):  54%|█████▍    | 9124/16950 [1:40:12<1:17:34,  1.68it/s]Training 2/3 epoch (loss 0.0035):  54%|█████▍    | 9125/16950 [1:40:12<1:20:09,  1.63it/s]Training 2/3 epoch (loss 0.2818):  54%|█████▍    | 9125/16950 [1:40:13<1:20:09,  1.63it/s]Training 2/3 epoch (loss 0.2818):  54%|█████▍    | 9126/16950 [1:40:13<1:23:47,  1.56it/s]Training 2/3 epoch (loss 0.0168):  54%|█████▍    | 9126/16950 [1:40:14<1:23:47,  1.56it/s]Training 2/3 epoch (loss 0.0168):  54%|█████▍    | 9127/16950 [1:40:14<1:18:30,  1.66it/s]Training 2/3 epoch (loss 0.1854):  54%|█████▍    | 9127/16950 [1:40:14<1:18:30,  1.66it/s]Training 2/3 epoch (loss 0.1854):  54%|█████▍    | 9128/16950 [1:40:14<1:23:15,  1.57it/s]Training 2/3 epoch (loss 0.0006):  54%|█████▍    | 9128/16950 [1:40:15<1:23:15,  1.57it/s]Training 2/3 epoch (loss 0.0006):  54%|█████▍    | 9129/16950 [1:40:15<1:18:48,  1.65it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9129/16950 [1:40:15<1:18:48,  1.65it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9130/16950 [1:40:15<1:14:56,  1.74it/s]Training 2/3 epoch (loss 0.3321):  54%|█████▍    | 9130/16950 [1:40:16<1:14:56,  1.74it/s]Training 2/3 epoch (loss 0.3321):  54%|█████▍    | 9131/16950 [1:40:16<1:18:30,  1.66it/s]Training 2/3 epoch (loss 0.0162):  54%|█████▍    | 9131/16950 [1:40:17<1:18:30,  1.66it/s]Training 2/3 epoch (loss 0.0162):  54%|█████▍    | 9132/16950 [1:40:17<1:16:37,  1.70it/s]Training 2/3 epoch (loss 0.0055):  54%|█████▍    | 9132/16950 [1:40:17<1:16:37,  1.70it/s]Training 2/3 epoch (loss 0.0055):  54%|█████▍    | 9133/16950 [1:40:17<1:15:07,  1.73it/s]Training 2/3 epoch (loss 0.0090):  54%|█████▍    | 9133/16950 [1:40:18<1:15:07,  1.73it/s]Training 2/3 epoch (loss 0.0090):  54%|█████▍    | 9134/16950 [1:40:18<1:10:06,  1.86it/s]Training 2/3 epoch (loss 0.0002):  54%|█████▍    | 9134/16950 [1:40:18<1:10:06,  1.86it/s]Training 2/3 epoch (loss 0.0002):  54%|█████▍    | 9135/16950 [1:40:18<1:20:57,  1.61it/s]Training 2/3 epoch (loss 0.0519):  54%|█████▍    | 9135/16950 [1:40:19<1:20:57,  1.61it/s]Training 2/3 epoch (loss 0.0519):  54%|█████▍    | 9136/16950 [1:40:19<1:15:27,  1.73it/s]Training 2/3 epoch (loss 0.0000):  54%|█████▍    | 9136/16950 [1:40:19<1:15:27,  1.73it/s]Training 2/3 epoch (loss 0.0000):  54%|█████▍    | 9137/16950 [1:40:19<1:17:37,  1.68it/s]Training 2/3 epoch (loss 0.6651):  54%|█████▍    | 9137/16950 [1:40:20<1:17:37,  1.68it/s]Training 2/3 epoch (loss 0.6651):  54%|█████▍    | 9138/16950 [1:40:20<1:27:37,  1.49it/s]Training 2/3 epoch (loss 0.0211):  54%|█████▍    | 9138/16950 [1:40:21<1:27:37,  1.49it/s]Training 2/3 epoch (loss 0.0211):  54%|█████▍    | 9139/16950 [1:40:21<1:29:28,  1.46it/s]Training 2/3 epoch (loss 0.0118):  54%|█████▍    | 9139/16950 [1:40:22<1:29:28,  1.46it/s]Training 2/3 epoch (loss 0.0118):  54%|█████▍    | 9140/16950 [1:40:22<1:29:11,  1.46it/s]Training 2/3 epoch (loss 0.0034):  54%|█████▍    | 9140/16950 [1:40:22<1:29:11,  1.46it/s]Training 2/3 epoch (loss 0.0034):  54%|█████▍    | 9141/16950 [1:40:22<1:28:17,  1.47it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9141/16950 [1:40:23<1:28:17,  1.47it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9142/16950 [1:40:23<1:23:13,  1.56it/s]Training 2/3 epoch (loss 0.0940):  54%|█████▍    | 9142/16950 [1:40:24<1:23:13,  1.56it/s]Training 2/3 epoch (loss 0.0940):  54%|█████▍    | 9143/16950 [1:40:24<1:29:01,  1.46it/s]Training 2/3 epoch (loss 0.6647):  54%|█████▍    | 9143/16950 [1:40:24<1:29:01,  1.46it/s]Training 2/3 epoch (loss 0.6647):  54%|█████▍    | 9144/16950 [1:40:24<1:25:38,  1.52it/s]Training 2/3 epoch (loss 0.0116):  54%|█████▍    | 9144/16950 [1:40:25<1:25:38,  1.52it/s]Training 2/3 epoch (loss 0.0116):  54%|█████▍    | 9145/16950 [1:40:25<1:35:40,  1.36it/s]Training 2/3 epoch (loss 0.1516):  54%|█████▍    | 9145/16950 [1:40:26<1:35:40,  1.36it/s]Training 2/3 epoch (loss 0.1516):  54%|█████▍    | 9146/16950 [1:40:26<1:37:56,  1.33it/s]Training 2/3 epoch (loss 0.0031):  54%|█████▍    | 9146/16950 [1:40:27<1:37:56,  1.33it/s]Training 2/3 epoch (loss 0.0031):  54%|█████▍    | 9147/16950 [1:40:27<1:38:47,  1.32it/s]Training 2/3 epoch (loss 0.7662):  54%|█████▍    | 9147/16950 [1:40:28<1:38:47,  1.32it/s]Training 2/3 epoch (loss 0.7662):  54%|█████▍    | 9148/16950 [1:40:28<1:45:57,  1.23it/s]Training 2/3 epoch (loss 0.0162):  54%|█████▍    | 9148/16950 [1:40:29<1:45:57,  1.23it/s]Training 2/3 epoch (loss 0.0162):  54%|█████▍    | 9149/16950 [1:40:29<1:45:09,  1.24it/s]Training 2/3 epoch (loss 0.1970):  54%|█████▍    | 9149/16950 [1:40:29<1:45:09,  1.24it/s]Training 2/3 epoch (loss 0.1970):  54%|█████▍    | 9150/16950 [1:40:29<1:42:19,  1.27it/s]Training 2/3 epoch (loss 0.0647):  54%|█████▍    | 9150/16950 [1:40:30<1:42:19,  1.27it/s]Training 2/3 epoch (loss 0.0647):  54%|█████▍    | 9151/16950 [1:40:30<1:40:33,  1.29it/s]Training 2/3 epoch (loss 0.1337):  54%|█████▍    | 9151/16950 [1:40:31<1:40:33,  1.29it/s]Training 2/3 epoch (loss 0.1337):  54%|█████▍    | 9152/16950 [1:40:31<1:57:23,  1.11it/s]Training 2/3 epoch (loss 0.0321):  54%|█████▍    | 9152/16950 [1:40:32<1:57:23,  1.11it/s]Training 2/3 epoch (loss 0.0321):  54%|█████▍    | 9153/16950 [1:40:32<1:50:57,  1.17it/s]Training 2/3 epoch (loss 0.0188):  54%|█████▍    | 9153/16950 [1:40:32<1:50:57,  1.17it/s]Training 2/3 epoch (loss 0.0188):  54%|█████▍    | 9154/16950 [1:40:32<1:37:30,  1.33it/s]Training 2/3 epoch (loss 0.2786):  54%|█████▍    | 9154/16950 [1:40:34<1:37:30,  1.33it/s]Training 2/3 epoch (loss 0.2786):  54%|█████▍    | 9155/16950 [1:40:34<1:49:05,  1.19it/s]Training 2/3 epoch (loss 0.2116):  54%|█████▍    | 9155/16950 [1:40:34<1:49:05,  1.19it/s]Training 2/3 epoch (loss 0.2116):  54%|█████▍    | 9156/16950 [1:40:34<1:38:42,  1.32it/s]Training 2/3 epoch (loss 0.0008):  54%|█████▍    | 9156/16950 [1:40:35<1:38:42,  1.32it/s]Training 2/3 epoch (loss 0.0008):  54%|█████▍    | 9157/16950 [1:40:35<1:34:24,  1.38it/s]Training 2/3 epoch (loss 0.1724):  54%|█████▍    | 9157/16950 [1:40:35<1:34:24,  1.38it/s]Training 2/3 epoch (loss 0.1724):  54%|█████▍    | 9158/16950 [1:40:35<1:24:06,  1.54it/s]Training 2/3 epoch (loss 0.5172):  54%|█████▍    | 9158/16950 [1:40:36<1:24:06,  1.54it/s]Training 2/3 epoch (loss 0.5172):  54%|█████▍    | 9159/16950 [1:40:36<1:15:40,  1.72it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9159/16950 [1:40:36<1:15:40,  1.72it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9160/16950 [1:40:36<1:20:48,  1.61it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9160/16950 [1:40:37<1:20:48,  1.61it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9161/16950 [1:40:37<1:14:49,  1.74it/s]Training 2/3 epoch (loss 0.3762):  54%|█████▍    | 9161/16950 [1:40:37<1:14:49,  1.74it/s]Training 2/3 epoch (loss 0.3762):  54%|█████▍    | 9162/16950 [1:40:37<1:12:50,  1.78it/s]Training 2/3 epoch (loss 0.2241):  54%|█████▍    | 9162/16950 [1:40:38<1:12:50,  1.78it/s]Training 2/3 epoch (loss 0.2241):  54%|█████▍    | 9163/16950 [1:40:38<1:14:27,  1.74it/s]Training 2/3 epoch (loss 0.0309):  54%|█████▍    | 9163/16950 [1:40:38<1:14:27,  1.74it/s]Training 2/3 epoch (loss 0.0309):  54%|█████▍    | 9164/16950 [1:40:38<1:09:11,  1.88it/s]Training 2/3 epoch (loss 0.0000):  54%|█████▍    | 9164/16950 [1:40:39<1:09:11,  1.88it/s]Training 2/3 epoch (loss 0.0000):  54%|█████▍    | 9165/16950 [1:40:39<1:08:45,  1.89it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9165/16950 [1:40:39<1:08:45,  1.89it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9166/16950 [1:40:39<1:10:57,  1.83it/s]Training 2/3 epoch (loss 0.0132):  54%|█████▍    | 9166/16950 [1:40:40<1:10:57,  1.83it/s]Training 2/3 epoch (loss 0.0132):  54%|█████▍    | 9167/16950 [1:40:40<1:15:36,  1.72it/s]Training 2/3 epoch (loss 0.0146):  54%|█████▍    | 9167/16950 [1:40:41<1:15:36,  1.72it/s]Training 2/3 epoch (loss 0.0146):  54%|█████▍    | 9168/16950 [1:40:41<1:25:24,  1.52it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9168/16950 [1:40:42<1:25:24,  1.52it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9169/16950 [1:40:42<1:21:27,  1.59it/s]Training 2/3 epoch (loss 0.1950):  54%|█████▍    | 9169/16950 [1:40:42<1:21:27,  1.59it/s]Training 2/3 epoch (loss 0.1950):  54%|█████▍    | 9170/16950 [1:40:42<1:21:55,  1.58it/s]Training 2/3 epoch (loss 0.2779):  54%|█████▍    | 9170/16950 [1:40:43<1:21:55,  1.58it/s]Training 2/3 epoch (loss 0.2779):  54%|█████▍    | 9171/16950 [1:40:43<1:37:41,  1.33it/s]Training 2/3 epoch (loss 0.0000):  54%|█████▍    | 9171/16950 [1:40:44<1:37:41,  1.33it/s]Training 2/3 epoch (loss 0.0000):  54%|█████▍    | 9172/16950 [1:40:44<1:32:59,  1.39it/s]Training 2/3 epoch (loss 0.0071):  54%|█████▍    | 9172/16950 [1:40:44<1:32:59,  1.39it/s]Training 2/3 epoch (loss 0.0071):  54%|█████▍    | 9173/16950 [1:40:44<1:26:51,  1.49it/s]Training 2/3 epoch (loss 0.0917):  54%|█████▍    | 9173/16950 [1:40:45<1:26:51,  1.49it/s]Training 2/3 epoch (loss 0.0917):  54%|█████▍    | 9174/16950 [1:40:45<1:28:51,  1.46it/s]Training 2/3 epoch (loss 0.0020):  54%|█████▍    | 9174/16950 [1:40:46<1:28:51,  1.46it/s]Training 2/3 epoch (loss 0.0020):  54%|█████▍    | 9175/16950 [1:40:46<1:25:11,  1.52it/s]Training 2/3 epoch (loss 0.1443):  54%|█████▍    | 9175/16950 [1:40:46<1:25:11,  1.52it/s]Training 2/3 epoch (loss 0.1443):  54%|█████▍    | 9176/16950 [1:40:46<1:19:49,  1.62it/s]Training 2/3 epoch (loss 0.0002):  54%|█████▍    | 9176/16950 [1:40:47<1:19:49,  1.62it/s]Training 2/3 epoch (loss 0.0002):  54%|█████▍    | 9177/16950 [1:40:47<1:13:45,  1.76it/s]Training 2/3 epoch (loss 0.4468):  54%|█████▍    | 9177/16950 [1:40:47<1:13:45,  1.76it/s]Training 2/3 epoch (loss 0.4468):  54%|█████▍    | 9178/16950 [1:40:47<1:07:55,  1.91it/s]Training 2/3 epoch (loss 0.0102):  54%|█████▍    | 9178/16950 [1:40:48<1:07:55,  1.91it/s]Training 2/3 epoch (loss 0.0102):  54%|█████▍    | 9179/16950 [1:40:48<1:11:01,  1.82it/s]Training 2/3 epoch (loss 0.0081):  54%|█████▍    | 9179/16950 [1:40:48<1:11:01,  1.82it/s]Training 2/3 epoch (loss 0.0081):  54%|█████▍    | 9180/16950 [1:40:48<1:09:58,  1.85it/s]Training 2/3 epoch (loss 0.0170):  54%|█████▍    | 9180/16950 [1:40:49<1:09:58,  1.85it/s]Training 2/3 epoch (loss 0.0170):  54%|█████▍    | 9181/16950 [1:40:49<1:25:05,  1.52it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9181/16950 [1:40:50<1:25:05,  1.52it/s]Training 2/3 epoch (loss 0.0001):  54%|█████▍    | 9182/16950 [1:40:50<1:17:59,  1.66it/s]Training 2/3 epoch (loss 0.0440):  54%|█████▍    | 9182/16950 [1:40:50<1:17:59,  1.66it/s]Training 2/3 epoch (loss 0.0440):  54%|█████▍    | 9183/16950 [1:40:50<1:09:40,  1.86it/s]Training 2/3 epoch (loss 0.7142):  54%|█████▍    | 9183/16950 [1:40:50<1:09:40,  1.86it/s]Training 2/3 epoch (loss 0.7142):  54%|█████▍    | 9184/16950 [1:40:50<1:03:09,  2.05it/s]Training 2/3 epoch (loss 0.0839):  54%|█████▍    | 9184/16950 [1:40:51<1:03:09,  2.05it/s]Training 2/3 epoch (loss 0.0839):  54%|█████▍    | 9185/16950 [1:40:51<1:07:36,  1.91it/s]Training 2/3 epoch (loss 0.4056):  54%|█████▍    | 9185/16950 [1:40:52<1:07:36,  1.91it/s]Training 2/3 epoch (loss 0.4056):  54%|█████▍    | 9186/16950 [1:40:52<1:20:45,  1.60it/s]Training 2/3 epoch (loss 0.0108):  54%|█████▍    | 9186/16950 [1:40:53<1:20:45,  1.60it/s]Training 2/3 epoch (loss 0.0108):  54%|█████▍    | 9187/16950 [1:40:53<1:20:52,  1.60it/s]Training 2/3 epoch (loss 0.0271):  54%|█████▍    | 9187/16950 [1:40:53<1:20:52,  1.60it/s]Training 2/3 epoch (loss 0.0271):  54%|█████▍    | 9188/16950 [1:40:53<1:11:17,  1.81it/s]Training 2/3 epoch (loss 0.0207):  54%|█████▍    | 9188/16950 [1:40:53<1:11:17,  1.81it/s]Training 2/3 epoch (loss 0.0207):  54%|█████▍    | 9189/16950 [1:40:53<1:13:05,  1.77it/s]Training 2/3 epoch (loss 0.0319):  54%|█████▍    | 9189/16950 [1:40:54<1:13:05,  1.77it/s]Training 2/3 epoch (loss 0.0319):  54%|█████▍    | 9190/16950 [1:40:54<1:12:14,  1.79it/s]Training 2/3 epoch (loss 0.0010):  54%|█████▍    | 9190/16950 [1:40:55<1:12:14,  1.79it/s]Training 2/3 epoch (loss 0.0010):  54%|█████▍    | 9191/16950 [1:40:55<1:15:54,  1.70it/s]Training 2/3 epoch (loss 0.4210):  54%|█████▍    | 9191/16950 [1:40:55<1:15:54,  1.70it/s]Training 2/3 epoch (loss 0.4210):  54%|█████▍    | 9192/16950 [1:40:55<1:18:20,  1.65it/s]Training 2/3 epoch (loss 0.4956):  54%|█████▍    | 9192/16950 [1:40:56<1:18:20,  1.65it/s]Training 2/3 epoch (loss 0.4956):  54%|█████▍    | 9193/16950 [1:40:56<1:14:46,  1.73it/s]Training 2/3 epoch (loss 0.0758):  54%|█████▍    | 9193/16950 [1:40:56<1:14:46,  1.73it/s]Training 2/3 epoch (loss 0.0758):  54%|█████▍    | 9194/16950 [1:40:56<1:12:09,  1.79it/s]Training 2/3 epoch (loss 0.2200):  54%|█████▍    | 9194/16950 [1:40:57<1:12:09,  1.79it/s]Training 2/3 epoch (loss 0.2200):  54%|█████▍    | 9195/16950 [1:40:57<1:14:53,  1.73it/s]Training 2/3 epoch (loss 0.0959):  54%|█████▍    | 9195/16950 [1:40:58<1:14:53,  1.73it/s]Training 2/3 epoch (loss 0.0959):  54%|█████▍    | 9196/16950 [1:40:58<1:20:03,  1.61it/s]Training 2/3 epoch (loss 0.0025):  54%|█████▍    | 9196/16950 [1:40:58<1:20:03,  1.61it/s]Training 2/3 epoch (loss 0.0025):  54%|█████▍    | 9197/16950 [1:40:58<1:18:00,  1.66it/s]Training 2/3 epoch (loss 0.9821):  54%|█████▍    | 9197/16950 [1:40:59<1:18:00,  1.66it/s]Training 2/3 epoch (loss 0.9821):  54%|█████▍    | 9198/16950 [1:40:59<1:09:10,  1.87it/s]Training 2/3 epoch (loss 0.3950):  54%|█████▍    | 9198/16950 [1:40:59<1:09:10,  1.87it/s]Training 2/3 epoch (loss 0.3950):  54%|█████▍    | 9199/16950 [1:40:59<1:05:42,  1.97it/s]Training 2/3 epoch (loss 0.4085):  54%|█████▍    | 9199/16950 [1:41:00<1:05:42,  1.97it/s]Training 2/3 epoch (loss 0.4085):  54%|█████▍    | 9200/16950 [1:41:00<1:04:26,  2.00it/s]Training 2/3 epoch (loss 0.0823):  54%|█████▍    | 9200/16950 [1:41:00<1:04:26,  2.00it/s]Training 2/3 epoch (loss 0.0823):  54%|█████▍    | 9201/16950 [1:41:00<1:12:33,  1.78it/s]Training 2/3 epoch (loss 0.0253):  54%|█████▍    | 9201/16950 [1:41:01<1:12:33,  1.78it/s]Training 2/3 epoch (loss 0.0253):  54%|█████▍    | 9202/16950 [1:41:01<1:31:23,  1.41it/s]Training 2/3 epoch (loss 0.0010):  54%|█████▍    | 9202/16950 [1:41:02<1:31:23,  1.41it/s]Training 2/3 epoch (loss 0.0010):  54%|█████▍    | 9203/16950 [1:41:02<1:26:55,  1.49it/s]Training 2/3 epoch (loss 0.0068):  54%|█████▍    | 9203/16950 [1:41:02<1:26:55,  1.49it/s]Training 2/3 epoch (loss 0.0068):  54%|█████▍    | 9204/16950 [1:41:02<1:20:28,  1.60it/s]Training 2/3 epoch (loss 0.0044):  54%|█████▍    | 9204/16950 [1:41:03<1:20:28,  1.60it/s]Training 2/3 epoch (loss 0.0044):  54%|█████▍    | 9205/16950 [1:41:03<1:21:46,  1.58it/s]Training 2/3 epoch (loss 0.5254):  54%|█████▍    | 9205/16950 [1:41:04<1:21:46,  1.58it/s]Training 2/3 epoch (loss 0.5254):  54%|█████▍    | 9206/16950 [1:41:04<1:14:04,  1.74it/s]Training 2/3 epoch (loss 0.0095):  54%|█████▍    | 9206/16950 [1:41:04<1:14:04,  1.74it/s]Training 2/3 epoch (loss 0.0095):  54%|█████▍    | 9207/16950 [1:41:04<1:12:22,  1.78it/s]Training 2/3 epoch (loss 0.0526):  54%|█████▍    | 9207/16950 [1:41:05<1:12:22,  1.78it/s]Training 2/3 epoch (loss 0.0526):  54%|█████▍    | 9208/16950 [1:41:05<1:23:27,  1.55it/s]Training 2/3 epoch (loss 0.3427):  54%|█████▍    | 9208/16950 [1:41:06<1:23:27,  1.55it/s]Training 2/3 epoch (loss 0.3427):  54%|█████▍    | 9209/16950 [1:41:06<1:23:53,  1.54it/s]Training 2/3 epoch (loss 0.0594):  54%|█████▍    | 9209/16950 [1:41:06<1:23:53,  1.54it/s]Training 2/3 epoch (loss 0.0594):  54%|█████▍    | 9210/16950 [1:41:06<1:20:12,  1.61it/s]Training 2/3 epoch (loss 0.0014):  54%|█████▍    | 9210/16950 [1:41:07<1:20:12,  1.61it/s]Training 2/3 epoch (loss 0.0014):  54%|█████▍    | 9211/16950 [1:41:07<1:20:30,  1.60it/s]Training 2/3 epoch (loss 0.4966):  54%|█████▍    | 9211/16950 [1:41:07<1:20:30,  1.60it/s]Training 2/3 epoch (loss 0.4966):  54%|█████▍    | 9212/16950 [1:41:07<1:21:40,  1.58it/s]Training 2/3 epoch (loss 0.6181):  54%|█████▍    | 9212/16950 [1:41:08<1:21:40,  1.58it/s]Training 2/3 epoch (loss 0.6181):  54%|█████▍    | 9213/16950 [1:41:08<1:15:14,  1.71it/s]Training 2/3 epoch (loss 0.0543):  54%|█████▍    | 9213/16950 [1:41:09<1:15:14,  1.71it/s]Training 2/3 epoch (loss 0.0543):  54%|█████▍    | 9214/16950 [1:41:09<1:22:15,  1.57it/s]Training 2/3 epoch (loss 0.0007):  54%|█████▍    | 9214/16950 [1:41:09<1:22:15,  1.57it/s]Training 2/3 epoch (loss 0.0007):  54%|█████▍    | 9215/16950 [1:41:09<1:23:24,  1.55it/s]Training 2/3 epoch (loss 0.0019):  54%|█████▍    | 9215/16950 [1:41:10<1:23:24,  1.55it/s]Training 2/3 epoch (loss 0.0019):  54%|█████▍    | 9216/16950 [1:41:10<1:26:57,  1.48it/s]Training 2/3 epoch (loss 0.1428):  54%|█████▍    | 9216/16950 [1:41:11<1:26:57,  1.48it/s]Training 2/3 epoch (loss 0.1428):  54%|█████▍    | 9217/16950 [1:41:11<1:22:41,  1.56it/s]Training 2/3 epoch (loss 0.2321):  54%|█████▍    | 9217/16950 [1:41:11<1:22:41,  1.56it/s]Training 2/3 epoch (loss 0.2321):  54%|█████▍    | 9218/16950 [1:41:11<1:17:24,  1.66it/s]Training 2/3 epoch (loss 0.1265):  54%|█████▍    | 9218/16950 [1:41:12<1:17:24,  1.66it/s]Training 2/3 epoch (loss 0.1265):  54%|█████▍    | 9219/16950 [1:41:12<1:22:08,  1.57it/s]Training 2/3 epoch (loss 0.0133):  54%|█████▍    | 9219/16950 [1:41:13<1:22:08,  1.57it/s]Training 2/3 epoch (loss 0.0133):  54%|█████▍    | 9220/16950 [1:41:13<1:24:44,  1.52it/s]Training 2/3 epoch (loss 0.0205):  54%|█████▍    | 9220/16950 [1:41:13<1:24:44,  1.52it/s]Training 2/3 epoch (loss 0.0205):  54%|█████▍    | 9221/16950 [1:41:13<1:19:30,  1.62it/s]Training 2/3 epoch (loss 0.0045):  54%|█████▍    | 9221/16950 [1:41:14<1:19:30,  1.62it/s]Training 2/3 epoch (loss 0.0045):  54%|█████▍    | 9222/16950 [1:41:14<1:18:27,  1.64it/s]Training 2/3 epoch (loss 0.5403):  54%|█████▍    | 9222/16950 [1:41:14<1:18:27,  1.64it/s]Training 2/3 epoch (loss 0.5403):  54%|█████▍    | 9223/16950 [1:41:14<1:16:04,  1.69it/s]Training 2/3 epoch (loss 0.0564):  54%|█████▍    | 9223/16950 [1:41:15<1:16:04,  1.69it/s]Training 2/3 epoch (loss 0.0564):  54%|█████▍    | 9224/16950 [1:41:15<1:17:43,  1.66it/s]Training 2/3 epoch (loss 0.0588):  54%|█████▍    | 9224/16950 [1:41:15<1:17:43,  1.66it/s]Training 2/3 epoch (loss 0.0588):  54%|█████▍    | 9225/16950 [1:41:15<1:13:32,  1.75it/s]Training 2/3 epoch (loss 0.2758):  54%|█████▍    | 9225/16950 [1:41:16<1:13:32,  1.75it/s]Training 2/3 epoch (loss 0.2758):  54%|█████▍    | 9226/16950 [1:41:16<1:03:27,  2.03it/s]Training 2/3 epoch (loss 0.0981):  54%|█████▍    | 9226/16950 [1:41:16<1:03:27,  2.03it/s]Training 2/3 epoch (loss 0.0981):  54%|█████▍    | 9227/16950 [1:41:16<1:01:44,  2.08it/s]Training 2/3 epoch (loss 0.1963):  54%|█████▍    | 9227/16950 [1:41:17<1:01:44,  2.08it/s]Training 2/3 epoch (loss 0.1963):  54%|█████▍    | 9228/16950 [1:41:17<1:00:38,  2.12it/s]Training 2/3 epoch (loss 0.0028):  54%|█████▍    | 9228/16950 [1:41:17<1:00:38,  2.12it/s]Training 2/3 epoch (loss 0.0028):  54%|█████▍    | 9229/16950 [1:41:17<1:08:21,  1.88it/s]Training 2/3 epoch (loss 0.1270):  54%|█████▍    | 9229/16950 [1:41:18<1:08:21,  1.88it/s]Training 2/3 epoch (loss 0.1270):  54%|█████▍    | 9230/16950 [1:41:18<1:04:17,  2.00it/s]Training 2/3 epoch (loss 0.3968):  54%|█████▍    | 9230/16950 [1:41:19<1:04:17,  2.00it/s]Training 2/3 epoch (loss 0.3968):  54%|█████▍    | 9231/16950 [1:41:19<1:23:04,  1.55it/s]Training 2/3 epoch (loss 0.8732):  54%|█████▍    | 9231/16950 [1:41:19<1:23:04,  1.55it/s]Training 2/3 epoch (loss 0.8732):  54%|█████▍    | 9232/16950 [1:41:19<1:13:29,  1.75it/s]Training 2/3 epoch (loss 0.5016):  54%|█████▍    | 9232/16950 [1:41:20<1:13:29,  1.75it/s]Training 2/3 epoch (loss 0.5016):  54%|█████▍    | 9233/16950 [1:41:20<1:15:59,  1.69it/s]Training 2/3 epoch (loss 0.5450):  54%|█████▍    | 9233/16950 [1:41:20<1:15:59,  1.69it/s]Training 2/3 epoch (loss 0.5450):  54%|█████▍    | 9234/16950 [1:41:20<1:20:18,  1.60it/s]Training 2/3 epoch (loss 0.7920):  54%|█████▍    | 9234/16950 [1:41:21<1:20:18,  1.60it/s]Training 2/3 epoch (loss 0.7920):  54%|█████▍    | 9235/16950 [1:41:21<1:20:10,  1.60it/s]Training 2/3 epoch (loss 0.0082):  54%|█████▍    | 9235/16950 [1:41:22<1:20:10,  1.60it/s]Training 2/3 epoch (loss 0.0082):  54%|█████▍    | 9236/16950 [1:41:22<1:18:37,  1.64it/s]Training 2/3 epoch (loss 0.1280):  54%|█████▍    | 9236/16950 [1:41:22<1:18:37,  1.64it/s]Training 2/3 epoch (loss 0.1280):  54%|█████▍    | 9237/16950 [1:41:22<1:10:53,  1.81it/s]Training 2/3 epoch (loss 0.0062):  54%|█████▍    | 9237/16950 [1:41:22<1:10:53,  1.81it/s]Training 2/3 epoch (loss 0.0062):  55%|█████▍    | 9238/16950 [1:41:22<1:09:20,  1.85it/s]Training 2/3 epoch (loss 0.0024):  55%|█████▍    | 9238/16950 [1:41:23<1:09:20,  1.85it/s]Training 2/3 epoch (loss 0.0024):  55%|█████▍    | 9239/16950 [1:41:23<1:16:31,  1.68it/s]Training 2/3 epoch (loss 0.4332):  55%|█████▍    | 9239/16950 [1:41:24<1:16:31,  1.68it/s]Training 2/3 epoch (loss 0.4332):  55%|█████▍    | 9240/16950 [1:41:24<1:21:44,  1.57it/s]Training 2/3 epoch (loss 0.0911):  55%|█████▍    | 9240/16950 [1:41:25<1:21:44,  1.57it/s]Training 2/3 epoch (loss 0.0911):  55%|█████▍    | 9241/16950 [1:41:25<1:25:25,  1.50it/s]Training 2/3 epoch (loss 0.0045):  55%|█████▍    | 9241/16950 [1:41:26<1:25:25,  1.50it/s]Training 2/3 epoch (loss 0.0045):  55%|█████▍    | 9242/16950 [1:41:26<1:34:11,  1.36it/s]Training 2/3 epoch (loss 0.5958):  55%|█████▍    | 9242/16950 [1:41:26<1:34:11,  1.36it/s]Training 2/3 epoch (loss 0.5958):  55%|█████▍    | 9243/16950 [1:41:26<1:36:01,  1.34it/s]Training 2/3 epoch (loss 0.5128):  55%|█████▍    | 9243/16950 [1:41:27<1:36:01,  1.34it/s]Training 2/3 epoch (loss 0.5128):  55%|█████▍    | 9244/16950 [1:41:27<1:40:46,  1.27it/s]Training 2/3 epoch (loss 0.0048):  55%|█████▍    | 9244/16950 [1:41:28<1:40:46,  1.27it/s]Training 2/3 epoch (loss 0.0048):  55%|█████▍    | 9245/16950 [1:41:28<1:34:37,  1.36it/s]Training 2/3 epoch (loss 0.0059):  55%|█████▍    | 9245/16950 [1:41:28<1:34:37,  1.36it/s]Training 2/3 epoch (loss 0.0059):  55%|█████▍    | 9246/16950 [1:41:28<1:23:43,  1.53it/s]Training 2/3 epoch (loss 0.1526):  55%|█████▍    | 9246/16950 [1:41:29<1:23:43,  1.53it/s]Training 2/3 epoch (loss 0.1526):  55%|█████▍    | 9247/16950 [1:41:29<1:22:03,  1.56it/s]Training 2/3 epoch (loss 0.3505):  55%|█████▍    | 9247/16950 [1:41:30<1:22:03,  1.56it/s]Training 2/3 epoch (loss 0.3505):  55%|█████▍    | 9248/16950 [1:41:30<1:21:45,  1.57it/s]Training 2/3 epoch (loss 0.0019):  55%|█████▍    | 9248/16950 [1:41:30<1:21:45,  1.57it/s]Training 2/3 epoch (loss 0.0019):  55%|█████▍    | 9249/16950 [1:41:30<1:16:33,  1.68it/s]Training 2/3 epoch (loss 0.0080):  55%|█████▍    | 9249/16950 [1:41:30<1:16:33,  1.68it/s]Training 2/3 epoch (loss 0.0080):  55%|█████▍    | 9250/16950 [1:41:30<1:08:37,  1.87it/s]Training 2/3 epoch (loss 0.0172):  55%|█████▍    | 9250/16950 [1:41:31<1:08:37,  1.87it/s]Training 2/3 epoch (loss 0.0172):  55%|█████▍    | 9251/16950 [1:41:31<1:12:34,  1.77it/s]Training 2/3 epoch (loss 0.0004):  55%|█████▍    | 9251/16950 [1:41:32<1:12:34,  1.77it/s]Training 2/3 epoch (loss 0.0004):  55%|█████▍    | 9252/16950 [1:41:32<1:09:36,  1.84it/s]Training 2/3 epoch (loss 0.0001):  55%|█████▍    | 9252/16950 [1:41:32<1:09:36,  1.84it/s]Training 2/3 epoch (loss 0.0001):  55%|█████▍    | 9253/16950 [1:41:32<1:02:09,  2.06it/s]Training 2/3 epoch (loss 0.0180):  55%|█████▍    | 9253/16950 [1:41:33<1:02:09,  2.06it/s]Training 2/3 epoch (loss 0.0180):  55%|█████▍    | 9254/16950 [1:41:33<1:06:57,  1.92it/s]Training 2/3 epoch (loss 0.8475):  55%|█████▍    | 9254/16950 [1:41:33<1:06:57,  1.92it/s]Training 2/3 epoch (loss 0.8475):  55%|█████▍    | 9255/16950 [1:41:33<1:05:05,  1.97it/s]Training 2/3 epoch (loss 0.0464):  55%|█████▍    | 9255/16950 [1:41:33<1:05:05,  1.97it/s]Training 2/3 epoch (loss 0.0464):  55%|█████▍    | 9256/16950 [1:41:33<1:01:59,  2.07it/s]Training 2/3 epoch (loss 0.9003):  55%|█████▍    | 9256/16950 [1:41:34<1:01:59,  2.07it/s]Training 2/3 epoch (loss 0.9003):  55%|█████▍    | 9257/16950 [1:41:34<58:53,  2.18it/s]  Training 2/3 epoch (loss 0.0773):  55%|█████▍    | 9257/16950 [1:41:34<58:53,  2.18it/s]Training 2/3 epoch (loss 0.0773):  55%|█████▍    | 9258/16950 [1:41:34<55:01,  2.33it/s]Training 2/3 epoch (loss 0.0431):  55%|█████▍    | 9258/16950 [1:41:35<55:01,  2.33it/s]Training 2/3 epoch (loss 0.0431):  55%|█████▍    | 9259/16950 [1:41:35<1:01:35,  2.08it/s]Training 2/3 epoch (loss 0.1390):  55%|█████▍    | 9259/16950 [1:41:35<1:01:35,  2.08it/s]Training 2/3 epoch (loss 0.1390):  55%|█████▍    | 9260/16950 [1:41:35<1:02:54,  2.04it/s]Training 2/3 epoch (loss 0.0031):  55%|█████▍    | 9260/16950 [1:41:36<1:02:54,  2.04it/s]Training 2/3 epoch (loss 0.0031):  55%|█████▍    | 9261/16950 [1:41:36<1:07:32,  1.90it/s]Training 2/3 epoch (loss 0.1715):  55%|█████▍    | 9261/16950 [1:41:36<1:07:32,  1.90it/s]Training 2/3 epoch (loss 0.1715):  55%|█████▍    | 9262/16950 [1:41:36<1:03:41,  2.01it/s]Training 2/3 epoch (loss 0.2678):  55%|█████▍    | 9262/16950 [1:41:37<1:03:41,  2.01it/s]Training 2/3 epoch (loss 0.2678):  55%|█████▍    | 9263/16950 [1:41:37<1:06:54,  1.91it/s]Training 2/3 epoch (loss 0.0069):  55%|█████▍    | 9263/16950 [1:41:38<1:06:54,  1.91it/s]Training 2/3 epoch (loss 0.0069):  55%|█████▍    | 9264/16950 [1:41:38<1:12:28,  1.77it/s]Training 2/3 epoch (loss 0.0160):  55%|█████▍    | 9264/16950 [1:41:38<1:12:28,  1.77it/s]Training 2/3 epoch (loss 0.0160):  55%|█████▍    | 9265/16950 [1:41:38<1:10:24,  1.82it/s]Training 2/3 epoch (loss 0.7153):  55%|█████▍    | 9265/16950 [1:41:39<1:10:24,  1.82it/s]Training 2/3 epoch (loss 0.7153):  55%|█████▍    | 9266/16950 [1:41:39<1:11:40,  1.79it/s]Training 2/3 epoch (loss 0.4416):  55%|█████▍    | 9266/16950 [1:41:40<1:11:40,  1.79it/s]Training 2/3 epoch (loss 0.4416):  55%|█████▍    | 9267/16950 [1:41:40<1:25:59,  1.49it/s]Training 2/3 epoch (loss 0.0743):  55%|█████▍    | 9267/16950 [1:41:40<1:25:59,  1.49it/s]Training 2/3 epoch (loss 0.0743):  55%|█████▍    | 9268/16950 [1:41:40<1:19:29,  1.61it/s]Training 2/3 epoch (loss 0.0225):  55%|█████▍    | 9268/16950 [1:41:41<1:19:29,  1.61it/s]Training 2/3 epoch (loss 0.0225):  55%|█████▍    | 9269/16950 [1:41:41<1:13:27,  1.74it/s]Training 2/3 epoch (loss 0.6280):  55%|█████▍    | 9269/16950 [1:41:41<1:13:27,  1.74it/s]Training 2/3 epoch (loss 0.6280):  55%|█████▍    | 9270/16950 [1:41:41<1:10:23,  1.82it/s]Training 2/3 epoch (loss 0.0125):  55%|█████▍    | 9270/16950 [1:41:42<1:10:23,  1.82it/s]Training 2/3 epoch (loss 0.0125):  55%|█████▍    | 9271/16950 [1:41:42<1:18:32,  1.63it/s]Training 2/3 epoch (loss 0.0031):  55%|█████▍    | 9271/16950 [1:41:42<1:18:32,  1.63it/s]Training 2/3 epoch (loss 0.0031):  55%|█████▍    | 9272/16950 [1:41:42<1:13:37,  1.74it/s]Training 2/3 epoch (loss 0.1379):  55%|█████▍    | 9272/16950 [1:41:43<1:13:37,  1.74it/s]Training 2/3 epoch (loss 0.1379):  55%|█████▍    | 9273/16950 [1:41:43<1:35:20,  1.34it/s]Training 2/3 epoch (loss 0.7029):  55%|█████▍    | 9273/16950 [1:41:44<1:35:20,  1.34it/s]Training 2/3 epoch (loss 0.7029):  55%|█████▍    | 9274/16950 [1:41:44<1:26:10,  1.48it/s]Training 2/3 epoch (loss 0.0180):  55%|█████▍    | 9274/16950 [1:41:44<1:26:10,  1.48it/s]Training 2/3 epoch (loss 0.0180):  55%|█████▍    | 9275/16950 [1:41:44<1:19:02,  1.62it/s]Training 2/3 epoch (loss 0.0272):  55%|█████▍    | 9275/16950 [1:41:45<1:19:02,  1.62it/s]Training 2/3 epoch (loss 0.0272):  55%|█████▍    | 9276/16950 [1:41:45<1:17:44,  1.65it/s]Training 2/3 epoch (loss 0.0045):  55%|█████▍    | 9276/16950 [1:41:45<1:17:44,  1.65it/s]Training 2/3 epoch (loss 0.0045):  55%|█████▍    | 9277/16950 [1:41:45<1:11:19,  1.79it/s]Training 2/3 epoch (loss 0.2641):  55%|█████▍    | 9277/16950 [1:41:46<1:11:19,  1.79it/s]Training 2/3 epoch (loss 0.2641):  55%|█████▍    | 9278/16950 [1:41:46<1:05:48,  1.94it/s]Training 2/3 epoch (loss 0.3379):  55%|█████▍    | 9278/16950 [1:41:46<1:05:48,  1.94it/s]Training 2/3 epoch (loss 0.3379):  55%|█████▍    | 9279/16950 [1:41:46<58:41,  2.18it/s]  Training 2/3 epoch (loss 0.0764):  55%|█████▍    | 9279/16950 [1:41:47<58:41,  2.18it/s]Training 2/3 epoch (loss 0.0764):  55%|█████▍    | 9280/16950 [1:41:47<57:50,  2.21it/s]Training 2/3 epoch (loss 0.0062):  55%|█████▍    | 9280/16950 [1:41:47<57:50,  2.21it/s]Training 2/3 epoch (loss 0.0062):  55%|█████▍    | 9281/16950 [1:41:47<59:20,  2.15it/s]Training 2/3 epoch (loss 0.5187):  55%|█████▍    | 9281/16950 [1:41:48<59:20,  2.15it/s]Training 2/3 epoch (loss 0.5187):  55%|█████▍    | 9282/16950 [1:41:48<56:31,  2.26it/s]Training 2/3 epoch (loss 0.1022):  55%|█████▍    | 9282/16950 [1:41:48<56:31,  2.26it/s]Training 2/3 epoch (loss 0.1022):  55%|█████▍    | 9283/16950 [1:41:48<1:00:18,  2.12it/s]Training 2/3 epoch (loss 0.2249):  55%|█████▍    | 9283/16950 [1:41:49<1:00:18,  2.12it/s]Training 2/3 epoch (loss 0.2249):  55%|█████▍    | 9284/16950 [1:41:49<1:02:55,  2.03it/s]Training 2/3 epoch (loss 0.2983):  55%|█████▍    | 9284/16950 [1:41:49<1:02:55,  2.03it/s]Training 2/3 epoch (loss 0.2983):  55%|█████▍    | 9285/16950 [1:41:49<1:07:02,  1.91it/s]Training 2/3 epoch (loss 0.1287):  55%|█████▍    | 9285/16950 [1:41:50<1:07:02,  1.91it/s]Training 2/3 epoch (loss 0.1287):  55%|█████▍    | 9286/16950 [1:41:50<1:13:40,  1.73it/s]Training 2/3 epoch (loss 0.2087):  55%|█████▍    | 9286/16950 [1:41:51<1:13:40,  1.73it/s]Training 2/3 epoch (loss 0.2087):  55%|█████▍    | 9287/16950 [1:41:51<1:15:02,  1.70it/s]Training 2/3 epoch (loss 0.6381):  55%|█████▍    | 9287/16950 [1:41:52<1:15:02,  1.70it/s]Training 2/3 epoch (loss 0.6381):  55%|█████▍    | 9288/16950 [1:41:52<1:30:05,  1.42it/s]Training 2/3 epoch (loss 0.5377):  55%|█████▍    | 9288/16950 [1:41:53<1:30:05,  1.42it/s]Training 2/3 epoch (loss 0.5377):  55%|█████▍    | 9289/16950 [1:41:53<1:45:58,  1.20it/s]Training 2/3 epoch (loss 0.0264):  55%|█████▍    | 9289/16950 [1:41:53<1:45:58,  1.20it/s]Training 2/3 epoch (loss 0.0264):  55%|█████▍    | 9290/16950 [1:41:53<1:42:34,  1.24it/s]Training 2/3 epoch (loss 0.0006):  55%|█████▍    | 9290/16950 [1:41:54<1:42:34,  1.24it/s]Training 2/3 epoch (loss 0.0006):  55%|█████▍    | 9291/16950 [1:41:54<1:31:32,  1.39it/s]Training 2/3 epoch (loss 0.0100):  55%|█████▍    | 9291/16950 [1:41:54<1:31:32,  1.39it/s]Training 2/3 epoch (loss 0.0100):  55%|█████▍    | 9292/16950 [1:41:54<1:23:02,  1.54it/s]Training 2/3 epoch (loss 0.2867):  55%|█████▍    | 9292/16950 [1:41:55<1:23:02,  1.54it/s]Training 2/3 epoch (loss 0.2867):  55%|█████▍    | 9293/16950 [1:41:55<1:24:57,  1.50it/s]Training 2/3 epoch (loss 0.0591):  55%|█████▍    | 9293/16950 [1:41:56<1:24:57,  1.50it/s]Training 2/3 epoch (loss 0.0591):  55%|█████▍    | 9294/16950 [1:41:56<1:21:35,  1.56it/s]Training 2/3 epoch (loss 0.0004):  55%|█████▍    | 9294/16950 [1:41:56<1:21:35,  1.56it/s]Training 2/3 epoch (loss 0.0004):  55%|█████▍    | 9295/16950 [1:41:56<1:11:35,  1.78it/s]Training 2/3 epoch (loss 0.5865):  55%|█████▍    | 9295/16950 [1:41:56<1:11:35,  1.78it/s]Training 2/3 epoch (loss 0.5865):  55%|█████▍    | 9296/16950 [1:41:56<1:02:09,  2.05it/s]Training 2/3 epoch (loss 0.2784):  55%|█████▍    | 9296/16950 [1:41:57<1:02:09,  2.05it/s]Training 2/3 epoch (loss 0.2784):  55%|█████▍    | 9297/16950 [1:41:57<57:45,  2.21it/s]  Training 2/3 epoch (loss 0.0020):  55%|█████▍    | 9297/16950 [1:41:57<57:45,  2.21it/s]Training 2/3 epoch (loss 0.0020):  55%|█████▍    | 9298/16950 [1:41:57<59:02,  2.16it/s]Training 2/3 epoch (loss 0.4990):  55%|█████▍    | 9298/16950 [1:41:58<59:02,  2.16it/s]Training 2/3 epoch (loss 0.4990):  55%|█████▍    | 9299/16950 [1:41:58<1:00:59,  2.09it/s]Training 2/3 epoch (loss 0.4539):  55%|█████▍    | 9299/16950 [1:41:59<1:00:59,  2.09it/s]Training 2/3 epoch (loss 0.4539):  55%|█████▍    | 9300/16950 [1:41:59<1:18:16,  1.63it/s]Training 2/3 epoch (loss 0.3011):  55%|█████▍    | 9300/16950 [1:41:59<1:18:16,  1.63it/s]Training 2/3 epoch (loss 0.3011):  55%|█████▍    | 9301/16950 [1:41:59<1:19:44,  1.60it/s]Training 2/3 epoch (loss 0.3294):  55%|█████▍    | 9301/16950 [1:42:00<1:19:44,  1.60it/s]Training 2/3 epoch (loss 0.3294):  55%|█████▍    | 9302/16950 [1:42:00<1:23:04,  1.53it/s]Training 2/3 epoch (loss 0.0678):  55%|█████▍    | 9302/16950 [1:42:01<1:23:04,  1.53it/s]Training 2/3 epoch (loss 0.0678):  55%|█████▍    | 9303/16950 [1:42:01<1:24:59,  1.50it/s]Training 2/3 epoch (loss 0.4447):  55%|█████▍    | 9303/16950 [1:42:01<1:24:59,  1.50it/s]Training 2/3 epoch (loss 0.4447):  55%|█████▍    | 9304/16950 [1:42:01<1:19:28,  1.60it/s]Training 2/3 epoch (loss 0.0040):  55%|█████▍    | 9304/16950 [1:42:02<1:19:28,  1.60it/s]Training 2/3 epoch (loss 0.0040):  55%|█████▍    | 9305/16950 [1:42:02<1:16:14,  1.67it/s]Training 2/3 epoch (loss 0.0324):  55%|█████▍    | 9305/16950 [1:42:02<1:16:14,  1.67it/s]Training 2/3 epoch (loss 0.0324):  55%|█████▍    | 9306/16950 [1:42:02<1:17:33,  1.64it/s]Training 2/3 epoch (loss 0.0028):  55%|█████▍    | 9306/16950 [1:42:03<1:17:33,  1.64it/s]Training 2/3 epoch (loss 0.0028):  55%|█████▍    | 9307/16950 [1:42:03<1:07:04,  1.90it/s]Training 2/3 epoch (loss 0.0025):  55%|█████▍    | 9307/16950 [1:42:03<1:07:04,  1.90it/s]Training 2/3 epoch (loss 0.0025):  55%|█████▍    | 9308/16950 [1:42:03<1:06:19,  1.92it/s]Training 2/3 epoch (loss 0.4956):  55%|█████▍    | 9308/16950 [1:42:04<1:06:19,  1.92it/s]Training 2/3 epoch (loss 0.4956):  55%|█████▍    | 9309/16950 [1:42:04<1:01:40,  2.06it/s]Training 2/3 epoch (loss 0.0644):  55%|█████▍    | 9309/16950 [1:42:04<1:01:40,  2.06it/s]Training 2/3 epoch (loss 0.0644):  55%|█████▍    | 9310/16950 [1:42:04<1:07:09,  1.90it/s]Training 2/3 epoch (loss 0.0393):  55%|█████▍    | 9310/16950 [1:42:05<1:07:09,  1.90it/s]Training 2/3 epoch (loss 0.0393):  55%|█████▍    | 9311/16950 [1:42:05<1:03:53,  1.99it/s]Training 2/3 epoch (loss 0.3751):  55%|█████▍    | 9311/16950 [1:42:05<1:03:53,  1.99it/s]Training 2/3 epoch (loss 0.3751):  55%|█████▍    | 9312/16950 [1:42:05<56:08,  2.27it/s]  Training 2/3 epoch (loss 0.0195):  55%|█████▍    | 9312/16950 [1:42:05<56:08,  2.27it/s]Training 2/3 epoch (loss 0.0195):  55%|█████▍    | 9313/16950 [1:42:05<54:03,  2.35it/s]Training 2/3 epoch (loss 0.0147):  55%|█████▍    | 9313/16950 [1:42:06<54:03,  2.35it/s]Training 2/3 epoch (loss 0.0147):  55%|█████▍    | 9314/16950 [1:42:06<58:34,  2.17it/s]Training 2/3 epoch (loss 0.0041):  55%|█████▍    | 9314/16950 [1:42:06<58:34,  2.17it/s]Training 2/3 epoch (loss 0.0041):  55%|█████▍    | 9315/16950 [1:42:06<58:33,  2.17it/s]Training 2/3 epoch (loss 0.3161):  55%|█████▍    | 9315/16950 [1:42:07<58:33,  2.17it/s]Training 2/3 epoch (loss 0.3161):  55%|█████▍    | 9316/16950 [1:42:07<1:03:52,  1.99it/s]Training 2/3 epoch (loss 0.0056):  55%|█████▍    | 9316/16950 [1:42:08<1:03:52,  1.99it/s]Training 2/3 epoch (loss 0.0056):  55%|█████▍    | 9317/16950 [1:42:08<1:12:29,  1.75it/s]Training 2/3 epoch (loss 0.4315):  55%|█████▍    | 9317/16950 [1:42:08<1:12:29,  1.75it/s]Training 2/3 epoch (loss 0.4315):  55%|█████▍    | 9318/16950 [1:42:08<1:12:56,  1.74it/s]Training 2/3 epoch (loss 0.0291):  55%|█████▍    | 9318/16950 [1:42:09<1:12:56,  1.74it/s]Training 2/3 epoch (loss 0.0291):  55%|█████▍    | 9319/16950 [1:42:09<1:11:00,  1.79it/s]Training 2/3 epoch (loss 0.0282):  55%|█████▍    | 9319/16950 [1:42:10<1:11:00,  1.79it/s]Training 2/3 epoch (loss 0.0282):  55%|█████▍    | 9320/16950 [1:42:10<1:15:27,  1.69it/s]Training 2/3 epoch (loss 0.0324):  55%|█████▍    | 9320/16950 [1:42:10<1:15:27,  1.69it/s]Training 2/3 epoch (loss 0.0324):  55%|█████▍    | 9321/16950 [1:42:10<1:21:51,  1.55it/s]Training 2/3 epoch (loss 0.4273):  55%|█████▍    | 9321/16950 [1:42:11<1:21:51,  1.55it/s]Training 2/3 epoch (loss 0.4273):  55%|█████▍    | 9322/16950 [1:42:11<1:36:14,  1.32it/s]Training 2/3 epoch (loss 0.3265):  55%|█████▍    | 9322/16950 [1:42:12<1:36:14,  1.32it/s]Training 2/3 epoch (loss 0.3265):  55%|█████▌    | 9323/16950 [1:42:12<1:28:16,  1.44it/s]Training 2/3 epoch (loss 0.2735):  55%|█████▌    | 9323/16950 [1:42:12<1:28:16,  1.44it/s]Training 2/3 epoch (loss 0.2735):  55%|█████▌    | 9324/16950 [1:42:12<1:21:40,  1.56it/s]Training 2/3 epoch (loss 0.0985):  55%|█████▌    | 9324/16950 [1:42:13<1:21:40,  1.56it/s]Training 2/3 epoch (loss 0.0985):  55%|█████▌    | 9325/16950 [1:42:13<1:16:21,  1.66it/s]Training 2/3 epoch (loss 0.0018):  55%|█████▌    | 9325/16950 [1:42:13<1:16:21,  1.66it/s]Training 2/3 epoch (loss 0.0018):  55%|█████▌    | 9326/16950 [1:42:13<1:11:03,  1.79it/s]Training 2/3 epoch (loss 0.0123):  55%|█████▌    | 9326/16950 [1:42:14<1:11:03,  1.79it/s]Training 2/3 epoch (loss 0.0123):  55%|█████▌    | 9327/16950 [1:42:14<1:07:27,  1.88it/s]Training 2/3 epoch (loss 0.0944):  55%|█████▌    | 9327/16950 [1:42:14<1:07:27,  1.88it/s]Training 2/3 epoch (loss 0.0944):  55%|█████▌    | 9328/16950 [1:42:14<1:11:00,  1.79it/s]Training 2/3 epoch (loss 0.0144):  55%|█████▌    | 9328/16950 [1:42:15<1:11:00,  1.79it/s]Training 2/3 epoch (loss 0.0144):  55%|█████▌    | 9329/16950 [1:42:15<1:13:13,  1.73it/s]Training 2/3 epoch (loss 0.0335):  55%|█████▌    | 9329/16950 [1:42:16<1:13:13,  1.73it/s]Training 2/3 epoch (loss 0.0335):  55%|█████▌    | 9330/16950 [1:42:16<1:15:34,  1.68it/s]Training 2/3 epoch (loss 0.0827):  55%|█████▌    | 9330/16950 [1:42:16<1:15:34,  1.68it/s]Training 2/3 epoch (loss 0.0827):  55%|█████▌    | 9331/16950 [1:42:16<1:16:37,  1.66it/s]Training 2/3 epoch (loss 0.1298):  55%|█████▌    | 9331/16950 [1:42:17<1:16:37,  1.66it/s]Training 2/3 epoch (loss 0.1298):  55%|█████▌    | 9332/16950 [1:42:17<1:27:54,  1.44it/s]Training 2/3 epoch (loss 0.3016):  55%|█████▌    | 9332/16950 [1:42:18<1:27:54,  1.44it/s]Training 2/3 epoch (loss 0.3016):  55%|█████▌    | 9333/16950 [1:42:18<1:19:03,  1.61it/s]Training 2/3 epoch (loss 0.4408):  55%|█████▌    | 9333/16950 [1:42:18<1:19:03,  1.61it/s]Training 2/3 epoch (loss 0.4408):  55%|█████▌    | 9334/16950 [1:42:18<1:17:50,  1.63it/s]Training 2/3 epoch (loss 0.6280):  55%|█████▌    | 9334/16950 [1:42:19<1:17:50,  1.63it/s]Training 2/3 epoch (loss 0.6280):  55%|█████▌    | 9335/16950 [1:42:19<1:33:52,  1.35it/s]Training 2/3 epoch (loss 0.3819):  55%|█████▌    | 9335/16950 [1:42:20<1:33:52,  1.35it/s]Training 2/3 epoch (loss 0.3819):  55%|█████▌    | 9336/16950 [1:42:20<1:27:09,  1.46it/s]Training 2/3 epoch (loss 0.1524):  55%|█████▌    | 9336/16950 [1:42:21<1:27:09,  1.46it/s]Training 2/3 epoch (loss 0.1524):  55%|█████▌    | 9337/16950 [1:42:21<1:25:47,  1.48it/s]Training 2/3 epoch (loss 0.0785):  55%|█████▌    | 9337/16950 [1:42:21<1:25:47,  1.48it/s]Training 2/3 epoch (loss 0.0785):  55%|█████▌    | 9338/16950 [1:42:21<1:21:32,  1.56it/s]Training 2/3 epoch (loss 0.1362):  55%|█████▌    | 9338/16950 [1:42:22<1:21:32,  1.56it/s]Training 2/3 epoch (loss 0.1362):  55%|█████▌    | 9339/16950 [1:42:22<1:16:16,  1.66it/s]Training 2/3 epoch (loss 0.0336):  55%|█████▌    | 9339/16950 [1:42:22<1:16:16,  1.66it/s]Training 2/3 epoch (loss 0.0336):  55%|█████▌    | 9340/16950 [1:42:22<1:14:17,  1.71it/s]Training 2/3 epoch (loss 0.2739):  55%|█████▌    | 9340/16950 [1:42:23<1:14:17,  1.71it/s]Training 2/3 epoch (loss 0.2739):  55%|█████▌    | 9341/16950 [1:42:23<1:06:47,  1.90it/s]Training 2/3 epoch (loss 0.0016):  55%|█████▌    | 9341/16950 [1:42:23<1:06:47,  1.90it/s]Training 2/3 epoch (loss 0.0016):  55%|█████▌    | 9342/16950 [1:42:23<1:02:53,  2.02it/s]Training 2/3 epoch (loss 0.0004):  55%|█████▌    | 9342/16950 [1:42:23<1:02:53,  2.02it/s]Training 2/3 epoch (loss 0.0004):  55%|█████▌    | 9343/16950 [1:42:23<1:01:15,  2.07it/s]Training 2/3 epoch (loss 0.7229):  55%|█████▌    | 9343/16950 [1:42:24<1:01:15,  2.07it/s]Training 2/3 epoch (loss 0.7229):  55%|█████▌    | 9344/16950 [1:42:24<59:11,  2.14it/s]  Training 2/3 epoch (loss 0.0000):  55%|█████▌    | 9344/16950 [1:42:24<59:11,  2.14it/s]Training 2/3 epoch (loss 0.0000):  55%|█████▌    | 9345/16950 [1:42:24<54:54,  2.31it/s]Training 2/3 epoch (loss 0.4440):  55%|█████▌    | 9345/16950 [1:42:25<54:54,  2.31it/s]Training 2/3 epoch (loss 0.4440):  55%|█████▌    | 9346/16950 [1:42:25<51:47,  2.45it/s]Training 2/3 epoch (loss 0.5343):  55%|█████▌    | 9346/16950 [1:42:25<51:47,  2.45it/s]Training 2/3 epoch (loss 0.5343):  55%|█████▌    | 9347/16950 [1:42:25<1:06:01,  1.92it/s]Training 2/3 epoch (loss 0.0099):  55%|█████▌    | 9347/16950 [1:42:26<1:06:01,  1.92it/s]Training 2/3 epoch (loss 0.0099):  55%|█████▌    | 9348/16950 [1:42:26<1:08:17,  1.86it/s]Training 2/3 epoch (loss 0.0020):  55%|█████▌    | 9348/16950 [1:42:26<1:08:17,  1.86it/s]Training 2/3 epoch (loss 0.0020):  55%|█████▌    | 9349/16950 [1:42:26<1:01:11,  2.07it/s]Training 2/3 epoch (loss 0.0901):  55%|█████▌    | 9349/16950 [1:42:27<1:01:11,  2.07it/s]Training 2/3 epoch (loss 0.0901):  55%|█████▌    | 9350/16950 [1:42:27<1:06:11,  1.91it/s]Training 2/3 epoch (loss 0.3026):  55%|█████▌    | 9350/16950 [1:42:28<1:06:11,  1.91it/s]Training 2/3 epoch (loss 0.3026):  55%|█████▌    | 9351/16950 [1:42:28<1:12:55,  1.74it/s]Training 2/3 epoch (loss 0.3912):  55%|█████▌    | 9351/16950 [1:42:28<1:12:55,  1.74it/s]Training 2/3 epoch (loss 0.3912):  55%|█████▌    | 9352/16950 [1:42:28<1:20:05,  1.58it/s]Training 2/3 epoch (loss 0.0037):  55%|█████▌    | 9352/16950 [1:42:29<1:20:05,  1.58it/s]Training 2/3 epoch (loss 0.0037):  55%|█████▌    | 9353/16950 [1:42:29<1:12:22,  1.75it/s]Training 2/3 epoch (loss 0.0057):  55%|█████▌    | 9353/16950 [1:42:29<1:12:22,  1.75it/s]Training 2/3 epoch (loss 0.0057):  55%|█████▌    | 9354/16950 [1:42:29<1:09:06,  1.83it/s]Training 2/3 epoch (loss 0.0081):  55%|█████▌    | 9354/16950 [1:42:30<1:09:06,  1.83it/s]Training 2/3 epoch (loss 0.0081):  55%|█████▌    | 9355/16950 [1:42:30<1:08:10,  1.86it/s]Training 2/3 epoch (loss 0.0014):  55%|█████▌    | 9355/16950 [1:42:30<1:08:10,  1.86it/s]Training 2/3 epoch (loss 0.0014):  55%|█████▌    | 9356/16950 [1:42:30<1:08:07,  1.86it/s]Training 2/3 epoch (loss 0.0002):  55%|█████▌    | 9356/16950 [1:42:31<1:08:07,  1.86it/s]Training 2/3 epoch (loss 0.0002):  55%|█████▌    | 9357/16950 [1:42:31<1:12:20,  1.75it/s]Training 2/3 epoch (loss 0.0087):  55%|█████▌    | 9357/16950 [1:42:32<1:12:20,  1.75it/s]Training 2/3 epoch (loss 0.0087):  55%|█████▌    | 9358/16950 [1:42:32<1:11:34,  1.77it/s]Training 2/3 epoch (loss 0.0177):  55%|█████▌    | 9358/16950 [1:42:32<1:11:34,  1.77it/s]Training 2/3 epoch (loss 0.0177):  55%|█████▌    | 9359/16950 [1:42:32<1:13:32,  1.72it/s]Training 2/3 epoch (loss 0.2720):  55%|█████▌    | 9359/16950 [1:42:33<1:13:32,  1.72it/s]Training 2/3 epoch (loss 0.2720):  55%|█████▌    | 9360/16950 [1:42:33<1:17:22,  1.64it/s]Training 2/3 epoch (loss 0.0028):  55%|█████▌    | 9360/16950 [1:42:33<1:17:22,  1.64it/s]Training 2/3 epoch (loss 0.0028):  55%|█████▌    | 9361/16950 [1:42:33<1:12:00,  1.76it/s]Training 2/3 epoch (loss 0.1744):  55%|█████▌    | 9361/16950 [1:42:34<1:12:00,  1.76it/s]Training 2/3 epoch (loss 0.1744):  55%|█████▌    | 9362/16950 [1:42:34<1:08:40,  1.84it/s]Training 2/3 epoch (loss 0.0012):  55%|█████▌    | 9362/16950 [1:42:34<1:08:40,  1.84it/s]Training 2/3 epoch (loss 0.0012):  55%|█████▌    | 9363/16950 [1:42:34<1:06:36,  1.90it/s]Training 2/3 epoch (loss 0.0507):  55%|█████▌    | 9363/16950 [1:42:35<1:06:36,  1.90it/s]Training 2/3 epoch (loss 0.0507):  55%|█████▌    | 9364/16950 [1:42:35<1:11:38,  1.76it/s]Training 2/3 epoch (loss 0.0814):  55%|█████▌    | 9364/16950 [1:42:36<1:11:38,  1.76it/s]Training 2/3 epoch (loss 0.0814):  55%|█████▌    | 9365/16950 [1:42:36<1:12:23,  1.75it/s]Training 2/3 epoch (loss 0.7027):  55%|█████▌    | 9365/16950 [1:42:36<1:12:23,  1.75it/s]Training 2/3 epoch (loss 0.7027):  55%|█████▌    | 9366/16950 [1:42:36<1:08:07,  1.86it/s]Training 2/3 epoch (loss 0.3247):  55%|█████▌    | 9366/16950 [1:42:37<1:08:07,  1.86it/s]Training 2/3 epoch (loss 0.3247):  55%|█████▌    | 9367/16950 [1:42:37<1:17:05,  1.64it/s]Training 2/3 epoch (loss 0.0059):  55%|█████▌    | 9367/16950 [1:42:37<1:17:05,  1.64it/s]Training 2/3 epoch (loss 0.0059):  55%|█████▌    | 9368/16950 [1:42:37<1:18:12,  1.62it/s]Training 2/3 epoch (loss 0.0097):  55%|█████▌    | 9368/16950 [1:42:38<1:18:12,  1.62it/s]Training 2/3 epoch (loss 0.0097):  55%|█████▌    | 9369/16950 [1:42:38<1:15:51,  1.67it/s]Training 2/3 epoch (loss 0.2849):  55%|█████▌    | 9369/16950 [1:42:39<1:15:51,  1.67it/s]Training 2/3 epoch (loss 0.2849):  55%|█████▌    | 9370/16950 [1:42:39<1:23:31,  1.51it/s]Training 2/3 epoch (loss 0.0717):  55%|█████▌    | 9370/16950 [1:42:39<1:23:31,  1.51it/s]Training 2/3 epoch (loss 0.0717):  55%|█████▌    | 9371/16950 [1:42:39<1:20:24,  1.57it/s]Training 2/3 epoch (loss 0.0100):  55%|█████▌    | 9371/16950 [1:42:40<1:20:24,  1.57it/s]Training 2/3 epoch (loss 0.0100):  55%|█████▌    | 9372/16950 [1:42:40<1:20:50,  1.56it/s]Training 2/3 epoch (loss 0.2781):  55%|█████▌    | 9372/16950 [1:42:41<1:20:50,  1.56it/s]Training 2/3 epoch (loss 0.2781):  55%|█████▌    | 9373/16950 [1:42:41<1:19:28,  1.59it/s]Training 2/3 epoch (loss 0.5034):  55%|█████▌    | 9373/16950 [1:42:41<1:19:28,  1.59it/s]Training 2/3 epoch (loss 0.5034):  55%|█████▌    | 9374/16950 [1:42:41<1:18:43,  1.60it/s]Training 2/3 epoch (loss 0.2814):  55%|█████▌    | 9374/16950 [1:42:42<1:18:43,  1.60it/s]Training 2/3 epoch (loss 0.2814):  55%|█████▌    | 9375/16950 [1:42:42<1:19:53,  1.58it/s]Training 2/3 epoch (loss 0.7136):  55%|█████▌    | 9375/16950 [1:42:43<1:19:53,  1.58it/s]Training 2/3 epoch (loss 0.7136):  55%|█████▌    | 9376/16950 [1:42:43<1:38:52,  1.28it/s]Training 2/3 epoch (loss 0.0347):  55%|█████▌    | 9376/16950 [1:42:44<1:38:52,  1.28it/s]Training 2/3 epoch (loss 0.0347):  55%|█████▌    | 9377/16950 [1:42:44<1:33:14,  1.35it/s]Training 2/3 epoch (loss 0.0018):  55%|█████▌    | 9377/16950 [1:42:45<1:33:14,  1.35it/s]Training 2/3 epoch (loss 0.0018):  55%|█████▌    | 9378/16950 [1:42:45<1:41:15,  1.25it/s]Training 2/3 epoch (loss 0.0093):  55%|█████▌    | 9378/16950 [1:42:45<1:41:15,  1.25it/s]Training 2/3 epoch (loss 0.0093):  55%|█████▌    | 9379/16950 [1:42:45<1:34:04,  1.34it/s]Training 2/3 epoch (loss 0.0226):  55%|█████▌    | 9379/16950 [1:42:46<1:34:04,  1.34it/s]Training 2/3 epoch (loss 0.0226):  55%|█████▌    | 9380/16950 [1:42:46<1:28:29,  1.43it/s]Training 2/3 epoch (loss 0.4190):  55%|█████▌    | 9380/16950 [1:42:46<1:28:29,  1.43it/s]Training 2/3 epoch (loss 0.4190):  55%|█████▌    | 9381/16950 [1:42:46<1:21:04,  1.56it/s]Training 2/3 epoch (loss 0.6490):  55%|█████▌    | 9381/16950 [1:42:47<1:21:04,  1.56it/s]Training 2/3 epoch (loss 0.6490):  55%|█████▌    | 9382/16950 [1:42:47<1:27:38,  1.44it/s]Training 2/3 epoch (loss 0.0083):  55%|█████▌    | 9382/16950 [1:42:48<1:27:38,  1.44it/s]Training 2/3 epoch (loss 0.0083):  55%|█████▌    | 9383/16950 [1:42:48<1:24:43,  1.49it/s]Training 2/3 epoch (loss 0.1461):  55%|█████▌    | 9383/16950 [1:42:48<1:24:43,  1.49it/s]Training 2/3 epoch (loss 0.1461):  55%|█████▌    | 9384/16950 [1:42:48<1:17:28,  1.63it/s]Training 2/3 epoch (loss 0.0019):  55%|█████▌    | 9384/16950 [1:42:49<1:17:28,  1.63it/s]Training 2/3 epoch (loss 0.0019):  55%|█████▌    | 9385/16950 [1:42:49<1:21:04,  1.56it/s]Training 2/3 epoch (loss 0.0424):  55%|█████▌    | 9385/16950 [1:42:50<1:21:04,  1.56it/s]Training 2/3 epoch (loss 0.0424):  55%|█████▌    | 9386/16950 [1:42:50<1:21:01,  1.56it/s]Training 2/3 epoch (loss 0.4002):  55%|█████▌    | 9386/16950 [1:42:50<1:21:01,  1.56it/s]Training 2/3 epoch (loss 0.4002):  55%|█████▌    | 9387/16950 [1:42:50<1:13:37,  1.71it/s]Training 2/3 epoch (loss 0.0086):  55%|█████▌    | 9387/16950 [1:42:51<1:13:37,  1.71it/s]Training 2/3 epoch (loss 0.0086):  55%|█████▌    | 9388/16950 [1:42:51<1:13:41,  1.71it/s]Training 2/3 epoch (loss 0.1269):  55%|█████▌    | 9388/16950 [1:42:51<1:13:41,  1.71it/s]Training 2/3 epoch (loss 0.1269):  55%|█████▌    | 9389/16950 [1:42:51<1:13:45,  1.71it/s]Training 2/3 epoch (loss 0.0024):  55%|█████▌    | 9389/16950 [1:42:52<1:13:45,  1.71it/s]Training 2/3 epoch (loss 0.0024):  55%|█████▌    | 9390/16950 [1:42:52<1:11:32,  1.76it/s]Training 2/3 epoch (loss 0.0473):  55%|█████▌    | 9390/16950 [1:42:52<1:11:32,  1.76it/s]Training 2/3 epoch (loss 0.0473):  55%|█████▌    | 9391/16950 [1:42:52<1:16:01,  1.66it/s]Training 2/3 epoch (loss 0.0145):  55%|█████▌    | 9391/16950 [1:42:53<1:16:01,  1.66it/s]Training 2/3 epoch (loss 0.0145):  55%|█████▌    | 9392/16950 [1:42:53<1:13:14,  1.72it/s]Training 2/3 epoch (loss 0.7493):  55%|█████▌    | 9392/16950 [1:42:54<1:13:14,  1.72it/s]Training 2/3 epoch (loss 0.7493):  55%|█████▌    | 9393/16950 [1:42:54<1:15:14,  1.67it/s]Training 2/3 epoch (loss 0.0566):  55%|█████▌    | 9393/16950 [1:42:54<1:15:14,  1.67it/s]Training 2/3 epoch (loss 0.0566):  55%|█████▌    | 9394/16950 [1:42:54<1:08:58,  1.83it/s]Training 2/3 epoch (loss 0.0070):  55%|█████▌    | 9394/16950 [1:42:55<1:08:58,  1.83it/s]Training 2/3 epoch (loss 0.0070):  55%|█████▌    | 9395/16950 [1:42:55<1:12:35,  1.73it/s]Training 2/3 epoch (loss 0.5766):  55%|█████▌    | 9395/16950 [1:42:55<1:12:35,  1.73it/s]Training 2/3 epoch (loss 0.5766):  55%|█████▌    | 9396/16950 [1:42:55<1:09:47,  1.80it/s]Training 2/3 epoch (loss 0.4289):  55%|█████▌    | 9396/16950 [1:42:56<1:09:47,  1.80it/s]Training 2/3 epoch (loss 0.4289):  55%|█████▌    | 9397/16950 [1:42:56<1:07:08,  1.87it/s]Training 2/3 epoch (loss 0.0393):  55%|█████▌    | 9397/16950 [1:42:56<1:07:08,  1.87it/s]Training 2/3 epoch (loss 0.0393):  55%|█████▌    | 9398/16950 [1:42:56<1:03:55,  1.97it/s]Training 2/3 epoch (loss 0.2810):  55%|█████▌    | 9398/16950 [1:42:57<1:03:55,  1.97it/s]Training 2/3 epoch (loss 0.2810):  55%|█████▌    | 9399/16950 [1:42:57<1:09:29,  1.81it/s]Training 2/3 epoch (loss 0.1996):  55%|█████▌    | 9399/16950 [1:42:57<1:09:29,  1.81it/s]Training 2/3 epoch (loss 0.1996):  55%|█████▌    | 9400/16950 [1:42:57<1:17:42,  1.62it/s]Training 2/3 epoch (loss 0.3538):  55%|█████▌    | 9400/16950 [1:42:58<1:17:42,  1.62it/s]Training 2/3 epoch (loss 0.3538):  55%|█████▌    | 9401/16950 [1:42:58<1:23:10,  1.51it/s]Training 2/3 epoch (loss 0.4823):  55%|█████▌    | 9401/16950 [1:42:59<1:23:10,  1.51it/s]Training 2/3 epoch (loss 0.4823):  55%|█████▌    | 9402/16950 [1:42:59<1:20:54,  1.55it/s]Training 2/3 epoch (loss 0.4097):  55%|█████▌    | 9402/16950 [1:43:00<1:20:54,  1.55it/s]Training 2/3 epoch (loss 0.4097):  55%|█████▌    | 9403/16950 [1:43:00<1:35:20,  1.32it/s]Training 2/3 epoch (loss 0.0236):  55%|█████▌    | 9403/16950 [1:43:00<1:35:20,  1.32it/s]Training 2/3 epoch (loss 0.0236):  55%|█████▌    | 9404/16950 [1:43:00<1:27:37,  1.44it/s]Training 2/3 epoch (loss 0.2187):  55%|█████▌    | 9404/16950 [1:43:01<1:27:37,  1.44it/s]Training 2/3 epoch (loss 0.2187):  55%|█████▌    | 9405/16950 [1:43:01<1:16:10,  1.65it/s]Training 2/3 epoch (loss 0.0225):  55%|█████▌    | 9405/16950 [1:43:01<1:16:10,  1.65it/s]Training 2/3 epoch (loss 0.0225):  55%|█████▌    | 9406/16950 [1:43:01<1:17:52,  1.61it/s]Training 2/3 epoch (loss 0.0759):  55%|█████▌    | 9406/16950 [1:43:02<1:17:52,  1.61it/s]Training 2/3 epoch (loss 0.0759):  55%|█████▌    | 9407/16950 [1:43:02<1:18:09,  1.61it/s]Training 2/3 epoch (loss 0.3901):  55%|█████▌    | 9407/16950 [1:43:03<1:18:09,  1.61it/s]Training 2/3 epoch (loss 0.3901):  56%|█████▌    | 9408/16950 [1:43:03<1:20:27,  1.56it/s]Training 2/3 epoch (loss 0.7372):  56%|█████▌    | 9408/16950 [1:43:03<1:20:27,  1.56it/s]Training 2/3 epoch (loss 0.7372):  56%|█████▌    | 9409/16950 [1:43:03<1:12:21,  1.74it/s]Training 2/3 epoch (loss 0.0412):  56%|█████▌    | 9409/16950 [1:43:04<1:12:21,  1.74it/s]Training 2/3 epoch (loss 0.0412):  56%|█████▌    | 9410/16950 [1:43:04<1:05:37,  1.92it/s]Training 2/3 epoch (loss 0.0010):  56%|█████▌    | 9410/16950 [1:43:04<1:05:37,  1.92it/s]Training 2/3 epoch (loss 0.0010):  56%|█████▌    | 9411/16950 [1:43:04<1:00:34,  2.07it/s]Training 2/3 epoch (loss 0.0114):  56%|█████▌    | 9411/16950 [1:43:05<1:00:34,  2.07it/s]Training 2/3 epoch (loss 0.0114):  56%|█████▌    | 9412/16950 [1:43:05<1:04:18,  1.95it/s]Training 2/3 epoch (loss 0.0483):  56%|█████▌    | 9412/16950 [1:43:05<1:04:18,  1.95it/s]Training 2/3 epoch (loss 0.0483):  56%|█████▌    | 9413/16950 [1:43:05<1:01:02,  2.06it/s]Training 2/3 epoch (loss 0.0038):  56%|█████▌    | 9413/16950 [1:43:05<1:01:02,  2.06it/s]Training 2/3 epoch (loss 0.0038):  56%|█████▌    | 9414/16950 [1:43:05<54:07,  2.32it/s]  Training 2/3 epoch (loss 0.0171):  56%|█████▌    | 9414/16950 [1:43:06<54:07,  2.32it/s]Training 2/3 epoch (loss 0.0171):  56%|█████▌    | 9415/16950 [1:43:06<1:03:21,  1.98it/s]Training 2/3 epoch (loss 0.0231):  56%|█████▌    | 9415/16950 [1:43:07<1:03:21,  1.98it/s]Training 2/3 epoch (loss 0.0231):  56%|█████▌    | 9416/16950 [1:43:07<1:14:30,  1.69it/s]Training 2/3 epoch (loss 0.0088):  56%|█████▌    | 9416/16950 [1:43:07<1:14:30,  1.69it/s]Training 2/3 epoch (loss 0.0088):  56%|█████▌    | 9417/16950 [1:43:07<1:17:18,  1.62it/s]Training 2/3 epoch (loss 0.3101):  56%|█████▌    | 9417/16950 [1:43:08<1:17:18,  1.62it/s]Training 2/3 epoch (loss 0.3101):  56%|█████▌    | 9418/16950 [1:43:08<1:20:43,  1.56it/s]Training 2/3 epoch (loss 0.4817):  56%|█████▌    | 9418/16950 [1:43:09<1:20:43,  1.56it/s]Training 2/3 epoch (loss 0.4817):  56%|█████▌    | 9419/16950 [1:43:09<1:21:54,  1.53it/s]Training 2/3 epoch (loss 0.0003):  56%|█████▌    | 9419/16950 [1:43:09<1:21:54,  1.53it/s]Training 2/3 epoch (loss 0.0003):  56%|█████▌    | 9420/16950 [1:43:09<1:14:07,  1.69it/s]Training 2/3 epoch (loss 0.0010):  56%|█████▌    | 9420/16950 [1:43:10<1:14:07,  1.69it/s]Training 2/3 epoch (loss 0.0010):  56%|█████▌    | 9421/16950 [1:43:10<1:09:22,  1.81it/s]Training 2/3 epoch (loss 0.0003):  56%|█████▌    | 9421/16950 [1:43:10<1:09:22,  1.81it/s]Training 2/3 epoch (loss 0.0003):  56%|█████▌    | 9422/16950 [1:43:10<1:08:19,  1.84it/s]Training 2/3 epoch (loss 0.0356):  56%|█████▌    | 9422/16950 [1:43:11<1:08:19,  1.84it/s]Training 2/3 epoch (loss 0.0356):  56%|█████▌    | 9423/16950 [1:43:11<1:08:59,  1.82it/s]Training 2/3 epoch (loss 0.0564):  56%|█████▌    | 9423/16950 [1:43:11<1:08:59,  1.82it/s]Training 2/3 epoch (loss 0.0564):  56%|█████▌    | 9424/16950 [1:43:11<1:08:50,  1.82it/s]Training 2/3 epoch (loss 0.0357):  56%|█████▌    | 9424/16950 [1:43:12<1:08:50,  1.82it/s]Training 2/3 epoch (loss 0.0357):  56%|█████▌    | 9425/16950 [1:43:12<1:06:45,  1.88it/s]Training 2/3 epoch (loss 0.0478):  56%|█████▌    | 9425/16950 [1:43:12<1:06:45,  1.88it/s]Training 2/3 epoch (loss 0.0478):  56%|█████▌    | 9426/16950 [1:43:12<1:09:53,  1.79it/s]Training 2/3 epoch (loss 0.0000):  56%|█████▌    | 9426/16950 [1:43:13<1:09:53,  1.79it/s]Training 2/3 epoch (loss 0.0000):  56%|█████▌    | 9427/16950 [1:43:13<1:09:13,  1.81it/s]Training 2/3 epoch (loss 0.0635):  56%|█████▌    | 9427/16950 [1:43:13<1:09:13,  1.81it/s]Training 2/3 epoch (loss 0.0635):  56%|█████▌    | 9428/16950 [1:43:13<1:06:07,  1.90it/s]Training 2/3 epoch (loss 0.0020):  56%|█████▌    | 9428/16950 [1:43:14<1:06:07,  1.90it/s]Training 2/3 epoch (loss 0.0020):  56%|█████▌    | 9429/16950 [1:43:14<1:06:34,  1.88it/s]Training 2/3 epoch (loss 0.4676):  56%|█████▌    | 9429/16950 [1:43:15<1:06:34,  1.88it/s]Training 2/3 epoch (loss 0.4676):  56%|█████▌    | 9430/16950 [1:43:15<1:27:29,  1.43it/s]Training 2/3 epoch (loss 0.3566):  56%|█████▌    | 9430/16950 [1:43:16<1:27:29,  1.43it/s]Training 2/3 epoch (loss 0.3566):  56%|█████▌    | 9431/16950 [1:43:16<1:23:32,  1.50it/s]Training 2/3 epoch (loss 0.0514):  56%|█████▌    | 9431/16950 [1:43:16<1:23:32,  1.50it/s]Training 2/3 epoch (loss 0.0514):  56%|█████▌    | 9432/16950 [1:43:16<1:19:39,  1.57it/s]Training 2/3 epoch (loss 0.0368):  56%|█████▌    | 9432/16950 [1:43:17<1:19:39,  1.57it/s]Training 2/3 epoch (loss 0.0368):  56%|█████▌    | 9433/16950 [1:43:17<1:17:19,  1.62it/s]Training 2/3 epoch (loss 0.0145):  56%|█████▌    | 9433/16950 [1:43:18<1:17:19,  1.62it/s]Training 2/3 epoch (loss 0.0145):  56%|█████▌    | 9434/16950 [1:43:18<1:20:01,  1.57it/s]Training 2/3 epoch (loss 0.0037):  56%|█████▌    | 9434/16950 [1:43:18<1:20:01,  1.57it/s]Training 2/3 epoch (loss 0.0037):  56%|█████▌    | 9435/16950 [1:43:18<1:16:52,  1.63it/s]Training 2/3 epoch (loss 0.0676):  56%|█████▌    | 9435/16950 [1:43:19<1:16:52,  1.63it/s]Training 2/3 epoch (loss 0.0676):  56%|█████▌    | 9436/16950 [1:43:19<1:14:17,  1.69it/s]Training 2/3 epoch (loss 0.7352):  56%|█████▌    | 9436/16950 [1:43:20<1:14:17,  1.69it/s]Training 2/3 epoch (loss 0.7352):  56%|█████▌    | 9437/16950 [1:43:20<1:34:28,  1.33it/s]Training 2/3 epoch (loss 0.1644):  56%|█████▌    | 9437/16950 [1:43:20<1:34:28,  1.33it/s]Training 2/3 epoch (loss 0.1644):  56%|█████▌    | 9438/16950 [1:43:20<1:23:14,  1.50it/s]Training 2/3 epoch (loss 0.0123):  56%|█████▌    | 9438/16950 [1:43:21<1:23:14,  1.50it/s]Training 2/3 epoch (loss 0.0123):  56%|█████▌    | 9439/16950 [1:43:21<1:21:21,  1.54it/s]Training 2/3 epoch (loss 0.0016):  56%|█████▌    | 9439/16950 [1:43:21<1:21:21,  1.54it/s]Training 2/3 epoch (loss 0.0016):  56%|█████▌    | 9440/16950 [1:43:21<1:15:00,  1.67it/s]Training 2/3 epoch (loss 0.1476):  56%|█████▌    | 9440/16950 [1:43:22<1:15:00,  1.67it/s]Training 2/3 epoch (loss 0.1476):  56%|█████▌    | 9441/16950 [1:43:22<1:09:52,  1.79it/s]Training 2/3 epoch (loss 0.0734):  56%|█████▌    | 9441/16950 [1:43:23<1:09:52,  1.79it/s]Training 2/3 epoch (loss 0.0734):  56%|█████▌    | 9442/16950 [1:43:23<1:24:54,  1.47it/s]Training 2/3 epoch (loss 0.3818):  56%|█████▌    | 9442/16950 [1:43:24<1:24:54,  1.47it/s]Training 2/3 epoch (loss 0.3818):  56%|█████▌    | 9443/16950 [1:43:24<1:28:53,  1.41it/s]Training 2/3 epoch (loss 0.0868):  56%|█████▌    | 9443/16950 [1:43:24<1:28:53,  1.41it/s]Training 2/3 epoch (loss 0.0868):  56%|█████▌    | 9444/16950 [1:43:24<1:24:40,  1.48it/s]Training 2/3 epoch (loss 0.0004):  56%|█████▌    | 9444/16950 [1:43:25<1:24:40,  1.48it/s]Training 2/3 epoch (loss 0.0004):  56%|█████▌    | 9445/16950 [1:43:25<1:22:58,  1.51it/s]Training 2/3 epoch (loss 0.2814):  56%|█████▌    | 9445/16950 [1:43:25<1:22:58,  1.51it/s]Training 2/3 epoch (loss 0.2814):  56%|█████▌    | 9446/16950 [1:43:25<1:21:20,  1.54it/s]Training 2/3 epoch (loss 0.0005):  56%|█████▌    | 9446/16950 [1:43:26<1:21:20,  1.54it/s]Training 2/3 epoch (loss 0.0005):  56%|█████▌    | 9447/16950 [1:43:26<1:24:28,  1.48it/s]Training 2/3 epoch (loss 0.0418):  56%|█████▌    | 9447/16950 [1:43:27<1:24:28,  1.48it/s]Training 2/3 epoch (loss 0.0418):  56%|█████▌    | 9448/16950 [1:43:27<1:22:22,  1.52it/s]Training 2/3 epoch (loss 0.4279):  56%|█████▌    | 9448/16950 [1:43:27<1:22:22,  1.52it/s]Training 2/3 epoch (loss 0.4279):  56%|█████▌    | 9449/16950 [1:43:27<1:24:07,  1.49it/s]Training 2/3 epoch (loss 0.0106):  56%|█████▌    | 9449/16950 [1:43:28<1:24:07,  1.49it/s]Training 2/3 epoch (loss 0.0106):  56%|█████▌    | 9450/16950 [1:43:28<1:17:39,  1.61it/s]Training 2/3 epoch (loss 0.0424):  56%|█████▌    | 9450/16950 [1:43:28<1:17:39,  1.61it/s]Training 2/3 epoch (loss 0.0424):  56%|█████▌    | 9451/16950 [1:43:28<1:10:11,  1.78it/s]Training 2/3 epoch (loss 0.1365):  56%|█████▌    | 9451/16950 [1:43:29<1:10:11,  1.78it/s]Training 2/3 epoch (loss 0.1365):  56%|█████▌    | 9452/16950 [1:43:29<1:12:30,  1.72it/s]Training 2/3 epoch (loss 0.0050):  56%|█████▌    | 9452/16950 [1:43:29<1:12:30,  1.72it/s]Training 2/3 epoch (loss 0.0050):  56%|█████▌    | 9453/16950 [1:43:29<1:09:21,  1.80it/s]Training 2/3 epoch (loss 0.0022):  56%|█████▌    | 9453/16950 [1:43:30<1:09:21,  1.80it/s]Training 2/3 epoch (loss 0.0022):  56%|█████▌    | 9454/16950 [1:43:30<1:11:18,  1.75it/s]Training 2/3 epoch (loss 0.1394):  56%|█████▌    | 9454/16950 [1:43:31<1:11:18,  1.75it/s]Training 2/3 epoch (loss 0.1394):  56%|█████▌    | 9455/16950 [1:43:31<1:07:02,  1.86it/s]Training 2/3 epoch (loss 0.1927):  56%|█████▌    | 9455/16950 [1:43:31<1:07:02,  1.86it/s]Training 2/3 epoch (loss 0.1927):  56%|█████▌    | 9456/16950 [1:43:31<1:00:46,  2.06it/s]Training 2/3 epoch (loss 0.0008):  56%|█████▌    | 9456/16950 [1:43:32<1:00:46,  2.06it/s]Training 2/3 epoch (loss 0.0008):  56%|█████▌    | 9457/16950 [1:43:32<1:05:44,  1.90it/s]Training 2/3 epoch (loss 0.0121):  56%|█████▌    | 9457/16950 [1:43:32<1:05:44,  1.90it/s]Training 2/3 epoch (loss 0.0121):  56%|█████▌    | 9458/16950 [1:43:32<1:00:41,  2.06it/s]Training 2/3 epoch (loss 0.3450):  56%|█████▌    | 9458/16950 [1:43:32<1:00:41,  2.06it/s]Training 2/3 epoch (loss 0.3450):  56%|█████▌    | 9459/16950 [1:43:32<58:23,  2.14it/s]  Training 2/3 epoch (loss 0.4439):  56%|█████▌    | 9459/16950 [1:43:33<58:23,  2.14it/s]Training 2/3 epoch (loss 0.4439):  56%|█████▌    | 9460/16950 [1:43:33<55:14,  2.26it/s]Training 2/3 epoch (loss 0.0554):  56%|█████▌    | 9460/16950 [1:43:33<55:14,  2.26it/s]Training 2/3 epoch (loss 0.0554):  56%|█████▌    | 9461/16950 [1:43:33<1:00:26,  2.06it/s]Training 2/3 epoch (loss 0.0597):  56%|█████▌    | 9461/16950 [1:43:34<1:00:26,  2.06it/s]Training 2/3 epoch (loss 0.0597):  56%|█████▌    | 9462/16950 [1:43:34<1:02:56,  1.98it/s]Training 2/3 epoch (loss 0.0246):  56%|█████▌    | 9462/16950 [1:43:34<1:02:56,  1.98it/s]Training 2/3 epoch (loss 0.0246):  56%|█████▌    | 9463/16950 [1:43:34<1:02:00,  2.01it/s]Training 2/3 epoch (loss 0.4429):  56%|█████▌    | 9463/16950 [1:43:35<1:02:00,  2.01it/s]Training 2/3 epoch (loss 0.4429):  56%|█████▌    | 9464/16950 [1:43:35<59:23,  2.10it/s]  Training 2/3 epoch (loss 0.0460):  56%|█████▌    | 9464/16950 [1:43:35<59:23,  2.10it/s]Training 2/3 epoch (loss 0.0460):  56%|█████▌    | 9465/16950 [1:43:35<1:05:31,  1.90it/s]Training 2/3 epoch (loss 0.0784):  56%|█████▌    | 9465/16950 [1:43:36<1:05:31,  1.90it/s]Training 2/3 epoch (loss 0.0784):  56%|█████▌    | 9466/16950 [1:43:36<1:08:12,  1.83it/s]Training 2/3 epoch (loss 0.5035):  56%|█████▌    | 9466/16950 [1:43:37<1:08:12,  1.83it/s]Training 2/3 epoch (loss 0.5035):  56%|█████▌    | 9467/16950 [1:43:37<1:09:04,  1.81it/s]Training 2/3 epoch (loss 0.2926):  56%|█████▌    | 9467/16950 [1:43:37<1:09:04,  1.81it/s]Training 2/3 epoch (loss 0.2926):  56%|█████▌    | 9468/16950 [1:43:37<1:04:14,  1.94it/s]Training 2/3 epoch (loss 0.0038):  56%|█████▌    | 9468/16950 [1:43:37<1:04:14,  1.94it/s]Training 2/3 epoch (loss 0.0038):  56%|█████▌    | 9469/16950 [1:43:37<1:03:06,  1.98it/s]Training 2/3 epoch (loss 0.0572):  56%|█████▌    | 9469/16950 [1:43:38<1:03:06,  1.98it/s]Training 2/3 epoch (loss 0.0572):  56%|█████▌    | 9470/16950 [1:43:38<1:00:22,  2.06it/s]Training 2/3 epoch (loss 0.0167):  56%|█████▌    | 9470/16950 [1:43:39<1:00:22,  2.06it/s]Training 2/3 epoch (loss 0.0167):  56%|█████▌    | 9471/16950 [1:43:39<1:11:46,  1.74it/s]Training 2/3 epoch (loss 0.5537):  56%|█████▌    | 9471/16950 [1:43:39<1:11:46,  1.74it/s]Training 2/3 epoch (loss 0.5537):  56%|█████▌    | 9472/16950 [1:43:39<1:10:40,  1.76it/s]Training 2/3 epoch (loss 0.0309):  56%|█████▌    | 9472/16950 [1:43:40<1:10:40,  1.76it/s]Training 2/3 epoch (loss 0.0309):  56%|█████▌    | 9473/16950 [1:43:40<1:14:49,  1.67it/s]Training 2/3 epoch (loss 0.0006):  56%|█████▌    | 9473/16950 [1:43:40<1:14:49,  1.67it/s]Training 2/3 epoch (loss 0.0006):  56%|█████▌    | 9474/16950 [1:43:40<1:10:45,  1.76it/s]Training 2/3 epoch (loss 0.2063):  56%|█████▌    | 9474/16950 [1:43:41<1:10:45,  1.76it/s]Training 2/3 epoch (loss 0.2063):  56%|█████▌    | 9475/16950 [1:43:41<1:17:23,  1.61it/s]Training 2/3 epoch (loss 0.5054):  56%|█████▌    | 9475/16950 [1:43:42<1:17:23,  1.61it/s]Training 2/3 epoch (loss 0.5054):  56%|█████▌    | 9476/16950 [1:43:42<1:13:53,  1.69it/s]Training 2/3 epoch (loss 0.2717):  56%|█████▌    | 9476/16950 [1:43:42<1:13:53,  1.69it/s]Training 2/3 epoch (loss 0.2717):  56%|█████▌    | 9477/16950 [1:43:42<1:07:02,  1.86it/s]Training 2/3 epoch (loss 0.0002):  56%|█████▌    | 9477/16950 [1:43:42<1:07:02,  1.86it/s]Training 2/3 epoch (loss 0.0002):  56%|█████▌    | 9478/16950 [1:43:42<1:01:09,  2.04it/s]Training 2/3 epoch (loss 0.1861):  56%|█████▌    | 9478/16950 [1:43:43<1:01:09,  2.04it/s]Training 2/3 epoch (loss 0.1861):  56%|█████▌    | 9479/16950 [1:43:43<1:08:27,  1.82it/s]Training 2/3 epoch (loss 0.0439):  56%|█████▌    | 9479/16950 [1:43:44<1:08:27,  1.82it/s]Training 2/3 epoch (loss 0.0439):  56%|█████▌    | 9480/16950 [1:43:44<1:08:59,  1.80it/s]Training 2/3 epoch (loss 0.2301):  56%|█████▌    | 9480/16950 [1:43:44<1:08:59,  1.80it/s]Training 2/3 epoch (loss 0.2301):  56%|█████▌    | 9481/16950 [1:43:44<1:04:35,  1.93it/s]Training 2/3 epoch (loss 0.0267):  56%|█████▌    | 9481/16950 [1:43:45<1:04:35,  1.93it/s]Training 2/3 epoch (loss 0.0267):  56%|█████▌    | 9482/16950 [1:43:45<1:08:22,  1.82it/s]Training 2/3 epoch (loss 0.0072):  56%|█████▌    | 9482/16950 [1:43:45<1:08:22,  1.82it/s]Training 2/3 epoch (loss 0.0072):  56%|█████▌    | 9483/16950 [1:43:45<1:12:22,  1.72it/s]Training 2/3 epoch (loss 0.0094):  56%|█████▌    | 9483/16950 [1:43:46<1:12:22,  1.72it/s]Training 2/3 epoch (loss 0.0094):  56%|█████▌    | 9484/16950 [1:43:46<1:07:51,  1.83it/s]Training 2/3 epoch (loss 0.0335):  56%|█████▌    | 9484/16950 [1:43:46<1:07:51,  1.83it/s]Training 2/3 epoch (loss 0.0335):  56%|█████▌    | 9485/16950 [1:43:46<1:02:42,  1.98it/s]Training 2/3 epoch (loss 0.1111):  56%|█████▌    | 9485/16950 [1:43:47<1:02:42,  1.98it/s]Training 2/3 epoch (loss 0.1111):  56%|█████▌    | 9486/16950 [1:43:47<1:15:13,  1.65it/s]Training 2/3 epoch (loss 0.0416):  56%|█████▌    | 9486/16950 [1:43:48<1:15:13,  1.65it/s]Training 2/3 epoch (loss 0.0416):  56%|█████▌    | 9487/16950 [1:43:48<1:21:33,  1.53it/s]Training 2/3 epoch (loss 0.0001):  56%|█████▌    | 9487/16950 [1:43:48<1:21:33,  1.53it/s]Training 2/3 epoch (loss 0.0001):  56%|█████▌    | 9488/16950 [1:43:48<1:13:53,  1.68it/s]Training 2/3 epoch (loss 0.4392):  56%|█████▌    | 9488/16950 [1:43:49<1:13:53,  1.68it/s]Training 2/3 epoch (loss 0.4392):  56%|█████▌    | 9489/16950 [1:43:49<1:17:49,  1.60it/s]Training 2/3 epoch (loss 0.0029):  56%|█████▌    | 9489/16950 [1:43:50<1:17:49,  1.60it/s]Training 2/3 epoch (loss 0.0029):  56%|█████▌    | 9490/16950 [1:43:50<1:21:55,  1.52it/s]Training 2/3 epoch (loss 0.0284):  56%|█████▌    | 9490/16950 [1:43:51<1:21:55,  1.52it/s]Training 2/3 epoch (loss 0.0284):  56%|█████▌    | 9491/16950 [1:43:51<1:22:41,  1.50it/s]Training 2/3 epoch (loss 0.5034):  56%|█████▌    | 9491/16950 [1:43:51<1:22:41,  1.50it/s]Training 2/3 epoch (loss 0.5034):  56%|█████▌    | 9492/16950 [1:43:51<1:16:42,  1.62it/s]Training 2/3 epoch (loss 0.0600):  56%|█████▌    | 9492/16950 [1:43:51<1:16:42,  1.62it/s]Training 2/3 epoch (loss 0.0600):  56%|█████▌    | 9493/16950 [1:43:51<1:11:32,  1.74it/s]Training 2/3 epoch (loss 0.2341):  56%|█████▌    | 9493/16950 [1:43:52<1:11:32,  1.74it/s]Training 2/3 epoch (loss 0.2341):  56%|█████▌    | 9494/16950 [1:43:52<1:05:37,  1.89it/s]Training 2/3 epoch (loss 0.0128):  56%|█████▌    | 9494/16950 [1:43:53<1:05:37,  1.89it/s]Training 2/3 epoch (loss 0.0128):  56%|█████▌    | 9495/16950 [1:43:53<1:10:21,  1.77it/s]Training 2/3 epoch (loss 0.0055):  56%|█████▌    | 9495/16950 [1:43:53<1:10:21,  1.77it/s]Training 2/3 epoch (loss 0.0055):  56%|█████▌    | 9496/16950 [1:43:53<1:11:29,  1.74it/s]Training 2/3 epoch (loss 0.0011):  56%|█████▌    | 9496/16950 [1:43:54<1:11:29,  1.74it/s]Training 2/3 epoch (loss 0.0011):  56%|█████▌    | 9497/16950 [1:43:54<1:07:33,  1.84it/s]Training 2/3 epoch (loss 0.5517):  56%|█████▌    | 9497/16950 [1:43:54<1:07:33,  1.84it/s]Training 2/3 epoch (loss 0.5517):  56%|█████▌    | 9498/16950 [1:43:54<1:05:32,  1.89it/s]Training 2/3 epoch (loss 0.3341):  56%|█████▌    | 9498/16950 [1:43:55<1:05:32,  1.89it/s]Training 2/3 epoch (loss 0.3341):  56%|█████▌    | 9499/16950 [1:43:55<1:09:29,  1.79it/s]Training 2/3 epoch (loss 0.0039):  56%|█████▌    | 9499/16950 [1:43:55<1:09:29,  1.79it/s]Training 2/3 epoch (loss 0.0039):  56%|█████▌    | 9500/16950 [1:43:55<1:13:10,  1.70it/s]Training 2/3 epoch (loss 0.0113):  56%|█████▌    | 9500/16950 [1:43:56<1:13:10,  1.70it/s]Training 2/3 epoch (loss 0.0113):  56%|█████▌    | 9501/16950 [1:43:56<1:15:14,  1.65it/s]Training 2/3 epoch (loss 0.0047):  56%|█████▌    | 9501/16950 [1:43:57<1:15:14,  1.65it/s]Training 2/3 epoch (loss 0.0047):  56%|█████▌    | 9502/16950 [1:43:57<1:14:49,  1.66it/s]Training 2/3 epoch (loss 0.0000):  56%|█████▌    | 9502/16950 [1:43:57<1:14:49,  1.66it/s]Training 2/3 epoch (loss 0.0000):  56%|█████▌    | 9503/16950 [1:43:57<1:11:13,  1.74it/s]Training 2/3 epoch (loss 0.0006):  56%|█████▌    | 9503/16950 [1:43:58<1:11:13,  1.74it/s]Training 2/3 epoch (loss 0.0006):  56%|█████▌    | 9504/16950 [1:43:58<1:11:02,  1.75it/s]Training 2/3 epoch (loss 0.3616):  56%|█████▌    | 9504/16950 [1:43:59<1:11:02,  1.75it/s]Training 2/3 epoch (loss 0.3616):  56%|█████▌    | 9505/16950 [1:43:59<1:33:14,  1.33it/s]Training 2/3 epoch (loss 0.0338):  56%|█████▌    | 9505/16950 [1:43:59<1:33:14,  1.33it/s]Training 2/3 epoch (loss 0.0338):  56%|█████▌    | 9506/16950 [1:43:59<1:22:22,  1.51it/s]Training 2/3 epoch (loss 0.2337):  56%|█████▌    | 9506/16950 [1:44:00<1:22:22,  1.51it/s]Training 2/3 epoch (loss 0.2337):  56%|█████▌    | 9507/16950 [1:44:00<1:22:01,  1.51it/s]Training 2/3 epoch (loss 0.0062):  56%|█████▌    | 9507/16950 [1:44:01<1:22:01,  1.51it/s]Training 2/3 epoch (loss 0.0062):  56%|█████▌    | 9508/16950 [1:44:01<1:19:54,  1.55it/s]Training 2/3 epoch (loss 0.1884):  56%|█████▌    | 9508/16950 [1:44:01<1:19:54,  1.55it/s]Training 2/3 epoch (loss 0.1884):  56%|█████▌    | 9509/16950 [1:44:01<1:26:01,  1.44it/s]Training 2/3 epoch (loss 0.0265):  56%|█████▌    | 9509/16950 [1:44:02<1:26:01,  1.44it/s]Training 2/3 epoch (loss 0.0265):  56%|█████▌    | 9510/16950 [1:44:02<1:22:46,  1.50it/s]Training 2/3 epoch (loss 0.0052):  56%|█████▌    | 9510/16950 [1:44:02<1:22:46,  1.50it/s]Training 2/3 epoch (loss 0.0052):  56%|█████▌    | 9511/16950 [1:44:02<1:14:25,  1.67it/s]Training 2/3 epoch (loss 0.0287):  56%|█████▌    | 9511/16950 [1:44:03<1:14:25,  1.67it/s]Training 2/3 epoch (loss 0.0287):  56%|█████▌    | 9512/16950 [1:44:03<1:15:08,  1.65it/s]Training 2/3 epoch (loss 0.2709):  56%|█████▌    | 9512/16950 [1:44:04<1:15:08,  1.65it/s]Training 2/3 epoch (loss 0.2709):  56%|█████▌    | 9513/16950 [1:44:04<1:12:57,  1.70it/s]Training 2/3 epoch (loss 0.2764):  56%|█████▌    | 9513/16950 [1:44:04<1:12:57,  1.70it/s]Training 2/3 epoch (loss 0.2764):  56%|█████▌    | 9514/16950 [1:44:04<1:16:10,  1.63it/s]Training 2/3 epoch (loss 0.5254):  56%|█████▌    | 9514/16950 [1:44:05<1:16:10,  1.63it/s]Training 2/3 epoch (loss 0.5254):  56%|█████▌    | 9515/16950 [1:44:05<1:28:40,  1.40it/s]Training 2/3 epoch (loss 0.0234):  56%|█████▌    | 9515/16950 [1:44:06<1:28:40,  1.40it/s]Training 2/3 epoch (loss 0.0234):  56%|█████▌    | 9516/16950 [1:44:06<1:34:19,  1.31it/s]Training 2/3 epoch (loss 0.0168):  56%|█████▌    | 9516/16950 [1:44:07<1:34:19,  1.31it/s]Training 2/3 epoch (loss 0.0168):  56%|█████▌    | 9517/16950 [1:44:07<1:25:21,  1.45it/s]Training 2/3 epoch (loss 0.4876):  56%|█████▌    | 9517/16950 [1:44:07<1:25:21,  1.45it/s]Training 2/3 epoch (loss 0.4876):  56%|█████▌    | 9518/16950 [1:44:07<1:17:00,  1.61it/s]Training 2/3 epoch (loss 0.0783):  56%|█████▌    | 9518/16950 [1:44:08<1:17:00,  1.61it/s]Training 2/3 epoch (loss 0.0783):  56%|█████▌    | 9519/16950 [1:44:08<1:11:51,  1.72it/s]Training 2/3 epoch (loss 0.0394):  56%|█████▌    | 9519/16950 [1:44:08<1:11:51,  1.72it/s]Training 2/3 epoch (loss 0.0394):  56%|█████▌    | 9520/16950 [1:44:08<1:11:03,  1.74it/s]Training 2/3 epoch (loss 0.3013):  56%|█████▌    | 9520/16950 [1:44:09<1:11:03,  1.74it/s]Training 2/3 epoch (loss 0.3013):  56%|█████▌    | 9521/16950 [1:44:09<1:11:42,  1.73it/s]Training 2/3 epoch (loss 0.0260):  56%|█████▌    | 9521/16950 [1:44:10<1:11:42,  1.73it/s]Training 2/3 epoch (loss 0.0260):  56%|█████▌    | 9522/16950 [1:44:10<1:22:26,  1.50it/s]Training 2/3 epoch (loss 0.0978):  56%|█████▌    | 9522/16950 [1:44:10<1:22:26,  1.50it/s]Training 2/3 epoch (loss 0.0978):  56%|█████▌    | 9523/16950 [1:44:10<1:15:09,  1.65it/s]Training 2/3 epoch (loss 0.3362):  56%|█████▌    | 9523/16950 [1:44:11<1:15:09,  1.65it/s]Training 2/3 epoch (loss 0.3362):  56%|█████▌    | 9524/16950 [1:44:11<1:14:48,  1.65it/s]Training 2/3 epoch (loss 0.8096):  56%|█████▌    | 9524/16950 [1:44:11<1:14:48,  1.65it/s]Training 2/3 epoch (loss 0.8096):  56%|█████▌    | 9525/16950 [1:44:11<1:09:25,  1.78it/s]Training 2/3 epoch (loss nan):  56%|█████▌    | 9525/16950 [1:44:12<1:09:25,  1.78it/s]   Training 2/3 epoch (loss nan):  56%|█████▌    | 9526/16950 [1:44:12<1:27:27,  1.41it/s]Training 2/3 epoch (loss 0.0011):  56%|█████▌    | 9526/16950 [1:44:13<1:27:27,  1.41it/s]Training 2/3 epoch (loss 0.0011):  56%|█████▌    | 9527/16950 [1:44:13<1:22:06,  1.51it/s]Training 2/3 epoch (loss 0.0444):  56%|█████▌    | 9527/16950 [1:44:13<1:22:06,  1.51it/s]Training 2/3 epoch (loss 0.0444):  56%|█████▌    | 9528/16950 [1:44:13<1:15:00,  1.65it/s]Training 2/3 epoch (loss 0.0089):  56%|█████▌    | 9528/16950 [1:44:14<1:15:00,  1.65it/s]Training 2/3 epoch (loss 0.0089):  56%|█████▌    | 9529/16950 [1:44:14<1:07:32,  1.83it/s]Training 2/3 epoch (loss 0.2886):  56%|█████▌    | 9529/16950 [1:44:14<1:07:32,  1.83it/s]Training 2/3 epoch (loss 0.2886):  56%|█████▌    | 9530/16950 [1:44:14<1:08:34,  1.80it/s]Training 2/3 epoch (loss 0.3765):  56%|█████▌    | 9530/16950 [1:44:15<1:08:34,  1.80it/s]Training 2/3 epoch (loss 0.3765):  56%|█████▌    | 9531/16950 [1:44:15<1:26:02,  1.44it/s]Training 2/3 epoch (loss 0.0287):  56%|█████▌    | 9531/16950 [1:44:16<1:26:02,  1.44it/s]Training 2/3 epoch (loss 0.0287):  56%|█████▌    | 9532/16950 [1:44:16<1:23:27,  1.48it/s]Training 2/3 epoch (loss 0.3153):  56%|█████▌    | 9532/16950 [1:44:17<1:23:27,  1.48it/s]Training 2/3 epoch (loss 0.3153):  56%|█████▌    | 9533/16950 [1:44:17<1:25:03,  1.45it/s]Training 2/3 epoch (loss 0.2495):  56%|█████▌    | 9533/16950 [1:44:17<1:25:03,  1.45it/s]Training 2/3 epoch (loss 0.2495):  56%|█████▌    | 9534/16950 [1:44:17<1:15:57,  1.63it/s]Training 2/3 epoch (loss 0.3896):  56%|█████▌    | 9534/16950 [1:44:17<1:15:57,  1.63it/s]Training 2/3 epoch (loss 0.3896):  56%|█████▋    | 9535/16950 [1:44:17<1:07:32,  1.83it/s]Training 2/3 epoch (loss 0.0365):  56%|█████▋    | 9535/16950 [1:44:18<1:07:32,  1.83it/s]Training 2/3 epoch (loss 0.0365):  56%|█████▋    | 9536/16950 [1:44:18<1:09:09,  1.79it/s]Training 2/3 epoch (loss 0.0026):  56%|█████▋    | 9536/16950 [1:44:19<1:09:09,  1.79it/s]Training 2/3 epoch (loss 0.0026):  56%|█████▋    | 9537/16950 [1:44:19<1:08:56,  1.79it/s]Training 2/3 epoch (loss 0.0578):  56%|█████▋    | 9537/16950 [1:44:19<1:08:56,  1.79it/s]Training 2/3 epoch (loss 0.0578):  56%|█████▋    | 9538/16950 [1:44:19<1:02:59,  1.96it/s]Training 2/3 epoch (loss 0.1377):  56%|█████▋    | 9538/16950 [1:44:20<1:02:59,  1.96it/s]Training 2/3 epoch (loss 0.1377):  56%|█████▋    | 9539/16950 [1:44:20<1:08:20,  1.81it/s]Training 2/3 epoch (loss 1.0589):  56%|█████▋    | 9539/16950 [1:44:20<1:08:20,  1.81it/s]Training 2/3 epoch (loss 1.0589):  56%|█████▋    | 9540/16950 [1:44:20<1:16:47,  1.61it/s]Training 2/3 epoch (loss 0.0124):  56%|█████▋    | 9540/16950 [1:44:21<1:16:47,  1.61it/s]Training 2/3 epoch (loss 0.0124):  56%|█████▋    | 9541/16950 [1:44:21<1:17:54,  1.58it/s]Training 2/3 epoch (loss 0.0066):  56%|█████▋    | 9541/16950 [1:44:22<1:17:54,  1.58it/s]Training 2/3 epoch (loss 0.0066):  56%|█████▋    | 9542/16950 [1:44:22<1:12:59,  1.69it/s]Training 2/3 epoch (loss 0.1805):  56%|█████▋    | 9542/16950 [1:44:22<1:12:59,  1.69it/s]Training 2/3 epoch (loss 0.1805):  56%|█████▋    | 9543/16950 [1:44:22<1:21:35,  1.51it/s]Training 2/3 epoch (loss 0.0289):  56%|█████▋    | 9543/16950 [1:44:23<1:21:35,  1.51it/s]Training 2/3 epoch (loss 0.0289):  56%|█████▋    | 9544/16950 [1:44:23<1:23:23,  1.48it/s]Training 2/3 epoch (loss 0.1802):  56%|█████▋    | 9544/16950 [1:44:24<1:23:23,  1.48it/s]Training 2/3 epoch (loss 0.1802):  56%|█████▋    | 9545/16950 [1:44:24<1:17:53,  1.58it/s]Training 2/3 epoch (loss 0.7676):  56%|█████▋    | 9545/16950 [1:44:24<1:17:53,  1.58it/s]Training 2/3 epoch (loss 0.7676):  56%|█████▋    | 9546/16950 [1:44:24<1:26:44,  1.42it/s]Training 2/3 epoch (loss 0.3404):  56%|█████▋    | 9546/16950 [1:44:25<1:26:44,  1.42it/s]Training 2/3 epoch (loss 0.3404):  56%|█████▋    | 9547/16950 [1:44:25<1:30:14,  1.37it/s]Training 2/3 epoch (loss 0.0139):  56%|█████▋    | 9547/16950 [1:44:26<1:30:14,  1.37it/s]Training 2/3 epoch (loss 0.0139):  56%|█████▋    | 9548/16950 [1:44:26<1:23:32,  1.48it/s]Training 2/3 epoch (loss 0.0553):  56%|█████▋    | 9548/16950 [1:44:26<1:23:32,  1.48it/s]Training 2/3 epoch (loss 0.0553):  56%|█████▋    | 9549/16950 [1:44:26<1:16:30,  1.61it/s]Training 2/3 epoch (loss 0.0001):  56%|█████▋    | 9549/16950 [1:44:27<1:16:30,  1.61it/s]Training 2/3 epoch (loss 0.0001):  56%|█████▋    | 9550/16950 [1:44:27<1:10:14,  1.76it/s]Training 2/3 epoch (loss 0.0953):  56%|█████▋    | 9550/16950 [1:44:27<1:10:14,  1.76it/s]Training 2/3 epoch (loss 0.0953):  56%|█████▋    | 9551/16950 [1:44:27<1:09:47,  1.77it/s]Training 2/3 epoch (loss 0.0274):  56%|█████▋    | 9551/16950 [1:44:28<1:09:47,  1.77it/s]Training 2/3 epoch (loss 0.0274):  56%|█████▋    | 9552/16950 [1:44:28<1:16:17,  1.62it/s]Training 2/3 epoch (loss 0.0291):  56%|█████▋    | 9552/16950 [1:44:29<1:16:17,  1.62it/s]Training 2/3 epoch (loss 0.0291):  56%|█████▋    | 9553/16950 [1:44:29<1:16:37,  1.61it/s]Training 2/3 epoch (loss 0.0022):  56%|█████▋    | 9553/16950 [1:44:29<1:16:37,  1.61it/s]Training 2/3 epoch (loss 0.0022):  56%|█████▋    | 9554/16950 [1:44:29<1:11:30,  1.72it/s]Training 2/3 epoch (loss 0.0257):  56%|█████▋    | 9554/16950 [1:44:30<1:11:30,  1.72it/s]Training 2/3 epoch (loss 0.0257):  56%|█████▋    | 9555/16950 [1:44:30<1:13:36,  1.67it/s]Training 2/3 epoch (loss 0.0338):  56%|█████▋    | 9555/16950 [1:44:30<1:13:36,  1.67it/s]Training 2/3 epoch (loss 0.0338):  56%|█████▋    | 9556/16950 [1:44:30<1:11:13,  1.73it/s]Training 2/3 epoch (loss 0.1046):  56%|█████▋    | 9556/16950 [1:44:31<1:11:13,  1.73it/s]Training 2/3 epoch (loss 0.1046):  56%|█████▋    | 9557/16950 [1:44:31<1:06:12,  1.86it/s]Training 2/3 epoch (loss 0.0054):  56%|█████▋    | 9557/16950 [1:44:31<1:06:12,  1.86it/s]Training 2/3 epoch (loss 0.0054):  56%|█████▋    | 9558/16950 [1:44:31<1:09:40,  1.77it/s]Training 2/3 epoch (loss 0.4600):  56%|█████▋    | 9558/16950 [1:44:32<1:09:40,  1.77it/s]Training 2/3 epoch (loss 0.4600):  56%|█████▋    | 9559/16950 [1:44:32<1:27:19,  1.41it/s]Training 2/3 epoch (loss 0.0240):  56%|█████▋    | 9559/16950 [1:44:33<1:27:19,  1.41it/s]Training 2/3 epoch (loss 0.0240):  56%|█████▋    | 9560/16950 [1:44:33<1:19:51,  1.54it/s]Training 2/3 epoch (loss 0.0021):  56%|█████▋    | 9560/16950 [1:44:34<1:19:51,  1.54it/s]Training 2/3 epoch (loss 0.0021):  56%|█████▋    | 9561/16950 [1:44:34<1:20:13,  1.54it/s]Training 2/3 epoch (loss 0.0089):  56%|█████▋    | 9561/16950 [1:44:34<1:20:13,  1.54it/s]Training 2/3 epoch (loss 0.0089):  56%|█████▋    | 9562/16950 [1:44:34<1:23:57,  1.47it/s]Training 2/3 epoch (loss 0.0096):  56%|█████▋    | 9562/16950 [1:44:35<1:23:57,  1.47it/s]Training 2/3 epoch (loss 0.0096):  56%|█████▋    | 9563/16950 [1:44:35<1:17:43,  1.58it/s]Training 2/3 epoch (loss 0.4990):  56%|█████▋    | 9563/16950 [1:44:35<1:17:43,  1.58it/s]Training 2/3 epoch (loss 0.4990):  56%|█████▋    | 9564/16950 [1:44:35<1:12:28,  1.70it/s]Training 2/3 epoch (loss 0.4417):  56%|█████▋    | 9564/16950 [1:44:36<1:12:28,  1.70it/s]Training 2/3 epoch (loss 0.4417):  56%|█████▋    | 9565/16950 [1:44:36<1:11:25,  1.72it/s]Training 2/3 epoch (loss 0.0412):  56%|█████▋    | 9565/16950 [1:44:37<1:11:25,  1.72it/s]Training 2/3 epoch (loss 0.0412):  56%|█████▋    | 9566/16950 [1:44:37<1:14:00,  1.66it/s]Training 2/3 epoch (loss 0.1095):  56%|█████▋    | 9566/16950 [1:44:37<1:14:00,  1.66it/s]Training 2/3 epoch (loss 0.1095):  56%|█████▋    | 9567/16950 [1:44:37<1:14:31,  1.65it/s]Training 2/3 epoch (loss 0.0786):  56%|█████▋    | 9567/16950 [1:44:38<1:14:31,  1.65it/s]Training 2/3 epoch (loss 0.0786):  56%|█████▋    | 9568/16950 [1:44:38<1:17:15,  1.59it/s]Training 2/3 epoch (loss 0.1053):  56%|█████▋    | 9568/16950 [1:44:38<1:17:15,  1.59it/s]Training 2/3 epoch (loss 0.1053):  56%|█████▋    | 9569/16950 [1:44:38<1:15:00,  1.64it/s]Training 2/3 epoch (loss 0.0007):  56%|█████▋    | 9569/16950 [1:44:39<1:15:00,  1.64it/s]Training 2/3 epoch (loss 0.0007):  56%|█████▋    | 9570/16950 [1:44:39<1:11:48,  1.71it/s]Training 2/3 epoch (loss 0.0060):  56%|█████▋    | 9570/16950 [1:44:40<1:11:48,  1.71it/s]Training 2/3 epoch (loss 0.0060):  56%|█████▋    | 9571/16950 [1:44:40<1:15:49,  1.62it/s]Training 2/3 epoch (loss 0.2964):  56%|█████▋    | 9571/16950 [1:44:40<1:15:49,  1.62it/s]Training 2/3 epoch (loss 0.2964):  56%|█████▋    | 9572/16950 [1:44:40<1:09:16,  1.77it/s]Training 2/3 epoch (loss 0.0564):  56%|█████▋    | 9572/16950 [1:44:41<1:09:16,  1.77it/s]Training 2/3 epoch (loss 0.0564):  56%|█████▋    | 9573/16950 [1:44:41<1:06:12,  1.86it/s]Training 2/3 epoch (loss 0.0011):  56%|█████▋    | 9573/16950 [1:44:41<1:06:12,  1.86it/s]Training 2/3 epoch (loss 0.0011):  56%|█████▋    | 9574/16950 [1:44:41<1:02:53,  1.95it/s]Training 2/3 epoch (loss 0.1867):  56%|█████▋    | 9574/16950 [1:44:41<1:02:53,  1.95it/s]Training 2/3 epoch (loss 0.1867):  56%|█████▋    | 9575/16950 [1:44:41<57:21,  2.14it/s]  Training 2/3 epoch (loss 0.0313):  56%|█████▋    | 9575/16950 [1:44:42<57:21,  2.14it/s]Training 2/3 epoch (loss 0.0313):  56%|█████▋    | 9576/16950 [1:44:42<59:56,  2.05it/s]Training 2/3 epoch (loss 0.0013):  56%|█████▋    | 9576/16950 [1:44:43<59:56,  2.05it/s]Training 2/3 epoch (loss 0.0013):  57%|█████▋    | 9577/16950 [1:44:43<1:07:32,  1.82it/s]Training 2/3 epoch (loss 0.2276):  57%|█████▋    | 9577/16950 [1:44:43<1:07:32,  1.82it/s]Training 2/3 epoch (loss 0.2276):  57%|█████▋    | 9578/16950 [1:44:43<59:42,  2.06it/s]  Training 2/3 epoch (loss 0.0100):  57%|█████▋    | 9578/16950 [1:44:44<59:42,  2.06it/s]Training 2/3 epoch (loss 0.0100):  57%|█████▋    | 9579/16950 [1:44:44<1:03:26,  1.94it/s]Training 2/3 epoch (loss 0.9689):  57%|█████▋    | 9579/16950 [1:44:44<1:03:26,  1.94it/s]Training 2/3 epoch (loss 0.9689):  57%|█████▋    | 9580/16950 [1:44:44<1:01:45,  1.99it/s]Training 2/3 epoch (loss 0.5702):  57%|█████▋    | 9580/16950 [1:44:44<1:01:45,  1.99it/s]Training 2/3 epoch (loss 0.5702):  57%|█████▋    | 9581/16950 [1:44:44<59:54,  2.05it/s]  Training 2/3 epoch (loss 0.5812):  57%|█████▋    | 9581/16950 [1:44:45<59:54,  2.05it/s]Training 2/3 epoch (loss 0.5812):  57%|█████▋    | 9582/16950 [1:44:45<1:05:12,  1.88it/s]Training 2/3 epoch (loss 0.0144):  57%|█████▋    | 9582/16950 [1:44:46<1:05:12,  1.88it/s]Training 2/3 epoch (loss 0.0144):  57%|█████▋    | 9583/16950 [1:44:46<1:01:55,  1.98it/s]Training 2/3 epoch (loss 0.1519):  57%|█████▋    | 9583/16950 [1:44:46<1:01:55,  1.98it/s]Training 2/3 epoch (loss 0.1519):  57%|█████▋    | 9584/16950 [1:44:46<56:40,  2.17it/s]  Training 2/3 epoch (loss 0.5501):  57%|█████▋    | 9584/16950 [1:44:47<56:40,  2.17it/s]Training 2/3 epoch (loss 0.5501):  57%|█████▋    | 9585/16950 [1:44:47<1:04:54,  1.89it/s]Training 2/3 epoch (loss 0.1189):  57%|█████▋    | 9585/16950 [1:44:47<1:04:54,  1.89it/s]Training 2/3 epoch (loss 0.1189):  57%|█████▋    | 9586/16950 [1:44:47<1:13:55,  1.66it/s]Training 2/3 epoch (loss 0.0017):  57%|█████▋    | 9586/16950 [1:44:48<1:13:55,  1.66it/s]Training 2/3 epoch (loss 0.0017):  57%|█████▋    | 9587/16950 [1:44:48<1:10:58,  1.73it/s]Training 2/3 epoch (loss 0.0475):  57%|█████▋    | 9587/16950 [1:44:49<1:10:58,  1.73it/s]Training 2/3 epoch (loss 0.0475):  57%|█████▋    | 9588/16950 [1:44:49<1:14:18,  1.65it/s]Training 2/3 epoch (loss 0.1098):  57%|█████▋    | 9588/16950 [1:44:49<1:14:18,  1.65it/s]Training 2/3 epoch (loss 0.1098):  57%|█████▋    | 9589/16950 [1:44:49<1:13:40,  1.67it/s]Training 2/3 epoch (loss 0.0009):  57%|█████▋    | 9589/16950 [1:44:50<1:13:40,  1.67it/s]Training 2/3 epoch (loss 0.0009):  57%|█████▋    | 9590/16950 [1:44:50<1:18:19,  1.57it/s]Training 2/3 epoch (loss 0.4789):  57%|█████▋    | 9590/16950 [1:44:51<1:18:19,  1.57it/s]Training 2/3 epoch (loss 0.4789):  57%|█████▋    | 9591/16950 [1:44:51<1:19:55,  1.53it/s]Training 2/3 epoch (loss 0.8170):  57%|█████▋    | 9591/16950 [1:44:52<1:19:55,  1.53it/s]Training 2/3 epoch (loss 0.8170):  57%|█████▋    | 9592/16950 [1:44:52<1:32:17,  1.33it/s]Training 2/3 epoch (loss 0.0007):  57%|█████▋    | 9592/16950 [1:44:52<1:32:17,  1.33it/s]Training 2/3 epoch (loss 0.0007):  57%|█████▋    | 9593/16950 [1:44:52<1:31:12,  1.34it/s]Training 2/3 epoch (loss 0.0017):  57%|█████▋    | 9593/16950 [1:44:53<1:31:12,  1.34it/s]Training 2/3 epoch (loss 0.0017):  57%|█████▋    | 9594/16950 [1:44:53<1:20:57,  1.51it/s]Training 2/3 epoch (loss 0.7567):  57%|█████▋    | 9594/16950 [1:44:53<1:20:57,  1.51it/s]Training 2/3 epoch (loss 0.7567):  57%|█████▋    | 9595/16950 [1:44:53<1:21:09,  1.51it/s]Training 2/3 epoch (loss 0.0620):  57%|█████▋    | 9595/16950 [1:44:54<1:21:09,  1.51it/s]Training 2/3 epoch (loss 0.0620):  57%|█████▋    | 9596/16950 [1:44:54<1:24:44,  1.45it/s]Training 2/3 epoch (loss 0.0676):  57%|█████▋    | 9596/16950 [1:44:55<1:24:44,  1.45it/s]Training 2/3 epoch (loss 0.0676):  57%|█████▋    | 9597/16950 [1:44:55<1:17:52,  1.57it/s]Training 2/3 epoch (loss 0.2885):  57%|█████▋    | 9597/16950 [1:44:55<1:17:52,  1.57it/s]Training 2/3 epoch (loss 0.2885):  57%|█████▋    | 9598/16950 [1:44:55<1:17:53,  1.57it/s]Training 2/3 epoch (loss 0.0454):  57%|█████▋    | 9598/16950 [1:44:56<1:17:53,  1.57it/s]Training 2/3 epoch (loss 0.0454):  57%|█████▋    | 9599/16950 [1:44:56<1:19:07,  1.55it/s]Training 2/3 epoch (loss 0.2428):  57%|█████▋    | 9599/16950 [1:44:56<1:19:07,  1.55it/s]Training 2/3 epoch (loss 0.2428):  57%|█████▋    | 9600/16950 [1:44:56<1:12:12,  1.70it/s]Training 2/3 epoch (loss 0.3269):  57%|█████▋    | 9600/16950 [1:44:57<1:12:12,  1.70it/s]Training 2/3 epoch (loss 0.3269):  57%|█████▋    | 9601/16950 [1:44:57<1:04:58,  1.89it/s]Training 2/3 epoch (loss 0.4636):  57%|█████▋    | 9601/16950 [1:44:58<1:04:58,  1.89it/s]Training 2/3 epoch (loss 0.4636):  57%|█████▋    | 9602/16950 [1:44:58<1:15:54,  1.61it/s]Training 2/3 epoch (loss 0.0029):  57%|█████▋    | 9602/16950 [1:44:58<1:15:54,  1.61it/s]Training 2/3 epoch (loss 0.0029):  57%|█████▋    | 9603/16950 [1:44:58<1:13:14,  1.67it/s]Training 2/3 epoch (loss 0.3867):  57%|█████▋    | 9603/16950 [1:44:59<1:13:14,  1.67it/s]Training 2/3 epoch (loss 0.3867):  57%|█████▋    | 9604/16950 [1:44:59<1:14:33,  1.64it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9604/16950 [1:44:59<1:14:33,  1.64it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9605/16950 [1:44:59<1:10:03,  1.75it/s]Training 2/3 epoch (loss 0.0027):  57%|█████▋    | 9605/16950 [1:45:00<1:10:03,  1.75it/s]Training 2/3 epoch (loss 0.0027):  57%|█████▋    | 9606/16950 [1:45:00<1:05:09,  1.88it/s]Training 2/3 epoch (loss 0.0069):  57%|█████▋    | 9606/16950 [1:45:00<1:05:09,  1.88it/s]Training 2/3 epoch (loss 0.0069):  57%|█████▋    | 9607/16950 [1:45:00<1:05:10,  1.88it/s]Training 2/3 epoch (loss 0.0088):  57%|█████▋    | 9607/16950 [1:45:01<1:05:10,  1.88it/s]Training 2/3 epoch (loss 0.0088):  57%|█████▋    | 9608/16950 [1:45:01<1:24:49,  1.44it/s]Training 2/3 epoch (loss 0.0130):  57%|█████▋    | 9608/16950 [1:45:02<1:24:49,  1.44it/s]Training 2/3 epoch (loss 0.0130):  57%|█████▋    | 9609/16950 [1:45:02<1:25:17,  1.43it/s]Training 2/3 epoch (loss 0.3387):  57%|█████▋    | 9609/16950 [1:45:03<1:25:17,  1.43it/s]Training 2/3 epoch (loss 0.3387):  57%|█████▋    | 9610/16950 [1:45:03<1:22:16,  1.49it/s]Training 2/3 epoch (loss 0.0796):  57%|█████▋    | 9610/16950 [1:45:04<1:22:16,  1.49it/s]Training 2/3 epoch (loss 0.0796):  57%|█████▋    | 9611/16950 [1:45:04<1:31:44,  1.33it/s]Training 2/3 epoch (loss 0.0095):  57%|█████▋    | 9611/16950 [1:45:04<1:31:44,  1.33it/s]Training 2/3 epoch (loss 0.0095):  57%|█████▋    | 9612/16950 [1:45:04<1:23:35,  1.46it/s]Training 2/3 epoch (loss 0.5113):  57%|█████▋    | 9612/16950 [1:45:05<1:23:35,  1.46it/s]Training 2/3 epoch (loss 0.5113):  57%|█████▋    | 9613/16950 [1:45:05<1:13:47,  1.66it/s]Training 2/3 epoch (loss 0.1737):  57%|█████▋    | 9613/16950 [1:45:05<1:13:47,  1.66it/s]Training 2/3 epoch (loss 0.1737):  57%|█████▋    | 9614/16950 [1:45:05<1:22:33,  1.48it/s]Training 2/3 epoch (loss 0.0550):  57%|█████▋    | 9614/16950 [1:45:06<1:22:33,  1.48it/s]Training 2/3 epoch (loss 0.0550):  57%|█████▋    | 9615/16950 [1:45:06<1:21:01,  1.51it/s]Training 2/3 epoch (loss 0.0059):  57%|█████▋    | 9615/16950 [1:45:07<1:21:01,  1.51it/s]Training 2/3 epoch (loss 0.0059):  57%|█████▋    | 9616/16950 [1:45:07<1:15:16,  1.62it/s]Training 2/3 epoch (loss 0.0083):  57%|█████▋    | 9616/16950 [1:45:07<1:15:16,  1.62it/s]Training 2/3 epoch (loss 0.0083):  57%|█████▋    | 9617/16950 [1:45:07<1:09:30,  1.76it/s]Training 2/3 epoch (loss 0.0121):  57%|█████▋    | 9617/16950 [1:45:07<1:09:30,  1.76it/s]Training 2/3 epoch (loss 0.0121):  57%|█████▋    | 9618/16950 [1:45:07<1:04:07,  1.91it/s]Training 2/3 epoch (loss 0.0003):  57%|█████▋    | 9618/16950 [1:45:08<1:04:07,  1.91it/s]Training 2/3 epoch (loss 0.0003):  57%|█████▋    | 9619/16950 [1:45:08<59:17,  2.06it/s]  Training 2/3 epoch (loss 0.0778):  57%|█████▋    | 9619/16950 [1:45:08<59:17,  2.06it/s]Training 2/3 epoch (loss 0.0778):  57%|█████▋    | 9620/16950 [1:45:08<1:00:34,  2.02it/s]Training 2/3 epoch (loss 0.0514):  57%|█████▋    | 9620/16950 [1:45:09<1:00:34,  2.02it/s]Training 2/3 epoch (loss 0.0514):  57%|█████▋    | 9621/16950 [1:45:09<58:37,  2.08it/s]  Training 2/3 epoch (loss 0.0062):  57%|█████▋    | 9621/16950 [1:45:09<58:37,  2.08it/s]Training 2/3 epoch (loss 0.0062):  57%|█████▋    | 9622/16950 [1:45:09<1:04:37,  1.89it/s]Training 2/3 epoch (loss 0.0093):  57%|█████▋    | 9622/16950 [1:45:10<1:04:37,  1.89it/s]Training 2/3 epoch (loss 0.0093):  57%|█████▋    | 9623/16950 [1:45:10<1:06:56,  1.82it/s]Training 2/3 epoch (loss 0.0002):  57%|█████▋    | 9623/16950 [1:45:11<1:06:56,  1.82it/s]Training 2/3 epoch (loss 0.0002):  57%|█████▋    | 9624/16950 [1:45:11<1:05:15,  1.87it/s]Training 2/3 epoch (loss 0.0406):  57%|█████▋    | 9624/16950 [1:45:11<1:05:15,  1.87it/s]Training 2/3 epoch (loss 0.0406):  57%|█████▋    | 9625/16950 [1:45:11<1:09:26,  1.76it/s]Training 2/3 epoch (loss 0.0320):  57%|█████▋    | 9625/16950 [1:45:12<1:09:26,  1.76it/s]Training 2/3 epoch (loss 0.0320):  57%|█████▋    | 9626/16950 [1:45:12<1:09:01,  1.77it/s]Training 2/3 epoch (loss 0.0026):  57%|█████▋    | 9626/16950 [1:45:12<1:09:01,  1.77it/s]Training 2/3 epoch (loss 0.0026):  57%|█████▋    | 9627/16950 [1:45:12<1:03:17,  1.93it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9627/16950 [1:45:13<1:03:17,  1.93it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9628/16950 [1:45:13<59:53,  2.04it/s]  Training 2/3 epoch (loss 0.5600):  57%|█████▋    | 9628/16950 [1:45:13<59:53,  2.04it/s]Training 2/3 epoch (loss 0.5600):  57%|█████▋    | 9629/16950 [1:45:13<1:04:30,  1.89it/s]Training 2/3 epoch (loss 0.0011):  57%|█████▋    | 9629/16950 [1:45:14<1:04:30,  1.89it/s]Training 2/3 epoch (loss 0.0011):  57%|█████▋    | 9630/16950 [1:45:14<1:09:44,  1.75it/s]Training 2/3 epoch (loss 0.0008):  57%|█████▋    | 9630/16950 [1:45:14<1:09:44,  1.75it/s]Training 2/3 epoch (loss 0.0008):  57%|█████▋    | 9631/16950 [1:45:14<1:07:47,  1.80it/s]Training 2/3 epoch (loss 0.0618):  57%|█████▋    | 9631/16950 [1:45:15<1:07:47,  1.80it/s]Training 2/3 epoch (loss 0.0618):  57%|█████▋    | 9632/16950 [1:45:15<1:05:03,  1.87it/s]Training 2/3 epoch (loss 0.0668):  57%|█████▋    | 9632/16950 [1:45:15<1:05:03,  1.87it/s]Training 2/3 epoch (loss 0.0668):  57%|█████▋    | 9633/16950 [1:45:15<56:20,  2.16it/s]  Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9633/16950 [1:45:15<56:20,  2.16it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9634/16950 [1:45:15<49:17,  2.47it/s]Training 2/3 epoch (loss 0.3990):  57%|█████▋    | 9634/16950 [1:45:17<49:17,  2.47it/s]Training 2/3 epoch (loss 0.3990):  57%|█████▋    | 9635/16950 [1:45:17<1:13:57,  1.65it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9635/16950 [1:45:17<1:13:57,  1.65it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9636/16950 [1:45:17<1:12:59,  1.67it/s]Training 2/3 epoch (loss 0.5418):  57%|█████▋    | 9636/16950 [1:45:18<1:12:59,  1.67it/s]Training 2/3 epoch (loss 0.5418):  57%|█████▋    | 9637/16950 [1:45:18<1:11:34,  1.70it/s]Training 2/3 epoch (loss 0.2388):  57%|█████▋    | 9637/16950 [1:45:18<1:11:34,  1.70it/s]Training 2/3 epoch (loss 0.2388):  57%|█████▋    | 9638/16950 [1:45:18<1:16:10,  1.60it/s]Training 2/3 epoch (loss 0.2602):  57%|█████▋    | 9638/16950 [1:45:19<1:16:10,  1.60it/s]Training 2/3 epoch (loss 0.2602):  57%|█████▋    | 9639/16950 [1:45:19<1:11:36,  1.70it/s]Training 2/3 epoch (loss 0.0152):  57%|█████▋    | 9639/16950 [1:45:19<1:11:36,  1.70it/s]Training 2/3 epoch (loss 0.0152):  57%|█████▋    | 9640/16950 [1:45:19<1:11:50,  1.70it/s]Training 2/3 epoch (loss 0.3330):  57%|█████▋    | 9640/16950 [1:45:20<1:11:50,  1.70it/s]Training 2/3 epoch (loss 0.3330):  57%|█████▋    | 9641/16950 [1:45:20<1:09:33,  1.75it/s]Training 2/3 epoch (loss 0.4625):  57%|█████▋    | 9641/16950 [1:45:20<1:09:33,  1.75it/s]Training 2/3 epoch (loss 0.4625):  57%|█████▋    | 9642/16950 [1:45:20<1:07:37,  1.80it/s]Training 2/3 epoch (loss 0.0565):  57%|█████▋    | 9642/16950 [1:45:21<1:07:37,  1.80it/s]Training 2/3 epoch (loss 0.0565):  57%|█████▋    | 9643/16950 [1:45:21<1:17:21,  1.57it/s]Training 2/3 epoch (loss 0.0457):  57%|█████▋    | 9643/16950 [1:45:22<1:17:21,  1.57it/s]Training 2/3 epoch (loss 0.0457):  57%|█████▋    | 9644/16950 [1:45:22<1:15:19,  1.62it/s]Training 2/3 epoch (loss 0.0027):  57%|█████▋    | 9644/16950 [1:45:22<1:15:19,  1.62it/s]Training 2/3 epoch (loss 0.0027):  57%|█████▋    | 9645/16950 [1:45:22<1:09:45,  1.75it/s]Training 2/3 epoch (loss 1.0210):  57%|█████▋    | 9645/16950 [1:45:23<1:09:45,  1.75it/s]Training 2/3 epoch (loss 1.0210):  57%|█████▋    | 9646/16950 [1:45:23<1:20:17,  1.52it/s]Training 2/3 epoch (loss 0.0065):  57%|█████▋    | 9646/16950 [1:45:24<1:20:17,  1.52it/s]Training 2/3 epoch (loss 0.0065):  57%|█████▋    | 9647/16950 [1:45:24<1:19:33,  1.53it/s]Training 2/3 epoch (loss 0.0072):  57%|█████▋    | 9647/16950 [1:45:24<1:19:33,  1.53it/s]Training 2/3 epoch (loss 0.0072):  57%|█████▋    | 9648/16950 [1:45:24<1:13:20,  1.66it/s]Training 2/3 epoch (loss 0.0040):  57%|█████▋    | 9648/16950 [1:45:25<1:13:20,  1.66it/s]Training 2/3 epoch (loss 0.0040):  57%|█████▋    | 9649/16950 [1:45:25<1:05:08,  1.87it/s]Training 2/3 epoch (loss 0.0099):  57%|█████▋    | 9649/16950 [1:45:25<1:05:08,  1.87it/s]Training 2/3 epoch (loss 0.0099):  57%|█████▋    | 9650/16950 [1:45:25<1:01:45,  1.97it/s]Training 2/3 epoch (loss 0.6814):  57%|█████▋    | 9650/16950 [1:45:26<1:01:45,  1.97it/s]Training 2/3 epoch (loss 0.6814):  57%|█████▋    | 9651/16950 [1:45:26<58:30,  2.08it/s]  Training 2/3 epoch (loss 0.0908):  57%|█████▋    | 9651/16950 [1:45:26<58:30,  2.08it/s]Training 2/3 epoch (loss 0.0908):  57%|█████▋    | 9652/16950 [1:45:26<1:09:02,  1.76it/s]Training 2/3 epoch (loss 0.1608):  57%|█████▋    | 9652/16950 [1:45:27<1:09:02,  1.76it/s]Training 2/3 epoch (loss 0.1608):  57%|█████▋    | 9653/16950 [1:45:27<1:11:44,  1.70it/s]Training 2/3 epoch (loss 0.0013):  57%|█████▋    | 9653/16950 [1:45:28<1:11:44,  1.70it/s]Training 2/3 epoch (loss 0.0013):  57%|█████▋    | 9654/16950 [1:45:28<1:12:19,  1.68it/s]Training 2/3 epoch (loss 0.0003):  57%|█████▋    | 9654/16950 [1:45:28<1:12:19,  1.68it/s]Training 2/3 epoch (loss 0.0003):  57%|█████▋    | 9655/16950 [1:45:28<1:10:17,  1.73it/s]Training 2/3 epoch (loss 0.0044):  57%|█████▋    | 9655/16950 [1:45:29<1:10:17,  1.73it/s]Training 2/3 epoch (loss 0.0044):  57%|█████▋    | 9656/16950 [1:45:29<1:09:20,  1.75it/s]Training 2/3 epoch (loss 0.1577):  57%|█████▋    | 9656/16950 [1:45:29<1:09:20,  1.75it/s]Training 2/3 epoch (loss 0.1577):  57%|█████▋    | 9657/16950 [1:45:29<1:12:59,  1.67it/s]Training 2/3 epoch (loss 0.0028):  57%|█████▋    | 9657/16950 [1:45:30<1:12:59,  1.67it/s]Training 2/3 epoch (loss 0.0028):  57%|█████▋    | 9658/16950 [1:45:30<1:11:45,  1.69it/s]Training 2/3 epoch (loss 0.0211):  57%|█████▋    | 9658/16950 [1:45:31<1:11:45,  1.69it/s]Training 2/3 epoch (loss 0.0211):  57%|█████▋    | 9659/16950 [1:45:31<1:24:20,  1.44it/s]Training 2/3 epoch (loss 0.0311):  57%|█████▋    | 9659/16950 [1:45:31<1:24:20,  1.44it/s]Training 2/3 epoch (loss 0.0311):  57%|█████▋    | 9660/16950 [1:45:31<1:18:25,  1.55it/s]Training 2/3 epoch (loss 0.4085):  57%|█████▋    | 9660/16950 [1:45:32<1:18:25,  1.55it/s]Training 2/3 epoch (loss 0.4085):  57%|█████▋    | 9661/16950 [1:45:32<1:28:00,  1.38it/s]Training 2/3 epoch (loss 0.7187):  57%|█████▋    | 9661/16950 [1:45:34<1:28:00,  1.38it/s]Training 2/3 epoch (loss 0.7187):  57%|█████▋    | 9662/16950 [1:45:34<1:46:43,  1.14it/s]Training 2/3 epoch (loss 0.0160):  57%|█████▋    | 9662/16950 [1:45:35<1:46:43,  1.14it/s]Training 2/3 epoch (loss 0.0160):  57%|█████▋    | 9663/16950 [1:45:35<2:00:03,  1.01it/s]Training 2/3 epoch (loss 0.0002):  57%|█████▋    | 9663/16950 [1:45:35<2:00:03,  1.01it/s]Training 2/3 epoch (loss 0.0002):  57%|█████▋    | 9664/16950 [1:45:35<1:43:10,  1.18it/s]Training 2/3 epoch (loss 0.0409):  57%|█████▋    | 9664/16950 [1:45:36<1:43:10,  1.18it/s]Training 2/3 epoch (loss 0.0409):  57%|█████▋    | 9665/16950 [1:45:36<1:27:07,  1.39it/s]Training 2/3 epoch (loss 0.1242):  57%|█████▋    | 9665/16950 [1:45:36<1:27:07,  1.39it/s]Training 2/3 epoch (loss 0.1242):  57%|█████▋    | 9666/16950 [1:45:36<1:14:14,  1.64it/s]Training 2/3 epoch (loss 0.0412):  57%|█████▋    | 9666/16950 [1:45:37<1:14:14,  1.64it/s]Training 2/3 epoch (loss 0.0412):  57%|█████▋    | 9667/16950 [1:45:37<1:12:25,  1.68it/s]Training 2/3 epoch (loss 0.4875):  57%|█████▋    | 9667/16950 [1:45:38<1:12:25,  1.68it/s]Training 2/3 epoch (loss 0.4875):  57%|█████▋    | 9668/16950 [1:45:38<1:25:51,  1.41it/s]Training 2/3 epoch (loss 0.3650):  57%|█████▋    | 9668/16950 [1:45:38<1:25:51,  1.41it/s]Training 2/3 epoch (loss 0.3650):  57%|█████▋    | 9669/16950 [1:45:38<1:18:34,  1.54it/s]Training 2/3 epoch (loss 0.0023):  57%|█████▋    | 9669/16950 [1:45:38<1:18:34,  1.54it/s]Training 2/3 epoch (loss 0.0023):  57%|█████▋    | 9670/16950 [1:45:38<1:08:23,  1.77it/s]Training 2/3 epoch (loss 0.0163):  57%|█████▋    | 9670/16950 [1:45:39<1:08:23,  1.77it/s]Training 2/3 epoch (loss 0.0163):  57%|█████▋    | 9671/16950 [1:45:39<1:09:43,  1.74it/s]Training 2/3 epoch (loss 0.0011):  57%|█████▋    | 9671/16950 [1:45:40<1:09:43,  1.74it/s]Training 2/3 epoch (loss 0.0011):  57%|█████▋    | 9672/16950 [1:45:40<1:12:27,  1.67it/s]Training 2/3 epoch (loss 0.0054):  57%|█████▋    | 9672/16950 [1:45:40<1:12:27,  1.67it/s]Training 2/3 epoch (loss 0.0054):  57%|█████▋    | 9673/16950 [1:45:40<1:17:40,  1.56it/s]Training 2/3 epoch (loss 0.0018):  57%|█████▋    | 9673/16950 [1:45:41<1:17:40,  1.56it/s]Training 2/3 epoch (loss 0.0018):  57%|█████▋    | 9674/16950 [1:45:41<1:27:05,  1.39it/s]Training 2/3 epoch (loss 0.0007):  57%|█████▋    | 9674/16950 [1:45:42<1:27:05,  1.39it/s]Training 2/3 epoch (loss 0.0007):  57%|█████▋    | 9675/16950 [1:45:42<1:26:24,  1.40it/s]Training 2/3 epoch (loss 0.0007):  57%|█████▋    | 9675/16950 [1:45:43<1:26:24,  1.40it/s]Training 2/3 epoch (loss 0.0007):  57%|█████▋    | 9676/16950 [1:45:43<1:15:34,  1.60it/s]Training 2/3 epoch (loss 0.0326):  57%|█████▋    | 9676/16950 [1:45:43<1:15:34,  1.60it/s]Training 2/3 epoch (loss 0.0326):  57%|█████▋    | 9677/16950 [1:45:43<1:09:43,  1.74it/s]Training 2/3 epoch (loss 0.2806):  57%|█████▋    | 9677/16950 [1:45:43<1:09:43,  1.74it/s]Training 2/3 epoch (loss 0.2806):  57%|█████▋    | 9678/16950 [1:45:43<1:02:47,  1.93it/s]Training 2/3 epoch (loss 0.0264):  57%|█████▋    | 9678/16950 [1:45:44<1:02:47,  1.93it/s]Training 2/3 epoch (loss 0.0264):  57%|█████▋    | 9679/16950 [1:45:44<56:58,  2.13it/s]  Training 2/3 epoch (loss 0.3344):  57%|█████▋    | 9679/16950 [1:45:44<56:58,  2.13it/s]Training 2/3 epoch (loss 0.3344):  57%|█████▋    | 9680/16950 [1:45:44<1:02:52,  1.93it/s]Training 2/3 epoch (loss 0.1784):  57%|█████▋    | 9680/16950 [1:45:45<1:02:52,  1.93it/s]Training 2/3 epoch (loss 0.1784):  57%|█████▋    | 9681/16950 [1:45:45<1:23:55,  1.44it/s]Training 2/3 epoch (loss 0.1195):  57%|█████▋    | 9681/16950 [1:45:46<1:23:55,  1.44it/s]Training 2/3 epoch (loss 0.1195):  57%|█████▋    | 9682/16950 [1:45:46<1:22:19,  1.47it/s]Training 2/3 epoch (loss 0.0177):  57%|█████▋    | 9682/16950 [1:45:47<1:22:19,  1.47it/s]Training 2/3 epoch (loss 0.0177):  57%|█████▋    | 9683/16950 [1:45:47<1:29:45,  1.35it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9683/16950 [1:45:48<1:29:45,  1.35it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9684/16950 [1:45:48<1:25:54,  1.41it/s]Training 2/3 epoch (loss 0.0980):  57%|█████▋    | 9684/16950 [1:45:48<1:25:54,  1.41it/s]Training 2/3 epoch (loss 0.0980):  57%|█████▋    | 9685/16950 [1:45:48<1:21:08,  1.49it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9685/16950 [1:45:49<1:21:08,  1.49it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9686/16950 [1:45:49<1:13:05,  1.66it/s]Training 2/3 epoch (loss 0.3077):  57%|█████▋    | 9686/16950 [1:45:49<1:13:05,  1.66it/s]Training 2/3 epoch (loss 0.3077):  57%|█████▋    | 9687/16950 [1:45:49<1:08:14,  1.77it/s]Training 2/3 epoch (loss 0.3197):  57%|█████▋    | 9687/16950 [1:45:50<1:08:14,  1.77it/s]Training 2/3 epoch (loss 0.3197):  57%|█████▋    | 9688/16950 [1:45:50<1:12:36,  1.67it/s]Training 2/3 epoch (loss 0.1087):  57%|█████▋    | 9688/16950 [1:45:50<1:12:36,  1.67it/s]Training 2/3 epoch (loss 0.1087):  57%|█████▋    | 9689/16950 [1:45:50<1:10:08,  1.73it/s]Training 2/3 epoch (loss 0.0515):  57%|█████▋    | 9689/16950 [1:45:51<1:10:08,  1.73it/s]Training 2/3 epoch (loss 0.0515):  57%|█████▋    | 9690/16950 [1:45:51<1:09:15,  1.75it/s]Training 2/3 epoch (loss 0.0208):  57%|█████▋    | 9690/16950 [1:45:52<1:09:15,  1.75it/s]Training 2/3 epoch (loss 0.0208):  57%|█████▋    | 9691/16950 [1:45:52<1:13:16,  1.65it/s]Training 2/3 epoch (loss 0.0043):  57%|█████▋    | 9691/16950 [1:45:52<1:13:16,  1.65it/s]Training 2/3 epoch (loss 0.0043):  57%|█████▋    | 9692/16950 [1:45:52<1:09:04,  1.75it/s]Training 2/3 epoch (loss 0.1011):  57%|█████▋    | 9692/16950 [1:45:52<1:09:04,  1.75it/s]Training 2/3 epoch (loss 0.1011):  57%|█████▋    | 9693/16950 [1:45:52<1:01:20,  1.97it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9693/16950 [1:45:53<1:01:20,  1.97it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9694/16950 [1:45:53<57:56,  2.09it/s]  Training 2/3 epoch (loss 0.1120):  57%|█████▋    | 9694/16950 [1:45:53<57:56,  2.09it/s]Training 2/3 epoch (loss 0.1120):  57%|█████▋    | 9695/16950 [1:45:53<1:04:32,  1.87it/s]Training 2/3 epoch (loss 0.0074):  57%|█████▋    | 9695/16950 [1:45:54<1:04:32,  1.87it/s]Training 2/3 epoch (loss 0.0074):  57%|█████▋    | 9696/16950 [1:45:54<1:10:07,  1.72it/s]Training 2/3 epoch (loss 0.0060):  57%|█████▋    | 9696/16950 [1:45:55<1:10:07,  1.72it/s]Training 2/3 epoch (loss 0.0060):  57%|█████▋    | 9697/16950 [1:45:55<1:13:31,  1.64it/s]Training 2/3 epoch (loss 0.0055):  57%|█████▋    | 9697/16950 [1:45:55<1:13:31,  1.64it/s]Training 2/3 epoch (loss 0.0055):  57%|█████▋    | 9698/16950 [1:45:55<1:13:20,  1.65it/s]Training 2/3 epoch (loss 0.4485):  57%|█████▋    | 9698/16950 [1:45:56<1:13:20,  1.65it/s]Training 2/3 epoch (loss 0.4485):  57%|█████▋    | 9699/16950 [1:45:56<1:15:54,  1.59it/s]Training 2/3 epoch (loss 0.0002):  57%|█████▋    | 9699/16950 [1:45:57<1:15:54,  1.59it/s]Training 2/3 epoch (loss 0.0002):  57%|█████▋    | 9700/16950 [1:45:57<1:17:27,  1.56it/s]Training 2/3 epoch (loss nan):  57%|█████▋    | 9700/16950 [1:45:58<1:17:27,  1.56it/s]   Training 2/3 epoch (loss nan):  57%|█████▋    | 9701/16950 [1:45:58<1:35:51,  1.26it/s]Training 2/3 epoch (loss 0.0133):  57%|█████▋    | 9701/16950 [1:45:59<1:35:51,  1.26it/s]Training 2/3 epoch (loss 0.0133):  57%|█████▋    | 9702/16950 [1:45:59<1:29:08,  1.36it/s]Training 2/3 epoch (loss 0.2307):  57%|█████▋    | 9702/16950 [1:45:59<1:29:08,  1.36it/s]Training 2/3 epoch (loss 0.2307):  57%|█████▋    | 9703/16950 [1:45:59<1:13:54,  1.63it/s]Training 2/3 epoch (loss 0.3126):  57%|█████▋    | 9703/16950 [1:45:59<1:13:54,  1.63it/s]Training 2/3 epoch (loss 0.3126):  57%|█████▋    | 9704/16950 [1:45:59<1:13:38,  1.64it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9704/16950 [1:46:00<1:13:38,  1.64it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9705/16950 [1:46:00<1:14:03,  1.63it/s]Training 2/3 epoch (loss 0.0106):  57%|█████▋    | 9705/16950 [1:46:01<1:14:03,  1.63it/s]Training 2/3 epoch (loss 0.0106):  57%|█████▋    | 9706/16950 [1:46:01<1:17:44,  1.55it/s]Training 2/3 epoch (loss 0.0092):  57%|█████▋    | 9706/16950 [1:46:02<1:17:44,  1.55it/s]Training 2/3 epoch (loss 0.0092):  57%|█████▋    | 9707/16950 [1:46:02<1:20:04,  1.51it/s]Training 2/3 epoch (loss 0.0016):  57%|█████▋    | 9707/16950 [1:46:02<1:20:04,  1.51it/s]Training 2/3 epoch (loss 0.0016):  57%|█████▋    | 9708/16950 [1:46:02<1:15:36,  1.60it/s]Training 2/3 epoch (loss 0.0017):  57%|█████▋    | 9708/16950 [1:46:03<1:15:36,  1.60it/s]Training 2/3 epoch (loss 0.0017):  57%|█████▋    | 9709/16950 [1:46:03<1:10:03,  1.72it/s]Training 2/3 epoch (loss 0.0218):  57%|█████▋    | 9709/16950 [1:46:03<1:10:03,  1.72it/s]Training 2/3 epoch (loss 0.0218):  57%|█████▋    | 9710/16950 [1:46:03<1:04:40,  1.87it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9710/16950 [1:46:03<1:04:40,  1.87it/s]Training 2/3 epoch (loss 0.0001):  57%|█████▋    | 9711/16950 [1:46:03<58:11,  2.07it/s]  Training 2/3 epoch (loss 0.5073):  57%|█████▋    | 9711/16950 [1:46:04<58:11,  2.07it/s]Training 2/3 epoch (loss 0.5073):  57%|█████▋    | 9712/16950 [1:46:04<1:18:10,  1.54it/s]Training 2/3 epoch (loss 0.0578):  57%|█████▋    | 9712/16950 [1:46:05<1:18:10,  1.54it/s]Training 2/3 epoch (loss 0.0578):  57%|█████▋    | 9713/16950 [1:46:05<1:18:22,  1.54it/s]Training 2/3 epoch (loss 0.0624):  57%|█████▋    | 9713/16950 [1:46:06<1:18:22,  1.54it/s]Training 2/3 epoch (loss 0.0624):  57%|█████▋    | 9714/16950 [1:46:06<1:16:28,  1.58it/s]Training 2/3 epoch (loss 0.0209):  57%|█████▋    | 9714/16950 [1:46:06<1:16:28,  1.58it/s]Training 2/3 epoch (loss 0.0209):  57%|█████▋    | 9715/16950 [1:46:06<1:19:24,  1.52it/s]Training 2/3 epoch (loss 0.0012):  57%|█████▋    | 9715/16950 [1:46:07<1:19:24,  1.52it/s]Training 2/3 epoch (loss 0.0012):  57%|█████▋    | 9716/16950 [1:46:07<1:13:39,  1.64it/s]Training 2/3 epoch (loss 0.0006):  57%|█████▋    | 9716/16950 [1:46:07<1:13:39,  1.64it/s]Training 2/3 epoch (loss 0.0006):  57%|█████▋    | 9717/16950 [1:46:07<1:12:26,  1.66it/s]Training 2/3 epoch (loss 0.0183):  57%|█████▋    | 9717/16950 [1:46:08<1:12:26,  1.66it/s]Training 2/3 epoch (loss 0.0183):  57%|█████▋    | 9718/16950 [1:46:08<1:15:38,  1.59it/s]Training 2/3 epoch (loss 0.4071):  57%|█████▋    | 9718/16950 [1:46:09<1:15:38,  1.59it/s]Training 2/3 epoch (loss 0.4071):  57%|█████▋    | 9719/16950 [1:46:09<1:31:53,  1.31it/s]Training 2/3 epoch (loss 0.1645):  57%|█████▋    | 9719/16950 [1:46:10<1:31:53,  1.31it/s]Training 2/3 epoch (loss 0.1645):  57%|█████▋    | 9720/16950 [1:46:10<1:28:29,  1.36it/s]Training 2/3 epoch (loss 0.2912):  57%|█████▋    | 9720/16950 [1:46:10<1:28:29,  1.36it/s]Training 2/3 epoch (loss 0.2912):  57%|█████▋    | 9721/16950 [1:46:10<1:18:15,  1.54it/s]Training 2/3 epoch (loss 0.0066):  57%|█████▋    | 9721/16950 [1:46:11<1:18:15,  1.54it/s]Training 2/3 epoch (loss 0.0066):  57%|█████▋    | 9722/16950 [1:46:11<1:36:43,  1.25it/s]Training 2/3 epoch (loss 0.2331):  57%|█████▋    | 9722/16950 [1:46:12<1:36:43,  1.25it/s]Training 2/3 epoch (loss 0.2331):  57%|█████▋    | 9723/16950 [1:46:12<1:28:02,  1.37it/s]Training 2/3 epoch (loss 0.5496):  57%|█████▋    | 9723/16950 [1:46:13<1:28:02,  1.37it/s]Training 2/3 epoch (loss 0.5496):  57%|█████▋    | 9724/16950 [1:46:13<1:31:08,  1.32it/s]Training 2/3 epoch (loss 0.0037):  57%|█████▋    | 9724/16950 [1:46:13<1:31:08,  1.32it/s]Training 2/3 epoch (loss 0.0037):  57%|█████▋    | 9725/16950 [1:46:13<1:24:19,  1.43it/s]Training 2/3 epoch (loss 0.5146):  57%|█████▋    | 9725/16950 [1:46:14<1:24:19,  1.43it/s]Training 2/3 epoch (loss 0.5146):  57%|█████▋    | 9726/16950 [1:46:14<1:20:07,  1.50it/s]Training 2/3 epoch (loss 1.0864):  57%|█████▋    | 9726/16950 [1:46:15<1:20:07,  1.50it/s]Training 2/3 epoch (loss 1.0864):  57%|█████▋    | 9727/16950 [1:46:15<1:21:11,  1.48it/s]Training 2/3 epoch (loss 0.2483):  57%|█████▋    | 9727/16950 [1:46:15<1:21:11,  1.48it/s]Training 2/3 epoch (loss 0.2483):  57%|█████▋    | 9728/16950 [1:46:15<1:15:17,  1.60it/s]Training 2/3 epoch (loss 0.5438):  57%|█████▋    | 9728/16950 [1:46:16<1:15:17,  1.60it/s]Training 2/3 epoch (loss 0.5438):  57%|█████▋    | 9729/16950 [1:46:16<1:21:43,  1.47it/s]Training 2/3 epoch (loss 0.0910):  57%|█████▋    | 9729/16950 [1:46:17<1:21:43,  1.47it/s]Training 2/3 epoch (loss 0.0910):  57%|█████▋    | 9730/16950 [1:46:17<1:20:55,  1.49it/s]Training 2/3 epoch (loss 0.1030):  57%|█████▋    | 9730/16950 [1:46:17<1:20:55,  1.49it/s]Training 2/3 epoch (loss 0.1030):  57%|█████▋    | 9731/16950 [1:46:17<1:22:36,  1.46it/s]Training 2/3 epoch (loss 0.0908):  57%|█████▋    | 9731/16950 [1:46:18<1:22:36,  1.46it/s]Training 2/3 epoch (loss 0.0908):  57%|█████▋    | 9732/16950 [1:46:18<1:15:07,  1.60it/s]Training 2/3 epoch (loss 0.3496):  57%|█████▋    | 9732/16950 [1:46:18<1:15:07,  1.60it/s]Training 2/3 epoch (loss 0.3496):  57%|█████▋    | 9733/16950 [1:46:18<1:04:33,  1.86it/s]Training 2/3 epoch (loss 0.2904):  57%|█████▋    | 9733/16950 [1:46:19<1:04:33,  1.86it/s]Training 2/3 epoch (loss 0.2904):  57%|█████▋    | 9734/16950 [1:46:19<1:20:02,  1.50it/s]Training 2/3 epoch (loss 0.0633):  57%|█████▋    | 9734/16950 [1:46:20<1:20:02,  1.50it/s]Training 2/3 epoch (loss 0.0633):  57%|█████▋    | 9735/16950 [1:46:20<1:22:16,  1.46it/s]Training 2/3 epoch (loss 0.3695):  57%|█████▋    | 9735/16950 [1:46:21<1:22:16,  1.46it/s]Training 2/3 epoch (loss 0.3695):  57%|█████▋    | 9736/16950 [1:46:21<1:22:22,  1.46it/s]Training 2/3 epoch (loss 0.0065):  57%|█████▋    | 9736/16950 [1:46:22<1:22:22,  1.46it/s]Training 2/3 epoch (loss 0.0065):  57%|█████▋    | 9737/16950 [1:46:22<1:32:52,  1.29it/s]Training 2/3 epoch (loss 0.0012):  57%|█████▋    | 9737/16950 [1:46:22<1:32:52,  1.29it/s]Training 2/3 epoch (loss 0.0012):  57%|█████▋    | 9738/16950 [1:46:22<1:33:54,  1.28it/s]Training 2/3 epoch (loss 0.0027):  57%|█████▋    | 9738/16950 [1:46:23<1:33:54,  1.28it/s]Training 2/3 epoch (loss 0.0027):  57%|█████▋    | 9739/16950 [1:46:23<1:25:34,  1.40it/s]Training 2/3 epoch (loss 0.4745):  57%|█████▋    | 9739/16950 [1:46:24<1:25:34,  1.40it/s]Training 2/3 epoch (loss 0.4745):  57%|█████▋    | 9740/16950 [1:46:24<1:30:59,  1.32it/s]Training 2/3 epoch (loss 0.1931):  57%|█████▋    | 9740/16950 [1:46:25<1:30:59,  1.32it/s]Training 2/3 epoch (loss 0.1931):  57%|█████▋    | 9741/16950 [1:46:25<1:36:23,  1.25it/s]Training 2/3 epoch (loss 0.0032):  57%|█████▋    | 9741/16950 [1:46:25<1:36:23,  1.25it/s]Training 2/3 epoch (loss 0.0032):  57%|█████▋    | 9742/16950 [1:46:25<1:33:36,  1.28it/s]Training 2/3 epoch (loss 0.4670):  57%|█████▋    | 9742/16950 [1:46:26<1:33:36,  1.28it/s]Training 2/3 epoch (loss 0.4670):  57%|█████▋    | 9743/16950 [1:46:26<1:24:33,  1.42it/s]Training 2/3 epoch (loss 0.1016):  57%|█████▋    | 9743/16950 [1:46:26<1:24:33,  1.42it/s]Training 2/3 epoch (loss 0.1016):  57%|█████▋    | 9744/16950 [1:46:26<1:12:34,  1.65it/s]Training 2/3 epoch (loss 0.0017):  57%|█████▋    | 9744/16950 [1:46:27<1:12:34,  1.65it/s]Training 2/3 epoch (loss 0.0017):  57%|█████▋    | 9745/16950 [1:46:27<1:09:36,  1.73it/s]Training 2/3 epoch (loss 0.1421):  57%|█████▋    | 9745/16950 [1:46:27<1:09:36,  1.73it/s]Training 2/3 epoch (loss 0.1421):  57%|█████▋    | 9746/16950 [1:46:27<1:08:58,  1.74it/s]Training 2/3 epoch (loss 0.0156):  57%|█████▋    | 9746/16950 [1:46:28<1:08:58,  1.74it/s]Training 2/3 epoch (loss 0.0156):  58%|█████▊    | 9747/16950 [1:46:28<1:11:49,  1.67it/s]Training 2/3 epoch (loss 0.3598):  58%|█████▊    | 9747/16950 [1:46:28<1:11:49,  1.67it/s]Training 2/3 epoch (loss 0.3598):  58%|█████▊    | 9748/16950 [1:46:28<1:03:34,  1.89it/s]Training 2/3 epoch (loss 0.0572):  58%|█████▊    | 9748/16950 [1:46:29<1:03:34,  1.89it/s]Training 2/3 epoch (loss 0.0572):  58%|█████▊    | 9749/16950 [1:46:29<1:15:28,  1.59it/s]Training 2/3 epoch (loss 0.2174):  58%|█████▊    | 9749/16950 [1:46:30<1:15:28,  1.59it/s]Training 2/3 epoch (loss 0.2174):  58%|█████▊    | 9750/16950 [1:46:30<1:20:24,  1.49it/s]Training 2/3 epoch (loss 0.1106):  58%|█████▊    | 9750/16950 [1:46:31<1:20:24,  1.49it/s]Training 2/3 epoch (loss 0.1106):  58%|█████▊    | 9751/16950 [1:46:31<1:19:41,  1.51it/s]Training 2/3 epoch (loss 0.0144):  58%|█████▊    | 9751/16950 [1:46:31<1:19:41,  1.51it/s]Training 2/3 epoch (loss 0.0144):  58%|█████▊    | 9752/16950 [1:46:31<1:17:21,  1.55it/s]Training 2/3 epoch (loss 0.4772):  58%|█████▊    | 9752/16950 [1:46:32<1:17:21,  1.55it/s]Training 2/3 epoch (loss 0.4772):  58%|█████▊    | 9753/16950 [1:46:32<1:36:03,  1.25it/s]Training 2/3 epoch (loss 0.2701):  58%|█████▊    | 9753/16950 [1:46:33<1:36:03,  1.25it/s]Training 2/3 epoch (loss 0.2701):  58%|█████▊    | 9754/16950 [1:46:33<1:25:25,  1.40it/s]Training 2/3 epoch (loss 0.0604):  58%|█████▊    | 9754/16950 [1:46:34<1:25:25,  1.40it/s]Training 2/3 epoch (loss 0.0604):  58%|█████▊    | 9755/16950 [1:46:34<1:21:07,  1.48it/s]Training 2/3 epoch (loss 0.0017):  58%|█████▊    | 9755/16950 [1:46:34<1:21:07,  1.48it/s]Training 2/3 epoch (loss 0.0017):  58%|█████▊    | 9756/16950 [1:46:34<1:11:45,  1.67it/s]Training 2/3 epoch (loss 0.1221):  58%|█████▊    | 9756/16950 [1:46:34<1:11:45,  1.67it/s]Training 2/3 epoch (loss 0.1221):  58%|█████▊    | 9757/16950 [1:46:34<1:06:22,  1.81it/s]Training 2/3 epoch (loss 0.0006):  58%|█████▊    | 9757/16950 [1:46:35<1:06:22,  1.81it/s]Training 2/3 epoch (loss 0.0006):  58%|█████▊    | 9758/16950 [1:46:35<1:01:35,  1.95it/s]Training 2/3 epoch (loss 0.5440):  58%|█████▊    | 9758/16950 [1:46:36<1:01:35,  1.95it/s]Training 2/3 epoch (loss 0.5440):  58%|█████▊    | 9759/16950 [1:46:36<1:11:25,  1.68it/s]Training 2/3 epoch (loss 0.0003):  58%|█████▊    | 9759/16950 [1:46:36<1:11:25,  1.68it/s]Training 2/3 epoch (loss 0.0003):  58%|█████▊    | 9760/16950 [1:46:36<1:07:42,  1.77it/s]Training 2/3 epoch (loss 0.0112):  58%|█████▊    | 9760/16950 [1:46:37<1:07:42,  1.77it/s]Training 2/3 epoch (loss 0.0112):  58%|█████▊    | 9761/16950 [1:46:37<1:03:20,  1.89it/s]Training 2/3 epoch (loss 0.0989):  58%|█████▊    | 9761/16950 [1:46:37<1:03:20,  1.89it/s]Training 2/3 epoch (loss 0.0989):  58%|█████▊    | 9762/16950 [1:46:37<1:07:59,  1.76it/s]Training 2/3 epoch (loss 0.0181):  58%|█████▊    | 9762/16950 [1:46:38<1:07:59,  1.76it/s]Training 2/3 epoch (loss 0.0181):  58%|█████▊    | 9763/16950 [1:46:38<1:12:03,  1.66it/s]Training 2/3 epoch (loss 0.1717):  58%|█████▊    | 9763/16950 [1:46:39<1:12:03,  1.66it/s]Training 2/3 epoch (loss 0.1717):  58%|█████▊    | 9764/16950 [1:46:39<1:22:04,  1.46it/s]Training 2/3 epoch (loss 0.0093):  58%|█████▊    | 9764/16950 [1:46:39<1:22:04,  1.46it/s]Training 2/3 epoch (loss 0.0093):  58%|█████▊    | 9765/16950 [1:46:39<1:20:49,  1.48it/s]Training 2/3 epoch (loss 0.0031):  58%|█████▊    | 9765/16950 [1:46:40<1:20:49,  1.48it/s]Training 2/3 epoch (loss 0.0031):  58%|█████▊    | 9766/16950 [1:46:40<1:19:10,  1.51it/s]Training 2/3 epoch (loss 0.0091):  58%|█████▊    | 9766/16950 [1:46:40<1:19:10,  1.51it/s]Training 2/3 epoch (loss 0.0091):  58%|█████▊    | 9767/16950 [1:46:40<1:10:21,  1.70it/s]Training 2/3 epoch (loss 0.0001):  58%|█████▊    | 9767/16950 [1:46:41<1:10:21,  1.70it/s]Training 2/3 epoch (loss 0.0001):  58%|█████▊    | 9768/16950 [1:46:41<1:02:54,  1.90it/s]Training 2/3 epoch (loss 0.0035):  58%|█████▊    | 9768/16950 [1:46:41<1:02:54,  1.90it/s]Training 2/3 epoch (loss 0.0035):  58%|█████▊    | 9769/16950 [1:46:41<1:03:31,  1.88it/s]Training 2/3 epoch (loss 0.3317):  58%|█████▊    | 9769/16950 [1:46:42<1:03:31,  1.88it/s]Training 2/3 epoch (loss 0.3317):  58%|█████▊    | 9770/16950 [1:46:42<1:10:07,  1.71it/s]Training 2/3 epoch (loss 0.1275):  58%|█████▊    | 9770/16950 [1:46:43<1:10:07,  1.71it/s]Training 2/3 epoch (loss 0.1275):  58%|█████▊    | 9771/16950 [1:46:43<1:15:22,  1.59it/s]Training 2/3 epoch (loss 0.0620):  58%|█████▊    | 9771/16950 [1:46:44<1:15:22,  1.59it/s]Training 2/3 epoch (loss 0.0620):  58%|█████▊    | 9772/16950 [1:46:44<1:21:18,  1.47it/s]Training 2/3 epoch (loss 0.0028):  58%|█████▊    | 9772/16950 [1:46:45<1:21:18,  1.47it/s]Training 2/3 epoch (loss 0.0028):  58%|█████▊    | 9773/16950 [1:46:45<1:38:55,  1.21it/s]Training 2/3 epoch (loss 0.0003):  58%|█████▊    | 9773/16950 [1:46:45<1:38:55,  1.21it/s]Training 2/3 epoch (loss 0.0003):  58%|█████▊    | 9774/16950 [1:46:45<1:21:28,  1.47it/s]Training 2/3 epoch (loss 0.3906):  58%|█████▊    | 9774/16950 [1:46:46<1:21:28,  1.47it/s]Training 2/3 epoch (loss 0.3906):  58%|█████▊    | 9775/16950 [1:46:46<1:28:10,  1.36it/s]Training 2/3 epoch (loss 0.5217):  58%|█████▊    | 9775/16950 [1:46:47<1:28:10,  1.36it/s]Training 2/3 epoch (loss 0.5217):  58%|█████▊    | 9776/16950 [1:46:47<1:38:20,  1.22it/s]Training 2/3 epoch (loss 0.4529):  58%|█████▊    | 9776/16950 [1:46:48<1:38:20,  1.22it/s]Training 2/3 epoch (loss 0.4529):  58%|█████▊    | 9777/16950 [1:46:48<1:32:17,  1.30it/s]Training 2/3 epoch (loss 0.2944):  58%|█████▊    | 9777/16950 [1:46:48<1:32:17,  1.30it/s]Training 2/3 epoch (loss 0.2944):  58%|█████▊    | 9778/16950 [1:46:48<1:23:00,  1.44it/s]Training 2/3 epoch (loss 0.0420):  58%|█████▊    | 9778/16950 [1:46:49<1:23:00,  1.44it/s]Training 2/3 epoch (loss 0.0420):  58%|█████▊    | 9779/16950 [1:46:49<1:16:00,  1.57it/s]Training 2/3 epoch (loss 0.5441):  58%|█████▊    | 9779/16950 [1:46:49<1:16:00,  1.57it/s]Training 2/3 epoch (loss 0.5441):  58%|█████▊    | 9780/16950 [1:46:49<1:11:38,  1.67it/s]Training 2/3 epoch (loss 0.0010):  58%|█████▊    | 9780/16950 [1:46:50<1:11:38,  1.67it/s]Training 2/3 epoch (loss 0.0010):  58%|█████▊    | 9781/16950 [1:46:50<1:04:31,  1.85it/s]Training 2/3 epoch (loss 0.2416):  58%|█████▊    | 9781/16950 [1:46:50<1:04:31,  1.85it/s]Training 2/3 epoch (loss 0.2416):  58%|█████▊    | 9782/16950 [1:46:50<57:52,  2.06it/s]  Training 2/3 epoch (loss 0.0076):  58%|█████▊    | 9782/16950 [1:46:51<57:52,  2.06it/s]Training 2/3 epoch (loss 0.0076):  58%|█████▊    | 9783/16950 [1:46:51<1:02:32,  1.91it/s]Training 2/3 epoch (loss 0.0173):  58%|█████▊    | 9783/16950 [1:46:51<1:02:32,  1.91it/s]Training 2/3 epoch (loss 0.0173):  58%|█████▊    | 9784/16950 [1:46:51<1:08:13,  1.75it/s]Training 2/3 epoch (loss 0.0011):  58%|█████▊    | 9784/16950 [1:46:52<1:08:13,  1.75it/s]Training 2/3 epoch (loss 0.0011):  58%|█████▊    | 9785/16950 [1:46:52<1:08:50,  1.73it/s]Training 2/3 epoch (loss 0.2619):  58%|█████▊    | 9785/16950 [1:46:52<1:08:50,  1.73it/s]Training 2/3 epoch (loss 0.2619):  58%|█████▊    | 9786/16950 [1:46:52<1:09:28,  1.72it/s]Training 2/3 epoch (loss 0.1180):  58%|█████▊    | 9786/16950 [1:46:53<1:09:28,  1.72it/s]Training 2/3 epoch (loss 0.1180):  58%|█████▊    | 9787/16950 [1:46:53<1:07:59,  1.76it/s]Training 2/3 epoch (loss 0.6562):  58%|█████▊    | 9787/16950 [1:46:54<1:07:59,  1.76it/s]Training 2/3 epoch (loss 0.6562):  58%|█████▊    | 9788/16950 [1:46:54<1:06:52,  1.79it/s]Training 2/3 epoch (loss 0.0080):  58%|█████▊    | 9788/16950 [1:46:54<1:06:52,  1.79it/s]Training 2/3 epoch (loss 0.0080):  58%|█████▊    | 9789/16950 [1:46:54<1:05:21,  1.83it/s]Training 2/3 epoch (loss 0.2198):  58%|█████▊    | 9789/16950 [1:46:55<1:05:21,  1.83it/s]Training 2/3 epoch (loss 0.2198):  58%|█████▊    | 9790/16950 [1:46:55<1:02:28,  1.91it/s]Training 2/3 epoch (loss 0.4226):  58%|█████▊    | 9790/16950 [1:46:55<1:02:28,  1.91it/s]Training 2/3 epoch (loss 0.4226):  58%|█████▊    | 9791/16950 [1:46:55<1:06:16,  1.80it/s]Training 2/3 epoch (loss 0.0035):  58%|█████▊    | 9791/16950 [1:46:56<1:06:16,  1.80it/s]Training 2/3 epoch (loss 0.0035):  58%|█████▊    | 9792/16950 [1:46:56<1:10:37,  1.69it/s]Training 2/3 epoch (loss 0.0261):  58%|█████▊    | 9792/16950 [1:46:56<1:10:37,  1.69it/s]Training 2/3 epoch (loss 0.0261):  58%|█████▊    | 9793/16950 [1:46:56<1:06:51,  1.78it/s]Training 2/3 epoch (loss 0.0258):  58%|█████▊    | 9793/16950 [1:46:57<1:06:51,  1.78it/s]Training 2/3 epoch (loss 0.0258):  58%|█████▊    | 9794/16950 [1:46:57<1:04:39,  1.84it/s]Training 2/3 epoch (loss 0.1859):  58%|█████▊    | 9794/16950 [1:46:57<1:04:39,  1.84it/s]Training 2/3 epoch (loss 0.1859):  58%|█████▊    | 9795/16950 [1:46:57<1:01:38,  1.93it/s]Training 2/3 epoch (loss 0.0025):  58%|█████▊    | 9795/16950 [1:46:58<1:01:38,  1.93it/s]Training 2/3 epoch (loss 0.0025):  58%|█████▊    | 9796/16950 [1:46:58<1:04:52,  1.84it/s]Training 2/3 epoch (loss 0.0015):  58%|█████▊    | 9796/16950 [1:46:58<1:04:52,  1.84it/s]Training 2/3 epoch (loss 0.0015):  58%|█████▊    | 9797/16950 [1:46:58<1:01:49,  1.93it/s]Training 2/3 epoch (loss 0.0035):  58%|█████▊    | 9797/16950 [1:46:59<1:01:49,  1.93it/s]Training 2/3 epoch (loss 0.0035):  58%|█████▊    | 9798/16950 [1:46:59<56:21,  2.12it/s]  Training 2/3 epoch (loss 0.0630):  58%|█████▊    | 9798/16950 [1:46:59<56:21,  2.12it/s]Training 2/3 epoch (loss 0.0630):  58%|█████▊    | 9799/16950 [1:46:59<59:08,  2.02it/s]Training 2/3 epoch (loss 0.0258):  58%|█████▊    | 9799/16950 [1:47:00<59:08,  2.02it/s]Training 2/3 epoch (loss 0.0258):  58%|█████▊    | 9800/16950 [1:47:00<59:31,  2.00it/s]Training 2/3 epoch (loss 0.0086):  58%|█████▊    | 9800/16950 [1:47:00<59:31,  2.00it/s]Training 2/3 epoch (loss 0.0086):  58%|█████▊    | 9801/16950 [1:47:00<58:32,  2.04it/s]Training 2/3 epoch (loss 0.7705):  58%|█████▊    | 9801/16950 [1:47:01<58:32,  2.04it/s]Training 2/3 epoch (loss 0.7705):  58%|█████▊    | 9802/16950 [1:47:01<1:00:30,  1.97it/s]Training 2/3 epoch (loss 0.0839):  58%|█████▊    | 9802/16950 [1:47:01<1:00:30,  1.97it/s]Training 2/3 epoch (loss 0.0839):  58%|█████▊    | 9803/16950 [1:47:01<1:00:03,  1.98it/s]Training 2/3 epoch (loss 0.1063):  58%|█████▊    | 9803/16950 [1:47:02<1:00:03,  1.98it/s]Training 2/3 epoch (loss 0.1063):  58%|█████▊    | 9804/16950 [1:47:02<1:05:02,  1.83it/s]Training 2/3 epoch (loss 0.4553):  58%|█████▊    | 9804/16950 [1:47:03<1:05:02,  1.83it/s]Training 2/3 epoch (loss 0.4553):  58%|█████▊    | 9805/16950 [1:47:03<1:17:04,  1.54it/s]Training 2/3 epoch (loss 0.0098):  58%|█████▊    | 9805/16950 [1:47:03<1:17:04,  1.54it/s]Training 2/3 epoch (loss 0.0098):  58%|█████▊    | 9806/16950 [1:47:03<1:14:41,  1.59it/s]Training 2/3 epoch (loss 0.0482):  58%|█████▊    | 9806/16950 [1:47:04<1:14:41,  1.59it/s]Training 2/3 epoch (loss 0.0482):  58%|█████▊    | 9807/16950 [1:47:04<1:11:04,  1.68it/s]Training 2/3 epoch (loss 0.1506):  58%|█████▊    | 9807/16950 [1:47:04<1:11:04,  1.68it/s]Training 2/3 epoch (loss 0.1506):  58%|█████▊    | 9808/16950 [1:47:04<1:07:24,  1.77it/s]Training 2/3 epoch (loss 0.5117):  58%|█████▊    | 9808/16950 [1:47:05<1:07:24,  1.77it/s]Training 2/3 epoch (loss 0.5117):  58%|█████▊    | 9809/16950 [1:47:05<1:01:26,  1.94it/s]Training 2/3 epoch (loss 0.1083):  58%|█████▊    | 9809/16950 [1:47:06<1:01:26,  1.94it/s]Training 2/3 epoch (loss 0.1083):  58%|█████▊    | 9810/16950 [1:47:06<1:12:42,  1.64it/s]Training 2/3 epoch (loss 0.0104):  58%|█████▊    | 9810/16950 [1:47:06<1:12:42,  1.64it/s]Training 2/3 epoch (loss 0.0104):  58%|█████▊    | 9811/16950 [1:47:06<1:10:42,  1.68it/s]Training 2/3 epoch (loss 0.0147):  58%|█████▊    | 9811/16950 [1:47:07<1:10:42,  1.68it/s]Training 2/3 epoch (loss 0.0147):  58%|█████▊    | 9812/16950 [1:47:07<1:10:43,  1.68it/s]Training 2/3 epoch (loss 0.2724):  58%|█████▊    | 9812/16950 [1:47:07<1:10:43,  1.68it/s]Training 2/3 epoch (loss 0.2724):  58%|█████▊    | 9813/16950 [1:47:07<1:10:04,  1.70it/s]Training 2/3 epoch (loss 0.1771):  58%|█████▊    | 9813/16950 [1:47:08<1:10:04,  1.70it/s]Training 2/3 epoch (loss 0.1771):  58%|█████▊    | 9814/16950 [1:47:08<1:01:35,  1.93it/s]Training 2/3 epoch (loss 0.0256):  58%|█████▊    | 9814/16950 [1:47:08<1:01:35,  1.93it/s]Training 2/3 epoch (loss 0.0256):  58%|█████▊    | 9815/16950 [1:47:08<1:05:43,  1.81it/s]Training 2/3 epoch (loss 0.6212):  58%|█████▊    | 9815/16950 [1:47:09<1:05:43,  1.81it/s]Training 2/3 epoch (loss 0.6212):  58%|█████▊    | 9816/16950 [1:47:09<1:05:29,  1.82it/s]Training 2/3 epoch (loss 0.4058):  58%|█████▊    | 9816/16950 [1:47:09<1:05:29,  1.82it/s]Training 2/3 epoch (loss 0.4058):  58%|█████▊    | 9817/16950 [1:47:09<1:02:11,  1.91it/s]Training 2/3 epoch (loss 0.0027):  58%|█████▊    | 9817/16950 [1:47:10<1:02:11,  1.91it/s]Training 2/3 epoch (loss 0.0027):  58%|█████▊    | 9818/16950 [1:47:10<57:47,  2.06it/s]  Training 2/3 epoch (loss 0.3718):  58%|█████▊    | 9818/16950 [1:47:11<57:47,  2.06it/s]Training 2/3 epoch (loss 0.3718):  58%|█████▊    | 9819/16950 [1:47:11<1:08:15,  1.74it/s]Training 2/3 epoch (loss 0.0384):  58%|█████▊    | 9819/16950 [1:47:12<1:08:15,  1.74it/s]Training 2/3 epoch (loss 0.0384):  58%|█████▊    | 9820/16950 [1:47:12<1:22:31,  1.44it/s]Training 2/3 epoch (loss 0.0131):  58%|█████▊    | 9820/16950 [1:47:12<1:22:31,  1.44it/s]Training 2/3 epoch (loss 0.0131):  58%|█████▊    | 9821/16950 [1:47:12<1:19:10,  1.50it/s]Training 2/3 epoch (loss 0.0182):  58%|█████▊    | 9821/16950 [1:47:13<1:19:10,  1.50it/s]Training 2/3 epoch (loss 0.0182):  58%|█████▊    | 9822/16950 [1:47:13<1:18:18,  1.52it/s]Training 2/3 epoch (loss 0.0390):  58%|█████▊    | 9822/16950 [1:47:13<1:18:18,  1.52it/s]Training 2/3 epoch (loss 0.0390):  58%|█████▊    | 9823/16950 [1:47:13<1:10:28,  1.69it/s]Training 2/3 epoch (loss 0.0012):  58%|█████▊    | 9823/16950 [1:47:14<1:10:28,  1.69it/s]Training 2/3 epoch (loss 0.0012):  58%|█████▊    | 9824/16950 [1:47:14<1:05:29,  1.81it/s]Training 2/3 epoch (loss 0.0027):  58%|█████▊    | 9824/16950 [1:47:14<1:05:29,  1.81it/s]Training 2/3 epoch (loss 0.0027):  58%|█████▊    | 9825/16950 [1:47:14<1:09:24,  1.71it/s]Training 2/3 epoch (loss nan):  58%|█████▊    | 9825/16950 [1:47:15<1:09:24,  1.71it/s]   Training 2/3 epoch (loss nan):  58%|█████▊    | 9826/16950 [1:47:15<1:28:56,  1.34it/s]Training 2/3 epoch (loss 0.1016):  58%|█████▊    | 9826/16950 [1:47:16<1:28:56,  1.34it/s]Training 2/3 epoch (loss 0.1016):  58%|█████▊    | 9827/16950 [1:47:16<1:27:33,  1.36it/s]Training 2/3 epoch (loss 0.0071):  58%|█████▊    | 9827/16950 [1:47:17<1:27:33,  1.36it/s]Training 2/3 epoch (loss 0.0071):  58%|█████▊    | 9828/16950 [1:47:17<1:17:56,  1.52it/s]Training 2/3 epoch (loss 0.0003):  58%|█████▊    | 9828/16950 [1:47:17<1:17:56,  1.52it/s]Training 2/3 epoch (loss 0.0003):  58%|█████▊    | 9829/16950 [1:47:17<1:16:08,  1.56it/s]Training 2/3 epoch (loss 0.0086):  58%|█████▊    | 9829/16950 [1:47:18<1:16:08,  1.56it/s]Training 2/3 epoch (loss 0.0086):  58%|█████▊    | 9830/16950 [1:47:18<1:10:10,  1.69it/s]Training 2/3 epoch (loss 0.0034):  58%|█████▊    | 9830/16950 [1:47:18<1:10:10,  1.69it/s]Training 2/3 epoch (loss 0.0034):  58%|█████▊    | 9831/16950 [1:47:18<1:03:43,  1.86it/s]Training 2/3 epoch (loss 0.1814):  58%|█████▊    | 9831/16950 [1:47:19<1:03:43,  1.86it/s]Training 2/3 epoch (loss 0.1814):  58%|█████▊    | 9832/16950 [1:47:19<1:05:07,  1.82it/s]Training 2/3 epoch (loss 0.2666):  58%|█████▊    | 9832/16950 [1:47:19<1:05:07,  1.82it/s]Training 2/3 epoch (loss 0.2666):  58%|█████▊    | 9833/16950 [1:47:19<1:03:38,  1.86it/s]Training 2/3 epoch (loss 0.4853):  58%|█████▊    | 9833/16950 [1:47:20<1:03:38,  1.86it/s]Training 2/3 epoch (loss 0.4853):  58%|█████▊    | 9834/16950 [1:47:20<1:03:09,  1.88it/s]Training 2/3 epoch (loss 0.0222):  58%|█████▊    | 9834/16950 [1:47:20<1:03:09,  1.88it/s]Training 2/3 epoch (loss 0.0222):  58%|█████▊    | 9835/16950 [1:47:20<58:45,  2.02it/s]  Training 2/3 epoch (loss 0.0003):  58%|█████▊    | 9835/16950 [1:47:21<58:45,  2.02it/s]Training 2/3 epoch (loss 0.0003):  58%|█████▊    | 9836/16950 [1:47:21<54:35,  2.17it/s]Training 2/3 epoch (loss 0.0111):  58%|█████▊    | 9836/16950 [1:47:21<54:35,  2.17it/s]Training 2/3 epoch (loss 0.0111):  58%|█████▊    | 9837/16950 [1:47:21<57:53,  2.05it/s]Training 2/3 epoch (loss 0.0450):  58%|█████▊    | 9837/16950 [1:47:22<57:53,  2.05it/s]Training 2/3 epoch (loss 0.0450):  58%|█████▊    | 9838/16950 [1:47:22<1:01:38,  1.92it/s]Training 2/3 epoch (loss 0.4526):  58%|█████▊    | 9838/16950 [1:47:22<1:01:38,  1.92it/s]Training 2/3 epoch (loss 0.4526):  58%|█████▊    | 9839/16950 [1:47:22<58:02,  2.04it/s]  Training 2/3 epoch (loss 0.0058):  58%|█████▊    | 9839/16950 [1:47:23<58:02,  2.04it/s]Training 2/3 epoch (loss 0.0058):  58%|█████▊    | 9840/16950 [1:47:23<57:27,  2.06it/s]Training 2/3 epoch (loss 0.0065):  58%|█████▊    | 9840/16950 [1:47:23<57:27,  2.06it/s]Training 2/3 epoch (loss 0.0065):  58%|█████▊    | 9841/16950 [1:47:23<52:11,  2.27it/s]Training 2/3 epoch (loss 0.3425):  58%|█████▊    | 9841/16950 [1:47:24<52:11,  2.27it/s]Training 2/3 epoch (loss 0.3425):  58%|█████▊    | 9842/16950 [1:47:24<1:06:27,  1.78it/s]Training 2/3 epoch (loss 0.0369):  58%|█████▊    | 9842/16950 [1:47:24<1:06:27,  1.78it/s]Training 2/3 epoch (loss 0.0369):  58%|█████▊    | 9843/16950 [1:47:24<1:05:38,  1.80it/s]Training 2/3 epoch (loss 0.0491):  58%|█████▊    | 9843/16950 [1:47:25<1:05:38,  1.80it/s]Training 2/3 epoch (loss 0.0491):  58%|█████▊    | 9844/16950 [1:47:25<1:04:51,  1.83it/s]Training 2/3 epoch (loss 0.1188):  58%|█████▊    | 9844/16950 [1:47:25<1:04:51,  1.83it/s]Training 2/3 epoch (loss 0.1188):  58%|█████▊    | 9845/16950 [1:47:25<1:00:06,  1.97it/s]Training 2/3 epoch (loss 0.4885):  58%|█████▊    | 9845/16950 [1:47:26<1:00:06,  1.97it/s]Training 2/3 epoch (loss 0.4885):  58%|█████▊    | 9846/16950 [1:47:26<1:04:54,  1.82it/s]Training 2/3 epoch (loss 0.0658):  58%|█████▊    | 9846/16950 [1:47:26<1:04:54,  1.82it/s]Training 2/3 epoch (loss 0.0658):  58%|█████▊    | 9847/16950 [1:47:26<1:05:40,  1.80it/s]Training 2/3 epoch (loss 0.0032):  58%|█████▊    | 9847/16950 [1:47:27<1:05:40,  1.80it/s]Training 2/3 epoch (loss 0.0032):  58%|█████▊    | 9848/16950 [1:47:27<1:02:17,  1.90it/s]Training 2/3 epoch (loss 0.1074):  58%|█████▊    | 9848/16950 [1:47:28<1:02:17,  1.90it/s]Training 2/3 epoch (loss 0.1074):  58%|█████▊    | 9849/16950 [1:47:28<1:20:28,  1.47it/s]Training 2/3 epoch (loss 0.4766):  58%|█████▊    | 9849/16950 [1:47:29<1:20:28,  1.47it/s]Training 2/3 epoch (loss 0.4766):  58%|█████▊    | 9850/16950 [1:47:29<1:33:41,  1.26it/s]Training 2/3 epoch (loss 0.0503):  58%|█████▊    | 9850/16950 [1:47:30<1:33:41,  1.26it/s]Training 2/3 epoch (loss 0.0503):  58%|█████▊    | 9851/16950 [1:47:30<1:35:40,  1.24it/s]Training 2/3 epoch (loss 0.1554):  58%|█████▊    | 9851/16950 [1:47:30<1:35:40,  1.24it/s]Training 2/3 epoch (loss 0.1554):  58%|█████▊    | 9852/16950 [1:47:30<1:25:51,  1.38it/s]Training 2/3 epoch (loss 0.0106):  58%|█████▊    | 9852/16950 [1:47:31<1:25:51,  1.38it/s]Training 2/3 epoch (loss 0.0106):  58%|█████▊    | 9853/16950 [1:47:31<1:13:42,  1.60it/s]Training 2/3 epoch (loss 0.0003):  58%|█████▊    | 9853/16950 [1:47:31<1:13:42,  1.60it/s]Training 2/3 epoch (loss 0.0003):  58%|█████▊    | 9854/16950 [1:47:31<1:13:50,  1.60it/s]Training 2/3 epoch (loss 0.3655):  58%|█████▊    | 9854/16950 [1:47:32<1:13:50,  1.60it/s]Training 2/3 epoch (loss 0.3655):  58%|█████▊    | 9855/16950 [1:47:32<1:21:27,  1.45it/s]Training 2/3 epoch (loss 0.0059):  58%|█████▊    | 9855/16950 [1:47:33<1:21:27,  1.45it/s]Training 2/3 epoch (loss 0.0059):  58%|█████▊    | 9856/16950 [1:47:33<1:16:13,  1.55it/s]Training 2/3 epoch (loss 0.0540):  58%|█████▊    | 9856/16950 [1:47:33<1:16:13,  1.55it/s]Training 2/3 epoch (loss 0.0540):  58%|█████▊    | 9857/16950 [1:47:33<1:15:32,  1.56it/s]Training 2/3 epoch (loss 0.0862):  58%|█████▊    | 9857/16950 [1:47:34<1:15:32,  1.56it/s]Training 2/3 epoch (loss 0.0862):  58%|█████▊    | 9858/16950 [1:47:34<1:19:39,  1.48it/s]Training 2/3 epoch (loss 0.5090):  58%|█████▊    | 9858/16950 [1:47:35<1:19:39,  1.48it/s]Training 2/3 epoch (loss 0.5090):  58%|█████▊    | 9859/16950 [1:47:35<1:21:50,  1.44it/s]Training 2/3 epoch (loss 0.1088):  58%|█████▊    | 9859/16950 [1:47:35<1:21:50,  1.44it/s]Training 2/3 epoch (loss 0.1088):  58%|█████▊    | 9860/16950 [1:47:35<1:14:55,  1.58it/s]Training 2/3 epoch (loss 0.0433):  58%|█████▊    | 9860/16950 [1:47:36<1:14:55,  1.58it/s]Training 2/3 epoch (loss 0.0433):  58%|█████▊    | 9861/16950 [1:47:36<1:06:06,  1.79it/s]Training 2/3 epoch (loss 0.0235):  58%|█████▊    | 9861/16950 [1:47:36<1:06:06,  1.79it/s]Training 2/3 epoch (loss 0.0235):  58%|█████▊    | 9862/16950 [1:47:36<1:05:58,  1.79it/s]Training 2/3 epoch (loss 0.0189):  58%|█████▊    | 9862/16950 [1:47:37<1:05:58,  1.79it/s]Training 2/3 epoch (loss 0.0189):  58%|█████▊    | 9863/16950 [1:47:37<1:10:00,  1.69it/s]Training 2/3 epoch (loss 0.0125):  58%|█████▊    | 9863/16950 [1:47:37<1:10:00,  1.69it/s]Training 2/3 epoch (loss 0.0125):  58%|█████▊    | 9864/16950 [1:47:37<1:05:54,  1.79it/s]Training 2/3 epoch (loss 0.4992):  58%|█████▊    | 9864/16950 [1:47:38<1:05:54,  1.79it/s]Training 2/3 epoch (loss 0.4992):  58%|█████▊    | 9865/16950 [1:47:38<1:08:06,  1.73it/s]Training 2/3 epoch (loss 0.4702):  58%|█████▊    | 9865/16950 [1:47:39<1:08:06,  1.73it/s]Training 2/3 epoch (loss 0.4702):  58%|█████▊    | 9866/16950 [1:47:39<1:08:54,  1.71it/s]Training 2/3 epoch (loss 0.0137):  58%|█████▊    | 9866/16950 [1:47:39<1:08:54,  1.71it/s]Training 2/3 epoch (loss 0.0137):  58%|█████▊    | 9867/16950 [1:47:39<1:03:40,  1.85it/s]Training 2/3 epoch (loss 0.0393):  58%|█████▊    | 9867/16950 [1:47:40<1:03:40,  1.85it/s]Training 2/3 epoch (loss 0.0393):  58%|█████▊    | 9868/16950 [1:47:40<1:07:37,  1.75it/s]Training 2/3 epoch (loss 0.2927):  58%|█████▊    | 9868/16950 [1:47:40<1:07:37,  1.75it/s]Training 2/3 epoch (loss 0.2927):  58%|█████▊    | 9869/16950 [1:47:40<1:03:38,  1.85it/s]Training 2/3 epoch (loss 0.3428):  58%|█████▊    | 9869/16950 [1:47:41<1:03:38,  1.85it/s]Training 2/3 epoch (loss 0.3428):  58%|█████▊    | 9870/16950 [1:47:41<1:03:25,  1.86it/s]Training 2/3 epoch (loss 0.1040):  58%|█████▊    | 9870/16950 [1:47:41<1:03:25,  1.86it/s]Training 2/3 epoch (loss 0.1040):  58%|█████▊    | 9871/16950 [1:47:41<1:02:25,  1.89it/s]Training 2/3 epoch (loss 0.3447):  58%|█████▊    | 9871/16950 [1:47:42<1:02:25,  1.89it/s]Training 2/3 epoch (loss 0.3447):  58%|█████▊    | 9872/16950 [1:47:42<1:09:10,  1.71it/s]Training 2/3 epoch (loss 0.0055):  58%|█████▊    | 9872/16950 [1:47:43<1:09:10,  1.71it/s]Training 2/3 epoch (loss 0.0055):  58%|█████▊    | 9873/16950 [1:47:43<1:09:05,  1.71it/s]Training 2/3 epoch (loss 0.5328):  58%|█████▊    | 9873/16950 [1:47:43<1:09:05,  1.71it/s]Training 2/3 epoch (loss 0.5328):  58%|█████▊    | 9874/16950 [1:47:43<1:03:27,  1.86it/s]Training 2/3 epoch (loss 0.4923):  58%|█████▊    | 9874/16950 [1:47:44<1:03:27,  1.86it/s]Training 2/3 epoch (loss 0.4923):  58%|█████▊    | 9875/16950 [1:47:44<1:25:19,  1.38it/s]Training 2/3 epoch (loss 0.0262):  58%|█████▊    | 9875/16950 [1:47:45<1:25:19,  1.38it/s]Training 2/3 epoch (loss 0.0262):  58%|█████▊    | 9876/16950 [1:47:45<1:17:15,  1.53it/s]Training 2/3 epoch (loss 0.0155):  58%|█████▊    | 9876/16950 [1:47:45<1:17:15,  1.53it/s]Training 2/3 epoch (loss 0.0155):  58%|█████▊    | 9877/16950 [1:47:45<1:20:51,  1.46it/s]Training 2/3 epoch (loss 0.2945):  58%|█████▊    | 9877/16950 [1:47:46<1:20:51,  1.46it/s]Training 2/3 epoch (loss 0.2945):  58%|█████▊    | 9878/16950 [1:47:46<1:14:53,  1.57it/s]Training 2/3 epoch (loss 0.0350):  58%|█████▊    | 9878/16950 [1:47:46<1:14:53,  1.57it/s]Training 2/3 epoch (loss 0.0350):  58%|█████▊    | 9879/16950 [1:47:46<1:10:23,  1.67it/s]Training 2/3 epoch (loss 0.0260):  58%|█████▊    | 9879/16950 [1:47:47<1:10:23,  1.67it/s]Training 2/3 epoch (loss 0.0260):  58%|█████▊    | 9880/16950 [1:47:47<1:09:23,  1.70it/s]Training 2/3 epoch (loss 0.4190):  58%|█████▊    | 9880/16950 [1:47:47<1:09:23,  1.70it/s]Training 2/3 epoch (loss 0.4190):  58%|█████▊    | 9881/16950 [1:47:47<1:04:54,  1.82it/s]Training 2/3 epoch (loss 0.2193):  58%|█████▊    | 9881/16950 [1:47:48<1:04:54,  1.82it/s]Training 2/3 epoch (loss 0.2193):  58%|█████▊    | 9882/16950 [1:47:48<1:06:26,  1.77it/s]Training 2/3 epoch (loss 0.0015):  58%|█████▊    | 9882/16950 [1:47:48<1:06:26,  1.77it/s]Training 2/3 epoch (loss 0.0015):  58%|█████▊    | 9883/16950 [1:47:48<1:01:36,  1.91it/s]Training 2/3 epoch (loss 0.0634):  58%|█████▊    | 9883/16950 [1:47:49<1:01:36,  1.91it/s]Training 2/3 epoch (loss 0.0634):  58%|█████▊    | 9884/16950 [1:47:49<1:11:29,  1.65it/s]Training 2/3 epoch (loss 0.2616):  58%|█████▊    | 9884/16950 [1:47:50<1:11:29,  1.65it/s]Training 2/3 epoch (loss 0.2616):  58%|█████▊    | 9885/16950 [1:47:50<1:16:19,  1.54it/s]Training 2/3 epoch (loss 0.4870):  58%|█████▊    | 9885/16950 [1:47:50<1:16:19,  1.54it/s]Training 2/3 epoch (loss 0.4870):  58%|█████▊    | 9886/16950 [1:47:50<1:05:51,  1.79it/s]Training 2/3 epoch (loss 0.0380):  58%|█████▊    | 9886/16950 [1:47:51<1:05:51,  1.79it/s]Training 2/3 epoch (loss 0.0380):  58%|█████▊    | 9887/16950 [1:47:51<1:07:14,  1.75it/s]Training 2/3 epoch (loss 0.4873):  58%|█████▊    | 9887/16950 [1:47:51<1:07:14,  1.75it/s]Training 2/3 epoch (loss 0.4873):  58%|█████▊    | 9888/16950 [1:47:51<59:55,  1.96it/s]  Training 2/3 epoch (loss 0.0144):  58%|█████▊    | 9888/16950 [1:47:52<59:55,  1.96it/s]Training 2/3 epoch (loss 0.0144):  58%|█████▊    | 9889/16950 [1:47:52<1:02:04,  1.90it/s]Training 2/3 epoch (loss 0.6200):  58%|█████▊    | 9889/16950 [1:47:53<1:02:04,  1.90it/s]Training 2/3 epoch (loss 0.6200):  58%|█████▊    | 9890/16950 [1:47:53<1:12:35,  1.62it/s]Training 2/3 epoch (loss 0.0002):  58%|█████▊    | 9890/16950 [1:47:53<1:12:35,  1.62it/s]Training 2/3 epoch (loss 0.0002):  58%|█████▊    | 9891/16950 [1:47:53<1:08:54,  1.71it/s]Training 2/3 epoch (loss 0.5240):  58%|█████▊    | 9891/16950 [1:47:54<1:08:54,  1.71it/s]Training 2/3 epoch (loss 0.5240):  58%|█████▊    | 9892/16950 [1:47:54<1:17:11,  1.52it/s]Training 2/3 epoch (loss 0.0067):  58%|█████▊    | 9892/16950 [1:47:55<1:17:11,  1.52it/s]Training 2/3 epoch (loss 0.0067):  58%|█████▊    | 9893/16950 [1:47:55<1:17:16,  1.52it/s]Training 2/3 epoch (loss 0.0150):  58%|█████▊    | 9893/16950 [1:47:56<1:17:16,  1.52it/s]Training 2/3 epoch (loss 0.0150):  58%|█████▊    | 9894/16950 [1:47:56<1:30:04,  1.31it/s]Training 2/3 epoch (loss 0.4023):  58%|█████▊    | 9894/16950 [1:47:57<1:30:04,  1.31it/s]Training 2/3 epoch (loss 0.4023):  58%|█████▊    | 9895/16950 [1:47:57<1:38:06,  1.20it/s]Training 2/3 epoch (loss 0.3397):  58%|█████▊    | 9895/16950 [1:47:57<1:38:06,  1.20it/s]Training 2/3 epoch (loss 0.3397):  58%|█████▊    | 9896/16950 [1:47:57<1:27:02,  1.35it/s]Training 2/3 epoch (loss 0.0097):  58%|█████▊    | 9896/16950 [1:47:58<1:27:02,  1.35it/s]Training 2/3 epoch (loss 0.0097):  58%|█████▊    | 9897/16950 [1:47:58<1:14:17,  1.58it/s]Training 2/3 epoch (loss 0.0028):  58%|█████▊    | 9897/16950 [1:47:58<1:14:17,  1.58it/s]Training 2/3 epoch (loss 0.0028):  58%|█████▊    | 9898/16950 [1:47:58<1:15:05,  1.57it/s]Training 2/3 epoch (loss 0.0001):  58%|█████▊    | 9898/16950 [1:47:59<1:15:05,  1.57it/s]Training 2/3 epoch (loss 0.0001):  58%|█████▊    | 9899/16950 [1:47:59<1:09:19,  1.70it/s]Training 2/3 epoch (loss 0.1021):  58%|█████▊    | 9899/16950 [1:47:59<1:09:19,  1.70it/s]Training 2/3 epoch (loss 0.1021):  58%|█████▊    | 9900/16950 [1:47:59<1:11:08,  1.65it/s]Training 2/3 epoch (loss 0.4159):  58%|█████▊    | 9900/16950 [1:48:00<1:11:08,  1.65it/s]Training 2/3 epoch (loss 0.4159):  58%|█████▊    | 9901/16950 [1:48:00<1:19:37,  1.48it/s]Training 2/3 epoch (loss 0.1305):  58%|█████▊    | 9901/16950 [1:48:01<1:19:37,  1.48it/s]Training 2/3 epoch (loss 0.1305):  58%|█████▊    | 9902/16950 [1:48:01<1:16:59,  1.53it/s]Training 2/3 epoch (loss 0.2465):  58%|█████▊    | 9902/16950 [1:48:01<1:16:59,  1.53it/s]Training 2/3 epoch (loss 0.2465):  58%|█████▊    | 9903/16950 [1:48:01<1:05:53,  1.78it/s]Training 2/3 epoch (loss 0.0062):  58%|█████▊    | 9903/16950 [1:48:02<1:05:53,  1.78it/s]Training 2/3 epoch (loss 0.0062):  58%|█████▊    | 9904/16950 [1:48:02<1:06:07,  1.78it/s]Training 2/3 epoch (loss 0.2813):  58%|█████▊    | 9904/16950 [1:48:03<1:06:07,  1.78it/s]Training 2/3 epoch (loss 0.2813):  58%|█████▊    | 9905/16950 [1:48:03<1:12:03,  1.63it/s]Training 2/3 epoch (loss 0.3279):  58%|█████▊    | 9905/16950 [1:48:03<1:12:03,  1.63it/s]Training 2/3 epoch (loss 0.3279):  58%|█████▊    | 9906/16950 [1:48:03<1:17:22,  1.52it/s]Training 2/3 epoch (loss 0.0921):  58%|█████▊    | 9906/16950 [1:48:04<1:17:22,  1.52it/s]Training 2/3 epoch (loss 0.0921):  58%|█████▊    | 9907/16950 [1:48:04<1:13:40,  1.59it/s]Training 2/3 epoch (loss 0.0022):  58%|█████▊    | 9907/16950 [1:48:04<1:13:40,  1.59it/s]Training 2/3 epoch (loss 0.0022):  58%|█████▊    | 9908/16950 [1:48:04<1:06:37,  1.76it/s]Training 2/3 epoch (loss 0.0276):  58%|█████▊    | 9908/16950 [1:48:05<1:06:37,  1.76it/s]Training 2/3 epoch (loss 0.0276):  58%|█████▊    | 9909/16950 [1:48:05<1:03:00,  1.86it/s]Training 2/3 epoch (loss 0.4909):  58%|█████▊    | 9909/16950 [1:48:06<1:03:00,  1.86it/s]Training 2/3 epoch (loss 0.4909):  58%|█████▊    | 9910/16950 [1:48:06<1:24:57,  1.38it/s]Training 2/3 epoch (loss 0.0921):  58%|█████▊    | 9910/16950 [1:48:07<1:24:57,  1.38it/s]Training 2/3 epoch (loss 0.0921):  58%|█████▊    | 9911/16950 [1:48:07<1:25:36,  1.37it/s]Training 2/3 epoch (loss 0.0017):  58%|█████▊    | 9911/16950 [1:48:07<1:25:36,  1.37it/s]Training 2/3 epoch (loss 0.0017):  58%|█████▊    | 9912/16950 [1:48:07<1:16:16,  1.54it/s]Training 2/3 epoch (loss 0.0083):  58%|█████▊    | 9912/16950 [1:48:08<1:16:16,  1.54it/s]Training 2/3 epoch (loss 0.0083):  58%|█████▊    | 9913/16950 [1:48:08<1:10:45,  1.66it/s]Training 2/3 epoch (loss 0.7097):  58%|█████▊    | 9913/16950 [1:48:08<1:10:45,  1.66it/s]Training 2/3 epoch (loss 0.7097):  58%|█████▊    | 9914/16950 [1:48:08<1:13:07,  1.60it/s]Training 2/3 epoch (loss 0.2389):  58%|█████▊    | 9914/16950 [1:48:09<1:13:07,  1.60it/s]Training 2/3 epoch (loss 0.2389):  58%|█████▊    | 9915/16950 [1:48:09<1:05:57,  1.78it/s]Training 2/3 epoch (loss 0.0045):  58%|█████▊    | 9915/16950 [1:48:09<1:05:57,  1.78it/s]Training 2/3 epoch (loss 0.0045):  59%|█████▊    | 9916/16950 [1:48:09<1:06:29,  1.76it/s]Training 2/3 epoch (loss 0.0059):  59%|█████▊    | 9916/16950 [1:48:10<1:06:29,  1.76it/s]Training 2/3 epoch (loss 0.0059):  59%|█████▊    | 9917/16950 [1:48:10<1:04:42,  1.81it/s]Training 2/3 epoch (loss 0.3738):  59%|█████▊    | 9917/16950 [1:48:11<1:04:42,  1.81it/s]Training 2/3 epoch (loss 0.3738):  59%|█████▊    | 9918/16950 [1:48:11<1:19:56,  1.47it/s]Training 2/3 epoch (loss 0.3314):  59%|█████▊    | 9918/16950 [1:48:11<1:19:56,  1.47it/s]Training 2/3 epoch (loss 0.3314):  59%|█████▊    | 9919/16950 [1:48:11<1:16:44,  1.53it/s]Training 2/3 epoch (loss 0.0699):  59%|█████▊    | 9919/16950 [1:48:12<1:16:44,  1.53it/s]Training 2/3 epoch (loss 0.0699):  59%|█████▊    | 9920/16950 [1:48:12<1:13:33,  1.59it/s]Training 2/3 epoch (loss 0.3142):  59%|█████▊    | 9920/16950 [1:48:13<1:13:33,  1.59it/s]Training 2/3 epoch (loss 0.3142):  59%|█████▊    | 9921/16950 [1:48:13<1:14:41,  1.57it/s]Training 2/3 epoch (loss 0.0232):  59%|█████▊    | 9921/16950 [1:48:13<1:14:41,  1.57it/s]Training 2/3 epoch (loss 0.0232):  59%|█████▊    | 9922/16950 [1:48:13<1:10:26,  1.66it/s]Training 2/3 epoch (loss 0.2496):  59%|█████▊    | 9922/16950 [1:48:14<1:10:26,  1.66it/s]Training 2/3 epoch (loss 0.2496):  59%|█████▊    | 9923/16950 [1:48:14<1:11:33,  1.64it/s]Training 2/3 epoch (loss 0.0001):  59%|█████▊    | 9923/16950 [1:48:14<1:11:33,  1.64it/s]Training 2/3 epoch (loss 0.0001):  59%|█████▊    | 9924/16950 [1:48:14<1:06:28,  1.76it/s]Training 2/3 epoch (loss 0.0057):  59%|█████▊    | 9924/16950 [1:48:15<1:06:28,  1.76it/s]Training 2/3 epoch (loss 0.0057):  59%|█████▊    | 9925/16950 [1:48:15<1:03:21,  1.85it/s]Training 2/3 epoch (loss 0.0056):  59%|█████▊    | 9925/16950 [1:48:15<1:03:21,  1.85it/s]Training 2/3 epoch (loss 0.0056):  59%|█████▊    | 9926/16950 [1:48:15<1:01:44,  1.90it/s]Training 2/3 epoch (loss 0.0042):  59%|█████▊    | 9926/16950 [1:48:16<1:01:44,  1.90it/s]Training 2/3 epoch (loss 0.0042):  59%|█████▊    | 9927/16950 [1:48:16<1:00:09,  1.95it/s]Training 2/3 epoch (loss 0.1355):  59%|█████▊    | 9927/16950 [1:48:16<1:00:09,  1.95it/s]Training 2/3 epoch (loss 0.1355):  59%|█████▊    | 9928/16950 [1:48:16<1:00:42,  1.93it/s]Training 2/3 epoch (loss 0.0868):  59%|█████▊    | 9928/16950 [1:48:17<1:00:42,  1.93it/s]Training 2/3 epoch (loss 0.0868):  59%|█████▊    | 9929/16950 [1:48:17<58:29,  2.00it/s]  Training 2/3 epoch (loss 0.1794):  59%|█████▊    | 9929/16950 [1:48:17<58:29,  2.00it/s]Training 2/3 epoch (loss 0.1794):  59%|█████▊    | 9930/16950 [1:48:17<1:02:10,  1.88it/s]Training 2/3 epoch (loss 0.0060):  59%|█████▊    | 9930/16950 [1:48:18<1:02:10,  1.88it/s]Training 2/3 epoch (loss 0.0060):  59%|█████▊    | 9931/16950 [1:48:18<1:01:14,  1.91it/s]Training 2/3 epoch (loss 0.5248):  59%|█████▊    | 9931/16950 [1:48:19<1:01:14,  1.91it/s]Training 2/3 epoch (loss 0.5248):  59%|█████▊    | 9932/16950 [1:48:19<1:10:52,  1.65it/s]Training 2/3 epoch (loss 0.5561):  59%|█████▊    | 9932/16950 [1:48:19<1:10:52,  1.65it/s]Training 2/3 epoch (loss 0.5561):  59%|█████▊    | 9933/16950 [1:48:19<1:11:17,  1.64it/s]Training 2/3 epoch (loss 0.0018):  59%|█████▊    | 9933/16950 [1:48:20<1:11:17,  1.64it/s]Training 2/3 epoch (loss 0.0018):  59%|█████▊    | 9934/16950 [1:48:20<1:06:33,  1.76it/s]Training 2/3 epoch (loss 0.0002):  59%|█████▊    | 9934/16950 [1:48:20<1:06:33,  1.76it/s]Training 2/3 epoch (loss 0.0002):  59%|█████▊    | 9935/16950 [1:48:20<1:06:05,  1.77it/s]Training 2/3 epoch (loss 0.0000):  59%|█████▊    | 9935/16950 [1:48:21<1:06:05,  1.77it/s]Training 2/3 epoch (loss 0.0000):  59%|█████▊    | 9936/16950 [1:48:21<1:08:58,  1.69it/s]Training 2/3 epoch (loss 0.0016):  59%|█████▊    | 9936/16950 [1:48:21<1:08:58,  1.69it/s]Training 2/3 epoch (loss 0.0016):  59%|█████▊    | 9937/16950 [1:48:21<1:11:02,  1.65it/s]Training 2/3 epoch (loss 1.0119):  59%|█████▊    | 9937/16950 [1:48:22<1:11:02,  1.65it/s]Training 2/3 epoch (loss 1.0119):  59%|█████▊    | 9938/16950 [1:48:22<1:23:54,  1.39it/s]Training 2/3 epoch (loss 0.0002):  59%|█████▊    | 9938/16950 [1:48:23<1:23:54,  1.39it/s]Training 2/3 epoch (loss 0.0002):  59%|█████▊    | 9939/16950 [1:48:23<1:22:59,  1.41it/s]Training 2/3 epoch (loss 0.1224):  59%|█████▊    | 9939/16950 [1:48:24<1:22:59,  1.41it/s]Training 2/3 epoch (loss 0.1224):  59%|█████▊    | 9940/16950 [1:48:24<1:17:03,  1.52it/s]Training 2/3 epoch (loss 0.0013):  59%|█████▊    | 9940/16950 [1:48:24<1:17:03,  1.52it/s]Training 2/3 epoch (loss 0.0013):  59%|█████▊    | 9941/16950 [1:48:24<1:11:20,  1.64it/s]Training 2/3 epoch (loss 0.5435):  59%|█████▊    | 9941/16950 [1:48:25<1:11:20,  1.64it/s]Training 2/3 epoch (loss 0.5435):  59%|█████▊    | 9942/16950 [1:48:25<1:10:18,  1.66it/s]Training 2/3 epoch (loss 0.3415):  59%|█████▊    | 9942/16950 [1:48:25<1:10:18,  1.66it/s]Training 2/3 epoch (loss 0.3415):  59%|█████▊    | 9943/16950 [1:48:25<1:05:44,  1.78it/s]Training 2/3 epoch (loss 0.0012):  59%|█████▊    | 9943/16950 [1:48:26<1:05:44,  1.78it/s]Training 2/3 epoch (loss 0.0012):  59%|█████▊    | 9944/16950 [1:48:26<1:07:07,  1.74it/s]Training 2/3 epoch (loss 0.9648):  59%|█████▊    | 9944/16950 [1:48:27<1:07:07,  1.74it/s]Training 2/3 epoch (loss 0.9648):  59%|█████▊    | 9945/16950 [1:48:27<1:25:00,  1.37it/s]Training 2/3 epoch (loss 0.0008):  59%|█████▊    | 9945/16950 [1:48:28<1:25:00,  1.37it/s]Training 2/3 epoch (loss 0.0008):  59%|█████▊    | 9946/16950 [1:48:28<1:19:49,  1.46it/s]Training 2/3 epoch (loss 0.0629):  59%|█████▊    | 9946/16950 [1:48:28<1:19:49,  1.46it/s]Training 2/3 epoch (loss 0.0629):  59%|█████▊    | 9947/16950 [1:48:28<1:12:42,  1.61it/s]Training 2/3 epoch (loss 0.5584):  59%|█████▊    | 9947/16950 [1:48:28<1:12:42,  1.61it/s]Training 2/3 epoch (loss 0.5584):  59%|█████▊    | 9948/16950 [1:48:28<1:04:47,  1.80it/s]Training 2/3 epoch (loss 0.4456):  59%|█████▊    | 9948/16950 [1:48:29<1:04:47,  1.80it/s]Training 2/3 epoch (loss 0.4456):  59%|█████▊    | 9949/16950 [1:48:29<1:06:46,  1.75it/s]Training 2/3 epoch (loss 0.0300):  59%|█████▊    | 9949/16950 [1:48:30<1:06:46,  1.75it/s]Training 2/3 epoch (loss 0.0300):  59%|█████▊    | 9950/16950 [1:48:30<1:05:24,  1.78it/s]Training 2/3 epoch (loss 0.7567):  59%|█████▊    | 9950/16950 [1:48:31<1:05:24,  1.78it/s]Training 2/3 epoch (loss 0.7567):  59%|█████▊    | 9951/16950 [1:48:31<1:23:12,  1.40it/s]Training 2/3 epoch (loss 0.3444):  59%|█████▊    | 9951/16950 [1:48:31<1:23:12,  1.40it/s]Training 2/3 epoch (loss 0.3444):  59%|█████▊    | 9952/16950 [1:48:31<1:18:52,  1.48it/s]Training 2/3 epoch (loss 0.3402):  59%|█████▊    | 9952/16950 [1:48:32<1:18:52,  1.48it/s]Training 2/3 epoch (loss 0.3402):  59%|█████▊    | 9953/16950 [1:48:32<1:16:52,  1.52it/s]Training 2/3 epoch (loss 0.0003):  59%|█████▊    | 9953/16950 [1:48:33<1:16:52,  1.52it/s]Training 2/3 epoch (loss 0.0003):  59%|█████▊    | 9954/16950 [1:48:33<1:18:10,  1.49it/s]Training 2/3 epoch (loss 0.2787):  59%|█████▊    | 9954/16950 [1:48:33<1:18:10,  1.49it/s]Training 2/3 epoch (loss 0.2787):  59%|█████▊    | 9955/16950 [1:48:33<1:28:13,  1.32it/s]Training 2/3 epoch (loss 0.0001):  59%|█████▊    | 9955/16950 [1:48:34<1:28:13,  1.32it/s]Training 2/3 epoch (loss 0.0001):  59%|█████▊    | 9956/16950 [1:48:34<1:19:24,  1.47it/s]Training 2/3 epoch (loss 0.0000):  59%|█████▊    | 9956/16950 [1:48:35<1:19:24,  1.47it/s]Training 2/3 epoch (loss 0.0000):  59%|█████▊    | 9957/16950 [1:48:35<1:14:00,  1.57it/s]Training 2/3 epoch (loss 0.3065):  59%|█████▊    | 9957/16950 [1:48:35<1:14:00,  1.57it/s]Training 2/3 epoch (loss 0.3065):  59%|█████▊    | 9958/16950 [1:48:35<1:08:50,  1.69it/s]Training 2/3 epoch (loss 0.0061):  59%|█████▊    | 9958/16950 [1:48:35<1:08:50,  1.69it/s]Training 2/3 epoch (loss 0.0061):  59%|█████▉    | 9959/16950 [1:48:35<1:02:47,  1.86it/s]Training 2/3 epoch (loss 0.6922):  59%|█████▉    | 9959/16950 [1:48:36<1:02:47,  1.86it/s]Training 2/3 epoch (loss 0.6922):  59%|█████▉    | 9960/16950 [1:48:36<1:14:09,  1.57it/s]Training 2/3 epoch (loss 0.0093):  59%|█████▉    | 9960/16950 [1:48:37<1:14:09,  1.57it/s]Training 2/3 epoch (loss 0.0093):  59%|█████▉    | 9961/16950 [1:48:37<1:12:04,  1.62it/s]Training 2/3 epoch (loss 0.0382):  59%|█████▉    | 9961/16950 [1:48:37<1:12:04,  1.62it/s]Training 2/3 epoch (loss 0.0382):  59%|█████▉    | 9962/16950 [1:48:37<1:07:19,  1.73it/s]Training 2/3 epoch (loss 0.0337):  59%|█████▉    | 9962/16950 [1:48:38<1:07:19,  1.73it/s]Training 2/3 epoch (loss 0.0337):  59%|█████▉    | 9963/16950 [1:48:38<1:01:37,  1.89it/s]Training 2/3 epoch (loss 0.0002):  59%|█████▉    | 9963/16950 [1:48:38<1:01:37,  1.89it/s]Training 2/3 epoch (loss 0.0002):  59%|█████▉    | 9964/16950 [1:48:38<1:00:05,  1.94it/s]Training 2/3 epoch (loss 0.1934):  59%|█████▉    | 9964/16950 [1:48:39<1:00:05,  1.94it/s]Training 2/3 epoch (loss 0.1934):  59%|█████▉    | 9965/16950 [1:48:39<1:01:04,  1.91it/s]Training 2/3 epoch (loss 0.0106):  59%|█████▉    | 9965/16950 [1:48:39<1:01:04,  1.91it/s]Training 2/3 epoch (loss 0.0106):  59%|█████▉    | 9966/16950 [1:48:39<1:01:57,  1.88it/s]Training 2/3 epoch (loss 0.0353):  59%|█████▉    | 9966/16950 [1:48:40<1:01:57,  1.88it/s]Training 2/3 epoch (loss 0.0353):  59%|█████▉    | 9967/16950 [1:48:40<1:02:12,  1.87it/s]Training 2/3 epoch (loss 0.0730):  59%|█████▉    | 9967/16950 [1:48:41<1:02:12,  1.87it/s]Training 2/3 epoch (loss 0.0730):  59%|█████▉    | 9968/16950 [1:48:41<1:08:03,  1.71it/s]Training 2/3 epoch (loss 0.0045):  59%|█████▉    | 9968/16950 [1:48:41<1:08:03,  1.71it/s]Training 2/3 epoch (loss 0.0045):  59%|█████▉    | 9969/16950 [1:48:41<1:06:43,  1.74it/s]Training 2/3 epoch (loss 0.1237):  59%|█████▉    | 9969/16950 [1:48:42<1:06:43,  1.74it/s]Training 2/3 epoch (loss 0.1237):  59%|█████▉    | 9970/16950 [1:48:42<1:15:49,  1.53it/s]Training 2/3 epoch (loss 0.0021):  59%|█████▉    | 9970/16950 [1:48:42<1:15:49,  1.53it/s]Training 2/3 epoch (loss 0.0021):  59%|█████▉    | 9971/16950 [1:48:42<1:11:49,  1.62it/s]Training 2/3 epoch (loss 0.0016):  59%|█████▉    | 9971/16950 [1:48:43<1:11:49,  1.62it/s]Training 2/3 epoch (loss 0.0016):  59%|█████▉    | 9972/16950 [1:48:43<1:08:12,  1.71it/s]Training 2/3 epoch (loss 0.2752):  59%|█████▉    | 9972/16950 [1:48:44<1:08:12,  1.71it/s]Training 2/3 epoch (loss 0.2752):  59%|█████▉    | 9973/16950 [1:48:44<1:07:57,  1.71it/s]Training 2/3 epoch (loss 0.0966):  59%|█████▉    | 9973/16950 [1:48:44<1:07:57,  1.71it/s]Training 2/3 epoch (loss 0.0966):  59%|█████▉    | 9974/16950 [1:48:44<1:18:28,  1.48it/s]Training 2/3 epoch (loss 0.0063):  59%|█████▉    | 9974/16950 [1:48:45<1:18:28,  1.48it/s]Training 2/3 epoch (loss 0.0063):  59%|█████▉    | 9975/16950 [1:48:45<1:10:23,  1.65it/s]Training 2/3 epoch (loss 0.0028):  59%|█████▉    | 9975/16950 [1:48:46<1:10:23,  1.65it/s]Training 2/3 epoch (loss 0.0028):  59%|█████▉    | 9976/16950 [1:48:46<1:11:17,  1.63it/s]Training 2/3 epoch (loss 0.3233):  59%|█████▉    | 9976/16950 [1:48:46<1:11:17,  1.63it/s]Training 2/3 epoch (loss 0.3233):  59%|█████▉    | 9977/16950 [1:48:46<1:10:07,  1.66it/s]Training 2/3 epoch (loss 0.0059):  59%|█████▉    | 9977/16950 [1:48:47<1:10:07,  1.66it/s]Training 2/3 epoch (loss 0.0059):  59%|█████▉    | 9978/16950 [1:48:47<1:12:39,  1.60it/s]Training 2/3 epoch (loss 0.0120):  59%|█████▉    | 9978/16950 [1:48:47<1:12:39,  1.60it/s]Training 2/3 epoch (loss 0.0120):  59%|█████▉    | 9979/16950 [1:48:47<1:14:59,  1.55it/s]Training 2/3 epoch (loss 0.0022):  59%|█████▉    | 9979/16950 [1:48:48<1:14:59,  1.55it/s]Training 2/3 epoch (loss 0.0022):  59%|█████▉    | 9980/16950 [1:48:48<1:14:54,  1.55it/s]Training 2/3 epoch (loss 0.0137):  59%|█████▉    | 9980/16950 [1:48:49<1:14:54,  1.55it/s]Training 2/3 epoch (loss 0.0137):  59%|█████▉    | 9981/16950 [1:48:49<1:23:11,  1.40it/s]Training 2/3 epoch (loss 0.1121):  59%|█████▉    | 9981/16950 [1:48:49<1:23:11,  1.40it/s]Training 2/3 epoch (loss 0.1121):  59%|█████▉    | 9982/16950 [1:48:49<1:13:07,  1.59it/s]Training 2/3 epoch (loss 0.1429):  59%|█████▉    | 9982/16950 [1:48:50<1:13:07,  1.59it/s]Training 2/3 epoch (loss 0.1429):  59%|█████▉    | 9983/16950 [1:48:50<1:15:20,  1.54it/s]Training 2/3 epoch (loss 0.0412):  59%|█████▉    | 9983/16950 [1:48:51<1:15:20,  1.54it/s]Training 2/3 epoch (loss 0.0412):  59%|█████▉    | 9984/16950 [1:48:51<1:12:46,  1.60it/s]Training 2/3 epoch (loss 0.0975):  59%|█████▉    | 9984/16950 [1:48:51<1:12:46,  1.60it/s]Training 2/3 epoch (loss 0.0975):  59%|█████▉    | 9985/16950 [1:48:51<1:15:56,  1.53it/s]Training 2/3 epoch (loss 0.0116):  59%|█████▉    | 9985/16950 [1:48:52<1:15:56,  1.53it/s]Training 2/3 epoch (loss 0.0116):  59%|█████▉    | 9986/16950 [1:48:52<1:10:29,  1.65it/s]Training 2/3 epoch (loss 0.5151):  59%|█████▉    | 9986/16950 [1:48:53<1:10:29,  1.65it/s]Training 2/3 epoch (loss 0.5151):  59%|█████▉    | 9987/16950 [1:48:53<1:09:45,  1.66it/s]Training 2/3 epoch (loss 0.2071):  59%|█████▉    | 9987/16950 [1:48:53<1:09:45,  1.66it/s]Training 2/3 epoch (loss 0.2071):  59%|█████▉    | 9988/16950 [1:48:53<1:08:42,  1.69it/s]Training 2/3 epoch (loss 0.0034):  59%|█████▉    | 9988/16950 [1:48:54<1:08:42,  1.69it/s]Training 2/3 epoch (loss 0.0034):  59%|█████▉    | 9989/16950 [1:48:54<1:06:27,  1.75it/s]Training 2/3 epoch (loss 0.0000):  59%|█████▉    | 9989/16950 [1:48:54<1:06:27,  1.75it/s]Training 2/3 epoch (loss 0.0000):  59%|█████▉    | 9990/16950 [1:48:54<57:54,  2.00it/s]  Training 2/3 epoch (loss 0.0042):  59%|█████▉    | 9990/16950 [1:48:54<57:54,  2.00it/s]Training 2/3 epoch (loss 0.0042):  59%|█████▉    | 9991/16950 [1:48:54<56:19,  2.06it/s]Training 2/3 epoch (loss 0.1412):  59%|█████▉    | 9991/16950 [1:48:56<56:19,  2.06it/s]Training 2/3 epoch (loss 0.1412):  59%|█████▉    | 9992/16950 [1:48:56<1:19:46,  1.45it/s]Training 2/3 epoch (loss 0.0006):  59%|█████▉    | 9992/16950 [1:48:56<1:19:46,  1.45it/s]Training 2/3 epoch (loss 0.0006):  59%|█████▉    | 9993/16950 [1:48:56<1:13:38,  1.57it/s]Training 2/3 epoch (loss 0.0024):  59%|█████▉    | 9993/16950 [1:48:57<1:13:38,  1.57it/s]Training 2/3 epoch (loss 0.0024):  59%|█████▉    | 9994/16950 [1:48:57<1:06:31,  1.74it/s]Training 2/3 epoch (loss 0.3747):  59%|█████▉    | 9994/16950 [1:48:57<1:06:31,  1.74it/s]Training 2/3 epoch (loss 0.3747):  59%|█████▉    | 9995/16950 [1:48:57<1:18:41,  1.47it/s]Training 2/3 epoch (loss 0.2471):  59%|█████▉    | 9995/16950 [1:48:58<1:18:41,  1.47it/s]Training 2/3 epoch (loss 0.2471):  59%|█████▉    | 9996/16950 [1:48:58<1:15:49,  1.53it/s]Training 2/3 epoch (loss 0.0291):  59%|█████▉    | 9996/16950 [1:48:59<1:15:49,  1.53it/s]Training 2/3 epoch (loss 0.0291):  59%|█████▉    | 9997/16950 [1:48:59<1:17:37,  1.49it/s]Training 2/3 epoch (loss 0.4801):  59%|█████▉    | 9997/16950 [1:48:59<1:17:37,  1.49it/s]Training 2/3 epoch (loss 0.4801):  59%|█████▉    | 9998/16950 [1:48:59<1:20:11,  1.45it/s]Training 2/3 epoch (loss 0.0023):  59%|█████▉    | 9998/16950 [1:49:00<1:20:11,  1.45it/s]Training 2/3 epoch (loss 0.0023):  59%|█████▉    | 9999/16950 [1:49:00<1:14:03,  1.56it/s]Training 2/3 epoch (loss 0.0724):  59%|█████▉    | 9999/16950 [1:49:00<1:14:03,  1.56it/s]Training 2/3 epoch (loss 0.0724):  59%|█████▉    | 10000/16950 [1:49:00<1:09:09,  1.67it/s]Training 2/3 epoch (loss 0.1972):  59%|█████▉    | 10000/16950 [1:49:01<1:09:09,  1.67it/s]Training 2/3 epoch (loss 0.1972):  59%|█████▉    | 10001/16950 [1:49:01<1:18:14,  1.48it/s]Training 2/3 epoch (loss 0.0008):  59%|█████▉    | 10001/16950 [1:49:02<1:18:14,  1.48it/s]Training 2/3 epoch (loss 0.0008):  59%|█████▉    | 10002/16950 [1:49:02<1:17:54,  1.49it/s]Training 2/3 epoch (loss 0.0629):  59%|█████▉    | 10002/16950 [1:49:03<1:17:54,  1.49it/s]Training 2/3 epoch (loss 0.0629):  59%|█████▉    | 10003/16950 [1:49:03<1:12:18,  1.60it/s]Training 2/3 epoch (loss 0.1089):  59%|█████▉    | 10003/16950 [1:49:03<1:12:18,  1.60it/s]Training 2/3 epoch (loss 0.1089):  59%|█████▉    | 10004/16950 [1:49:03<1:13:57,  1.57it/s]Training 2/3 epoch (loss 0.0003):  59%|█████▉    | 10004/16950 [1:49:04<1:13:57,  1.57it/s]Training 2/3 epoch (loss 0.0003):  59%|█████▉    | 10005/16950 [1:49:04<1:10:56,  1.63it/s]Training 2/3 epoch (loss 0.1872):  59%|█████▉    | 10005/16950 [1:49:04<1:10:56,  1.63it/s]Training 2/3 epoch (loss 0.1872):  59%|█████▉    | 10006/16950 [1:49:04<1:05:53,  1.76it/s]Training 2/3 epoch (loss 0.0109):  59%|█████▉    | 10006/16950 [1:49:05<1:05:53,  1.76it/s]Training 2/3 epoch (loss 0.0109):  59%|█████▉    | 10007/16950 [1:49:05<1:05:33,  1.77it/s]Training 2/3 epoch (loss 0.0010):  59%|█████▉    | 10007/16950 [1:49:05<1:05:33,  1.77it/s]Training 2/3 epoch (loss 0.0010):  59%|█████▉    | 10008/16950 [1:49:05<1:02:45,  1.84it/s]Training 2/3 epoch (loss 0.2720):  59%|█████▉    | 10008/16950 [1:49:06<1:02:45,  1.84it/s]Training 2/3 epoch (loss 0.2720):  59%|█████▉    | 10009/16950 [1:49:06<1:21:20,  1.42it/s]Training 2/3 epoch (loss 0.5640):  59%|█████▉    | 10009/16950 [1:49:07<1:21:20,  1.42it/s]Training 2/3 epoch (loss 0.5640):  59%|█████▉    | 10010/16950 [1:49:07<1:18:40,  1.47it/s]Training 2/3 epoch (loss 0.0042):  59%|█████▉    | 10010/16950 [1:49:08<1:18:40,  1.47it/s]Training 2/3 epoch (loss 0.0042):  59%|█████▉    | 10011/16950 [1:49:08<1:17:18,  1.50it/s]Training 2/3 epoch (loss 0.0256):  59%|█████▉    | 10011/16950 [1:49:08<1:17:18,  1.50it/s]Training 2/3 epoch (loss 0.0256):  59%|█████▉    | 10012/16950 [1:49:08<1:22:28,  1.40it/s]Training 2/3 epoch (loss 0.0104):  59%|█████▉    | 10012/16950 [1:49:09<1:22:28,  1.40it/s]Training 2/3 epoch (loss 0.0104):  59%|█████▉    | 10013/16950 [1:49:09<1:21:45,  1.41it/s]Training 2/3 epoch (loss 0.0280):  59%|█████▉    | 10013/16950 [1:49:10<1:21:45,  1.41it/s]Training 2/3 epoch (loss 0.0280):  59%|█████▉    | 10014/16950 [1:49:10<1:12:28,  1.60it/s]Training 2/3 epoch (loss 0.1643):  59%|█████▉    | 10014/16950 [1:49:10<1:12:28,  1.60it/s]Training 2/3 epoch (loss 0.1643):  59%|█████▉    | 10015/16950 [1:49:10<1:17:41,  1.49it/s]Training 2/3 epoch (loss 0.0001):  59%|█████▉    | 10015/16950 [1:49:11<1:17:41,  1.49it/s]Training 2/3 epoch (loss 0.0001):  59%|█████▉    | 10016/16950 [1:49:11<1:14:27,  1.55it/s]Training 2/3 epoch (loss 0.0028):  59%|█████▉    | 10016/16950 [1:49:11<1:14:27,  1.55it/s]Training 2/3 epoch (loss 0.0028):  59%|█████▉    | 10017/16950 [1:49:11<1:09:31,  1.66it/s]Training 2/3 epoch (loss 0.0020):  59%|█████▉    | 10017/16950 [1:49:12<1:09:31,  1.66it/s]Training 2/3 epoch (loss 0.0020):  59%|█████▉    | 10018/16950 [1:49:12<1:04:31,  1.79it/s]Training 2/3 epoch (loss 0.0409):  59%|█████▉    | 10018/16950 [1:49:12<1:04:31,  1.79it/s]Training 2/3 epoch (loss 0.0409):  59%|█████▉    | 10019/16950 [1:49:12<1:05:47,  1.76it/s]Training 2/3 epoch (loss 0.0031):  59%|█████▉    | 10019/16950 [1:49:13<1:05:47,  1.76it/s]Training 2/3 epoch (loss 0.0031):  59%|█████▉    | 10020/16950 [1:49:13<1:15:49,  1.52it/s]Training 2/3 epoch (loss 0.1145):  59%|█████▉    | 10020/16950 [1:49:14<1:15:49,  1.52it/s]Training 2/3 epoch (loss 0.1145):  59%|█████▉    | 10021/16950 [1:49:14<1:15:59,  1.52it/s]Training 2/3 epoch (loss 0.6193):  59%|█████▉    | 10021/16950 [1:49:15<1:15:59,  1.52it/s]Training 2/3 epoch (loss 0.6193):  59%|█████▉    | 10022/16950 [1:49:15<1:11:46,  1.61it/s]Training 2/3 epoch (loss 0.0404):  59%|█████▉    | 10022/16950 [1:49:15<1:11:46,  1.61it/s]Training 2/3 epoch (loss 0.0404):  59%|█████▉    | 10023/16950 [1:49:15<1:14:46,  1.54it/s]Training 2/3 epoch (loss 0.4769):  59%|█████▉    | 10023/16950 [1:49:16<1:14:46,  1.54it/s]Training 2/3 epoch (loss 0.4769):  59%|█████▉    | 10024/16950 [1:49:16<1:06:25,  1.74it/s]Training 2/3 epoch (loss 0.3362):  59%|█████▉    | 10024/16950 [1:49:16<1:06:25,  1.74it/s]Training 2/3 epoch (loss 0.3362):  59%|█████▉    | 10025/16950 [1:49:16<59:52,  1.93it/s]  Training 2/3 epoch (loss 0.1890):  59%|█████▉    | 10025/16950 [1:49:16<59:52,  1.93it/s]Training 2/3 epoch (loss 0.1890):  59%|█████▉    | 10026/16950 [1:49:16<54:43,  2.11it/s]Training 2/3 epoch (loss 0.0010):  59%|█████▉    | 10026/16950 [1:49:17<54:43,  2.11it/s]Training 2/3 epoch (loss 0.0010):  59%|█████▉    | 10027/16950 [1:49:17<59:41,  1.93it/s]Training 2/3 epoch (loss 0.4054):  59%|█████▉    | 10027/16950 [1:49:18<59:41,  1.93it/s]Training 2/3 epoch (loss 0.4054):  59%|█████▉    | 10028/16950 [1:49:18<1:22:40,  1.40it/s]Training 2/3 epoch (loss 0.7142):  59%|█████▉    | 10028/16950 [1:49:19<1:22:40,  1.40it/s]Training 2/3 epoch (loss 0.7142):  59%|█████▉    | 10029/16950 [1:49:19<1:19:08,  1.46it/s]Training 2/3 epoch (loss 0.1803):  59%|█████▉    | 10029/16950 [1:49:19<1:19:08,  1.46it/s]Training 2/3 epoch (loss 0.1803):  59%|█████▉    | 10030/16950 [1:49:19<1:11:57,  1.60it/s]Training 2/3 epoch (loss 0.0001):  59%|█████▉    | 10030/16950 [1:49:20<1:11:57,  1.60it/s]Training 2/3 epoch (loss 0.0001):  59%|█████▉    | 10031/16950 [1:49:20<1:07:39,  1.70it/s]Training 2/3 epoch (loss 0.4661):  59%|█████▉    | 10031/16950 [1:49:20<1:07:39,  1.70it/s]Training 2/3 epoch (loss 0.4661):  59%|█████▉    | 10032/16950 [1:49:20<1:06:05,  1.74it/s]Training 2/3 epoch (loss 0.0006):  59%|█████▉    | 10032/16950 [1:49:21<1:06:05,  1.74it/s]Training 2/3 epoch (loss 0.0006):  59%|█████▉    | 10033/16950 [1:49:21<1:05:22,  1.76it/s]Training 2/3 epoch (loss 0.4105):  59%|█████▉    | 10033/16950 [1:49:22<1:05:22,  1.76it/s]Training 2/3 epoch (loss 0.4105):  59%|█████▉    | 10034/16950 [1:49:22<1:08:12,  1.69it/s]Training 2/3 epoch (loss 0.0037):  59%|█████▉    | 10034/16950 [1:49:22<1:08:12,  1.69it/s]Training 2/3 epoch (loss 0.0037):  59%|█████▉    | 10035/16950 [1:49:22<1:04:50,  1.78it/s]Training 2/3 epoch (loss 0.1649):  59%|█████▉    | 10035/16950 [1:49:23<1:04:50,  1.78it/s]Training 2/3 epoch (loss 0.1649):  59%|█████▉    | 10036/16950 [1:49:23<1:15:35,  1.52it/s]Training 2/3 epoch (loss 0.0234):  59%|█████▉    | 10036/16950 [1:49:23<1:15:35,  1.52it/s]Training 2/3 epoch (loss 0.0234):  59%|█████▉    | 10037/16950 [1:49:23<1:10:57,  1.62it/s]Training 2/3 epoch (loss 0.3072):  59%|█████▉    | 10037/16950 [1:49:24<1:10:57,  1.62it/s]Training 2/3 epoch (loss 0.3072):  59%|█████▉    | 10038/16950 [1:49:24<1:06:16,  1.74it/s]Training 2/3 epoch (loss 0.5139):  59%|█████▉    | 10038/16950 [1:49:24<1:06:16,  1.74it/s]Training 2/3 epoch (loss 0.5139):  59%|█████▉    | 10039/16950 [1:49:24<59:21,  1.94it/s]  Training 2/3 epoch (loss 0.0877):  59%|█████▉    | 10039/16950 [1:49:25<59:21,  1.94it/s]Training 2/3 epoch (loss 0.0877):  59%|█████▉    | 10040/16950 [1:49:25<1:02:04,  1.86it/s]Training 2/3 epoch (loss 0.0009):  59%|█████▉    | 10040/16950 [1:49:26<1:02:04,  1.86it/s]Training 2/3 epoch (loss 0.0009):  59%|█████▉    | 10041/16950 [1:49:26<1:06:42,  1.73it/s]Training 2/3 epoch (loss 0.0934):  59%|█████▉    | 10041/16950 [1:49:26<1:06:42,  1.73it/s]Training 2/3 epoch (loss 0.0934):  59%|█████▉    | 10042/16950 [1:49:26<1:05:26,  1.76it/s]Training 2/3 epoch (loss 0.2073):  59%|█████▉    | 10042/16950 [1:49:27<1:05:26,  1.76it/s]Training 2/3 epoch (loss 0.2073):  59%|█████▉    | 10043/16950 [1:49:27<1:11:11,  1.62it/s]Training 2/3 epoch (loss 0.0016):  59%|█████▉    | 10043/16950 [1:49:27<1:11:11,  1.62it/s]Training 2/3 epoch (loss 0.0016):  59%|█████▉    | 10044/16950 [1:49:27<1:06:17,  1.74it/s]Training 2/3 epoch (loss 0.1582):  59%|█████▉    | 10044/16950 [1:49:28<1:06:17,  1.74it/s]Training 2/3 epoch (loss 0.1582):  59%|█████▉    | 10045/16950 [1:49:28<1:08:41,  1.68it/s]Training 2/3 epoch (loss 0.0009):  59%|█████▉    | 10045/16950 [1:49:29<1:08:41,  1.68it/s]Training 2/3 epoch (loss 0.0009):  59%|█████▉    | 10046/16950 [1:49:29<1:07:05,  1.72it/s]Training 2/3 epoch (loss 0.0750):  59%|█████▉    | 10046/16950 [1:49:29<1:07:05,  1.72it/s]Training 2/3 epoch (loss 0.0750):  59%|█████▉    | 10047/16950 [1:49:29<1:07:58,  1.69it/s]Training 2/3 epoch (loss 0.4338):  59%|█████▉    | 10047/16950 [1:49:30<1:07:58,  1.69it/s]Training 2/3 epoch (loss 0.4338):  59%|█████▉    | 10048/16950 [1:49:30<1:08:39,  1.68it/s]Training 2/3 epoch (loss 0.2213):  59%|█████▉    | 10048/16950 [1:49:30<1:08:39,  1.68it/s]Training 2/3 epoch (loss 0.2213):  59%|█████▉    | 10049/16950 [1:49:30<1:01:31,  1.87it/s]Training 2/3 epoch (loss 0.0966):  59%|█████▉    | 10049/16950 [1:49:31<1:01:31,  1.87it/s]Training 2/3 epoch (loss 0.0966):  59%|█████▉    | 10050/16950 [1:49:31<1:03:10,  1.82it/s]Training 2/3 epoch (loss 0.0082):  59%|█████▉    | 10050/16950 [1:49:31<1:03:10,  1.82it/s]Training 2/3 epoch (loss 0.0082):  59%|█████▉    | 10051/16950 [1:49:31<1:11:10,  1.62it/s]Training 2/3 epoch (loss 0.2470):  59%|█████▉    | 10051/16950 [1:49:32<1:11:10,  1.62it/s]Training 2/3 epoch (loss 0.2470):  59%|█████▉    | 10052/16950 [1:49:32<1:03:14,  1.82it/s]Training 2/3 epoch (loss 0.0470):  59%|█████▉    | 10052/16950 [1:49:33<1:03:14,  1.82it/s]Training 2/3 epoch (loss 0.0470):  59%|█████▉    | 10053/16950 [1:49:33<1:06:25,  1.73it/s]Training 2/3 epoch (loss 0.0194):  59%|█████▉    | 10053/16950 [1:49:33<1:06:25,  1.73it/s]Training 2/3 epoch (loss 0.0194):  59%|█████▉    | 10054/16950 [1:49:33<1:09:47,  1.65it/s]Training 2/3 epoch (loss 0.9007):  59%|█████▉    | 10054/16950 [1:49:34<1:09:47,  1.65it/s]Training 2/3 epoch (loss 0.9007):  59%|█████▉    | 10055/16950 [1:49:34<1:08:17,  1.68it/s]Training 2/3 epoch (loss 0.0128):  59%|█████▉    | 10055/16950 [1:49:34<1:08:17,  1.68it/s]Training 2/3 epoch (loss 0.0128):  59%|█████▉    | 10056/16950 [1:49:34<1:08:53,  1.67it/s]Training 2/3 epoch (loss 0.0262):  59%|█████▉    | 10056/16950 [1:49:35<1:08:53,  1.67it/s]Training 2/3 epoch (loss 0.0262):  59%|█████▉    | 10057/16950 [1:49:35<1:05:48,  1.75it/s]Training 2/3 epoch (loss 0.1172):  59%|█████▉    | 10057/16950 [1:49:36<1:05:48,  1.75it/s]Training 2/3 epoch (loss 0.1172):  59%|█████▉    | 10058/16950 [1:49:36<1:08:04,  1.69it/s]Training 2/3 epoch (loss 0.1912):  59%|█████▉    | 10058/16950 [1:49:37<1:08:04,  1.69it/s]Training 2/3 epoch (loss 0.1912):  59%|█████▉    | 10059/16950 [1:49:37<1:22:00,  1.40it/s]Training 2/3 epoch (loss 0.0462):  59%|█████▉    | 10059/16950 [1:49:37<1:22:00,  1.40it/s]Training 2/3 epoch (loss 0.0462):  59%|█████▉    | 10060/16950 [1:49:37<1:30:38,  1.27it/s]Training 2/3 epoch (loss 0.0000):  59%|█████▉    | 10060/16950 [1:49:38<1:30:38,  1.27it/s]Training 2/3 epoch (loss 0.0000):  59%|█████▉    | 10061/16950 [1:49:38<1:17:53,  1.47it/s]Training 2/3 epoch (loss 0.1462):  59%|█████▉    | 10061/16950 [1:49:38<1:17:53,  1.47it/s]Training 2/3 epoch (loss 0.1462):  59%|█████▉    | 10062/16950 [1:49:38<1:06:32,  1.73it/s]Training 2/3 epoch (loss 0.2737):  59%|█████▉    | 10062/16950 [1:49:39<1:06:32,  1.73it/s]Training 2/3 epoch (loss 0.2737):  59%|█████▉    | 10063/16950 [1:49:39<1:06:47,  1.72it/s]Training 2/3 epoch (loss 0.1049):  59%|█████▉    | 10063/16950 [1:49:39<1:06:47,  1.72it/s]Training 2/3 epoch (loss 0.1049):  59%|█████▉    | 10064/16950 [1:49:39<1:08:26,  1.68it/s]Training 2/3 epoch (loss 0.0200):  59%|█████▉    | 10064/16950 [1:49:40<1:08:26,  1.68it/s]Training 2/3 epoch (loss 0.0200):  59%|█████▉    | 10065/16950 [1:49:40<1:04:54,  1.77it/s]Training 2/3 epoch (loss 0.0427):  59%|█████▉    | 10065/16950 [1:49:41<1:04:54,  1.77it/s]Training 2/3 epoch (loss 0.0427):  59%|█████▉    | 10066/16950 [1:49:41<1:06:54,  1.71it/s]Training 2/3 epoch (loss 0.0031):  59%|█████▉    | 10066/16950 [1:49:42<1:06:54,  1.71it/s]Training 2/3 epoch (loss 0.0031):  59%|█████▉    | 10067/16950 [1:49:42<1:27:31,  1.31it/s]Training 2/3 epoch (loss 0.0725):  59%|█████▉    | 10067/16950 [1:49:42<1:27:31,  1.31it/s]Training 2/3 epoch (loss 0.0725):  59%|█████▉    | 10068/16950 [1:49:42<1:25:43,  1.34it/s]Training 2/3 epoch (loss 0.2581):  59%|█████▉    | 10068/16950 [1:49:43<1:25:43,  1.34it/s]Training 2/3 epoch (loss 0.2581):  59%|█████▉    | 10069/16950 [1:49:43<1:15:39,  1.52it/s]Training 2/3 epoch (loss 0.0979):  59%|█████▉    | 10069/16950 [1:49:43<1:15:39,  1.52it/s]Training 2/3 epoch (loss 0.0979):  59%|█████▉    | 10070/16950 [1:49:43<1:09:28,  1.65it/s]Training 2/3 epoch (loss 0.0052):  59%|█████▉    | 10070/16950 [1:49:44<1:09:28,  1.65it/s]Training 2/3 epoch (loss 0.0052):  59%|█████▉    | 10071/16950 [1:49:44<1:25:40,  1.34it/s]Training 2/3 epoch (loss 0.0287):  59%|█████▉    | 10071/16950 [1:49:45<1:25:40,  1.34it/s]Training 2/3 epoch (loss 0.0287):  59%|█████▉    | 10072/16950 [1:49:45<1:21:34,  1.41it/s]Training 2/3 epoch (loss 0.0688):  59%|█████▉    | 10072/16950 [1:49:46<1:21:34,  1.41it/s]Training 2/3 epoch (loss 0.0688):  59%|█████▉    | 10073/16950 [1:49:46<1:20:27,  1.42it/s]Training 2/3 epoch (loss 0.1674):  59%|█████▉    | 10073/16950 [1:49:46<1:20:27,  1.42it/s]Training 2/3 epoch (loss 0.1674):  59%|█████▉    | 10074/16950 [1:49:46<1:12:54,  1.57it/s]Training 2/3 epoch (loss 0.0634):  59%|█████▉    | 10074/16950 [1:49:47<1:12:54,  1.57it/s]Training 2/3 epoch (loss 0.0634):  59%|█████▉    | 10075/16950 [1:49:47<1:07:54,  1.69it/s]Training 2/3 epoch (loss 0.3643):  59%|█████▉    | 10075/16950 [1:49:47<1:07:54,  1.69it/s]Training 2/3 epoch (loss 0.3643):  59%|█████▉    | 10076/16950 [1:49:47<1:00:56,  1.88it/s]Training 2/3 epoch (loss 0.0277):  59%|█████▉    | 10076/16950 [1:49:48<1:00:56,  1.88it/s]Training 2/3 epoch (loss 0.0277):  59%|█████▉    | 10077/16950 [1:49:48<1:00:48,  1.88it/s]Training 2/3 epoch (loss 0.1474):  59%|█████▉    | 10077/16950 [1:49:48<1:00:48,  1.88it/s]Training 2/3 epoch (loss 0.1474):  59%|█████▉    | 10078/16950 [1:49:48<59:33,  1.92it/s]  Training 2/3 epoch (loss 0.2719):  59%|█████▉    | 10078/16950 [1:49:49<59:33,  1.92it/s]Training 2/3 epoch (loss 0.2719):  59%|█████▉    | 10079/16950 [1:49:49<1:14:45,  1.53it/s]Training 2/3 epoch (loss 0.0713):  59%|█████▉    | 10079/16950 [1:49:50<1:14:45,  1.53it/s]Training 2/3 epoch (loss 0.0713):  59%|█████▉    | 10080/16950 [1:49:50<1:17:56,  1.47it/s]Training 2/3 epoch (loss 0.3175):  59%|█████▉    | 10080/16950 [1:49:50<1:17:56,  1.47it/s]Training 2/3 epoch (loss 0.3175):  59%|█████▉    | 10081/16950 [1:49:50<1:13:12,  1.56it/s]Training 2/3 epoch (loss 0.0019):  59%|█████▉    | 10081/16950 [1:49:51<1:13:12,  1.56it/s]Training 2/3 epoch (loss 0.0019):  59%|█████▉    | 10082/16950 [1:49:51<1:15:05,  1.52it/s]Training 2/3 epoch (loss 0.3245):  59%|█████▉    | 10082/16950 [1:49:52<1:15:05,  1.52it/s]Training 2/3 epoch (loss 0.3245):  59%|█████▉    | 10083/16950 [1:49:52<1:05:32,  1.75it/s]Training 2/3 epoch (loss 0.0240):  59%|█████▉    | 10083/16950 [1:49:52<1:05:32,  1.75it/s]Training 2/3 epoch (loss 0.0240):  59%|█████▉    | 10084/16950 [1:49:52<1:08:57,  1.66it/s]Training 2/3 epoch (loss 0.0013):  59%|█████▉    | 10084/16950 [1:49:53<1:08:57,  1.66it/s]Training 2/3 epoch (loss 0.0013):  59%|█████▉    | 10085/16950 [1:49:53<1:19:03,  1.45it/s]Training 2/3 epoch (loss 0.0024):  59%|█████▉    | 10085/16950 [1:49:54<1:19:03,  1.45it/s]Training 2/3 epoch (loss 0.0024):  60%|█████▉    | 10086/16950 [1:49:54<1:15:39,  1.51it/s]Training 2/3 epoch (loss 0.0027):  60%|█████▉    | 10086/16950 [1:49:54<1:15:39,  1.51it/s]Training 2/3 epoch (loss 0.0027):  60%|█████▉    | 10087/16950 [1:49:54<1:12:16,  1.58it/s]Training 2/3 epoch (loss 0.0421):  60%|█████▉    | 10087/16950 [1:49:55<1:12:16,  1.58it/s]Training 2/3 epoch (loss 0.0421):  60%|█████▉    | 10088/16950 [1:49:55<1:11:01,  1.61it/s]Training 2/3 epoch (loss 0.2042):  60%|█████▉    | 10088/16950 [1:49:55<1:11:01,  1.61it/s]Training 2/3 epoch (loss 0.2042):  60%|█████▉    | 10089/16950 [1:49:55<1:06:54,  1.71it/s]Training 2/3 epoch (loss 0.0100):  60%|█████▉    | 10089/16950 [1:49:56<1:06:54,  1.71it/s]Training 2/3 epoch (loss 0.0100):  60%|█████▉    | 10090/16950 [1:49:56<1:10:27,  1.62it/s]Training 2/3 epoch (loss 0.0125):  60%|█████▉    | 10090/16950 [1:49:57<1:10:27,  1.62it/s]Training 2/3 epoch (loss 0.0125):  60%|█████▉    | 10091/16950 [1:49:57<1:06:15,  1.73it/s]Training 2/3 epoch (loss 0.0384):  60%|█████▉    | 10091/16950 [1:49:57<1:06:15,  1.73it/s]Training 2/3 epoch (loss 0.0384):  60%|█████▉    | 10092/16950 [1:49:57<1:02:25,  1.83it/s]Training 2/3 epoch (loss 0.0187):  60%|█████▉    | 10092/16950 [1:49:58<1:02:25,  1.83it/s]Training 2/3 epoch (loss 0.0187):  60%|█████▉    | 10093/16950 [1:49:58<1:02:11,  1.84it/s]Training 2/3 epoch (loss 0.0632):  60%|█████▉    | 10093/16950 [1:49:58<1:02:11,  1.84it/s]Training 2/3 epoch (loss 0.0632):  60%|█████▉    | 10094/16950 [1:49:58<1:02:33,  1.83it/s]Training 2/3 epoch (loss 0.0059):  60%|█████▉    | 10094/16950 [1:49:59<1:02:33,  1.83it/s]Training 2/3 epoch (loss 0.0059):  60%|█████▉    | 10095/16950 [1:49:59<1:01:21,  1.86it/s]Training 2/3 epoch (loss 0.0751):  60%|█████▉    | 10095/16950 [1:50:00<1:01:21,  1.86it/s]Training 2/3 epoch (loss 0.0751):  60%|█████▉    | 10096/16950 [1:50:00<1:14:54,  1.52it/s]Training 2/3 epoch (loss 0.6412):  60%|█████▉    | 10096/16950 [1:50:00<1:14:54,  1.52it/s]Training 2/3 epoch (loss 0.6412):  60%|█████▉    | 10097/16950 [1:50:00<1:09:27,  1.64it/s]Training 2/3 epoch (loss 0.7274):  60%|█████▉    | 10097/16950 [1:50:00<1:09:27,  1.64it/s]Training 2/3 epoch (loss 0.7274):  60%|█████▉    | 10098/16950 [1:50:00<1:03:25,  1.80it/s]Training 2/3 epoch (loss 0.0568):  60%|█████▉    | 10098/16950 [1:50:01<1:03:25,  1.80it/s]Training 2/3 epoch (loss 0.0568):  60%|█████▉    | 10099/16950 [1:50:01<1:00:52,  1.88it/s]Training 2/3 epoch (loss 0.2266):  60%|█████▉    | 10099/16950 [1:50:01<1:00:52,  1.88it/s]Training 2/3 epoch (loss 0.2266):  60%|█████▉    | 10100/16950 [1:50:01<58:05,  1.97it/s]  Training 2/3 epoch (loss 0.0109):  60%|█████▉    | 10100/16950 [1:50:02<58:05,  1.97it/s]Training 2/3 epoch (loss 0.0109):  60%|█████▉    | 10101/16950 [1:50:02<1:02:05,  1.84it/s]Training 2/3 epoch (loss 0.2608):  60%|█████▉    | 10101/16950 [1:50:03<1:02:05,  1.84it/s]Training 2/3 epoch (loss 0.2608):  60%|█████▉    | 10102/16950 [1:50:03<1:04:54,  1.76it/s]Training 2/3 epoch (loss 0.4141):  60%|█████▉    | 10102/16950 [1:50:03<1:04:54,  1.76it/s]Training 2/3 epoch (loss 0.4141):  60%|█████▉    | 10103/16950 [1:50:03<1:02:17,  1.83it/s]Training 2/3 epoch (loss 0.3908):  60%|█████▉    | 10103/16950 [1:50:04<1:02:17,  1.83it/s]Training 2/3 epoch (loss 0.3908):  60%|█████▉    | 10104/16950 [1:50:04<59:58,  1.90it/s]  Training 2/3 epoch (loss 0.0430):  60%|█████▉    | 10104/16950 [1:50:04<59:58,  1.90it/s]Training 2/3 epoch (loss 0.0430):  60%|█████▉    | 10105/16950 [1:50:04<1:00:15,  1.89it/s]Training 2/3 epoch (loss 0.0047):  60%|█████▉    | 10105/16950 [1:50:05<1:00:15,  1.89it/s]Training 2/3 epoch (loss 0.0047):  60%|█████▉    | 10106/16950 [1:50:05<1:05:09,  1.75it/s]Training 2/3 epoch (loss 0.0142):  60%|█████▉    | 10106/16950 [1:50:05<1:05:09,  1.75it/s]Training 2/3 epoch (loss 0.0142):  60%|█████▉    | 10107/16950 [1:50:05<1:01:02,  1.87it/s]Training 2/3 epoch (loss 0.0005):  60%|█████▉    | 10107/16950 [1:50:06<1:01:02,  1.87it/s]Training 2/3 epoch (loss 0.0005):  60%|█████▉    | 10108/16950 [1:50:06<58:16,  1.96it/s]  Training 2/3 epoch (loss 0.0109):  60%|█████▉    | 10108/16950 [1:50:06<58:16,  1.96it/s]Training 2/3 epoch (loss 0.0109):  60%|█████▉    | 10109/16950 [1:50:06<1:04:49,  1.76it/s]Training 2/3 epoch (loss 0.0108):  60%|█████▉    | 10109/16950 [1:50:07<1:04:49,  1.76it/s]Training 2/3 epoch (loss 0.0108):  60%|█████▉    | 10110/16950 [1:50:07<1:00:53,  1.87it/s]Training 2/3 epoch (loss 0.0959):  60%|█████▉    | 10110/16950 [1:50:07<1:00:53,  1.87it/s]Training 2/3 epoch (loss 0.0959):  60%|█████▉    | 10111/16950 [1:50:07<59:19,  1.92it/s]  Training 2/3 epoch (loss 0.4569):  60%|█████▉    | 10111/16950 [1:50:08<59:19,  1.92it/s]Training 2/3 epoch (loss 0.4569):  60%|█████▉    | 10112/16950 [1:50:08<1:00:32,  1.88it/s]Training 2/3 epoch (loss 0.4095):  60%|█████▉    | 10112/16950 [1:50:08<1:00:32,  1.88it/s]Training 2/3 epoch (loss 0.4095):  60%|█████▉    | 10113/16950 [1:50:08<53:58,  2.11it/s]  Training 2/3 epoch (loss 0.0222):  60%|█████▉    | 10113/16950 [1:50:09<53:58,  2.11it/s]Training 2/3 epoch (loss 0.0222):  60%|█████▉    | 10114/16950 [1:50:09<1:06:19,  1.72it/s]Training 2/3 epoch (loss 0.0195):  60%|█████▉    | 10114/16950 [1:50:10<1:06:19,  1.72it/s]Training 2/3 epoch (loss 0.0195):  60%|█████▉    | 10115/16950 [1:50:10<1:08:13,  1.67it/s]Training 2/3 epoch (loss 0.0075):  60%|█████▉    | 10115/16950 [1:50:10<1:08:13,  1.67it/s]Training 2/3 epoch (loss 0.0075):  60%|█████▉    | 10116/16950 [1:50:10<1:10:25,  1.62it/s]Training 2/3 epoch (loss 0.0019):  60%|█████▉    | 10116/16950 [1:50:11<1:10:25,  1.62it/s]Training 2/3 epoch (loss 0.0019):  60%|█████▉    | 10117/16950 [1:50:11<1:13:46,  1.54it/s]Training 2/3 epoch (loss 0.3158):  60%|█████▉    | 10117/16950 [1:50:12<1:13:46,  1.54it/s]Training 2/3 epoch (loss 0.3158):  60%|█████▉    | 10118/16950 [1:50:12<1:09:52,  1.63it/s]Training 2/3 epoch (loss 0.0173):  60%|█████▉    | 10118/16950 [1:50:12<1:09:52,  1.63it/s]Training 2/3 epoch (loss 0.0173):  60%|█████▉    | 10119/16950 [1:50:12<1:07:42,  1.68it/s]Training 2/3 epoch (loss 0.0417):  60%|█████▉    | 10119/16950 [1:50:13<1:07:42,  1.68it/s]Training 2/3 epoch (loss 0.0417):  60%|█████▉    | 10120/16950 [1:50:13<1:00:29,  1.88it/s]Training 2/3 epoch (loss 0.0075):  60%|█████▉    | 10120/16950 [1:50:13<1:00:29,  1.88it/s]Training 2/3 epoch (loss 0.0075):  60%|█████▉    | 10121/16950 [1:50:13<54:56,  2.07it/s]  Training 2/3 epoch (loss 0.5375):  60%|█████▉    | 10121/16950 [1:50:14<54:56,  2.07it/s]Training 2/3 epoch (loss 0.5375):  60%|█████▉    | 10122/16950 [1:50:14<1:17:33,  1.47it/s]Training 2/3 epoch (loss 0.7913):  60%|█████▉    | 10122/16950 [1:50:15<1:17:33,  1.47it/s]Training 2/3 epoch (loss 0.7913):  60%|█████▉    | 10123/16950 [1:50:15<1:28:11,  1.29it/s]Training 2/3 epoch (loss 0.0260):  60%|█████▉    | 10123/16950 [1:50:16<1:28:11,  1.29it/s]Training 2/3 epoch (loss 0.0260):  60%|█████▉    | 10124/16950 [1:50:16<1:25:43,  1.33it/s]Training 2/3 epoch (loss 0.0116):  60%|█████▉    | 10124/16950 [1:50:16<1:25:43,  1.33it/s]Training 2/3 epoch (loss 0.0116):  60%|█████▉    | 10125/16950 [1:50:16<1:19:34,  1.43it/s]Training 2/3 epoch (loss 0.0683):  60%|█████▉    | 10125/16950 [1:50:17<1:19:34,  1.43it/s]Training 2/3 epoch (loss 0.0683):  60%|█████▉    | 10126/16950 [1:50:17<1:17:57,  1.46it/s]Training 2/3 epoch (loss 0.0614):  60%|█████▉    | 10126/16950 [1:50:18<1:17:57,  1.46it/s]Training 2/3 epoch (loss 0.0614):  60%|█████▉    | 10127/16950 [1:50:18<1:29:38,  1.27it/s]Training 2/3 epoch (loss 0.3563):  60%|█████▉    | 10127/16950 [1:50:19<1:29:38,  1.27it/s]Training 2/3 epoch (loss 0.3563):  60%|█████▉    | 10128/16950 [1:50:19<1:20:39,  1.41it/s]Training 2/3 epoch (loss 0.0050):  60%|█████▉    | 10128/16950 [1:50:19<1:20:39,  1.41it/s]Training 2/3 epoch (loss 0.0050):  60%|█████▉    | 10129/16950 [1:50:19<1:13:27,  1.55it/s]Training 2/3 epoch (loss 0.0142):  60%|█████▉    | 10129/16950 [1:50:20<1:13:27,  1.55it/s]Training 2/3 epoch (loss 0.0142):  60%|█████▉    | 10130/16950 [1:50:20<1:06:16,  1.71it/s]Training 2/3 epoch (loss 0.4227):  60%|█████▉    | 10130/16950 [1:50:20<1:06:16,  1.71it/s]Training 2/3 epoch (loss 0.4227):  60%|█████▉    | 10131/16950 [1:50:20<1:01:45,  1.84it/s]Training 2/3 epoch (loss 0.0005):  60%|█████▉    | 10131/16950 [1:50:20<1:01:45,  1.84it/s]Training 2/3 epoch (loss 0.0005):  60%|█████▉    | 10132/16950 [1:50:20<57:11,  1.99it/s]  Training 2/3 epoch (loss 0.0131):  60%|█████▉    | 10132/16950 [1:50:21<57:11,  1.99it/s]Training 2/3 epoch (loss 0.0131):  60%|█████▉    | 10133/16950 [1:50:21<53:41,  2.12it/s]Training 2/3 epoch (loss 0.0793):  60%|█████▉    | 10133/16950 [1:50:21<53:41,  2.12it/s]Training 2/3 epoch (loss 0.0793):  60%|█████▉    | 10134/16950 [1:50:21<52:03,  2.18it/s]Training 2/3 epoch (loss 0.4765):  60%|█████▉    | 10134/16950 [1:50:22<52:03,  2.18it/s]Training 2/3 epoch (loss 0.4765):  60%|█████▉    | 10135/16950 [1:50:22<50:15,  2.26it/s]Training 2/3 epoch (loss 0.1466):  60%|█████▉    | 10135/16950 [1:50:23<50:15,  2.26it/s]Training 2/3 epoch (loss 0.1466):  60%|█████▉    | 10136/16950 [1:50:23<1:09:37,  1.63it/s]Training 2/3 epoch (loss 0.3103):  60%|█████▉    | 10136/16950 [1:50:23<1:09:37,  1.63it/s]Training 2/3 epoch (loss 0.3103):  60%|█████▉    | 10137/16950 [1:50:23<1:07:38,  1.68it/s]Training 2/3 epoch (loss 0.3718):  60%|█████▉    | 10137/16950 [1:50:24<1:07:38,  1.68it/s]Training 2/3 epoch (loss 0.3718):  60%|█████▉    | 10138/16950 [1:50:24<1:22:30,  1.38it/s]Training 2/3 epoch (loss 0.0104):  60%|█████▉    | 10138/16950 [1:50:25<1:22:30,  1.38it/s]Training 2/3 epoch (loss 0.0104):  60%|█████▉    | 10139/16950 [1:50:25<1:19:05,  1.44it/s]Training 2/3 epoch (loss 0.5504):  60%|█████▉    | 10139/16950 [1:50:26<1:19:05,  1.44it/s]Training 2/3 epoch (loss 0.5504):  60%|█████▉    | 10140/16950 [1:50:26<1:25:13,  1.33it/s]Training 2/3 epoch (loss 0.0769):  60%|█████▉    | 10140/16950 [1:50:26<1:25:13,  1.33it/s]Training 2/3 epoch (loss 0.0769):  60%|█████▉    | 10141/16950 [1:50:26<1:17:27,  1.46it/s]Training 2/3 epoch (loss 0.0067):  60%|█████▉    | 10141/16950 [1:50:27<1:17:27,  1.46it/s]Training 2/3 epoch (loss 0.0067):  60%|█████▉    | 10142/16950 [1:50:27<1:15:56,  1.49it/s]Training 2/3 epoch (loss 0.0154):  60%|█████▉    | 10142/16950 [1:50:27<1:15:56,  1.49it/s]Training 2/3 epoch (loss 0.0154):  60%|█████▉    | 10143/16950 [1:50:27<1:13:28,  1.54it/s]Training 2/3 epoch (loss 0.0036):  60%|█████▉    | 10143/16950 [1:50:28<1:13:28,  1.54it/s]Training 2/3 epoch (loss 0.0036):  60%|█████▉    | 10144/16950 [1:50:28<1:15:36,  1.50it/s]Training 2/3 epoch (loss 0.0814):  60%|█████▉    | 10144/16950 [1:50:29<1:15:36,  1.50it/s]Training 2/3 epoch (loss 0.0814):  60%|█████▉    | 10145/16950 [1:50:29<1:16:25,  1.48it/s]Training 2/3 epoch (loss 0.0810):  60%|█████▉    | 10145/16950 [1:50:30<1:16:25,  1.48it/s]Training 2/3 epoch (loss 0.0810):  60%|█████▉    | 10146/16950 [1:50:30<1:17:01,  1.47it/s]Training 2/3 epoch (loss 0.1360):  60%|█████▉    | 10146/16950 [1:50:30<1:17:01,  1.47it/s]Training 2/3 epoch (loss 0.1360):  60%|█████▉    | 10147/16950 [1:50:30<1:13:08,  1.55it/s]Training 2/3 epoch (loss 0.0051):  60%|█████▉    | 10147/16950 [1:50:30<1:13:08,  1.55it/s]Training 2/3 epoch (loss 0.0051):  60%|█████▉    | 10148/16950 [1:50:30<1:02:55,  1.80it/s]Training 2/3 epoch (loss 0.6941):  60%|█████▉    | 10148/16950 [1:50:31<1:02:55,  1.80it/s]Training 2/3 epoch (loss 0.6941):  60%|█████▉    | 10149/16950 [1:50:31<57:10,  1.98it/s]  Training 2/3 epoch (loss 0.0011):  60%|█████▉    | 10149/16950 [1:50:31<57:10,  1.98it/s]Training 2/3 epoch (loss 0.0011):  60%|█████▉    | 10150/16950 [1:50:31<1:00:35,  1.87it/s]Training 2/3 epoch (loss 0.0030):  60%|█████▉    | 10150/16950 [1:50:32<1:00:35,  1.87it/s]Training 2/3 epoch (loss 0.0030):  60%|█████▉    | 10151/16950 [1:50:32<59:39,  1.90it/s]  Training 2/3 epoch (loss 0.1187):  60%|█████▉    | 10151/16950 [1:50:33<59:39,  1.90it/s]Training 2/3 epoch (loss 0.1187):  60%|█████▉    | 10152/16950 [1:50:33<1:05:36,  1.73it/s]Training 2/3 epoch (loss 0.0026):  60%|█████▉    | 10152/16950 [1:50:34<1:05:36,  1.73it/s]Training 2/3 epoch (loss 0.0026):  60%|█████▉    | 10153/16950 [1:50:34<1:18:25,  1.44it/s]Training 2/3 epoch (loss 0.0205):  60%|█████▉    | 10153/16950 [1:50:34<1:18:25,  1.44it/s]Training 2/3 epoch (loss 0.0205):  60%|█████▉    | 10154/16950 [1:50:34<1:15:26,  1.50it/s]Training 2/3 epoch (loss 0.1043):  60%|█████▉    | 10154/16950 [1:50:35<1:15:26,  1.50it/s]Training 2/3 epoch (loss 0.1043):  60%|█████▉    | 10155/16950 [1:50:35<1:08:31,  1.65it/s]Training 2/3 epoch (loss 0.0400):  60%|█████▉    | 10155/16950 [1:50:35<1:08:31,  1.65it/s]Training 2/3 epoch (loss 0.0400):  60%|█████▉    | 10156/16950 [1:50:35<1:09:59,  1.62it/s]Training 2/3 epoch (loss 0.0159):  60%|█████▉    | 10156/16950 [1:50:36<1:09:59,  1.62it/s]Training 2/3 epoch (loss 0.0159):  60%|█████▉    | 10157/16950 [1:50:36<1:14:13,  1.53it/s]Training 2/3 epoch (loss 0.0377):  60%|█████▉    | 10157/16950 [1:50:37<1:14:13,  1.53it/s]Training 2/3 epoch (loss 0.0377):  60%|█████▉    | 10158/16950 [1:50:37<1:10:54,  1.60it/s]Training 2/3 epoch (loss 0.1371):  60%|█████▉    | 10158/16950 [1:50:37<1:10:54,  1.60it/s]Training 2/3 epoch (loss 0.1371):  60%|█████▉    | 10159/16950 [1:50:37<1:18:45,  1.44it/s]Training 2/3 epoch (loss 0.0385):  60%|█████▉    | 10159/16950 [1:50:38<1:18:45,  1.44it/s]Training 2/3 epoch (loss 0.0385):  60%|█████▉    | 10160/16950 [1:50:38<1:16:15,  1.48it/s]Training 2/3 epoch (loss 0.4196):  60%|█████▉    | 10160/16950 [1:50:39<1:16:15,  1.48it/s]Training 2/3 epoch (loss 0.4196):  60%|█████▉    | 10161/16950 [1:50:39<1:14:39,  1.52it/s]Training 2/3 epoch (loss 0.2455):  60%|█████▉    | 10161/16950 [1:50:39<1:14:39,  1.52it/s]Training 2/3 epoch (loss 0.2455):  60%|█████▉    | 10162/16950 [1:50:39<1:07:52,  1.67it/s]Training 2/3 epoch (loss 0.0011):  60%|█████▉    | 10162/16950 [1:50:40<1:07:52,  1.67it/s]Training 2/3 epoch (loss 0.0011):  60%|█████▉    | 10163/16950 [1:50:40<1:01:37,  1.84it/s]Training 2/3 epoch (loss 0.0361):  60%|█████▉    | 10163/16950 [1:50:40<1:01:37,  1.84it/s]Training 2/3 epoch (loss 0.0361):  60%|█████▉    | 10164/16950 [1:50:40<1:04:16,  1.76it/s]Training 2/3 epoch (loss 0.1384):  60%|█████▉    | 10164/16950 [1:50:41<1:04:16,  1.76it/s]Training 2/3 epoch (loss 0.1384):  60%|█████▉    | 10165/16950 [1:50:41<1:08:45,  1.64it/s]Training 2/3 epoch (loss 0.0920):  60%|█████▉    | 10165/16950 [1:50:42<1:08:45,  1.64it/s]Training 2/3 epoch (loss 0.0920):  60%|█████▉    | 10166/16950 [1:50:42<1:07:26,  1.68it/s]Training 2/3 epoch (loss 0.4568):  60%|█████▉    | 10166/16950 [1:50:42<1:07:26,  1.68it/s]Training 2/3 epoch (loss 0.4568):  60%|█████▉    | 10167/16950 [1:50:42<1:00:47,  1.86it/s]Training 2/3 epoch (loss 0.5174):  60%|█████▉    | 10167/16950 [1:50:42<1:00:47,  1.86it/s]Training 2/3 epoch (loss 0.5174):  60%|█████▉    | 10168/16950 [1:50:42<53:59,  2.09it/s]  Training 2/3 epoch (loss 0.1017):  60%|█████▉    | 10168/16950 [1:50:43<53:59,  2.09it/s]Training 2/3 epoch (loss 0.1017):  60%|█████▉    | 10169/16950 [1:50:43<53:51,  2.10it/s]Training 2/3 epoch (loss 0.0169):  60%|█████▉    | 10169/16950 [1:50:43<53:51,  2.10it/s]Training 2/3 epoch (loss 0.0169):  60%|██████    | 10170/16950 [1:50:43<59:33,  1.90it/s]Training 2/3 epoch (loss 0.3091):  60%|██████    | 10170/16950 [1:50:44<59:33,  1.90it/s]Training 2/3 epoch (loss 0.3091):  60%|██████    | 10171/16950 [1:50:44<1:01:12,  1.85it/s]Training 2/3 epoch (loss 0.0598):  60%|██████    | 10171/16950 [1:50:45<1:01:12,  1.85it/s]Training 2/3 epoch (loss 0.0598):  60%|██████    | 10172/16950 [1:50:45<1:11:22,  1.58it/s]Training 2/3 epoch (loss 0.0111):  60%|██████    | 10172/16950 [1:50:45<1:11:22,  1.58it/s]Training 2/3 epoch (loss 0.0111):  60%|██████    | 10173/16950 [1:50:45<1:11:04,  1.59it/s]Training 2/3 epoch (loss 0.0006):  60%|██████    | 10173/16950 [1:50:46<1:11:04,  1.59it/s]Training 2/3 epoch (loss 0.0006):  60%|██████    | 10174/16950 [1:50:46<1:07:57,  1.66it/s]Training 2/3 epoch (loss 0.2781):  60%|██████    | 10174/16950 [1:50:47<1:07:57,  1.66it/s]Training 2/3 epoch (loss 0.2781):  60%|██████    | 10175/16950 [1:50:47<1:22:31,  1.37it/s]Training 2/3 epoch (loss 0.0000):  60%|██████    | 10175/16950 [1:50:47<1:22:31,  1.37it/s]Training 2/3 epoch (loss 0.0000):  60%|██████    | 10176/16950 [1:50:47<1:10:28,  1.60it/s]Training 2/3 epoch (loss 0.3297):  60%|██████    | 10176/16950 [1:50:48<1:10:28,  1.60it/s]Training 2/3 epoch (loss 0.3297):  60%|██████    | 10177/16950 [1:50:48<1:03:35,  1.78it/s]Training 2/3 epoch (loss 0.4193):  60%|██████    | 10177/16950 [1:50:49<1:03:35,  1.78it/s]Training 2/3 epoch (loss 0.4193):  60%|██████    | 10178/16950 [1:50:49<1:11:40,  1.57it/s]Training 2/3 epoch (loss 0.0009):  60%|██████    | 10178/16950 [1:50:49<1:11:40,  1.57it/s]Training 2/3 epoch (loss 0.0009):  60%|██████    | 10179/16950 [1:50:49<1:16:26,  1.48it/s]Training 2/3 epoch (loss 0.2127):  60%|██████    | 10179/16950 [1:50:50<1:16:26,  1.48it/s]Training 2/3 epoch (loss 0.2127):  60%|██████    | 10180/16950 [1:50:50<1:10:49,  1.59it/s]Training 2/3 epoch (loss 0.4127):  60%|██████    | 10180/16950 [1:50:50<1:10:49,  1.59it/s]Training 2/3 epoch (loss 0.4127):  60%|██████    | 10181/16950 [1:50:50<1:02:32,  1.80it/s]Training 2/3 epoch (loss 0.0762):  60%|██████    | 10181/16950 [1:50:51<1:02:32,  1.80it/s]Training 2/3 epoch (loss 0.0762):  60%|██████    | 10182/16950 [1:50:51<56:11,  2.01it/s]  Training 2/3 epoch (loss 0.0304):  60%|██████    | 10182/16950 [1:50:51<56:11,  2.01it/s]Training 2/3 epoch (loss 0.0304):  60%|██████    | 10183/16950 [1:50:51<1:01:07,  1.85it/s]Training 2/3 epoch (loss 0.0150):  60%|██████    | 10183/16950 [1:50:52<1:01:07,  1.85it/s]Training 2/3 epoch (loss 0.0150):  60%|██████    | 10184/16950 [1:50:52<1:04:15,  1.75it/s]Training 2/3 epoch (loss 0.0006):  60%|██████    | 10184/16950 [1:50:53<1:04:15,  1.75it/s]Training 2/3 epoch (loss 0.0006):  60%|██████    | 10185/16950 [1:50:53<1:05:32,  1.72it/s]Training 2/3 epoch (loss 0.3636):  60%|██████    | 10185/16950 [1:50:53<1:05:32,  1.72it/s]Training 2/3 epoch (loss 0.3636):  60%|██████    | 10186/16950 [1:50:53<1:04:42,  1.74it/s]Training 2/3 epoch (loss 0.0034):  60%|██████    | 10186/16950 [1:50:54<1:04:42,  1.74it/s]Training 2/3 epoch (loss 0.0034):  60%|██████    | 10187/16950 [1:50:54<1:06:09,  1.70it/s]Training 2/3 epoch (loss 0.0224):  60%|██████    | 10187/16950 [1:50:54<1:06:09,  1.70it/s]Training 2/3 epoch (loss 0.0224):  60%|██████    | 10188/16950 [1:50:54<1:04:37,  1.74it/s]Training 2/3 epoch (loss 0.0046):  60%|██████    | 10188/16950 [1:50:55<1:04:37,  1.74it/s]Training 2/3 epoch (loss 0.0046):  60%|██████    | 10189/16950 [1:50:55<56:30,  1.99it/s]  Training 2/3 epoch (loss 0.0011):  60%|██████    | 10189/16950 [1:50:55<56:30,  1.99it/s]Training 2/3 epoch (loss 0.0011):  60%|██████    | 10190/16950 [1:50:55<55:02,  2.05it/s]Training 2/3 epoch (loss 0.0076):  60%|██████    | 10190/16950 [1:50:56<55:02,  2.05it/s]Training 2/3 epoch (loss 0.0076):  60%|██████    | 10191/16950 [1:50:56<55:09,  2.04it/s]Training 2/3 epoch (loss 0.0382):  60%|██████    | 10191/16950 [1:50:56<55:09,  2.04it/s]Training 2/3 epoch (loss 0.0382):  60%|██████    | 10192/16950 [1:50:56<55:05,  2.04it/s]Training 2/3 epoch (loss 0.0026):  60%|██████    | 10192/16950 [1:50:56<55:05,  2.04it/s]Training 2/3 epoch (loss 0.0026):  60%|██████    | 10193/16950 [1:50:56<54:56,  2.05it/s]Training 2/3 epoch (loss 0.0082):  60%|██████    | 10193/16950 [1:50:57<54:56,  2.05it/s]Training 2/3 epoch (loss 0.0082):  60%|██████    | 10194/16950 [1:50:57<1:02:00,  1.82it/s]Training 2/3 epoch (loss 0.0318):  60%|██████    | 10194/16950 [1:50:58<1:02:00,  1.82it/s]Training 2/3 epoch (loss 0.0318):  60%|██████    | 10195/16950 [1:50:58<1:01:36,  1.83it/s]Training 2/3 epoch (loss 0.0463):  60%|██████    | 10195/16950 [1:50:58<1:01:36,  1.83it/s]Training 2/3 epoch (loss 0.0463):  60%|██████    | 10196/16950 [1:50:58<1:02:39,  1.80it/s]Training 2/3 epoch (loss 0.1807):  60%|██████    | 10196/16950 [1:50:59<1:02:39,  1.80it/s]Training 2/3 epoch (loss 0.1807):  60%|██████    | 10197/16950 [1:50:59<59:01,  1.91it/s]  Training 2/3 epoch (loss 0.0021):  60%|██████    | 10197/16950 [1:50:59<59:01,  1.91it/s]Training 2/3 epoch (loss 0.0021):  60%|██████    | 10198/16950 [1:50:59<1:00:25,  1.86it/s]Training 2/3 epoch (loss 0.4200):  60%|██████    | 10198/16950 [1:51:00<1:00:25,  1.86it/s]Training 2/3 epoch (loss 0.4200):  60%|██████    | 10199/16950 [1:51:00<1:11:33,  1.57it/s]Training 2/3 epoch (loss 0.0918):  60%|██████    | 10199/16950 [1:51:01<1:11:33,  1.57it/s]Training 2/3 epoch (loss 0.0918):  60%|██████    | 10200/16950 [1:51:01<1:12:56,  1.54it/s]Training 2/3 epoch (loss 0.5521):  60%|██████    | 10200/16950 [1:51:01<1:12:56,  1.54it/s]Training 2/3 epoch (loss 0.5521):  60%|██████    | 10201/16950 [1:51:01<1:10:39,  1.59it/s]Training 2/3 epoch (loss 0.7234):  60%|██████    | 10201/16950 [1:51:02<1:10:39,  1.59it/s]Training 2/3 epoch (loss 0.7234):  60%|██████    | 10202/16950 [1:51:02<1:03:38,  1.77it/s]Training 2/3 epoch (loss 0.0011):  60%|██████    | 10202/16950 [1:51:03<1:03:38,  1.77it/s]Training 2/3 epoch (loss 0.0011):  60%|██████    | 10203/16950 [1:51:03<1:15:22,  1.49it/s]Training 2/3 epoch (loss 0.1289):  60%|██████    | 10203/16950 [1:51:03<1:15:22,  1.49it/s]Training 2/3 epoch (loss 0.1289):  60%|██████    | 10204/16950 [1:51:03<1:13:42,  1.53it/s]Training 2/3 epoch (loss 0.0045):  60%|██████    | 10204/16950 [1:51:04<1:13:42,  1.53it/s]Training 2/3 epoch (loss 0.0045):  60%|██████    | 10205/16950 [1:51:04<1:18:42,  1.43it/s]Training 2/3 epoch (loss 0.0554):  60%|██████    | 10205/16950 [1:51:05<1:18:42,  1.43it/s]Training 2/3 epoch (loss 0.0554):  60%|██████    | 10206/16950 [1:51:05<1:11:18,  1.58it/s]Training 2/3 epoch (loss 0.0043):  60%|██████    | 10206/16950 [1:51:05<1:11:18,  1.58it/s]Training 2/3 epoch (loss 0.0043):  60%|██████    | 10207/16950 [1:51:05<1:12:54,  1.54it/s]Training 2/3 epoch (loss 0.0038):  60%|██████    | 10207/16950 [1:51:06<1:12:54,  1.54it/s]Training 2/3 epoch (loss 0.0038):  60%|██████    | 10208/16950 [1:51:06<1:06:32,  1.69it/s]Training 2/3 epoch (loss 0.0371):  60%|██████    | 10208/16950 [1:51:06<1:06:32,  1.69it/s]Training 2/3 epoch (loss 0.0371):  60%|██████    | 10209/16950 [1:51:06<1:07:18,  1.67it/s]Training 2/3 epoch (loss 0.1280):  60%|██████    | 10209/16950 [1:51:07<1:07:18,  1.67it/s]Training 2/3 epoch (loss 0.1280):  60%|██████    | 10210/16950 [1:51:07<1:09:21,  1.62it/s]Training 2/3 epoch (loss 0.4925):  60%|██████    | 10210/16950 [1:51:08<1:09:21,  1.62it/s]Training 2/3 epoch (loss 0.4925):  60%|██████    | 10211/16950 [1:51:08<1:06:39,  1.68it/s]Training 2/3 epoch (loss 0.6049):  60%|██████    | 10211/16950 [1:51:09<1:06:39,  1.68it/s]Training 2/3 epoch (loss 0.6049):  60%|██████    | 10212/16950 [1:51:09<1:18:07,  1.44it/s]Training 2/3 epoch (loss 0.3999):  60%|██████    | 10212/16950 [1:51:09<1:18:07,  1.44it/s]Training 2/3 epoch (loss 0.3999):  60%|██████    | 10213/16950 [1:51:09<1:16:17,  1.47it/s]Training 2/3 epoch (loss 0.2335):  60%|██████    | 10213/16950 [1:51:10<1:16:17,  1.47it/s]Training 2/3 epoch (loss 0.2335):  60%|██████    | 10214/16950 [1:51:10<1:07:28,  1.66it/s]Training 2/3 epoch (loss 0.0003):  60%|██████    | 10214/16950 [1:51:11<1:07:28,  1.66it/s]Training 2/3 epoch (loss 0.0003):  60%|██████    | 10215/16950 [1:51:11<1:22:33,  1.36it/s]Training 2/3 epoch (loss 0.0013):  60%|██████    | 10215/16950 [1:51:11<1:22:33,  1.36it/s]Training 2/3 epoch (loss 0.0013):  60%|██████    | 10216/16950 [1:51:11<1:16:15,  1.47it/s]Training 2/3 epoch (loss 0.0123):  60%|██████    | 10216/16950 [1:51:12<1:16:15,  1.47it/s]Training 2/3 epoch (loss 0.0123):  60%|██████    | 10217/16950 [1:51:12<1:12:58,  1.54it/s]Training 2/3 epoch (loss 0.2581):  60%|██████    | 10217/16950 [1:51:13<1:12:58,  1.54it/s]Training 2/3 epoch (loss 0.2581):  60%|██████    | 10218/16950 [1:51:13<1:15:24,  1.49it/s]Training 2/3 epoch (loss 0.0030):  60%|██████    | 10218/16950 [1:51:13<1:15:24,  1.49it/s]Training 2/3 epoch (loss 0.0030):  60%|██████    | 10219/16950 [1:51:13<1:16:03,  1.47it/s]Training 2/3 epoch (loss 0.0471):  60%|██████    | 10219/16950 [1:51:14<1:16:03,  1.47it/s]Training 2/3 epoch (loss 0.0471):  60%|██████    | 10220/16950 [1:51:14<1:09:56,  1.60it/s]Training 2/3 epoch (loss 0.4882):  60%|██████    | 10220/16950 [1:51:14<1:09:56,  1.60it/s]Training 2/3 epoch (loss 0.4882):  60%|██████    | 10221/16950 [1:51:14<1:12:54,  1.54it/s]Training 2/3 epoch (loss 0.2437):  60%|██████    | 10221/16950 [1:51:15<1:12:54,  1.54it/s]Training 2/3 epoch (loss 0.2437):  60%|██████    | 10222/16950 [1:51:15<1:07:31,  1.66it/s]Training 2/3 epoch (loss 0.1047):  60%|██████    | 10222/16950 [1:51:15<1:07:31,  1.66it/s]Training 2/3 epoch (loss 0.1047):  60%|██████    | 10223/16950 [1:51:15<1:01:04,  1.84it/s]Training 2/3 epoch (loss 0.0000):  60%|██████    | 10223/16950 [1:51:16<1:01:04,  1.84it/s]Training 2/3 epoch (loss 0.0000):  60%|██████    | 10224/16950 [1:51:16<58:24,  1.92it/s]  Training 2/3 epoch (loss 0.0329):  60%|██████    | 10224/16950 [1:51:16<58:24,  1.92it/s]Training 2/3 epoch (loss 0.0329):  60%|██████    | 10225/16950 [1:51:16<1:00:57,  1.84it/s]Training 2/3 epoch (loss 0.0428):  60%|██████    | 10225/16950 [1:51:17<1:00:57,  1.84it/s]Training 2/3 epoch (loss 0.0428):  60%|██████    | 10226/16950 [1:51:17<1:12:11,  1.55it/s]Training 2/3 epoch (loss 0.0028):  60%|██████    | 10226/16950 [1:51:18<1:12:11,  1.55it/s]Training 2/3 epoch (loss 0.0028):  60%|██████    | 10227/16950 [1:51:18<1:14:13,  1.51it/s]Training 2/3 epoch (loss 0.1094):  60%|██████    | 10227/16950 [1:51:19<1:14:13,  1.51it/s]Training 2/3 epoch (loss 0.1094):  60%|██████    | 10228/16950 [1:51:19<1:21:17,  1.38it/s]Training 2/3 epoch (loss 0.1494):  60%|██████    | 10228/16950 [1:51:19<1:21:17,  1.38it/s]Training 2/3 epoch (loss 0.1494):  60%|██████    | 10229/16950 [1:51:19<1:16:14,  1.47it/s]Training 2/3 epoch (loss 0.0015):  60%|██████    | 10229/16950 [1:51:20<1:16:14,  1.47it/s]Training 2/3 epoch (loss 0.0015):  60%|██████    | 10230/16950 [1:51:20<1:09:44,  1.61it/s]Training 2/3 epoch (loss 0.6308):  60%|██████    | 10230/16950 [1:51:20<1:09:44,  1.61it/s]Training 2/3 epoch (loss 0.6308):  60%|██████    | 10231/16950 [1:51:20<1:03:45,  1.76it/s]Training 2/3 epoch (loss 0.2014):  60%|██████    | 10231/16950 [1:51:21<1:03:45,  1.76it/s]Training 2/3 epoch (loss 0.2014):  60%|██████    | 10232/16950 [1:51:21<1:11:17,  1.57it/s]Training 2/3 epoch (loss 0.0007):  60%|██████    | 10232/16950 [1:51:22<1:11:17,  1.57it/s]Training 2/3 epoch (loss 0.0007):  60%|██████    | 10233/16950 [1:51:22<1:12:35,  1.54it/s]Training 2/3 epoch (loss 0.0109):  60%|██████    | 10233/16950 [1:51:22<1:12:35,  1.54it/s]Training 2/3 epoch (loss 0.0109):  60%|██████    | 10234/16950 [1:51:22<1:07:41,  1.65it/s]Training 2/3 epoch (loss 0.0390):  60%|██████    | 10234/16950 [1:51:23<1:07:41,  1.65it/s]Training 2/3 epoch (loss 0.0390):  60%|██████    | 10235/16950 [1:51:23<1:09:07,  1.62it/s]Training 2/3 epoch (loss 0.5449):  60%|██████    | 10235/16950 [1:51:24<1:09:07,  1.62it/s]Training 2/3 epoch (loss 0.5449):  60%|██████    | 10236/16950 [1:51:24<1:17:41,  1.44it/s]Training 2/3 epoch (loss 0.0033):  60%|██████    | 10236/16950 [1:51:24<1:17:41,  1.44it/s]Training 2/3 epoch (loss 0.0033):  60%|██████    | 10237/16950 [1:51:24<1:12:47,  1.54it/s]Training 2/3 epoch (loss 0.0152):  60%|██████    | 10237/16950 [1:51:25<1:12:47,  1.54it/s]Training 2/3 epoch (loss 0.0152):  60%|██████    | 10238/16950 [1:51:25<1:08:22,  1.64it/s]Training 2/3 epoch (loss 0.0276):  60%|██████    | 10238/16950 [1:51:26<1:08:22,  1.64it/s]Training 2/3 epoch (loss 0.0276):  60%|██████    | 10239/16950 [1:51:26<1:11:08,  1.57it/s]Training 2/3 epoch (loss 0.1706):  60%|██████    | 10239/16950 [1:51:26<1:11:08,  1.57it/s]Training 2/3 epoch (loss 0.1706):  60%|██████    | 10240/16950 [1:51:26<1:12:03,  1.55it/s]Training 2/3 epoch (loss 0.0601):  60%|██████    | 10240/16950 [1:51:27<1:12:03,  1.55it/s]Training 2/3 epoch (loss 0.0601):  60%|██████    | 10241/16950 [1:51:27<1:16:08,  1.47it/s]Training 2/3 epoch (loss 0.0640):  60%|██████    | 10241/16950 [1:51:28<1:16:08,  1.47it/s]Training 2/3 epoch (loss 0.0640):  60%|██████    | 10242/16950 [1:51:28<1:21:51,  1.37it/s]Training 2/3 epoch (loss 0.1562):  60%|██████    | 10242/16950 [1:51:29<1:21:51,  1.37it/s]Training 2/3 epoch (loss 0.1562):  60%|██████    | 10243/16950 [1:51:29<1:23:42,  1.34it/s]Training 2/3 epoch (loss 0.3905):  60%|██████    | 10243/16950 [1:51:29<1:23:42,  1.34it/s]Training 2/3 epoch (loss 0.3905):  60%|██████    | 10244/16950 [1:51:29<1:16:32,  1.46it/s]Training 2/3 epoch (loss 0.1222):  60%|██████    | 10244/16950 [1:51:30<1:16:32,  1.46it/s]Training 2/3 epoch (loss 0.1222):  60%|██████    | 10245/16950 [1:51:30<1:07:53,  1.65it/s]Training 2/3 epoch (loss 0.0011):  60%|██████    | 10245/16950 [1:51:30<1:07:53,  1.65it/s]Training 2/3 epoch (loss 0.0011):  60%|██████    | 10246/16950 [1:51:30<1:00:12,  1.86it/s]Training 2/3 epoch (loss 0.1897):  60%|██████    | 10246/16950 [1:51:31<1:00:12,  1.86it/s]Training 2/3 epoch (loss 0.1897):  60%|██████    | 10247/16950 [1:51:31<1:04:45,  1.73it/s]Training 2/3 epoch (loss 0.0205):  60%|██████    | 10247/16950 [1:51:31<1:04:45,  1.73it/s]Training 2/3 epoch (loss 0.0205):  60%|██████    | 10248/16950 [1:51:31<1:06:31,  1.68it/s]Training 2/3 epoch (loss 0.0058):  60%|██████    | 10248/16950 [1:51:32<1:06:31,  1.68it/s]Training 2/3 epoch (loss 0.0058):  60%|██████    | 10249/16950 [1:51:32<1:06:40,  1.68it/s]Training 2/3 epoch (loss 0.0053):  60%|██████    | 10249/16950 [1:51:33<1:06:40,  1.68it/s]Training 2/3 epoch (loss 0.0053):  60%|██████    | 10250/16950 [1:51:33<1:18:33,  1.42it/s]Training 2/3 epoch (loss 0.0060):  60%|██████    | 10250/16950 [1:51:33<1:18:33,  1.42it/s]Training 2/3 epoch (loss 0.0060):  60%|██████    | 10251/16950 [1:51:33<1:13:59,  1.51it/s]Training 2/3 epoch (loss 0.0612):  60%|██████    | 10251/16950 [1:51:34<1:13:59,  1.51it/s]Training 2/3 epoch (loss 0.0612):  60%|██████    | 10252/16950 [1:51:34<1:24:45,  1.32it/s]Training 2/3 epoch (loss 0.0003):  60%|██████    | 10252/16950 [1:51:35<1:24:45,  1.32it/s]Training 2/3 epoch (loss 0.0003):  60%|██████    | 10253/16950 [1:51:35<1:21:32,  1.37it/s]Training 2/3 epoch (loss 0.0000):  60%|██████    | 10253/16950 [1:51:36<1:21:32,  1.37it/s]Training 2/3 epoch (loss 0.0000):  60%|██████    | 10254/16950 [1:51:36<1:17:57,  1.43it/s]Training 2/3 epoch (loss 0.0015):  60%|██████    | 10254/16950 [1:51:36<1:17:57,  1.43it/s]Training 2/3 epoch (loss 0.0015):  61%|██████    | 10255/16950 [1:51:36<1:12:16,  1.54it/s]Training 2/3 epoch (loss 0.5646):  61%|██████    | 10255/16950 [1:51:37<1:12:16,  1.54it/s]Training 2/3 epoch (loss 0.5646):  61%|██████    | 10256/16950 [1:51:37<1:14:45,  1.49it/s]Training 2/3 epoch (loss 0.0032):  61%|██████    | 10256/16950 [1:51:37<1:14:45,  1.49it/s]Training 2/3 epoch (loss 0.0032):  61%|██████    | 10257/16950 [1:51:37<1:03:05,  1.77it/s]Training 2/3 epoch (loss 0.0785):  61%|██████    | 10257/16950 [1:51:38<1:03:05,  1.77it/s]Training 2/3 epoch (loss 0.0785):  61%|██████    | 10258/16950 [1:51:38<1:02:00,  1.80it/s]Training 2/3 epoch (loss 0.3357):  61%|██████    | 10258/16950 [1:51:38<1:02:00,  1.80it/s]Training 2/3 epoch (loss 0.3357):  61%|██████    | 10259/16950 [1:51:38<1:02:37,  1.78it/s]Training 2/3 epoch (loss 0.0063):  61%|██████    | 10259/16950 [1:51:39<1:02:37,  1.78it/s]Training 2/3 epoch (loss 0.0063):  61%|██████    | 10260/16950 [1:51:39<1:06:48,  1.67it/s]Training 2/3 epoch (loss 0.0354):  61%|██████    | 10260/16950 [1:51:40<1:06:48,  1.67it/s]Training 2/3 epoch (loss 0.0354):  61%|██████    | 10261/16950 [1:51:40<1:01:09,  1.82it/s]Training 2/3 epoch (loss 0.4302):  61%|██████    | 10261/16950 [1:51:40<1:01:09,  1.82it/s]Training 2/3 epoch (loss 0.4302):  61%|██████    | 10262/16950 [1:51:40<1:11:46,  1.55it/s]Training 2/3 epoch (loss 0.7934):  61%|██████    | 10262/16950 [1:51:41<1:11:46,  1.55it/s]Training 2/3 epoch (loss 0.7934):  61%|██████    | 10263/16950 [1:51:41<1:25:04,  1.31it/s]Training 2/3 epoch (loss 0.0002):  61%|██████    | 10263/16950 [1:51:42<1:25:04,  1.31it/s]Training 2/3 epoch (loss 0.0002):  61%|██████    | 10264/16950 [1:51:42<1:14:45,  1.49it/s]Training 2/3 epoch (loss 0.0044):  61%|██████    | 10264/16950 [1:51:42<1:14:45,  1.49it/s]Training 2/3 epoch (loss 0.0044):  61%|██████    | 10265/16950 [1:51:42<1:12:19,  1.54it/s]Training 2/3 epoch (loss 0.0033):  61%|██████    | 10265/16950 [1:51:43<1:12:19,  1.54it/s]Training 2/3 epoch (loss 0.0033):  61%|██████    | 10266/16950 [1:51:43<1:09:59,  1.59it/s]Training 2/3 epoch (loss 0.1345):  61%|██████    | 10266/16950 [1:51:44<1:09:59,  1.59it/s]Training 2/3 epoch (loss 0.1345):  61%|██████    | 10267/16950 [1:51:44<1:12:05,  1.54it/s]Training 2/3 epoch (loss 0.0212):  61%|██████    | 10267/16950 [1:51:44<1:12:05,  1.54it/s]Training 2/3 epoch (loss 0.0212):  61%|██████    | 10268/16950 [1:51:44<1:10:30,  1.58it/s]Training 2/3 epoch (loss 0.2195):  61%|██████    | 10268/16950 [1:51:45<1:10:30,  1.58it/s]Training 2/3 epoch (loss 0.2195):  61%|██████    | 10269/16950 [1:51:45<1:02:08,  1.79it/s]Training 2/3 epoch (loss 0.0004):  61%|██████    | 10269/16950 [1:51:45<1:02:08,  1.79it/s]Training 2/3 epoch (loss 0.0004):  61%|██████    | 10270/16950 [1:51:45<1:01:48,  1.80it/s]Training 2/3 epoch (loss 0.0348):  61%|██████    | 10270/16950 [1:51:46<1:01:48,  1.80it/s]Training 2/3 epoch (loss 0.0348):  61%|██████    | 10271/16950 [1:51:46<56:56,  1.95it/s]  Training 2/3 epoch (loss 0.0008):  61%|██████    | 10271/16950 [1:51:46<56:56,  1.95it/s]Training 2/3 epoch (loss 0.0008):  61%|██████    | 10272/16950 [1:51:46<52:18,  2.13it/s]Training 2/3 epoch (loss 0.2371):  61%|██████    | 10272/16950 [1:51:47<52:18,  2.13it/s]Training 2/3 epoch (loss 0.2371):  61%|██████    | 10273/16950 [1:51:47<58:13,  1.91it/s]Training 2/3 epoch (loss 0.3918):  61%|██████    | 10273/16950 [1:51:48<58:13,  1.91it/s]Training 2/3 epoch (loss 0.3918):  61%|██████    | 10274/16950 [1:51:48<1:15:49,  1.47it/s]Training 2/3 epoch (loss 0.3714):  61%|██████    | 10274/16950 [1:51:49<1:15:49,  1.47it/s]Training 2/3 epoch (loss 0.3714):  61%|██████    | 10275/16950 [1:51:49<1:17:53,  1.43it/s]Training 2/3 epoch (loss 0.3960):  61%|██████    | 10275/16950 [1:51:49<1:17:53,  1.43it/s]Training 2/3 epoch (loss 0.3960):  61%|██████    | 10276/16950 [1:51:49<1:10:50,  1.57it/s]Training 2/3 epoch (loss 0.0258):  61%|██████    | 10276/16950 [1:51:49<1:10:50,  1.57it/s]Training 2/3 epoch (loss 0.0258):  61%|██████    | 10277/16950 [1:51:49<1:05:45,  1.69it/s]Training 2/3 epoch (loss 0.0023):  61%|██████    | 10277/16950 [1:51:50<1:05:45,  1.69it/s]Training 2/3 epoch (loss 0.0023):  61%|██████    | 10278/16950 [1:51:50<58:16,  1.91it/s]  Training 2/3 epoch (loss 0.0736):  61%|██████    | 10278/16950 [1:51:51<58:16,  1.91it/s]Training 2/3 epoch (loss 0.0736):  61%|██████    | 10279/16950 [1:51:51<1:02:41,  1.77it/s]Training 2/3 epoch (loss 0.4561):  61%|██████    | 10279/16950 [1:51:51<1:02:41,  1.77it/s]Training 2/3 epoch (loss 0.4561):  61%|██████    | 10280/16950 [1:51:51<1:09:13,  1.61it/s]Training 2/3 epoch (loss 0.0525):  61%|██████    | 10280/16950 [1:51:52<1:09:13,  1.61it/s]Training 2/3 epoch (loss 0.0525):  61%|██████    | 10281/16950 [1:51:52<1:10:24,  1.58it/s]Training 2/3 epoch (loss 0.0084):  61%|██████    | 10281/16950 [1:51:53<1:10:24,  1.58it/s]Training 2/3 epoch (loss 0.0084):  61%|██████    | 10282/16950 [1:51:53<1:09:32,  1.60it/s]Training 2/3 epoch (loss 0.0046):  61%|██████    | 10282/16950 [1:51:53<1:09:32,  1.60it/s]Training 2/3 epoch (loss 0.0046):  61%|██████    | 10283/16950 [1:51:53<1:09:44,  1.59it/s]Training 2/3 epoch (loss 0.0052):  61%|██████    | 10283/16950 [1:51:54<1:09:44,  1.59it/s]Training 2/3 epoch (loss 0.0052):  61%|██████    | 10284/16950 [1:51:54<1:10:59,  1.57it/s]Training 2/3 epoch (loss 0.0008):  61%|██████    | 10284/16950 [1:51:54<1:10:59,  1.57it/s]Training 2/3 epoch (loss 0.0008):  61%|██████    | 10285/16950 [1:51:54<1:04:25,  1.72it/s]Training 2/3 epoch (loss 0.1927):  61%|██████    | 10285/16950 [1:51:55<1:04:25,  1.72it/s]Training 2/3 epoch (loss 0.1927):  61%|██████    | 10286/16950 [1:51:55<1:00:12,  1.84it/s]Training 2/3 epoch (loss 0.0126):  61%|██████    | 10286/16950 [1:51:55<1:00:12,  1.84it/s]Training 2/3 epoch (loss 0.0126):  61%|██████    | 10287/16950 [1:51:55<1:00:22,  1.84it/s]Training 2/3 epoch (loss 0.2597):  61%|██████    | 10287/16950 [1:51:56<1:00:22,  1.84it/s]Training 2/3 epoch (loss 0.2597):  61%|██████    | 10288/16950 [1:51:56<57:14,  1.94it/s]  Training 2/3 epoch (loss 0.0010):  61%|██████    | 10288/16950 [1:51:56<57:14,  1.94it/s]Training 2/3 epoch (loss 0.0010):  61%|██████    | 10289/16950 [1:51:56<52:29,  2.12it/s]Training 2/3 epoch (loss 0.0000):  61%|██████    | 10289/16950 [1:51:57<52:29,  2.12it/s]Training 2/3 epoch (loss 0.0000):  61%|██████    | 10290/16950 [1:51:57<51:26,  2.16it/s]Training 2/3 epoch (loss 0.0048):  61%|██████    | 10290/16950 [1:51:57<51:26,  2.16it/s]Training 2/3 epoch (loss 0.0048):  61%|██████    | 10291/16950 [1:51:57<51:41,  2.15it/s]Training 2/3 epoch (loss 0.3378):  61%|██████    | 10291/16950 [1:51:57<51:41,  2.15it/s]Training 2/3 epoch (loss 0.3378):  61%|██████    | 10292/16950 [1:51:57<50:03,  2.22it/s]Training 2/3 epoch (loss 0.0600):  61%|██████    | 10292/16950 [1:51:58<50:03,  2.22it/s]Training 2/3 epoch (loss 0.0600):  61%|██████    | 10293/16950 [1:51:58<52:27,  2.11it/s]Training 2/3 epoch (loss 0.0957):  61%|██████    | 10293/16950 [1:51:58<52:27,  2.11it/s]Training 2/3 epoch (loss 0.0957):  61%|██████    | 10294/16950 [1:51:58<51:01,  2.17it/s]Training 2/3 epoch (loss 0.0181):  61%|██████    | 10294/16950 [1:51:59<51:01,  2.17it/s]Training 2/3 epoch (loss 0.0181):  61%|██████    | 10295/16950 [1:51:59<54:09,  2.05it/s]Training 2/3 epoch (loss 0.0185):  61%|██████    | 10295/16950 [1:52:00<54:09,  2.05it/s]Training 2/3 epoch (loss 0.0185):  61%|██████    | 10296/16950 [1:52:00<1:06:50,  1.66it/s]Training 2/3 epoch (loss 0.6083):  61%|██████    | 10296/16950 [1:52:01<1:06:50,  1.66it/s]Training 2/3 epoch (loss 0.6083):  61%|██████    | 10297/16950 [1:52:01<1:10:14,  1.58it/s]Training 2/3 epoch (loss 0.0279):  61%|██████    | 10297/16950 [1:52:01<1:10:14,  1.58it/s]Training 2/3 epoch (loss 0.0279):  61%|██████    | 10298/16950 [1:52:01<1:08:53,  1.61it/s]Training 2/3 epoch (loss 0.0111):  61%|██████    | 10298/16950 [1:52:02<1:08:53,  1.61it/s]Training 2/3 epoch (loss 0.0111):  61%|██████    | 10299/16950 [1:52:02<1:17:03,  1.44it/s]Training 2/3 epoch (loss 0.0006):  61%|██████    | 10299/16950 [1:52:03<1:17:03,  1.44it/s]Training 2/3 epoch (loss 0.0006):  61%|██████    | 10300/16950 [1:52:03<1:13:42,  1.50it/s]Training 2/3 epoch (loss 0.0512):  61%|██████    | 10300/16950 [1:52:03<1:13:42,  1.50it/s]Training 2/3 epoch (loss 0.0512):  61%|██████    | 10301/16950 [1:52:03<1:16:23,  1.45it/s]Training 2/3 epoch (loss 0.0109):  61%|██████    | 10301/16950 [1:52:04<1:16:23,  1.45it/s]Training 2/3 epoch (loss 0.0109):  61%|██████    | 10302/16950 [1:52:04<1:14:26,  1.49it/s]Training 2/3 epoch (loss 0.0017):  61%|██████    | 10302/16950 [1:52:04<1:14:26,  1.49it/s]Training 2/3 epoch (loss 0.0017):  61%|██████    | 10303/16950 [1:52:04<1:08:21,  1.62it/s]Training 2/3 epoch (loss 0.0329):  61%|██████    | 10303/16950 [1:52:05<1:08:21,  1.62it/s]Training 2/3 epoch (loss 0.0329):  61%|██████    | 10304/16950 [1:52:05<1:09:02,  1.60it/s]Training 2/3 epoch (loss 0.0171):  61%|██████    | 10304/16950 [1:52:06<1:09:02,  1.60it/s]Training 2/3 epoch (loss 0.0171):  61%|██████    | 10305/16950 [1:52:06<1:04:04,  1.73it/s]Training 2/3 epoch (loss 0.3182):  61%|██████    | 10305/16950 [1:52:06<1:04:04,  1.73it/s]Training 2/3 epoch (loss 0.3182):  61%|██████    | 10306/16950 [1:52:06<1:06:33,  1.66it/s]Training 2/3 epoch (loss 0.0012):  61%|██████    | 10306/16950 [1:52:07<1:06:33,  1.66it/s]Training 2/3 epoch (loss 0.0012):  61%|██████    | 10307/16950 [1:52:07<1:04:00,  1.73it/s]Training 2/3 epoch (loss 0.0052):  61%|██████    | 10307/16950 [1:52:07<1:04:00,  1.73it/s]Training 2/3 epoch (loss 0.0052):  61%|██████    | 10308/16950 [1:52:07<1:01:18,  1.81it/s]Training 2/3 epoch (loss 0.0006):  61%|██████    | 10308/16950 [1:52:08<1:01:18,  1.81it/s]Training 2/3 epoch (loss 0.0006):  61%|██████    | 10309/16950 [1:52:08<57:44,  1.92it/s]  Training 2/3 epoch (loss 0.0087):  61%|██████    | 10309/16950 [1:52:08<57:44,  1.92it/s]Training 2/3 epoch (loss 0.0087):  61%|██████    | 10310/16950 [1:52:08<53:21,  2.07it/s]Training 2/3 epoch (loss 0.3552):  61%|██████    | 10310/16950 [1:52:09<53:21,  2.07it/s]Training 2/3 epoch (loss 0.3552):  61%|██████    | 10311/16950 [1:52:09<1:04:45,  1.71it/s]Training 2/3 epoch (loss 0.1905):  61%|██████    | 10311/16950 [1:52:10<1:04:45,  1.71it/s]Training 2/3 epoch (loss 0.1905):  61%|██████    | 10312/16950 [1:52:10<1:11:47,  1.54it/s]Training 2/3 epoch (loss 0.3738):  61%|██████    | 10312/16950 [1:52:10<1:11:47,  1.54it/s]Training 2/3 epoch (loss 0.3738):  61%|██████    | 10313/16950 [1:52:10<1:13:32,  1.50it/s]Training 2/3 epoch (loss 0.0652):  61%|██████    | 10313/16950 [1:52:11<1:13:32,  1.50it/s]Training 2/3 epoch (loss 0.0652):  61%|██████    | 10314/16950 [1:52:11<1:11:17,  1.55it/s]Training 2/3 epoch (loss 0.0411):  61%|██████    | 10314/16950 [1:52:12<1:11:17,  1.55it/s]Training 2/3 epoch (loss 0.0411):  61%|██████    | 10315/16950 [1:52:12<1:09:47,  1.58it/s]Training 2/3 epoch (loss 0.0362):  61%|██████    | 10315/16950 [1:52:12<1:09:47,  1.58it/s]Training 2/3 epoch (loss 0.0362):  61%|██████    | 10316/16950 [1:52:12<1:12:34,  1.52it/s]Training 2/3 epoch (loss 0.3260):  61%|██████    | 10316/16950 [1:52:13<1:12:34,  1.52it/s]Training 2/3 epoch (loss 0.3260):  61%|██████    | 10317/16950 [1:52:13<1:14:41,  1.48it/s]Training 2/3 epoch (loss 0.0014):  61%|██████    | 10317/16950 [1:52:13<1:14:41,  1.48it/s]Training 2/3 epoch (loss 0.0014):  61%|██████    | 10318/16950 [1:52:13<1:07:16,  1.64it/s]Training 2/3 epoch (loss 0.0010):  61%|██████    | 10318/16950 [1:52:14<1:07:16,  1.64it/s]Training 2/3 epoch (loss 0.0010):  61%|██████    | 10319/16950 [1:52:14<1:10:07,  1.58it/s]Training 2/3 epoch (loss 0.0015):  61%|██████    | 10319/16950 [1:52:15<1:10:07,  1.58it/s]Training 2/3 epoch (loss 0.0015):  61%|██████    | 10320/16950 [1:52:15<1:13:35,  1.50it/s]Training 2/3 epoch (loss 0.0001):  61%|██████    | 10320/16950 [1:52:15<1:13:35,  1.50it/s]Training 2/3 epoch (loss 0.0001):  61%|██████    | 10321/16950 [1:52:15<1:06:36,  1.66it/s]Training 2/3 epoch (loss 0.4022):  61%|██████    | 10321/16950 [1:52:16<1:06:36,  1.66it/s]Training 2/3 epoch (loss 0.4022):  61%|██████    | 10322/16950 [1:52:16<1:06:16,  1.67it/s]Training 2/3 epoch (loss 0.0221):  61%|██████    | 10322/16950 [1:52:17<1:06:16,  1.67it/s]Training 2/3 epoch (loss 0.0221):  61%|██████    | 10323/16950 [1:52:17<1:06:59,  1.65it/s]Training 2/3 epoch (loss 0.0347):  61%|██████    | 10323/16950 [1:52:17<1:06:59,  1.65it/s]Training 2/3 epoch (loss 0.0347):  61%|██████    | 10324/16950 [1:52:17<1:13:52,  1.50it/s]Training 2/3 epoch (loss 0.3246):  61%|██████    | 10324/16950 [1:52:18<1:13:52,  1.50it/s]Training 2/3 epoch (loss 0.3246):  61%|██████    | 10325/16950 [1:52:18<1:26:57,  1.27it/s]Training 2/3 epoch (loss 0.2144):  61%|██████    | 10325/16950 [1:52:19<1:26:57,  1.27it/s]Training 2/3 epoch (loss 0.2144):  61%|██████    | 10326/16950 [1:52:19<1:15:32,  1.46it/s]Training 2/3 epoch (loss 0.0261):  61%|██████    | 10326/16950 [1:52:20<1:15:32,  1.46it/s]Training 2/3 epoch (loss 0.0261):  61%|██████    | 10327/16950 [1:52:20<1:21:00,  1.36it/s]Training 2/3 epoch (loss 0.0984):  61%|██████    | 10327/16950 [1:52:20<1:21:00,  1.36it/s]Training 2/3 epoch (loss 0.0984):  61%|██████    | 10328/16950 [1:52:20<1:17:55,  1.42it/s]Training 2/3 epoch (loss 0.0004):  61%|██████    | 10328/16950 [1:52:21<1:17:55,  1.42it/s]Training 2/3 epoch (loss 0.0004):  61%|██████    | 10329/16950 [1:52:21<1:13:36,  1.50it/s]Training 2/3 epoch (loss 0.1999):  61%|██████    | 10329/16950 [1:52:21<1:13:36,  1.50it/s]Training 2/3 epoch (loss 0.1999):  61%|██████    | 10330/16950 [1:52:21<1:05:01,  1.70it/s]Training 2/3 epoch (loss 0.0190):  61%|██████    | 10330/16950 [1:52:22<1:05:01,  1.70it/s]Training 2/3 epoch (loss 0.0190):  61%|██████    | 10331/16950 [1:52:22<1:00:21,  1.83it/s]Training 2/3 epoch (loss 0.0077):  61%|██████    | 10331/16950 [1:52:23<1:00:21,  1.83it/s]Training 2/3 epoch (loss 0.0077):  61%|██████    | 10332/16950 [1:52:23<1:10:06,  1.57it/s]Training 2/3 epoch (loss 0.0191):  61%|██████    | 10332/16950 [1:52:24<1:10:06,  1.57it/s]Training 2/3 epoch (loss 0.0191):  61%|██████    | 10333/16950 [1:52:24<1:20:09,  1.38it/s]Training 2/3 epoch (loss 0.0098):  61%|██████    | 10333/16950 [1:52:24<1:20:09,  1.38it/s]Training 2/3 epoch (loss 0.0098):  61%|██████    | 10334/16950 [1:52:24<1:13:27,  1.50it/s]Training 2/3 epoch (loss 0.1414):  61%|██████    | 10334/16950 [1:52:25<1:13:27,  1.50it/s]Training 2/3 epoch (loss 0.1414):  61%|██████    | 10335/16950 [1:52:25<1:08:57,  1.60it/s]Training 2/3 epoch (loss 0.0920):  61%|██████    | 10335/16950 [1:52:25<1:08:57,  1.60it/s]Training 2/3 epoch (loss 0.0920):  61%|██████    | 10336/16950 [1:52:25<1:07:34,  1.63it/s]Training 2/3 epoch (loss 0.3997):  61%|██████    | 10336/16950 [1:52:26<1:07:34,  1.63it/s]Training 2/3 epoch (loss 0.3997):  61%|██████    | 10337/16950 [1:52:26<1:10:01,  1.57it/s]Training 2/3 epoch (loss 0.0001):  61%|██████    | 10337/16950 [1:52:26<1:10:01,  1.57it/s]Training 2/3 epoch (loss 0.0001):  61%|██████    | 10338/16950 [1:52:26<1:07:00,  1.64it/s]Training 2/3 epoch (loss 0.0342):  61%|██████    | 10338/16950 [1:52:27<1:07:00,  1.64it/s]Training 2/3 epoch (loss 0.0342):  61%|██████    | 10339/16950 [1:52:27<1:09:17,  1.59it/s]Training 2/3 epoch (loss 0.3566):  61%|██████    | 10339/16950 [1:52:28<1:09:17,  1.59it/s]Training 2/3 epoch (loss 0.3566):  61%|██████    | 10340/16950 [1:52:28<1:23:49,  1.31it/s]Training 2/3 epoch (loss 0.1977):  61%|██████    | 10340/16950 [1:52:29<1:23:49,  1.31it/s]Training 2/3 epoch (loss 0.1977):  61%|██████    | 10341/16950 [1:52:29<1:18:22,  1.41it/s]Training 2/3 epoch (loss 0.1416):  61%|██████    | 10341/16950 [1:52:30<1:18:22,  1.41it/s]Training 2/3 epoch (loss 0.1416):  61%|██████    | 10342/16950 [1:52:30<1:17:59,  1.41it/s]Training 2/3 epoch (loss 0.0062):  61%|██████    | 10342/16950 [1:52:30<1:17:59,  1.41it/s]Training 2/3 epoch (loss 0.0062):  61%|██████    | 10343/16950 [1:52:30<1:14:28,  1.48it/s]Training 2/3 epoch (loss 0.1057):  61%|██████    | 10343/16950 [1:52:31<1:14:28,  1.48it/s]Training 2/3 epoch (loss 0.1057):  61%|██████    | 10344/16950 [1:52:31<1:10:46,  1.56it/s]Training 2/3 epoch (loss 0.6302):  61%|██████    | 10344/16950 [1:52:31<1:10:46,  1.56it/s]Training 2/3 epoch (loss 0.6302):  61%|██████    | 10345/16950 [1:52:31<1:06:41,  1.65it/s]Training 2/3 epoch (loss 0.3157):  61%|██████    | 10345/16950 [1:52:32<1:06:41,  1.65it/s]Training 2/3 epoch (loss 0.3157):  61%|██████    | 10346/16950 [1:52:32<1:03:11,  1.74it/s]Training 2/3 epoch (loss 0.0084):  61%|██████    | 10346/16950 [1:52:32<1:03:11,  1.74it/s]Training 2/3 epoch (loss 0.0084):  61%|██████    | 10347/16950 [1:52:32<1:03:40,  1.73it/s]Training 2/3 epoch (loss 0.0628):  61%|██████    | 10347/16950 [1:52:33<1:03:40,  1.73it/s]Training 2/3 epoch (loss 0.0628):  61%|██████    | 10348/16950 [1:52:33<1:05:53,  1.67it/s]Training 2/3 epoch (loss 0.4729):  61%|██████    | 10348/16950 [1:52:34<1:05:53,  1.67it/s]Training 2/3 epoch (loss 0.4729):  61%|██████    | 10349/16950 [1:52:34<1:17:04,  1.43it/s]Training 2/3 epoch (loss 0.0097):  61%|██████    | 10349/16950 [1:52:34<1:17:04,  1.43it/s]Training 2/3 epoch (loss 0.0097):  61%|██████    | 10350/16950 [1:52:34<1:11:45,  1.53it/s]Training 2/3 epoch (loss 0.3068):  61%|██████    | 10350/16950 [1:52:35<1:11:45,  1.53it/s]Training 2/3 epoch (loss 0.3068):  61%|██████    | 10351/16950 [1:52:35<1:02:27,  1.76it/s]Training 2/3 epoch (loss 0.5452):  61%|██████    | 10351/16950 [1:52:35<1:02:27,  1.76it/s]Training 2/3 epoch (loss 0.5452):  61%|██████    | 10352/16950 [1:52:35<1:03:17,  1.74it/s]Training 2/3 epoch (loss 0.6091):  61%|██████    | 10352/16950 [1:52:37<1:03:17,  1.74it/s]Training 2/3 epoch (loss 0.6091):  61%|██████    | 10353/16950 [1:52:37<1:23:00,  1.32it/s]Training 2/3 epoch (loss 0.0071):  61%|██████    | 10353/16950 [1:52:37<1:23:00,  1.32it/s]Training 2/3 epoch (loss 0.0071):  61%|██████    | 10354/16950 [1:52:37<1:16:48,  1.43it/s]Training 2/3 epoch (loss 0.0087):  61%|██████    | 10354/16950 [1:52:38<1:16:48,  1.43it/s]Training 2/3 epoch (loss 0.0087):  61%|██████    | 10355/16950 [1:52:38<1:14:03,  1.48it/s]Training 2/3 epoch (loss 0.0001):  61%|██████    | 10355/16950 [1:52:38<1:14:03,  1.48it/s]Training 2/3 epoch (loss 0.0001):  61%|██████    | 10356/16950 [1:52:38<1:07:15,  1.63it/s]Training 2/3 epoch (loss 0.1659):  61%|██████    | 10356/16950 [1:52:39<1:07:15,  1.63it/s]Training 2/3 epoch (loss 0.1659):  61%|██████    | 10357/16950 [1:52:39<1:04:53,  1.69it/s]Training 2/3 epoch (loss 0.2992):  61%|██████    | 10357/16950 [1:52:39<1:04:53,  1.69it/s]Training 2/3 epoch (loss 0.2992):  61%|██████    | 10358/16950 [1:52:39<59:16,  1.85it/s]  Training 2/3 epoch (loss 0.4074):  61%|██████    | 10358/16950 [1:52:40<59:16,  1.85it/s]Training 2/3 epoch (loss 0.4074):  61%|██████    | 10359/16950 [1:52:40<1:06:29,  1.65it/s]Training 2/3 epoch (loss 0.0156):  61%|██████    | 10359/16950 [1:52:41<1:06:29,  1.65it/s]Training 2/3 epoch (loss 0.0156):  61%|██████    | 10360/16950 [1:52:41<1:11:11,  1.54it/s]Training 2/3 epoch (loss 0.2494):  61%|██████    | 10360/16950 [1:52:41<1:11:11,  1.54it/s]Training 2/3 epoch (loss 0.2494):  61%|██████    | 10361/16950 [1:52:41<1:05:11,  1.68it/s]Training 2/3 epoch (loss 0.9107):  61%|██████    | 10361/16950 [1:52:42<1:05:11,  1.68it/s]Training 2/3 epoch (loss 0.9107):  61%|██████    | 10362/16950 [1:52:42<1:23:24,  1.32it/s]Training 2/3 epoch (loss 0.3643):  61%|██████    | 10362/16950 [1:52:43<1:23:24,  1.32it/s]Training 2/3 epoch (loss 0.3643):  61%|██████    | 10363/16950 [1:52:43<1:18:47,  1.39it/s]Training 2/3 epoch (loss 0.0186):  61%|██████    | 10363/16950 [1:52:43<1:18:47,  1.39it/s]Training 2/3 epoch (loss 0.0186):  61%|██████    | 10364/16950 [1:52:43<1:14:32,  1.47it/s]Training 2/3 epoch (loss 0.0732):  61%|██████    | 10364/16950 [1:52:44<1:14:32,  1.47it/s]Training 2/3 epoch (loss 0.0732):  61%|██████    | 10365/16950 [1:52:44<1:10:27,  1.56it/s]Training 2/3 epoch (loss 0.7254):  61%|██████    | 10365/16950 [1:52:44<1:10:27,  1.56it/s]Training 2/3 epoch (loss 0.7254):  61%|██████    | 10366/16950 [1:52:44<1:03:24,  1.73it/s]Training 2/3 epoch (loss 0.1545):  61%|██████    | 10366/16950 [1:52:45<1:03:24,  1.73it/s]Training 2/3 epoch (loss 0.1545):  61%|██████    | 10367/16950 [1:52:45<59:41,  1.84it/s]  Training 2/3 epoch (loss 0.4429):  61%|██████    | 10367/16950 [1:52:45<59:41,  1.84it/s]Training 2/3 epoch (loss 0.4429):  61%|██████    | 10368/16950 [1:52:45<54:59,  1.99it/s]Training 2/3 epoch (loss 0.0233):  61%|██████    | 10368/16950 [1:52:46<54:59,  1.99it/s]Training 2/3 epoch (loss 0.0233):  61%|██████    | 10369/16950 [1:52:46<51:26,  2.13it/s]Training 2/3 epoch (loss 0.0030):  61%|██████    | 10369/16950 [1:52:46<51:26,  2.13it/s]Training 2/3 epoch (loss 0.0030):  61%|██████    | 10370/16950 [1:52:46<54:41,  2.01it/s]Training 2/3 epoch (loss 0.1124):  61%|██████    | 10370/16950 [1:52:47<54:41,  2.01it/s]Training 2/3 epoch (loss 0.1124):  61%|██████    | 10371/16950 [1:52:47<53:26,  2.05it/s]Training 2/3 epoch (loss 0.3397):  61%|██████    | 10371/16950 [1:52:47<53:26,  2.05it/s]Training 2/3 epoch (loss 0.3397):  61%|██████    | 10372/16950 [1:52:47<54:11,  2.02it/s]Training 2/3 epoch (loss 0.0464):  61%|██████    | 10372/16950 [1:52:48<54:11,  2.02it/s]Training 2/3 epoch (loss 0.0464):  61%|██████    | 10373/16950 [1:52:48<53:16,  2.06it/s]Training 2/3 epoch (loss 0.0528):  61%|██████    | 10373/16950 [1:52:48<53:16,  2.06it/s]Training 2/3 epoch (loss 0.0528):  61%|██████    | 10374/16950 [1:52:48<59:50,  1.83it/s]Training 2/3 epoch (loss 0.0165):  61%|██████    | 10374/16950 [1:52:49<59:50,  1.83it/s]Training 2/3 epoch (loss 0.0165):  61%|██████    | 10375/16950 [1:52:49<58:53,  1.86it/s]Training 2/3 epoch (loss 0.0062):  61%|██████    | 10375/16950 [1:52:50<58:53,  1.86it/s]Training 2/3 epoch (loss 0.0062):  61%|██████    | 10376/16950 [1:52:50<1:04:22,  1.70it/s]Training 2/3 epoch (loss 0.5659):  61%|██████    | 10376/16950 [1:52:51<1:04:22,  1.70it/s]Training 2/3 epoch (loss 0.5659):  61%|██████    | 10377/16950 [1:52:51<1:24:47,  1.29it/s]Training 2/3 epoch (loss 0.0546):  61%|██████    | 10377/16950 [1:52:51<1:24:47,  1.29it/s]Training 2/3 epoch (loss 0.0546):  61%|██████    | 10378/16950 [1:52:51<1:19:31,  1.38it/s]Training 2/3 epoch (loss 0.0005):  61%|██████    | 10378/16950 [1:52:52<1:19:31,  1.38it/s]Training 2/3 epoch (loss 0.0005):  61%|██████    | 10379/16950 [1:52:52<1:10:33,  1.55it/s]Training 2/3 epoch (loss 0.4805):  61%|██████    | 10379/16950 [1:52:52<1:10:33,  1.55it/s]Training 2/3 epoch (loss 0.4805):  61%|██████    | 10380/16950 [1:52:52<1:03:52,  1.71it/s]Training 2/3 epoch (loss 0.0133):  61%|██████    | 10380/16950 [1:52:53<1:03:52,  1.71it/s]Training 2/3 epoch (loss 0.0133):  61%|██████    | 10381/16950 [1:52:53<58:33,  1.87it/s]  Training 2/3 epoch (loss 0.0002):  61%|██████    | 10381/16950 [1:52:53<58:33,  1.87it/s]Training 2/3 epoch (loss 0.0002):  61%|██████▏   | 10382/16950 [1:52:53<55:47,  1.96it/s]Training 2/3 epoch (loss 0.0630):  61%|██████▏   | 10382/16950 [1:52:54<55:47,  1.96it/s]Training 2/3 epoch (loss 0.0630):  61%|██████▏   | 10383/16950 [1:52:54<59:45,  1.83it/s]Training 2/3 epoch (loss 0.0029):  61%|██████▏   | 10383/16950 [1:52:54<59:45,  1.83it/s]Training 2/3 epoch (loss 0.0029):  61%|██████▏   | 10384/16950 [1:52:54<1:00:49,  1.80it/s]Training 2/3 epoch (loss 0.0212):  61%|██████▏   | 10384/16950 [1:52:55<1:00:49,  1.80it/s]Training 2/3 epoch (loss 0.0212):  61%|██████▏   | 10385/16950 [1:52:55<59:24,  1.84it/s]  Training 2/3 epoch (loss 0.0043):  61%|██████▏   | 10385/16950 [1:52:56<59:24,  1.84it/s]Training 2/3 epoch (loss 0.0043):  61%|██████▏   | 10386/16950 [1:52:56<1:01:52,  1.77it/s]Training 2/3 epoch (loss 0.0557):  61%|██████▏   | 10386/16950 [1:52:56<1:01:52,  1.77it/s]Training 2/3 epoch (loss 0.0557):  61%|██████▏   | 10387/16950 [1:52:56<59:01,  1.85it/s]  Training 2/3 epoch (loss 0.0465):  61%|██████▏   | 10387/16950 [1:52:57<59:01,  1.85it/s]Training 2/3 epoch (loss 0.0465):  61%|██████▏   | 10388/16950 [1:52:57<58:58,  1.85it/s]Training 2/3 epoch (loss 0.0803):  61%|██████▏   | 10388/16950 [1:52:57<58:58,  1.85it/s]Training 2/3 epoch (loss 0.0803):  61%|██████▏   | 10389/16950 [1:52:57<1:03:58,  1.71it/s]Training 2/3 epoch (loss 0.0199):  61%|██████▏   | 10389/16950 [1:52:58<1:03:58,  1.71it/s]Training 2/3 epoch (loss 0.0199):  61%|██████▏   | 10390/16950 [1:52:58<1:00:15,  1.81it/s]Training 2/3 epoch (loss 0.0061):  61%|██████▏   | 10390/16950 [1:52:58<1:00:15,  1.81it/s]Training 2/3 epoch (loss 0.0061):  61%|██████▏   | 10391/16950 [1:52:58<55:33,  1.97it/s]  Training 2/3 epoch (loss 0.1244):  61%|██████▏   | 10391/16950 [1:52:59<55:33,  1.97it/s]Training 2/3 epoch (loss 0.1244):  61%|██████▏   | 10392/16950 [1:52:59<59:24,  1.84it/s]Training 2/3 epoch (loss 0.0006):  61%|██████▏   | 10392/16950 [1:52:59<59:24,  1.84it/s]Training 2/3 epoch (loss 0.0006):  61%|██████▏   | 10393/16950 [1:52:59<55:42,  1.96it/s]Training 2/3 epoch (loss 0.0030):  61%|██████▏   | 10393/16950 [1:53:00<55:42,  1.96it/s]Training 2/3 epoch (loss 0.0030):  61%|██████▏   | 10394/16950 [1:53:00<56:45,  1.92it/s]Training 2/3 epoch (loss 0.3565):  61%|██████▏   | 10394/16950 [1:53:00<56:45,  1.92it/s]Training 2/3 epoch (loss 0.3565):  61%|██████▏   | 10395/16950 [1:53:00<1:03:24,  1.72it/s]Training 2/3 epoch (loss 0.6070):  61%|██████▏   | 10395/16950 [1:53:01<1:03:24,  1.72it/s]Training 2/3 epoch (loss 0.6070):  61%|██████▏   | 10396/16950 [1:53:01<58:15,  1.87it/s]  Training 2/3 epoch (loss 0.0709):  61%|██████▏   | 10396/16950 [1:53:02<58:15,  1.87it/s]Training 2/3 epoch (loss 0.0709):  61%|██████▏   | 10397/16950 [1:53:02<1:00:19,  1.81it/s]Training 2/3 epoch (loss 0.0052):  61%|██████▏   | 10397/16950 [1:53:02<1:00:19,  1.81it/s]Training 2/3 epoch (loss 0.0052):  61%|██████▏   | 10398/16950 [1:53:02<1:09:42,  1.57it/s]Training 2/3 epoch (loss 0.4171):  61%|██████▏   | 10398/16950 [1:53:03<1:09:42,  1.57it/s]Training 2/3 epoch (loss 0.4171):  61%|██████▏   | 10399/16950 [1:53:03<1:08:14,  1.60it/s]Training 2/3 epoch (loss 0.0688):  61%|██████▏   | 10399/16950 [1:53:04<1:08:14,  1.60it/s]Training 2/3 epoch (loss 0.0688):  61%|██████▏   | 10400/16950 [1:53:04<1:08:48,  1.59it/s]Training 2/3 epoch (loss 0.2122):  61%|██████▏   | 10400/16950 [1:53:04<1:08:48,  1.59it/s]Training 2/3 epoch (loss 0.2122):  61%|██████▏   | 10401/16950 [1:53:04<1:03:29,  1.72it/s]Training 2/3 epoch (loss 0.0014):  61%|██████▏   | 10401/16950 [1:53:04<1:03:29,  1.72it/s]Training 2/3 epoch (loss 0.0014):  61%|██████▏   | 10402/16950 [1:53:04<57:26,  1.90it/s]  Training 2/3 epoch (loss 0.0036):  61%|██████▏   | 10402/16950 [1:53:05<57:26,  1.90it/s]Training 2/3 epoch (loss 0.0036):  61%|██████▏   | 10403/16950 [1:53:05<1:01:52,  1.76it/s]Training 2/3 epoch (loss 0.1711):  61%|██████▏   | 10403/16950 [1:53:06<1:01:52,  1.76it/s]Training 2/3 epoch (loss 0.1711):  61%|██████▏   | 10404/16950 [1:53:06<1:01:52,  1.76it/s]Training 2/3 epoch (loss 0.0066):  61%|██████▏   | 10404/16950 [1:53:06<1:01:52,  1.76it/s]Training 2/3 epoch (loss 0.0066):  61%|██████▏   | 10405/16950 [1:53:06<1:03:16,  1.72it/s]Training 2/3 epoch (loss 0.2024):  61%|██████▏   | 10405/16950 [1:53:07<1:03:16,  1.72it/s]Training 2/3 epoch (loss 0.2024):  61%|██████▏   | 10406/16950 [1:53:07<1:01:38,  1.77it/s]Training 2/3 epoch (loss 0.0194):  61%|██████▏   | 10406/16950 [1:53:08<1:01:38,  1.77it/s]Training 2/3 epoch (loss 0.0194):  61%|██████▏   | 10407/16950 [1:53:08<1:10:34,  1.55it/s]Training 2/3 epoch (loss 0.1736):  61%|██████▏   | 10407/16950 [1:53:08<1:10:34,  1.55it/s]Training 2/3 epoch (loss 0.1736):  61%|██████▏   | 10408/16950 [1:53:08<1:03:55,  1.71it/s]Training 2/3 epoch (loss 0.3175):  61%|██████▏   | 10408/16950 [1:53:09<1:03:55,  1.71it/s]Training 2/3 epoch (loss 0.3175):  61%|██████▏   | 10409/16950 [1:53:09<1:01:34,  1.77it/s]Training 2/3 epoch (loss 0.0727):  61%|██████▏   | 10409/16950 [1:53:09<1:01:34,  1.77it/s]Training 2/3 epoch (loss 0.0727):  61%|██████▏   | 10410/16950 [1:53:09<1:01:39,  1.77it/s]Training 2/3 epoch (loss 0.0806):  61%|██████▏   | 10410/16950 [1:53:10<1:01:39,  1.77it/s]Training 2/3 epoch (loss 0.0806):  61%|██████▏   | 10411/16950 [1:53:10<1:01:28,  1.77it/s]Training 2/3 epoch (loss 0.0002):  61%|██████▏   | 10411/16950 [1:53:10<1:01:28,  1.77it/s]Training 2/3 epoch (loss 0.0002):  61%|██████▏   | 10412/16950 [1:53:10<1:03:16,  1.72it/s]Training 2/3 epoch (loss 0.0138):  61%|██████▏   | 10412/16950 [1:53:11<1:03:16,  1.72it/s]Training 2/3 epoch (loss 0.0138):  61%|██████▏   | 10413/16950 [1:53:11<1:04:45,  1.68it/s]Training 2/3 epoch (loss 0.4003):  61%|██████▏   | 10413/16950 [1:53:12<1:04:45,  1.68it/s]Training 2/3 epoch (loss 0.4003):  61%|██████▏   | 10414/16950 [1:53:12<1:21:48,  1.33it/s]Training 2/3 epoch (loss 0.0620):  61%|██████▏   | 10414/16950 [1:53:13<1:21:48,  1.33it/s]Training 2/3 epoch (loss 0.0620):  61%|██████▏   | 10415/16950 [1:53:13<1:18:44,  1.38it/s]Training 2/3 epoch (loss 0.4016):  61%|██████▏   | 10415/16950 [1:53:14<1:18:44,  1.38it/s]Training 2/3 epoch (loss 0.4016):  61%|██████▏   | 10416/16950 [1:53:14<1:24:25,  1.29it/s]Training 2/3 epoch (loss 0.4764):  61%|██████▏   | 10416/16950 [1:53:14<1:24:25,  1.29it/s]Training 2/3 epoch (loss 0.4764):  61%|██████▏   | 10417/16950 [1:53:14<1:18:27,  1.39it/s]Training 2/3 epoch (loss 0.0326):  61%|██████▏   | 10417/16950 [1:53:15<1:18:27,  1.39it/s]Training 2/3 epoch (loss 0.0326):  61%|██████▏   | 10418/16950 [1:53:15<1:13:07,  1.49it/s]Training 2/3 epoch (loss 0.4937):  61%|██████▏   | 10418/16950 [1:53:15<1:13:07,  1.49it/s]Training 2/3 epoch (loss 0.4937):  61%|██████▏   | 10419/16950 [1:53:15<1:05:51,  1.65it/s]Training 2/3 epoch (loss 0.5759):  61%|██████▏   | 10419/16950 [1:53:16<1:05:51,  1.65it/s]Training 2/3 epoch (loss 0.5759):  61%|██████▏   | 10420/16950 [1:53:16<1:14:02,  1.47it/s]Training 2/3 epoch (loss 0.0016):  61%|██████▏   | 10420/16950 [1:53:17<1:14:02,  1.47it/s]Training 2/3 epoch (loss 0.0016):  61%|██████▏   | 10421/16950 [1:53:17<1:14:10,  1.47it/s]Training 2/3 epoch (loss 0.2618):  61%|██████▏   | 10421/16950 [1:53:17<1:14:10,  1.47it/s]Training 2/3 epoch (loss 0.2618):  61%|██████▏   | 10422/16950 [1:53:17<1:12:53,  1.49it/s]Training 2/3 epoch (loss 0.0011):  61%|██████▏   | 10422/16950 [1:53:18<1:12:53,  1.49it/s]Training 2/3 epoch (loss 0.0011):  61%|██████▏   | 10423/16950 [1:53:18<1:04:57,  1.67it/s]Training 2/3 epoch (loss 0.0167):  61%|██████▏   | 10423/16950 [1:53:19<1:04:57,  1.67it/s]Training 2/3 epoch (loss 0.0167):  61%|██████▏   | 10424/16950 [1:53:19<1:13:51,  1.47it/s]Training 2/3 epoch (loss 0.0043):  61%|██████▏   | 10424/16950 [1:53:19<1:13:51,  1.47it/s]Training 2/3 epoch (loss 0.0043):  62%|██████▏   | 10425/16950 [1:53:19<1:08:07,  1.60it/s]Training 2/3 epoch (loss 0.5450):  62%|██████▏   | 10425/16950 [1:53:20<1:08:07,  1.60it/s]Training 2/3 epoch (loss 0.5450):  62%|██████▏   | 10426/16950 [1:53:20<59:48,  1.82it/s]  Training 2/3 epoch (loss 0.4755):  62%|██████▏   | 10426/16950 [1:53:20<59:48,  1.82it/s]Training 2/3 epoch (loss 0.4755):  62%|██████▏   | 10427/16950 [1:53:20<59:47,  1.82it/s]Training 2/3 epoch (loss 0.0017):  62%|██████▏   | 10427/16950 [1:53:21<59:47,  1.82it/s]Training 2/3 epoch (loss 0.0017):  62%|██████▏   | 10428/16950 [1:53:21<1:03:17,  1.72it/s]Training 2/3 epoch (loss 0.1433):  62%|██████▏   | 10428/16950 [1:53:21<1:03:17,  1.72it/s]Training 2/3 epoch (loss 0.1433):  62%|██████▏   | 10429/16950 [1:53:21<1:05:35,  1.66it/s]Training 2/3 epoch (loss 0.0413):  62%|██████▏   | 10429/16950 [1:53:22<1:05:35,  1.66it/s]Training 2/3 epoch (loss 0.0413):  62%|██████▏   | 10430/16950 [1:53:22<1:17:32,  1.40it/s]Training 2/3 epoch (loss 0.0284):  62%|██████▏   | 10430/16950 [1:53:23<1:17:32,  1.40it/s]Training 2/3 epoch (loss 0.0284):  62%|██████▏   | 10431/16950 [1:53:23<1:27:30,  1.24it/s]Training 2/3 epoch (loss 0.1281):  62%|██████▏   | 10431/16950 [1:53:24<1:27:30,  1.24it/s]Training 2/3 epoch (loss 0.1281):  62%|██████▏   | 10432/16950 [1:53:24<1:19:15,  1.37it/s]Training 2/3 epoch (loss 0.3779):  62%|██████▏   | 10432/16950 [1:53:25<1:19:15,  1.37it/s]Training 2/3 epoch (loss 0.3779):  62%|██████▏   | 10433/16950 [1:53:25<1:11:07,  1.53it/s]Training 2/3 epoch (loss 0.0186):  62%|██████▏   | 10433/16950 [1:53:25<1:11:07,  1.53it/s]Training 2/3 epoch (loss 0.0186):  62%|██████▏   | 10434/16950 [1:53:25<1:04:08,  1.69it/s]Training 2/3 epoch (loss 0.0013):  62%|██████▏   | 10434/16950 [1:53:25<1:04:08,  1.69it/s]Training 2/3 epoch (loss 0.0013):  62%|██████▏   | 10435/16950 [1:53:25<1:01:11,  1.77it/s]Training 2/3 epoch (loss 0.0009):  62%|██████▏   | 10435/16950 [1:53:26<1:01:11,  1.77it/s]Training 2/3 epoch (loss 0.0009):  62%|██████▏   | 10436/16950 [1:53:26<56:16,  1.93it/s]  Training 2/3 epoch (loss 0.0320):  62%|██████▏   | 10436/16950 [1:53:27<56:16,  1.93it/s]Training 2/3 epoch (loss 0.0320):  62%|██████▏   | 10437/16950 [1:53:27<1:05:35,  1.65it/s]Training 2/3 epoch (loss 0.0066):  62%|██████▏   | 10437/16950 [1:53:27<1:05:35,  1.65it/s]Training 2/3 epoch (loss 0.0066):  62%|██████▏   | 10438/16950 [1:53:27<1:02:23,  1.74it/s]Training 2/3 epoch (loss 0.0213):  62%|██████▏   | 10438/16950 [1:53:28<1:02:23,  1.74it/s]Training 2/3 epoch (loss 0.0213):  62%|██████▏   | 10439/16950 [1:53:28<1:11:18,  1.52it/s]Training 2/3 epoch (loss 0.0347):  62%|██████▏   | 10439/16950 [1:53:29<1:11:18,  1.52it/s]Training 2/3 epoch (loss 0.0347):  62%|██████▏   | 10440/16950 [1:53:29<1:28:28,  1.23it/s]Training 2/3 epoch (loss 0.0143):  62%|██████▏   | 10440/16950 [1:53:30<1:28:28,  1.23it/s]Training 2/3 epoch (loss 0.0143):  62%|██████▏   | 10441/16950 [1:53:30<1:19:40,  1.36it/s]Training 2/3 epoch (loss 0.3921):  62%|██████▏   | 10441/16950 [1:53:30<1:19:40,  1.36it/s]Training 2/3 epoch (loss 0.3921):  62%|██████▏   | 10442/16950 [1:53:30<1:09:59,  1.55it/s]Training 2/3 epoch (loss 0.0012):  62%|██████▏   | 10442/16950 [1:53:31<1:09:59,  1.55it/s]Training 2/3 epoch (loss 0.0012):  62%|██████▏   | 10443/16950 [1:53:31<1:05:53,  1.65it/s]Training 2/3 epoch (loss 0.3031):  62%|██████▏   | 10443/16950 [1:53:32<1:05:53,  1.65it/s]Training 2/3 epoch (loss 0.3031):  62%|██████▏   | 10444/16950 [1:53:32<1:14:57,  1.45it/s]Training 2/3 epoch (loss 0.0037):  62%|██████▏   | 10444/16950 [1:53:32<1:14:57,  1.45it/s]Training 2/3 epoch (loss 0.0037):  62%|██████▏   | 10445/16950 [1:53:32<1:13:02,  1.48it/s]Training 2/3 epoch (loss 0.0034):  62%|██████▏   | 10445/16950 [1:53:33<1:13:02,  1.48it/s]Training 2/3 epoch (loss 0.0034):  62%|██████▏   | 10446/16950 [1:53:33<1:10:28,  1.54it/s]Training 2/3 epoch (loss 0.2729):  62%|██████▏   | 10446/16950 [1:53:34<1:10:28,  1.54it/s]Training 2/3 epoch (loss 0.2729):  62%|██████▏   | 10447/16950 [1:53:34<1:19:32,  1.36it/s]Training 2/3 epoch (loss 0.0191):  62%|██████▏   | 10447/16950 [1:53:35<1:19:32,  1.36it/s]Training 2/3 epoch (loss 0.0191):  62%|██████▏   | 10448/16950 [1:53:35<1:20:57,  1.34it/s]Training 2/3 epoch (loss 0.0510):  62%|██████▏   | 10448/16950 [1:53:35<1:20:57,  1.34it/s]Training 2/3 epoch (loss 0.0510):  62%|██████▏   | 10449/16950 [1:53:35<1:17:53,  1.39it/s]Training 2/3 epoch (loss 0.4538):  62%|██████▏   | 10449/16950 [1:53:36<1:17:53,  1.39it/s]Training 2/3 epoch (loss 0.4538):  62%|██████▏   | 10450/16950 [1:53:36<1:11:07,  1.52it/s]Training 2/3 epoch (loss 0.0013):  62%|██████▏   | 10450/16950 [1:53:37<1:11:07,  1.52it/s]Training 2/3 epoch (loss 0.0013):  62%|██████▏   | 10451/16950 [1:53:37<1:18:26,  1.38it/s]Training 2/3 epoch (loss 0.0631):  62%|██████▏   | 10451/16950 [1:53:37<1:18:26,  1.38it/s]Training 2/3 epoch (loss 0.0631):  62%|██████▏   | 10452/16950 [1:53:37<1:09:14,  1.56it/s]Training 2/3 epoch (loss 0.0010):  62%|██████▏   | 10452/16950 [1:53:37<1:09:14,  1.56it/s]Training 2/3 epoch (loss 0.0010):  62%|██████▏   | 10453/16950 [1:53:37<1:01:27,  1.76it/s]Training 2/3 epoch (loss 0.0079):  62%|██████▏   | 10453/16950 [1:53:38<1:01:27,  1.76it/s]Training 2/3 epoch (loss 0.0079):  62%|██████▏   | 10454/16950 [1:53:38<1:01:44,  1.75it/s]Training 2/3 epoch (loss 0.5668):  62%|██████▏   | 10454/16950 [1:53:39<1:01:44,  1.75it/s]Training 2/3 epoch (loss 0.5668):  62%|██████▏   | 10455/16950 [1:53:39<1:10:02,  1.55it/s]Training 2/3 epoch (loss 0.0031):  62%|██████▏   | 10455/16950 [1:53:39<1:10:02,  1.55it/s]Training 2/3 epoch (loss 0.0031):  62%|██████▏   | 10456/16950 [1:53:39<1:09:50,  1.55it/s]Training 2/3 epoch (loss 0.1254):  62%|██████▏   | 10456/16950 [1:53:40<1:09:50,  1.55it/s]Training 2/3 epoch (loss 0.1254):  62%|██████▏   | 10457/16950 [1:53:40<1:07:04,  1.61it/s]Training 2/3 epoch (loss 0.1975):  62%|██████▏   | 10457/16950 [1:53:40<1:07:04,  1.61it/s]Training 2/3 epoch (loss 0.1975):  62%|██████▏   | 10458/16950 [1:53:40<1:00:40,  1.78it/s]Training 2/3 epoch (loss 0.2505):  62%|██████▏   | 10458/16950 [1:53:41<1:00:40,  1.78it/s]Training 2/3 epoch (loss 0.2505):  62%|██████▏   | 10459/16950 [1:53:41<1:01:53,  1.75it/s]Training 2/3 epoch (loss 0.4117):  62%|██████▏   | 10459/16950 [1:53:41<1:01:53,  1.75it/s]Training 2/3 epoch (loss 0.4117):  62%|██████▏   | 10460/16950 [1:53:41<57:30,  1.88it/s]  Training 2/3 epoch (loss 0.0154):  62%|██████▏   | 10460/16950 [1:53:42<57:30,  1.88it/s]Training 2/3 epoch (loss 0.0154):  62%|██████▏   | 10461/16950 [1:53:42<1:00:20,  1.79it/s]Training 2/3 epoch (loss 0.3730):  62%|██████▏   | 10461/16950 [1:53:43<1:00:20,  1.79it/s]Training 2/3 epoch (loss 0.3730):  62%|██████▏   | 10462/16950 [1:53:43<1:05:03,  1.66it/s]Training 2/3 epoch (loss 0.0001):  62%|██████▏   | 10462/16950 [1:53:43<1:05:03,  1.66it/s]Training 2/3 epoch (loss 0.0001):  62%|██████▏   | 10463/16950 [1:53:43<1:01:54,  1.75it/s]Training 2/3 epoch (loss 0.0027):  62%|██████▏   | 10463/16950 [1:53:44<1:01:54,  1.75it/s]Training 2/3 epoch (loss 0.0027):  62%|██████▏   | 10464/16950 [1:53:44<59:28,  1.82it/s]  Training 2/3 epoch (loss 0.0002):  62%|██████▏   | 10464/16950 [1:53:44<59:28,  1.82it/s]Training 2/3 epoch (loss 0.0002):  62%|██████▏   | 10465/16950 [1:53:44<57:45,  1.87it/s]Training 2/3 epoch (loss 0.0176):  62%|██████▏   | 10465/16950 [1:53:45<57:45,  1.87it/s]Training 2/3 epoch (loss 0.0176):  62%|██████▏   | 10466/16950 [1:53:45<1:05:41,  1.65it/s]Training 2/3 epoch (loss 0.6669):  62%|██████▏   | 10466/16950 [1:53:46<1:05:41,  1.65it/s]Training 2/3 epoch (loss 0.6669):  62%|██████▏   | 10467/16950 [1:53:46<1:10:06,  1.54it/s]Training 2/3 epoch (loss 0.0004):  62%|██████▏   | 10467/16950 [1:53:46<1:10:06,  1.54it/s]Training 2/3 epoch (loss 0.0004):  62%|██████▏   | 10468/16950 [1:53:46<1:00:32,  1.78it/s]Training 2/3 epoch (loss 0.2415):  62%|██████▏   | 10468/16950 [1:53:47<1:00:32,  1.78it/s]Training 2/3 epoch (loss 0.2415):  62%|██████▏   | 10469/16950 [1:53:47<57:12,  1.89it/s]  Training 2/3 epoch (loss 0.0298):  62%|██████▏   | 10469/16950 [1:53:47<57:12,  1.89it/s]Training 2/3 epoch (loss 0.0298):  62%|██████▏   | 10470/16950 [1:53:47<1:06:29,  1.62it/s]Training 2/3 epoch (loss 0.0002):  62%|██████▏   | 10470/16950 [1:53:48<1:06:29,  1.62it/s]Training 2/3 epoch (loss 0.0002):  62%|██████▏   | 10471/16950 [1:53:48<1:02:12,  1.74it/s]Training 2/3 epoch (loss 0.5460):  62%|██████▏   | 10471/16950 [1:53:49<1:02:12,  1.74it/s]Training 2/3 epoch (loss 0.5460):  62%|██████▏   | 10472/16950 [1:53:49<1:04:33,  1.67it/s]Training 2/3 epoch (loss 0.1188):  62%|██████▏   | 10472/16950 [1:53:49<1:04:33,  1.67it/s]Training 2/3 epoch (loss 0.1188):  62%|██████▏   | 10473/16950 [1:53:49<1:03:22,  1.70it/s]Training 2/3 epoch (loss 0.0001):  62%|██████▏   | 10473/16950 [1:53:50<1:03:22,  1.70it/s]Training 2/3 epoch (loss 0.0001):  62%|██████▏   | 10474/16950 [1:53:50<57:29,  1.88it/s]  Training 2/3 epoch (loss 0.2935):  62%|██████▏   | 10474/16950 [1:53:50<57:29,  1.88it/s]Training 2/3 epoch (loss 0.2935):  62%|██████▏   | 10475/16950 [1:53:50<1:06:31,  1.62it/s]Training 2/3 epoch (loss 0.2063):  62%|██████▏   | 10475/16950 [1:53:51<1:06:31,  1.62it/s]Training 2/3 epoch (loss 0.2063):  62%|██████▏   | 10476/16950 [1:53:51<1:15:22,  1.43it/s]Training 2/3 epoch (loss 0.5536):  62%|██████▏   | 10476/16950 [1:53:52<1:15:22,  1.43it/s]Training 2/3 epoch (loss 0.5536):  62%|██████▏   | 10477/16950 [1:53:52<1:11:48,  1.50it/s]Training 2/3 epoch (loss 0.0612):  62%|██████▏   | 10477/16950 [1:53:53<1:11:48,  1.50it/s]Training 2/3 epoch (loss 0.0612):  62%|██████▏   | 10478/16950 [1:53:53<1:15:27,  1.43it/s]Training 2/3 epoch (loss 0.0014):  62%|██████▏   | 10478/16950 [1:53:53<1:15:27,  1.43it/s]Training 2/3 epoch (loss 0.0014):  62%|██████▏   | 10479/16950 [1:53:53<1:13:10,  1.47it/s]Training 2/3 epoch (loss 0.0012):  62%|██████▏   | 10479/16950 [1:53:54<1:13:10,  1.47it/s]Training 2/3 epoch (loss 0.0012):  62%|██████▏   | 10480/16950 [1:53:54<1:19:23,  1.36it/s]Training 2/3 epoch (loss 0.0028):  62%|██████▏   | 10480/16950 [1:53:55<1:19:23,  1.36it/s]Training 2/3 epoch (loss 0.0028):  62%|██████▏   | 10481/16950 [1:53:55<1:11:46,  1.50it/s]Training 2/3 epoch (loss 0.0002):  62%|██████▏   | 10481/16950 [1:53:55<1:11:46,  1.50it/s]Training 2/3 epoch (loss 0.0002):  62%|██████▏   | 10482/16950 [1:53:55<1:06:49,  1.61it/s]Training 2/3 epoch (loss 0.2244):  62%|██████▏   | 10482/16950 [1:53:56<1:06:49,  1.61it/s]Training 2/3 epoch (loss 0.2244):  62%|██████▏   | 10483/16950 [1:53:56<1:02:17,  1.73it/s]Training 2/3 epoch (loss 0.0309):  62%|██████▏   | 10483/16950 [1:53:56<1:02:17,  1.73it/s]Training 2/3 epoch (loss 0.0309):  62%|██████▏   | 10484/16950 [1:53:56<59:31,  1.81it/s]  Training 2/3 epoch (loss 0.0059):  62%|██████▏   | 10484/16950 [1:53:57<59:31,  1.81it/s]Training 2/3 epoch (loss 0.0059):  62%|██████▏   | 10485/16950 [1:53:57<55:02,  1.96it/s]Training 2/3 epoch (loss 0.0312):  62%|██████▏   | 10485/16950 [1:53:57<55:02,  1.96it/s]Training 2/3 epoch (loss 0.0312):  62%|██████▏   | 10486/16950 [1:53:57<57:39,  1.87it/s]Training 2/3 epoch (loss 0.0002):  62%|██████▏   | 10486/16950 [1:53:58<57:39,  1.87it/s]Training 2/3 epoch (loss 0.0002):  62%|██████▏   | 10487/16950 [1:53:58<55:08,  1.95it/s]Training 2/3 epoch (loss 0.2714):  62%|██████▏   | 10487/16950 [1:53:58<55:08,  1.95it/s]Training 2/3 epoch (loss 0.2714):  62%|██████▏   | 10488/16950 [1:53:58<56:29,  1.91it/s]Training 2/3 epoch (loss 0.0128):  62%|██████▏   | 10488/16950 [1:53:59<56:29,  1.91it/s]Training 2/3 epoch (loss 0.0128):  62%|██████▏   | 10489/16950 [1:53:59<57:47,  1.86it/s]Training 2/3 epoch (loss 0.2516):  62%|██████▏   | 10489/16950 [1:53:59<57:47,  1.86it/s]Training 2/3 epoch (loss 0.2516):  62%|██████▏   | 10490/16950 [1:53:59<56:51,  1.89it/s]Training 2/3 epoch (loss 0.0903):  62%|██████▏   | 10490/16950 [1:54:00<56:51,  1.89it/s]Training 2/3 epoch (loss 0.0903):  62%|██████▏   | 10491/16950 [1:54:00<56:50,  1.89it/s]Training 2/3 epoch (loss 0.0748):  62%|██████▏   | 10491/16950 [1:54:00<56:50,  1.89it/s]Training 2/3 epoch (loss 0.0748):  62%|██████▏   | 10492/16950 [1:54:00<55:19,  1.95it/s]Training 2/3 epoch (loss 0.0811):  62%|██████▏   | 10492/16950 [1:54:01<55:19,  1.95it/s]Training 2/3 epoch (loss 0.0811):  62%|██████▏   | 10493/16950 [1:54:01<57:47,  1.86it/s]Training 2/3 epoch (loss 0.0048):  62%|██████▏   | 10493/16950 [1:54:01<57:47,  1.86it/s]Training 2/3 epoch (loss 0.0048):  62%|██████▏   | 10494/16950 [1:54:01<56:48,  1.89it/s]Training 2/3 epoch (loss 0.6511):  62%|██████▏   | 10494/16950 [1:54:02<56:48,  1.89it/s]Training 2/3 epoch (loss 0.6511):  62%|██████▏   | 10495/16950 [1:54:02<49:33,  2.17it/s]Training 2/3 epoch (loss 0.1357):  62%|██████▏   | 10495/16950 [1:54:02<49:33,  2.17it/s]Training 2/3 epoch (loss 0.1357):  62%|██████▏   | 10496/16950 [1:54:02<48:05,  2.24it/s]Training 2/3 epoch (loss 0.0071):  62%|██████▏   | 10496/16950 [1:54:03<48:05,  2.24it/s]Training 2/3 epoch (loss 0.0071):  62%|██████▏   | 10497/16950 [1:54:03<51:10,  2.10it/s]Training 2/3 epoch (loss 0.0806):  62%|██████▏   | 10497/16950 [1:54:03<51:10,  2.10it/s]Training 2/3 epoch (loss 0.0806):  62%|██████▏   | 10498/16950 [1:54:03<51:36,  2.08it/s]Training 2/3 epoch (loss 0.0042):  62%|██████▏   | 10498/16950 [1:54:04<51:36,  2.08it/s]Training 2/3 epoch (loss 0.0042):  62%|██████▏   | 10499/16950 [1:54:04<54:49,  1.96it/s]Training 2/3 epoch (loss 0.7295):  62%|██████▏   | 10499/16950 [1:54:04<54:49,  1.96it/s]Training 2/3 epoch (loss 0.7295):  62%|██████▏   | 10500/16950 [1:54:04<1:01:16,  1.75it/s]Training 2/3 epoch (loss 0.5013):  62%|██████▏   | 10500/16950 [1:54:05<1:01:16,  1.75it/s]Training 2/3 epoch (loss 0.5013):  62%|██████▏   | 10501/16950 [1:54:05<58:14,  1.85it/s]  Training 2/3 epoch (loss 0.2762):  62%|██████▏   | 10501/16950 [1:54:05<58:14,  1.85it/s]Training 2/3 epoch (loss 0.2762):  62%|██████▏   | 10502/16950 [1:54:05<52:59,  2.03it/s]Training 2/3 epoch (loss 0.0111):  62%|██████▏   | 10502/16950 [1:54:06<52:59,  2.03it/s]Training 2/3 epoch (loss 0.0111):  62%|██████▏   | 10503/16950 [1:54:06<54:27,  1.97it/s]Training 2/3 epoch (loss 0.0082):  62%|██████▏   | 10503/16950 [1:54:06<54:27,  1.97it/s]Training 2/3 epoch (loss 0.0082):  62%|██████▏   | 10504/16950 [1:54:06<58:10,  1.85it/s]Training 2/3 epoch (loss 0.0849):  62%|██████▏   | 10504/16950 [1:54:07<58:10,  1.85it/s]Training 2/3 epoch (loss 0.0849):  62%|██████▏   | 10505/16950 [1:54:07<59:13,  1.81it/s]Training 2/3 epoch (loss 0.0346):  62%|██████▏   | 10505/16950 [1:54:07<59:13,  1.81it/s]Training 2/3 epoch (loss 0.0346):  62%|██████▏   | 10506/16950 [1:54:08<59:28,  1.81it/s]Training 2/3 epoch (loss 0.1972):  62%|██████▏   | 10506/16950 [1:54:08<59:28,  1.81it/s]Training 2/3 epoch (loss 0.1972):  62%|██████▏   | 10507/16950 [1:54:08<1:06:55,  1.60it/s]Training 2/3 epoch (loss 0.7580):  62%|██████▏   | 10507/16950 [1:54:09<1:06:55,  1.60it/s]Training 2/3 epoch (loss 0.7580):  62%|██████▏   | 10508/16950 [1:54:09<1:02:07,  1.73it/s]Training 2/3 epoch (loss 0.4194):  62%|██████▏   | 10508/16950 [1:54:09<1:02:07,  1.73it/s]Training 2/3 epoch (loss 0.4194):  62%|██████▏   | 10509/16950 [1:54:09<59:25,  1.81it/s]  Training 2/3 epoch (loss 0.2253):  62%|██████▏   | 10509/16950 [1:54:10<59:25,  1.81it/s]Training 2/3 epoch (loss 0.2253):  62%|██████▏   | 10510/16950 [1:54:10<1:02:40,  1.71it/s]Training 2/3 epoch (loss 0.2645):  62%|██████▏   | 10510/16950 [1:54:11<1:02:40,  1.71it/s]Training 2/3 epoch (loss 0.2645):  62%|██████▏   | 10511/16950 [1:54:11<1:07:28,  1.59it/s]Training 2/3 epoch (loss 0.3160):  62%|██████▏   | 10511/16950 [1:54:11<1:07:28,  1.59it/s]Training 2/3 epoch (loss 0.3160):  62%|██████▏   | 10512/16950 [1:54:11<1:07:34,  1.59it/s]Training 2/3 epoch (loss 0.5570):  62%|██████▏   | 10512/16950 [1:54:12<1:07:34,  1.59it/s]Training 2/3 epoch (loss 0.5570):  62%|██████▏   | 10513/16950 [1:54:12<1:17:24,  1.39it/s]Training 2/3 epoch (loss 0.1283):  62%|██████▏   | 10513/16950 [1:54:13<1:17:24,  1.39it/s]Training 2/3 epoch (loss 0.1283):  62%|██████▏   | 10514/16950 [1:54:13<1:11:37,  1.50it/s]Training 2/3 epoch (loss 0.3711):  62%|██████▏   | 10514/16950 [1:54:13<1:11:37,  1.50it/s]Training 2/3 epoch (loss 0.3711):  62%|██████▏   | 10515/16950 [1:54:13<1:05:18,  1.64it/s]Training 2/3 epoch (loss 0.1661):  62%|██████▏   | 10515/16950 [1:54:14<1:05:18,  1.64it/s]Training 2/3 epoch (loss 0.1661):  62%|██████▏   | 10516/16950 [1:54:14<1:03:28,  1.69it/s]Training 2/3 epoch (loss 0.7208):  62%|██████▏   | 10516/16950 [1:54:14<1:03:28,  1.69it/s]Training 2/3 epoch (loss 0.7208):  62%|██████▏   | 10517/16950 [1:54:14<1:03:40,  1.68it/s]Training 2/3 epoch (loss 0.0282):  62%|██████▏   | 10517/16950 [1:54:15<1:03:40,  1.68it/s]Training 2/3 epoch (loss 0.0282):  62%|██████▏   | 10518/16950 [1:54:15<1:01:53,  1.73it/s]Training 2/3 epoch (loss 0.3960):  62%|██████▏   | 10518/16950 [1:54:16<1:01:53,  1.73it/s]Training 2/3 epoch (loss 0.3960):  62%|██████▏   | 10519/16950 [1:54:16<1:20:24,  1.33it/s]Training 2/3 epoch (loss 0.0321):  62%|██████▏   | 10519/16950 [1:54:17<1:20:24,  1.33it/s]Training 2/3 epoch (loss 0.0321):  62%|██████▏   | 10520/16950 [1:54:17<1:14:22,  1.44it/s]Training 2/3 epoch (loss 0.0017):  62%|██████▏   | 10520/16950 [1:54:17<1:14:22,  1.44it/s]Training 2/3 epoch (loss 0.0017):  62%|██████▏   | 10521/16950 [1:54:17<1:10:43,  1.52it/s]Training 2/3 epoch (loss 0.0010):  62%|██████▏   | 10521/16950 [1:54:18<1:10:43,  1.52it/s]Training 2/3 epoch (loss 0.0010):  62%|██████▏   | 10522/16950 [1:54:18<1:06:09,  1.62it/s]Training 2/3 epoch (loss 0.4035):  62%|██████▏   | 10522/16950 [1:54:18<1:06:09,  1.62it/s]Training 2/3 epoch (loss 0.4035):  62%|██████▏   | 10523/16950 [1:54:18<1:03:16,  1.69it/s]Training 2/3 epoch (loss 0.4566):  62%|██████▏   | 10523/16950 [1:54:19<1:03:16,  1.69it/s]Training 2/3 epoch (loss 0.4566):  62%|██████▏   | 10524/16950 [1:54:19<59:13,  1.81it/s]  Training 2/3 epoch (loss 0.0070):  62%|██████▏   | 10524/16950 [1:54:19<59:13,  1.81it/s]Training 2/3 epoch (loss 0.0070):  62%|██████▏   | 10525/16950 [1:54:19<58:09,  1.84it/s]Training 2/3 epoch (loss 0.3445):  62%|██████▏   | 10525/16950 [1:54:20<58:09,  1.84it/s]Training 2/3 epoch (loss 0.3445):  62%|██████▏   | 10526/16950 [1:54:20<54:06,  1.98it/s]Training 2/3 epoch (loss 0.0002):  62%|██████▏   | 10526/16950 [1:54:20<54:06,  1.98it/s]Training 2/3 epoch (loss 0.0002):  62%|██████▏   | 10527/16950 [1:54:20<55:23,  1.93it/s]Training 2/3 epoch (loss 0.0007):  62%|██████▏   | 10527/16950 [1:54:21<55:23,  1.93it/s]Training 2/3 epoch (loss 0.0007):  62%|██████▏   | 10528/16950 [1:54:21<55:27,  1.93it/s]Training 2/3 epoch (loss 0.0175):  62%|██████▏   | 10528/16950 [1:54:21<55:27,  1.93it/s]Training 2/3 epoch (loss 0.0175):  62%|██████▏   | 10529/16950 [1:54:21<56:34,  1.89it/s]Training 2/3 epoch (loss 0.0014):  62%|██████▏   | 10529/16950 [1:54:22<56:34,  1.89it/s]Training 2/3 epoch (loss 0.0014):  62%|██████▏   | 10530/16950 [1:54:22<55:40,  1.92it/s]Training 2/3 epoch (loss 0.0403):  62%|██████▏   | 10530/16950 [1:54:22<55:40,  1.92it/s]Training 2/3 epoch (loss 0.0403):  62%|██████▏   | 10531/16950 [1:54:22<59:42,  1.79it/s]Training 2/3 epoch (loss 0.0609):  62%|██████▏   | 10531/16950 [1:54:23<59:42,  1.79it/s]Training 2/3 epoch (loss 0.0609):  62%|██████▏   | 10532/16950 [1:54:23<1:04:44,  1.65it/s]Training 2/3 epoch (loss 0.0007):  62%|██████▏   | 10532/16950 [1:54:24<1:04:44,  1.65it/s]Training 2/3 epoch (loss 0.0007):  62%|██████▏   | 10533/16950 [1:54:24<1:02:08,  1.72it/s]Training 2/3 epoch (loss 0.0091):  62%|██████▏   | 10533/16950 [1:54:24<1:02:08,  1.72it/s]Training 2/3 epoch (loss 0.0091):  62%|██████▏   | 10534/16950 [1:54:24<1:00:18,  1.77it/s]Training 2/3 epoch (loss 0.0054):  62%|██████▏   | 10534/16950 [1:54:25<1:00:18,  1.77it/s]Training 2/3 epoch (loss 0.0054):  62%|██████▏   | 10535/16950 [1:54:25<1:01:52,  1.73it/s]Training 2/3 epoch (loss 0.1209):  62%|██████▏   | 10535/16950 [1:54:25<1:01:52,  1.73it/s]Training 2/3 epoch (loss 0.1209):  62%|██████▏   | 10536/16950 [1:54:25<59:38,  1.79it/s]  Training 2/3 epoch (loss 0.2416):  62%|██████▏   | 10536/16950 [1:54:26<59:38,  1.79it/s]Training 2/3 epoch (loss 0.2416):  62%|██████▏   | 10537/16950 [1:54:26<57:31,  1.86it/s]Training 2/3 epoch (loss 0.0460):  62%|██████▏   | 10537/16950 [1:54:26<57:31,  1.86it/s]Training 2/3 epoch (loss 0.0460):  62%|██████▏   | 10538/16950 [1:54:26<54:09,  1.97it/s]Training 2/3 epoch (loss 0.0115):  62%|██████▏   | 10538/16950 [1:54:27<54:09,  1.97it/s]Training 2/3 epoch (loss 0.0115):  62%|██████▏   | 10539/16950 [1:54:27<51:16,  2.08it/s]Training 2/3 epoch (loss 0.1150):  62%|██████▏   | 10539/16950 [1:54:27<51:16,  2.08it/s]Training 2/3 epoch (loss 0.1150):  62%|██████▏   | 10540/16950 [1:54:27<50:48,  2.10it/s]Training 2/3 epoch (loss 0.0017):  62%|██████▏   | 10540/16950 [1:54:28<50:48,  2.10it/s]Training 2/3 epoch (loss 0.0017):  62%|██████▏   | 10541/16950 [1:54:28<47:59,  2.23it/s]Training 2/3 epoch (loss 0.4160):  62%|██████▏   | 10541/16950 [1:54:28<47:59,  2.23it/s]Training 2/3 epoch (loss 0.4160):  62%|██████▏   | 10542/16950 [1:54:28<47:25,  2.25it/s]Training 2/3 epoch (loss 0.0023):  62%|██████▏   | 10542/16950 [1:54:29<47:25,  2.25it/s]Training 2/3 epoch (loss 0.0023):  62%|██████▏   | 10543/16950 [1:54:29<51:20,  2.08it/s]Training 2/3 epoch (loss 0.1997):  62%|██████▏   | 10543/16950 [1:54:29<51:20,  2.08it/s]Training 2/3 epoch (loss 0.1997):  62%|██████▏   | 10544/16950 [1:54:29<52:24,  2.04it/s]Training 2/3 epoch (loss 0.0134):  62%|██████▏   | 10544/16950 [1:54:29<52:24,  2.04it/s]Training 2/3 epoch (loss 0.0134):  62%|██████▏   | 10545/16950 [1:54:29<51:07,  2.09it/s]Training 2/3 epoch (loss 0.0041):  62%|██████▏   | 10545/16950 [1:54:30<51:07,  2.09it/s]Training 2/3 epoch (loss 0.0041):  62%|██████▏   | 10546/16950 [1:54:30<49:56,  2.14it/s]Training 2/3 epoch (loss 0.0705):  62%|██████▏   | 10546/16950 [1:54:31<49:56,  2.14it/s]Training 2/3 epoch (loss 0.0705):  62%|██████▏   | 10547/16950 [1:54:31<1:06:19,  1.61it/s]Training 2/3 epoch (loss 0.0223):  62%|██████▏   | 10547/16950 [1:54:32<1:06:19,  1.61it/s]Training 2/3 epoch (loss 0.0223):  62%|██████▏   | 10548/16950 [1:54:32<1:12:06,  1.48it/s]Training 2/3 epoch (loss 0.0041):  62%|██████▏   | 10548/16950 [1:54:32<1:12:06,  1.48it/s]Training 2/3 epoch (loss 0.0041):  62%|██████▏   | 10549/16950 [1:54:32<1:02:46,  1.70it/s]Training 2/3 epoch (loss 0.5034):  62%|██████▏   | 10549/16950 [1:54:33<1:02:46,  1.70it/s]Training 2/3 epoch (loss 0.5034):  62%|██████▏   | 10550/16950 [1:54:33<1:01:09,  1.74it/s]Training 2/3 epoch (loss 0.0203):  62%|██████▏   | 10550/16950 [1:54:33<1:01:09,  1.74it/s]Training 2/3 epoch (loss 0.0203):  62%|██████▏   | 10551/16950 [1:54:33<54:01,  1.97it/s]  Training 2/3 epoch (loss 0.0002):  62%|██████▏   | 10551/16950 [1:54:33<54:01,  1.97it/s]Training 2/3 epoch (loss 0.0002):  62%|██████▏   | 10552/16950 [1:54:33<54:10,  1.97it/s]Training 2/3 epoch (loss 0.3264):  62%|██████▏   | 10552/16950 [1:54:34<54:10,  1.97it/s]Training 2/3 epoch (loss 0.3264):  62%|██████▏   | 10553/16950 [1:54:34<55:37,  1.92it/s]Training 2/3 epoch (loss 0.0110):  62%|██████▏   | 10553/16950 [1:54:35<55:37,  1.92it/s]Training 2/3 epoch (loss 0.0110):  62%|██████▏   | 10554/16950 [1:54:35<1:04:41,  1.65it/s]Training 2/3 epoch (loss 0.5026):  62%|██████▏   | 10554/16950 [1:54:35<1:04:41,  1.65it/s]Training 2/3 epoch (loss 0.5026):  62%|██████▏   | 10555/16950 [1:54:35<1:04:55,  1.64it/s]Training 2/3 epoch (loss 0.4525):  62%|██████▏   | 10555/16950 [1:54:36<1:04:55,  1.64it/s]Training 2/3 epoch (loss 0.4525):  62%|██████▏   | 10556/16950 [1:54:36<1:04:17,  1.66it/s]Training 2/3 epoch (loss 0.3338):  62%|██████▏   | 10556/16950 [1:54:36<1:04:17,  1.66it/s]Training 2/3 epoch (loss 0.3338):  62%|██████▏   | 10557/16950 [1:54:36<58:54,  1.81it/s]  Training 2/3 epoch (loss 0.0926):  62%|██████▏   | 10557/16950 [1:54:37<58:54,  1.81it/s]Training 2/3 epoch (loss 0.0926):  62%|██████▏   | 10558/16950 [1:54:37<53:11,  2.00it/s]Training 2/3 epoch (loss 0.1647):  62%|██████▏   | 10558/16950 [1:54:38<53:11,  2.00it/s]Training 2/3 epoch (loss 0.1647):  62%|██████▏   | 10559/16950 [1:54:38<1:09:22,  1.54it/s]Training 2/3 epoch (loss 0.5371):  62%|██████▏   | 10559/16950 [1:54:39<1:09:22,  1.54it/s]Training 2/3 epoch (loss 0.5371):  62%|██████▏   | 10560/16950 [1:54:39<1:15:33,  1.41it/s]Training 2/3 epoch (loss 0.2871):  62%|██████▏   | 10560/16950 [1:54:39<1:15:33,  1.41it/s]Training 2/3 epoch (loss 0.2871):  62%|██████▏   | 10561/16950 [1:54:39<1:09:12,  1.54it/s]Training 2/3 epoch (loss 0.0282):  62%|██████▏   | 10561/16950 [1:54:40<1:09:12,  1.54it/s]Training 2/3 epoch (loss 0.0282):  62%|██████▏   | 10562/16950 [1:54:40<1:08:49,  1.55it/s]Training 2/3 epoch (loss 0.0084):  62%|██████▏   | 10562/16950 [1:54:41<1:08:49,  1.55it/s]Training 2/3 epoch (loss 0.0084):  62%|██████▏   | 10563/16950 [1:54:41<1:10:04,  1.52it/s]Training 2/3 epoch (loss 0.2442):  62%|██████▏   | 10563/16950 [1:54:42<1:10:04,  1.52it/s]Training 2/3 epoch (loss 0.2442):  62%|██████▏   | 10564/16950 [1:54:42<1:20:53,  1.32it/s]Training 2/3 epoch (loss 0.3382):  62%|██████▏   | 10564/16950 [1:54:42<1:20:53,  1.32it/s]Training 2/3 epoch (loss 0.3382):  62%|██████▏   | 10565/16950 [1:54:42<1:24:49,  1.25it/s]Training 2/3 epoch (loss 0.1027):  62%|██████▏   | 10565/16950 [1:54:43<1:24:49,  1.25it/s]Training 2/3 epoch (loss 0.1027):  62%|██████▏   | 10566/16950 [1:54:43<1:10:11,  1.52it/s]Training 2/3 epoch (loss 0.4030):  62%|██████▏   | 10566/16950 [1:54:43<1:10:11,  1.52it/s]Training 2/3 epoch (loss 0.4030):  62%|██████▏   | 10567/16950 [1:54:43<1:05:10,  1.63it/s]Training 2/3 epoch (loss nan):  62%|██████▏   | 10567/16950 [1:54:44<1:05:10,  1.63it/s]   Training 2/3 epoch (loss nan):  62%|██████▏   | 10568/16950 [1:54:44<1:21:51,  1.30it/s]Training 2/3 epoch (loss 0.4876):  62%|██████▏   | 10568/16950 [1:54:45<1:21:51,  1.30it/s]Training 2/3 epoch (loss 0.4876):  62%|██████▏   | 10569/16950 [1:54:45<1:16:18,  1.39it/s]Training 2/3 epoch (loss 0.0005):  62%|██████▏   | 10569/16950 [1:54:46<1:16:18,  1.39it/s]Training 2/3 epoch (loss 0.0005):  62%|██████▏   | 10570/16950 [1:54:46<1:10:19,  1.51it/s]Training 2/3 epoch (loss 0.2001):  62%|██████▏   | 10570/16950 [1:54:46<1:10:19,  1.51it/s]Training 2/3 epoch (loss 0.2001):  62%|██████▏   | 10571/16950 [1:54:46<1:05:34,  1.62it/s]Training 2/3 epoch (loss 0.0119):  62%|██████▏   | 10571/16950 [1:54:46<1:05:34,  1.62it/s]Training 2/3 epoch (loss 0.0119):  62%|██████▏   | 10572/16950 [1:54:46<59:39,  1.78it/s]  Training 2/3 epoch (loss 0.3554):  62%|██████▏   | 10572/16950 [1:54:47<59:39,  1.78it/s]Training 2/3 epoch (loss 0.3554):  62%|██████▏   | 10573/16950 [1:54:47<1:01:46,  1.72it/s]Training 2/3 epoch (loss 0.0559):  62%|██████▏   | 10573/16950 [1:54:48<1:01:46,  1.72it/s]Training 2/3 epoch (loss 0.0559):  62%|██████▏   | 10574/16950 [1:54:48<59:49,  1.78it/s]  Training 2/3 epoch (loss 0.0085):  62%|██████▏   | 10574/16950 [1:54:48<59:49,  1.78it/s]Training 2/3 epoch (loss 0.0085):  62%|██████▏   | 10575/16950 [1:54:48<1:03:32,  1.67it/s]Training 2/3 epoch (loss 0.0014):  62%|██████▏   | 10575/16950 [1:54:49<1:03:32,  1.67it/s]Training 2/3 epoch (loss 0.0014):  62%|██████▏   | 10576/16950 [1:54:49<1:04:58,  1.64it/s]Training 2/3 epoch (loss 0.0298):  62%|██████▏   | 10576/16950 [1:54:49<1:04:58,  1.64it/s]Training 2/3 epoch (loss 0.0298):  62%|██████▏   | 10577/16950 [1:54:49<1:01:28,  1.73it/s]Training 2/3 epoch (loss 0.0047):  62%|██████▏   | 10577/16950 [1:54:50<1:01:28,  1.73it/s]Training 2/3 epoch (loss 0.0047):  62%|██████▏   | 10578/16950 [1:54:50<1:00:46,  1.75it/s]Training 2/3 epoch (loss 0.0044):  62%|██████▏   | 10578/16950 [1:54:51<1:00:46,  1.75it/s]Training 2/3 epoch (loss 0.0044):  62%|██████▏   | 10579/16950 [1:54:51<1:06:06,  1.61it/s]Training 2/3 epoch (loss 0.0076):  62%|██████▏   | 10579/16950 [1:54:51<1:06:06,  1.61it/s]Training 2/3 epoch (loss 0.0076):  62%|██████▏   | 10580/16950 [1:54:51<1:05:16,  1.63it/s]Training 2/3 epoch (loss 0.6170):  62%|██████▏   | 10580/16950 [1:54:52<1:05:16,  1.63it/s]Training 2/3 epoch (loss 0.6170):  62%|██████▏   | 10581/16950 [1:54:52<56:59,  1.86it/s]  Training 2/3 epoch (loss 0.0790):  62%|██████▏   | 10581/16950 [1:54:53<56:59,  1.86it/s]Training 2/3 epoch (loss 0.0790):  62%|██████▏   | 10582/16950 [1:54:53<1:06:33,  1.59it/s]Training 2/3 epoch (loss 0.0127):  62%|██████▏   | 10582/16950 [1:54:53<1:06:33,  1.59it/s]Training 2/3 epoch (loss 0.0127):  62%|██████▏   | 10583/16950 [1:54:53<1:07:56,  1.56it/s]Training 2/3 epoch (loss 0.0003):  62%|██████▏   | 10583/16950 [1:54:54<1:07:56,  1.56it/s]Training 2/3 epoch (loss 0.0003):  62%|██████▏   | 10584/16950 [1:54:54<1:06:01,  1.61it/s]Training 2/3 epoch (loss 0.0043):  62%|██████▏   | 10584/16950 [1:54:54<1:06:01,  1.61it/s]Training 2/3 epoch (loss 0.0043):  62%|██████▏   | 10585/16950 [1:54:54<1:00:24,  1.76it/s]Training 2/3 epoch (loss 0.4328):  62%|██████▏   | 10585/16950 [1:54:55<1:00:24,  1.76it/s]Training 2/3 epoch (loss 0.4328):  62%|██████▏   | 10586/16950 [1:54:55<1:00:30,  1.75it/s]Training 2/3 epoch (loss 0.0024):  62%|██████▏   | 10586/16950 [1:54:55<1:00:30,  1.75it/s]Training 2/3 epoch (loss 0.0024):  62%|██████▏   | 10587/16950 [1:54:55<56:00,  1.89it/s]  Training 2/3 epoch (loss 0.1106):  62%|██████▏   | 10587/16950 [1:54:56<56:00,  1.89it/s]Training 2/3 epoch (loss 0.1106):  62%|██████▏   | 10588/16950 [1:54:56<52:07,  2.03it/s]Training 2/3 epoch (loss 0.2788):  62%|██████▏   | 10588/16950 [1:54:56<52:07,  2.03it/s]Training 2/3 epoch (loss 0.2788):  62%|██████▏   | 10589/16950 [1:54:56<54:53,  1.93it/s]Training 2/3 epoch (loss 0.0117):  62%|██████▏   | 10589/16950 [1:54:57<54:53,  1.93it/s]Training 2/3 epoch (loss 0.0117):  62%|██████▏   | 10590/16950 [1:54:57<57:21,  1.85it/s]Training 2/3 epoch (loss 0.0044):  62%|██████▏   | 10590/16950 [1:54:57<57:21,  1.85it/s]Training 2/3 epoch (loss 0.0044):  62%|██████▏   | 10591/16950 [1:54:57<1:00:08,  1.76it/s]Training 2/3 epoch (loss 0.4346):  62%|██████▏   | 10591/16950 [1:54:58<1:00:08,  1.76it/s]Training 2/3 epoch (loss 0.4346):  62%|██████▏   | 10592/16950 [1:54:58<1:02:31,  1.69it/s]Training 2/3 epoch (loss 0.0007):  62%|██████▏   | 10592/16950 [1:54:59<1:02:31,  1.69it/s]Training 2/3 epoch (loss 0.0007):  62%|██████▏   | 10593/16950 [1:54:59<59:14,  1.79it/s]  Training 2/3 epoch (loss 0.2766):  62%|██████▏   | 10593/16950 [1:54:59<59:14,  1.79it/s]Training 2/3 epoch (loss 0.2766):  63%|██████▎   | 10594/16950 [1:54:59<56:34,  1.87it/s]Training 2/3 epoch (loss 0.0172):  63%|██████▎   | 10594/16950 [1:55:00<56:34,  1.87it/s]Training 2/3 epoch (loss 0.0172):  63%|██████▎   | 10595/16950 [1:55:00<1:01:49,  1.71it/s]Training 2/3 epoch (loss 0.0372):  63%|██████▎   | 10595/16950 [1:55:01<1:01:49,  1.71it/s]Training 2/3 epoch (loss 0.0372):  63%|██████▎   | 10596/16950 [1:55:01<1:10:11,  1.51it/s]Training 2/3 epoch (loss 0.0229):  63%|██████▎   | 10596/16950 [1:55:01<1:10:11,  1.51it/s]Training 2/3 epoch (loss 0.0229):  63%|██████▎   | 10597/16950 [1:55:01<1:17:45,  1.36it/s]Training 2/3 epoch (loss 0.1879):  63%|██████▎   | 10597/16950 [1:55:02<1:17:45,  1.36it/s]Training 2/3 epoch (loss 0.1879):  63%|██████▎   | 10598/16950 [1:55:02<1:13:01,  1.45it/s]Training 2/3 epoch (loss 0.0442):  63%|██████▎   | 10598/16950 [1:55:03<1:13:01,  1.45it/s]Training 2/3 epoch (loss 0.0442):  63%|██████▎   | 10599/16950 [1:55:03<1:16:30,  1.38it/s]Training 2/3 epoch (loss 0.3808):  63%|██████▎   | 10599/16950 [1:55:03<1:16:30,  1.38it/s]Training 2/3 epoch (loss 0.3808):  63%|██████▎   | 10600/16950 [1:55:03<1:11:22,  1.48it/s]Training 2/3 epoch (loss 0.0116):  63%|██████▎   | 10600/16950 [1:55:04<1:11:22,  1.48it/s]Training 2/3 epoch (loss 0.0116):  63%|██████▎   | 10601/16950 [1:55:04<1:07:23,  1.57it/s]Training 2/3 epoch (loss 0.1700):  63%|██████▎   | 10601/16950 [1:55:04<1:07:23,  1.57it/s]Training 2/3 epoch (loss 0.1700):  63%|██████▎   | 10602/16950 [1:55:04<1:03:01,  1.68it/s]Training 2/3 epoch (loss 0.0035):  63%|██████▎   | 10602/16950 [1:55:05<1:03:01,  1.68it/s]Training 2/3 epoch (loss 0.0035):  63%|██████▎   | 10603/16950 [1:55:05<1:05:41,  1.61it/s]Training 2/3 epoch (loss 0.0800):  63%|██████▎   | 10603/16950 [1:55:06<1:05:41,  1.61it/s]Training 2/3 epoch (loss 0.0800):  63%|██████▎   | 10604/16950 [1:55:06<1:01:47,  1.71it/s]Training 2/3 epoch (loss 0.5282):  63%|██████▎   | 10604/16950 [1:55:06<1:01:47,  1.71it/s]Training 2/3 epoch (loss 0.5282):  63%|██████▎   | 10605/16950 [1:55:06<1:02:34,  1.69it/s]Training 2/3 epoch (loss 0.0423):  63%|██████▎   | 10605/16950 [1:55:07<1:02:34,  1.69it/s]Training 2/3 epoch (loss 0.0423):  63%|██████▎   | 10606/16950 [1:55:07<57:20,  1.84it/s]  Training 2/3 epoch (loss 0.0013):  63%|██████▎   | 10606/16950 [1:55:07<57:20,  1.84it/s]Training 2/3 epoch (loss 0.0013):  63%|██████▎   | 10607/16950 [1:55:07<54:28,  1.94it/s]Training 2/3 epoch (loss 0.0064):  63%|██████▎   | 10607/16950 [1:55:08<54:28,  1.94it/s]Training 2/3 epoch (loss 0.0064):  63%|██████▎   | 10608/16950 [1:55:08<49:35,  2.13it/s]Training 2/3 epoch (loss 0.4319):  63%|██████▎   | 10608/16950 [1:55:08<49:35,  2.13it/s]Training 2/3 epoch (loss 0.4319):  63%|██████▎   | 10609/16950 [1:55:08<45:24,  2.33it/s]Training 2/3 epoch (loss 0.0383):  63%|██████▎   | 10609/16950 [1:55:08<45:24,  2.33it/s]Training 2/3 epoch (loss 0.0383):  63%|██████▎   | 10610/16950 [1:55:08<50:33,  2.09it/s]Training 2/3 epoch (loss 0.0123):  63%|██████▎   | 10610/16950 [1:55:09<50:33,  2.09it/s]Training 2/3 epoch (loss 0.0123):  63%|██████▎   | 10611/16950 [1:55:09<51:13,  2.06it/s]Training 2/3 epoch (loss 0.0001):  63%|██████▎   | 10611/16950 [1:55:09<51:13,  2.06it/s]Training 2/3 epoch (loss 0.0001):  63%|██████▎   | 10612/16950 [1:55:09<52:08,  2.03it/s]Training 2/3 epoch (loss 0.5442):  63%|██████▎   | 10612/16950 [1:55:11<52:08,  2.03it/s]Training 2/3 epoch (loss 0.5442):  63%|██████▎   | 10613/16950 [1:55:11<1:11:49,  1.47it/s]Training 2/3 epoch (loss 0.0124):  63%|██████▎   | 10613/16950 [1:55:11<1:11:49,  1.47it/s]Training 2/3 epoch (loss 0.0124):  63%|██████▎   | 10614/16950 [1:55:11<1:15:23,  1.40it/s]Training 2/3 epoch (loss 0.4298):  63%|██████▎   | 10614/16950 [1:55:12<1:15:23,  1.40it/s]Training 2/3 epoch (loss 0.4298):  63%|██████▎   | 10615/16950 [1:55:12<1:13:06,  1.44it/s]Training 2/3 epoch (loss 0.0644):  63%|██████▎   | 10615/16950 [1:55:13<1:13:06,  1.44it/s]Training 2/3 epoch (loss 0.0644):  63%|██████▎   | 10616/16950 [1:55:13<1:12:27,  1.46it/s]Training 2/3 epoch (loss 0.0014):  63%|██████▎   | 10616/16950 [1:55:13<1:12:27,  1.46it/s]Training 2/3 epoch (loss 0.0014):  63%|██████▎   | 10617/16950 [1:55:13<1:09:07,  1.53it/s]Training 2/3 epoch (loss 0.0215):  63%|██████▎   | 10617/16950 [1:55:14<1:09:07,  1.53it/s]Training 2/3 epoch (loss 0.0215):  63%|██████▎   | 10618/16950 [1:55:14<1:09:24,  1.52it/s]Training 2/3 epoch (loss 0.6594):  63%|██████▎   | 10618/16950 [1:55:14<1:09:24,  1.52it/s]Training 2/3 epoch (loss 0.6594):  63%|██████▎   | 10619/16950 [1:55:14<1:04:22,  1.64it/s]Training 2/3 epoch (loss 0.3340):  63%|██████▎   | 10619/16950 [1:55:15<1:04:22,  1.64it/s]Training 2/3 epoch (loss 0.3340):  63%|██████▎   | 10620/16950 [1:55:15<57:05,  1.85it/s]  Training 2/3 epoch (loss 0.0474):  63%|██████▎   | 10620/16950 [1:55:15<57:05,  1.85it/s]Training 2/3 epoch (loss 0.0474):  63%|██████▎   | 10621/16950 [1:55:15<54:28,  1.94it/s]Training 2/3 epoch (loss 0.0369):  63%|██████▎   | 10621/16950 [1:55:16<54:28,  1.94it/s]Training 2/3 epoch (loss 0.0369):  63%|██████▎   | 10622/16950 [1:55:16<56:19,  1.87it/s]Training 2/3 epoch (loss 0.0005):  63%|██████▎   | 10622/16950 [1:55:17<56:19,  1.87it/s]Training 2/3 epoch (loss 0.0005):  63%|██████▎   | 10623/16950 [1:55:17<1:01:09,  1.72it/s]Training 2/3 epoch (loss 0.5304):  63%|██████▎   | 10623/16950 [1:55:17<1:01:09,  1.72it/s]Training 2/3 epoch (loss 0.5304):  63%|██████▎   | 10624/16950 [1:55:17<1:10:18,  1.50it/s]Training 2/3 epoch (loss 0.0276):  63%|██████▎   | 10624/16950 [1:55:18<1:10:18,  1.50it/s]Training 2/3 epoch (loss 0.0276):  63%|██████▎   | 10625/16950 [1:55:18<1:07:58,  1.55it/s]Training 2/3 epoch (loss 0.5716):  63%|██████▎   | 10625/16950 [1:55:18<1:07:58,  1.55it/s]Training 2/3 epoch (loss 0.5716):  63%|██████▎   | 10626/16950 [1:55:18<1:00:24,  1.74it/s]Training 2/3 epoch (loss 0.1205):  63%|██████▎   | 10626/16950 [1:55:19<1:00:24,  1.74it/s]Training 2/3 epoch (loss 0.1205):  63%|██████▎   | 10627/16950 [1:55:19<56:12,  1.87it/s]  Training 2/3 epoch (loss 0.0006):  63%|██████▎   | 10627/16950 [1:55:19<56:12,  1.87it/s]Training 2/3 epoch (loss 0.0006):  63%|██████▎   | 10628/16950 [1:55:19<58:15,  1.81it/s]Training 2/3 epoch (loss 0.0065):  63%|██████▎   | 10628/16950 [1:55:20<58:15,  1.81it/s]Training 2/3 epoch (loss 0.0065):  63%|██████▎   | 10629/16950 [1:55:20<57:50,  1.82it/s]Training 2/3 epoch (loss 0.1700):  63%|██████▎   | 10629/16950 [1:55:20<57:50,  1.82it/s]Training 2/3 epoch (loss 0.1700):  63%|██████▎   | 10630/16950 [1:55:20<53:31,  1.97it/s]Training 2/3 epoch (loss 0.0718):  63%|██████▎   | 10630/16950 [1:55:21<53:31,  1.97it/s]Training 2/3 epoch (loss 0.0718):  63%|██████▎   | 10631/16950 [1:55:21<50:14,  2.10it/s]Training 2/3 epoch (loss 0.0002):  63%|██████▎   | 10631/16950 [1:55:21<50:14,  2.10it/s]Training 2/3 epoch (loss 0.0002):  63%|██████▎   | 10632/16950 [1:55:21<48:31,  2.17it/s]Training 2/3 epoch (loss 0.4232):  63%|██████▎   | 10632/16950 [1:55:22<48:31,  2.17it/s]Training 2/3 epoch (loss 0.4232):  63%|██████▎   | 10633/16950 [1:55:22<45:07,  2.33it/s]Training 2/3 epoch (loss 0.0092):  63%|██████▎   | 10633/16950 [1:55:22<45:07,  2.33it/s]Training 2/3 epoch (loss 0.0092):  63%|██████▎   | 10634/16950 [1:55:22<44:15,  2.38it/s]Training 2/3 epoch (loss 0.0145):  63%|██████▎   | 10634/16950 [1:55:23<44:15,  2.38it/s]Training 2/3 epoch (loss 0.0145):  63%|██████▎   | 10635/16950 [1:55:23<47:39,  2.21it/s]Training 2/3 epoch (loss 0.4719):  63%|██████▎   | 10635/16950 [1:55:24<47:39,  2.21it/s]Training 2/3 epoch (loss 0.4719):  63%|██████▎   | 10636/16950 [1:55:24<1:07:39,  1.56it/s]Training 2/3 epoch (loss 0.0964):  63%|██████▎   | 10636/16950 [1:55:24<1:07:39,  1.56it/s]Training 2/3 epoch (loss 0.0964):  63%|██████▎   | 10637/16950 [1:55:24<1:12:20,  1.45it/s]Training 2/3 epoch (loss 0.4991):  63%|██████▎   | 10637/16950 [1:55:25<1:12:20,  1.45it/s]Training 2/3 epoch (loss 0.4991):  63%|██████▎   | 10638/16950 [1:55:25<1:12:24,  1.45it/s]Training 2/3 epoch (loss 0.2973):  63%|██████▎   | 10638/16950 [1:55:26<1:12:24,  1.45it/s]Training 2/3 epoch (loss 0.2973):  63%|██████▎   | 10639/16950 [1:55:26<1:05:25,  1.61it/s]Training 2/3 epoch (loss 0.0048):  63%|██████▎   | 10639/16950 [1:55:26<1:05:25,  1.61it/s]Training 2/3 epoch (loss 0.0048):  63%|██████▎   | 10640/16950 [1:55:26<1:06:31,  1.58it/s]Training 2/3 epoch (loss 0.4101):  63%|██████▎   | 10640/16950 [1:55:27<1:06:31,  1.58it/s]Training 2/3 epoch (loss 0.4101):  63%|██████▎   | 10641/16950 [1:55:27<1:04:23,  1.63it/s]Training 2/3 epoch (loss 0.0107):  63%|██████▎   | 10641/16950 [1:55:27<1:04:23,  1.63it/s]Training 2/3 epoch (loss 0.0107):  63%|██████▎   | 10642/16950 [1:55:27<1:00:52,  1.73it/s]Training 2/3 epoch (loss 0.8656):  63%|██████▎   | 10642/16950 [1:55:28<1:00:52,  1.73it/s]Training 2/3 epoch (loss 0.8656):  63%|██████▎   | 10643/16950 [1:55:28<55:10,  1.91it/s]  Training 2/3 epoch (loss 0.4809):  63%|██████▎   | 10643/16950 [1:55:28<55:10,  1.91it/s]Training 2/3 epoch (loss 0.4809):  63%|██████▎   | 10644/16950 [1:55:28<1:04:04,  1.64it/s]Training 2/3 epoch (loss 0.0029):  63%|██████▎   | 10644/16950 [1:55:29<1:04:04,  1.64it/s]Training 2/3 epoch (loss 0.0029):  63%|██████▎   | 10645/16950 [1:55:29<1:08:16,  1.54it/s]Training 2/3 epoch (loss 0.0003):  63%|██████▎   | 10645/16950 [1:55:30<1:08:16,  1.54it/s]Training 2/3 epoch (loss 0.0003):  63%|██████▎   | 10646/16950 [1:55:30<1:02:27,  1.68it/s]Training 2/3 epoch (loss 0.0005):  63%|██████▎   | 10646/16950 [1:55:30<1:02:27,  1.68it/s]Training 2/3 epoch (loss 0.0005):  63%|██████▎   | 10647/16950 [1:55:30<1:02:37,  1.68it/s]Training 2/3 epoch (loss 0.0158):  63%|██████▎   | 10647/16950 [1:55:31<1:02:37,  1.68it/s]Training 2/3 epoch (loss 0.0158):  63%|██████▎   | 10648/16950 [1:55:31<1:00:28,  1.74it/s]Training 2/3 epoch (loss 0.0071):  63%|██████▎   | 10648/16950 [1:55:31<1:00:28,  1.74it/s]Training 2/3 epoch (loss 0.0071):  63%|██████▎   | 10649/16950 [1:55:31<59:51,  1.75it/s]  Training 2/3 epoch (loss 0.0076):  63%|██████▎   | 10649/16950 [1:55:32<59:51,  1.75it/s]Training 2/3 epoch (loss 0.0076):  63%|██████▎   | 10650/16950 [1:55:32<1:09:14,  1.52it/s]Training 2/3 epoch (loss 0.0266):  63%|██████▎   | 10650/16950 [1:55:33<1:09:14,  1.52it/s]Training 2/3 epoch (loss 0.0266):  63%|██████▎   | 10651/16950 [1:55:33<1:12:07,  1.46it/s]Training 2/3 epoch (loss 0.0136):  63%|██████▎   | 10651/16950 [1:55:34<1:12:07,  1.46it/s]Training 2/3 epoch (loss 0.0136):  63%|██████▎   | 10652/16950 [1:55:34<1:09:48,  1.50it/s]Training 2/3 epoch (loss 0.9798):  63%|██████▎   | 10652/16950 [1:55:34<1:09:48,  1.50it/s]Training 2/3 epoch (loss 0.9798):  63%|██████▎   | 10653/16950 [1:55:34<1:16:26,  1.37it/s]Training 2/3 epoch (loss 0.0347):  63%|██████▎   | 10653/16950 [1:55:35<1:16:26,  1.37it/s]Training 2/3 epoch (loss 0.0347):  63%|██████▎   | 10654/16950 [1:55:35<1:12:15,  1.45it/s]Training 2/3 epoch (loss 0.3368):  63%|██████▎   | 10654/16950 [1:55:36<1:12:15,  1.45it/s]Training 2/3 epoch (loss 0.3368):  63%|██████▎   | 10655/16950 [1:55:36<1:18:07,  1.34it/s]Training 2/3 epoch (loss 0.6745):  63%|██████▎   | 10655/16950 [1:55:37<1:18:07,  1.34it/s]Training 2/3 epoch (loss 0.6745):  63%|██████▎   | 10656/16950 [1:55:37<1:21:17,  1.29it/s]Training 2/3 epoch (loss 0.0646):  63%|██████▎   | 10656/16950 [1:55:37<1:21:17,  1.29it/s]Training 2/3 epoch (loss 0.0646):  63%|██████▎   | 10657/16950 [1:55:37<1:13:05,  1.43it/s]Training 2/3 epoch (loss 0.0158):  63%|██████▎   | 10657/16950 [1:55:38<1:13:05,  1.43it/s]Training 2/3 epoch (loss 0.0158):  63%|██████▎   | 10658/16950 [1:55:38<1:10:55,  1.48it/s]Training 2/3 epoch (loss 0.0048):  63%|██████▎   | 10658/16950 [1:55:38<1:10:55,  1.48it/s]Training 2/3 epoch (loss 0.0048):  63%|██████▎   | 10659/16950 [1:55:38<1:04:50,  1.62it/s]Training 2/3 epoch (loss 0.1897):  63%|██████▎   | 10659/16950 [1:55:39<1:04:50,  1.62it/s]Training 2/3 epoch (loss 0.1897):  63%|██████▎   | 10660/16950 [1:55:39<1:05:46,  1.59it/s]Training 2/3 epoch (loss 0.0193):  63%|██████▎   | 10660/16950 [1:55:40<1:05:46,  1.59it/s]Training 2/3 epoch (loss 0.0193):  63%|██████▎   | 10661/16950 [1:55:40<1:10:01,  1.50it/s]Training 2/3 epoch (loss 0.0001):  63%|██████▎   | 10661/16950 [1:55:40<1:10:01,  1.50it/s]Training 2/3 epoch (loss 0.0001):  63%|██████▎   | 10662/16950 [1:55:40<1:06:45,  1.57it/s]Training 2/3 epoch (loss 0.0433):  63%|██████▎   | 10662/16950 [1:55:41<1:06:45,  1.57it/s]Training 2/3 epoch (loss 0.0433):  63%|██████▎   | 10663/16950 [1:55:41<1:05:16,  1.61it/s]Training 2/3 epoch (loss 0.2682):  63%|██████▎   | 10663/16950 [1:55:42<1:05:16,  1.61it/s]Training 2/3 epoch (loss 0.2682):  63%|██████▎   | 10664/16950 [1:55:42<1:14:10,  1.41it/s]Training 2/3 epoch (loss 0.0065):  63%|██████▎   | 10664/16950 [1:55:43<1:14:10,  1.41it/s]Training 2/3 epoch (loss 0.0065):  63%|██████▎   | 10665/16950 [1:55:43<1:15:59,  1.38it/s]Training 2/3 epoch (loss 0.0001):  63%|██████▎   | 10665/16950 [1:55:43<1:15:59,  1.38it/s]Training 2/3 epoch (loss 0.0001):  63%|██████▎   | 10666/16950 [1:55:43<1:12:01,  1.45it/s]Training 2/3 epoch (loss 0.3486):  63%|██████▎   | 10666/16950 [1:55:44<1:12:01,  1.45it/s]Training 2/3 epoch (loss 0.3486):  63%|██████▎   | 10667/16950 [1:55:44<1:07:21,  1.55it/s]Training 2/3 epoch (loss 0.0067):  63%|██████▎   | 10667/16950 [1:55:44<1:07:21,  1.55it/s]Training 2/3 epoch (loss 0.0067):  63%|██████▎   | 10668/16950 [1:55:44<1:05:43,  1.59it/s]Training 2/3 epoch (loss 0.4173):  63%|██████▎   | 10668/16950 [1:55:45<1:05:43,  1.59it/s]Training 2/3 epoch (loss 0.4173):  63%|██████▎   | 10669/16950 [1:55:45<1:15:44,  1.38it/s]Training 2/3 epoch (loss 0.2113):  63%|██████▎   | 10669/16950 [1:55:46<1:15:44,  1.38it/s]Training 2/3 epoch (loss 0.2113):  63%|██████▎   | 10670/16950 [1:55:46<1:09:44,  1.50it/s]Training 2/3 epoch (loss 0.2472):  63%|██████▎   | 10670/16950 [1:55:46<1:09:44,  1.50it/s]Training 2/3 epoch (loss 0.2472):  63%|██████▎   | 10671/16950 [1:55:46<1:08:43,  1.52it/s]Training 2/3 epoch (loss 0.0004):  63%|██████▎   | 10671/16950 [1:55:47<1:08:43,  1.52it/s]Training 2/3 epoch (loss 0.0004):  63%|██████▎   | 10672/16950 [1:55:47<1:05:12,  1.60it/s]Training 2/3 epoch (loss 0.0087):  63%|██████▎   | 10672/16950 [1:55:48<1:05:12,  1.60it/s]Training 2/3 epoch (loss 0.0087):  63%|██████▎   | 10673/16950 [1:55:48<1:04:26,  1.62it/s]Training 2/3 epoch (loss 0.0230):  63%|██████▎   | 10673/16950 [1:55:48<1:04:26,  1.62it/s]Training 2/3 epoch (loss 0.0230):  63%|██████▎   | 10674/16950 [1:55:48<1:03:56,  1.64it/s]Training 2/3 epoch (loss 0.0316):  63%|██████▎   | 10674/16950 [1:55:49<1:03:56,  1.64it/s]Training 2/3 epoch (loss 0.0316):  63%|██████▎   | 10675/16950 [1:55:49<1:02:59,  1.66it/s]Training 2/3 epoch (loss 0.6816):  63%|██████▎   | 10675/16950 [1:55:49<1:02:59,  1.66it/s]Training 2/3 epoch (loss 0.6816):  63%|██████▎   | 10676/16950 [1:55:49<55:10,  1.90it/s]  Training 2/3 epoch (loss 0.0006):  63%|██████▎   | 10676/16950 [1:55:50<55:10,  1.90it/s]Training 2/3 epoch (loss 0.0006):  63%|██████▎   | 10677/16950 [1:55:50<51:23,  2.03it/s]Training 2/3 epoch (loss 0.0501):  63%|██████▎   | 10677/16950 [1:55:50<51:23,  2.03it/s]Training 2/3 epoch (loss 0.0501):  63%|██████▎   | 10678/16950 [1:55:50<52:40,  1.98it/s]Training 2/3 epoch (loss 0.0339):  63%|██████▎   | 10678/16950 [1:55:51<52:40,  1.98it/s]Training 2/3 epoch (loss 0.0339):  63%|██████▎   | 10679/16950 [1:55:51<59:37,  1.75it/s]Training 2/3 epoch (loss 0.0583):  63%|██████▎   | 10679/16950 [1:55:52<59:37,  1.75it/s]Training 2/3 epoch (loss 0.0583):  63%|██████▎   | 10680/16950 [1:55:52<1:03:12,  1.65it/s]Training 2/3 epoch (loss 0.0287):  63%|██████▎   | 10680/16950 [1:55:52<1:03:12,  1.65it/s]Training 2/3 epoch (loss 0.0287):  63%|██████▎   | 10681/16950 [1:55:52<59:15,  1.76it/s]  Training 2/3 epoch (loss 0.0294):  63%|██████▎   | 10681/16950 [1:55:53<59:15,  1.76it/s]Training 2/3 epoch (loss 0.0294):  63%|██████▎   | 10682/16950 [1:55:53<1:03:44,  1.64it/s]Training 2/3 epoch (loss 0.9937):  63%|██████▎   | 10682/16950 [1:55:53<1:03:44,  1.64it/s]Training 2/3 epoch (loss 0.9937):  63%|██████▎   | 10683/16950 [1:55:53<1:04:53,  1.61it/s]Training 2/3 epoch (loss 0.0014):  63%|██████▎   | 10683/16950 [1:55:54<1:04:53,  1.61it/s]Training 2/3 epoch (loss 0.0014):  63%|██████▎   | 10684/16950 [1:55:54<1:05:59,  1.58it/s]Training 2/3 epoch (loss 0.6009):  63%|██████▎   | 10684/16950 [1:55:55<1:05:59,  1.58it/s]Training 2/3 epoch (loss 0.6009):  63%|██████▎   | 10685/16950 [1:55:55<1:01:57,  1.69it/s]Training 2/3 epoch (loss 0.1137):  63%|██████▎   | 10685/16950 [1:55:55<1:01:57,  1.69it/s]Training 2/3 epoch (loss 0.1137):  63%|██████▎   | 10686/16950 [1:55:55<1:00:39,  1.72it/s]Training 2/3 epoch (loss 0.0111):  63%|██████▎   | 10686/16950 [1:55:56<1:00:39,  1.72it/s]Training 2/3 epoch (loss 0.0111):  63%|██████▎   | 10687/16950 [1:55:56<1:00:26,  1.73it/s]Training 2/3 epoch (loss 0.0761):  63%|██████▎   | 10687/16950 [1:55:56<1:00:26,  1.73it/s]Training 2/3 epoch (loss 0.0761):  63%|██████▎   | 10688/16950 [1:55:56<56:31,  1.85it/s]  Training 2/3 epoch (loss 0.0235):  63%|██████▎   | 10688/16950 [1:55:57<56:31,  1.85it/s]Training 2/3 epoch (loss 0.0235):  63%|██████▎   | 10689/16950 [1:55:57<51:59,  2.01it/s]Training 2/3 epoch (loss 0.0225):  63%|██████▎   | 10689/16950 [1:55:57<51:59,  2.01it/s]Training 2/3 epoch (loss 0.0225):  63%|██████▎   | 10690/16950 [1:55:57<46:01,  2.27it/s]Training 2/3 epoch (loss 0.0062):  63%|██████▎   | 10690/16950 [1:55:57<46:01,  2.27it/s]Training 2/3 epoch (loss 0.0062):  63%|██████▎   | 10691/16950 [1:55:57<53:40,  1.94it/s]Training 2/3 epoch (loss 0.0006):  63%|██████▎   | 10691/16950 [1:55:58<53:40,  1.94it/s]Training 2/3 epoch (loss 0.0006):  63%|██████▎   | 10692/16950 [1:55:58<53:42,  1.94it/s]Training 2/3 epoch (loss 0.0496):  63%|██████▎   | 10692/16950 [1:55:59<53:42,  1.94it/s]Training 2/3 epoch (loss 0.0496):  63%|██████▎   | 10693/16950 [1:55:59<54:57,  1.90it/s]Training 2/3 epoch (loss 0.0281):  63%|██████▎   | 10693/16950 [1:55:59<54:57,  1.90it/s]Training 2/3 epoch (loss 0.0281):  63%|██████▎   | 10694/16950 [1:55:59<54:16,  1.92it/s]Training 2/3 epoch (loss 0.4447):  63%|██████▎   | 10694/16950 [1:56:00<54:16,  1.92it/s]Training 2/3 epoch (loss 0.4447):  63%|██████▎   | 10695/16950 [1:56:00<1:11:54,  1.45it/s]Training 2/3 epoch (loss 0.5595):  63%|██████▎   | 10695/16950 [1:56:01<1:11:54,  1.45it/s]Training 2/3 epoch (loss 0.5595):  63%|██████▎   | 10696/16950 [1:56:01<1:24:11,  1.24it/s]Training 2/3 epoch (loss 0.4772):  63%|██████▎   | 10696/16950 [1:56:02<1:24:11,  1.24it/s]Training 2/3 epoch (loss 0.4772):  63%|██████▎   | 10697/16950 [1:56:02<1:21:51,  1.27it/s]Training 2/3 epoch (loss 0.2738):  63%|██████▎   | 10697/16950 [1:56:03<1:21:51,  1.27it/s]Training 2/3 epoch (loss 0.2738):  63%|██████▎   | 10698/16950 [1:56:03<1:15:08,  1.39it/s]Training 2/3 epoch (loss 0.0007):  63%|██████▎   | 10698/16950 [1:56:03<1:15:08,  1.39it/s]Training 2/3 epoch (loss 0.0007):  63%|██████▎   | 10699/16950 [1:56:03<1:07:52,  1.53it/s]Training 2/3 epoch (loss 0.6522):  63%|██████▎   | 10699/16950 [1:56:04<1:07:52,  1.53it/s]Training 2/3 epoch (loss 0.6522):  63%|██████▎   | 10700/16950 [1:56:04<1:16:49,  1.36it/s]Training 2/3 epoch (loss 0.3786):  63%|██████▎   | 10700/16950 [1:56:05<1:16:49,  1.36it/s]Training 2/3 epoch (loss 0.3786):  63%|██████▎   | 10701/16950 [1:56:05<1:24:01,  1.24it/s]Training 2/3 epoch (loss 0.0305):  63%|██████▎   | 10701/16950 [1:56:05<1:24:01,  1.24it/s]Training 2/3 epoch (loss 0.0305):  63%|██████▎   | 10702/16950 [1:56:05<1:09:50,  1.49it/s]Training 2/3 epoch (loss 0.0320):  63%|██████▎   | 10702/16950 [1:56:06<1:09:50,  1.49it/s]Training 2/3 epoch (loss 0.0320):  63%|██████▎   | 10703/16950 [1:56:06<59:42,  1.74it/s]  Training 2/3 epoch (loss 0.0055):  63%|██████▎   | 10703/16950 [1:56:06<59:42,  1.74it/s]Training 2/3 epoch (loss 0.0055):  63%|██████▎   | 10704/16950 [1:56:06<1:07:05,  1.55it/s]Training 2/3 epoch (loss 0.0778):  63%|██████▎   | 10704/16950 [1:56:07<1:07:05,  1.55it/s]Training 2/3 epoch (loss 0.0778):  63%|██████▎   | 10705/16950 [1:56:07<1:05:43,  1.58it/s]Training 2/3 epoch (loss 0.0989):  63%|██████▎   | 10705/16950 [1:56:08<1:05:43,  1.58it/s]Training 2/3 epoch (loss 0.0989):  63%|██████▎   | 10706/16950 [1:56:08<1:10:36,  1.47it/s]Training 2/3 epoch (loss 0.2856):  63%|██████▎   | 10706/16950 [1:56:08<1:10:36,  1.47it/s]Training 2/3 epoch (loss 0.2856):  63%|██████▎   | 10707/16950 [1:56:08<1:03:07,  1.65it/s]Training 2/3 epoch (loss 0.0179):  63%|██████▎   | 10707/16950 [1:56:09<1:03:07,  1.65it/s]Training 2/3 epoch (loss 0.0179):  63%|██████▎   | 10708/16950 [1:56:09<1:17:24,  1.34it/s]Training 2/3 epoch (loss 0.1659):  63%|██████▎   | 10708/16950 [1:56:10<1:17:24,  1.34it/s]Training 2/3 epoch (loss 0.1659):  63%|██████▎   | 10709/16950 [1:56:10<1:16:30,  1.36it/s]Training 2/3 epoch (loss 0.0007):  63%|██████▎   | 10709/16950 [1:56:11<1:16:30,  1.36it/s]Training 2/3 epoch (loss 0.0007):  63%|██████▎   | 10710/16950 [1:56:11<1:13:44,  1.41it/s]Training 2/3 epoch (loss 0.0112):  63%|██████▎   | 10710/16950 [1:56:11<1:13:44,  1.41it/s]Training 2/3 epoch (loss 0.0112):  63%|██████▎   | 10711/16950 [1:56:11<1:12:33,  1.43it/s]Training 2/3 epoch (loss 0.0005):  63%|██████▎   | 10711/16950 [1:56:12<1:12:33,  1.43it/s]Training 2/3 epoch (loss 0.0005):  63%|██████▎   | 10712/16950 [1:56:12<1:04:19,  1.62it/s]Training 2/3 epoch (loss 0.0145):  63%|██████▎   | 10712/16950 [1:56:12<1:04:19,  1.62it/s]Training 2/3 epoch (loss 0.0145):  63%|██████▎   | 10713/16950 [1:56:12<58:31,  1.78it/s]  Training 2/3 epoch (loss 0.0142):  63%|██████▎   | 10713/16950 [1:56:13<58:31,  1.78it/s]Training 2/3 epoch (loss 0.0142):  63%|██████▎   | 10714/16950 [1:56:13<1:02:33,  1.66it/s]Training 2/3 epoch (loss 0.3550):  63%|██████▎   | 10714/16950 [1:56:14<1:02:33,  1.66it/s]Training 2/3 epoch (loss 0.3550):  63%|██████▎   | 10715/16950 [1:56:14<1:06:02,  1.57it/s]Training 2/3 epoch (loss 0.0625):  63%|██████▎   | 10715/16950 [1:56:14<1:06:02,  1.57it/s]Training 2/3 epoch (loss 0.0625):  63%|██████▎   | 10716/16950 [1:56:14<1:00:55,  1.71it/s]Training 2/3 epoch (loss nan):  63%|██████▎   | 10716/16950 [1:56:15<1:00:55,  1.71it/s]   Training 2/3 epoch (loss nan):  63%|██████▎   | 10717/16950 [1:56:15<1:16:15,  1.36it/s]Training 2/3 epoch (loss 0.0045):  63%|██████▎   | 10717/16950 [1:56:16<1:16:15,  1.36it/s]Training 2/3 epoch (loss 0.0045):  63%|██████▎   | 10718/16950 [1:56:16<1:26:29,  1.20it/s]Training 2/3 epoch (loss 0.2992):  63%|██████▎   | 10718/16950 [1:56:17<1:26:29,  1.20it/s]Training 2/3 epoch (loss 0.2992):  63%|██████▎   | 10719/16950 [1:56:17<1:14:45,  1.39it/s]Training 2/3 epoch (loss 0.0076):  63%|██████▎   | 10719/16950 [1:56:17<1:14:45,  1.39it/s]Training 2/3 epoch (loss 0.0076):  63%|██████▎   | 10720/16950 [1:56:17<1:16:08,  1.36it/s]Training 2/3 epoch (loss 0.3662):  63%|██████▎   | 10720/16950 [1:56:18<1:16:08,  1.36it/s]Training 2/3 epoch (loss 0.3662):  63%|██████▎   | 10721/16950 [1:56:18<1:06:53,  1.55it/s]Training 2/3 epoch (loss 0.4075):  63%|██████▎   | 10721/16950 [1:56:19<1:06:53,  1.55it/s]Training 2/3 epoch (loss 0.4075):  63%|██████▎   | 10722/16950 [1:56:19<1:12:50,  1.42it/s]Training 2/3 epoch (loss 0.0227):  63%|██████▎   | 10722/16950 [1:56:19<1:12:50,  1.42it/s]Training 2/3 epoch (loss 0.0227):  63%|██████▎   | 10723/16950 [1:56:19<1:13:05,  1.42it/s]Training 2/3 epoch (loss 0.4673):  63%|██████▎   | 10723/16950 [1:56:20<1:13:05,  1.42it/s]Training 2/3 epoch (loss 0.4673):  63%|██████▎   | 10724/16950 [1:56:20<1:06:15,  1.57it/s]Training 2/3 epoch (loss 0.4914):  63%|██████▎   | 10724/16950 [1:56:21<1:06:15,  1.57it/s]Training 2/3 epoch (loss 0.4914):  63%|██████▎   | 10725/16950 [1:56:21<1:10:27,  1.47it/s]Training 2/3 epoch (loss 0.0666):  63%|██████▎   | 10725/16950 [1:56:21<1:10:27,  1.47it/s]Training 2/3 epoch (loss 0.0666):  63%|██████▎   | 10726/16950 [1:56:21<1:10:23,  1.47it/s]Training 2/3 epoch (loss 0.0388):  63%|██████▎   | 10726/16950 [1:56:22<1:10:23,  1.47it/s]Training 2/3 epoch (loss 0.0388):  63%|██████▎   | 10727/16950 [1:56:22<1:06:27,  1.56it/s]Training 2/3 epoch (loss 0.1075):  63%|██████▎   | 10727/16950 [1:56:23<1:06:27,  1.56it/s]Training 2/3 epoch (loss 0.1075):  63%|██████▎   | 10728/16950 [1:56:23<1:07:45,  1.53it/s]Training 2/3 epoch (loss 0.0631):  63%|██████▎   | 10728/16950 [1:56:23<1:07:45,  1.53it/s]Training 2/3 epoch (loss 0.0631):  63%|██████▎   | 10729/16950 [1:56:23<1:06:49,  1.55it/s]Training 2/3 epoch (loss 0.0058):  63%|██████▎   | 10729/16950 [1:56:24<1:06:49,  1.55it/s]Training 2/3 epoch (loss 0.0058):  63%|██████▎   | 10730/16950 [1:56:24<1:08:38,  1.51it/s]Training 2/3 epoch (loss 0.0045):  63%|██████▎   | 10730/16950 [1:56:24<1:08:38,  1.51it/s]Training 2/3 epoch (loss 0.0045):  63%|██████▎   | 10731/16950 [1:56:24<1:04:22,  1.61it/s]Training 2/3 epoch (loss 0.0284):  63%|██████▎   | 10731/16950 [1:56:25<1:04:22,  1.61it/s]Training 2/3 epoch (loss 0.0284):  63%|██████▎   | 10732/16950 [1:56:25<1:03:45,  1.63it/s]Training 2/3 epoch (loss nan):  63%|██████▎   | 10732/16950 [1:56:26<1:03:45,  1.63it/s]   Training 2/3 epoch (loss nan):  63%|██████▎   | 10733/16950 [1:56:26<1:18:45,  1.32it/s]Training 2/3 epoch (loss 0.3302):  63%|██████▎   | 10733/16950 [1:56:27<1:18:45,  1.32it/s]Training 2/3 epoch (loss 0.3302):  63%|██████▎   | 10734/16950 [1:56:27<1:13:44,  1.40it/s]Training 2/3 epoch (loss 0.0110):  63%|██████▎   | 10734/16950 [1:56:27<1:13:44,  1.40it/s]Training 2/3 epoch (loss 0.0110):  63%|██████▎   | 10735/16950 [1:56:27<1:09:14,  1.50it/s]Training 2/3 epoch (loss 0.0161):  63%|██████▎   | 10735/16950 [1:56:28<1:09:14,  1.50it/s]Training 2/3 epoch (loss 0.0161):  63%|██████▎   | 10736/16950 [1:56:28<1:08:28,  1.51it/s]Training 2/3 epoch (loss 0.7365):  63%|██████▎   | 10736/16950 [1:56:28<1:08:28,  1.51it/s]Training 2/3 epoch (loss 0.7365):  63%|██████▎   | 10737/16950 [1:56:28<1:02:11,  1.67it/s]Training 2/3 epoch (loss 0.0020):  63%|██████▎   | 10737/16950 [1:56:29<1:02:11,  1.67it/s]Training 2/3 epoch (loss 0.0020):  63%|██████▎   | 10738/16950 [1:56:29<1:02:44,  1.65it/s]Training 2/3 epoch (loss 0.4087):  63%|██████▎   | 10738/16950 [1:56:30<1:02:44,  1.65it/s]Training 2/3 epoch (loss 0.4087):  63%|██████▎   | 10739/16950 [1:56:30<59:59,  1.73it/s]  Training 2/3 epoch (loss 0.0001):  63%|██████▎   | 10739/16950 [1:56:30<59:59,  1.73it/s]Training 2/3 epoch (loss 0.0001):  63%|██████▎   | 10740/16950 [1:56:30<58:02,  1.78it/s]Training 2/3 epoch (loss 0.5592):  63%|██████▎   | 10740/16950 [1:56:31<58:02,  1.78it/s]Training 2/3 epoch (loss 0.5592):  63%|██████▎   | 10741/16950 [1:56:31<52:55,  1.96it/s]Training 2/3 epoch (loss 0.0233):  63%|██████▎   | 10741/16950 [1:56:31<52:55,  1.96it/s]Training 2/3 epoch (loss 0.0233):  63%|██████▎   | 10742/16950 [1:56:31<48:20,  2.14it/s]Training 2/3 epoch (loss 0.0006):  63%|██████▎   | 10742/16950 [1:56:31<48:20,  2.14it/s]Training 2/3 epoch (loss 0.0006):  63%|██████▎   | 10743/16950 [1:56:31<47:09,  2.19it/s]Training 2/3 epoch (loss 0.0168):  63%|██████▎   | 10743/16950 [1:56:32<47:09,  2.19it/s]Training 2/3 epoch (loss 0.0168):  63%|██████▎   | 10744/16950 [1:56:32<53:05,  1.95it/s]Training 2/3 epoch (loss 0.8896):  63%|██████▎   | 10744/16950 [1:56:32<53:05,  1.95it/s]Training 2/3 epoch (loss 0.8896):  63%|██████▎   | 10745/16950 [1:56:32<52:14,  1.98it/s]Training 2/3 epoch (loss 0.0081):  63%|██████▎   | 10745/16950 [1:56:33<52:14,  1.98it/s]Training 2/3 epoch (loss 0.0081):  63%|██████▎   | 10746/16950 [1:56:33<58:07,  1.78it/s]Training 2/3 epoch (loss 0.0001):  63%|██████▎   | 10746/16950 [1:56:34<58:07,  1.78it/s]Training 2/3 epoch (loss 0.0001):  63%|██████▎   | 10747/16950 [1:56:34<1:04:32,  1.60it/s]Training 2/3 epoch (loss 0.0079):  63%|██████▎   | 10747/16950 [1:56:34<1:04:32,  1.60it/s]Training 2/3 epoch (loss 0.0079):  63%|██████▎   | 10748/16950 [1:56:34<1:00:54,  1.70it/s]Training 2/3 epoch (loss 0.0119):  63%|██████▎   | 10748/16950 [1:56:35<1:00:54,  1.70it/s]Training 2/3 epoch (loss 0.0119):  63%|██████▎   | 10749/16950 [1:56:35<1:09:57,  1.48it/s]Training 2/3 epoch (loss 0.2566):  63%|██████▎   | 10749/16950 [1:56:36<1:09:57,  1.48it/s]Training 2/3 epoch (loss 0.2566):  63%|██████▎   | 10750/16950 [1:56:36<1:21:12,  1.27it/s]Training 2/3 epoch (loss 0.0077):  63%|██████▎   | 10750/16950 [1:56:37<1:21:12,  1.27it/s]Training 2/3 epoch (loss 0.0077):  63%|██████▎   | 10751/16950 [1:56:37<1:12:28,  1.43it/s]Training 2/3 epoch (loss 0.0002):  63%|██████▎   | 10751/16950 [1:56:37<1:12:28,  1.43it/s]Training 2/3 epoch (loss 0.0002):  63%|██████▎   | 10752/16950 [1:56:37<1:03:48,  1.62it/s]Training 2/3 epoch (loss 0.0611):  63%|██████▎   | 10752/16950 [1:56:38<1:03:48,  1.62it/s]Training 2/3 epoch (loss 0.0611):  63%|██████▎   | 10753/16950 [1:56:38<59:41,  1.73it/s]  Training 2/3 epoch (loss 0.0091):  63%|██████▎   | 10753/16950 [1:56:38<59:41,  1.73it/s]Training 2/3 epoch (loss 0.0091):  63%|██████▎   | 10754/16950 [1:56:38<1:01:26,  1.68it/s]Training 2/3 epoch (loss 0.0381):  63%|██████▎   | 10754/16950 [1:56:39<1:01:26,  1.68it/s]Training 2/3 epoch (loss 0.0381):  63%|██████▎   | 10755/16950 [1:56:39<1:07:25,  1.53it/s]Training 2/3 epoch (loss 0.1271):  63%|██████▎   | 10755/16950 [1:56:40<1:07:25,  1.53it/s]Training 2/3 epoch (loss 0.1271):  63%|██████▎   | 10756/16950 [1:56:40<1:05:46,  1.57it/s]Training 2/3 epoch (loss 0.0001):  63%|██████▎   | 10756/16950 [1:56:40<1:05:46,  1.57it/s]Training 2/3 epoch (loss 0.0001):  63%|██████▎   | 10757/16950 [1:56:40<1:01:15,  1.69it/s]Training 2/3 epoch (loss 0.3978):  63%|██████▎   | 10757/16950 [1:56:41<1:01:15,  1.69it/s]Training 2/3 epoch (loss 0.3978):  63%|██████▎   | 10758/16950 [1:56:41<1:01:46,  1.67it/s]Training 2/3 epoch (loss 0.0601):  63%|██████▎   | 10758/16950 [1:56:42<1:01:46,  1.67it/s]Training 2/3 epoch (loss 0.0601):  63%|██████▎   | 10759/16950 [1:56:42<1:18:26,  1.32it/s]Training 2/3 epoch (loss 0.0103):  63%|██████▎   | 10759/16950 [1:56:43<1:18:26,  1.32it/s]Training 2/3 epoch (loss 0.0103):  63%|██████▎   | 10760/16950 [1:56:43<1:15:49,  1.36it/s]Training 2/3 epoch (loss 0.0476):  63%|██████▎   | 10760/16950 [1:56:44<1:15:49,  1.36it/s]Training 2/3 epoch (loss 0.0476):  63%|██████▎   | 10761/16950 [1:56:44<1:20:01,  1.29it/s]Training 2/3 epoch (loss 0.0846):  63%|██████▎   | 10761/16950 [1:56:44<1:20:01,  1.29it/s]Training 2/3 epoch (loss 0.0846):  63%|██████▎   | 10762/16950 [1:56:44<1:18:45,  1.31it/s]Training 2/3 epoch (loss 0.1288):  63%|██████▎   | 10762/16950 [1:56:45<1:18:45,  1.31it/s]Training 2/3 epoch (loss 0.1288):  63%|██████▎   | 10763/16950 [1:56:45<1:12:14,  1.43it/s]Training 2/3 epoch (loss 0.0003):  63%|██████▎   | 10763/16950 [1:56:45<1:12:14,  1.43it/s]Training 2/3 epoch (loss 0.0003):  64%|██████▎   | 10764/16950 [1:56:45<1:06:06,  1.56it/s]Training 2/3 epoch (loss 0.0086):  64%|██████▎   | 10764/16950 [1:56:46<1:06:06,  1.56it/s]Training 2/3 epoch (loss 0.0086):  64%|██████▎   | 10765/16950 [1:56:46<1:06:07,  1.56it/s]Training 2/3 epoch (loss 0.0040):  64%|██████▎   | 10765/16950 [1:56:47<1:06:07,  1.56it/s]Training 2/3 epoch (loss 0.0040):  64%|██████▎   | 10766/16950 [1:56:47<1:13:38,  1.40it/s]Training 2/3 epoch (loss 0.0790):  64%|██████▎   | 10766/16950 [1:56:48<1:13:38,  1.40it/s]Training 2/3 epoch (loss 0.0790):  64%|██████▎   | 10767/16950 [1:56:48<1:11:42,  1.44it/s]Training 2/3 epoch (loss 0.0151):  64%|██████▎   | 10767/16950 [1:56:48<1:11:42,  1.44it/s]Training 2/3 epoch (loss 0.0151):  64%|██████▎   | 10768/16950 [1:56:48<1:07:59,  1.52it/s]Training 2/3 epoch (loss 0.0756):  64%|██████▎   | 10768/16950 [1:56:49<1:07:59,  1.52it/s]Training 2/3 epoch (loss 0.0756):  64%|██████▎   | 10769/16950 [1:56:49<1:06:38,  1.55it/s]Training 2/3 epoch (loss 0.7133):  64%|██████▎   | 10769/16950 [1:56:50<1:06:38,  1.55it/s]Training 2/3 epoch (loss 0.7133):  64%|██████▎   | 10770/16950 [1:56:50<1:18:48,  1.31it/s]Training 2/3 epoch (loss 0.0000):  64%|██████▎   | 10770/16950 [1:56:50<1:18:48,  1.31it/s]Training 2/3 epoch (loss 0.0000):  64%|██████▎   | 10771/16950 [1:56:50<1:11:05,  1.45it/s]Training 2/3 epoch (loss 0.0806):  64%|██████▎   | 10771/16950 [1:56:51<1:11:05,  1.45it/s]Training 2/3 epoch (loss 0.0806):  64%|██████▎   | 10772/16950 [1:56:51<1:09:36,  1.48it/s]Training 2/3 epoch (loss 0.3027):  64%|██████▎   | 10772/16950 [1:56:52<1:09:36,  1.48it/s]Training 2/3 epoch (loss 0.3027):  64%|██████▎   | 10773/16950 [1:56:52<1:12:10,  1.43it/s]Training 2/3 epoch (loss 0.5493):  64%|██████▎   | 10773/16950 [1:56:52<1:12:10,  1.43it/s]Training 2/3 epoch (loss 0.5493):  64%|██████▎   | 10774/16950 [1:56:52<1:04:32,  1.59it/s]Training 2/3 epoch (loss 0.0012):  64%|██████▎   | 10774/16950 [1:56:53<1:04:32,  1.59it/s]Training 2/3 epoch (loss 0.0012):  64%|██████▎   | 10775/16950 [1:56:53<1:05:31,  1.57it/s]Training 2/3 epoch (loss 0.0019):  64%|██████▎   | 10775/16950 [1:56:53<1:05:31,  1.57it/s]Training 2/3 epoch (loss 0.0019):  64%|██████▎   | 10776/16950 [1:56:53<1:01:04,  1.68it/s]Training 2/3 epoch (loss 0.7819):  64%|██████▎   | 10776/16950 [1:56:54<1:01:04,  1.68it/s]Training 2/3 epoch (loss 0.7819):  64%|██████▎   | 10777/16950 [1:56:54<55:38,  1.85it/s]  Training 2/3 epoch (loss 0.0001):  64%|██████▎   | 10777/16950 [1:56:54<55:38,  1.85it/s]Training 2/3 epoch (loss 0.0001):  64%|██████▎   | 10778/16950 [1:56:54<53:04,  1.94it/s]Training 2/3 epoch (loss 0.1319):  64%|██████▎   | 10778/16950 [1:56:55<53:04,  1.94it/s]Training 2/3 epoch (loss 0.1319):  64%|██████▎   | 10779/16950 [1:56:55<53:20,  1.93it/s]Training 2/3 epoch (loss 0.0029):  64%|██████▎   | 10779/16950 [1:56:55<53:20,  1.93it/s]Training 2/3 epoch (loss 0.0029):  64%|██████▎   | 10780/16950 [1:56:55<53:00,  1.94it/s]Training 2/3 epoch (loss 0.0001):  64%|██████▎   | 10780/16950 [1:56:56<53:00,  1.94it/s]Training 2/3 epoch (loss 0.0001):  64%|██████▎   | 10781/16950 [1:56:56<51:11,  2.01it/s]Training 2/3 epoch (loss 0.0035):  64%|██████▎   | 10781/16950 [1:56:56<51:11,  2.01it/s]Training 2/3 epoch (loss 0.0035):  64%|██████▎   | 10782/16950 [1:56:56<52:58,  1.94it/s]Training 2/3 epoch (loss 0.1466):  64%|██████▎   | 10782/16950 [1:56:57<52:58,  1.94it/s]Training 2/3 epoch (loss 0.1466):  64%|██████▎   | 10783/16950 [1:56:57<1:10:23,  1.46it/s]Training 2/3 epoch (loss 0.0645):  64%|██████▎   | 10783/16950 [1:56:58<1:10:23,  1.46it/s]Training 2/3 epoch (loss 0.0645):  64%|██████▎   | 10784/16950 [1:56:58<1:10:51,  1.45it/s]Training 2/3 epoch (loss 0.4515):  64%|██████▎   | 10784/16950 [1:56:58<1:10:51,  1.45it/s]Training 2/3 epoch (loss 0.4515):  64%|██████▎   | 10785/16950 [1:56:58<1:05:09,  1.58it/s]Training 2/3 epoch (loss 0.2412):  64%|██████▎   | 10785/16950 [1:56:59<1:05:09,  1.58it/s]Training 2/3 epoch (loss 0.2412):  64%|██████▎   | 10786/16950 [1:56:59<58:47,  1.75it/s]  Training 2/3 epoch (loss 0.0113):  64%|██████▎   | 10786/16950 [1:56:59<58:47,  1.75it/s]Training 2/3 epoch (loss 0.0113):  64%|██████▎   | 10787/16950 [1:56:59<53:27,  1.92it/s]Training 2/3 epoch (loss 0.2693):  64%|██████▎   | 10787/16950 [1:57:00<53:27,  1.92it/s]Training 2/3 epoch (loss 0.2693):  64%|██████▎   | 10788/16950 [1:57:00<58:49,  1.75it/s]Training 2/3 epoch (loss 0.3125):  64%|██████▎   | 10788/16950 [1:57:01<58:49,  1.75it/s]Training 2/3 epoch (loss 0.3125):  64%|██████▎   | 10789/16950 [1:57:01<1:02:09,  1.65it/s]Training 2/3 epoch (loss 0.3261):  64%|██████▎   | 10789/16950 [1:57:01<1:02:09,  1.65it/s]Training 2/3 epoch (loss 0.3261):  64%|██████▎   | 10790/16950 [1:57:01<1:04:38,  1.59it/s]Training 2/3 epoch (loss 0.3113):  64%|██████▎   | 10790/16950 [1:57:02<1:04:38,  1.59it/s]Training 2/3 epoch (loss 0.3113):  64%|██████▎   | 10791/16950 [1:57:02<1:13:18,  1.40it/s]Training 2/3 epoch (loss 0.0842):  64%|██████▎   | 10791/16950 [1:57:03<1:13:18,  1.40it/s]Training 2/3 epoch (loss 0.0842):  64%|██████▎   | 10792/16950 [1:57:03<1:11:03,  1.44it/s]Training 2/3 epoch (loss 0.0003):  64%|██████▎   | 10792/16950 [1:57:03<1:11:03,  1.44it/s]Training 2/3 epoch (loss 0.0003):  64%|██████▎   | 10793/16950 [1:57:03<59:07,  1.74it/s]  Training 2/3 epoch (loss 0.0058):  64%|██████▎   | 10793/16950 [1:57:04<59:07,  1.74it/s]Training 2/3 epoch (loss 0.0058):  64%|██████▎   | 10794/16950 [1:57:04<54:45,  1.87it/s]Training 2/3 epoch (loss 0.0039):  64%|██████▎   | 10794/16950 [1:57:04<54:45,  1.87it/s]Training 2/3 epoch (loss 0.0039):  64%|██████▎   | 10795/16950 [1:57:04<58:19,  1.76it/s]Training 2/3 epoch (loss 0.1512):  64%|██████▎   | 10795/16950 [1:57:05<58:19,  1.76it/s]Training 2/3 epoch (loss 0.1512):  64%|██████▎   | 10796/16950 [1:57:05<58:14,  1.76it/s]Training 2/3 epoch (loss 0.0252):  64%|██████▎   | 10796/16950 [1:57:05<58:14,  1.76it/s]Training 2/3 epoch (loss 0.0252):  64%|██████▎   | 10797/16950 [1:57:05<56:37,  1.81it/s]Training 2/3 epoch (loss 0.0480):  64%|██████▎   | 10797/16950 [1:57:06<56:37,  1.81it/s]Training 2/3 epoch (loss 0.0480):  64%|██████▎   | 10798/16950 [1:57:06<49:08,  2.09it/s]Training 2/3 epoch (loss 0.6307):  64%|██████▎   | 10798/16950 [1:57:06<49:08,  2.09it/s]Training 2/3 epoch (loss 0.6307):  64%|██████▎   | 10799/16950 [1:57:06<44:57,  2.28it/s]Training 2/3 epoch (loss 0.0497):  64%|██████▎   | 10799/16950 [1:57:06<44:57,  2.28it/s]Training 2/3 epoch (loss 0.0497):  64%|██████▎   | 10800/16950 [1:57:06<44:57,  2.28it/s]Training 2/3 epoch (loss 0.0180):  64%|██████▎   | 10800/16950 [1:57:07<44:57,  2.28it/s]Training 2/3 epoch (loss 0.0180):  64%|██████▎   | 10801/16950 [1:57:07<46:26,  2.21it/s]Training 2/3 epoch (loss 0.0386):  64%|██████▎   | 10801/16950 [1:57:08<46:26,  2.21it/s]Training 2/3 epoch (loss 0.0386):  64%|██████▎   | 10802/16950 [1:57:08<52:50,  1.94it/s]Training 2/3 epoch (loss 0.0033):  64%|██████▎   | 10802/16950 [1:57:09<52:50,  1.94it/s]Training 2/3 epoch (loss 0.0033):  64%|██████▎   | 10803/16950 [1:57:09<1:10:40,  1.45it/s]Training 2/3 epoch (loss 0.0904):  64%|██████▎   | 10803/16950 [1:57:09<1:10:40,  1.45it/s]Training 2/3 epoch (loss 0.0904):  64%|██████▎   | 10804/16950 [1:57:09<1:08:23,  1.50it/s]Training 2/3 epoch (loss 0.0138):  64%|██████▎   | 10804/16950 [1:57:10<1:08:23,  1.50it/s]Training 2/3 epoch (loss 0.0138):  64%|██████▎   | 10805/16950 [1:57:10<1:00:24,  1.70it/s]Training 2/3 epoch (loss 0.4060):  64%|██████▎   | 10805/16950 [1:57:10<1:00:24,  1.70it/s]Training 2/3 epoch (loss 0.4060):  64%|██████▍   | 10806/16950 [1:57:10<56:14,  1.82it/s]  Training 2/3 epoch (loss 0.0447):  64%|██████▍   | 10806/16950 [1:57:11<56:14,  1.82it/s]Training 2/3 epoch (loss 0.0447):  64%|██████▍   | 10807/16950 [1:57:11<57:00,  1.80it/s]Training 2/3 epoch (loss 0.0002):  64%|██████▍   | 10807/16950 [1:57:11<57:00,  1.80it/s]Training 2/3 epoch (loss 0.0002):  64%|██████▍   | 10808/16950 [1:57:11<1:00:07,  1.70it/s]Training 2/3 epoch (loss 0.5258):  64%|██████▍   | 10808/16950 [1:57:12<1:00:07,  1.70it/s]Training 2/3 epoch (loss 0.5258):  64%|██████▍   | 10809/16950 [1:57:12<1:08:41,  1.49it/s]Training 2/3 epoch (loss 0.4237):  64%|██████▍   | 10809/16950 [1:57:13<1:08:41,  1.49it/s]Training 2/3 epoch (loss 0.4237):  64%|██████▍   | 10810/16950 [1:57:13<1:06:49,  1.53it/s]Training 2/3 epoch (loss 0.0193):  64%|██████▍   | 10810/16950 [1:57:14<1:06:49,  1.53it/s]Training 2/3 epoch (loss 0.0193):  64%|██████▍   | 10811/16950 [1:57:14<1:04:42,  1.58it/s]Training 2/3 epoch (loss 0.4620):  64%|██████▍   | 10811/16950 [1:57:14<1:04:42,  1.58it/s]Training 2/3 epoch (loss 0.4620):  64%|██████▍   | 10812/16950 [1:57:14<1:01:39,  1.66it/s]Training 2/3 epoch (loss 0.0514):  64%|██████▍   | 10812/16950 [1:57:15<1:01:39,  1.66it/s]Training 2/3 epoch (loss 0.0514):  64%|██████▍   | 10813/16950 [1:57:15<1:19:03,  1.29it/s]Training 2/3 epoch (loss 0.0003):  64%|██████▍   | 10813/16950 [1:57:16<1:19:03,  1.29it/s]Training 2/3 epoch (loss 0.0003):  64%|██████▍   | 10814/16950 [1:57:16<1:17:59,  1.31it/s]Training 2/3 epoch (loss 0.1795):  64%|██████▍   | 10814/16950 [1:57:17<1:17:59,  1.31it/s]Training 2/3 epoch (loss 0.1795):  64%|██████▍   | 10815/16950 [1:57:17<1:12:26,  1.41it/s]Training 2/3 epoch (loss 0.0052):  64%|██████▍   | 10815/16950 [1:57:17<1:12:26,  1.41it/s]Training 2/3 epoch (loss 0.0052):  64%|██████▍   | 10816/16950 [1:57:17<1:05:10,  1.57it/s]Training 2/3 epoch (loss 0.9755):  64%|██████▍   | 10816/16950 [1:57:18<1:05:10,  1.57it/s]Training 2/3 epoch (loss 0.9755):  64%|██████▍   | 10817/16950 [1:57:18<1:03:54,  1.60it/s]Training 2/3 epoch (loss 0.0215):  64%|██████▍   | 10817/16950 [1:57:18<1:03:54,  1.60it/s]Training 2/3 epoch (loss 0.0215):  64%|██████▍   | 10818/16950 [1:57:18<1:05:40,  1.56it/s]Training 2/3 epoch (loss 0.0029):  64%|██████▍   | 10818/16950 [1:57:19<1:05:40,  1.56it/s]Training 2/3 epoch (loss 0.0029):  64%|██████▍   | 10819/16950 [1:57:19<1:04:54,  1.57it/s]Training 2/3 epoch (loss 0.1633):  64%|██████▍   | 10819/16950 [1:57:19<1:04:54,  1.57it/s]Training 2/3 epoch (loss 0.1633):  64%|██████▍   | 10820/16950 [1:57:19<1:03:21,  1.61it/s]Training 2/3 epoch (loss 0.0023):  64%|██████▍   | 10820/16950 [1:57:20<1:03:21,  1.61it/s]Training 2/3 epoch (loss 0.0023):  64%|██████▍   | 10821/16950 [1:57:20<1:00:15,  1.70it/s]Training 2/3 epoch (loss 0.3833):  64%|██████▍   | 10821/16950 [1:57:21<1:00:15,  1.70it/s]Training 2/3 epoch (loss 0.3833):  64%|██████▍   | 10822/16950 [1:57:21<1:02:38,  1.63it/s]Training 2/3 epoch (loss 0.1123):  64%|██████▍   | 10822/16950 [1:57:21<1:02:38,  1.63it/s]Training 2/3 epoch (loss 0.1123):  64%|██████▍   | 10823/16950 [1:57:21<1:01:13,  1.67it/s]Training 2/3 epoch (loss 0.3211):  64%|██████▍   | 10823/16950 [1:57:22<1:01:13,  1.67it/s]Training 2/3 epoch (loss 0.3211):  64%|██████▍   | 10824/16950 [1:57:22<58:08,  1.76it/s]  Training 2/3 epoch (loss 0.0519):  64%|██████▍   | 10824/16950 [1:57:22<58:08,  1.76it/s]Training 2/3 epoch (loss 0.0519):  64%|██████▍   | 10825/16950 [1:57:22<57:43,  1.77it/s]Training 2/3 epoch (loss 0.3795):  64%|██████▍   | 10825/16950 [1:57:23<57:43,  1.77it/s]Training 2/3 epoch (loss 0.3795):  64%|██████▍   | 10826/16950 [1:57:23<51:53,  1.97it/s]Training 2/3 epoch (loss 0.0005):  64%|██████▍   | 10826/16950 [1:57:23<51:53,  1.97it/s]Training 2/3 epoch (loss 0.0005):  64%|██████▍   | 10827/16950 [1:57:23<48:23,  2.11it/s]Training 2/3 epoch (loss 0.2190):  64%|██████▍   | 10827/16950 [1:57:24<48:23,  2.11it/s]Training 2/3 epoch (loss 0.2190):  64%|██████▍   | 10828/16950 [1:57:24<47:28,  2.15it/s]Training 2/3 epoch (loss 0.5850):  64%|██████▍   | 10828/16950 [1:57:24<47:28,  2.15it/s]Training 2/3 epoch (loss 0.5850):  64%|██████▍   | 10829/16950 [1:57:24<55:00,  1.85it/s]Training 2/3 epoch (loss 0.0353):  64%|██████▍   | 10829/16950 [1:57:25<55:00,  1.85it/s]Training 2/3 epoch (loss 0.0353):  64%|██████▍   | 10830/16950 [1:57:25<56:50,  1.79it/s]Training 2/3 epoch (loss 0.0079):  64%|██████▍   | 10830/16950 [1:57:25<56:50,  1.79it/s]Training 2/3 epoch (loss 0.0079):  64%|██████▍   | 10831/16950 [1:57:25<56:20,  1.81it/s]Training 2/3 epoch (loss 0.0063):  64%|██████▍   | 10831/16950 [1:57:26<56:20,  1.81it/s]Training 2/3 epoch (loss 0.0063):  64%|██████▍   | 10832/16950 [1:57:26<51:53,  1.96it/s]Training 2/3 epoch (loss 0.3737):  64%|██████▍   | 10832/16950 [1:57:26<51:53,  1.96it/s]Training 2/3 epoch (loss 0.3737):  64%|██████▍   | 10833/16950 [1:57:26<50:44,  2.01it/s]Training 2/3 epoch (loss 0.6256):  64%|██████▍   | 10833/16950 [1:57:27<50:44,  2.01it/s]Training 2/3 epoch (loss 0.6256):  64%|██████▍   | 10834/16950 [1:57:27<57:39,  1.77it/s]Training 2/3 epoch (loss 0.0000):  64%|██████▍   | 10834/16950 [1:57:28<57:39,  1.77it/s]Training 2/3 epoch (loss 0.0000):  64%|██████▍   | 10835/16950 [1:57:28<59:13,  1.72it/s]Training 2/3 epoch (loss 0.0349):  64%|██████▍   | 10835/16950 [1:57:28<59:13,  1.72it/s]Training 2/3 epoch (loss 0.0349):  64%|██████▍   | 10836/16950 [1:57:28<58:30,  1.74it/s]Training 2/3 epoch (loss 0.3096):  64%|██████▍   | 10836/16950 [1:57:29<58:30,  1.74it/s]Training 2/3 epoch (loss 0.3096):  64%|██████▍   | 10837/16950 [1:57:29<1:00:22,  1.69it/s]Training 2/3 epoch (loss 0.0869):  64%|██████▍   | 10837/16950 [1:57:29<1:00:22,  1.69it/s]Training 2/3 epoch (loss 0.0869):  64%|██████▍   | 10838/16950 [1:57:29<59:58,  1.70it/s]  Training 2/3 epoch (loss 0.2965):  64%|██████▍   | 10838/16950 [1:57:30<59:58,  1.70it/s]Training 2/3 epoch (loss 0.2965):  64%|██████▍   | 10839/16950 [1:57:30<1:03:19,  1.61it/s]Training 2/3 epoch (loss 0.0015):  64%|██████▍   | 10839/16950 [1:57:31<1:03:19,  1.61it/s]Training 2/3 epoch (loss 0.0015):  64%|██████▍   | 10840/16950 [1:57:31<59:35,  1.71it/s]  Training 2/3 epoch (loss 0.0016):  64%|██████▍   | 10840/16950 [1:57:31<59:35,  1.71it/s]Training 2/3 epoch (loss 0.0016):  64%|██████▍   | 10841/16950 [1:57:31<1:01:15,  1.66it/s]Training 2/3 epoch (loss 0.0093):  64%|██████▍   | 10841/16950 [1:57:32<1:01:15,  1.66it/s]Training 2/3 epoch (loss 0.0093):  64%|██████▍   | 10842/16950 [1:57:32<56:58,  1.79it/s]  Training 2/3 epoch (loss 0.1789):  64%|██████▍   | 10842/16950 [1:57:32<56:58,  1.79it/s]Training 2/3 epoch (loss 0.1789):  64%|██████▍   | 10843/16950 [1:57:32<54:04,  1.88it/s]Training 2/3 epoch (loss 0.0127):  64%|██████▍   | 10843/16950 [1:57:33<54:04,  1.88it/s]Training 2/3 epoch (loss 0.0127):  64%|██████▍   | 10844/16950 [1:57:33<51:18,  1.98it/s]Training 2/3 epoch (loss 0.1788):  64%|██████▍   | 10844/16950 [1:57:33<51:18,  1.98it/s]Training 2/3 epoch (loss 0.1788):  64%|██████▍   | 10845/16950 [1:57:33<52:13,  1.95it/s]Training 2/3 epoch (loss 0.0974):  64%|██████▍   | 10845/16950 [1:57:34<52:13,  1.95it/s]Training 2/3 epoch (loss 0.0974):  64%|██████▍   | 10846/16950 [1:57:34<57:28,  1.77it/s]Training 2/3 epoch (loss 0.0050):  64%|██████▍   | 10846/16950 [1:57:34<57:28,  1.77it/s]Training 2/3 epoch (loss 0.0050):  64%|██████▍   | 10847/16950 [1:57:34<55:03,  1.85it/s]Training 2/3 epoch (loss 0.4028):  64%|██████▍   | 10847/16950 [1:57:35<55:03,  1.85it/s]Training 2/3 epoch (loss 0.4028):  64%|██████▍   | 10848/16950 [1:57:35<51:37,  1.97it/s]Training 2/3 epoch (loss 0.0027):  64%|██████▍   | 10848/16950 [1:57:35<51:37,  1.97it/s]Training 2/3 epoch (loss 0.0027):  64%|██████▍   | 10849/16950 [1:57:35<52:13,  1.95it/s]Training 2/3 epoch (loss 0.1443):  64%|██████▍   | 10849/16950 [1:57:36<52:13,  1.95it/s]Training 2/3 epoch (loss 0.1443):  64%|██████▍   | 10850/16950 [1:57:36<57:29,  1.77it/s]Training 2/3 epoch (loss 0.0390):  64%|██████▍   | 10850/16950 [1:57:36<57:29,  1.77it/s]Training 2/3 epoch (loss 0.0390):  64%|██████▍   | 10851/16950 [1:57:36<57:51,  1.76it/s]Training 2/3 epoch (loss 0.2796):  64%|██████▍   | 10851/16950 [1:57:37<57:51,  1.76it/s]Training 2/3 epoch (loss 0.2796):  64%|██████▍   | 10852/16950 [1:57:37<1:03:26,  1.60it/s]Training 2/3 epoch (loss 0.4303):  64%|██████▍   | 10852/16950 [1:57:38<1:03:26,  1.60it/s]Training 2/3 epoch (loss 0.4303):  64%|██████▍   | 10853/16950 [1:57:38<1:07:32,  1.50it/s]Training 2/3 epoch (loss 0.1388):  64%|██████▍   | 10853/16950 [1:57:39<1:07:32,  1.50it/s]Training 2/3 epoch (loss 0.1388):  64%|██████▍   | 10854/16950 [1:57:39<1:05:58,  1.54it/s]Training 2/3 epoch (loss 0.0058):  64%|██████▍   | 10854/16950 [1:57:39<1:05:58,  1.54it/s]Training 2/3 epoch (loss 0.0058):  64%|██████▍   | 10855/16950 [1:57:39<59:10,  1.72it/s]  Training 2/3 epoch (loss 0.0085):  64%|██████▍   | 10855/16950 [1:57:40<59:10,  1.72it/s]Training 2/3 epoch (loss 0.0085):  64%|██████▍   | 10856/16950 [1:57:40<57:44,  1.76it/s]Training 2/3 epoch (loss 0.4768):  64%|██████▍   | 10856/16950 [1:57:40<57:44,  1.76it/s]Training 2/3 epoch (loss 0.4768):  64%|██████▍   | 10857/16950 [1:57:40<1:07:59,  1.49it/s]Training 2/3 epoch (loss 0.2792):  64%|██████▍   | 10857/16950 [1:57:41<1:07:59,  1.49it/s]Training 2/3 epoch (loss 0.2792):  64%|██████▍   | 10858/16950 [1:57:41<1:01:01,  1.66it/s]Training 2/3 epoch (loss 0.2816):  64%|██████▍   | 10858/16950 [1:57:41<1:01:01,  1.66it/s]Training 2/3 epoch (loss 0.2816):  64%|██████▍   | 10859/16950 [1:57:41<55:17,  1.84it/s]  Training 2/3 epoch (loss 0.0242):  64%|██████▍   | 10859/16950 [1:57:42<55:17,  1.84it/s]Training 2/3 epoch (loss 0.0242):  64%|██████▍   | 10860/16950 [1:57:42<51:30,  1.97it/s]Training 2/3 epoch (loss 0.0059):  64%|██████▍   | 10860/16950 [1:57:42<51:30,  1.97it/s]Training 2/3 epoch (loss 0.0059):  64%|██████▍   | 10861/16950 [1:57:42<50:47,  2.00it/s]Training 2/3 epoch (loss 0.0277):  64%|██████▍   | 10861/16950 [1:57:43<50:47,  2.00it/s]Training 2/3 epoch (loss 0.0277):  64%|██████▍   | 10862/16950 [1:57:43<57:27,  1.77it/s]Training 2/3 epoch (loss 0.4928):  64%|██████▍   | 10862/16950 [1:57:44<57:27,  1.77it/s]Training 2/3 epoch (loss 0.4928):  64%|██████▍   | 10863/16950 [1:57:44<1:08:48,  1.47it/s]Training 2/3 epoch (loss 0.0114):  64%|██████▍   | 10863/16950 [1:57:44<1:08:48,  1.47it/s]Training 2/3 epoch (loss 0.0114):  64%|██████▍   | 10864/16950 [1:57:44<1:05:06,  1.56it/s]Training 2/3 epoch (loss 0.0049):  64%|██████▍   | 10864/16950 [1:57:45<1:05:06,  1.56it/s]Training 2/3 epoch (loss 0.0049):  64%|██████▍   | 10865/16950 [1:57:45<1:04:39,  1.57it/s]Training 2/3 epoch (loss 0.6017):  64%|██████▍   | 10865/16950 [1:57:46<1:04:39,  1.57it/s]Training 2/3 epoch (loss 0.6017):  64%|██████▍   | 10866/16950 [1:57:46<1:07:28,  1.50it/s]Training 2/3 epoch (loss 0.3191):  64%|██████▍   | 10866/16950 [1:57:46<1:07:28,  1.50it/s]Training 2/3 epoch (loss 0.3191):  64%|██████▍   | 10867/16950 [1:57:46<1:02:18,  1.63it/s]Training 2/3 epoch (loss 0.3996):  64%|██████▍   | 10867/16950 [1:57:47<1:02:18,  1.63it/s]Training 2/3 epoch (loss 0.3996):  64%|██████▍   | 10868/16950 [1:57:47<1:13:06,  1.39it/s]Training 2/3 epoch (loss 0.1522):  64%|██████▍   | 10868/16950 [1:57:48<1:13:06,  1.39it/s]Training 2/3 epoch (loss 0.1522):  64%|██████▍   | 10869/16950 [1:57:48<1:19:32,  1.27it/s]Training 2/3 epoch (loss 0.0143):  64%|██████▍   | 10869/16950 [1:57:49<1:19:32,  1.27it/s]Training 2/3 epoch (loss 0.0143):  64%|██████▍   | 10870/16950 [1:57:49<1:13:32,  1.38it/s]Training 2/3 epoch (loss 0.0400):  64%|██████▍   | 10870/16950 [1:57:49<1:13:32,  1.38it/s]Training 2/3 epoch (loss 0.0400):  64%|██████▍   | 10871/16950 [1:57:49<1:10:17,  1.44it/s]Training 2/3 epoch (loss 0.8217):  64%|██████▍   | 10871/16950 [1:57:50<1:10:17,  1.44it/s]Training 2/3 epoch (loss 0.8217):  64%|██████▍   | 10872/16950 [1:57:50<1:03:10,  1.60it/s]Training 2/3 epoch (loss 0.4850):  64%|██████▍   | 10872/16950 [1:57:51<1:03:10,  1.60it/s]Training 2/3 epoch (loss 0.4850):  64%|██████▍   | 10873/16950 [1:57:51<1:09:26,  1.46it/s]Training 2/3 epoch (loss 0.0265):  64%|██████▍   | 10873/16950 [1:57:52<1:09:26,  1.46it/s]Training 2/3 epoch (loss 0.0265):  64%|██████▍   | 10874/16950 [1:57:52<1:23:51,  1.21it/s]Training 2/3 epoch (loss 0.6891):  64%|██████▍   | 10874/16950 [1:57:52<1:23:51,  1.21it/s]Training 2/3 epoch (loss 0.6891):  64%|██████▍   | 10875/16950 [1:57:52<1:12:16,  1.40it/s]Training 2/3 epoch (loss 0.0170):  64%|██████▍   | 10875/16950 [1:57:53<1:12:16,  1.40it/s]Training 2/3 epoch (loss 0.0170):  64%|██████▍   | 10876/16950 [1:57:53<1:00:49,  1.66it/s]Training 2/3 epoch (loss 0.0977):  64%|██████▍   | 10876/16950 [1:57:53<1:00:49,  1.66it/s]Training 2/3 epoch (loss 0.0977):  64%|██████▍   | 10877/16950 [1:57:53<57:46,  1.75it/s]  Training 2/3 epoch (loss 0.2703):  64%|██████▍   | 10877/16950 [1:57:54<57:46,  1.75it/s]Training 2/3 epoch (loss 0.2703):  64%|██████▍   | 10878/16950 [1:57:54<58:06,  1.74it/s]Training 2/3 epoch (loss 0.2594):  64%|██████▍   | 10878/16950 [1:57:54<58:06,  1.74it/s]Training 2/3 epoch (loss 0.2594):  64%|██████▍   | 10879/16950 [1:57:54<55:04,  1.84it/s]Training 2/3 epoch (loss 0.0357):  64%|██████▍   | 10879/16950 [1:57:55<55:04,  1.84it/s]Training 2/3 epoch (loss 0.0357):  64%|██████▍   | 10880/16950 [1:57:55<53:21,  1.90it/s]Training 2/3 epoch (loss 0.0487):  64%|██████▍   | 10880/16950 [1:57:55<53:21,  1.90it/s]Training 2/3 epoch (loss 0.0487):  64%|██████▍   | 10881/16950 [1:57:55<52:26,  1.93it/s]Training 2/3 epoch (loss 0.0022):  64%|██████▍   | 10881/16950 [1:57:56<52:26,  1.93it/s]Training 2/3 epoch (loss 0.0022):  64%|██████▍   | 10882/16950 [1:57:56<53:25,  1.89it/s]Training 2/3 epoch (loss 0.0047):  64%|██████▍   | 10882/16950 [1:57:56<53:25,  1.89it/s]Training 2/3 epoch (loss 0.0047):  64%|██████▍   | 10883/16950 [1:57:56<56:08,  1.80it/s]Training 2/3 epoch (loss 0.2462):  64%|██████▍   | 10883/16950 [1:57:57<56:08,  1.80it/s]Training 2/3 epoch (loss 0.2462):  64%|██████▍   | 10884/16950 [1:57:57<50:24,  2.01it/s]Training 2/3 epoch (loss 0.1899):  64%|██████▍   | 10884/16950 [1:57:57<50:24,  2.01it/s]Training 2/3 epoch (loss 0.1899):  64%|██████▍   | 10885/16950 [1:57:57<45:53,  2.20it/s]Training 2/3 epoch (loss 0.3676):  64%|██████▍   | 10885/16950 [1:57:58<45:53,  2.20it/s]Training 2/3 epoch (loss 0.3676):  64%|██████▍   | 10886/16950 [1:57:58<1:01:07,  1.65it/s]Training 2/3 epoch (loss 0.0379):  64%|██████▍   | 10886/16950 [1:57:59<1:01:07,  1.65it/s]Training 2/3 epoch (loss 0.0379):  64%|██████▍   | 10887/16950 [1:57:59<1:02:40,  1.61it/s]Training 2/3 epoch (loss 0.0022):  64%|██████▍   | 10887/16950 [1:57:59<1:02:40,  1.61it/s]Training 2/3 epoch (loss 0.0022):  64%|██████▍   | 10888/16950 [1:57:59<1:03:35,  1.59it/s]Training 2/3 epoch (loss 0.0071):  64%|██████▍   | 10888/16950 [1:58:00<1:03:35,  1.59it/s]Training 2/3 epoch (loss 0.0071):  64%|██████▍   | 10889/16950 [1:58:00<1:02:32,  1.62it/s]Training 2/3 epoch (loss 0.0057):  64%|██████▍   | 10889/16950 [1:58:01<1:02:32,  1.62it/s]Training 2/3 epoch (loss 0.0057):  64%|██████▍   | 10890/16950 [1:58:01<1:03:16,  1.60it/s]Training 2/3 epoch (loss 0.5351):  64%|██████▍   | 10890/16950 [1:58:01<1:03:16,  1.60it/s]Training 2/3 epoch (loss 0.5351):  64%|██████▍   | 10891/16950 [1:58:01<59:27,  1.70it/s]  Training 2/3 epoch (loss 0.0397):  64%|██████▍   | 10891/16950 [1:58:02<59:27,  1.70it/s]Training 2/3 epoch (loss 0.0397):  64%|██████▍   | 10892/16950 [1:58:02<1:06:31,  1.52it/s]Training 2/3 epoch (loss 0.0214):  64%|██████▍   | 10892/16950 [1:58:03<1:06:31,  1.52it/s]Training 2/3 epoch (loss 0.0214):  64%|██████▍   | 10893/16950 [1:58:03<1:08:23,  1.48it/s]Training 2/3 epoch (loss 0.0305):  64%|██████▍   | 10893/16950 [1:58:03<1:08:23,  1.48it/s]Training 2/3 epoch (loss 0.0305):  64%|██████▍   | 10894/16950 [1:58:03<1:03:17,  1.59it/s]Training 2/3 epoch (loss 0.0883):  64%|██████▍   | 10894/16950 [1:58:04<1:03:17,  1.59it/s]Training 2/3 epoch (loss 0.0883):  64%|██████▍   | 10895/16950 [1:58:04<1:03:04,  1.60it/s]Training 2/3 epoch (loss 0.0094):  64%|██████▍   | 10895/16950 [1:58:05<1:03:04,  1.60it/s]Training 2/3 epoch (loss 0.0094):  64%|██████▍   | 10896/16950 [1:58:05<1:10:34,  1.43it/s]Training 2/3 epoch (loss 0.3661):  64%|██████▍   | 10896/16950 [1:58:05<1:10:34,  1.43it/s]Training 2/3 epoch (loss 0.3661):  64%|██████▍   | 10897/16950 [1:58:05<1:06:49,  1.51it/s]Training 2/3 epoch (loss 0.0016):  64%|██████▍   | 10897/16950 [1:58:06<1:06:49,  1.51it/s]Training 2/3 epoch (loss 0.0016):  64%|██████▍   | 10898/16950 [1:58:06<1:05:46,  1.53it/s]Training 2/3 epoch (loss 0.6538):  64%|██████▍   | 10898/16950 [1:58:06<1:05:46,  1.53it/s]Training 2/3 epoch (loss 0.6538):  64%|██████▍   | 10899/16950 [1:58:06<1:01:48,  1.63it/s]Training 2/3 epoch (loss 0.0184):  64%|██████▍   | 10899/16950 [1:58:07<1:01:48,  1.63it/s]Training 2/3 epoch (loss 0.0184):  64%|██████▍   | 10900/16950 [1:58:07<57:49,  1.74it/s]  Training 2/3 epoch (loss 0.2287):  64%|██████▍   | 10900/16950 [1:58:07<57:49,  1.74it/s]Training 2/3 epoch (loss 0.2287):  64%|██████▍   | 10901/16950 [1:58:07<55:56,  1.80it/s]Training 2/3 epoch (loss 0.0817):  64%|██████▍   | 10901/16950 [1:58:08<55:56,  1.80it/s]Training 2/3 epoch (loss 0.0817):  64%|██████▍   | 10902/16950 [1:58:08<1:05:40,  1.53it/s]Training 2/3 epoch (loss 0.0011):  64%|██████▍   | 10902/16950 [1:58:09<1:05:40,  1.53it/s]Training 2/3 epoch (loss 0.0011):  64%|██████▍   | 10903/16950 [1:58:09<1:02:39,  1.61it/s]Training 2/3 epoch (loss 0.0816):  64%|██████▍   | 10903/16950 [1:58:10<1:02:39,  1.61it/s]Training 2/3 epoch (loss 0.0816):  64%|██████▍   | 10904/16950 [1:58:10<1:05:33,  1.54it/s]Training 2/3 epoch (loss 0.0024):  64%|██████▍   | 10904/16950 [1:58:10<1:05:33,  1.54it/s]Training 2/3 epoch (loss 0.0024):  64%|██████▍   | 10905/16950 [1:58:10<1:02:34,  1.61it/s]Training 2/3 epoch (loss 0.1585):  64%|██████▍   | 10905/16950 [1:58:11<1:02:34,  1.61it/s]Training 2/3 epoch (loss 0.1585):  64%|██████▍   | 10906/16950 [1:58:11<58:15,  1.73it/s]  Training 2/3 epoch (loss 0.0026):  64%|██████▍   | 10906/16950 [1:58:11<58:15,  1.73it/s]Training 2/3 epoch (loss 0.0026):  64%|██████▍   | 10907/16950 [1:58:11<56:42,  1.78it/s]Training 2/3 epoch (loss 0.0122):  64%|██████▍   | 10907/16950 [1:58:12<56:42,  1.78it/s]Training 2/3 epoch (loss 0.0122):  64%|██████▍   | 10908/16950 [1:58:12<59:43,  1.69it/s]Training 2/3 epoch (loss 0.0009):  64%|██████▍   | 10908/16950 [1:58:12<59:43,  1.69it/s]Training 2/3 epoch (loss 0.0009):  64%|██████▍   | 10909/16950 [1:58:12<54:17,  1.85it/s]Training 2/3 epoch (loss 0.0164):  64%|██████▍   | 10909/16950 [1:58:13<54:17,  1.85it/s]Training 2/3 epoch (loss 0.0164):  64%|██████▍   | 10910/16950 [1:58:13<57:27,  1.75it/s]Training 2/3 epoch (loss 0.0053):  64%|██████▍   | 10910/16950 [1:58:13<57:27,  1.75it/s]Training 2/3 epoch (loss 0.0053):  64%|██████▍   | 10911/16950 [1:58:13<54:23,  1.85it/s]Training 2/3 epoch (loss 0.0135):  64%|██████▍   | 10911/16950 [1:58:14<54:23,  1.85it/s]Training 2/3 epoch (loss 0.0135):  64%|██████▍   | 10912/16950 [1:58:14<51:38,  1.95it/s]Training 2/3 epoch (loss 0.0234):  64%|██████▍   | 10912/16950 [1:58:14<51:38,  1.95it/s]Training 2/3 epoch (loss 0.0234):  64%|██████▍   | 10913/16950 [1:58:14<51:49,  1.94it/s]Training 2/3 epoch (loss 0.3297):  64%|██████▍   | 10913/16950 [1:58:15<51:49,  1.94it/s]Training 2/3 epoch (loss 0.3297):  64%|██████▍   | 10914/16950 [1:58:15<55:22,  1.82it/s]Training 2/3 epoch (loss 0.0132):  64%|██████▍   | 10914/16950 [1:58:16<55:22,  1.82it/s]Training 2/3 epoch (loss 0.0132):  64%|██████▍   | 10915/16950 [1:58:16<58:55,  1.71it/s]Training 2/3 epoch (loss 0.0086):  64%|██████▍   | 10915/16950 [1:58:16<58:55,  1.71it/s]Training 2/3 epoch (loss 0.0086):  64%|██████▍   | 10916/16950 [1:58:16<1:07:55,  1.48it/s]Training 2/3 epoch (loss 0.0336):  64%|██████▍   | 10916/16950 [1:58:17<1:07:55,  1.48it/s]Training 2/3 epoch (loss 0.0336):  64%|██████▍   | 10917/16950 [1:58:17<1:04:58,  1.55it/s]Training 2/3 epoch (loss 0.3147):  64%|██████▍   | 10917/16950 [1:58:17<1:04:58,  1.55it/s]Training 2/3 epoch (loss 0.3147):  64%|██████▍   | 10918/16950 [1:58:17<59:26,  1.69it/s]  Training 2/3 epoch (loss 0.0003):  64%|██████▍   | 10918/16950 [1:58:18<59:26,  1.69it/s]Training 2/3 epoch (loss 0.0003):  64%|██████▍   | 10919/16950 [1:58:18<53:16,  1.89it/s]Training 2/3 epoch (loss 0.0079):  64%|██████▍   | 10919/16950 [1:58:18<53:16,  1.89it/s]Training 2/3 epoch (loss 0.0079):  64%|██████▍   | 10920/16950 [1:58:18<51:08,  1.97it/s]Training 2/3 epoch (loss 0.0054):  64%|██████▍   | 10920/16950 [1:58:19<51:08,  1.97it/s]Training 2/3 epoch (loss 0.0054):  64%|██████▍   | 10921/16950 [1:58:19<49:15,  2.04it/s]Training 2/3 epoch (loss 0.0364):  64%|██████▍   | 10921/16950 [1:58:19<49:15,  2.04it/s]Training 2/3 epoch (loss 0.0364):  64%|██████▍   | 10922/16950 [1:58:19<52:47,  1.90it/s]Training 2/3 epoch (loss 0.0078):  64%|██████▍   | 10922/16950 [1:58:20<52:47,  1.90it/s]Training 2/3 epoch (loss 0.0078):  64%|██████▍   | 10923/16950 [1:58:20<58:09,  1.73it/s]Training 2/3 epoch (loss 0.2020):  64%|██████▍   | 10923/16950 [1:58:21<58:09,  1.73it/s]Training 2/3 epoch (loss 0.2020):  64%|██████▍   | 10924/16950 [1:58:21<55:02,  1.82it/s]Training 2/3 epoch (loss 0.0141):  64%|██████▍   | 10924/16950 [1:58:21<55:02,  1.82it/s]Training 2/3 epoch (loss 0.0141):  64%|██████▍   | 10925/16950 [1:58:21<1:04:23,  1.56it/s]Training 2/3 epoch (loss 0.0776):  64%|██████▍   | 10925/16950 [1:58:22<1:04:23,  1.56it/s]Training 2/3 epoch (loss 0.0776):  64%|██████▍   | 10926/16950 [1:58:22<1:03:00,  1.59it/s]Training 2/3 epoch (loss 0.0489):  64%|██████▍   | 10926/16950 [1:58:22<1:03:00,  1.59it/s]Training 2/3 epoch (loss 0.0489):  64%|██████▍   | 10927/16950 [1:58:22<57:22,  1.75it/s]  Training 2/3 epoch (loss 0.5862):  64%|██████▍   | 10927/16950 [1:58:23<57:22,  1.75it/s]Training 2/3 epoch (loss 0.5862):  64%|██████▍   | 10928/16950 [1:58:23<50:33,  1.99it/s]Training 2/3 epoch (loss 0.0270):  64%|██████▍   | 10928/16950 [1:58:23<50:33,  1.99it/s]Training 2/3 epoch (loss 0.0270):  64%|██████▍   | 10929/16950 [1:58:23<53:25,  1.88it/s]Training 2/3 epoch (loss 0.3803):  64%|██████▍   | 10929/16950 [1:58:24<53:25,  1.88it/s]Training 2/3 epoch (loss 0.3803):  64%|██████▍   | 10930/16950 [1:58:24<52:01,  1.93it/s]Training 2/3 epoch (loss 0.1894):  64%|██████▍   | 10930/16950 [1:58:24<52:01,  1.93it/s]Training 2/3 epoch (loss 0.1894):  64%|██████▍   | 10931/16950 [1:58:24<50:44,  1.98it/s]Training 2/3 epoch (loss 0.0002):  64%|██████▍   | 10931/16950 [1:58:25<50:44,  1.98it/s]Training 2/3 epoch (loss 0.0002):  64%|██████▍   | 10932/16950 [1:58:25<49:31,  2.03it/s]Training 2/3 epoch (loss 0.0019):  64%|██████▍   | 10932/16950 [1:58:26<49:31,  2.03it/s]Training 2/3 epoch (loss 0.0019):  65%|██████▍   | 10933/16950 [1:58:26<1:06:15,  1.51it/s]Training 2/3 epoch (loss 0.0518):  65%|██████▍   | 10933/16950 [1:58:27<1:06:15,  1.51it/s]Training 2/3 epoch (loss 0.0518):  65%|██████▍   | 10934/16950 [1:58:27<1:12:07,  1.39it/s]Training 2/3 epoch (loss 0.3662):  65%|██████▍   | 10934/16950 [1:58:27<1:12:07,  1.39it/s]Training 2/3 epoch (loss 0.3662):  65%|██████▍   | 10935/16950 [1:58:27<1:11:51,  1.40it/s]Training 2/3 epoch (loss 0.0218):  65%|██████▍   | 10935/16950 [1:58:28<1:11:51,  1.40it/s]Training 2/3 epoch (loss 0.0218):  65%|██████▍   | 10936/16950 [1:58:28<1:15:49,  1.32it/s]Training 2/3 epoch (loss 0.0862):  65%|██████▍   | 10936/16950 [1:58:29<1:15:49,  1.32it/s]Training 2/3 epoch (loss 0.0862):  65%|██████▍   | 10937/16950 [1:58:29<1:10:25,  1.42it/s]Training 2/3 epoch (loss 0.0144):  65%|██████▍   | 10937/16950 [1:58:30<1:10:25,  1.42it/s]Training 2/3 epoch (loss 0.0144):  65%|██████▍   | 10938/16950 [1:58:30<1:15:36,  1.33it/s]Training 2/3 epoch (loss 0.0898):  65%|██████▍   | 10938/16950 [1:58:30<1:15:36,  1.33it/s]Training 2/3 epoch (loss 0.0898):  65%|██████▍   | 10939/16950 [1:58:30<1:11:54,  1.39it/s]Training 2/3 epoch (loss 0.0003):  65%|██████▍   | 10939/16950 [1:58:31<1:11:54,  1.39it/s]Training 2/3 epoch (loss 0.0003):  65%|██████▍   | 10940/16950 [1:58:31<1:10:50,  1.41it/s]Training 2/3 epoch (loss 0.0074):  65%|██████▍   | 10940/16950 [1:58:32<1:10:50,  1.41it/s]Training 2/3 epoch (loss 0.0074):  65%|██████▍   | 10941/16950 [1:58:32<1:04:22,  1.56it/s]Training 2/3 epoch (loss 0.4035):  65%|██████▍   | 10941/16950 [1:58:32<1:04:22,  1.56it/s]Training 2/3 epoch (loss 0.4035):  65%|██████▍   | 10942/16950 [1:58:32<1:03:50,  1.57it/s]Training 2/3 epoch (loss 0.0961):  65%|██████▍   | 10942/16950 [1:58:33<1:03:50,  1.57it/s]Training 2/3 epoch (loss 0.0961):  65%|██████▍   | 10943/16950 [1:58:33<1:03:00,  1.59it/s]Training 2/3 epoch (loss 0.1876):  65%|██████▍   | 10943/16950 [1:58:33<1:03:00,  1.59it/s]Training 2/3 epoch (loss 0.1876):  65%|██████▍   | 10944/16950 [1:58:33<1:04:38,  1.55it/s]Training 2/3 epoch (loss 0.0211):  65%|██████▍   | 10944/16950 [1:58:34<1:04:38,  1.55it/s]Training 2/3 epoch (loss 0.0211):  65%|██████▍   | 10945/16950 [1:58:34<1:01:50,  1.62it/s]Training 2/3 epoch (loss 0.0029):  65%|██████▍   | 10945/16950 [1:58:35<1:01:50,  1.62it/s]Training 2/3 epoch (loss 0.0029):  65%|██████▍   | 10946/16950 [1:58:35<59:17,  1.69it/s]  Training 2/3 epoch (loss 0.0003):  65%|██████▍   | 10946/16950 [1:58:35<59:17,  1.69it/s]Training 2/3 epoch (loss 0.0003):  65%|██████▍   | 10947/16950 [1:58:35<53:11,  1.88it/s]Training 2/3 epoch (loss 0.0154):  65%|██████▍   | 10947/16950 [1:58:36<53:11,  1.88it/s]Training 2/3 epoch (loss 0.0154):  65%|██████▍   | 10948/16950 [1:58:36<57:50,  1.73it/s]Training 2/3 epoch (loss 0.0886):  65%|██████▍   | 10948/16950 [1:58:36<57:50,  1.73it/s]Training 2/3 epoch (loss 0.0886):  65%|██████▍   | 10949/16950 [1:58:36<1:01:18,  1.63it/s]Training 2/3 epoch (loss 0.0901):  65%|██████▍   | 10949/16950 [1:58:37<1:01:18,  1.63it/s]Training 2/3 epoch (loss 0.0901):  65%|██████▍   | 10950/16950 [1:58:37<1:02:53,  1.59it/s]Training 2/3 epoch (loss 0.1011):  65%|██████▍   | 10950/16950 [1:58:38<1:02:53,  1.59it/s]Training 2/3 epoch (loss 0.1011):  65%|██████▍   | 10951/16950 [1:58:38<1:01:43,  1.62it/s]Training 2/3 epoch (loss 0.0019):  65%|██████▍   | 10951/16950 [1:58:38<1:01:43,  1.62it/s]Training 2/3 epoch (loss 0.0019):  65%|██████▍   | 10952/16950 [1:58:38<59:45,  1.67it/s]  Training 2/3 epoch (loss 0.3110):  65%|██████▍   | 10952/16950 [1:58:39<59:45,  1.67it/s]Training 2/3 epoch (loss 0.3110):  65%|██████▍   | 10953/16950 [1:58:39<55:14,  1.81it/s]Training 2/3 epoch (loss 0.0002):  65%|██████▍   | 10953/16950 [1:58:39<55:14,  1.81it/s]Training 2/3 epoch (loss 0.0002):  65%|██████▍   | 10954/16950 [1:58:39<55:06,  1.81it/s]Training 2/3 epoch (loss 0.0047):  65%|██████▍   | 10954/16950 [1:58:40<55:06,  1.81it/s]Training 2/3 epoch (loss 0.0047):  65%|██████▍   | 10955/16950 [1:58:40<53:14,  1.88it/s]Training 2/3 epoch (loss 0.0032):  65%|██████▍   | 10955/16950 [1:58:40<53:14,  1.88it/s]Training 2/3 epoch (loss 0.0032):  65%|██████▍   | 10956/16950 [1:58:40<50:35,  1.97it/s]Training 2/3 epoch (loss 0.4331):  65%|██████▍   | 10956/16950 [1:58:41<50:35,  1.97it/s]Training 2/3 epoch (loss 0.4331):  65%|██████▍   | 10957/16950 [1:58:41<1:04:05,  1.56it/s]Training 2/3 epoch (loss 0.0046):  65%|██████▍   | 10957/16950 [1:58:42<1:04:05,  1.56it/s]Training 2/3 epoch (loss 0.0046):  65%|██████▍   | 10958/16950 [1:58:42<1:04:10,  1.56it/s]Training 2/3 epoch (loss 0.0189):  65%|██████▍   | 10958/16950 [1:58:42<1:04:10,  1.56it/s]Training 2/3 epoch (loss 0.0189):  65%|██████▍   | 10959/16950 [1:58:42<1:00:04,  1.66it/s]Training 2/3 epoch (loss 0.2537):  65%|██████▍   | 10959/16950 [1:58:43<1:00:04,  1.66it/s]Training 2/3 epoch (loss 0.2537):  65%|██████▍   | 10960/16950 [1:58:43<55:17,  1.81it/s]  Training 2/3 epoch (loss 0.0474):  65%|██████▍   | 10960/16950 [1:58:43<55:17,  1.81it/s]Training 2/3 epoch (loss 0.0474):  65%|██████▍   | 10961/16950 [1:58:43<1:05:44,  1.52it/s]Training 2/3 epoch (loss 0.5000):  65%|██████▍   | 10961/16950 [1:58:44<1:05:44,  1.52it/s]Training 2/3 epoch (loss 0.5000):  65%|██████▍   | 10962/16950 [1:58:44<56:39,  1.76it/s]  Training 2/3 epoch (loss nan):  65%|██████▍   | 10962/16950 [1:58:45<56:39,  1.76it/s]   Training 2/3 epoch (loss nan):  65%|██████▍   | 10963/16950 [1:58:45<1:12:45,  1.37it/s]Training 2/3 epoch (loss 0.0199):  65%|██████▍   | 10963/16950 [1:58:46<1:12:45,  1.37it/s]Training 2/3 epoch (loss 0.0199):  65%|██████▍   | 10964/16950 [1:58:46<1:11:36,  1.39it/s]Training 2/3 epoch (loss nan):  65%|██████▍   | 10964/16950 [1:58:47<1:11:36,  1.39it/s]   Training 2/3 epoch (loss nan):  65%|██████▍   | 10965/16950 [1:58:47<1:24:23,  1.18it/s]Training 2/3 epoch (loss 0.0210):  65%|██████▍   | 10965/16950 [1:58:48<1:24:23,  1.18it/s]Training 2/3 epoch (loss 0.0210):  65%|██████▍   | 10966/16950 [1:58:48<1:21:14,  1.23it/s]Training 2/3 epoch (loss 0.0013):  65%|██████▍   | 10966/16950 [1:58:48<1:21:14,  1.23it/s]Training 2/3 epoch (loss 0.0013):  65%|██████▍   | 10967/16950 [1:58:48<1:14:30,  1.34it/s]Training 2/3 epoch (loss 0.3547):  65%|██████▍   | 10967/16950 [1:58:49<1:14:30,  1.34it/s]Training 2/3 epoch (loss 0.3547):  65%|██████▍   | 10968/16950 [1:58:49<1:07:27,  1.48it/s]Training 2/3 epoch (loss 0.0230):  65%|██████▍   | 10968/16950 [1:58:49<1:07:27,  1.48it/s]Training 2/3 epoch (loss 0.0230):  65%|██████▍   | 10969/16950 [1:58:49<1:08:01,  1.47it/s]Training 2/3 epoch (loss 0.0302):  65%|██████▍   | 10969/16950 [1:58:50<1:08:01,  1.47it/s]Training 2/3 epoch (loss 0.0302):  65%|██████▍   | 10970/16950 [1:58:50<1:04:15,  1.55it/s]Training 2/3 epoch (loss 0.0009):  65%|██████▍   | 10970/16950 [1:58:51<1:04:15,  1.55it/s]Training 2/3 epoch (loss 0.0009):  65%|██████▍   | 10971/16950 [1:58:51<1:03:29,  1.57it/s]Training 2/3 epoch (loss 0.0044):  65%|██████▍   | 10971/16950 [1:58:51<1:03:29,  1.57it/s]Training 2/3 epoch (loss 0.0044):  65%|██████▍   | 10972/16950 [1:58:51<1:08:13,  1.46it/s]Training 2/3 epoch (loss 0.0109):  65%|██████▍   | 10972/16950 [1:58:52<1:08:13,  1.46it/s]Training 2/3 epoch (loss 0.0109):  65%|██████▍   | 10973/16950 [1:58:52<1:03:09,  1.58it/s]Training 2/3 epoch (loss 0.3081):  65%|██████▍   | 10973/16950 [1:58:53<1:03:09,  1.58it/s]Training 2/3 epoch (loss 0.3081):  65%|██████▍   | 10974/16950 [1:58:53<1:04:35,  1.54it/s]Training 2/3 epoch (loss 0.3912):  65%|██████▍   | 10974/16950 [1:58:53<1:04:35,  1.54it/s]Training 2/3 epoch (loss 0.3912):  65%|██████▍   | 10975/16950 [1:58:53<58:47,  1.69it/s]  Training 2/3 epoch (loss 0.4990):  65%|██████▍   | 10975/16950 [1:58:53<58:47,  1.69it/s]Training 2/3 epoch (loss 0.4990):  65%|██████▍   | 10976/16950 [1:58:53<52:29,  1.90it/s]Training 2/3 epoch (loss 0.0001):  65%|██████▍   | 10976/16950 [1:58:54<52:29,  1.90it/s]Training 2/3 epoch (loss 0.0001):  65%|██████▍   | 10977/16950 [1:58:54<48:15,  2.06it/s]Training 2/3 epoch (loss 0.0045):  65%|██████▍   | 10977/16950 [1:58:54<48:15,  2.06it/s]Training 2/3 epoch (loss 0.0045):  65%|██████▍   | 10978/16950 [1:58:54<51:12,  1.94it/s]Training 2/3 epoch (loss 0.3482):  65%|██████▍   | 10978/16950 [1:58:55<51:12,  1.94it/s]Training 2/3 epoch (loss 0.3482):  65%|██████▍   | 10979/16950 [1:58:55<48:44,  2.04it/s]Training 2/3 epoch (loss 0.0348):  65%|██████▍   | 10979/16950 [1:58:55<48:44,  2.04it/s]Training 2/3 epoch (loss 0.0348):  65%|██████▍   | 10980/16950 [1:58:55<47:44,  2.08it/s]Training 2/3 epoch (loss 0.0324):  65%|██████▍   | 10980/16950 [1:58:56<47:44,  2.08it/s]Training 2/3 epoch (loss 0.0324):  65%|██████▍   | 10981/16950 [1:58:56<52:21,  1.90it/s]Training 2/3 epoch (loss 0.2810):  65%|██████▍   | 10981/16950 [1:58:56<52:21,  1.90it/s]Training 2/3 epoch (loss 0.2810):  65%|██████▍   | 10982/16950 [1:58:56<53:35,  1.86it/s]Training 2/3 epoch (loss 0.0552):  65%|██████▍   | 10982/16950 [1:58:57<53:35,  1.86it/s]Training 2/3 epoch (loss 0.0552):  65%|██████▍   | 10983/16950 [1:58:57<54:52,  1.81it/s]Training 2/3 epoch (loss 0.0673):  65%|██████▍   | 10983/16950 [1:58:58<54:52,  1.81it/s]Training 2/3 epoch (loss 0.0673):  65%|██████▍   | 10984/16950 [1:58:58<54:59,  1.81it/s]Training 2/3 epoch (loss 0.0112):  65%|██████▍   | 10984/16950 [1:58:58<54:59,  1.81it/s]Training 2/3 epoch (loss 0.0112):  65%|██████▍   | 10985/16950 [1:58:58<57:38,  1.72it/s]Training 2/3 epoch (loss 0.1348):  65%|██████▍   | 10985/16950 [1:58:59<57:38,  1.72it/s]Training 2/3 epoch (loss 0.1348):  65%|██████▍   | 10986/16950 [1:58:59<59:52,  1.66it/s]Training 2/3 epoch (loss 0.2848):  65%|██████▍   | 10986/16950 [1:58:59<59:52,  1.66it/s]Training 2/3 epoch (loss 0.2848):  65%|██████▍   | 10987/16950 [1:58:59<55:23,  1.79it/s]Training 2/3 epoch (loss 0.0005):  65%|██████▍   | 10987/16950 [1:59:00<55:23,  1.79it/s]Training 2/3 epoch (loss 0.0005):  65%|██████▍   | 10988/16950 [1:59:00<51:29,  1.93it/s]Training 2/3 epoch (loss 0.6467):  65%|██████▍   | 10988/16950 [1:59:00<51:29,  1.93it/s]Training 2/3 epoch (loss 0.6467):  65%|██████▍   | 10989/16950 [1:59:00<50:39,  1.96it/s]Training 2/3 epoch (loss 0.4850):  65%|██████▍   | 10989/16950 [1:59:01<50:39,  1.96it/s]Training 2/3 epoch (loss 0.4850):  65%|██████▍   | 10990/16950 [1:59:01<46:47,  2.12it/s]Training 2/3 epoch (loss 0.1694):  65%|██████▍   | 10990/16950 [1:59:01<46:47,  2.12it/s]Training 2/3 epoch (loss 0.1694):  65%|██████▍   | 10991/16950 [1:59:01<58:35,  1.69it/s]Training 2/3 epoch (loss 0.3337):  65%|██████▍   | 10991/16950 [1:59:02<58:35,  1.69it/s]Training 2/3 epoch (loss 0.3337):  65%|██████▍   | 10992/16950 [1:59:02<59:09,  1.68it/s]Training 2/3 epoch (loss 0.0156):  65%|██████▍   | 10992/16950 [1:59:03<59:09,  1.68it/s]Training 2/3 epoch (loss 0.0156):  65%|██████▍   | 10993/16950 [1:59:03<59:45,  1.66it/s]Training 2/3 epoch (loss 0.0090):  65%|██████▍   | 10993/16950 [1:59:03<59:45,  1.66it/s]Training 2/3 epoch (loss 0.0090):  65%|██████▍   | 10994/16950 [1:59:03<59:33,  1.67it/s]Training 2/3 epoch (loss 0.2969):  65%|██████▍   | 10994/16950 [1:59:04<59:33,  1.67it/s]Training 2/3 epoch (loss 0.2969):  65%|██████▍   | 10995/16950 [1:59:04<1:00:10,  1.65it/s]Training 2/3 epoch (loss 0.3209):  65%|██████▍   | 10995/16950 [1:59:05<1:00:10,  1.65it/s]Training 2/3 epoch (loss 0.3209):  65%|██████▍   | 10996/16950 [1:59:05<1:06:04,  1.50it/s]Training 2/3 epoch (loss 0.0193):  65%|██████▍   | 10996/16950 [1:59:05<1:06:04,  1.50it/s]Training 2/3 epoch (loss 0.0193):  65%|██████▍   | 10997/16950 [1:59:05<1:02:15,  1.59it/s]Training 2/3 epoch (loss 0.0859):  65%|██████▍   | 10997/16950 [1:59:06<1:02:15,  1.59it/s]Training 2/3 epoch (loss 0.0859):  65%|██████▍   | 10998/16950 [1:59:06<1:04:33,  1.54it/s]Training 2/3 epoch (loss 0.3008):  65%|██████▍   | 10998/16950 [1:59:06<1:04:33,  1.54it/s]Training 2/3 epoch (loss 0.3008):  65%|██████▍   | 10999/16950 [1:59:06<1:00:02,  1.65it/s]Training 2/3 epoch (loss 0.1652):  65%|██████▍   | 10999/16950 [1:59:07<1:00:02,  1.65it/s]Training 2/3 epoch (loss 0.1652):  65%|██████▍   | 11000/16950 [1:59:07<1:00:46,  1.63it/s]Training 2/3 epoch (loss 0.0913):  65%|██████▍   | 11000/16950 [1:59:08<1:00:46,  1.63it/s]Training 2/3 epoch (loss 0.0913):  65%|██████▍   | 11001/16950 [1:59:08<1:00:27,  1.64it/s]Training 2/3 epoch (loss 0.0659):  65%|██████▍   | 11001/16950 [1:59:08<1:00:27,  1.64it/s]Training 2/3 epoch (loss 0.0659):  65%|██████▍   | 11002/16950 [1:59:08<57:36,  1.72it/s]  Training 2/3 epoch (loss 0.0025):  65%|██████▍   | 11002/16950 [1:59:09<57:36,  1.72it/s]Training 2/3 epoch (loss 0.0025):  65%|██████▍   | 11003/16950 [1:59:09<1:01:37,  1.61it/s]Training 2/3 epoch (loss 0.4327):  65%|██████▍   | 11003/16950 [1:59:09<1:01:37,  1.61it/s]Training 2/3 epoch (loss 0.4327):  65%|██████▍   | 11004/16950 [1:59:09<57:41,  1.72it/s]  Training 2/3 epoch (loss 0.0032):  65%|██████▍   | 11004/16950 [1:59:10<57:41,  1.72it/s]Training 2/3 epoch (loss 0.0032):  65%|██████▍   | 11005/16950 [1:59:10<1:00:50,  1.63it/s]Training 2/3 epoch (loss 0.3452):  65%|██████▍   | 11005/16950 [1:59:11<1:00:50,  1.63it/s]Training 2/3 epoch (loss 0.3452):  65%|██████▍   | 11006/16950 [1:59:11<57:52,  1.71it/s]  Training 2/3 epoch (loss 0.2721):  65%|██████▍   | 11006/16950 [1:59:11<57:52,  1.71it/s]Training 2/3 epoch (loss 0.2721):  65%|██████▍   | 11007/16950 [1:59:11<57:57,  1.71it/s]Training 2/3 epoch (loss 0.0067):  65%|██████▍   | 11007/16950 [1:59:12<57:57,  1.71it/s]Training 2/3 epoch (loss 0.0067):  65%|██████▍   | 11008/16950 [1:59:12<55:00,  1.80it/s]Training 2/3 epoch (loss 0.1899):  65%|██████▍   | 11008/16950 [1:59:12<55:00,  1.80it/s]Training 2/3 epoch (loss 0.1899):  65%|██████▍   | 11009/16950 [1:59:12<59:36,  1.66it/s]Training 2/3 epoch (loss 0.0281):  65%|██████▍   | 11009/16950 [1:59:13<59:36,  1.66it/s]Training 2/3 epoch (loss 0.0281):  65%|██████▍   | 11010/16950 [1:59:13<1:03:54,  1.55it/s]Training 2/3 epoch (loss 0.0001):  65%|██████▍   | 11010/16950 [1:59:14<1:03:54,  1.55it/s]Training 2/3 epoch (loss 0.0001):  65%|██████▍   | 11011/16950 [1:59:14<58:28,  1.69it/s]  Training 2/3 epoch (loss 0.3064):  65%|██████▍   | 11011/16950 [1:59:14<58:28,  1.69it/s]Training 2/3 epoch (loss 0.3064):  65%|██████▍   | 11012/16950 [1:59:14<53:05,  1.86it/s]Training 2/3 epoch (loss 0.0018):  65%|██████▍   | 11012/16950 [1:59:15<53:05,  1.86it/s]Training 2/3 epoch (loss 0.0018):  65%|██████▍   | 11013/16950 [1:59:15<55:29,  1.78it/s]Training 2/3 epoch (loss 0.5050):  65%|██████▍   | 11013/16950 [1:59:15<55:29,  1.78it/s]Training 2/3 epoch (loss 0.5050):  65%|██████▍   | 11014/16950 [1:59:15<51:28,  1.92it/s]Training 2/3 epoch (loss 0.0912):  65%|██████▍   | 11014/16950 [1:59:16<51:28,  1.92it/s]Training 2/3 epoch (loss 0.0912):  65%|██████▍   | 11015/16950 [1:59:16<1:01:04,  1.62it/s]Training 2/3 epoch (loss 0.1149):  65%|██████▍   | 11015/16950 [1:59:16<1:01:04,  1.62it/s]Training 2/3 epoch (loss 0.1149):  65%|██████▍   | 11016/16950 [1:59:16<1:00:04,  1.65it/s]Training 2/3 epoch (loss 0.0047):  65%|██████▍   | 11016/16950 [1:59:17<1:00:04,  1.65it/s]Training 2/3 epoch (loss 0.0047):  65%|██████▍   | 11017/16950 [1:59:17<58:43,  1.68it/s]  Training 2/3 epoch (loss 0.1065):  65%|██████▍   | 11017/16950 [1:59:18<58:43,  1.68it/s]Training 2/3 epoch (loss 0.1065):  65%|██████▌   | 11018/16950 [1:59:18<1:02:54,  1.57it/s]Training 2/3 epoch (loss 0.0046):  65%|██████▌   | 11018/16950 [1:59:18<1:02:54,  1.57it/s]Training 2/3 epoch (loss 0.0046):  65%|██████▌   | 11019/16950 [1:59:18<1:01:09,  1.62it/s]Training 2/3 epoch (loss 0.0116):  65%|██████▌   | 11019/16950 [1:59:19<1:01:09,  1.62it/s]Training 2/3 epoch (loss 0.0116):  65%|██████▌   | 11020/16950 [1:59:19<1:01:51,  1.60it/s]Training 2/3 epoch (loss 0.0312):  65%|██████▌   | 11020/16950 [1:59:20<1:01:51,  1.60it/s]Training 2/3 epoch (loss 0.0312):  65%|██████▌   | 11021/16950 [1:59:20<59:29,  1.66it/s]  Training 2/3 epoch (loss 0.0125):  65%|██████▌   | 11021/16950 [1:59:20<59:29,  1.66it/s]Training 2/3 epoch (loss 0.0125):  65%|██████▌   | 11022/16950 [1:59:20<56:05,  1.76it/s]Training 2/3 epoch (loss 0.0782):  65%|██████▌   | 11022/16950 [1:59:20<56:05,  1.76it/s]Training 2/3 epoch (loss 0.0782):  65%|██████▌   | 11023/16950 [1:59:20<52:15,  1.89it/s]Training 2/3 epoch (loss 0.2137):  65%|██████▌   | 11023/16950 [1:59:21<52:15,  1.89it/s]Training 2/3 epoch (loss 0.2137):  65%|██████▌   | 11024/16950 [1:59:21<51:48,  1.91it/s]Training 2/3 epoch (loss 0.2446):  65%|██████▌   | 11024/16950 [1:59:22<51:48,  1.91it/s]Training 2/3 epoch (loss 0.2446):  65%|██████▌   | 11025/16950 [1:59:22<54:56,  1.80it/s]Training 2/3 epoch (loss 0.5540):  65%|██████▌   | 11025/16950 [1:59:22<54:56,  1.80it/s]Training 2/3 epoch (loss 0.5540):  65%|██████▌   | 11026/16950 [1:59:22<56:58,  1.73it/s]Training 2/3 epoch (loss 0.0050):  65%|██████▌   | 11026/16950 [1:59:23<56:58,  1.73it/s]Training 2/3 epoch (loss 0.0050):  65%|██████▌   | 11027/16950 [1:59:23<57:10,  1.73it/s]Training 2/3 epoch (loss 0.0005):  65%|██████▌   | 11027/16950 [1:59:23<57:10,  1.73it/s]Training 2/3 epoch (loss 0.0005):  65%|██████▌   | 11028/16950 [1:59:23<51:22,  1.92it/s]Training 2/3 epoch (loss 0.4568):  65%|██████▌   | 11028/16950 [1:59:24<51:22,  1.92it/s]Training 2/3 epoch (loss 0.4568):  65%|██████▌   | 11029/16950 [1:59:24<47:45,  2.07it/s]Training 2/3 epoch (loss 0.0078):  65%|██████▌   | 11029/16950 [1:59:24<47:45,  2.07it/s]Training 2/3 epoch (loss 0.0078):  65%|██████▌   | 11030/16950 [1:59:24<52:41,  1.87it/s]Training 2/3 epoch (loss 0.5743):  65%|██████▌   | 11030/16950 [1:59:25<52:41,  1.87it/s]Training 2/3 epoch (loss 0.5743):  65%|██████▌   | 11031/16950 [1:59:25<52:58,  1.86it/s]Training 2/3 epoch (loss 0.0038):  65%|██████▌   | 11031/16950 [1:59:26<52:58,  1.86it/s]Training 2/3 epoch (loss 0.0038):  65%|██████▌   | 11032/16950 [1:59:26<1:02:35,  1.58it/s]Training 2/3 epoch (loss 0.3201):  65%|██████▌   | 11032/16950 [1:59:26<1:02:35,  1.58it/s]Training 2/3 epoch (loss 0.3201):  65%|██████▌   | 11033/16950 [1:59:26<1:04:28,  1.53it/s]Training 2/3 epoch (loss 0.3525):  65%|██████▌   | 11033/16950 [1:59:27<1:04:28,  1.53it/s]Training 2/3 epoch (loss 0.3525):  65%|██████▌   | 11034/16950 [1:59:27<1:01:11,  1.61it/s]Training 2/3 epoch (loss 0.0044):  65%|██████▌   | 11034/16950 [1:59:27<1:01:11,  1.61it/s]Training 2/3 epoch (loss 0.0044):  65%|██████▌   | 11035/16950 [1:59:27<54:45,  1.80it/s]  Training 2/3 epoch (loss 0.1030):  65%|██████▌   | 11035/16950 [1:59:28<54:45,  1.80it/s]Training 2/3 epoch (loss 0.1030):  65%|██████▌   | 11036/16950 [1:59:28<1:02:16,  1.58it/s]Training 2/3 epoch (loss 0.4344):  65%|██████▌   | 11036/16950 [1:59:29<1:02:16,  1.58it/s]Training 2/3 epoch (loss 0.4344):  65%|██████▌   | 11037/16950 [1:59:29<1:05:11,  1.51it/s]Training 2/3 epoch (loss 0.0107):  65%|██████▌   | 11037/16950 [1:59:29<1:05:11,  1.51it/s]Training 2/3 epoch (loss 0.0107):  65%|██████▌   | 11038/16950 [1:59:29<59:14,  1.66it/s]  Training 2/3 epoch (loss 0.4831):  65%|██████▌   | 11038/16950 [1:59:30<59:14,  1.66it/s]Training 2/3 epoch (loss 0.4831):  65%|██████▌   | 11039/16950 [1:59:30<55:07,  1.79it/s]Training 2/3 epoch (loss 0.6267):  65%|██████▌   | 11039/16950 [1:59:31<55:07,  1.79it/s]Training 2/3 epoch (loss 0.6267):  65%|██████▌   | 11040/16950 [1:59:31<1:03:54,  1.54it/s]Training 2/3 epoch (loss 0.4595):  65%|██████▌   | 11040/16950 [1:59:31<1:03:54,  1.54it/s]Training 2/3 epoch (loss 0.4595):  65%|██████▌   | 11041/16950 [1:59:31<1:01:44,  1.60it/s]Training 2/3 epoch (loss 0.1620):  65%|██████▌   | 11041/16950 [1:59:32<1:01:44,  1.60it/s]Training 2/3 epoch (loss 0.1620):  65%|██████▌   | 11042/16950 [1:59:32<1:02:14,  1.58it/s]Training 2/3 epoch (loss 0.0001):  65%|██████▌   | 11042/16950 [1:59:32<1:02:14,  1.58it/s]Training 2/3 epoch (loss 0.0001):  65%|██████▌   | 11043/16950 [1:59:32<57:04,  1.72it/s]  Training 2/3 epoch (loss 0.1558):  65%|██████▌   | 11043/16950 [1:59:33<57:04,  1.72it/s]Training 2/3 epoch (loss 0.1558):  65%|██████▌   | 11044/16950 [1:59:33<57:40,  1.71it/s]Training 2/3 epoch (loss 0.0130):  65%|██████▌   | 11044/16950 [1:59:33<57:40,  1.71it/s]Training 2/3 epoch (loss 0.0130):  65%|██████▌   | 11045/16950 [1:59:33<57:19,  1.72it/s]Training 2/3 epoch (loss 0.3649):  65%|██████▌   | 11045/16950 [1:59:34<57:19,  1.72it/s]Training 2/3 epoch (loss 0.3649):  65%|██████▌   | 11046/16950 [1:59:34<55:02,  1.79it/s]Training 2/3 epoch (loss 0.1497):  65%|██████▌   | 11046/16950 [1:59:34<55:02,  1.79it/s]Training 2/3 epoch (loss 0.1497):  65%|██████▌   | 11047/16950 [1:59:34<51:53,  1.90it/s]Training 2/3 epoch (loss 0.0167):  65%|██████▌   | 11047/16950 [1:59:35<51:53,  1.90it/s]Training 2/3 epoch (loss 0.0167):  65%|██████▌   | 11048/16950 [1:59:35<56:12,  1.75it/s]Training 2/3 epoch (loss 0.0028):  65%|██████▌   | 11048/16950 [1:59:36<56:12,  1.75it/s]Training 2/3 epoch (loss 0.0028):  65%|██████▌   | 11049/16950 [1:59:36<54:33,  1.80it/s]Training 2/3 epoch (loss 0.0200):  65%|██████▌   | 11049/16950 [1:59:36<54:33,  1.80it/s]Training 2/3 epoch (loss 0.0200):  65%|██████▌   | 11050/16950 [1:59:36<55:33,  1.77it/s]Training 2/3 epoch (loss 0.2558):  65%|██████▌   | 11050/16950 [1:59:37<55:33,  1.77it/s]Training 2/3 epoch (loss 0.2558):  65%|██████▌   | 11051/16950 [1:59:37<1:09:21,  1.42it/s]Training 2/3 epoch (loss nan):  65%|██████▌   | 11051/16950 [1:59:38<1:09:21,  1.42it/s]   Training 2/3 epoch (loss nan):  65%|██████▌   | 11052/16950 [1:59:38<1:24:23,  1.16it/s]Training 2/3 epoch (loss 0.7928):  65%|██████▌   | 11052/16950 [1:59:40<1:24:23,  1.16it/s]Training 2/3 epoch (loss 0.7928):  65%|██████▌   | 11053/16950 [1:59:40<1:33:03,  1.06it/s]Training 2/3 epoch (loss 0.0068):  65%|██████▌   | 11053/16950 [1:59:40<1:33:03,  1.06it/s]Training 2/3 epoch (loss 0.0068):  65%|██████▌   | 11054/16950 [1:59:40<1:19:43,  1.23it/s]Training 2/3 epoch (loss 0.0408):  65%|██████▌   | 11054/16950 [1:59:41<1:19:43,  1.23it/s]Training 2/3 epoch (loss 0.0408):  65%|██████▌   | 11055/16950 [1:59:41<1:10:52,  1.39it/s]Training 2/3 epoch (loss 0.0076):  65%|██████▌   | 11055/16950 [1:59:41<1:10:52,  1.39it/s]Training 2/3 epoch (loss 0.0076):  65%|██████▌   | 11056/16950 [1:59:41<1:04:36,  1.52it/s]Training 2/3 epoch (loss 0.0028):  65%|██████▌   | 11056/16950 [1:59:42<1:04:36,  1.52it/s]Training 2/3 epoch (loss 0.0028):  65%|██████▌   | 11057/16950 [1:59:42<1:00:55,  1.61it/s]Training 2/3 epoch (loss 0.3717):  65%|██████▌   | 11057/16950 [1:59:43<1:00:55,  1.61it/s]Training 2/3 epoch (loss 0.3717):  65%|██████▌   | 11058/16950 [1:59:43<1:08:07,  1.44it/s]Training 2/3 epoch (loss 0.0147):  65%|██████▌   | 11058/16950 [1:59:43<1:08:07,  1.44it/s]Training 2/3 epoch (loss 0.0147):  65%|██████▌   | 11059/16950 [1:59:43<1:09:46,  1.41it/s]Training 2/3 epoch (loss 0.0444):  65%|██████▌   | 11059/16950 [1:59:44<1:09:46,  1.41it/s]Training 2/3 epoch (loss 0.0444):  65%|██████▌   | 11060/16950 [1:59:44<1:09:42,  1.41it/s]Training 2/3 epoch (loss 0.0004):  65%|██████▌   | 11060/16950 [1:59:45<1:09:42,  1.41it/s]Training 2/3 epoch (loss 0.0004):  65%|██████▌   | 11061/16950 [1:59:45<1:05:16,  1.50it/s]Training 2/3 epoch (loss 0.3564):  65%|██████▌   | 11061/16950 [1:59:45<1:05:16,  1.50it/s]Training 2/3 epoch (loss 0.3564):  65%|██████▌   | 11062/16950 [1:59:45<1:04:30,  1.52it/s]Training 2/3 epoch (loss 0.0303):  65%|██████▌   | 11062/16950 [1:59:46<1:04:30,  1.52it/s]Training 2/3 epoch (loss 0.0303):  65%|██████▌   | 11063/16950 [1:59:46<1:00:37,  1.62it/s]Training 2/3 epoch (loss 0.4259):  65%|██████▌   | 11063/16950 [1:59:47<1:00:37,  1.62it/s]Training 2/3 epoch (loss 0.4259):  65%|██████▌   | 11064/16950 [1:59:47<1:07:43,  1.45it/s]Training 2/3 epoch (loss 0.0263):  65%|██████▌   | 11064/16950 [1:59:47<1:07:43,  1.45it/s]Training 2/3 epoch (loss 0.0263):  65%|██████▌   | 11065/16950 [1:59:47<1:10:02,  1.40it/s]Training 2/3 epoch (loss 0.2762):  65%|██████▌   | 11065/16950 [1:59:48<1:10:02,  1.40it/s]Training 2/3 epoch (loss 0.2762):  65%|██████▌   | 11066/16950 [1:59:48<1:13:28,  1.33it/s]Training 2/3 epoch (loss 0.0794):  65%|██████▌   | 11066/16950 [1:59:49<1:13:28,  1.33it/s]Training 2/3 epoch (loss 0.0794):  65%|██████▌   | 11067/16950 [1:59:49<1:10:38,  1.39it/s]Training 2/3 epoch (loss 0.0062):  65%|██████▌   | 11067/16950 [1:59:49<1:10:38,  1.39it/s]Training 2/3 epoch (loss 0.0062):  65%|██████▌   | 11068/16950 [1:59:49<1:05:33,  1.50it/s]Training 2/3 epoch (loss 0.0511):  65%|██████▌   | 11068/16950 [1:59:50<1:05:33,  1.50it/s]Training 2/3 epoch (loss 0.0511):  65%|██████▌   | 11069/16950 [1:59:50<1:06:21,  1.48it/s]Training 2/3 epoch (loss 0.0020):  65%|██████▌   | 11069/16950 [1:59:51<1:06:21,  1.48it/s]Training 2/3 epoch (loss 0.0020):  65%|██████▌   | 11070/16950 [1:59:51<1:05:19,  1.50it/s]Training 2/3 epoch (loss 0.0027):  65%|██████▌   | 11070/16950 [1:59:51<1:05:19,  1.50it/s]Training 2/3 epoch (loss 0.0027):  65%|██████▌   | 11071/16950 [1:59:51<1:00:49,  1.61it/s]Training 2/3 epoch (loss 0.0055):  65%|██████▌   | 11071/16950 [1:59:52<1:00:49,  1.61it/s]Training 2/3 epoch (loss 0.0055):  65%|██████▌   | 11072/16950 [1:59:52<58:38,  1.67it/s]  Training 2/3 epoch (loss 0.3953):  65%|██████▌   | 11072/16950 [1:59:52<58:38,  1.67it/s]Training 2/3 epoch (loss 0.3953):  65%|██████▌   | 11073/16950 [1:59:52<59:54,  1.64it/s]Training 2/3 epoch (loss 0.4107):  65%|██████▌   | 11073/16950 [1:59:53<59:54,  1.64it/s]Training 2/3 epoch (loss 0.4107):  65%|██████▌   | 11074/16950 [1:59:53<58:37,  1.67it/s]Training 2/3 epoch (loss 0.3963):  65%|██████▌   | 11074/16950 [1:59:53<58:37,  1.67it/s]Training 2/3 epoch (loss 0.3963):  65%|██████▌   | 11075/16950 [1:59:53<54:58,  1.78it/s]Training 2/3 epoch (loss 0.0001):  65%|██████▌   | 11075/16950 [1:59:54<54:58,  1.78it/s]Training 2/3 epoch (loss 0.0001):  65%|██████▌   | 11076/16950 [1:59:54<47:31,  2.06it/s]Training 2/3 epoch (loss 0.3858):  65%|██████▌   | 11076/16950 [1:59:54<47:31,  2.06it/s]Training 2/3 epoch (loss 0.3858):  65%|██████▌   | 11077/16950 [1:59:54<46:40,  2.10it/s]Training 2/3 epoch (loss 0.0012):  65%|██████▌   | 11077/16950 [1:59:55<46:40,  2.10it/s]Training 2/3 epoch (loss 0.0012):  65%|██████▌   | 11078/16950 [1:59:55<44:39,  2.19it/s]Training 2/3 epoch (loss 0.0048):  65%|██████▌   | 11078/16950 [1:59:55<44:39,  2.19it/s]Training 2/3 epoch (loss 0.0048):  65%|██████▌   | 11079/16950 [1:59:55<46:50,  2.09it/s]Training 2/3 epoch (loss 0.4902):  65%|██████▌   | 11079/16950 [1:59:56<46:50,  2.09it/s]Training 2/3 epoch (loss 0.4902):  65%|██████▌   | 11080/16950 [1:59:56<48:09,  2.03it/s]Training 2/3 epoch (loss 0.0044):  65%|██████▌   | 11080/16950 [1:59:56<48:09,  2.03it/s]Training 2/3 epoch (loss 0.0044):  65%|██████▌   | 11081/16950 [1:59:56<48:45,  2.01it/s]Training 2/3 epoch (loss 0.0004):  65%|██████▌   | 11081/16950 [1:59:57<48:45,  2.01it/s]Training 2/3 epoch (loss 0.0004):  65%|██████▌   | 11082/16950 [1:59:57<46:21,  2.11it/s]Training 2/3 epoch (loss 0.0001):  65%|██████▌   | 11082/16950 [1:59:57<46:21,  2.11it/s]Training 2/3 epoch (loss 0.0001):  65%|██████▌   | 11083/16950 [1:59:57<43:40,  2.24it/s]Training 2/3 epoch (loss 0.0021):  65%|██████▌   | 11083/16950 [1:59:58<43:40,  2.24it/s]Training 2/3 epoch (loss 0.0021):  65%|██████▌   | 11084/16950 [1:59:58<49:14,  1.99it/s]Training 2/3 epoch (loss 0.5425):  65%|██████▌   | 11084/16950 [1:59:58<49:14,  1.99it/s]Training 2/3 epoch (loss 0.5425):  65%|██████▌   | 11085/16950 [1:59:58<47:21,  2.06it/s]Training 2/3 epoch (loss 0.6041):  65%|██████▌   | 11085/16950 [1:59:59<47:21,  2.06it/s]Training 2/3 epoch (loss 0.6041):  65%|██████▌   | 11086/16950 [1:59:59<49:01,  1.99it/s]Training 2/3 epoch (loss 0.0042):  65%|██████▌   | 11086/16950 [1:59:59<49:01,  1.99it/s]Training 2/3 epoch (loss 0.0042):  65%|██████▌   | 11087/16950 [1:59:59<47:00,  2.08it/s]Training 2/3 epoch (loss 0.0040):  65%|██████▌   | 11087/16950 [2:00:00<47:00,  2.08it/s]Training 2/3 epoch (loss 0.0040):  65%|██████▌   | 11088/16950 [2:00:00<48:56,  2.00it/s]Training 2/3 epoch (loss 0.1184):  65%|██████▌   | 11088/16950 [2:00:00<48:56,  2.00it/s]Training 2/3 epoch (loss 0.1184):  65%|██████▌   | 11089/16950 [2:00:00<47:27,  2.06it/s]Training 2/3 epoch (loss 0.0608):  65%|██████▌   | 11089/16950 [2:00:01<47:27,  2.06it/s]Training 2/3 epoch (loss 0.0608):  65%|██████▌   | 11090/16950 [2:00:01<49:47,  1.96it/s]Training 2/3 epoch (loss 0.0196):  65%|██████▌   | 11090/16950 [2:00:01<49:47,  1.96it/s]Training 2/3 epoch (loss 0.0196):  65%|██████▌   | 11091/16950 [2:00:01<53:53,  1.81it/s]Training 2/3 epoch (loss 0.3519):  65%|██████▌   | 11091/16950 [2:00:02<53:53,  1.81it/s]Training 2/3 epoch (loss 0.3519):  65%|██████▌   | 11092/16950 [2:00:02<56:26,  1.73it/s]Training 2/3 epoch (loss 0.1398):  65%|██████▌   | 11092/16950 [2:00:02<56:26,  1.73it/s]Training 2/3 epoch (loss 0.1398):  65%|██████▌   | 11093/16950 [2:00:02<53:22,  1.83it/s]Training 2/3 epoch (loss 0.0256):  65%|██████▌   | 11093/16950 [2:00:03<53:22,  1.83it/s]Training 2/3 epoch (loss 0.0256):  65%|██████▌   | 11094/16950 [2:00:03<55:30,  1.76it/s]Training 2/3 epoch (loss 0.0176):  65%|██████▌   | 11094/16950 [2:00:04<55:30,  1.76it/s]Training 2/3 epoch (loss 0.0176):  65%|██████▌   | 11095/16950 [2:00:04<59:46,  1.63it/s]Training 2/3 epoch (loss 0.0032):  65%|██████▌   | 11095/16950 [2:00:04<59:46,  1.63it/s]Training 2/3 epoch (loss 0.0032):  65%|██████▌   | 11096/16950 [2:00:04<1:00:50,  1.60it/s]Training 2/3 epoch (loss 0.0335):  65%|██████▌   | 11096/16950 [2:00:05<1:00:50,  1.60it/s]Training 2/3 epoch (loss 0.0335):  65%|██████▌   | 11097/16950 [2:00:05<58:01,  1.68it/s]  Training 2/3 epoch (loss 0.4725):  65%|██████▌   | 11097/16950 [2:00:06<58:01,  1.68it/s]Training 2/3 epoch (loss 0.4725):  65%|██████▌   | 11098/16950 [2:00:06<1:00:59,  1.60it/s]Training 2/3 epoch (loss 0.0053):  65%|██████▌   | 11098/16950 [2:00:06<1:00:59,  1.60it/s]Training 2/3 epoch (loss 0.0053):  65%|██████▌   | 11099/16950 [2:00:06<1:02:44,  1.55it/s]Training 2/3 epoch (loss 0.0604):  65%|██████▌   | 11099/16950 [2:00:07<1:02:44,  1.55it/s]Training 2/3 epoch (loss 0.0604):  65%|██████▌   | 11100/16950 [2:00:07<1:02:06,  1.57it/s]Training 2/3 epoch (loss 0.0561):  65%|██████▌   | 11100/16950 [2:00:07<1:02:06,  1.57it/s]Training 2/3 epoch (loss 0.0561):  65%|██████▌   | 11101/16950 [2:00:07<58:10,  1.68it/s]  Training 2/3 epoch (loss 0.3693):  65%|██████▌   | 11101/16950 [2:00:08<58:10,  1.68it/s]Training 2/3 epoch (loss 0.3693):  65%|██████▌   | 11102/16950 [2:00:08<54:14,  1.80it/s]Training 2/3 epoch (loss 0.4416):  65%|██████▌   | 11102/16950 [2:00:08<54:14,  1.80it/s]Training 2/3 epoch (loss 0.4416):  66%|██████▌   | 11103/16950 [2:00:08<50:15,  1.94it/s]Training 2/3 epoch (loss 0.1203):  66%|██████▌   | 11103/16950 [2:00:09<50:15,  1.94it/s]Training 2/3 epoch (loss 0.1203):  66%|██████▌   | 11104/16950 [2:00:09<45:30,  2.14it/s]Training 2/3 epoch (loss 0.0004):  66%|██████▌   | 11104/16950 [2:00:09<45:30,  2.14it/s]Training 2/3 epoch (loss 0.0004):  66%|██████▌   | 11105/16950 [2:00:09<47:38,  2.04it/s]Training 2/3 epoch (loss 0.2821):  66%|██████▌   | 11105/16950 [2:00:10<47:38,  2.04it/s]Training 2/3 epoch (loss 0.2821):  66%|██████▌   | 11106/16950 [2:00:10<51:10,  1.90it/s]Training 2/3 epoch (loss 0.2570):  66%|██████▌   | 11106/16950 [2:00:10<51:10,  1.90it/s]Training 2/3 epoch (loss 0.2570):  66%|██████▌   | 11107/16950 [2:00:10<52:12,  1.87it/s]Training 2/3 epoch (loss 0.0567):  66%|██████▌   | 11107/16950 [2:00:11<52:12,  1.87it/s]Training 2/3 epoch (loss 0.0567):  66%|██████▌   | 11108/16950 [2:00:11<54:57,  1.77it/s]Training 2/3 epoch (loss 0.3991):  66%|██████▌   | 11108/16950 [2:00:12<54:57,  1.77it/s]Training 2/3 epoch (loss 0.3991):  66%|██████▌   | 11109/16950 [2:00:12<55:10,  1.76it/s]Training 2/3 epoch (loss 0.3742):  66%|██████▌   | 11109/16950 [2:00:12<55:10,  1.76it/s]Training 2/3 epoch (loss 0.3742):  66%|██████▌   | 11110/16950 [2:00:12<53:41,  1.81it/s]Training 2/3 epoch (loss 0.0002):  66%|██████▌   | 11110/16950 [2:00:13<53:41,  1.81it/s]Training 2/3 epoch (loss 0.0002):  66%|██████▌   | 11111/16950 [2:00:13<53:46,  1.81it/s]Training 2/3 epoch (loss 0.0224):  66%|██████▌   | 11111/16950 [2:00:13<53:46,  1.81it/s]Training 2/3 epoch (loss 0.0224):  66%|██████▌   | 11112/16950 [2:00:13<57:34,  1.69it/s]Training 2/3 epoch (loss 0.0427):  66%|██████▌   | 11112/16950 [2:00:14<57:34,  1.69it/s]Training 2/3 epoch (loss 0.0427):  66%|██████▌   | 11113/16950 [2:00:14<1:03:29,  1.53it/s]Training 2/3 epoch (loss 0.0710):  66%|██████▌   | 11113/16950 [2:00:15<1:03:29,  1.53it/s]Training 2/3 epoch (loss 0.0710):  66%|██████▌   | 11114/16950 [2:00:15<1:03:25,  1.53it/s]Training 2/3 epoch (loss 0.4155):  66%|██████▌   | 11114/16950 [2:00:15<1:03:25,  1.53it/s]Training 2/3 epoch (loss 0.4155):  66%|██████▌   | 11115/16950 [2:00:15<58:16,  1.67it/s]  Training 2/3 epoch (loss 0.0014):  66%|██████▌   | 11115/16950 [2:00:16<58:16,  1.67it/s]Training 2/3 epoch (loss 0.0014):  66%|██████▌   | 11116/16950 [2:00:16<56:42,  1.71it/s]Training 2/3 epoch (loss 0.0389):  66%|██████▌   | 11116/16950 [2:00:17<56:42,  1.71it/s]Training 2/3 epoch (loss 0.0389):  66%|██████▌   | 11117/16950 [2:00:17<1:01:15,  1.59it/s]Training 2/3 epoch (loss 0.0048):  66%|██████▌   | 11117/16950 [2:00:17<1:01:15,  1.59it/s]Training 2/3 epoch (loss 0.0048):  66%|██████▌   | 11118/16950 [2:00:17<1:01:52,  1.57it/s]Training 2/3 epoch (loss 0.3292):  66%|██████▌   | 11118/16950 [2:00:18<1:01:52,  1.57it/s]Training 2/3 epoch (loss 0.3292):  66%|██████▌   | 11119/16950 [2:00:18<59:27,  1.63it/s]  Training 2/3 epoch (loss 0.3267):  66%|██████▌   | 11119/16950 [2:00:18<59:27,  1.63it/s]Training 2/3 epoch (loss 0.3267):  66%|██████▌   | 11120/16950 [2:00:18<53:12,  1.83it/s]Training 2/3 epoch (loss 0.4053):  66%|██████▌   | 11120/16950 [2:00:19<53:12,  1.83it/s]Training 2/3 epoch (loss 0.4053):  66%|██████▌   | 11121/16950 [2:00:19<1:08:49,  1.41it/s]Training 2/3 epoch (loss 0.0045):  66%|██████▌   | 11121/16950 [2:00:20<1:08:49,  1.41it/s]Training 2/3 epoch (loss 0.0045):  66%|██████▌   | 11122/16950 [2:00:20<1:05:27,  1.48it/s]Training 2/3 epoch (loss 0.4026):  66%|██████▌   | 11122/16950 [2:00:20<1:05:27,  1.48it/s]Training 2/3 epoch (loss 0.4026):  66%|██████▌   | 11123/16950 [2:00:20<58:22,  1.66it/s]  Training 2/3 epoch (loss 0.3498):  66%|██████▌   | 11123/16950 [2:00:21<58:22,  1.66it/s]Training 2/3 epoch (loss 0.3498):  66%|██████▌   | 11124/16950 [2:00:21<50:04,  1.94it/s]Training 2/3 epoch (loss 0.6412):  66%|██████▌   | 11124/16950 [2:00:22<50:04,  1.94it/s]Training 2/3 epoch (loss 0.6412):  66%|██████▌   | 11125/16950 [2:00:22<1:03:55,  1.52it/s]Training 2/3 epoch (loss 0.2531):  66%|██████▌   | 11125/16950 [2:00:22<1:03:55,  1.52it/s]Training 2/3 epoch (loss 0.2531):  66%|██████▌   | 11126/16950 [2:00:22<1:00:30,  1.60it/s]Training 2/3 epoch (loss 0.0024):  66%|██████▌   | 11126/16950 [2:00:22<1:00:30,  1.60it/s]Training 2/3 epoch (loss 0.0024):  66%|██████▌   | 11127/16950 [2:00:22<53:18,  1.82it/s]  Training 2/3 epoch (loss 0.5881):  66%|██████▌   | 11127/16950 [2:00:23<53:18,  1.82it/s]Training 2/3 epoch (loss 0.5881):  66%|██████▌   | 11128/16950 [2:00:23<57:41,  1.68it/s]Training 2/3 epoch (loss 0.0062):  66%|██████▌   | 11128/16950 [2:00:24<57:41,  1.68it/s]Training 2/3 epoch (loss 0.0062):  66%|██████▌   | 11129/16950 [2:00:24<55:09,  1.76it/s]Training 2/3 epoch (loss 0.5631):  66%|██████▌   | 11129/16950 [2:00:25<55:09,  1.76it/s]Training 2/3 epoch (loss 0.5631):  66%|██████▌   | 11130/16950 [2:00:25<1:09:20,  1.40it/s]Training 2/3 epoch (loss 0.0189):  66%|██████▌   | 11130/16950 [2:00:26<1:09:20,  1.40it/s]Training 2/3 epoch (loss 0.0189):  66%|██████▌   | 11131/16950 [2:00:26<1:16:55,  1.26it/s]Training 2/3 epoch (loss 0.6895):  66%|██████▌   | 11131/16950 [2:00:26<1:16:55,  1.26it/s]Training 2/3 epoch (loss 0.6895):  66%|██████▌   | 11132/16950 [2:00:26<1:09:29,  1.40it/s]Training 2/3 epoch (loss 0.0025):  66%|██████▌   | 11132/16950 [2:00:27<1:09:29,  1.40it/s]Training 2/3 epoch (loss 0.0025):  66%|██████▌   | 11133/16950 [2:00:27<1:04:01,  1.51it/s]Training 2/3 epoch (loss 0.4536):  66%|██████▌   | 11133/16950 [2:00:27<1:04:01,  1.51it/s]Training 2/3 epoch (loss 0.4536):  66%|██████▌   | 11134/16950 [2:00:27<57:22,  1.69it/s]  Training 2/3 epoch (loss 0.0053):  66%|██████▌   | 11134/16950 [2:00:28<57:22,  1.69it/s]Training 2/3 epoch (loss 0.0053):  66%|██████▌   | 11135/16950 [2:00:28<53:20,  1.82it/s]Training 2/3 epoch (loss 0.0367):  66%|██████▌   | 11135/16950 [2:00:28<53:20,  1.82it/s]Training 2/3 epoch (loss 0.0367):  66%|██████▌   | 11136/16950 [2:00:28<53:17,  1.82it/s]Training 2/3 epoch (loss 0.5287):  66%|██████▌   | 11136/16950 [2:00:29<53:17,  1.82it/s]Training 2/3 epoch (loss 0.5287):  66%|██████▌   | 11137/16950 [2:00:29<50:06,  1.93it/s]Training 2/3 epoch (loss 0.0087):  66%|██████▌   | 11137/16950 [2:00:29<50:06,  1.93it/s]Training 2/3 epoch (loss 0.0087):  66%|██████▌   | 11138/16950 [2:00:29<47:17,  2.05it/s]Training 2/3 epoch (loss 0.0257):  66%|██████▌   | 11138/16950 [2:00:30<47:17,  2.05it/s]Training 2/3 epoch (loss 0.0257):  66%|██████▌   | 11139/16950 [2:00:30<47:57,  2.02it/s]Training 2/3 epoch (loss 0.4597):  66%|██████▌   | 11139/16950 [2:00:30<47:57,  2.02it/s]Training 2/3 epoch (loss 0.4597):  66%|██████▌   | 11140/16950 [2:00:30<45:50,  2.11it/s]Training 2/3 epoch (loss 0.0079):  66%|██████▌   | 11140/16950 [2:00:30<45:50,  2.11it/s]Training 2/3 epoch (loss 0.0079):  66%|██████▌   | 11141/16950 [2:00:30<45:15,  2.14it/s]Training 2/3 epoch (loss 0.3549):  66%|██████▌   | 11141/16950 [2:00:31<45:15,  2.14it/s]Training 2/3 epoch (loss 0.3549):  66%|██████▌   | 11142/16950 [2:00:31<55:37,  1.74it/s]Training 2/3 epoch (loss 0.0470):  66%|██████▌   | 11142/16950 [2:00:32<55:37,  1.74it/s]Training 2/3 epoch (loss 0.0470):  66%|██████▌   | 11143/16950 [2:00:32<51:25,  1.88it/s]Training 2/3 epoch (loss 0.0209):  66%|██████▌   | 11143/16950 [2:00:33<51:25,  1.88it/s]Training 2/3 epoch (loss 0.0209):  66%|██████▌   | 11144/16950 [2:00:33<1:00:26,  1.60it/s]Training 2/3 epoch (loss 0.0272):  66%|██████▌   | 11144/16950 [2:00:34<1:00:26,  1.60it/s]Training 2/3 epoch (loss 0.0272):  66%|██████▌   | 11145/16950 [2:00:34<1:11:47,  1.35it/s]Training 2/3 epoch (loss 0.1877):  66%|██████▌   | 11145/16950 [2:00:35<1:11:47,  1.35it/s]Training 2/3 epoch (loss 0.1877):  66%|██████▌   | 11146/16950 [2:00:35<1:22:09,  1.18it/s]Training 2/3 epoch (loss 0.1800):  66%|██████▌   | 11146/16950 [2:00:35<1:22:09,  1.18it/s]Training 2/3 epoch (loss 0.1800):  66%|██████▌   | 11147/16950 [2:00:35<1:14:11,  1.30it/s]Training 2/3 epoch (loss 0.0474):  66%|██████▌   | 11147/16950 [2:00:36<1:14:11,  1.30it/s]Training 2/3 epoch (loss 0.0474):  66%|██████▌   | 11148/16950 [2:00:36<1:11:32,  1.35it/s]Training 2/3 epoch (loss 0.2571):  66%|██████▌   | 11148/16950 [2:00:37<1:11:32,  1.35it/s]Training 2/3 epoch (loss 0.2571):  66%|██████▌   | 11149/16950 [2:00:37<1:15:46,  1.28it/s]Training 2/3 epoch (loss 0.3475):  66%|██████▌   | 11149/16950 [2:00:37<1:15:46,  1.28it/s]Training 2/3 epoch (loss 0.3475):  66%|██████▌   | 11150/16950 [2:00:37<1:07:48,  1.43it/s]Training 2/3 epoch (loss 0.0278):  66%|██████▌   | 11150/16950 [2:00:38<1:07:48,  1.43it/s]Training 2/3 epoch (loss 0.0278):  66%|██████▌   | 11151/16950 [2:00:38<1:10:00,  1.38it/s]Training 2/3 epoch (loss 0.0004):  66%|██████▌   | 11151/16950 [2:00:39<1:10:00,  1.38it/s]Training 2/3 epoch (loss 0.0004):  66%|██████▌   | 11152/16950 [2:00:39<1:09:47,  1.38it/s]Training 2/3 epoch (loss 0.1061):  66%|██████▌   | 11152/16950 [2:00:39<1:09:47,  1.38it/s]Training 2/3 epoch (loss 0.1061):  66%|██████▌   | 11153/16950 [2:00:39<1:08:09,  1.42it/s]Training 2/3 epoch (loss 0.0034):  66%|██████▌   | 11153/16950 [2:00:40<1:08:09,  1.42it/s]Training 2/3 epoch (loss 0.0034):  66%|██████▌   | 11154/16950 [2:00:40<1:04:36,  1.50it/s]Training 2/3 epoch (loss 0.3355):  66%|██████▌   | 11154/16950 [2:00:41<1:04:36,  1.50it/s]Training 2/3 epoch (loss 0.3355):  66%|██████▌   | 11155/16950 [2:00:41<1:04:29,  1.50it/s]Training 2/3 epoch (loss 0.0000):  66%|██████▌   | 11155/16950 [2:00:41<1:04:29,  1.50it/s]Training 2/3 epoch (loss 0.0000):  66%|██████▌   | 11156/16950 [2:00:41<59:03,  1.64it/s]  Training 2/3 epoch (loss 0.0916):  66%|██████▌   | 11156/16950 [2:00:42<59:03,  1.64it/s]Training 2/3 epoch (loss 0.0916):  66%|██████▌   | 11157/16950 [2:00:42<58:13,  1.66it/s]Training 2/3 epoch (loss 0.3742):  66%|██████▌   | 11157/16950 [2:00:42<58:13,  1.66it/s]Training 2/3 epoch (loss 0.3742):  66%|██████▌   | 11158/16950 [2:00:42<54:42,  1.76it/s]Training 2/3 epoch (loss 0.0174):  66%|██████▌   | 11158/16950 [2:00:43<54:42,  1.76it/s]Training 2/3 epoch (loss 0.0174):  66%|██████▌   | 11159/16950 [2:00:43<52:12,  1.85it/s]Training 2/3 epoch (loss 0.0001):  66%|██████▌   | 11159/16950 [2:00:43<52:12,  1.85it/s]Training 2/3 epoch (loss 0.0001):  66%|██████▌   | 11160/16950 [2:00:43<51:43,  1.87it/s]Training 2/3 epoch (loss 0.0001):  66%|██████▌   | 11160/16950 [2:00:44<51:43,  1.87it/s]Training 2/3 epoch (loss 0.0001):  66%|██████▌   | 11161/16950 [2:00:44<49:45,  1.94it/s]Training 2/3 epoch (loss 0.3302):  66%|██████▌   | 11161/16950 [2:00:44<49:45,  1.94it/s]Training 2/3 epoch (loss 0.3302):  66%|██████▌   | 11162/16950 [2:00:44<46:36,  2.07it/s]Training 2/3 epoch (loss 0.0009):  66%|██████▌   | 11162/16950 [2:00:45<46:36,  2.07it/s]Training 2/3 epoch (loss 0.0009):  66%|██████▌   | 11163/16950 [2:00:45<1:03:47,  1.51it/s]Training 2/3 epoch (loss 0.0871):  66%|██████▌   | 11163/16950 [2:00:46<1:03:47,  1.51it/s]Training 2/3 epoch (loss 0.0871):  66%|██████▌   | 11164/16950 [2:00:46<1:08:36,  1.41it/s]Training 2/3 epoch (loss 0.0127):  66%|██████▌   | 11164/16950 [2:00:46<1:08:36,  1.41it/s]Training 2/3 epoch (loss 0.0127):  66%|██████▌   | 11165/16950 [2:00:46<58:40,  1.64it/s]  Training 2/3 epoch (loss 0.0196):  66%|██████▌   | 11165/16950 [2:00:47<58:40,  1.64it/s]Training 2/3 epoch (loss 0.0196):  66%|██████▌   | 11166/16950 [2:00:47<1:01:24,  1.57it/s]Training 2/3 epoch (loss 0.0165):  66%|██████▌   | 11166/16950 [2:00:48<1:01:24,  1.57it/s]Training 2/3 epoch (loss 0.0165):  66%|██████▌   | 11167/16950 [2:00:48<1:01:48,  1.56it/s]Training 2/3 epoch (loss 0.6271):  66%|██████▌   | 11167/16950 [2:00:48<1:01:48,  1.56it/s]Training 2/3 epoch (loss 0.6271):  66%|██████▌   | 11168/16950 [2:00:48<56:35,  1.70it/s]  Training 2/3 epoch (loss 0.6405):  66%|██████▌   | 11168/16950 [2:00:49<56:35,  1.70it/s]Training 2/3 epoch (loss 0.6405):  66%|██████▌   | 11169/16950 [2:00:49<57:26,  1.68it/s]Training 2/3 epoch (loss 0.0067):  66%|██████▌   | 11169/16950 [2:00:49<57:26,  1.68it/s]Training 2/3 epoch (loss 0.0067):  66%|██████▌   | 11170/16950 [2:00:49<55:06,  1.75it/s]Training 2/3 epoch (loss 0.0052):  66%|██████▌   | 11170/16950 [2:00:50<55:06,  1.75it/s]Training 2/3 epoch (loss 0.0052):  66%|██████▌   | 11171/16950 [2:00:50<56:33,  1.70it/s]Training 2/3 epoch (loss 0.2058):  66%|██████▌   | 11171/16950 [2:00:50<56:33,  1.70it/s]Training 2/3 epoch (loss 0.2058):  66%|██████▌   | 11172/16950 [2:00:50<52:14,  1.84it/s]Training 2/3 epoch (loss 0.0166):  66%|██████▌   | 11172/16950 [2:00:51<52:14,  1.84it/s]Training 2/3 epoch (loss 0.0166):  66%|██████▌   | 11173/16950 [2:00:51<49:48,  1.93it/s]Training 2/3 epoch (loss 0.3791):  66%|██████▌   | 11173/16950 [2:00:52<49:48,  1.93it/s]Training 2/3 epoch (loss 0.3791):  66%|██████▌   | 11174/16950 [2:00:52<53:05,  1.81it/s]Training 2/3 epoch (loss 0.0103):  66%|██████▌   | 11174/16950 [2:00:52<53:05,  1.81it/s]Training 2/3 epoch (loss 0.0103):  66%|██████▌   | 11175/16950 [2:00:52<58:08,  1.66it/s]Training 2/3 epoch (loss 0.8312):  66%|██████▌   | 11175/16950 [2:00:53<58:08,  1.66it/s]Training 2/3 epoch (loss 0.8312):  66%|██████▌   | 11176/16950 [2:00:53<54:48,  1.76it/s]Training 2/3 epoch (loss 0.0265):  66%|██████▌   | 11176/16950 [2:00:54<54:48,  1.76it/s]Training 2/3 epoch (loss 0.0265):  66%|██████▌   | 11177/16950 [2:00:54<1:00:59,  1.58it/s]Training 2/3 epoch (loss 0.0322):  66%|██████▌   | 11177/16950 [2:00:54<1:00:59,  1.58it/s]Training 2/3 epoch (loss 0.0322):  66%|██████▌   | 11178/16950 [2:00:54<1:03:12,  1.52it/s]Training 2/3 epoch (loss 0.4093):  66%|██████▌   | 11178/16950 [2:00:55<1:03:12,  1.52it/s]Training 2/3 epoch (loss 0.4093):  66%|██████▌   | 11179/16950 [2:00:55<1:06:15,  1.45it/s]Training 2/3 epoch (loss 0.1318):  66%|██████▌   | 11179/16950 [2:00:55<1:06:15,  1.45it/s]Training 2/3 epoch (loss 0.1318):  66%|██████▌   | 11180/16950 [2:00:55<1:01:17,  1.57it/s]Training 2/3 epoch (loss 0.4339):  66%|██████▌   | 11180/16950 [2:00:56<1:01:17,  1.57it/s]Training 2/3 epoch (loss 0.4339):  66%|██████▌   | 11181/16950 [2:00:56<1:10:12,  1.37it/s]Training 2/3 epoch (loss 0.0110):  66%|██████▌   | 11181/16950 [2:00:57<1:10:12,  1.37it/s]Training 2/3 epoch (loss 0.0110):  66%|██████▌   | 11182/16950 [2:00:57<1:08:27,  1.40it/s]Training 2/3 epoch (loss 0.4444):  66%|██████▌   | 11182/16950 [2:00:58<1:08:27,  1.40it/s]Training 2/3 epoch (loss 0.4444):  66%|██████▌   | 11183/16950 [2:00:58<1:01:13,  1.57it/s]Training 2/3 epoch (loss 0.0082):  66%|██████▌   | 11183/16950 [2:00:58<1:01:13,  1.57it/s]Training 2/3 epoch (loss 0.0082):  66%|██████▌   | 11184/16950 [2:00:58<56:44,  1.69it/s]  Training 2/3 epoch (loss 0.1243):  66%|██████▌   | 11184/16950 [2:00:59<56:44,  1.69it/s]Training 2/3 epoch (loss 0.1243):  66%|██████▌   | 11185/16950 [2:00:59<54:02,  1.78it/s]Training 2/3 epoch (loss 0.0354):  66%|██████▌   | 11185/16950 [2:01:00<54:02,  1.78it/s]Training 2/3 epoch (loss 0.0354):  66%|██████▌   | 11186/16950 [2:01:00<1:07:49,  1.42it/s]Training 2/3 epoch (loss 0.1930):  66%|██████▌   | 11186/16950 [2:01:00<1:07:49,  1.42it/s]Training 2/3 epoch (loss 0.1930):  66%|██████▌   | 11187/16950 [2:01:00<1:03:11,  1.52it/s]Training 2/3 epoch (loss 0.2054):  66%|██████▌   | 11187/16950 [2:01:01<1:03:11,  1.52it/s]Training 2/3 epoch (loss 0.2054):  66%|██████▌   | 11188/16950 [2:01:01<1:08:48,  1.40it/s]Training 2/3 epoch (loss 0.0020):  66%|██████▌   | 11188/16950 [2:01:02<1:08:48,  1.40it/s]Training 2/3 epoch (loss 0.0020):  66%|██████▌   | 11189/16950 [2:01:02<1:03:10,  1.52it/s]Training 2/3 epoch (loss 0.0316):  66%|██████▌   | 11189/16950 [2:01:02<1:03:10,  1.52it/s]Training 2/3 epoch (loss 0.0316):  66%|██████▌   | 11190/16950 [2:01:02<59:44,  1.61it/s]  Training 2/3 epoch (loss 0.0003):  66%|██████▌   | 11190/16950 [2:01:03<59:44,  1.61it/s]Training 2/3 epoch (loss 0.0003):  66%|██████▌   | 11191/16950 [2:01:03<56:53,  1.69it/s]Training 2/3 epoch (loss 0.0001):  66%|██████▌   | 11191/16950 [2:01:03<56:53,  1.69it/s]Training 2/3 epoch (loss 0.0001):  66%|██████▌   | 11192/16950 [2:01:03<53:26,  1.80it/s]Training 2/3 epoch (loss 0.0221):  66%|██████▌   | 11192/16950 [2:01:04<53:26,  1.80it/s]Training 2/3 epoch (loss 0.0221):  66%|██████▌   | 11193/16950 [2:01:04<52:25,  1.83it/s]Training 2/3 epoch (loss 0.2078):  66%|██████▌   | 11193/16950 [2:01:04<52:25,  1.83it/s]Training 2/3 epoch (loss 0.2078):  66%|██████▌   | 11194/16950 [2:01:04<56:29,  1.70it/s]Training 2/3 epoch (loss 0.0060):  66%|██████▌   | 11194/16950 [2:01:05<56:29,  1.70it/s]Training 2/3 epoch (loss 0.0060):  66%|██████▌   | 11195/16950 [2:01:05<1:07:34,  1.42it/s]Training 2/3 epoch (loss 0.1468):  66%|██████▌   | 11195/16950 [2:01:06<1:07:34,  1.42it/s]Training 2/3 epoch (loss 0.1468):  66%|██████▌   | 11196/16950 [2:01:06<1:02:55,  1.52it/s]Training 2/3 epoch (loss 0.1270):  66%|██████▌   | 11196/16950 [2:01:06<1:02:55,  1.52it/s]Training 2/3 epoch (loss 0.1270):  66%|██████▌   | 11197/16950 [2:01:06<58:08,  1.65it/s]  Training 2/3 epoch (loss 0.2800):  66%|██████▌   | 11197/16950 [2:01:07<58:08,  1.65it/s]Training 2/3 epoch (loss 0.2800):  66%|██████▌   | 11198/16950 [2:01:07<51:32,  1.86it/s]Training 2/3 epoch (loss 0.0049):  66%|██████▌   | 11198/16950 [2:01:07<51:32,  1.86it/s]Training 2/3 epoch (loss 0.0049):  66%|██████▌   | 11199/16950 [2:01:07<59:38,  1.61it/s]Training 2/3 epoch (loss 0.3106):  66%|██████▌   | 11199/16950 [2:01:08<59:38,  1.61it/s]Training 2/3 epoch (loss 0.3106):  66%|██████▌   | 11200/16950 [2:01:08<52:13,  1.83it/s]Training 2/3 epoch (loss 0.0562):  66%|██████▌   | 11200/16950 [2:01:09<52:13,  1.83it/s]Training 2/3 epoch (loss 0.0562):  66%|██████▌   | 11201/16950 [2:01:09<1:00:53,  1.57it/s]Training 2/3 epoch (loss 0.4077):  66%|██████▌   | 11201/16950 [2:01:09<1:00:53,  1.57it/s]Training 2/3 epoch (loss 0.4077):  66%|██████▌   | 11202/16950 [2:01:09<55:27,  1.73it/s]  Training 2/3 epoch (loss 0.0121):  66%|██████▌   | 11202/16950 [2:01:10<55:27,  1.73it/s]Training 2/3 epoch (loss 0.0121):  66%|██████▌   | 11203/16950 [2:01:10<57:16,  1.67it/s]Training 2/3 epoch (loss 0.1436):  66%|██████▌   | 11203/16950 [2:01:10<57:16,  1.67it/s]Training 2/3 epoch (loss 0.1436):  66%|██████▌   | 11204/16950 [2:01:10<54:30,  1.76it/s]Training 2/3 epoch (loss 0.0133):  66%|██████▌   | 11204/16950 [2:01:11<54:30,  1.76it/s]Training 2/3 epoch (loss 0.0133):  66%|██████▌   | 11205/16950 [2:01:11<53:36,  1.79it/s]Training 2/3 epoch (loss 0.2330):  66%|██████▌   | 11205/16950 [2:01:11<53:36,  1.79it/s]Training 2/3 epoch (loss 0.2330):  66%|██████▌   | 11206/16950 [2:01:11<56:54,  1.68it/s]Training 2/3 epoch (loss 0.0058):  66%|██████▌   | 11206/16950 [2:01:12<56:54,  1.68it/s]Training 2/3 epoch (loss 0.0058):  66%|██████▌   | 11207/16950 [2:01:12<57:46,  1.66it/s]Training 2/3 epoch (loss 0.6384):  66%|██████▌   | 11207/16950 [2:01:12<57:46,  1.66it/s]Training 2/3 epoch (loss 0.6384):  66%|██████▌   | 11208/16950 [2:01:12<49:17,  1.94it/s]Training 2/3 epoch (loss 0.0231):  66%|██████▌   | 11208/16950 [2:01:13<49:17,  1.94it/s]Training 2/3 epoch (loss 0.0231):  66%|██████▌   | 11209/16950 [2:01:13<53:52,  1.78it/s]Training 2/3 epoch (loss 0.0034):  66%|██████▌   | 11209/16950 [2:01:14<53:52,  1.78it/s]Training 2/3 epoch (loss 0.0034):  66%|██████▌   | 11210/16950 [2:01:14<50:10,  1.91it/s]Training 2/3 epoch (loss 0.0075):  66%|██████▌   | 11210/16950 [2:01:14<50:10,  1.91it/s]Training 2/3 epoch (loss 0.0075):  66%|██████▌   | 11211/16950 [2:01:14<51:46,  1.85it/s]Training 2/3 epoch (loss 0.0113):  66%|██████▌   | 11211/16950 [2:01:15<51:46,  1.85it/s]Training 2/3 epoch (loss 0.0113):  66%|██████▌   | 11212/16950 [2:01:15<53:46,  1.78it/s]Training 2/3 epoch (loss 0.3060):  66%|██████▌   | 11212/16950 [2:01:15<53:46,  1.78it/s]Training 2/3 epoch (loss 0.3060):  66%|██████▌   | 11213/16950 [2:01:15<50:03,  1.91it/s]Training 2/3 epoch (loss 0.5270):  66%|██████▌   | 11213/16950 [2:01:16<50:03,  1.91it/s]Training 2/3 epoch (loss 0.5270):  66%|██████▌   | 11214/16950 [2:01:16<46:54,  2.04it/s]Training 2/3 epoch (loss 0.0006):  66%|██████▌   | 11214/16950 [2:01:16<46:54,  2.04it/s]Training 2/3 epoch (loss 0.0006):  66%|██████▌   | 11215/16950 [2:01:16<44:56,  2.13it/s]Training 2/3 epoch (loss 0.5278):  66%|██████▌   | 11215/16950 [2:01:17<44:56,  2.13it/s]Training 2/3 epoch (loss 0.5278):  66%|██████▌   | 11216/16950 [2:01:17<49:40,  1.92it/s]Training 2/3 epoch (loss 0.0355):  66%|██████▌   | 11216/16950 [2:01:17<49:40,  1.92it/s]Training 2/3 epoch (loss 0.0355):  66%|██████▌   | 11217/16950 [2:01:17<48:53,  1.95it/s]Training 2/3 epoch (loss 0.0024):  66%|██████▌   | 11217/16950 [2:01:18<48:53,  1.95it/s]Training 2/3 epoch (loss 0.0024):  66%|██████▌   | 11218/16950 [2:01:18<51:27,  1.86it/s]Training 2/3 epoch (loss 0.0137):  66%|██████▌   | 11218/16950 [2:01:19<51:27,  1.86it/s]Training 2/3 epoch (loss 0.0137):  66%|██████▌   | 11219/16950 [2:01:19<1:07:57,  1.41it/s]Training 2/3 epoch (loss 0.0012):  66%|██████▌   | 11219/16950 [2:01:19<1:07:57,  1.41it/s]Training 2/3 epoch (loss 0.0012):  66%|██████▌   | 11220/16950 [2:01:19<1:05:49,  1.45it/s]Training 2/3 epoch (loss 0.0257):  66%|██████▌   | 11220/16950 [2:01:20<1:05:49,  1.45it/s]Training 2/3 epoch (loss 0.0257):  66%|██████▌   | 11221/16950 [2:01:20<1:00:55,  1.57it/s]Training 2/3 epoch (loss 0.0107):  66%|██████▌   | 11221/16950 [2:01:20<1:00:55,  1.57it/s]Training 2/3 epoch (loss 0.0107):  66%|██████▌   | 11222/16950 [2:01:20<54:24,  1.75it/s]  Training 2/3 epoch (loss 0.0002):  66%|██████▌   | 11222/16950 [2:01:21<54:24,  1.75it/s]Training 2/3 epoch (loss 0.0002):  66%|██████▌   | 11223/16950 [2:01:21<53:23,  1.79it/s]Training 2/3 epoch (loss 0.0008):  66%|██████▌   | 11223/16950 [2:01:21<53:23,  1.79it/s]Training 2/3 epoch (loss 0.0008):  66%|██████▌   | 11224/16950 [2:01:21<52:20,  1.82it/s]Training 2/3 epoch (loss 0.2015):  66%|██████▌   | 11224/16950 [2:01:22<52:20,  1.82it/s]Training 2/3 epoch (loss 0.2015):  66%|██████▌   | 11225/16950 [2:01:22<56:14,  1.70it/s]Training 2/3 epoch (loss 0.3018):  66%|██████▌   | 11225/16950 [2:01:23<56:14,  1.70it/s]Training 2/3 epoch (loss 0.3018):  66%|██████▌   | 11226/16950 [2:01:23<57:31,  1.66it/s]Training 2/3 epoch (loss 0.0006):  66%|██████▌   | 11226/16950 [2:01:23<57:31,  1.66it/s]Training 2/3 epoch (loss 0.0006):  66%|██████▌   | 11227/16950 [2:01:23<58:46,  1.62it/s]Training 2/3 epoch (loss 0.0131):  66%|██████▌   | 11227/16950 [2:01:24<58:46,  1.62it/s]Training 2/3 epoch (loss 0.0131):  66%|██████▌   | 11228/16950 [2:01:24<59:09,  1.61it/s]Training 2/3 epoch (loss nan):  66%|██████▌   | 11228/16950 [2:01:25<59:09,  1.61it/s]   Training 2/3 epoch (loss nan):  66%|██████▌   | 11229/16950 [2:01:25<1:13:04,  1.30it/s]Training 2/3 epoch (loss 0.4184):  66%|██████▌   | 11229/16950 [2:01:26<1:13:04,  1.30it/s]Training 2/3 epoch (loss 0.4184):  66%|██████▋   | 11230/16950 [2:01:26<1:01:08,  1.56it/s]Training 2/3 epoch (loss 0.0702):  66%|██████▋   | 11230/16950 [2:01:26<1:01:08,  1.56it/s]Training 2/3 epoch (loss 0.0702):  66%|██████▋   | 11231/16950 [2:01:26<55:56,  1.70it/s]  Training 2/3 epoch (loss 0.5835):  66%|██████▋   | 11231/16950 [2:01:26<55:56,  1.70it/s]Training 2/3 epoch (loss 0.5835):  66%|██████▋   | 11232/16950 [2:01:26<52:21,  1.82it/s]Training 2/3 epoch (loss 0.0009):  66%|██████▋   | 11232/16950 [2:01:27<52:21,  1.82it/s]Training 2/3 epoch (loss 0.0009):  66%|██████▋   | 11233/16950 [2:01:27<52:03,  1.83it/s]Training 2/3 epoch (loss 0.0913):  66%|██████▋   | 11233/16950 [2:01:28<52:03,  1.83it/s]Training 2/3 epoch (loss 0.0913):  66%|██████▋   | 11234/16950 [2:01:28<1:01:45,  1.54it/s]Training 2/3 epoch (loss 0.0809):  66%|██████▋   | 11234/16950 [2:01:28<1:01:45,  1.54it/s]Training 2/3 epoch (loss 0.0809):  66%|██████▋   | 11235/16950 [2:01:28<59:53,  1.59it/s]  Training 2/3 epoch (loss 0.0043):  66%|██████▋   | 11235/16950 [2:01:29<59:53,  1.59it/s]Training 2/3 epoch (loss 0.0043):  66%|██████▋   | 11236/16950 [2:01:29<59:13,  1.61it/s]Training 2/3 epoch (loss 0.0206):  66%|██████▋   | 11236/16950 [2:01:30<59:13,  1.61it/s]Training 2/3 epoch (loss 0.0206):  66%|██████▋   | 11237/16950 [2:01:30<56:13,  1.69it/s]Training 2/3 epoch (loss 0.4967):  66%|██████▋   | 11237/16950 [2:01:30<56:13,  1.69it/s]Training 2/3 epoch (loss 0.4967):  66%|██████▋   | 11238/16950 [2:01:30<55:46,  1.71it/s]Training 2/3 epoch (loss 0.0004):  66%|██████▋   | 11238/16950 [2:01:31<55:46,  1.71it/s]Training 2/3 epoch (loss 0.0004):  66%|██████▋   | 11239/16950 [2:01:31<54:31,  1.75it/s]Training 2/3 epoch (loss 0.0205):  66%|██████▋   | 11239/16950 [2:01:31<54:31,  1.75it/s]Training 2/3 epoch (loss 0.0205):  66%|██████▋   | 11240/16950 [2:01:31<47:54,  1.99it/s]Training 2/3 epoch (loss 0.0427):  66%|██████▋   | 11240/16950 [2:01:31<47:54,  1.99it/s]Training 2/3 epoch (loss 0.0427):  66%|██████▋   | 11241/16950 [2:01:31<45:58,  2.07it/s]Training 2/3 epoch (loss 1.0526):  66%|██████▋   | 11241/16950 [2:01:33<45:58,  2.07it/s]Training 2/3 epoch (loss 1.0526):  66%|██████▋   | 11242/16950 [2:01:33<1:05:37,  1.45it/s]Training 2/3 epoch (loss 0.0001):  66%|██████▋   | 11242/16950 [2:01:33<1:05:37,  1.45it/s]Training 2/3 epoch (loss 0.0001):  66%|██████▋   | 11243/16950 [2:01:33<1:00:49,  1.56it/s]Training 2/3 epoch (loss 0.8212):  66%|██████▋   | 11243/16950 [2:01:34<1:00:49,  1.56it/s]Training 2/3 epoch (loss 0.8212):  66%|██████▋   | 11244/16950 [2:01:34<55:35,  1.71it/s]  Training 2/3 epoch (loss 0.0125):  66%|██████▋   | 11244/16950 [2:01:34<55:35,  1.71it/s]Training 2/3 epoch (loss 0.0125):  66%|██████▋   | 11245/16950 [2:01:34<51:08,  1.86it/s]Training 2/3 epoch (loss 0.0004):  66%|██████▋   | 11245/16950 [2:01:35<51:08,  1.86it/s]Training 2/3 epoch (loss 0.0004):  66%|██████▋   | 11246/16950 [2:01:35<51:34,  1.84it/s]Training 2/3 epoch (loss 0.0021):  66%|██████▋   | 11246/16950 [2:01:35<51:34,  1.84it/s]Training 2/3 epoch (loss 0.0021):  66%|██████▋   | 11247/16950 [2:01:35<51:09,  1.86it/s]Training 2/3 epoch (loss 0.3755):  66%|██████▋   | 11247/16950 [2:01:36<51:09,  1.86it/s]Training 2/3 epoch (loss 0.3755):  66%|██████▋   | 11248/16950 [2:01:36<56:43,  1.68it/s]Training 2/3 epoch (loss 0.3253):  66%|██████▋   | 11248/16950 [2:01:36<56:43,  1.68it/s]Training 2/3 epoch (loss 0.3253):  66%|██████▋   | 11249/16950 [2:01:36<50:53,  1.87it/s]Training 2/3 epoch (loss 1.0764):  66%|██████▋   | 11249/16950 [2:01:37<50:53,  1.87it/s]Training 2/3 epoch (loss 1.0764):  66%|██████▋   | 11250/16950 [2:01:37<1:00:12,  1.58it/s]Training 2/3 epoch (loss 0.0005):  66%|██████▋   | 11250/16950 [2:01:38<1:00:12,  1.58it/s]Training 2/3 epoch (loss 0.0005):  66%|██████▋   | 11251/16950 [2:01:38<1:03:52,  1.49it/s]Training 2/3 epoch (loss 0.0647):  66%|██████▋   | 11251/16950 [2:01:38<1:03:52,  1.49it/s]Training 2/3 epoch (loss 0.0647):  66%|██████▋   | 11252/16950 [2:01:38<1:02:34,  1.52it/s]Training 2/3 epoch (loss 0.0946):  66%|██████▋   | 11252/16950 [2:01:39<1:02:34,  1.52it/s]Training 2/3 epoch (loss 0.0946):  66%|██████▋   | 11253/16950 [2:01:39<58:59,  1.61it/s]  Training 2/3 epoch (loss 0.0008):  66%|██████▋   | 11253/16950 [2:01:39<58:59,  1.61it/s]Training 2/3 epoch (loss 0.0008):  66%|██████▋   | 11254/16950 [2:01:39<49:56,  1.90it/s]Training 2/3 epoch (loss 0.5785):  66%|██████▋   | 11254/16950 [2:01:40<49:56,  1.90it/s]Training 2/3 epoch (loss 0.5785):  66%|██████▋   | 11255/16950 [2:01:40<51:53,  1.83it/s]Training 2/3 epoch (loss 0.0003):  66%|██████▋   | 11255/16950 [2:01:40<51:53,  1.83it/s]Training 2/3 epoch (loss 0.0003):  66%|██████▋   | 11256/16950 [2:01:40<48:41,  1.95it/s]Training 2/3 epoch (loss 0.5667):  66%|██████▋   | 11256/16950 [2:01:41<48:41,  1.95it/s]Training 2/3 epoch (loss 0.5667):  66%|██████▋   | 11257/16950 [2:01:41<51:00,  1.86it/s]Training 2/3 epoch (loss 0.6410):  66%|██████▋   | 11257/16950 [2:01:41<51:00,  1.86it/s]Training 2/3 epoch (loss 0.6410):  66%|██████▋   | 11258/16950 [2:01:41<45:00,  2.11it/s]Training 2/3 epoch (loss 0.0104):  66%|██████▋   | 11258/16950 [2:01:42<45:00,  2.11it/s]Training 2/3 epoch (loss 0.0104):  66%|██████▋   | 11259/16950 [2:01:42<53:06,  1.79it/s]Training 2/3 epoch (loss 0.0008):  66%|██████▋   | 11259/16950 [2:01:43<53:06,  1.79it/s]Training 2/3 epoch (loss 0.0008):  66%|██████▋   | 11260/16950 [2:01:43<55:15,  1.72it/s]Training 2/3 epoch (loss 0.2105):  66%|██████▋   | 11260/16950 [2:01:43<55:15,  1.72it/s]Training 2/3 epoch (loss 0.2105):  66%|██████▋   | 11261/16950 [2:01:43<51:20,  1.85it/s]Training 2/3 epoch (loss 0.0073):  66%|██████▋   | 11261/16950 [2:01:44<51:20,  1.85it/s]Training 2/3 epoch (loss 0.0073):  66%|██████▋   | 11262/16950 [2:01:44<52:22,  1.81it/s]Training 2/3 epoch (loss 0.5778):  66%|██████▋   | 11262/16950 [2:01:45<52:22,  1.81it/s]Training 2/3 epoch (loss 0.5778):  66%|██████▋   | 11263/16950 [2:01:45<1:02:43,  1.51it/s]Training 2/3 epoch (loss 0.0352):  66%|██████▋   | 11263/16950 [2:01:45<1:02:43,  1.51it/s]Training 2/3 epoch (loss 0.0352):  66%|██████▋   | 11264/16950 [2:01:45<1:00:37,  1.56it/s]Training 2/3 epoch (loss 0.0005):  66%|██████▋   | 11264/16950 [2:01:46<1:00:37,  1.56it/s]Training 2/3 epoch (loss 0.0005):  66%|██████▋   | 11265/16950 [2:01:46<58:23,  1.62it/s]  Training 2/3 epoch (loss 0.3376):  66%|██████▋   | 11265/16950 [2:01:46<58:23,  1.62it/s]Training 2/3 epoch (loss 0.3376):  66%|██████▋   | 11266/16950 [2:01:46<54:49,  1.73it/s]Training 2/3 epoch (loss 0.0177):  66%|██████▋   | 11266/16950 [2:01:47<54:49,  1.73it/s]Training 2/3 epoch (loss 0.0177):  66%|██████▋   | 11267/16950 [2:01:47<50:04,  1.89it/s]Training 2/3 epoch (loss 0.7568):  66%|██████▋   | 11267/16950 [2:01:47<50:04,  1.89it/s]Training 2/3 epoch (loss 0.7568):  66%|██████▋   | 11268/16950 [2:01:47<53:17,  1.78it/s]Training 2/3 epoch (loss 0.0779):  66%|██████▋   | 11268/16950 [2:01:48<53:17,  1.78it/s]Training 2/3 epoch (loss 0.0779):  66%|██████▋   | 11269/16950 [2:01:48<56:48,  1.67it/s]Training 2/3 epoch (loss 0.0001):  66%|██████▋   | 11269/16950 [2:01:48<56:48,  1.67it/s]Training 2/3 epoch (loss 0.0001):  66%|██████▋   | 11270/16950 [2:01:48<51:45,  1.83it/s]Training 2/3 epoch (loss 0.6901):  66%|██████▋   | 11270/16950 [2:01:49<51:45,  1.83it/s]Training 2/3 epoch (loss 0.6901):  66%|██████▋   | 11271/16950 [2:01:49<1:01:35,  1.54it/s]Training 2/3 epoch (loss 0.0567):  66%|██████▋   | 11271/16950 [2:01:50<1:01:35,  1.54it/s]Training 2/3 epoch (loss 0.0567):  67%|██████▋   | 11272/16950 [2:01:50<1:01:29,  1.54it/s]Training 2/3 epoch (loss 0.0025):  67%|██████▋   | 11272/16950 [2:01:51<1:01:29,  1.54it/s]Training 2/3 epoch (loss 0.0025):  67%|██████▋   | 11273/16950 [2:01:51<59:52,  1.58it/s]  Training 2/3 epoch (loss 0.1962):  67%|██████▋   | 11273/16950 [2:01:52<59:52,  1.58it/s]Training 2/3 epoch (loss 0.1962):  67%|██████▋   | 11274/16950 [2:01:52<1:11:54,  1.32it/s]Training 2/3 epoch (loss 0.3124):  67%|██████▋   | 11274/16950 [2:01:52<1:11:54,  1.32it/s]Training 2/3 epoch (loss 0.3124):  67%|██████▋   | 11275/16950 [2:01:52<1:04:33,  1.46it/s]Training 2/3 epoch (loss 0.6670):  67%|██████▋   | 11275/16950 [2:01:53<1:04:33,  1.46it/s]Training 2/3 epoch (loss 0.6670):  67%|██████▋   | 11276/16950 [2:01:53<56:53,  1.66it/s]  Training 2/3 epoch (loss 0.4074):  67%|██████▋   | 11276/16950 [2:01:53<56:53,  1.66it/s]Training 2/3 epoch (loss 0.4074):  67%|██████▋   | 11277/16950 [2:01:53<57:25,  1.65it/s]Training 2/3 epoch (loss 0.2900):  67%|██████▋   | 11277/16950 [2:01:54<57:25,  1.65it/s]Training 2/3 epoch (loss 0.2900):  67%|██████▋   | 11278/16950 [2:01:54<59:16,  1.59it/s]Training 2/3 epoch (loss 0.0008):  67%|██████▋   | 11278/16950 [2:01:54<59:16,  1.59it/s]Training 2/3 epoch (loss 0.0008):  67%|██████▋   | 11279/16950 [2:01:54<52:30,  1.80it/s]Training 2/3 epoch (loss 0.0767):  67%|██████▋   | 11279/16950 [2:01:55<52:30,  1.80it/s]Training 2/3 epoch (loss 0.0767):  67%|██████▋   | 11280/16950 [2:01:55<51:04,  1.85it/s]Training 2/3 epoch (loss 0.0043):  67%|██████▋   | 11280/16950 [2:01:55<51:04,  1.85it/s]Training 2/3 epoch (loss 0.0043):  67%|██████▋   | 11281/16950 [2:01:55<48:19,  1.96it/s]Training 2/3 epoch (loss 0.0057):  67%|██████▋   | 11281/16950 [2:01:56<48:19,  1.96it/s]Training 2/3 epoch (loss 0.0057):  67%|██████▋   | 11282/16950 [2:01:56<57:31,  1.64it/s]Training 2/3 epoch (loss 0.2671):  67%|██████▋   | 11282/16950 [2:01:57<57:31,  1.64it/s]Training 2/3 epoch (loss 0.2671):  67%|██████▋   | 11283/16950 [2:01:57<56:27,  1.67it/s]Training 2/3 epoch (loss 0.0159):  67%|██████▋   | 11283/16950 [2:01:57<56:27,  1.67it/s]Training 2/3 epoch (loss 0.0159):  67%|██████▋   | 11284/16950 [2:01:57<48:05,  1.96it/s]Training 2/3 epoch (loss 0.0657):  67%|██████▋   | 11284/16950 [2:01:57<48:05,  1.96it/s]Training 2/3 epoch (loss 0.0657):  67%|██████▋   | 11285/16950 [2:01:57<48:09,  1.96it/s]Training 2/3 epoch (loss 0.0817):  67%|██████▋   | 11285/16950 [2:01:58<48:09,  1.96it/s]Training 2/3 epoch (loss 0.0817):  67%|██████▋   | 11286/16950 [2:01:58<53:34,  1.76it/s]Training 2/3 epoch (loss 0.3014):  67%|██████▋   | 11286/16950 [2:01:59<53:34,  1.76it/s]Training 2/3 epoch (loss 0.3014):  67%|██████▋   | 11287/16950 [2:01:59<51:37,  1.83it/s]Training 2/3 epoch (loss 0.3603):  67%|██████▋   | 11287/16950 [2:02:00<51:37,  1.83it/s]Training 2/3 epoch (loss 0.3603):  67%|██████▋   | 11288/16950 [2:02:00<1:06:22,  1.42it/s]Training 2/3 epoch (loss 0.0013):  67%|██████▋   | 11288/16950 [2:02:00<1:06:22,  1.42it/s]Training 2/3 epoch (loss 0.0013):  67%|██████▋   | 11289/16950 [2:02:00<1:04:05,  1.47it/s]Training 2/3 epoch (loss 0.4227):  67%|██████▋   | 11289/16950 [2:02:01<1:04:05,  1.47it/s]Training 2/3 epoch (loss 0.4227):  67%|██████▋   | 11290/16950 [2:02:01<59:58,  1.57it/s]  Training 2/3 epoch (loss 0.0006):  67%|██████▋   | 11290/16950 [2:02:01<59:58,  1.57it/s]Training 2/3 epoch (loss 0.0006):  67%|██████▋   | 11291/16950 [2:02:01<1:00:12,  1.57it/s]Training 2/3 epoch (loss 0.0283):  67%|██████▋   | 11291/16950 [2:02:02<1:00:12,  1.57it/s]Training 2/3 epoch (loss 0.0283):  67%|██████▋   | 11292/16950 [2:02:02<1:02:05,  1.52it/s]Training 2/3 epoch (loss 0.0076):  67%|██████▋   | 11292/16950 [2:02:03<1:02:05,  1.52it/s]Training 2/3 epoch (loss 0.0076):  67%|██████▋   | 11293/16950 [2:02:03<1:03:50,  1.48it/s]Training 2/3 epoch (loss 0.0119):  67%|██████▋   | 11293/16950 [2:02:04<1:03:50,  1.48it/s]Training 2/3 epoch (loss 0.0119):  67%|██████▋   | 11294/16950 [2:02:04<1:05:08,  1.45it/s]Training 2/3 epoch (loss 0.0661):  67%|██████▋   | 11294/16950 [2:02:05<1:05:08,  1.45it/s]Training 2/3 epoch (loss 0.0661):  67%|██████▋   | 11295/16950 [2:02:05<1:11:34,  1.32it/s]Training 2/3 epoch (loss 0.1304):  67%|██████▋   | 11295/16950 [2:02:05<1:11:34,  1.32it/s]Training 2/3 epoch (loss 0.1304):  67%|██████▋   | 11296/16950 [2:02:05<1:10:35,  1.33it/s]Training 2/3 epoch (loss 0.8568):  67%|██████▋   | 11296/16950 [2:02:06<1:10:35,  1.33it/s]Training 2/3 epoch (loss 0.8568):  67%|██████▋   | 11297/16950 [2:02:06<1:02:25,  1.51it/s]Training 2/3 epoch (loss 0.5318):  67%|██████▋   | 11297/16950 [2:02:06<1:02:25,  1.51it/s]Training 2/3 epoch (loss 0.5318):  67%|██████▋   | 11298/16950 [2:02:06<1:03:47,  1.48it/s]Training 2/3 epoch (loss 0.3919):  67%|██████▋   | 11298/16950 [2:02:08<1:03:47,  1.48it/s]Training 2/3 epoch (loss 0.3919):  67%|██████▋   | 11299/16950 [2:02:08<1:15:27,  1.25it/s]Training 2/3 epoch (loss 0.0532):  67%|██████▋   | 11299/16950 [2:02:08<1:15:27,  1.25it/s]Training 2/3 epoch (loss 0.0532):  67%|██████▋   | 11300/16950 [2:02:08<1:10:08,  1.34it/s]                                                                                           Training 2/3 epoch (loss 0.0532):  67%|██████▋   | 11300/16950 [2:02:08<1:10:08,  1.34it/s]Training 3/3 epoch (loss 0.6857):  67%|██████▋   | 11300/16950 [2:05:56<1:10:08,  1.34it/s]Training 3/3 epoch (loss 0.6857):  67%|██████▋   | 11301/16950 [2:05:56<108:13:49, 68.97s/it]Training 3/3 epoch (loss 0.0608):  67%|██████▋   | 11301/16950 [2:05:57<108:13:49, 68.97s/it]Training 3/3 epoch (loss 0.0608):  67%|██████▋   | 11302/16950 [2:05:57<75:58:48, 48.43s/it] Training 3/3 epoch (loss 0.0068):  67%|██████▋   | 11302/16950 [2:05:57<75:58:48, 48.43s/it]Training 3/3 epoch (loss 0.0068):  67%|██████▋   | 11303/16950 [2:05:57<53:22:01, 34.02s/it]Training 3/3 epoch (loss 0.0030):  67%|██████▋   | 11303/16950 [2:05:58<53:22:01, 34.02s/it]Training 3/3 epoch (loss 0.0030):  67%|██████▋   | 11304/16950 [2:05:58<37:31:11, 23.92s/it]Training 3/3 epoch (loss 0.0001):  67%|██████▋   | 11304/16950 [2:05:58<37:31:11, 23.92s/it]Training 3/3 epoch (loss 0.0001):  67%|██████▋   | 11305/16950 [2:05:58<26:23:03, 16.83s/it]Training 3/3 epoch (loss 0.2004):  67%|██████▋   | 11305/16950 [2:05:59<26:23:03, 16.83s/it]Training 3/3 epoch (loss 0.2004):  67%|██████▋   | 11306/16950 [2:05:59<18:50:54, 12.02s/it]Training 3/3 epoch (loss 0.1917):  67%|██████▋   | 11306/16950 [2:05:59<18:50:54, 12.02s/it]Training 3/3 epoch (loss 0.1917):  67%|██████▋   | 11307/16950 [2:05:59<13:33:17,  8.65s/it]Training 3/3 epoch (loss 0.2274):  67%|██████▋   | 11307/16950 [2:06:00<13:33:17,  8.65s/it]Training 3/3 epoch (loss 0.2274):  67%|██████▋   | 11308/16950 [2:06:00<9:42:45,  6.20s/it] Training 3/3 epoch (loss 0.0436):  67%|██████▋   | 11308/16950 [2:06:00<9:42:45,  6.20s/it]Training 3/3 epoch (loss 0.0436):  67%|██████▋   | 11309/16950 [2:06:00<7:03:12,  4.50s/it]Training 3/3 epoch (loss 0.0053):  67%|██████▋   | 11309/16950 [2:06:01<7:03:12,  4.50s/it]Training 3/3 epoch (loss 0.0053):  67%|██████▋   | 11310/16950 [2:06:01<5:08:53,  3.29s/it]Training 3/3 epoch (loss 0.2944):  67%|██████▋   | 11310/16950 [2:06:02<5:08:53,  3.29s/it]Training 3/3 epoch (loss 0.2944):  67%|██████▋   | 11311/16950 [2:06:02<3:58:44,  2.54s/it]Training 3/3 epoch (loss 0.1182):  67%|██████▋   | 11311/16950 [2:06:02<3:58:44,  2.54s/it]Training 3/3 epoch (loss 0.1182):  67%|██████▋   | 11312/16950 [2:06:02<3:05:51,  1.98s/it]Training 3/3 epoch (loss 0.0077):  67%|██████▋   | 11312/16950 [2:06:03<3:05:51,  1.98s/it]Training 3/3 epoch (loss 0.0077):  67%|██████▋   | 11313/16950 [2:06:03<2:26:40,  1.56s/it]Training 3/3 epoch (loss 0.1004):  67%|██████▋   | 11313/16950 [2:06:03<2:26:40,  1.56s/it]Training 3/3 epoch (loss 0.1004):  67%|██████▋   | 11314/16950 [2:06:03<1:57:39,  1.25s/it]Training 3/3 epoch (loss 0.0055):  67%|██████▋   | 11314/16950 [2:06:04<1:57:39,  1.25s/it]Training 3/3 epoch (loss 0.0055):  67%|██████▋   | 11315/16950 [2:06:04<1:35:25,  1.02s/it]Training 3/3 epoch (loss 0.0119):  67%|██████▋   | 11315/16950 [2:06:05<1:35:25,  1.02s/it]Training 3/3 epoch (loss 0.0119):  67%|██████▋   | 11316/16950 [2:06:05<1:27:25,  1.07it/s]Training 3/3 epoch (loss 0.1952):  67%|██████▋   | 11316/16950 [2:06:05<1:27:25,  1.07it/s]Training 3/3 epoch (loss 0.1952):  67%|██████▋   | 11317/16950 [2:06:05<1:14:50,  1.25it/s]Training 3/3 epoch (loss 0.0158):  67%|██████▋   | 11317/16950 [2:06:06<1:14:50,  1.25it/s]Training 3/3 epoch (loss 0.0158):  67%|██████▋   | 11318/16950 [2:06:06<1:03:34,  1.48it/s]Training 3/3 epoch (loss 0.0243):  67%|██████▋   | 11318/16950 [2:06:06<1:03:34,  1.48it/s]Training 3/3 epoch (loss 0.0243):  67%|██████▋   | 11319/16950 [2:06:06<1:01:06,  1.54it/s]Training 3/3 epoch (loss 0.5341):  67%|██████▋   | 11319/16950 [2:06:07<1:01:06,  1.54it/s]Training 3/3 epoch (loss 0.5341):  67%|██████▋   | 11320/16950 [2:06:07<56:07,  1.67it/s]  Training 3/3 epoch (loss 0.0048):  67%|██████▋   | 11320/16950 [2:06:07<56:07,  1.67it/s]Training 3/3 epoch (loss 0.0048):  67%|██████▋   | 11321/16950 [2:06:07<58:47,  1.60it/s]Training 3/3 epoch (loss 0.4965):  67%|██████▋   | 11321/16950 [2:06:08<58:47,  1.60it/s]Training 3/3 epoch (loss 0.4965):  67%|██████▋   | 11322/16950 [2:06:08<51:07,  1.84it/s]Training 3/3 epoch (loss 0.0010):  67%|██████▋   | 11322/16950 [2:06:08<51:07,  1.84it/s]Training 3/3 epoch (loss 0.0010):  67%|██████▋   | 11323/16950 [2:06:08<51:21,  1.83it/s]Training 3/3 epoch (loss 0.4060):  67%|██████▋   | 11323/16950 [2:06:09<51:21,  1.83it/s]Training 3/3 epoch (loss 0.4060):  67%|██████▋   | 11324/16950 [2:06:09<51:27,  1.82it/s]Training 3/3 epoch (loss 0.0126):  67%|██████▋   | 11324/16950 [2:06:09<51:27,  1.82it/s]Training 3/3 epoch (loss 0.0126):  67%|██████▋   | 11325/16950 [2:06:09<54:34,  1.72it/s]Training 3/3 epoch (loss 0.0803):  67%|██████▋   | 11325/16950 [2:06:10<54:34,  1.72it/s]Training 3/3 epoch (loss 0.0803):  67%|██████▋   | 11326/16950 [2:06:10<53:30,  1.75it/s]Training 3/3 epoch (loss 0.0182):  67%|██████▋   | 11326/16950 [2:06:11<53:30,  1.75it/s]Training 3/3 epoch (loss 0.0182):  67%|██████▋   | 11327/16950 [2:06:11<1:00:03,  1.56it/s]Training 3/3 epoch (loss 0.0184):  67%|██████▋   | 11327/16950 [2:06:11<1:00:03,  1.56it/s]Training 3/3 epoch (loss 0.0184):  67%|██████▋   | 11328/16950 [2:06:11<57:43,  1.62it/s]  Training 3/3 epoch (loss 0.3639):  67%|██████▋   | 11328/16950 [2:06:12<57:43,  1.62it/s]Training 3/3 epoch (loss 0.3639):  67%|██████▋   | 11329/16950 [2:06:12<1:01:21,  1.53it/s]Training 3/3 epoch (loss 0.0067):  67%|██████▋   | 11329/16950 [2:06:13<1:01:21,  1.53it/s]Training 3/3 epoch (loss 0.0067):  67%|██████▋   | 11330/16950 [2:06:13<58:50,  1.59it/s]  Training 3/3 epoch (loss 0.6105):  67%|██████▋   | 11330/16950 [2:06:13<58:50,  1.59it/s]Training 3/3 epoch (loss 0.6105):  67%|██████▋   | 11331/16950 [2:06:13<58:39,  1.60it/s]Training 3/3 epoch (loss 0.2863):  67%|██████▋   | 11331/16950 [2:06:14<58:39,  1.60it/s]Training 3/3 epoch (loss 0.2863):  67%|██████▋   | 11332/16950 [2:06:14<54:55,  1.70it/s]Training 3/3 epoch (loss 0.0381):  67%|██████▋   | 11332/16950 [2:06:14<54:55,  1.70it/s]Training 3/3 epoch (loss 0.0381):  67%|██████▋   | 11333/16950 [2:06:14<50:12,  1.86it/s]Training 3/3 epoch (loss 0.8300):  67%|██████▋   | 11333/16950 [2:06:15<50:12,  1.86it/s]Training 3/3 epoch (loss 0.8300):  67%|██████▋   | 11334/16950 [2:06:15<53:38,  1.75it/s]Training 3/3 epoch (loss 0.0310):  67%|██████▋   | 11334/16950 [2:06:15<53:38,  1.75it/s]Training 3/3 epoch (loss 0.0310):  67%|██████▋   | 11335/16950 [2:06:15<50:27,  1.85it/s]Training 3/3 epoch (loss 0.0003):  67%|██████▋   | 11335/16950 [2:06:16<50:27,  1.85it/s]Training 3/3 epoch (loss 0.0003):  67%|██████▋   | 11336/16950 [2:06:16<48:45,  1.92it/s]Training 3/3 epoch (loss 0.0355):  67%|██████▋   | 11336/16950 [2:06:17<48:45,  1.92it/s]Training 3/3 epoch (loss 0.0355):  67%|██████▋   | 11337/16950 [2:06:17<59:28,  1.57it/s]Training 3/3 epoch (loss 0.0084):  67%|██████▋   | 11337/16950 [2:06:17<59:28,  1.57it/s]Training 3/3 epoch (loss 0.0084):  67%|██████▋   | 11338/16950 [2:06:17<1:03:02,  1.48it/s]Training 3/3 epoch (loss 0.0135):  67%|██████▋   | 11338/16950 [2:06:18<1:03:02,  1.48it/s]Training 3/3 epoch (loss 0.0135):  67%|██████▋   | 11339/16950 [2:06:18<54:58,  1.70it/s]  Training 3/3 epoch (loss 0.0121):  67%|██████▋   | 11339/16950 [2:06:18<54:58,  1.70it/s]Training 3/3 epoch (loss 0.0121):  67%|██████▋   | 11340/16950 [2:06:18<52:28,  1.78it/s]Training 3/3 epoch (loss 0.0272):  67%|██████▋   | 11340/16950 [2:06:19<52:28,  1.78it/s]Training 3/3 epoch (loss 0.0272):  67%|██████▋   | 11341/16950 [2:06:19<55:39,  1.68it/s]Training 3/3 epoch (loss 0.0034):  67%|██████▋   | 11341/16950 [2:06:20<55:39,  1.68it/s]Training 3/3 epoch (loss 0.0034):  67%|██████▋   | 11342/16950 [2:06:20<52:45,  1.77it/s]Training 3/3 epoch (loss 0.4338):  67%|██████▋   | 11342/16950 [2:06:21<52:45,  1.77it/s]Training 3/3 epoch (loss 0.4338):  67%|██████▋   | 11343/16950 [2:06:21<1:06:23,  1.41it/s]Training 3/3 epoch (loss 0.0021):  67%|██████▋   | 11343/16950 [2:06:21<1:06:23,  1.41it/s]Training 3/3 epoch (loss 0.0021):  67%|██████▋   | 11344/16950 [2:06:21<1:02:08,  1.50it/s]Training 3/3 epoch (loss 0.0002):  67%|██████▋   | 11344/16950 [2:06:21<1:02:08,  1.50it/s]Training 3/3 epoch (loss 0.0002):  67%|██████▋   | 11345/16950 [2:06:21<53:35,  1.74it/s]  Training 3/3 epoch (loss 0.0001):  67%|██████▋   | 11345/16950 [2:06:22<53:35,  1.74it/s]Training 3/3 epoch (loss 0.0001):  67%|██████▋   | 11346/16950 [2:06:22<49:17,  1.89it/s]Training 3/3 epoch (loss 0.0078):  67%|██████▋   | 11346/16950 [2:06:22<49:17,  1.89it/s]Training 3/3 epoch (loss 0.0078):  67%|██████▋   | 11347/16950 [2:06:22<48:20,  1.93it/s]Training 3/3 epoch (loss 0.0269):  67%|██████▋   | 11347/16950 [2:06:23<48:20,  1.93it/s]Training 3/3 epoch (loss 0.0269):  67%|██████▋   | 11348/16950 [2:06:23<57:34,  1.62it/s]Training 3/3 epoch (loss 0.8961):  67%|██████▋   | 11348/16950 [2:06:24<57:34,  1.62it/s]Training 3/3 epoch (loss 0.8961):  67%|██████▋   | 11349/16950 [2:06:24<1:13:34,  1.27it/s]Training 3/3 epoch (loss 0.0082):  67%|██████▋   | 11349/16950 [2:06:25<1:13:34,  1.27it/s]Training 3/3 epoch (loss 0.0082):  67%|██████▋   | 11350/16950 [2:06:25<1:06:28,  1.40it/s]Training 3/3 epoch (loss 0.0379):  67%|██████▋   | 11350/16950 [2:06:25<1:06:28,  1.40it/s]Training 3/3 epoch (loss 0.0379):  67%|██████▋   | 11351/16950 [2:06:25<58:48,  1.59it/s]  Training 3/3 epoch (loss 0.5860):  67%|██████▋   | 11351/16950 [2:06:26<58:48,  1.59it/s]Training 3/3 epoch (loss 0.5860):  67%|██████▋   | 11352/16950 [2:06:26<1:02:23,  1.50it/s]Training 3/3 epoch (loss 0.0284):  67%|██████▋   | 11352/16950 [2:06:27<1:02:23,  1.50it/s]Training 3/3 epoch (loss 0.0284):  67%|██████▋   | 11353/16950 [2:06:27<1:05:21,  1.43it/s]Training 3/3 epoch (loss 0.2641):  67%|██████▋   | 11353/16950 [2:06:28<1:05:21,  1.43it/s]Training 3/3 epoch (loss 0.2641):  67%|██████▋   | 11354/16950 [2:06:28<1:09:34,  1.34it/s]Training 3/3 epoch (loss 0.0086):  67%|██████▋   | 11354/16950 [2:06:28<1:09:34,  1.34it/s]Training 3/3 epoch (loss 0.0086):  67%|██████▋   | 11355/16950 [2:06:28<1:05:55,  1.41it/s]Training 3/3 epoch (loss 0.1501):  67%|██████▋   | 11355/16950 [2:06:29<1:05:55,  1.41it/s]Training 3/3 epoch (loss 0.1501):  67%|██████▋   | 11356/16950 [2:06:29<1:05:23,  1.43it/s]Training 3/3 epoch (loss 0.0065):  67%|██████▋   | 11356/16950 [2:06:30<1:05:23,  1.43it/s]Training 3/3 epoch (loss 0.0065):  67%|██████▋   | 11357/16950 [2:06:30<1:02:46,  1.49it/s]Training 3/3 epoch (loss 0.0061):  67%|██████▋   | 11357/16950 [2:06:30<1:02:46,  1.49it/s]Training 3/3 epoch (loss 0.0061):  67%|██████▋   | 11358/16950 [2:06:30<1:03:30,  1.47it/s]Training 3/3 epoch (loss 0.0330):  67%|██████▋   | 11358/16950 [2:06:31<1:03:30,  1.47it/s]Training 3/3 epoch (loss 0.0330):  67%|██████▋   | 11359/16950 [2:06:31<58:53,  1.58it/s]  Training 3/3 epoch (loss 0.4690):  67%|██████▋   | 11359/16950 [2:06:32<58:53,  1.58it/s]Training 3/3 epoch (loss 0.4690):  67%|██████▋   | 11360/16950 [2:06:32<1:06:20,  1.40it/s]Training 3/3 epoch (loss 0.1071):  67%|██████▋   | 11360/16950 [2:06:32<1:06:20,  1.40it/s]Training 3/3 epoch (loss 0.1071):  67%|██████▋   | 11361/16950 [2:06:32<1:05:00,  1.43it/s]Training 3/3 epoch (loss 0.6288):  67%|██████▋   | 11361/16950 [2:06:33<1:05:00,  1.43it/s]Training 3/3 epoch (loss 0.6288):  67%|██████▋   | 11362/16950 [2:06:33<56:27,  1.65it/s]  Training 3/3 epoch (loss 0.0219):  67%|██████▋   | 11362/16950 [2:06:34<56:27,  1.65it/s]Training 3/3 epoch (loss 0.0219):  67%|██████▋   | 11363/16950 [2:06:34<57:44,  1.61it/s]Training 3/3 epoch (loss 0.0446):  67%|██████▋   | 11363/16950 [2:06:34<57:44,  1.61it/s]Training 3/3 epoch (loss 0.0446):  67%|██████▋   | 11364/16950 [2:06:34<1:01:18,  1.52it/s]Training 3/3 epoch (loss 0.0700):  67%|██████▋   | 11364/16950 [2:06:35<1:01:18,  1.52it/s]Training 3/3 epoch (loss 0.0700):  67%|██████▋   | 11365/16950 [2:06:35<1:12:01,  1.29it/s]Training 3/3 epoch (loss 0.0555):  67%|██████▋   | 11365/16950 [2:06:36<1:12:01,  1.29it/s]Training 3/3 epoch (loss 0.0555):  67%|██████▋   | 11366/16950 [2:06:36<1:08:54,  1.35it/s]Training 3/3 epoch (loss 0.0020):  67%|██████▋   | 11366/16950 [2:06:36<1:08:54,  1.35it/s]Training 3/3 epoch (loss 0.0020):  67%|██████▋   | 11367/16950 [2:06:36<59:54,  1.55it/s]  Training 3/3 epoch (loss 0.2681):  67%|██████▋   | 11367/16950 [2:06:37<59:54,  1.55it/s]Training 3/3 epoch (loss 0.2681):  67%|██████▋   | 11368/16950 [2:06:37<55:55,  1.66it/s]Training 3/3 epoch (loss 0.0595):  67%|██████▋   | 11368/16950 [2:06:38<55:55,  1.66it/s]Training 3/3 epoch (loss 0.0595):  67%|██████▋   | 11369/16950 [2:06:38<1:03:28,  1.47it/s]Training 3/3 epoch (loss 0.0243):  67%|██████▋   | 11369/16950 [2:06:38<1:03:28,  1.47it/s]Training 3/3 epoch (loss 0.0243):  67%|██████▋   | 11370/16950 [2:06:38<58:39,  1.59it/s]  Training 3/3 epoch (loss 0.3189):  67%|██████▋   | 11370/16950 [2:06:39<58:39,  1.59it/s]Training 3/3 epoch (loss 0.3189):  67%|██████▋   | 11371/16950 [2:06:39<1:04:40,  1.44it/s]Training 3/3 epoch (loss 0.6815):  67%|██████▋   | 11371/16950 [2:06:40<1:04:40,  1.44it/s]Training 3/3 epoch (loss 0.6815):  67%|██████▋   | 11372/16950 [2:06:40<1:02:22,  1.49it/s]Training 3/3 epoch (loss 0.0155):  67%|██████▋   | 11372/16950 [2:06:40<1:02:22,  1.49it/s]Training 3/3 epoch (loss 0.0155):  67%|██████▋   | 11373/16950 [2:06:40<58:20,  1.59it/s]  Training 3/3 epoch (loss 0.0102):  67%|██████▋   | 11373/16950 [2:06:41<58:20,  1.59it/s]Training 3/3 epoch (loss 0.0102):  67%|██████▋   | 11374/16950 [2:06:41<54:22,  1.71it/s]Training 3/3 epoch (loss 0.0720):  67%|██████▋   | 11374/16950 [2:06:42<54:22,  1.71it/s]Training 3/3 epoch (loss 0.0720):  67%|██████▋   | 11375/16950 [2:06:42<1:04:13,  1.45it/s]Training 3/3 epoch (loss 0.5459):  67%|██████▋   | 11375/16950 [2:06:43<1:04:13,  1.45it/s]Training 3/3 epoch (loss 0.5459):  67%|██████▋   | 11376/16950 [2:06:43<1:10:14,  1.32it/s]Training 3/3 epoch (loss 0.0264):  67%|██████▋   | 11376/16950 [2:06:43<1:10:14,  1.32it/s]Training 3/3 epoch (loss 0.0264):  67%|██████▋   | 11377/16950 [2:06:43<1:08:46,  1.35it/s]Training 3/3 epoch (loss 0.5231):  67%|██████▋   | 11377/16950 [2:06:44<1:08:46,  1.35it/s]Training 3/3 epoch (loss 0.5231):  67%|██████▋   | 11378/16950 [2:06:44<59:49,  1.55it/s]  Training 3/3 epoch (loss 0.4109):  67%|██████▋   | 11378/16950 [2:06:45<59:49,  1.55it/s]Training 3/3 epoch (loss 0.4109):  67%|██████▋   | 11379/16950 [2:06:45<1:11:43,  1.29it/s]Training 3/3 epoch (loss 0.0105):  67%|██████▋   | 11379/16950 [2:06:45<1:11:43,  1.29it/s]Training 3/3 epoch (loss 0.0105):  67%|██████▋   | 11380/16950 [2:06:45<1:09:00,  1.35it/s]Training 3/3 epoch (loss 0.4023):  67%|██████▋   | 11380/16950 [2:06:46<1:09:00,  1.35it/s]Training 3/3 epoch (loss 0.4023):  67%|██████▋   | 11381/16950 [2:06:46<1:09:06,  1.34it/s]Training 3/3 epoch (loss 0.2727):  67%|██████▋   | 11381/16950 [2:06:47<1:09:06,  1.34it/s]Training 3/3 epoch (loss 0.2727):  67%|██████▋   | 11382/16950 [2:06:47<1:02:28,  1.49it/s]Training 3/3 epoch (loss 0.0122):  67%|██████▋   | 11382/16950 [2:06:47<1:02:28,  1.49it/s]Training 3/3 epoch (loss 0.0122):  67%|██████▋   | 11383/16950 [2:06:47<1:00:04,  1.54it/s]Training 3/3 epoch (loss 0.0008):  67%|██████▋   | 11383/16950 [2:06:48<1:00:04,  1.54it/s]Training 3/3 epoch (loss 0.0008):  67%|██████▋   | 11384/16950 [2:06:48<55:33,  1.67it/s]  Training 3/3 epoch (loss 0.0012):  67%|██████▋   | 11384/16950 [2:06:48<55:33,  1.67it/s]Training 3/3 epoch (loss 0.0012):  67%|██████▋   | 11385/16950 [2:06:48<54:27,  1.70it/s]Training 3/3 epoch (loss 0.1700):  67%|██████▋   | 11385/16950 [2:06:49<54:27,  1.70it/s]Training 3/3 epoch (loss 0.1700):  67%|██████▋   | 11386/16950 [2:06:49<49:44,  1.86it/s]Training 3/3 epoch (loss 0.3961):  67%|██████▋   | 11386/16950 [2:06:50<49:44,  1.86it/s]Training 3/3 epoch (loss 0.3961):  67%|██████▋   | 11387/16950 [2:06:50<1:03:09,  1.47it/s]Training 3/3 epoch (loss 0.0898):  67%|██████▋   | 11387/16950 [2:06:50<1:03:09,  1.47it/s]Training 3/3 epoch (loss 0.0898):  67%|██████▋   | 11388/16950 [2:06:50<59:16,  1.56it/s]  Training 3/3 epoch (loss 0.0003):  67%|██████▋   | 11388/16950 [2:06:51<59:16,  1.56it/s]Training 3/3 epoch (loss 0.0003):  67%|██████▋   | 11389/16950 [2:06:51<58:05,  1.60it/s]Training 3/3 epoch (loss 0.8783):  67%|██████▋   | 11389/16950 [2:06:52<58:05,  1.60it/s]Training 3/3 epoch (loss 0.8783):  67%|██████▋   | 11390/16950 [2:06:52<1:09:31,  1.33it/s]Training 3/3 epoch (loss 0.0036):  67%|██████▋   | 11390/16950 [2:06:53<1:09:31,  1.33it/s]Training 3/3 epoch (loss 0.0036):  67%|██████▋   | 11391/16950 [2:06:53<1:05:43,  1.41it/s]Training 3/3 epoch (loss 0.0057):  67%|██████▋   | 11391/16950 [2:06:53<1:05:43,  1.41it/s]Training 3/3 epoch (loss 0.0057):  67%|██████▋   | 11392/16950 [2:06:53<59:54,  1.55it/s]  Training 3/3 epoch (loss 0.0020):  67%|██████▋   | 11392/16950 [2:06:54<59:54,  1.55it/s]Training 3/3 epoch (loss 0.0020):  67%|██████▋   | 11393/16950 [2:06:54<53:58,  1.72it/s]Training 3/3 epoch (loss 0.2393):  67%|██████▋   | 11393/16950 [2:06:54<53:58,  1.72it/s]Training 3/3 epoch (loss 0.2393):  67%|██████▋   | 11394/16950 [2:06:54<48:32,  1.91it/s]Training 3/3 epoch (loss 0.0892):  67%|██████▋   | 11394/16950 [2:06:55<48:32,  1.91it/s]Training 3/3 epoch (loss 0.0892):  67%|██████▋   | 11395/16950 [2:06:55<50:43,  1.83it/s]Training 3/3 epoch (loss 0.0299):  67%|██████▋   | 11395/16950 [2:06:55<50:43,  1.83it/s]Training 3/3 epoch (loss 0.0299):  67%|██████▋   | 11396/16950 [2:06:55<48:03,  1.93it/s]Training 3/3 epoch (loss 0.0567):  67%|██████▋   | 11396/16950 [2:06:56<48:03,  1.93it/s]Training 3/3 epoch (loss 0.0567):  67%|██████▋   | 11397/16950 [2:06:56<56:14,  1.65it/s]Training 3/3 epoch (loss 0.0161):  67%|██████▋   | 11397/16950 [2:06:57<56:14,  1.65it/s]Training 3/3 epoch (loss 0.0161):  67%|██████▋   | 11398/16950 [2:06:57<1:09:33,  1.33it/s]Training 3/3 epoch (loss 0.0013):  67%|██████▋   | 11398/16950 [2:06:58<1:09:33,  1.33it/s]Training 3/3 epoch (loss 0.0013):  67%|██████▋   | 11399/16950 [2:06:58<1:07:59,  1.36it/s]Training 3/3 epoch (loss 0.4500):  67%|██████▋   | 11399/16950 [2:06:58<1:07:59,  1.36it/s]Training 3/3 epoch (loss 0.4500):  67%|██████▋   | 11400/16950 [2:06:58<1:00:35,  1.53it/s]Training 3/3 epoch (loss 0.1351):  67%|██████▋   | 11400/16950 [2:06:58<1:00:35,  1.53it/s]Training 3/3 epoch (loss 0.1351):  67%|██████▋   | 11401/16950 [2:06:58<53:15,  1.74it/s]  Training 3/3 epoch (loss 0.3850):  67%|██████▋   | 11401/16950 [2:06:59<53:15,  1.74it/s]Training 3/3 epoch (loss 0.3850):  67%|██████▋   | 11402/16950 [2:06:59<51:13,  1.80it/s]Training 3/3 epoch (loss 0.0597):  67%|██████▋   | 11402/16950 [2:06:59<51:13,  1.80it/s]Training 3/3 epoch (loss 0.0597):  67%|██████▋   | 11403/16950 [2:06:59<51:59,  1.78it/s]Training 3/3 epoch (loss 0.0074):  67%|██████▋   | 11403/16950 [2:07:00<51:59,  1.78it/s]Training 3/3 epoch (loss 0.0074):  67%|██████▋   | 11404/16950 [2:07:00<54:10,  1.71it/s]Training 3/3 epoch (loss 0.0315):  67%|██████▋   | 11404/16950 [2:07:01<54:10,  1.71it/s]Training 3/3 epoch (loss 0.0315):  67%|██████▋   | 11405/16950 [2:07:01<56:14,  1.64it/s]Training 3/3 epoch (loss 0.0305):  67%|██████▋   | 11405/16950 [2:07:01<56:14,  1.64it/s]Training 3/3 epoch (loss 0.0305):  67%|██████▋   | 11406/16950 [2:07:01<56:21,  1.64it/s]Training 3/3 epoch (loss 0.4598):  67%|██████▋   | 11406/16950 [2:07:02<56:21,  1.64it/s]Training 3/3 epoch (loss 0.4598):  67%|██████▋   | 11407/16950 [2:07:02<53:52,  1.71it/s]Training 3/3 epoch (loss 0.0089):  67%|██████▋   | 11407/16950 [2:07:03<53:52,  1.71it/s]Training 3/3 epoch (loss 0.0089):  67%|██████▋   | 11408/16950 [2:07:03<56:52,  1.62it/s]Training 3/3 epoch (loss 0.4623):  67%|██████▋   | 11408/16950 [2:07:03<56:52,  1.62it/s]Training 3/3 epoch (loss 0.4623):  67%|██████▋   | 11409/16950 [2:07:03<1:03:12,  1.46it/s]Training 3/3 epoch (loss 0.0087):  67%|██████▋   | 11409/16950 [2:07:04<1:03:12,  1.46it/s]Training 3/3 epoch (loss 0.0087):  67%|██████▋   | 11410/16950 [2:07:04<1:04:20,  1.43it/s]Training 3/3 epoch (loss 0.2427):  67%|██████▋   | 11410/16950 [2:07:05<1:04:20,  1.43it/s]Training 3/3 epoch (loss 0.2427):  67%|██████▋   | 11411/16950 [2:07:05<55:33,  1.66it/s]  Training 3/3 epoch (loss 0.2826):  67%|██████▋   | 11411/16950 [2:07:05<55:33,  1.66it/s]Training 3/3 epoch (loss 0.2826):  67%|██████▋   | 11412/16950 [2:07:05<52:58,  1.74it/s]Training 3/3 epoch (loss 0.0001):  67%|██████▋   | 11412/16950 [2:07:06<52:58,  1.74it/s]Training 3/3 epoch (loss 0.0001):  67%|██████▋   | 11413/16950 [2:07:06<48:52,  1.89it/s]Training 3/3 epoch (loss 0.0147):  67%|██████▋   | 11413/16950 [2:07:06<48:52,  1.89it/s]Training 3/3 epoch (loss 0.0147):  67%|██████▋   | 11414/16950 [2:07:06<45:23,  2.03it/s]Training 3/3 epoch (loss 0.0509):  67%|██████▋   | 11414/16950 [2:07:07<45:23,  2.03it/s]Training 3/3 epoch (loss 0.0509):  67%|██████▋   | 11415/16950 [2:07:07<50:16,  1.83it/s]Training 3/3 epoch (loss 0.1183):  67%|██████▋   | 11415/16950 [2:07:07<50:16,  1.83it/s]Training 3/3 epoch (loss 0.1183):  67%|██████▋   | 11416/16950 [2:07:07<49:04,  1.88it/s]Training 3/3 epoch (loss 0.0098):  67%|██████▋   | 11416/16950 [2:07:08<49:04,  1.88it/s]Training 3/3 epoch (loss 0.0098):  67%|██████▋   | 11417/16950 [2:07:08<48:48,  1.89it/s]Training 3/3 epoch (loss 0.0955):  67%|██████▋   | 11417/16950 [2:07:08<48:48,  1.89it/s]Training 3/3 epoch (loss 0.0955):  67%|██████▋   | 11418/16950 [2:07:08<53:55,  1.71it/s]Training 3/3 epoch (loss 0.4308):  67%|██████▋   | 11418/16950 [2:07:09<53:55,  1.71it/s]Training 3/3 epoch (loss 0.4308):  67%|██████▋   | 11419/16950 [2:07:09<51:05,  1.80it/s]Training 3/3 epoch (loss 0.0004):  67%|██████▋   | 11419/16950 [2:07:09<51:05,  1.80it/s]Training 3/3 epoch (loss 0.0004):  67%|██████▋   | 11420/16950 [2:07:09<48:16,  1.91it/s]Training 3/3 epoch (loss 0.2395):  67%|██████▋   | 11420/16950 [2:07:10<48:16,  1.91it/s]Training 3/3 epoch (loss 0.2395):  67%|██████▋   | 11421/16950 [2:07:10<47:30,  1.94it/s]Training 3/3 epoch (loss 0.0506):  67%|██████▋   | 11421/16950 [2:07:10<47:30,  1.94it/s]Training 3/3 epoch (loss 0.0506):  67%|██████▋   | 11422/16950 [2:07:10<45:18,  2.03it/s]Training 3/3 epoch (loss 0.1077):  67%|██████▋   | 11422/16950 [2:07:11<45:18,  2.03it/s]Training 3/3 epoch (loss 0.1077):  67%|██████▋   | 11423/16950 [2:07:11<45:20,  2.03it/s]Training 3/3 epoch (loss 0.0946):  67%|██████▋   | 11423/16950 [2:07:11<45:20,  2.03it/s]Training 3/3 epoch (loss 0.0946):  67%|██████▋   | 11424/16950 [2:07:11<49:25,  1.86it/s]Training 3/3 epoch (loss 0.0154):  67%|██████▋   | 11424/16950 [2:07:12<49:25,  1.86it/s]Training 3/3 epoch (loss 0.0154):  67%|██████▋   | 11425/16950 [2:07:12<54:17,  1.70it/s]Training 3/3 epoch (loss 0.2749):  67%|██████▋   | 11425/16950 [2:07:13<54:17,  1.70it/s]Training 3/3 epoch (loss 0.2749):  67%|██████▋   | 11426/16950 [2:07:13<55:05,  1.67it/s]Training 3/3 epoch (loss 0.4100):  67%|██████▋   | 11426/16950 [2:07:13<55:05,  1.67it/s]Training 3/3 epoch (loss 0.4100):  67%|██████▋   | 11427/16950 [2:07:13<51:41,  1.78it/s]Training 3/3 epoch (loss 0.3995):  67%|██████▋   | 11427/16950 [2:07:14<51:41,  1.78it/s]Training 3/3 epoch (loss 0.3995):  67%|██████▋   | 11428/16950 [2:07:14<59:26,  1.55it/s]Training 3/3 epoch (loss 0.3579):  67%|██████▋   | 11428/16950 [2:07:15<59:26,  1.55it/s]Training 3/3 epoch (loss 0.3579):  67%|██████▋   | 11429/16950 [2:07:15<1:08:25,  1.34it/s]Training 3/3 epoch (loss 0.1914):  67%|██████▋   | 11429/16950 [2:07:15<1:08:25,  1.34it/s]Training 3/3 epoch (loss 0.1914):  67%|██████▋   | 11430/16950 [2:07:15<1:02:44,  1.47it/s]Training 3/3 epoch (loss 0.4444):  67%|██████▋   | 11430/16950 [2:07:16<1:02:44,  1.47it/s]Training 3/3 epoch (loss 0.4444):  67%|██████▋   | 11431/16950 [2:07:16<54:31,  1.69it/s]  Training 3/3 epoch (loss 0.4460):  67%|██████▋   | 11431/16950 [2:07:17<54:31,  1.69it/s]Training 3/3 epoch (loss 0.4460):  67%|██████▋   | 11432/16950 [2:07:17<1:09:31,  1.32it/s]Training 3/3 epoch (loss 0.0002):  67%|██████▋   | 11432/16950 [2:07:18<1:09:31,  1.32it/s]Training 3/3 epoch (loss 0.0002):  67%|██████▋   | 11433/16950 [2:07:18<1:11:37,  1.28it/s]Training 3/3 epoch (loss 0.7851):  67%|██████▋   | 11433/16950 [2:07:18<1:11:37,  1.28it/s]Training 3/3 epoch (loss 0.7851):  67%|██████▋   | 11434/16950 [2:07:18<1:03:46,  1.44it/s]Training 3/3 epoch (loss 0.2747):  67%|██████▋   | 11434/16950 [2:07:19<1:03:46,  1.44it/s]Training 3/3 epoch (loss 0.2747):  67%|██████▋   | 11435/16950 [2:07:19<1:01:35,  1.49it/s]Training 3/3 epoch (loss 0.0093):  67%|██████▋   | 11435/16950 [2:07:20<1:01:35,  1.49it/s]Training 3/3 epoch (loss 0.0093):  67%|██████▋   | 11436/16950 [2:07:20<1:04:20,  1.43it/s]Training 3/3 epoch (loss 0.4232):  67%|██████▋   | 11436/16950 [2:07:21<1:04:20,  1.43it/s]Training 3/3 epoch (loss 0.4232):  67%|██████▋   | 11437/16950 [2:07:21<1:13:33,  1.25it/s]Training 3/3 epoch (loss 0.0149):  67%|██████▋   | 11437/16950 [2:07:22<1:13:33,  1.25it/s]Training 3/3 epoch (loss 0.0149):  67%|██████▋   | 11438/16950 [2:07:22<1:13:29,  1.25it/s]Training 3/3 epoch (loss 0.0027):  67%|██████▋   | 11438/16950 [2:07:22<1:13:29,  1.25it/s]Training 3/3 epoch (loss 0.0027):  67%|██████▋   | 11439/16950 [2:07:22<1:12:26,  1.27it/s]Training 3/3 epoch (loss 0.0173):  67%|██████▋   | 11439/16950 [2:07:23<1:12:26,  1.27it/s]Training 3/3 epoch (loss 0.0173):  67%|██████▋   | 11440/16950 [2:07:23<1:07:53,  1.35it/s]Training 3/3 epoch (loss 0.0017):  67%|██████▋   | 11440/16950 [2:07:23<1:07:53,  1.35it/s]Training 3/3 epoch (loss 0.0017):  67%|██████▋   | 11441/16950 [2:07:23<1:02:46,  1.46it/s]Training 3/3 epoch (loss 0.0008):  67%|██████▋   | 11441/16950 [2:07:24<1:02:46,  1.46it/s]Training 3/3 epoch (loss 0.0008):  68%|██████▊   | 11442/16950 [2:07:24<58:33,  1.57it/s]  Training 3/3 epoch (loss 0.0129):  68%|██████▊   | 11442/16950 [2:07:25<58:33,  1.57it/s]Training 3/3 epoch (loss 0.0129):  68%|██████▊   | 11443/16950 [2:07:25<1:05:12,  1.41it/s]Training 3/3 epoch (loss 0.0001):  68%|██████▊   | 11443/16950 [2:07:25<1:05:12,  1.41it/s]Training 3/3 epoch (loss 0.0001):  68%|██████▊   | 11444/16950 [2:07:25<54:56,  1.67it/s]  Training 3/3 epoch (loss 0.0306):  68%|██████▊   | 11444/16950 [2:07:26<54:56,  1.67it/s]Training 3/3 epoch (loss 0.0306):  68%|██████▊   | 11445/16950 [2:07:26<50:48,  1.81it/s]Training 3/3 epoch (loss 0.0334):  68%|██████▊   | 11445/16950 [2:07:26<50:48,  1.81it/s]Training 3/3 epoch (loss 0.0334):  68%|██████▊   | 11446/16950 [2:07:26<53:12,  1.72it/s]Training 3/3 epoch (loss 0.0341):  68%|██████▊   | 11446/16950 [2:07:27<53:12,  1.72it/s]Training 3/3 epoch (loss 0.0341):  68%|██████▊   | 11447/16950 [2:07:27<1:02:27,  1.47it/s]Training 3/3 epoch (loss 0.0175):  68%|██████▊   | 11447/16950 [2:07:28<1:02:27,  1.47it/s]Training 3/3 epoch (loss 0.0175):  68%|██████▊   | 11448/16950 [2:07:28<1:00:00,  1.53it/s]Training 3/3 epoch (loss 0.4336):  68%|██████▊   | 11448/16950 [2:07:28<1:00:00,  1.53it/s]Training 3/3 epoch (loss 0.4336):  68%|██████▊   | 11449/16950 [2:07:28<54:19,  1.69it/s]  Training 3/3 epoch (loss 0.0031):  68%|██████▊   | 11449/16950 [2:07:29<54:19,  1.69it/s]Training 3/3 epoch (loss 0.0031):  68%|██████▊   | 11450/16950 [2:07:29<49:56,  1.84it/s]Training 3/3 epoch (loss 0.3307):  68%|██████▊   | 11450/16950 [2:07:29<49:56,  1.84it/s]Training 3/3 epoch (loss 0.3307):  68%|██████▊   | 11451/16950 [2:07:29<47:09,  1.94it/s]Training 3/3 epoch (loss 0.0495):  68%|██████▊   | 11451/16950 [2:07:30<47:09,  1.94it/s]Training 3/3 epoch (loss 0.0495):  68%|██████▊   | 11452/16950 [2:07:30<49:57,  1.83it/s]Training 3/3 epoch (loss 0.0198):  68%|██████▊   | 11452/16950 [2:07:30<49:57,  1.83it/s]Training 3/3 epoch (loss 0.0198):  68%|██████▊   | 11453/16950 [2:07:30<54:01,  1.70it/s]Training 3/3 epoch (loss 0.7692):  68%|██████▊   | 11453/16950 [2:07:31<54:01,  1.70it/s]Training 3/3 epoch (loss 0.7692):  68%|██████▊   | 11454/16950 [2:07:31<50:26,  1.82it/s]Training 3/3 epoch (loss 0.0149):  68%|██████▊   | 11454/16950 [2:07:31<50:26,  1.82it/s]Training 3/3 epoch (loss 0.0149):  68%|██████▊   | 11455/16950 [2:07:31<48:44,  1.88it/s]Training 3/3 epoch (loss 0.0013):  68%|██████▊   | 11455/16950 [2:07:32<48:44,  1.88it/s]Training 3/3 epoch (loss 0.0013):  68%|██████▊   | 11456/16950 [2:07:32<46:15,  1.98it/s]Training 3/3 epoch (loss 0.1300):  68%|██████▊   | 11456/16950 [2:07:33<46:15,  1.98it/s]Training 3/3 epoch (loss 0.1300):  68%|██████▊   | 11457/16950 [2:07:33<51:33,  1.78it/s]Training 3/3 epoch (loss 0.6519):  68%|██████▊   | 11457/16950 [2:07:33<51:33,  1.78it/s]Training 3/3 epoch (loss 0.6519):  68%|██████▊   | 11458/16950 [2:07:33<53:36,  1.71it/s]Training 3/3 epoch (loss 0.0172):  68%|██████▊   | 11458/16950 [2:07:34<53:36,  1.71it/s]Training 3/3 epoch (loss 0.0172):  68%|██████▊   | 11459/16950 [2:07:34<52:52,  1.73it/s]Training 3/3 epoch (loss 0.0004):  68%|██████▊   | 11459/16950 [2:07:34<52:52,  1.73it/s]Training 3/3 epoch (loss 0.0004):  68%|██████▊   | 11460/16950 [2:07:34<49:58,  1.83it/s]Training 3/3 epoch (loss 0.0485):  68%|██████▊   | 11460/16950 [2:07:35<49:58,  1.83it/s]Training 3/3 epoch (loss 0.0485):  68%|██████▊   | 11461/16950 [2:07:35<51:30,  1.78it/s]Training 3/3 epoch (loss 0.0370):  68%|██████▊   | 11461/16950 [2:07:35<51:30,  1.78it/s]Training 3/3 epoch (loss 0.0370):  68%|██████▊   | 11462/16950 [2:07:35<50:59,  1.79it/s]Training 3/3 epoch (loss 0.0186):  68%|██████▊   | 11462/16950 [2:07:36<50:59,  1.79it/s]Training 3/3 epoch (loss 0.0186):  68%|██████▊   | 11463/16950 [2:07:36<53:32,  1.71it/s]Training 3/3 epoch (loss 0.0028):  68%|██████▊   | 11463/16950 [2:07:37<53:32,  1.71it/s]Training 3/3 epoch (loss 0.0028):  68%|██████▊   | 11464/16950 [2:07:37<51:18,  1.78it/s]Training 3/3 epoch (loss 0.5630):  68%|██████▊   | 11464/16950 [2:07:37<51:18,  1.78it/s]Training 3/3 epoch (loss 0.5630):  68%|██████▊   | 11465/16950 [2:07:37<1:01:25,  1.49it/s]Training 3/3 epoch (loss 0.0026):  68%|██████▊   | 11465/16950 [2:07:38<1:01:25,  1.49it/s]Training 3/3 epoch (loss 0.0026):  68%|██████▊   | 11466/16950 [2:07:38<57:11,  1.60it/s]  Training 3/3 epoch (loss 0.2906):  68%|██████▊   | 11466/16950 [2:07:38<57:11,  1.60it/s]Training 3/3 epoch (loss 0.2906):  68%|██████▊   | 11467/16950 [2:07:38<53:12,  1.72it/s]Training 3/3 epoch (loss 0.0343):  68%|██████▊   | 11467/16950 [2:07:39<53:12,  1.72it/s]Training 3/3 epoch (loss 0.0343):  68%|██████▊   | 11468/16950 [2:07:39<54:54,  1.66it/s]Training 3/3 epoch (loss 0.0053):  68%|██████▊   | 11468/16950 [2:07:40<54:54,  1.66it/s]Training 3/3 epoch (loss 0.0053):  68%|██████▊   | 11469/16950 [2:07:40<54:35,  1.67it/s]Training 3/3 epoch (loss 0.0206):  68%|██████▊   | 11469/16950 [2:07:40<54:35,  1.67it/s]Training 3/3 epoch (loss 0.0206):  68%|██████▊   | 11470/16950 [2:07:40<49:17,  1.85it/s]Training 3/3 epoch (loss 0.2695):  68%|██████▊   | 11470/16950 [2:07:41<49:17,  1.85it/s]Training 3/3 epoch (loss 0.2695):  68%|██████▊   | 11471/16950 [2:07:41<49:06,  1.86it/s]Training 3/3 epoch (loss 0.0015):  68%|██████▊   | 11471/16950 [2:07:41<49:06,  1.86it/s]Training 3/3 epoch (loss 0.0015):  68%|██████▊   | 11472/16950 [2:07:41<51:10,  1.78it/s]Training 3/3 epoch (loss 0.0011):  68%|██████▊   | 11472/16950 [2:07:42<51:10,  1.78it/s]Training 3/3 epoch (loss 0.0011):  68%|██████▊   | 11473/16950 [2:07:42<52:11,  1.75it/s]Training 3/3 epoch (loss 0.2483):  68%|██████▊   | 11473/16950 [2:07:43<52:11,  1.75it/s]Training 3/3 epoch (loss 0.2483):  68%|██████▊   | 11474/16950 [2:07:43<56:04,  1.63it/s]Training 3/3 epoch (loss 0.0482):  68%|██████▊   | 11474/16950 [2:07:43<56:04,  1.63it/s]Training 3/3 epoch (loss 0.0482):  68%|██████▊   | 11475/16950 [2:07:43<55:41,  1.64it/s]Training 3/3 epoch (loss 0.0004):  68%|██████▊   | 11475/16950 [2:07:44<55:41,  1.64it/s]Training 3/3 epoch (loss 0.0004):  68%|██████▊   | 11476/16950 [2:07:44<52:31,  1.74it/s]Training 3/3 epoch (loss 0.0014):  68%|██████▊   | 11476/16950 [2:07:44<52:31,  1.74it/s]Training 3/3 epoch (loss 0.0014):  68%|██████▊   | 11477/16950 [2:07:44<47:07,  1.94it/s]Training 3/3 epoch (loss 0.0402):  68%|██████▊   | 11477/16950 [2:07:44<47:07,  1.94it/s]Training 3/3 epoch (loss 0.0402):  68%|██████▊   | 11478/16950 [2:07:44<41:59,  2.17it/s]Training 3/3 epoch (loss 0.2084):  68%|██████▊   | 11478/16950 [2:07:45<41:59,  2.17it/s]Training 3/3 epoch (loss 0.2084):  68%|██████▊   | 11479/16950 [2:07:45<55:45,  1.64it/s]Training 3/3 epoch (loss 0.1907):  68%|██████▊   | 11479/16950 [2:07:46<55:45,  1.64it/s]Training 3/3 epoch (loss 0.1907):  68%|██████▊   | 11480/16950 [2:07:46<59:22,  1.54it/s]Training 3/3 epoch (loss 0.0222):  68%|██████▊   | 11480/16950 [2:07:47<59:22,  1.54it/s]Training 3/3 epoch (loss 0.0222):  68%|██████▊   | 11481/16950 [2:07:47<58:05,  1.57it/s]Training 3/3 epoch (loss 0.0540):  68%|██████▊   | 11481/16950 [2:07:47<58:05,  1.57it/s]Training 3/3 epoch (loss 0.0540):  68%|██████▊   | 11482/16950 [2:07:47<58:42,  1.55it/s]Training 3/3 epoch (loss 0.4165):  68%|██████▊   | 11482/16950 [2:07:48<58:42,  1.55it/s]Training 3/3 epoch (loss 0.4165):  68%|██████▊   | 11483/16950 [2:07:48<52:33,  1.73it/s]Training 3/3 epoch (loss 0.8692):  68%|██████▊   | 11483/16950 [2:07:48<52:33,  1.73it/s]Training 3/3 epoch (loss 0.8692):  68%|██████▊   | 11484/16950 [2:07:48<49:37,  1.84it/s]Training 3/3 epoch (loss 0.2597):  68%|██████▊   | 11484/16950 [2:07:49<49:37,  1.84it/s]Training 3/3 epoch (loss 0.2597):  68%|██████▊   | 11485/16950 [2:07:49<49:34,  1.84it/s]Training 3/3 epoch (loss 0.0105):  68%|██████▊   | 11485/16950 [2:07:49<49:34,  1.84it/s]Training 3/3 epoch (loss 0.0105):  68%|██████▊   | 11486/16950 [2:07:49<52:13,  1.74it/s]Training 3/3 epoch (loss 0.0036):  68%|██████▊   | 11486/16950 [2:07:50<52:13,  1.74it/s]Training 3/3 epoch (loss 0.0036):  68%|██████▊   | 11487/16950 [2:07:50<48:52,  1.86it/s]Training 3/3 epoch (loss 0.0039):  68%|██████▊   | 11487/16950 [2:07:50<48:52,  1.86it/s]Training 3/3 epoch (loss 0.0039):  68%|██████▊   | 11488/16950 [2:07:50<45:13,  2.01it/s]Training 3/3 epoch (loss 0.0082):  68%|██████▊   | 11488/16950 [2:07:51<45:13,  2.01it/s]Training 3/3 epoch (loss 0.0082):  68%|██████▊   | 11489/16950 [2:07:51<47:44,  1.91it/s]Training 3/3 epoch (loss 0.0311):  68%|██████▊   | 11489/16950 [2:07:51<47:44,  1.91it/s]Training 3/3 epoch (loss 0.0311):  68%|██████▊   | 11490/16950 [2:07:51<46:23,  1.96it/s]Training 3/3 epoch (loss 0.0986):  68%|██████▊   | 11490/16950 [2:07:52<46:23,  1.96it/s]Training 3/3 epoch (loss 0.0986):  68%|██████▊   | 11491/16950 [2:07:52<43:51,  2.07it/s]Training 3/3 epoch (loss 0.0084):  68%|██████▊   | 11491/16950 [2:07:52<43:51,  2.07it/s]Training 3/3 epoch (loss 0.0084):  68%|██████▊   | 11492/16950 [2:07:52<47:02,  1.93it/s]Training 3/3 epoch (loss 0.2885):  68%|██████▊   | 11492/16950 [2:07:53<47:02,  1.93it/s]Training 3/3 epoch (loss 0.2885):  68%|██████▊   | 11493/16950 [2:07:53<41:47,  2.18it/s]Training 3/3 epoch (loss 0.2524):  68%|██████▊   | 11493/16950 [2:07:53<41:47,  2.18it/s]Training 3/3 epoch (loss 0.2524):  68%|██████▊   | 11494/16950 [2:07:53<40:50,  2.23it/s]Training 3/3 epoch (loss 0.3159):  68%|██████▊   | 11494/16950 [2:07:54<40:50,  2.23it/s]Training 3/3 epoch (loss 0.3159):  68%|██████▊   | 11495/16950 [2:07:54<47:43,  1.90it/s]Training 3/3 epoch (loss 0.1013):  68%|██████▊   | 11495/16950 [2:07:54<47:43,  1.90it/s]Training 3/3 epoch (loss 0.1013):  68%|██████▊   | 11496/16950 [2:07:54<49:12,  1.85it/s]Training 3/3 epoch (loss 0.0647):  68%|██████▊   | 11496/16950 [2:07:55<49:12,  1.85it/s]Training 3/3 epoch (loss 0.0647):  68%|██████▊   | 11497/16950 [2:07:55<58:43,  1.55it/s]Training 3/3 epoch (loss 0.0144):  68%|██████▊   | 11497/16950 [2:07:56<58:43,  1.55it/s]Training 3/3 epoch (loss 0.0144):  68%|██████▊   | 11498/16950 [2:07:56<1:00:35,  1.50it/s]Training 3/3 epoch (loss 0.2837):  68%|██████▊   | 11498/16950 [2:07:57<1:00:35,  1.50it/s]Training 3/3 epoch (loss 0.2837):  68%|██████▊   | 11499/16950 [2:07:57<1:05:55,  1.38it/s]Training 3/3 epoch (loss 0.2365):  68%|██████▊   | 11499/16950 [2:07:57<1:05:55,  1.38it/s]Training 3/3 epoch (loss 0.2365):  68%|██████▊   | 11500/16950 [2:07:57<1:00:46,  1.49it/s]Training 3/3 epoch (loss 0.3879):  68%|██████▊   | 11500/16950 [2:07:58<1:00:46,  1.49it/s]Training 3/3 epoch (loss 0.3879):  68%|██████▊   | 11501/16950 [2:07:58<51:26,  1.77it/s]  Training 3/3 epoch (loss 0.3189):  68%|██████▊   | 11501/16950 [2:07:58<51:26,  1.77it/s]Training 3/3 epoch (loss 0.3189):  68%|██████▊   | 11502/16950 [2:07:58<46:40,  1.95it/s]Training 3/3 epoch (loss 0.5391):  68%|██████▊   | 11502/16950 [2:07:59<46:40,  1.95it/s]Training 3/3 epoch (loss 0.5391):  68%|██████▊   | 11503/16950 [2:07:59<56:52,  1.60it/s]Training 3/3 epoch (loss 0.5835):  68%|██████▊   | 11503/16950 [2:08:00<56:52,  1.60it/s]Training 3/3 epoch (loss 0.5835):  68%|██████▊   | 11504/16950 [2:08:00<1:00:57,  1.49it/s]Training 3/3 epoch (loss 0.0231):  68%|██████▊   | 11504/16950 [2:08:00<1:00:57,  1.49it/s]Training 3/3 epoch (loss 0.0231):  68%|██████▊   | 11505/16950 [2:08:00<56:38,  1.60it/s]  Training 3/3 epoch (loss 0.0222):  68%|██████▊   | 11505/16950 [2:08:01<56:38,  1.60it/s]Training 3/3 epoch (loss 0.0222):  68%|██████▊   | 11506/16950 [2:08:01<52:25,  1.73it/s]Training 3/3 epoch (loss 0.0178):  68%|██████▊   | 11506/16950 [2:08:02<52:25,  1.73it/s]Training 3/3 epoch (loss 0.0178):  68%|██████▊   | 11507/16950 [2:08:02<1:01:50,  1.47it/s]Training 3/3 epoch (loss 0.3367):  68%|██████▊   | 11507/16950 [2:08:02<1:01:50,  1.47it/s]Training 3/3 epoch (loss 0.3367):  68%|██████▊   | 11508/16950 [2:08:02<1:03:01,  1.44it/s]Training 3/3 epoch (loss 0.4651):  68%|██████▊   | 11508/16950 [2:08:03<1:03:01,  1.44it/s]Training 3/3 epoch (loss 0.4651):  68%|██████▊   | 11509/16950 [2:08:03<1:03:22,  1.43it/s]Training 3/3 epoch (loss 0.0412):  68%|██████▊   | 11509/16950 [2:08:04<1:03:22,  1.43it/s]Training 3/3 epoch (loss 0.0412):  68%|██████▊   | 11510/16950 [2:08:04<57:46,  1.57it/s]  Training 3/3 epoch (loss 0.0017):  68%|██████▊   | 11510/16950 [2:08:04<57:46,  1.57it/s]Training 3/3 epoch (loss 0.0017):  68%|██████▊   | 11511/16950 [2:08:04<53:38,  1.69it/s]Training 3/3 epoch (loss 0.0003):  68%|██████▊   | 11511/16950 [2:08:05<53:38,  1.69it/s]Training 3/3 epoch (loss 0.0003):  68%|██████▊   | 11512/16950 [2:08:05<52:27,  1.73it/s]Training 3/3 epoch (loss 0.2602):  68%|██████▊   | 11512/16950 [2:08:05<52:27,  1.73it/s]Training 3/3 epoch (loss 0.2602):  68%|██████▊   | 11513/16950 [2:08:05<51:37,  1.76it/s]Training 3/3 epoch (loss 0.0004):  68%|██████▊   | 11513/16950 [2:08:06<51:37,  1.76it/s]Training 3/3 epoch (loss 0.0004):  68%|██████▊   | 11514/16950 [2:08:06<48:25,  1.87it/s]Training 3/3 epoch (loss 0.3589):  68%|██████▊   | 11514/16950 [2:08:06<48:25,  1.87it/s]Training 3/3 epoch (loss 0.3589):  68%|██████▊   | 11515/16950 [2:08:06<51:58,  1.74it/s]Training 3/3 epoch (loss 0.0073):  68%|██████▊   | 11515/16950 [2:08:07<51:58,  1.74it/s]Training 3/3 epoch (loss 0.0073):  68%|██████▊   | 11516/16950 [2:08:07<50:39,  1.79it/s]Training 3/3 epoch (loss 0.2420):  68%|██████▊   | 11516/16950 [2:08:07<50:39,  1.79it/s]Training 3/3 epoch (loss 0.2420):  68%|██████▊   | 11517/16950 [2:08:07<51:22,  1.76it/s]Training 3/3 epoch (loss 0.6260):  68%|██████▊   | 11517/16950 [2:08:08<51:22,  1.76it/s]Training 3/3 epoch (loss 0.6260):  68%|██████▊   | 11518/16950 [2:08:08<53:32,  1.69it/s]Training 3/3 epoch (loss 0.0049):  68%|██████▊   | 11518/16950 [2:08:09<53:32,  1.69it/s]Training 3/3 epoch (loss 0.0049):  68%|██████▊   | 11519/16950 [2:08:09<50:24,  1.80it/s]Training 3/3 epoch (loss 0.0058):  68%|██████▊   | 11519/16950 [2:08:10<50:24,  1.80it/s]Training 3/3 epoch (loss 0.0058):  68%|██████▊   | 11520/16950 [2:08:10<1:03:16,  1.43it/s]Training 3/3 epoch (loss 0.0402):  68%|██████▊   | 11520/16950 [2:08:10<1:03:16,  1.43it/s]Training 3/3 epoch (loss 0.0402):  68%|██████▊   | 11521/16950 [2:08:10<1:06:44,  1.36it/s]Training 3/3 epoch (loss 0.0006):  68%|██████▊   | 11521/16950 [2:08:11<1:06:44,  1.36it/s]Training 3/3 epoch (loss 0.0006):  68%|██████▊   | 11522/16950 [2:08:11<1:00:34,  1.49it/s]Training 3/3 epoch (loss 0.1492):  68%|██████▊   | 11522/16950 [2:08:11<1:00:34,  1.49it/s]Training 3/3 epoch (loss 0.1492):  68%|██████▊   | 11523/16950 [2:08:11<57:33,  1.57it/s]  Training 3/3 epoch (loss 0.1036):  68%|██████▊   | 11523/16950 [2:08:12<57:33,  1.57it/s]Training 3/3 epoch (loss 0.1036):  68%|██████▊   | 11524/16950 [2:08:12<1:01:34,  1.47it/s]Training 3/3 epoch (loss 0.3262):  68%|██████▊   | 11524/16950 [2:08:13<1:01:34,  1.47it/s]Training 3/3 epoch (loss 0.3262):  68%|██████▊   | 11525/16950 [2:08:13<55:19,  1.63it/s]  Training 3/3 epoch (loss 0.0227):  68%|██████▊   | 11525/16950 [2:08:14<55:19,  1.63it/s]Training 3/3 epoch (loss 0.0227):  68%|██████▊   | 11526/16950 [2:08:14<1:00:48,  1.49it/s]Training 3/3 epoch (loss 0.0424):  68%|██████▊   | 11526/16950 [2:08:14<1:00:48,  1.49it/s]Training 3/3 epoch (loss 0.0424):  68%|██████▊   | 11527/16950 [2:08:14<1:01:37,  1.47it/s]Training 3/3 epoch (loss 0.0119):  68%|██████▊   | 11527/16950 [2:08:15<1:01:37,  1.47it/s]Training 3/3 epoch (loss 0.0119):  68%|██████▊   | 11528/16950 [2:08:15<1:01:56,  1.46it/s]Training 3/3 epoch (loss 0.0654):  68%|██████▊   | 11528/16950 [2:08:16<1:01:56,  1.46it/s]Training 3/3 epoch (loss 0.0654):  68%|██████▊   | 11529/16950 [2:08:16<1:11:25,  1.26it/s]Training 3/3 epoch (loss 0.0036):  68%|██████▊   | 11529/16950 [2:08:17<1:11:25,  1.26it/s]Training 3/3 epoch (loss 0.0036):  68%|██████▊   | 11530/16950 [2:08:17<1:07:56,  1.33it/s]Training 3/3 epoch (loss 0.4921):  68%|██████▊   | 11530/16950 [2:08:17<1:07:56,  1.33it/s]Training 3/3 epoch (loss 0.4921):  68%|██████▊   | 11531/16950 [2:08:17<1:05:59,  1.37it/s]Training 3/3 epoch (loss 0.0283):  68%|██████▊   | 11531/16950 [2:08:18<1:05:59,  1.37it/s]Training 3/3 epoch (loss 0.0283):  68%|██████▊   | 11532/16950 [2:08:18<1:03:04,  1.43it/s]Training 3/3 epoch (loss 0.0288):  68%|██████▊   | 11532/16950 [2:08:19<1:03:04,  1.43it/s]Training 3/3 epoch (loss 0.0288):  68%|██████▊   | 11533/16950 [2:08:19<1:01:04,  1.48it/s]Training 3/3 epoch (loss 0.0248):  68%|██████▊   | 11533/16950 [2:08:19<1:01:04,  1.48it/s]Training 3/3 epoch (loss 0.0248):  68%|██████▊   | 11534/16950 [2:08:19<1:01:42,  1.46it/s]Training 3/3 epoch (loss 0.0048):  68%|██████▊   | 11534/16950 [2:08:20<1:01:42,  1.46it/s]Training 3/3 epoch (loss 0.0048):  68%|██████▊   | 11535/16950 [2:08:20<58:12,  1.55it/s]  Training 3/3 epoch (loss 0.0036):  68%|██████▊   | 11535/16950 [2:08:20<58:12,  1.55it/s]Training 3/3 epoch (loss 0.0036):  68%|██████▊   | 11536/16950 [2:08:20<53:31,  1.69it/s]Training 3/3 epoch (loss 0.0002):  68%|██████▊   | 11536/16950 [2:08:21<53:31,  1.69it/s]Training 3/3 epoch (loss 0.0002):  68%|██████▊   | 11537/16950 [2:08:21<45:54,  1.97it/s]Training 3/3 epoch (loss 0.0328):  68%|██████▊   | 11537/16950 [2:08:21<45:54,  1.97it/s]Training 3/3 epoch (loss 0.0328):  68%|██████▊   | 11538/16950 [2:08:21<48:26,  1.86it/s]Training 3/3 epoch (loss 0.0000):  68%|██████▊   | 11538/16950 [2:08:22<48:26,  1.86it/s]Training 3/3 epoch (loss 0.0000):  68%|██████▊   | 11539/16950 [2:08:22<57:23,  1.57it/s]Training 3/3 epoch (loss 0.0399):  68%|██████▊   | 11539/16950 [2:08:23<57:23,  1.57it/s]Training 3/3 epoch (loss 0.0399):  68%|██████▊   | 11540/16950 [2:08:23<59:18,  1.52it/s]Training 3/3 epoch (loss 0.2315):  68%|██████▊   | 11540/16950 [2:08:23<59:18,  1.52it/s]Training 3/3 epoch (loss 0.2315):  68%|██████▊   | 11541/16950 [2:08:23<55:52,  1.61it/s]Training 3/3 epoch (loss 0.5090):  68%|██████▊   | 11541/16950 [2:08:24<55:52,  1.61it/s]Training 3/3 epoch (loss 0.5090):  68%|██████▊   | 11542/16950 [2:08:24<1:01:21,  1.47it/s]Training 3/3 epoch (loss 0.0010):  68%|██████▊   | 11542/16950 [2:08:25<1:01:21,  1.47it/s]Training 3/3 epoch (loss 0.0010):  68%|██████▊   | 11543/16950 [2:08:25<1:03:00,  1.43it/s]Training 3/3 epoch (loss 0.2689):  68%|██████▊   | 11543/16950 [2:08:25<1:03:00,  1.43it/s]Training 3/3 epoch (loss 0.2689):  68%|██████▊   | 11544/16950 [2:08:25<59:06,  1.52it/s]  Training 3/3 epoch (loss 0.0039):  68%|██████▊   | 11544/16950 [2:08:26<59:06,  1.52it/s]Training 3/3 epoch (loss 0.0039):  68%|██████▊   | 11545/16950 [2:08:26<1:00:09,  1.50it/s]Training 3/3 epoch (loss 0.6768):  68%|██████▊   | 11545/16950 [2:08:27<1:00:09,  1.50it/s]Training 3/3 epoch (loss 0.6768):  68%|██████▊   | 11546/16950 [2:08:27<1:14:25,  1.21it/s]Training 3/3 epoch (loss 0.2724):  68%|██████▊   | 11546/16950 [2:08:28<1:14:25,  1.21it/s]Training 3/3 epoch (loss 0.2724):  68%|██████▊   | 11547/16950 [2:08:28<1:19:53,  1.13it/s]Training 3/3 epoch (loss 0.0049):  68%|██████▊   | 11547/16950 [2:08:29<1:19:53,  1.13it/s]Training 3/3 epoch (loss 0.0049):  68%|██████▊   | 11548/16950 [2:08:29<1:11:34,  1.26it/s]Training 3/3 epoch (loss 0.4430):  68%|██████▊   | 11548/16950 [2:08:30<1:11:34,  1.26it/s]Training 3/3 epoch (loss 0.4430):  68%|██████▊   | 11549/16950 [2:08:30<1:09:34,  1.29it/s]Training 3/3 epoch (loss 0.0010):  68%|██████▊   | 11549/16950 [2:08:30<1:09:34,  1.29it/s]Training 3/3 epoch (loss 0.0010):  68%|██████▊   | 11550/16950 [2:08:30<1:01:59,  1.45it/s]Training 3/3 epoch (loss 1.1174):  68%|██████▊   | 11550/16950 [2:08:31<1:01:59,  1.45it/s]Training 3/3 epoch (loss 1.1174):  68%|██████▊   | 11551/16950 [2:08:31<56:17,  1.60it/s]  Training 3/3 epoch (loss 0.5195):  68%|██████▊   | 11551/16950 [2:08:31<56:17,  1.60it/s]Training 3/3 epoch (loss 0.5195):  68%|██████▊   | 11552/16950 [2:08:31<51:38,  1.74it/s]Training 3/3 epoch (loss 0.0066):  68%|██████▊   | 11552/16950 [2:08:32<51:38,  1.74it/s]Training 3/3 epoch (loss 0.0066):  68%|██████▊   | 11553/16950 [2:08:32<48:06,  1.87it/s]Training 3/3 epoch (loss 0.1914):  68%|██████▊   | 11553/16950 [2:08:32<48:06,  1.87it/s]Training 3/3 epoch (loss 0.1914):  68%|██████▊   | 11554/16950 [2:08:32<46:54,  1.92it/s]Training 3/3 epoch (loss 0.0026):  68%|██████▊   | 11554/16950 [2:08:32<46:54,  1.92it/s]Training 3/3 epoch (loss 0.0026):  68%|██████▊   | 11555/16950 [2:08:32<45:58,  1.96it/s]Training 3/3 epoch (loss 0.4390):  68%|██████▊   | 11555/16950 [2:08:33<45:58,  1.96it/s]Training 3/3 epoch (loss 0.4390):  68%|██████▊   | 11556/16950 [2:08:33<50:11,  1.79it/s]Training 3/3 epoch (loss 0.0126):  68%|██████▊   | 11556/16950 [2:08:34<50:11,  1.79it/s]Training 3/3 epoch (loss 0.0126):  68%|██████▊   | 11557/16950 [2:08:34<50:54,  1.77it/s]Training 3/3 epoch (loss 0.1697):  68%|██████▊   | 11557/16950 [2:08:34<50:54,  1.77it/s]Training 3/3 epoch (loss 0.1697):  68%|██████▊   | 11558/16950 [2:08:34<50:02,  1.80it/s]Training 3/3 epoch (loss 0.0024):  68%|██████▊   | 11558/16950 [2:08:35<50:02,  1.80it/s]Training 3/3 epoch (loss 0.0024):  68%|██████▊   | 11559/16950 [2:08:35<46:58,  1.91it/s]Training 3/3 epoch (loss 0.1162):  68%|██████▊   | 11559/16950 [2:08:35<46:58,  1.91it/s]Training 3/3 epoch (loss 0.1162):  68%|██████▊   | 11560/16950 [2:08:35<44:29,  2.02it/s]Training 3/3 epoch (loss 0.3861):  68%|██████▊   | 11560/16950 [2:08:36<44:29,  2.02it/s]Training 3/3 epoch (loss 0.3861):  68%|██████▊   | 11561/16950 [2:08:36<44:47,  2.01it/s]Training 3/3 epoch (loss 0.1635):  68%|██████▊   | 11561/16950 [2:08:36<44:47,  2.01it/s]Training 3/3 epoch (loss 0.1635):  68%|██████▊   | 11562/16950 [2:08:36<42:59,  2.09it/s]Training 3/3 epoch (loss 0.4504):  68%|██████▊   | 11562/16950 [2:08:37<42:59,  2.09it/s]Training 3/3 epoch (loss 0.4504):  68%|██████▊   | 11563/16950 [2:08:37<41:13,  2.18it/s]Training 3/3 epoch (loss 0.4639):  68%|██████▊   | 11563/16950 [2:08:37<41:13,  2.18it/s]Training 3/3 epoch (loss 0.4639):  68%|██████▊   | 11564/16950 [2:08:37<41:04,  2.19it/s]Training 3/3 epoch (loss 0.4639):  68%|██████▊   | 11564/16950 [2:08:37<41:04,  2.19it/s]Training 3/3 epoch (loss 0.4639):  68%|██████▊   | 11565/16950 [2:08:37<39:48,  2.25it/s]Training 3/3 epoch (loss 0.4488):  68%|██████▊   | 11565/16950 [2:08:38<39:48,  2.25it/s]Training 3/3 epoch (loss 0.4488):  68%|██████▊   | 11566/16950 [2:08:38<53:36,  1.67it/s]Training 3/3 epoch (loss 0.0457):  68%|██████▊   | 11566/16950 [2:08:39<53:36,  1.67it/s]Training 3/3 epoch (loss 0.0457):  68%|██████▊   | 11567/16950 [2:08:39<56:44,  1.58it/s]Training 3/3 epoch (loss 0.0277):  68%|██████▊   | 11567/16950 [2:08:40<56:44,  1.58it/s]Training 3/3 epoch (loss 0.0277):  68%|██████▊   | 11568/16950 [2:08:40<1:00:50,  1.47it/s]Training 3/3 epoch (loss 0.0335):  68%|██████▊   | 11568/16950 [2:08:40<1:00:50,  1.47it/s]Training 3/3 epoch (loss 0.0335):  68%|██████▊   | 11569/16950 [2:08:40<59:27,  1.51it/s]  Training 3/3 epoch (loss 0.1899):  68%|██████▊   | 11569/16950 [2:08:41<59:27,  1.51it/s]Training 3/3 epoch (loss 0.1899):  68%|██████▊   | 11570/16950 [2:08:41<1:03:12,  1.42it/s]Training 3/3 epoch (loss 0.0054):  68%|██████▊   | 11570/16950 [2:08:42<1:03:12,  1.42it/s]Training 3/3 epoch (loss 0.0054):  68%|██████▊   | 11571/16950 [2:08:42<56:38,  1.58it/s]  Training 3/3 epoch (loss 0.2248):  68%|██████▊   | 11571/16950 [2:08:42<56:38,  1.58it/s]Training 3/3 epoch (loss 0.2248):  68%|██████▊   | 11572/16950 [2:08:42<51:37,  1.74it/s]Training 3/3 epoch (loss 0.6319):  68%|██████▊   | 11572/16950 [2:08:43<51:37,  1.74it/s]Training 3/3 epoch (loss 0.6319):  68%|██████▊   | 11573/16950 [2:08:43<1:04:40,  1.39it/s]Training 3/3 epoch (loss 0.0005):  68%|██████▊   | 11573/16950 [2:08:44<1:04:40,  1.39it/s]Training 3/3 epoch (loss 0.0005):  68%|██████▊   | 11574/16950 [2:08:44<1:02:27,  1.43it/s]Training 3/3 epoch (loss 0.0007):  68%|██████▊   | 11574/16950 [2:08:44<1:02:27,  1.43it/s]Training 3/3 epoch (loss 0.0007):  68%|██████▊   | 11575/16950 [2:08:44<54:16,  1.65it/s]  Training 3/3 epoch (loss 0.0006):  68%|██████▊   | 11575/16950 [2:08:45<54:16,  1.65it/s]Training 3/3 epoch (loss 0.0006):  68%|██████▊   | 11576/16950 [2:08:45<49:16,  1.82it/s]Training 3/3 epoch (loss 0.8532):  68%|██████▊   | 11576/16950 [2:08:46<49:16,  1.82it/s]Training 3/3 epoch (loss 0.8532):  68%|██████▊   | 11577/16950 [2:08:46<1:01:57,  1.45it/s]Training 3/3 epoch (loss 0.0560):  68%|██████▊   | 11577/16950 [2:08:47<1:01:57,  1.45it/s]Training 3/3 epoch (loss 0.0560):  68%|██████▊   | 11578/16950 [2:08:47<1:10:12,  1.28it/s]Training 3/3 epoch (loss 0.2838):  68%|██████▊   | 11578/16950 [2:08:47<1:10:12,  1.28it/s]Training 3/3 epoch (loss 0.2838):  68%|██████▊   | 11579/16950 [2:08:47<1:09:40,  1.28it/s]Training 3/3 epoch (loss 0.2454):  68%|██████▊   | 11579/16950 [2:08:48<1:09:40,  1.28it/s]Training 3/3 epoch (loss 0.2454):  68%|██████▊   | 11580/16950 [2:08:48<1:00:25,  1.48it/s]Training 3/3 epoch (loss 0.0030):  68%|██████▊   | 11580/16950 [2:08:48<1:00:25,  1.48it/s]Training 3/3 epoch (loss 0.0030):  68%|██████▊   | 11581/16950 [2:08:48<55:02,  1.63it/s]  Training 3/3 epoch (loss 0.0747):  68%|██████▊   | 11581/16950 [2:08:49<55:02,  1.63it/s]Training 3/3 epoch (loss 0.0747):  68%|██████▊   | 11582/16950 [2:08:49<59:11,  1.51it/s]Training 3/3 epoch (loss 0.3145):  68%|██████▊   | 11582/16950 [2:08:50<59:11,  1.51it/s]Training 3/3 epoch (loss 0.3145):  68%|██████▊   | 11583/16950 [2:08:50<54:46,  1.63it/s]Training 3/3 epoch (loss 0.0681):  68%|██████▊   | 11583/16950 [2:08:50<54:46,  1.63it/s]Training 3/3 epoch (loss 0.0681):  68%|██████▊   | 11584/16950 [2:08:50<53:17,  1.68it/s]Training 3/3 epoch (loss 0.0019):  68%|██████▊   | 11584/16950 [2:08:51<53:17,  1.68it/s]Training 3/3 epoch (loss 0.0019):  68%|██████▊   | 11585/16950 [2:08:51<50:29,  1.77it/s]Training 3/3 epoch (loss 0.3551):  68%|██████▊   | 11585/16950 [2:08:51<50:29,  1.77it/s]Training 3/3 epoch (loss 0.3551):  68%|██████▊   | 11586/16950 [2:08:51<52:46,  1.69it/s]Training 3/3 epoch (loss 0.3586):  68%|██████▊   | 11586/16950 [2:08:52<52:46,  1.69it/s]Training 3/3 epoch (loss 0.3586):  68%|██████▊   | 11587/16950 [2:08:52<51:32,  1.73it/s]Training 3/3 epoch (loss 0.4761):  68%|██████▊   | 11587/16950 [2:08:52<51:32,  1.73it/s]Training 3/3 epoch (loss 0.4761):  68%|██████▊   | 11588/16950 [2:08:52<47:50,  1.87it/s]Training 3/3 epoch (loss 0.0326):  68%|██████▊   | 11588/16950 [2:08:53<47:50,  1.87it/s]Training 3/3 epoch (loss 0.0326):  68%|██████▊   | 11589/16950 [2:08:53<47:27,  1.88it/s]Training 3/3 epoch (loss 0.0006):  68%|██████▊   | 11589/16950 [2:08:54<47:27,  1.88it/s]Training 3/3 epoch (loss 0.0006):  68%|██████▊   | 11590/16950 [2:08:54<51:17,  1.74it/s]Training 3/3 epoch (loss 0.0277):  68%|██████▊   | 11590/16950 [2:08:54<51:17,  1.74it/s]Training 3/3 epoch (loss 0.0277):  68%|██████▊   | 11591/16950 [2:08:54<53:53,  1.66it/s]Training 3/3 epoch (loss 0.0008):  68%|██████▊   | 11591/16950 [2:08:55<53:53,  1.66it/s]Training 3/3 epoch (loss 0.0008):  68%|██████▊   | 11592/16950 [2:08:55<50:17,  1.78it/s]Training 3/3 epoch (loss 0.0080):  68%|██████▊   | 11592/16950 [2:08:55<50:17,  1.78it/s]Training 3/3 epoch (loss 0.0080):  68%|██████▊   | 11593/16950 [2:08:55<52:23,  1.70it/s]Training 3/3 epoch (loss 0.1703):  68%|██████▊   | 11593/16950 [2:08:56<52:23,  1.70it/s]Training 3/3 epoch (loss 0.1703):  68%|██████▊   | 11594/16950 [2:08:56<50:15,  1.78it/s]Training 3/3 epoch (loss 0.2882):  68%|██████▊   | 11594/16950 [2:08:56<50:15,  1.78it/s]Training 3/3 epoch (loss 0.2882):  68%|██████▊   | 11595/16950 [2:08:56<50:36,  1.76it/s]Training 3/3 epoch (loss 0.2884):  68%|██████▊   | 11595/16950 [2:08:57<50:36,  1.76it/s]Training 3/3 epoch (loss 0.2884):  68%|██████▊   | 11596/16950 [2:08:57<50:07,  1.78it/s]Training 3/3 epoch (loss 0.0103):  68%|██████▊   | 11596/16950 [2:08:58<50:07,  1.78it/s]Training 3/3 epoch (loss 0.0103):  68%|██████▊   | 11597/16950 [2:08:58<51:08,  1.74it/s]Training 3/3 epoch (loss 0.0002):  68%|██████▊   | 11597/16950 [2:08:58<51:08,  1.74it/s]Training 3/3 epoch (loss 0.0002):  68%|██████▊   | 11598/16950 [2:08:58<49:35,  1.80it/s]Training 3/3 epoch (loss 0.0001):  68%|██████▊   | 11598/16950 [2:08:58<49:35,  1.80it/s]Training 3/3 epoch (loss 0.0001):  68%|██████▊   | 11599/16950 [2:08:58<45:27,  1.96it/s]Training 3/3 epoch (loss 0.2534):  68%|██████▊   | 11599/16950 [2:08:59<45:27,  1.96it/s]Training 3/3 epoch (loss 0.2534):  68%|██████▊   | 11600/16950 [2:08:59<41:16,  2.16it/s]Training 3/3 epoch (loss 0.0030):  68%|██████▊   | 11600/16950 [2:08:59<41:16,  2.16it/s]Training 3/3 epoch (loss 0.0030):  68%|██████▊   | 11601/16950 [2:08:59<40:29,  2.20it/s]Training 3/3 epoch (loss 0.5500):  68%|██████▊   | 11601/16950 [2:09:00<40:29,  2.20it/s]Training 3/3 epoch (loss 0.5500):  68%|██████▊   | 11602/16950 [2:09:00<51:14,  1.74it/s]Training 3/3 epoch (loss 0.0312):  68%|██████▊   | 11602/16950 [2:09:01<51:14,  1.74it/s]Training 3/3 epoch (loss 0.0312):  68%|██████▊   | 11603/16950 [2:09:01<55:43,  1.60it/s]Training 3/3 epoch (loss 0.0059):  68%|██████▊   | 11603/16950 [2:09:01<55:43,  1.60it/s]Training 3/3 epoch (loss 0.0059):  68%|██████▊   | 11604/16950 [2:09:01<51:55,  1.72it/s]Training 3/3 epoch (loss 0.0001):  68%|██████▊   | 11604/16950 [2:09:02<51:55,  1.72it/s]Training 3/3 epoch (loss 0.0001):  68%|██████▊   | 11605/16950 [2:09:02<49:10,  1.81it/s]Training 3/3 epoch (loss 0.4583):  68%|██████▊   | 11605/16950 [2:09:02<49:10,  1.81it/s]Training 3/3 epoch (loss 0.4583):  68%|██████▊   | 11606/16950 [2:09:02<44:44,  1.99it/s]Training 3/3 epoch (loss 0.5406):  68%|██████▊   | 11606/16950 [2:09:03<44:44,  1.99it/s]Training 3/3 epoch (loss 0.5406):  68%|██████▊   | 11607/16950 [2:09:03<43:31,  2.05it/s]Training 3/3 epoch (loss 0.6298):  68%|██████▊   | 11607/16950 [2:09:03<43:31,  2.05it/s]Training 3/3 epoch (loss 0.6298):  68%|██████▊   | 11608/16950 [2:09:03<41:37,  2.14it/s]Training 3/3 epoch (loss 0.2783):  68%|██████▊   | 11608/16950 [2:09:04<41:37,  2.14it/s]Training 3/3 epoch (loss 0.2783):  68%|██████▊   | 11609/16950 [2:09:04<44:04,  2.02it/s]Training 3/3 epoch (loss 0.0298):  68%|██████▊   | 11609/16950 [2:09:04<44:04,  2.02it/s]Training 3/3 epoch (loss 0.0298):  68%|██████▊   | 11610/16950 [2:09:04<47:36,  1.87it/s]Training 3/3 epoch (loss 0.2115):  68%|██████▊   | 11610/16950 [2:09:05<47:36,  1.87it/s]Training 3/3 epoch (loss 0.2115):  69%|██████▊   | 11611/16950 [2:09:05<50:26,  1.76it/s]Training 3/3 epoch (loss 0.0257):  69%|██████▊   | 11611/16950 [2:09:06<50:26,  1.76it/s]Training 3/3 epoch (loss 0.0257):  69%|██████▊   | 11612/16950 [2:09:06<53:01,  1.68it/s]Training 3/3 epoch (loss 0.0184):  69%|██████▊   | 11612/16950 [2:09:06<53:01,  1.68it/s]Training 3/3 epoch (loss 0.0184):  69%|██████▊   | 11613/16950 [2:09:06<56:36,  1.57it/s]Training 3/3 epoch (loss 0.0150):  69%|██████▊   | 11613/16950 [2:09:07<56:36,  1.57it/s]Training 3/3 epoch (loss 0.0150):  69%|██████▊   | 11614/16950 [2:09:07<54:04,  1.64it/s]Training 3/3 epoch (loss 0.0065):  69%|██████▊   | 11614/16950 [2:09:07<54:04,  1.64it/s]Training 3/3 epoch (loss 0.0065):  69%|██████▊   | 11615/16950 [2:09:07<50:56,  1.75it/s]Training 3/3 epoch (loss 0.0092):  69%|██████▊   | 11615/16950 [2:09:08<50:56,  1.75it/s]Training 3/3 epoch (loss 0.0092):  69%|██████▊   | 11616/16950 [2:09:08<55:22,  1.61it/s]Training 3/3 epoch (loss 0.1177):  69%|██████▊   | 11616/16950 [2:09:09<55:22,  1.61it/s]Training 3/3 epoch (loss 0.1177):  69%|██████▊   | 11617/16950 [2:09:09<52:44,  1.69it/s]Training 3/3 epoch (loss 0.0025):  69%|██████▊   | 11617/16950 [2:09:09<52:44,  1.69it/s]Training 3/3 epoch (loss 0.0025):  69%|██████▊   | 11618/16950 [2:09:09<49:34,  1.79it/s]Training 3/3 epoch (loss 0.0128):  69%|██████▊   | 11618/16950 [2:09:10<49:34,  1.79it/s]Training 3/3 epoch (loss 0.0128):  69%|██████▊   | 11619/16950 [2:09:10<48:13,  1.84it/s]Training 3/3 epoch (loss 0.0096):  69%|██████▊   | 11619/16950 [2:09:10<48:13,  1.84it/s]Training 3/3 epoch (loss 0.0096):  69%|██████▊   | 11620/16950 [2:09:10<48:19,  1.84it/s]Training 3/3 epoch (loss 0.4730):  69%|██████▊   | 11620/16950 [2:09:11<48:19,  1.84it/s]Training 3/3 epoch (loss 0.4730):  69%|██████▊   | 11621/16950 [2:09:11<55:38,  1.60it/s]Training 3/3 epoch (loss 0.0083):  69%|██████▊   | 11621/16950 [2:09:12<55:38,  1.60it/s]Training 3/3 epoch (loss 0.0083):  69%|██████▊   | 11622/16950 [2:09:12<55:59,  1.59it/s]Training 3/3 epoch (loss 0.0019):  69%|██████▊   | 11622/16950 [2:09:12<55:59,  1.59it/s]Training 3/3 epoch (loss 0.0019):  69%|██████▊   | 11623/16950 [2:09:12<53:45,  1.65it/s]Training 3/3 epoch (loss 0.0473):  69%|██████▊   | 11623/16950 [2:09:13<53:45,  1.65it/s]Training 3/3 epoch (loss 0.0473):  69%|██████▊   | 11624/16950 [2:09:13<55:14,  1.61it/s]Training 3/3 epoch (loss 0.0127):  69%|██████▊   | 11624/16950 [2:09:13<55:14,  1.61it/s]Training 3/3 epoch (loss 0.0127):  69%|██████▊   | 11625/16950 [2:09:13<51:38,  1.72it/s]Training 3/3 epoch (loss 0.0014):  69%|██████▊   | 11625/16950 [2:09:14<51:38,  1.72it/s]Training 3/3 epoch (loss 0.0014):  69%|██████▊   | 11626/16950 [2:09:14<50:28,  1.76it/s]Training 3/3 epoch (loss 0.3276):  69%|██████▊   | 11626/16950 [2:09:14<50:28,  1.76it/s]Training 3/3 epoch (loss 0.3276):  69%|██████▊   | 11627/16950 [2:09:14<46:25,  1.91it/s]Training 3/3 epoch (loss 0.0486):  69%|██████▊   | 11627/16950 [2:09:15<46:25,  1.91it/s]Training 3/3 epoch (loss 0.0486):  69%|██████▊   | 11628/16950 [2:09:15<48:33,  1.83it/s]Training 3/3 epoch (loss 0.0102):  69%|██████▊   | 11628/16950 [2:09:15<48:33,  1.83it/s]Training 3/3 epoch (loss 0.0102):  69%|██████▊   | 11629/16950 [2:09:15<50:43,  1.75it/s]Training 3/3 epoch (loss 0.0970):  69%|██████▊   | 11629/16950 [2:09:16<50:43,  1.75it/s]Training 3/3 epoch (loss 0.0970):  69%|██████▊   | 11630/16950 [2:09:16<50:57,  1.74it/s]Training 3/3 epoch (loss 0.2092):  69%|██████▊   | 11630/16950 [2:09:16<50:57,  1.74it/s]Training 3/3 epoch (loss 0.2092):  69%|██████▊   | 11631/16950 [2:09:16<46:06,  1.92it/s]Training 3/3 epoch (loss 0.0026):  69%|██████▊   | 11631/16950 [2:09:17<46:06,  1.92it/s]Training 3/3 epoch (loss 0.0026):  69%|██████▊   | 11632/16950 [2:09:17<53:38,  1.65it/s]Training 3/3 epoch (loss 0.0848):  69%|██████▊   | 11632/16950 [2:09:18<53:38,  1.65it/s]Training 3/3 epoch (loss 0.0848):  69%|██████▊   | 11633/16950 [2:09:18<56:08,  1.58it/s]Training 3/3 epoch (loss 0.0128):  69%|██████▊   | 11633/16950 [2:09:19<56:08,  1.58it/s]Training 3/3 epoch (loss 0.0128):  69%|██████▊   | 11634/16950 [2:09:19<58:27,  1.52it/s]Training 3/3 epoch (loss 0.0051):  69%|██████▊   | 11634/16950 [2:09:19<58:27,  1.52it/s]Training 3/3 epoch (loss 0.0051):  69%|██████▊   | 11635/16950 [2:09:19<50:46,  1.74it/s]Training 3/3 epoch (loss 0.0473):  69%|██████▊   | 11635/16950 [2:09:20<50:46,  1.74it/s]Training 3/3 epoch (loss 0.0473):  69%|██████▊   | 11636/16950 [2:09:20<48:50,  1.81it/s]Training 3/3 epoch (loss 0.0002):  69%|██████▊   | 11636/16950 [2:09:20<48:50,  1.81it/s]Training 3/3 epoch (loss 0.0002):  69%|██████▊   | 11637/16950 [2:09:20<49:59,  1.77it/s]Training 3/3 epoch (loss 0.1886):  69%|██████▊   | 11637/16950 [2:09:21<49:59,  1.77it/s]Training 3/3 epoch (loss 0.1886):  69%|██████▊   | 11638/16950 [2:09:21<50:49,  1.74it/s]Training 3/3 epoch (loss 0.2062):  69%|██████▊   | 11638/16950 [2:09:21<50:49,  1.74it/s]Training 3/3 epoch (loss 0.2062):  69%|██████▊   | 11639/16950 [2:09:21<51:10,  1.73it/s]Training 3/3 epoch (loss 0.0120):  69%|██████▊   | 11639/16950 [2:09:22<51:10,  1.73it/s]Training 3/3 epoch (loss 0.0120):  69%|██████▊   | 11640/16950 [2:09:22<50:17,  1.76it/s]Training 3/3 epoch (loss 0.0000):  69%|██████▊   | 11640/16950 [2:09:22<50:17,  1.76it/s]Training 3/3 epoch (loss 0.0000):  69%|██████▊   | 11641/16950 [2:09:22<46:23,  1.91it/s]Training 3/3 epoch (loss 0.1718):  69%|██████▊   | 11641/16950 [2:09:23<46:23,  1.91it/s]Training 3/3 epoch (loss 0.1718):  69%|██████▊   | 11642/16950 [2:09:23<42:48,  2.07it/s]Training 3/3 epoch (loss 0.0017):  69%|██████▊   | 11642/16950 [2:09:24<42:48,  2.07it/s]Training 3/3 epoch (loss 0.0017):  69%|██████▊   | 11643/16950 [2:09:24<52:58,  1.67it/s]Training 3/3 epoch (loss 0.0227):  69%|██████▊   | 11643/16950 [2:09:24<52:58,  1.67it/s]Training 3/3 epoch (loss 0.0227):  69%|██████▊   | 11644/16950 [2:09:24<50:49,  1.74it/s]Training 3/3 epoch (loss 0.0366):  69%|██████▊   | 11644/16950 [2:09:25<50:49,  1.74it/s]Training 3/3 epoch (loss 0.0366):  69%|██████▊   | 11645/16950 [2:09:25<51:05,  1.73it/s]Training 3/3 epoch (loss 0.0457):  69%|██████▊   | 11645/16950 [2:09:25<51:05,  1.73it/s]Training 3/3 epoch (loss 0.0457):  69%|██████▊   | 11646/16950 [2:09:25<46:35,  1.90it/s]Training 3/3 epoch (loss 0.0217):  69%|██████▊   | 11646/16950 [2:09:26<46:35,  1.90it/s]Training 3/3 epoch (loss 0.0217):  69%|██████▊   | 11647/16950 [2:09:26<49:48,  1.77it/s]Training 3/3 epoch (loss 0.1139):  69%|██████▊   | 11647/16950 [2:09:26<49:48,  1.77it/s]Training 3/3 epoch (loss 0.1139):  69%|██████▊   | 11648/16950 [2:09:26<49:32,  1.78it/s]Training 3/3 epoch (loss 0.0157):  69%|██████▊   | 11648/16950 [2:09:27<49:32,  1.78it/s]Training 3/3 epoch (loss 0.0157):  69%|██████▊   | 11649/16950 [2:09:27<50:14,  1.76it/s]Training 3/3 epoch (loss 0.0983):  69%|██████▊   | 11649/16950 [2:09:27<50:14,  1.76it/s]Training 3/3 epoch (loss 0.0983):  69%|██████▊   | 11650/16950 [2:09:27<52:28,  1.68it/s]Training 3/3 epoch (loss 0.0333):  69%|██████▊   | 11650/16950 [2:09:28<52:28,  1.68it/s]Training 3/3 epoch (loss 0.0333):  69%|██████▊   | 11651/16950 [2:09:28<55:39,  1.59it/s]Training 3/3 epoch (loss 0.0051):  69%|██████▊   | 11651/16950 [2:09:29<55:39,  1.59it/s]Training 3/3 epoch (loss 0.0051):  69%|██████▊   | 11652/16950 [2:09:29<51:14,  1.72it/s]Training 3/3 epoch (loss 0.2221):  69%|██████▊   | 11652/16950 [2:09:29<51:14,  1.72it/s]Training 3/3 epoch (loss 0.2221):  69%|██████▊   | 11653/16950 [2:09:29<49:41,  1.78it/s]Training 3/3 epoch (loss 0.2380):  69%|██████▊   | 11653/16950 [2:09:30<49:41,  1.78it/s]Training 3/3 epoch (loss 0.2380):  69%|██████▉   | 11654/16950 [2:09:30<48:08,  1.83it/s]Training 3/3 epoch (loss 0.0063):  69%|██████▉   | 11654/16950 [2:09:30<48:08,  1.83it/s]Training 3/3 epoch (loss 0.0063):  69%|██████▉   | 11655/16950 [2:09:30<50:29,  1.75it/s]Training 3/3 epoch (loss 0.0068):  69%|██████▉   | 11655/16950 [2:09:31<50:29,  1.75it/s]Training 3/3 epoch (loss 0.0068):  69%|██████▉   | 11656/16950 [2:09:31<57:04,  1.55it/s]Training 3/3 epoch (loss 0.0002):  69%|██████▉   | 11656/16950 [2:09:32<57:04,  1.55it/s]Training 3/3 epoch (loss 0.0002):  69%|██████▉   | 11657/16950 [2:09:32<52:53,  1.67it/s]Training 3/3 epoch (loss 0.6102):  69%|██████▉   | 11657/16950 [2:09:32<52:53,  1.67it/s]Training 3/3 epoch (loss 0.6102):  69%|██████▉   | 11658/16950 [2:09:32<54:54,  1.61it/s]Training 3/3 epoch (loss 0.0008):  69%|██████▉   | 11658/16950 [2:09:33<54:54,  1.61it/s]Training 3/3 epoch (loss 0.0008):  69%|██████▉   | 11659/16950 [2:09:33<50:45,  1.74it/s]Training 3/3 epoch (loss 0.2344):  69%|██████▉   | 11659/16950 [2:09:33<50:45,  1.74it/s]Training 3/3 epoch (loss 0.2344):  69%|██████▉   | 11660/16950 [2:09:33<48:41,  1.81it/s]Training 3/3 epoch (loss 0.0858):  69%|██████▉   | 11660/16950 [2:09:34<48:41,  1.81it/s]Training 3/3 epoch (loss 0.0858):  69%|██████▉   | 11661/16950 [2:09:34<48:02,  1.83it/s]Training 3/3 epoch (loss 0.0089):  69%|██████▉   | 11661/16950 [2:09:34<48:02,  1.83it/s]Training 3/3 epoch (loss 0.0089):  69%|██████▉   | 11662/16950 [2:09:34<45:45,  1.93it/s]Training 3/3 epoch (loss 0.0013):  69%|██████▉   | 11662/16950 [2:09:35<45:45,  1.93it/s]Training 3/3 epoch (loss 0.0013):  69%|██████▉   | 11663/16950 [2:09:35<46:04,  1.91it/s]Training 3/3 epoch (loss 0.0079):  69%|██████▉   | 11663/16950 [2:09:35<46:04,  1.91it/s]Training 3/3 epoch (loss 0.0079):  69%|██████▉   | 11664/16950 [2:09:35<50:31,  1.74it/s]Training 3/3 epoch (loss 0.0111):  69%|██████▉   | 11664/16950 [2:09:36<50:31,  1.74it/s]Training 3/3 epoch (loss 0.0111):  69%|██████▉   | 11665/16950 [2:09:36<54:12,  1.63it/s]Training 3/3 epoch (loss 0.0030):  69%|██████▉   | 11665/16950 [2:09:37<54:12,  1.63it/s]Training 3/3 epoch (loss 0.0030):  69%|██████▉   | 11666/16950 [2:09:37<59:35,  1.48it/s]Training 3/3 epoch (loss 0.3601):  69%|██████▉   | 11666/16950 [2:09:38<59:35,  1.48it/s]Training 3/3 epoch (loss 0.3601):  69%|██████▉   | 11667/16950 [2:09:38<56:30,  1.56it/s]Training 3/3 epoch (loss 0.0802):  69%|██████▉   | 11667/16950 [2:09:39<56:30,  1.56it/s]Training 3/3 epoch (loss 0.0802):  69%|██████▉   | 11668/16950 [2:09:39<1:07:47,  1.30it/s]Training 3/3 epoch (loss 0.0490):  69%|██████▉   | 11668/16950 [2:09:40<1:07:47,  1.30it/s]Training 3/3 epoch (loss 0.0490):  69%|██████▉   | 11669/16950 [2:09:40<1:13:27,  1.20it/s]Training 3/3 epoch (loss 0.0408):  69%|██████▉   | 11669/16950 [2:09:40<1:13:27,  1.20it/s]Training 3/3 epoch (loss 0.0408):  69%|██████▉   | 11670/16950 [2:09:40<1:05:36,  1.34it/s]Training 3/3 epoch (loss 0.8657):  69%|██████▉   | 11670/16950 [2:09:41<1:05:36,  1.34it/s]Training 3/3 epoch (loss 0.8657):  69%|██████▉   | 11671/16950 [2:09:41<1:16:17,  1.15it/s]Training 3/3 epoch (loss 0.0001):  69%|██████▉   | 11671/16950 [2:09:42<1:16:17,  1.15it/s]Training 3/3 epoch (loss 0.0001):  69%|██████▉   | 11672/16950 [2:09:42<1:07:02,  1.31it/s]Training 3/3 epoch (loss 0.0051):  69%|██████▉   | 11672/16950 [2:09:42<1:07:02,  1.31it/s]Training 3/3 epoch (loss 0.0051):  69%|██████▉   | 11673/16950 [2:09:42<59:06,  1.49it/s]  Training 3/3 epoch (loss 0.0040):  69%|██████▉   | 11673/16950 [2:09:43<59:06,  1.49it/s]Training 3/3 epoch (loss 0.0040):  69%|██████▉   | 11674/16950 [2:09:43<52:07,  1.69it/s]Training 3/3 epoch (loss 0.0038):  69%|██████▉   | 11674/16950 [2:09:43<52:07,  1.69it/s]Training 3/3 epoch (loss 0.0038):  69%|██████▉   | 11675/16950 [2:09:43<47:32,  1.85it/s]Training 3/3 epoch (loss 0.0595):  69%|██████▉   | 11675/16950 [2:09:43<47:32,  1.85it/s]Training 3/3 epoch (loss 0.0595):  69%|██████▉   | 11676/16950 [2:09:43<42:50,  2.05it/s]Training 3/3 epoch (loss 0.1252):  69%|██████▉   | 11676/16950 [2:09:44<42:50,  2.05it/s]Training 3/3 epoch (loss 0.1252):  69%|██████▉   | 11677/16950 [2:09:44<46:41,  1.88it/s]Training 3/3 epoch (loss 0.0253):  69%|██████▉   | 11677/16950 [2:09:45<46:41,  1.88it/s]Training 3/3 epoch (loss 0.0253):  69%|██████▉   | 11678/16950 [2:09:45<1:02:31,  1.41it/s]Training 3/3 epoch (loss 0.0863):  69%|██████▉   | 11678/16950 [2:09:46<1:02:31,  1.41it/s]Training 3/3 epoch (loss 0.0863):  69%|██████▉   | 11679/16950 [2:09:46<1:03:14,  1.39it/s]Training 3/3 epoch (loss 0.0000):  69%|██████▉   | 11679/16950 [2:09:47<1:03:14,  1.39it/s]Training 3/3 epoch (loss 0.0000):  69%|██████▉   | 11680/16950 [2:09:47<58:31,  1.50it/s]  Training 3/3 epoch (loss 0.0002):  69%|██████▉   | 11680/16950 [2:09:47<58:31,  1.50it/s]Training 3/3 epoch (loss 0.0002):  69%|██████▉   | 11681/16950 [2:09:47<50:33,  1.74it/s]Training 3/3 epoch (loss 0.1788):  69%|██████▉   | 11681/16950 [2:09:48<50:33,  1.74it/s]Training 3/3 epoch (loss 0.1788):  69%|██████▉   | 11682/16950 [2:09:48<58:12,  1.51it/s]Training 3/3 epoch (loss 0.0204):  69%|██████▉   | 11682/16950 [2:09:48<58:12,  1.51it/s]Training 3/3 epoch (loss 0.0204):  69%|██████▉   | 11683/16950 [2:09:48<57:16,  1.53it/s]Training 3/3 epoch (loss 0.2084):  69%|██████▉   | 11683/16950 [2:09:49<57:16,  1.53it/s]Training 3/3 epoch (loss 0.2084):  69%|██████▉   | 11684/16950 [2:09:49<59:24,  1.48it/s]Training 3/3 epoch (loss 0.0036):  69%|██████▉   | 11684/16950 [2:09:50<59:24,  1.48it/s]Training 3/3 epoch (loss 0.0036):  69%|██████▉   | 11685/16950 [2:09:50<59:57,  1.46it/s]Training 3/3 epoch (loss 0.0710):  69%|██████▉   | 11685/16950 [2:09:51<59:57,  1.46it/s]Training 3/3 epoch (loss 0.0710):  69%|██████▉   | 11686/16950 [2:09:51<1:00:53,  1.44it/s]Training 3/3 epoch (loss 0.0198):  69%|██████▉   | 11686/16950 [2:09:52<1:00:53,  1.44it/s]Training 3/3 epoch (loss 0.0198):  69%|██████▉   | 11687/16950 [2:09:52<1:07:45,  1.29it/s]Training 3/3 epoch (loss 0.0735):  69%|██████▉   | 11687/16950 [2:09:53<1:07:45,  1.29it/s]Training 3/3 epoch (loss 0.0735):  69%|██████▉   | 11688/16950 [2:09:53<1:13:56,  1.19it/s]Training 3/3 epoch (loss 0.0086):  69%|██████▉   | 11688/16950 [2:09:53<1:13:56,  1.19it/s]Training 3/3 epoch (loss 0.0086):  69%|██████▉   | 11689/16950 [2:09:53<1:07:35,  1.30it/s]Training 3/3 epoch (loss 0.0205):  69%|██████▉   | 11689/16950 [2:09:54<1:07:35,  1.30it/s]Training 3/3 epoch (loss 0.0205):  69%|██████▉   | 11690/16950 [2:09:54<57:39,  1.52it/s]  Training 3/3 epoch (loss 0.5294):  69%|██████▉   | 11690/16950 [2:09:54<57:39,  1.52it/s]Training 3/3 epoch (loss 0.5294):  69%|██████▉   | 11691/16950 [2:09:54<50:35,  1.73it/s]Training 3/3 epoch (loss 0.0146):  69%|██████▉   | 11691/16950 [2:09:54<50:35,  1.73it/s]Training 3/3 epoch (loss 0.0146):  69%|██████▉   | 11692/16950 [2:09:54<47:11,  1.86it/s]Training 3/3 epoch (loss 0.0072):  69%|██████▉   | 11692/16950 [2:09:55<47:11,  1.86it/s]Training 3/3 epoch (loss 0.0072):  69%|██████▉   | 11693/16950 [2:09:55<44:34,  1.97it/s]Training 3/3 epoch (loss 0.1660):  69%|██████▉   | 11693/16950 [2:09:55<44:34,  1.97it/s]Training 3/3 epoch (loss 0.1660):  69%|██████▉   | 11694/16950 [2:09:55<48:34,  1.80it/s]Training 3/3 epoch (loss 0.3010):  69%|██████▉   | 11694/16950 [2:09:56<48:34,  1.80it/s]Training 3/3 epoch (loss 0.3010):  69%|██████▉   | 11695/16950 [2:09:56<48:21,  1.81it/s]Training 3/3 epoch (loss 0.0165):  69%|██████▉   | 11695/16950 [2:09:56<48:21,  1.81it/s]Training 3/3 epoch (loss 0.0165):  69%|██████▉   | 11696/16950 [2:09:56<46:37,  1.88it/s]Training 3/3 epoch (loss 0.0070):  69%|██████▉   | 11696/16950 [2:09:57<46:37,  1.88it/s]Training 3/3 epoch (loss 0.0070):  69%|██████▉   | 11697/16950 [2:09:57<47:48,  1.83it/s]Training 3/3 epoch (loss 0.3454):  69%|██████▉   | 11697/16950 [2:09:58<47:48,  1.83it/s]Training 3/3 epoch (loss 0.3454):  69%|██████▉   | 11698/16950 [2:09:58<45:54,  1.91it/s]Training 3/3 epoch (loss 0.6273):  69%|██████▉   | 11698/16950 [2:09:58<45:54,  1.91it/s]Training 3/3 epoch (loss 0.6273):  69%|██████▉   | 11699/16950 [2:09:58<45:57,  1.90it/s]Training 3/3 epoch (loss 0.5507):  69%|██████▉   | 11699/16950 [2:09:58<45:57,  1.90it/s]Training 3/3 epoch (loss 0.5507):  69%|██████▉   | 11700/16950 [2:09:58<42:58,  2.04it/s]Training 3/3 epoch (loss nan):  69%|██████▉   | 11700/16950 [2:09:59<42:58,  2.04it/s]   Training 3/3 epoch (loss nan):  69%|██████▉   | 11701/16950 [2:09:59<57:09,  1.53it/s]Training 3/3 epoch (loss 0.4336):  69%|██████▉   | 11701/16950 [2:10:00<57:09,  1.53it/s]Training 3/3 epoch (loss 0.4336):  69%|██████▉   | 11702/16950 [2:10:00<1:00:52,  1.44it/s]Training 3/3 epoch (loss 0.0415):  69%|██████▉   | 11702/16950 [2:10:01<1:00:52,  1.44it/s]Training 3/3 epoch (loss 0.0415):  69%|██████▉   | 11703/16950 [2:10:01<1:01:31,  1.42it/s]Training 3/3 epoch (loss 0.0015):  69%|██████▉   | 11703/16950 [2:10:02<1:01:31,  1.42it/s]Training 3/3 epoch (loss 0.0015):  69%|██████▉   | 11704/16950 [2:10:02<1:02:49,  1.39it/s]Training 3/3 epoch (loss 0.0302):  69%|██████▉   | 11704/16950 [2:10:03<1:02:49,  1.39it/s]Training 3/3 epoch (loss 0.0302):  69%|██████▉   | 11705/16950 [2:10:03<1:03:17,  1.38it/s]Training 3/3 epoch (loss 0.0126):  69%|██████▉   | 11705/16950 [2:10:03<1:03:17,  1.38it/s]Training 3/3 epoch (loss 0.0126):  69%|██████▉   | 11706/16950 [2:10:03<1:03:21,  1.38it/s]Training 3/3 epoch (loss 0.0223):  69%|██████▉   | 11706/16950 [2:10:04<1:03:21,  1.38it/s]Training 3/3 epoch (loss 0.0223):  69%|██████▉   | 11707/16950 [2:10:04<1:04:51,  1.35it/s]Training 3/3 epoch (loss 0.0219):  69%|██████▉   | 11707/16950 [2:10:05<1:04:51,  1.35it/s]Training 3/3 epoch (loss 0.0219):  69%|██████▉   | 11708/16950 [2:10:05<1:01:30,  1.42it/s]Training 3/3 epoch (loss 0.1693):  69%|██████▉   | 11708/16950 [2:10:05<1:01:30,  1.42it/s]Training 3/3 epoch (loss 0.1693):  69%|██████▉   | 11709/16950 [2:10:05<57:56,  1.51it/s]  Training 3/3 epoch (loss 0.2151):  69%|██████▉   | 11709/16950 [2:10:06<57:56,  1.51it/s]Training 3/3 epoch (loss 0.2151):  69%|██████▉   | 11710/16950 [2:10:06<55:34,  1.57it/s]Training 3/3 epoch (loss 0.0009):  69%|██████▉   | 11710/16950 [2:10:06<55:34,  1.57it/s]Training 3/3 epoch (loss 0.0009):  69%|██████▉   | 11711/16950 [2:10:06<51:11,  1.71it/s]Training 3/3 epoch (loss 0.0640):  69%|██████▉   | 11711/16950 [2:10:07<51:11,  1.71it/s]Training 3/3 epoch (loss 0.0640):  69%|██████▉   | 11712/16950 [2:10:07<45:22,  1.92it/s]Training 3/3 epoch (loss 0.4560):  69%|██████▉   | 11712/16950 [2:10:07<45:22,  1.92it/s]Training 3/3 epoch (loss 0.4560):  69%|██████▉   | 11713/16950 [2:10:07<42:03,  2.08it/s]Training 3/3 epoch (loss 0.6179):  69%|██████▉   | 11713/16950 [2:10:07<42:03,  2.08it/s]Training 3/3 epoch (loss 0.6179):  69%|██████▉   | 11714/16950 [2:10:07<41:42,  2.09it/s]Training 3/3 epoch (loss 0.3986):  69%|██████▉   | 11714/16950 [2:10:08<41:42,  2.09it/s]Training 3/3 epoch (loss 0.3986):  69%|██████▉   | 11715/16950 [2:10:08<45:19,  1.92it/s]Training 3/3 epoch (loss 0.5427):  69%|██████▉   | 11715/16950 [2:10:09<45:19,  1.92it/s]Training 3/3 epoch (loss 0.5427):  69%|██████▉   | 11716/16950 [2:10:09<50:45,  1.72it/s]Training 3/3 epoch (loss 0.0819):  69%|██████▉   | 11716/16950 [2:10:09<50:45,  1.72it/s]Training 3/3 epoch (loss 0.0819):  69%|██████▉   | 11717/16950 [2:10:09<50:24,  1.73it/s]Training 3/3 epoch (loss 0.0018):  69%|██████▉   | 11717/16950 [2:10:10<50:24,  1.73it/s]Training 3/3 epoch (loss 0.0018):  69%|██████▉   | 11718/16950 [2:10:10<51:07,  1.71it/s]Training 3/3 epoch (loss 0.1077):  69%|██████▉   | 11718/16950 [2:10:10<51:07,  1.71it/s]Training 3/3 epoch (loss 0.1077):  69%|██████▉   | 11719/16950 [2:10:10<47:59,  1.82it/s]Training 3/3 epoch (loss 0.4280):  69%|██████▉   | 11719/16950 [2:10:11<47:59,  1.82it/s]Training 3/3 epoch (loss 0.4280):  69%|██████▉   | 11720/16950 [2:10:11<49:25,  1.76it/s]Training 3/3 epoch (loss 0.0851):  69%|██████▉   | 11720/16950 [2:10:12<49:25,  1.76it/s]Training 3/3 epoch (loss 0.0851):  69%|██████▉   | 11721/16950 [2:10:12<51:44,  1.68it/s]Training 3/3 epoch (loss 0.6448):  69%|██████▉   | 11721/16950 [2:10:12<51:44,  1.68it/s]Training 3/3 epoch (loss 0.6448):  69%|██████▉   | 11722/16950 [2:10:12<56:41,  1.54it/s]Training 3/3 epoch (loss 0.0113):  69%|██████▉   | 11722/16950 [2:10:13<56:41,  1.54it/s]Training 3/3 epoch (loss 0.0113):  69%|██████▉   | 11723/16950 [2:10:13<53:26,  1.63it/s]Training 3/3 epoch (loss 0.0115):  69%|██████▉   | 11723/16950 [2:10:14<53:26,  1.63it/s]Training 3/3 epoch (loss 0.0115):  69%|██████▉   | 11724/16950 [2:10:14<55:11,  1.58it/s]Training 3/3 epoch (loss 0.0067):  69%|██████▉   | 11724/16950 [2:10:14<55:11,  1.58it/s]Training 3/3 epoch (loss 0.0067):  69%|██████▉   | 11725/16950 [2:10:14<52:44,  1.65it/s]Training 3/3 epoch (loss 0.0219):  69%|██████▉   | 11725/16950 [2:10:15<52:44,  1.65it/s]Training 3/3 epoch (loss 0.0219):  69%|██████▉   | 11726/16950 [2:10:15<47:37,  1.83it/s]Training 3/3 epoch (loss 0.0627):  69%|██████▉   | 11726/16950 [2:10:15<47:37,  1.83it/s]Training 3/3 epoch (loss 0.0627):  69%|██████▉   | 11727/16950 [2:10:15<46:50,  1.86it/s]Training 3/3 epoch (loss 0.4743):  69%|██████▉   | 11727/16950 [2:10:16<46:50,  1.86it/s]Training 3/3 epoch (loss 0.4743):  69%|██████▉   | 11728/16950 [2:10:16<50:12,  1.73it/s]Training 3/3 epoch (loss 0.0983):  69%|██████▉   | 11728/16950 [2:10:17<50:12,  1.73it/s]Training 3/3 epoch (loss 0.0983):  69%|██████▉   | 11729/16950 [2:10:17<52:40,  1.65it/s]Training 3/3 epoch (loss 0.0002):  69%|██████▉   | 11729/16950 [2:10:17<52:40,  1.65it/s]Training 3/3 epoch (loss 0.0002):  69%|██████▉   | 11730/16950 [2:10:17<46:55,  1.85it/s]Training 3/3 epoch (loss 0.5427):  69%|██████▉   | 11730/16950 [2:10:17<46:55,  1.85it/s]Training 3/3 epoch (loss 0.5427):  69%|██████▉   | 11731/16950 [2:10:17<47:03,  1.85it/s]Training 3/3 epoch (loss 0.5510):  69%|██████▉   | 11731/16950 [2:10:18<47:03,  1.85it/s]Training 3/3 epoch (loss 0.5510):  69%|██████▉   | 11732/16950 [2:10:18<56:48,  1.53it/s]Training 3/3 epoch (loss 0.6311):  69%|██████▉   | 11732/16950 [2:10:19<56:48,  1.53it/s]Training 3/3 epoch (loss 0.6311):  69%|██████▉   | 11733/16950 [2:10:19<57:05,  1.52it/s]Training 3/3 epoch (loss 0.3671):  69%|██████▉   | 11733/16950 [2:10:20<57:05,  1.52it/s]Training 3/3 epoch (loss 0.3671):  69%|██████▉   | 11734/16950 [2:10:20<57:21,  1.52it/s]Training 3/3 epoch (loss 0.3515):  69%|██████▉   | 11734/16950 [2:10:21<57:21,  1.52it/s]Training 3/3 epoch (loss 0.3515):  69%|██████▉   | 11735/16950 [2:10:21<1:05:49,  1.32it/s]Training 3/3 epoch (loss 0.3717):  69%|██████▉   | 11735/16950 [2:10:21<1:05:49,  1.32it/s]Training 3/3 epoch (loss 0.3717):  69%|██████▉   | 11736/16950 [2:10:21<1:02:15,  1.40it/s]Training 3/3 epoch (loss 0.0001):  69%|██████▉   | 11736/16950 [2:10:22<1:02:15,  1.40it/s]Training 3/3 epoch (loss 0.0001):  69%|██████▉   | 11737/16950 [2:10:22<52:25,  1.66it/s]  Training 3/3 epoch (loss 0.0142):  69%|██████▉   | 11737/16950 [2:10:22<52:25,  1.66it/s]Training 3/3 epoch (loss 0.0142):  69%|██████▉   | 11738/16950 [2:10:22<55:04,  1.58it/s]Training 3/3 epoch (loss 0.5088):  69%|██████▉   | 11738/16950 [2:10:23<55:04,  1.58it/s]Training 3/3 epoch (loss 0.5088):  69%|██████▉   | 11739/16950 [2:10:23<1:08:06,  1.28it/s]Training 3/3 epoch (loss 0.4138):  69%|██████▉   | 11739/16950 [2:10:24<1:08:06,  1.28it/s]Training 3/3 epoch (loss 0.4138):  69%|██████▉   | 11740/16950 [2:10:24<1:04:26,  1.35it/s]Training 3/3 epoch (loss 0.1641):  69%|██████▉   | 11740/16950 [2:10:25<1:04:26,  1.35it/s]Training 3/3 epoch (loss 0.1641):  69%|██████▉   | 11741/16950 [2:10:25<1:08:15,  1.27it/s]Training 3/3 epoch (loss 0.0064):  69%|██████▉   | 11741/16950 [2:10:26<1:08:15,  1.27it/s]Training 3/3 epoch (loss 0.0064):  69%|██████▉   | 11742/16950 [2:10:26<1:03:46,  1.36it/s]Training 3/3 epoch (loss 0.0029):  69%|██████▉   | 11742/16950 [2:10:26<1:03:46,  1.36it/s]Training 3/3 epoch (loss 0.0029):  69%|██████▉   | 11743/16950 [2:10:26<56:12,  1.54it/s]  Training 3/3 epoch (loss 0.0276):  69%|██████▉   | 11743/16950 [2:10:27<56:12,  1.54it/s]Training 3/3 epoch (loss 0.0276):  69%|██████▉   | 11744/16950 [2:10:27<54:54,  1.58it/s]Training 3/3 epoch (loss 0.0050):  69%|██████▉   | 11744/16950 [2:10:27<54:54,  1.58it/s]Training 3/3 epoch (loss 0.0050):  69%|██████▉   | 11745/16950 [2:10:27<54:57,  1.58it/s]Training 3/3 epoch (loss 0.0334):  69%|██████▉   | 11745/16950 [2:10:28<54:57,  1.58it/s]Training 3/3 epoch (loss 0.0334):  69%|██████▉   | 11746/16950 [2:10:28<54:41,  1.59it/s]Training 3/3 epoch (loss 0.0416):  69%|██████▉   | 11746/16950 [2:10:29<54:41,  1.59it/s]Training 3/3 epoch (loss 0.0416):  69%|██████▉   | 11747/16950 [2:10:29<55:50,  1.55it/s]Training 3/3 epoch (loss 0.0461):  69%|██████▉   | 11747/16950 [2:10:29<55:50,  1.55it/s]Training 3/3 epoch (loss 0.0461):  69%|██████▉   | 11748/16950 [2:10:29<51:12,  1.69it/s]Training 3/3 epoch (loss 0.0507):  69%|██████▉   | 11748/16950 [2:10:30<51:12,  1.69it/s]Training 3/3 epoch (loss 0.0507):  69%|██████▉   | 11749/16950 [2:10:30<51:24,  1.69it/s]Training 3/3 epoch (loss 0.0564):  69%|██████▉   | 11749/16950 [2:10:30<51:24,  1.69it/s]Training 3/3 epoch (loss 0.0564):  69%|██████▉   | 11750/16950 [2:10:30<53:20,  1.62it/s]Training 3/3 epoch (loss 0.0091):  69%|██████▉   | 11750/16950 [2:10:31<53:20,  1.62it/s]Training 3/3 epoch (loss 0.0091):  69%|██████▉   | 11751/16950 [2:10:31<1:00:17,  1.44it/s]Training 3/3 epoch (loss 0.4786):  69%|██████▉   | 11751/16950 [2:10:32<1:00:17,  1.44it/s]Training 3/3 epoch (loss 0.4786):  69%|██████▉   | 11752/16950 [2:10:32<1:01:00,  1.42it/s]Training 3/3 epoch (loss 0.0064):  69%|██████▉   | 11752/16950 [2:10:32<1:01:00,  1.42it/s]Training 3/3 epoch (loss 0.0064):  69%|██████▉   | 11753/16950 [2:10:32<56:10,  1.54it/s]  Training 3/3 epoch (loss 0.0897):  69%|██████▉   | 11753/16950 [2:10:33<56:10,  1.54it/s]Training 3/3 epoch (loss 0.0897):  69%|██████▉   | 11754/16950 [2:10:33<1:03:42,  1.36it/s]Training 3/3 epoch (loss 0.0720):  69%|██████▉   | 11754/16950 [2:10:34<1:03:42,  1.36it/s]Training 3/3 epoch (loss 0.0720):  69%|██████▉   | 11755/16950 [2:10:34<58:34,  1.48it/s]  Training 3/3 epoch (loss 0.4590):  69%|██████▉   | 11755/16950 [2:10:34<58:34,  1.48it/s]Training 3/3 epoch (loss 0.4590):  69%|██████▉   | 11756/16950 [2:10:34<53:51,  1.61it/s]Training 3/3 epoch (loss 0.0137):  69%|██████▉   | 11756/16950 [2:10:35<53:51,  1.61it/s]Training 3/3 epoch (loss 0.0137):  69%|██████▉   | 11757/16950 [2:10:35<56:32,  1.53it/s]Training 3/3 epoch (loss 1.1754):  69%|██████▉   | 11757/16950 [2:10:36<56:32,  1.53it/s]Training 3/3 epoch (loss 1.1754):  69%|██████▉   | 11758/16950 [2:10:36<1:01:51,  1.40it/s]Training 3/3 epoch (loss 0.0053):  69%|██████▉   | 11758/16950 [2:10:37<1:01:51,  1.40it/s]Training 3/3 epoch (loss 0.0053):  69%|██████▉   | 11759/16950 [2:10:37<58:27,  1.48it/s]  Training 3/3 epoch (loss 0.0087):  69%|██████▉   | 11759/16950 [2:10:37<58:27,  1.48it/s]Training 3/3 epoch (loss 0.0087):  69%|██████▉   | 11760/16950 [2:10:37<52:52,  1.64it/s]Training 3/3 epoch (loss 0.2153):  69%|██████▉   | 11760/16950 [2:10:38<52:52,  1.64it/s]Training 3/3 epoch (loss 0.2153):  69%|██████▉   | 11761/16950 [2:10:38<59:39,  1.45it/s]Training 3/3 epoch (loss 0.0942):  69%|██████▉   | 11761/16950 [2:10:39<59:39,  1.45it/s]Training 3/3 epoch (loss 0.0942):  69%|██████▉   | 11762/16950 [2:10:39<1:03:28,  1.36it/s]Training 3/3 epoch (loss 0.1368):  69%|██████▉   | 11762/16950 [2:10:39<1:03:28,  1.36it/s]Training 3/3 epoch (loss 0.1368):  69%|██████▉   | 11763/16950 [2:10:39<58:08,  1.49it/s]  Training 3/3 epoch (loss 0.5705):  69%|██████▉   | 11763/16950 [2:10:40<58:08,  1.49it/s]Training 3/3 epoch (loss 0.5705):  69%|██████▉   | 11764/16950 [2:10:40<57:27,  1.50it/s]Training 3/3 epoch (loss 0.3886):  69%|██████▉   | 11764/16950 [2:10:41<57:27,  1.50it/s]Training 3/3 epoch (loss 0.3886):  69%|██████▉   | 11765/16950 [2:10:41<54:38,  1.58it/s]Training 3/3 epoch (loss 0.3359):  69%|██████▉   | 11765/16950 [2:10:41<54:38,  1.58it/s]Training 3/3 epoch (loss 0.3359):  69%|██████▉   | 11766/16950 [2:10:41<49:57,  1.73it/s]Training 3/3 epoch (loss 0.2750):  69%|██████▉   | 11766/16950 [2:10:41<49:57,  1.73it/s]Training 3/3 epoch (loss 0.2750):  69%|██████▉   | 11767/16950 [2:10:41<48:37,  1.78it/s]Training 3/3 epoch (loss 0.0792):  69%|██████▉   | 11767/16950 [2:10:42<48:37,  1.78it/s]Training 3/3 epoch (loss 0.0792):  69%|██████▉   | 11768/16950 [2:10:42<51:40,  1.67it/s]Training 3/3 epoch (loss 0.1225):  69%|██████▉   | 11768/16950 [2:10:43<51:40,  1.67it/s]Training 3/3 epoch (loss 0.1225):  69%|██████▉   | 11769/16950 [2:10:43<54:28,  1.59it/s]Training 3/3 epoch (loss 0.1451):  69%|██████▉   | 11769/16950 [2:10:43<54:28,  1.59it/s]Training 3/3 epoch (loss 0.1451):  69%|██████▉   | 11770/16950 [2:10:43<50:32,  1.71it/s]Training 3/3 epoch (loss 0.2668):  69%|██████▉   | 11770/16950 [2:10:44<50:32,  1.71it/s]Training 3/3 epoch (loss 0.2668):  69%|██████▉   | 11771/16950 [2:10:44<47:34,  1.81it/s]Training 3/3 epoch (loss 0.5534):  69%|██████▉   | 11771/16950 [2:10:44<47:34,  1.81it/s]Training 3/3 epoch (loss 0.5534):  69%|██████▉   | 11772/16950 [2:10:44<43:10,  2.00it/s]Training 3/3 epoch (loss 0.3660):  69%|██████▉   | 11772/16950 [2:10:45<43:10,  2.00it/s]Training 3/3 epoch (loss 0.3660):  69%|██████▉   | 11773/16950 [2:10:45<43:14,  2.00it/s]Training 3/3 epoch (loss 0.4120):  69%|██████▉   | 11773/16950 [2:10:45<43:14,  2.00it/s]Training 3/3 epoch (loss 0.4120):  69%|██████▉   | 11774/16950 [2:10:45<39:15,  2.20it/s]Training 3/3 epoch (loss 0.3001):  69%|██████▉   | 11774/16950 [2:10:46<39:15,  2.20it/s]Training 3/3 epoch (loss 0.3001):  69%|██████▉   | 11775/16950 [2:10:46<44:29,  1.94it/s]Training 3/3 epoch (loss 0.3530):  69%|██████▉   | 11775/16950 [2:10:46<44:29,  1.94it/s]Training 3/3 epoch (loss 0.3530):  69%|██████▉   | 11776/16950 [2:10:46<47:27,  1.82it/s]Training 3/3 epoch (loss 0.0018):  69%|██████▉   | 11776/16950 [2:10:47<47:27,  1.82it/s]Training 3/3 epoch (loss 0.0018):  69%|██████▉   | 11777/16950 [2:10:47<44:03,  1.96it/s]Training 3/3 epoch (loss 0.0012):  69%|██████▉   | 11777/16950 [2:10:47<44:03,  1.96it/s]Training 3/3 epoch (loss 0.0012):  69%|██████▉   | 11778/16950 [2:10:47<41:00,  2.10it/s]Training 3/3 epoch (loss 0.0173):  69%|██████▉   | 11778/16950 [2:10:48<41:00,  2.10it/s]Training 3/3 epoch (loss 0.0173):  69%|██████▉   | 11779/16950 [2:10:48<43:36,  1.98it/s]Training 3/3 epoch (loss 0.4092):  69%|██████▉   | 11779/16950 [2:10:48<43:36,  1.98it/s]Training 3/3 epoch (loss 0.4092):  69%|██████▉   | 11780/16950 [2:10:48<42:07,  2.05it/s]Training 3/3 epoch (loss 0.0514):  69%|██████▉   | 11780/16950 [2:10:49<42:07,  2.05it/s]Training 3/3 epoch (loss 0.0514):  70%|██████▉   | 11781/16950 [2:10:49<45:38,  1.89it/s]Training 3/3 epoch (loss 0.0045):  70%|██████▉   | 11781/16950 [2:10:49<45:38,  1.89it/s]Training 3/3 epoch (loss 0.0045):  70%|██████▉   | 11782/16950 [2:10:49<45:27,  1.89it/s]Training 3/3 epoch (loss 0.0007):  70%|██████▉   | 11782/16950 [2:10:50<45:27,  1.89it/s]Training 3/3 epoch (loss 0.0007):  70%|██████▉   | 11783/16950 [2:10:50<43:11,  1.99it/s]Training 3/3 epoch (loss 0.0004):  70%|██████▉   | 11783/16950 [2:10:50<43:11,  1.99it/s]Training 3/3 epoch (loss 0.0004):  70%|██████▉   | 11784/16950 [2:10:50<40:54,  2.10it/s]Training 3/3 epoch (loss 0.2524):  70%|██████▉   | 11784/16950 [2:10:51<40:54,  2.10it/s]Training 3/3 epoch (loss 0.2524):  70%|██████▉   | 11785/16950 [2:10:51<42:58,  2.00it/s]Training 3/3 epoch (loss 0.1396):  70%|██████▉   | 11785/16950 [2:10:51<42:58,  2.00it/s]Training 3/3 epoch (loss 0.1396):  70%|██████▉   | 11786/16950 [2:10:51<44:49,  1.92it/s]Training 3/3 epoch (loss 0.3257):  70%|██████▉   | 11786/16950 [2:10:52<44:49,  1.92it/s]Training 3/3 epoch (loss 0.3257):  70%|██████▉   | 11787/16950 [2:10:52<48:12,  1.79it/s]Training 3/3 epoch (loss 0.4078):  70%|██████▉   | 11787/16950 [2:10:52<48:12,  1.79it/s]Training 3/3 epoch (loss 0.4078):  70%|██████▉   | 11788/16950 [2:10:52<42:31,  2.02it/s]Training 3/3 epoch (loss 0.0175):  70%|██████▉   | 11788/16950 [2:10:53<42:31,  2.02it/s]Training 3/3 epoch (loss 0.0175):  70%|██████▉   | 11789/16950 [2:10:53<45:34,  1.89it/s]Training 3/3 epoch (loss 0.2970):  70%|██████▉   | 11789/16950 [2:10:53<45:34,  1.89it/s]Training 3/3 epoch (loss 0.2970):  70%|██████▉   | 11790/16950 [2:10:53<44:26,  1.94it/s]Training 3/3 epoch (loss 0.3074):  70%|██████▉   | 11790/16950 [2:10:54<44:26,  1.94it/s]Training 3/3 epoch (loss 0.3074):  70%|██████▉   | 11791/16950 [2:10:54<42:03,  2.04it/s]Training 3/3 epoch (loss 0.0216):  70%|██████▉   | 11791/16950 [2:10:54<42:03,  2.04it/s]Training 3/3 epoch (loss 0.0216):  70%|██████▉   | 11792/16950 [2:10:54<42:41,  2.01it/s]Training 3/3 epoch (loss 0.2757):  70%|██████▉   | 11792/16950 [2:10:55<42:41,  2.01it/s]Training 3/3 epoch (loss 0.2757):  70%|██████▉   | 11793/16950 [2:10:55<38:30,  2.23it/s]Training 3/3 epoch (loss 0.0015):  70%|██████▉   | 11793/16950 [2:10:55<38:30,  2.23it/s]Training 3/3 epoch (loss 0.0015):  70%|██████▉   | 11794/16950 [2:10:55<43:03,  2.00it/s]Training 3/3 epoch (loss 0.0182):  70%|██████▉   | 11794/16950 [2:10:56<43:03,  2.00it/s]Training 3/3 epoch (loss 0.0182):  70%|██████▉   | 11795/16950 [2:10:56<47:56,  1.79it/s]Training 3/3 epoch (loss 0.0086):  70%|██████▉   | 11795/16950 [2:10:57<47:56,  1.79it/s]Training 3/3 epoch (loss 0.0086):  70%|██████▉   | 11796/16950 [2:10:57<51:53,  1.66it/s]Training 3/3 epoch (loss 0.0038):  70%|██████▉   | 11796/16950 [2:10:57<51:53,  1.66it/s]Training 3/3 epoch (loss 0.0038):  70%|██████▉   | 11797/16950 [2:10:57<50:41,  1.69it/s]Training 3/3 epoch (loss 0.4743):  70%|██████▉   | 11797/16950 [2:10:58<50:41,  1.69it/s]Training 3/3 epoch (loss 0.4743):  70%|██████▉   | 11798/16950 [2:10:58<52:15,  1.64it/s]Training 3/3 epoch (loss 0.0485):  70%|██████▉   | 11798/16950 [2:10:58<52:15,  1.64it/s]Training 3/3 epoch (loss 0.0485):  70%|██████▉   | 11799/16950 [2:10:58<49:31,  1.73it/s]Training 3/3 epoch (loss 0.3536):  70%|██████▉   | 11799/16950 [2:10:59<49:31,  1.73it/s]Training 3/3 epoch (loss 0.3536):  70%|██████▉   | 11800/16950 [2:10:59<51:44,  1.66it/s]Training 3/3 epoch (loss 0.2187):  70%|██████▉   | 11800/16950 [2:11:00<51:44,  1.66it/s]Training 3/3 epoch (loss 0.2187):  70%|██████▉   | 11801/16950 [2:11:00<48:44,  1.76it/s]Training 3/3 epoch (loss 0.0010):  70%|██████▉   | 11801/16950 [2:11:00<48:44,  1.76it/s]Training 3/3 epoch (loss 0.0010):  70%|██████▉   | 11802/16950 [2:11:00<50:23,  1.70it/s]Training 3/3 epoch (loss 0.2635):  70%|██████▉   | 11802/16950 [2:11:01<50:23,  1.70it/s]Training 3/3 epoch (loss 0.2635):  70%|██████▉   | 11803/16950 [2:11:01<49:22,  1.74it/s]Training 3/3 epoch (loss 0.0584):  70%|██████▉   | 11803/16950 [2:11:01<49:22,  1.74it/s]Training 3/3 epoch (loss 0.0584):  70%|██████▉   | 11804/16950 [2:11:01<50:39,  1.69it/s]Training 3/3 epoch (loss 0.0196):  70%|██████▉   | 11804/16950 [2:11:02<50:39,  1.69it/s]Training 3/3 epoch (loss 0.0196):  70%|██████▉   | 11805/16950 [2:11:02<47:25,  1.81it/s]Training 3/3 epoch (loss 0.0002):  70%|██████▉   | 11805/16950 [2:11:02<47:25,  1.81it/s]Training 3/3 epoch (loss 0.0002):  70%|██████▉   | 11806/16950 [2:11:02<42:52,  2.00it/s]Training 3/3 epoch (loss 0.3808):  70%|██████▉   | 11806/16950 [2:11:03<42:52,  2.00it/s]Training 3/3 epoch (loss 0.3808):  70%|██████▉   | 11807/16950 [2:11:03<47:57,  1.79it/s]Training 3/3 epoch (loss 0.0031):  70%|██████▉   | 11807/16950 [2:11:04<47:57,  1.79it/s]Training 3/3 epoch (loss 0.0031):  70%|██████▉   | 11808/16950 [2:11:04<53:03,  1.62it/s]Training 3/3 epoch (loss 0.0092):  70%|██████▉   | 11808/16950 [2:11:05<53:03,  1.62it/s]Training 3/3 epoch (loss 0.0092):  70%|██████▉   | 11809/16950 [2:11:05<1:03:39,  1.35it/s]Training 3/3 epoch (loss 0.2670):  70%|██████▉   | 11809/16950 [2:11:05<1:03:39,  1.35it/s]Training 3/3 epoch (loss 0.2670):  70%|██████▉   | 11810/16950 [2:11:05<1:04:39,  1.32it/s]Training 3/3 epoch (loss 0.0238):  70%|██████▉   | 11810/16950 [2:11:06<1:04:39,  1.32it/s]Training 3/3 epoch (loss 0.0238):  70%|██████▉   | 11811/16950 [2:11:06<56:51,  1.51it/s]  Training 3/3 epoch (loss 0.0126):  70%|██████▉   | 11811/16950 [2:11:07<56:51,  1.51it/s]Training 3/3 epoch (loss 0.0126):  70%|██████▉   | 11812/16950 [2:11:07<56:00,  1.53it/s]Training 3/3 epoch (loss 0.0251):  70%|██████▉   | 11812/16950 [2:11:07<56:00,  1.53it/s]Training 3/3 epoch (loss 0.0251):  70%|██████▉   | 11813/16950 [2:11:07<57:33,  1.49it/s]Training 3/3 epoch (loss 0.5007):  70%|██████▉   | 11813/16950 [2:11:08<57:33,  1.49it/s]Training 3/3 epoch (loss 0.5007):  70%|██████▉   | 11814/16950 [2:11:08<1:00:07,  1.42it/s]Training 3/3 epoch (loss 0.3552):  70%|██████▉   | 11814/16950 [2:11:09<1:00:07,  1.42it/s]Training 3/3 epoch (loss 0.3552):  70%|██████▉   | 11815/16950 [2:11:09<1:05:49,  1.30it/s]Training 3/3 epoch (loss 0.2408):  70%|██████▉   | 11815/16950 [2:11:09<1:05:49,  1.30it/s]Training 3/3 epoch (loss 0.2408):  70%|██████▉   | 11816/16950 [2:11:09<59:11,  1.45it/s]  Training 3/3 epoch (loss 0.6875):  70%|██████▉   | 11816/16950 [2:11:10<59:11,  1.45it/s]Training 3/3 epoch (loss 0.6875):  70%|██████▉   | 11817/16950 [2:11:10<58:20,  1.47it/s]Training 3/3 epoch (loss 0.0006):  70%|██████▉   | 11817/16950 [2:11:11<58:20,  1.47it/s]Training 3/3 epoch (loss 0.0006):  70%|██████▉   | 11818/16950 [2:11:11<49:53,  1.71it/s]Training 3/3 epoch (loss 0.2553):  70%|██████▉   | 11818/16950 [2:11:11<49:53,  1.71it/s]Training 3/3 epoch (loss 0.2553):  70%|██████▉   | 11819/16950 [2:11:11<49:34,  1.72it/s]Training 3/3 epoch (loss 0.4439):  70%|██████▉   | 11819/16950 [2:11:12<49:34,  1.72it/s]Training 3/3 epoch (loss 0.4439):  70%|██████▉   | 11820/16950 [2:11:12<48:58,  1.75it/s]Training 3/3 epoch (loss 0.0664):  70%|██████▉   | 11820/16950 [2:11:12<48:58,  1.75it/s]Training 3/3 epoch (loss 0.0664):  70%|██████▉   | 11821/16950 [2:11:12<51:42,  1.65it/s]Training 3/3 epoch (loss 0.0045):  70%|██████▉   | 11821/16950 [2:11:13<51:42,  1.65it/s]Training 3/3 epoch (loss 0.0045):  70%|██████▉   | 11822/16950 [2:11:13<51:41,  1.65it/s]Training 3/3 epoch (loss 0.1088):  70%|██████▉   | 11822/16950 [2:11:14<51:41,  1.65it/s]Training 3/3 epoch (loss 0.1088):  70%|██████▉   | 11823/16950 [2:11:14<54:47,  1.56it/s]Training 3/3 epoch (loss 0.0113):  70%|██████▉   | 11823/16950 [2:11:14<54:47,  1.56it/s]Training 3/3 epoch (loss 0.0113):  70%|██████▉   | 11824/16950 [2:11:14<54:37,  1.56it/s]Training 3/3 epoch (loss 0.0439):  70%|██████▉   | 11824/16950 [2:11:15<54:37,  1.56it/s]Training 3/3 epoch (loss 0.0439):  70%|██████▉   | 11825/16950 [2:11:15<1:02:32,  1.37it/s]Training 3/3 epoch (loss 0.3458):  70%|██████▉   | 11825/16950 [2:11:16<1:02:32,  1.37it/s]Training 3/3 epoch (loss 0.3458):  70%|██████▉   | 11826/16950 [2:11:16<1:11:04,  1.20it/s]Training 3/3 epoch (loss 0.0004):  70%|██████▉   | 11826/16950 [2:11:17<1:11:04,  1.20it/s]Training 3/3 epoch (loss 0.0004):  70%|██████▉   | 11827/16950 [2:11:17<1:04:18,  1.33it/s]Training 3/3 epoch (loss 0.0743):  70%|██████▉   | 11827/16950 [2:11:18<1:04:18,  1.33it/s]Training 3/3 epoch (loss 0.0743):  70%|██████▉   | 11828/16950 [2:11:18<1:04:03,  1.33it/s]Training 3/3 epoch (loss 0.4542):  70%|██████▉   | 11828/16950 [2:11:18<1:04:03,  1.33it/s]Training 3/3 epoch (loss 0.4542):  70%|██████▉   | 11829/16950 [2:11:18<58:31,  1.46it/s]  Training 3/3 epoch (loss 0.0939):  70%|██████▉   | 11829/16950 [2:11:19<58:31,  1.46it/s]Training 3/3 epoch (loss 0.0939):  70%|██████▉   | 11830/16950 [2:11:19<54:14,  1.57it/s]Training 3/3 epoch (loss 0.2487):  70%|██████▉   | 11830/16950 [2:11:19<54:14,  1.57it/s]Training 3/3 epoch (loss 0.2487):  70%|██████▉   | 11831/16950 [2:11:19<50:57,  1.67it/s]Training 3/3 epoch (loss 0.6151):  70%|██████▉   | 11831/16950 [2:11:20<50:57,  1.67it/s]Training 3/3 epoch (loss 0.6151):  70%|██████▉   | 11832/16950 [2:11:20<49:33,  1.72it/s]Training 3/3 epoch (loss 0.0083):  70%|██████▉   | 11832/16950 [2:11:20<49:33,  1.72it/s]Training 3/3 epoch (loss 0.0083):  70%|██████▉   | 11833/16950 [2:11:20<51:22,  1.66it/s]Training 3/3 epoch (loss 0.0003):  70%|██████▉   | 11833/16950 [2:11:21<51:22,  1.66it/s]Training 3/3 epoch (loss 0.0003):  70%|██████▉   | 11834/16950 [2:11:21<45:57,  1.86it/s]Training 3/3 epoch (loss 0.0274):  70%|██████▉   | 11834/16950 [2:11:21<45:57,  1.86it/s]Training 3/3 epoch (loss 0.0274):  70%|██████▉   | 11835/16950 [2:11:21<46:03,  1.85it/s]Training 3/3 epoch (loss 0.0092):  70%|██████▉   | 11835/16950 [2:11:22<46:03,  1.85it/s]Training 3/3 epoch (loss 0.0092):  70%|██████▉   | 11836/16950 [2:11:22<45:19,  1.88it/s]Training 3/3 epoch (loss 0.0026):  70%|██████▉   | 11836/16950 [2:11:22<45:19,  1.88it/s]Training 3/3 epoch (loss 0.0026):  70%|██████▉   | 11837/16950 [2:11:22<48:30,  1.76it/s]Training 3/3 epoch (loss 0.0079):  70%|██████▉   | 11837/16950 [2:11:23<48:30,  1.76it/s]Training 3/3 epoch (loss 0.0079):  70%|██████▉   | 11838/16950 [2:11:23<52:41,  1.62it/s]Training 3/3 epoch (loss 0.9200):  70%|██████▉   | 11838/16950 [2:11:24<52:41,  1.62it/s]Training 3/3 epoch (loss 0.9200):  70%|██████▉   | 11839/16950 [2:11:24<47:39,  1.79it/s]Training 3/3 epoch (loss 0.1595):  70%|██████▉   | 11839/16950 [2:11:24<47:39,  1.79it/s]Training 3/3 epoch (loss 0.1595):  70%|██████▉   | 11840/16950 [2:11:24<42:16,  2.01it/s]Training 3/3 epoch (loss 0.0162):  70%|██████▉   | 11840/16950 [2:11:25<42:16,  2.01it/s]Training 3/3 epoch (loss 0.0162):  70%|██████▉   | 11841/16950 [2:11:25<44:36,  1.91it/s]Training 3/3 epoch (loss 0.0028):  70%|██████▉   | 11841/16950 [2:11:25<44:36,  1.91it/s]Training 3/3 epoch (loss 0.0028):  70%|██████▉   | 11842/16950 [2:11:25<41:29,  2.05it/s]Training 3/3 epoch (loss 0.0174):  70%|██████▉   | 11842/16950 [2:11:25<41:29,  2.05it/s]Training 3/3 epoch (loss 0.0174):  70%|██████▉   | 11843/16950 [2:11:25<39:23,  2.16it/s]Training 3/3 epoch (loss 0.0056):  70%|██████▉   | 11843/16950 [2:11:26<39:23,  2.16it/s]Training 3/3 epoch (loss 0.0056):  70%|██████▉   | 11844/16950 [2:11:26<40:12,  2.12it/s]Training 3/3 epoch (loss 0.0534):  70%|██████▉   | 11844/16950 [2:11:26<40:12,  2.12it/s]Training 3/3 epoch (loss 0.0534):  70%|██████▉   | 11845/16950 [2:11:26<38:53,  2.19it/s]Training 3/3 epoch (loss 0.0012):  70%|██████▉   | 11845/16950 [2:11:27<38:53,  2.19it/s]Training 3/3 epoch (loss 0.0012):  70%|██████▉   | 11846/16950 [2:11:27<39:50,  2.14it/s]Training 3/3 epoch (loss 0.2791):  70%|██████▉   | 11846/16950 [2:11:27<39:50,  2.14it/s]Training 3/3 epoch (loss 0.2791):  70%|██████▉   | 11847/16950 [2:11:27<40:40,  2.09it/s]Training 3/3 epoch (loss 0.3286):  70%|██████▉   | 11847/16950 [2:11:28<40:40,  2.09it/s]Training 3/3 epoch (loss 0.3286):  70%|██████▉   | 11848/16950 [2:11:28<45:05,  1.89it/s]Training 3/3 epoch (loss 0.0003):  70%|██████▉   | 11848/16950 [2:11:28<45:05,  1.89it/s]Training 3/3 epoch (loss 0.0003):  70%|██████▉   | 11849/16950 [2:11:28<42:23,  2.01it/s]Training 3/3 epoch (loss 0.0106):  70%|██████▉   | 11849/16950 [2:11:29<42:23,  2.01it/s]Training 3/3 epoch (loss 0.0106):  70%|██████▉   | 11850/16950 [2:11:29<43:24,  1.96it/s]Training 3/3 epoch (loss 0.0005):  70%|██████▉   | 11850/16950 [2:11:29<43:24,  1.96it/s]Training 3/3 epoch (loss 0.0005):  70%|██████▉   | 11851/16950 [2:11:29<40:48,  2.08it/s]Training 3/3 epoch (loss 0.0018):  70%|██████▉   | 11851/16950 [2:11:30<40:48,  2.08it/s]Training 3/3 epoch (loss 0.0018):  70%|██████▉   | 11852/16950 [2:11:30<39:49,  2.13it/s]Training 3/3 epoch (loss 0.6099):  70%|██████▉   | 11852/16950 [2:11:30<39:49,  2.13it/s]Training 3/3 epoch (loss 0.6099):  70%|██████▉   | 11853/16950 [2:11:30<46:49,  1.81it/s]Training 3/3 epoch (loss 0.3233):  70%|██████▉   | 11853/16950 [2:11:31<46:49,  1.81it/s]Training 3/3 epoch (loss 0.3233):  70%|██████▉   | 11854/16950 [2:11:31<45:37,  1.86it/s]Training 3/3 epoch (loss 0.1293):  70%|██████▉   | 11854/16950 [2:11:31<45:37,  1.86it/s]Training 3/3 epoch (loss 0.1293):  70%|██████▉   | 11855/16950 [2:11:31<43:25,  1.96it/s]Training 3/3 epoch (loss 0.3267):  70%|██████▉   | 11855/16950 [2:11:32<43:25,  1.96it/s]Training 3/3 epoch (loss 0.3267):  70%|██████▉   | 11856/16950 [2:11:32<45:10,  1.88it/s]Training 3/3 epoch (loss 0.0027):  70%|██████▉   | 11856/16950 [2:11:33<45:10,  1.88it/s]Training 3/3 epoch (loss 0.0027):  70%|██████▉   | 11857/16950 [2:11:33<49:25,  1.72it/s]Training 3/3 epoch (loss 0.0086):  70%|██████▉   | 11857/16950 [2:11:33<49:25,  1.72it/s]Training 3/3 epoch (loss 0.0086):  70%|██████▉   | 11858/16950 [2:11:33<50:15,  1.69it/s]Training 3/3 epoch (loss 0.4858):  70%|██████▉   | 11858/16950 [2:11:34<50:15,  1.69it/s]Training 3/3 epoch (loss 0.4858):  70%|██████▉   | 11859/16950 [2:11:34<49:09,  1.73it/s]Training 3/3 epoch (loss 0.0061):  70%|██████▉   | 11859/16950 [2:11:35<49:09,  1.73it/s]Training 3/3 epoch (loss 0.0061):  70%|██████▉   | 11860/16950 [2:11:35<51:50,  1.64it/s]Training 3/3 epoch (loss nan):  70%|██████▉   | 11860/16950 [2:11:36<51:50,  1.64it/s]   Training 3/3 epoch (loss nan):  70%|██████▉   | 11861/16950 [2:11:36<1:04:56,  1.31it/s]Training 3/3 epoch (loss 0.0199):  70%|██████▉   | 11861/16950 [2:11:36<1:04:56,  1.31it/s]Training 3/3 epoch (loss 0.0199):  70%|██████▉   | 11862/16950 [2:11:36<1:04:41,  1.31it/s]Training 3/3 epoch (loss 0.0362):  70%|██████▉   | 11862/16950 [2:11:37<1:04:41,  1.31it/s]Training 3/3 epoch (loss 0.0362):  70%|██████▉   | 11863/16950 [2:11:37<1:01:13,  1.38it/s]Training 3/3 epoch (loss 0.3841):  70%|██████▉   | 11863/16950 [2:11:38<1:01:13,  1.38it/s]Training 3/3 epoch (loss 0.3841):  70%|██████▉   | 11864/16950 [2:11:38<56:04,  1.51it/s]  Training 3/3 epoch (loss 0.3534):  70%|██████▉   | 11864/16950 [2:11:38<56:04,  1.51it/s]Training 3/3 epoch (loss 0.3534):  70%|███████   | 11865/16950 [2:11:38<47:05,  1.80it/s]Training 3/3 epoch (loss 0.0015):  70%|███████   | 11865/16950 [2:11:38<47:05,  1.80it/s]Training 3/3 epoch (loss 0.0015):  70%|███████   | 11866/16950 [2:11:38<41:27,  2.04it/s]Training 3/3 epoch (loss 0.2702):  70%|███████   | 11866/16950 [2:11:39<41:27,  2.04it/s]Training 3/3 epoch (loss 0.2702):  70%|███████   | 11867/16950 [2:11:39<46:45,  1.81it/s]Training 3/3 epoch (loss 0.0002):  70%|███████   | 11867/16950 [2:11:40<46:45,  1.81it/s]Training 3/3 epoch (loss 0.0002):  70%|███████   | 11868/16950 [2:11:40<46:57,  1.80it/s]Training 3/3 epoch (loss 0.3304):  70%|███████   | 11868/16950 [2:11:40<46:57,  1.80it/s]Training 3/3 epoch (loss 0.3304):  70%|███████   | 11869/16950 [2:11:40<44:57,  1.88it/s]Training 3/3 epoch (loss 0.5105):  70%|███████   | 11869/16950 [2:11:40<44:57,  1.88it/s]Training 3/3 epoch (loss 0.5105):  70%|███████   | 11870/16950 [2:11:40<42:38,  1.99it/s]Training 3/3 epoch (loss 0.6029):  70%|███████   | 11870/16950 [2:11:41<42:38,  1.99it/s]Training 3/3 epoch (loss 0.6029):  70%|███████   | 11871/16950 [2:11:41<55:58,  1.51it/s]Training 3/3 epoch (loss 0.0680):  70%|███████   | 11871/16950 [2:11:42<55:58,  1.51it/s]Training 3/3 epoch (loss 0.0680):  70%|███████   | 11872/16950 [2:11:42<55:41,  1.52it/s]Training 3/3 epoch (loss 0.2003):  70%|███████   | 11872/16950 [2:11:43<55:41,  1.52it/s]Training 3/3 epoch (loss 0.2003):  70%|███████   | 11873/16950 [2:11:43<50:45,  1.67it/s]Training 3/3 epoch (loss 0.0017):  70%|███████   | 11873/16950 [2:11:43<50:45,  1.67it/s]Training 3/3 epoch (loss 0.0017):  70%|███████   | 11874/16950 [2:11:43<45:09,  1.87it/s]Training 3/3 epoch (loss 0.0010):  70%|███████   | 11874/16950 [2:11:43<45:09,  1.87it/s]Training 3/3 epoch (loss 0.0010):  70%|███████   | 11875/16950 [2:11:43<42:13,  2.00it/s]Training 3/3 epoch (loss 0.4062):  70%|███████   | 11875/16950 [2:11:44<42:13,  2.00it/s]Training 3/3 epoch (loss 0.4062):  70%|███████   | 11876/16950 [2:11:44<41:31,  2.04it/s]Training 3/3 epoch (loss 0.0020):  70%|███████   | 11876/16950 [2:11:44<41:31,  2.04it/s]Training 3/3 epoch (loss 0.0020):  70%|███████   | 11877/16950 [2:11:44<36:27,  2.32it/s]Training 3/3 epoch (loss 0.3653):  70%|███████   | 11877/16950 [2:11:45<36:27,  2.32it/s]Training 3/3 epoch (loss 0.3653):  70%|███████   | 11878/16950 [2:11:45<36:16,  2.33it/s]Training 3/3 epoch (loss 0.1629):  70%|███████   | 11878/16950 [2:11:45<36:16,  2.33it/s]Training 3/3 epoch (loss 0.1629):  70%|███████   | 11879/16950 [2:11:45<42:38,  1.98it/s]Training 3/3 epoch (loss 0.6604):  70%|███████   | 11879/16950 [2:11:46<42:38,  1.98it/s]Training 3/3 epoch (loss 0.6604):  70%|███████   | 11880/16950 [2:11:46<47:44,  1.77it/s]Training 3/3 epoch (loss 0.0621):  70%|███████   | 11880/16950 [2:11:46<47:44,  1.77it/s]Training 3/3 epoch (loss 0.0621):  70%|███████   | 11881/16950 [2:11:46<45:44,  1.85it/s]Training 3/3 epoch (loss 0.0059):  70%|███████   | 11881/16950 [2:11:47<45:44,  1.85it/s]Training 3/3 epoch (loss 0.0059):  70%|███████   | 11882/16950 [2:11:47<44:31,  1.90it/s]Training 3/3 epoch (loss 0.0126):  70%|███████   | 11882/16950 [2:11:47<44:31,  1.90it/s]Training 3/3 epoch (loss 0.0126):  70%|███████   | 11883/16950 [2:11:47<43:14,  1.95it/s]Training 3/3 epoch (loss 0.3827):  70%|███████   | 11883/16950 [2:11:48<43:14,  1.95it/s]Training 3/3 epoch (loss 0.3827):  70%|███████   | 11884/16950 [2:11:48<49:44,  1.70it/s]Training 3/3 epoch (loss 0.0578):  70%|███████   | 11884/16950 [2:11:49<49:44,  1.70it/s]Training 3/3 epoch (loss 0.0578):  70%|███████   | 11885/16950 [2:11:49<50:34,  1.67it/s]Training 3/3 epoch (loss 0.2387):  70%|███████   | 11885/16950 [2:11:50<50:34,  1.67it/s]Training 3/3 epoch (loss 0.2387):  70%|███████   | 11886/16950 [2:11:50<55:49,  1.51it/s]Training 3/3 epoch (loss 0.0003):  70%|███████   | 11886/16950 [2:11:50<55:49,  1.51it/s]Training 3/3 epoch (loss 0.0003):  70%|███████   | 11887/16950 [2:11:50<54:09,  1.56it/s]Training 3/3 epoch (loss 0.4487):  70%|███████   | 11887/16950 [2:11:51<54:09,  1.56it/s]Training 3/3 epoch (loss 0.4487):  70%|███████   | 11888/16950 [2:11:51<50:50,  1.66it/s]Training 3/3 epoch (loss 0.0002):  70%|███████   | 11888/16950 [2:11:51<50:50,  1.66it/s]Training 3/3 epoch (loss 0.0002):  70%|███████   | 11889/16950 [2:11:51<46:41,  1.81it/s]Training 3/3 epoch (loss 0.3552):  70%|███████   | 11889/16950 [2:11:52<46:41,  1.81it/s]Training 3/3 epoch (loss 0.3552):  70%|███████   | 11890/16950 [2:11:52<46:03,  1.83it/s]Training 3/3 epoch (loss 0.0010):  70%|███████   | 11890/16950 [2:11:52<46:03,  1.83it/s]Training 3/3 epoch (loss 0.0010):  70%|███████   | 11891/16950 [2:11:52<46:09,  1.83it/s]Training 3/3 epoch (loss 0.5069):  70%|███████   | 11891/16950 [2:11:53<46:09,  1.83it/s]Training 3/3 epoch (loss 0.5069):  70%|███████   | 11892/16950 [2:11:53<55:24,  1.52it/s]Training 3/3 epoch (loss 0.0018):  70%|███████   | 11892/16950 [2:11:54<55:24,  1.52it/s]Training 3/3 epoch (loss 0.0018):  70%|███████   | 11893/16950 [2:11:54<51:54,  1.62it/s]Training 3/3 epoch (loss 0.0650):  70%|███████   | 11893/16950 [2:11:54<51:54,  1.62it/s]Training 3/3 epoch (loss 0.0650):  70%|███████   | 11894/16950 [2:11:54<53:27,  1.58it/s]Training 3/3 epoch (loss 0.0061):  70%|███████   | 11894/16950 [2:11:55<53:27,  1.58it/s]Training 3/3 epoch (loss 0.0061):  70%|███████   | 11895/16950 [2:11:55<54:18,  1.55it/s]Training 3/3 epoch (loss 0.1963):  70%|███████   | 11895/16950 [2:11:55<54:18,  1.55it/s]Training 3/3 epoch (loss 0.1963):  70%|███████   | 11896/16950 [2:11:55<47:52,  1.76it/s]Training 3/3 epoch (loss 0.0003):  70%|███████   | 11896/16950 [2:11:56<47:52,  1.76it/s]Training 3/3 epoch (loss 0.0003):  70%|███████   | 11897/16950 [2:11:56<49:18,  1.71it/s]Training 3/3 epoch (loss 0.1840):  70%|███████   | 11897/16950 [2:11:57<49:18,  1.71it/s]Training 3/3 epoch (loss 0.1840):  70%|███████   | 11898/16950 [2:11:57<53:47,  1.57it/s]Training 3/3 epoch (loss 0.0228):  70%|███████   | 11898/16950 [2:11:58<53:47,  1.57it/s]Training 3/3 epoch (loss 0.0228):  70%|███████   | 11899/16950 [2:11:58<56:53,  1.48it/s]Training 3/3 epoch (loss 0.3110):  70%|███████   | 11899/16950 [2:11:58<56:53,  1.48it/s]Training 3/3 epoch (loss 0.3110):  70%|███████   | 11900/16950 [2:11:58<55:12,  1.52it/s]Training 3/3 epoch (loss 0.4411):  70%|███████   | 11900/16950 [2:11:59<55:12,  1.52it/s]Training 3/3 epoch (loss 0.4411):  70%|███████   | 11901/16950 [2:11:59<1:00:46,  1.38it/s]Training 3/3 epoch (loss 0.0360):  70%|███████   | 11901/16950 [2:11:59<1:00:46,  1.38it/s]Training 3/3 epoch (loss 0.0360):  70%|███████   | 11902/16950 [2:11:59<53:23,  1.58it/s]  Training 3/3 epoch (loss 0.0412):  70%|███████   | 11902/16950 [2:12:00<53:23,  1.58it/s]Training 3/3 epoch (loss 0.0412):  70%|███████   | 11903/16950 [2:12:00<53:14,  1.58it/s]Training 3/3 epoch (loss 0.0003):  70%|███████   | 11903/16950 [2:12:01<53:14,  1.58it/s]Training 3/3 epoch (loss 0.0003):  70%|███████   | 11904/16950 [2:12:01<51:25,  1.64it/s]Training 3/3 epoch (loss 0.0092):  70%|███████   | 11904/16950 [2:12:01<51:25,  1.64it/s]Training 3/3 epoch (loss 0.0092):  70%|███████   | 11905/16950 [2:12:01<51:57,  1.62it/s]Training 3/3 epoch (loss 0.1850):  70%|███████   | 11905/16950 [2:12:02<51:57,  1.62it/s]Training 3/3 epoch (loss 0.1850):  70%|███████   | 11906/16950 [2:12:02<52:11,  1.61it/s]Training 3/3 epoch (loss 0.0024):  70%|███████   | 11906/16950 [2:12:02<52:11,  1.61it/s]Training 3/3 epoch (loss 0.0024):  70%|███████   | 11907/16950 [2:12:02<50:23,  1.67it/s]Training 3/3 epoch (loss 0.0012):  70%|███████   | 11907/16950 [2:12:03<50:23,  1.67it/s]Training 3/3 epoch (loss 0.0012):  70%|███████   | 11908/16950 [2:12:03<51:27,  1.63it/s]Training 3/3 epoch (loss 0.3806):  70%|███████   | 11908/16950 [2:12:04<51:27,  1.63it/s]Training 3/3 epoch (loss 0.3806):  70%|███████   | 11909/16950 [2:12:04<50:00,  1.68it/s]Training 3/3 epoch (loss 0.3347):  70%|███████   | 11909/16950 [2:12:04<50:00,  1.68it/s]Training 3/3 epoch (loss 0.3347):  70%|███████   | 11910/16950 [2:12:04<45:55,  1.83it/s]Training 3/3 epoch (loss 0.0205):  70%|███████   | 11910/16950 [2:12:05<45:55,  1.83it/s]Training 3/3 epoch (loss 0.0205):  70%|███████   | 11911/16950 [2:12:05<45:30,  1.85it/s]Training 3/3 epoch (loss 0.4472):  70%|███████   | 11911/16950 [2:12:05<45:30,  1.85it/s]Training 3/3 epoch (loss 0.4472):  70%|███████   | 11912/16950 [2:12:05<41:53,  2.00it/s]Training 3/3 epoch (loss 0.1388):  70%|███████   | 11912/16950 [2:12:05<41:53,  2.00it/s]Training 3/3 epoch (loss 0.1388):  70%|███████   | 11913/16950 [2:12:05<41:09,  2.04it/s]Training 3/3 epoch (loss 0.5042):  70%|███████   | 11913/16950 [2:12:07<41:09,  2.04it/s]Training 3/3 epoch (loss 0.5042):  70%|███████   | 11914/16950 [2:12:07<57:10,  1.47it/s]Training 3/3 epoch (loss 0.0084):  70%|███████   | 11914/16950 [2:12:07<57:10,  1.47it/s]Training 3/3 epoch (loss 0.0084):  70%|███████   | 11915/16950 [2:12:07<53:02,  1.58it/s]Training 3/3 epoch (loss 0.1494):  70%|███████   | 11915/16950 [2:12:08<53:02,  1.58it/s]Training 3/3 epoch (loss 0.1494):  70%|███████   | 11916/16950 [2:12:08<55:50,  1.50it/s]Training 3/3 epoch (loss 0.0145):  70%|███████   | 11916/16950 [2:12:08<55:50,  1.50it/s]Training 3/3 epoch (loss 0.0145):  70%|███████   | 11917/16950 [2:12:08<52:54,  1.59it/s]Training 3/3 epoch (loss 0.0584):  70%|███████   | 11917/16950 [2:12:09<52:54,  1.59it/s]Training 3/3 epoch (loss 0.0584):  70%|███████   | 11918/16950 [2:12:09<49:15,  1.70it/s]Training 3/3 epoch (loss 0.0245):  70%|███████   | 11918/16950 [2:12:10<49:15,  1.70it/s]Training 3/3 epoch (loss 0.0245):  70%|███████   | 11919/16950 [2:12:10<49:59,  1.68it/s]Training 3/3 epoch (loss 0.2093):  70%|███████   | 11919/16950 [2:12:10<49:59,  1.68it/s]Training 3/3 epoch (loss 0.2093):  70%|███████   | 11920/16950 [2:12:10<46:14,  1.81it/s]Training 3/3 epoch (loss 0.0101):  70%|███████   | 11920/16950 [2:12:11<46:14,  1.81it/s]Training 3/3 epoch (loss 0.0101):  70%|███████   | 11921/16950 [2:12:11<48:42,  1.72it/s]Training 3/3 epoch (loss 0.2059):  70%|███████   | 11921/16950 [2:12:11<48:42,  1.72it/s]Training 3/3 epoch (loss 0.2059):  70%|███████   | 11922/16950 [2:12:11<48:15,  1.74it/s]Training 3/3 epoch (loss 0.0750):  70%|███████   | 11922/16950 [2:12:12<48:15,  1.74it/s]Training 3/3 epoch (loss 0.0750):  70%|███████   | 11923/16950 [2:12:12<51:12,  1.64it/s]Training 3/3 epoch (loss 0.4497):  70%|███████   | 11923/16950 [2:12:13<51:12,  1.64it/s]Training 3/3 epoch (loss 0.4497):  70%|███████   | 11924/16950 [2:12:13<52:23,  1.60it/s]Training 3/3 epoch (loss 0.0004):  70%|███████   | 11924/16950 [2:12:13<52:23,  1.60it/s]Training 3/3 epoch (loss 0.0004):  70%|███████   | 11925/16950 [2:12:13<50:42,  1.65it/s]Training 3/3 epoch (loss 0.0098):  70%|███████   | 11925/16950 [2:12:14<50:42,  1.65it/s]Training 3/3 epoch (loss 0.0098):  70%|███████   | 11926/16950 [2:12:14<48:29,  1.73it/s]Training 3/3 epoch (loss 0.0194):  70%|███████   | 11926/16950 [2:12:14<48:29,  1.73it/s]Training 3/3 epoch (loss 0.0194):  70%|███████   | 11927/16950 [2:12:14<46:48,  1.79it/s]Training 3/3 epoch (loss 0.2148):  70%|███████   | 11927/16950 [2:12:15<46:48,  1.79it/s]Training 3/3 epoch (loss 0.2148):  70%|███████   | 11928/16950 [2:12:15<53:50,  1.55it/s]Training 3/3 epoch (loss 0.1355):  70%|███████   | 11928/16950 [2:12:16<53:50,  1.55it/s]Training 3/3 epoch (loss 0.1355):  70%|███████   | 11929/16950 [2:12:16<51:14,  1.63it/s]Training 3/3 epoch (loss 0.3888):  70%|███████   | 11929/16950 [2:12:16<51:14,  1.63it/s]Training 3/3 epoch (loss 0.3888):  70%|███████   | 11930/16950 [2:12:16<52:35,  1.59it/s]Training 3/3 epoch (loss 0.0011):  70%|███████   | 11930/16950 [2:12:17<52:35,  1.59it/s]Training 3/3 epoch (loss 0.0011):  70%|███████   | 11931/16950 [2:12:17<47:04,  1.78it/s]Training 3/3 epoch (loss 0.0016):  70%|███████   | 11931/16950 [2:12:17<47:04,  1.78it/s]Training 3/3 epoch (loss 0.0016):  70%|███████   | 11932/16950 [2:12:17<49:33,  1.69it/s]Training 3/3 epoch (loss 0.0016):  70%|███████   | 11932/16950 [2:12:18<49:33,  1.69it/s]Training 3/3 epoch (loss 0.0016):  70%|███████   | 11933/16950 [2:12:18<45:55,  1.82it/s]Training 3/3 epoch (loss 0.0875):  70%|███████   | 11933/16950 [2:12:18<45:55,  1.82it/s]Training 3/3 epoch (loss 0.0875):  70%|███████   | 11934/16950 [2:12:18<47:02,  1.78it/s]Training 3/3 epoch (loss 0.0069):  70%|███████   | 11934/16950 [2:12:19<47:02,  1.78it/s]Training 3/3 epoch (loss 0.0069):  70%|███████   | 11935/16950 [2:12:19<46:09,  1.81it/s]Training 3/3 epoch (loss 0.0259):  70%|███████   | 11935/16950 [2:12:19<46:09,  1.81it/s]Training 3/3 epoch (loss 0.0259):  70%|███████   | 11936/16950 [2:12:19<47:59,  1.74it/s]Training 3/3 epoch (loss 0.0822):  70%|███████   | 11936/16950 [2:12:20<47:59,  1.74it/s]Training 3/3 epoch (loss 0.0822):  70%|███████   | 11937/16950 [2:12:20<48:06,  1.74it/s]Training 3/3 epoch (loss 0.1435):  70%|███████   | 11937/16950 [2:12:21<48:06,  1.74it/s]Training 3/3 epoch (loss 0.1435):  70%|███████   | 11938/16950 [2:12:21<48:38,  1.72it/s]Training 3/3 epoch (loss 0.0308):  70%|███████   | 11938/16950 [2:12:21<48:38,  1.72it/s]Training 3/3 epoch (loss 0.0308):  70%|███████   | 11939/16950 [2:12:21<47:20,  1.76it/s]Training 3/3 epoch (loss 0.1557):  70%|███████   | 11939/16950 [2:12:22<47:20,  1.76it/s]Training 3/3 epoch (loss 0.1557):  70%|███████   | 11940/16950 [2:12:22<46:57,  1.78it/s]Training 3/3 epoch (loss 0.6627):  70%|███████   | 11940/16950 [2:12:22<46:57,  1.78it/s]Training 3/3 epoch (loss 0.6627):  70%|███████   | 11941/16950 [2:12:22<45:28,  1.84it/s]Training 3/3 epoch (loss 0.4422):  70%|███████   | 11941/16950 [2:12:23<45:28,  1.84it/s]Training 3/3 epoch (loss 0.4422):  70%|███████   | 11942/16950 [2:12:23<44:01,  1.90it/s]Training 3/3 epoch (loss 0.0035):  70%|███████   | 11942/16950 [2:12:23<44:01,  1.90it/s]Training 3/3 epoch (loss 0.0035):  70%|███████   | 11943/16950 [2:12:23<46:34,  1.79it/s]Training 3/3 epoch (loss 0.1114):  70%|███████   | 11943/16950 [2:12:24<46:34,  1.79it/s]Training 3/3 epoch (loss 0.1114):  70%|███████   | 11944/16950 [2:12:24<50:02,  1.67it/s]Training 3/3 epoch (loss 0.0003):  70%|███████   | 11944/16950 [2:12:25<50:02,  1.67it/s]Training 3/3 epoch (loss 0.0003):  70%|███████   | 11945/16950 [2:12:25<50:39,  1.65it/s]Training 3/3 epoch (loss 0.0464):  70%|███████   | 11945/16950 [2:12:25<50:39,  1.65it/s]Training 3/3 epoch (loss 0.0464):  70%|███████   | 11946/16950 [2:12:25<49:45,  1.68it/s]Training 3/3 epoch (loss 0.0068):  70%|███████   | 11946/16950 [2:12:26<49:45,  1.68it/s]Training 3/3 epoch (loss 0.0068):  70%|███████   | 11947/16950 [2:12:26<47:40,  1.75it/s]Training 3/3 epoch (loss 0.0010):  70%|███████   | 11947/16950 [2:12:26<47:40,  1.75it/s]Training 3/3 epoch (loss 0.0010):  70%|███████   | 11948/16950 [2:12:26<42:46,  1.95it/s]Training 3/3 epoch (loss 0.3417):  70%|███████   | 11948/16950 [2:12:27<42:46,  1.95it/s]Training 3/3 epoch (loss 0.3417):  70%|███████   | 11949/16950 [2:12:27<44:09,  1.89it/s]Training 3/3 epoch (loss 0.0004):  70%|███████   | 11949/16950 [2:12:27<44:09,  1.89it/s]Training 3/3 epoch (loss 0.0004):  71%|███████   | 11950/16950 [2:12:27<41:09,  2.02it/s]Training 3/3 epoch (loss 0.5411):  71%|███████   | 11950/16950 [2:12:27<41:09,  2.02it/s]Training 3/3 epoch (loss 0.5411):  71%|███████   | 11951/16950 [2:12:27<36:14,  2.30it/s]Training 3/3 epoch (loss 0.0042):  71%|███████   | 11951/16950 [2:12:28<36:14,  2.30it/s]Training 3/3 epoch (loss 0.0042):  71%|███████   | 11952/16950 [2:12:28<35:44,  2.33it/s]Training 3/3 epoch (loss 0.0910):  71%|███████   | 11952/16950 [2:12:28<35:44,  2.33it/s]Training 3/3 epoch (loss 0.0910):  71%|███████   | 11953/16950 [2:12:28<34:55,  2.38it/s]Training 3/3 epoch (loss 0.3830):  71%|███████   | 11953/16950 [2:12:29<34:55,  2.38it/s]Training 3/3 epoch (loss 0.3830):  71%|███████   | 11954/16950 [2:12:29<40:35,  2.05it/s]Training 3/3 epoch (loss 0.0003):  71%|███████   | 11954/16950 [2:12:29<40:35,  2.05it/s]Training 3/3 epoch (loss 0.0003):  71%|███████   | 11955/16950 [2:12:29<41:25,  2.01it/s]Training 3/3 epoch (loss 0.2604):  71%|███████   | 11955/16950 [2:12:30<41:25,  2.01it/s]Training 3/3 epoch (loss 0.2604):  71%|███████   | 11956/16950 [2:12:30<39:44,  2.09it/s]Training 3/3 epoch (loss 0.4962):  71%|███████   | 11956/16950 [2:12:31<39:44,  2.09it/s]Training 3/3 epoch (loss 0.4962):  71%|███████   | 11957/16950 [2:12:31<48:37,  1.71it/s]Training 3/3 epoch (loss 0.3882):  71%|███████   | 11957/16950 [2:12:31<48:37,  1.71it/s]Training 3/3 epoch (loss 0.3882):  71%|███████   | 11958/16950 [2:12:31<45:59,  1.81it/s]Training 3/3 epoch (loss 0.0126):  71%|███████   | 11958/16950 [2:12:32<45:59,  1.81it/s]Training 3/3 epoch (loss 0.0126):  71%|███████   | 11959/16950 [2:12:32<46:50,  1.78it/s]Training 3/3 epoch (loss 0.5991):  71%|███████   | 11959/16950 [2:12:32<46:50,  1.78it/s]Training 3/3 epoch (loss 0.5991):  71%|███████   | 11960/16950 [2:12:32<46:22,  1.79it/s]Training 3/3 epoch (loss 0.5379):  71%|███████   | 11960/16950 [2:12:33<46:22,  1.79it/s]Training 3/3 epoch (loss 0.5379):  71%|███████   | 11961/16950 [2:12:33<42:03,  1.98it/s]Training 3/3 epoch (loss 0.0001):  71%|███████   | 11961/16950 [2:12:33<42:03,  1.98it/s]Training 3/3 epoch (loss 0.0001):  71%|███████   | 11962/16950 [2:12:33<37:37,  2.21it/s]Training 3/3 epoch (loss 0.0008):  71%|███████   | 11962/16950 [2:12:34<37:37,  2.21it/s]Training 3/3 epoch (loss 0.0008):  71%|███████   | 11963/16950 [2:12:34<41:11,  2.02it/s]Training 3/3 epoch (loss 0.0237):  71%|███████   | 11963/16950 [2:12:34<41:11,  2.02it/s]Training 3/3 epoch (loss 0.0237):  71%|███████   | 11964/16950 [2:12:34<41:50,  1.99it/s]Training 3/3 epoch (loss 0.1432):  71%|███████   | 11964/16950 [2:12:35<41:50,  1.99it/s]Training 3/3 epoch (loss 0.1432):  71%|███████   | 11965/16950 [2:12:35<51:13,  1.62it/s]Training 3/3 epoch (loss 0.0031):  71%|███████   | 11965/16950 [2:12:36<51:13,  1.62it/s]Training 3/3 epoch (loss 0.0031):  71%|███████   | 11966/16950 [2:12:36<49:42,  1.67it/s]Training 3/3 epoch (loss 0.0021):  71%|███████   | 11966/16950 [2:12:36<49:42,  1.67it/s]Training 3/3 epoch (loss 0.0021):  71%|███████   | 11967/16950 [2:12:36<50:03,  1.66it/s]Training 3/3 epoch (loss 0.0752):  71%|███████   | 11967/16950 [2:12:37<50:03,  1.66it/s]Training 3/3 epoch (loss 0.0752):  71%|███████   | 11968/16950 [2:12:37<56:11,  1.48it/s]Training 3/3 epoch (loss 0.2184):  71%|███████   | 11968/16950 [2:12:38<56:11,  1.48it/s]Training 3/3 epoch (loss 0.2184):  71%|███████   | 11969/16950 [2:12:38<52:54,  1.57it/s]Training 3/3 epoch (loss 0.2564):  71%|███████   | 11969/16950 [2:12:38<52:54,  1.57it/s]Training 3/3 epoch (loss 0.2564):  71%|███████   | 11970/16950 [2:12:38<47:39,  1.74it/s]Training 3/3 epoch (loss 0.3430):  71%|███████   | 11970/16950 [2:12:39<47:39,  1.74it/s]Training 3/3 epoch (loss 0.3430):  71%|███████   | 11971/16950 [2:12:39<49:26,  1.68it/s]Training 3/3 epoch (loss 0.0680):  71%|███████   | 11971/16950 [2:12:39<49:26,  1.68it/s]Training 3/3 epoch (loss 0.0680):  71%|███████   | 11972/16950 [2:12:39<47:17,  1.75it/s]Training 3/3 epoch (loss 0.3518):  71%|███████   | 11972/16950 [2:12:40<47:17,  1.75it/s]Training 3/3 epoch (loss 0.3518):  71%|███████   | 11973/16950 [2:12:40<48:31,  1.71it/s]Training 3/3 epoch (loss 0.0007):  71%|███████   | 11973/16950 [2:12:40<48:31,  1.71it/s]Training 3/3 epoch (loss 0.0007):  71%|███████   | 11974/16950 [2:12:40<49:29,  1.68it/s]Training 3/3 epoch (loss 0.0548):  71%|███████   | 11974/16950 [2:12:41<49:29,  1.68it/s]Training 3/3 epoch (loss 0.0548):  71%|███████   | 11975/16950 [2:12:41<49:24,  1.68it/s]Training 3/3 epoch (loss 0.1118):  71%|███████   | 11975/16950 [2:12:41<49:24,  1.68it/s]Training 3/3 epoch (loss 0.1118):  71%|███████   | 11976/16950 [2:12:41<47:04,  1.76it/s]Training 3/3 epoch (loss 0.2294):  71%|███████   | 11976/16950 [2:12:42<47:04,  1.76it/s]Training 3/3 epoch (loss 0.2294):  71%|███████   | 11977/16950 [2:12:42<45:25,  1.82it/s]Training 3/3 epoch (loss 0.3504):  71%|███████   | 11977/16950 [2:12:42<45:25,  1.82it/s]Training 3/3 epoch (loss 0.3504):  71%|███████   | 11978/16950 [2:12:42<43:56,  1.89it/s]Training 3/3 epoch (loss 0.2518):  71%|███████   | 11978/16950 [2:12:43<43:56,  1.89it/s]Training 3/3 epoch (loss 0.2518):  71%|███████   | 11979/16950 [2:12:43<44:13,  1.87it/s]Training 3/3 epoch (loss 0.0018):  71%|███████   | 11979/16950 [2:12:43<44:13,  1.87it/s]Training 3/3 epoch (loss 0.0018):  71%|███████   | 11980/16950 [2:12:43<42:08,  1.97it/s]Training 3/3 epoch (loss 0.0533):  71%|███████   | 11980/16950 [2:12:44<42:08,  1.97it/s]Training 3/3 epoch (loss 0.0533):  71%|███████   | 11981/16950 [2:12:44<42:40,  1.94it/s]Training 3/3 epoch (loss 0.1595):  71%|███████   | 11981/16950 [2:12:44<42:40,  1.94it/s]Training 3/3 epoch (loss 0.1595):  71%|███████   | 11982/16950 [2:12:44<43:09,  1.92it/s]Training 3/3 epoch (loss 0.0279):  71%|███████   | 11982/16950 [2:12:45<43:09,  1.92it/s]Training 3/3 epoch (loss 0.0279):  71%|███████   | 11983/16950 [2:12:45<42:37,  1.94it/s]Training 3/3 epoch (loss 0.6298):  71%|███████   | 11983/16950 [2:12:46<42:37,  1.94it/s]Training 3/3 epoch (loss 0.6298):  71%|███████   | 11984/16950 [2:12:46<46:39,  1.77it/s]Training 3/3 epoch (loss 0.1151):  71%|███████   | 11984/16950 [2:12:46<46:39,  1.77it/s]Training 3/3 epoch (loss 0.1151):  71%|███████   | 11985/16950 [2:12:46<49:29,  1.67it/s]Training 3/3 epoch (loss 0.0000):  71%|███████   | 11985/16950 [2:12:47<49:29,  1.67it/s]Training 3/3 epoch (loss 0.0000):  71%|███████   | 11986/16950 [2:12:47<42:01,  1.97it/s]Training 3/3 epoch (loss 0.0004):  71%|███████   | 11986/16950 [2:12:47<42:01,  1.97it/s]Training 3/3 epoch (loss 0.0004):  71%|███████   | 11987/16950 [2:12:47<44:11,  1.87it/s]Training 3/3 epoch (loss 0.0301):  71%|███████   | 11987/16950 [2:12:48<44:11,  1.87it/s]Training 3/3 epoch (loss 0.0301):  71%|███████   | 11988/16950 [2:12:48<46:38,  1.77it/s]Training 3/3 epoch (loss 0.1284):  71%|███████   | 11988/16950 [2:12:49<46:38,  1.77it/s]Training 3/3 epoch (loss 0.1284):  71%|███████   | 11989/16950 [2:12:49<50:26,  1.64it/s]Training 3/3 epoch (loss 0.3244):  71%|███████   | 11989/16950 [2:12:49<50:26,  1.64it/s]Training 3/3 epoch (loss 0.3244):  71%|███████   | 11990/16950 [2:12:49<47:05,  1.76it/s]Training 3/3 epoch (loss 0.5223):  71%|███████   | 11990/16950 [2:12:50<47:05,  1.76it/s]Training 3/3 epoch (loss 0.5223):  71%|███████   | 11991/16950 [2:12:50<54:01,  1.53it/s]Training 3/3 epoch (loss 0.0002):  71%|███████   | 11991/16950 [2:12:51<54:01,  1.53it/s]Training 3/3 epoch (loss 0.0002):  71%|███████   | 11992/16950 [2:12:51<53:20,  1.55it/s]Training 3/3 epoch (loss 0.0418):  71%|███████   | 11992/16950 [2:12:51<53:20,  1.55it/s]Training 3/3 epoch (loss 0.0418):  71%|███████   | 11993/16950 [2:12:51<48:34,  1.70it/s]Training 3/3 epoch (loss 0.0060):  71%|███████   | 11993/16950 [2:12:52<48:34,  1.70it/s]Training 3/3 epoch (loss 0.0060):  71%|███████   | 11994/16950 [2:12:52<50:17,  1.64it/s]Training 3/3 epoch (loss 0.0003):  71%|███████   | 11994/16950 [2:12:52<50:17,  1.64it/s]Training 3/3 epoch (loss 0.0003):  71%|███████   | 11995/16950 [2:12:52<49:55,  1.65it/s]Training 3/3 epoch (loss 0.2323):  71%|███████   | 11995/16950 [2:12:53<49:55,  1.65it/s]Training 3/3 epoch (loss 0.2323):  71%|███████   | 11996/16950 [2:12:53<50:01,  1.65it/s]Training 3/3 epoch (loss 0.4338):  71%|███████   | 11996/16950 [2:12:54<50:01,  1.65it/s]Training 3/3 epoch (loss 0.4338):  71%|███████   | 11997/16950 [2:12:54<51:41,  1.60it/s]Training 3/3 epoch (loss 0.0290):  71%|███████   | 11997/16950 [2:12:54<51:41,  1.60it/s]Training 3/3 epoch (loss 0.0290):  71%|███████   | 11998/16950 [2:12:54<53:39,  1.54it/s]Training 3/3 epoch (loss 0.0040):  71%|███████   | 11998/16950 [2:12:55<53:39,  1.54it/s]Training 3/3 epoch (loss 0.0040):  71%|███████   | 11999/16950 [2:12:55<50:07,  1.65it/s]Training 3/3 epoch (loss 0.5825):  71%|███████   | 11999/16950 [2:12:55<50:07,  1.65it/s]Training 3/3 epoch (loss 0.5825):  71%|███████   | 12000/16950 [2:12:55<44:01,  1.87it/s]Training 3/3 epoch (loss 0.0038):  71%|███████   | 12000/16950 [2:12:56<44:01,  1.87it/s]Training 3/3 epoch (loss 0.0038):  71%|███████   | 12001/16950 [2:12:56<42:24,  1.95it/s]Training 3/3 epoch (loss 0.0137):  71%|███████   | 12001/16950 [2:12:56<42:24,  1.95it/s]Training 3/3 epoch (loss 0.0137):  71%|███████   | 12002/16950 [2:12:56<42:14,  1.95it/s]Training 3/3 epoch (loss 0.0980):  71%|███████   | 12002/16950 [2:12:57<42:14,  1.95it/s]Training 3/3 epoch (loss 0.0980):  71%|███████   | 12003/16950 [2:12:57<46:18,  1.78it/s]Training 3/3 epoch (loss 0.2494):  71%|███████   | 12003/16950 [2:12:57<46:18,  1.78it/s]Training 3/3 epoch (loss 0.2494):  71%|███████   | 12004/16950 [2:12:57<42:00,  1.96it/s]Training 3/3 epoch (loss 0.0270):  71%|███████   | 12004/16950 [2:12:58<42:00,  1.96it/s]Training 3/3 epoch (loss 0.0270):  71%|███████   | 12005/16950 [2:12:58<44:33,  1.85it/s]Training 3/3 epoch (loss 0.4580):  71%|███████   | 12005/16950 [2:12:58<44:33,  1.85it/s]Training 3/3 epoch (loss 0.4580):  71%|███████   | 12006/16950 [2:12:58<42:43,  1.93it/s]Training 3/3 epoch (loss 0.0355):  71%|███████   | 12006/16950 [2:12:59<42:43,  1.93it/s]Training 3/3 epoch (loss 0.0355):  71%|███████   | 12007/16950 [2:12:59<49:30,  1.66it/s]Training 3/3 epoch (loss 0.0544):  71%|███████   | 12007/16950 [2:13:00<49:30,  1.66it/s]Training 3/3 epoch (loss 0.0544):  71%|███████   | 12008/16950 [2:13:00<50:09,  1.64it/s]Training 3/3 epoch (loss 0.2815):  71%|███████   | 12008/16950 [2:13:00<50:09,  1.64it/s]Training 3/3 epoch (loss 0.2815):  71%|███████   | 12009/16950 [2:13:00<50:38,  1.63it/s]Training 3/3 epoch (loss 0.0014):  71%|███████   | 12009/16950 [2:13:01<50:38,  1.63it/s]Training 3/3 epoch (loss 0.0014):  71%|███████   | 12010/16950 [2:13:01<46:22,  1.78it/s]Training 3/3 epoch (loss 0.0006):  71%|███████   | 12010/16950 [2:13:01<46:22,  1.78it/s]Training 3/3 epoch (loss 0.0006):  71%|███████   | 12011/16950 [2:13:01<42:49,  1.92it/s]Training 3/3 epoch (loss 0.3454):  71%|███████   | 12011/16950 [2:13:02<42:49,  1.92it/s]Training 3/3 epoch (loss 0.3454):  71%|███████   | 12012/16950 [2:13:02<41:44,  1.97it/s]Training 3/3 epoch (loss 0.4823):  71%|███████   | 12012/16950 [2:13:02<41:44,  1.97it/s]Training 3/3 epoch (loss 0.4823):  71%|███████   | 12013/16950 [2:13:02<47:58,  1.71it/s]Training 3/3 epoch (loss 0.0002):  71%|███████   | 12013/16950 [2:13:03<47:58,  1.71it/s]Training 3/3 epoch (loss 0.0002):  71%|███████   | 12014/16950 [2:13:03<46:16,  1.78it/s]Training 3/3 epoch (loss 0.4781):  71%|███████   | 12014/16950 [2:13:03<46:16,  1.78it/s]Training 3/3 epoch (loss 0.4781):  71%|███████   | 12015/16950 [2:13:03<41:38,  1.98it/s]Training 3/3 epoch (loss 0.0005):  71%|███████   | 12015/16950 [2:13:04<41:38,  1.98it/s]Training 3/3 epoch (loss 0.0005):  71%|███████   | 12016/16950 [2:13:04<41:04,  2.00it/s]Training 3/3 epoch (loss 0.0160):  71%|███████   | 12016/16950 [2:13:04<41:04,  2.00it/s]Training 3/3 epoch (loss 0.0160):  71%|███████   | 12017/16950 [2:13:04<41:03,  2.00it/s]Training 3/3 epoch (loss 0.0212):  71%|███████   | 12017/16950 [2:13:05<41:03,  2.00it/s]Training 3/3 epoch (loss 0.0212):  71%|███████   | 12018/16950 [2:13:05<41:55,  1.96it/s]Training 3/3 epoch (loss 0.1495):  71%|███████   | 12018/16950 [2:13:05<41:55,  1.96it/s]Training 3/3 epoch (loss 0.1495):  71%|███████   | 12019/16950 [2:13:05<45:18,  1.81it/s]Training 3/3 epoch (loss 0.0347):  71%|███████   | 12019/16950 [2:13:06<45:18,  1.81it/s]Training 3/3 epoch (loss 0.0347):  71%|███████   | 12020/16950 [2:13:06<46:56,  1.75it/s]Training 3/3 epoch (loss 0.5367):  71%|███████   | 12020/16950 [2:13:06<46:56,  1.75it/s]Training 3/3 epoch (loss 0.5367):  71%|███████   | 12021/16950 [2:13:06<43:57,  1.87it/s]Training 3/3 epoch (loss 0.0014):  71%|███████   | 12021/16950 [2:13:07<43:57,  1.87it/s]Training 3/3 epoch (loss 0.0014):  71%|███████   | 12022/16950 [2:13:07<43:49,  1.87it/s]Training 3/3 epoch (loss 0.4705):  71%|███████   | 12022/16950 [2:13:08<43:49,  1.87it/s]Training 3/3 epoch (loss 0.4705):  71%|███████   | 12023/16950 [2:13:08<47:06,  1.74it/s]Training 3/3 epoch (loss 0.0271):  71%|███████   | 12023/16950 [2:13:08<47:06,  1.74it/s]Training 3/3 epoch (loss 0.0271):  71%|███████   | 12024/16950 [2:13:08<46:19,  1.77it/s]Training 3/3 epoch (loss 0.4753):  71%|███████   | 12024/16950 [2:13:09<46:19,  1.77it/s]Training 3/3 epoch (loss 0.4753):  71%|███████   | 12025/16950 [2:13:09<43:14,  1.90it/s]Training 3/3 epoch (loss 0.2580):  71%|███████   | 12025/16950 [2:13:09<43:14,  1.90it/s]Training 3/3 epoch (loss 0.2580):  71%|███████   | 12026/16950 [2:13:09<47:01,  1.75it/s]Training 3/3 epoch (loss 0.0014):  71%|███████   | 12026/16950 [2:13:10<47:01,  1.75it/s]Training 3/3 epoch (loss 0.0014):  71%|███████   | 12027/16950 [2:13:10<48:05,  1.71it/s]Training 3/3 epoch (loss 0.0696):  71%|███████   | 12027/16950 [2:13:10<48:05,  1.71it/s]Training 3/3 epoch (loss 0.0696):  71%|███████   | 12028/16950 [2:13:10<44:20,  1.85it/s]Training 3/3 epoch (loss 0.1407):  71%|███████   | 12028/16950 [2:13:11<44:20,  1.85it/s]Training 3/3 epoch (loss 0.1407):  71%|███████   | 12029/16950 [2:13:11<46:01,  1.78it/s]Training 3/3 epoch (loss 0.0287):  71%|███████   | 12029/16950 [2:13:12<46:01,  1.78it/s]Training 3/3 epoch (loss 0.0287):  71%|███████   | 12030/16950 [2:13:12<50:13,  1.63it/s]Training 3/3 epoch (loss 0.0009):  71%|███████   | 12030/16950 [2:13:12<50:13,  1.63it/s]Training 3/3 epoch (loss 0.0009):  71%|███████   | 12031/16950 [2:13:12<48:51,  1.68it/s]Training 3/3 epoch (loss 0.0023):  71%|███████   | 12031/16950 [2:13:13<48:51,  1.68it/s]Training 3/3 epoch (loss 0.0023):  71%|███████   | 12032/16950 [2:13:13<47:57,  1.71it/s]Training 3/3 epoch (loss 0.3880):  71%|███████   | 12032/16950 [2:13:13<47:57,  1.71it/s]Training 3/3 epoch (loss 0.3880):  71%|███████   | 12033/16950 [2:13:13<44:00,  1.86it/s]Training 3/3 epoch (loss 0.5799):  71%|███████   | 12033/16950 [2:13:14<44:00,  1.86it/s]Training 3/3 epoch (loss 0.5799):  71%|███████   | 12034/16950 [2:13:14<54:33,  1.50it/s]Training 3/3 epoch (loss 0.0086):  71%|███████   | 12034/16950 [2:13:15<54:33,  1.50it/s]Training 3/3 epoch (loss 0.0086):  71%|███████   | 12035/16950 [2:13:15<48:21,  1.69it/s]Training 3/3 epoch (loss 0.0277):  71%|███████   | 12035/16950 [2:13:15<48:21,  1.69it/s]Training 3/3 epoch (loss 0.0277):  71%|███████   | 12036/16950 [2:13:15<48:46,  1.68it/s]Training 3/3 epoch (loss 0.0341):  71%|███████   | 12036/16950 [2:13:16<48:46,  1.68it/s]Training 3/3 epoch (loss 0.0341):  71%|███████   | 12037/16950 [2:13:16<47:45,  1.71it/s]Training 3/3 epoch (loss 0.4469):  71%|███████   | 12037/16950 [2:13:17<47:45,  1.71it/s]Training 3/3 epoch (loss 0.4469):  71%|███████   | 12038/16950 [2:13:17<54:21,  1.51it/s]Training 3/3 epoch (loss 0.2297):  71%|███████   | 12038/16950 [2:13:17<54:21,  1.51it/s]Training 3/3 epoch (loss 0.2297):  71%|███████   | 12039/16950 [2:13:17<52:38,  1.55it/s]Training 3/3 epoch (loss 0.2156):  71%|███████   | 12039/16950 [2:13:18<52:38,  1.55it/s]Training 3/3 epoch (loss 0.2156):  71%|███████   | 12040/16950 [2:13:18<1:03:04,  1.30it/s]Training 3/3 epoch (loss 0.1605):  71%|███████   | 12040/16950 [2:13:19<1:03:04,  1.30it/s]Training 3/3 epoch (loss 0.1605):  71%|███████   | 12041/16950 [2:13:19<56:43,  1.44it/s]  Training 3/3 epoch (loss 0.0277):  71%|███████   | 12041/16950 [2:13:20<56:43,  1.44it/s]Training 3/3 epoch (loss 0.0277):  71%|███████   | 12042/16950 [2:13:20<1:06:03,  1.24it/s]Training 3/3 epoch (loss 0.0010):  71%|███████   | 12042/16950 [2:13:20<1:06:03,  1.24it/s]Training 3/3 epoch (loss 0.0010):  71%|███████   | 12043/16950 [2:13:20<58:31,  1.40it/s]  Training 3/3 epoch (loss 0.0003):  71%|███████   | 12043/16950 [2:13:21<58:31,  1.40it/s]Training 3/3 epoch (loss 0.0003):  71%|███████   | 12044/16950 [2:13:21<49:27,  1.65it/s]Training 3/3 epoch (loss 0.5257):  71%|███████   | 12044/16950 [2:13:22<49:27,  1.65it/s]Training 3/3 epoch (loss 0.5257):  71%|███████   | 12045/16950 [2:13:22<1:01:46,  1.32it/s]Training 3/3 epoch (loss 0.0184):  71%|███████   | 12045/16950 [2:13:22<1:01:46,  1.32it/s]Training 3/3 epoch (loss 0.0184):  71%|███████   | 12046/16950 [2:13:22<57:56,  1.41it/s]  Training 3/3 epoch (loss 0.4518):  71%|███████   | 12046/16950 [2:13:23<57:56,  1.41it/s]Training 3/3 epoch (loss 0.4518):  71%|███████   | 12047/16950 [2:13:23<59:31,  1.37it/s]Training 3/3 epoch (loss 0.5403):  71%|███████   | 12047/16950 [2:13:24<59:31,  1.37it/s]Training 3/3 epoch (loss 0.5403):  71%|███████   | 12048/16950 [2:13:24<1:10:22,  1.16it/s]Training 3/3 epoch (loss 0.5337):  71%|███████   | 12048/16950 [2:13:26<1:10:22,  1.16it/s]Training 3/3 epoch (loss 0.5337):  71%|███████   | 12049/16950 [2:13:26<1:17:30,  1.05it/s]Training 3/3 epoch (loss 0.2635):  71%|███████   | 12049/16950 [2:13:26<1:17:30,  1.05it/s]Training 3/3 epoch (loss 0.2635):  71%|███████   | 12050/16950 [2:13:26<1:06:51,  1.22it/s]Training 3/3 epoch (loss 0.4391):  71%|███████   | 12050/16950 [2:13:27<1:06:51,  1.22it/s]Training 3/3 epoch (loss 0.4391):  71%|███████   | 12051/16950 [2:13:27<59:42,  1.37it/s]  Training 3/3 epoch (loss 0.0269):  71%|███████   | 12051/16950 [2:13:27<59:42,  1.37it/s]Training 3/3 epoch (loss 0.0269):  71%|███████   | 12052/16950 [2:13:27<52:23,  1.56it/s]Training 3/3 epoch (loss 0.0301):  71%|███████   | 12052/16950 [2:13:28<52:23,  1.56it/s]Training 3/3 epoch (loss 0.0301):  71%|███████   | 12053/16950 [2:13:28<52:05,  1.57it/s]Training 3/3 epoch (loss 0.0393):  71%|███████   | 12053/16950 [2:13:28<52:05,  1.57it/s]Training 3/3 epoch (loss 0.0393):  71%|███████   | 12054/16950 [2:13:28<53:05,  1.54it/s]Training 3/3 epoch (loss 0.8007):  71%|███████   | 12054/16950 [2:13:29<53:05,  1.54it/s]Training 3/3 epoch (loss 0.8007):  71%|███████   | 12055/16950 [2:13:29<59:34,  1.37it/s]Training 3/3 epoch (loss 0.0808):  71%|███████   | 12055/16950 [2:13:30<59:34,  1.37it/s]Training 3/3 epoch (loss 0.0808):  71%|███████   | 12056/16950 [2:13:30<57:04,  1.43it/s]Training 3/3 epoch (loss 0.2791):  71%|███████   | 12056/16950 [2:13:30<57:04,  1.43it/s]Training 3/3 epoch (loss 0.2791):  71%|███████   | 12057/16950 [2:13:30<49:36,  1.64it/s]Training 3/3 epoch (loss 0.0005):  71%|███████   | 12057/16950 [2:13:31<49:36,  1.64it/s]Training 3/3 epoch (loss 0.0005):  71%|███████   | 12058/16950 [2:13:31<47:54,  1.70it/s]Training 3/3 epoch (loss 0.1751):  71%|███████   | 12058/16950 [2:13:31<47:54,  1.70it/s]Training 3/3 epoch (loss 0.1751):  71%|███████   | 12059/16950 [2:13:31<47:24,  1.72it/s]Training 3/3 epoch (loss 0.5666):  71%|███████   | 12059/16950 [2:13:32<47:24,  1.72it/s]Training 3/3 epoch (loss 0.5666):  71%|███████   | 12060/16950 [2:13:32<49:10,  1.66it/s]Training 3/3 epoch (loss 0.2696):  71%|███████   | 12060/16950 [2:13:33<49:10,  1.66it/s]Training 3/3 epoch (loss 0.2696):  71%|███████   | 12061/16950 [2:13:33<59:44,  1.36it/s]Training 3/3 epoch (loss 0.0112):  71%|███████   | 12061/16950 [2:13:34<59:44,  1.36it/s]Training 3/3 epoch (loss 0.0112):  71%|███████   | 12062/16950 [2:13:34<1:05:47,  1.24it/s]Training 3/3 epoch (loss 0.0001):  71%|███████   | 12062/16950 [2:13:35<1:05:47,  1.24it/s]Training 3/3 epoch (loss 0.0001):  71%|███████   | 12063/16950 [2:13:35<58:39,  1.39it/s]  Training 3/3 epoch (loss 0.0002):  71%|███████   | 12063/16950 [2:13:35<58:39,  1.39it/s]Training 3/3 epoch (loss 0.0002):  71%|███████   | 12064/16950 [2:13:35<56:07,  1.45it/s]Training 3/3 epoch (loss 0.3543):  71%|███████   | 12064/16950 [2:13:36<56:07,  1.45it/s]Training 3/3 epoch (loss 0.3543):  71%|███████   | 12065/16950 [2:13:36<49:47,  1.64it/s]Training 3/3 epoch (loss 0.0503):  71%|███████   | 12065/16950 [2:13:36<49:47,  1.64it/s]Training 3/3 epoch (loss 0.0503):  71%|███████   | 12066/16950 [2:13:36<49:42,  1.64it/s]Training 3/3 epoch (loss 0.1788):  71%|███████   | 12066/16950 [2:13:37<49:42,  1.64it/s]Training 3/3 epoch (loss 0.1788):  71%|███████   | 12067/16950 [2:13:37<46:36,  1.75it/s]Training 3/3 epoch (loss 0.0622):  71%|███████   | 12067/16950 [2:13:37<46:36,  1.75it/s]Training 3/3 epoch (loss 0.0622):  71%|███████   | 12068/16950 [2:13:37<43:41,  1.86it/s]Training 3/3 epoch (loss 0.0552):  71%|███████   | 12068/16950 [2:13:38<43:41,  1.86it/s]Training 3/3 epoch (loss 0.0552):  71%|███████   | 12069/16950 [2:13:38<50:36,  1.61it/s]Training 3/3 epoch (loss 0.3764):  71%|███████   | 12069/16950 [2:13:39<50:36,  1.61it/s]Training 3/3 epoch (loss 0.3764):  71%|███████   | 12070/16950 [2:13:39<47:31,  1.71it/s]Training 3/3 epoch (loss 0.0861):  71%|███████   | 12070/16950 [2:13:39<47:31,  1.71it/s]Training 3/3 epoch (loss 0.0861):  71%|███████   | 12071/16950 [2:13:39<45:33,  1.79it/s]Training 3/3 epoch (loss 0.4929):  71%|███████   | 12071/16950 [2:13:40<45:33,  1.79it/s]Training 3/3 epoch (loss 0.4929):  71%|███████   | 12072/16950 [2:13:40<50:55,  1.60it/s]Training 3/3 epoch (loss 0.0010):  71%|███████   | 12072/16950 [2:13:40<50:55,  1.60it/s]Training 3/3 epoch (loss 0.0010):  71%|███████   | 12073/16950 [2:13:40<52:04,  1.56it/s]Training 3/3 epoch (loss 0.5633):  71%|███████   | 12073/16950 [2:13:41<52:04,  1.56it/s]Training 3/3 epoch (loss 0.5633):  71%|███████   | 12074/16950 [2:13:41<45:42,  1.78it/s]Training 3/3 epoch (loss 0.0302):  71%|███████   | 12074/16950 [2:13:41<45:42,  1.78it/s]Training 3/3 epoch (loss 0.0302):  71%|███████   | 12075/16950 [2:13:41<45:42,  1.78it/s]Training 3/3 epoch (loss 0.0978):  71%|███████   | 12075/16950 [2:13:42<45:42,  1.78it/s]Training 3/3 epoch (loss 0.0978):  71%|███████   | 12076/16950 [2:13:42<52:32,  1.55it/s]Training 3/3 epoch (loss 0.4490):  71%|███████   | 12076/16950 [2:13:43<52:32,  1.55it/s]Training 3/3 epoch (loss 0.4490):  71%|███████▏  | 12077/16950 [2:13:43<46:24,  1.75it/s]Training 3/3 epoch (loss 0.1489):  71%|███████▏  | 12077/16950 [2:13:43<46:24,  1.75it/s]Training 3/3 epoch (loss 0.1489):  71%|███████▏  | 12078/16950 [2:13:43<46:53,  1.73it/s]Training 3/3 epoch (loss 0.0533):  71%|███████▏  | 12078/16950 [2:13:44<46:53,  1.73it/s]Training 3/3 epoch (loss 0.0533):  71%|███████▏  | 12079/16950 [2:13:44<44:18,  1.83it/s]Training 3/3 epoch (loss 0.0731):  71%|███████▏  | 12079/16950 [2:13:44<44:18,  1.83it/s]Training 3/3 epoch (loss 0.0731):  71%|███████▏  | 12080/16950 [2:13:44<44:53,  1.81it/s]Training 3/3 epoch (loss 0.2912):  71%|███████▏  | 12080/16950 [2:13:45<44:53,  1.81it/s]Training 3/3 epoch (loss 0.2912):  71%|███████▏  | 12081/16950 [2:13:45<44:01,  1.84it/s]Training 3/3 epoch (loss 0.0020):  71%|███████▏  | 12081/16950 [2:13:45<44:01,  1.84it/s]Training 3/3 epoch (loss 0.0020):  71%|███████▏  | 12082/16950 [2:13:45<45:08,  1.80it/s]Training 3/3 epoch (loss 0.1878):  71%|███████▏  | 12082/16950 [2:13:46<45:08,  1.80it/s]Training 3/3 epoch (loss 0.1878):  71%|███████▏  | 12083/16950 [2:13:46<41:13,  1.97it/s]Training 3/3 epoch (loss 0.0010):  71%|███████▏  | 12083/16950 [2:13:46<41:13,  1.97it/s]Training 3/3 epoch (loss 0.0010):  71%|███████▏  | 12084/16950 [2:13:46<38:22,  2.11it/s]Training 3/3 epoch (loss 0.0057):  71%|███████▏  | 12084/16950 [2:13:47<38:22,  2.11it/s]Training 3/3 epoch (loss 0.0057):  71%|███████▏  | 12085/16950 [2:13:47<36:54,  2.20it/s]Training 3/3 epoch (loss 0.1721):  71%|███████▏  | 12085/16950 [2:13:48<36:54,  2.20it/s]Training 3/3 epoch (loss 0.1721):  71%|███████▏  | 12086/16950 [2:13:48<51:03,  1.59it/s]Training 3/3 epoch (loss 0.1263):  71%|███████▏  | 12086/16950 [2:13:48<51:03,  1.59it/s]Training 3/3 epoch (loss 0.1263):  71%|███████▏  | 12087/16950 [2:13:48<50:33,  1.60it/s]Training 3/3 epoch (loss 0.2826):  71%|███████▏  | 12087/16950 [2:13:49<50:33,  1.60it/s]Training 3/3 epoch (loss 0.2826):  71%|███████▏  | 12088/16950 [2:13:49<50:42,  1.60it/s]Training 3/3 epoch (loss 0.0038):  71%|███████▏  | 12088/16950 [2:13:50<50:42,  1.60it/s]Training 3/3 epoch (loss 0.0038):  71%|███████▏  | 12089/16950 [2:13:50<51:25,  1.58it/s]Training 3/3 epoch (loss 0.0213):  71%|███████▏  | 12089/16950 [2:13:50<51:25,  1.58it/s]Training 3/3 epoch (loss 0.0213):  71%|███████▏  | 12090/16950 [2:13:50<49:40,  1.63it/s]Training 3/3 epoch (loss 0.0529):  71%|███████▏  | 12090/16950 [2:13:51<49:40,  1.63it/s]Training 3/3 epoch (loss 0.0529):  71%|███████▏  | 12091/16950 [2:13:51<45:00,  1.80it/s]Training 3/3 epoch (loss 0.4066):  71%|███████▏  | 12091/16950 [2:13:51<45:00,  1.80it/s]Training 3/3 epoch (loss 0.4066):  71%|███████▏  | 12092/16950 [2:13:51<46:38,  1.74it/s]Training 3/3 epoch (loss 0.4266):  71%|███████▏  | 12092/16950 [2:13:52<46:38,  1.74it/s]Training 3/3 epoch (loss 0.4266):  71%|███████▏  | 12093/16950 [2:13:52<59:47,  1.35it/s]Training 3/3 epoch (loss 0.6019):  71%|███████▏  | 12093/16950 [2:13:53<59:47,  1.35it/s]Training 3/3 epoch (loss 0.6019):  71%|███████▏  | 12094/16950 [2:13:53<1:06:13,  1.22it/s]Training 3/3 epoch (loss 0.5772):  71%|███████▏  | 12094/16950 [2:13:54<1:06:13,  1.22it/s]Training 3/3 epoch (loss 0.5772):  71%|███████▏  | 12095/16950 [2:13:54<1:05:35,  1.23it/s]Training 3/3 epoch (loss 0.4892):  71%|███████▏  | 12095/16950 [2:13:55<1:05:35,  1.23it/s]Training 3/3 epoch (loss 0.4892):  71%|███████▏  | 12096/16950 [2:13:55<1:01:52,  1.31it/s]Training 3/3 epoch (loss 0.4815):  71%|███████▏  | 12096/16950 [2:13:55<1:01:52,  1.31it/s]Training 3/3 epoch (loss 0.4815):  71%|███████▏  | 12097/16950 [2:13:55<53:17,  1.52it/s]  Training 3/3 epoch (loss 0.0257):  71%|███████▏  | 12097/16950 [2:13:56<53:17,  1.52it/s]Training 3/3 epoch (loss 0.0257):  71%|███████▏  | 12098/16950 [2:13:56<52:08,  1.55it/s]Training 3/3 epoch (loss 0.0030):  71%|███████▏  | 12098/16950 [2:13:56<52:08,  1.55it/s]Training 3/3 epoch (loss 0.0030):  71%|███████▏  | 12099/16950 [2:13:56<53:06,  1.52it/s]Training 3/3 epoch (loss 0.0063):  71%|███████▏  | 12099/16950 [2:13:57<53:06,  1.52it/s]Training 3/3 epoch (loss 0.0063):  71%|███████▏  | 12100/16950 [2:13:57<50:14,  1.61it/s]Training 3/3 epoch (loss 0.0016):  71%|███████▏  | 12100/16950 [2:13:57<50:14,  1.61it/s]Training 3/3 epoch (loss 0.0016):  71%|███████▏  | 12101/16950 [2:13:57<47:22,  1.71it/s]Training 3/3 epoch (loss 0.0144):  71%|███████▏  | 12101/16950 [2:13:58<47:22,  1.71it/s]Training 3/3 epoch (loss 0.0144):  71%|███████▏  | 12102/16950 [2:13:58<46:53,  1.72it/s]Training 3/3 epoch (loss 0.3865):  71%|███████▏  | 12102/16950 [2:13:59<46:53,  1.72it/s]Training 3/3 epoch (loss 0.3865):  71%|███████▏  | 12103/16950 [2:13:59<49:27,  1.63it/s]Training 3/3 epoch (loss 0.0003):  71%|███████▏  | 12103/16950 [2:13:59<49:27,  1.63it/s]Training 3/3 epoch (loss 0.0003):  71%|███████▏  | 12104/16950 [2:13:59<48:58,  1.65it/s]Training 3/3 epoch (loss 0.0038):  71%|███████▏  | 12104/16950 [2:14:00<48:58,  1.65it/s]Training 3/3 epoch (loss 0.0038):  71%|███████▏  | 12105/16950 [2:14:00<56:14,  1.44it/s]Training 3/3 epoch (loss 0.0004):  71%|███████▏  | 12105/16950 [2:14:01<56:14,  1.44it/s]Training 3/3 epoch (loss 0.0004):  71%|███████▏  | 12106/16950 [2:14:01<49:18,  1.64it/s]Training 3/3 epoch (loss 0.3733):  71%|███████▏  | 12106/16950 [2:14:01<49:18,  1.64it/s]Training 3/3 epoch (loss 0.3733):  71%|███████▏  | 12107/16950 [2:14:01<42:49,  1.88it/s]Training 3/3 epoch (loss 0.0005):  71%|███████▏  | 12107/16950 [2:14:01<42:49,  1.88it/s]Training 3/3 epoch (loss 0.0005):  71%|███████▏  | 12108/16950 [2:14:01<41:32,  1.94it/s]Training 3/3 epoch (loss 0.0092):  71%|███████▏  | 12108/16950 [2:14:02<41:32,  1.94it/s]Training 3/3 epoch (loss 0.0092):  71%|███████▏  | 12109/16950 [2:14:02<52:37,  1.53it/s]Training 3/3 epoch (loss 0.3972):  71%|███████▏  | 12109/16950 [2:14:03<52:37,  1.53it/s]Training 3/3 epoch (loss 0.3972):  71%|███████▏  | 12110/16950 [2:14:03<47:06,  1.71it/s]Training 3/3 epoch (loss 0.0432):  71%|███████▏  | 12110/16950 [2:14:04<47:06,  1.71it/s]Training 3/3 epoch (loss 0.0432):  71%|███████▏  | 12111/16950 [2:14:04<53:26,  1.51it/s]Training 3/3 epoch (loss 0.0043):  71%|███████▏  | 12111/16950 [2:14:04<53:26,  1.51it/s]Training 3/3 epoch (loss 0.0043):  71%|███████▏  | 12112/16950 [2:14:04<50:40,  1.59it/s]Training 3/3 epoch (loss 0.0089):  71%|███████▏  | 12112/16950 [2:14:05<50:40,  1.59it/s]Training 3/3 epoch (loss 0.0089):  71%|███████▏  | 12113/16950 [2:14:05<51:08,  1.58it/s]Training 3/3 epoch (loss 0.1265):  71%|███████▏  | 12113/16950 [2:14:05<51:08,  1.58it/s]Training 3/3 epoch (loss 0.1265):  71%|███████▏  | 12114/16950 [2:14:05<50:08,  1.61it/s]Training 3/3 epoch (loss 0.3245):  71%|███████▏  | 12114/16950 [2:14:06<50:08,  1.61it/s]Training 3/3 epoch (loss 0.3245):  71%|███████▏  | 12115/16950 [2:14:06<46:42,  1.73it/s]Training 3/3 epoch (loss 0.4618):  71%|███████▏  | 12115/16950 [2:14:06<46:42,  1.73it/s]Training 3/3 epoch (loss 0.4618):  71%|███████▏  | 12116/16950 [2:14:06<41:09,  1.96it/s]Training 3/3 epoch (loss 0.0114):  71%|███████▏  | 12116/16950 [2:14:07<41:09,  1.96it/s]Training 3/3 epoch (loss 0.0114):  71%|███████▏  | 12117/16950 [2:14:07<44:25,  1.81it/s]Training 3/3 epoch (loss 0.6228):  71%|███████▏  | 12117/16950 [2:14:07<44:25,  1.81it/s]Training 3/3 epoch (loss 0.6228):  71%|███████▏  | 12118/16950 [2:14:07<40:59,  1.96it/s]Training 3/3 epoch (loss 0.0160):  71%|███████▏  | 12118/16950 [2:14:08<40:59,  1.96it/s]Training 3/3 epoch (loss 0.0160):  71%|███████▏  | 12119/16950 [2:14:08<45:12,  1.78it/s]Training 3/3 epoch (loss 0.0377):  71%|███████▏  | 12119/16950 [2:14:09<45:12,  1.78it/s]Training 3/3 epoch (loss 0.0377):  72%|███████▏  | 12120/16950 [2:14:09<47:03,  1.71it/s]Training 3/3 epoch (loss 0.2057):  72%|███████▏  | 12120/16950 [2:14:09<47:03,  1.71it/s]Training 3/3 epoch (loss 0.2057):  72%|███████▏  | 12121/16950 [2:14:09<47:54,  1.68it/s]Training 3/3 epoch (loss 0.0572):  72%|███████▏  | 12121/16950 [2:14:10<47:54,  1.68it/s]Training 3/3 epoch (loss 0.0572):  72%|███████▏  | 12122/16950 [2:14:10<44:52,  1.79it/s]Training 3/3 epoch (loss 0.0068):  72%|███████▏  | 12122/16950 [2:14:10<44:52,  1.79it/s]Training 3/3 epoch (loss 0.0068):  72%|███████▏  | 12123/16950 [2:14:10<44:17,  1.82it/s]Training 3/3 epoch (loss 0.0020):  72%|███████▏  | 12123/16950 [2:14:11<44:17,  1.82it/s]Training 3/3 epoch (loss 0.0020):  72%|███████▏  | 12124/16950 [2:14:11<41:58,  1.92it/s]Training 3/3 epoch (loss 0.0141):  72%|███████▏  | 12124/16950 [2:14:11<41:58,  1.92it/s]Training 3/3 epoch (loss 0.0141):  72%|███████▏  | 12125/16950 [2:14:11<44:23,  1.81it/s]Training 3/3 epoch (loss 0.0821):  72%|███████▏  | 12125/16950 [2:14:12<44:23,  1.81it/s]Training 3/3 epoch (loss 0.0821):  72%|███████▏  | 12126/16950 [2:14:12<47:05,  1.71it/s]Training 3/3 epoch (loss 0.0012):  72%|███████▏  | 12126/16950 [2:14:13<47:05,  1.71it/s]Training 3/3 epoch (loss 0.0012):  72%|███████▏  | 12127/16950 [2:14:13<49:25,  1.63it/s]Training 3/3 epoch (loss 0.0046):  72%|███████▏  | 12127/16950 [2:14:13<49:25,  1.63it/s]Training 3/3 epoch (loss 0.0046):  72%|███████▏  | 12128/16950 [2:14:13<45:28,  1.77it/s]Training 3/3 epoch (loss 0.0066):  72%|███████▏  | 12128/16950 [2:14:14<45:28,  1.77it/s]Training 3/3 epoch (loss 0.0066):  72%|███████▏  | 12129/16950 [2:14:14<42:47,  1.88it/s]Training 3/3 epoch (loss 0.0089):  72%|███████▏  | 12129/16950 [2:14:14<42:47,  1.88it/s]Training 3/3 epoch (loss 0.0089):  72%|███████▏  | 12130/16950 [2:14:14<45:04,  1.78it/s]Training 3/3 epoch (loss 0.0090):  72%|███████▏  | 12130/16950 [2:14:15<45:04,  1.78it/s]Training 3/3 epoch (loss 0.0090):  72%|███████▏  | 12131/16950 [2:14:15<47:20,  1.70it/s]Training 3/3 epoch (loss 0.6852):  72%|███████▏  | 12131/16950 [2:14:15<47:20,  1.70it/s]Training 3/3 epoch (loss 0.6852):  72%|███████▏  | 12132/16950 [2:14:15<45:20,  1.77it/s]Training 3/3 epoch (loss 0.1836):  72%|███████▏  | 12132/16950 [2:14:16<45:20,  1.77it/s]Training 3/3 epoch (loss 0.1836):  72%|███████▏  | 12133/16950 [2:14:16<48:04,  1.67it/s]Training 3/3 epoch (loss 0.0226):  72%|███████▏  | 12133/16950 [2:14:17<48:04,  1.67it/s]Training 3/3 epoch (loss 0.0226):  72%|███████▏  | 12134/16950 [2:14:17<45:32,  1.76it/s]Training 3/3 epoch (loss 0.3496):  72%|███████▏  | 12134/16950 [2:14:17<45:32,  1.76it/s]Training 3/3 epoch (loss 0.3496):  72%|███████▏  | 12135/16950 [2:14:17<41:12,  1.95it/s]Training 3/3 epoch (loss 0.3934):  72%|███████▏  | 12135/16950 [2:14:17<41:12,  1.95it/s]Training 3/3 epoch (loss 0.3934):  72%|███████▏  | 12136/16950 [2:14:17<37:54,  2.12it/s]Training 3/3 epoch (loss 0.0001):  72%|███████▏  | 12136/16950 [2:14:18<37:54,  2.12it/s]Training 3/3 epoch (loss 0.0001):  72%|███████▏  | 12137/16950 [2:14:18<41:13,  1.95it/s]Training 3/3 epoch (loss 0.0485):  72%|███████▏  | 12137/16950 [2:14:19<41:13,  1.95it/s]Training 3/3 epoch (loss 0.0485):  72%|███████▏  | 12138/16950 [2:14:19<42:53,  1.87it/s]Training 3/3 epoch (loss 0.0780):  72%|███████▏  | 12138/16950 [2:14:19<42:53,  1.87it/s]Training 3/3 epoch (loss 0.0780):  72%|███████▏  | 12139/16950 [2:14:19<39:29,  2.03it/s]Training 3/3 epoch (loss 0.0374):  72%|███████▏  | 12139/16950 [2:14:19<39:29,  2.03it/s]Training 3/3 epoch (loss 0.0374):  72%|███████▏  | 12140/16950 [2:14:19<38:59,  2.06it/s]Training 3/3 epoch (loss 0.4780):  72%|███████▏  | 12140/16950 [2:14:20<38:59,  2.06it/s]Training 3/3 epoch (loss 0.4780):  72%|███████▏  | 12141/16950 [2:14:20<37:01,  2.17it/s]Training 3/3 epoch (loss 0.0430):  72%|███████▏  | 12141/16950 [2:14:21<37:01,  2.17it/s]Training 3/3 epoch (loss 0.0430):  72%|███████▏  | 12142/16950 [2:14:21<42:07,  1.90it/s]Training 3/3 epoch (loss 0.2592):  72%|███████▏  | 12142/16950 [2:14:21<42:07,  1.90it/s]Training 3/3 epoch (loss 0.2592):  72%|███████▏  | 12143/16950 [2:14:21<41:05,  1.95it/s]Training 3/3 epoch (loss 0.3966):  72%|███████▏  | 12143/16950 [2:14:21<41:05,  1.95it/s]Training 3/3 epoch (loss 0.3966):  72%|███████▏  | 12144/16950 [2:14:21<40:49,  1.96it/s]Training 3/3 epoch (loss 0.0341):  72%|███████▏  | 12144/16950 [2:14:22<40:49,  1.96it/s]Training 3/3 epoch (loss 0.0341):  72%|███████▏  | 12145/16950 [2:14:22<41:32,  1.93it/s]Training 3/3 epoch (loss 0.2498):  72%|███████▏  | 12145/16950 [2:14:23<41:32,  1.93it/s]Training 3/3 epoch (loss 0.2498):  72%|███████▏  | 12146/16950 [2:14:23<43:47,  1.83it/s]Training 3/3 epoch (loss 0.0345):  72%|███████▏  | 12146/16950 [2:14:23<43:47,  1.83it/s]Training 3/3 epoch (loss 0.0345):  72%|███████▏  | 12147/16950 [2:14:23<47:01,  1.70it/s]Training 3/3 epoch (loss 0.1344):  72%|███████▏  | 12147/16950 [2:14:24<47:01,  1.70it/s]Training 3/3 epoch (loss 0.1344):  72%|███████▏  | 12148/16950 [2:14:24<46:52,  1.71it/s]Training 3/3 epoch (loss 0.0076):  72%|███████▏  | 12148/16950 [2:14:24<46:52,  1.71it/s]Training 3/3 epoch (loss 0.0076):  72%|███████▏  | 12149/16950 [2:14:24<44:51,  1.78it/s]Training 3/3 epoch (loss 0.3418):  72%|███████▏  | 12149/16950 [2:14:25<44:51,  1.78it/s]Training 3/3 epoch (loss 0.3418):  72%|███████▏  | 12150/16950 [2:14:25<38:43,  2.07it/s]Training 3/3 epoch (loss 0.0342):  72%|███████▏  | 12150/16950 [2:14:25<38:43,  2.07it/s]Training 3/3 epoch (loss 0.0342):  72%|███████▏  | 12151/16950 [2:14:25<36:57,  2.16it/s]Training 3/3 epoch (loss 0.0744):  72%|███████▏  | 12151/16950 [2:14:26<36:57,  2.16it/s]Training 3/3 epoch (loss 0.0744):  72%|███████▏  | 12152/16950 [2:14:26<43:07,  1.85it/s]Training 3/3 epoch (loss 0.2136):  72%|███████▏  | 12152/16950 [2:14:27<43:07,  1.85it/s]Training 3/3 epoch (loss 0.2136):  72%|███████▏  | 12153/16950 [2:14:27<46:42,  1.71it/s]Training 3/3 epoch (loss 0.0045):  72%|███████▏  | 12153/16950 [2:14:27<46:42,  1.71it/s]Training 3/3 epoch (loss 0.0045):  72%|███████▏  | 12154/16950 [2:14:27<46:12,  1.73it/s]Training 3/3 epoch (loss 0.1231):  72%|███████▏  | 12154/16950 [2:14:28<46:12,  1.73it/s]Training 3/3 epoch (loss 0.1231):  72%|███████▏  | 12155/16950 [2:14:28<48:06,  1.66it/s]Training 3/3 epoch (loss 0.0350):  72%|███████▏  | 12155/16950 [2:14:28<48:06,  1.66it/s]Training 3/3 epoch (loss 0.0350):  72%|███████▏  | 12156/16950 [2:14:28<50:55,  1.57it/s]Training 3/3 epoch (loss 0.3138):  72%|███████▏  | 12156/16950 [2:14:29<50:55,  1.57it/s]Training 3/3 epoch (loss 0.3138):  72%|███████▏  | 12157/16950 [2:14:29<52:41,  1.52it/s]Training 3/3 epoch (loss 0.0022):  72%|███████▏  | 12157/16950 [2:14:30<52:41,  1.52it/s]Training 3/3 epoch (loss 0.0022):  72%|███████▏  | 12158/16950 [2:14:30<52:01,  1.54it/s]Training 3/3 epoch (loss 0.0028):  72%|███████▏  | 12158/16950 [2:14:30<52:01,  1.54it/s]Training 3/3 epoch (loss 0.0028):  72%|███████▏  | 12159/16950 [2:14:30<47:44,  1.67it/s]Training 3/3 epoch (loss 0.2910):  72%|███████▏  | 12159/16950 [2:14:31<47:44,  1.67it/s]Training 3/3 epoch (loss 0.2910):  72%|███████▏  | 12160/16950 [2:14:31<52:54,  1.51it/s]Training 3/3 epoch (loss 0.0324):  72%|███████▏  | 12160/16950 [2:14:32<52:54,  1.51it/s]Training 3/3 epoch (loss 0.0324):  72%|███████▏  | 12161/16950 [2:14:32<53:23,  1.50it/s]Training 3/3 epoch (loss 0.0003):  72%|███████▏  | 12161/16950 [2:14:32<53:23,  1.50it/s]Training 3/3 epoch (loss 0.0003):  72%|███████▏  | 12162/16950 [2:14:32<50:12,  1.59it/s]Training 3/3 epoch (loss 0.0584):  72%|███████▏  | 12162/16950 [2:14:33<50:12,  1.59it/s]Training 3/3 epoch (loss 0.0584):  72%|███████▏  | 12163/16950 [2:14:33<47:10,  1.69it/s]Training 3/3 epoch (loss 0.5487):  72%|███████▏  | 12163/16950 [2:14:34<47:10,  1.69it/s]Training 3/3 epoch (loss 0.5487):  72%|███████▏  | 12164/16950 [2:14:34<51:38,  1.54it/s]Training 3/3 epoch (loss 0.1254):  72%|███████▏  | 12164/16950 [2:14:34<51:38,  1.54it/s]Training 3/3 epoch (loss 0.1254):  72%|███████▏  | 12165/16950 [2:14:34<50:17,  1.59it/s]Training 3/3 epoch (loss 0.0843):  72%|███████▏  | 12165/16950 [2:14:35<50:17,  1.59it/s]Training 3/3 epoch (loss 0.0843):  72%|███████▏  | 12166/16950 [2:14:35<53:21,  1.49it/s]Training 3/3 epoch (loss 0.0370):  72%|███████▏  | 12166/16950 [2:14:35<53:21,  1.49it/s]Training 3/3 epoch (loss 0.0370):  72%|███████▏  | 12167/16950 [2:14:35<49:43,  1.60it/s]Training 3/3 epoch (loss 0.0046):  72%|███████▏  | 12167/16950 [2:14:36<49:43,  1.60it/s]Training 3/3 epoch (loss 0.0046):  72%|███████▏  | 12168/16950 [2:14:36<47:30,  1.68it/s]Training 3/3 epoch (loss 0.0098):  72%|███████▏  | 12168/16950 [2:14:37<47:30,  1.68it/s]Training 3/3 epoch (loss 0.0098):  72%|███████▏  | 12169/16950 [2:14:37<49:39,  1.60it/s]Training 3/3 epoch (loss 0.0171):  72%|███████▏  | 12169/16950 [2:14:37<49:39,  1.60it/s]Training 3/3 epoch (loss 0.0171):  72%|███████▏  | 12170/16950 [2:14:37<52:14,  1.52it/s]Training 3/3 epoch (loss 0.0084):  72%|███████▏  | 12170/16950 [2:14:38<52:14,  1.52it/s]Training 3/3 epoch (loss 0.0084):  72%|███████▏  | 12171/16950 [2:14:38<49:55,  1.60it/s]Training 3/3 epoch (loss 0.0010):  72%|███████▏  | 12171/16950 [2:14:38<49:55,  1.60it/s]Training 3/3 epoch (loss 0.0010):  72%|███████▏  | 12172/16950 [2:14:38<45:33,  1.75it/s]Training 3/3 epoch (loss 0.0726):  72%|███████▏  | 12172/16950 [2:14:39<45:33,  1.75it/s]Training 3/3 epoch (loss 0.0726):  72%|███████▏  | 12173/16950 [2:14:39<46:32,  1.71it/s]Training 3/3 epoch (loss 0.6654):  72%|███████▏  | 12173/16950 [2:14:40<46:32,  1.71it/s]Training 3/3 epoch (loss 0.6654):  72%|███████▏  | 12174/16950 [2:14:40<1:00:50,  1.31it/s]Training 3/3 epoch (loss 0.2759):  72%|███████▏  | 12174/16950 [2:14:41<1:00:50,  1.31it/s]Training 3/3 epoch (loss 0.2759):  72%|███████▏  | 12175/16950 [2:14:41<1:06:06,  1.20it/s]Training 3/3 epoch (loss 0.0073):  72%|███████▏  | 12175/16950 [2:14:42<1:06:06,  1.20it/s]Training 3/3 epoch (loss 0.0073):  72%|███████▏  | 12176/16950 [2:14:42<58:48,  1.35it/s]  Training 3/3 epoch (loss 0.0007):  72%|███████▏  | 12176/16950 [2:14:42<58:48,  1.35it/s]Training 3/3 epoch (loss 0.0007):  72%|███████▏  | 12177/16950 [2:14:42<54:32,  1.46it/s]Training 3/3 epoch (loss 0.0005):  72%|███████▏  | 12177/16950 [2:14:43<54:32,  1.46it/s]Training 3/3 epoch (loss 0.0005):  72%|███████▏  | 12178/16950 [2:14:43<47:24,  1.68it/s]Training 3/3 epoch (loss 0.0061):  72%|███████▏  | 12178/16950 [2:14:43<47:24,  1.68it/s]Training 3/3 epoch (loss 0.0061):  72%|███████▏  | 12179/16950 [2:14:43<48:08,  1.65it/s]Training 3/3 epoch (loss 0.0429):  72%|███████▏  | 12179/16950 [2:14:44<48:08,  1.65it/s]Training 3/3 epoch (loss 0.0429):  72%|███████▏  | 12180/16950 [2:14:44<44:36,  1.78it/s]Training 3/3 epoch (loss 0.2347):  72%|███████▏  | 12180/16950 [2:14:44<44:36,  1.78it/s]Training 3/3 epoch (loss 0.2347):  72%|███████▏  | 12181/16950 [2:14:44<42:34,  1.87it/s]Training 3/3 epoch (loss 0.3694):  72%|███████▏  | 12181/16950 [2:14:45<42:34,  1.87it/s]Training 3/3 epoch (loss 0.3694):  72%|███████▏  | 12182/16950 [2:14:45<44:17,  1.79it/s]Training 3/3 epoch (loss 0.0028):  72%|███████▏  | 12182/16950 [2:14:45<44:17,  1.79it/s]Training 3/3 epoch (loss 0.0028):  72%|███████▏  | 12183/16950 [2:14:45<44:52,  1.77it/s]Training 3/3 epoch (loss 0.4881):  72%|███████▏  | 12183/16950 [2:14:46<44:52,  1.77it/s]Training 3/3 epoch (loss 0.4881):  72%|███████▏  | 12184/16950 [2:14:46<52:53,  1.50it/s]Training 3/3 epoch (loss 0.0017):  72%|███████▏  | 12184/16950 [2:14:47<52:53,  1.50it/s]Training 3/3 epoch (loss 0.0017):  72%|███████▏  | 12185/16950 [2:14:47<49:33,  1.60it/s]Training 3/3 epoch (loss 0.0043):  72%|███████▏  | 12185/16950 [2:14:48<49:33,  1.60it/s]Training 3/3 epoch (loss 0.0043):  72%|███████▏  | 12186/16950 [2:14:48<55:13,  1.44it/s]Training 3/3 epoch (loss 0.3941):  72%|███████▏  | 12186/16950 [2:14:48<55:13,  1.44it/s]Training 3/3 epoch (loss 0.3941):  72%|███████▏  | 12187/16950 [2:14:48<53:43,  1.48it/s]Training 3/3 epoch (loss 0.0001):  72%|███████▏  | 12187/16950 [2:14:49<53:43,  1.48it/s]Training 3/3 epoch (loss 0.0001):  72%|███████▏  | 12188/16950 [2:14:49<53:34,  1.48it/s]Training 3/3 epoch (loss 0.0315):  72%|███████▏  | 12188/16950 [2:14:49<53:34,  1.48it/s]Training 3/3 epoch (loss 0.0315):  72%|███████▏  | 12189/16950 [2:14:49<47:45,  1.66it/s]Training 3/3 epoch (loss 0.0934):  72%|███████▏  | 12189/16950 [2:14:50<47:45,  1.66it/s]Training 3/3 epoch (loss 0.0934):  72%|███████▏  | 12190/16950 [2:14:50<42:05,  1.88it/s]Training 3/3 epoch (loss 0.4361):  72%|███████▏  | 12190/16950 [2:14:50<42:05,  1.88it/s]Training 3/3 epoch (loss 0.4361):  72%|███████▏  | 12191/16950 [2:14:50<42:28,  1.87it/s]Training 3/3 epoch (loss 0.0307):  72%|███████▏  | 12191/16950 [2:14:51<42:28,  1.87it/s]Training 3/3 epoch (loss 0.0307):  72%|███████▏  | 12192/16950 [2:14:51<46:13,  1.72it/s]Training 3/3 epoch (loss 0.0007):  72%|███████▏  | 12192/16950 [2:14:52<46:13,  1.72it/s]Training 3/3 epoch (loss 0.0007):  72%|███████▏  | 12193/16950 [2:14:52<45:46,  1.73it/s]Training 3/3 epoch (loss 0.0082):  72%|███████▏  | 12193/16950 [2:14:52<45:46,  1.73it/s]Training 3/3 epoch (loss 0.0082):  72%|███████▏  | 12194/16950 [2:14:52<49:09,  1.61it/s]Training 3/3 epoch (loss 0.4098):  72%|███████▏  | 12194/16950 [2:14:53<49:09,  1.61it/s]Training 3/3 epoch (loss 0.4098):  72%|███████▏  | 12195/16950 [2:14:53<46:19,  1.71it/s]Training 3/3 epoch (loss 0.0007):  72%|███████▏  | 12195/16950 [2:14:53<46:19,  1.71it/s]Training 3/3 epoch (loss 0.0007):  72%|███████▏  | 12196/16950 [2:14:53<45:25,  1.74it/s]Training 3/3 epoch (loss 0.0203):  72%|███████▏  | 12196/16950 [2:14:54<45:25,  1.74it/s]Training 3/3 epoch (loss 0.0203):  72%|███████▏  | 12197/16950 [2:14:54<46:53,  1.69it/s]Training 3/3 epoch (loss 0.0000):  72%|███████▏  | 12197/16950 [2:14:55<46:53,  1.69it/s]Training 3/3 epoch (loss 0.0000):  72%|███████▏  | 12198/16950 [2:14:55<49:09,  1.61it/s]Training 3/3 epoch (loss 0.0624):  72%|███████▏  | 12198/16950 [2:14:55<49:09,  1.61it/s]Training 3/3 epoch (loss 0.0624):  72%|███████▏  | 12199/16950 [2:14:55<49:35,  1.60it/s]Training 3/3 epoch (loss 0.5055):  72%|███████▏  | 12199/16950 [2:14:56<49:35,  1.60it/s]Training 3/3 epoch (loss 0.5055):  72%|███████▏  | 12200/16950 [2:14:56<51:31,  1.54it/s]Training 3/3 epoch (loss 0.0004):  72%|███████▏  | 12200/16950 [2:14:57<51:31,  1.54it/s]Training 3/3 epoch (loss 0.0004):  72%|███████▏  | 12201/16950 [2:14:57<49:21,  1.60it/s]Training 3/3 epoch (loss 0.1545):  72%|███████▏  | 12201/16950 [2:14:57<49:21,  1.60it/s]Training 3/3 epoch (loss 0.1545):  72%|███████▏  | 12202/16950 [2:14:57<48:18,  1.64it/s]Training 3/3 epoch (loss 0.0001):  72%|███████▏  | 12202/16950 [2:14:58<48:18,  1.64it/s]Training 3/3 epoch (loss 0.0001):  72%|███████▏  | 12203/16950 [2:14:58<46:00,  1.72it/s]Training 3/3 epoch (loss 0.0089):  72%|███████▏  | 12203/16950 [2:14:58<46:00,  1.72it/s]Training 3/3 epoch (loss 0.0089):  72%|███████▏  | 12204/16950 [2:14:58<42:20,  1.87it/s]Training 3/3 epoch (loss 0.0008):  72%|███████▏  | 12204/16950 [2:14:59<42:20,  1.87it/s]Training 3/3 epoch (loss 0.0008):  72%|███████▏  | 12205/16950 [2:14:59<39:41,  1.99it/s]Training 3/3 epoch (loss 0.4289):  72%|███████▏  | 12205/16950 [2:14:59<39:41,  1.99it/s]Training 3/3 epoch (loss 0.4289):  72%|███████▏  | 12206/16950 [2:14:59<35:46,  2.21it/s]Training 3/3 epoch (loss 0.0061):  72%|███████▏  | 12206/16950 [2:14:59<35:46,  2.21it/s]Training 3/3 epoch (loss 0.0061):  72%|███████▏  | 12207/16950 [2:14:59<33:44,  2.34it/s]Training 3/3 epoch (loss 0.0380):  72%|███████▏  | 12207/16950 [2:15:00<33:44,  2.34it/s]Training 3/3 epoch (loss 0.0380):  72%|███████▏  | 12208/16950 [2:15:00<36:13,  2.18it/s]Training 3/3 epoch (loss 0.0007):  72%|███████▏  | 12208/16950 [2:15:00<36:13,  2.18it/s]Training 3/3 epoch (loss 0.0007):  72%|███████▏  | 12209/16950 [2:15:00<40:34,  1.95it/s]Training 3/3 epoch (loss 0.1945):  72%|███████▏  | 12209/16950 [2:15:01<40:34,  1.95it/s]Training 3/3 epoch (loss 0.1945):  72%|███████▏  | 12210/16950 [2:15:01<43:20,  1.82it/s]Training 3/3 epoch (loss 0.6298):  72%|███████▏  | 12210/16950 [2:15:02<43:20,  1.82it/s]Training 3/3 epoch (loss 0.6298):  72%|███████▏  | 12211/16950 [2:15:02<52:26,  1.51it/s]Training 3/3 epoch (loss 0.0003):  72%|███████▏  | 12211/16950 [2:15:03<52:26,  1.51it/s]Training 3/3 epoch (loss 0.0003):  72%|███████▏  | 12212/16950 [2:15:03<49:09,  1.61it/s]Training 3/3 epoch (loss 0.6573):  72%|███████▏  | 12212/16950 [2:15:03<49:09,  1.61it/s]Training 3/3 epoch (loss 0.6573):  72%|███████▏  | 12213/16950 [2:15:03<46:00,  1.72it/s]Training 3/3 epoch (loss 0.4161):  72%|███████▏  | 12213/16950 [2:15:04<46:00,  1.72it/s]Training 3/3 epoch (loss 0.4161):  72%|███████▏  | 12214/16950 [2:15:04<45:52,  1.72it/s]Training 3/3 epoch (loss 0.3541):  72%|███████▏  | 12214/16950 [2:15:04<45:52,  1.72it/s]Training 3/3 epoch (loss 0.3541):  72%|███████▏  | 12215/16950 [2:15:04<43:39,  1.81it/s]Training 3/3 epoch (loss 0.0004):  72%|███████▏  | 12215/16950 [2:15:05<43:39,  1.81it/s]Training 3/3 epoch (loss 0.0004):  72%|███████▏  | 12216/16950 [2:15:05<44:15,  1.78it/s]Training 3/3 epoch (loss 0.0202):  72%|███████▏  | 12216/16950 [2:15:05<44:15,  1.78it/s]Training 3/3 epoch (loss 0.0202):  72%|███████▏  | 12217/16950 [2:15:05<43:00,  1.83it/s]Training 3/3 epoch (loss 0.0605):  72%|███████▏  | 12217/16950 [2:15:06<43:00,  1.83it/s]Training 3/3 epoch (loss 0.0605):  72%|███████▏  | 12218/16950 [2:15:06<46:12,  1.71it/s]Training 3/3 epoch (loss 0.0017):  72%|███████▏  | 12218/16950 [2:15:06<46:12,  1.71it/s]Training 3/3 epoch (loss 0.0017):  72%|███████▏  | 12219/16950 [2:15:06<46:54,  1.68it/s]Training 3/3 epoch (loss 0.0055):  72%|███████▏  | 12219/16950 [2:15:07<46:54,  1.68it/s]Training 3/3 epoch (loss 0.0055):  72%|███████▏  | 12220/16950 [2:15:07<53:18,  1.48it/s]Training 3/3 epoch (loss 0.0951):  72%|███████▏  | 12220/16950 [2:15:08<53:18,  1.48it/s]Training 3/3 epoch (loss 0.0951):  72%|███████▏  | 12221/16950 [2:15:08<49:27,  1.59it/s]Training 3/3 epoch (loss 0.0033):  72%|███████▏  | 12221/16950 [2:15:08<49:27,  1.59it/s]Training 3/3 epoch (loss 0.0033):  72%|███████▏  | 12222/16950 [2:15:08<47:04,  1.67it/s]Training 3/3 epoch (loss 0.0031):  72%|███████▏  | 12222/16950 [2:15:09<47:04,  1.67it/s]Training 3/3 epoch (loss 0.0031):  72%|███████▏  | 12223/16950 [2:15:09<46:04,  1.71it/s]Training 3/3 epoch (loss 0.0501):  72%|███████▏  | 12223/16950 [2:15:10<46:04,  1.71it/s]Training 3/3 epoch (loss 0.0501):  72%|███████▏  | 12224/16950 [2:15:10<47:11,  1.67it/s]Training 3/3 epoch (loss 0.4049):  72%|███████▏  | 12224/16950 [2:15:10<47:11,  1.67it/s]Training 3/3 epoch (loss 0.4049):  72%|███████▏  | 12225/16950 [2:15:10<47:15,  1.67it/s]Training 3/3 epoch (loss 0.0457):  72%|███████▏  | 12225/16950 [2:15:11<47:15,  1.67it/s]Training 3/3 epoch (loss 0.0457):  72%|███████▏  | 12226/16950 [2:15:11<47:50,  1.65it/s]Training 3/3 epoch (loss 0.3328):  72%|███████▏  | 12226/16950 [2:15:11<47:50,  1.65it/s]Training 3/3 epoch (loss 0.3328):  72%|███████▏  | 12227/16950 [2:15:11<44:43,  1.76it/s]Training 3/3 epoch (loss 0.0004):  72%|███████▏  | 12227/16950 [2:15:12<44:43,  1.76it/s]Training 3/3 epoch (loss 0.0004):  72%|███████▏  | 12228/16950 [2:15:12<55:41,  1.41it/s]Training 3/3 epoch (loss 0.0011):  72%|███████▏  | 12228/16950 [2:15:13<55:41,  1.41it/s]Training 3/3 epoch (loss 0.0011):  72%|███████▏  | 12229/16950 [2:15:13<1:02:01,  1.27it/s]Training 3/3 epoch (loss 0.0150):  72%|███████▏  | 12229/16950 [2:15:14<1:02:01,  1.27it/s]Training 3/3 epoch (loss 0.0150):  72%|███████▏  | 12230/16950 [2:15:14<1:00:44,  1.29it/s]Training 3/3 epoch (loss 0.2505):  72%|███████▏  | 12230/16950 [2:15:14<1:00:44,  1.29it/s]Training 3/3 epoch (loss 0.2505):  72%|███████▏  | 12231/16950 [2:15:14<53:10,  1.48it/s]  Training 3/3 epoch (loss 0.5254):  72%|███████▏  | 12231/16950 [2:15:15<53:10,  1.48it/s]Training 3/3 epoch (loss 0.5254):  72%|███████▏  | 12232/16950 [2:15:15<52:45,  1.49it/s]Training 3/3 epoch (loss 0.3940):  72%|███████▏  | 12232/16950 [2:15:16<52:45,  1.49it/s]Training 3/3 epoch (loss 0.3940):  72%|███████▏  | 12233/16950 [2:15:16<52:42,  1.49it/s]Training 3/3 epoch (loss 0.3073):  72%|███████▏  | 12233/16950 [2:15:16<52:42,  1.49it/s]Training 3/3 epoch (loss 0.3073):  72%|███████▏  | 12234/16950 [2:15:16<49:50,  1.58it/s]Training 3/3 epoch (loss 0.1428):  72%|███████▏  | 12234/16950 [2:15:17<49:50,  1.58it/s]Training 3/3 epoch (loss 0.1428):  72%|███████▏  | 12235/16950 [2:15:17<46:03,  1.71it/s]Training 3/3 epoch (loss 0.5995):  72%|███████▏  | 12235/16950 [2:15:17<46:03,  1.71it/s]Training 3/3 epoch (loss 0.5995):  72%|███████▏  | 12236/16950 [2:15:17<47:38,  1.65it/s]Training 3/3 epoch (loss 0.0347):  72%|███████▏  | 12236/16950 [2:15:18<47:38,  1.65it/s]Training 3/3 epoch (loss 0.0347):  72%|███████▏  | 12237/16950 [2:15:18<49:27,  1.59it/s]Training 3/3 epoch (loss 0.3980):  72%|███████▏  | 12237/16950 [2:15:19<49:27,  1.59it/s]Training 3/3 epoch (loss 0.3980):  72%|███████▏  | 12238/16950 [2:15:19<56:27,  1.39it/s]Training 3/3 epoch (loss 0.0066):  72%|███████▏  | 12238/16950 [2:15:20<56:27,  1.39it/s]Training 3/3 epoch (loss 0.0066):  72%|███████▏  | 12239/16950 [2:15:20<56:15,  1.40it/s]Training 3/3 epoch (loss 0.0394):  72%|███████▏  | 12239/16950 [2:15:20<56:15,  1.40it/s]Training 3/3 epoch (loss 0.0394):  72%|███████▏  | 12240/16950 [2:15:20<53:05,  1.48it/s]Training 3/3 epoch (loss 0.0076):  72%|███████▏  | 12240/16950 [2:15:21<53:05,  1.48it/s]Training 3/3 epoch (loss 0.0076):  72%|███████▏  | 12241/16950 [2:15:21<50:15,  1.56it/s]Training 3/3 epoch (loss 0.5612):  72%|███████▏  | 12241/16950 [2:15:22<50:15,  1.56it/s]Training 3/3 epoch (loss 0.5612):  72%|███████▏  | 12242/16950 [2:15:22<54:49,  1.43it/s]Training 3/3 epoch (loss 0.0109):  72%|███████▏  | 12242/16950 [2:15:23<54:49,  1.43it/s]Training 3/3 epoch (loss 0.0109):  72%|███████▏  | 12243/16950 [2:15:23<55:33,  1.41it/s]Training 3/3 epoch (loss 0.4732):  72%|███████▏  | 12243/16950 [2:15:23<55:33,  1.41it/s]Training 3/3 epoch (loss 0.4732):  72%|███████▏  | 12244/16950 [2:15:23<59:55,  1.31it/s]Training 3/3 epoch (loss 0.0014):  72%|███████▏  | 12244/16950 [2:15:24<59:55,  1.31it/s]Training 3/3 epoch (loss 0.0014):  72%|███████▏  | 12245/16950 [2:15:24<52:00,  1.51it/s]Training 3/3 epoch (loss 0.1804):  72%|███████▏  | 12245/16950 [2:15:25<52:00,  1.51it/s]Training 3/3 epoch (loss 0.1804):  72%|███████▏  | 12246/16950 [2:15:25<55:13,  1.42it/s]Training 3/3 epoch (loss 0.5735):  72%|███████▏  | 12246/16950 [2:15:25<55:13,  1.42it/s]Training 3/3 epoch (loss 0.5735):  72%|███████▏  | 12247/16950 [2:15:25<50:02,  1.57it/s]Training 3/3 epoch (loss 0.4149):  72%|███████▏  | 12247/16950 [2:15:26<50:02,  1.57it/s]Training 3/3 epoch (loss 0.4149):  72%|███████▏  | 12248/16950 [2:15:26<45:50,  1.71it/s]Training 3/3 epoch (loss 0.2072):  72%|███████▏  | 12248/16950 [2:15:26<45:50,  1.71it/s]Training 3/3 epoch (loss 0.2072):  72%|███████▏  | 12249/16950 [2:15:26<42:34,  1.84it/s]Training 3/3 epoch (loss 0.0001):  72%|███████▏  | 12249/16950 [2:15:26<42:34,  1.84it/s]Training 3/3 epoch (loss 0.0001):  72%|███████▏  | 12250/16950 [2:15:26<36:53,  2.12it/s]Training 3/3 epoch (loss 0.5148):  72%|███████▏  | 12250/16950 [2:15:27<36:53,  2.12it/s]Training 3/3 epoch (loss 0.5148):  72%|███████▏  | 12251/16950 [2:15:27<45:51,  1.71it/s]Training 3/3 epoch (loss 0.6267):  72%|███████▏  | 12251/16950 [2:15:28<45:51,  1.71it/s]Training 3/3 epoch (loss 0.6267):  72%|███████▏  | 12252/16950 [2:15:28<40:28,  1.93it/s]Training 3/3 epoch (loss 0.0009):  72%|███████▏  | 12252/16950 [2:15:28<40:28,  1.93it/s]Training 3/3 epoch (loss 0.0009):  72%|███████▏  | 12253/16950 [2:15:28<39:02,  2.00it/s]Training 3/3 epoch (loss 0.0037):  72%|███████▏  | 12253/16950 [2:15:28<39:02,  2.00it/s]Training 3/3 epoch (loss 0.0037):  72%|███████▏  | 12254/16950 [2:15:28<38:23,  2.04it/s]Training 3/3 epoch (loss 0.4155):  72%|███████▏  | 12254/16950 [2:15:29<38:23,  2.04it/s]Training 3/3 epoch (loss 0.4155):  72%|███████▏  | 12255/16950 [2:15:29<43:50,  1.78it/s]Training 3/3 epoch (loss 0.0781):  72%|███████▏  | 12255/16950 [2:15:30<43:50,  1.78it/s]Training 3/3 epoch (loss 0.0781):  72%|███████▏  | 12256/16950 [2:15:30<43:52,  1.78it/s]Training 3/3 epoch (loss 0.0600):  72%|███████▏  | 12256/16950 [2:15:30<43:52,  1.78it/s]Training 3/3 epoch (loss 0.0600):  72%|███████▏  | 12257/16950 [2:15:30<41:34,  1.88it/s]Training 3/3 epoch (loss 0.6039):  72%|███████▏  | 12257/16950 [2:15:31<41:34,  1.88it/s]Training 3/3 epoch (loss 0.6039):  72%|███████▏  | 12258/16950 [2:15:31<51:10,  1.53it/s]Training 3/3 epoch (loss 0.0039):  72%|███████▏  | 12258/16950 [2:15:32<51:10,  1.53it/s]Training 3/3 epoch (loss 0.0039):  72%|███████▏  | 12259/16950 [2:15:32<50:18,  1.55it/s]Training 3/3 epoch (loss 0.0021):  72%|███████▏  | 12259/16950 [2:15:32<50:18,  1.55it/s]Training 3/3 epoch (loss 0.0021):  72%|███████▏  | 12260/16950 [2:15:32<50:40,  1.54it/s]Training 3/3 epoch (loss 0.0021):  72%|███████▏  | 12260/16950 [2:15:33<50:40,  1.54it/s]Training 3/3 epoch (loss 0.0021):  72%|███████▏  | 12261/16950 [2:15:33<43:09,  1.81it/s]Training 3/3 epoch (loss 0.0014):  72%|███████▏  | 12261/16950 [2:15:33<43:09,  1.81it/s]Training 3/3 epoch (loss 0.0014):  72%|███████▏  | 12262/16950 [2:15:33<43:58,  1.78it/s]Training 3/3 epoch (loss 0.1877):  72%|███████▏  | 12262/16950 [2:15:34<43:58,  1.78it/s]Training 3/3 epoch (loss 0.1877):  72%|███████▏  | 12263/16950 [2:15:34<54:56,  1.42it/s]Training 3/3 epoch (loss 0.2974):  72%|███████▏  | 12263/16950 [2:15:35<54:56,  1.42it/s]Training 3/3 epoch (loss 0.2974):  72%|███████▏  | 12264/16950 [2:15:35<51:01,  1.53it/s]Training 3/3 epoch (loss 0.2776):  72%|███████▏  | 12264/16950 [2:15:36<51:01,  1.53it/s]Training 3/3 epoch (loss 0.2776):  72%|███████▏  | 12265/16950 [2:15:36<51:35,  1.51it/s]Training 3/3 epoch (loss 0.3136):  72%|███████▏  | 12265/16950 [2:15:36<51:35,  1.51it/s]Training 3/3 epoch (loss 0.3136):  72%|███████▏  | 12266/16950 [2:15:36<52:47,  1.48it/s]Training 3/3 epoch (loss 0.0041):  72%|███████▏  | 12266/16950 [2:15:37<52:47,  1.48it/s]Training 3/3 epoch (loss 0.0041):  72%|███████▏  | 12267/16950 [2:15:37<50:04,  1.56it/s]Training 3/3 epoch (loss 0.0087):  72%|███████▏  | 12267/16950 [2:15:37<50:04,  1.56it/s]Training 3/3 epoch (loss 0.0087):  72%|███████▏  | 12268/16950 [2:15:37<49:08,  1.59it/s]Training 3/3 epoch (loss 0.1148):  72%|███████▏  | 12268/16950 [2:15:38<49:08,  1.59it/s]Training 3/3 epoch (loss 0.1148):  72%|███████▏  | 12269/16950 [2:15:38<45:17,  1.72it/s]Training 3/3 epoch (loss 0.2678):  72%|███████▏  | 12269/16950 [2:15:38<45:17,  1.72it/s]Training 3/3 epoch (loss 0.2678):  72%|███████▏  | 12270/16950 [2:15:38<43:06,  1.81it/s]Training 3/3 epoch (loss 0.0003):  72%|███████▏  | 12270/16950 [2:15:39<43:06,  1.81it/s]Training 3/3 epoch (loss 0.0003):  72%|███████▏  | 12271/16950 [2:15:39<38:29,  2.03it/s]Training 3/3 epoch (loss 0.0418):  72%|███████▏  | 12271/16950 [2:15:39<38:29,  2.03it/s]Training 3/3 epoch (loss 0.0418):  72%|███████▏  | 12272/16950 [2:15:39<35:07,  2.22it/s]Training 3/3 epoch (loss 0.0023):  72%|███████▏  | 12272/16950 [2:15:40<35:07,  2.22it/s]Training 3/3 epoch (loss 0.0023):  72%|███████▏  | 12273/16950 [2:15:40<38:07,  2.04it/s]Training 3/3 epoch (loss 0.3421):  72%|███████▏  | 12273/16950 [2:15:40<38:07,  2.04it/s]Training 3/3 epoch (loss 0.3421):  72%|███████▏  | 12274/16950 [2:15:40<36:32,  2.13it/s]Training 3/3 epoch (loss 0.4672):  72%|███████▏  | 12274/16950 [2:15:41<36:32,  2.13it/s]Training 3/3 epoch (loss 0.4672):  72%|███████▏  | 12275/16950 [2:15:41<37:03,  2.10it/s]Training 3/3 epoch (loss 0.0104):  72%|███████▏  | 12275/16950 [2:15:41<37:03,  2.10it/s]Training 3/3 epoch (loss 0.0104):  72%|███████▏  | 12276/16950 [2:15:41<37:51,  2.06it/s]Training 3/3 epoch (loss 0.5483):  72%|███████▏  | 12276/16950 [2:15:42<37:51,  2.06it/s]Training 3/3 epoch (loss 0.5483):  72%|███████▏  | 12277/16950 [2:15:42<42:53,  1.82it/s]Training 3/3 epoch (loss 0.0027):  72%|███████▏  | 12277/16950 [2:15:42<42:53,  1.82it/s]Training 3/3 epoch (loss 0.0027):  72%|███████▏  | 12278/16950 [2:15:42<45:11,  1.72it/s]Training 3/3 epoch (loss 0.0005):  72%|███████▏  | 12278/16950 [2:15:43<45:11,  1.72it/s]Training 3/3 epoch (loss 0.0005):  72%|███████▏  | 12279/16950 [2:15:43<42:46,  1.82it/s]Training 3/3 epoch (loss 0.3360):  72%|███████▏  | 12279/16950 [2:15:43<42:46,  1.82it/s]Training 3/3 epoch (loss 0.3360):  72%|███████▏  | 12280/16950 [2:15:43<41:37,  1.87it/s]Training 3/3 epoch (loss 0.1005):  72%|███████▏  | 12280/16950 [2:15:44<41:37,  1.87it/s]Training 3/3 epoch (loss 0.1005):  72%|███████▏  | 12281/16950 [2:15:44<38:06,  2.04it/s]Training 3/3 epoch (loss 0.0075):  72%|███████▏  | 12281/16950 [2:15:44<38:06,  2.04it/s]Training 3/3 epoch (loss 0.0075):  72%|███████▏  | 12282/16950 [2:15:44<41:26,  1.88it/s]Training 3/3 epoch (loss 0.4871):  72%|███████▏  | 12282/16950 [2:15:45<41:26,  1.88it/s]Training 3/3 epoch (loss 0.4871):  72%|███████▏  | 12283/16950 [2:15:45<47:11,  1.65it/s]Training 3/3 epoch (loss 0.0400):  72%|███████▏  | 12283/16950 [2:15:46<47:11,  1.65it/s]Training 3/3 epoch (loss 0.0400):  72%|███████▏  | 12284/16950 [2:15:46<54:58,  1.41it/s]Training 3/3 epoch (loss 0.0281):  72%|███████▏  | 12284/16950 [2:15:47<54:58,  1.41it/s]Training 3/3 epoch (loss 0.0281):  72%|███████▏  | 12285/16950 [2:15:47<51:58,  1.50it/s]Training 3/3 epoch (loss 0.3183):  72%|███████▏  | 12285/16950 [2:15:47<51:58,  1.50it/s]Training 3/3 epoch (loss 0.3183):  72%|███████▏  | 12286/16950 [2:15:47<47:41,  1.63it/s]Training 3/3 epoch (loss 0.3939):  72%|███████▏  | 12286/16950 [2:15:48<47:41,  1.63it/s]Training 3/3 epoch (loss 0.3939):  72%|███████▏  | 12287/16950 [2:15:48<45:25,  1.71it/s]Training 3/3 epoch (loss 0.2588):  72%|███████▏  | 12287/16950 [2:15:49<45:25,  1.71it/s]Training 3/3 epoch (loss 0.2588):  72%|███████▏  | 12288/16950 [2:15:49<50:06,  1.55it/s]Training 3/3 epoch (loss 0.3092):  72%|███████▏  | 12288/16950 [2:15:49<50:06,  1.55it/s]Training 3/3 epoch (loss 0.3092):  73%|███████▎  | 12289/16950 [2:15:49<49:29,  1.57it/s]Training 3/3 epoch (loss 0.3870):  73%|███████▎  | 12289/16950 [2:15:50<49:29,  1.57it/s]Training 3/3 epoch (loss 0.3870):  73%|███████▎  | 12290/16950 [2:15:50<44:11,  1.76it/s]Training 3/3 epoch (loss 0.0087):  73%|███████▎  | 12290/16950 [2:15:50<44:11,  1.76it/s]Training 3/3 epoch (loss 0.0087):  73%|███████▎  | 12291/16950 [2:15:50<41:58,  1.85it/s]Training 3/3 epoch (loss 0.0001):  73%|███████▎  | 12291/16950 [2:15:51<41:58,  1.85it/s]Training 3/3 epoch (loss 0.0001):  73%|███████▎  | 12292/16950 [2:15:51<42:08,  1.84it/s]Training 3/3 epoch (loss 0.0135):  73%|███████▎  | 12292/16950 [2:15:51<42:08,  1.84it/s]Training 3/3 epoch (loss 0.0135):  73%|███████▎  | 12293/16950 [2:15:51<43:39,  1.78it/s]Training 3/3 epoch (loss 0.3785):  73%|███████▎  | 12293/16950 [2:15:52<43:39,  1.78it/s]Training 3/3 epoch (loss 0.3785):  73%|███████▎  | 12294/16950 [2:15:52<41:15,  1.88it/s]Training 3/3 epoch (loss 0.0034):  73%|███████▎  | 12294/16950 [2:15:52<41:15,  1.88it/s]Training 3/3 epoch (loss 0.0034):  73%|███████▎  | 12295/16950 [2:15:52<38:20,  2.02it/s]Training 3/3 epoch (loss 0.0019):  73%|███████▎  | 12295/16950 [2:15:53<38:20,  2.02it/s]Training 3/3 epoch (loss 0.0019):  73%|███████▎  | 12296/16950 [2:15:53<41:01,  1.89it/s]Training 3/3 epoch (loss 0.4695):  73%|███████▎  | 12296/16950 [2:15:53<41:01,  1.89it/s]Training 3/3 epoch (loss 0.4695):  73%|███████▎  | 12297/16950 [2:15:53<43:12,  1.79it/s]Training 3/3 epoch (loss 0.4717):  73%|███████▎  | 12297/16950 [2:15:54<43:12,  1.79it/s]Training 3/3 epoch (loss 0.4717):  73%|███████▎  | 12298/16950 [2:15:54<52:57,  1.46it/s]Training 3/3 epoch (loss 0.7735):  73%|███████▎  | 12298/16950 [2:15:55<52:57,  1.46it/s]Training 3/3 epoch (loss 0.7735):  73%|███████▎  | 12299/16950 [2:15:55<1:01:13,  1.27it/s]Training 3/3 epoch (loss 0.0004):  73%|███████▎  | 12299/16950 [2:15:56<1:01:13,  1.27it/s]Training 3/3 epoch (loss 0.0004):  73%|███████▎  | 12300/16950 [2:15:56<59:30,  1.30it/s]  Training 3/3 epoch (loss 0.0005):  73%|███████▎  | 12300/16950 [2:15:57<59:30,  1.30it/s]Training 3/3 epoch (loss 0.0005):  73%|███████▎  | 12301/16950 [2:15:57<56:31,  1.37it/s]Training 3/3 epoch (loss 0.0009):  73%|███████▎  | 12301/16950 [2:15:57<56:31,  1.37it/s]Training 3/3 epoch (loss 0.0009):  73%|███████▎  | 12302/16950 [2:15:57<53:05,  1.46it/s]Training 3/3 epoch (loss 0.0142):  73%|███████▎  | 12302/16950 [2:15:58<53:05,  1.46it/s]Training 3/3 epoch (loss 0.0142):  73%|███████▎  | 12303/16950 [2:15:58<47:07,  1.64it/s]Training 3/3 epoch (loss 0.5602):  73%|███████▎  | 12303/16950 [2:15:59<47:07,  1.64it/s]Training 3/3 epoch (loss 0.5602):  73%|███████▎  | 12304/16950 [2:15:59<51:49,  1.49it/s]Training 3/3 epoch (loss 0.0899):  73%|███████▎  | 12304/16950 [2:15:59<51:49,  1.49it/s]Training 3/3 epoch (loss 0.0899):  73%|███████▎  | 12305/16950 [2:15:59<48:53,  1.58it/s]Training 3/3 epoch (loss 0.0045):  73%|███████▎  | 12305/16950 [2:16:00<48:53,  1.58it/s]Training 3/3 epoch (loss 0.0045):  73%|███████▎  | 12306/16950 [2:16:00<46:49,  1.65it/s]Training 3/3 epoch (loss 0.0866):  73%|███████▎  | 12306/16950 [2:16:00<46:49,  1.65it/s]Training 3/3 epoch (loss 0.0866):  73%|███████▎  | 12307/16950 [2:16:00<46:42,  1.66it/s]Training 3/3 epoch (loss 0.6780):  73%|███████▎  | 12307/16950 [2:16:01<46:42,  1.66it/s]Training 3/3 epoch (loss 0.6780):  73%|███████▎  | 12308/16950 [2:16:01<48:15,  1.60it/s]Training 3/3 epoch (loss 0.0057):  73%|███████▎  | 12308/16950 [2:16:01<48:15,  1.60it/s]Training 3/3 epoch (loss 0.0057):  73%|███████▎  | 12309/16950 [2:16:01<47:55,  1.61it/s]Training 3/3 epoch (loss 0.0013):  73%|███████▎  | 12309/16950 [2:16:02<47:55,  1.61it/s]Training 3/3 epoch (loss 0.0013):  73%|███████▎  | 12310/16950 [2:16:02<43:34,  1.77it/s]Training 3/3 epoch (loss 0.0067):  73%|███████▎  | 12310/16950 [2:16:02<43:34,  1.77it/s]Training 3/3 epoch (loss 0.0067):  73%|███████▎  | 12311/16950 [2:16:02<42:56,  1.80it/s]Training 3/3 epoch (loss 0.2344):  73%|███████▎  | 12311/16950 [2:16:03<42:56,  1.80it/s]Training 3/3 epoch (loss 0.2344):  73%|███████▎  | 12312/16950 [2:16:03<49:07,  1.57it/s]Training 3/3 epoch (loss 0.0033):  73%|███████▎  | 12312/16950 [2:16:04<49:07,  1.57it/s]Training 3/3 epoch (loss 0.0033):  73%|███████▎  | 12313/16950 [2:16:04<48:30,  1.59it/s]Training 3/3 epoch (loss 0.4062):  73%|███████▎  | 12313/16950 [2:16:05<48:30,  1.59it/s]Training 3/3 epoch (loss 0.4062):  73%|███████▎  | 12314/16950 [2:16:05<59:00,  1.31it/s]Training 3/3 epoch (loss 0.0054):  73%|███████▎  | 12314/16950 [2:16:06<59:00,  1.31it/s]Training 3/3 epoch (loss 0.0054):  73%|███████▎  | 12315/16950 [2:16:06<56:11,  1.37it/s]Training 3/3 epoch (loss 0.0254):  73%|███████▎  | 12315/16950 [2:16:06<56:11,  1.37it/s]Training 3/3 epoch (loss 0.0254):  73%|███████▎  | 12316/16950 [2:16:06<53:10,  1.45it/s]Training 3/3 epoch (loss 0.0027):  73%|███████▎  | 12316/16950 [2:16:07<53:10,  1.45it/s]Training 3/3 epoch (loss 0.0027):  73%|███████▎  | 12317/16950 [2:16:07<48:02,  1.61it/s]Training 3/3 epoch (loss 0.3350):  73%|███████▎  | 12317/16950 [2:16:07<48:02,  1.61it/s]Training 3/3 epoch (loss 0.3350):  73%|███████▎  | 12318/16950 [2:16:07<42:30,  1.82it/s]Training 3/3 epoch (loss 0.3563):  73%|███████▎  | 12318/16950 [2:16:08<42:30,  1.82it/s]Training 3/3 epoch (loss 0.3563):  73%|███████▎  | 12319/16950 [2:16:08<42:55,  1.80it/s]Training 3/3 epoch (loss 0.3301):  73%|███████▎  | 12319/16950 [2:16:08<42:55,  1.80it/s]Training 3/3 epoch (loss 0.3301):  73%|███████▎  | 12320/16950 [2:16:08<44:56,  1.72it/s]Training 3/3 epoch (loss 0.2223):  73%|███████▎  | 12320/16950 [2:16:09<44:56,  1.72it/s]Training 3/3 epoch (loss 0.2223):  73%|███████▎  | 12321/16950 [2:16:09<42:38,  1.81it/s]Training 3/3 epoch (loss 0.6193):  73%|███████▎  | 12321/16950 [2:16:10<42:38,  1.81it/s]Training 3/3 epoch (loss 0.6193):  73%|███████▎  | 12322/16950 [2:16:10<56:53,  1.36it/s]Training 3/3 epoch (loss 0.3971):  73%|███████▎  | 12322/16950 [2:16:11<56:53,  1.36it/s]Training 3/3 epoch (loss 0.3971):  73%|███████▎  | 12323/16950 [2:16:11<56:55,  1.35it/s]Training 3/3 epoch (loss 0.0213):  73%|███████▎  | 12323/16950 [2:16:11<56:55,  1.35it/s]Training 3/3 epoch (loss 0.0213):  73%|███████▎  | 12324/16950 [2:16:11<55:03,  1.40it/s]Training 3/3 epoch (loss 0.0027):  73%|███████▎  | 12324/16950 [2:16:12<55:03,  1.40it/s]Training 3/3 epoch (loss 0.0027):  73%|███████▎  | 12325/16950 [2:16:12<50:47,  1.52it/s]Training 3/3 epoch (loss 0.0099):  73%|███████▎  | 12325/16950 [2:16:12<50:47,  1.52it/s]Training 3/3 epoch (loss 0.0099):  73%|███████▎  | 12326/16950 [2:16:12<47:41,  1.62it/s]Training 3/3 epoch (loss 0.3473):  73%|███████▎  | 12326/16950 [2:16:13<47:41,  1.62it/s]Training 3/3 epoch (loss 0.3473):  73%|███████▎  | 12327/16950 [2:16:13<43:17,  1.78it/s]Training 3/3 epoch (loss 0.0268):  73%|███████▎  | 12327/16950 [2:16:13<43:17,  1.78it/s]Training 3/3 epoch (loss 0.0268):  73%|███████▎  | 12328/16950 [2:16:13<46:00,  1.67it/s]Training 3/3 epoch (loss 0.2860):  73%|███████▎  | 12328/16950 [2:16:14<46:00,  1.67it/s]Training 3/3 epoch (loss 0.2860):  73%|███████▎  | 12329/16950 [2:16:14<42:53,  1.80it/s]Training 3/3 epoch (loss 0.0715):  73%|███████▎  | 12329/16950 [2:16:15<42:53,  1.80it/s]Training 3/3 epoch (loss 0.0715):  73%|███████▎  | 12330/16950 [2:16:15<54:45,  1.41it/s]Training 3/3 epoch (loss 0.0149):  73%|███████▎  | 12330/16950 [2:16:16<54:45,  1.41it/s]Training 3/3 epoch (loss 0.0149):  73%|███████▎  | 12331/16950 [2:16:16<53:44,  1.43it/s]Training 3/3 epoch (loss 0.0513):  73%|███████▎  | 12331/16950 [2:16:16<53:44,  1.43it/s]Training 3/3 epoch (loss 0.0513):  73%|███████▎  | 12332/16950 [2:16:16<52:15,  1.47it/s]Training 3/3 epoch (loss 0.0260):  73%|███████▎  | 12332/16950 [2:16:17<52:15,  1.47it/s]Training 3/3 epoch (loss 0.0260):  73%|███████▎  | 12333/16950 [2:16:17<52:41,  1.46it/s]Training 3/3 epoch (loss 0.1508):  73%|███████▎  | 12333/16950 [2:16:18<52:41,  1.46it/s]Training 3/3 epoch (loss 0.1508):  73%|███████▎  | 12334/16950 [2:16:18<48:49,  1.58it/s]Training 3/3 epoch (loss 0.2110):  73%|███████▎  | 12334/16950 [2:16:18<48:49,  1.58it/s]Training 3/3 epoch (loss 0.2110):  73%|███████▎  | 12335/16950 [2:16:18<49:02,  1.57it/s]Training 3/3 epoch (loss 0.0039):  73%|███████▎  | 12335/16950 [2:16:19<49:02,  1.57it/s]Training 3/3 epoch (loss 0.0039):  73%|███████▎  | 12336/16950 [2:16:19<48:17,  1.59it/s]Training 3/3 epoch (loss 0.1154):  73%|███████▎  | 12336/16950 [2:16:20<48:17,  1.59it/s]Training 3/3 epoch (loss 0.1154):  73%|███████▎  | 12337/16950 [2:16:20<54:04,  1.42it/s]Training 3/3 epoch (loss 0.0250):  73%|███████▎  | 12337/16950 [2:16:20<54:04,  1.42it/s]Training 3/3 epoch (loss 0.0250):  73%|███████▎  | 12338/16950 [2:16:20<51:34,  1.49it/s]Training 3/3 epoch (loss 0.0513):  73%|███████▎  | 12338/16950 [2:16:21<51:34,  1.49it/s]Training 3/3 epoch (loss 0.0513):  73%|███████▎  | 12339/16950 [2:16:21<46:53,  1.64it/s]Training 3/3 epoch (loss 0.2870):  73%|███████▎  | 12339/16950 [2:16:21<46:53,  1.64it/s]Training 3/3 epoch (loss 0.2870):  73%|███████▎  | 12340/16950 [2:16:21<44:14,  1.74it/s]Training 3/3 epoch (loss 0.0247):  73%|███████▎  | 12340/16950 [2:16:22<44:14,  1.74it/s]Training 3/3 epoch (loss 0.0247):  73%|███████▎  | 12341/16950 [2:16:22<44:36,  1.72it/s]Training 3/3 epoch (loss 0.0238):  73%|███████▎  | 12341/16950 [2:16:22<44:36,  1.72it/s]Training 3/3 epoch (loss 0.0238):  73%|███████▎  | 12342/16950 [2:16:22<46:20,  1.66it/s]Training 3/3 epoch (loss 0.0986):  73%|███████▎  | 12342/16950 [2:16:23<46:20,  1.66it/s]Training 3/3 epoch (loss 0.0986):  73%|███████▎  | 12343/16950 [2:16:23<53:32,  1.43it/s]Training 3/3 epoch (loss 0.0121):  73%|███████▎  | 12343/16950 [2:16:24<53:32,  1.43it/s]Training 3/3 epoch (loss 0.0121):  73%|███████▎  | 12344/16950 [2:16:24<53:36,  1.43it/s]Training 3/3 epoch (loss 0.4986):  73%|███████▎  | 12344/16950 [2:16:25<53:36,  1.43it/s]Training 3/3 epoch (loss 0.4986):  73%|███████▎  | 12345/16950 [2:16:25<49:51,  1.54it/s]Training 3/3 epoch (loss 0.0337):  73%|███████▎  | 12345/16950 [2:16:25<49:51,  1.54it/s]Training 3/3 epoch (loss 0.0337):  73%|███████▎  | 12346/16950 [2:16:25<53:11,  1.44it/s]Training 3/3 epoch (loss 0.0009):  73%|███████▎  | 12346/16950 [2:16:26<53:11,  1.44it/s]Training 3/3 epoch (loss 0.0009):  73%|███████▎  | 12347/16950 [2:16:26<49:12,  1.56it/s]Training 3/3 epoch (loss 0.0032):  73%|███████▎  | 12347/16950 [2:16:26<49:12,  1.56it/s]Training 3/3 epoch (loss 0.0032):  73%|███████▎  | 12348/16950 [2:16:26<44:41,  1.72it/s]Training 3/3 epoch (loss 0.0169):  73%|███████▎  | 12348/16950 [2:16:27<44:41,  1.72it/s]Training 3/3 epoch (loss 0.0169):  73%|███████▎  | 12349/16950 [2:16:27<42:11,  1.82it/s]Training 3/3 epoch (loss 0.2115):  73%|███████▎  | 12349/16950 [2:16:28<42:11,  1.82it/s]Training 3/3 epoch (loss 0.2115):  73%|███████▎  | 12350/16950 [2:16:28<48:57,  1.57it/s]Training 3/3 epoch (loss 0.0242):  73%|███████▎  | 12350/16950 [2:16:28<48:57,  1.57it/s]Training 3/3 epoch (loss 0.0242):  73%|███████▎  | 12351/16950 [2:16:28<45:30,  1.68it/s]Training 3/3 epoch (loss nan):  73%|███████▎  | 12351/16950 [2:16:29<45:30,  1.68it/s]   Training 3/3 epoch (loss nan):  73%|███████▎  | 12352/16950 [2:16:29<57:28,  1.33it/s]Training 3/3 epoch (loss 0.0300):  73%|███████▎  | 12352/16950 [2:16:30<57:28,  1.33it/s]Training 3/3 epoch (loss 0.0300):  73%|███████▎  | 12353/16950 [2:16:30<55:22,  1.38it/s]Training 3/3 epoch (loss 0.0020):  73%|███████▎  | 12353/16950 [2:16:31<55:22,  1.38it/s]Training 3/3 epoch (loss 0.0020):  73%|███████▎  | 12354/16950 [2:16:31<51:41,  1.48it/s]Training 3/3 epoch (loss 0.0003):  73%|███████▎  | 12354/16950 [2:16:31<51:41,  1.48it/s]Training 3/3 epoch (loss 0.0003):  73%|███████▎  | 12355/16950 [2:16:31<49:24,  1.55it/s]Training 3/3 epoch (loss 0.4776):  73%|███████▎  | 12355/16950 [2:16:32<49:24,  1.55it/s]Training 3/3 epoch (loss 0.4776):  73%|███████▎  | 12356/16950 [2:16:32<50:07,  1.53it/s]Training 3/3 epoch (loss 0.1276):  73%|███████▎  | 12356/16950 [2:16:32<50:07,  1.53it/s]Training 3/3 epoch (loss 0.1276):  73%|███████▎  | 12357/16950 [2:16:32<45:53,  1.67it/s]Training 3/3 epoch (loss 0.4024):  73%|███████▎  | 12357/16950 [2:16:33<45:53,  1.67it/s]Training 3/3 epoch (loss 0.4024):  73%|███████▎  | 12358/16950 [2:16:33<42:38,  1.79it/s]Training 3/3 epoch (loss 0.0006):  73%|███████▎  | 12358/16950 [2:16:33<42:38,  1.79it/s]Training 3/3 epoch (loss 0.0006):  73%|███████▎  | 12359/16950 [2:16:33<40:33,  1.89it/s]Training 3/3 epoch (loss 0.0551):  73%|███████▎  | 12359/16950 [2:16:34<40:33,  1.89it/s]Training 3/3 epoch (loss 0.0551):  73%|███████▎  | 12360/16950 [2:16:34<49:55,  1.53it/s]Training 3/3 epoch (loss 0.3964):  73%|███████▎  | 12360/16950 [2:16:35<49:55,  1.53it/s]Training 3/3 epoch (loss 0.3964):  73%|███████▎  | 12361/16950 [2:16:35<46:57,  1.63it/s]Training 3/3 epoch (loss 0.0394):  73%|███████▎  | 12361/16950 [2:16:35<46:57,  1.63it/s]Training 3/3 epoch (loss 0.0394):  73%|███████▎  | 12362/16950 [2:16:35<43:56,  1.74it/s]Training 3/3 epoch (loss 0.3009):  73%|███████▎  | 12362/16950 [2:16:36<43:56,  1.74it/s]Training 3/3 epoch (loss 0.3009):  73%|███████▎  | 12363/16950 [2:16:36<44:31,  1.72it/s]Training 3/3 epoch (loss 0.0181):  73%|███████▎  | 12363/16950 [2:16:37<44:31,  1.72it/s]Training 3/3 epoch (loss 0.0181):  73%|███████▎  | 12364/16950 [2:16:37<53:28,  1.43it/s]Training 3/3 epoch (loss 0.3853):  73%|███████▎  | 12364/16950 [2:16:37<53:28,  1.43it/s]Training 3/3 epoch (loss 0.3853):  73%|███████▎  | 12365/16950 [2:16:37<51:20,  1.49it/s]Training 3/3 epoch (loss 0.9209):  73%|███████▎  | 12365/16950 [2:16:38<51:20,  1.49it/s]Training 3/3 epoch (loss 0.9209):  73%|███████▎  | 12366/16950 [2:16:38<59:20,  1.29it/s]Training 3/3 epoch (loss 0.0023):  73%|███████▎  | 12366/16950 [2:16:39<59:20,  1.29it/s]Training 3/3 epoch (loss 0.0023):  73%|███████▎  | 12367/16950 [2:16:39<57:49,  1.32it/s]Training 3/3 epoch (loss 0.0382):  73%|███████▎  | 12367/16950 [2:16:40<57:49,  1.32it/s]Training 3/3 epoch (loss 0.0382):  73%|███████▎  | 12368/16950 [2:16:40<54:40,  1.40it/s]Training 3/3 epoch (loss 0.0008):  73%|███████▎  | 12368/16950 [2:16:40<54:40,  1.40it/s]Training 3/3 epoch (loss 0.0008):  73%|███████▎  | 12369/16950 [2:16:40<48:55,  1.56it/s]Training 3/3 epoch (loss 0.0002):  73%|███████▎  | 12369/16950 [2:16:41<48:55,  1.56it/s]Training 3/3 epoch (loss 0.0002):  73%|███████▎  | 12370/16950 [2:16:41<50:10,  1.52it/s]Training 3/3 epoch (loss 0.0001):  73%|███████▎  | 12370/16950 [2:16:41<50:10,  1.52it/s]Training 3/3 epoch (loss 0.0001):  73%|███████▎  | 12371/16950 [2:16:41<49:30,  1.54it/s]Training 3/3 epoch (loss 0.3502):  73%|███████▎  | 12371/16950 [2:16:42<49:30,  1.54it/s]Training 3/3 epoch (loss 0.3502):  73%|███████▎  | 12372/16950 [2:16:42<56:46,  1.34it/s]Training 3/3 epoch (loss 0.0311):  73%|███████▎  | 12372/16950 [2:16:43<56:46,  1.34it/s]Training 3/3 epoch (loss 0.0311):  73%|███████▎  | 12373/16950 [2:16:43<53:48,  1.42it/s]Training 3/3 epoch (loss 1.0006):  73%|███████▎  | 12373/16950 [2:16:44<53:48,  1.42it/s]Training 3/3 epoch (loss 1.0006):  73%|███████▎  | 12374/16950 [2:16:44<1:04:19,  1.19it/s]Training 3/3 epoch (loss 0.0132):  73%|███████▎  | 12374/16950 [2:16:45<1:04:19,  1.19it/s]Training 3/3 epoch (loss 0.0132):  73%|███████▎  | 12375/16950 [2:16:45<59:55,  1.27it/s]  Training 3/3 epoch (loss 0.0335):  73%|███████▎  | 12375/16950 [2:16:45<59:55,  1.27it/s]Training 3/3 epoch (loss 0.0335):  73%|███████▎  | 12376/16950 [2:16:45<52:17,  1.46it/s]Training 3/3 epoch (loss 0.0009):  73%|███████▎  | 12376/16950 [2:16:46<52:17,  1.46it/s]Training 3/3 epoch (loss 0.0009):  73%|███████▎  | 12377/16950 [2:16:46<50:10,  1.52it/s]Training 3/3 epoch (loss 0.0036):  73%|███████▎  | 12377/16950 [2:16:47<50:10,  1.52it/s]Training 3/3 epoch (loss 0.0036):  73%|███████▎  | 12378/16950 [2:16:47<57:20,  1.33it/s]Training 3/3 epoch (loss 0.0011):  73%|███████▎  | 12378/16950 [2:16:47<57:20,  1.33it/s]Training 3/3 epoch (loss 0.0011):  73%|███████▎  | 12379/16950 [2:16:47<53:00,  1.44it/s]Training 3/3 epoch (loss 0.1623):  73%|███████▎  | 12379/16950 [2:16:48<53:00,  1.44it/s]Training 3/3 epoch (loss 0.1623):  73%|███████▎  | 12380/16950 [2:16:48<49:57,  1.52it/s]Training 3/3 epoch (loss 0.0059):  73%|███████▎  | 12380/16950 [2:16:48<49:57,  1.52it/s]Training 3/3 epoch (loss 0.0059):  73%|███████▎  | 12381/16950 [2:16:48<45:03,  1.69it/s]Training 3/3 epoch (loss 0.0584):  73%|███████▎  | 12381/16950 [2:16:49<45:03,  1.69it/s]Training 3/3 epoch (loss 0.0584):  73%|███████▎  | 12382/16950 [2:16:49<41:46,  1.82it/s]Training 3/3 epoch (loss 0.0046):  73%|███████▎  | 12382/16950 [2:16:49<41:46,  1.82it/s]Training 3/3 epoch (loss 0.0046):  73%|███████▎  | 12383/16950 [2:16:49<41:14,  1.85it/s]Training 3/3 epoch (loss 0.0070):  73%|███████▎  | 12383/16950 [2:16:50<41:14,  1.85it/s]Training 3/3 epoch (loss 0.0070):  73%|███████▎  | 12384/16950 [2:16:50<39:28,  1.93it/s]Training 3/3 epoch (loss 0.0002):  73%|███████▎  | 12384/16950 [2:16:50<39:28,  1.93it/s]Training 3/3 epoch (loss 0.0002):  73%|███████▎  | 12385/16950 [2:16:50<37:01,  2.05it/s]Training 3/3 epoch (loss 0.0042):  73%|███████▎  | 12385/16950 [2:16:51<37:01,  2.05it/s]Training 3/3 epoch (loss 0.0042):  73%|███████▎  | 12386/16950 [2:16:51<40:18,  1.89it/s]Training 3/3 epoch (loss 0.0113):  73%|███████▎  | 12386/16950 [2:16:52<40:18,  1.89it/s]Training 3/3 epoch (loss 0.0113):  73%|███████▎  | 12387/16950 [2:16:52<47:58,  1.59it/s]Training 3/3 epoch (loss 0.0605):  73%|███████▎  | 12387/16950 [2:16:53<47:58,  1.59it/s]Training 3/3 epoch (loss 0.0605):  73%|███████▎  | 12388/16950 [2:16:53<50:30,  1.51it/s]Training 3/3 epoch (loss 0.0949):  73%|███████▎  | 12388/16950 [2:16:53<50:30,  1.51it/s]Training 3/3 epoch (loss 0.0949):  73%|███████▎  | 12389/16950 [2:16:53<54:28,  1.40it/s]Training 3/3 epoch (loss 0.2148):  73%|███████▎  | 12389/16950 [2:16:54<54:28,  1.40it/s]Training 3/3 epoch (loss 0.2148):  73%|███████▎  | 12390/16950 [2:16:54<55:48,  1.36it/s]Training 3/3 epoch (loss 0.0850):  73%|███████▎  | 12390/16950 [2:16:55<55:48,  1.36it/s]Training 3/3 epoch (loss 0.0850):  73%|███████▎  | 12391/16950 [2:16:55<55:28,  1.37it/s]Training 3/3 epoch (loss 0.0013):  73%|███████▎  | 12391/16950 [2:16:55<55:28,  1.37it/s]Training 3/3 epoch (loss 0.0013):  73%|███████▎  | 12392/16950 [2:16:55<50:52,  1.49it/s]Training 3/3 epoch (loss 0.6982):  73%|███████▎  | 12392/16950 [2:16:56<50:52,  1.49it/s]Training 3/3 epoch (loss 0.6982):  73%|███████▎  | 12393/16950 [2:16:56<56:46,  1.34it/s]Training 3/3 epoch (loss 0.0138):  73%|███████▎  | 12393/16950 [2:16:57<56:46,  1.34it/s]Training 3/3 epoch (loss 0.0138):  73%|███████▎  | 12394/16950 [2:16:57<50:57,  1.49it/s]Training 3/3 epoch (loss 0.0006):  73%|███████▎  | 12394/16950 [2:16:57<50:57,  1.49it/s]Training 3/3 epoch (loss 0.0006):  73%|███████▎  | 12395/16950 [2:16:57<49:34,  1.53it/s]Training 3/3 epoch (loss 0.5965):  73%|███████▎  | 12395/16950 [2:16:58<49:34,  1.53it/s]Training 3/3 epoch (loss 0.5965):  73%|███████▎  | 12396/16950 [2:16:58<52:55,  1.43it/s]Training 3/3 epoch (loss 0.0166):  73%|███████▎  | 12396/16950 [2:16:59<52:55,  1.43it/s]Training 3/3 epoch (loss 0.0166):  73%|███████▎  | 12397/16950 [2:16:59<48:19,  1.57it/s]Training 3/3 epoch (loss 0.4697):  73%|███████▎  | 12397/16950 [2:16:59<48:19,  1.57it/s]Training 3/3 epoch (loss 0.4697):  73%|███████▎  | 12398/16950 [2:16:59<46:10,  1.64it/s]Training 3/3 epoch (loss 0.5334):  73%|███████▎  | 12398/16950 [2:17:00<46:10,  1.64it/s]Training 3/3 epoch (loss 0.5334):  73%|███████▎  | 12399/16950 [2:17:00<44:19,  1.71it/s]Training 3/3 epoch (loss 0.0283):  73%|███████▎  | 12399/16950 [2:17:00<44:19,  1.71it/s]Training 3/3 epoch (loss 0.0283):  73%|███████▎  | 12400/16950 [2:17:00<43:58,  1.72it/s]Training 3/3 epoch (loss 0.0041):  73%|███████▎  | 12400/16950 [2:17:01<43:58,  1.72it/s]Training 3/3 epoch (loss 0.0041):  73%|███████▎  | 12401/16950 [2:17:01<45:48,  1.65it/s]Training 3/3 epoch (loss 0.0001):  73%|███████▎  | 12401/16950 [2:17:01<45:48,  1.65it/s]Training 3/3 epoch (loss 0.0001):  73%|███████▎  | 12402/16950 [2:17:01<39:13,  1.93it/s]Training 3/3 epoch (loss 0.0209):  73%|███████▎  | 12402/16950 [2:17:02<39:13,  1.93it/s]Training 3/3 epoch (loss 0.0209):  73%|███████▎  | 12403/16950 [2:17:02<36:29,  2.08it/s]Training 3/3 epoch (loss 0.0006):  73%|███████▎  | 12403/16950 [2:17:02<36:29,  2.08it/s]Training 3/3 epoch (loss 0.0006):  73%|███████▎  | 12404/16950 [2:17:02<39:26,  1.92it/s]Training 3/3 epoch (loss 0.3075):  73%|███████▎  | 12404/16950 [2:17:03<39:26,  1.92it/s]Training 3/3 epoch (loss 0.3075):  73%|███████▎  | 12405/16950 [2:17:03<35:51,  2.11it/s]Training 3/3 epoch (loss 0.0146):  73%|███████▎  | 12405/16950 [2:17:03<35:51,  2.11it/s]Training 3/3 epoch (loss 0.0146):  73%|███████▎  | 12406/16950 [2:17:03<38:48,  1.95it/s]Training 3/3 epoch (loss 0.3439):  73%|███████▎  | 12406/16950 [2:17:04<38:48,  1.95it/s]Training 3/3 epoch (loss 0.3439):  73%|███████▎  | 12407/16950 [2:17:04<35:25,  2.14it/s]Training 3/3 epoch (loss 0.0022):  73%|███████▎  | 12407/16950 [2:17:04<35:25,  2.14it/s]Training 3/3 epoch (loss 0.0022):  73%|███████▎  | 12408/16950 [2:17:04<32:51,  2.30it/s]Training 3/3 epoch (loss 0.0072):  73%|███████▎  | 12408/16950 [2:17:05<32:51,  2.30it/s]Training 3/3 epoch (loss 0.0072):  73%|███████▎  | 12409/16950 [2:17:05<38:57,  1.94it/s]Training 3/3 epoch (loss 0.0007):  73%|███████▎  | 12409/16950 [2:17:05<38:57,  1.94it/s]Training 3/3 epoch (loss 0.0007):  73%|███████▎  | 12410/16950 [2:17:05<37:42,  2.01it/s]Training 3/3 epoch (loss 0.0019):  73%|███████▎  | 12410/16950 [2:17:06<37:42,  2.01it/s]Training 3/3 epoch (loss 0.0019):  73%|███████▎  | 12411/16950 [2:17:06<37:48,  2.00it/s]Training 3/3 epoch (loss 0.6003):  73%|███████▎  | 12411/16950 [2:17:07<37:48,  2.00it/s]Training 3/3 epoch (loss 0.6003):  73%|███████▎  | 12412/16950 [2:17:07<45:50,  1.65it/s]Training 3/3 epoch (loss 0.4433):  73%|███████▎  | 12412/16950 [2:17:07<45:50,  1.65it/s]Training 3/3 epoch (loss 0.4433):  73%|███████▎  | 12413/16950 [2:17:07<43:40,  1.73it/s]Training 3/3 epoch (loss 0.9496):  73%|███████▎  | 12413/16950 [2:17:08<43:40,  1.73it/s]Training 3/3 epoch (loss 0.9496):  73%|███████▎  | 12414/16950 [2:17:08<45:17,  1.67it/s]Training 3/3 epoch (loss 0.0322):  73%|███████▎  | 12414/16950 [2:17:08<45:17,  1.67it/s]Training 3/3 epoch (loss 0.0322):  73%|███████▎  | 12415/16950 [2:17:08<47:03,  1.61it/s]Training 3/3 epoch (loss 0.0153):  73%|███████▎  | 12415/16950 [2:17:09<47:03,  1.61it/s]Training 3/3 epoch (loss 0.0153):  73%|███████▎  | 12416/16950 [2:17:09<47:50,  1.58it/s]Training 3/3 epoch (loss 0.0906):  73%|███████▎  | 12416/16950 [2:17:10<47:50,  1.58it/s]Training 3/3 epoch (loss 0.0906):  73%|███████▎  | 12417/16950 [2:17:10<50:46,  1.49it/s]Training 3/3 epoch (loss 0.1170):  73%|███████▎  | 12417/16950 [2:17:10<50:46,  1.49it/s]Training 3/3 epoch (loss 0.1170):  73%|███████▎  | 12418/16950 [2:17:10<47:15,  1.60it/s]Training 3/3 epoch (loss 0.0001):  73%|███████▎  | 12418/16950 [2:17:11<47:15,  1.60it/s]Training 3/3 epoch (loss 0.0001):  73%|███████▎  | 12419/16950 [2:17:11<44:39,  1.69it/s]Training 3/3 epoch (loss 0.3898):  73%|███████▎  | 12419/16950 [2:17:11<44:39,  1.69it/s]Training 3/3 epoch (loss 0.3898):  73%|███████▎  | 12420/16950 [2:17:11<40:15,  1.88it/s]Training 3/3 epoch (loss 0.2682):  73%|███████▎  | 12420/16950 [2:17:12<40:15,  1.88it/s]Training 3/3 epoch (loss 0.2682):  73%|███████▎  | 12421/16950 [2:17:12<38:52,  1.94it/s]Training 3/3 epoch (loss 0.0325):  73%|███████▎  | 12421/16950 [2:17:12<38:52,  1.94it/s]Training 3/3 epoch (loss 0.0325):  73%|███████▎  | 12422/16950 [2:17:12<38:32,  1.96it/s]Training 3/3 epoch (loss 0.0737):  73%|███████▎  | 12422/16950 [2:17:13<38:32,  1.96it/s]Training 3/3 epoch (loss 0.0737):  73%|███████▎  | 12423/16950 [2:17:13<40:18,  1.87it/s]Training 3/3 epoch (loss 0.5455):  73%|███████▎  | 12423/16950 [2:17:13<40:18,  1.87it/s]Training 3/3 epoch (loss 0.5455):  73%|███████▎  | 12424/16950 [2:17:13<39:49,  1.89it/s]Training 3/3 epoch (loss 0.0049):  73%|███████▎  | 12424/16950 [2:17:14<39:49,  1.89it/s]Training 3/3 epoch (loss 0.0049):  73%|███████▎  | 12425/16950 [2:17:14<45:27,  1.66it/s]Training 3/3 epoch (loss 0.0944):  73%|███████▎  | 12425/16950 [2:17:15<45:27,  1.66it/s]Training 3/3 epoch (loss 0.0944):  73%|███████▎  | 12426/16950 [2:17:15<44:13,  1.71it/s]Training 3/3 epoch (loss 0.0006):  73%|███████▎  | 12426/16950 [2:17:15<44:13,  1.71it/s]Training 3/3 epoch (loss 0.0006):  73%|███████▎  | 12427/16950 [2:17:15<41:21,  1.82it/s]Training 3/3 epoch (loss 0.0358):  73%|███████▎  | 12427/16950 [2:17:16<41:21,  1.82it/s]Training 3/3 epoch (loss 0.0358):  73%|███████▎  | 12428/16950 [2:17:16<48:13,  1.56it/s]Training 3/3 epoch (loss 0.0212):  73%|███████▎  | 12428/16950 [2:17:16<48:13,  1.56it/s]Training 3/3 epoch (loss 0.0212):  73%|███████▎  | 12429/16950 [2:17:16<45:19,  1.66it/s]Training 3/3 epoch (loss 0.0250):  73%|███████▎  | 12429/16950 [2:17:17<45:19,  1.66it/s]Training 3/3 epoch (loss 0.0250):  73%|███████▎  | 12430/16950 [2:17:17<43:13,  1.74it/s]Training 3/3 epoch (loss 0.3320):  73%|███████▎  | 12430/16950 [2:17:17<43:13,  1.74it/s]Training 3/3 epoch (loss 0.3320):  73%|███████▎  | 12431/16950 [2:17:17<41:29,  1.81it/s]Training 3/3 epoch (loss 0.2445):  73%|███████▎  | 12431/16950 [2:17:18<41:29,  1.81it/s]Training 3/3 epoch (loss 0.2445):  73%|███████▎  | 12432/16950 [2:17:18<39:34,  1.90it/s]Training 3/3 epoch (loss 0.0390):  73%|███████▎  | 12432/16950 [2:17:19<39:34,  1.90it/s]Training 3/3 epoch (loss 0.0390):  73%|███████▎  | 12433/16950 [2:17:19<41:34,  1.81it/s]Training 3/3 epoch (loss 0.0019):  73%|███████▎  | 12433/16950 [2:17:20<41:34,  1.81it/s]Training 3/3 epoch (loss 0.0019):  73%|███████▎  | 12434/16950 [2:17:20<53:13,  1.41it/s]Training 3/3 epoch (loss 0.0152):  73%|███████▎  | 12434/16950 [2:17:20<53:13,  1.41it/s]Training 3/3 epoch (loss 0.0152):  73%|███████▎  | 12435/16950 [2:17:20<48:41,  1.55it/s]Training 3/3 epoch (loss 0.0265):  73%|███████▎  | 12435/16950 [2:17:21<48:41,  1.55it/s]Training 3/3 epoch (loss 0.0265):  73%|███████▎  | 12436/16950 [2:17:21<48:49,  1.54it/s]Training 3/3 epoch (loss 0.0078):  73%|███████▎  | 12436/16950 [2:17:21<48:49,  1.54it/s]Training 3/3 epoch (loss 0.0078):  73%|███████▎  | 12437/16950 [2:17:21<49:50,  1.51it/s]Training 3/3 epoch (loss 0.2530):  73%|███████▎  | 12437/16950 [2:17:22<49:50,  1.51it/s]Training 3/3 epoch (loss 0.2530):  73%|███████▎  | 12438/16950 [2:17:22<45:08,  1.67it/s]Training 3/3 epoch (loss 0.0017):  73%|███████▎  | 12438/16950 [2:17:22<45:08,  1.67it/s]Training 3/3 epoch (loss 0.0017):  73%|███████▎  | 12439/16950 [2:17:22<41:57,  1.79it/s]Training 3/3 epoch (loss 0.1290):  73%|███████▎  | 12439/16950 [2:17:23<41:57,  1.79it/s]Training 3/3 epoch (loss 0.1290):  73%|███████▎  | 12440/16950 [2:17:23<40:26,  1.86it/s]Training 3/3 epoch (loss 0.0528):  73%|███████▎  | 12440/16950 [2:17:24<40:26,  1.86it/s]Training 3/3 epoch (loss 0.0528):  73%|███████▎  | 12441/16950 [2:17:24<47:02,  1.60it/s]Training 3/3 epoch (loss 0.0156):  73%|███████▎  | 12441/16950 [2:17:25<47:02,  1.60it/s]Training 3/3 epoch (loss 0.0156):  73%|███████▎  | 12442/16950 [2:17:25<53:38,  1.40it/s]Training 3/3 epoch (loss 0.0140):  73%|███████▎  | 12442/16950 [2:17:25<53:38,  1.40it/s]Training 3/3 epoch (loss 0.0140):  73%|███████▎  | 12443/16950 [2:17:25<48:41,  1.54it/s]Training 3/3 epoch (loss 0.0558):  73%|███████▎  | 12443/16950 [2:17:26<48:41,  1.54it/s]Training 3/3 epoch (loss 0.0558):  73%|███████▎  | 12444/16950 [2:17:26<43:16,  1.74it/s]Training 3/3 epoch (loss 0.4474):  73%|███████▎  | 12444/16950 [2:17:26<43:16,  1.74it/s]Training 3/3 epoch (loss 0.4474):  73%|███████▎  | 12445/16950 [2:17:26<49:05,  1.53it/s]Training 3/3 epoch (loss 0.4132):  73%|███████▎  | 12445/16950 [2:17:27<49:05,  1.53it/s]Training 3/3 epoch (loss 0.4132):  73%|███████▎  | 12446/16950 [2:17:27<44:11,  1.70it/s]Training 3/3 epoch (loss 0.0003):  73%|███████▎  | 12446/16950 [2:17:27<44:11,  1.70it/s]Training 3/3 epoch (loss 0.0003):  73%|███████▎  | 12447/16950 [2:17:27<45:15,  1.66it/s]Training 3/3 epoch (loss 0.0014):  73%|███████▎  | 12447/16950 [2:17:28<45:15,  1.66it/s]Training 3/3 epoch (loss 0.0014):  73%|███████▎  | 12448/16950 [2:17:28<38:50,  1.93it/s]Training 3/3 epoch (loss 0.0119):  73%|███████▎  | 12448/16950 [2:17:28<38:50,  1.93it/s]Training 3/3 epoch (loss 0.0119):  73%|███████▎  | 12449/16950 [2:17:28<40:24,  1.86it/s]Training 3/3 epoch (loss 0.0067):  73%|███████▎  | 12449/16950 [2:17:29<40:24,  1.86it/s]Training 3/3 epoch (loss 0.0067):  73%|███████▎  | 12450/16950 [2:17:29<41:12,  1.82it/s]Training 3/3 epoch (loss 0.2255):  73%|███████▎  | 12450/16950 [2:17:30<41:12,  1.82it/s]Training 3/3 epoch (loss 0.2255):  73%|███████▎  | 12451/16950 [2:17:30<42:45,  1.75it/s]Training 3/3 epoch (loss 0.3151):  73%|███████▎  | 12451/16950 [2:17:30<42:45,  1.75it/s]Training 3/3 epoch (loss 0.3151):  73%|███████▎  | 12452/16950 [2:17:30<38:53,  1.93it/s]Training 3/3 epoch (loss 0.2175):  73%|███████▎  | 12452/16950 [2:17:31<38:53,  1.93it/s]Training 3/3 epoch (loss 0.2175):  73%|███████▎  | 12453/16950 [2:17:31<40:20,  1.86it/s]Training 3/3 epoch (loss 0.0076):  73%|███████▎  | 12453/16950 [2:17:31<40:20,  1.86it/s]Training 3/3 epoch (loss 0.0076):  73%|███████▎  | 12454/16950 [2:17:31<35:49,  2.09it/s]Training 3/3 epoch (loss 0.0078):  73%|███████▎  | 12454/16950 [2:17:32<35:49,  2.09it/s]Training 3/3 epoch (loss 0.0078):  73%|███████▎  | 12455/16950 [2:17:32<42:51,  1.75it/s]Training 3/3 epoch (loss 0.0232):  73%|███████▎  | 12455/16950 [2:17:32<42:51,  1.75it/s]Training 3/3 epoch (loss 0.0232):  73%|███████▎  | 12456/16950 [2:17:32<44:47,  1.67it/s]Training 3/3 epoch (loss 0.0253):  73%|███████▎  | 12456/16950 [2:17:33<44:47,  1.67it/s]Training 3/3 epoch (loss 0.0253):  73%|███████▎  | 12457/16950 [2:17:33<43:18,  1.73it/s]Training 3/3 epoch (loss 0.0040):  73%|███████▎  | 12457/16950 [2:17:33<43:18,  1.73it/s]Training 3/3 epoch (loss 0.0040):  73%|███████▎  | 12458/16950 [2:17:33<39:36,  1.89it/s]Training 3/3 epoch (loss 0.4282):  73%|███████▎  | 12458/16950 [2:17:34<39:36,  1.89it/s]Training 3/3 epoch (loss 0.4282):  74%|███████▎  | 12459/16950 [2:17:34<47:29,  1.58it/s]Training 3/3 epoch (loss 0.2552):  74%|███████▎  | 12459/16950 [2:17:35<47:29,  1.58it/s]Training 3/3 epoch (loss 0.2552):  74%|███████▎  | 12460/16950 [2:17:35<44:01,  1.70it/s]Training 3/3 epoch (loss 0.0013):  74%|███████▎  | 12460/16950 [2:17:35<44:01,  1.70it/s]Training 3/3 epoch (loss 0.0013):  74%|███████▎  | 12461/16950 [2:17:35<42:45,  1.75it/s]Training 3/3 epoch (loss 0.0036):  74%|███████▎  | 12461/16950 [2:17:36<42:45,  1.75it/s]Training 3/3 epoch (loss 0.0036):  74%|███████▎  | 12462/16950 [2:17:36<41:07,  1.82it/s]Training 3/3 epoch (loss 0.0004):  74%|███████▎  | 12462/16950 [2:17:36<41:07,  1.82it/s]Training 3/3 epoch (loss 0.0004):  74%|███████▎  | 12463/16950 [2:17:36<38:29,  1.94it/s]Training 3/3 epoch (loss 0.4655):  74%|███████▎  | 12463/16950 [2:17:37<38:29,  1.94it/s]Training 3/3 epoch (loss 0.4655):  74%|███████▎  | 12464/16950 [2:17:37<48:57,  1.53it/s]Training 3/3 epoch (loss 0.0891):  74%|███████▎  | 12464/16950 [2:17:38<48:57,  1.53it/s]Training 3/3 epoch (loss 0.0891):  74%|███████▎  | 12465/16950 [2:17:38<46:03,  1.62it/s]Training 3/3 epoch (loss 0.0004):  74%|███████▎  | 12465/16950 [2:17:38<46:03,  1.62it/s]Training 3/3 epoch (loss 0.0004):  74%|███████▎  | 12466/16950 [2:17:38<45:46,  1.63it/s]Training 3/3 epoch (loss 0.0002):  74%|███████▎  | 12466/16950 [2:17:39<45:46,  1.63it/s]Training 3/3 epoch (loss 0.0002):  74%|███████▎  | 12467/16950 [2:17:39<42:49,  1.74it/s]Training 3/3 epoch (loss 0.0164):  74%|███████▎  | 12467/16950 [2:17:39<42:49,  1.74it/s]Training 3/3 epoch (loss 0.0164):  74%|███████▎  | 12468/16950 [2:17:39<43:39,  1.71it/s]Training 3/3 epoch (loss 0.0003):  74%|███████▎  | 12468/16950 [2:17:40<43:39,  1.71it/s]Training 3/3 epoch (loss 0.0003):  74%|███████▎  | 12469/16950 [2:17:40<45:28,  1.64it/s]Training 3/3 epoch (loss 0.0037):  74%|███████▎  | 12469/16950 [2:17:40<45:28,  1.64it/s]Training 3/3 epoch (loss 0.0037):  74%|███████▎  | 12470/16950 [2:17:40<41:44,  1.79it/s]Training 3/3 epoch (loss 0.0546):  74%|███████▎  | 12470/16950 [2:17:41<41:44,  1.79it/s]Training 3/3 epoch (loss 0.0546):  74%|███████▎  | 12471/16950 [2:17:41<43:53,  1.70it/s]Training 3/3 epoch (loss 0.1095):  74%|███████▎  | 12471/16950 [2:17:42<43:53,  1.70it/s]Training 3/3 epoch (loss 0.1095):  74%|███████▎  | 12472/16950 [2:17:42<42:48,  1.74it/s]Training 3/3 epoch (loss 0.0046):  74%|███████▎  | 12472/16950 [2:17:42<42:48,  1.74it/s]Training 3/3 epoch (loss 0.0046):  74%|███████▎  | 12473/16950 [2:17:42<43:00,  1.74it/s]Training 3/3 epoch (loss 0.0263):  74%|███████▎  | 12473/16950 [2:17:43<43:00,  1.74it/s]Training 3/3 epoch (loss 0.0263):  74%|███████▎  | 12474/16950 [2:17:43<42:16,  1.76it/s]Training 3/3 epoch (loss 0.1758):  74%|███████▎  | 12474/16950 [2:17:43<42:16,  1.76it/s]Training 3/3 epoch (loss 0.1758):  74%|███████▎  | 12475/16950 [2:17:43<43:07,  1.73it/s]Training 3/3 epoch (loss 0.0005):  74%|███████▎  | 12475/16950 [2:17:44<43:07,  1.73it/s]Training 3/3 epoch (loss 0.0005):  74%|███████▎  | 12476/16950 [2:17:44<44:37,  1.67it/s]Training 3/3 epoch (loss 0.1770):  74%|███████▎  | 12476/16950 [2:17:45<44:37,  1.67it/s]Training 3/3 epoch (loss 0.1770):  74%|███████▎  | 12477/16950 [2:17:45<45:42,  1.63it/s]Training 3/3 epoch (loss 0.0036):  74%|███████▎  | 12477/16950 [2:17:45<45:42,  1.63it/s]Training 3/3 epoch (loss 0.0036):  74%|███████▎  | 12478/16950 [2:17:45<43:43,  1.70it/s]Training 3/3 epoch (loss 0.1867):  74%|███████▎  | 12478/16950 [2:17:46<43:43,  1.70it/s]Training 3/3 epoch (loss 0.1867):  74%|███████▎  | 12479/16950 [2:17:46<45:01,  1.66it/s]Training 3/3 epoch (loss 0.4296):  74%|███████▎  | 12479/16950 [2:17:46<45:01,  1.66it/s]Training 3/3 epoch (loss 0.4296):  74%|███████▎  | 12480/16950 [2:17:46<43:39,  1.71it/s]Training 3/3 epoch (loss 0.2103):  74%|███████▎  | 12480/16950 [2:17:47<43:39,  1.71it/s]Training 3/3 epoch (loss 0.2103):  74%|███████▎  | 12481/16950 [2:17:47<39:46,  1.87it/s]Training 3/3 epoch (loss 0.1415):  74%|███████▎  | 12481/16950 [2:17:48<39:46,  1.87it/s]Training 3/3 epoch (loss 0.1415):  74%|███████▎  | 12482/16950 [2:17:48<47:36,  1.56it/s]Training 3/3 epoch (loss 0.3116):  74%|███████▎  | 12482/16950 [2:17:48<47:36,  1.56it/s]Training 3/3 epoch (loss 0.3116):  74%|███████▎  | 12483/16950 [2:17:48<49:08,  1.51it/s]Training 3/3 epoch (loss 0.0889):  74%|███████▎  | 12483/16950 [2:17:49<49:08,  1.51it/s]Training 3/3 epoch (loss 0.0889):  74%|███████▎  | 12484/16950 [2:17:49<50:16,  1.48it/s]Training 3/3 epoch (loss 0.2983):  74%|███████▎  | 12484/16950 [2:17:50<50:16,  1.48it/s]Training 3/3 epoch (loss 0.2983):  74%|███████▎  | 12485/16950 [2:17:50<59:37,  1.25it/s]Training 3/3 epoch (loss 1.0581):  74%|███████▎  | 12485/16950 [2:17:51<59:37,  1.25it/s]Training 3/3 epoch (loss 1.0581):  74%|███████▎  | 12486/16950 [2:17:51<1:00:12,  1.24it/s]Training 3/3 epoch (loss 0.0336):  74%|███████▎  | 12486/16950 [2:17:52<1:00:12,  1.24it/s]Training 3/3 epoch (loss 0.0336):  74%|███████▎  | 12487/16950 [2:17:52<53:55,  1.38it/s]  Training 3/3 epoch (loss 0.0360):  74%|███████▎  | 12487/16950 [2:17:52<53:55,  1.38it/s]Training 3/3 epoch (loss 0.0360):  74%|███████▎  | 12488/16950 [2:17:52<49:08,  1.51it/s]Training 3/3 epoch (loss 0.4361):  74%|███████▎  | 12488/16950 [2:17:52<49:08,  1.51it/s]Training 3/3 epoch (loss 0.4361):  74%|███████▎  | 12489/16950 [2:17:52<42:22,  1.75it/s]Training 3/3 epoch (loss 0.1159):  74%|███████▎  | 12489/16950 [2:17:53<42:22,  1.75it/s]Training 3/3 epoch (loss 0.1159):  74%|███████▎  | 12490/16950 [2:17:53<44:40,  1.66it/s]Training 3/3 epoch (loss 0.0052):  74%|███████▎  | 12490/16950 [2:17:54<44:40,  1.66it/s]Training 3/3 epoch (loss 0.0052):  74%|███████▎  | 12491/16950 [2:17:54<42:35,  1.74it/s]Training 3/3 epoch (loss 0.0942):  74%|███████▎  | 12491/16950 [2:17:54<42:35,  1.74it/s]Training 3/3 epoch (loss 0.0942):  74%|███████▎  | 12492/16950 [2:17:54<38:49,  1.91it/s]Training 3/3 epoch (loss 0.0581):  74%|███████▎  | 12492/16950 [2:17:54<38:49,  1.91it/s]Training 3/3 epoch (loss 0.0581):  74%|███████▎  | 12493/16950 [2:17:54<39:04,  1.90it/s]Training 3/3 epoch (loss 0.0075):  74%|███████▎  | 12493/16950 [2:17:55<39:04,  1.90it/s]Training 3/3 epoch (loss 0.0075):  74%|███████▎  | 12494/16950 [2:17:55<37:39,  1.97it/s]Training 3/3 epoch (loss 0.0460):  74%|███████▎  | 12494/16950 [2:17:56<37:39,  1.97it/s]Training 3/3 epoch (loss 0.0460):  74%|███████▎  | 12495/16950 [2:17:56<45:53,  1.62it/s]Training 3/3 epoch (loss 0.0000):  74%|███████▎  | 12495/16950 [2:17:56<45:53,  1.62it/s]Training 3/3 epoch (loss 0.0000):  74%|███████▎  | 12496/16950 [2:17:56<43:35,  1.70it/s]Training 3/3 epoch (loss 0.0658):  74%|███████▎  | 12496/16950 [2:17:57<43:35,  1.70it/s]Training 3/3 epoch (loss 0.0658):  74%|███████▎  | 12497/16950 [2:17:57<44:38,  1.66it/s]Training 3/3 epoch (loss 0.7252):  74%|███████▎  | 12497/16950 [2:17:57<44:38,  1.66it/s]Training 3/3 epoch (loss 0.7252):  74%|███████▎  | 12498/16950 [2:17:57<41:11,  1.80it/s]Training 3/3 epoch (loss 0.2315):  74%|███████▎  | 12498/16950 [2:17:58<41:11,  1.80it/s]Training 3/3 epoch (loss 0.2315):  74%|███████▎  | 12499/16950 [2:17:58<38:27,  1.93it/s]Training 3/3 epoch (loss 0.0118):  74%|███████▎  | 12499/16950 [2:17:59<38:27,  1.93it/s]Training 3/3 epoch (loss 0.0118):  74%|███████▎  | 12500/16950 [2:17:59<42:27,  1.75it/s]Training 3/3 epoch (loss 0.3832):  74%|███████▎  | 12500/16950 [2:17:59<42:27,  1.75it/s]Training 3/3 epoch (loss 0.3832):  74%|███████▍  | 12501/16950 [2:17:59<42:07,  1.76it/s]Training 3/3 epoch (loss 0.0032):  74%|███████▍  | 12501/16950 [2:18:00<42:07,  1.76it/s]Training 3/3 epoch (loss 0.0032):  74%|███████▍  | 12502/16950 [2:18:00<38:03,  1.95it/s]Training 3/3 epoch (loss 0.4965):  74%|███████▍  | 12502/16950 [2:18:00<38:03,  1.95it/s]Training 3/3 epoch (loss 0.4965):  74%|███████▍  | 12503/16950 [2:18:00<41:42,  1.78it/s]Training 3/3 epoch (loss 0.0272):  74%|███████▍  | 12503/16950 [2:18:01<41:42,  1.78it/s]Training 3/3 epoch (loss 0.0272):  74%|███████▍  | 12504/16950 [2:18:01<41:38,  1.78it/s]Training 3/3 epoch (loss 0.6001):  74%|███████▍  | 12504/16950 [2:18:01<41:38,  1.78it/s]Training 3/3 epoch (loss 0.6001):  74%|███████▍  | 12505/16950 [2:18:01<41:37,  1.78it/s]Training 3/3 epoch (loss 0.0536):  74%|███████▍  | 12505/16950 [2:18:02<41:37,  1.78it/s]Training 3/3 epoch (loss 0.0536):  74%|███████▍  | 12506/16950 [2:18:02<44:07,  1.68it/s]Training 3/3 epoch (loss 0.3675):  74%|███████▍  | 12506/16950 [2:18:02<44:07,  1.68it/s]Training 3/3 epoch (loss 0.3675):  74%|███████▍  | 12507/16950 [2:18:02<40:49,  1.81it/s]Training 3/3 epoch (loss 0.0030):  74%|███████▍  | 12507/16950 [2:18:03<40:49,  1.81it/s]Training 3/3 epoch (loss 0.0030):  74%|███████▍  | 12508/16950 [2:18:03<36:37,  2.02it/s]Training 3/3 epoch (loss 0.0013):  74%|███████▍  | 12508/16950 [2:18:03<36:37,  2.02it/s]Training 3/3 epoch (loss 0.0013):  74%|███████▍  | 12509/16950 [2:18:03<35:09,  2.10it/s]Training 3/3 epoch (loss 0.0495):  74%|███████▍  | 12509/16950 [2:18:04<35:09,  2.10it/s]Training 3/3 epoch (loss 0.0495):  74%|███████▍  | 12510/16950 [2:18:04<32:28,  2.28it/s]Training 3/3 epoch (loss 0.0239):  74%|███████▍  | 12510/16950 [2:18:04<32:28,  2.28it/s]Training 3/3 epoch (loss 0.0239):  74%|███████▍  | 12511/16950 [2:18:04<33:01,  2.24it/s]Training 3/3 epoch (loss 0.4176):  74%|███████▍  | 12511/16950 [2:18:05<33:01,  2.24it/s]Training 3/3 epoch (loss 0.4176):  74%|███████▍  | 12512/16950 [2:18:05<39:29,  1.87it/s]Training 3/3 epoch (loss 0.0040):  74%|███████▍  | 12512/16950 [2:18:05<39:29,  1.87it/s]Training 3/3 epoch (loss 0.0040):  74%|███████▍  | 12513/16950 [2:18:05<38:11,  1.94it/s]Training 3/3 epoch (loss 0.3696):  74%|███████▍  | 12513/16950 [2:18:06<38:11,  1.94it/s]Training 3/3 epoch (loss 0.3696):  74%|███████▍  | 12514/16950 [2:18:06<39:59,  1.85it/s]Training 3/3 epoch (loss 0.2954):  74%|███████▍  | 12514/16950 [2:18:06<39:59,  1.85it/s]Training 3/3 epoch (loss 0.2954):  74%|███████▍  | 12515/16950 [2:18:06<40:33,  1.82it/s]Training 3/3 epoch (loss 0.0104):  74%|███████▍  | 12515/16950 [2:18:07<40:33,  1.82it/s]Training 3/3 epoch (loss 0.0104):  74%|███████▍  | 12516/16950 [2:18:07<42:44,  1.73it/s]Training 3/3 epoch (loss 0.4054):  74%|███████▍  | 12516/16950 [2:18:08<42:44,  1.73it/s]Training 3/3 epoch (loss 0.4054):  74%|███████▍  | 12517/16950 [2:18:08<52:30,  1.41it/s]Training 3/3 epoch (loss 0.0535):  74%|███████▍  | 12517/16950 [2:18:09<52:30,  1.41it/s]Training 3/3 epoch (loss 0.0535):  74%|███████▍  | 12518/16950 [2:18:09<51:16,  1.44it/s]Training 3/3 epoch (loss 0.1515):  74%|███████▍  | 12518/16950 [2:18:09<51:16,  1.44it/s]Training 3/3 epoch (loss 0.1515):  74%|███████▍  | 12519/16950 [2:18:09<46:58,  1.57it/s]Training 3/3 epoch (loss 0.0198):  74%|███████▍  | 12519/16950 [2:18:10<46:58,  1.57it/s]Training 3/3 epoch (loss 0.0198):  74%|███████▍  | 12520/16950 [2:18:10<45:15,  1.63it/s]Training 3/3 epoch (loss 0.0052):  74%|███████▍  | 12520/16950 [2:18:11<45:15,  1.63it/s]Training 3/3 epoch (loss 0.0052):  74%|███████▍  | 12521/16950 [2:18:11<47:49,  1.54it/s]Training 3/3 epoch (loss 0.2933):  74%|███████▍  | 12521/16950 [2:18:11<47:49,  1.54it/s]Training 3/3 epoch (loss 0.2933):  74%|███████▍  | 12522/16950 [2:18:11<46:47,  1.58it/s]Training 3/3 epoch (loss 0.0273):  74%|███████▍  | 12522/16950 [2:18:12<46:47,  1.58it/s]Training 3/3 epoch (loss 0.0273):  74%|███████▍  | 12523/16950 [2:18:12<46:53,  1.57it/s]Training 3/3 epoch (loss 0.0012):  74%|███████▍  | 12523/16950 [2:18:12<46:53,  1.57it/s]Training 3/3 epoch (loss 0.0012):  74%|███████▍  | 12524/16950 [2:18:12<46:42,  1.58it/s]Training 3/3 epoch (loss 0.4026):  74%|███████▍  | 12524/16950 [2:18:13<46:42,  1.58it/s]Training 3/3 epoch (loss 0.4026):  74%|███████▍  | 12525/16950 [2:18:13<46:36,  1.58it/s]Training 3/3 epoch (loss 0.0097):  74%|███████▍  | 12525/16950 [2:18:13<46:36,  1.58it/s]Training 3/3 epoch (loss 0.0097):  74%|███████▍  | 12526/16950 [2:18:13<42:14,  1.75it/s]Training 3/3 epoch (loss 0.0905):  74%|███████▍  | 12526/16950 [2:18:14<42:14,  1.75it/s]Training 3/3 epoch (loss 0.0905):  74%|███████▍  | 12527/16950 [2:18:14<46:02,  1.60it/s]Training 3/3 epoch (loss 0.3617):  74%|███████▍  | 12527/16950 [2:18:15<46:02,  1.60it/s]Training 3/3 epoch (loss 0.3617):  74%|███████▍  | 12528/16950 [2:18:15<43:54,  1.68it/s]Training 3/3 epoch (loss 0.0003):  74%|███████▍  | 12528/16950 [2:18:15<43:54,  1.68it/s]Training 3/3 epoch (loss 0.0003):  74%|███████▍  | 12529/16950 [2:18:15<41:32,  1.77it/s]Training 3/3 epoch (loss 0.0085):  74%|███████▍  | 12529/16950 [2:18:16<41:32,  1.77it/s]Training 3/3 epoch (loss 0.0085):  74%|███████▍  | 12530/16950 [2:18:16<39:47,  1.85it/s]Training 3/3 epoch (loss 0.0088):  74%|███████▍  | 12530/16950 [2:18:16<39:47,  1.85it/s]Training 3/3 epoch (loss 0.0088):  74%|███████▍  | 12531/16950 [2:18:16<41:16,  1.78it/s]Training 3/3 epoch (loss 0.7992):  74%|███████▍  | 12531/16950 [2:18:17<41:16,  1.78it/s]Training 3/3 epoch (loss 0.7992):  74%|███████▍  | 12532/16950 [2:18:17<37:26,  1.97it/s]Training 3/3 epoch (loss 0.0013):  74%|███████▍  | 12532/16950 [2:18:17<37:26,  1.97it/s]Training 3/3 epoch (loss 0.0013):  74%|███████▍  | 12533/16950 [2:18:17<38:32,  1.91it/s]Training 3/3 epoch (loss 0.0159):  74%|███████▍  | 12533/16950 [2:18:18<38:32,  1.91it/s]Training 3/3 epoch (loss 0.0159):  74%|███████▍  | 12534/16950 [2:18:18<37:19,  1.97it/s]Training 3/3 epoch (loss 0.0055):  74%|███████▍  | 12534/16950 [2:18:18<37:19,  1.97it/s]Training 3/3 epoch (loss 0.0055):  74%|███████▍  | 12535/16950 [2:18:18<41:03,  1.79it/s]Training 3/3 epoch (loss 0.0227):  74%|███████▍  | 12535/16950 [2:18:19<41:03,  1.79it/s]Training 3/3 epoch (loss 0.0227):  74%|███████▍  | 12536/16950 [2:18:19<43:15,  1.70it/s]Training 3/3 epoch (loss 0.0090):  74%|███████▍  | 12536/16950 [2:18:20<43:15,  1.70it/s]Training 3/3 epoch (loss 0.0090):  74%|███████▍  | 12537/16950 [2:18:20<42:10,  1.74it/s]Training 3/3 epoch (loss 0.4895):  74%|███████▍  | 12537/16950 [2:18:20<42:10,  1.74it/s]Training 3/3 epoch (loss 0.4895):  74%|███████▍  | 12538/16950 [2:18:20<45:03,  1.63it/s]Training 3/3 epoch (loss 0.0215):  74%|███████▍  | 12538/16950 [2:18:21<45:03,  1.63it/s]Training 3/3 epoch (loss 0.0215):  74%|███████▍  | 12539/16950 [2:18:21<54:01,  1.36it/s]Training 3/3 epoch (loss 0.0016):  74%|███████▍  | 12539/16950 [2:18:22<54:01,  1.36it/s]Training 3/3 epoch (loss 0.0016):  74%|███████▍  | 12540/16950 [2:18:22<53:48,  1.37it/s]Training 3/3 epoch (loss 0.2873):  74%|███████▍  | 12540/16950 [2:18:23<53:48,  1.37it/s]Training 3/3 epoch (loss 0.2873):  74%|███████▍  | 12541/16950 [2:18:23<49:51,  1.47it/s]Training 3/3 epoch (loss 0.4070):  74%|███████▍  | 12541/16950 [2:18:24<49:51,  1.47it/s]Training 3/3 epoch (loss 0.4070):  74%|███████▍  | 12542/16950 [2:18:24<55:49,  1.32it/s]Training 3/3 epoch (loss 0.0147):  74%|███████▍  | 12542/16950 [2:18:24<55:49,  1.32it/s]Training 3/3 epoch (loss 0.0147):  74%|███████▍  | 12543/16950 [2:18:24<54:11,  1.36it/s]Training 3/3 epoch (loss 0.0025):  74%|███████▍  | 12543/16950 [2:18:25<54:11,  1.36it/s]Training 3/3 epoch (loss 0.0025):  74%|███████▍  | 12544/16950 [2:18:25<51:52,  1.42it/s]Training 3/3 epoch (loss 0.1640):  74%|███████▍  | 12544/16950 [2:18:26<51:52,  1.42it/s]Training 3/3 epoch (loss 0.1640):  74%|███████▍  | 12545/16950 [2:18:26<51:45,  1.42it/s]Training 3/3 epoch (loss 0.0113):  74%|███████▍  | 12545/16950 [2:18:26<51:45,  1.42it/s]Training 3/3 epoch (loss 0.0113):  74%|███████▍  | 12546/16950 [2:18:26<49:25,  1.49it/s]Training 3/3 epoch (loss 0.0063):  74%|███████▍  | 12546/16950 [2:18:27<49:25,  1.49it/s]Training 3/3 epoch (loss 0.0063):  74%|███████▍  | 12547/16950 [2:18:27<48:45,  1.51it/s]Training 3/3 epoch (loss 0.1276):  74%|███████▍  | 12547/16950 [2:18:28<48:45,  1.51it/s]Training 3/3 epoch (loss 0.1276):  74%|███████▍  | 12548/16950 [2:18:28<50:00,  1.47it/s]Training 3/3 epoch (loss 0.0025):  74%|███████▍  | 12548/16950 [2:18:28<50:00,  1.47it/s]Training 3/3 epoch (loss 0.0025):  74%|███████▍  | 12549/16950 [2:18:28<50:50,  1.44it/s]Training 3/3 epoch (loss 0.4753):  74%|███████▍  | 12549/16950 [2:18:29<50:50,  1.44it/s]Training 3/3 epoch (loss 0.4753):  74%|███████▍  | 12550/16950 [2:18:29<52:32,  1.40it/s]Training 3/3 epoch (loss 0.0045):  74%|███████▍  | 12550/16950 [2:18:30<52:32,  1.40it/s]Training 3/3 epoch (loss 0.0045):  74%|███████▍  | 12551/16950 [2:18:30<49:03,  1.49it/s]Training 3/3 epoch (loss 0.0065):  74%|███████▍  | 12551/16950 [2:18:30<49:03,  1.49it/s]Training 3/3 epoch (loss 0.0065):  74%|███████▍  | 12552/16950 [2:18:30<44:44,  1.64it/s]Training 3/3 epoch (loss 0.0797):  74%|███████▍  | 12552/16950 [2:18:31<44:44,  1.64it/s]Training 3/3 epoch (loss 0.0797):  74%|███████▍  | 12553/16950 [2:18:31<45:20,  1.62it/s]Training 3/3 epoch (loss 0.2564):  74%|███████▍  | 12553/16950 [2:18:32<45:20,  1.62it/s]Training 3/3 epoch (loss 0.2564):  74%|███████▍  | 12554/16950 [2:18:32<56:07,  1.31it/s]Training 3/3 epoch (loss 0.0101):  74%|███████▍  | 12554/16950 [2:18:32<56:07,  1.31it/s]Training 3/3 epoch (loss 0.0101):  74%|███████▍  | 12555/16950 [2:18:32<50:08,  1.46it/s]Training 3/3 epoch (loss 0.0245):  74%|███████▍  | 12555/16950 [2:18:33<50:08,  1.46it/s]Training 3/3 epoch (loss 0.0245):  74%|███████▍  | 12556/16950 [2:18:33<43:37,  1.68it/s]Training 3/3 epoch (loss 0.0361):  74%|███████▍  | 12556/16950 [2:18:33<43:37,  1.68it/s]Training 3/3 epoch (loss 0.0361):  74%|███████▍  | 12557/16950 [2:18:33<40:49,  1.79it/s]Training 3/3 epoch (loss 0.0033):  74%|███████▍  | 12557/16950 [2:18:34<40:49,  1.79it/s]Training 3/3 epoch (loss 0.0033):  74%|███████▍  | 12558/16950 [2:18:34<42:42,  1.71it/s]Training 3/3 epoch (loss 0.0152):  74%|███████▍  | 12558/16950 [2:18:35<42:42,  1.71it/s]Training 3/3 epoch (loss 0.0152):  74%|███████▍  | 12559/16950 [2:18:35<45:16,  1.62it/s]Training 3/3 epoch (loss 0.2726):  74%|███████▍  | 12559/16950 [2:18:35<45:16,  1.62it/s]Training 3/3 epoch (loss 0.2726):  74%|███████▍  | 12560/16950 [2:18:35<49:13,  1.49it/s]Training 3/3 epoch (loss 0.0069):  74%|███████▍  | 12560/16950 [2:18:36<49:13,  1.49it/s]Training 3/3 epoch (loss 0.0069):  74%|███████▍  | 12561/16950 [2:18:36<52:41,  1.39it/s]Training 3/3 epoch (loss 0.1573):  74%|███████▍  | 12561/16950 [2:18:36<52:41,  1.39it/s]Training 3/3 epoch (loss 0.1573):  74%|███████▍  | 12562/16950 [2:18:36<44:17,  1.65it/s]Training 3/3 epoch (loss 0.0017):  74%|███████▍  | 12562/16950 [2:18:37<44:17,  1.65it/s]Training 3/3 epoch (loss 0.0017):  74%|███████▍  | 12563/16950 [2:18:37<42:36,  1.72it/s]Training 3/3 epoch (loss 0.0200):  74%|███████▍  | 12563/16950 [2:18:38<42:36,  1.72it/s]Training 3/3 epoch (loss 0.0200):  74%|███████▍  | 12564/16950 [2:18:38<44:33,  1.64it/s]Training 3/3 epoch (loss 0.3195):  74%|███████▍  | 12564/16950 [2:18:39<44:33,  1.64it/s]Training 3/3 epoch (loss 0.3195):  74%|███████▍  | 12565/16950 [2:18:39<50:24,  1.45it/s]Training 3/3 epoch (loss 0.0028):  74%|███████▍  | 12565/16950 [2:18:39<50:24,  1.45it/s]Training 3/3 epoch (loss 0.0028):  74%|███████▍  | 12566/16950 [2:18:39<51:57,  1.41it/s]Training 3/3 epoch (loss 0.0016):  74%|███████▍  | 12566/16950 [2:18:40<51:57,  1.41it/s]Training 3/3 epoch (loss 0.0016):  74%|███████▍  | 12567/16950 [2:18:40<49:50,  1.47it/s]Training 3/3 epoch (loss 0.0063):  74%|███████▍  | 12567/16950 [2:18:41<49:50,  1.47it/s]Training 3/3 epoch (loss 0.0063):  74%|███████▍  | 12568/16950 [2:18:41<59:53,  1.22it/s]Training 3/3 epoch (loss 0.2545):  74%|███████▍  | 12568/16950 [2:18:42<59:53,  1.22it/s]Training 3/3 epoch (loss 0.2545):  74%|███████▍  | 12569/16950 [2:18:42<59:42,  1.22it/s]Training 3/3 epoch (loss 0.0051):  74%|███████▍  | 12569/16950 [2:18:43<59:42,  1.22it/s]Training 3/3 epoch (loss 0.0051):  74%|███████▍  | 12570/16950 [2:18:43<58:15,  1.25it/s]Training 3/3 epoch (loss 0.0225):  74%|███████▍  | 12570/16950 [2:18:43<58:15,  1.25it/s]Training 3/3 epoch (loss 0.0225):  74%|███████▍  | 12571/16950 [2:18:43<51:37,  1.41it/s]Training 3/3 epoch (loss 0.0375):  74%|███████▍  | 12571/16950 [2:18:44<51:37,  1.41it/s]Training 3/3 epoch (loss 0.0375):  74%|███████▍  | 12572/16950 [2:18:44<46:46,  1.56it/s]Training 3/3 epoch (loss 0.0116):  74%|███████▍  | 12572/16950 [2:18:44<46:46,  1.56it/s]Training 3/3 epoch (loss 0.0116):  74%|███████▍  | 12573/16950 [2:18:44<50:31,  1.44it/s]Training 3/3 epoch (loss 0.0082):  74%|███████▍  | 12573/16950 [2:18:45<50:31,  1.44it/s]Training 3/3 epoch (loss 0.0082):  74%|███████▍  | 12574/16950 [2:18:45<50:57,  1.43it/s]Training 3/3 epoch (loss 0.5788):  74%|███████▍  | 12574/16950 [2:18:46<50:57,  1.43it/s]Training 3/3 epoch (loss 0.5788):  74%|███████▍  | 12575/16950 [2:18:46<50:06,  1.45it/s]Training 3/3 epoch (loss 0.0010):  74%|███████▍  | 12575/16950 [2:18:46<50:06,  1.45it/s]Training 3/3 epoch (loss 0.0010):  74%|███████▍  | 12576/16950 [2:18:46<45:58,  1.59it/s]Training 3/3 epoch (loss 0.0152):  74%|███████▍  | 12576/16950 [2:18:47<45:58,  1.59it/s]Training 3/3 epoch (loss 0.0152):  74%|███████▍  | 12577/16950 [2:18:47<50:19,  1.45it/s]Training 3/3 epoch (loss 0.3872):  74%|███████▍  | 12577/16950 [2:18:48<50:19,  1.45it/s]Training 3/3 epoch (loss 0.3872):  74%|███████▍  | 12578/16950 [2:18:48<46:32,  1.57it/s]Training 3/3 epoch (loss 0.0975):  74%|███████▍  | 12578/16950 [2:18:48<46:32,  1.57it/s]Training 3/3 epoch (loss 0.0975):  74%|███████▍  | 12579/16950 [2:18:48<45:50,  1.59it/s]Training 3/3 epoch (loss 0.0801):  74%|███████▍  | 12579/16950 [2:18:49<45:50,  1.59it/s]Training 3/3 epoch (loss 0.0801):  74%|███████▍  | 12580/16950 [2:18:49<42:30,  1.71it/s]Training 3/3 epoch (loss 0.5552):  74%|███████▍  | 12580/16950 [2:18:49<42:30,  1.71it/s]Training 3/3 epoch (loss 0.5552):  74%|███████▍  | 12581/16950 [2:18:49<43:39,  1.67it/s]Training 3/3 epoch (loss 0.5999):  74%|███████▍  | 12581/16950 [2:18:51<43:39,  1.67it/s]Training 3/3 epoch (loss 0.5999):  74%|███████▍  | 12582/16950 [2:18:51<56:40,  1.28it/s]Training 3/3 epoch (loss 0.0006):  74%|███████▍  | 12582/16950 [2:18:51<56:40,  1.28it/s]Training 3/3 epoch (loss 0.0006):  74%|███████▍  | 12583/16950 [2:18:51<55:57,  1.30it/s]Training 3/3 epoch (loss 0.0480):  74%|███████▍  | 12583/16950 [2:18:52<55:57,  1.30it/s]Training 3/3 epoch (loss 0.0480):  74%|███████▍  | 12584/16950 [2:18:52<50:37,  1.44it/s]Training 3/3 epoch (loss 0.0185):  74%|███████▍  | 12584/16950 [2:18:53<50:37,  1.44it/s]Training 3/3 epoch (loss 0.0185):  74%|███████▍  | 12585/16950 [2:18:53<55:39,  1.31it/s]Training 3/3 epoch (loss 0.0261):  74%|███████▍  | 12585/16950 [2:18:54<55:39,  1.31it/s]Training 3/3 epoch (loss 0.0261):  74%|███████▍  | 12586/16950 [2:18:54<1:00:36,  1.20it/s]Training 3/3 epoch (loss 0.4635):  74%|███████▍  | 12586/16950 [2:18:54<1:00:36,  1.20it/s]Training 3/3 epoch (loss 0.4635):  74%|███████▍  | 12587/16950 [2:18:54<53:25,  1.36it/s]  Training 3/3 epoch (loss 0.0594):  74%|███████▍  | 12587/16950 [2:18:55<53:25,  1.36it/s]Training 3/3 epoch (loss 0.0594):  74%|███████▍  | 12588/16950 [2:18:55<50:59,  1.43it/s]Training 3/3 epoch (loss 0.3683):  74%|███████▍  | 12588/16950 [2:18:55<50:59,  1.43it/s]Training 3/3 epoch (loss 0.3683):  74%|███████▍  | 12589/16950 [2:18:55<44:14,  1.64it/s]Training 3/3 epoch (loss 0.1206):  74%|███████▍  | 12589/16950 [2:18:56<44:14,  1.64it/s]Training 3/3 epoch (loss 0.1206):  74%|███████▍  | 12590/16950 [2:18:56<43:52,  1.66it/s]Training 3/3 epoch (loss 0.0480):  74%|███████▍  | 12590/16950 [2:18:56<43:52,  1.66it/s]Training 3/3 epoch (loss 0.0480):  74%|███████▍  | 12591/16950 [2:18:56<43:03,  1.69it/s]Training 3/3 epoch (loss 0.0001):  74%|███████▍  | 12591/16950 [2:18:57<43:03,  1.69it/s]Training 3/3 epoch (loss 0.0001):  74%|███████▍  | 12592/16950 [2:18:57<43:36,  1.67it/s]Training 3/3 epoch (loss 0.6638):  74%|███████▍  | 12592/16950 [2:18:58<43:36,  1.67it/s]Training 3/3 epoch (loss 0.6638):  74%|███████▍  | 12593/16950 [2:18:58<49:27,  1.47it/s]Training 3/3 epoch (loss 0.0439):  74%|███████▍  | 12593/16950 [2:18:58<49:27,  1.47it/s]Training 3/3 epoch (loss 0.0439):  74%|███████▍  | 12594/16950 [2:18:58<46:48,  1.55it/s]Training 3/3 epoch (loss 0.0262):  74%|███████▍  | 12594/16950 [2:18:59<46:48,  1.55it/s]Training 3/3 epoch (loss 0.0262):  74%|███████▍  | 12595/16950 [2:18:59<44:40,  1.62it/s]Training 3/3 epoch (loss 0.0214):  74%|███████▍  | 12595/16950 [2:19:00<44:40,  1.62it/s]Training 3/3 epoch (loss 0.0214):  74%|███████▍  | 12596/16950 [2:19:00<45:51,  1.58it/s]Training 3/3 epoch (loss 0.4128):  74%|███████▍  | 12596/16950 [2:19:00<45:51,  1.58it/s]Training 3/3 epoch (loss 0.4128):  74%|███████▍  | 12597/16950 [2:19:00<46:00,  1.58it/s]Training 3/3 epoch (loss 0.0218):  74%|███████▍  | 12597/16950 [2:19:01<46:00,  1.58it/s]Training 3/3 epoch (loss 0.0218):  74%|███████▍  | 12598/16950 [2:19:01<45:53,  1.58it/s]Training 3/3 epoch (loss 0.1800):  74%|███████▍  | 12598/16950 [2:19:02<45:53,  1.58it/s]Training 3/3 epoch (loss 0.1800):  74%|███████▍  | 12599/16950 [2:19:02<45:00,  1.61it/s]Training 3/3 epoch (loss 0.0034):  74%|███████▍  | 12599/16950 [2:19:02<45:00,  1.61it/s]Training 3/3 epoch (loss 0.0034):  74%|███████▍  | 12600/16950 [2:19:02<42:52,  1.69it/s]Training 3/3 epoch (loss 0.0178):  74%|███████▍  | 12600/16950 [2:19:03<42:52,  1.69it/s]Training 3/3 epoch (loss 0.0178):  74%|███████▍  | 12601/16950 [2:19:03<39:05,  1.85it/s]Training 3/3 epoch (loss 0.0093):  74%|███████▍  | 12601/16950 [2:19:03<39:05,  1.85it/s]Training 3/3 epoch (loss 0.0093):  74%|███████▍  | 12602/16950 [2:19:03<39:57,  1.81it/s]Training 3/3 epoch (loss 0.0023):  74%|███████▍  | 12602/16950 [2:19:04<39:57,  1.81it/s]Training 3/3 epoch (loss 0.0023):  74%|███████▍  | 12603/16950 [2:19:04<37:29,  1.93it/s]Training 3/3 epoch (loss 0.0110):  74%|███████▍  | 12603/16950 [2:19:04<37:29,  1.93it/s]Training 3/3 epoch (loss 0.0110):  74%|███████▍  | 12604/16950 [2:19:04<35:38,  2.03it/s]Training 3/3 epoch (loss 0.0090):  74%|███████▍  | 12604/16950 [2:19:05<35:38,  2.03it/s]Training 3/3 epoch (loss 0.0090):  74%|███████▍  | 12605/16950 [2:19:05<39:42,  1.82it/s]Training 3/3 epoch (loss 0.0780):  74%|███████▍  | 12605/16950 [2:19:05<39:42,  1.82it/s]Training 3/3 epoch (loss 0.0780):  74%|███████▍  | 12606/16950 [2:19:05<38:24,  1.88it/s]Training 3/3 epoch (loss 0.3925):  74%|███████▍  | 12606/16950 [2:19:06<38:24,  1.88it/s]Training 3/3 epoch (loss 0.3925):  74%|███████▍  | 12607/16950 [2:19:06<37:15,  1.94it/s]Training 3/3 epoch (loss 0.0922):  74%|███████▍  | 12607/16950 [2:19:06<37:15,  1.94it/s]Training 3/3 epoch (loss 0.0922):  74%|███████▍  | 12608/16950 [2:19:06<41:27,  1.75it/s]Training 3/3 epoch (loss 0.0141):  74%|███████▍  | 12608/16950 [2:19:07<41:27,  1.75it/s]Training 3/3 epoch (loss 0.0141):  74%|███████▍  | 12609/16950 [2:19:07<42:35,  1.70it/s]Training 3/3 epoch (loss 0.2879):  74%|███████▍  | 12609/16950 [2:19:08<42:35,  1.70it/s]Training 3/3 epoch (loss 0.2879):  74%|███████▍  | 12610/16950 [2:19:08<43:26,  1.67it/s]Training 3/3 epoch (loss 0.0412):  74%|███████▍  | 12610/16950 [2:19:08<43:26,  1.67it/s]Training 3/3 epoch (loss 0.0412):  74%|███████▍  | 12611/16950 [2:19:08<42:55,  1.68it/s]Training 3/3 epoch (loss 0.0004):  74%|███████▍  | 12611/16950 [2:19:09<42:55,  1.68it/s]Training 3/3 epoch (loss 0.0004):  74%|███████▍  | 12612/16950 [2:19:09<42:11,  1.71it/s]Training 3/3 epoch (loss 0.0078):  74%|███████▍  | 12612/16950 [2:19:09<42:11,  1.71it/s]Training 3/3 epoch (loss 0.0078):  74%|███████▍  | 12613/16950 [2:19:09<44:16,  1.63it/s]Training 3/3 epoch (loss 0.0067):  74%|███████▍  | 12613/16950 [2:19:10<44:16,  1.63it/s]Training 3/3 epoch (loss 0.0067):  74%|███████▍  | 12614/16950 [2:19:10<43:22,  1.67it/s]Training 3/3 epoch (loss 0.3776):  74%|███████▍  | 12614/16950 [2:19:11<43:22,  1.67it/s]Training 3/3 epoch (loss 0.3776):  74%|███████▍  | 12615/16950 [2:19:11<44:25,  1.63it/s]Training 3/3 epoch (loss 0.0909):  74%|███████▍  | 12615/16950 [2:19:11<44:25,  1.63it/s]Training 3/3 epoch (loss 0.0909):  74%|███████▍  | 12616/16950 [2:19:11<47:19,  1.53it/s]Training 3/3 epoch (loss 0.0354):  74%|███████▍  | 12616/16950 [2:19:12<47:19,  1.53it/s]Training 3/3 epoch (loss 0.0354):  74%|███████▍  | 12617/16950 [2:19:12<46:03,  1.57it/s]Training 3/3 epoch (loss 0.0002):  74%|███████▍  | 12617/16950 [2:19:12<46:03,  1.57it/s]Training 3/3 epoch (loss 0.0002):  74%|███████▍  | 12618/16950 [2:19:12<41:15,  1.75it/s]Training 3/3 epoch (loss 0.2534):  74%|███████▍  | 12618/16950 [2:19:13<41:15,  1.75it/s]Training 3/3 epoch (loss 0.2534):  74%|███████▍  | 12619/16950 [2:19:13<39:50,  1.81it/s]Training 3/3 epoch (loss 0.3470):  74%|███████▍  | 12619/16950 [2:19:13<39:50,  1.81it/s]Training 3/3 epoch (loss 0.3470):  74%|███████▍  | 12620/16950 [2:19:13<35:06,  2.06it/s]Training 3/3 epoch (loss 0.0253):  74%|███████▍  | 12620/16950 [2:19:14<35:06,  2.06it/s]Training 3/3 epoch (loss 0.0253):  74%|███████▍  | 12621/16950 [2:19:14<37:29,  1.92it/s]Training 3/3 epoch (loss 0.2311):  74%|███████▍  | 12621/16950 [2:19:14<37:29,  1.92it/s]Training 3/3 epoch (loss 0.2311):  74%|███████▍  | 12622/16950 [2:19:14<35:03,  2.06it/s]Training 3/3 epoch (loss 0.0007):  74%|███████▍  | 12622/16950 [2:19:15<35:03,  2.06it/s]Training 3/3 epoch (loss 0.0007):  74%|███████▍  | 12623/16950 [2:19:15<32:02,  2.25it/s]Training 3/3 epoch (loss 0.4989):  74%|███████▍  | 12623/16950 [2:19:15<32:02,  2.25it/s]Training 3/3 epoch (loss 0.4989):  74%|███████▍  | 12624/16950 [2:19:15<32:46,  2.20it/s]Training 3/3 epoch (loss 0.0469):  74%|███████▍  | 12624/16950 [2:19:15<32:46,  2.20it/s]Training 3/3 epoch (loss 0.0469):  74%|███████▍  | 12625/16950 [2:19:15<31:29,  2.29it/s]Training 3/3 epoch (loss 0.0051):  74%|███████▍  | 12625/16950 [2:19:16<31:29,  2.29it/s]Training 3/3 epoch (loss 0.0051):  74%|███████▍  | 12626/16950 [2:19:16<32:59,  2.18it/s]Training 3/3 epoch (loss 0.3119):  74%|███████▍  | 12626/16950 [2:19:16<32:59,  2.18it/s]Training 3/3 epoch (loss 0.3119):  74%|███████▍  | 12627/16950 [2:19:16<33:48,  2.13it/s]Training 3/3 epoch (loss 0.0026):  74%|███████▍  | 12627/16950 [2:19:17<33:48,  2.13it/s]Training 3/3 epoch (loss 0.0026):  75%|███████▍  | 12628/16950 [2:19:17<32:54,  2.19it/s]Training 3/3 epoch (loss 0.7936):  75%|███████▍  | 12628/16950 [2:19:17<32:54,  2.19it/s]Training 3/3 epoch (loss 0.7936):  75%|███████▍  | 12629/16950 [2:19:17<29:43,  2.42it/s]Training 3/3 epoch (loss 0.0688):  75%|███████▍  | 12629/16950 [2:19:18<29:43,  2.42it/s]Training 3/3 epoch (loss 0.0688):  75%|███████▍  | 12630/16950 [2:19:18<29:44,  2.42it/s]Training 3/3 epoch (loss 0.0169):  75%|███████▍  | 12630/16950 [2:19:18<29:44,  2.42it/s]Training 3/3 epoch (loss 0.0169):  75%|███████▍  | 12631/16950 [2:19:18<34:44,  2.07it/s]Training 3/3 epoch (loss 0.2751):  75%|███████▍  | 12631/16950 [2:19:19<34:44,  2.07it/s]Training 3/3 epoch (loss 0.2751):  75%|███████▍  | 12632/16950 [2:19:19<38:58,  1.85it/s]Training 3/3 epoch (loss 0.0021):  75%|███████▍  | 12632/16950 [2:19:20<38:58,  1.85it/s]Training 3/3 epoch (loss 0.0021):  75%|███████▍  | 12633/16950 [2:19:20<40:53,  1.76it/s]Training 3/3 epoch (loss 0.1703):  75%|███████▍  | 12633/16950 [2:19:20<40:53,  1.76it/s]Training 3/3 epoch (loss 0.1703):  75%|███████▍  | 12634/16950 [2:19:20<38:14,  1.88it/s]Training 3/3 epoch (loss 0.0031):  75%|███████▍  | 12634/16950 [2:19:20<38:14,  1.88it/s]Training 3/3 epoch (loss 0.0031):  75%|███████▍  | 12635/16950 [2:19:20<35:15,  2.04it/s]Training 3/3 epoch (loss 0.7648):  75%|███████▍  | 12635/16950 [2:19:21<35:15,  2.04it/s]Training 3/3 epoch (loss 0.7648):  75%|███████▍  | 12636/16950 [2:19:21<48:12,  1.49it/s]Training 3/3 epoch (loss 0.1529):  75%|███████▍  | 12636/16950 [2:19:23<48:12,  1.49it/s]Training 3/3 epoch (loss 0.1529):  75%|███████▍  | 12637/16950 [2:19:23<59:07,  1.22it/s]Training 3/3 epoch (loss 0.0111):  75%|███████▍  | 12637/16950 [2:19:23<59:07,  1.22it/s]Training 3/3 epoch (loss 0.0111):  75%|███████▍  | 12638/16950 [2:19:23<52:27,  1.37it/s]Training 3/3 epoch (loss 0.7047):  75%|███████▍  | 12638/16950 [2:19:24<52:27,  1.37it/s]Training 3/3 epoch (loss 0.7047):  75%|███████▍  | 12639/16950 [2:19:24<57:23,  1.25it/s]Training 3/3 epoch (loss 0.0300):  75%|███████▍  | 12639/16950 [2:19:25<57:23,  1.25it/s]Training 3/3 epoch (loss 0.0300):  75%|███████▍  | 12640/16950 [2:19:25<54:24,  1.32it/s]Training 3/3 epoch (loss 0.0001):  75%|███████▍  | 12640/16950 [2:19:25<54:24,  1.32it/s]Training 3/3 epoch (loss 0.0001):  75%|███████▍  | 12641/16950 [2:19:25<48:19,  1.49it/s]Training 3/3 epoch (loss 0.5793):  75%|███████▍  | 12641/16950 [2:19:26<48:19,  1.49it/s]Training 3/3 epoch (loss 0.5793):  75%|███████▍  | 12642/16950 [2:19:26<50:05,  1.43it/s]Training 3/3 epoch (loss 0.0351):  75%|███████▍  | 12642/16950 [2:19:27<50:05,  1.43it/s]Training 3/3 epoch (loss 0.0351):  75%|███████▍  | 12643/16950 [2:19:27<53:00,  1.35it/s]Training 3/3 epoch (loss 0.4276):  75%|███████▍  | 12643/16950 [2:19:27<53:00,  1.35it/s]Training 3/3 epoch (loss 0.4276):  75%|███████▍  | 12644/16950 [2:19:27<49:34,  1.45it/s]Training 3/3 epoch (loss 0.0158):  75%|███████▍  | 12644/16950 [2:19:28<49:34,  1.45it/s]Training 3/3 epoch (loss 0.0158):  75%|███████▍  | 12645/16950 [2:19:28<44:02,  1.63it/s]Training 3/3 epoch (loss 0.0323):  75%|███████▍  | 12645/16950 [2:19:29<44:02,  1.63it/s]Training 3/3 epoch (loss 0.0323):  75%|███████▍  | 12646/16950 [2:19:29<45:00,  1.59it/s]Training 3/3 epoch (loss 0.0001):  75%|███████▍  | 12646/16950 [2:19:29<45:00,  1.59it/s]Training 3/3 epoch (loss 0.0001):  75%|███████▍  | 12647/16950 [2:19:29<42:07,  1.70it/s]Training 3/3 epoch (loss 0.1013):  75%|███████▍  | 12647/16950 [2:19:30<42:07,  1.70it/s]Training 3/3 epoch (loss 0.1013):  75%|███████▍  | 12648/16950 [2:19:30<43:00,  1.67it/s]Training 3/3 epoch (loss 0.1706):  75%|███████▍  | 12648/16950 [2:19:30<43:00,  1.67it/s]Training 3/3 epoch (loss 0.1706):  75%|███████▍  | 12649/16950 [2:19:30<40:48,  1.76it/s]Training 3/3 epoch (loss 0.3996):  75%|███████▍  | 12649/16950 [2:19:31<40:48,  1.76it/s]Training 3/3 epoch (loss 0.3996):  75%|███████▍  | 12650/16950 [2:19:31<42:21,  1.69it/s]Training 3/3 epoch (loss 0.0232):  75%|███████▍  | 12650/16950 [2:19:31<42:21,  1.69it/s]Training 3/3 epoch (loss 0.0232):  75%|███████▍  | 12651/16950 [2:19:31<40:06,  1.79it/s]Training 3/3 epoch (loss 0.0643):  75%|███████▍  | 12651/16950 [2:19:32<40:06,  1.79it/s]Training 3/3 epoch (loss 0.0643):  75%|███████▍  | 12652/16950 [2:19:32<41:20,  1.73it/s]Training 3/3 epoch (loss 0.0001):  75%|███████▍  | 12652/16950 [2:19:33<41:20,  1.73it/s]Training 3/3 epoch (loss 0.0001):  75%|███████▍  | 12653/16950 [2:19:33<48:23,  1.48it/s]Training 3/3 epoch (loss 0.0004):  75%|███████▍  | 12653/16950 [2:19:34<48:23,  1.48it/s]Training 3/3 epoch (loss 0.0004):  75%|███████▍  | 12654/16950 [2:19:34<51:27,  1.39it/s]Training 3/3 epoch (loss 0.0288):  75%|███████▍  | 12654/16950 [2:19:34<51:27,  1.39it/s]Training 3/3 epoch (loss 0.0288):  75%|███████▍  | 12655/16950 [2:19:34<48:31,  1.48it/s]Training 3/3 epoch (loss 0.0099):  75%|███████▍  | 12655/16950 [2:19:35<48:31,  1.48it/s]Training 3/3 epoch (loss 0.0099):  75%|███████▍  | 12656/16950 [2:19:35<52:55,  1.35it/s]Training 3/3 epoch (loss 0.6629):  75%|███████▍  | 12656/16950 [2:19:35<52:55,  1.35it/s]Training 3/3 epoch (loss 0.6629):  75%|███████▍  | 12657/16950 [2:19:35<43:55,  1.63it/s]Training 3/3 epoch (loss 0.0001):  75%|███████▍  | 12657/16950 [2:19:36<43:55,  1.63it/s]Training 3/3 epoch (loss 0.0001):  75%|███████▍  | 12658/16950 [2:19:36<40:51,  1.75it/s]Training 3/3 epoch (loss 0.2575):  75%|███████▍  | 12658/16950 [2:19:36<40:51,  1.75it/s]Training 3/3 epoch (loss 0.2575):  75%|███████▍  | 12659/16950 [2:19:36<37:26,  1.91it/s]Training 3/3 epoch (loss 0.0005):  75%|███████▍  | 12659/16950 [2:19:37<37:26,  1.91it/s]Training 3/3 epoch (loss 0.0005):  75%|███████▍  | 12660/16950 [2:19:37<37:40,  1.90it/s]Training 3/3 epoch (loss 0.0783):  75%|███████▍  | 12660/16950 [2:19:37<37:40,  1.90it/s]Training 3/3 epoch (loss 0.0783):  75%|███████▍  | 12661/16950 [2:19:37<35:32,  2.01it/s]Training 3/3 epoch (loss 0.3956):  75%|███████▍  | 12661/16950 [2:19:38<35:32,  2.01it/s]Training 3/3 epoch (loss 0.3956):  75%|███████▍  | 12662/16950 [2:19:38<41:39,  1.72it/s]Training 3/3 epoch (loss 0.2738):  75%|███████▍  | 12662/16950 [2:19:38<41:39,  1.72it/s]Training 3/3 epoch (loss 0.2738):  75%|███████▍  | 12663/16950 [2:19:38<37:09,  1.92it/s]Training 3/3 epoch (loss 0.5787):  75%|███████▍  | 12663/16950 [2:19:39<37:09,  1.92it/s]Training 3/3 epoch (loss 0.5787):  75%|███████▍  | 12664/16950 [2:19:39<43:42,  1.63it/s]Training 3/3 epoch (loss 0.0542):  75%|███████▍  | 12664/16950 [2:19:40<43:42,  1.63it/s]Training 3/3 epoch (loss 0.0542):  75%|███████▍  | 12665/16950 [2:19:40<42:55,  1.66it/s]Training 3/3 epoch (loss 0.3299):  75%|███████▍  | 12665/16950 [2:19:40<42:55,  1.66it/s]Training 3/3 epoch (loss 0.3299):  75%|███████▍  | 12666/16950 [2:19:40<40:34,  1.76it/s]Training 3/3 epoch (loss 0.0086):  75%|███████▍  | 12666/16950 [2:19:41<40:34,  1.76it/s]Training 3/3 epoch (loss 0.0086):  75%|███████▍  | 12667/16950 [2:19:41<38:56,  1.83it/s]Training 3/3 epoch (loss 0.1685):  75%|███████▍  | 12667/16950 [2:19:41<38:56,  1.83it/s]Training 3/3 epoch (loss 0.1685):  75%|███████▍  | 12668/16950 [2:19:41<40:44,  1.75it/s]Training 3/3 epoch (loss 0.0167):  75%|███████▍  | 12668/16950 [2:19:42<40:44,  1.75it/s]Training 3/3 epoch (loss 0.0167):  75%|███████▍  | 12669/16950 [2:19:42<48:18,  1.48it/s]Training 3/3 epoch (loss 0.0104):  75%|███████▍  | 12669/16950 [2:19:43<48:18,  1.48it/s]Training 3/3 epoch (loss 0.0104):  75%|███████▍  | 12670/16950 [2:19:43<43:54,  1.62it/s]Training 3/3 epoch (loss 0.4882):  75%|███████▍  | 12670/16950 [2:19:43<43:54,  1.62it/s]Training 3/3 epoch (loss 0.4882):  75%|███████▍  | 12671/16950 [2:19:43<39:59,  1.78it/s]Training 3/3 epoch (loss 0.4569):  75%|███████▍  | 12671/16950 [2:19:44<39:59,  1.78it/s]Training 3/3 epoch (loss 0.4569):  75%|███████▍  | 12672/16950 [2:19:44<38:41,  1.84it/s]Training 3/3 epoch (loss 0.1743):  75%|███████▍  | 12672/16950 [2:19:45<38:41,  1.84it/s]Training 3/3 epoch (loss 0.1743):  75%|███████▍  | 12673/16950 [2:19:45<45:55,  1.55it/s]Training 3/3 epoch (loss 0.3120):  75%|███████▍  | 12673/16950 [2:19:45<45:55,  1.55it/s]Training 3/3 epoch (loss 0.3120):  75%|███████▍  | 12674/16950 [2:19:45<49:25,  1.44it/s]Training 3/3 epoch (loss 0.0059):  75%|███████▍  | 12674/16950 [2:19:46<49:25,  1.44it/s]Training 3/3 epoch (loss 0.0059):  75%|███████▍  | 12675/16950 [2:19:46<45:41,  1.56it/s]Training 3/3 epoch (loss 0.0010):  75%|███████▍  | 12675/16950 [2:19:46<45:41,  1.56it/s]Training 3/3 epoch (loss 0.0010):  75%|███████▍  | 12676/16950 [2:19:46<43:00,  1.66it/s]Training 3/3 epoch (loss 0.0189):  75%|███████▍  | 12676/16950 [2:19:47<43:00,  1.66it/s]Training 3/3 epoch (loss 0.0189):  75%|███████▍  | 12677/16950 [2:19:47<43:26,  1.64it/s]Training 3/3 epoch (loss 0.0252):  75%|███████▍  | 12677/16950 [2:19:48<43:26,  1.64it/s]Training 3/3 epoch (loss 0.0252):  75%|███████▍  | 12678/16950 [2:19:48<40:41,  1.75it/s]Training 3/3 epoch (loss 0.0007):  75%|███████▍  | 12678/16950 [2:19:48<40:41,  1.75it/s]Training 3/3 epoch (loss 0.0007):  75%|███████▍  | 12679/16950 [2:19:48<39:32,  1.80it/s]Training 3/3 epoch (loss 0.1013):  75%|███████▍  | 12679/16950 [2:19:49<39:32,  1.80it/s]Training 3/3 epoch (loss 0.1013):  75%|███████▍  | 12680/16950 [2:19:49<40:37,  1.75it/s]Training 3/3 epoch (loss 0.3748):  75%|███████▍  | 12680/16950 [2:19:50<40:37,  1.75it/s]Training 3/3 epoch (loss 0.3748):  75%|███████▍  | 12681/16950 [2:19:50<48:47,  1.46it/s]Training 3/3 epoch (loss 0.0018):  75%|███████▍  | 12681/16950 [2:19:50<48:47,  1.46it/s]Training 3/3 epoch (loss 0.0018):  75%|███████▍  | 12682/16950 [2:19:50<51:21,  1.38it/s]Training 3/3 epoch (loss 0.0086):  75%|███████▍  | 12682/16950 [2:19:51<51:21,  1.38it/s]Training 3/3 epoch (loss 0.0086):  75%|███████▍  | 12683/16950 [2:19:51<55:20,  1.28it/s]Training 3/3 epoch (loss 0.0064):  75%|███████▍  | 12683/16950 [2:19:52<55:20,  1.28it/s]Training 3/3 epoch (loss 0.0064):  75%|███████▍  | 12684/16950 [2:19:52<51:58,  1.37it/s]Training 3/3 epoch (loss 0.0004):  75%|███████▍  | 12684/16950 [2:19:52<51:58,  1.37it/s]Training 3/3 epoch (loss 0.0004):  75%|███████▍  | 12685/16950 [2:19:52<45:35,  1.56it/s]Training 3/3 epoch (loss 0.3269):  75%|███████▍  | 12685/16950 [2:19:53<45:35,  1.56it/s]Training 3/3 epoch (loss 0.3269):  75%|███████▍  | 12686/16950 [2:19:53<50:01,  1.42it/s]Training 3/3 epoch (loss 0.0079):  75%|███████▍  | 12686/16950 [2:19:54<50:01,  1.42it/s]Training 3/3 epoch (loss 0.0079):  75%|███████▍  | 12687/16950 [2:19:54<46:28,  1.53it/s]Training 3/3 epoch (loss 0.0017):  75%|███████▍  | 12687/16950 [2:19:54<46:28,  1.53it/s]Training 3/3 epoch (loss 0.0017):  75%|███████▍  | 12688/16950 [2:19:54<43:54,  1.62it/s]Training 3/3 epoch (loss 0.0492):  75%|███████▍  | 12688/16950 [2:19:55<43:54,  1.62it/s]Training 3/3 epoch (loss 0.0492):  75%|███████▍  | 12689/16950 [2:19:55<40:33,  1.75it/s]Training 3/3 epoch (loss 0.0396):  75%|███████▍  | 12689/16950 [2:19:55<40:33,  1.75it/s]Training 3/3 epoch (loss 0.0396):  75%|███████▍  | 12690/16950 [2:19:55<39:00,  1.82it/s]Training 3/3 epoch (loss 0.0335):  75%|███████▍  | 12690/16950 [2:19:56<39:00,  1.82it/s]Training 3/3 epoch (loss 0.0335):  75%|███████▍  | 12691/16950 [2:19:56<42:51,  1.66it/s]Training 3/3 epoch (loss 0.0008):  75%|███████▍  | 12691/16950 [2:19:56<42:51,  1.66it/s]Training 3/3 epoch (loss 0.0008):  75%|███████▍  | 12692/16950 [2:19:56<39:34,  1.79it/s]Training 3/3 epoch (loss 0.0318):  75%|███████▍  | 12692/16950 [2:19:57<39:34,  1.79it/s]Training 3/3 epoch (loss 0.0318):  75%|███████▍  | 12693/16950 [2:19:57<41:47,  1.70it/s]Training 3/3 epoch (loss 0.0307):  75%|███████▍  | 12693/16950 [2:19:58<41:47,  1.70it/s]Training 3/3 epoch (loss 0.0307):  75%|███████▍  | 12694/16950 [2:19:58<40:22,  1.76it/s]Training 3/3 epoch (loss 0.0597):  75%|███████▍  | 12694/16950 [2:19:58<40:22,  1.76it/s]Training 3/3 epoch (loss 0.0597):  75%|███████▍  | 12695/16950 [2:19:58<41:37,  1.70it/s]Training 3/3 epoch (loss 0.0312):  75%|███████▍  | 12695/16950 [2:19:59<41:37,  1.70it/s]Training 3/3 epoch (loss 0.0312):  75%|███████▍  | 12696/16950 [2:19:59<42:33,  1.67it/s]Training 3/3 epoch (loss 0.0668):  75%|███████▍  | 12696/16950 [2:20:00<42:33,  1.67it/s]Training 3/3 epoch (loss 0.0668):  75%|███████▍  | 12697/16950 [2:20:00<45:03,  1.57it/s]Training 3/3 epoch (loss 0.1887):  75%|███████▍  | 12697/16950 [2:20:01<45:03,  1.57it/s]Training 3/3 epoch (loss 0.1887):  75%|███████▍  | 12698/16950 [2:20:01<56:50,  1.25it/s]Training 3/3 epoch (loss 0.0004):  75%|███████▍  | 12698/16950 [2:20:01<56:50,  1.25it/s]Training 3/3 epoch (loss 0.0004):  75%|███████▍  | 12699/16950 [2:20:01<49:32,  1.43it/s]Training 3/3 epoch (loss 0.0683):  75%|███████▍  | 12699/16950 [2:20:02<49:32,  1.43it/s]Training 3/3 epoch (loss 0.0683):  75%|███████▍  | 12700/16950 [2:20:02<51:31,  1.37it/s]Training 3/3 epoch (loss 0.2706):  75%|███████▍  | 12700/16950 [2:20:02<51:31,  1.37it/s]Training 3/3 epoch (loss 0.2706):  75%|███████▍  | 12701/16950 [2:20:02<43:22,  1.63it/s]Training 3/3 epoch (loss 0.2084):  75%|███████▍  | 12701/16950 [2:20:03<43:22,  1.63it/s]Training 3/3 epoch (loss 0.2084):  75%|███████▍  | 12702/16950 [2:20:03<38:13,  1.85it/s]Training 3/3 epoch (loss 0.2692):  75%|███████▍  | 12702/16950 [2:20:03<38:13,  1.85it/s]Training 3/3 epoch (loss 0.2692):  75%|███████▍  | 12703/16950 [2:20:03<35:06,  2.02it/s]Training 3/3 epoch (loss 0.4916):  75%|███████▍  | 12703/16950 [2:20:04<35:06,  2.02it/s]Training 3/3 epoch (loss 0.4916):  75%|███████▍  | 12704/16950 [2:20:04<36:17,  1.95it/s]Training 3/3 epoch (loss 0.4276):  75%|███████▍  | 12704/16950 [2:20:04<36:17,  1.95it/s]Training 3/3 epoch (loss 0.4276):  75%|███████▍  | 12705/16950 [2:20:04<34:13,  2.07it/s]Training 3/3 epoch (loss 0.3429):  75%|███████▍  | 12705/16950 [2:20:05<34:13,  2.07it/s]Training 3/3 epoch (loss 0.3429):  75%|███████▍  | 12706/16950 [2:20:05<36:16,  1.95it/s]Training 3/3 epoch (loss 0.0001):  75%|███████▍  | 12706/16950 [2:20:05<36:16,  1.95it/s]Training 3/3 epoch (loss 0.0001):  75%|███████▍  | 12707/16950 [2:20:05<35:24,  2.00it/s]Training 3/3 epoch (loss 0.1742):  75%|███████▍  | 12707/16950 [2:20:06<35:24,  2.00it/s]Training 3/3 epoch (loss 0.1742):  75%|███████▍  | 12708/16950 [2:20:06<34:09,  2.07it/s]Training 3/3 epoch (loss 0.0092):  75%|███████▍  | 12708/16950 [2:20:07<34:09,  2.07it/s]Training 3/3 epoch (loss 0.0092):  75%|███████▍  | 12709/16950 [2:20:07<45:43,  1.55it/s]Training 3/3 epoch (loss 0.1708):  75%|███████▍  | 12709/16950 [2:20:07<45:43,  1.55it/s]Training 3/3 epoch (loss 0.1708):  75%|███████▍  | 12710/16950 [2:20:07<44:50,  1.58it/s]Training 3/3 epoch (loss 0.0002):  75%|███████▍  | 12710/16950 [2:20:08<44:50,  1.58it/s]Training 3/3 epoch (loss 0.0002):  75%|███████▍  | 12711/16950 [2:20:08<42:05,  1.68it/s]Training 3/3 epoch (loss 0.0013):  75%|███████▍  | 12711/16950 [2:20:08<42:05,  1.68it/s]Training 3/3 epoch (loss 0.0013):  75%|███████▍  | 12712/16950 [2:20:08<40:27,  1.75it/s]Training 3/3 epoch (loss 0.4637):  75%|███████▍  | 12712/16950 [2:20:09<40:27,  1.75it/s]Training 3/3 epoch (loss 0.4637):  75%|███████▌  | 12713/16950 [2:20:09<50:40,  1.39it/s]Training 3/3 epoch (loss 0.0161):  75%|███████▌  | 12713/16950 [2:20:10<50:40,  1.39it/s]Training 3/3 epoch (loss 0.0161):  75%|███████▌  | 12714/16950 [2:20:10<48:18,  1.46it/s]Training 3/3 epoch (loss 0.0007):  75%|███████▌  | 12714/16950 [2:20:11<48:18,  1.46it/s]Training 3/3 epoch (loss 0.0007):  75%|███████▌  | 12715/16950 [2:20:11<47:07,  1.50it/s]Training 3/3 epoch (loss 0.3660):  75%|███████▌  | 12715/16950 [2:20:11<47:07,  1.50it/s]Training 3/3 epoch (loss 0.3660):  75%|███████▌  | 12716/16950 [2:20:11<46:46,  1.51it/s]Training 3/3 epoch (loss 0.2197):  75%|███████▌  | 12716/16950 [2:20:12<46:46,  1.51it/s]Training 3/3 epoch (loss 0.2197):  75%|███████▌  | 12717/16950 [2:20:12<41:51,  1.69it/s]Training 3/3 epoch (loss 0.0033):  75%|███████▌  | 12717/16950 [2:20:12<41:51,  1.69it/s]Training 3/3 epoch (loss 0.0033):  75%|███████▌  | 12718/16950 [2:20:12<40:11,  1.76it/s]Training 3/3 epoch (loss 0.0015):  75%|███████▌  | 12718/16950 [2:20:13<40:11,  1.76it/s]Training 3/3 epoch (loss 0.0015):  75%|███████▌  | 12719/16950 [2:20:13<36:53,  1.91it/s]Training 3/3 epoch (loss 0.0124):  75%|███████▌  | 12719/16950 [2:20:13<36:53,  1.91it/s]Training 3/3 epoch (loss 0.0124):  75%|███████▌  | 12720/16950 [2:20:13<35:49,  1.97it/s]Training 3/3 epoch (loss 0.0462):  75%|███████▌  | 12720/16950 [2:20:14<35:49,  1.97it/s]Training 3/3 epoch (loss 0.0462):  75%|███████▌  | 12721/16950 [2:20:14<35:33,  1.98it/s]Training 3/3 epoch (loss 0.1193):  75%|███████▌  | 12721/16950 [2:20:14<35:33,  1.98it/s]Training 3/3 epoch (loss 0.1193):  75%|███████▌  | 12722/16950 [2:20:14<33:35,  2.10it/s]Training 3/3 epoch (loss 0.0677):  75%|███████▌  | 12722/16950 [2:20:15<33:35,  2.10it/s]Training 3/3 epoch (loss 0.0677):  75%|███████▌  | 12723/16950 [2:20:15<34:31,  2.04it/s]Training 3/3 epoch (loss 0.0188):  75%|███████▌  | 12723/16950 [2:20:15<34:31,  2.04it/s]Training 3/3 epoch (loss 0.0188):  75%|███████▌  | 12724/16950 [2:20:15<42:06,  1.67it/s]Training 3/3 epoch (loss 0.0493):  75%|███████▌  | 12724/16950 [2:20:16<42:06,  1.67it/s]Training 3/3 epoch (loss 0.0493):  75%|███████▌  | 12725/16950 [2:20:16<39:43,  1.77it/s]Training 3/3 epoch (loss 0.0122):  75%|███████▌  | 12725/16950 [2:20:16<39:43,  1.77it/s]Training 3/3 epoch (loss 0.0122):  75%|███████▌  | 12726/16950 [2:20:16<36:24,  1.93it/s]Training 3/3 epoch (loss nan):  75%|███████▌  | 12726/16950 [2:20:17<36:24,  1.93it/s]   Training 3/3 epoch (loss nan):  75%|███████▌  | 12727/16950 [2:20:17<47:39,  1.48it/s]Training 3/3 epoch (loss 0.6674):  75%|███████▌  | 12727/16950 [2:20:18<47:39,  1.48it/s]Training 3/3 epoch (loss 0.6674):  75%|███████▌  | 12728/16950 [2:20:18<44:54,  1.57it/s]Training 3/3 epoch (loss 0.0069):  75%|███████▌  | 12728/16950 [2:20:18<44:54,  1.57it/s]Training 3/3 epoch (loss 0.0069):  75%|███████▌  | 12729/16950 [2:20:18<44:12,  1.59it/s]Training 3/3 epoch (loss 0.0028):  75%|███████▌  | 12729/16950 [2:20:19<44:12,  1.59it/s]Training 3/3 epoch (loss 0.0028):  75%|███████▌  | 12730/16950 [2:20:19<37:50,  1.86it/s]Training 3/3 epoch (loss 0.0050):  75%|███████▌  | 12730/16950 [2:20:19<37:50,  1.86it/s]Training 3/3 epoch (loss 0.0050):  75%|███████▌  | 12731/16950 [2:20:19<33:31,  2.10it/s]Training 3/3 epoch (loss 0.2588):  75%|███████▌  | 12731/16950 [2:20:20<33:31,  2.10it/s]Training 3/3 epoch (loss 0.2588):  75%|███████▌  | 12732/16950 [2:20:20<33:11,  2.12it/s]Training 3/3 epoch (loss 0.0015):  75%|███████▌  | 12732/16950 [2:20:20<33:11,  2.12it/s]Training 3/3 epoch (loss 0.0015):  75%|███████▌  | 12733/16950 [2:20:20<33:03,  2.13it/s]Training 3/3 epoch (loss 0.0061):  75%|███████▌  | 12733/16950 [2:20:21<33:03,  2.13it/s]Training 3/3 epoch (loss 0.0061):  75%|███████▌  | 12734/16950 [2:20:21<33:42,  2.08it/s]Training 3/3 epoch (loss 0.4671):  75%|███████▌  | 12734/16950 [2:20:21<33:42,  2.08it/s]Training 3/3 epoch (loss 0.4671):  75%|███████▌  | 12735/16950 [2:20:21<33:48,  2.08it/s]Training 3/3 epoch (loss 0.0152):  75%|███████▌  | 12735/16950 [2:20:22<33:48,  2.08it/s]Training 3/3 epoch (loss 0.0152):  75%|███████▌  | 12736/16950 [2:20:22<36:44,  1.91it/s]Training 3/3 epoch (loss 0.1088):  75%|███████▌  | 12736/16950 [2:20:22<36:44,  1.91it/s]Training 3/3 epoch (loss 0.1088):  75%|███████▌  | 12737/16950 [2:20:22<39:26,  1.78it/s]Training 3/3 epoch (loss 0.0077):  75%|███████▌  | 12737/16950 [2:20:23<39:26,  1.78it/s]Training 3/3 epoch (loss 0.0077):  75%|███████▌  | 12738/16950 [2:20:23<40:21,  1.74it/s]Training 3/3 epoch (loss 0.0057):  75%|███████▌  | 12738/16950 [2:20:24<40:21,  1.74it/s]Training 3/3 epoch (loss 0.0057):  75%|███████▌  | 12739/16950 [2:20:24<42:17,  1.66it/s]Training 3/3 epoch (loss 0.0005):  75%|███████▌  | 12739/16950 [2:20:24<42:17,  1.66it/s]Training 3/3 epoch (loss 0.0005):  75%|███████▌  | 12740/16950 [2:20:24<40:55,  1.71it/s]Training 3/3 epoch (loss 0.0019):  75%|███████▌  | 12740/16950 [2:20:25<40:55,  1.71it/s]Training 3/3 epoch (loss 0.0019):  75%|███████▌  | 12741/16950 [2:20:25<37:14,  1.88it/s]Training 3/3 epoch (loss 0.2782):  75%|███████▌  | 12741/16950 [2:20:25<37:14,  1.88it/s]Training 3/3 epoch (loss 0.2782):  75%|███████▌  | 12742/16950 [2:20:25<37:09,  1.89it/s]Training 3/3 epoch (loss 0.0093):  75%|███████▌  | 12742/16950 [2:20:26<37:09,  1.89it/s]Training 3/3 epoch (loss 0.0093):  75%|███████▌  | 12743/16950 [2:20:26<38:26,  1.82it/s]Training 3/3 epoch (loss 0.0009):  75%|███████▌  | 12743/16950 [2:20:27<38:26,  1.82it/s]Training 3/3 epoch (loss 0.0009):  75%|███████▌  | 12744/16950 [2:20:27<50:58,  1.38it/s]Training 3/3 epoch (loss 0.2593):  75%|███████▌  | 12744/16950 [2:20:28<50:58,  1.38it/s]Training 3/3 epoch (loss 0.2593):  75%|███████▌  | 12745/16950 [2:20:28<57:17,  1.22it/s]Training 3/3 epoch (loss 0.0090):  75%|███████▌  | 12745/16950 [2:20:28<57:17,  1.22it/s]Training 3/3 epoch (loss 0.0090):  75%|███████▌  | 12746/16950 [2:20:28<51:12,  1.37it/s]Training 3/3 epoch (loss 0.0875):  75%|███████▌  | 12746/16950 [2:20:29<51:12,  1.37it/s]Training 3/3 epoch (loss 0.0875):  75%|███████▌  | 12747/16950 [2:20:29<48:57,  1.43it/s]Training 3/3 epoch (loss 0.0036):  75%|███████▌  | 12747/16950 [2:20:29<48:57,  1.43it/s]Training 3/3 epoch (loss 0.0036):  75%|███████▌  | 12748/16950 [2:20:29<44:24,  1.58it/s]Training 3/3 epoch (loss 0.1410):  75%|███████▌  | 12748/16950 [2:20:30<44:24,  1.58it/s]Training 3/3 epoch (loss 0.1410):  75%|███████▌  | 12749/16950 [2:20:30<47:50,  1.46it/s]Training 3/3 epoch (loss 0.0488):  75%|███████▌  | 12749/16950 [2:20:31<47:50,  1.46it/s]Training 3/3 epoch (loss 0.0488):  75%|███████▌  | 12750/16950 [2:20:31<45:42,  1.53it/s]Training 3/3 epoch (loss 0.0049):  75%|███████▌  | 12750/16950 [2:20:31<45:42,  1.53it/s]Training 3/3 epoch (loss 0.0049):  75%|███████▌  | 12751/16950 [2:20:31<41:24,  1.69it/s]Training 3/3 epoch (loss 0.0059):  75%|███████▌  | 12751/16950 [2:20:32<41:24,  1.69it/s]Training 3/3 epoch (loss 0.0059):  75%|███████▌  | 12752/16950 [2:20:32<43:48,  1.60it/s]Training 3/3 epoch (loss 0.1973):  75%|███████▌  | 12752/16950 [2:20:32<43:48,  1.60it/s]Training 3/3 epoch (loss 0.1973):  75%|███████▌  | 12753/16950 [2:20:32<39:14,  1.78it/s]Training 3/3 epoch (loss 0.0164):  75%|███████▌  | 12753/16950 [2:20:33<39:14,  1.78it/s]Training 3/3 epoch (loss 0.0164):  75%|███████▌  | 12754/16950 [2:20:33<37:11,  1.88it/s]Training 3/3 epoch (loss 0.0006):  75%|███████▌  | 12754/16950 [2:20:34<37:11,  1.88it/s]Training 3/3 epoch (loss 0.0006):  75%|███████▌  | 12755/16950 [2:20:34<39:22,  1.78it/s]Training 3/3 epoch (loss 0.2328):  75%|███████▌  | 12755/16950 [2:20:34<39:22,  1.78it/s]Training 3/3 epoch (loss 0.2328):  75%|███████▌  | 12756/16950 [2:20:34<38:10,  1.83it/s]Training 3/3 epoch (loss 0.0142):  75%|███████▌  | 12756/16950 [2:20:34<38:10,  1.83it/s]Training 3/3 epoch (loss 0.0142):  75%|███████▌  | 12757/16950 [2:20:34<35:23,  1.97it/s]Training 3/3 epoch (loss 0.0064):  75%|███████▌  | 12757/16950 [2:20:35<35:23,  1.97it/s]Training 3/3 epoch (loss 0.0064):  75%|███████▌  | 12758/16950 [2:20:35<35:26,  1.97it/s]Training 3/3 epoch (loss 0.5018):  75%|███████▌  | 12758/16950 [2:20:35<35:26,  1.97it/s]Training 3/3 epoch (loss 0.5018):  75%|███████▌  | 12759/16950 [2:20:35<33:02,  2.11it/s]Training 3/3 epoch (loss 0.0014):  75%|███████▌  | 12759/16950 [2:20:36<33:02,  2.11it/s]Training 3/3 epoch (loss 0.0014):  75%|███████▌  | 12760/16950 [2:20:36<31:52,  2.19it/s]Training 3/3 epoch (loss 0.0155):  75%|███████▌  | 12760/16950 [2:20:36<31:52,  2.19it/s]Training 3/3 epoch (loss 0.0155):  75%|███████▌  | 12761/16950 [2:20:36<34:37,  2.02it/s]Training 3/3 epoch (loss 0.1099):  75%|███████▌  | 12761/16950 [2:20:37<34:37,  2.02it/s]Training 3/3 epoch (loss 0.1099):  75%|███████▌  | 12762/16950 [2:20:37<32:00,  2.18it/s]Training 3/3 epoch (loss 0.0814):  75%|███████▌  | 12762/16950 [2:20:37<32:00,  2.18it/s]Training 3/3 epoch (loss 0.0814):  75%|███████▌  | 12763/16950 [2:20:37<35:11,  1.98it/s]Training 3/3 epoch (loss 0.3535):  75%|███████▌  | 12763/16950 [2:20:38<35:11,  1.98it/s]Training 3/3 epoch (loss 0.3535):  75%|███████▌  | 12764/16950 [2:20:38<34:11,  2.04it/s]Training 3/3 epoch (loss 0.0159):  75%|███████▌  | 12764/16950 [2:20:38<34:11,  2.04it/s]Training 3/3 epoch (loss 0.0159):  75%|███████▌  | 12765/16950 [2:20:38<35:53,  1.94it/s]Training 3/3 epoch (loss 0.3446):  75%|███████▌  | 12765/16950 [2:20:39<35:53,  1.94it/s]Training 3/3 epoch (loss 0.3446):  75%|███████▌  | 12766/16950 [2:20:39<37:38,  1.85it/s]Training 3/3 epoch (loss 0.1058):  75%|███████▌  | 12766/16950 [2:20:40<37:38,  1.85it/s]Training 3/3 epoch (loss 0.1058):  75%|███████▌  | 12767/16950 [2:20:40<39:40,  1.76it/s]Training 3/3 epoch (loss 0.0404):  75%|███████▌  | 12767/16950 [2:20:40<39:40,  1.76it/s]Training 3/3 epoch (loss 0.0404):  75%|███████▌  | 12768/16950 [2:20:40<43:09,  1.62it/s]Training 3/3 epoch (loss 0.5911):  75%|███████▌  | 12768/16950 [2:20:41<43:09,  1.62it/s]Training 3/3 epoch (loss 0.5911):  75%|███████▌  | 12769/16950 [2:20:41<51:49,  1.34it/s]Training 3/3 epoch (loss 0.0131):  75%|███████▌  | 12769/16950 [2:20:42<51:49,  1.34it/s]Training 3/3 epoch (loss 0.0131):  75%|███████▌  | 12770/16950 [2:20:42<49:33,  1.41it/s]Training 3/3 epoch (loss 0.3339):  75%|███████▌  | 12770/16950 [2:20:43<49:33,  1.41it/s]Training 3/3 epoch (loss 0.3339):  75%|███████▌  | 12771/16950 [2:20:43<46:46,  1.49it/s]Training 3/3 epoch (loss 0.3591):  75%|███████▌  | 12771/16950 [2:20:43<46:46,  1.49it/s]Training 3/3 epoch (loss 0.3591):  75%|███████▌  | 12772/16950 [2:20:43<47:11,  1.48it/s]Training 3/3 epoch (loss 0.2688):  75%|███████▌  | 12772/16950 [2:20:44<47:11,  1.48it/s]Training 3/3 epoch (loss 0.2688):  75%|███████▌  | 12773/16950 [2:20:44<42:45,  1.63it/s]Training 3/3 epoch (loss 0.0764):  75%|███████▌  | 12773/16950 [2:20:44<42:45,  1.63it/s]Training 3/3 epoch (loss 0.0764):  75%|███████▌  | 12774/16950 [2:20:44<43:06,  1.61it/s]Training 3/3 epoch (loss 0.8020):  75%|███████▌  | 12774/16950 [2:20:45<43:06,  1.61it/s]Training 3/3 epoch (loss 0.8020):  75%|███████▌  | 12775/16950 [2:20:45<53:25,  1.30it/s]Training 3/3 epoch (loss 0.0001):  75%|███████▌  | 12775/16950 [2:20:46<53:25,  1.30it/s]Training 3/3 epoch (loss 0.0001):  75%|███████▌  | 12776/16950 [2:20:46<51:24,  1.35it/s]Training 3/3 epoch (loss 0.2110):  75%|███████▌  | 12776/16950 [2:20:47<51:24,  1.35it/s]Training 3/3 epoch (loss 0.2110):  75%|███████▌  | 12777/16950 [2:20:47<53:33,  1.30it/s]Training 3/3 epoch (loss 0.0057):  75%|███████▌  | 12777/16950 [2:20:48<53:33,  1.30it/s]Training 3/3 epoch (loss 0.0057):  75%|███████▌  | 12778/16950 [2:20:48<58:18,  1.19it/s]Training 3/3 epoch (loss 0.4210):  75%|███████▌  | 12778/16950 [2:20:49<58:18,  1.19it/s]Training 3/3 epoch (loss 0.4210):  75%|███████▌  | 12779/16950 [2:20:49<1:03:50,  1.09it/s]Training 3/3 epoch (loss 0.0746):  75%|███████▌  | 12779/16950 [2:20:50<1:03:50,  1.09it/s]Training 3/3 epoch (loss 0.0746):  75%|███████▌  | 12780/16950 [2:20:50<59:52,  1.16it/s]  Training 3/3 epoch (loss 0.0018):  75%|███████▌  | 12780/16950 [2:20:50<59:52,  1.16it/s]Training 3/3 epoch (loss 0.0018):  75%|███████▌  | 12781/16950 [2:20:50<54:33,  1.27it/s]Training 3/3 epoch (loss 0.1321):  75%|███████▌  | 12781/16950 [2:20:51<54:33,  1.27it/s]Training 3/3 epoch (loss 0.1321):  75%|███████▌  | 12782/16950 [2:20:51<49:41,  1.40it/s]Training 3/3 epoch (loss 0.0173):  75%|███████▌  | 12782/16950 [2:20:51<49:41,  1.40it/s]Training 3/3 epoch (loss 0.0173):  75%|███████▌  | 12783/16950 [2:20:51<42:26,  1.64it/s]Training 3/3 epoch (loss 0.0591):  75%|███████▌  | 12783/16950 [2:20:52<42:26,  1.64it/s]Training 3/3 epoch (loss 0.0591):  75%|███████▌  | 12784/16950 [2:20:52<40:32,  1.71it/s]Training 3/3 epoch (loss 0.2600):  75%|███████▌  | 12784/16950 [2:20:52<40:32,  1.71it/s]Training 3/3 epoch (loss 0.2600):  75%|███████▌  | 12785/16950 [2:20:52<38:26,  1.81it/s]Training 3/3 epoch (loss 0.3729):  75%|███████▌  | 12785/16950 [2:20:53<38:26,  1.81it/s]Training 3/3 epoch (loss 0.3729):  75%|███████▌  | 12786/16950 [2:20:53<34:56,  1.99it/s]Training 3/3 epoch (loss 0.1508):  75%|███████▌  | 12786/16950 [2:20:54<34:56,  1.99it/s]Training 3/3 epoch (loss 0.1508):  75%|███████▌  | 12787/16950 [2:20:54<41:14,  1.68it/s]Training 3/3 epoch (loss 0.0001):  75%|███████▌  | 12787/16950 [2:20:54<41:14,  1.68it/s]Training 3/3 epoch (loss 0.0001):  75%|███████▌  | 12788/16950 [2:20:54<35:54,  1.93it/s]Training 3/3 epoch (loss 0.0006):  75%|███████▌  | 12788/16950 [2:20:54<35:54,  1.93it/s]Training 3/3 epoch (loss 0.0006):  75%|███████▌  | 12789/16950 [2:20:54<37:41,  1.84it/s]Training 3/3 epoch (loss 0.0890):  75%|███████▌  | 12789/16950 [2:20:55<37:41,  1.84it/s]Training 3/3 epoch (loss 0.0890):  75%|███████▌  | 12790/16950 [2:20:55<40:18,  1.72it/s]Training 3/3 epoch (loss 0.2453):  75%|███████▌  | 12790/16950 [2:20:56<40:18,  1.72it/s]Training 3/3 epoch (loss 0.2453):  75%|███████▌  | 12791/16950 [2:20:56<41:11,  1.68it/s]Training 3/3 epoch (loss 0.0002):  75%|███████▌  | 12791/16950 [2:20:56<41:11,  1.68it/s]Training 3/3 epoch (loss 0.0002):  75%|███████▌  | 12792/16950 [2:20:56<37:41,  1.84it/s]Training 3/3 epoch (loss 0.0056):  75%|███████▌  | 12792/16950 [2:20:57<37:41,  1.84it/s]Training 3/3 epoch (loss 0.0056):  75%|███████▌  | 12793/16950 [2:20:57<37:18,  1.86it/s]Training 3/3 epoch (loss 0.0517):  75%|███████▌  | 12793/16950 [2:20:58<37:18,  1.86it/s]Training 3/3 epoch (loss 0.0517):  75%|███████▌  | 12794/16950 [2:20:58<44:41,  1.55it/s]Training 3/3 epoch (loss 0.2070):  75%|███████▌  | 12794/16950 [2:20:58<44:41,  1.55it/s]Training 3/3 epoch (loss 0.2070):  75%|███████▌  | 12795/16950 [2:20:58<46:09,  1.50it/s]Training 3/3 epoch (loss 0.0309):  75%|███████▌  | 12795/16950 [2:20:59<46:09,  1.50it/s]Training 3/3 epoch (loss 0.0309):  75%|███████▌  | 12796/16950 [2:20:59<49:05,  1.41it/s]Training 3/3 epoch (loss 0.0005):  75%|███████▌  | 12796/16950 [2:21:00<49:05,  1.41it/s]Training 3/3 epoch (loss 0.0005):  75%|███████▌  | 12797/16950 [2:21:00<44:16,  1.56it/s]Training 3/3 epoch (loss 0.2054):  75%|███████▌  | 12797/16950 [2:21:00<44:16,  1.56it/s]Training 3/3 epoch (loss 0.2054):  76%|███████▌  | 12798/16950 [2:21:00<43:16,  1.60it/s]Training 3/3 epoch (loss 0.0013):  76%|███████▌  | 12798/16950 [2:21:01<43:16,  1.60it/s]Training 3/3 epoch (loss 0.0013):  76%|███████▌  | 12799/16950 [2:21:01<39:16,  1.76it/s]Training 3/3 epoch (loss 0.3591):  76%|███████▌  | 12799/16950 [2:21:01<39:16,  1.76it/s]Training 3/3 epoch (loss 0.3591):  76%|███████▌  | 12800/16950 [2:21:01<38:35,  1.79it/s]Training 3/3 epoch (loss 0.0132):  76%|███████▌  | 12800/16950 [2:21:02<38:35,  1.79it/s]Training 3/3 epoch (loss 0.0132):  76%|███████▌  | 12801/16950 [2:21:02<40:49,  1.69it/s]Training 3/3 epoch (loss 0.0055):  76%|███████▌  | 12801/16950 [2:21:03<40:49,  1.69it/s]Training 3/3 epoch (loss 0.0055):  76%|███████▌  | 12802/16950 [2:21:03<43:59,  1.57it/s]Training 3/3 epoch (loss 0.3497):  76%|███████▌  | 12802/16950 [2:21:03<43:59,  1.57it/s]Training 3/3 epoch (loss 0.3497):  76%|███████▌  | 12803/16950 [2:21:03<42:35,  1.62it/s]Training 3/3 epoch (loss 0.0399):  76%|███████▌  | 12803/16950 [2:21:04<42:35,  1.62it/s]Training 3/3 epoch (loss 0.0399):  76%|███████▌  | 12804/16950 [2:21:04<40:24,  1.71it/s]Training 3/3 epoch (loss 0.3300):  76%|███████▌  | 12804/16950 [2:21:04<40:24,  1.71it/s]Training 3/3 epoch (loss 0.3300):  76%|███████▌  | 12805/16950 [2:21:04<41:49,  1.65it/s]Training 3/3 epoch (loss 0.4508):  76%|███████▌  | 12805/16950 [2:21:05<41:49,  1.65it/s]Training 3/3 epoch (loss 0.4508):  76%|███████▌  | 12806/16950 [2:21:05<37:03,  1.86it/s]Training 3/3 epoch (loss 0.2168):  76%|███████▌  | 12806/16950 [2:21:05<37:03,  1.86it/s]Training 3/3 epoch (loss 0.2168):  76%|███████▌  | 12807/16950 [2:21:05<38:40,  1.79it/s]Training 3/3 epoch (loss 0.0251):  76%|███████▌  | 12807/16950 [2:21:06<38:40,  1.79it/s]Training 3/3 epoch (loss 0.0251):  76%|███████▌  | 12808/16950 [2:21:06<41:11,  1.68it/s]Training 3/3 epoch (loss 0.4387):  76%|███████▌  | 12808/16950 [2:21:07<41:11,  1.68it/s]Training 3/3 epoch (loss 0.4387):  76%|███████▌  | 12809/16950 [2:21:07<44:02,  1.57it/s]Training 3/3 epoch (loss 0.0809):  76%|███████▌  | 12809/16950 [2:21:07<44:02,  1.57it/s]Training 3/3 epoch (loss 0.0809):  76%|███████▌  | 12810/16950 [2:21:07<44:55,  1.54it/s]Training 3/3 epoch (loss 0.0463):  76%|███████▌  | 12810/16950 [2:21:08<44:55,  1.54it/s]Training 3/3 epoch (loss 0.0463):  76%|███████▌  | 12811/16950 [2:21:08<44:51,  1.54it/s]Training 3/3 epoch (loss 0.0226):  76%|███████▌  | 12811/16950 [2:21:09<44:51,  1.54it/s]Training 3/3 epoch (loss 0.0226):  76%|███████▌  | 12812/16950 [2:21:09<43:42,  1.58it/s]Training 3/3 epoch (loss 0.0065):  76%|███████▌  | 12812/16950 [2:21:09<43:42,  1.58it/s]Training 3/3 epoch (loss 0.0065):  76%|███████▌  | 12813/16950 [2:21:09<40:17,  1.71it/s]Training 3/3 epoch (loss 0.4081):  76%|███████▌  | 12813/16950 [2:21:10<40:17,  1.71it/s]Training 3/3 epoch (loss 0.4081):  76%|███████▌  | 12814/16950 [2:21:10<44:59,  1.53it/s]Training 3/3 epoch (loss 0.0163):  76%|███████▌  | 12814/16950 [2:21:11<44:59,  1.53it/s]Training 3/3 epoch (loss 0.0163):  76%|███████▌  | 12815/16950 [2:21:11<44:20,  1.55it/s]Training 3/3 epoch (loss 0.0163):  76%|███████▌  | 12815/16950 [2:21:11<44:20,  1.55it/s]Training 3/3 epoch (loss 0.0163):  76%|███████▌  | 12816/16950 [2:21:11<42:00,  1.64it/s]Training 3/3 epoch (loss 0.1993):  76%|███████▌  | 12816/16950 [2:21:12<42:00,  1.64it/s]Training 3/3 epoch (loss 0.1993):  76%|███████▌  | 12817/16950 [2:21:12<38:26,  1.79it/s]Training 3/3 epoch (loss 0.3039):  76%|███████▌  | 12817/16950 [2:21:13<38:26,  1.79it/s]Training 3/3 epoch (loss 0.3039):  76%|███████▌  | 12818/16950 [2:21:13<48:35,  1.42it/s]Training 3/3 epoch (loss 0.4177):  76%|███████▌  | 12818/16950 [2:21:13<48:35,  1.42it/s]Training 3/3 epoch (loss 0.4177):  76%|███████▌  | 12819/16950 [2:21:13<44:38,  1.54it/s]Training 3/3 epoch (loss 0.0000):  76%|███████▌  | 12819/16950 [2:21:14<44:38,  1.54it/s]Training 3/3 epoch (loss 0.0000):  76%|███████▌  | 12820/16950 [2:21:14<39:52,  1.73it/s]Training 3/3 epoch (loss 0.1060):  76%|███████▌  | 12820/16950 [2:21:15<39:52,  1.73it/s]Training 3/3 epoch (loss 0.1060):  76%|███████▌  | 12821/16950 [2:21:15<50:36,  1.36it/s]Training 3/3 epoch (loss 0.0311):  76%|███████▌  | 12821/16950 [2:21:15<50:36,  1.36it/s]Training 3/3 epoch (loss 0.0311):  76%|███████▌  | 12822/16950 [2:21:15<50:21,  1.37it/s]Training 3/3 epoch (loss 0.0036):  76%|███████▌  | 12822/16950 [2:21:16<50:21,  1.37it/s]Training 3/3 epoch (loss 0.0036):  76%|███████▌  | 12823/16950 [2:21:16<53:03,  1.30it/s]Training 3/3 epoch (loss 0.0344):  76%|███████▌  | 12823/16950 [2:21:17<53:03,  1.30it/s]Training 3/3 epoch (loss 0.0344):  76%|███████▌  | 12824/16950 [2:21:17<57:17,  1.20it/s]Training 3/3 epoch (loss 0.0010):  76%|███████▌  | 12824/16950 [2:21:18<57:17,  1.20it/s]Training 3/3 epoch (loss 0.0010):  76%|███████▌  | 12825/16950 [2:21:18<53:25,  1.29it/s]Training 3/3 epoch (loss 0.0169):  76%|███████▌  | 12825/16950 [2:21:19<53:25,  1.29it/s]Training 3/3 epoch (loss 0.0169):  76%|███████▌  | 12826/16950 [2:21:19<57:07,  1.20it/s]Training 3/3 epoch (loss 0.0142):  76%|███████▌  | 12826/16950 [2:21:19<57:07,  1.20it/s]Training 3/3 epoch (loss 0.0142):  76%|███████▌  | 12827/16950 [2:21:19<51:04,  1.35it/s]Training 3/3 epoch (loss 0.4494):  76%|███████▌  | 12827/16950 [2:21:20<51:04,  1.35it/s]Training 3/3 epoch (loss 0.4494):  76%|███████▌  | 12828/16950 [2:21:20<45:41,  1.50it/s]Training 3/3 epoch (loss 0.0443):  76%|███████▌  | 12828/16950 [2:21:20<45:41,  1.50it/s]Training 3/3 epoch (loss 0.0443):  76%|███████▌  | 12829/16950 [2:21:20<44:34,  1.54it/s]Training 3/3 epoch (loss 0.2474):  76%|███████▌  | 12829/16950 [2:21:22<44:34,  1.54it/s]Training 3/3 epoch (loss 0.2474):  76%|███████▌  | 12830/16950 [2:21:22<54:48,  1.25it/s]Training 3/3 epoch (loss 0.0331):  76%|███████▌  | 12830/16950 [2:21:22<54:48,  1.25it/s]Training 3/3 epoch (loss 0.0331):  76%|███████▌  | 12831/16950 [2:21:22<52:49,  1.30it/s]Training 3/3 epoch (loss 0.0235):  76%|███████▌  | 12831/16950 [2:21:23<52:49,  1.30it/s]Training 3/3 epoch (loss 0.0235):  76%|███████▌  | 12832/16950 [2:21:23<47:49,  1.43it/s]Training 3/3 epoch (loss 0.4597):  76%|███████▌  | 12832/16950 [2:21:23<47:49,  1.43it/s]Training 3/3 epoch (loss 0.4597):  76%|███████▌  | 12833/16950 [2:21:23<46:21,  1.48it/s]Training 3/3 epoch (loss 0.0027):  76%|███████▌  | 12833/16950 [2:21:24<46:21,  1.48it/s]Training 3/3 epoch (loss 0.0027):  76%|███████▌  | 12834/16950 [2:21:24<43:33,  1.57it/s]Training 3/3 epoch (loss 0.1047):  76%|███████▌  | 12834/16950 [2:21:24<43:33,  1.57it/s]Training 3/3 epoch (loss 0.1047):  76%|███████▌  | 12835/16950 [2:21:24<39:56,  1.72it/s]Training 3/3 epoch (loss 0.0660):  76%|███████▌  | 12835/16950 [2:21:25<39:56,  1.72it/s]Training 3/3 epoch (loss 0.0660):  76%|███████▌  | 12836/16950 [2:21:25<40:00,  1.71it/s]Training 3/3 epoch (loss 0.0376):  76%|███████▌  | 12836/16950 [2:21:26<40:00,  1.71it/s]Training 3/3 epoch (loss 0.0376):  76%|███████▌  | 12837/16950 [2:21:26<39:03,  1.76it/s]Training 3/3 epoch (loss 0.0182):  76%|███████▌  | 12837/16950 [2:21:26<39:03,  1.76it/s]Training 3/3 epoch (loss 0.0182):  76%|███████▌  | 12838/16950 [2:21:26<38:04,  1.80it/s]Training 3/3 epoch (loss 0.3144):  76%|███████▌  | 12838/16950 [2:21:27<38:04,  1.80it/s]Training 3/3 epoch (loss 0.3144):  76%|███████▌  | 12839/16950 [2:21:27<36:49,  1.86it/s]Training 3/3 epoch (loss 0.1148):  76%|███████▌  | 12839/16950 [2:21:27<36:49,  1.86it/s]Training 3/3 epoch (loss 0.1148):  76%|███████▌  | 12840/16950 [2:21:27<37:01,  1.85it/s]Training 3/3 epoch (loss 0.4186):  76%|███████▌  | 12840/16950 [2:21:28<37:01,  1.85it/s]Training 3/3 epoch (loss 0.4186):  76%|███████▌  | 12841/16950 [2:21:28<45:22,  1.51it/s]Training 3/3 epoch (loss 0.0003):  76%|███████▌  | 12841/16950 [2:21:29<45:22,  1.51it/s]Training 3/3 epoch (loss 0.0003):  76%|███████▌  | 12842/16950 [2:21:29<44:20,  1.54it/s]Training 3/3 epoch (loss 0.4278):  76%|███████▌  | 12842/16950 [2:21:29<44:20,  1.54it/s]Training 3/3 epoch (loss 0.4278):  76%|███████▌  | 12843/16950 [2:21:29<42:20,  1.62it/s]Training 3/3 epoch (loss 0.0181):  76%|███████▌  | 12843/16950 [2:21:30<42:20,  1.62it/s]Training 3/3 epoch (loss 0.0181):  76%|███████▌  | 12844/16950 [2:21:30<43:52,  1.56it/s]Training 3/3 epoch (loss 0.0780):  76%|███████▌  | 12844/16950 [2:21:31<43:52,  1.56it/s]Training 3/3 epoch (loss 0.0780):  76%|███████▌  | 12845/16950 [2:21:31<49:46,  1.37it/s]Training 3/3 epoch (loss 0.4225):  76%|███████▌  | 12845/16950 [2:21:32<49:46,  1.37it/s]Training 3/3 epoch (loss 0.4225):  76%|███████▌  | 12846/16950 [2:21:32<49:16,  1.39it/s]Training 3/3 epoch (loss 0.0813):  76%|███████▌  | 12846/16950 [2:21:32<49:16,  1.39it/s]Training 3/3 epoch (loss 0.0813):  76%|███████▌  | 12847/16950 [2:21:32<47:46,  1.43it/s]Training 3/3 epoch (loss 0.3155):  76%|███████▌  | 12847/16950 [2:21:33<47:46,  1.43it/s]Training 3/3 epoch (loss 0.3155):  76%|███████▌  | 12848/16950 [2:21:33<39:52,  1.71it/s]Training 3/3 epoch (loss 0.0000):  76%|███████▌  | 12848/16950 [2:21:33<39:52,  1.71it/s]Training 3/3 epoch (loss 0.0000):  76%|███████▌  | 12849/16950 [2:21:33<35:47,  1.91it/s]Training 3/3 epoch (loss 0.0024):  76%|███████▌  | 12849/16950 [2:21:33<35:47,  1.91it/s]Training 3/3 epoch (loss 0.0024):  76%|███████▌  | 12850/16950 [2:21:33<34:02,  2.01it/s]Training 3/3 epoch (loss 0.0014):  76%|███████▌  | 12850/16950 [2:21:34<34:02,  2.01it/s]Training 3/3 epoch (loss 0.0014):  76%|███████▌  | 12851/16950 [2:21:34<37:47,  1.81it/s]Training 3/3 epoch (loss 0.1254):  76%|███████▌  | 12851/16950 [2:21:35<37:47,  1.81it/s]Training 3/3 epoch (loss 0.1254):  76%|███████▌  | 12852/16950 [2:21:35<40:18,  1.69it/s]Training 3/3 epoch (loss 0.4506):  76%|███████▌  | 12852/16950 [2:21:35<40:18,  1.69it/s]Training 3/3 epoch (loss 0.4506):  76%|███████▌  | 12853/16950 [2:21:35<37:17,  1.83it/s]Training 3/3 epoch (loss 0.0087):  76%|███████▌  | 12853/16950 [2:21:36<37:17,  1.83it/s]Training 3/3 epoch (loss 0.0087):  76%|███████▌  | 12854/16950 [2:21:36<38:02,  1.79it/s]Training 3/3 epoch (loss 0.7557):  76%|███████▌  | 12854/16950 [2:21:37<38:02,  1.79it/s]Training 3/3 epoch (loss 0.7557):  76%|███████▌  | 12855/16950 [2:21:37<43:08,  1.58it/s]Training 3/3 epoch (loss 0.0001):  76%|███████▌  | 12855/16950 [2:21:37<43:08,  1.58it/s]Training 3/3 epoch (loss 0.0001):  76%|███████▌  | 12856/16950 [2:21:37<41:38,  1.64it/s]Training 3/3 epoch (loss 0.1166):  76%|███████▌  | 12856/16950 [2:21:38<41:38,  1.64it/s]Training 3/3 epoch (loss 0.1166):  76%|███████▌  | 12857/16950 [2:21:38<37:56,  1.80it/s]Training 3/3 epoch (loss 0.0012):  76%|███████▌  | 12857/16950 [2:21:38<37:56,  1.80it/s]Training 3/3 epoch (loss 0.0012):  76%|███████▌  | 12858/16950 [2:21:38<35:04,  1.94it/s]Training 3/3 epoch (loss 0.3747):  76%|███████▌  | 12858/16950 [2:21:39<35:04,  1.94it/s]Training 3/3 epoch (loss 0.3747):  76%|███████▌  | 12859/16950 [2:21:39<37:11,  1.83it/s]Training 3/3 epoch (loss 0.3234):  76%|███████▌  | 12859/16950 [2:21:39<37:11,  1.83it/s]Training 3/3 epoch (loss 0.3234):  76%|███████▌  | 12860/16950 [2:21:39<38:54,  1.75it/s]Training 3/3 epoch (loss 0.0098):  76%|███████▌  | 12860/16950 [2:21:40<38:54,  1.75it/s]Training 3/3 epoch (loss 0.0098):  76%|███████▌  | 12861/16950 [2:21:40<48:29,  1.41it/s]Training 3/3 epoch (loss 0.0020):  76%|███████▌  | 12861/16950 [2:21:41<48:29,  1.41it/s]Training 3/3 epoch (loss 0.0020):  76%|███████▌  | 12862/16950 [2:21:41<44:41,  1.52it/s]Training 3/3 epoch (loss 0.0042):  76%|███████▌  | 12862/16950 [2:21:41<44:41,  1.52it/s]Training 3/3 epoch (loss 0.0042):  76%|███████▌  | 12863/16950 [2:21:41<45:23,  1.50it/s]Training 3/3 epoch (loss 0.0156):  76%|███████▌  | 12863/16950 [2:21:42<45:23,  1.50it/s]Training 3/3 epoch (loss 0.0156):  76%|███████▌  | 12864/16950 [2:21:42<44:42,  1.52it/s]Training 3/3 epoch (loss 0.0265):  76%|███████▌  | 12864/16950 [2:21:43<44:42,  1.52it/s]Training 3/3 epoch (loss 0.0265):  76%|███████▌  | 12865/16950 [2:21:43<40:44,  1.67it/s]Training 3/3 epoch (loss 0.0224):  76%|███████▌  | 12865/16950 [2:21:43<40:44,  1.67it/s]Training 3/3 epoch (loss 0.0224):  76%|███████▌  | 12866/16950 [2:21:43<41:55,  1.62it/s]Training 3/3 epoch (loss 0.2144):  76%|███████▌  | 12866/16950 [2:21:44<41:55,  1.62it/s]Training 3/3 epoch (loss 0.2144):  76%|███████▌  | 12867/16950 [2:21:44<36:44,  1.85it/s]Training 3/3 epoch (loss 0.4351):  76%|███████▌  | 12867/16950 [2:21:44<36:44,  1.85it/s]Training 3/3 epoch (loss 0.4351):  76%|███████▌  | 12868/16950 [2:21:44<35:08,  1.94it/s]Training 3/3 epoch (loss 0.0071):  76%|███████▌  | 12868/16950 [2:21:45<35:08,  1.94it/s]Training 3/3 epoch (loss 0.0071):  76%|███████▌  | 12869/16950 [2:21:45<36:01,  1.89it/s]Training 3/3 epoch (loss 0.3346):  76%|███████▌  | 12869/16950 [2:21:45<36:01,  1.89it/s]Training 3/3 epoch (loss 0.3346):  76%|███████▌  | 12870/16950 [2:21:45<38:23,  1.77it/s]Training 3/3 epoch (loss 0.5277):  76%|███████▌  | 12870/16950 [2:21:46<38:23,  1.77it/s]Training 3/3 epoch (loss 0.5277):  76%|███████▌  | 12871/16950 [2:21:46<37:22,  1.82it/s]Training 3/3 epoch (loss 0.0129):  76%|███████▌  | 12871/16950 [2:21:46<37:22,  1.82it/s]Training 3/3 epoch (loss 0.0129):  76%|███████▌  | 12872/16950 [2:21:46<38:54,  1.75it/s]Training 3/3 epoch (loss 0.0084):  76%|███████▌  | 12872/16950 [2:21:47<38:54,  1.75it/s]Training 3/3 epoch (loss 0.0084):  76%|███████▌  | 12873/16950 [2:21:47<38:45,  1.75it/s]Training 3/3 epoch (loss 0.0034):  76%|███████▌  | 12873/16950 [2:21:48<38:45,  1.75it/s]Training 3/3 epoch (loss 0.0034):  76%|███████▌  | 12874/16950 [2:21:48<38:53,  1.75it/s]Training 3/3 epoch (loss 0.0250):  76%|███████▌  | 12874/16950 [2:21:48<38:53,  1.75it/s]Training 3/3 epoch (loss 0.0250):  76%|███████▌  | 12875/16950 [2:21:48<35:36,  1.91it/s]Training 3/3 epoch (loss 0.5957):  76%|███████▌  | 12875/16950 [2:21:49<35:36,  1.91it/s]Training 3/3 epoch (loss 0.5957):  76%|███████▌  | 12876/16950 [2:21:49<45:41,  1.49it/s]Training 3/3 epoch (loss 0.0217):  76%|███████▌  | 12876/16950 [2:21:50<45:41,  1.49it/s]Training 3/3 epoch (loss 0.0217):  76%|███████▌  | 12877/16950 [2:21:50<47:03,  1.44it/s]Training 3/3 epoch (loss 0.0165):  76%|███████▌  | 12877/16950 [2:21:50<47:03,  1.44it/s]Training 3/3 epoch (loss 0.0165):  76%|███████▌  | 12878/16950 [2:21:50<40:31,  1.67it/s]Training 3/3 epoch (loss 0.0390):  76%|███████▌  | 12878/16950 [2:21:51<40:31,  1.67it/s]Training 3/3 epoch (loss 0.0390):  76%|███████▌  | 12879/16950 [2:21:51<37:56,  1.79it/s]Training 3/3 epoch (loss 0.0033):  76%|███████▌  | 12879/16950 [2:21:51<37:56,  1.79it/s]Training 3/3 epoch (loss 0.0033):  76%|███████▌  | 12880/16950 [2:21:51<42:20,  1.60it/s]Training 3/3 epoch (loss 0.0004):  76%|███████▌  | 12880/16950 [2:21:52<42:20,  1.60it/s]Training 3/3 epoch (loss 0.0004):  76%|███████▌  | 12881/16950 [2:21:52<39:03,  1.74it/s]Training 3/3 epoch (loss 0.0251):  76%|███████▌  | 12881/16950 [2:21:52<39:03,  1.74it/s]Training 3/3 epoch (loss 0.0251):  76%|███████▌  | 12882/16950 [2:21:52<39:47,  1.70it/s]Training 3/3 epoch (loss 0.2015):  76%|███████▌  | 12882/16950 [2:21:53<39:47,  1.70it/s]Training 3/3 epoch (loss 0.2015):  76%|███████▌  | 12883/16950 [2:21:53<38:26,  1.76it/s]Training 3/3 epoch (loss 0.0215):  76%|███████▌  | 12883/16950 [2:21:53<38:26,  1.76it/s]Training 3/3 epoch (loss 0.0215):  76%|███████▌  | 12884/16950 [2:21:53<36:36,  1.85it/s]Training 3/3 epoch (loss 0.0055):  76%|███████▌  | 12884/16950 [2:21:54<36:36,  1.85it/s]Training 3/3 epoch (loss 0.0055):  76%|███████▌  | 12885/16950 [2:21:54<36:42,  1.85it/s]Training 3/3 epoch (loss 0.4209):  76%|███████▌  | 12885/16950 [2:21:55<36:42,  1.85it/s]Training 3/3 epoch (loss 0.4209):  76%|███████▌  | 12886/16950 [2:21:55<39:42,  1.71it/s]Training 3/3 epoch (loss 0.0464):  76%|███████▌  | 12886/16950 [2:21:55<39:42,  1.71it/s]Training 3/3 epoch (loss 0.0464):  76%|███████▌  | 12887/16950 [2:21:55<39:40,  1.71it/s]Training 3/3 epoch (loss 0.0060):  76%|███████▌  | 12887/16950 [2:21:56<39:40,  1.71it/s]Training 3/3 epoch (loss 0.0060):  76%|███████▌  | 12888/16950 [2:21:56<39:21,  1.72it/s]Training 3/3 epoch (loss 0.0032):  76%|███████▌  | 12888/16950 [2:21:56<39:21,  1.72it/s]Training 3/3 epoch (loss 0.0032):  76%|███████▌  | 12889/16950 [2:21:56<38:03,  1.78it/s]Training 3/3 epoch (loss 0.0006):  76%|███████▌  | 12889/16950 [2:21:57<38:03,  1.78it/s]Training 3/3 epoch (loss 0.0006):  76%|███████▌  | 12890/16950 [2:21:57<37:42,  1.79it/s]Training 3/3 epoch (loss 0.1243):  76%|███████▌  | 12890/16950 [2:21:57<37:42,  1.79it/s]Training 3/3 epoch (loss 0.1243):  76%|███████▌  | 12891/16950 [2:21:57<38:20,  1.76it/s]Training 3/3 epoch (loss 0.1267):  76%|███████▌  | 12891/16950 [2:21:58<38:20,  1.76it/s]Training 3/3 epoch (loss 0.1267):  76%|███████▌  | 12892/16950 [2:21:58<35:53,  1.88it/s]Training 3/3 epoch (loss 0.0222):  76%|███████▌  | 12892/16950 [2:21:59<35:53,  1.88it/s]Training 3/3 epoch (loss 0.0222):  76%|███████▌  | 12893/16950 [2:21:59<39:08,  1.73it/s]Training 3/3 epoch (loss 0.0586):  76%|███████▌  | 12893/16950 [2:21:59<39:08,  1.73it/s]Training 3/3 epoch (loss 0.0586):  76%|███████▌  | 12894/16950 [2:21:59<42:24,  1.59it/s]Training 3/3 epoch (loss 0.0623):  76%|███████▌  | 12894/16950 [2:22:00<42:24,  1.59it/s]Training 3/3 epoch (loss 0.0623):  76%|███████▌  | 12895/16950 [2:22:00<49:35,  1.36it/s]Training 3/3 epoch (loss 0.5042):  76%|███████▌  | 12895/16950 [2:22:01<49:35,  1.36it/s]Training 3/3 epoch (loss 0.5042):  76%|███████▌  | 12896/16950 [2:22:01<47:43,  1.42it/s]Training 3/3 epoch (loss 0.0511):  76%|███████▌  | 12896/16950 [2:22:02<47:43,  1.42it/s]Training 3/3 epoch (loss 0.0511):  76%|███████▌  | 12897/16950 [2:22:02<46:45,  1.44it/s]Training 3/3 epoch (loss 0.0004):  76%|███████▌  | 12897/16950 [2:22:02<46:45,  1.44it/s]Training 3/3 epoch (loss 0.0004):  76%|███████▌  | 12898/16950 [2:22:02<43:51,  1.54it/s]Training 3/3 epoch (loss 0.1955):  76%|███████▌  | 12898/16950 [2:22:03<43:51,  1.54it/s]Training 3/3 epoch (loss 0.1955):  76%|███████▌  | 12899/16950 [2:22:03<41:06,  1.64it/s]Training 3/3 epoch (loss 0.0783):  76%|███████▌  | 12899/16950 [2:22:03<41:06,  1.64it/s]Training 3/3 epoch (loss 0.0783):  76%|███████▌  | 12900/16950 [2:22:03<45:51,  1.47it/s]Training 3/3 epoch (loss 0.0006):  76%|███████▌  | 12900/16950 [2:22:04<45:51,  1.47it/s]Training 3/3 epoch (loss 0.0006):  76%|███████▌  | 12901/16950 [2:22:04<43:46,  1.54it/s]Training 3/3 epoch (loss 0.0050):  76%|███████▌  | 12901/16950 [2:22:05<43:46,  1.54it/s]Training 3/3 epoch (loss 0.0050):  76%|███████▌  | 12902/16950 [2:22:05<39:32,  1.71it/s]Training 3/3 epoch (loss 0.2118):  76%|███████▌  | 12902/16950 [2:22:05<39:32,  1.71it/s]Training 3/3 epoch (loss 0.2118):  76%|███████▌  | 12903/16950 [2:22:05<36:22,  1.85it/s]Training 3/3 epoch (loss 0.0019):  76%|███████▌  | 12903/16950 [2:22:06<36:22,  1.85it/s]Training 3/3 epoch (loss 0.0019):  76%|███████▌  | 12904/16950 [2:22:06<37:23,  1.80it/s]Training 3/3 epoch (loss 0.1469):  76%|███████▌  | 12904/16950 [2:22:06<37:23,  1.80it/s]Training 3/3 epoch (loss 0.1469):  76%|███████▌  | 12905/16950 [2:22:06<41:19,  1.63it/s]Training 3/3 epoch (loss 0.0141):  76%|███████▌  | 12905/16950 [2:22:07<41:19,  1.63it/s]Training 3/3 epoch (loss 0.0141):  76%|███████▌  | 12906/16950 [2:22:07<45:32,  1.48it/s]Training 3/3 epoch (loss 0.5547):  76%|███████▌  | 12906/16950 [2:22:08<45:32,  1.48it/s]Training 3/3 epoch (loss 0.5547):  76%|███████▌  | 12907/16950 [2:22:08<45:33,  1.48it/s]Training 3/3 epoch (loss 0.4010):  76%|███████▌  | 12907/16950 [2:22:08<45:33,  1.48it/s]Training 3/3 epoch (loss 0.4010):  76%|███████▌  | 12908/16950 [2:22:08<44:33,  1.51it/s]Training 3/3 epoch (loss 0.0534):  76%|███████▌  | 12908/16950 [2:22:09<44:33,  1.51it/s]Training 3/3 epoch (loss 0.0534):  76%|███████▌  | 12909/16950 [2:22:09<39:38,  1.70it/s]Training 3/3 epoch (loss 0.0164):  76%|███████▌  | 12909/16950 [2:22:10<39:38,  1.70it/s]Training 3/3 epoch (loss 0.0164):  76%|███████▌  | 12910/16950 [2:22:10<42:58,  1.57it/s]Training 3/3 epoch (loss 0.3005):  76%|███████▌  | 12910/16950 [2:22:10<42:58,  1.57it/s]Training 3/3 epoch (loss 0.3005):  76%|███████▌  | 12911/16950 [2:22:10<43:47,  1.54it/s]Training 3/3 epoch (loss 0.0015):  76%|███████▌  | 12911/16950 [2:22:11<43:47,  1.54it/s]Training 3/3 epoch (loss 0.0015):  76%|███████▌  | 12912/16950 [2:22:11<40:20,  1.67it/s]Training 3/3 epoch (loss 0.0102):  76%|███████▌  | 12912/16950 [2:22:11<40:20,  1.67it/s]Training 3/3 epoch (loss 0.0102):  76%|███████▌  | 12913/16950 [2:22:11<36:35,  1.84it/s]Training 3/3 epoch (loss 0.0012):  76%|███████▌  | 12913/16950 [2:22:12<36:35,  1.84it/s]Training 3/3 epoch (loss 0.0012):  76%|███████▌  | 12914/16950 [2:22:12<37:03,  1.82it/s]Training 3/3 epoch (loss 0.5659):  76%|███████▌  | 12914/16950 [2:22:13<37:03,  1.82it/s]Training 3/3 epoch (loss 0.5659):  76%|███████▌  | 12915/16950 [2:22:13<48:40,  1.38it/s]Training 3/3 epoch (loss 0.0327):  76%|███████▌  | 12915/16950 [2:22:13<48:40,  1.38it/s]Training 3/3 epoch (loss 0.0327):  76%|███████▌  | 12916/16950 [2:22:13<46:44,  1.44it/s]Training 3/3 epoch (loss 0.5423):  76%|███████▌  | 12916/16950 [2:22:14<46:44,  1.44it/s]Training 3/3 epoch (loss 0.5423):  76%|███████▌  | 12917/16950 [2:22:14<46:01,  1.46it/s]Training 3/3 epoch (loss 0.1209):  76%|███████▌  | 12917/16950 [2:22:15<46:01,  1.46it/s]Training 3/3 epoch (loss 0.1209):  76%|███████▌  | 12918/16950 [2:22:15<42:03,  1.60it/s]Training 3/3 epoch (loss 0.0003):  76%|███████▌  | 12918/16950 [2:22:15<42:03,  1.60it/s]Training 3/3 epoch (loss 0.0003):  76%|███████▌  | 12919/16950 [2:22:15<37:04,  1.81it/s]Training 3/3 epoch (loss 0.0156):  76%|███████▌  | 12919/16950 [2:22:16<37:04,  1.81it/s]Training 3/3 epoch (loss 0.0156):  76%|███████▌  | 12920/16950 [2:22:16<36:24,  1.84it/s]Training 3/3 epoch (loss 0.0105):  76%|███████▌  | 12920/16950 [2:22:16<36:24,  1.84it/s]Training 3/3 epoch (loss 0.0105):  76%|███████▌  | 12921/16950 [2:22:16<39:25,  1.70it/s]Training 3/3 epoch (loss 0.0505):  76%|███████▌  | 12921/16950 [2:22:17<39:25,  1.70it/s]Training 3/3 epoch (loss 0.0505):  76%|███████▌  | 12922/16950 [2:22:17<51:40,  1.30it/s]Training 3/3 epoch (loss 0.0015):  76%|███████▌  | 12922/16950 [2:22:18<51:40,  1.30it/s]Training 3/3 epoch (loss 0.0015):  76%|███████▌  | 12923/16950 [2:22:18<49:02,  1.37it/s]Training 3/3 epoch (loss 0.0036):  76%|███████▌  | 12923/16950 [2:22:19<49:02,  1.37it/s]Training 3/3 epoch (loss 0.0036):  76%|███████▌  | 12924/16950 [2:22:19<45:06,  1.49it/s]Training 3/3 epoch (loss 0.0005):  76%|███████▌  | 12924/16950 [2:22:19<45:06,  1.49it/s]Training 3/3 epoch (loss 0.0005):  76%|███████▋  | 12925/16950 [2:22:19<40:50,  1.64it/s]Training 3/3 epoch (loss 0.0007):  76%|███████▋  | 12925/16950 [2:22:20<40:50,  1.64it/s]Training 3/3 epoch (loss 0.0007):  76%|███████▋  | 12926/16950 [2:22:20<39:52,  1.68it/s]Training 3/3 epoch (loss 0.5040):  76%|███████▋  | 12926/16950 [2:22:20<39:52,  1.68it/s]Training 3/3 epoch (loss 0.5040):  76%|███████▋  | 12927/16950 [2:22:20<35:36,  1.88it/s]Training 3/3 epoch (loss 0.0906):  76%|███████▋  | 12927/16950 [2:22:21<35:36,  1.88it/s]Training 3/3 epoch (loss 0.0906):  76%|███████▋  | 12928/16950 [2:22:21<37:06,  1.81it/s]Training 3/3 epoch (loss 0.0002):  76%|███████▋  | 12928/16950 [2:22:21<37:06,  1.81it/s]Training 3/3 epoch (loss 0.0002):  76%|███████▋  | 12929/16950 [2:22:21<36:52,  1.82it/s]Training 3/3 epoch (loss 0.4541):  76%|███████▋  | 12929/16950 [2:22:22<36:52,  1.82it/s]Training 3/3 epoch (loss 0.4541):  76%|███████▋  | 12930/16950 [2:22:22<42:49,  1.56it/s]Training 3/3 epoch (loss 0.3731):  76%|███████▋  | 12930/16950 [2:22:23<42:49,  1.56it/s]Training 3/3 epoch (loss 0.3731):  76%|███████▋  | 12931/16950 [2:22:23<49:21,  1.36it/s]Training 3/3 epoch (loss 0.0501):  76%|███████▋  | 12931/16950 [2:22:24<49:21,  1.36it/s]Training 3/3 epoch (loss 0.0501):  76%|███████▋  | 12932/16950 [2:22:24<47:22,  1.41it/s]Training 3/3 epoch (loss 0.6810):  76%|███████▋  | 12932/16950 [2:22:24<47:22,  1.41it/s]Training 3/3 epoch (loss 0.6810):  76%|███████▋  | 12933/16950 [2:22:24<39:40,  1.69it/s]Training 3/3 epoch (loss 0.0222):  76%|███████▋  | 12933/16950 [2:22:24<39:40,  1.69it/s]Training 3/3 epoch (loss 0.0222):  76%|███████▋  | 12934/16950 [2:22:24<38:57,  1.72it/s]Training 3/3 epoch (loss 0.9897):  76%|███████▋  | 12934/16950 [2:22:25<38:57,  1.72it/s]Training 3/3 epoch (loss 0.9897):  76%|███████▋  | 12935/16950 [2:22:25<40:27,  1.65it/s]Training 3/3 epoch (loss 0.0140):  76%|███████▋  | 12935/16950 [2:22:26<40:27,  1.65it/s]Training 3/3 epoch (loss 0.0140):  76%|███████▋  | 12936/16950 [2:22:26<39:03,  1.71it/s]Training 3/3 epoch (loss 0.0238):  76%|███████▋  | 12936/16950 [2:22:26<39:03,  1.71it/s]Training 3/3 epoch (loss 0.0238):  76%|███████▋  | 12937/16950 [2:22:26<43:08,  1.55it/s]Training 3/3 epoch (loss 0.0020):  76%|███████▋  | 12937/16950 [2:22:27<43:08,  1.55it/s]Training 3/3 epoch (loss 0.0020):  76%|███████▋  | 12938/16950 [2:22:27<41:09,  1.62it/s]Training 3/3 epoch (loss 0.0758):  76%|███████▋  | 12938/16950 [2:22:27<41:09,  1.62it/s]Training 3/3 epoch (loss 0.0758):  76%|███████▋  | 12939/16950 [2:22:27<37:23,  1.79it/s]Training 3/3 epoch (loss 0.0014):  76%|███████▋  | 12939/16950 [2:22:28<37:23,  1.79it/s]Training 3/3 epoch (loss 0.0014):  76%|███████▋  | 12940/16950 [2:22:28<35:54,  1.86it/s]Training 3/3 epoch (loss 0.0016):  76%|███████▋  | 12940/16950 [2:22:28<35:54,  1.86it/s]Training 3/3 epoch (loss 0.0016):  76%|███████▋  | 12941/16950 [2:22:28<33:33,  1.99it/s]Training 3/3 epoch (loss 0.2673):  76%|███████▋  | 12941/16950 [2:22:29<33:33,  1.99it/s]Training 3/3 epoch (loss 0.2673):  76%|███████▋  | 12942/16950 [2:22:29<31:55,  2.09it/s]Training 3/3 epoch (loss 0.0000):  76%|███████▋  | 12942/16950 [2:22:29<31:55,  2.09it/s]Training 3/3 epoch (loss 0.0000):  76%|███████▋  | 12943/16950 [2:22:29<30:35,  2.18it/s]Training 3/3 epoch (loss 0.0274):  76%|███████▋  | 12943/16950 [2:22:30<30:35,  2.18it/s]Training 3/3 epoch (loss 0.0274):  76%|███████▋  | 12944/16950 [2:22:30<33:10,  2.01it/s]Training 3/3 epoch (loss 0.0281):  76%|███████▋  | 12944/16950 [2:22:30<33:10,  2.01it/s]Training 3/3 epoch (loss 0.0281):  76%|███████▋  | 12945/16950 [2:22:30<32:44,  2.04it/s]Training 3/3 epoch (loss 0.0323):  76%|███████▋  | 12945/16950 [2:22:31<32:44,  2.04it/s]Training 3/3 epoch (loss 0.0323):  76%|███████▋  | 12946/16950 [2:22:31<36:27,  1.83it/s]Training 3/3 epoch (loss 0.4476):  76%|███████▋  | 12946/16950 [2:22:31<36:27,  1.83it/s]Training 3/3 epoch (loss 0.4476):  76%|███████▋  | 12947/16950 [2:22:31<34:32,  1.93it/s]Training 3/3 epoch (loss 0.0003):  76%|███████▋  | 12947/16950 [2:22:32<34:32,  1.93it/s]Training 3/3 epoch (loss 0.0003):  76%|███████▋  | 12948/16950 [2:22:32<33:55,  1.97it/s]Training 3/3 epoch (loss 0.0095):  76%|███████▋  | 12948/16950 [2:22:32<33:55,  1.97it/s]Training 3/3 epoch (loss 0.0095):  76%|███████▋  | 12949/16950 [2:22:32<33:58,  1.96it/s]Training 3/3 epoch (loss 0.0939):  76%|███████▋  | 12949/16950 [2:22:33<33:58,  1.96it/s]Training 3/3 epoch (loss 0.0939):  76%|███████▋  | 12950/16950 [2:22:33<41:35,  1.60it/s]Training 3/3 epoch (loss 0.2632):  76%|███████▋  | 12950/16950 [2:22:34<41:35,  1.60it/s]Training 3/3 epoch (loss 0.2632):  76%|███████▋  | 12951/16950 [2:22:34<41:49,  1.59it/s]Training 3/3 epoch (loss 0.2592):  76%|███████▋  | 12951/16950 [2:22:34<41:49,  1.59it/s]Training 3/3 epoch (loss 0.2592):  76%|███████▋  | 12952/16950 [2:22:34<37:04,  1.80it/s]Training 3/3 epoch (loss 0.1339):  76%|███████▋  | 12952/16950 [2:22:35<37:04,  1.80it/s]Training 3/3 epoch (loss 0.1339):  76%|███████▋  | 12953/16950 [2:22:35<39:11,  1.70it/s]Training 3/3 epoch (loss 0.0045):  76%|███████▋  | 12953/16950 [2:22:36<39:11,  1.70it/s]Training 3/3 epoch (loss 0.0045):  76%|███████▋  | 12954/16950 [2:22:36<44:36,  1.49it/s]Training 3/3 epoch (loss 0.0063):  76%|███████▋  | 12954/16950 [2:22:37<44:36,  1.49it/s]Training 3/3 epoch (loss 0.0063):  76%|███████▋  | 12955/16950 [2:22:37<47:19,  1.41it/s]Training 3/3 epoch (loss 0.0004):  76%|███████▋  | 12955/16950 [2:22:37<47:19,  1.41it/s]Training 3/3 epoch (loss 0.0004):  76%|███████▋  | 12956/16950 [2:22:37<45:11,  1.47it/s]Training 3/3 epoch (loss 0.2874):  76%|███████▋  | 12956/16950 [2:22:38<45:11,  1.47it/s]Training 3/3 epoch (loss 0.2874):  76%|███████▋  | 12957/16950 [2:22:38<39:54,  1.67it/s]Training 3/3 epoch (loss 0.0066):  76%|███████▋  | 12957/16950 [2:22:38<39:54,  1.67it/s]Training 3/3 epoch (loss 0.0066):  76%|███████▋  | 12958/16950 [2:22:38<35:32,  1.87it/s]Training 3/3 epoch (loss 0.0090):  76%|███████▋  | 12958/16950 [2:22:39<35:32,  1.87it/s]Training 3/3 epoch (loss 0.0090):  76%|███████▋  | 12959/16950 [2:22:39<35:27,  1.88it/s]Training 3/3 epoch (loss 0.1821):  76%|███████▋  | 12959/16950 [2:22:39<35:27,  1.88it/s]Training 3/3 epoch (loss 0.1821):  76%|███████▋  | 12960/16950 [2:22:39<38:29,  1.73it/s]Training 3/3 epoch (loss 0.1200):  76%|███████▋  | 12960/16950 [2:22:40<38:29,  1.73it/s]Training 3/3 epoch (loss 0.1200):  76%|███████▋  | 12961/16950 [2:22:40<38:10,  1.74it/s]Training 3/3 epoch (loss 0.0525):  76%|███████▋  | 12961/16950 [2:22:40<38:10,  1.74it/s]Training 3/3 epoch (loss 0.0525):  76%|███████▋  | 12962/16950 [2:22:40<35:58,  1.85it/s]Training 3/3 epoch (loss 0.1027):  76%|███████▋  | 12962/16950 [2:22:41<35:58,  1.85it/s]Training 3/3 epoch (loss 0.1027):  76%|███████▋  | 12963/16950 [2:22:41<46:37,  1.43it/s]Training 3/3 epoch (loss 0.0238):  76%|███████▋  | 12963/16950 [2:22:42<46:37,  1.43it/s]Training 3/3 epoch (loss 0.0238):  76%|███████▋  | 12964/16950 [2:22:42<44:06,  1.51it/s]Training 3/3 epoch (loss 0.0004):  76%|███████▋  | 12964/16950 [2:22:42<44:06,  1.51it/s]Training 3/3 epoch (loss 0.0004):  76%|███████▋  | 12965/16950 [2:22:42<39:40,  1.67it/s]Training 3/3 epoch (loss 0.0897):  76%|███████▋  | 12965/16950 [2:22:43<39:40,  1.67it/s]Training 3/3 epoch (loss 0.0897):  76%|███████▋  | 12966/16950 [2:22:43<40:07,  1.65it/s]Training 3/3 epoch (loss 0.0310):  76%|███████▋  | 12966/16950 [2:22:44<40:07,  1.65it/s]Training 3/3 epoch (loss 0.0310):  77%|███████▋  | 12967/16950 [2:22:44<45:51,  1.45it/s]Training 3/3 epoch (loss 0.1915):  77%|███████▋  | 12967/16950 [2:22:45<45:51,  1.45it/s]Training 3/3 epoch (loss 0.1915):  77%|███████▋  | 12968/16950 [2:22:45<47:53,  1.39it/s]Training 3/3 epoch (loss 0.0006):  77%|███████▋  | 12968/16950 [2:22:45<47:53,  1.39it/s]Training 3/3 epoch (loss 0.0006):  77%|███████▋  | 12969/16950 [2:22:45<47:48,  1.39it/s]Training 3/3 epoch (loss 0.1771):  77%|███████▋  | 12969/16950 [2:22:46<47:48,  1.39it/s]Training 3/3 epoch (loss 0.1771):  77%|███████▋  | 12970/16950 [2:22:46<47:38,  1.39it/s]Training 3/3 epoch (loss 0.0006):  77%|███████▋  | 12970/16950 [2:22:47<47:38,  1.39it/s]Training 3/3 epoch (loss 0.0006):  77%|███████▋  | 12971/16950 [2:22:47<44:45,  1.48it/s]Training 3/3 epoch (loss 0.0023):  77%|███████▋  | 12971/16950 [2:22:47<44:45,  1.48it/s]Training 3/3 epoch (loss 0.0023):  77%|███████▋  | 12972/16950 [2:22:47<43:45,  1.52it/s]Training 3/3 epoch (loss 0.0670):  77%|███████▋  | 12972/16950 [2:22:48<43:45,  1.52it/s]Training 3/3 epoch (loss 0.0670):  77%|███████▋  | 12973/16950 [2:22:48<39:36,  1.67it/s]Training 3/3 epoch (loss 0.0022):  77%|███████▋  | 12973/16950 [2:22:48<39:36,  1.67it/s]Training 3/3 epoch (loss 0.0022):  77%|███████▋  | 12974/16950 [2:22:48<35:39,  1.86it/s]Training 3/3 epoch (loss 0.0020):  77%|███████▋  | 12974/16950 [2:22:49<35:39,  1.86it/s]Training 3/3 epoch (loss 0.0020):  77%|███████▋  | 12975/16950 [2:22:49<35:04,  1.89it/s]Training 3/3 epoch (loss 0.0448):  77%|███████▋  | 12975/16950 [2:22:49<35:04,  1.89it/s]Training 3/3 epoch (loss 0.0448):  77%|███████▋  | 12976/16950 [2:22:49<33:32,  1.97it/s]Training 3/3 epoch (loss 0.0029):  77%|███████▋  | 12976/16950 [2:22:49<33:32,  1.97it/s]Training 3/3 epoch (loss 0.0029):  77%|███████▋  | 12977/16950 [2:22:49<31:26,  2.11it/s]Training 3/3 epoch (loss 0.1781):  77%|███████▋  | 12977/16950 [2:22:50<31:26,  2.11it/s]Training 3/3 epoch (loss 0.1781):  77%|███████▋  | 12978/16950 [2:22:50<31:49,  2.08it/s]Training 3/3 epoch (loss 0.2431):  77%|███████▋  | 12978/16950 [2:22:50<31:49,  2.08it/s]Training 3/3 epoch (loss 0.2431):  77%|███████▋  | 12979/16950 [2:22:50<29:18,  2.26it/s]Training 3/3 epoch (loss 0.6293):  77%|███████▋  | 12979/16950 [2:22:51<29:18,  2.26it/s]Training 3/3 epoch (loss 0.6293):  77%|███████▋  | 12980/16950 [2:22:51<30:04,  2.20it/s]Training 3/3 epoch (loss 0.3752):  77%|███████▋  | 12980/16950 [2:22:52<30:04,  2.20it/s]Training 3/3 epoch (loss 0.3752):  77%|███████▋  | 12981/16950 [2:22:52<39:28,  1.68it/s]Training 3/3 epoch (loss 0.0047):  77%|███████▋  | 12981/16950 [2:22:52<39:28,  1.68it/s]Training 3/3 epoch (loss 0.0047):  77%|███████▋  | 12982/16950 [2:22:52<39:51,  1.66it/s]Training 3/3 epoch (loss 0.0180):  77%|███████▋  | 12982/16950 [2:22:53<39:51,  1.66it/s]Training 3/3 epoch (loss 0.0180):  77%|███████▋  | 12983/16950 [2:22:53<38:34,  1.71it/s]Training 3/3 epoch (loss 0.0188):  77%|███████▋  | 12983/16950 [2:22:53<38:34,  1.71it/s]Training 3/3 epoch (loss 0.0188):  77%|███████▋  | 12984/16950 [2:22:53<34:50,  1.90it/s]Training 3/3 epoch (loss 0.0310):  77%|███████▋  | 12984/16950 [2:22:54<34:50,  1.90it/s]Training 3/3 epoch (loss 0.0310):  77%|███████▋  | 12985/16950 [2:22:54<36:16,  1.82it/s]Training 3/3 epoch (loss 0.0083):  77%|███████▋  | 12985/16950 [2:22:54<36:16,  1.82it/s]Training 3/3 epoch (loss 0.0083):  77%|███████▋  | 12986/16950 [2:22:54<34:54,  1.89it/s]Training 3/3 epoch (loss 0.0018):  77%|███████▋  | 12986/16950 [2:22:55<34:54,  1.89it/s]Training 3/3 epoch (loss 0.0018):  77%|███████▋  | 12987/16950 [2:22:55<38:29,  1.72it/s]Training 3/3 epoch (loss 0.0065):  77%|███████▋  | 12987/16950 [2:22:56<38:29,  1.72it/s]Training 3/3 epoch (loss 0.0065):  77%|███████▋  | 12988/16950 [2:22:56<39:04,  1.69it/s]Training 3/3 epoch (loss 0.0084):  77%|███████▋  | 12988/16950 [2:22:56<39:04,  1.69it/s]Training 3/3 epoch (loss 0.0084):  77%|███████▋  | 12989/16950 [2:22:56<41:28,  1.59it/s]Training 3/3 epoch (loss 0.0033):  77%|███████▋  | 12989/16950 [2:22:57<41:28,  1.59it/s]Training 3/3 epoch (loss 0.0033):  77%|███████▋  | 12990/16950 [2:22:57<46:13,  1.43it/s]Training 3/3 epoch (loss 0.0048):  77%|███████▋  | 12990/16950 [2:22:58<46:13,  1.43it/s]Training 3/3 epoch (loss 0.0048):  77%|███████▋  | 12991/16950 [2:22:58<44:20,  1.49it/s]Training 3/3 epoch (loss 0.2654):  77%|███████▋  | 12991/16950 [2:22:59<44:20,  1.49it/s]Training 3/3 epoch (loss 0.2654):  77%|███████▋  | 12992/16950 [2:22:59<44:03,  1.50it/s]Training 3/3 epoch (loss 0.3277):  77%|███████▋  | 12992/16950 [2:22:59<44:03,  1.50it/s]Training 3/3 epoch (loss 0.3277):  77%|███████▋  | 12993/16950 [2:22:59<37:58,  1.74it/s]Training 3/3 epoch (loss 0.0293):  77%|███████▋  | 12993/16950 [2:23:00<37:58,  1.74it/s]Training 3/3 epoch (loss 0.0293):  77%|███████▋  | 12994/16950 [2:23:00<41:29,  1.59it/s]Training 3/3 epoch (loss 0.4184):  77%|███████▋  | 12994/16950 [2:23:00<41:29,  1.59it/s]Training 3/3 epoch (loss 0.4184):  77%|███████▋  | 12995/16950 [2:23:00<38:29,  1.71it/s]Training 3/3 epoch (loss 0.1629):  77%|███████▋  | 12995/16950 [2:23:01<38:29,  1.71it/s]Training 3/3 epoch (loss 0.1629):  77%|███████▋  | 12996/16950 [2:23:01<34:42,  1.90it/s]Training 3/3 epoch (loss 0.5274):  77%|███████▋  | 12996/16950 [2:23:02<34:42,  1.90it/s]Training 3/3 epoch (loss 0.5274):  77%|███████▋  | 12997/16950 [2:23:02<47:02,  1.40it/s]Training 3/3 epoch (loss 0.4148):  77%|███████▋  | 12997/16950 [2:23:03<47:02,  1.40it/s]Training 3/3 epoch (loss 0.4148):  77%|███████▋  | 12998/16950 [2:23:03<55:20,  1.19it/s]Training 3/3 epoch (loss 0.0107):  77%|███████▋  | 12998/16950 [2:23:04<55:20,  1.19it/s]Training 3/3 epoch (loss 0.0107):  77%|███████▋  | 12999/16950 [2:23:04<52:27,  1.26it/s]Training 3/3 epoch (loss 0.0575):  77%|███████▋  | 12999/16950 [2:23:04<52:27,  1.26it/s]Training 3/3 epoch (loss 0.0575):  77%|███████▋  | 13000/16950 [2:23:04<49:50,  1.32it/s]Training 3/3 epoch (loss 0.0015):  77%|███████▋  | 13000/16950 [2:23:05<49:50,  1.32it/s]Training 3/3 epoch (loss 0.0015):  77%|███████▋  | 13001/16950 [2:23:05<45:51,  1.43it/s]Training 3/3 epoch (loss 0.0000):  77%|███████▋  | 13001/16950 [2:23:05<45:51,  1.43it/s]Training 3/3 epoch (loss 0.0000):  77%|███████▋  | 13002/16950 [2:23:05<39:11,  1.68it/s]Training 3/3 epoch (loss 0.4988):  77%|███████▋  | 13002/16950 [2:23:06<39:11,  1.68it/s]Training 3/3 epoch (loss 0.4988):  77%|███████▋  | 13003/16950 [2:23:06<39:23,  1.67it/s]Training 3/3 epoch (loss 0.4056):  77%|███████▋  | 13003/16950 [2:23:06<39:23,  1.67it/s]Training 3/3 epoch (loss 0.4056):  77%|███████▋  | 13004/16950 [2:23:06<39:42,  1.66it/s]Training 3/3 epoch (loss 0.1995):  77%|███████▋  | 13004/16950 [2:23:07<39:42,  1.66it/s]Training 3/3 epoch (loss 0.1995):  77%|███████▋  | 13005/16950 [2:23:07<35:05,  1.87it/s]Training 3/3 epoch (loss 0.0051):  77%|███████▋  | 13005/16950 [2:23:07<35:05,  1.87it/s]Training 3/3 epoch (loss 0.0051):  77%|███████▋  | 13006/16950 [2:23:07<39:18,  1.67it/s]Training 3/3 epoch (loss 0.0041):  77%|███████▋  | 13006/16950 [2:23:08<39:18,  1.67it/s]Training 3/3 epoch (loss 0.0041):  77%|███████▋  | 13007/16950 [2:23:08<37:18,  1.76it/s]Training 3/3 epoch (loss 0.6577):  77%|███████▋  | 13007/16950 [2:23:08<37:18,  1.76it/s]Training 3/3 epoch (loss 0.6577):  77%|███████▋  | 13008/16950 [2:23:08<37:09,  1.77it/s]Training 3/3 epoch (loss 0.0231):  77%|███████▋  | 13008/16950 [2:23:09<37:09,  1.77it/s]Training 3/3 epoch (loss 0.0231):  77%|███████▋  | 13009/16950 [2:23:09<38:32,  1.70it/s]Training 3/3 epoch (loss 0.0725):  77%|███████▋  | 13009/16950 [2:23:10<38:32,  1.70it/s]Training 3/3 epoch (loss 0.0725):  77%|███████▋  | 13010/16950 [2:23:10<39:53,  1.65it/s]Training 3/3 epoch (loss 0.3671):  77%|███████▋  | 13010/16950 [2:23:10<39:53,  1.65it/s]Training 3/3 epoch (loss 0.3671):  77%|███████▋  | 13011/16950 [2:23:10<34:18,  1.91it/s]Training 3/3 epoch (loss 0.0067):  77%|███████▋  | 13011/16950 [2:23:11<34:18,  1.91it/s]Training 3/3 epoch (loss 0.0067):  77%|███████▋  | 13012/16950 [2:23:11<32:58,  1.99it/s]Training 3/3 epoch (loss 0.0018):  77%|███████▋  | 13012/16950 [2:23:11<32:58,  1.99it/s]Training 3/3 epoch (loss 0.0018):  77%|███████▋  | 13013/16950 [2:23:11<30:57,  2.12it/s]Training 3/3 epoch (loss 0.0192):  77%|███████▋  | 13013/16950 [2:23:12<30:57,  2.12it/s]Training 3/3 epoch (loss 0.0192):  77%|███████▋  | 13014/16950 [2:23:12<33:16,  1.97it/s]Training 3/3 epoch (loss 0.0509):  77%|███████▋  | 13014/16950 [2:23:12<33:16,  1.97it/s]Training 3/3 epoch (loss 0.0509):  77%|███████▋  | 13015/16950 [2:23:12<37:25,  1.75it/s]Training 3/3 epoch (loss 0.0447):  77%|███████▋  | 13015/16950 [2:23:13<37:25,  1.75it/s]Training 3/3 epoch (loss 0.0447):  77%|███████▋  | 13016/16950 [2:23:13<37:11,  1.76it/s]Training 3/3 epoch (loss 0.0000):  77%|███████▋  | 13016/16950 [2:23:13<37:11,  1.76it/s]Training 3/3 epoch (loss 0.0000):  77%|███████▋  | 13017/16950 [2:23:13<32:01,  2.05it/s]Training 3/3 epoch (loss 0.2511):  77%|███████▋  | 13017/16950 [2:23:14<32:01,  2.05it/s]Training 3/3 epoch (loss 0.2511):  77%|███████▋  | 13018/16950 [2:23:14<32:27,  2.02it/s]Training 3/3 epoch (loss 0.1251):  77%|███████▋  | 13018/16950 [2:23:14<32:27,  2.02it/s]Training 3/3 epoch (loss 0.1251):  77%|███████▋  | 13019/16950 [2:23:14<36:24,  1.80it/s]Training 3/3 epoch (loss 0.0198):  77%|███████▋  | 13019/16950 [2:23:15<36:24,  1.80it/s]Training 3/3 epoch (loss 0.0198):  77%|███████▋  | 13020/16950 [2:23:15<37:41,  1.74it/s]Training 3/3 epoch (loss 0.0084):  77%|███████▋  | 13020/16950 [2:23:16<37:41,  1.74it/s]Training 3/3 epoch (loss 0.0084):  77%|███████▋  | 13021/16950 [2:23:16<37:03,  1.77it/s]Training 3/3 epoch (loss 0.4525):  77%|███████▋  | 13021/16950 [2:23:16<37:03,  1.77it/s]Training 3/3 epoch (loss 0.4525):  77%|███████▋  | 13022/16950 [2:23:16<33:33,  1.95it/s]Training 3/3 epoch (loss 0.0105):  77%|███████▋  | 13022/16950 [2:23:16<33:33,  1.95it/s]Training 3/3 epoch (loss 0.0105):  77%|███████▋  | 13023/16950 [2:23:16<33:21,  1.96it/s]Training 3/3 epoch (loss 0.0025):  77%|███████▋  | 13023/16950 [2:23:17<33:21,  1.96it/s]Training 3/3 epoch (loss 0.0025):  77%|███████▋  | 13024/16950 [2:23:17<33:28,  1.95it/s]Training 3/3 epoch (loss 0.0064):  77%|███████▋  | 13024/16950 [2:23:18<33:28,  1.95it/s]Training 3/3 epoch (loss 0.0064):  77%|███████▋  | 13025/16950 [2:23:18<35:38,  1.84it/s]Training 3/3 epoch (loss 0.0009):  77%|███████▋  | 13025/16950 [2:23:18<35:38,  1.84it/s]Training 3/3 epoch (loss 0.0009):  77%|███████▋  | 13026/16950 [2:23:18<33:51,  1.93it/s]Training 3/3 epoch (loss 0.0080):  77%|███████▋  | 13026/16950 [2:23:19<33:51,  1.93it/s]Training 3/3 epoch (loss 0.0080):  77%|███████▋  | 13027/16950 [2:23:19<35:56,  1.82it/s]Training 3/3 epoch (loss 0.0150):  77%|███████▋  | 13027/16950 [2:23:19<35:56,  1.82it/s]Training 3/3 epoch (loss 0.0150):  77%|███████▋  | 13028/16950 [2:23:19<35:38,  1.83it/s]Training 3/3 epoch (loss 0.0005):  77%|███████▋  | 13028/16950 [2:23:20<35:38,  1.83it/s]Training 3/3 epoch (loss 0.0005):  77%|███████▋  | 13029/16950 [2:23:20<34:08,  1.91it/s]Training 3/3 epoch (loss 0.3113):  77%|███████▋  | 13029/16950 [2:23:20<34:08,  1.91it/s]Training 3/3 epoch (loss 0.3113):  77%|███████▋  | 13030/16950 [2:23:20<36:58,  1.77it/s]Training 3/3 epoch (loss 0.0011):  77%|███████▋  | 13030/16950 [2:23:21<36:58,  1.77it/s]Training 3/3 epoch (loss 0.0011):  77%|███████▋  | 13031/16950 [2:23:21<36:56,  1.77it/s]Training 3/3 epoch (loss 0.0037):  77%|███████▋  | 13031/16950 [2:23:21<36:56,  1.77it/s]Training 3/3 epoch (loss 0.0037):  77%|███████▋  | 13032/16950 [2:23:21<36:22,  1.80it/s]Training 3/3 epoch (loss 0.0000):  77%|███████▋  | 13032/16950 [2:23:22<36:22,  1.80it/s]Training 3/3 epoch (loss 0.0000):  77%|███████▋  | 13033/16950 [2:23:22<33:17,  1.96it/s]Training 3/3 epoch (loss 0.0003):  77%|███████▋  | 13033/16950 [2:23:22<33:17,  1.96it/s]Training 3/3 epoch (loss 0.0003):  77%|███████▋  | 13034/16950 [2:23:22<35:06,  1.86it/s]Training 3/3 epoch (loss 0.6088):  77%|███████▋  | 13034/16950 [2:23:23<35:06,  1.86it/s]Training 3/3 epoch (loss 0.6088):  77%|███████▋  | 13035/16950 [2:23:23<33:21,  1.96it/s]Training 3/3 epoch (loss 0.0275):  77%|███████▋  | 13035/16950 [2:23:23<33:21,  1.96it/s]Training 3/3 epoch (loss 0.0275):  77%|███████▋  | 13036/16950 [2:23:23<32:33,  2.00it/s]Training 3/3 epoch (loss 0.0029):  77%|███████▋  | 13036/16950 [2:23:24<32:33,  2.00it/s]Training 3/3 epoch (loss 0.0029):  77%|███████▋  | 13037/16950 [2:23:24<32:09,  2.03it/s]Training 3/3 epoch (loss 0.2515):  77%|███████▋  | 13037/16950 [2:23:24<32:09,  2.03it/s]Training 3/3 epoch (loss 0.2515):  77%|███████▋  | 13038/16950 [2:23:24<31:42,  2.06it/s]Training 3/3 epoch (loss 0.2430):  77%|███████▋  | 13038/16950 [2:23:25<31:42,  2.06it/s]Training 3/3 epoch (loss 0.2430):  77%|███████▋  | 13039/16950 [2:23:25<36:10,  1.80it/s]Training 3/3 epoch (loss 0.2765):  77%|███████▋  | 13039/16950 [2:23:25<36:10,  1.80it/s]Training 3/3 epoch (loss 0.2765):  77%|███████▋  | 13040/16950 [2:23:25<32:20,  2.01it/s]Training 3/3 epoch (loss 0.1245):  77%|███████▋  | 13040/16950 [2:23:26<32:20,  2.01it/s]Training 3/3 epoch (loss 0.1245):  77%|███████▋  | 13041/16950 [2:23:26<31:40,  2.06it/s]Training 3/3 epoch (loss 0.1810):  77%|███████▋  | 13041/16950 [2:23:27<31:40,  2.06it/s]Training 3/3 epoch (loss 0.1810):  77%|███████▋  | 13042/16950 [2:23:27<43:10,  1.51it/s]Training 3/3 epoch (loss 0.0002):  77%|███████▋  | 13042/16950 [2:23:27<43:10,  1.51it/s]Training 3/3 epoch (loss 0.0002):  77%|███████▋  | 13043/16950 [2:23:27<41:11,  1.58it/s]Training 3/3 epoch (loss 0.7688):  77%|███████▋  | 13043/16950 [2:23:28<41:11,  1.58it/s]Training 3/3 epoch (loss 0.7688):  77%|███████▋  | 13044/16950 [2:23:28<36:37,  1.78it/s]Training 3/3 epoch (loss 0.0002):  77%|███████▋  | 13044/16950 [2:23:28<36:37,  1.78it/s]Training 3/3 epoch (loss 0.0002):  77%|███████▋  | 13045/16950 [2:23:28<34:13,  1.90it/s]Training 3/3 epoch (loss 0.0361):  77%|███████▋  | 13045/16950 [2:23:29<34:13,  1.90it/s]Training 3/3 epoch (loss 0.0361):  77%|███████▋  | 13046/16950 [2:23:29<36:09,  1.80it/s]Training 3/3 epoch (loss 0.0332):  77%|███████▋  | 13046/16950 [2:23:30<36:09,  1.80it/s]Training 3/3 epoch (loss 0.0332):  77%|███████▋  | 13047/16950 [2:23:30<38:56,  1.67it/s]Training 3/3 epoch (loss 0.4827):  77%|███████▋  | 13047/16950 [2:23:30<38:56,  1.67it/s]Training 3/3 epoch (loss 0.4827):  77%|███████▋  | 13048/16950 [2:23:30<35:51,  1.81it/s]Training 3/3 epoch (loss 0.0002):  77%|███████▋  | 13048/16950 [2:23:30<35:51,  1.81it/s]Training 3/3 epoch (loss 0.0002):  77%|███████▋  | 13049/16950 [2:23:30<33:51,  1.92it/s]Training 3/3 epoch (loss 0.0007):  77%|███████▋  | 13049/16950 [2:23:31<33:51,  1.92it/s]Training 3/3 epoch (loss 0.0007):  77%|███████▋  | 13050/16950 [2:23:31<31:38,  2.05it/s]Training 3/3 epoch (loss 0.0374):  77%|███████▋  | 13050/16950 [2:23:31<31:38,  2.05it/s]Training 3/3 epoch (loss 0.0374):  77%|███████▋  | 13051/16950 [2:23:31<30:21,  2.14it/s]Training 3/3 epoch (loss 0.0431):  77%|███████▋  | 13051/16950 [2:23:32<30:21,  2.14it/s]Training 3/3 epoch (loss 0.0431):  77%|███████▋  | 13052/16950 [2:23:32<36:30,  1.78it/s]Training 3/3 epoch (loss 0.0010):  77%|███████▋  | 13052/16950 [2:23:33<36:30,  1.78it/s]Training 3/3 epoch (loss 0.0010):  77%|███████▋  | 13053/16950 [2:23:33<34:51,  1.86it/s]Training 3/3 epoch (loss 0.0313):  77%|███████▋  | 13053/16950 [2:23:33<34:51,  1.86it/s]Training 3/3 epoch (loss 0.0313):  77%|███████▋  | 13054/16950 [2:23:33<31:23,  2.07it/s]Training 3/3 epoch (loss 0.0004):  77%|███████▋  | 13054/16950 [2:23:33<31:23,  2.07it/s]Training 3/3 epoch (loss 0.0004):  77%|███████▋  | 13055/16950 [2:23:33<32:14,  2.01it/s]Training 3/3 epoch (loss 0.0287):  77%|███████▋  | 13055/16950 [2:23:34<32:14,  2.01it/s]Training 3/3 epoch (loss 0.0287):  77%|███████▋  | 13056/16950 [2:23:34<37:09,  1.75it/s]Training 3/3 epoch (loss 0.0253):  77%|███████▋  | 13056/16950 [2:23:35<37:09,  1.75it/s]Training 3/3 epoch (loss 0.0253):  77%|███████▋  | 13057/16950 [2:23:35<37:18,  1.74it/s]Training 3/3 epoch (loss 0.6282):  77%|███████▋  | 13057/16950 [2:23:36<37:18,  1.74it/s]Training 3/3 epoch (loss 0.6282):  77%|███████▋  | 13058/16950 [2:23:36<48:11,  1.35it/s]Training 3/3 epoch (loss 0.3731):  77%|███████▋  | 13058/16950 [2:23:36<48:11,  1.35it/s]Training 3/3 epoch (loss 0.3731):  77%|███████▋  | 13059/16950 [2:23:36<40:33,  1.60it/s]Training 3/3 epoch (loss 0.0732):  77%|███████▋  | 13059/16950 [2:23:37<40:33,  1.60it/s]Training 3/3 epoch (loss 0.0732):  77%|███████▋  | 13060/16950 [2:23:37<41:53,  1.55it/s]Training 3/3 epoch (loss 0.2919):  77%|███████▋  | 13060/16950 [2:23:38<41:53,  1.55it/s]Training 3/3 epoch (loss 0.2919):  77%|███████▋  | 13061/16950 [2:23:38<40:08,  1.61it/s]Training 3/3 epoch (loss 0.2713):  77%|███████▋  | 13061/16950 [2:23:38<40:08,  1.61it/s]Training 3/3 epoch (loss 0.2713):  77%|███████▋  | 13062/16950 [2:23:38<38:53,  1.67it/s]Training 3/3 epoch (loss 0.0112):  77%|███████▋  | 13062/16950 [2:23:39<38:53,  1.67it/s]Training 3/3 epoch (loss 0.0112):  77%|███████▋  | 13063/16950 [2:23:39<38:22,  1.69it/s]Training 3/3 epoch (loss 0.1771):  77%|███████▋  | 13063/16950 [2:23:39<38:22,  1.69it/s]Training 3/3 epoch (loss 0.1771):  77%|███████▋  | 13064/16950 [2:23:39<39:30,  1.64it/s]Training 3/3 epoch (loss 0.4668):  77%|███████▋  | 13064/16950 [2:23:40<39:30,  1.64it/s]Training 3/3 epoch (loss 0.4668):  77%|███████▋  | 13065/16950 [2:23:40<38:01,  1.70it/s]Training 3/3 epoch (loss 0.0765):  77%|███████▋  | 13065/16950 [2:23:40<38:01,  1.70it/s]Training 3/3 epoch (loss 0.0765):  77%|███████▋  | 13066/16950 [2:23:40<35:31,  1.82it/s]Training 3/3 epoch (loss 0.0112):  77%|███████▋  | 13066/16950 [2:23:41<35:31,  1.82it/s]Training 3/3 epoch (loss 0.0112):  77%|███████▋  | 13067/16950 [2:23:41<36:53,  1.75it/s]Training 3/3 epoch (loss 0.0586):  77%|███████▋  | 13067/16950 [2:23:42<36:53,  1.75it/s]Training 3/3 epoch (loss 0.0586):  77%|███████▋  | 13068/16950 [2:23:42<38:58,  1.66it/s]Training 3/3 epoch (loss 0.0149):  77%|███████▋  | 13068/16950 [2:23:42<38:58,  1.66it/s]Training 3/3 epoch (loss 0.0149):  77%|███████▋  | 13069/16950 [2:23:42<35:38,  1.81it/s]Training 3/3 epoch (loss 0.5202):  77%|███████▋  | 13069/16950 [2:23:43<35:38,  1.81it/s]Training 3/3 epoch (loss 0.5202):  77%|███████▋  | 13070/16950 [2:23:43<36:18,  1.78it/s]Training 3/3 epoch (loss 0.2271):  77%|███████▋  | 13070/16950 [2:23:43<36:18,  1.78it/s]Training 3/3 epoch (loss 0.2271):  77%|███████▋  | 13071/16950 [2:23:43<34:31,  1.87it/s]Training 3/3 epoch (loss 0.0006):  77%|███████▋  | 13071/16950 [2:23:44<34:31,  1.87it/s]Training 3/3 epoch (loss 0.0006):  77%|███████▋  | 13072/16950 [2:23:44<33:55,  1.91it/s]Training 3/3 epoch (loss 0.0076):  77%|███████▋  | 13072/16950 [2:23:44<33:55,  1.91it/s]Training 3/3 epoch (loss 0.0076):  77%|███████▋  | 13073/16950 [2:23:44<36:38,  1.76it/s]Training 3/3 epoch (loss 0.2021):  77%|███████▋  | 13073/16950 [2:23:45<36:38,  1.76it/s]Training 3/3 epoch (loss 0.2021):  77%|███████▋  | 13074/16950 [2:23:45<39:41,  1.63it/s]Training 3/3 epoch (loss 0.6740):  77%|███████▋  | 13074/16950 [2:23:46<39:41,  1.63it/s]Training 3/3 epoch (loss 0.6740):  77%|███████▋  | 13075/16950 [2:23:46<48:20,  1.34it/s]Training 3/3 epoch (loss 0.0023):  77%|███████▋  | 13075/16950 [2:23:47<48:20,  1.34it/s]Training 3/3 epoch (loss 0.0023):  77%|███████▋  | 13076/16950 [2:23:47<47:21,  1.36it/s]Training 3/3 epoch (loss 0.7724):  77%|███████▋  | 13076/16950 [2:23:47<47:21,  1.36it/s]Training 3/3 epoch (loss 0.7724):  77%|███████▋  | 13077/16950 [2:23:47<39:56,  1.62it/s]Training 3/3 epoch (loss 0.1914):  77%|███████▋  | 13077/16950 [2:23:48<39:56,  1.62it/s]Training 3/3 epoch (loss 0.1914):  77%|███████▋  | 13078/16950 [2:23:48<36:41,  1.76it/s]Training 3/3 epoch (loss 0.0662):  77%|███████▋  | 13078/16950 [2:23:48<36:41,  1.76it/s]Training 3/3 epoch (loss 0.0662):  77%|███████▋  | 13079/16950 [2:23:48<37:44,  1.71it/s]Training 3/3 epoch (loss 0.0017):  77%|███████▋  | 13079/16950 [2:23:49<37:44,  1.71it/s]Training 3/3 epoch (loss 0.0017):  77%|███████▋  | 13080/16950 [2:23:49<35:47,  1.80it/s]Training 3/3 epoch (loss 0.0005):  77%|███████▋  | 13080/16950 [2:23:49<35:47,  1.80it/s]Training 3/3 epoch (loss 0.0005):  77%|███████▋  | 13081/16950 [2:23:49<37:21,  1.73it/s]Training 3/3 epoch (loss 0.0962):  77%|███████▋  | 13081/16950 [2:23:50<37:21,  1.73it/s]Training 3/3 epoch (loss 0.0962):  77%|███████▋  | 13082/16950 [2:23:50<39:12,  1.64it/s]Training 3/3 epoch (loss 0.2283):  77%|███████▋  | 13082/16950 [2:23:51<39:12,  1.64it/s]Training 3/3 epoch (loss 0.2283):  77%|███████▋  | 13083/16950 [2:23:51<49:34,  1.30it/s]Training 3/3 epoch (loss 0.0251):  77%|███████▋  | 13083/16950 [2:23:52<49:34,  1.30it/s]Training 3/3 epoch (loss 0.0251):  77%|███████▋  | 13084/16950 [2:23:52<45:39,  1.41it/s]Training 3/3 epoch (loss 0.5015):  77%|███████▋  | 13084/16950 [2:23:52<45:39,  1.41it/s]Training 3/3 epoch (loss 0.5015):  77%|███████▋  | 13085/16950 [2:23:52<47:33,  1.35it/s]Training 3/3 epoch (loss 0.4670):  77%|███████▋  | 13085/16950 [2:23:53<47:33,  1.35it/s]Training 3/3 epoch (loss 0.4670):  77%|███████▋  | 13086/16950 [2:23:53<51:34,  1.25it/s]Training 3/3 epoch (loss 0.0767):  77%|███████▋  | 13086/16950 [2:23:54<51:34,  1.25it/s]Training 3/3 epoch (loss 0.0767):  77%|███████▋  | 13087/16950 [2:23:54<47:37,  1.35it/s]Training 3/3 epoch (loss 0.0375):  77%|███████▋  | 13087/16950 [2:23:54<47:37,  1.35it/s]Training 3/3 epoch (loss 0.0375):  77%|███████▋  | 13088/16950 [2:23:54<41:23,  1.56it/s]Training 3/3 epoch (loss 0.0041):  77%|███████▋  | 13088/16950 [2:23:55<41:23,  1.56it/s]Training 3/3 epoch (loss 0.0041):  77%|███████▋  | 13089/16950 [2:23:55<41:39,  1.54it/s]Training 3/3 epoch (loss 0.0058):  77%|███████▋  | 13089/16950 [2:23:56<41:39,  1.54it/s]Training 3/3 epoch (loss 0.0058):  77%|███████▋  | 13090/16950 [2:23:56<46:11,  1.39it/s]Training 3/3 epoch (loss 0.0235):  77%|███████▋  | 13090/16950 [2:23:57<46:11,  1.39it/s]Training 3/3 epoch (loss 0.0235):  77%|███████▋  | 13091/16950 [2:23:57<43:15,  1.49it/s]Training 3/3 epoch (loss 0.3420):  77%|███████▋  | 13091/16950 [2:23:57<43:15,  1.49it/s]Training 3/3 epoch (loss 0.3420):  77%|███████▋  | 13092/16950 [2:23:57<36:21,  1.77it/s]Training 3/3 epoch (loss 0.4909):  77%|███████▋  | 13092/16950 [2:23:57<36:21,  1.77it/s]Training 3/3 epoch (loss 0.4909):  77%|███████▋  | 13093/16950 [2:23:57<37:22,  1.72it/s]Training 3/3 epoch (loss 0.0024):  77%|███████▋  | 13093/16950 [2:23:58<37:22,  1.72it/s]Training 3/3 epoch (loss 0.0024):  77%|███████▋  | 13094/16950 [2:23:58<36:31,  1.76it/s]Training 3/3 epoch (loss 0.0716):  77%|███████▋  | 13094/16950 [2:23:58<36:31,  1.76it/s]Training 3/3 epoch (loss 0.0716):  77%|███████▋  | 13095/16950 [2:23:58<33:59,  1.89it/s]Training 3/3 epoch (loss 0.2308):  77%|███████▋  | 13095/16950 [2:23:59<33:59,  1.89it/s]Training 3/3 epoch (loss 0.2308):  77%|███████▋  | 13096/16950 [2:23:59<38:47,  1.66it/s]Training 3/3 epoch (loss 0.0130):  77%|███████▋  | 13096/16950 [2:24:00<38:47,  1.66it/s]Training 3/3 epoch (loss 0.0130):  77%|███████▋  | 13097/16950 [2:24:00<37:50,  1.70it/s]Training 3/3 epoch (loss 0.0581):  77%|███████▋  | 13097/16950 [2:24:00<37:50,  1.70it/s]Training 3/3 epoch (loss 0.0581):  77%|███████▋  | 13098/16950 [2:24:00<39:44,  1.62it/s]Training 3/3 epoch (loss 0.2847):  77%|███████▋  | 13098/16950 [2:24:01<39:44,  1.62it/s]Training 3/3 epoch (loss 0.2847):  77%|███████▋  | 13099/16950 [2:24:01<39:24,  1.63it/s]Training 3/3 epoch (loss 0.0033):  77%|███████▋  | 13099/16950 [2:24:02<39:24,  1.63it/s]Training 3/3 epoch (loss 0.0033):  77%|███████▋  | 13100/16950 [2:24:02<38:15,  1.68it/s]Training 3/3 epoch (loss 0.0004):  77%|███████▋  | 13100/16950 [2:24:02<38:15,  1.68it/s]Training 3/3 epoch (loss 0.0004):  77%|███████▋  | 13101/16950 [2:24:02<36:20,  1.77it/s]Training 3/3 epoch (loss 0.2723):  77%|███████▋  | 13101/16950 [2:24:03<36:20,  1.77it/s]Training 3/3 epoch (loss 0.2723):  77%|███████▋  | 13102/16950 [2:24:03<39:05,  1.64it/s]Training 3/3 epoch (loss 0.8272):  77%|███████▋  | 13102/16950 [2:24:04<39:05,  1.64it/s]Training 3/3 epoch (loss 0.8272):  77%|███████▋  | 13103/16950 [2:24:04<46:20,  1.38it/s]Training 3/3 epoch (loss 0.4741):  77%|███████▋  | 13103/16950 [2:24:04<46:20,  1.38it/s]Training 3/3 epoch (loss 0.4741):  77%|███████▋  | 13104/16950 [2:24:04<44:35,  1.44it/s]Training 3/3 epoch (loss 0.5161):  77%|███████▋  | 13104/16950 [2:24:05<44:35,  1.44it/s]Training 3/3 epoch (loss 0.5161):  77%|███████▋  | 13105/16950 [2:24:05<41:46,  1.53it/s]Training 3/3 epoch (loss 0.2815):  77%|███████▋  | 13105/16950 [2:24:06<41:46,  1.53it/s]Training 3/3 epoch (loss 0.2815):  77%|███████▋  | 13106/16950 [2:24:06<43:18,  1.48it/s]Training 3/3 epoch (loss 0.2795):  77%|███████▋  | 13106/16950 [2:24:06<43:18,  1.48it/s]Training 3/3 epoch (loss 0.2795):  77%|███████▋  | 13107/16950 [2:24:06<42:13,  1.52it/s]Training 3/3 epoch (loss 0.2471):  77%|███████▋  | 13107/16950 [2:24:07<42:13,  1.52it/s]Training 3/3 epoch (loss 0.2471):  77%|███████▋  | 13108/16950 [2:24:07<39:25,  1.62it/s]Training 3/3 epoch (loss 0.0201):  77%|███████▋  | 13108/16950 [2:24:07<39:25,  1.62it/s]Training 3/3 epoch (loss 0.0201):  77%|███████▋  | 13109/16950 [2:24:07<38:27,  1.66it/s]Training 3/3 epoch (loss 0.8899):  77%|███████▋  | 13109/16950 [2:24:08<38:27,  1.66it/s]Training 3/3 epoch (loss 0.8899):  77%|███████▋  | 13110/16950 [2:24:08<34:44,  1.84it/s]Training 3/3 epoch (loss 0.0184):  77%|███████▋  | 13110/16950 [2:24:08<34:44,  1.84it/s]Training 3/3 epoch (loss 0.0184):  77%|███████▋  | 13111/16950 [2:24:08<36:02,  1.78it/s]Training 3/3 epoch (loss 0.6277):  77%|███████▋  | 13111/16950 [2:24:09<36:02,  1.78it/s]Training 3/3 epoch (loss 0.6277):  77%|███████▋  | 13112/16950 [2:24:09<43:40,  1.46it/s]Training 3/3 epoch (loss 0.0036):  77%|███████▋  | 13112/16950 [2:24:10<43:40,  1.46it/s]Training 3/3 epoch (loss 0.0036):  77%|███████▋  | 13113/16950 [2:24:10<41:23,  1.54it/s]Training 3/3 epoch (loss 0.0012):  77%|███████▋  | 13113/16950 [2:24:11<41:23,  1.54it/s]Training 3/3 epoch (loss 0.0012):  77%|███████▋  | 13114/16950 [2:24:11<39:03,  1.64it/s]Training 3/3 epoch (loss 0.0836):  77%|███████▋  | 13114/16950 [2:24:11<39:03,  1.64it/s]Training 3/3 epoch (loss 0.0836):  77%|███████▋  | 13115/16950 [2:24:11<39:22,  1.62it/s]Training 3/3 epoch (loss 0.0006):  77%|███████▋  | 13115/16950 [2:24:12<39:22,  1.62it/s]Training 3/3 epoch (loss 0.0006):  77%|███████▋  | 13116/16950 [2:24:12<44:10,  1.45it/s]Training 3/3 epoch (loss 0.1995):  77%|███████▋  | 13116/16950 [2:24:13<44:10,  1.45it/s]Training 3/3 epoch (loss 0.1995):  77%|███████▋  | 13117/16950 [2:24:13<42:13,  1.51it/s]Training 3/3 epoch (loss 0.0023):  77%|███████▋  | 13117/16950 [2:24:13<42:13,  1.51it/s]Training 3/3 epoch (loss 0.0023):  77%|███████▋  | 13118/16950 [2:24:13<38:31,  1.66it/s]Training 3/3 epoch (loss 0.0033):  77%|███████▋  | 13118/16950 [2:24:14<38:31,  1.66it/s]Training 3/3 epoch (loss 0.0033):  77%|███████▋  | 13119/16950 [2:24:14<37:20,  1.71it/s]Training 3/3 epoch (loss 0.0219):  77%|███████▋  | 13119/16950 [2:24:14<37:20,  1.71it/s]Training 3/3 epoch (loss 0.0219):  77%|███████▋  | 13120/16950 [2:24:14<36:47,  1.74it/s]Training 3/3 epoch (loss 0.0238):  77%|███████▋  | 13120/16950 [2:24:15<36:47,  1.74it/s]Training 3/3 epoch (loss 0.0238):  77%|███████▋  | 13121/16950 [2:24:15<33:54,  1.88it/s]Training 3/3 epoch (loss 0.1136):  77%|███████▋  | 13121/16950 [2:24:15<33:54,  1.88it/s]Training 3/3 epoch (loss 0.1136):  77%|███████▋  | 13122/16950 [2:24:15<32:35,  1.96it/s]Training 3/3 epoch (loss 0.0073):  77%|███████▋  | 13122/16950 [2:24:16<32:35,  1.96it/s]Training 3/3 epoch (loss 0.0073):  77%|███████▋  | 13123/16950 [2:24:16<31:29,  2.02it/s]Training 3/3 epoch (loss 0.0038):  77%|███████▋  | 13123/16950 [2:24:16<31:29,  2.02it/s]Training 3/3 epoch (loss 0.0038):  77%|███████▋  | 13124/16950 [2:24:16<34:08,  1.87it/s]Training 3/3 epoch (loss 0.0394):  77%|███████▋  | 13124/16950 [2:24:17<34:08,  1.87it/s]Training 3/3 epoch (loss 0.0394):  77%|███████▋  | 13125/16950 [2:24:17<36:04,  1.77it/s]Training 3/3 epoch (loss 0.0003):  77%|███████▋  | 13125/16950 [2:24:17<36:04,  1.77it/s]Training 3/3 epoch (loss 0.0003):  77%|███████▋  | 13126/16950 [2:24:17<38:31,  1.65it/s]Training 3/3 epoch (loss 0.0379):  77%|███████▋  | 13126/16950 [2:24:18<38:31,  1.65it/s]Training 3/3 epoch (loss 0.0379):  77%|███████▋  | 13127/16950 [2:24:18<34:42,  1.84it/s]Training 3/3 epoch (loss 0.0016):  77%|███████▋  | 13127/16950 [2:24:18<34:42,  1.84it/s]Training 3/3 epoch (loss 0.0016):  77%|███████▋  | 13128/16950 [2:24:18<32:53,  1.94it/s]Training 3/3 epoch (loss 0.0001):  77%|███████▋  | 13128/16950 [2:24:19<32:53,  1.94it/s]Training 3/3 epoch (loss 0.0001):  77%|███████▋  | 13129/16950 [2:24:19<30:27,  2.09it/s]Training 3/3 epoch (loss 0.1520):  77%|███████▋  | 13129/16950 [2:24:19<30:27,  2.09it/s]Training 3/3 epoch (loss 0.1520):  77%|███████▋  | 13130/16950 [2:24:19<30:59,  2.05it/s]Training 3/3 epoch (loss 0.0123):  77%|███████▋  | 13130/16950 [2:24:20<30:59,  2.05it/s]Training 3/3 epoch (loss 0.0123):  77%|███████▋  | 13131/16950 [2:24:20<30:58,  2.05it/s]Training 3/3 epoch (loss 0.1247):  77%|███████▋  | 13131/16950 [2:24:20<30:58,  2.05it/s]Training 3/3 epoch (loss 0.1247):  77%|███████▋  | 13132/16950 [2:24:20<30:43,  2.07it/s]Training 3/3 epoch (loss 0.0002):  77%|███████▋  | 13132/16950 [2:24:21<30:43,  2.07it/s]Training 3/3 epoch (loss 0.0002):  77%|███████▋  | 13133/16950 [2:24:21<31:33,  2.02it/s]Training 3/3 epoch (loss 0.0125):  77%|███████▋  | 13133/16950 [2:24:22<31:33,  2.02it/s]Training 3/3 epoch (loss 0.0125):  77%|███████▋  | 13134/16950 [2:24:22<37:17,  1.71it/s]Training 3/3 epoch (loss 0.4658):  77%|███████▋  | 13134/16950 [2:24:22<37:17,  1.71it/s]Training 3/3 epoch (loss 0.4658):  77%|███████▋  | 13135/16950 [2:24:22<40:14,  1.58it/s]Training 3/3 epoch (loss 0.0036):  77%|███████▋  | 13135/16950 [2:24:23<40:14,  1.58it/s]Training 3/3 epoch (loss 0.0036):  77%|███████▋  | 13136/16950 [2:24:23<38:01,  1.67it/s]Training 3/3 epoch (loss 0.4554):  77%|███████▋  | 13136/16950 [2:24:23<38:01,  1.67it/s]Training 3/3 epoch (loss 0.4554):  78%|███████▊  | 13137/16950 [2:24:23<35:55,  1.77it/s]Training 3/3 epoch (loss 0.3849):  78%|███████▊  | 13137/16950 [2:24:24<35:55,  1.77it/s]Training 3/3 epoch (loss 0.3849):  78%|███████▊  | 13138/16950 [2:24:24<37:27,  1.70it/s]Training 3/3 epoch (loss 0.1113):  78%|███████▊  | 13138/16950 [2:24:25<37:27,  1.70it/s]Training 3/3 epoch (loss 0.1113):  78%|███████▊  | 13139/16950 [2:24:25<38:19,  1.66it/s]Training 3/3 epoch (loss 0.0446):  78%|███████▊  | 13139/16950 [2:24:25<38:19,  1.66it/s]Training 3/3 epoch (loss 0.0446):  78%|███████▊  | 13140/16950 [2:24:25<38:49,  1.64it/s]Training 3/3 epoch (loss 0.0193):  78%|███████▊  | 13140/16950 [2:24:26<38:49,  1.64it/s]Training 3/3 epoch (loss 0.0193):  78%|███████▊  | 13141/16950 [2:24:26<38:37,  1.64it/s]Training 3/3 epoch (loss 0.0006):  78%|███████▊  | 13141/16950 [2:24:26<38:37,  1.64it/s]Training 3/3 epoch (loss 0.0006):  78%|███████▊  | 13142/16950 [2:24:26<38:23,  1.65it/s]Training 3/3 epoch (loss 0.0393):  78%|███████▊  | 13142/16950 [2:24:27<38:23,  1.65it/s]Training 3/3 epoch (loss 0.0393):  78%|███████▊  | 13143/16950 [2:24:27<40:03,  1.58it/s]Training 3/3 epoch (loss 0.0006):  78%|███████▊  | 13143/16950 [2:24:28<40:03,  1.58it/s]Training 3/3 epoch (loss 0.0006):  78%|███████▊  | 13144/16950 [2:24:28<40:48,  1.55it/s]Training 3/3 epoch (loss 0.3406):  78%|███████▊  | 13144/16950 [2:24:28<40:48,  1.55it/s]Training 3/3 epoch (loss 0.3406):  78%|███████▊  | 13145/16950 [2:24:28<37:43,  1.68it/s]Training 3/3 epoch (loss 0.2975):  78%|███████▊  | 13145/16950 [2:24:29<37:43,  1.68it/s]Training 3/3 epoch (loss 0.2975):  78%|███████▊  | 13146/16950 [2:24:29<34:08,  1.86it/s]Training 3/3 epoch (loss 0.0002):  78%|███████▊  | 13146/16950 [2:24:29<34:08,  1.86it/s]Training 3/3 epoch (loss 0.0002):  78%|███████▊  | 13147/16950 [2:24:29<35:05,  1.81it/s]Training 3/3 epoch (loss 0.0006):  78%|███████▊  | 13147/16950 [2:24:30<35:05,  1.81it/s]Training 3/3 epoch (loss 0.0006):  78%|███████▊  | 13148/16950 [2:24:30<34:39,  1.83it/s]Training 3/3 epoch (loss 0.0041):  78%|███████▊  | 13148/16950 [2:24:30<34:39,  1.83it/s]Training 3/3 epoch (loss 0.0041):  78%|███████▊  | 13149/16950 [2:24:30<34:00,  1.86it/s]Training 3/3 epoch (loss 0.2084):  78%|███████▊  | 13149/16950 [2:24:31<34:00,  1.86it/s]Training 3/3 epoch (loss 0.2084):  78%|███████▊  | 13150/16950 [2:24:31<30:08,  2.10it/s]Training 3/3 epoch (loss 0.0012):  78%|███████▊  | 13150/16950 [2:24:31<30:08,  2.10it/s]Training 3/3 epoch (loss 0.0012):  78%|███████▊  | 13151/16950 [2:24:31<28:02,  2.26it/s]Training 3/3 epoch (loss 0.5021):  78%|███████▊  | 13151/16950 [2:24:31<28:02,  2.26it/s]Training 3/3 epoch (loss 0.5021):  78%|███████▊  | 13152/16950 [2:24:31<26:03,  2.43it/s]Training 3/3 epoch (loss 0.1722):  78%|███████▊  | 13152/16950 [2:24:32<26:03,  2.43it/s]Training 3/3 epoch (loss 0.1722):  78%|███████▊  | 13153/16950 [2:24:32<34:08,  1.85it/s]Training 3/3 epoch (loss 0.1294):  78%|███████▊  | 13153/16950 [2:24:33<34:08,  1.85it/s]Training 3/3 epoch (loss 0.1294):  78%|███████▊  | 13154/16950 [2:24:33<34:04,  1.86it/s]Training 3/3 epoch (loss 0.0948):  78%|███████▊  | 13154/16950 [2:24:33<34:04,  1.86it/s]Training 3/3 epoch (loss 0.0948):  78%|███████▊  | 13155/16950 [2:24:33<32:29,  1.95it/s]Training 3/3 epoch (loss 0.0036):  78%|███████▊  | 13155/16950 [2:24:34<32:29,  1.95it/s]Training 3/3 epoch (loss 0.0036):  78%|███████▊  | 13156/16950 [2:24:34<30:09,  2.10it/s]Training 3/3 epoch (loss 0.2109):  78%|███████▊  | 13156/16950 [2:24:34<30:09,  2.10it/s]Training 3/3 epoch (loss 0.2109):  78%|███████▊  | 13157/16950 [2:24:34<33:42,  1.88it/s]Training 3/3 epoch (loss 0.0633):  78%|███████▊  | 13157/16950 [2:24:35<33:42,  1.88it/s]Training 3/3 epoch (loss 0.0633):  78%|███████▊  | 13158/16950 [2:24:35<34:55,  1.81it/s]Training 3/3 epoch (loss 0.0242):  78%|███████▊  | 13158/16950 [2:24:35<34:55,  1.81it/s]Training 3/3 epoch (loss 0.0242):  78%|███████▊  | 13159/16950 [2:24:35<34:12,  1.85it/s]Training 3/3 epoch (loss 0.2896):  78%|███████▊  | 13159/16950 [2:24:36<34:12,  1.85it/s]Training 3/3 epoch (loss 0.2896):  78%|███████▊  | 13160/16950 [2:24:36<35:47,  1.76it/s]Training 3/3 epoch (loss 0.0110):  78%|███████▊  | 13160/16950 [2:24:37<35:47,  1.76it/s]Training 3/3 epoch (loss 0.0110):  78%|███████▊  | 13161/16950 [2:24:37<42:13,  1.50it/s]Training 3/3 epoch (loss 0.0640):  78%|███████▊  | 13161/16950 [2:24:38<42:13,  1.50it/s]Training 3/3 epoch (loss 0.0640):  78%|███████▊  | 13162/16950 [2:24:38<43:47,  1.44it/s]Training 3/3 epoch (loss 0.0305):  78%|███████▊  | 13162/16950 [2:24:38<43:47,  1.44it/s]Training 3/3 epoch (loss 0.0305):  78%|███████▊  | 13163/16950 [2:24:38<41:35,  1.52it/s]Training 3/3 epoch (loss 0.2509):  78%|███████▊  | 13163/16950 [2:24:39<41:35,  1.52it/s]Training 3/3 epoch (loss 0.2509):  78%|███████▊  | 13164/16950 [2:24:39<42:33,  1.48it/s]Training 3/3 epoch (loss 0.0174):  78%|███████▊  | 13164/16950 [2:24:39<42:33,  1.48it/s]Training 3/3 epoch (loss 0.0174):  78%|███████▊  | 13165/16950 [2:24:39<36:49,  1.71it/s]Training 3/3 epoch (loss 0.3168):  78%|███████▊  | 13165/16950 [2:24:40<36:49,  1.71it/s]Training 3/3 epoch (loss 0.3168):  78%|███████▊  | 13166/16950 [2:24:40<34:53,  1.81it/s]Training 3/3 epoch (loss 0.0730):  78%|███████▊  | 13166/16950 [2:24:40<34:53,  1.81it/s]Training 3/3 epoch (loss 0.0730):  78%|███████▊  | 13167/16950 [2:24:40<34:43,  1.82it/s]Training 3/3 epoch (loss 0.0014):  78%|███████▊  | 13167/16950 [2:24:41<34:43,  1.82it/s]Training 3/3 epoch (loss 0.0014):  78%|███████▊  | 13168/16950 [2:24:41<36:28,  1.73it/s]Training 3/3 epoch (loss 0.5247):  78%|███████▊  | 13168/16950 [2:24:41<36:28,  1.73it/s]Training 3/3 epoch (loss 0.5247):  78%|███████▊  | 13169/16950 [2:24:41<34:02,  1.85it/s]Training 3/3 epoch (loss 0.9902):  78%|███████▊  | 13169/16950 [2:24:42<34:02,  1.85it/s]Training 3/3 epoch (loss 0.9902):  78%|███████▊  | 13170/16950 [2:24:42<36:19,  1.73it/s]Training 3/3 epoch (loss 0.5891):  78%|███████▊  | 13170/16950 [2:24:43<36:19,  1.73it/s]Training 3/3 epoch (loss 0.5891):  78%|███████▊  | 13171/16950 [2:24:43<34:36,  1.82it/s]Training 3/3 epoch (loss 0.0046):  78%|███████▊  | 13171/16950 [2:24:43<34:36,  1.82it/s]Training 3/3 epoch (loss 0.0046):  78%|███████▊  | 13172/16950 [2:24:43<36:09,  1.74it/s]Training 3/3 epoch (loss 0.0160):  78%|███████▊  | 13172/16950 [2:24:44<36:09,  1.74it/s]Training 3/3 epoch (loss 0.0160):  78%|███████▊  | 13173/16950 [2:24:44<38:46,  1.62it/s]Training 3/3 epoch (loss 0.0474):  78%|███████▊  | 13173/16950 [2:24:44<38:46,  1.62it/s]Training 3/3 epoch (loss 0.0474):  78%|███████▊  | 13174/16950 [2:24:44<38:39,  1.63it/s]Training 3/3 epoch (loss 0.0024):  78%|███████▊  | 13174/16950 [2:24:45<38:39,  1.63it/s]Training 3/3 epoch (loss 0.0024):  78%|███████▊  | 13175/16950 [2:24:45<34:22,  1.83it/s]Training 3/3 epoch (loss 0.2205):  78%|███████▊  | 13175/16950 [2:24:45<34:22,  1.83it/s]Training 3/3 epoch (loss 0.2205):  78%|███████▊  | 13176/16950 [2:24:45<31:47,  1.98it/s]Training 3/3 epoch (loss 0.6209):  78%|███████▊  | 13176/16950 [2:24:46<31:47,  1.98it/s]Training 3/3 epoch (loss 0.6209):  78%|███████▊  | 13177/16950 [2:24:46<38:40,  1.63it/s]Training 3/3 epoch (loss 0.0236):  78%|███████▊  | 13177/16950 [2:24:47<38:40,  1.63it/s]Training 3/3 epoch (loss 0.0236):  78%|███████▊  | 13178/16950 [2:24:47<36:37,  1.72it/s]Training 3/3 epoch (loss 0.0031):  78%|███████▊  | 13178/16950 [2:24:47<36:37,  1.72it/s]Training 3/3 epoch (loss 0.0031):  78%|███████▊  | 13179/16950 [2:24:47<35:23,  1.78it/s]Training 3/3 epoch (loss 0.0988):  78%|███████▊  | 13179/16950 [2:24:48<35:23,  1.78it/s]Training 3/3 epoch (loss 0.0988):  78%|███████▊  | 13180/16950 [2:24:48<35:37,  1.76it/s]Training 3/3 epoch (loss 0.0011):  78%|███████▊  | 13180/16950 [2:24:48<35:37,  1.76it/s]Training 3/3 epoch (loss 0.0011):  78%|███████▊  | 13181/16950 [2:24:48<34:37,  1.81it/s]Training 3/3 epoch (loss 0.0039):  78%|███████▊  | 13181/16950 [2:24:49<34:37,  1.81it/s]Training 3/3 epoch (loss 0.0039):  78%|███████▊  | 13182/16950 [2:24:49<33:51,  1.85it/s]Training 3/3 epoch (loss 0.4673):  78%|███████▊  | 13182/16950 [2:24:50<33:51,  1.85it/s]Training 3/3 epoch (loss 0.4673):  78%|███████▊  | 13183/16950 [2:24:50<43:36,  1.44it/s]Training 3/3 epoch (loss 0.0854):  78%|███████▊  | 13183/16950 [2:24:51<43:36,  1.44it/s]Training 3/3 epoch (loss 0.0854):  78%|███████▊  | 13184/16950 [2:24:51<44:38,  1.41it/s]Training 3/3 epoch (loss 0.0629):  78%|███████▊  | 13184/16950 [2:24:51<44:38,  1.41it/s]Training 3/3 epoch (loss 0.0629):  78%|███████▊  | 13185/16950 [2:24:51<41:06,  1.53it/s]Training 3/3 epoch (loss 0.1707):  78%|███████▊  | 13185/16950 [2:24:52<41:06,  1.53it/s]Training 3/3 epoch (loss 0.1707):  78%|███████▊  | 13186/16950 [2:24:52<36:55,  1.70it/s]Training 3/3 epoch (loss 0.0023):  78%|███████▊  | 13186/16950 [2:24:52<36:55,  1.70it/s]Training 3/3 epoch (loss 0.0023):  78%|███████▊  | 13187/16950 [2:24:52<35:24,  1.77it/s]Training 3/3 epoch (loss 0.0016):  78%|███████▊  | 13187/16950 [2:24:53<35:24,  1.77it/s]Training 3/3 epoch (loss 0.0016):  78%|███████▊  | 13188/16950 [2:24:53<33:44,  1.86it/s]Training 3/3 epoch (loss 0.0094):  78%|███████▊  | 13188/16950 [2:24:53<33:44,  1.86it/s]Training 3/3 epoch (loss 0.0094):  78%|███████▊  | 13189/16950 [2:24:53<37:06,  1.69it/s]Training 3/3 epoch (loss 0.3029):  78%|███████▊  | 13189/16950 [2:24:54<37:06,  1.69it/s]Training 3/3 epoch (loss 0.3029):  78%|███████▊  | 13190/16950 [2:24:54<38:45,  1.62it/s]Training 3/3 epoch (loss 0.0018):  78%|███████▊  | 13190/16950 [2:24:55<38:45,  1.62it/s]Training 3/3 epoch (loss 0.0018):  78%|███████▊  | 13191/16950 [2:24:55<40:09,  1.56it/s]Training 3/3 epoch (loss 0.0155):  78%|███████▊  | 13191/16950 [2:24:55<40:09,  1.56it/s]Training 3/3 epoch (loss 0.0155):  78%|███████▊  | 13192/16950 [2:24:55<41:49,  1.50it/s]Training 3/3 epoch (loss 0.3781):  78%|███████▊  | 13192/16950 [2:24:56<41:49,  1.50it/s]Training 3/3 epoch (loss 0.3781):  78%|███████▊  | 13193/16950 [2:24:56<37:17,  1.68it/s]Training 3/3 epoch (loss 0.0000):  78%|███████▊  | 13193/16950 [2:24:56<37:17,  1.68it/s]Training 3/3 epoch (loss 0.0000):  78%|███████▊  | 13194/16950 [2:24:56<35:32,  1.76it/s]Training 3/3 epoch (loss 0.0073):  78%|███████▊  | 13194/16950 [2:24:57<35:32,  1.76it/s]Training 3/3 epoch (loss 0.0073):  78%|███████▊  | 13195/16950 [2:24:57<36:43,  1.70it/s]Training 3/3 epoch (loss 0.0136):  78%|███████▊  | 13195/16950 [2:24:57<36:43,  1.70it/s]Training 3/3 epoch (loss 0.0136):  78%|███████▊  | 13196/16950 [2:24:57<36:10,  1.73it/s]Training 3/3 epoch (loss 0.0001):  78%|███████▊  | 13196/16950 [2:24:58<36:10,  1.73it/s]Training 3/3 epoch (loss 0.0001):  78%|███████▊  | 13197/16950 [2:24:58<40:52,  1.53it/s]Training 3/3 epoch (loss 0.0923):  78%|███████▊  | 13197/16950 [2:24:59<40:52,  1.53it/s]Training 3/3 epoch (loss 0.0923):  78%|███████▊  | 13198/16950 [2:24:59<39:29,  1.58it/s]Training 3/3 epoch (loss 0.0071):  78%|███████▊  | 13198/16950 [2:24:59<39:29,  1.58it/s]Training 3/3 epoch (loss 0.0071):  78%|███████▊  | 13199/16950 [2:24:59<34:53,  1.79it/s]Training 3/3 epoch (loss 0.0740):  78%|███████▊  | 13199/16950 [2:25:00<34:53,  1.79it/s]Training 3/3 epoch (loss 0.0740):  78%|███████▊  | 13200/16950 [2:25:00<33:29,  1.87it/s]Training 3/3 epoch (loss 0.2457):  78%|███████▊  | 13200/16950 [2:25:00<33:29,  1.87it/s]Training 3/3 epoch (loss 0.2457):  78%|███████▊  | 13201/16950 [2:25:00<35:31,  1.76it/s]Training 3/3 epoch (loss 0.0474):  78%|███████▊  | 13201/16950 [2:25:01<35:31,  1.76it/s]Training 3/3 epoch (loss 0.0474):  78%|███████▊  | 13202/16950 [2:25:01<35:23,  1.77it/s]Training 3/3 epoch (loss 0.2600):  78%|███████▊  | 13202/16950 [2:25:02<35:23,  1.77it/s]Training 3/3 epoch (loss 0.2600):  78%|███████▊  | 13203/16950 [2:25:02<36:51,  1.69it/s]Training 3/3 epoch (loss 0.0201):  78%|███████▊  | 13203/16950 [2:25:02<36:51,  1.69it/s]Training 3/3 epoch (loss 0.0201):  78%|███████▊  | 13204/16950 [2:25:02<35:29,  1.76it/s]Training 3/3 epoch (loss 0.0025):  78%|███████▊  | 13204/16950 [2:25:03<35:29,  1.76it/s]Training 3/3 epoch (loss 0.0025):  78%|███████▊  | 13205/16950 [2:25:03<32:52,  1.90it/s]Training 3/3 epoch (loss 0.0107):  78%|███████▊  | 13205/16950 [2:25:03<32:52,  1.90it/s]Training 3/3 epoch (loss 0.0107):  78%|███████▊  | 13206/16950 [2:25:03<33:25,  1.87it/s]Training 3/3 epoch (loss 0.0003):  78%|███████▊  | 13206/16950 [2:25:04<33:25,  1.87it/s]Training 3/3 epoch (loss 0.0003):  78%|███████▊  | 13207/16950 [2:25:04<31:29,  1.98it/s]Training 3/3 epoch (loss 0.0037):  78%|███████▊  | 13207/16950 [2:25:04<31:29,  1.98it/s]Training 3/3 epoch (loss 0.0037):  78%|███████▊  | 13208/16950 [2:25:04<30:07,  2.07it/s]Training 3/3 epoch (loss 0.0002):  78%|███████▊  | 13208/16950 [2:25:04<30:07,  2.07it/s]Training 3/3 epoch (loss 0.0002):  78%|███████▊  | 13209/16950 [2:25:04<30:41,  2.03it/s]Training 3/3 epoch (loss 0.3256):  78%|███████▊  | 13209/16950 [2:25:05<30:41,  2.03it/s]Training 3/3 epoch (loss 0.3256):  78%|███████▊  | 13210/16950 [2:25:05<28:24,  2.19it/s]Training 3/3 epoch (loss 0.3417):  78%|███████▊  | 13210/16950 [2:25:06<28:24,  2.19it/s]Training 3/3 epoch (loss 0.3417):  78%|███████▊  | 13211/16950 [2:25:06<35:01,  1.78it/s]Training 3/3 epoch (loss 0.0001):  78%|███████▊  | 13211/16950 [2:25:06<35:01,  1.78it/s]Training 3/3 epoch (loss 0.0001):  78%|███████▊  | 13212/16950 [2:25:06<35:17,  1.77it/s]Training 3/3 epoch (loss 0.2374):  78%|███████▊  | 13212/16950 [2:25:07<35:17,  1.77it/s]Training 3/3 epoch (loss 0.2374):  78%|███████▊  | 13213/16950 [2:25:07<32:52,  1.90it/s]Training 3/3 epoch (loss 0.0154):  78%|███████▊  | 13213/16950 [2:25:08<32:52,  1.90it/s]Training 3/3 epoch (loss 0.0154):  78%|███████▊  | 13214/16950 [2:25:08<39:51,  1.56it/s]Training 3/3 epoch (loss 0.1324):  78%|███████▊  | 13214/16950 [2:25:08<39:51,  1.56it/s]Training 3/3 epoch (loss 0.1324):  78%|███████▊  | 13215/16950 [2:25:08<39:49,  1.56it/s]Training 3/3 epoch (loss 0.0871):  78%|███████▊  | 13215/16950 [2:25:09<39:49,  1.56it/s]Training 3/3 epoch (loss 0.0871):  78%|███████▊  | 13216/16950 [2:25:09<36:43,  1.69it/s]Training 3/3 epoch (loss 0.0003):  78%|███████▊  | 13216/16950 [2:25:09<36:43,  1.69it/s]Training 3/3 epoch (loss 0.0003):  78%|███████▊  | 13217/16950 [2:25:09<33:19,  1.87it/s]Training 3/3 epoch (loss 0.0055):  78%|███████▊  | 13217/16950 [2:25:10<33:19,  1.87it/s]Training 3/3 epoch (loss 0.0055):  78%|███████▊  | 13218/16950 [2:25:10<31:52,  1.95it/s]Training 3/3 epoch (loss 0.0099):  78%|███████▊  | 13218/16950 [2:25:10<31:52,  1.95it/s]Training 3/3 epoch (loss 0.0099):  78%|███████▊  | 13219/16950 [2:25:10<31:46,  1.96it/s]Training 3/3 epoch (loss 0.2834):  78%|███████▊  | 13219/16950 [2:25:11<31:46,  1.96it/s]Training 3/3 epoch (loss 0.2834):  78%|███████▊  | 13220/16950 [2:25:11<37:59,  1.64it/s]Training 3/3 epoch (loss 0.0153):  78%|███████▊  | 13220/16950 [2:25:12<37:59,  1.64it/s]Training 3/3 epoch (loss 0.0153):  78%|███████▊  | 13221/16950 [2:25:12<40:33,  1.53it/s]Training 3/3 epoch (loss 0.0777):  78%|███████▊  | 13221/16950 [2:25:13<40:33,  1.53it/s]Training 3/3 epoch (loss 0.0777):  78%|███████▊  | 13222/16950 [2:25:13<46:38,  1.33it/s]Training 3/3 epoch (loss 0.0350):  78%|███████▊  | 13222/16950 [2:25:13<46:38,  1.33it/s]Training 3/3 epoch (loss 0.0350):  78%|███████▊  | 13223/16950 [2:25:13<43:54,  1.41it/s]Training 3/3 epoch (loss 0.0194):  78%|███████▊  | 13223/16950 [2:25:14<43:54,  1.41it/s]Training 3/3 epoch (loss 0.0194):  78%|███████▊  | 13224/16950 [2:25:14<38:42,  1.60it/s]Training 3/3 epoch (loss 0.0013):  78%|███████▊  | 13224/16950 [2:25:14<38:42,  1.60it/s]Training 3/3 epoch (loss 0.0013):  78%|███████▊  | 13225/16950 [2:25:14<36:11,  1.72it/s]Training 3/3 epoch (loss 0.4071):  78%|███████▊  | 13225/16950 [2:25:15<36:11,  1.72it/s]Training 3/3 epoch (loss 0.4071):  78%|███████▊  | 13226/16950 [2:25:15<35:58,  1.73it/s]Training 3/3 epoch (loss 0.6224):  78%|███████▊  | 13226/16950 [2:25:15<35:58,  1.73it/s]Training 3/3 epoch (loss 0.6224):  78%|███████▊  | 13227/16950 [2:25:15<34:59,  1.77it/s]Training 3/3 epoch (loss 0.0287):  78%|███████▊  | 13227/16950 [2:25:16<34:59,  1.77it/s]Training 3/3 epoch (loss 0.0287):  78%|███████▊  | 13228/16950 [2:25:16<32:51,  1.89it/s]Training 3/3 epoch (loss 0.0060):  78%|███████▊  | 13228/16950 [2:25:16<32:51,  1.89it/s]Training 3/3 epoch (loss 0.0060):  78%|███████▊  | 13229/16950 [2:25:16<30:55,  2.01it/s]Training 3/3 epoch (loss 0.0018):  78%|███████▊  | 13229/16950 [2:25:17<30:55,  2.01it/s]Training 3/3 epoch (loss 0.0018):  78%|███████▊  | 13230/16950 [2:25:17<33:09,  1.87it/s]Training 3/3 epoch (loss 0.5082):  78%|███████▊  | 13230/16950 [2:25:18<33:09,  1.87it/s]Training 3/3 epoch (loss 0.5082):  78%|███████▊  | 13231/16950 [2:25:18<41:06,  1.51it/s]Training 3/3 epoch (loss 0.0550):  78%|███████▊  | 13231/16950 [2:25:18<41:06,  1.51it/s]Training 3/3 epoch (loss 0.0550):  78%|███████▊  | 13232/16950 [2:25:18<40:10,  1.54it/s]Training 3/3 epoch (loss 0.0168):  78%|███████▊  | 13232/16950 [2:25:19<40:10,  1.54it/s]Training 3/3 epoch (loss 0.0168):  78%|███████▊  | 13233/16950 [2:25:19<38:56,  1.59it/s]Training 3/3 epoch (loss 0.1906):  78%|███████▊  | 13233/16950 [2:25:20<38:56,  1.59it/s]Training 3/3 epoch (loss 0.1906):  78%|███████▊  | 13234/16950 [2:25:20<43:14,  1.43it/s]Training 3/3 epoch (loss 0.0020):  78%|███████▊  | 13234/16950 [2:25:21<43:14,  1.43it/s]Training 3/3 epoch (loss 0.0020):  78%|███████▊  | 13235/16950 [2:25:21<44:39,  1.39it/s]Training 3/3 epoch (loss 0.0106):  78%|███████▊  | 13235/16950 [2:25:21<44:39,  1.39it/s]Training 3/3 epoch (loss 0.0106):  78%|███████▊  | 13236/16950 [2:25:21<42:24,  1.46it/s]Training 3/3 epoch (loss 0.2926):  78%|███████▊  | 13236/16950 [2:25:22<42:24,  1.46it/s]Training 3/3 epoch (loss 0.2926):  78%|███████▊  | 13237/16950 [2:25:22<38:58,  1.59it/s]Training 3/3 epoch (loss 0.0005):  78%|███████▊  | 13237/16950 [2:25:22<38:58,  1.59it/s]Training 3/3 epoch (loss 0.0005):  78%|███████▊  | 13238/16950 [2:25:22<36:55,  1.68it/s]Training 3/3 epoch (loss 0.0302):  78%|███████▊  | 13238/16950 [2:25:23<36:55,  1.68it/s]Training 3/3 epoch (loss 0.0302):  78%|███████▊  | 13239/16950 [2:25:23<36:08,  1.71it/s]Training 3/3 epoch (loss 0.0067):  78%|███████▊  | 13239/16950 [2:25:23<36:08,  1.71it/s]Training 3/3 epoch (loss 0.0067):  78%|███████▊  | 13240/16950 [2:25:23<34:48,  1.78it/s]Training 3/3 epoch (loss 0.4531):  78%|███████▊  | 13240/16950 [2:25:24<34:48,  1.78it/s]Training 3/3 epoch (loss 0.4531):  78%|███████▊  | 13241/16950 [2:25:24<32:56,  1.88it/s]Training 3/3 epoch (loss 0.0015):  78%|███████▊  | 13241/16950 [2:25:24<32:56,  1.88it/s]Training 3/3 epoch (loss 0.0015):  78%|███████▊  | 13242/16950 [2:25:24<33:14,  1.86it/s]Training 3/3 epoch (loss 0.0012):  78%|███████▊  | 13242/16950 [2:25:25<33:14,  1.86it/s]Training 3/3 epoch (loss 0.0012):  78%|███████▊  | 13243/16950 [2:25:25<33:50,  1.83it/s]Training 3/3 epoch (loss 0.0037):  78%|███████▊  | 13243/16950 [2:25:25<33:50,  1.83it/s]Training 3/3 epoch (loss 0.0037):  78%|███████▊  | 13244/16950 [2:25:25<33:58,  1.82it/s]Training 3/3 epoch (loss 0.0049):  78%|███████▊  | 13244/16950 [2:25:26<33:58,  1.82it/s]Training 3/3 epoch (loss 0.0049):  78%|███████▊  | 13245/16950 [2:25:26<33:31,  1.84it/s]Training 3/3 epoch (loss 0.3870):  78%|███████▊  | 13245/16950 [2:25:26<33:31,  1.84it/s]Training 3/3 epoch (loss 0.3870):  78%|███████▊  | 13246/16950 [2:25:26<32:30,  1.90it/s]Training 3/3 epoch (loss 0.0082):  78%|███████▊  | 13246/16950 [2:25:27<32:30,  1.90it/s]Training 3/3 epoch (loss 0.0082):  78%|███████▊  | 13247/16950 [2:25:27<31:39,  1.95it/s]Training 3/3 epoch (loss 0.0347):  78%|███████▊  | 13247/16950 [2:25:27<31:39,  1.95it/s]Training 3/3 epoch (loss 0.0347):  78%|███████▊  | 13248/16950 [2:25:27<30:51,  2.00it/s]Training 3/3 epoch (loss 0.3696):  78%|███████▊  | 13248/16950 [2:25:28<30:51,  2.00it/s]Training 3/3 epoch (loss 0.3696):  78%|███████▊  | 13249/16950 [2:25:28<31:08,  1.98it/s]Training 3/3 epoch (loss 0.0122):  78%|███████▊  | 13249/16950 [2:25:29<31:08,  1.98it/s]Training 3/3 epoch (loss 0.0122):  78%|███████▊  | 13250/16950 [2:25:29<35:13,  1.75it/s]Training 3/3 epoch (loss 0.0736):  78%|███████▊  | 13250/16950 [2:25:29<35:13,  1.75it/s]Training 3/3 epoch (loss 0.0736):  78%|███████▊  | 13251/16950 [2:25:29<41:32,  1.48it/s]Training 3/3 epoch (loss 0.0065):  78%|███████▊  | 13251/16950 [2:25:30<41:32,  1.48it/s]Training 3/3 epoch (loss 0.0065):  78%|███████▊  | 13252/16950 [2:25:30<39:55,  1.54it/s]Training 3/3 epoch (loss 0.1505):  78%|███████▊  | 13252/16950 [2:25:31<39:55,  1.54it/s]Training 3/3 epoch (loss 0.1505):  78%|███████▊  | 13253/16950 [2:25:31<38:14,  1.61it/s]Training 3/3 epoch (loss 0.1383):  78%|███████▊  | 13253/16950 [2:25:31<38:14,  1.61it/s]Training 3/3 epoch (loss 0.1383):  78%|███████▊  | 13254/16950 [2:25:31<36:46,  1.68it/s]Training 3/3 epoch (loss 0.2482):  78%|███████▊  | 13254/16950 [2:25:32<36:46,  1.68it/s]Training 3/3 epoch (loss 0.2482):  78%|███████▊  | 13255/16950 [2:25:32<33:21,  1.85it/s]Training 3/3 epoch (loss 0.3075):  78%|███████▊  | 13255/16950 [2:25:32<33:21,  1.85it/s]Training 3/3 epoch (loss 0.3075):  78%|███████▊  | 13256/16950 [2:25:32<31:34,  1.95it/s]Training 3/3 epoch (loss 0.0193):  78%|███████▊  | 13256/16950 [2:25:33<31:34,  1.95it/s]Training 3/3 epoch (loss 0.0193):  78%|███████▊  | 13257/16950 [2:25:33<32:12,  1.91it/s]Training 3/3 epoch (loss 0.2234):  78%|███████▊  | 13257/16950 [2:25:33<32:12,  1.91it/s]Training 3/3 epoch (loss 0.2234):  78%|███████▊  | 13258/16950 [2:25:33<28:49,  2.14it/s]Training 3/3 epoch (loss 0.0132):  78%|███████▊  | 13258/16950 [2:25:33<28:49,  2.14it/s]Training 3/3 epoch (loss 0.0132):  78%|███████▊  | 13259/16950 [2:25:33<30:00,  2.05it/s]Training 3/3 epoch (loss 0.4770):  78%|███████▊  | 13259/16950 [2:25:34<30:00,  2.05it/s]Training 3/3 epoch (loss 0.4770):  78%|███████▊  | 13260/16950 [2:25:34<31:38,  1.94it/s]Training 3/3 epoch (loss 0.1702):  78%|███████▊  | 13260/16950 [2:25:35<31:38,  1.94it/s]Training 3/3 epoch (loss 0.1702):  78%|███████▊  | 13261/16950 [2:25:35<35:05,  1.75it/s]Training 3/3 epoch (loss 0.0041):  78%|███████▊  | 13261/16950 [2:25:35<35:05,  1.75it/s]Training 3/3 epoch (loss 0.0041):  78%|███████▊  | 13262/16950 [2:25:35<37:10,  1.65it/s]Training 3/3 epoch (loss 0.5016):  78%|███████▊  | 13262/16950 [2:25:36<37:10,  1.65it/s]Training 3/3 epoch (loss 0.5016):  78%|███████▊  | 13263/16950 [2:25:36<45:37,  1.35it/s]Training 3/3 epoch (loss 0.4173):  78%|███████▊  | 13263/16950 [2:25:37<45:37,  1.35it/s]Training 3/3 epoch (loss 0.4173):  78%|███████▊  | 13264/16950 [2:25:37<46:47,  1.31it/s]Training 3/3 epoch (loss 0.0040):  78%|███████▊  | 13264/16950 [2:25:38<46:47,  1.31it/s]Training 3/3 epoch (loss 0.0040):  78%|███████▊  | 13265/16950 [2:25:38<43:54,  1.40it/s]Training 3/3 epoch (loss 0.2860):  78%|███████▊  | 13265/16950 [2:25:38<43:54,  1.40it/s]Training 3/3 epoch (loss 0.2860):  78%|███████▊  | 13266/16950 [2:25:38<38:56,  1.58it/s]Training 3/3 epoch (loss 0.0230):  78%|███████▊  | 13266/16950 [2:25:39<38:56,  1.58it/s]Training 3/3 epoch (loss 0.0230):  78%|███████▊  | 13267/16950 [2:25:39<35:19,  1.74it/s]Training 3/3 epoch (loss 0.7571):  78%|███████▊  | 13267/16950 [2:25:40<35:19,  1.74it/s]Training 3/3 epoch (loss 0.7571):  78%|███████▊  | 13268/16950 [2:25:40<40:01,  1.53it/s]Training 3/3 epoch (loss 0.0022):  78%|███████▊  | 13268/16950 [2:25:40<40:01,  1.53it/s]Training 3/3 epoch (loss 0.0022):  78%|███████▊  | 13269/16950 [2:25:40<38:28,  1.59it/s]Training 3/3 epoch (loss 0.0184):  78%|███████▊  | 13269/16950 [2:25:41<38:28,  1.59it/s]Training 3/3 epoch (loss 0.0184):  78%|███████▊  | 13270/16950 [2:25:41<34:07,  1.80it/s]Training 3/3 epoch (loss 0.6744):  78%|███████▊  | 13270/16950 [2:25:42<34:07,  1.80it/s]Training 3/3 epoch (loss 0.6744):  78%|███████▊  | 13271/16950 [2:25:42<44:31,  1.38it/s]Training 3/3 epoch (loss 0.1818):  78%|███████▊  | 13271/16950 [2:25:42<44:31,  1.38it/s]Training 3/3 epoch (loss 0.1818):  78%|███████▊  | 13272/16950 [2:25:42<40:47,  1.50it/s]Training 3/3 epoch (loss 0.0026):  78%|███████▊  | 13272/16950 [2:25:43<40:47,  1.50it/s]Training 3/3 epoch (loss 0.0026):  78%|███████▊  | 13273/16950 [2:25:43<38:39,  1.59it/s]Training 3/3 epoch (loss 0.6589):  78%|███████▊  | 13273/16950 [2:25:43<38:39,  1.59it/s]Training 3/3 epoch (loss 0.6589):  78%|███████▊  | 13274/16950 [2:25:43<36:31,  1.68it/s]Training 3/3 epoch (loss 0.0714):  78%|███████▊  | 13274/16950 [2:25:44<36:31,  1.68it/s]Training 3/3 epoch (loss 0.0714):  78%|███████▊  | 13275/16950 [2:25:44<35:59,  1.70it/s]Training 3/3 epoch (loss 0.0006):  78%|███████▊  | 13275/16950 [2:25:44<35:59,  1.70it/s]Training 3/3 epoch (loss 0.0006):  78%|███████▊  | 13276/16950 [2:25:44<33:56,  1.80it/s]Training 3/3 epoch (loss 0.0402):  78%|███████▊  | 13276/16950 [2:25:45<33:56,  1.80it/s]Training 3/3 epoch (loss 0.0402):  78%|███████▊  | 13277/16950 [2:25:45<33:36,  1.82it/s]Training 3/3 epoch (loss 0.0004):  78%|███████▊  | 13277/16950 [2:25:45<33:36,  1.82it/s]Training 3/3 epoch (loss 0.0004):  78%|███████▊  | 13278/16950 [2:25:45<34:01,  1.80it/s]Training 3/3 epoch (loss 0.0048):  78%|███████▊  | 13278/16950 [2:25:46<34:01,  1.80it/s]Training 3/3 epoch (loss 0.0048):  78%|███████▊  | 13279/16950 [2:25:46<34:00,  1.80it/s]Training 3/3 epoch (loss 0.1512):  78%|███████▊  | 13279/16950 [2:25:46<34:00,  1.80it/s]Training 3/3 epoch (loss 0.1512):  78%|███████▊  | 13280/16950 [2:25:46<31:57,  1.91it/s]Training 3/3 epoch (loss 0.1092):  78%|███████▊  | 13280/16950 [2:25:47<31:57,  1.91it/s]Training 3/3 epoch (loss 0.1092):  78%|███████▊  | 13281/16950 [2:25:47<31:14,  1.96it/s]Training 3/3 epoch (loss 0.0002):  78%|███████▊  | 13281/16950 [2:25:47<31:14,  1.96it/s]Training 3/3 epoch (loss 0.0002):  78%|███████▊  | 13282/16950 [2:25:47<30:29,  2.00it/s]Training 3/3 epoch (loss 0.0033):  78%|███████▊  | 13282/16950 [2:25:48<30:29,  2.00it/s]Training 3/3 epoch (loss 0.0033):  78%|███████▊  | 13283/16950 [2:25:48<33:09,  1.84it/s]Training 3/3 epoch (loss 0.1195):  78%|███████▊  | 13283/16950 [2:25:49<33:09,  1.84it/s]Training 3/3 epoch (loss 0.1195):  78%|███████▊  | 13284/16950 [2:25:49<34:51,  1.75it/s]Training 3/3 epoch (loss 0.0625):  78%|███████▊  | 13284/16950 [2:25:49<34:51,  1.75it/s]Training 3/3 epoch (loss 0.0625):  78%|███████▊  | 13285/16950 [2:25:49<37:58,  1.61it/s]Training 3/3 epoch (loss 0.2387):  78%|███████▊  | 13285/16950 [2:25:50<37:58,  1.61it/s]Training 3/3 epoch (loss 0.2387):  78%|███████▊  | 13286/16950 [2:25:50<45:33,  1.34it/s]Training 3/3 epoch (loss 0.0004):  78%|███████▊  | 13286/16950 [2:25:51<45:33,  1.34it/s]Training 3/3 epoch (loss 0.0004):  78%|███████▊  | 13287/16950 [2:25:51<38:47,  1.57it/s]Training 3/3 epoch (loss 0.0231):  78%|███████▊  | 13287/16950 [2:25:51<38:47,  1.57it/s]Training 3/3 epoch (loss 0.0231):  78%|███████▊  | 13288/16950 [2:25:51<36:57,  1.65it/s]Training 3/3 epoch (loss 0.1760):  78%|███████▊  | 13288/16950 [2:25:52<36:57,  1.65it/s]Training 3/3 epoch (loss 0.1760):  78%|███████▊  | 13289/16950 [2:25:52<34:24,  1.77it/s]Training 3/3 epoch (loss 0.0008):  78%|███████▊  | 13289/16950 [2:25:52<34:24,  1.77it/s]Training 3/3 epoch (loss 0.0008):  78%|███████▊  | 13290/16950 [2:25:52<32:03,  1.90it/s]Training 3/3 epoch (loss 0.0013):  78%|███████▊  | 13290/16950 [2:25:53<32:03,  1.90it/s]Training 3/3 epoch (loss 0.0013):  78%|███████▊  | 13291/16950 [2:25:53<36:22,  1.68it/s]Training 3/3 epoch (loss 0.2008):  78%|███████▊  | 13291/16950 [2:25:54<36:22,  1.68it/s]Training 3/3 epoch (loss 0.2008):  78%|███████▊  | 13292/16950 [2:25:54<36:25,  1.67it/s]Training 3/3 epoch (loss 0.0075):  78%|███████▊  | 13292/16950 [2:25:55<36:25,  1.67it/s]Training 3/3 epoch (loss 0.0075):  78%|███████▊  | 13293/16950 [2:25:55<46:41,  1.31it/s]Training 3/3 epoch (loss 0.0002):  78%|███████▊  | 13293/16950 [2:25:55<46:41,  1.31it/s]Training 3/3 epoch (loss 0.0002):  78%|███████▊  | 13294/16950 [2:25:55<43:40,  1.40it/s]Training 3/3 epoch (loss 0.0019):  78%|███████▊  | 13294/16950 [2:25:56<43:40,  1.40it/s]Training 3/3 epoch (loss 0.0019):  78%|███████▊  | 13295/16950 [2:25:56<41:05,  1.48it/s]Training 3/3 epoch (loss 0.0051):  78%|███████▊  | 13295/16950 [2:25:57<41:05,  1.48it/s]Training 3/3 epoch (loss 0.0051):  78%|███████▊  | 13296/16950 [2:25:57<45:12,  1.35it/s]Training 3/3 epoch (loss 0.0142):  78%|███████▊  | 13296/16950 [2:25:57<45:12,  1.35it/s]Training 3/3 epoch (loss 0.0142):  78%|███████▊  | 13297/16950 [2:25:57<42:31,  1.43it/s]Training 3/3 epoch (loss 0.0158):  78%|███████▊  | 13297/16950 [2:25:58<42:31,  1.43it/s]Training 3/3 epoch (loss 0.0158):  78%|███████▊  | 13298/16950 [2:25:58<43:26,  1.40it/s]Training 3/3 epoch (loss 0.0004):  78%|███████▊  | 13298/16950 [2:25:59<43:26,  1.40it/s]Training 3/3 epoch (loss 0.0004):  78%|███████▊  | 13299/16950 [2:25:59<44:24,  1.37it/s]Training 3/3 epoch (loss 0.3044):  78%|███████▊  | 13299/16950 [2:26:00<44:24,  1.37it/s]Training 3/3 epoch (loss 0.3044):  78%|███████▊  | 13300/16950 [2:26:00<41:44,  1.46it/s]Training 3/3 epoch (loss 0.2806):  78%|███████▊  | 13300/16950 [2:26:00<41:44,  1.46it/s]Training 3/3 epoch (loss 0.2806):  78%|███████▊  | 13301/16950 [2:26:00<38:59,  1.56it/s]Training 3/3 epoch (loss 0.2863):  78%|███████▊  | 13301/16950 [2:26:01<38:59,  1.56it/s]Training 3/3 epoch (loss 0.2863):  78%|███████▊  | 13302/16950 [2:26:01<36:29,  1.67it/s]Training 3/3 epoch (loss 0.0262):  78%|███████▊  | 13302/16950 [2:26:01<36:29,  1.67it/s]Training 3/3 epoch (loss 0.0262):  78%|███████▊  | 13303/16950 [2:26:01<37:49,  1.61it/s]Training 3/3 epoch (loss 0.0289):  78%|███████▊  | 13303/16950 [2:26:02<37:49,  1.61it/s]Training 3/3 epoch (loss 0.0289):  78%|███████▊  | 13304/16950 [2:26:02<39:34,  1.54it/s]Training 3/3 epoch (loss 0.0137):  78%|███████▊  | 13304/16950 [2:26:03<39:34,  1.54it/s]Training 3/3 epoch (loss 0.0137):  78%|███████▊  | 13305/16950 [2:26:03<39:09,  1.55it/s]Training 3/3 epoch (loss 0.1066):  78%|███████▊  | 13305/16950 [2:26:03<39:09,  1.55it/s]Training 3/3 epoch (loss 0.1066):  79%|███████▊  | 13306/16950 [2:26:03<36:11,  1.68it/s]Training 3/3 epoch (loss 0.0304):  79%|███████▊  | 13306/16950 [2:26:04<36:11,  1.68it/s]Training 3/3 epoch (loss 0.0304):  79%|███████▊  | 13307/16950 [2:26:04<36:39,  1.66it/s]Training 3/3 epoch (loss 0.0086):  79%|███████▊  | 13307/16950 [2:26:04<36:39,  1.66it/s]Training 3/3 epoch (loss 0.0086):  79%|███████▊  | 13308/16950 [2:26:04<38:53,  1.56it/s]Training 3/3 epoch (loss 0.0006):  79%|███████▊  | 13308/16950 [2:26:05<38:53,  1.56it/s]Training 3/3 epoch (loss 0.0006):  79%|███████▊  | 13309/16950 [2:26:05<37:45,  1.61it/s]Training 3/3 epoch (loss 0.4917):  79%|███████▊  | 13309/16950 [2:26:06<37:45,  1.61it/s]Training 3/3 epoch (loss 0.4917):  79%|███████▊  | 13310/16950 [2:26:06<42:13,  1.44it/s]Training 3/3 epoch (loss 0.0156):  79%|███████▊  | 13310/16950 [2:26:07<42:13,  1.44it/s]Training 3/3 epoch (loss 0.0156):  79%|███████▊  | 13311/16950 [2:26:07<42:45,  1.42it/s]Training 3/3 epoch (loss 0.3771):  79%|███████▊  | 13311/16950 [2:26:07<42:45,  1.42it/s]Training 3/3 epoch (loss 0.3771):  79%|███████▊  | 13312/16950 [2:26:07<40:44,  1.49it/s]Training 3/3 epoch (loss 0.4406):  79%|███████▊  | 13312/16950 [2:26:08<40:44,  1.49it/s]Training 3/3 epoch (loss 0.4406):  79%|███████▊  | 13313/16950 [2:26:08<49:12,  1.23it/s]Training 3/3 epoch (loss 0.0022):  79%|███████▊  | 13313/16950 [2:26:09<49:12,  1.23it/s]Training 3/3 epoch (loss 0.0022):  79%|███████▊  | 13314/16950 [2:26:09<44:54,  1.35it/s]Training 3/3 epoch (loss 0.1241):  79%|███████▊  | 13314/16950 [2:26:09<44:54,  1.35it/s]Training 3/3 epoch (loss 0.1241):  79%|███████▊  | 13315/16950 [2:26:09<41:20,  1.47it/s]Training 3/3 epoch (loss 0.0020):  79%|███████▊  | 13315/16950 [2:26:10<41:20,  1.47it/s]Training 3/3 epoch (loss 0.0020):  79%|███████▊  | 13316/16950 [2:26:10<38:13,  1.58it/s]Training 3/3 epoch (loss 0.0031):  79%|███████▊  | 13316/16950 [2:26:11<38:13,  1.58it/s]Training 3/3 epoch (loss 0.0031):  79%|███████▊  | 13317/16950 [2:26:11<36:33,  1.66it/s]Training 3/3 epoch (loss 0.4650):  79%|███████▊  | 13317/16950 [2:26:11<36:33,  1.66it/s]Training 3/3 epoch (loss 0.4650):  79%|███████▊  | 13318/16950 [2:26:11<34:27,  1.76it/s]Training 3/3 epoch (loss 0.2272):  79%|███████▊  | 13318/16950 [2:26:12<34:27,  1.76it/s]Training 3/3 epoch (loss 0.2272):  79%|███████▊  | 13319/16950 [2:26:12<36:45,  1.65it/s]Training 3/3 epoch (loss 0.2622):  79%|███████▊  | 13319/16950 [2:26:13<36:45,  1.65it/s]Training 3/3 epoch (loss 0.2622):  79%|███████▊  | 13320/16950 [2:26:13<42:08,  1.44it/s]Training 3/3 epoch (loss 0.0030):  79%|███████▊  | 13320/16950 [2:26:13<42:08,  1.44it/s]Training 3/3 epoch (loss 0.0030):  79%|███████▊  | 13321/16950 [2:26:13<45:09,  1.34it/s]Training 3/3 epoch (loss 0.4636):  79%|███████▊  | 13321/16950 [2:26:14<45:09,  1.34it/s]Training 3/3 epoch (loss 0.4636):  79%|███████▊  | 13322/16950 [2:26:14<44:59,  1.34it/s]Training 3/3 epoch (loss 0.0000):  79%|███████▊  | 13322/16950 [2:26:15<44:59,  1.34it/s]Training 3/3 epoch (loss 0.0000):  79%|███████▊  | 13323/16950 [2:26:15<46:32,  1.30it/s]Training 3/3 epoch (loss 0.0448):  79%|███████▊  | 13323/16950 [2:26:16<46:32,  1.30it/s]Training 3/3 epoch (loss 0.0448):  79%|███████▊  | 13324/16950 [2:26:16<47:05,  1.28it/s]Training 3/3 epoch (loss 0.0042):  79%|███████▊  | 13324/16950 [2:26:16<47:05,  1.28it/s]Training 3/3 epoch (loss 0.0042):  79%|███████▊  | 13325/16950 [2:26:16<43:31,  1.39it/s]Training 3/3 epoch (loss 0.0000):  79%|███████▊  | 13325/16950 [2:26:17<43:31,  1.39it/s]Training 3/3 epoch (loss 0.0000):  79%|███████▊  | 13326/16950 [2:26:17<39:37,  1.52it/s]Training 3/3 epoch (loss 0.0151):  79%|███████▊  | 13326/16950 [2:26:18<39:37,  1.52it/s]Training 3/3 epoch (loss 0.0151):  79%|███████▊  | 13327/16950 [2:26:18<39:59,  1.51it/s]Training 3/3 epoch (loss 0.5915):  79%|███████▊  | 13327/16950 [2:26:18<39:59,  1.51it/s]Training 3/3 epoch (loss 0.5915):  79%|███████▊  | 13328/16950 [2:26:18<35:44,  1.69it/s]Training 3/3 epoch (loss 0.0631):  79%|███████▊  | 13328/16950 [2:26:19<35:44,  1.69it/s]Training 3/3 epoch (loss 0.0631):  79%|███████▊  | 13329/16950 [2:26:19<38:48,  1.56it/s]Training 3/3 epoch (loss 0.2824):  79%|███████▊  | 13329/16950 [2:26:20<38:48,  1.56it/s]Training 3/3 epoch (loss 0.2824):  79%|███████▊  | 13330/16950 [2:26:20<41:14,  1.46it/s]Training 3/3 epoch (loss 0.6577):  79%|███████▊  | 13330/16950 [2:26:21<41:14,  1.46it/s]Training 3/3 epoch (loss 0.6577):  79%|███████▊  | 13331/16950 [2:26:21<48:00,  1.26it/s]Training 3/3 epoch (loss 0.0061):  79%|███████▊  | 13331/16950 [2:26:21<48:00,  1.26it/s]Training 3/3 epoch (loss 0.0061):  79%|███████▊  | 13332/16950 [2:26:21<46:29,  1.30it/s]Training 3/3 epoch (loss 0.0250):  79%|███████▊  | 13332/16950 [2:26:22<46:29,  1.30it/s]Training 3/3 epoch (loss 0.0250):  79%|███████▊  | 13333/16950 [2:26:22<42:59,  1.40it/s]Training 3/3 epoch (loss 0.6154):  79%|███████▊  | 13333/16950 [2:26:22<42:59,  1.40it/s]Training 3/3 epoch (loss 0.6154):  79%|███████▊  | 13334/16950 [2:26:22<38:04,  1.58it/s]Training 3/3 epoch (loss 0.5215):  79%|███████▊  | 13334/16950 [2:26:23<38:04,  1.58it/s]Training 3/3 epoch (loss 0.5215):  79%|███████▊  | 13335/16950 [2:26:23<34:35,  1.74it/s]Training 3/3 epoch (loss 0.0002):  79%|███████▊  | 13335/16950 [2:26:23<34:35,  1.74it/s]Training 3/3 epoch (loss 0.0002):  79%|███████▊  | 13336/16950 [2:26:23<33:47,  1.78it/s]Training 3/3 epoch (loss 0.4840):  79%|███████▊  | 13336/16950 [2:26:24<33:47,  1.78it/s]Training 3/3 epoch (loss 0.4840):  79%|███████▊  | 13337/16950 [2:26:24<29:28,  2.04it/s]Training 3/3 epoch (loss 0.0024):  79%|███████▊  | 13337/16950 [2:26:24<29:28,  2.04it/s]Training 3/3 epoch (loss 0.0024):  79%|███████▊  | 13338/16950 [2:26:24<34:45,  1.73it/s]Training 3/3 epoch (loss 0.0117):  79%|███████▊  | 13338/16950 [2:26:25<34:45,  1.73it/s]Training 3/3 epoch (loss 0.0117):  79%|███████▊  | 13339/16950 [2:26:25<34:41,  1.73it/s]Training 3/3 epoch (loss 0.0451):  79%|███████▊  | 13339/16950 [2:26:26<34:41,  1.73it/s]Training 3/3 epoch (loss 0.0451):  79%|███████▊  | 13340/16950 [2:26:26<32:58,  1.82it/s]Training 3/3 epoch (loss 0.2176):  79%|███████▊  | 13340/16950 [2:26:26<32:58,  1.82it/s]Training 3/3 epoch (loss 0.2176):  79%|███████▊  | 13341/16950 [2:26:26<29:21,  2.05it/s]Training 3/3 epoch (loss 0.0003):  79%|███████▊  | 13341/16950 [2:26:26<29:21,  2.05it/s]Training 3/3 epoch (loss 0.0003):  79%|███████▊  | 13342/16950 [2:26:26<27:30,  2.19it/s]Training 3/3 epoch (loss 0.0093):  79%|███████▊  | 13342/16950 [2:26:27<27:30,  2.19it/s]Training 3/3 epoch (loss 0.0093):  79%|███████▊  | 13343/16950 [2:26:27<29:50,  2.01it/s]Training 3/3 epoch (loss 0.2397):  79%|███████▊  | 13343/16950 [2:26:27<29:50,  2.01it/s]Training 3/3 epoch (loss 0.2397):  79%|███████▊  | 13344/16950 [2:26:27<30:49,  1.95it/s]Training 3/3 epoch (loss 0.2899):  79%|███████▊  | 13344/16950 [2:26:28<30:49,  1.95it/s]Training 3/3 epoch (loss 0.2899):  79%|███████▊  | 13345/16950 [2:26:28<29:09,  2.06it/s]Training 3/3 epoch (loss 0.3921):  79%|███████▊  | 13345/16950 [2:26:28<29:09,  2.06it/s]Training 3/3 epoch (loss 0.3921):  79%|███████▊  | 13346/16950 [2:26:28<27:16,  2.20it/s]Training 3/3 epoch (loss 0.1651):  79%|███████▊  | 13346/16950 [2:26:29<27:16,  2.20it/s]Training 3/3 epoch (loss 0.1651):  79%|███████▊  | 13347/16950 [2:26:29<30:08,  1.99it/s]Training 3/3 epoch (loss 0.3247):  79%|███████▊  | 13347/16950 [2:26:30<30:08,  1.99it/s]Training 3/3 epoch (loss 0.3247):  79%|███████▊  | 13348/16950 [2:26:30<39:12,  1.53it/s]Training 3/3 epoch (loss 0.0051):  79%|███████▊  | 13348/16950 [2:26:30<39:12,  1.53it/s]Training 3/3 epoch (loss 0.0051):  79%|███████▉  | 13349/16950 [2:26:30<36:48,  1.63it/s]Training 3/3 epoch (loss 0.0068):  79%|███████▉  | 13349/16950 [2:26:31<36:48,  1.63it/s]Training 3/3 epoch (loss 0.0068):  79%|███████▉  | 13350/16950 [2:26:31<34:12,  1.75it/s]Training 3/3 epoch (loss 0.0069):  79%|███████▉  | 13350/16950 [2:26:31<34:12,  1.75it/s]Training 3/3 epoch (loss 0.0069):  79%|███████▉  | 13351/16950 [2:26:31<32:54,  1.82it/s]Training 3/3 epoch (loss 0.1443):  79%|███████▉  | 13351/16950 [2:26:32<32:54,  1.82it/s]Training 3/3 epoch (loss 0.1443):  79%|███████▉  | 13352/16950 [2:26:32<31:33,  1.90it/s]Training 3/3 epoch (loss 0.0010):  79%|███████▉  | 13352/16950 [2:26:33<31:33,  1.90it/s]Training 3/3 epoch (loss 0.0010):  79%|███████▉  | 13353/16950 [2:26:33<40:13,  1.49it/s]Training 3/3 epoch (loss 0.0081):  79%|███████▉  | 13353/16950 [2:26:33<40:13,  1.49it/s]Training 3/3 epoch (loss 0.0081):  79%|███████▉  | 13354/16950 [2:26:33<39:26,  1.52it/s]Training 3/3 epoch (loss 0.4065):  79%|███████▉  | 13354/16950 [2:26:34<39:26,  1.52it/s]Training 3/3 epoch (loss 0.4065):  79%|███████▉  | 13355/16950 [2:26:34<36:52,  1.62it/s]Training 3/3 epoch (loss 0.0027):  79%|███████▉  | 13355/16950 [2:26:35<36:52,  1.62it/s]Training 3/3 epoch (loss 0.0027):  79%|███████▉  | 13356/16950 [2:26:35<38:32,  1.55it/s]Training 3/3 epoch (loss 0.2116):  79%|███████▉  | 13356/16950 [2:26:36<38:32,  1.55it/s]Training 3/3 epoch (loss 0.2116):  79%|███████▉  | 13357/16950 [2:26:36<42:45,  1.40it/s]Training 3/3 epoch (loss 0.0851):  79%|███████▉  | 13357/16950 [2:26:36<42:45,  1.40it/s]Training 3/3 epoch (loss 0.0851):  79%|███████▉  | 13358/16950 [2:26:36<42:26,  1.41it/s]Training 3/3 epoch (loss 0.0036):  79%|███████▉  | 13358/16950 [2:26:37<42:26,  1.41it/s]Training 3/3 epoch (loss 0.0036):  79%|███████▉  | 13359/16950 [2:26:37<45:58,  1.30it/s]Training 3/3 epoch (loss 0.6012):  79%|███████▉  | 13359/16950 [2:26:38<45:58,  1.30it/s]Training 3/3 epoch (loss 0.6012):  79%|███████▉  | 13360/16950 [2:26:38<53:37,  1.12it/s]Training 3/3 epoch (loss 0.0139):  79%|███████▉  | 13360/16950 [2:26:39<53:37,  1.12it/s]Training 3/3 epoch (loss 0.0139):  79%|███████▉  | 13361/16950 [2:26:39<48:15,  1.24it/s]Training 3/3 epoch (loss 0.0266):  79%|███████▉  | 13361/16950 [2:26:39<48:15,  1.24it/s]Training 3/3 epoch (loss 0.0266):  79%|███████▉  | 13362/16950 [2:26:39<44:00,  1.36it/s]Training 3/3 epoch (loss 0.1163):  79%|███████▉  | 13362/16950 [2:26:41<44:00,  1.36it/s]Training 3/3 epoch (loss 0.1163):  79%|███████▉  | 13363/16950 [2:26:41<52:00,  1.15it/s]Training 3/3 epoch (loss 0.0165):  79%|███████▉  | 13363/16950 [2:26:41<52:00,  1.15it/s]Training 3/3 epoch (loss 0.0165):  79%|███████▉  | 13364/16950 [2:26:41<47:10,  1.27it/s]Training 3/3 epoch (loss 0.0447):  79%|███████▉  | 13364/16950 [2:26:42<47:10,  1.27it/s]Training 3/3 epoch (loss 0.0447):  79%|███████▉  | 13365/16950 [2:26:42<42:59,  1.39it/s]Training 3/3 epoch (loss 0.0139):  79%|███████▉  | 13365/16950 [2:26:42<42:59,  1.39it/s]Training 3/3 epoch (loss 0.0139):  79%|███████▉  | 13366/16950 [2:26:42<41:10,  1.45it/s]Training 3/3 epoch (loss 0.1689):  79%|███████▉  | 13366/16950 [2:26:43<41:10,  1.45it/s]Training 3/3 epoch (loss 0.1689):  79%|███████▉  | 13367/16950 [2:26:43<39:50,  1.50it/s]Training 3/3 epoch (loss 0.0081):  79%|███████▉  | 13367/16950 [2:26:44<39:50,  1.50it/s]Training 3/3 epoch (loss 0.0081):  79%|███████▉  | 13368/16950 [2:26:44<36:44,  1.62it/s]Training 3/3 epoch (loss 0.5592):  79%|███████▉  | 13368/16950 [2:26:44<36:44,  1.62it/s]Training 3/3 epoch (loss 0.5592):  79%|███████▉  | 13369/16950 [2:26:44<33:08,  1.80it/s]Training 3/3 epoch (loss 0.0930):  79%|███████▉  | 13369/16950 [2:26:44<33:08,  1.80it/s]Training 3/3 epoch (loss 0.0930):  79%|███████▉  | 13370/16950 [2:26:44<31:53,  1.87it/s]Training 3/3 epoch (loss 0.2650):  79%|███████▉  | 13370/16950 [2:26:45<31:53,  1.87it/s]Training 3/3 epoch (loss 0.2650):  79%|███████▉  | 13371/16950 [2:26:45<32:00,  1.86it/s]Training 3/3 epoch (loss 0.0008):  79%|███████▉  | 13371/16950 [2:26:45<32:00,  1.86it/s]Training 3/3 epoch (loss 0.0008):  79%|███████▉  | 13372/16950 [2:26:45<29:36,  2.01it/s]Training 3/3 epoch (loss 0.2204):  79%|███████▉  | 13372/16950 [2:26:46<29:36,  2.01it/s]Training 3/3 epoch (loss 0.2204):  79%|███████▉  | 13373/16950 [2:26:46<35:05,  1.70it/s]Training 3/3 epoch (loss 0.0104):  79%|███████▉  | 13373/16950 [2:26:47<35:05,  1.70it/s]Training 3/3 epoch (loss 0.0104):  79%|███████▉  | 13374/16950 [2:26:47<36:05,  1.65it/s]Training 3/3 epoch (loss 0.0002):  79%|███████▉  | 13374/16950 [2:26:48<36:05,  1.65it/s]Training 3/3 epoch (loss 0.0002):  79%|███████▉  | 13375/16950 [2:26:48<37:16,  1.60it/s]Training 3/3 epoch (loss 0.2214):  79%|███████▉  | 13375/16950 [2:26:48<37:16,  1.60it/s]Training 3/3 epoch (loss 0.2214):  79%|███████▉  | 13376/16950 [2:26:48<34:20,  1.73it/s]Training 3/3 epoch (loss 0.5656):  79%|███████▉  | 13376/16950 [2:26:48<34:20,  1.73it/s]Training 3/3 epoch (loss 0.5656):  79%|███████▉  | 13377/16950 [2:26:48<32:00,  1.86it/s]Training 3/3 epoch (loss 0.0003):  79%|███████▉  | 13377/16950 [2:26:49<32:00,  1.86it/s]Training 3/3 epoch (loss 0.0003):  79%|███████▉  | 13378/16950 [2:26:49<30:35,  1.95it/s]Training 3/3 epoch (loss 0.0028):  79%|███████▉  | 13378/16950 [2:26:50<30:35,  1.95it/s]Training 3/3 epoch (loss 0.0028):  79%|███████▉  | 13379/16950 [2:26:50<33:13,  1.79it/s]Training 3/3 epoch (loss 0.2506):  79%|███████▉  | 13379/16950 [2:26:51<33:13,  1.79it/s]Training 3/3 epoch (loss 0.2506):  79%|███████▉  | 13380/16950 [2:26:51<44:41,  1.33it/s]Training 3/3 epoch (loss 0.2223):  79%|███████▉  | 13380/16950 [2:26:51<44:41,  1.33it/s]Training 3/3 epoch (loss 0.2223):  79%|███████▉  | 13381/16950 [2:26:51<40:25,  1.47it/s]Training 3/3 epoch (loss 0.0005):  79%|███████▉  | 13381/16950 [2:26:52<40:25,  1.47it/s]Training 3/3 epoch (loss 0.0005):  79%|███████▉  | 13382/16950 [2:26:52<37:21,  1.59it/s]Training 3/3 epoch (loss 0.0222):  79%|███████▉  | 13382/16950 [2:26:52<37:21,  1.59it/s]Training 3/3 epoch (loss 0.0222):  79%|███████▉  | 13383/16950 [2:26:52<35:50,  1.66it/s]Training 3/3 epoch (loss 0.0047):  79%|███████▉  | 13383/16950 [2:26:53<35:50,  1.66it/s]Training 3/3 epoch (loss 0.0047):  79%|███████▉  | 13384/16950 [2:26:53<36:38,  1.62it/s]Training 3/3 epoch (loss 0.0223):  79%|███████▉  | 13384/16950 [2:26:54<36:38,  1.62it/s]Training 3/3 epoch (loss 0.0223):  79%|███████▉  | 13385/16950 [2:26:54<38:24,  1.55it/s]Training 3/3 epoch (loss 0.0131):  79%|███████▉  | 13385/16950 [2:26:54<38:24,  1.55it/s]Training 3/3 epoch (loss 0.0131):  79%|███████▉  | 13386/16950 [2:26:54<35:45,  1.66it/s]Training 3/3 epoch (loss 0.1670):  79%|███████▉  | 13386/16950 [2:26:55<35:45,  1.66it/s]Training 3/3 epoch (loss 0.1670):  79%|███████▉  | 13387/16950 [2:26:55<32:32,  1.83it/s]Training 3/3 epoch (loss 0.0324):  79%|███████▉  | 13387/16950 [2:26:55<32:32,  1.83it/s]Training 3/3 epoch (loss 0.0324):  79%|███████▉  | 13388/16950 [2:26:55<33:10,  1.79it/s]Training 3/3 epoch (loss 0.0003):  79%|███████▉  | 13388/16950 [2:26:56<33:10,  1.79it/s]Training 3/3 epoch (loss 0.0003):  79%|███████▉  | 13389/16950 [2:26:56<35:10,  1.69it/s]Training 3/3 epoch (loss 0.0031):  79%|███████▉  | 13389/16950 [2:26:56<35:10,  1.69it/s]Training 3/3 epoch (loss 0.0031):  79%|███████▉  | 13390/16950 [2:26:56<33:33,  1.77it/s]Training 3/3 epoch (loss 0.4437):  79%|███████▉  | 13390/16950 [2:26:57<33:33,  1.77it/s]Training 3/3 epoch (loss 0.4437):  79%|███████▉  | 13391/16950 [2:26:57<34:11,  1.73it/s]Training 3/3 epoch (loss 0.0416):  79%|███████▉  | 13391/16950 [2:26:57<34:11,  1.73it/s]Training 3/3 epoch (loss 0.0416):  79%|███████▉  | 13392/16950 [2:26:57<31:53,  1.86it/s]Training 3/3 epoch (loss 0.3702):  79%|███████▉  | 13392/16950 [2:26:58<31:53,  1.86it/s]Training 3/3 epoch (loss 0.3702):  79%|███████▉  | 13393/16950 [2:26:58<40:34,  1.46it/s]Training 3/3 epoch (loss 0.0016):  79%|███████▉  | 13393/16950 [2:26:59<40:34,  1.46it/s]Training 3/3 epoch (loss 0.0016):  79%|███████▉  | 13394/16950 [2:26:59<37:16,  1.59it/s]Training 3/3 epoch (loss 0.0179):  79%|███████▉  | 13394/16950 [2:27:00<37:16,  1.59it/s]Training 3/3 epoch (loss 0.0179):  79%|███████▉  | 13395/16950 [2:27:00<37:25,  1.58it/s]Training 3/3 epoch (loss 0.0282):  79%|███████▉  | 13395/16950 [2:27:01<37:25,  1.58it/s]Training 3/3 epoch (loss 0.0282):  79%|███████▉  | 13396/16950 [2:27:01<45:38,  1.30it/s]Training 3/3 epoch (loss 0.0231):  79%|███████▉  | 13396/16950 [2:27:01<45:38,  1.30it/s]Training 3/3 epoch (loss 0.0231):  79%|███████▉  | 13397/16950 [2:27:01<46:13,  1.28it/s]Training 3/3 epoch (loss 0.0017):  79%|███████▉  | 13397/16950 [2:27:02<46:13,  1.28it/s]Training 3/3 epoch (loss 0.0017):  79%|███████▉  | 13398/16950 [2:27:02<43:24,  1.36it/s]Training 3/3 epoch (loss 0.0103):  79%|███████▉  | 13398/16950 [2:27:03<43:24,  1.36it/s]Training 3/3 epoch (loss 0.0103):  79%|███████▉  | 13399/16950 [2:27:03<39:11,  1.51it/s]Training 3/3 epoch (loss 0.0001):  79%|███████▉  | 13399/16950 [2:27:03<39:11,  1.51it/s]Training 3/3 epoch (loss 0.0001):  79%|███████▉  | 13400/16950 [2:27:03<36:33,  1.62it/s]Training 3/3 epoch (loss 0.2896):  79%|███████▉  | 13400/16950 [2:27:04<36:33,  1.62it/s]Training 3/3 epoch (loss 0.2896):  79%|███████▉  | 13401/16950 [2:27:04<41:44,  1.42it/s]Training 3/3 epoch (loss 0.4153):  79%|███████▉  | 13401/16950 [2:27:05<41:44,  1.42it/s]Training 3/3 epoch (loss 0.4153):  79%|███████▉  | 13402/16950 [2:27:05<44:42,  1.32it/s]Training 3/3 epoch (loss 0.0086):  79%|███████▉  | 13402/16950 [2:27:06<44:42,  1.32it/s]Training 3/3 epoch (loss 0.0086):  79%|███████▉  | 13403/16950 [2:27:06<43:08,  1.37it/s]Training 3/3 epoch (loss 0.4193):  79%|███████▉  | 13403/16950 [2:27:06<43:08,  1.37it/s]Training 3/3 epoch (loss 0.4193):  79%|███████▉  | 13404/16950 [2:27:06<43:29,  1.36it/s]Training 3/3 epoch (loss 0.0002):  79%|███████▉  | 13404/16950 [2:27:07<43:29,  1.36it/s]Training 3/3 epoch (loss 0.0002):  79%|███████▉  | 13405/16950 [2:27:07<37:06,  1.59it/s]Training 3/3 epoch (loss 0.0443):  79%|███████▉  | 13405/16950 [2:27:07<37:06,  1.59it/s]Training 3/3 epoch (loss 0.0443):  79%|███████▉  | 13406/16950 [2:27:07<34:30,  1.71it/s]Training 3/3 epoch (loss 0.3610):  79%|███████▉  | 13406/16950 [2:27:08<34:30,  1.71it/s]Training 3/3 epoch (loss 0.3610):  79%|███████▉  | 13407/16950 [2:27:08<41:16,  1.43it/s]Training 3/3 epoch (loss 0.5979):  79%|███████▉  | 13407/16950 [2:27:08<41:16,  1.43it/s]Training 3/3 epoch (loss 0.5979):  79%|███████▉  | 13408/16950 [2:27:08<35:22,  1.67it/s]Training 3/3 epoch (loss 0.3712):  79%|███████▉  | 13408/16950 [2:27:10<35:22,  1.67it/s]Training 3/3 epoch (loss 0.3712):  79%|███████▉  | 13409/16950 [2:27:10<44:49,  1.32it/s]Training 3/3 epoch (loss 0.0069):  79%|███████▉  | 13409/16950 [2:27:10<44:49,  1.32it/s]Training 3/3 epoch (loss 0.0069):  79%|███████▉  | 13410/16950 [2:27:10<40:21,  1.46it/s]Training 3/3 epoch (loss 0.0001):  79%|███████▉  | 13410/16950 [2:27:11<40:21,  1.46it/s]Training 3/3 epoch (loss 0.0001):  79%|███████▉  | 13411/16950 [2:27:11<38:32,  1.53it/s]Training 3/3 epoch (loss 0.1731):  79%|███████▉  | 13411/16950 [2:27:11<38:32,  1.53it/s]Training 3/3 epoch (loss 0.1731):  79%|███████▉  | 13412/16950 [2:27:11<35:23,  1.67it/s]Training 3/3 epoch (loss 0.0001):  79%|███████▉  | 13412/16950 [2:27:12<35:23,  1.67it/s]Training 3/3 epoch (loss 0.0001):  79%|███████▉  | 13413/16950 [2:27:12<34:08,  1.73it/s]Training 3/3 epoch (loss 0.1565):  79%|███████▉  | 13413/16950 [2:27:12<34:08,  1.73it/s]Training 3/3 epoch (loss 0.1565):  79%|███████▉  | 13414/16950 [2:27:12<33:46,  1.74it/s]Training 3/3 epoch (loss 0.0222):  79%|███████▉  | 13414/16950 [2:27:13<33:46,  1.74it/s]Training 3/3 epoch (loss 0.0222):  79%|███████▉  | 13415/16950 [2:27:13<33:21,  1.77it/s]Training 3/3 epoch (loss 0.0044):  79%|███████▉  | 13415/16950 [2:27:13<33:21,  1.77it/s]Training 3/3 epoch (loss 0.0044):  79%|███████▉  | 13416/16950 [2:27:13<32:36,  1.81it/s]Training 3/3 epoch (loss 0.0867):  79%|███████▉  | 13416/16950 [2:27:14<32:36,  1.81it/s]Training 3/3 epoch (loss 0.0867):  79%|███████▉  | 13417/16950 [2:27:14<39:30,  1.49it/s]Training 3/3 epoch (loss 0.3151):  79%|███████▉  | 13417/16950 [2:27:15<39:30,  1.49it/s]Training 3/3 epoch (loss 0.3151):  79%|███████▉  | 13418/16950 [2:27:15<42:28,  1.39it/s]Training 3/3 epoch (loss 0.0050):  79%|███████▉  | 13418/16950 [2:27:16<42:28,  1.39it/s]Training 3/3 epoch (loss 0.0050):  79%|███████▉  | 13419/16950 [2:27:16<42:25,  1.39it/s]Training 3/3 epoch (loss 0.0202):  79%|███████▉  | 13419/16950 [2:27:16<42:25,  1.39it/s]Training 3/3 epoch (loss 0.0202):  79%|███████▉  | 13420/16950 [2:27:16<40:32,  1.45it/s]Training 3/3 epoch (loss 0.0073):  79%|███████▉  | 13420/16950 [2:27:17<40:32,  1.45it/s]Training 3/3 epoch (loss 0.0073):  79%|███████▉  | 13421/16950 [2:27:17<38:56,  1.51it/s]Training 3/3 epoch (loss 0.2443):  79%|███████▉  | 13421/16950 [2:27:18<38:56,  1.51it/s]Training 3/3 epoch (loss 0.2443):  79%|███████▉  | 13422/16950 [2:27:18<42:25,  1.39it/s]Training 3/3 epoch (loss 0.0402):  79%|███████▉  | 13422/16950 [2:27:19<42:25,  1.39it/s]Training 3/3 epoch (loss 0.0402):  79%|███████▉  | 13423/16950 [2:27:19<40:47,  1.44it/s]Training 3/3 epoch (loss 0.0024):  79%|███████▉  | 13423/16950 [2:27:19<40:47,  1.44it/s]Training 3/3 epoch (loss 0.0024):  79%|███████▉  | 13424/16950 [2:27:19<40:30,  1.45it/s]Training 3/3 epoch (loss 0.0464):  79%|███████▉  | 13424/16950 [2:27:20<40:30,  1.45it/s]Training 3/3 epoch (loss 0.0464):  79%|███████▉  | 13425/16950 [2:27:20<36:27,  1.61it/s]Training 3/3 epoch (loss 0.0116):  79%|███████▉  | 13425/16950 [2:27:20<36:27,  1.61it/s]Training 3/3 epoch (loss 0.0116):  79%|███████▉  | 13426/16950 [2:27:20<34:47,  1.69it/s]Training 3/3 epoch (loss 0.0001):  79%|███████▉  | 13426/16950 [2:27:21<34:47,  1.69it/s]Training 3/3 epoch (loss 0.0001):  79%|███████▉  | 13427/16950 [2:27:21<34:13,  1.72it/s]Training 3/3 epoch (loss 0.0037):  79%|███████▉  | 13427/16950 [2:27:21<34:13,  1.72it/s]Training 3/3 epoch (loss 0.0037):  79%|███████▉  | 13428/16950 [2:27:21<33:21,  1.76it/s]Training 3/3 epoch (loss 0.0035):  79%|███████▉  | 13428/16950 [2:27:22<33:21,  1.76it/s]Training 3/3 epoch (loss 0.0035):  79%|███████▉  | 13429/16950 [2:27:22<32:07,  1.83it/s]Training 3/3 epoch (loss 0.0158):  79%|███████▉  | 13429/16950 [2:27:22<32:07,  1.83it/s]Training 3/3 epoch (loss 0.0158):  79%|███████▉  | 13430/16950 [2:27:22<30:15,  1.94it/s]Training 3/3 epoch (loss 0.0059):  79%|███████▉  | 13430/16950 [2:27:23<30:15,  1.94it/s]Training 3/3 epoch (loss 0.0059):  79%|███████▉  | 13431/16950 [2:27:23<32:11,  1.82it/s]Training 3/3 epoch (loss 0.3398):  79%|███████▉  | 13431/16950 [2:27:24<32:11,  1.82it/s]Training 3/3 epoch (loss 0.3398):  79%|███████▉  | 13432/16950 [2:27:24<38:50,  1.51it/s]Training 3/3 epoch (loss 0.0100):  79%|███████▉  | 13432/16950 [2:27:24<38:50,  1.51it/s]Training 3/3 epoch (loss 0.0100):  79%|███████▉  | 13433/16950 [2:27:24<36:47,  1.59it/s]Training 3/3 epoch (loss 0.0568):  79%|███████▉  | 13433/16950 [2:27:25<36:47,  1.59it/s]Training 3/3 epoch (loss 0.0568):  79%|███████▉  | 13434/16950 [2:27:25<35:00,  1.67it/s]Training 3/3 epoch (loss 0.0012):  79%|███████▉  | 13434/16950 [2:27:25<35:00,  1.67it/s]Training 3/3 epoch (loss 0.0012):  79%|███████▉  | 13435/16950 [2:27:25<33:09,  1.77it/s]Training 3/3 epoch (loss 0.0024):  79%|███████▉  | 13435/16950 [2:27:26<33:09,  1.77it/s]Training 3/3 epoch (loss 0.0024):  79%|███████▉  | 13436/16950 [2:27:26<30:56,  1.89it/s]Training 3/3 epoch (loss 0.0100):  79%|███████▉  | 13436/16950 [2:27:26<30:56,  1.89it/s]Training 3/3 epoch (loss 0.0100):  79%|███████▉  | 13437/16950 [2:27:26<29:58,  1.95it/s]Training 3/3 epoch (loss 0.0285):  79%|███████▉  | 13437/16950 [2:27:27<29:58,  1.95it/s]Training 3/3 epoch (loss 0.0285):  79%|███████▉  | 13438/16950 [2:27:27<31:00,  1.89it/s]Training 3/3 epoch (loss 0.0649):  79%|███████▉  | 13438/16950 [2:27:28<31:00,  1.89it/s]Training 3/3 epoch (loss 0.0649):  79%|███████▉  | 13439/16950 [2:27:28<34:51,  1.68it/s]Training 3/3 epoch (loss 0.1197):  79%|███████▉  | 13439/16950 [2:27:28<34:51,  1.68it/s]Training 3/3 epoch (loss 0.1197):  79%|███████▉  | 13440/16950 [2:27:28<32:17,  1.81it/s]Training 3/3 epoch (loss 0.4991):  79%|███████▉  | 13440/16950 [2:27:29<32:17,  1.81it/s]Training 3/3 epoch (loss 0.4991):  79%|███████▉  | 13441/16950 [2:27:29<30:49,  1.90it/s]Training 3/3 epoch (loss 0.4077):  79%|███████▉  | 13441/16950 [2:27:29<30:49,  1.90it/s]Training 3/3 epoch (loss 0.4077):  79%|███████▉  | 13442/16950 [2:27:29<36:28,  1.60it/s]Training 3/3 epoch (loss 0.1349):  79%|███████▉  | 13442/16950 [2:27:30<36:28,  1.60it/s]Training 3/3 epoch (loss 0.1349):  79%|███████▉  | 13443/16950 [2:27:30<36:32,  1.60it/s]Training 3/3 epoch (loss 0.0001):  79%|███████▉  | 13443/16950 [2:27:31<36:32,  1.60it/s]Training 3/3 epoch (loss 0.0001):  79%|███████▉  | 13444/16950 [2:27:31<34:24,  1.70it/s]Training 3/3 epoch (loss 0.0449):  79%|███████▉  | 13444/16950 [2:27:31<34:24,  1.70it/s]Training 3/3 epoch (loss 0.0449):  79%|███████▉  | 13445/16950 [2:27:31<35:14,  1.66it/s]Training 3/3 epoch (loss 0.1251):  79%|███████▉  | 13445/16950 [2:27:32<35:14,  1.66it/s]Training 3/3 epoch (loss 0.1251):  79%|███████▉  | 13446/16950 [2:27:32<36:22,  1.61it/s]Training 3/3 epoch (loss 0.0083):  79%|███████▉  | 13446/16950 [2:27:33<36:22,  1.61it/s]Training 3/3 epoch (loss 0.0083):  79%|███████▉  | 13447/16950 [2:27:33<39:02,  1.50it/s]Training 3/3 epoch (loss 0.2204):  79%|███████▉  | 13447/16950 [2:27:33<39:02,  1.50it/s]Training 3/3 epoch (loss 0.2204):  79%|███████▉  | 13448/16950 [2:27:33<42:39,  1.37it/s]Training 3/3 epoch (loss 0.0476):  79%|███████▉  | 13448/16950 [2:27:34<42:39,  1.37it/s]Training 3/3 epoch (loss 0.0476):  79%|███████▉  | 13449/16950 [2:27:34<40:04,  1.46it/s]Training 3/3 epoch (loss 0.0005):  79%|███████▉  | 13449/16950 [2:27:35<40:04,  1.46it/s]Training 3/3 epoch (loss 0.0005):  79%|███████▉  | 13450/16950 [2:27:35<36:48,  1.58it/s]Training 3/3 epoch (loss 0.0020):  79%|███████▉  | 13450/16950 [2:27:35<36:48,  1.58it/s]Training 3/3 epoch (loss 0.0020):  79%|███████▉  | 13451/16950 [2:27:35<33:51,  1.72it/s]Training 3/3 epoch (loss 0.1185):  79%|███████▉  | 13451/16950 [2:27:36<33:51,  1.72it/s]Training 3/3 epoch (loss 0.1185):  79%|███████▉  | 13452/16950 [2:27:36<35:53,  1.62it/s]Training 3/3 epoch (loss 0.3776):  79%|███████▉  | 13452/16950 [2:27:36<35:53,  1.62it/s]Training 3/3 epoch (loss 0.3776):  79%|███████▉  | 13453/16950 [2:27:36<37:20,  1.56it/s]Training 3/3 epoch (loss 0.0026):  79%|███████▉  | 13453/16950 [2:27:37<37:20,  1.56it/s]Training 3/3 epoch (loss 0.0026):  79%|███████▉  | 13454/16950 [2:27:37<35:18,  1.65it/s]Training 3/3 epoch (loss 0.0016):  79%|███████▉  | 13454/16950 [2:27:37<35:18,  1.65it/s]Training 3/3 epoch (loss 0.0016):  79%|███████▉  | 13455/16950 [2:27:37<34:18,  1.70it/s]Training 3/3 epoch (loss 0.1671):  79%|███████▉  | 13455/16950 [2:27:38<34:18,  1.70it/s]Training 3/3 epoch (loss 0.1671):  79%|███████▉  | 13456/16950 [2:27:38<32:52,  1.77it/s]Training 3/3 epoch (loss 0.0003):  79%|███████▉  | 13456/16950 [2:27:39<32:52,  1.77it/s]Training 3/3 epoch (loss 0.0003):  79%|███████▉  | 13457/16950 [2:27:39<32:36,  1.79it/s]Training 3/3 epoch (loss 0.0114):  79%|███████▉  | 13457/16950 [2:27:39<32:36,  1.79it/s]Training 3/3 epoch (loss 0.0114):  79%|███████▉  | 13458/16950 [2:27:39<30:26,  1.91it/s]Training 3/3 epoch (loss 0.0017):  79%|███████▉  | 13458/16950 [2:27:40<30:26,  1.91it/s]Training 3/3 epoch (loss 0.0017):  79%|███████▉  | 13459/16950 [2:27:40<38:23,  1.52it/s]Training 3/3 epoch (loss 0.0048):  79%|███████▉  | 13459/16950 [2:27:41<38:23,  1.52it/s]Training 3/3 epoch (loss 0.0048):  79%|███████▉  | 13460/16950 [2:27:41<40:04,  1.45it/s]Training 3/3 epoch (loss 0.0172):  79%|███████▉  | 13460/16950 [2:27:41<40:04,  1.45it/s]Training 3/3 epoch (loss 0.0172):  79%|███████▉  | 13461/16950 [2:27:41<39:42,  1.46it/s]Training 3/3 epoch (loss 0.2353):  79%|███████▉  | 13461/16950 [2:27:42<39:42,  1.46it/s]Training 3/3 epoch (loss 0.2353):  79%|███████▉  | 13462/16950 [2:27:42<37:23,  1.56it/s]Training 3/3 epoch (loss 0.1862):  79%|███████▉  | 13462/16950 [2:27:42<37:23,  1.56it/s]Training 3/3 epoch (loss 0.1862):  79%|███████▉  | 13463/16950 [2:27:42<33:26,  1.74it/s]Training 3/3 epoch (loss 0.2856):  79%|███████▉  | 13463/16950 [2:27:43<33:26,  1.74it/s]Training 3/3 epoch (loss 0.2856):  79%|███████▉  | 13464/16950 [2:27:43<36:40,  1.58it/s]Training 3/3 epoch (loss 0.4484):  79%|███████▉  | 13464/16950 [2:27:44<36:40,  1.58it/s]Training 3/3 epoch (loss 0.4484):  79%|███████▉  | 13465/16950 [2:27:44<32:44,  1.77it/s]Training 3/3 epoch (loss 0.0084):  79%|███████▉  | 13465/16950 [2:27:44<32:44,  1.77it/s]Training 3/3 epoch (loss 0.0084):  79%|███████▉  | 13466/16950 [2:27:44<35:01,  1.66it/s]Training 3/3 epoch (loss 0.0096):  79%|███████▉  | 13466/16950 [2:27:45<35:01,  1.66it/s]Training 3/3 epoch (loss 0.0096):  79%|███████▉  | 13467/16950 [2:27:45<34:34,  1.68it/s]Training 3/3 epoch (loss 0.2234):  79%|███████▉  | 13467/16950 [2:27:45<34:34,  1.68it/s]Training 3/3 epoch (loss 0.2234):  79%|███████▉  | 13468/16950 [2:27:45<31:48,  1.82it/s]Training 3/3 epoch (loss 0.0733):  79%|███████▉  | 13468/16950 [2:27:46<31:48,  1.82it/s]Training 3/3 epoch (loss 0.0733):  79%|███████▉  | 13469/16950 [2:27:46<33:09,  1.75it/s]Training 3/3 epoch (loss 0.0032):  79%|███████▉  | 13469/16950 [2:27:47<33:09,  1.75it/s]Training 3/3 epoch (loss 0.0032):  79%|███████▉  | 13470/16950 [2:27:47<34:36,  1.68it/s]Training 3/3 epoch (loss 0.0002):  79%|███████▉  | 13470/16950 [2:27:47<34:36,  1.68it/s]Training 3/3 epoch (loss 0.0002):  79%|███████▉  | 13471/16950 [2:27:47<36:49,  1.57it/s]Training 3/3 epoch (loss 0.0001):  79%|███████▉  | 13471/16950 [2:27:48<36:49,  1.57it/s]Training 3/3 epoch (loss 0.0001):  79%|███████▉  | 13472/16950 [2:27:48<34:38,  1.67it/s]Training 3/3 epoch (loss 0.9318):  79%|███████▉  | 13472/16950 [2:27:49<34:38,  1.67it/s]Training 3/3 epoch (loss 0.9318):  79%|███████▉  | 13473/16950 [2:27:49<39:00,  1.49it/s]Training 3/3 epoch (loss 0.0169):  79%|███████▉  | 13473/16950 [2:27:49<39:00,  1.49it/s]Training 3/3 epoch (loss 0.0169):  79%|███████▉  | 13474/16950 [2:27:49<41:26,  1.40it/s]Training 3/3 epoch (loss 0.3835):  79%|███████▉  | 13474/16950 [2:27:50<41:26,  1.40it/s]Training 3/3 epoch (loss 0.3835):  79%|███████▉  | 13475/16950 [2:27:50<46:21,  1.25it/s]Training 3/3 epoch (loss 0.0203):  79%|███████▉  | 13475/16950 [2:27:51<46:21,  1.25it/s]Training 3/3 epoch (loss 0.0203):  80%|███████▉  | 13476/16950 [2:27:51<46:37,  1.24it/s]Training 3/3 epoch (loss 0.0001):  80%|███████▉  | 13476/16950 [2:27:52<46:37,  1.24it/s]Training 3/3 epoch (loss 0.0001):  80%|███████▉  | 13477/16950 [2:27:52<41:53,  1.38it/s]Training 3/3 epoch (loss 0.0089):  80%|███████▉  | 13477/16950 [2:27:52<41:53,  1.38it/s]Training 3/3 epoch (loss 0.0089):  80%|███████▉  | 13478/16950 [2:27:52<37:50,  1.53it/s]Training 3/3 epoch (loss 0.0001):  80%|███████▉  | 13478/16950 [2:27:53<37:50,  1.53it/s]Training 3/3 epoch (loss 0.0001):  80%|███████▉  | 13479/16950 [2:27:53<37:33,  1.54it/s]Training 3/3 epoch (loss 0.1598):  80%|███████▉  | 13479/16950 [2:27:53<37:33,  1.54it/s]Training 3/3 epoch (loss 0.1598):  80%|███████▉  | 13480/16950 [2:27:53<35:28,  1.63it/s]Training 3/3 epoch (loss 0.0724):  80%|███████▉  | 13480/16950 [2:27:54<35:28,  1.63it/s]Training 3/3 epoch (loss 0.0724):  80%|███████▉  | 13481/16950 [2:27:54<36:22,  1.59it/s]Training 3/3 epoch (loss 0.3013):  80%|███████▉  | 13481/16950 [2:27:55<36:22,  1.59it/s]Training 3/3 epoch (loss 0.3013):  80%|███████▉  | 13482/16950 [2:27:55<33:27,  1.73it/s]Training 3/3 epoch (loss 0.0265):  80%|███████▉  | 13482/16950 [2:27:55<33:27,  1.73it/s]Training 3/3 epoch (loss 0.0265):  80%|███████▉  | 13483/16950 [2:27:55<32:24,  1.78it/s]Training 3/3 epoch (loss 0.0070):  80%|███████▉  | 13483/16950 [2:27:56<32:24,  1.78it/s]Training 3/3 epoch (loss 0.0070):  80%|███████▉  | 13484/16950 [2:27:56<33:20,  1.73it/s]Training 3/3 epoch (loss 0.0014):  80%|███████▉  | 13484/16950 [2:27:56<33:20,  1.73it/s]Training 3/3 epoch (loss 0.0014):  80%|███████▉  | 13485/16950 [2:27:56<32:30,  1.78it/s]Training 3/3 epoch (loss 0.0016):  80%|███████▉  | 13485/16950 [2:27:57<32:30,  1.78it/s]Training 3/3 epoch (loss 0.0016):  80%|███████▉  | 13486/16950 [2:27:57<32:09,  1.80it/s]Training 3/3 epoch (loss 0.1428):  80%|███████▉  | 13486/16950 [2:27:57<32:09,  1.80it/s]Training 3/3 epoch (loss 0.1428):  80%|███████▉  | 13487/16950 [2:27:57<31:24,  1.84it/s]Training 3/3 epoch (loss 0.0002):  80%|███████▉  | 13487/16950 [2:27:58<31:24,  1.84it/s]Training 3/3 epoch (loss 0.0002):  80%|███████▉  | 13488/16950 [2:27:58<32:01,  1.80it/s]Training 3/3 epoch (loss 0.1398):  80%|███████▉  | 13488/16950 [2:27:59<32:01,  1.80it/s]Training 3/3 epoch (loss 0.1398):  80%|███████▉  | 13489/16950 [2:27:59<34:40,  1.66it/s]Training 3/3 epoch (loss 0.0077):  80%|███████▉  | 13489/16950 [2:27:59<34:40,  1.66it/s]Training 3/3 epoch (loss 0.0077):  80%|███████▉  | 13490/16950 [2:27:59<39:43,  1.45it/s]Training 3/3 epoch (loss 0.1708):  80%|███████▉  | 13490/16950 [2:28:00<39:43,  1.45it/s]Training 3/3 epoch (loss 0.1708):  80%|███████▉  | 13491/16950 [2:28:00<35:28,  1.62it/s]Training 3/3 epoch (loss 0.0001):  80%|███████▉  | 13491/16950 [2:28:00<35:28,  1.62it/s]Training 3/3 epoch (loss 0.0001):  80%|███████▉  | 13492/16950 [2:28:00<33:02,  1.74it/s]Training 3/3 epoch (loss 0.1287):  80%|███████▉  | 13492/16950 [2:28:01<33:02,  1.74it/s]Training 3/3 epoch (loss 0.1287):  80%|███████▉  | 13493/16950 [2:28:01<32:34,  1.77it/s]Training 3/3 epoch (loss 0.2071):  80%|███████▉  | 13493/16950 [2:28:01<32:34,  1.77it/s]Training 3/3 epoch (loss 0.2071):  80%|███████▉  | 13494/16950 [2:28:01<30:14,  1.90it/s]Training 3/3 epoch (loss 0.1376):  80%|███████▉  | 13494/16950 [2:28:02<30:14,  1.90it/s]Training 3/3 epoch (loss 0.1376):  80%|███████▉  | 13495/16950 [2:28:02<32:53,  1.75it/s]Training 3/3 epoch (loss 0.0001):  80%|███████▉  | 13495/16950 [2:28:03<32:53,  1.75it/s]Training 3/3 epoch (loss 0.0001):  80%|███████▉  | 13496/16950 [2:28:03<32:52,  1.75it/s]Training 3/3 epoch (loss 0.3548):  80%|███████▉  | 13496/16950 [2:28:03<32:52,  1.75it/s]Training 3/3 epoch (loss 0.3548):  80%|███████▉  | 13497/16950 [2:28:03<32:38,  1.76it/s]Training 3/3 epoch (loss 0.3484):  80%|███████▉  | 13497/16950 [2:28:04<32:38,  1.76it/s]Training 3/3 epoch (loss 0.3484):  80%|███████▉  | 13498/16950 [2:28:04<34:12,  1.68it/s]Training 3/3 epoch (loss 0.0002):  80%|███████▉  | 13498/16950 [2:28:04<34:12,  1.68it/s]Training 3/3 epoch (loss 0.0002):  80%|███████▉  | 13499/16950 [2:28:04<33:24,  1.72it/s]Training 3/3 epoch (loss 0.2618):  80%|███████▉  | 13499/16950 [2:28:05<33:24,  1.72it/s]Training 3/3 epoch (loss 0.2618):  80%|███████▉  | 13500/16950 [2:28:05<33:10,  1.73it/s]Training 3/3 epoch (loss 0.1929):  80%|███████▉  | 13500/16950 [2:28:05<33:10,  1.73it/s]Training 3/3 epoch (loss 0.1929):  80%|███████▉  | 13501/16950 [2:28:05<31:55,  1.80it/s]Training 3/3 epoch (loss 0.0001):  80%|███████▉  | 13501/16950 [2:28:06<31:55,  1.80it/s]Training 3/3 epoch (loss 0.0001):  80%|███████▉  | 13502/16950 [2:28:06<31:09,  1.84it/s]Training 3/3 epoch (loss 0.0399):  80%|███████▉  | 13502/16950 [2:28:06<31:09,  1.84it/s]Training 3/3 epoch (loss 0.0399):  80%|███████▉  | 13503/16950 [2:28:06<29:58,  1.92it/s]Training 3/3 epoch (loss 0.0469):  80%|███████▉  | 13503/16950 [2:28:07<29:58,  1.92it/s]Training 3/3 epoch (loss 0.0469):  80%|███████▉  | 13504/16950 [2:28:07<29:15,  1.96it/s]Training 3/3 epoch (loss 0.0014):  80%|███████▉  | 13504/16950 [2:28:08<29:15,  1.96it/s]Training 3/3 epoch (loss 0.0014):  80%|███████▉  | 13505/16950 [2:28:08<31:32,  1.82it/s]Training 3/3 epoch (loss 0.2503):  80%|███████▉  | 13505/16950 [2:28:08<31:32,  1.82it/s]Training 3/3 epoch (loss 0.2503):  80%|███████▉  | 13506/16950 [2:28:08<31:22,  1.83it/s]Training 3/3 epoch (loss 0.5334):  80%|███████▉  | 13506/16950 [2:28:09<31:22,  1.83it/s]Training 3/3 epoch (loss 0.5334):  80%|███████▉  | 13507/16950 [2:28:09<42:02,  1.36it/s]Training 3/3 epoch (loss 0.0052):  80%|███████▉  | 13507/16950 [2:28:10<42:02,  1.36it/s]Training 3/3 epoch (loss 0.0052):  80%|███████▉  | 13508/16950 [2:28:10<38:34,  1.49it/s]Training 3/3 epoch (loss 0.0656):  80%|███████▉  | 13508/16950 [2:28:10<38:34,  1.49it/s]Training 3/3 epoch (loss 0.0656):  80%|███████▉  | 13509/16950 [2:28:10<34:03,  1.68it/s]Training 3/3 epoch (loss 0.7563):  80%|███████▉  | 13509/16950 [2:28:11<34:03,  1.68it/s]Training 3/3 epoch (loss 0.7563):  80%|███████▉  | 13510/16950 [2:28:11<37:04,  1.55it/s]Training 3/3 epoch (loss 0.0262):  80%|███████▉  | 13510/16950 [2:28:12<37:04,  1.55it/s]Training 3/3 epoch (loss 0.0262):  80%|███████▉  | 13511/16950 [2:28:12<38:31,  1.49it/s]Training 3/3 epoch (loss 0.0012):  80%|███████▉  | 13511/16950 [2:28:12<38:31,  1.49it/s]Training 3/3 epoch (loss 0.0012):  80%|███████▉  | 13512/16950 [2:28:12<34:44,  1.65it/s]Training 3/3 epoch (loss 0.0631):  80%|███████▉  | 13512/16950 [2:28:13<34:44,  1.65it/s]Training 3/3 epoch (loss 0.0631):  80%|███████▉  | 13513/16950 [2:28:13<33:26,  1.71it/s]Training 3/3 epoch (loss 0.0083):  80%|███████▉  | 13513/16950 [2:28:13<33:26,  1.71it/s]Training 3/3 epoch (loss 0.0083):  80%|███████▉  | 13514/16950 [2:28:13<34:26,  1.66it/s]Training 3/3 epoch (loss 0.0071):  80%|███████▉  | 13514/16950 [2:28:14<34:26,  1.66it/s]Training 3/3 epoch (loss 0.0071):  80%|███████▉  | 13515/16950 [2:28:14<35:43,  1.60it/s]Training 3/3 epoch (loss 0.1446):  80%|███████▉  | 13515/16950 [2:28:15<35:43,  1.60it/s]Training 3/3 epoch (loss 0.1446):  80%|███████▉  | 13516/16950 [2:28:15<35:21,  1.62it/s]Training 3/3 epoch (loss 0.0274):  80%|███████▉  | 13516/16950 [2:28:15<35:21,  1.62it/s]Training 3/3 epoch (loss 0.0274):  80%|███████▉  | 13517/16950 [2:28:15<33:33,  1.70it/s]Training 3/3 epoch (loss 0.1771):  80%|███████▉  | 13517/16950 [2:28:16<33:33,  1.70it/s]Training 3/3 epoch (loss 0.1771):  80%|███████▉  | 13518/16950 [2:28:16<30:49,  1.86it/s]Training 3/3 epoch (loss 0.0001):  80%|███████▉  | 13518/16950 [2:28:16<30:49,  1.86it/s]Training 3/3 epoch (loss 0.0001):  80%|███████▉  | 13519/16950 [2:28:16<28:02,  2.04it/s]Training 3/3 epoch (loss 0.4206):  80%|███████▉  | 13519/16950 [2:28:17<28:02,  2.04it/s]Training 3/3 epoch (loss 0.4206):  80%|███████▉  | 13520/16950 [2:28:17<30:18,  1.89it/s]Training 3/3 epoch (loss 0.0587):  80%|███████▉  | 13520/16950 [2:28:17<30:18,  1.89it/s]Training 3/3 epoch (loss 0.0587):  80%|███████▉  | 13521/16950 [2:28:17<33:02,  1.73it/s]Training 3/3 epoch (loss 0.0654):  80%|███████▉  | 13521/16950 [2:28:18<33:02,  1.73it/s]Training 3/3 epoch (loss 0.0654):  80%|███████▉  | 13522/16950 [2:28:18<34:42,  1.65it/s]Training 3/3 epoch (loss 0.1741):  80%|███████▉  | 13522/16950 [2:28:19<34:42,  1.65it/s]Training 3/3 epoch (loss 0.1741):  80%|███████▉  | 13523/16950 [2:28:19<36:52,  1.55it/s]Training 3/3 epoch (loss 0.3014):  80%|███████▉  | 13523/16950 [2:28:19<36:52,  1.55it/s]Training 3/3 epoch (loss 0.3014):  80%|███████▉  | 13524/16950 [2:28:19<35:37,  1.60it/s]Training 3/3 epoch (loss 0.0002):  80%|███████▉  | 13524/16950 [2:28:20<35:37,  1.60it/s]Training 3/3 epoch (loss 0.0002):  80%|███████▉  | 13525/16950 [2:28:20<36:15,  1.57it/s]Training 3/3 epoch (loss 0.0122):  80%|███████▉  | 13525/16950 [2:28:21<36:15,  1.57it/s]Training 3/3 epoch (loss 0.0122):  80%|███████▉  | 13526/16950 [2:28:21<36:41,  1.56it/s]Training 3/3 epoch (loss 0.2052):  80%|███████▉  | 13526/16950 [2:28:21<36:41,  1.56it/s]Training 3/3 epoch (loss 0.2052):  80%|███████▉  | 13527/16950 [2:28:21<35:17,  1.62it/s]Training 3/3 epoch (loss 0.0014):  80%|███████▉  | 13527/16950 [2:28:22<35:17,  1.62it/s]Training 3/3 epoch (loss 0.0014):  80%|███████▉  | 13528/16950 [2:28:22<33:48,  1.69it/s]Training 3/3 epoch (loss 0.0570):  80%|███████▉  | 13528/16950 [2:28:22<33:48,  1.69it/s]Training 3/3 epoch (loss 0.0570):  80%|███████▉  | 13529/16950 [2:28:22<33:42,  1.69it/s]Training 3/3 epoch (loss 0.0343):  80%|███████▉  | 13529/16950 [2:28:23<33:42,  1.69it/s]Training 3/3 epoch (loss 0.0343):  80%|███████▉  | 13530/16950 [2:28:23<33:58,  1.68it/s]Training 3/3 epoch (loss 0.3694):  80%|███████▉  | 13530/16950 [2:28:24<33:58,  1.68it/s]Training 3/3 epoch (loss 0.3694):  80%|███████▉  | 13531/16950 [2:28:24<36:24,  1.57it/s]Training 3/3 epoch (loss 0.0051):  80%|███████▉  | 13531/16950 [2:28:24<36:24,  1.57it/s]Training 3/3 epoch (loss 0.0051):  80%|███████▉  | 13532/16950 [2:28:24<35:38,  1.60it/s]Training 3/3 epoch (loss 0.0188):  80%|███████▉  | 13532/16950 [2:28:25<35:38,  1.60it/s]Training 3/3 epoch (loss 0.0188):  80%|███████▉  | 13533/16950 [2:28:25<32:25,  1.76it/s]Training 3/3 epoch (loss 0.7530):  80%|███████▉  | 13533/16950 [2:28:25<32:25,  1.76it/s]Training 3/3 epoch (loss 0.7530):  80%|███████▉  | 13534/16950 [2:28:25<31:27,  1.81it/s]Training 3/3 epoch (loss 0.0015):  80%|███████▉  | 13534/16950 [2:28:26<31:27,  1.81it/s]Training 3/3 epoch (loss 0.0015):  80%|███████▉  | 13535/16950 [2:28:26<32:44,  1.74it/s]Training 3/3 epoch (loss 0.4604):  80%|███████▉  | 13535/16950 [2:28:26<32:44,  1.74it/s]Training 3/3 epoch (loss 0.4604):  80%|███████▉  | 13536/16950 [2:28:26<34:33,  1.65it/s]Training 3/3 epoch (loss 0.0415):  80%|███████▉  | 13536/16950 [2:28:27<34:33,  1.65it/s]Training 3/3 epoch (loss 0.0415):  80%|███████▉  | 13537/16950 [2:28:27<32:10,  1.77it/s]Training 3/3 epoch (loss 0.4462):  80%|███████▉  | 13537/16950 [2:28:28<32:10,  1.77it/s]Training 3/3 epoch (loss 0.4462):  80%|███████▉  | 13538/16950 [2:28:28<35:43,  1.59it/s]Training 3/3 epoch (loss 0.1875):  80%|███████▉  | 13538/16950 [2:28:28<35:43,  1.59it/s]Training 3/3 epoch (loss 0.1875):  80%|███████▉  | 13539/16950 [2:28:28<31:59,  1.78it/s]Training 3/3 epoch (loss 0.5258):  80%|███████▉  | 13539/16950 [2:28:28<31:59,  1.78it/s]Training 3/3 epoch (loss 0.5258):  80%|███████▉  | 13540/16950 [2:28:28<28:21,  2.00it/s]Training 3/3 epoch (loss 0.0019):  80%|███████▉  | 13540/16950 [2:28:29<28:21,  2.00it/s]Training 3/3 epoch (loss 0.0019):  80%|███████▉  | 13541/16950 [2:28:29<29:40,  1.91it/s]Training 3/3 epoch (loss 0.1788):  80%|███████▉  | 13541/16950 [2:28:30<29:40,  1.91it/s]Training 3/3 epoch (loss 0.1788):  80%|███████▉  | 13542/16950 [2:28:30<30:26,  1.87it/s]Training 3/3 epoch (loss 0.0204):  80%|███████▉  | 13542/16950 [2:28:30<30:26,  1.87it/s]Training 3/3 epoch (loss 0.0204):  80%|███████▉  | 13543/16950 [2:28:30<28:18,  2.01it/s]Training 3/3 epoch (loss 0.0005):  80%|███████▉  | 13543/16950 [2:28:31<28:18,  2.01it/s]Training 3/3 epoch (loss 0.0005):  80%|███████▉  | 13544/16950 [2:28:31<30:12,  1.88it/s]Training 3/3 epoch (loss 0.0017):  80%|███████▉  | 13544/16950 [2:28:31<30:12,  1.88it/s]Training 3/3 epoch (loss 0.0017):  80%|███████▉  | 13545/16950 [2:28:31<29:25,  1.93it/s]Training 3/3 epoch (loss 0.0194):  80%|███████▉  | 13545/16950 [2:28:32<29:25,  1.93it/s]Training 3/3 epoch (loss 0.0194):  80%|███████▉  | 13546/16950 [2:28:32<35:37,  1.59it/s]Training 3/3 epoch (loss 0.0087):  80%|███████▉  | 13546/16950 [2:28:33<35:37,  1.59it/s]Training 3/3 epoch (loss 0.0087):  80%|███████▉  | 13547/16950 [2:28:33<34:02,  1.67it/s]Training 3/3 epoch (loss 0.2144):  80%|███████▉  | 13547/16950 [2:28:33<34:02,  1.67it/s]Training 3/3 epoch (loss 0.2144):  80%|███████▉  | 13548/16950 [2:28:33<30:40,  1.85it/s]Training 3/3 epoch (loss 0.2311):  80%|███████▉  | 13548/16950 [2:28:34<30:40,  1.85it/s]Training 3/3 epoch (loss 0.2311):  80%|███████▉  | 13549/16950 [2:28:34<35:23,  1.60it/s]Training 3/3 epoch (loss 0.0136):  80%|███████▉  | 13549/16950 [2:28:34<35:23,  1.60it/s]Training 3/3 epoch (loss 0.0136):  80%|███████▉  | 13550/16950 [2:28:34<35:29,  1.60it/s]Training 3/3 epoch (loss 0.2052):  80%|███████▉  | 13550/16950 [2:28:35<35:29,  1.60it/s]Training 3/3 epoch (loss 0.2052):  80%|███████▉  | 13551/16950 [2:28:35<31:49,  1.78it/s]Training 3/3 epoch (loss 0.0794):  80%|███████▉  | 13551/16950 [2:28:35<31:49,  1.78it/s]Training 3/3 epoch (loss 0.0794):  80%|███████▉  | 13552/16950 [2:28:35<32:36,  1.74it/s]Training 3/3 epoch (loss 0.4546):  80%|███████▉  | 13552/16950 [2:28:36<32:36,  1.74it/s]Training 3/3 epoch (loss 0.4546):  80%|███████▉  | 13553/16950 [2:28:36<30:58,  1.83it/s]Training 3/3 epoch (loss 0.3959):  80%|███████▉  | 13553/16950 [2:28:36<30:58,  1.83it/s]Training 3/3 epoch (loss 0.3959):  80%|███████▉  | 13554/16950 [2:28:36<29:11,  1.94it/s]Training 3/3 epoch (loss 0.0016):  80%|███████▉  | 13554/16950 [2:28:37<29:11,  1.94it/s]Training 3/3 epoch (loss 0.0016):  80%|███████▉  | 13555/16950 [2:28:37<27:48,  2.04it/s]Training 3/3 epoch (loss 0.0012):  80%|███████▉  | 13555/16950 [2:28:37<27:48,  2.04it/s]Training 3/3 epoch (loss 0.0012):  80%|███████▉  | 13556/16950 [2:28:37<28:57,  1.95it/s]Training 3/3 epoch (loss 0.2129):  80%|███████▉  | 13556/16950 [2:28:38<28:57,  1.95it/s]Training 3/3 epoch (loss 0.2129):  80%|███████▉  | 13557/16950 [2:28:38<28:07,  2.01it/s]Training 3/3 epoch (loss 0.5335):  80%|███████▉  | 13557/16950 [2:28:38<28:07,  2.01it/s]Training 3/3 epoch (loss 0.5335):  80%|███████▉  | 13558/16950 [2:28:38<31:27,  1.80it/s]Training 3/3 epoch (loss 0.3247):  80%|███████▉  | 13558/16950 [2:28:39<31:27,  1.80it/s]Training 3/3 epoch (loss 0.3247):  80%|███████▉  | 13559/16950 [2:28:39<34:08,  1.66it/s]Training 3/3 epoch (loss 0.2724):  80%|███████▉  | 13559/16950 [2:28:40<34:08,  1.66it/s]Training 3/3 epoch (loss 0.2724):  80%|████████  | 13560/16950 [2:28:40<34:54,  1.62it/s]Training 3/3 epoch (loss 0.0094):  80%|████████  | 13560/16950 [2:28:40<34:54,  1.62it/s]Training 3/3 epoch (loss 0.0094):  80%|████████  | 13561/16950 [2:28:40<35:45,  1.58it/s]Training 3/3 epoch (loss 0.1176):  80%|████████  | 13561/16950 [2:28:41<35:45,  1.58it/s]Training 3/3 epoch (loss 0.1176):  80%|████████  | 13562/16950 [2:28:41<33:24,  1.69it/s]Training 3/3 epoch (loss 0.5379):  80%|████████  | 13562/16950 [2:28:42<33:24,  1.69it/s]Training 3/3 epoch (loss 0.5379):  80%|████████  | 13563/16950 [2:28:42<36:08,  1.56it/s]Training 3/3 epoch (loss 0.0031):  80%|████████  | 13563/16950 [2:28:42<36:08,  1.56it/s]Training 3/3 epoch (loss 0.0031):  80%|████████  | 13564/16950 [2:28:42<34:30,  1.64it/s]Training 3/3 epoch (loss 0.0073):  80%|████████  | 13564/16950 [2:28:43<34:30,  1.64it/s]Training 3/3 epoch (loss 0.0073):  80%|████████  | 13565/16950 [2:28:43<32:04,  1.76it/s]Training 3/3 epoch (loss 0.0031):  80%|████████  | 13565/16950 [2:28:43<32:04,  1.76it/s]Training 3/3 epoch (loss 0.0031):  80%|████████  | 13566/16950 [2:28:43<31:54,  1.77it/s]Training 3/3 epoch (loss 0.0057):  80%|████████  | 13566/16950 [2:28:44<31:54,  1.77it/s]Training 3/3 epoch (loss 0.0057):  80%|████████  | 13567/16950 [2:28:44<32:07,  1.76it/s]Training 3/3 epoch (loss 0.6315):  80%|████████  | 13567/16950 [2:28:45<32:07,  1.76it/s]Training 3/3 epoch (loss 0.6315):  80%|████████  | 13568/16950 [2:28:45<41:17,  1.37it/s]Training 3/3 epoch (loss 0.3256):  80%|████████  | 13568/16950 [2:28:46<41:17,  1.37it/s]Training 3/3 epoch (loss 0.3256):  80%|████████  | 13569/16950 [2:28:46<40:50,  1.38it/s]Training 3/3 epoch (loss 0.0162):  80%|████████  | 13569/16950 [2:28:46<40:50,  1.38it/s]Training 3/3 epoch (loss 0.0162):  80%|████████  | 13570/16950 [2:28:46<34:27,  1.63it/s]Training 3/3 epoch (loss 0.0023):  80%|████████  | 13570/16950 [2:28:46<34:27,  1.63it/s]Training 3/3 epoch (loss 0.0023):  80%|████████  | 13571/16950 [2:28:46<31:14,  1.80it/s]Training 3/3 epoch (loss 0.0315):  80%|████████  | 13571/16950 [2:28:47<31:14,  1.80it/s]Training 3/3 epoch (loss 0.0315):  80%|████████  | 13572/16950 [2:28:47<32:13,  1.75it/s]Training 3/3 epoch (loss 0.0546):  80%|████████  | 13572/16950 [2:28:48<32:13,  1.75it/s]Training 3/3 epoch (loss 0.0546):  80%|████████  | 13573/16950 [2:28:48<30:49,  1.83it/s]Training 3/3 epoch (loss 0.2249):  80%|████████  | 13573/16950 [2:28:48<30:49,  1.83it/s]Training 3/3 epoch (loss 0.2249):  80%|████████  | 13574/16950 [2:28:48<32:39,  1.72it/s]Training 3/3 epoch (loss 0.0349):  80%|████████  | 13574/16950 [2:28:49<32:39,  1.72it/s]Training 3/3 epoch (loss 0.0349):  80%|████████  | 13575/16950 [2:28:49<35:38,  1.58it/s]Training 3/3 epoch (loss 0.2426):  80%|████████  | 13575/16950 [2:28:50<35:38,  1.58it/s]Training 3/3 epoch (loss 0.2426):  80%|████████  | 13576/16950 [2:28:50<37:22,  1.50it/s]Training 3/3 epoch (loss 0.0002):  80%|████████  | 13576/16950 [2:28:50<37:22,  1.50it/s]Training 3/3 epoch (loss 0.0002):  80%|████████  | 13577/16950 [2:28:50<35:54,  1.57it/s]Training 3/3 epoch (loss 0.0012):  80%|████████  | 13577/16950 [2:28:51<35:54,  1.57it/s]Training 3/3 epoch (loss 0.0012):  80%|████████  | 13578/16950 [2:28:51<32:52,  1.71it/s]Training 3/3 epoch (loss 0.0299):  80%|████████  | 13578/16950 [2:28:51<32:52,  1.71it/s]Training 3/3 epoch (loss 0.0299):  80%|████████  | 13579/16950 [2:28:51<31:50,  1.76it/s]Training 3/3 epoch (loss 0.0151):  80%|████████  | 13579/16950 [2:28:52<31:50,  1.76it/s]Training 3/3 epoch (loss 0.0151):  80%|████████  | 13580/16950 [2:28:52<29:55,  1.88it/s]Training 3/3 epoch (loss 0.0197):  80%|████████  | 13580/16950 [2:28:52<29:55,  1.88it/s]Training 3/3 epoch (loss 0.0197):  80%|████████  | 13581/16950 [2:28:52<29:42,  1.89it/s]Training 3/3 epoch (loss 0.5877):  80%|████████  | 13581/16950 [2:28:53<29:42,  1.89it/s]Training 3/3 epoch (loss 0.5877):  80%|████████  | 13582/16950 [2:28:53<33:16,  1.69it/s]Training 3/3 epoch (loss 0.0449):  80%|████████  | 13582/16950 [2:28:54<33:16,  1.69it/s]Training 3/3 epoch (loss 0.0449):  80%|████████  | 13583/16950 [2:28:54<33:03,  1.70it/s]Training 3/3 epoch (loss 0.0062):  80%|████████  | 13583/16950 [2:28:54<33:03,  1.70it/s]Training 3/3 epoch (loss 0.0062):  80%|████████  | 13584/16950 [2:28:54<30:56,  1.81it/s]Training 3/3 epoch (loss 0.1630):  80%|████████  | 13584/16950 [2:28:55<30:56,  1.81it/s]Training 3/3 epoch (loss 0.1630):  80%|████████  | 13585/16950 [2:28:55<29:50,  1.88it/s]Training 3/3 epoch (loss 0.0535):  80%|████████  | 13585/16950 [2:28:55<29:50,  1.88it/s]Training 3/3 epoch (loss 0.0535):  80%|████████  | 13586/16950 [2:28:55<33:07,  1.69it/s]Training 3/3 epoch (loss 0.4172):  80%|████████  | 13586/16950 [2:28:56<33:07,  1.69it/s]Training 3/3 epoch (loss 0.4172):  80%|████████  | 13587/16950 [2:28:56<36:24,  1.54it/s]Training 3/3 epoch (loss 0.0303):  80%|████████  | 13587/16950 [2:28:57<36:24,  1.54it/s]Training 3/3 epoch (loss 0.0303):  80%|████████  | 13588/16950 [2:28:57<34:23,  1.63it/s]Training 3/3 epoch (loss 0.2871):  80%|████████  | 13588/16950 [2:28:57<34:23,  1.63it/s]Training 3/3 epoch (loss 0.2871):  80%|████████  | 13589/16950 [2:28:57<31:25,  1.78it/s]Training 3/3 epoch (loss 0.3858):  80%|████████  | 13589/16950 [2:28:58<31:25,  1.78it/s]Training 3/3 epoch (loss 0.3858):  80%|████████  | 13590/16950 [2:28:58<32:17,  1.73it/s]Training 3/3 epoch (loss 0.2251):  80%|████████  | 13590/16950 [2:28:59<32:17,  1.73it/s]Training 3/3 epoch (loss 0.2251):  80%|████████  | 13591/16950 [2:28:59<39:23,  1.42it/s]Training 3/3 epoch (loss 0.0110):  80%|████████  | 13591/16950 [2:28:59<39:23,  1.42it/s]Training 3/3 epoch (loss 0.0110):  80%|████████  | 13592/16950 [2:28:59<36:24,  1.54it/s]Training 3/3 epoch (loss 0.2203):  80%|████████  | 13592/16950 [2:29:00<36:24,  1.54it/s]Training 3/3 epoch (loss 0.2203):  80%|████████  | 13593/16950 [2:29:00<34:24,  1.63it/s]Training 3/3 epoch (loss 0.0012):  80%|████████  | 13593/16950 [2:29:00<34:24,  1.63it/s]Training 3/3 epoch (loss 0.0012):  80%|████████  | 13594/16950 [2:29:00<36:20,  1.54it/s]Training 3/3 epoch (loss 0.1426):  80%|████████  | 13594/16950 [2:29:01<36:20,  1.54it/s]Training 3/3 epoch (loss 0.1426):  80%|████████  | 13595/16950 [2:29:01<35:19,  1.58it/s]Training 3/3 epoch (loss 0.1106):  80%|████████  | 13595/16950 [2:29:01<35:19,  1.58it/s]Training 3/3 epoch (loss 0.1106):  80%|████████  | 13596/16950 [2:29:01<32:05,  1.74it/s]Training 3/3 epoch (loss 0.0886):  80%|████████  | 13596/16950 [2:29:02<32:05,  1.74it/s]Training 3/3 epoch (loss 0.0886):  80%|████████  | 13597/16950 [2:29:02<33:02,  1.69it/s]Training 3/3 epoch (loss 0.0331):  80%|████████  | 13597/16950 [2:29:03<33:02,  1.69it/s]Training 3/3 epoch (loss 0.0331):  80%|████████  | 13598/16950 [2:29:03<38:29,  1.45it/s]Training 3/3 epoch (loss 0.0045):  80%|████████  | 13598/16950 [2:29:04<38:29,  1.45it/s]Training 3/3 epoch (loss 0.0045):  80%|████████  | 13599/16950 [2:29:04<38:01,  1.47it/s]Training 3/3 epoch (loss 0.0001):  80%|████████  | 13599/16950 [2:29:04<38:01,  1.47it/s]Training 3/3 epoch (loss 0.0001):  80%|████████  | 13600/16950 [2:29:04<36:51,  1.51it/s]Training 3/3 epoch (loss 0.4202):  80%|████████  | 13600/16950 [2:29:05<36:51,  1.51it/s]Training 3/3 epoch (loss 0.4202):  80%|████████  | 13601/16950 [2:29:05<35:54,  1.55it/s]Training 3/3 epoch (loss 0.0102):  80%|████████  | 13601/16950 [2:29:06<35:54,  1.55it/s]Training 3/3 epoch (loss 0.0102):  80%|████████  | 13602/16950 [2:29:06<35:52,  1.56it/s]Training 3/3 epoch (loss 0.0215):  80%|████████  | 13602/16950 [2:29:06<35:52,  1.56it/s]Training 3/3 epoch (loss 0.0215):  80%|████████  | 13603/16950 [2:29:06<35:22,  1.58it/s]Training 3/3 epoch (loss 0.0145):  80%|████████  | 13603/16950 [2:29:07<35:22,  1.58it/s]Training 3/3 epoch (loss 0.0145):  80%|████████  | 13604/16950 [2:29:07<33:36,  1.66it/s]Training 3/3 epoch (loss nan):  80%|████████  | 13604/16950 [2:29:08<33:36,  1.66it/s]   Training 3/3 epoch (loss nan):  80%|████████  | 13605/16950 [2:29:08<41:14,  1.35it/s]Training 3/3 epoch (loss 0.5892):  80%|████████  | 13605/16950 [2:29:09<41:14,  1.35it/s]Training 3/3 epoch (loss 0.5892):  80%|████████  | 13606/16950 [2:29:09<47:33,  1.17it/s]Training 3/3 epoch (loss 0.0011):  80%|████████  | 13606/16950 [2:29:09<47:33,  1.17it/s]Training 3/3 epoch (loss 0.0011):  80%|████████  | 13607/16950 [2:29:09<43:01,  1.30it/s]Training 3/3 epoch (loss 0.0471):  80%|████████  | 13607/16950 [2:29:10<43:01,  1.30it/s]Training 3/3 epoch (loss 0.0471):  80%|████████  | 13608/16950 [2:29:10<40:54,  1.36it/s]Training 3/3 epoch (loss 0.3188):  80%|████████  | 13608/16950 [2:29:11<40:54,  1.36it/s]Training 3/3 epoch (loss 0.3188):  80%|████████  | 13609/16950 [2:29:11<36:45,  1.51it/s]Training 3/3 epoch (loss 0.0025):  80%|████████  | 13609/16950 [2:29:11<36:45,  1.51it/s]Training 3/3 epoch (loss 0.0025):  80%|████████  | 13610/16950 [2:29:11<32:57,  1.69it/s]Training 3/3 epoch (loss 0.4576):  80%|████████  | 13610/16950 [2:29:12<32:57,  1.69it/s]Training 3/3 epoch (loss 0.4576):  80%|████████  | 13611/16950 [2:29:12<36:43,  1.52it/s]Training 3/3 epoch (loss 0.1067):  80%|████████  | 13611/16950 [2:29:13<36:43,  1.52it/s]Training 3/3 epoch (loss 0.1067):  80%|████████  | 13612/16950 [2:29:13<37:29,  1.48it/s]Training 3/3 epoch (loss 0.5623):  80%|████████  | 13612/16950 [2:29:13<37:29,  1.48it/s]Training 3/3 epoch (loss 0.5623):  80%|████████  | 13613/16950 [2:29:13<38:42,  1.44it/s]Training 3/3 epoch (loss 0.1589):  80%|████████  | 13613/16950 [2:29:14<38:42,  1.44it/s]Training 3/3 epoch (loss 0.1589):  80%|████████  | 13614/16950 [2:29:14<37:31,  1.48it/s]Training 3/3 epoch (loss 0.0434):  80%|████████  | 13614/16950 [2:29:15<37:31,  1.48it/s]Training 3/3 epoch (loss 0.0434):  80%|████████  | 13615/16950 [2:29:15<42:15,  1.32it/s]Training 3/3 epoch (loss 0.3728):  80%|████████  | 13615/16950 [2:29:16<42:15,  1.32it/s]Training 3/3 epoch (loss 0.3728):  80%|████████  | 13616/16950 [2:29:16<47:48,  1.16it/s]Training 3/3 epoch (loss 0.0002):  80%|████████  | 13616/16950 [2:29:17<47:48,  1.16it/s]Training 3/3 epoch (loss 0.0002):  80%|████████  | 13617/16950 [2:29:17<44:11,  1.26it/s]Training 3/3 epoch (loss 0.0006):  80%|████████  | 13617/16950 [2:29:17<44:11,  1.26it/s]Training 3/3 epoch (loss 0.0006):  80%|████████  | 13618/16950 [2:29:17<40:45,  1.36it/s]Training 3/3 epoch (loss 0.0233):  80%|████████  | 13618/16950 [2:29:18<40:45,  1.36it/s]Training 3/3 epoch (loss 0.0233):  80%|████████  | 13619/16950 [2:29:18<39:11,  1.42it/s]Training 3/3 epoch (loss 0.3569):  80%|████████  | 13619/16950 [2:29:18<39:11,  1.42it/s]Training 3/3 epoch (loss 0.3569):  80%|████████  | 13620/16950 [2:29:18<33:17,  1.67it/s]Training 3/3 epoch (loss 0.6380):  80%|████████  | 13620/16950 [2:29:19<33:17,  1.67it/s]Training 3/3 epoch (loss 0.6380):  80%|████████  | 13621/16950 [2:29:19<34:16,  1.62it/s]Training 3/3 epoch (loss 0.5821):  80%|████████  | 13621/16950 [2:29:19<34:16,  1.62it/s]Training 3/3 epoch (loss 0.5821):  80%|████████  | 13622/16950 [2:29:19<32:04,  1.73it/s]Training 3/3 epoch (loss 0.0574):  80%|████████  | 13622/16950 [2:29:20<32:04,  1.73it/s]Training 3/3 epoch (loss 0.0574):  80%|████████  | 13623/16950 [2:29:20<32:51,  1.69it/s]Training 3/3 epoch (loss 0.0435):  80%|████████  | 13623/16950 [2:29:21<32:51,  1.69it/s]Training 3/3 epoch (loss 0.0435):  80%|████████  | 13624/16950 [2:29:21<34:48,  1.59it/s]Training 3/3 epoch (loss 0.0005):  80%|████████  | 13624/16950 [2:29:21<34:48,  1.59it/s]Training 3/3 epoch (loss 0.0005):  80%|████████  | 13625/16950 [2:29:21<35:30,  1.56it/s]Training 3/3 epoch (loss 0.0015):  80%|████████  | 13625/16950 [2:29:22<35:30,  1.56it/s]Training 3/3 epoch (loss 0.0015):  80%|████████  | 13626/16950 [2:29:22<33:55,  1.63it/s]Training 3/3 epoch (loss 0.6188):  80%|████████  | 13626/16950 [2:29:23<33:55,  1.63it/s]Training 3/3 epoch (loss 0.6188):  80%|████████  | 13627/16950 [2:29:23<34:10,  1.62it/s]Training 3/3 epoch (loss 0.0117):  80%|████████  | 13627/16950 [2:29:23<34:10,  1.62it/s]Training 3/3 epoch (loss 0.0117):  80%|████████  | 13628/16950 [2:29:23<31:21,  1.77it/s]Training 3/3 epoch (loss 0.0014):  80%|████████  | 13628/16950 [2:29:23<31:21,  1.77it/s]Training 3/3 epoch (loss 0.0014):  80%|████████  | 13629/16950 [2:29:23<30:00,  1.84it/s]Training 3/3 epoch (loss 0.3333):  80%|████████  | 13629/16950 [2:29:24<30:00,  1.84it/s]Training 3/3 epoch (loss 0.3333):  80%|████████  | 13630/16950 [2:29:24<28:50,  1.92it/s]Training 3/3 epoch (loss 0.2268):  80%|████████  | 13630/16950 [2:29:24<28:50,  1.92it/s]Training 3/3 epoch (loss 0.2268):  80%|████████  | 13631/16950 [2:29:24<27:00,  2.05it/s]Training 3/3 epoch (loss 0.0017):  80%|████████  | 13631/16950 [2:29:25<27:00,  2.05it/s]Training 3/3 epoch (loss 0.0017):  80%|████████  | 13632/16950 [2:29:25<25:52,  2.14it/s]Training 3/3 epoch (loss 0.0275):  80%|████████  | 13632/16950 [2:29:25<25:52,  2.14it/s]Training 3/3 epoch (loss 0.0275):  80%|████████  | 13633/16950 [2:29:25<28:27,  1.94it/s]Training 3/3 epoch (loss 0.0621):  80%|████████  | 13633/16950 [2:29:26<28:27,  1.94it/s]Training 3/3 epoch (loss 0.0621):  80%|████████  | 13634/16950 [2:29:26<29:52,  1.85it/s]Training 3/3 epoch (loss 0.3162):  80%|████████  | 13634/16950 [2:29:26<29:52,  1.85it/s]Training 3/3 epoch (loss 0.3162):  80%|████████  | 13635/16950 [2:29:26<27:02,  2.04it/s]Training 3/3 epoch (loss 0.3088):  80%|████████  | 13635/16950 [2:29:27<27:02,  2.04it/s]Training 3/3 epoch (loss 0.3088):  80%|████████  | 13636/16950 [2:29:27<28:38,  1.93it/s]Training 3/3 epoch (loss 0.1952):  80%|████████  | 13636/16950 [2:29:27<28:38,  1.93it/s]Training 3/3 epoch (loss 0.1952):  80%|████████  | 13637/16950 [2:29:27<28:11,  1.96it/s]Training 3/3 epoch (loss 0.0247):  80%|████████  | 13637/16950 [2:29:28<28:11,  1.96it/s]Training 3/3 epoch (loss 0.0247):  80%|████████  | 13638/16950 [2:29:28<26:38,  2.07it/s]Training 3/3 epoch (loss 0.2797):  80%|████████  | 13638/16950 [2:29:28<26:38,  2.07it/s]Training 3/3 epoch (loss 0.2797):  80%|████████  | 13639/16950 [2:29:28<23:47,  2.32it/s]Training 3/3 epoch (loss 0.2294):  80%|████████  | 13639/16950 [2:29:29<23:47,  2.32it/s]Training 3/3 epoch (loss 0.2294):  80%|████████  | 13640/16950 [2:29:29<31:20,  1.76it/s]Training 3/3 epoch (loss 0.2965):  80%|████████  | 13640/16950 [2:29:30<31:20,  1.76it/s]Training 3/3 epoch (loss 0.2965):  80%|████████  | 13641/16950 [2:29:30<32:48,  1.68it/s]Training 3/3 epoch (loss 0.2886):  80%|████████  | 13641/16950 [2:29:30<32:48,  1.68it/s]Training 3/3 epoch (loss 0.2886):  80%|████████  | 13642/16950 [2:29:30<33:05,  1.67it/s]Training 3/3 epoch (loss 0.0011):  80%|████████  | 13642/16950 [2:29:31<33:05,  1.67it/s]Training 3/3 epoch (loss 0.0011):  80%|████████  | 13643/16950 [2:29:31<31:39,  1.74it/s]Training 3/3 epoch (loss 0.4674):  80%|████████  | 13643/16950 [2:29:31<31:39,  1.74it/s]Training 3/3 epoch (loss 0.4674):  80%|████████  | 13644/16950 [2:29:31<28:23,  1.94it/s]Training 3/3 epoch (loss 0.0005):  80%|████████  | 13644/16950 [2:29:32<28:23,  1.94it/s]Training 3/3 epoch (loss 0.0005):  81%|████████  | 13645/16950 [2:29:32<26:38,  2.07it/s]Training 3/3 epoch (loss 0.0169):  81%|████████  | 13645/16950 [2:29:32<26:38,  2.07it/s]Training 3/3 epoch (loss 0.0169):  81%|████████  | 13646/16950 [2:29:32<28:43,  1.92it/s]Training 3/3 epoch (loss 0.3538):  81%|████████  | 13646/16950 [2:29:33<28:43,  1.92it/s]Training 3/3 epoch (loss 0.3538):  81%|████████  | 13647/16950 [2:29:33<28:52,  1.91it/s]Training 3/3 epoch (loss 0.0004):  81%|████████  | 13647/16950 [2:29:33<28:52,  1.91it/s]Training 3/3 epoch (loss 0.0004):  81%|████████  | 13648/16950 [2:29:33<31:33,  1.74it/s]Training 3/3 epoch (loss 0.2215):  81%|████████  | 13648/16950 [2:29:34<31:33,  1.74it/s]Training 3/3 epoch (loss 0.2215):  81%|████████  | 13649/16950 [2:29:34<29:51,  1.84it/s]Training 3/3 epoch (loss 0.0059):  81%|████████  | 13649/16950 [2:29:34<29:51,  1.84it/s]Training 3/3 epoch (loss 0.0059):  81%|████████  | 13650/16950 [2:29:34<27:21,  2.01it/s]Training 3/3 epoch (loss 0.0032):  81%|████████  | 13650/16950 [2:29:35<27:21,  2.01it/s]Training 3/3 epoch (loss 0.0032):  81%|████████  | 13651/16950 [2:29:35<33:17,  1.65it/s]Training 3/3 epoch (loss 0.0005):  81%|████████  | 13651/16950 [2:29:36<33:17,  1.65it/s]Training 3/3 epoch (loss 0.0005):  81%|████████  | 13652/16950 [2:29:36<36:21,  1.51it/s]Training 3/3 epoch (loss 0.1114):  81%|████████  | 13652/16950 [2:29:36<36:21,  1.51it/s]Training 3/3 epoch (loss 0.1114):  81%|████████  | 13653/16950 [2:29:36<32:45,  1.68it/s]Training 3/3 epoch (loss 0.3246):  81%|████████  | 13653/16950 [2:29:37<32:45,  1.68it/s]Training 3/3 epoch (loss 0.3246):  81%|████████  | 13654/16950 [2:29:37<31:56,  1.72it/s]Training 3/3 epoch (loss 0.3828):  81%|████████  | 13654/16950 [2:29:37<31:56,  1.72it/s]Training 3/3 epoch (loss 0.3828):  81%|████████  | 13655/16950 [2:29:37<30:14,  1.82it/s]Training 3/3 epoch (loss 0.0002):  81%|████████  | 13655/16950 [2:29:38<30:14,  1.82it/s]Training 3/3 epoch (loss 0.0002):  81%|████████  | 13656/16950 [2:29:38<27:39,  1.99it/s]Training 3/3 epoch (loss 0.0118):  81%|████████  | 13656/16950 [2:29:38<27:39,  1.99it/s]Training 3/3 epoch (loss 0.0118):  81%|████████  | 13657/16950 [2:29:38<26:51,  2.04it/s]Training 3/3 epoch (loss 0.1742):  81%|████████  | 13657/16950 [2:29:39<26:51,  2.04it/s]Training 3/3 epoch (loss 0.1742):  81%|████████  | 13658/16950 [2:29:39<25:30,  2.15it/s]Training 3/3 epoch (loss 0.0503):  81%|████████  | 13658/16950 [2:29:39<25:30,  2.15it/s]Training 3/3 epoch (loss 0.0503):  81%|████████  | 13659/16950 [2:29:39<27:11,  2.02it/s]Training 3/3 epoch (loss 0.0258):  81%|████████  | 13659/16950 [2:29:40<27:11,  2.02it/s]Training 3/3 epoch (loss 0.0258):  81%|████████  | 13660/16950 [2:29:40<29:00,  1.89it/s]Training 3/3 epoch (loss 0.0002):  81%|████████  | 13660/16950 [2:29:40<29:00,  1.89it/s]Training 3/3 epoch (loss 0.0002):  81%|████████  | 13661/16950 [2:29:40<27:43,  1.98it/s]Training 3/3 epoch (loss 0.0364):  81%|████████  | 13661/16950 [2:29:41<27:43,  1.98it/s]Training 3/3 epoch (loss 0.0364):  81%|████████  | 13662/16950 [2:29:41<29:07,  1.88it/s]Training 3/3 epoch (loss 0.0620):  81%|████████  | 13662/16950 [2:29:42<29:07,  1.88it/s]Training 3/3 epoch (loss 0.0620):  81%|████████  | 13663/16950 [2:29:42<31:09,  1.76it/s]Training 3/3 epoch (loss 0.0026):  81%|████████  | 13663/16950 [2:29:42<31:09,  1.76it/s]Training 3/3 epoch (loss 0.0026):  81%|████████  | 13664/16950 [2:29:42<30:01,  1.82it/s]Training 3/3 epoch (loss 0.3410):  81%|████████  | 13664/16950 [2:29:43<30:01,  1.82it/s]Training 3/3 epoch (loss 0.3410):  81%|████████  | 13665/16950 [2:29:43<31:25,  1.74it/s]Training 3/3 epoch (loss 0.0006):  81%|████████  | 13665/16950 [2:29:43<31:25,  1.74it/s]Training 3/3 epoch (loss 0.0006):  81%|████████  | 13666/16950 [2:29:43<29:31,  1.85it/s]Training 3/3 epoch (loss 0.0087):  81%|████████  | 13666/16950 [2:29:44<29:31,  1.85it/s]Training 3/3 epoch (loss 0.0087):  81%|████████  | 13667/16950 [2:29:44<28:56,  1.89it/s]Training 3/3 epoch (loss 0.0557):  81%|████████  | 13667/16950 [2:29:44<28:56,  1.89it/s]Training 3/3 epoch (loss 0.0557):  81%|████████  | 13668/16950 [2:29:44<29:17,  1.87it/s]Training 3/3 epoch (loss 0.0137):  81%|████████  | 13668/16950 [2:29:45<29:17,  1.87it/s]Training 3/3 epoch (loss 0.0137):  81%|████████  | 13669/16950 [2:29:45<31:29,  1.74it/s]Training 3/3 epoch (loss 0.0149):  81%|████████  | 13669/16950 [2:29:45<31:29,  1.74it/s]Training 3/3 epoch (loss 0.0149):  81%|████████  | 13670/16950 [2:29:45<32:09,  1.70it/s]Training 3/3 epoch (loss 0.1169):  81%|████████  | 13670/16950 [2:29:46<32:09,  1.70it/s]Training 3/3 epoch (loss 0.1169):  81%|████████  | 13671/16950 [2:29:46<36:50,  1.48it/s]Training 3/3 epoch (loss 0.0022):  81%|████████  | 13671/16950 [2:29:47<36:50,  1.48it/s]Training 3/3 epoch (loss 0.0022):  81%|████████  | 13672/16950 [2:29:47<33:24,  1.64it/s]Training 3/3 epoch (loss 0.0408):  81%|████████  | 13672/16950 [2:29:48<33:24,  1.64it/s]Training 3/3 epoch (loss 0.0408):  81%|████████  | 13673/16950 [2:29:48<36:59,  1.48it/s]Training 3/3 epoch (loss 0.0367):  81%|████████  | 13673/16950 [2:29:48<36:59,  1.48it/s]Training 3/3 epoch (loss 0.0367):  81%|████████  | 13674/16950 [2:29:48<37:57,  1.44it/s]Training 3/3 epoch (loss 0.0084):  81%|████████  | 13674/16950 [2:29:49<37:57,  1.44it/s]Training 3/3 epoch (loss 0.0084):  81%|████████  | 13675/16950 [2:29:49<36:19,  1.50it/s]Training 3/3 epoch (loss 0.3240):  81%|████████  | 13675/16950 [2:29:50<36:19,  1.50it/s]Training 3/3 epoch (loss 0.3240):  81%|████████  | 13676/16950 [2:29:50<35:04,  1.56it/s]Training 3/3 epoch (loss 0.0001):  81%|████████  | 13676/16950 [2:29:50<35:04,  1.56it/s]Training 3/3 epoch (loss 0.0001):  81%|████████  | 13677/16950 [2:29:50<32:06,  1.70it/s]Training 3/3 epoch (loss 0.0019):  81%|████████  | 13677/16950 [2:29:51<32:06,  1.70it/s]Training 3/3 epoch (loss 0.0019):  81%|████████  | 13678/16950 [2:29:51<31:22,  1.74it/s]Training 3/3 epoch (loss 0.0163):  81%|████████  | 13678/16950 [2:29:51<31:22,  1.74it/s]Training 3/3 epoch (loss 0.0163):  81%|████████  | 13679/16950 [2:29:51<31:08,  1.75it/s]Training 3/3 epoch (loss 0.0074):  81%|████████  | 13679/16950 [2:29:52<31:08,  1.75it/s]Training 3/3 epoch (loss 0.0074):  81%|████████  | 13680/16950 [2:29:52<33:13,  1.64it/s]Training 3/3 epoch (loss 0.0380):  81%|████████  | 13680/16950 [2:29:53<33:13,  1.64it/s]Training 3/3 epoch (loss 0.0380):  81%|████████  | 13681/16950 [2:29:53<34:17,  1.59it/s]Training 3/3 epoch (loss 0.2065):  81%|████████  | 13681/16950 [2:29:53<34:17,  1.59it/s]Training 3/3 epoch (loss 0.2065):  81%|████████  | 13682/16950 [2:29:53<33:16,  1.64it/s]Training 3/3 epoch (loss 0.0463):  81%|████████  | 13682/16950 [2:29:54<33:16,  1.64it/s]Training 3/3 epoch (loss 0.0463):  81%|████████  | 13683/16950 [2:29:54<31:50,  1.71it/s]Training 3/3 epoch (loss nan):  81%|████████  | 13683/16950 [2:29:55<31:50,  1.71it/s]   Training 3/3 epoch (loss nan):  81%|████████  | 13684/16950 [2:29:55<40:46,  1.34it/s]Training 3/3 epoch (loss 0.0204):  81%|████████  | 13684/16950 [2:29:55<40:46,  1.34it/s]Training 3/3 epoch (loss 0.0204):  81%|████████  | 13685/16950 [2:29:55<37:25,  1.45it/s]Training 3/3 epoch (loss 0.2196):  81%|████████  | 13685/16950 [2:29:56<37:25,  1.45it/s]Training 3/3 epoch (loss 0.2196):  81%|████████  | 13686/16950 [2:29:56<40:19,  1.35it/s]Training 3/3 epoch (loss 0.2684):  81%|████████  | 13686/16950 [2:29:57<40:19,  1.35it/s]Training 3/3 epoch (loss 0.2684):  81%|████████  | 13687/16950 [2:29:57<37:46,  1.44it/s]Training 3/3 epoch (loss 0.3505):  81%|████████  | 13687/16950 [2:29:57<37:46,  1.44it/s]Training 3/3 epoch (loss 0.3505):  81%|████████  | 13688/16950 [2:29:57<35:13,  1.54it/s]Training 3/3 epoch (loss 0.0561):  81%|████████  | 13688/16950 [2:29:58<35:13,  1.54it/s]Training 3/3 epoch (loss 0.0561):  81%|████████  | 13689/16950 [2:29:58<35:42,  1.52it/s]Training 3/3 epoch (loss 0.1324):  81%|████████  | 13689/16950 [2:29:59<35:42,  1.52it/s]Training 3/3 epoch (loss 0.1324):  81%|████████  | 13690/16950 [2:29:59<36:37,  1.48it/s]Training 3/3 epoch (loss 0.0058):  81%|████████  | 13690/16950 [2:29:59<36:37,  1.48it/s]Training 3/3 epoch (loss 0.0058):  81%|████████  | 13691/16950 [2:29:59<36:01,  1.51it/s]Training 3/3 epoch (loss 0.5033):  81%|████████  | 13691/16950 [2:30:00<36:01,  1.51it/s]Training 3/3 epoch (loss 0.5033):  81%|████████  | 13692/16950 [2:30:00<32:59,  1.65it/s]Training 3/3 epoch (loss 0.4534):  81%|████████  | 13692/16950 [2:30:01<32:59,  1.65it/s]Training 3/3 epoch (loss 0.4534):  81%|████████  | 13693/16950 [2:30:01<37:35,  1.44it/s]Training 3/3 epoch (loss 0.0008):  81%|████████  | 13693/16950 [2:30:01<37:35,  1.44it/s]Training 3/3 epoch (loss 0.0008):  81%|████████  | 13694/16950 [2:30:01<36:40,  1.48it/s]Training 3/3 epoch (loss 0.0043):  81%|████████  | 13694/16950 [2:30:02<36:40,  1.48it/s]Training 3/3 epoch (loss 0.0043):  81%|████████  | 13695/16950 [2:30:02<32:42,  1.66it/s]Training 3/3 epoch (loss 0.0106):  81%|████████  | 13695/16950 [2:30:02<32:42,  1.66it/s]Training 3/3 epoch (loss 0.0106):  81%|████████  | 13696/16950 [2:30:02<30:36,  1.77it/s]Training 3/3 epoch (loss 0.0053):  81%|████████  | 13696/16950 [2:30:03<30:36,  1.77it/s]Training 3/3 epoch (loss 0.0053):  81%|████████  | 13697/16950 [2:30:03<31:14,  1.73it/s]Training 3/3 epoch (loss 0.0402):  81%|████████  | 13697/16950 [2:30:03<31:14,  1.73it/s]Training 3/3 epoch (loss 0.0402):  81%|████████  | 13698/16950 [2:30:03<31:45,  1.71it/s]Training 3/3 epoch (loss 0.0015):  81%|████████  | 13698/16950 [2:30:04<31:45,  1.71it/s]Training 3/3 epoch (loss 0.0015):  81%|████████  | 13699/16950 [2:30:04<31:57,  1.70it/s]Training 3/3 epoch (loss 0.0915):  81%|████████  | 13699/16950 [2:30:05<31:57,  1.70it/s]Training 3/3 epoch (loss 0.0915):  81%|████████  | 13700/16950 [2:30:05<32:33,  1.66it/s]Training 3/3 epoch (loss 0.1148):  81%|████████  | 13700/16950 [2:30:05<32:33,  1.66it/s]Training 3/3 epoch (loss 0.1148):  81%|████████  | 13701/16950 [2:30:05<32:43,  1.65it/s]Training 3/3 epoch (loss 0.0001):  81%|████████  | 13701/16950 [2:30:06<32:43,  1.65it/s]Training 3/3 epoch (loss 0.0001):  81%|████████  | 13702/16950 [2:30:06<32:15,  1.68it/s]Training 3/3 epoch (loss 0.0049):  81%|████████  | 13702/16950 [2:30:06<32:15,  1.68it/s]Training 3/3 epoch (loss 0.0049):  81%|████████  | 13703/16950 [2:30:06<30:27,  1.78it/s]Training 3/3 epoch (loss 0.3474):  81%|████████  | 13703/16950 [2:30:07<30:27,  1.78it/s]Training 3/3 epoch (loss 0.3474):  81%|████████  | 13704/16950 [2:30:07<38:12,  1.42it/s]Training 3/3 epoch (loss 0.1930):  81%|████████  | 13704/16950 [2:30:08<38:12,  1.42it/s]Training 3/3 epoch (loss 0.1930):  81%|████████  | 13705/16950 [2:30:08<39:52,  1.36it/s]Training 3/3 epoch (loss 0.0357):  81%|████████  | 13705/16950 [2:30:09<39:52,  1.36it/s]Training 3/3 epoch (loss 0.0357):  81%|████████  | 13706/16950 [2:30:09<40:36,  1.33it/s]Training 3/3 epoch (loss 0.0080):  81%|████████  | 13706/16950 [2:30:10<40:36,  1.33it/s]Training 3/3 epoch (loss 0.0080):  81%|████████  | 13707/16950 [2:30:10<38:50,  1.39it/s]Training 3/3 epoch (loss 0.0082):  81%|████████  | 13707/16950 [2:30:10<38:50,  1.39it/s]Training 3/3 epoch (loss 0.0082):  81%|████████  | 13708/16950 [2:30:10<34:36,  1.56it/s]Training 3/3 epoch (loss 0.4218):  81%|████████  | 13708/16950 [2:30:10<34:36,  1.56it/s]Training 3/3 epoch (loss 0.4218):  81%|████████  | 13709/16950 [2:30:10<31:08,  1.73it/s]Training 3/3 epoch (loss 0.3591):  81%|████████  | 13709/16950 [2:30:11<31:08,  1.73it/s]Training 3/3 epoch (loss 0.3591):  81%|████████  | 13710/16950 [2:30:11<29:21,  1.84it/s]Training 3/3 epoch (loss 0.0151):  81%|████████  | 13710/16950 [2:30:12<29:21,  1.84it/s]Training 3/3 epoch (loss 0.0151):  81%|████████  | 13711/16950 [2:30:12<30:28,  1.77it/s]Training 3/3 epoch (loss 0.0014):  81%|████████  | 13711/16950 [2:30:12<30:28,  1.77it/s]Training 3/3 epoch (loss 0.0014):  81%|████████  | 13712/16950 [2:30:12<32:00,  1.69it/s]Training 3/3 epoch (loss 0.0034):  81%|████████  | 13712/16950 [2:30:13<32:00,  1.69it/s]Training 3/3 epoch (loss 0.0034):  81%|████████  | 13713/16950 [2:30:13<32:58,  1.64it/s]Training 3/3 epoch (loss 0.0319):  81%|████████  | 13713/16950 [2:30:14<32:58,  1.64it/s]Training 3/3 epoch (loss 0.0319):  81%|████████  | 13714/16950 [2:30:14<38:02,  1.42it/s]Training 3/3 epoch (loss 0.1059):  81%|████████  | 13714/16950 [2:30:15<38:02,  1.42it/s]Training 3/3 epoch (loss 0.1059):  81%|████████  | 13715/16950 [2:30:15<41:36,  1.30it/s]Training 3/3 epoch (loss 0.5199):  81%|████████  | 13715/16950 [2:30:16<41:36,  1.30it/s]Training 3/3 epoch (loss 0.5199):  81%|████████  | 13716/16950 [2:30:16<41:30,  1.30it/s]Training 3/3 epoch (loss 0.2985):  81%|████████  | 13716/16950 [2:30:16<41:30,  1.30it/s]Training 3/3 epoch (loss 0.2985):  81%|████████  | 13717/16950 [2:30:16<36:46,  1.46it/s]Training 3/3 epoch (loss 0.0007):  81%|████████  | 13717/16950 [2:30:16<36:46,  1.46it/s]Training 3/3 epoch (loss 0.0007):  81%|████████  | 13718/16950 [2:30:16<31:40,  1.70it/s]Training 3/3 epoch (loss 0.7117):  81%|████████  | 13718/16950 [2:30:17<31:40,  1.70it/s]Training 3/3 epoch (loss 0.7117):  81%|████████  | 13719/16950 [2:30:17<32:01,  1.68it/s]Training 3/3 epoch (loss 0.3356):  81%|████████  | 13719/16950 [2:30:17<32:01,  1.68it/s]Training 3/3 epoch (loss 0.3356):  81%|████████  | 13720/16950 [2:30:17<27:32,  1.95it/s]Training 3/3 epoch (loss 0.1067):  81%|████████  | 13720/16950 [2:30:18<27:32,  1.95it/s]Training 3/3 epoch (loss 0.1067):  81%|████████  | 13721/16950 [2:30:18<27:39,  1.95it/s]Training 3/3 epoch (loss 0.1094):  81%|████████  | 13721/16950 [2:30:19<27:39,  1.95it/s]Training 3/3 epoch (loss 0.1094):  81%|████████  | 13722/16950 [2:30:19<31:12,  1.72it/s]Training 3/3 epoch (loss 0.0045):  81%|████████  | 13722/16950 [2:30:19<31:12,  1.72it/s]Training 3/3 epoch (loss 0.0045):  81%|████████  | 13723/16950 [2:30:19<30:55,  1.74it/s]Training 3/3 epoch (loss 0.0042):  81%|████████  | 13723/16950 [2:30:20<30:55,  1.74it/s]Training 3/3 epoch (loss 0.0042):  81%|████████  | 13724/16950 [2:30:20<30:15,  1.78it/s]Training 3/3 epoch (loss 0.0075):  81%|████████  | 13724/16950 [2:30:20<30:15,  1.78it/s]Training 3/3 epoch (loss 0.0075):  81%|████████  | 13725/16950 [2:30:20<29:59,  1.79it/s]Training 3/3 epoch (loss 0.0283):  81%|████████  | 13725/16950 [2:30:21<29:59,  1.79it/s]Training 3/3 epoch (loss 0.0283):  81%|████████  | 13726/16950 [2:30:21<29:20,  1.83it/s]Training 3/3 epoch (loss 0.0154):  81%|████████  | 13726/16950 [2:30:21<29:20,  1.83it/s]Training 3/3 epoch (loss 0.0154):  81%|████████  | 13727/16950 [2:30:21<27:43,  1.94it/s]Training 3/3 epoch (loss 0.1446):  81%|████████  | 13727/16950 [2:30:22<27:43,  1.94it/s]Training 3/3 epoch (loss 0.1446):  81%|████████  | 13728/16950 [2:30:22<29:22,  1.83it/s]Training 3/3 epoch (loss 0.1949):  81%|████████  | 13728/16950 [2:30:22<29:22,  1.83it/s]Training 3/3 epoch (loss 0.1949):  81%|████████  | 13729/16950 [2:30:22<26:02,  2.06it/s]Training 3/3 epoch (loss 0.0042):  81%|████████  | 13729/16950 [2:30:23<26:02,  2.06it/s]Training 3/3 epoch (loss 0.0042):  81%|████████  | 13730/16950 [2:30:23<24:45,  2.17it/s]Training 3/3 epoch (loss 0.0828):  81%|████████  | 13730/16950 [2:30:23<24:45,  2.17it/s]Training 3/3 epoch (loss 0.0828):  81%|████████  | 13731/16950 [2:30:23<26:52,  2.00it/s]Training 3/3 epoch (loss 0.0094):  81%|████████  | 13731/16950 [2:30:24<26:52,  2.00it/s]Training 3/3 epoch (loss 0.0094):  81%|████████  | 13732/16950 [2:30:24<29:46,  1.80it/s]Training 3/3 epoch (loss 0.0012):  81%|████████  | 13732/16950 [2:30:24<29:46,  1.80it/s]Training 3/3 epoch (loss 0.0012):  81%|████████  | 13733/16950 [2:30:24<31:49,  1.68it/s]Training 3/3 epoch (loss 0.0013):  81%|████████  | 13733/16950 [2:30:25<31:49,  1.68it/s]Training 3/3 epoch (loss 0.0013):  81%|████████  | 13734/16950 [2:30:25<31:03,  1.73it/s]Training 3/3 epoch (loss 0.5232):  81%|████████  | 13734/16950 [2:30:26<31:03,  1.73it/s]Training 3/3 epoch (loss 0.5232):  81%|████████  | 13735/16950 [2:30:26<40:18,  1.33it/s]Training 3/3 epoch (loss 0.3043):  81%|████████  | 13735/16950 [2:30:27<40:18,  1.33it/s]Training 3/3 epoch (loss 0.3043):  81%|████████  | 13736/16950 [2:30:27<36:06,  1.48it/s]Training 3/3 epoch (loss 0.0001):  81%|████████  | 13736/16950 [2:30:27<36:06,  1.48it/s]Training 3/3 epoch (loss 0.0001):  81%|████████  | 13737/16950 [2:30:27<32:42,  1.64it/s]Training 3/3 epoch (loss 0.0260):  81%|████████  | 13737/16950 [2:30:28<32:42,  1.64it/s]Training 3/3 epoch (loss 0.0260):  81%|████████  | 13738/16950 [2:30:28<30:37,  1.75it/s]Training 3/3 epoch (loss 0.0015):  81%|████████  | 13738/16950 [2:30:28<30:37,  1.75it/s]Training 3/3 epoch (loss 0.0015):  81%|████████  | 13739/16950 [2:30:28<30:51,  1.73it/s]Training 3/3 epoch (loss 0.0165):  81%|████████  | 13739/16950 [2:30:29<30:51,  1.73it/s]Training 3/3 epoch (loss 0.0165):  81%|████████  | 13740/16950 [2:30:29<32:34,  1.64it/s]Training 3/3 epoch (loss 0.0109):  81%|████████  | 13740/16950 [2:30:30<32:34,  1.64it/s]Training 3/3 epoch (loss 0.0109):  81%|████████  | 13741/16950 [2:30:30<32:59,  1.62it/s]Training 3/3 epoch (loss 0.8185):  81%|████████  | 13741/16950 [2:30:30<32:59,  1.62it/s]Training 3/3 epoch (loss 0.8185):  81%|████████  | 13742/16950 [2:30:30<30:17,  1.76it/s]Training 3/3 epoch (loss 0.1498):  81%|████████  | 13742/16950 [2:30:31<30:17,  1.76it/s]Training 3/3 epoch (loss 0.1498):  81%|████████  | 13743/16950 [2:30:31<30:52,  1.73it/s]Training 3/3 epoch (loss 0.0573):  81%|████████  | 13743/16950 [2:30:31<30:52,  1.73it/s]Training 3/3 epoch (loss 0.0573):  81%|████████  | 13744/16950 [2:30:31<29:36,  1.80it/s]Training 3/3 epoch (loss 0.0080):  81%|████████  | 13744/16950 [2:30:32<29:36,  1.80it/s]Training 3/3 epoch (loss 0.0080):  81%|████████  | 13745/16950 [2:30:32<30:26,  1.75it/s]Training 3/3 epoch (loss 0.0952):  81%|████████  | 13745/16950 [2:30:32<30:26,  1.75it/s]Training 3/3 epoch (loss 0.0952):  81%|████████  | 13746/16950 [2:30:32<30:24,  1.76it/s]Training 3/3 epoch (loss 0.0169):  81%|████████  | 13746/16950 [2:30:33<30:24,  1.76it/s]Training 3/3 epoch (loss 0.0169):  81%|████████  | 13747/16950 [2:30:33<32:58,  1.62it/s]Training 3/3 epoch (loss 0.0024):  81%|████████  | 13747/16950 [2:30:33<32:58,  1.62it/s]Training 3/3 epoch (loss 0.0024):  81%|████████  | 13748/16950 [2:30:33<31:05,  1.72it/s]Training 3/3 epoch (loss 0.0092):  81%|████████  | 13748/16950 [2:30:34<31:05,  1.72it/s]Training 3/3 epoch (loss 0.0092):  81%|████████  | 13749/16950 [2:30:34<34:47,  1.53it/s]Training 3/3 epoch (loss 0.0481):  81%|████████  | 13749/16950 [2:30:35<34:47,  1.53it/s]Training 3/3 epoch (loss 0.0481):  81%|████████  | 13750/16950 [2:30:35<35:22,  1.51it/s]Training 3/3 epoch (loss 0.0026):  81%|████████  | 13750/16950 [2:30:35<35:22,  1.51it/s]Training 3/3 epoch (loss 0.0026):  81%|████████  | 13751/16950 [2:30:35<32:27,  1.64it/s]Training 3/3 epoch (loss 0.0002):  81%|████████  | 13751/16950 [2:30:36<32:27,  1.64it/s]Training 3/3 epoch (loss 0.0002):  81%|████████  | 13752/16950 [2:30:36<31:28,  1.69it/s]Training 3/3 epoch (loss 0.5796):  81%|████████  | 13752/16950 [2:30:37<31:28,  1.69it/s]Training 3/3 epoch (loss 0.5796):  81%|████████  | 13753/16950 [2:30:37<36:36,  1.46it/s]Training 3/3 epoch (loss 0.0012):  81%|████████  | 13753/16950 [2:30:38<36:36,  1.46it/s]Training 3/3 epoch (loss 0.0012):  81%|████████  | 13754/16950 [2:30:38<35:08,  1.52it/s]Training 3/3 epoch (loss 0.0746):  81%|████████  | 13754/16950 [2:30:38<35:08,  1.52it/s]Training 3/3 epoch (loss 0.0746):  81%|████████  | 13755/16950 [2:30:38<38:28,  1.38it/s]Training 3/3 epoch (loss 0.0004):  81%|████████  | 13755/16950 [2:30:39<38:28,  1.38it/s]Training 3/3 epoch (loss 0.0004):  81%|████████  | 13756/16950 [2:30:39<34:51,  1.53it/s]Training 3/3 epoch (loss 0.0078):  81%|████████  | 13756/16950 [2:30:39<34:51,  1.53it/s]Training 3/3 epoch (loss 0.0078):  81%|████████  | 13757/16950 [2:30:39<31:24,  1.69it/s]Training 3/3 epoch (loss 0.3508):  81%|████████  | 13757/16950 [2:30:40<31:24,  1.69it/s]Training 3/3 epoch (loss 0.3508):  81%|████████  | 13758/16950 [2:30:40<32:15,  1.65it/s]Training 3/3 epoch (loss 0.2451):  81%|████████  | 13758/16950 [2:30:41<32:15,  1.65it/s]Training 3/3 epoch (loss 0.2451):  81%|████████  | 13759/16950 [2:30:41<33:01,  1.61it/s]Training 3/3 epoch (loss 0.1321):  81%|████████  | 13759/16950 [2:30:41<33:01,  1.61it/s]Training 3/3 epoch (loss 0.1321):  81%|████████  | 13760/16950 [2:30:41<36:56,  1.44it/s]Training 3/3 epoch (loss 0.0078):  81%|████████  | 13760/16950 [2:30:42<36:56,  1.44it/s]Training 3/3 epoch (loss 0.0078):  81%|████████  | 13761/16950 [2:30:42<37:00,  1.44it/s]Training 3/3 epoch (loss 0.2228):  81%|████████  | 13761/16950 [2:30:43<37:00,  1.44it/s]Training 3/3 epoch (loss 0.2228):  81%|████████  | 13762/16950 [2:30:43<32:40,  1.63it/s]Training 3/3 epoch (loss 0.3839):  81%|████████  | 13762/16950 [2:30:43<32:40,  1.63it/s]Training 3/3 epoch (loss 0.3839):  81%|████████  | 13763/16950 [2:30:43<35:43,  1.49it/s]Training 3/3 epoch (loss 0.2271):  81%|████████  | 13763/16950 [2:30:44<35:43,  1.49it/s]Training 3/3 epoch (loss 0.2271):  81%|████████  | 13764/16950 [2:30:44<37:27,  1.42it/s]Training 3/3 epoch (loss nan):  81%|████████  | 13764/16950 [2:30:45<37:27,  1.42it/s]   Training 3/3 epoch (loss nan):  81%|████████  | 13765/16950 [2:30:45<44:56,  1.18it/s]Training 3/3 epoch (loss 0.0634):  81%|████████  | 13765/16950 [2:30:47<44:56,  1.18it/s]Training 3/3 epoch (loss 0.0634):  81%|████████  | 13766/16950 [2:30:47<51:38,  1.03it/s]Training 3/3 epoch (loss 0.0360):  81%|████████  | 13766/16950 [2:30:47<51:38,  1.03it/s]Training 3/3 epoch (loss 0.0360):  81%|████████  | 13767/16950 [2:30:47<49:05,  1.08it/s]Training 3/3 epoch (loss 0.0301):  81%|████████  | 13767/16950 [2:30:48<49:05,  1.08it/s]Training 3/3 epoch (loss 0.0301):  81%|████████  | 13768/16950 [2:30:48<44:54,  1.18it/s]Training 3/3 epoch (loss 0.2971):  81%|████████  | 13768/16950 [2:30:49<44:54,  1.18it/s]Training 3/3 epoch (loss 0.2971):  81%|████████  | 13769/16950 [2:30:49<38:27,  1.38it/s]Training 3/3 epoch (loss 0.0005):  81%|████████  | 13769/16950 [2:30:49<38:27,  1.38it/s]Training 3/3 epoch (loss 0.0005):  81%|████████  | 13770/16950 [2:30:49<35:16,  1.50it/s]Training 3/3 epoch (loss 0.0136):  81%|████████  | 13770/16950 [2:30:50<35:16,  1.50it/s]Training 3/3 epoch (loss 0.0136):  81%|████████  | 13771/16950 [2:30:50<42:40,  1.24it/s]Training 3/3 epoch (loss 0.0204):  81%|████████  | 13771/16950 [2:30:51<42:40,  1.24it/s]Training 3/3 epoch (loss 0.0204):  81%|████████▏ | 13772/16950 [2:30:51<45:39,  1.16it/s]Training 3/3 epoch (loss 0.0001):  81%|████████▏ | 13772/16950 [2:30:52<45:39,  1.16it/s]Training 3/3 epoch (loss 0.0001):  81%|████████▏ | 13773/16950 [2:30:52<41:40,  1.27it/s]Training 3/3 epoch (loss 0.3008):  81%|████████▏ | 13773/16950 [2:30:52<41:40,  1.27it/s]Training 3/3 epoch (loss 0.3008):  81%|████████▏ | 13774/16950 [2:30:52<36:21,  1.46it/s]Training 3/3 epoch (loss 0.4017):  81%|████████▏ | 13774/16950 [2:30:53<36:21,  1.46it/s]Training 3/3 epoch (loss 0.4017):  81%|████████▏ | 13775/16950 [2:30:53<39:25,  1.34it/s]Training 3/3 epoch (loss 0.2396):  81%|████████▏ | 13775/16950 [2:30:54<39:25,  1.34it/s]Training 3/3 epoch (loss 0.2396):  81%|████████▏ | 13776/16950 [2:30:54<37:38,  1.41it/s]Training 3/3 epoch (loss 0.0135):  81%|████████▏ | 13776/16950 [2:30:54<37:38,  1.41it/s]Training 3/3 epoch (loss 0.0135):  81%|████████▏ | 13777/16950 [2:30:54<33:25,  1.58it/s]Training 3/3 epoch (loss 0.0319):  81%|████████▏ | 13777/16950 [2:30:55<33:25,  1.58it/s]Training 3/3 epoch (loss 0.0319):  81%|████████▏ | 13778/16950 [2:30:55<33:54,  1.56it/s]Training 3/3 epoch (loss 0.2268):  81%|████████▏ | 13778/16950 [2:30:56<33:54,  1.56it/s]Training 3/3 epoch (loss 0.2268):  81%|████████▏ | 13779/16950 [2:30:56<37:34,  1.41it/s]Training 3/3 epoch (loss 0.2312):  81%|████████▏ | 13779/16950 [2:30:56<37:34,  1.41it/s]Training 3/3 epoch (loss 0.2312):  81%|████████▏ | 13780/16950 [2:30:56<35:30,  1.49it/s]Training 3/3 epoch (loss 0.0115):  81%|████████▏ | 13780/16950 [2:30:57<35:30,  1.49it/s]Training 3/3 epoch (loss 0.0115):  81%|████████▏ | 13781/16950 [2:30:57<32:47,  1.61it/s]Training 3/3 epoch (loss 0.0014):  81%|████████▏ | 13781/16950 [2:30:57<32:47,  1.61it/s]Training 3/3 epoch (loss 0.0014):  81%|████████▏ | 13782/16950 [2:30:57<33:03,  1.60it/s]Training 3/3 epoch (loss 0.0018):  81%|████████▏ | 13782/16950 [2:30:58<33:03,  1.60it/s]Training 3/3 epoch (loss 0.0018):  81%|████████▏ | 13783/16950 [2:30:58<31:32,  1.67it/s]Training 3/3 epoch (loss 0.0086):  81%|████████▏ | 13783/16950 [2:30:58<31:32,  1.67it/s]Training 3/3 epoch (loss 0.0086):  81%|████████▏ | 13784/16950 [2:30:58<29:06,  1.81it/s]Training 3/3 epoch (loss 0.0360):  81%|████████▏ | 13784/16950 [2:30:59<29:06,  1.81it/s]Training 3/3 epoch (loss 0.0360):  81%|████████▏ | 13785/16950 [2:30:59<31:10,  1.69it/s]Training 3/3 epoch (loss 0.0005):  81%|████████▏ | 13785/16950 [2:31:00<31:10,  1.69it/s]Training 3/3 epoch (loss 0.0005):  81%|████████▏ | 13786/16950 [2:31:00<33:22,  1.58it/s]Training 3/3 epoch (loss 0.0011):  81%|████████▏ | 13786/16950 [2:31:00<33:22,  1.58it/s]Training 3/3 epoch (loss 0.0011):  81%|████████▏ | 13787/16950 [2:31:00<31:22,  1.68it/s]Training 3/3 epoch (loss 0.0136):  81%|████████▏ | 13787/16950 [2:31:01<31:22,  1.68it/s]Training 3/3 epoch (loss 0.0136):  81%|████████▏ | 13788/16950 [2:31:01<30:07,  1.75it/s]Training 3/3 epoch (loss 0.0049):  81%|████████▏ | 13788/16950 [2:31:02<30:07,  1.75it/s]Training 3/3 epoch (loss 0.0049):  81%|████████▏ | 13789/16950 [2:31:02<30:46,  1.71it/s]Training 3/3 epoch (loss 0.0477):  81%|████████▏ | 13789/16950 [2:31:02<30:46,  1.71it/s]Training 3/3 epoch (loss 0.0477):  81%|████████▏ | 13790/16950 [2:31:02<31:26,  1.68it/s]Training 3/3 epoch (loss 0.0387):  81%|████████▏ | 13790/16950 [2:31:03<31:26,  1.68it/s]Training 3/3 epoch (loss 0.0387):  81%|████████▏ | 13791/16950 [2:31:03<32:14,  1.63it/s]Training 3/3 epoch (loss 0.0226):  81%|████████▏ | 13791/16950 [2:31:03<32:14,  1.63it/s]Training 3/3 epoch (loss 0.0226):  81%|████████▏ | 13792/16950 [2:31:03<31:30,  1.67it/s]Training 3/3 epoch (loss 0.0409):  81%|████████▏ | 13792/16950 [2:31:04<31:30,  1.67it/s]Training 3/3 epoch (loss 0.0409):  81%|████████▏ | 13793/16950 [2:31:04<36:31,  1.44it/s]Training 3/3 epoch (loss 0.0453):  81%|████████▏ | 13793/16950 [2:31:05<36:31,  1.44it/s]Training 3/3 epoch (loss 0.0453):  81%|████████▏ | 13794/16950 [2:31:05<37:21,  1.41it/s]Training 3/3 epoch (loss 0.0037):  81%|████████▏ | 13794/16950 [2:31:06<37:21,  1.41it/s]Training 3/3 epoch (loss 0.0037):  81%|████████▏ | 13795/16950 [2:31:06<37:24,  1.41it/s]Training 3/3 epoch (loss 0.0016):  81%|████████▏ | 13795/16950 [2:31:07<37:24,  1.41it/s]Training 3/3 epoch (loss 0.0016):  81%|████████▏ | 13796/16950 [2:31:07<39:48,  1.32it/s]Training 3/3 epoch (loss 0.0032):  81%|████████▏ | 13796/16950 [2:31:07<39:48,  1.32it/s]Training 3/3 epoch (loss 0.0032):  81%|████████▏ | 13797/16950 [2:31:07<37:12,  1.41it/s]Training 3/3 epoch (loss 0.0075):  81%|████████▏ | 13797/16950 [2:31:08<37:12,  1.41it/s]Training 3/3 epoch (loss 0.0075):  81%|████████▏ | 13798/16950 [2:31:08<34:09,  1.54it/s]Training 3/3 epoch (loss 0.2853):  81%|████████▏ | 13798/16950 [2:31:08<34:09,  1.54it/s]Training 3/3 epoch (loss 0.2853):  81%|████████▏ | 13799/16950 [2:31:08<30:01,  1.75it/s]Training 3/3 epoch (loss 0.0002):  81%|████████▏ | 13799/16950 [2:31:09<30:01,  1.75it/s]Training 3/3 epoch (loss 0.0002):  81%|████████▏ | 13800/16950 [2:31:09<30:17,  1.73it/s]Training 3/3 epoch (loss 0.0109):  81%|████████▏ | 13800/16950 [2:31:09<30:17,  1.73it/s]Training 3/3 epoch (loss 0.0109):  81%|████████▏ | 13801/16950 [2:31:09<30:22,  1.73it/s]Training 3/3 epoch (loss 0.0000):  81%|████████▏ | 13801/16950 [2:31:10<30:22,  1.73it/s]Training 3/3 epoch (loss 0.0000):  81%|████████▏ | 13802/16950 [2:31:10<27:34,  1.90it/s]Training 3/3 epoch (loss 0.1324):  81%|████████▏ | 13802/16950 [2:31:10<27:34,  1.90it/s]Training 3/3 epoch (loss 0.1324):  81%|████████▏ | 13803/16950 [2:31:10<26:26,  1.98it/s]Training 3/3 epoch (loss 0.0001):  81%|████████▏ | 13803/16950 [2:31:11<26:26,  1.98it/s]Training 3/3 epoch (loss 0.0001):  81%|████████▏ | 13804/16950 [2:31:11<26:25,  1.98it/s]Training 3/3 epoch (loss 0.3620):  81%|████████▏ | 13804/16950 [2:31:11<26:25,  1.98it/s]Training 3/3 epoch (loss 0.3620):  81%|████████▏ | 13805/16950 [2:31:11<23:37,  2.22it/s]Training 3/3 epoch (loss 0.0207):  81%|████████▏ | 13805/16950 [2:31:12<23:37,  2.22it/s]Training 3/3 epoch (loss 0.0207):  81%|████████▏ | 13806/16950 [2:31:12<27:27,  1.91it/s]Training 3/3 epoch (loss 0.4755):  81%|████████▏ | 13806/16950 [2:31:13<27:27,  1.91it/s]Training 3/3 epoch (loss 0.4755):  81%|████████▏ | 13807/16950 [2:31:13<34:55,  1.50it/s]Training 3/3 epoch (loss 0.0208):  81%|████████▏ | 13807/16950 [2:31:13<34:55,  1.50it/s]Training 3/3 epoch (loss 0.0208):  81%|████████▏ | 13808/16950 [2:31:13<33:53,  1.55it/s]Training 3/3 epoch (loss 0.0578):  81%|████████▏ | 13808/16950 [2:31:14<33:53,  1.55it/s]Training 3/3 epoch (loss 0.0578):  81%|████████▏ | 13809/16950 [2:31:14<33:34,  1.56it/s]Training 3/3 epoch (loss 0.5310):  81%|████████▏ | 13809/16950 [2:31:14<33:34,  1.56it/s]Training 3/3 epoch (loss 0.5310):  81%|████████▏ | 13810/16950 [2:31:14<30:49,  1.70it/s]Training 3/3 epoch (loss 0.0004):  81%|████████▏ | 13810/16950 [2:31:15<30:49,  1.70it/s]Training 3/3 epoch (loss 0.0004):  81%|████████▏ | 13811/16950 [2:31:15<28:09,  1.86it/s]Training 3/3 epoch (loss 0.2100):  81%|████████▏ | 13811/16950 [2:31:15<28:09,  1.86it/s]Training 3/3 epoch (loss 0.2100):  81%|████████▏ | 13812/16950 [2:31:15<29:31,  1.77it/s]Training 3/3 epoch (loss 0.0001):  81%|████████▏ | 13812/16950 [2:31:16<29:31,  1.77it/s]Training 3/3 epoch (loss 0.0001):  81%|████████▏ | 13813/16950 [2:31:16<28:56,  1.81it/s]Training 3/3 epoch (loss 0.1216):  81%|████████▏ | 13813/16950 [2:31:16<28:56,  1.81it/s]Training 3/3 epoch (loss 0.1216):  81%|████████▏ | 13814/16950 [2:31:17<29:17,  1.78it/s]Training 3/3 epoch (loss 0.0085):  81%|████████▏ | 13814/16950 [2:31:17<29:17,  1.78it/s]Training 3/3 epoch (loss 0.0085):  82%|████████▏ | 13815/16950 [2:31:17<31:55,  1.64it/s]Training 3/3 epoch (loss 0.0217):  82%|████████▏ | 13815/16950 [2:31:18<31:55,  1.64it/s]Training 3/3 epoch (loss 0.0217):  82%|████████▏ | 13816/16950 [2:31:18<31:31,  1.66it/s]Training 3/3 epoch (loss 0.0011):  82%|████████▏ | 13816/16950 [2:31:19<31:31,  1.66it/s]Training 3/3 epoch (loss 0.0011):  82%|████████▏ | 13817/16950 [2:31:19<35:46,  1.46it/s]Training 3/3 epoch (loss 0.0774):  82%|████████▏ | 13817/16950 [2:31:19<35:46,  1.46it/s]Training 3/3 epoch (loss 0.0774):  82%|████████▏ | 13818/16950 [2:31:19<33:06,  1.58it/s]Training 3/3 epoch (loss 0.0999):  82%|████████▏ | 13818/16950 [2:31:20<33:06,  1.58it/s]Training 3/3 epoch (loss 0.0999):  82%|████████▏ | 13819/16950 [2:31:20<31:50,  1.64it/s]Training 3/3 epoch (loss 0.0060):  82%|████████▏ | 13819/16950 [2:31:20<31:50,  1.64it/s]Training 3/3 epoch (loss 0.0060):  82%|████████▏ | 13820/16950 [2:31:20<29:44,  1.75it/s]Training 3/3 epoch (loss 0.0050):  82%|████████▏ | 13820/16950 [2:31:21<29:44,  1.75it/s]Training 3/3 epoch (loss 0.0050):  82%|████████▏ | 13821/16950 [2:31:21<30:44,  1.70it/s]Training 3/3 epoch (loss 0.4815):  82%|████████▏ | 13821/16950 [2:31:22<30:44,  1.70it/s]Training 3/3 epoch (loss 0.4815):  82%|████████▏ | 13822/16950 [2:31:22<36:47,  1.42it/s]Training 3/3 epoch (loss 0.0197):  82%|████████▏ | 13822/16950 [2:31:23<36:47,  1.42it/s]Training 3/3 epoch (loss 0.0197):  82%|████████▏ | 13823/16950 [2:31:23<36:36,  1.42it/s]Training 3/3 epoch (loss 0.0031):  82%|████████▏ | 13823/16950 [2:31:23<36:36,  1.42it/s]Training 3/3 epoch (loss 0.0031):  82%|████████▏ | 13824/16950 [2:31:23<32:35,  1.60it/s]Training 3/3 epoch (loss 0.0271):  82%|████████▏ | 13824/16950 [2:31:24<32:35,  1.60it/s]Training 3/3 epoch (loss 0.0271):  82%|████████▏ | 13825/16950 [2:31:24<31:17,  1.66it/s]Training 3/3 epoch (loss 0.0419):  82%|████████▏ | 13825/16950 [2:31:24<31:17,  1.66it/s]Training 3/3 epoch (loss 0.0419):  82%|████████▏ | 13826/16950 [2:31:24<30:31,  1.71it/s]Training 3/3 epoch (loss 0.2168):  82%|████████▏ | 13826/16950 [2:31:25<30:31,  1.71it/s]Training 3/3 epoch (loss 0.2168):  82%|████████▏ | 13827/16950 [2:31:25<33:45,  1.54it/s]Training 3/3 epoch (loss 0.3939):  82%|████████▏ | 13827/16950 [2:31:25<33:45,  1.54it/s]Training 3/3 epoch (loss 0.3939):  82%|████████▏ | 13828/16950 [2:31:25<31:35,  1.65it/s]Training 3/3 epoch (loss 0.0023):  82%|████████▏ | 13828/16950 [2:31:26<31:35,  1.65it/s]Training 3/3 epoch (loss 0.0023):  82%|████████▏ | 13829/16950 [2:31:26<29:26,  1.77it/s]Training 3/3 epoch (loss 0.0222):  82%|████████▏ | 13829/16950 [2:31:26<29:26,  1.77it/s]Training 3/3 epoch (loss 0.0222):  82%|████████▏ | 13830/16950 [2:31:26<28:25,  1.83it/s]Training 3/3 epoch (loss 0.0212):  82%|████████▏ | 13830/16950 [2:31:27<28:25,  1.83it/s]Training 3/3 epoch (loss 0.0212):  82%|████████▏ | 13831/16950 [2:31:27<30:44,  1.69it/s]Training 3/3 epoch (loss 0.3511):  82%|████████▏ | 13831/16950 [2:31:28<30:44,  1.69it/s]Training 3/3 epoch (loss 0.3511):  82%|████████▏ | 13832/16950 [2:31:28<29:40,  1.75it/s]Training 3/3 epoch (loss 0.6869):  82%|████████▏ | 13832/16950 [2:31:28<29:40,  1.75it/s]Training 3/3 epoch (loss 0.6869):  82%|████████▏ | 13833/16950 [2:31:28<31:34,  1.64it/s]Training 3/3 epoch (loss 0.0008):  82%|████████▏ | 13833/16950 [2:31:29<31:34,  1.64it/s]Training 3/3 epoch (loss 0.0008):  82%|████████▏ | 13834/16950 [2:31:29<33:33,  1.55it/s]Training 3/3 epoch (loss 0.0302):  82%|████████▏ | 13834/16950 [2:31:30<33:33,  1.55it/s]Training 3/3 epoch (loss 0.0302):  82%|████████▏ | 13835/16950 [2:31:30<31:14,  1.66it/s]Training 3/3 epoch (loss 0.5038):  82%|████████▏ | 13835/16950 [2:31:30<31:14,  1.66it/s]Training 3/3 epoch (loss 0.5038):  82%|████████▏ | 13836/16950 [2:31:30<32:17,  1.61it/s]Training 3/3 epoch (loss 0.0205):  82%|████████▏ | 13836/16950 [2:31:31<32:17,  1.61it/s]Training 3/3 epoch (loss 0.0205):  82%|████████▏ | 13837/16950 [2:31:31<30:15,  1.72it/s]Training 3/3 epoch (loss 0.1804):  82%|████████▏ | 13837/16950 [2:31:31<30:15,  1.72it/s]Training 3/3 epoch (loss 0.1804):  82%|████████▏ | 13838/16950 [2:31:31<28:04,  1.85it/s]Training 3/3 epoch (loss 0.1686):  82%|████████▏ | 13838/16950 [2:31:32<28:04,  1.85it/s]Training 3/3 epoch (loss 0.1686):  82%|████████▏ | 13839/16950 [2:31:32<28:44,  1.80it/s]Training 3/3 epoch (loss 0.1023):  82%|████████▏ | 13839/16950 [2:31:32<28:44,  1.80it/s]Training 3/3 epoch (loss 0.1023):  82%|████████▏ | 13840/16950 [2:31:32<29:17,  1.77it/s]Training 3/3 epoch (loss 0.0093):  82%|████████▏ | 13840/16950 [2:31:33<29:17,  1.77it/s]Training 3/3 epoch (loss 0.0093):  82%|████████▏ | 13841/16950 [2:31:33<27:57,  1.85it/s]Training 3/3 epoch (loss 0.2740):  82%|████████▏ | 13841/16950 [2:31:33<27:57,  1.85it/s]Training 3/3 epoch (loss 0.2740):  82%|████████▏ | 13842/16950 [2:31:33<25:36,  2.02it/s]Training 3/3 epoch (loss 0.1848):  82%|████████▏ | 13842/16950 [2:31:33<25:36,  2.02it/s]Training 3/3 epoch (loss 0.1848):  82%|████████▏ | 13843/16950 [2:31:33<22:48,  2.27it/s]Training 3/3 epoch (loss 0.2576):  82%|████████▏ | 13843/16950 [2:31:34<22:48,  2.27it/s]Training 3/3 epoch (loss 0.2576):  82%|████████▏ | 13844/16950 [2:31:34<20:57,  2.47it/s]Training 3/3 epoch (loss 0.4673):  82%|████████▏ | 13844/16950 [2:31:34<20:57,  2.47it/s]Training 3/3 epoch (loss 0.4673):  82%|████████▏ | 13845/16950 [2:31:34<22:27,  2.30it/s]Training 3/3 epoch (loss 0.0155):  82%|████████▏ | 13845/16950 [2:31:35<22:27,  2.30it/s]Training 3/3 epoch (loss 0.0155):  82%|████████▏ | 13846/16950 [2:31:35<24:27,  2.12it/s]Training 3/3 epoch (loss 0.0248):  82%|████████▏ | 13846/16950 [2:31:36<24:27,  2.12it/s]Training 3/3 epoch (loss 0.0248):  82%|████████▏ | 13847/16950 [2:31:36<27:42,  1.87it/s]Training 3/3 epoch (loss 0.0112):  82%|████████▏ | 13847/16950 [2:31:36<27:42,  1.87it/s]Training 3/3 epoch (loss 0.0112):  82%|████████▏ | 13848/16950 [2:31:36<31:03,  1.66it/s]Training 3/3 epoch (loss 0.1840):  82%|████████▏ | 13848/16950 [2:31:37<31:03,  1.66it/s]Training 3/3 epoch (loss 0.1840):  82%|████████▏ | 13849/16950 [2:31:37<29:43,  1.74it/s]Training 3/3 epoch (loss 0.1551):  82%|████████▏ | 13849/16950 [2:31:37<29:43,  1.74it/s]Training 3/3 epoch (loss 0.1551):  82%|████████▏ | 13850/16950 [2:31:37<29:17,  1.76it/s]Training 3/3 epoch (loss 0.0269):  82%|████████▏ | 13850/16950 [2:31:38<29:17,  1.76it/s]Training 3/3 epoch (loss 0.0269):  82%|████████▏ | 13851/16950 [2:31:38<29:03,  1.78it/s]Training 3/3 epoch (loss 0.0660):  82%|████████▏ | 13851/16950 [2:31:39<29:03,  1.78it/s]Training 3/3 epoch (loss 0.0660):  82%|████████▏ | 13852/16950 [2:31:39<29:56,  1.72it/s]Training 3/3 epoch (loss 0.0007):  82%|████████▏ | 13852/16950 [2:31:39<29:56,  1.72it/s]Training 3/3 epoch (loss 0.0007):  82%|████████▏ | 13853/16950 [2:31:39<29:50,  1.73it/s]Training 3/3 epoch (loss 0.0977):  82%|████████▏ | 13853/16950 [2:31:40<29:50,  1.73it/s]Training 3/3 epoch (loss 0.0977):  82%|████████▏ | 13854/16950 [2:31:40<31:36,  1.63it/s]Training 3/3 epoch (loss 0.0027):  82%|████████▏ | 13854/16950 [2:31:40<31:36,  1.63it/s]Training 3/3 epoch (loss 0.0027):  82%|████████▏ | 13855/16950 [2:31:40<32:01,  1.61it/s]Training 3/3 epoch (loss 0.0047):  82%|████████▏ | 13855/16950 [2:31:41<32:01,  1.61it/s]Training 3/3 epoch (loss 0.0047):  82%|████████▏ | 13856/16950 [2:31:41<28:27,  1.81it/s]Training 3/3 epoch (loss 0.0051):  82%|████████▏ | 13856/16950 [2:31:42<28:27,  1.81it/s]Training 3/3 epoch (loss 0.0051):  82%|████████▏ | 13857/16950 [2:31:42<33:17,  1.55it/s]Training 3/3 epoch (loss 0.4054):  82%|████████▏ | 13857/16950 [2:31:42<33:17,  1.55it/s]Training 3/3 epoch (loss 0.4054):  82%|████████▏ | 13858/16950 [2:31:42<33:50,  1.52it/s]Training 3/3 epoch (loss 0.0138):  82%|████████▏ | 13858/16950 [2:31:43<33:50,  1.52it/s]Training 3/3 epoch (loss 0.0138):  82%|████████▏ | 13859/16950 [2:31:43<34:40,  1.49it/s]Training 3/3 epoch (loss 0.0103):  82%|████████▏ | 13859/16950 [2:31:44<34:40,  1.49it/s]Training 3/3 epoch (loss 0.0103):  82%|████████▏ | 13860/16950 [2:31:44<31:38,  1.63it/s]Training 3/3 epoch (loss 0.3985):  82%|████████▏ | 13860/16950 [2:31:44<31:38,  1.63it/s]Training 3/3 epoch (loss 0.3985):  82%|████████▏ | 13861/16950 [2:31:44<32:34,  1.58it/s]Training 3/3 epoch (loss 0.2374):  82%|████████▏ | 13861/16950 [2:31:45<32:34,  1.58it/s]Training 3/3 epoch (loss 0.2374):  82%|████████▏ | 13862/16950 [2:31:45<32:42,  1.57it/s]Training 3/3 epoch (loss 0.0106):  82%|████████▏ | 13862/16950 [2:31:46<32:42,  1.57it/s]Training 3/3 epoch (loss 0.0106):  82%|████████▏ | 13863/16950 [2:31:46<34:12,  1.50it/s]Training 3/3 epoch (loss 0.0710):  82%|████████▏ | 13863/16950 [2:31:46<34:12,  1.50it/s]Training 3/3 epoch (loss 0.0710):  82%|████████▏ | 13864/16950 [2:31:46<31:31,  1.63it/s]Training 3/3 epoch (loss 0.5632):  82%|████████▏ | 13864/16950 [2:31:47<31:31,  1.63it/s]Training 3/3 epoch (loss 0.5632):  82%|████████▏ | 13865/16950 [2:31:47<36:33,  1.41it/s]Training 3/3 epoch (loss 0.0013):  82%|████████▏ | 13865/16950 [2:31:48<36:33,  1.41it/s]Training 3/3 epoch (loss 0.0013):  82%|████████▏ | 13866/16950 [2:31:48<33:29,  1.53it/s]Training 3/3 epoch (loss 0.0078):  82%|████████▏ | 13866/16950 [2:31:48<33:29,  1.53it/s]Training 3/3 epoch (loss 0.0078):  82%|████████▏ | 13867/16950 [2:31:48<30:46,  1.67it/s]Training 3/3 epoch (loss 0.1134):  82%|████████▏ | 13867/16950 [2:31:49<30:46,  1.67it/s]Training 3/3 epoch (loss 0.1134):  82%|████████▏ | 13868/16950 [2:31:49<29:24,  1.75it/s]Training 3/3 epoch (loss 0.0569):  82%|████████▏ | 13868/16950 [2:31:49<29:24,  1.75it/s]Training 3/3 epoch (loss 0.0569):  82%|████████▏ | 13869/16950 [2:31:49<30:25,  1.69it/s]Training 3/3 epoch (loss 0.3964):  82%|████████▏ | 13869/16950 [2:31:50<30:25,  1.69it/s]Training 3/3 epoch (loss 0.3964):  82%|████████▏ | 13870/16950 [2:31:50<31:36,  1.62it/s]Training 3/3 epoch (loss 0.0069):  82%|████████▏ | 13870/16950 [2:31:50<31:36,  1.62it/s]Training 3/3 epoch (loss 0.0069):  82%|████████▏ | 13871/16950 [2:31:50<29:04,  1.77it/s]Training 3/3 epoch (loss 0.3832):  82%|████████▏ | 13871/16950 [2:31:51<29:04,  1.77it/s]Training 3/3 epoch (loss 0.3832):  82%|████████▏ | 13872/16950 [2:31:51<30:25,  1.69it/s]Training 3/3 epoch (loss 0.0891):  82%|████████▏ | 13872/16950 [2:31:52<30:25,  1.69it/s]Training 3/3 epoch (loss 0.0891):  82%|████████▏ | 13873/16950 [2:31:52<29:39,  1.73it/s]Training 3/3 epoch (loss 0.1090):  82%|████████▏ | 13873/16950 [2:31:52<29:39,  1.73it/s]Training 3/3 epoch (loss 0.1090):  82%|████████▏ | 13874/16950 [2:31:52<28:14,  1.82it/s]Training 3/3 epoch (loss 0.0184):  82%|████████▏ | 13874/16950 [2:31:53<28:14,  1.82it/s]Training 3/3 epoch (loss 0.0184):  82%|████████▏ | 13875/16950 [2:31:53<28:20,  1.81it/s]Training 3/3 epoch (loss 0.0029):  82%|████████▏ | 13875/16950 [2:31:53<28:20,  1.81it/s]Training 3/3 epoch (loss 0.0029):  82%|████████▏ | 13876/16950 [2:31:53<25:49,  1.98it/s]Training 3/3 epoch (loss 0.3616):  82%|████████▏ | 13876/16950 [2:31:53<25:49,  1.98it/s]Training 3/3 epoch (loss 0.3616):  82%|████████▏ | 13877/16950 [2:31:53<26:37,  1.92it/s]Training 3/3 epoch (loss 0.0012):  82%|████████▏ | 13877/16950 [2:31:54<26:37,  1.92it/s]Training 3/3 epoch (loss 0.0012):  82%|████████▏ | 13878/16950 [2:31:54<27:00,  1.90it/s]Training 3/3 epoch (loss 0.0006):  82%|████████▏ | 13878/16950 [2:31:55<27:00,  1.90it/s]Training 3/3 epoch (loss 0.0006):  82%|████████▏ | 13879/16950 [2:31:55<32:13,  1.59it/s]Training 3/3 epoch (loss 0.0066):  82%|████████▏ | 13879/16950 [2:31:56<32:13,  1.59it/s]Training 3/3 epoch (loss 0.0066):  82%|████████▏ | 13880/16950 [2:31:56<31:45,  1.61it/s]Training 3/3 epoch (loss 0.0029):  82%|████████▏ | 13880/16950 [2:31:56<31:45,  1.61it/s]Training 3/3 epoch (loss 0.0029):  82%|████████▏ | 13881/16950 [2:31:56<31:54,  1.60it/s]Training 3/3 epoch (loss 0.4326):  82%|████████▏ | 13881/16950 [2:31:57<31:54,  1.60it/s]Training 3/3 epoch (loss 0.4326):  82%|████████▏ | 13882/16950 [2:31:57<29:00,  1.76it/s]Training 3/3 epoch (loss 0.0032):  82%|████████▏ | 13882/16950 [2:31:57<29:00,  1.76it/s]Training 3/3 epoch (loss 0.0032):  82%|████████▏ | 13883/16950 [2:31:57<29:28,  1.73it/s]Training 3/3 epoch (loss 0.3928):  82%|████████▏ | 13883/16950 [2:31:58<29:28,  1.73it/s]Training 3/3 epoch (loss 0.3928):  82%|████████▏ | 13884/16950 [2:31:58<29:19,  1.74it/s]Training 3/3 epoch (loss 0.0210):  82%|████████▏ | 13884/16950 [2:31:58<29:19,  1.74it/s]Training 3/3 epoch (loss 0.0210):  82%|████████▏ | 13885/16950 [2:31:58<27:17,  1.87it/s]Training 3/3 epoch (loss 0.0767):  82%|████████▏ | 13885/16950 [2:31:59<27:17,  1.87it/s]Training 3/3 epoch (loss 0.0767):  82%|████████▏ | 13886/16950 [2:31:59<28:41,  1.78it/s]Training 3/3 epoch (loss 0.0166):  82%|████████▏ | 13886/16950 [2:31:59<28:41,  1.78it/s]Training 3/3 epoch (loss 0.0166):  82%|████████▏ | 13887/16950 [2:31:59<28:15,  1.81it/s]Training 3/3 epoch (loss 0.4634):  82%|████████▏ | 13887/16950 [2:32:00<28:15,  1.81it/s]Training 3/3 epoch (loss 0.4634):  82%|████████▏ | 13888/16950 [2:32:00<35:46,  1.43it/s]Training 3/3 epoch (loss 0.0221):  82%|████████▏ | 13888/16950 [2:32:01<35:46,  1.43it/s]Training 3/3 epoch (loss 0.0221):  82%|████████▏ | 13889/16950 [2:32:01<33:45,  1.51it/s]Training 3/3 epoch (loss 0.1177):  82%|████████▏ | 13889/16950 [2:32:02<33:45,  1.51it/s]Training 3/3 epoch (loss 0.1177):  82%|████████▏ | 13890/16950 [2:32:02<31:56,  1.60it/s]Training 3/3 epoch (loss 0.0029):  82%|████████▏ | 13890/16950 [2:32:02<31:56,  1.60it/s]Training 3/3 epoch (loss 0.0029):  82%|████████▏ | 13891/16950 [2:32:02<30:55,  1.65it/s]Training 3/3 epoch (loss 0.2337):  82%|████████▏ | 13891/16950 [2:32:03<30:55,  1.65it/s]Training 3/3 epoch (loss 0.2337):  82%|████████▏ | 13892/16950 [2:32:03<29:31,  1.73it/s]Training 3/3 epoch (loss 0.0000):  82%|████████▏ | 13892/16950 [2:32:03<29:31,  1.73it/s]Training 3/3 epoch (loss 0.0000):  82%|████████▏ | 13893/16950 [2:32:03<28:20,  1.80it/s]Training 3/3 epoch (loss 0.0129):  82%|████████▏ | 13893/16950 [2:32:04<28:20,  1.80it/s]Training 3/3 epoch (loss 0.0129):  82%|████████▏ | 13894/16950 [2:32:04<28:08,  1.81it/s]Training 3/3 epoch (loss 0.2878):  82%|████████▏ | 13894/16950 [2:32:04<28:08,  1.81it/s]Training 3/3 epoch (loss 0.2878):  82%|████████▏ | 13895/16950 [2:32:04<29:37,  1.72it/s]Training 3/3 epoch (loss 0.0455):  82%|████████▏ | 13895/16950 [2:32:05<29:37,  1.72it/s]Training 3/3 epoch (loss 0.0455):  82%|████████▏ | 13896/16950 [2:32:05<29:40,  1.72it/s]Training 3/3 epoch (loss 0.0085):  82%|████████▏ | 13896/16950 [2:32:05<29:40,  1.72it/s]Training 3/3 epoch (loss 0.0085):  82%|████████▏ | 13897/16950 [2:32:05<29:09,  1.75it/s]Training 3/3 epoch (loss 0.0093):  82%|████████▏ | 13897/16950 [2:32:06<29:09,  1.75it/s]Training 3/3 epoch (loss 0.0093):  82%|████████▏ | 13898/16950 [2:32:06<31:12,  1.63it/s]Training 3/3 epoch (loss 0.2071):  82%|████████▏ | 13898/16950 [2:32:07<31:12,  1.63it/s]Training 3/3 epoch (loss 0.2071):  82%|████████▏ | 13899/16950 [2:32:07<31:32,  1.61it/s]Training 3/3 epoch (loss 0.0459):  82%|████████▏ | 13899/16950 [2:32:08<31:32,  1.61it/s]Training 3/3 epoch (loss 0.0459):  82%|████████▏ | 13900/16950 [2:32:08<37:03,  1.37it/s]Training 3/3 epoch (loss 0.0044):  82%|████████▏ | 13900/16950 [2:32:08<37:03,  1.37it/s]Training 3/3 epoch (loss 0.0044):  82%|████████▏ | 13901/16950 [2:32:08<35:07,  1.45it/s]Training 3/3 epoch (loss 0.0009):  82%|████████▏ | 13901/16950 [2:32:09<35:07,  1.45it/s]Training 3/3 epoch (loss 0.0009):  82%|████████▏ | 13902/16950 [2:32:09<32:48,  1.55it/s]Training 3/3 epoch (loss 0.2324):  82%|████████▏ | 13902/16950 [2:32:09<32:48,  1.55it/s]Training 3/3 epoch (loss 0.2324):  82%|████████▏ | 13903/16950 [2:32:09<29:43,  1.71it/s]Training 3/3 epoch (loss 0.0004):  82%|████████▏ | 13903/16950 [2:32:10<29:43,  1.71it/s]Training 3/3 epoch (loss 0.0004):  82%|████████▏ | 13904/16950 [2:32:10<27:57,  1.82it/s]Training 3/3 epoch (loss 0.1123):  82%|████████▏ | 13904/16950 [2:32:11<27:57,  1.82it/s]Training 3/3 epoch (loss 0.1123):  82%|████████▏ | 13905/16950 [2:32:11<32:12,  1.58it/s]Training 3/3 epoch (loss 0.0010):  82%|████████▏ | 13905/16950 [2:32:11<32:12,  1.58it/s]Training 3/3 epoch (loss 0.0010):  82%|████████▏ | 13906/16950 [2:32:11<30:54,  1.64it/s]Training 3/3 epoch (loss 0.3132):  82%|████████▏ | 13906/16950 [2:32:12<30:54,  1.64it/s]Training 3/3 epoch (loss 0.3132):  82%|████████▏ | 13907/16950 [2:32:12<31:43,  1.60it/s]Training 3/3 epoch (loss 0.0185):  82%|████████▏ | 13907/16950 [2:32:12<31:43,  1.60it/s]Training 3/3 epoch (loss 0.0185):  82%|████████▏ | 13908/16950 [2:32:12<30:35,  1.66it/s]Training 3/3 epoch (loss 0.3174):  82%|████████▏ | 13908/16950 [2:32:13<30:35,  1.66it/s]Training 3/3 epoch (loss 0.3174):  82%|████████▏ | 13909/16950 [2:32:13<27:55,  1.81it/s]Training 3/3 epoch (loss 0.2862):  82%|████████▏ | 13909/16950 [2:32:13<27:55,  1.81it/s]Training 3/3 epoch (loss 0.2862):  82%|████████▏ | 13910/16950 [2:32:13<26:31,  1.91it/s]Training 3/3 epoch (loss 0.3661):  82%|████████▏ | 13910/16950 [2:32:14<26:31,  1.91it/s]Training 3/3 epoch (loss 0.3661):  82%|████████▏ | 13911/16950 [2:32:14<30:14,  1.67it/s]Training 3/3 epoch (loss 0.6183):  82%|████████▏ | 13911/16950 [2:32:14<30:14,  1.67it/s]Training 3/3 epoch (loss 0.6183):  82%|████████▏ | 13912/16950 [2:32:14<26:29,  1.91it/s]Training 3/3 epoch (loss 0.1829):  82%|████████▏ | 13912/16950 [2:32:15<26:29,  1.91it/s]Training 3/3 epoch (loss 0.1829):  82%|████████▏ | 13913/16950 [2:32:15<28:21,  1.79it/s]Training 3/3 epoch (loss 0.2751):  82%|████████▏ | 13913/16950 [2:32:15<28:21,  1.79it/s]Training 3/3 epoch (loss 0.2751):  82%|████████▏ | 13914/16950 [2:32:15<26:36,  1.90it/s]Training 3/3 epoch (loss 0.4720):  82%|████████▏ | 13914/16950 [2:32:16<26:36,  1.90it/s]Training 3/3 epoch (loss 0.4720):  82%|████████▏ | 13915/16950 [2:32:16<30:19,  1.67it/s]Training 3/3 epoch (loss 0.0002):  82%|████████▏ | 13915/16950 [2:32:17<30:19,  1.67it/s]Training 3/3 epoch (loss 0.0002):  82%|████████▏ | 13916/16950 [2:32:17<28:46,  1.76it/s]Training 3/3 epoch (loss 0.0115):  82%|████████▏ | 13916/16950 [2:32:17<28:46,  1.76it/s]Training 3/3 epoch (loss 0.0115):  82%|████████▏ | 13917/16950 [2:32:17<28:24,  1.78it/s]Training 3/3 epoch (loss 0.0006):  82%|████████▏ | 13917/16950 [2:32:18<28:24,  1.78it/s]Training 3/3 epoch (loss 0.0006):  82%|████████▏ | 13918/16950 [2:32:18<26:44,  1.89it/s]Training 3/3 epoch (loss 0.0162):  82%|████████▏ | 13918/16950 [2:32:18<26:44,  1.89it/s]Training 3/3 epoch (loss 0.0162):  82%|████████▏ | 13919/16950 [2:32:18<29:15,  1.73it/s]Training 3/3 epoch (loss 0.0668):  82%|████████▏ | 13919/16950 [2:32:19<29:15,  1.73it/s]Training 3/3 epoch (loss 0.0668):  82%|████████▏ | 13920/16950 [2:32:19<29:47,  1.69it/s]Training 3/3 epoch (loss 0.0245):  82%|████████▏ | 13920/16950 [2:32:20<29:47,  1.69it/s]Training 3/3 epoch (loss 0.0245):  82%|████████▏ | 13921/16950 [2:32:20<29:09,  1.73it/s]Training 3/3 epoch (loss 0.0090):  82%|████████▏ | 13921/16950 [2:32:20<29:09,  1.73it/s]Training 3/3 epoch (loss 0.0090):  82%|████████▏ | 13922/16950 [2:32:20<28:37,  1.76it/s]Training 3/3 epoch (loss 0.0002):  82%|████████▏ | 13922/16950 [2:32:21<28:37,  1.76it/s]Training 3/3 epoch (loss 0.0002):  82%|████████▏ | 13923/16950 [2:32:21<25:43,  1.96it/s]Training 3/3 epoch (loss 0.0003):  82%|████████▏ | 13923/16950 [2:32:21<25:43,  1.96it/s]Training 3/3 epoch (loss 0.0003):  82%|████████▏ | 13924/16950 [2:32:21<24:09,  2.09it/s]Training 3/3 epoch (loss 0.1010):  82%|████████▏ | 13924/16950 [2:32:21<24:09,  2.09it/s]Training 3/3 epoch (loss 0.1010):  82%|████████▏ | 13925/16950 [2:32:21<24:33,  2.05it/s]Training 3/3 epoch (loss 0.0271):  82%|████████▏ | 13925/16950 [2:32:22<24:33,  2.05it/s]Training 3/3 epoch (loss 0.0271):  82%|████████▏ | 13926/16950 [2:32:22<24:13,  2.08it/s]Training 3/3 epoch (loss 0.0278):  82%|████████▏ | 13926/16950 [2:32:23<24:13,  2.08it/s]Training 3/3 epoch (loss 0.0278):  82%|████████▏ | 13927/16950 [2:32:23<26:17,  1.92it/s]Training 3/3 epoch (loss 0.2046):  82%|████████▏ | 13927/16950 [2:32:23<26:17,  1.92it/s]Training 3/3 epoch (loss 0.2046):  82%|████████▏ | 13928/16950 [2:32:23<25:04,  2.01it/s]Training 3/3 epoch (loss 0.0032):  82%|████████▏ | 13928/16950 [2:32:23<25:04,  2.01it/s]Training 3/3 epoch (loss 0.0032):  82%|████████▏ | 13929/16950 [2:32:23<23:19,  2.16it/s]Training 3/3 epoch (loss 0.0073):  82%|████████▏ | 13929/16950 [2:32:24<23:19,  2.16it/s]Training 3/3 epoch (loss 0.0073):  82%|████████▏ | 13930/16950 [2:32:24<23:49,  2.11it/s]Training 3/3 epoch (loss 0.0175):  82%|████████▏ | 13930/16950 [2:32:25<23:49,  2.11it/s]Training 3/3 epoch (loss 0.0175):  82%|████████▏ | 13931/16950 [2:32:25<27:04,  1.86it/s]Training 3/3 epoch (loss 0.0016):  82%|████████▏ | 13931/16950 [2:32:25<27:04,  1.86it/s]Training 3/3 epoch (loss 0.0016):  82%|████████▏ | 13932/16950 [2:32:25<28:39,  1.75it/s]Training 3/3 epoch (loss 0.0289):  82%|████████▏ | 13932/16950 [2:32:26<28:39,  1.75it/s]Training 3/3 epoch (loss 0.0289):  82%|████████▏ | 13933/16950 [2:32:26<27:45,  1.81it/s]Training 3/3 epoch (loss 0.0482):  82%|████████▏ | 13933/16950 [2:32:26<27:45,  1.81it/s]Training 3/3 epoch (loss 0.0482):  82%|████████▏ | 13934/16950 [2:32:26<28:59,  1.73it/s]Training 3/3 epoch (loss 0.1194):  82%|████████▏ | 13934/16950 [2:32:27<28:59,  1.73it/s]Training 3/3 epoch (loss 0.1194):  82%|████████▏ | 13935/16950 [2:32:27<30:34,  1.64it/s]Training 3/3 epoch (loss 0.0530):  82%|████████▏ | 13935/16950 [2:32:28<30:34,  1.64it/s]Training 3/3 epoch (loss 0.0530):  82%|████████▏ | 13936/16950 [2:32:28<29:12,  1.72it/s]Training 3/3 epoch (loss 0.0065):  82%|████████▏ | 13936/16950 [2:32:28<29:12,  1.72it/s]Training 3/3 epoch (loss 0.0065):  82%|████████▏ | 13937/16950 [2:32:28<29:21,  1.71it/s]Training 3/3 epoch (loss 0.0292):  82%|████████▏ | 13937/16950 [2:32:29<29:21,  1.71it/s]Training 3/3 epoch (loss 0.0292):  82%|████████▏ | 13938/16950 [2:32:29<29:58,  1.67it/s]Training 3/3 epoch (loss 0.0003):  82%|████████▏ | 13938/16950 [2:32:29<29:58,  1.67it/s]Training 3/3 epoch (loss 0.0003):  82%|████████▏ | 13939/16950 [2:32:29<28:57,  1.73it/s]Training 3/3 epoch (loss 0.0016):  82%|████████▏ | 13939/16950 [2:32:30<28:57,  1.73it/s]Training 3/3 epoch (loss 0.0016):  82%|████████▏ | 13940/16950 [2:32:30<29:36,  1.69it/s]Training 3/3 epoch (loss 0.4356):  82%|████████▏ | 13940/16950 [2:32:31<29:36,  1.69it/s]Training 3/3 epoch (loss 0.4356):  82%|████████▏ | 13941/16950 [2:32:31<35:41,  1.40it/s]Training 3/3 epoch (loss 0.0042):  82%|████████▏ | 13941/16950 [2:32:32<35:41,  1.40it/s]Training 3/3 epoch (loss 0.0042):  82%|████████▏ | 13942/16950 [2:32:32<35:58,  1.39it/s]Training 3/3 epoch (loss 0.0052):  82%|████████▏ | 13942/16950 [2:32:32<35:58,  1.39it/s]Training 3/3 epoch (loss 0.0052):  82%|████████▏ | 13943/16950 [2:32:32<31:40,  1.58it/s]Training 3/3 epoch (loss 0.3922):  82%|████████▏ | 13943/16950 [2:32:33<31:40,  1.58it/s]Training 3/3 epoch (loss 0.3922):  82%|████████▏ | 13944/16950 [2:32:33<32:31,  1.54it/s]Training 3/3 epoch (loss 0.0542):  82%|████████▏ | 13944/16950 [2:32:33<32:31,  1.54it/s]Training 3/3 epoch (loss 0.0542):  82%|████████▏ | 13945/16950 [2:32:33<33:18,  1.50it/s]Training 3/3 epoch (loss 0.0037):  82%|████████▏ | 13945/16950 [2:32:34<33:18,  1.50it/s]Training 3/3 epoch (loss 0.0037):  82%|████████▏ | 13946/16950 [2:32:34<30:59,  1.62it/s]Training 3/3 epoch (loss 0.1253):  82%|████████▏ | 13946/16950 [2:32:34<30:59,  1.62it/s]Training 3/3 epoch (loss 0.1253):  82%|████████▏ | 13947/16950 [2:32:34<26:32,  1.89it/s]Training 3/3 epoch (loss 0.0067):  82%|████████▏ | 13947/16950 [2:32:35<26:32,  1.89it/s]Training 3/3 epoch (loss 0.0067):  82%|████████▏ | 13948/16950 [2:32:35<27:58,  1.79it/s]Training 3/3 epoch (loss 0.0722):  82%|████████▏ | 13948/16950 [2:32:36<27:58,  1.79it/s]Training 3/3 epoch (loss 0.0722):  82%|████████▏ | 13949/16950 [2:32:36<33:16,  1.50it/s]Training 3/3 epoch (loss 0.1073):  82%|████████▏ | 13949/16950 [2:32:36<33:16,  1.50it/s]Training 3/3 epoch (loss 0.1073):  82%|████████▏ | 13950/16950 [2:32:36<30:46,  1.62it/s]Training 3/3 epoch (loss 0.0007):  82%|████████▏ | 13950/16950 [2:32:37<30:46,  1.62it/s]Training 3/3 epoch (loss 0.0007):  82%|████████▏ | 13951/16950 [2:32:37<32:04,  1.56it/s]Training 3/3 epoch (loss 0.0000):  82%|████████▏ | 13951/16950 [2:32:38<32:04,  1.56it/s]Training 3/3 epoch (loss 0.0000):  82%|████████▏ | 13952/16950 [2:32:38<31:32,  1.58it/s]Training 3/3 epoch (loss 0.0001):  82%|████████▏ | 13952/16950 [2:32:38<31:32,  1.58it/s]Training 3/3 epoch (loss 0.0001):  82%|████████▏ | 13953/16950 [2:32:38<28:59,  1.72it/s]Training 3/3 epoch (loss 0.0001):  82%|████████▏ | 13953/16950 [2:32:39<28:59,  1.72it/s]Training 3/3 epoch (loss 0.0001):  82%|████████▏ | 13954/16950 [2:32:39<27:45,  1.80it/s]Training 3/3 epoch (loss 0.0004):  82%|████████▏ | 13954/16950 [2:32:39<27:45,  1.80it/s]Training 3/3 epoch (loss 0.0004):  82%|████████▏ | 13955/16950 [2:32:39<26:56,  1.85it/s]Training 3/3 epoch (loss 0.0121):  82%|████████▏ | 13955/16950 [2:32:40<26:56,  1.85it/s]Training 3/3 epoch (loss 0.0121):  82%|████████▏ | 13956/16950 [2:32:40<26:23,  1.89it/s]Training 3/3 epoch (loss 0.1576):  82%|████████▏ | 13956/16950 [2:32:40<26:23,  1.89it/s]Training 3/3 epoch (loss 0.1576):  82%|████████▏ | 13957/16950 [2:32:40<29:04,  1.72it/s]Training 3/3 epoch (loss 0.5467):  82%|████████▏ | 13957/16950 [2:32:41<29:04,  1.72it/s]Training 3/3 epoch (loss 0.5467):  82%|████████▏ | 13958/16950 [2:32:41<27:07,  1.84it/s]Training 3/3 epoch (loss 0.0031):  82%|████████▏ | 13958/16950 [2:32:41<27:07,  1.84it/s]Training 3/3 epoch (loss 0.0031):  82%|████████▏ | 13959/16950 [2:32:41<29:02,  1.72it/s]Training 3/3 epoch (loss 0.1767):  82%|████████▏ | 13959/16950 [2:32:42<29:02,  1.72it/s]Training 3/3 epoch (loss 0.1767):  82%|████████▏ | 13960/16950 [2:32:42<28:18,  1.76it/s]Training 3/3 epoch (loss 0.4571):  82%|████████▏ | 13960/16950 [2:32:43<28:18,  1.76it/s]Training 3/3 epoch (loss 0.4571):  82%|████████▏ | 13961/16950 [2:32:43<32:05,  1.55it/s]Training 3/3 epoch (loss 0.0154):  82%|████████▏ | 13961/16950 [2:32:43<32:05,  1.55it/s]Training 3/3 epoch (loss 0.0154):  82%|████████▏ | 13962/16950 [2:32:43<31:43,  1.57it/s]Training 3/3 epoch (loss 0.2690):  82%|████████▏ | 13962/16950 [2:32:44<31:43,  1.57it/s]Training 3/3 epoch (loss 0.2690):  82%|████████▏ | 13963/16950 [2:32:44<34:54,  1.43it/s]Training 3/3 epoch (loss 0.0746):  82%|████████▏ | 13963/16950 [2:32:45<34:54,  1.43it/s]Training 3/3 epoch (loss 0.0746):  82%|████████▏ | 13964/16950 [2:32:45<34:28,  1.44it/s]Training 3/3 epoch (loss 0.0027):  82%|████████▏ | 13964/16950 [2:32:45<34:28,  1.44it/s]Training 3/3 epoch (loss 0.0027):  82%|████████▏ | 13965/16950 [2:32:45<31:43,  1.57it/s]Training 3/3 epoch (loss 0.0868):  82%|████████▏ | 13965/16950 [2:32:46<31:43,  1.57it/s]Training 3/3 epoch (loss 0.0868):  82%|████████▏ | 13966/16950 [2:32:46<31:48,  1.56it/s]Training 3/3 epoch (loss 0.0438):  82%|████████▏ | 13966/16950 [2:32:47<31:48,  1.56it/s]Training 3/3 epoch (loss 0.0438):  82%|████████▏ | 13967/16950 [2:32:47<29:08,  1.71it/s]Training 3/3 epoch (loss 0.0026):  82%|████████▏ | 13967/16950 [2:32:47<29:08,  1.71it/s]Training 3/3 epoch (loss 0.0026):  82%|████████▏ | 13968/16950 [2:32:47<28:59,  1.71it/s]Training 3/3 epoch (loss 0.0044):  82%|████████▏ | 13968/16950 [2:32:48<28:59,  1.71it/s]Training 3/3 epoch (loss 0.0044):  82%|████████▏ | 13969/16950 [2:32:48<28:00,  1.77it/s]Training 3/3 epoch (loss 0.0002):  82%|████████▏ | 13969/16950 [2:32:49<28:00,  1.77it/s]Training 3/3 epoch (loss 0.0002):  82%|████████▏ | 13970/16950 [2:32:49<33:04,  1.50it/s]Training 3/3 epoch (loss 0.4330):  82%|████████▏ | 13970/16950 [2:32:50<33:04,  1.50it/s]Training 3/3 epoch (loss 0.4330):  82%|████████▏ | 13971/16950 [2:32:50<37:17,  1.33it/s]Training 3/3 epoch (loss 0.0485):  82%|████████▏ | 13971/16950 [2:32:50<37:17,  1.33it/s]Training 3/3 epoch (loss 0.0485):  82%|████████▏ | 13972/16950 [2:32:50<35:26,  1.40it/s]Training 3/3 epoch (loss 0.0612):  82%|████████▏ | 13972/16950 [2:32:51<35:26,  1.40it/s]Training 3/3 epoch (loss 0.0612):  82%|████████▏ | 13973/16950 [2:32:51<35:27,  1.40it/s]Training 3/3 epoch (loss 0.6115):  82%|████████▏ | 13973/16950 [2:32:52<35:27,  1.40it/s]Training 3/3 epoch (loss 0.6115):  82%|████████▏ | 13974/16950 [2:32:52<34:41,  1.43it/s]Training 3/3 epoch (loss 0.0807):  82%|████████▏ | 13974/16950 [2:32:52<34:41,  1.43it/s]Training 3/3 epoch (loss 0.0807):  82%|████████▏ | 13975/16950 [2:32:52<37:27,  1.32it/s]Training 3/3 epoch (loss 0.1899):  82%|████████▏ | 13975/16950 [2:32:53<37:27,  1.32it/s]Training 3/3 epoch (loss 0.1899):  82%|████████▏ | 13976/16950 [2:32:53<35:04,  1.41it/s]Training 3/3 epoch (loss 0.8709):  82%|████████▏ | 13976/16950 [2:32:54<35:04,  1.41it/s]Training 3/3 epoch (loss 0.8709):  82%|████████▏ | 13977/16950 [2:32:54<35:27,  1.40it/s]Training 3/3 epoch (loss 0.3293):  82%|████████▏ | 13977/16950 [2:32:54<35:27,  1.40it/s]Training 3/3 epoch (loss 0.3293):  82%|████████▏ | 13978/16950 [2:32:54<31:38,  1.57it/s]Training 3/3 epoch (loss 0.0421):  82%|████████▏ | 13978/16950 [2:32:55<31:38,  1.57it/s]Training 3/3 epoch (loss 0.0421):  82%|████████▏ | 13979/16950 [2:32:55<35:47,  1.38it/s]Training 3/3 epoch (loss 0.0315):  82%|████████▏ | 13979/16950 [2:32:56<35:47,  1.38it/s]Training 3/3 epoch (loss 0.0315):  82%|████████▏ | 13980/16950 [2:32:56<36:44,  1.35it/s]Training 3/3 epoch (loss 0.0015):  82%|████████▏ | 13980/16950 [2:32:56<36:44,  1.35it/s]Training 3/3 epoch (loss 0.0015):  82%|████████▏ | 13981/16950 [2:32:56<34:30,  1.43it/s]Training 3/3 epoch (loss 0.0692):  82%|████████▏ | 13981/16950 [2:32:57<34:30,  1.43it/s]Training 3/3 epoch (loss 0.0692):  82%|████████▏ | 13982/16950 [2:32:57<34:38,  1.43it/s]Training 3/3 epoch (loss 0.0026):  82%|████████▏ | 13982/16950 [2:32:58<34:38,  1.43it/s]Training 3/3 epoch (loss 0.0026):  82%|████████▏ | 13983/16950 [2:32:58<31:29,  1.57it/s]Training 3/3 epoch (loss 0.7423):  82%|████████▏ | 13983/16950 [2:32:58<31:29,  1.57it/s]Training 3/3 epoch (loss 0.7423):  83%|████████▎ | 13984/16950 [2:32:58<29:03,  1.70it/s]Training 3/3 epoch (loss 0.0103):  83%|████████▎ | 13984/16950 [2:32:59<29:03,  1.70it/s]Training 3/3 epoch (loss 0.0103):  83%|████████▎ | 13985/16950 [2:32:59<27:33,  1.79it/s]Training 3/3 epoch (loss 0.3083):  83%|████████▎ | 13985/16950 [2:32:59<27:33,  1.79it/s]Training 3/3 epoch (loss 0.3083):  83%|████████▎ | 13986/16950 [2:32:59<30:44,  1.61it/s]Training 3/3 epoch (loss 0.0016):  83%|████████▎ | 13986/16950 [2:33:00<30:44,  1.61it/s]Training 3/3 epoch (loss 0.0016):  83%|████████▎ | 13987/16950 [2:33:00<30:13,  1.63it/s]Training 3/3 epoch (loss 0.0989):  83%|████████▎ | 13987/16950 [2:33:00<30:13,  1.63it/s]Training 3/3 epoch (loss 0.0989):  83%|████████▎ | 13988/16950 [2:33:00<28:16,  1.75it/s]Training 3/3 epoch (loss 0.0052):  83%|████████▎ | 13988/16950 [2:33:01<28:16,  1.75it/s]Training 3/3 epoch (loss 0.0052):  83%|████████▎ | 13989/16950 [2:33:01<26:17,  1.88it/s]Training 3/3 epoch (loss 0.0901):  83%|████████▎ | 13989/16950 [2:33:02<26:17,  1.88it/s]Training 3/3 epoch (loss 0.0901):  83%|████████▎ | 13990/16950 [2:33:02<29:45,  1.66it/s]Training 3/3 epoch (loss 0.3139):  83%|████████▎ | 13990/16950 [2:33:02<29:45,  1.66it/s]Training 3/3 epoch (loss 0.3139):  83%|████████▎ | 13991/16950 [2:33:02<30:45,  1.60it/s]Training 3/3 epoch (loss 0.0015):  83%|████████▎ | 13991/16950 [2:33:03<30:45,  1.60it/s]Training 3/3 epoch (loss 0.0015):  83%|████████▎ | 13992/16950 [2:33:03<27:41,  1.78it/s]Training 3/3 epoch (loss 0.2180):  83%|████████▎ | 13992/16950 [2:33:04<27:41,  1.78it/s]Training 3/3 epoch (loss 0.2180):  83%|████████▎ | 13993/16950 [2:33:04<31:12,  1.58it/s]Training 3/3 epoch (loss 0.0117):  83%|████████▎ | 13993/16950 [2:33:04<31:12,  1.58it/s]Training 3/3 epoch (loss 0.0117):  83%|████████▎ | 13994/16950 [2:33:04<30:24,  1.62it/s]Training 3/3 epoch (loss 0.0117):  83%|████████▎ | 13994/16950 [2:33:05<30:24,  1.62it/s]Training 3/3 epoch (loss 0.0117):  83%|████████▎ | 13995/16950 [2:33:05<31:37,  1.56it/s]Training 3/3 epoch (loss 0.7627):  83%|████████▎ | 13995/16950 [2:33:06<31:37,  1.56it/s]Training 3/3 epoch (loss 0.7627):  83%|████████▎ | 13996/16950 [2:33:06<32:00,  1.54it/s]Training 3/3 epoch (loss 0.0255):  83%|████████▎ | 13996/16950 [2:33:06<32:00,  1.54it/s]Training 3/3 epoch (loss 0.0255):  83%|████████▎ | 13997/16950 [2:33:06<33:09,  1.48it/s]Training 3/3 epoch (loss 0.0240):  83%|████████▎ | 13997/16950 [2:33:07<33:09,  1.48it/s]Training 3/3 epoch (loss 0.0240):  83%|████████▎ | 13998/16950 [2:33:07<31:08,  1.58it/s]Training 3/3 epoch (loss 0.0122):  83%|████████▎ | 13998/16950 [2:33:07<31:08,  1.58it/s]Training 3/3 epoch (loss 0.0122):  83%|████████▎ | 13999/16950 [2:33:07<28:29,  1.73it/s]Training 3/3 epoch (loss 0.4591):  83%|████████▎ | 13999/16950 [2:33:08<28:29,  1.73it/s]Training 3/3 epoch (loss 0.4591):  83%|████████▎ | 14000/16950 [2:33:08<25:44,  1.91it/s]Training 3/3 epoch (loss 0.1560):  83%|████████▎ | 14000/16950 [2:33:08<25:44,  1.91it/s]Training 3/3 epoch (loss 0.1560):  83%|████████▎ | 14001/16950 [2:33:08<26:39,  1.84it/s]Training 3/3 epoch (loss 0.5888):  83%|████████▎ | 14001/16950 [2:33:09<26:39,  1.84it/s]Training 3/3 epoch (loss 0.5888):  83%|████████▎ | 14002/16950 [2:33:09<25:15,  1.95it/s]Training 3/3 epoch (loss 0.0169):  83%|████████▎ | 14002/16950 [2:33:09<25:15,  1.95it/s]Training 3/3 epoch (loss 0.0169):  83%|████████▎ | 14003/16950 [2:33:09<24:41,  1.99it/s]Training 3/3 epoch (loss 0.0356):  83%|████████▎ | 14003/16950 [2:33:10<24:41,  1.99it/s]Training 3/3 epoch (loss 0.0356):  83%|████████▎ | 14004/16950 [2:33:10<25:12,  1.95it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14004/16950 [2:33:10<25:12,  1.95it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14005/16950 [2:33:10<24:34,  2.00it/s]Training 3/3 epoch (loss 0.1380):  83%|████████▎ | 14005/16950 [2:33:11<24:34,  2.00it/s]Training 3/3 epoch (loss 0.1380):  83%|████████▎ | 14006/16950 [2:33:11<26:25,  1.86it/s]Training 3/3 epoch (loss 0.2898):  83%|████████▎ | 14006/16950 [2:33:11<26:25,  1.86it/s]Training 3/3 epoch (loss 0.2898):  83%|████████▎ | 14007/16950 [2:33:11<27:35,  1.78it/s]Training 3/3 epoch (loss 0.0005):  83%|████████▎ | 14007/16950 [2:33:12<27:35,  1.78it/s]Training 3/3 epoch (loss 0.0005):  83%|████████▎ | 14008/16950 [2:33:12<27:36,  1.78it/s]Training 3/3 epoch (loss 0.0065):  83%|████████▎ | 14008/16950 [2:33:13<27:36,  1.78it/s]Training 3/3 epoch (loss 0.0065):  83%|████████▎ | 14009/16950 [2:33:13<28:16,  1.73it/s]Training 3/3 epoch (loss 0.0016):  83%|████████▎ | 14009/16950 [2:33:13<28:16,  1.73it/s]Training 3/3 epoch (loss 0.0016):  83%|████████▎ | 14010/16950 [2:33:13<32:37,  1.50it/s]Training 3/3 epoch (loss 0.0134):  83%|████████▎ | 14010/16950 [2:33:14<32:37,  1.50it/s]Training 3/3 epoch (loss 0.0134):  83%|████████▎ | 14011/16950 [2:33:14<30:35,  1.60it/s]Training 3/3 epoch (loss 0.0010):  83%|████████▎ | 14011/16950 [2:33:14<30:35,  1.60it/s]Training 3/3 epoch (loss 0.0010):  83%|████████▎ | 14012/16950 [2:33:14<28:23,  1.73it/s]Training 3/3 epoch (loss 0.1158):  83%|████████▎ | 14012/16950 [2:33:15<28:23,  1.73it/s]Training 3/3 epoch (loss 0.1158):  83%|████████▎ | 14013/16950 [2:33:15<30:07,  1.62it/s]Training 3/3 epoch (loss 0.1475):  83%|████████▎ | 14013/16950 [2:33:16<30:07,  1.62it/s]Training 3/3 epoch (loss 0.1475):  83%|████████▎ | 14014/16950 [2:33:16<30:52,  1.59it/s]Training 3/3 epoch (loss 0.0079):  83%|████████▎ | 14014/16950 [2:33:16<30:52,  1.59it/s]Training 3/3 epoch (loss 0.0079):  83%|████████▎ | 14015/16950 [2:33:16<29:42,  1.65it/s]Training 3/3 epoch (loss 0.0672):  83%|████████▎ | 14015/16950 [2:33:17<29:42,  1.65it/s]Training 3/3 epoch (loss 0.0672):  83%|████████▎ | 14016/16950 [2:33:17<27:45,  1.76it/s]Training 3/3 epoch (loss 0.1692):  83%|████████▎ | 14016/16950 [2:33:17<27:45,  1.76it/s]Training 3/3 epoch (loss 0.1692):  83%|████████▎ | 14017/16950 [2:33:17<24:55,  1.96it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14017/16950 [2:33:18<24:55,  1.96it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14018/16950 [2:33:18<23:56,  2.04it/s]Training 3/3 epoch (loss 0.0605):  83%|████████▎ | 14018/16950 [2:33:18<23:56,  2.04it/s]Training 3/3 epoch (loss 0.0605):  83%|████████▎ | 14019/16950 [2:33:18<23:00,  2.12it/s]Training 3/3 epoch (loss 0.0083):  83%|████████▎ | 14019/16950 [2:33:19<23:00,  2.12it/s]Training 3/3 epoch (loss 0.0083):  83%|████████▎ | 14020/16950 [2:33:19<25:16,  1.93it/s]Training 3/3 epoch (loss 0.0002):  83%|████████▎ | 14020/16950 [2:33:19<25:16,  1.93it/s]Training 3/3 epoch (loss 0.0002):  83%|████████▎ | 14021/16950 [2:33:19<25:55,  1.88it/s]Training 3/3 epoch (loss 0.6586):  83%|████████▎ | 14021/16950 [2:33:20<25:55,  1.88it/s]Training 3/3 epoch (loss 0.6586):  83%|████████▎ | 14022/16950 [2:33:20<32:39,  1.49it/s]Training 3/3 epoch (loss 0.0036):  83%|████████▎ | 14022/16950 [2:33:21<32:39,  1.49it/s]Training 3/3 epoch (loss 0.0036):  83%|████████▎ | 14023/16950 [2:33:21<32:36,  1.50it/s]Training 3/3 epoch (loss 0.0846):  83%|████████▎ | 14023/16950 [2:33:21<32:36,  1.50it/s]Training 3/3 epoch (loss 0.0846):  83%|████████▎ | 14024/16950 [2:33:21<30:43,  1.59it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14024/16950 [2:33:22<30:43,  1.59it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14025/16950 [2:33:22<29:21,  1.66it/s]Training 3/3 epoch (loss 0.2401):  83%|████████▎ | 14025/16950 [2:33:23<29:21,  1.66it/s]Training 3/3 epoch (loss 0.2401):  83%|████████▎ | 14026/16950 [2:33:23<37:38,  1.29it/s]Training 3/3 epoch (loss 0.0050):  83%|████████▎ | 14026/16950 [2:33:24<37:38,  1.29it/s]Training 3/3 epoch (loss 0.0050):  83%|████████▎ | 14027/16950 [2:33:24<35:00,  1.39it/s]Training 3/3 epoch (loss 0.0039):  83%|████████▎ | 14027/16950 [2:33:24<35:00,  1.39it/s]Training 3/3 epoch (loss 0.0039):  83%|████████▎ | 14028/16950 [2:33:24<32:43,  1.49it/s]Training 3/3 epoch (loss 0.0470):  83%|████████▎ | 14028/16950 [2:33:25<32:43,  1.49it/s]Training 3/3 epoch (loss 0.0470):  83%|████████▎ | 14029/16950 [2:33:25<31:12,  1.56it/s]Training 3/3 epoch (loss 0.0421):  83%|████████▎ | 14029/16950 [2:33:25<31:12,  1.56it/s]Training 3/3 epoch (loss 0.0421):  83%|████████▎ | 14030/16950 [2:33:25<29:57,  1.62it/s]Training 3/3 epoch (loss 0.3184):  83%|████████▎ | 14030/16950 [2:33:26<29:57,  1.62it/s]Training 3/3 epoch (loss 0.3184):  83%|████████▎ | 14031/16950 [2:33:26<27:26,  1.77it/s]Training 3/3 epoch (loss 0.2270):  83%|████████▎ | 14031/16950 [2:33:26<27:26,  1.77it/s]Training 3/3 epoch (loss 0.2270):  83%|████████▎ | 14032/16950 [2:33:26<24:15,  2.01it/s]Training 3/3 epoch (loss 0.2273):  83%|████████▎ | 14032/16950 [2:33:27<24:15,  2.01it/s]Training 3/3 epoch (loss 0.2273):  83%|████████▎ | 14033/16950 [2:33:27<26:34,  1.83it/s]Training 3/3 epoch (loss 0.0107):  83%|████████▎ | 14033/16950 [2:33:28<26:34,  1.83it/s]Training 3/3 epoch (loss 0.0107):  83%|████████▎ | 14034/16950 [2:33:28<29:14,  1.66it/s]Training 3/3 epoch (loss 0.0185):  83%|████████▎ | 14034/16950 [2:33:28<29:14,  1.66it/s]Training 3/3 epoch (loss 0.0185):  83%|████████▎ | 14035/16950 [2:33:28<30:28,  1.59it/s]Training 3/3 epoch (loss 0.0073):  83%|████████▎ | 14035/16950 [2:33:29<30:28,  1.59it/s]Training 3/3 epoch (loss 0.0073):  83%|████████▎ | 14036/16950 [2:33:29<31:33,  1.54it/s]Training 3/3 epoch (loss 0.0710):  83%|████████▎ | 14036/16950 [2:33:30<31:33,  1.54it/s]Training 3/3 epoch (loss 0.0710):  83%|████████▎ | 14037/16950 [2:33:30<32:28,  1.50it/s]Training 3/3 epoch (loss 0.0016):  83%|████████▎ | 14037/16950 [2:33:30<32:28,  1.50it/s]Training 3/3 epoch (loss 0.0016):  83%|████████▎ | 14038/16950 [2:33:30<32:10,  1.51it/s]Training 3/3 epoch (loss 0.3129):  83%|████████▎ | 14038/16950 [2:33:31<32:10,  1.51it/s]Training 3/3 epoch (loss 0.3129):  83%|████████▎ | 14039/16950 [2:33:31<30:44,  1.58it/s]Training 3/3 epoch (loss 0.0092):  83%|████████▎ | 14039/16950 [2:33:31<30:44,  1.58it/s]Training 3/3 epoch (loss 0.0092):  83%|████████▎ | 14040/16950 [2:33:31<28:16,  1.72it/s]Training 3/3 epoch (loss 0.1953):  83%|████████▎ | 14040/16950 [2:33:32<28:16,  1.72it/s]Training 3/3 epoch (loss 0.1953):  83%|████████▎ | 14041/16950 [2:33:32<25:59,  1.86it/s]Training 3/3 epoch (loss 0.1492):  83%|████████▎ | 14041/16950 [2:33:32<25:59,  1.86it/s]Training 3/3 epoch (loss 0.1492):  83%|████████▎ | 14042/16950 [2:33:32<25:56,  1.87it/s]Training 3/3 epoch (loss 0.0057):  83%|████████▎ | 14042/16950 [2:33:33<25:56,  1.87it/s]Training 3/3 epoch (loss 0.0057):  83%|████████▎ | 14043/16950 [2:33:33<30:41,  1.58it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14043/16950 [2:33:34<30:41,  1.58it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14044/16950 [2:33:34<27:56,  1.73it/s]Training 3/3 epoch (loss 0.0009):  83%|████████▎ | 14044/16950 [2:33:34<27:56,  1.73it/s]Training 3/3 epoch (loss 0.0009):  83%|████████▎ | 14045/16950 [2:33:34<27:14,  1.78it/s]Training 3/3 epoch (loss 0.0069):  83%|████████▎ | 14045/16950 [2:33:35<27:14,  1.78it/s]Training 3/3 epoch (loss 0.0069):  83%|████████▎ | 14046/16950 [2:33:35<33:03,  1.46it/s]Training 3/3 epoch (loss 0.0625):  83%|████████▎ | 14046/16950 [2:33:36<33:03,  1.46it/s]Training 3/3 epoch (loss 0.0625):  83%|████████▎ | 14047/16950 [2:33:36<30:53,  1.57it/s]Training 3/3 epoch (loss 0.4955):  83%|████████▎ | 14047/16950 [2:33:36<30:53,  1.57it/s]Training 3/3 epoch (loss 0.4955):  83%|████████▎ | 14048/16950 [2:33:36<31:06,  1.55it/s]Training 3/3 epoch (loss 0.1125):  83%|████████▎ | 14048/16950 [2:33:37<31:06,  1.55it/s]Training 3/3 epoch (loss 0.1125):  83%|████████▎ | 14049/16950 [2:33:37<34:26,  1.40it/s]Training 3/3 epoch (loss 0.0029):  83%|████████▎ | 14049/16950 [2:33:38<34:26,  1.40it/s]Training 3/3 epoch (loss 0.0029):  83%|████████▎ | 14050/16950 [2:33:38<36:44,  1.32it/s]Training 3/3 epoch (loss 0.0009):  83%|████████▎ | 14050/16950 [2:33:39<36:44,  1.32it/s]Training 3/3 epoch (loss 0.0009):  83%|████████▎ | 14051/16950 [2:33:39<33:12,  1.46it/s]Training 3/3 epoch (loss 0.3619):  83%|████████▎ | 14051/16950 [2:33:39<33:12,  1.46it/s]Training 3/3 epoch (loss 0.3619):  83%|████████▎ | 14052/16950 [2:33:39<29:13,  1.65it/s]Training 3/3 epoch (loss 0.0244):  83%|████████▎ | 14052/16950 [2:33:40<29:13,  1.65it/s]Training 3/3 epoch (loss 0.0244):  83%|████████▎ | 14053/16950 [2:33:40<29:37,  1.63it/s]Training 3/3 epoch (loss 0.0244):  83%|████████▎ | 14053/16950 [2:33:40<29:37,  1.63it/s]Training 3/3 epoch (loss 0.0244):  83%|████████▎ | 14054/16950 [2:33:40<31:16,  1.54it/s]Training 3/3 epoch (loss 0.0248):  83%|████████▎ | 14054/16950 [2:33:41<31:16,  1.54it/s]Training 3/3 epoch (loss 0.0248):  83%|████████▎ | 14055/16950 [2:33:41<31:57,  1.51it/s]Training 3/3 epoch (loss 0.0107):  83%|████████▎ | 14055/16950 [2:33:41<31:57,  1.51it/s]Training 3/3 epoch (loss 0.0107):  83%|████████▎ | 14056/16950 [2:33:41<27:29,  1.75it/s]Training 3/3 epoch (loss 0.0391):  83%|████████▎ | 14056/16950 [2:33:42<27:29,  1.75it/s]Training 3/3 epoch (loss 0.0391):  83%|████████▎ | 14057/16950 [2:33:42<32:40,  1.48it/s]Training 3/3 epoch (loss 0.0276):  83%|████████▎ | 14057/16950 [2:33:43<32:40,  1.48it/s]Training 3/3 epoch (loss 0.0276):  83%|████████▎ | 14058/16950 [2:33:43<31:07,  1.55it/s]Training 3/3 epoch (loss 0.0033):  83%|████████▎ | 14058/16950 [2:33:43<31:07,  1.55it/s]Training 3/3 epoch (loss 0.0033):  83%|████████▎ | 14059/16950 [2:33:43<29:08,  1.65it/s]Training 3/3 epoch (loss 0.0329):  83%|████████▎ | 14059/16950 [2:33:44<29:08,  1.65it/s]Training 3/3 epoch (loss 0.0329):  83%|████████▎ | 14060/16950 [2:33:44<26:23,  1.82it/s]Training 3/3 epoch (loss 0.7333):  83%|████████▎ | 14060/16950 [2:33:45<26:23,  1.82it/s]Training 3/3 epoch (loss 0.7333):  83%|████████▎ | 14061/16950 [2:33:45<28:36,  1.68it/s]Training 3/3 epoch (loss 0.0691):  83%|████████▎ | 14061/16950 [2:33:45<28:36,  1.68it/s]Training 3/3 epoch (loss 0.0691):  83%|████████▎ | 14062/16950 [2:33:45<32:47,  1.47it/s]Training 3/3 epoch (loss 0.3773):  83%|████████▎ | 14062/16950 [2:33:46<32:47,  1.47it/s]Training 3/3 epoch (loss 0.3773):  83%|████████▎ | 14063/16950 [2:33:46<36:33,  1.32it/s]Training 3/3 epoch (loss 0.4633):  83%|████████▎ | 14063/16950 [2:33:47<36:33,  1.32it/s]Training 3/3 epoch (loss 0.4633):  83%|████████▎ | 14064/16950 [2:33:47<35:30,  1.35it/s]Training 3/3 epoch (loss 0.2446):  83%|████████▎ | 14064/16950 [2:33:48<35:30,  1.35it/s]Training 3/3 epoch (loss 0.2446):  83%|████████▎ | 14065/16950 [2:33:48<33:30,  1.43it/s]Training 3/3 epoch (loss 0.2917):  83%|████████▎ | 14065/16950 [2:33:48<33:30,  1.43it/s]Training 3/3 epoch (loss 0.2917):  83%|████████▎ | 14066/16950 [2:33:48<29:58,  1.60it/s]Training 3/3 epoch (loss 0.1466):  83%|████████▎ | 14066/16950 [2:33:49<29:58,  1.60it/s]Training 3/3 epoch (loss 0.1466):  83%|████████▎ | 14067/16950 [2:33:49<28:51,  1.67it/s]Training 3/3 epoch (loss 0.8016):  83%|████████▎ | 14067/16950 [2:33:50<28:51,  1.67it/s]Training 3/3 epoch (loss 0.8016):  83%|████████▎ | 14068/16950 [2:33:50<36:34,  1.31it/s]Training 3/3 epoch (loss 0.5368):  83%|████████▎ | 14068/16950 [2:33:50<36:34,  1.31it/s]Training 3/3 epoch (loss 0.5368):  83%|████████▎ | 14069/16950 [2:33:50<32:04,  1.50it/s]Training 3/3 epoch (loss 0.0082):  83%|████████▎ | 14069/16950 [2:33:51<32:04,  1.50it/s]Training 3/3 epoch (loss 0.0082):  83%|████████▎ | 14070/16950 [2:33:51<30:26,  1.58it/s]Training 3/3 epoch (loss 0.1691):  83%|████████▎ | 14070/16950 [2:33:51<30:26,  1.58it/s]Training 3/3 epoch (loss 0.1691):  83%|████████▎ | 14071/16950 [2:33:51<29:26,  1.63it/s]Training 3/3 epoch (loss 0.0018):  83%|████████▎ | 14071/16950 [2:33:52<29:26,  1.63it/s]Training 3/3 epoch (loss 0.0018):  83%|████████▎ | 14072/16950 [2:33:52<27:12,  1.76it/s]Training 3/3 epoch (loss 0.0000):  83%|████████▎ | 14072/16950 [2:33:52<27:12,  1.76it/s]Training 3/3 epoch (loss 0.0000):  83%|████████▎ | 14073/16950 [2:33:52<25:04,  1.91it/s]Training 3/3 epoch (loss 0.0065):  83%|████████▎ | 14073/16950 [2:33:53<25:04,  1.91it/s]Training 3/3 epoch (loss 0.0065):  83%|████████▎ | 14074/16950 [2:33:53<25:15,  1.90it/s]Training 3/3 epoch (loss 0.0308):  83%|████████▎ | 14074/16950 [2:33:54<25:15,  1.90it/s]Training 3/3 epoch (loss 0.0308):  83%|████████▎ | 14075/16950 [2:33:54<27:47,  1.72it/s]Training 3/3 epoch (loss 0.7005):  83%|████████▎ | 14075/16950 [2:33:54<27:47,  1.72it/s]Training 3/3 epoch (loss 0.7005):  83%|████████▎ | 14076/16950 [2:33:54<25:23,  1.89it/s]Training 3/3 epoch (loss 0.0002):  83%|████████▎ | 14076/16950 [2:33:55<25:23,  1.89it/s]Training 3/3 epoch (loss 0.0002):  83%|████████▎ | 14077/16950 [2:33:55<26:45,  1.79it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14077/16950 [2:33:55<26:45,  1.79it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14078/16950 [2:33:55<25:24,  1.88it/s]Training 3/3 epoch (loss 0.0003):  83%|████████▎ | 14078/16950 [2:33:56<25:24,  1.88it/s]Training 3/3 epoch (loss 0.0003):  83%|████████▎ | 14079/16950 [2:33:56<29:37,  1.62it/s]Training 3/3 epoch (loss 0.2779):  83%|████████▎ | 14079/16950 [2:33:56<29:37,  1.62it/s]Training 3/3 epoch (loss 0.2779):  83%|████████▎ | 14080/16950 [2:33:56<27:46,  1.72it/s]Training 3/3 epoch (loss nan):  83%|████████▎ | 14080/16950 [2:33:57<27:46,  1.72it/s]   Training 3/3 epoch (loss nan):  83%|████████▎ | 14081/16950 [2:33:57<35:36,  1.34it/s]Training 3/3 epoch (loss 0.0036):  83%|████████▎ | 14081/16950 [2:33:58<35:36,  1.34it/s]Training 3/3 epoch (loss 0.0036):  83%|████████▎ | 14082/16950 [2:33:58<32:43,  1.46it/s]Training 3/3 epoch (loss 0.6511):  83%|████████▎ | 14082/16950 [2:33:59<32:43,  1.46it/s]Training 3/3 epoch (loss 0.6511):  83%|████████▎ | 14083/16950 [2:33:59<36:12,  1.32it/s]Training 3/3 epoch (loss 0.0128):  83%|████████▎ | 14083/16950 [2:34:00<36:12,  1.32it/s]Training 3/3 epoch (loss 0.0128):  83%|████████▎ | 14084/16950 [2:34:00<39:17,  1.22it/s]Training 3/3 epoch (loss 0.2392):  83%|████████▎ | 14084/16950 [2:34:01<39:17,  1.22it/s]Training 3/3 epoch (loss 0.2392):  83%|████████▎ | 14085/16950 [2:34:01<38:16,  1.25it/s]Training 3/3 epoch (loss 0.0052):  83%|████████▎ | 14085/16950 [2:34:01<38:16,  1.25it/s]Training 3/3 epoch (loss 0.0052):  83%|████████▎ | 14086/16950 [2:34:01<36:32,  1.31it/s]Training 3/3 epoch (loss 0.2797):  83%|████████▎ | 14086/16950 [2:34:02<36:32,  1.31it/s]Training 3/3 epoch (loss 0.2797):  83%|████████▎ | 14087/16950 [2:34:02<34:03,  1.40it/s]Training 3/3 epoch (loss 0.4721):  83%|████████▎ | 14087/16950 [2:34:03<34:03,  1.40it/s]Training 3/3 epoch (loss 0.4721):  83%|████████▎ | 14088/16950 [2:34:03<38:01,  1.25it/s]Training 3/3 epoch (loss 0.2897):  83%|████████▎ | 14088/16950 [2:34:04<38:01,  1.25it/s]Training 3/3 epoch (loss 0.2897):  83%|████████▎ | 14089/16950 [2:34:04<35:58,  1.33it/s]Training 3/3 epoch (loss 0.3282):  83%|████████▎ | 14089/16950 [2:34:04<35:58,  1.33it/s]Training 3/3 epoch (loss 0.3282):  83%|████████▎ | 14090/16950 [2:34:04<37:20,  1.28it/s]Training 3/3 epoch (loss 0.0091):  83%|████████▎ | 14090/16950 [2:34:05<37:20,  1.28it/s]Training 3/3 epoch (loss 0.0091):  83%|████████▎ | 14091/16950 [2:34:05<33:38,  1.42it/s]Training 3/3 epoch (loss 0.4233):  83%|████████▎ | 14091/16950 [2:34:06<33:38,  1.42it/s]Training 3/3 epoch (loss 0.4233):  83%|████████▎ | 14092/16950 [2:34:06<40:02,  1.19it/s]Training 3/3 epoch (loss 0.0631):  83%|████████▎ | 14092/16950 [2:34:07<40:02,  1.19it/s]Training 3/3 epoch (loss 0.0631):  83%|████████▎ | 14093/16950 [2:34:07<35:48,  1.33it/s]Training 3/3 epoch (loss 0.0126):  83%|████████▎ | 14093/16950 [2:34:07<35:48,  1.33it/s]Training 3/3 epoch (loss 0.0126):  83%|████████▎ | 14094/16950 [2:34:07<30:59,  1.54it/s]Training 3/3 epoch (loss 0.4096):  83%|████████▎ | 14094/16950 [2:34:08<30:59,  1.54it/s]Training 3/3 epoch (loss 0.4096):  83%|████████▎ | 14095/16950 [2:34:08<28:26,  1.67it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14095/16950 [2:34:08<28:26,  1.67it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14096/16950 [2:34:08<26:10,  1.82it/s]Training 3/3 epoch (loss 0.4664):  83%|████████▎ | 14096/16950 [2:34:09<26:10,  1.82it/s]Training 3/3 epoch (loss 0.4664):  83%|████████▎ | 14097/16950 [2:34:09<25:20,  1.88it/s]Training 3/3 epoch (loss 0.0230):  83%|████████▎ | 14097/16950 [2:34:09<25:20,  1.88it/s]Training 3/3 epoch (loss 0.0230):  83%|████████▎ | 14098/16950 [2:34:09<26:10,  1.82it/s]Training 3/3 epoch (loss 0.0129):  83%|████████▎ | 14098/16950 [2:34:10<26:10,  1.82it/s]Training 3/3 epoch (loss 0.0129):  83%|████████▎ | 14099/16950 [2:34:10<26:48,  1.77it/s]Training 3/3 epoch (loss 0.0321):  83%|████████▎ | 14099/16950 [2:34:10<26:48,  1.77it/s]Training 3/3 epoch (loss 0.0321):  83%|████████▎ | 14100/16950 [2:34:10<28:20,  1.68it/s]Training 3/3 epoch (loss 0.3222):  83%|████████▎ | 14100/16950 [2:34:11<28:20,  1.68it/s]Training 3/3 epoch (loss 0.3222):  83%|████████▎ | 14101/16950 [2:34:11<29:56,  1.59it/s]Training 3/3 epoch (loss 0.0014):  83%|████████▎ | 14101/16950 [2:34:12<29:56,  1.59it/s]Training 3/3 epoch (loss 0.0014):  83%|████████▎ | 14102/16950 [2:34:12<28:48,  1.65it/s]Training 3/3 epoch (loss 0.1336):  83%|████████▎ | 14102/16950 [2:34:12<28:48,  1.65it/s]Training 3/3 epoch (loss 0.1336):  83%|████████▎ | 14103/16950 [2:34:12<25:43,  1.84it/s]Training 3/3 epoch (loss 0.0109):  83%|████████▎ | 14103/16950 [2:34:12<25:43,  1.84it/s]Training 3/3 epoch (loss 0.0109):  83%|████████▎ | 14104/16950 [2:34:12<24:19,  1.95it/s]Training 3/3 epoch (loss 0.0113):  83%|████████▎ | 14104/16950 [2:34:13<24:19,  1.95it/s]Training 3/3 epoch (loss 0.0113):  83%|████████▎ | 14105/16950 [2:34:13<24:41,  1.92it/s]Training 3/3 epoch (loss 0.2804):  83%|████████▎ | 14105/16950 [2:34:14<24:41,  1.92it/s]Training 3/3 epoch (loss 0.2804):  83%|████████▎ | 14106/16950 [2:34:14<24:24,  1.94it/s]Training 3/3 epoch (loss 0.0047):  83%|████████▎ | 14106/16950 [2:34:14<24:24,  1.94it/s]Training 3/3 epoch (loss 0.0047):  83%|████████▎ | 14107/16950 [2:34:14<24:39,  1.92it/s]Training 3/3 epoch (loss 0.2767):  83%|████████▎ | 14107/16950 [2:34:15<24:39,  1.92it/s]Training 3/3 epoch (loss 0.2767):  83%|████████▎ | 14108/16950 [2:34:15<28:31,  1.66it/s]Training 3/3 epoch (loss 0.2315):  83%|████████▎ | 14108/16950 [2:34:16<28:31,  1.66it/s]Training 3/3 epoch (loss 0.2315):  83%|████████▎ | 14109/16950 [2:34:16<29:56,  1.58it/s]Training 3/3 epoch (loss 0.0067):  83%|████████▎ | 14109/16950 [2:34:16<29:56,  1.58it/s]Training 3/3 epoch (loss 0.0067):  83%|████████▎ | 14110/16950 [2:34:16<29:43,  1.59it/s]Training 3/3 epoch (loss 0.5238):  83%|████████▎ | 14110/16950 [2:34:17<29:43,  1.59it/s]Training 3/3 epoch (loss 0.5238):  83%|████████▎ | 14111/16950 [2:34:17<35:20,  1.34it/s]Training 3/3 epoch (loss 0.0890):  83%|████████▎ | 14111/16950 [2:34:18<35:20,  1.34it/s]Training 3/3 epoch (loss 0.0890):  83%|████████▎ | 14112/16950 [2:34:18<36:48,  1.29it/s]Training 3/3 epoch (loss 0.1484):  83%|████████▎ | 14112/16950 [2:34:19<36:48,  1.29it/s]Training 3/3 epoch (loss 0.1484):  83%|████████▎ | 14113/16950 [2:34:19<32:49,  1.44it/s]Training 3/3 epoch (loss 0.0612):  83%|████████▎ | 14113/16950 [2:34:19<32:49,  1.44it/s]Training 3/3 epoch (loss 0.0612):  83%|████████▎ | 14114/16950 [2:34:19<35:26,  1.33it/s]Training 3/3 epoch (loss 0.0040):  83%|████████▎ | 14114/16950 [2:34:20<35:26,  1.33it/s]Training 3/3 epoch (loss 0.0040):  83%|████████▎ | 14115/16950 [2:34:20<35:06,  1.35it/s]Training 3/3 epoch (loss 0.0003):  83%|████████▎ | 14115/16950 [2:34:21<35:06,  1.35it/s]Training 3/3 epoch (loss 0.0003):  83%|████████▎ | 14116/16950 [2:34:21<37:35,  1.26it/s]Training 3/3 epoch (loss 0.4867):  83%|████████▎ | 14116/16950 [2:34:22<37:35,  1.26it/s]Training 3/3 epoch (loss 0.4867):  83%|████████▎ | 14117/16950 [2:34:22<33:41,  1.40it/s]Training 3/3 epoch (loss 0.0744):  83%|████████▎ | 14117/16950 [2:34:22<33:41,  1.40it/s]Training 3/3 epoch (loss 0.0744):  83%|████████▎ | 14118/16950 [2:34:22<30:58,  1.52it/s]Training 3/3 epoch (loss 0.4667):  83%|████████▎ | 14118/16950 [2:34:22<30:58,  1.52it/s]Training 3/3 epoch (loss 0.4667):  83%|████████▎ | 14119/16950 [2:34:22<27:15,  1.73it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14119/16950 [2:34:23<27:15,  1.73it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14120/16950 [2:34:23<26:27,  1.78it/s]Training 3/3 epoch (loss 0.0025):  83%|████████▎ | 14120/16950 [2:34:24<26:27,  1.78it/s]Training 3/3 epoch (loss 0.0025):  83%|████████▎ | 14121/16950 [2:34:24<28:11,  1.67it/s]Training 3/3 epoch (loss 0.4221):  83%|████████▎ | 14121/16950 [2:34:24<28:11,  1.67it/s]Training 3/3 epoch (loss 0.4221):  83%|████████▎ | 14122/16950 [2:34:24<25:54,  1.82it/s]Training 3/3 epoch (loss 0.3671):  83%|████████▎ | 14122/16950 [2:34:25<25:54,  1.82it/s]Training 3/3 epoch (loss 0.3671):  83%|████████▎ | 14123/16950 [2:34:25<24:20,  1.94it/s]Training 3/3 epoch (loss 0.4137):  83%|████████▎ | 14123/16950 [2:34:25<24:20,  1.94it/s]Training 3/3 epoch (loss 0.4137):  83%|████████▎ | 14124/16950 [2:34:25<24:49,  1.90it/s]Training 3/3 epoch (loss 0.0002):  83%|████████▎ | 14124/16950 [2:34:26<24:49,  1.90it/s]Training 3/3 epoch (loss 0.0002):  83%|████████▎ | 14125/16950 [2:34:26<23:42,  1.99it/s]Training 3/3 epoch (loss 0.0004):  83%|████████▎ | 14125/16950 [2:34:26<23:42,  1.99it/s]Training 3/3 epoch (loss 0.0004):  83%|████████▎ | 14126/16950 [2:34:26<21:24,  2.20it/s]Training 3/3 epoch (loss 0.0096):  83%|████████▎ | 14126/16950 [2:34:26<21:24,  2.20it/s]Training 3/3 epoch (loss 0.0096):  83%|████████▎ | 14127/16950 [2:34:26<22:09,  2.12it/s]Training 3/3 epoch (loss 0.0156):  83%|████████▎ | 14127/16950 [2:34:27<22:09,  2.12it/s]Training 3/3 epoch (loss 0.0156):  83%|████████▎ | 14128/16950 [2:34:27<23:19,  2.02it/s]Training 3/3 epoch (loss 0.1862):  83%|████████▎ | 14128/16950 [2:34:27<23:19,  2.02it/s]Training 3/3 epoch (loss 0.1862):  83%|████████▎ | 14129/16950 [2:34:27<22:04,  2.13it/s]Training 3/3 epoch (loss 0.5923):  83%|████████▎ | 14129/16950 [2:34:28<22:04,  2.13it/s]Training 3/3 epoch (loss 0.5923):  83%|████████▎ | 14130/16950 [2:34:28<29:15,  1.61it/s]Training 3/3 epoch (loss 0.0432):  83%|████████▎ | 14130/16950 [2:34:29<29:15,  1.61it/s]Training 3/3 epoch (loss 0.0432):  83%|████████▎ | 14131/16950 [2:34:29<32:26,  1.45it/s]Training 3/3 epoch (loss 0.2984):  83%|████████▎ | 14131/16950 [2:34:30<32:26,  1.45it/s]Training 3/3 epoch (loss 0.2984):  83%|████████▎ | 14132/16950 [2:34:30<30:18,  1.55it/s]Training 3/3 epoch (loss 0.3445):  83%|████████▎ | 14132/16950 [2:34:31<30:18,  1.55it/s]Training 3/3 epoch (loss 0.3445):  83%|████████▎ | 14133/16950 [2:34:31<33:46,  1.39it/s]Training 3/3 epoch (loss 0.0610):  83%|████████▎ | 14133/16950 [2:34:31<33:46,  1.39it/s]Training 3/3 epoch (loss 0.0610):  83%|████████▎ | 14134/16950 [2:34:31<32:04,  1.46it/s]Training 3/3 epoch (loss 0.5983):  83%|████████▎ | 14134/16950 [2:34:32<32:04,  1.46it/s]Training 3/3 epoch (loss 0.5983):  83%|████████▎ | 14135/16950 [2:34:32<38:41,  1.21it/s]Training 3/3 epoch (loss 0.1042):  83%|████████▎ | 14135/16950 [2:34:33<38:41,  1.21it/s]Training 3/3 epoch (loss 0.1042):  83%|████████▎ | 14136/16950 [2:34:33<35:42,  1.31it/s]Training 3/3 epoch (loss 0.0115):  83%|████████▎ | 14136/16950 [2:34:34<35:42,  1.31it/s]Training 3/3 epoch (loss 0.0115):  83%|████████▎ | 14137/16950 [2:34:34<33:57,  1.38it/s]Training 3/3 epoch (loss 0.0007):  83%|████████▎ | 14137/16950 [2:34:34<33:57,  1.38it/s]Training 3/3 epoch (loss 0.0007):  83%|████████▎ | 14138/16950 [2:34:34<29:54,  1.57it/s]Training 3/3 epoch (loss 0.0205):  83%|████████▎ | 14138/16950 [2:34:35<29:54,  1.57it/s]Training 3/3 epoch (loss 0.0205):  83%|████████▎ | 14139/16950 [2:34:35<27:23,  1.71it/s]Training 3/3 epoch (loss 0.0250):  83%|████████▎ | 14139/16950 [2:34:35<27:23,  1.71it/s]Training 3/3 epoch (loss 0.0250):  83%|████████▎ | 14140/16950 [2:34:35<27:01,  1.73it/s]Training 3/3 epoch (loss 0.4249):  83%|████████▎ | 14140/16950 [2:34:36<27:01,  1.73it/s]Training 3/3 epoch (loss 0.4249):  83%|████████▎ | 14141/16950 [2:34:36<33:28,  1.40it/s]Training 3/3 epoch (loss 0.0714):  83%|████████▎ | 14141/16950 [2:34:37<33:28,  1.40it/s]Training 3/3 epoch (loss 0.0714):  83%|████████▎ | 14142/16950 [2:34:37<32:29,  1.44it/s]Training 3/3 epoch (loss 0.0013):  83%|████████▎ | 14142/16950 [2:34:37<32:29,  1.44it/s]Training 3/3 epoch (loss 0.0013):  83%|████████▎ | 14143/16950 [2:34:37<29:13,  1.60it/s]Training 3/3 epoch (loss 0.7410):  83%|████████▎ | 14143/16950 [2:34:38<29:13,  1.60it/s]Training 3/3 epoch (loss 0.7410):  83%|████████▎ | 14144/16950 [2:34:38<36:17,  1.29it/s]Training 3/3 epoch (loss 0.0521):  83%|████████▎ | 14144/16950 [2:34:39<36:17,  1.29it/s]Training 3/3 epoch (loss 0.0521):  83%|████████▎ | 14145/16950 [2:34:39<32:33,  1.44it/s]Training 3/3 epoch (loss 0.0009):  83%|████████▎ | 14145/16950 [2:34:39<32:33,  1.44it/s]Training 3/3 epoch (loss 0.0009):  83%|████████▎ | 14146/16950 [2:34:39<30:56,  1.51it/s]Training 3/3 epoch (loss 0.0685):  83%|████████▎ | 14146/16950 [2:34:40<30:56,  1.51it/s]Training 3/3 epoch (loss 0.0685):  83%|████████▎ | 14147/16950 [2:34:40<30:05,  1.55it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14147/16950 [2:34:41<30:05,  1.55it/s]Training 3/3 epoch (loss 0.0001):  83%|████████▎ | 14148/16950 [2:34:41<32:33,  1.43it/s]Training 3/3 epoch (loss 0.0042):  83%|████████▎ | 14148/16950 [2:34:42<32:33,  1.43it/s]Training 3/3 epoch (loss 0.0042):  83%|████████▎ | 14149/16950 [2:34:42<32:50,  1.42it/s]Training 3/3 epoch (loss 0.5668):  83%|████████▎ | 14149/16950 [2:34:42<32:50,  1.42it/s]Training 3/3 epoch (loss 0.5668):  83%|████████▎ | 14150/16950 [2:34:42<30:31,  1.53it/s]Training 3/3 epoch (loss 0.0513):  83%|████████▎ | 14150/16950 [2:34:43<30:31,  1.53it/s]Training 3/3 epoch (loss 0.0513):  83%|████████▎ | 14151/16950 [2:34:43<29:25,  1.59it/s]Training 3/3 epoch (loss 0.0017):  83%|████████▎ | 14151/16950 [2:34:43<29:25,  1.59it/s]Training 3/3 epoch (loss 0.0017):  83%|████████▎ | 14152/16950 [2:34:43<28:58,  1.61it/s]Training 3/3 epoch (loss 0.1796):  83%|████████▎ | 14152/16950 [2:34:44<28:58,  1.61it/s]Training 3/3 epoch (loss 0.1796):  83%|████████▎ | 14153/16950 [2:34:44<34:07,  1.37it/s]Training 3/3 epoch (loss 0.0019):  83%|████████▎ | 14153/16950 [2:34:45<34:07,  1.37it/s]Training 3/3 epoch (loss 0.0019):  84%|████████▎ | 14154/16950 [2:34:45<32:48,  1.42it/s]Training 3/3 epoch (loss 0.0067):  84%|████████▎ | 14154/16950 [2:34:45<32:48,  1.42it/s]Training 3/3 epoch (loss 0.0067):  84%|████████▎ | 14155/16950 [2:34:45<28:53,  1.61it/s]Training 3/3 epoch (loss 0.0918):  84%|████████▎ | 14155/16950 [2:34:46<28:53,  1.61it/s]Training 3/3 epoch (loss 0.0918):  84%|████████▎ | 14156/16950 [2:34:46<26:46,  1.74it/s]Training 3/3 epoch (loss 0.3149):  84%|████████▎ | 14156/16950 [2:34:46<26:46,  1.74it/s]Training 3/3 epoch (loss 0.3149):  84%|████████▎ | 14157/16950 [2:34:46<24:13,  1.92it/s]Training 3/3 epoch (loss 0.3819):  84%|████████▎ | 14157/16950 [2:34:47<24:13,  1.92it/s]Training 3/3 epoch (loss 0.3819):  84%|████████▎ | 14158/16950 [2:34:47<24:40,  1.89it/s]Training 3/3 epoch (loss 0.0007):  84%|████████▎ | 14158/16950 [2:34:47<24:40,  1.89it/s]Training 3/3 epoch (loss 0.0007):  84%|████████▎ | 14159/16950 [2:34:47<24:28,  1.90it/s]Training 3/3 epoch (loss 0.2924):  84%|████████▎ | 14159/16950 [2:34:48<24:28,  1.90it/s]Training 3/3 epoch (loss 0.2924):  84%|████████▎ | 14160/16950 [2:34:48<23:50,  1.95it/s]Training 3/3 epoch (loss 0.3426):  84%|████████▎ | 14160/16950 [2:34:49<23:50,  1.95it/s]Training 3/3 epoch (loss 0.3426):  84%|████████▎ | 14161/16950 [2:34:49<28:36,  1.63it/s]Training 3/3 epoch (loss 0.2313):  84%|████████▎ | 14161/16950 [2:34:49<28:36,  1.63it/s]Training 3/3 epoch (loss 0.2313):  84%|████████▎ | 14162/16950 [2:34:49<30:03,  1.55it/s]Training 3/3 epoch (loss 0.5527):  84%|████████▎ | 14162/16950 [2:34:50<30:03,  1.55it/s]Training 3/3 epoch (loss 0.5527):  84%|████████▎ | 14163/16950 [2:34:50<27:28,  1.69it/s]Training 3/3 epoch (loss 0.0076):  84%|████████▎ | 14163/16950 [2:34:50<27:28,  1.69it/s]Training 3/3 epoch (loss 0.0076):  84%|████████▎ | 14164/16950 [2:34:50<25:57,  1.79it/s]Training 3/3 epoch (loss 0.0721):  84%|████████▎ | 14164/16950 [2:34:51<25:57,  1.79it/s]Training 3/3 epoch (loss 0.0721):  84%|████████▎ | 14165/16950 [2:34:51<28:18,  1.64it/s]Training 3/3 epoch (loss 0.3845):  84%|████████▎ | 14165/16950 [2:34:52<28:18,  1.64it/s]Training 3/3 epoch (loss 0.3845):  84%|████████▎ | 14166/16950 [2:34:52<35:45,  1.30it/s]Training 3/3 epoch (loss 0.0880):  84%|████████▎ | 14166/16950 [2:34:53<35:45,  1.30it/s]Training 3/3 epoch (loss 0.0880):  84%|████████▎ | 14167/16950 [2:34:53<32:00,  1.45it/s]Training 3/3 epoch (loss 0.0003):  84%|████████▎ | 14167/16950 [2:34:53<32:00,  1.45it/s]Training 3/3 epoch (loss 0.0003):  84%|████████▎ | 14168/16950 [2:34:53<28:15,  1.64it/s]Training 3/3 epoch (loss 0.0218):  84%|████████▎ | 14168/16950 [2:34:54<28:15,  1.64it/s]Training 3/3 epoch (loss 0.0218):  84%|████████▎ | 14169/16950 [2:34:54<26:47,  1.73it/s]Training 3/3 epoch (loss 0.2314):  84%|████████▎ | 14169/16950 [2:34:54<26:47,  1.73it/s]Training 3/3 epoch (loss 0.2314):  84%|████████▎ | 14170/16950 [2:34:54<30:27,  1.52it/s]Training 3/3 epoch (loss 0.0469):  84%|████████▎ | 14170/16950 [2:34:55<30:27,  1.52it/s]Training 3/3 epoch (loss 0.0469):  84%|████████▎ | 14171/16950 [2:34:55<28:28,  1.63it/s]Training 3/3 epoch (loss 0.0006):  84%|████████▎ | 14171/16950 [2:34:56<28:28,  1.63it/s]Training 3/3 epoch (loss 0.0006):  84%|████████▎ | 14172/16950 [2:34:56<27:13,  1.70it/s]Training 3/3 epoch (loss 0.0020):  84%|████████▎ | 14172/16950 [2:34:56<27:13,  1.70it/s]Training 3/3 epoch (loss 0.0020):  84%|████████▎ | 14173/16950 [2:34:56<27:36,  1.68it/s]Training 3/3 epoch (loss 0.0001):  84%|████████▎ | 14173/16950 [2:34:57<27:36,  1.68it/s]Training 3/3 epoch (loss 0.0001):  84%|████████▎ | 14174/16950 [2:34:57<26:45,  1.73it/s]Training 3/3 epoch (loss 0.3105):  84%|████████▎ | 14174/16950 [2:34:57<26:45,  1.73it/s]Training 3/3 epoch (loss 0.3105):  84%|████████▎ | 14175/16950 [2:34:57<26:36,  1.74it/s]Training 3/3 epoch (loss 0.0103):  84%|████████▎ | 14175/16950 [2:34:58<26:36,  1.74it/s]Training 3/3 epoch (loss 0.0103):  84%|████████▎ | 14176/16950 [2:34:58<27:28,  1.68it/s]Training 3/3 epoch (loss 0.0121):  84%|████████▎ | 14176/16950 [2:34:59<27:28,  1.68it/s]Training 3/3 epoch (loss 0.0121):  84%|████████▎ | 14177/16950 [2:34:59<31:46,  1.45it/s]Training 3/3 epoch (loss 0.0009):  84%|████████▎ | 14177/16950 [2:34:59<31:46,  1.45it/s]Training 3/3 epoch (loss 0.0009):  84%|████████▎ | 14178/16950 [2:34:59<30:55,  1.49it/s]Training 3/3 epoch (loss 0.4581):  84%|████████▎ | 14178/16950 [2:35:00<30:55,  1.49it/s]Training 3/3 epoch (loss 0.4581):  84%|████████▎ | 14179/16950 [2:35:00<26:24,  1.75it/s]Training 3/3 epoch (loss 0.0063):  84%|████████▎ | 14179/16950 [2:35:00<26:24,  1.75it/s]Training 3/3 epoch (loss 0.0063):  84%|████████▎ | 14180/16950 [2:35:00<25:15,  1.83it/s]Training 3/3 epoch (loss 0.3074):  84%|████████▎ | 14180/16950 [2:35:01<25:15,  1.83it/s]Training 3/3 epoch (loss 0.3074):  84%|████████▎ | 14181/16950 [2:35:01<23:20,  1.98it/s]Training 3/3 epoch (loss 0.0011):  84%|████████▎ | 14181/16950 [2:35:01<23:20,  1.98it/s]Training 3/3 epoch (loss 0.0011):  84%|████████▎ | 14182/16950 [2:35:01<22:27,  2.05it/s]Training 3/3 epoch (loss 0.1463):  84%|████████▎ | 14182/16950 [2:35:02<22:27,  2.05it/s]Training 3/3 epoch (loss 0.1463):  84%|████████▎ | 14183/16950 [2:35:02<22:23,  2.06it/s]Training 3/3 epoch (loss 0.0291):  84%|████████▎ | 14183/16950 [2:35:03<22:23,  2.06it/s]Training 3/3 epoch (loss 0.0291):  84%|████████▎ | 14184/16950 [2:35:03<29:36,  1.56it/s]Training 3/3 epoch (loss 0.0218):  84%|████████▎ | 14184/16950 [2:35:04<29:36,  1.56it/s]Training 3/3 epoch (loss 0.0218):  84%|████████▎ | 14185/16950 [2:35:04<34:13,  1.35it/s]Training 3/3 epoch (loss 0.0048):  84%|████████▎ | 14185/16950 [2:35:04<34:13,  1.35it/s]Training 3/3 epoch (loss 0.0048):  84%|████████▎ | 14186/16950 [2:35:04<31:55,  1.44it/s]Training 3/3 epoch (loss 0.0076):  84%|████████▎ | 14186/16950 [2:35:05<31:55,  1.44it/s]Training 3/3 epoch (loss 0.0076):  84%|████████▎ | 14187/16950 [2:35:05<35:23,  1.30it/s]Training 3/3 epoch (loss 0.0053):  84%|████████▎ | 14187/16950 [2:35:06<35:23,  1.30it/s]Training 3/3 epoch (loss 0.0053):  84%|████████▎ | 14188/16950 [2:35:06<33:12,  1.39it/s]Training 3/3 epoch (loss 0.2486):  84%|████████▎ | 14188/16950 [2:35:06<33:12,  1.39it/s]Training 3/3 epoch (loss 0.2486):  84%|████████▎ | 14189/16950 [2:35:06<29:42,  1.55it/s]Training 3/3 epoch (loss 0.0996):  84%|████████▎ | 14189/16950 [2:35:07<29:42,  1.55it/s]Training 3/3 epoch (loss 0.0996):  84%|████████▎ | 14190/16950 [2:35:07<25:56,  1.77it/s]Training 3/3 epoch (loss 0.2001):  84%|████████▎ | 14190/16950 [2:35:07<25:56,  1.77it/s]Training 3/3 epoch (loss 0.2001):  84%|████████▎ | 14191/16950 [2:35:07<24:20,  1.89it/s]Training 3/3 epoch (loss 0.1836):  84%|████████▎ | 14191/16950 [2:35:07<24:20,  1.89it/s]Training 3/3 epoch (loss 0.1836):  84%|████████▎ | 14192/16950 [2:35:07<24:05,  1.91it/s]Training 3/3 epoch (loss 0.0201):  84%|████████▎ | 14192/16950 [2:35:08<24:05,  1.91it/s]Training 3/3 epoch (loss 0.0201):  84%|████████▎ | 14193/16950 [2:35:08<24:27,  1.88it/s]Training 3/3 epoch (loss 0.0263):  84%|████████▎ | 14193/16950 [2:35:08<24:27,  1.88it/s]Training 3/3 epoch (loss 0.0263):  84%|████████▎ | 14194/16950 [2:35:08<22:36,  2.03it/s]Training 3/3 epoch (loss 0.5488):  84%|████████▎ | 14194/16950 [2:35:09<22:36,  2.03it/s]Training 3/3 epoch (loss 0.5488):  84%|████████▎ | 14195/16950 [2:35:09<20:42,  2.22it/s]Training 3/3 epoch (loss 0.1291):  84%|████████▎ | 14195/16950 [2:35:10<20:42,  2.22it/s]Training 3/3 epoch (loss 0.1291):  84%|████████▍ | 14196/16950 [2:35:10<25:41,  1.79it/s]Training 3/3 epoch (loss 0.6345):  84%|████████▍ | 14196/16950 [2:35:11<25:41,  1.79it/s]Training 3/3 epoch (loss 0.6345):  84%|████████▍ | 14197/16950 [2:35:11<34:26,  1.33it/s]Training 3/3 epoch (loss 0.0111):  84%|████████▍ | 14197/16950 [2:35:11<34:26,  1.33it/s]Training 3/3 epoch (loss 0.0111):  84%|████████▍ | 14198/16950 [2:35:11<32:34,  1.41it/s]Training 3/3 epoch (loss 0.0023):  84%|████████▍ | 14198/16950 [2:35:12<32:34,  1.41it/s]Training 3/3 epoch (loss 0.0023):  84%|████████▍ | 14199/16950 [2:35:12<32:45,  1.40it/s]Training 3/3 epoch (loss 0.4569):  84%|████████▍ | 14199/16950 [2:35:13<32:45,  1.40it/s]Training 3/3 epoch (loss 0.4569):  84%|████████▍ | 14200/16950 [2:35:13<30:02,  1.53it/s]Training 3/3 epoch (loss 0.0255):  84%|████████▍ | 14200/16950 [2:35:13<30:02,  1.53it/s]Training 3/3 epoch (loss 0.0255):  84%|████████▍ | 14201/16950 [2:35:13<30:16,  1.51it/s]Training 3/3 epoch (loss 0.0061):  84%|████████▍ | 14201/16950 [2:35:14<30:16,  1.51it/s]Training 3/3 epoch (loss 0.0061):  84%|████████▍ | 14202/16950 [2:35:14<30:08,  1.52it/s]Training 3/3 epoch (loss 0.1538):  84%|████████▍ | 14202/16950 [2:35:15<30:08,  1.52it/s]Training 3/3 epoch (loss 0.1538):  84%|████████▍ | 14203/16950 [2:35:15<34:23,  1.33it/s]Training 3/3 epoch (loss 0.0128):  84%|████████▍ | 14203/16950 [2:35:16<34:23,  1.33it/s]Training 3/3 epoch (loss 0.0128):  84%|████████▍ | 14204/16950 [2:35:16<31:42,  1.44it/s]Training 3/3 epoch (loss 0.3526):  84%|████████▍ | 14204/16950 [2:35:16<31:42,  1.44it/s]Training 3/3 epoch (loss 0.3526):  84%|████████▍ | 14205/16950 [2:35:16<28:41,  1.59it/s]Training 3/3 epoch (loss 0.0010):  84%|████████▍ | 14205/16950 [2:35:17<28:41,  1.59it/s]Training 3/3 epoch (loss 0.0010):  84%|████████▍ | 14206/16950 [2:35:17<28:39,  1.60it/s]Training 3/3 epoch (loss 0.0872):  84%|████████▍ | 14206/16950 [2:35:17<28:39,  1.60it/s]Training 3/3 epoch (loss 0.0872):  84%|████████▍ | 14207/16950 [2:35:17<26:20,  1.74it/s]Training 3/3 epoch (loss 0.1773):  84%|████████▍ | 14207/16950 [2:35:18<26:20,  1.74it/s]Training 3/3 epoch (loss 0.1773):  84%|████████▍ | 14208/16950 [2:35:18<24:41,  1.85it/s]Training 3/3 epoch (loss 0.2468):  84%|████████▍ | 14208/16950 [2:35:18<24:41,  1.85it/s]Training 3/3 epoch (loss 0.2468):  84%|████████▍ | 14209/16950 [2:35:18<24:09,  1.89it/s]Training 3/3 epoch (loss 0.0380):  84%|████████▍ | 14209/16950 [2:35:18<24:09,  1.89it/s]Training 3/3 epoch (loss 0.0380):  84%|████████▍ | 14210/16950 [2:35:18<23:23,  1.95it/s]Training 3/3 epoch (loss 0.0007):  84%|████████▍ | 14210/16950 [2:35:19<23:23,  1.95it/s]Training 3/3 epoch (loss 0.0007):  84%|████████▍ | 14211/16950 [2:35:19<24:33,  1.86it/s]Training 3/3 epoch (loss 0.0068):  84%|████████▍ | 14211/16950 [2:35:20<24:33,  1.86it/s]Training 3/3 epoch (loss 0.0068):  84%|████████▍ | 14212/16950 [2:35:20<25:32,  1.79it/s]Training 3/3 epoch (loss 0.0033):  84%|████████▍ | 14212/16950 [2:35:20<25:32,  1.79it/s]Training 3/3 epoch (loss 0.0033):  84%|████████▍ | 14213/16950 [2:35:20<23:23,  1.95it/s]Training 3/3 epoch (loss 0.0607):  84%|████████▍ | 14213/16950 [2:35:20<23:23,  1.95it/s]Training 3/3 epoch (loss 0.0607):  84%|████████▍ | 14214/16950 [2:35:20<20:43,  2.20it/s]Training 3/3 epoch (loss 0.1759):  84%|████████▍ | 14214/16950 [2:35:21<20:43,  2.20it/s]Training 3/3 epoch (loss 0.1759):  84%|████████▍ | 14215/16950 [2:35:21<22:19,  2.04it/s]Training 3/3 epoch (loss nan):  84%|████████▍ | 14215/16950 [2:35:22<22:19,  2.04it/s]   Training 3/3 epoch (loss nan):  84%|████████▍ | 14216/16950 [2:35:22<31:11,  1.46it/s]Training 3/3 epoch (loss 0.2747):  84%|████████▍ | 14216/16950 [2:35:23<31:11,  1.46it/s]Training 3/3 epoch (loss 0.2747):  84%|████████▍ | 14217/16950 [2:35:23<30:16,  1.50it/s]Training 3/3 epoch (loss 0.0617):  84%|████████▍ | 14217/16950 [2:35:23<30:16,  1.50it/s]Training 3/3 epoch (loss 0.0617):  84%|████████▍ | 14218/16950 [2:35:23<26:44,  1.70it/s]Training 3/3 epoch (loss 0.0082):  84%|████████▍ | 14218/16950 [2:35:24<26:44,  1.70it/s]Training 3/3 epoch (loss 0.0082):  84%|████████▍ | 14219/16950 [2:35:24<28:08,  1.62it/s]Training 3/3 epoch (loss 0.0012):  84%|████████▍ | 14219/16950 [2:35:25<28:08,  1.62it/s]Training 3/3 epoch (loss 0.0012):  84%|████████▍ | 14220/16950 [2:35:25<31:07,  1.46it/s]Training 3/3 epoch (loss 0.0107):  84%|████████▍ | 14220/16950 [2:35:25<31:07,  1.46it/s]Training 3/3 epoch (loss 0.0107):  84%|████████▍ | 14221/16950 [2:35:25<31:38,  1.44it/s]Training 3/3 epoch (loss 0.0126):  84%|████████▍ | 14221/16950 [2:35:26<31:38,  1.44it/s]Training 3/3 epoch (loss 0.0126):  84%|████████▍ | 14222/16950 [2:35:26<30:40,  1.48it/s]Training 3/3 epoch (loss 0.1153):  84%|████████▍ | 14222/16950 [2:35:27<30:40,  1.48it/s]Training 3/3 epoch (loss 0.1153):  84%|████████▍ | 14223/16950 [2:35:27<28:52,  1.57it/s]Training 3/3 epoch (loss 0.1114):  84%|████████▍ | 14223/16950 [2:35:27<28:52,  1.57it/s]Training 3/3 epoch (loss 0.1114):  84%|████████▍ | 14224/16950 [2:35:27<27:34,  1.65it/s]Training 3/3 epoch (loss 0.0038):  84%|████████▍ | 14224/16950 [2:35:28<27:34,  1.65it/s]Training 3/3 epoch (loss 0.0038):  84%|████████▍ | 14225/16950 [2:35:28<28:33,  1.59it/s]Training 3/3 epoch (loss 0.0002):  84%|████████▍ | 14225/16950 [2:35:28<28:33,  1.59it/s]Training 3/3 epoch (loss 0.0002):  84%|████████▍ | 14226/16950 [2:35:28<28:20,  1.60it/s]Training 3/3 epoch (loss 0.0853):  84%|████████▍ | 14226/16950 [2:35:29<28:20,  1.60it/s]Training 3/3 epoch (loss 0.0853):  84%|████████▍ | 14227/16950 [2:35:29<27:46,  1.63it/s]Training 3/3 epoch (loss 0.0177):  84%|████████▍ | 14227/16950 [2:35:30<27:46,  1.63it/s]Training 3/3 epoch (loss 0.0177):  84%|████████▍ | 14228/16950 [2:35:30<26:15,  1.73it/s]Training 3/3 epoch (loss 0.0051):  84%|████████▍ | 14228/16950 [2:35:30<26:15,  1.73it/s]Training 3/3 epoch (loss 0.0051):  84%|████████▍ | 14229/16950 [2:35:30<24:14,  1.87it/s]Training 3/3 epoch (loss 0.5208):  84%|████████▍ | 14229/16950 [2:35:30<24:14,  1.87it/s]Training 3/3 epoch (loss 0.5208):  84%|████████▍ | 14230/16950 [2:35:30<22:15,  2.04it/s]Training 3/3 epoch (loss 0.0313):  84%|████████▍ | 14230/16950 [2:35:31<22:15,  2.04it/s]Training 3/3 epoch (loss 0.0313):  84%|████████▍ | 14231/16950 [2:35:31<22:04,  2.05it/s]Training 3/3 epoch (loss 0.0003):  84%|████████▍ | 14231/16950 [2:35:31<22:04,  2.05it/s]Training 3/3 epoch (loss 0.0003):  84%|████████▍ | 14232/16950 [2:35:31<20:51,  2.17it/s]Training 3/3 epoch (loss 0.0045):  84%|████████▍ | 14232/16950 [2:35:32<20:51,  2.17it/s]Training 3/3 epoch (loss 0.0045):  84%|████████▍ | 14233/16950 [2:35:32<20:08,  2.25it/s]Training 3/3 epoch (loss 0.8324):  84%|████████▍ | 14233/16950 [2:35:32<20:08,  2.25it/s]Training 3/3 epoch (loss 0.8324):  84%|████████▍ | 14234/16950 [2:35:32<18:23,  2.46it/s]Training 3/3 epoch (loss 0.0193):  84%|████████▍ | 14234/16950 [2:35:32<18:23,  2.46it/s]Training 3/3 epoch (loss 0.0193):  84%|████████▍ | 14235/16950 [2:35:32<18:41,  2.42it/s]Training 3/3 epoch (loss 0.0095):  84%|████████▍ | 14235/16950 [2:35:33<18:41,  2.42it/s]Training 3/3 epoch (loss 0.0095):  84%|████████▍ | 14236/16950 [2:35:33<19:31,  2.32it/s]Training 3/3 epoch (loss 0.0050):  84%|████████▍ | 14236/16950 [2:35:33<19:31,  2.32it/s]Training 3/3 epoch (loss 0.0050):  84%|████████▍ | 14237/16950 [2:35:33<22:16,  2.03it/s]Training 3/3 epoch (loss 0.0699):  84%|████████▍ | 14237/16950 [2:35:34<22:16,  2.03it/s]Training 3/3 epoch (loss 0.0699):  84%|████████▍ | 14238/16950 [2:35:34<26:47,  1.69it/s]Training 3/3 epoch (loss 0.0001):  84%|████████▍ | 14238/16950 [2:35:35<26:47,  1.69it/s]Training 3/3 epoch (loss 0.0001):  84%|████████▍ | 14239/16950 [2:35:35<26:51,  1.68it/s]Training 3/3 epoch (loss 0.0002):  84%|████████▍ | 14239/16950 [2:35:35<26:51,  1.68it/s]Training 3/3 epoch (loss 0.0002):  84%|████████▍ | 14240/16950 [2:35:35<26:21,  1.71it/s]Training 3/3 epoch (loss 0.1771):  84%|████████▍ | 14240/16950 [2:35:36<26:21,  1.71it/s]Training 3/3 epoch (loss 0.1771):  84%|████████▍ | 14241/16950 [2:35:36<27:45,  1.63it/s]Training 3/3 epoch (loss 0.0099):  84%|████████▍ | 14241/16950 [2:35:37<27:45,  1.63it/s]Training 3/3 epoch (loss 0.0099):  84%|████████▍ | 14242/16950 [2:35:37<26:51,  1.68it/s]Training 3/3 epoch (loss 0.5449):  84%|████████▍ | 14242/16950 [2:35:37<26:51,  1.68it/s]Training 3/3 epoch (loss 0.5449):  84%|████████▍ | 14243/16950 [2:35:37<26:35,  1.70it/s]Training 3/3 epoch (loss 0.1340):  84%|████████▍ | 14243/16950 [2:35:38<26:35,  1.70it/s]Training 3/3 epoch (loss 0.1340):  84%|████████▍ | 14244/16950 [2:35:38<32:43,  1.38it/s]Training 3/3 epoch (loss 0.0017):  84%|████████▍ | 14244/16950 [2:35:39<32:43,  1.38it/s]Training 3/3 epoch (loss 0.0017):  84%|████████▍ | 14245/16950 [2:35:39<29:46,  1.51it/s]Training 3/3 epoch (loss 0.0024):  84%|████████▍ | 14245/16950 [2:35:39<29:46,  1.51it/s]Training 3/3 epoch (loss 0.0024):  84%|████████▍ | 14246/16950 [2:35:39<27:13,  1.66it/s]Training 3/3 epoch (loss 0.2429):  84%|████████▍ | 14246/16950 [2:35:40<27:13,  1.66it/s]Training 3/3 epoch (loss 0.2429):  84%|████████▍ | 14247/16950 [2:35:40<26:35,  1.69it/s]Training 3/3 epoch (loss 0.0236):  84%|████████▍ | 14247/16950 [2:35:40<26:35,  1.69it/s]Training 3/3 epoch (loss 0.0236):  84%|████████▍ | 14248/16950 [2:35:40<26:52,  1.68it/s]Training 3/3 epoch (loss 0.2810):  84%|████████▍ | 14248/16950 [2:35:41<26:52,  1.68it/s]Training 3/3 epoch (loss 0.2810):  84%|████████▍ | 14249/16950 [2:35:41<28:12,  1.60it/s]Training 3/3 epoch (loss 0.1920):  84%|████████▍ | 14249/16950 [2:35:42<28:12,  1.60it/s]Training 3/3 epoch (loss 0.1920):  84%|████████▍ | 14250/16950 [2:35:42<25:53,  1.74it/s]Training 3/3 epoch (loss 0.0003):  84%|████████▍ | 14250/16950 [2:35:42<25:53,  1.74it/s]Training 3/3 epoch (loss 0.0003):  84%|████████▍ | 14251/16950 [2:35:42<23:15,  1.93it/s]Training 3/3 epoch (loss 0.2516):  84%|████████▍ | 14251/16950 [2:35:42<23:15,  1.93it/s]Training 3/3 epoch (loss 0.2516):  84%|████████▍ | 14252/16950 [2:35:42<22:58,  1.96it/s]Training 3/3 epoch (loss 0.3541):  84%|████████▍ | 14252/16950 [2:35:43<22:58,  1.96it/s]Training 3/3 epoch (loss 0.3541):  84%|████████▍ | 14253/16950 [2:35:43<20:55,  2.15it/s]Training 3/3 epoch (loss 0.0067):  84%|████████▍ | 14253/16950 [2:35:43<20:55,  2.15it/s]Training 3/3 epoch (loss 0.0067):  84%|████████▍ | 14254/16950 [2:35:43<23:00,  1.95it/s]Training 3/3 epoch (loss 0.0057):  84%|████████▍ | 14254/16950 [2:35:44<23:00,  1.95it/s]Training 3/3 epoch (loss 0.0057):  84%|████████▍ | 14255/16950 [2:35:44<23:32,  1.91it/s]Training 3/3 epoch (loss 0.1028):  84%|████████▍ | 14255/16950 [2:35:45<23:32,  1.91it/s]Training 3/3 epoch (loss 0.1028):  84%|████████▍ | 14256/16950 [2:35:45<23:06,  1.94it/s]Training 3/3 epoch (loss 0.2168):  84%|████████▍ | 14256/16950 [2:35:45<23:06,  1.94it/s]Training 3/3 epoch (loss 0.2168):  84%|████████▍ | 14257/16950 [2:35:45<22:36,  1.99it/s]Training 3/3 epoch (loss 0.4564):  84%|████████▍ | 14257/16950 [2:35:46<22:36,  1.99it/s]Training 3/3 epoch (loss 0.4564):  84%|████████▍ | 14258/16950 [2:35:46<30:46,  1.46it/s]Training 3/3 epoch (loss 0.3568):  84%|████████▍ | 14258/16950 [2:35:47<30:46,  1.46it/s]Training 3/3 epoch (loss 0.3568):  84%|████████▍ | 14259/16950 [2:35:47<28:04,  1.60it/s]Training 3/3 epoch (loss 0.1441):  84%|████████▍ | 14259/16950 [2:35:47<28:04,  1.60it/s]Training 3/3 epoch (loss 0.1441):  84%|████████▍ | 14260/16950 [2:35:47<30:55,  1.45it/s]Training 3/3 epoch (loss 0.3141):  84%|████████▍ | 14260/16950 [2:35:48<30:55,  1.45it/s]Training 3/3 epoch (loss 0.3141):  84%|████████▍ | 14261/16950 [2:35:48<35:01,  1.28it/s]Training 3/3 epoch (loss 0.0132):  84%|████████▍ | 14261/16950 [2:35:49<35:01,  1.28it/s]Training 3/3 epoch (loss 0.0132):  84%|████████▍ | 14262/16950 [2:35:49<33:43,  1.33it/s]Training 3/3 epoch (loss 0.0024):  84%|████████▍ | 14262/16950 [2:35:50<33:43,  1.33it/s]Training 3/3 epoch (loss 0.0024):  84%|████████▍ | 14263/16950 [2:35:50<30:56,  1.45it/s]Training 3/3 epoch (loss 0.0002):  84%|████████▍ | 14263/16950 [2:35:50<30:56,  1.45it/s]Training 3/3 epoch (loss 0.0002):  84%|████████▍ | 14264/16950 [2:35:50<30:01,  1.49it/s]Training 3/3 epoch (loss 0.0043):  84%|████████▍ | 14264/16950 [2:35:51<30:01,  1.49it/s]Training 3/3 epoch (loss 0.0043):  84%|████████▍ | 14265/16950 [2:35:51<29:43,  1.51it/s]Training 3/3 epoch (loss 0.0269):  84%|████████▍ | 14265/16950 [2:35:52<29:43,  1.51it/s]Training 3/3 epoch (loss 0.0269):  84%|████████▍ | 14266/16950 [2:35:52<30:37,  1.46it/s]Training 3/3 epoch (loss 0.5653):  84%|████████▍ | 14266/16950 [2:35:52<30:37,  1.46it/s]Training 3/3 epoch (loss 0.5653):  84%|████████▍ | 14267/16950 [2:35:52<29:52,  1.50it/s]Training 3/3 epoch (loss 0.0001):  84%|████████▍ | 14267/16950 [2:35:53<29:52,  1.50it/s]Training 3/3 epoch (loss 0.0001):  84%|████████▍ | 14268/16950 [2:35:53<29:39,  1.51it/s]Training 3/3 epoch (loss 0.4122):  84%|████████▍ | 14268/16950 [2:35:53<29:39,  1.51it/s]Training 3/3 epoch (loss 0.4122):  84%|████████▍ | 14269/16950 [2:35:53<26:41,  1.67it/s]Training 3/3 epoch (loss 0.0008):  84%|████████▍ | 14269/16950 [2:35:54<26:41,  1.67it/s]Training 3/3 epoch (loss 0.0008):  84%|████████▍ | 14270/16950 [2:35:54<25:38,  1.74it/s]Training 3/3 epoch (loss 0.0086):  84%|████████▍ | 14270/16950 [2:35:55<25:38,  1.74it/s]Training 3/3 epoch (loss 0.0086):  84%|████████▍ | 14271/16950 [2:35:55<27:18,  1.63it/s]Training 3/3 epoch (loss 0.0269):  84%|████████▍ | 14271/16950 [2:35:55<27:18,  1.63it/s]Training 3/3 epoch (loss 0.0269):  84%|████████▍ | 14272/16950 [2:35:55<26:36,  1.68it/s]Training 3/3 epoch (loss 0.6008):  84%|████████▍ | 14272/16950 [2:35:56<26:36,  1.68it/s]Training 3/3 epoch (loss 0.6008):  84%|████████▍ | 14273/16950 [2:35:56<28:01,  1.59it/s]Training 3/3 epoch (loss 0.0880):  84%|████████▍ | 14273/16950 [2:35:56<28:01,  1.59it/s]Training 3/3 epoch (loss 0.0880):  84%|████████▍ | 14274/16950 [2:35:56<26:10,  1.70it/s]Training 3/3 epoch (loss 0.2559):  84%|████████▍ | 14274/16950 [2:35:57<26:10,  1.70it/s]Training 3/3 epoch (loss 0.2559):  84%|████████▍ | 14275/16950 [2:35:57<22:17,  2.00it/s]Training 3/3 epoch (loss 0.0688):  84%|████████▍ | 14275/16950 [2:35:57<22:17,  2.00it/s]Training 3/3 epoch (loss 0.0688):  84%|████████▍ | 14276/16950 [2:35:57<23:45,  1.88it/s]Training 3/3 epoch (loss 0.0032):  84%|████████▍ | 14276/16950 [2:35:58<23:45,  1.88it/s]Training 3/3 epoch (loss 0.0032):  84%|████████▍ | 14277/16950 [2:35:58<26:10,  1.70it/s]Training 3/3 epoch (loss 0.3900):  84%|████████▍ | 14277/16950 [2:35:58<26:10,  1.70it/s]Training 3/3 epoch (loss 0.3900):  84%|████████▍ | 14278/16950 [2:35:58<24:53,  1.79it/s]Training 3/3 epoch (loss 0.0009):  84%|████████▍ | 14278/16950 [2:35:59<24:53,  1.79it/s]Training 3/3 epoch (loss 0.0009):  84%|████████▍ | 14279/16950 [2:35:59<22:39,  1.96it/s]Training 3/3 epoch (loss 0.0196):  84%|████████▍ | 14279/16950 [2:36:00<22:39,  1.96it/s]Training 3/3 epoch (loss 0.0196):  84%|████████▍ | 14280/16950 [2:36:00<26:15,  1.69it/s]Training 3/3 epoch (loss 0.0938):  84%|████████▍ | 14280/16950 [2:36:00<26:15,  1.69it/s]Training 3/3 epoch (loss 0.0938):  84%|████████▍ | 14281/16950 [2:36:00<27:19,  1.63it/s]Training 3/3 epoch (loss 0.2321):  84%|████████▍ | 14281/16950 [2:36:01<27:19,  1.63it/s]Training 3/3 epoch (loss 0.2321):  84%|████████▍ | 14282/16950 [2:36:01<27:27,  1.62it/s]Training 3/3 epoch (loss 0.0028):  84%|████████▍ | 14282/16950 [2:36:02<27:27,  1.62it/s]Training 3/3 epoch (loss 0.0028):  84%|████████▍ | 14283/16950 [2:36:02<28:18,  1.57it/s]Training 3/3 epoch (loss 0.0050):  84%|████████▍ | 14283/16950 [2:36:02<28:18,  1.57it/s]Training 3/3 epoch (loss 0.0050):  84%|████████▍ | 14284/16950 [2:36:02<31:20,  1.42it/s]Training 3/3 epoch (loss 0.1146):  84%|████████▍ | 14284/16950 [2:36:03<31:20,  1.42it/s]Training 3/3 epoch (loss 0.1146):  84%|████████▍ | 14285/16950 [2:36:03<30:51,  1.44it/s]Training 3/3 epoch (loss 0.5129):  84%|████████▍ | 14285/16950 [2:36:04<30:51,  1.44it/s]Training 3/3 epoch (loss 0.5129):  84%|████████▍ | 14286/16950 [2:36:04<28:39,  1.55it/s]Training 3/3 epoch (loss 0.0221):  84%|████████▍ | 14286/16950 [2:36:05<28:39,  1.55it/s]Training 3/3 epoch (loss 0.0221):  84%|████████▍ | 14287/16950 [2:36:05<34:58,  1.27it/s]Training 3/3 epoch (loss 0.0373):  84%|████████▍ | 14287/16950 [2:36:06<34:58,  1.27it/s]Training 3/3 epoch (loss 0.0373):  84%|████████▍ | 14288/16950 [2:36:06<34:22,  1.29it/s]Training 3/3 epoch (loss 0.0058):  84%|████████▍ | 14288/16950 [2:36:06<34:22,  1.29it/s]Training 3/3 epoch (loss 0.0058):  84%|████████▍ | 14289/16950 [2:36:06<28:52,  1.54it/s]Training 3/3 epoch (loss 0.0001):  84%|████████▍ | 14289/16950 [2:36:06<28:52,  1.54it/s]Training 3/3 epoch (loss 0.0001):  84%|████████▍ | 14290/16950 [2:36:06<25:03,  1.77it/s]Training 3/3 epoch (loss 0.3026):  84%|████████▍ | 14290/16950 [2:36:07<25:03,  1.77it/s]Training 3/3 epoch (loss 0.3026):  84%|████████▍ | 14291/16950 [2:36:07<22:52,  1.94it/s]Training 3/3 epoch (loss 0.0138):  84%|████████▍ | 14291/16950 [2:36:07<22:52,  1.94it/s]Training 3/3 epoch (loss 0.0138):  84%|████████▍ | 14292/16950 [2:36:07<21:59,  2.01it/s]Training 3/3 epoch (loss 0.3317):  84%|████████▍ | 14292/16950 [2:36:08<21:59,  2.01it/s]Training 3/3 epoch (loss 0.3317):  84%|████████▍ | 14293/16950 [2:36:08<21:09,  2.09it/s]Training 3/3 epoch (loss 0.1889):  84%|████████▍ | 14293/16950 [2:36:08<21:09,  2.09it/s]Training 3/3 epoch (loss 0.1889):  84%|████████▍ | 14294/16950 [2:36:08<23:09,  1.91it/s]Training 3/3 epoch (loss 0.0005):  84%|████████▍ | 14294/16950 [2:36:09<23:09,  1.91it/s]Training 3/3 epoch (loss 0.0005):  84%|████████▍ | 14295/16950 [2:36:09<23:34,  1.88it/s]Training 3/3 epoch (loss 0.0267):  84%|████████▍ | 14295/16950 [2:36:09<23:34,  1.88it/s]Training 3/3 epoch (loss 0.0267):  84%|████████▍ | 14296/16950 [2:36:09<26:18,  1.68it/s]Training 3/3 epoch (loss 0.1791):  84%|████████▍ | 14296/16950 [2:36:10<26:18,  1.68it/s]Training 3/3 epoch (loss 0.1791):  84%|████████▍ | 14297/16950 [2:36:10<27:54,  1.58it/s]Training 3/3 epoch (loss 0.0348):  84%|████████▍ | 14297/16950 [2:36:11<27:54,  1.58it/s]Training 3/3 epoch (loss 0.0348):  84%|████████▍ | 14298/16950 [2:36:11<29:15,  1.51it/s]Training 3/3 epoch (loss 0.0366):  84%|████████▍ | 14298/16950 [2:36:12<29:15,  1.51it/s]Training 3/3 epoch (loss 0.0366):  84%|████████▍ | 14299/16950 [2:36:12<28:51,  1.53it/s]Training 3/3 epoch (loss 0.1644):  84%|████████▍ | 14299/16950 [2:36:13<28:51,  1.53it/s]Training 3/3 epoch (loss 0.1644):  84%|████████▍ | 14300/16950 [2:36:13<36:02,  1.23it/s]Training 3/3 epoch (loss 0.3044):  84%|████████▍ | 14300/16950 [2:36:13<36:02,  1.23it/s]Training 3/3 epoch (loss 0.3044):  84%|████████▍ | 14301/16950 [2:36:13<33:59,  1.30it/s]Training 3/3 epoch (loss 0.3920):  84%|████████▍ | 14301/16950 [2:36:14<33:59,  1.30it/s]Training 3/3 epoch (loss 0.3920):  84%|████████▍ | 14302/16950 [2:36:14<29:39,  1.49it/s]Training 3/3 epoch (loss 0.0565):  84%|████████▍ | 14302/16950 [2:36:14<29:39,  1.49it/s]Training 3/3 epoch (loss 0.0565):  84%|████████▍ | 14303/16950 [2:36:14<25:29,  1.73it/s]Training 3/3 epoch (loss 0.0002):  84%|████████▍ | 14303/16950 [2:36:15<25:29,  1.73it/s]Training 3/3 epoch (loss 0.0002):  84%|████████▍ | 14304/16950 [2:36:15<25:46,  1.71it/s]Training 3/3 epoch (loss 0.0029):  84%|████████▍ | 14304/16950 [2:36:15<25:46,  1.71it/s]Training 3/3 epoch (loss 0.0029):  84%|████████▍ | 14305/16950 [2:36:15<23:58,  1.84it/s]Training 3/3 epoch (loss 0.0008):  84%|████████▍ | 14305/16950 [2:36:16<23:58,  1.84it/s]Training 3/3 epoch (loss 0.0008):  84%|████████▍ | 14306/16950 [2:36:16<23:02,  1.91it/s]Training 3/3 epoch (loss 0.0004):  84%|████████▍ | 14306/16950 [2:36:16<23:02,  1.91it/s]Training 3/3 epoch (loss 0.0004):  84%|████████▍ | 14307/16950 [2:36:16<23:21,  1.89it/s]Training 3/3 epoch (loss 0.0026):  84%|████████▍ | 14307/16950 [2:36:17<23:21,  1.89it/s]Training 3/3 epoch (loss 0.0026):  84%|████████▍ | 14308/16950 [2:36:17<23:16,  1.89it/s]Training 3/3 epoch (loss 0.0011):  84%|████████▍ | 14308/16950 [2:36:17<23:16,  1.89it/s]Training 3/3 epoch (loss 0.0011):  84%|████████▍ | 14309/16950 [2:36:17<24:50,  1.77it/s]Training 3/3 epoch (loss 0.3870):  84%|████████▍ | 14309/16950 [2:36:18<24:50,  1.77it/s]Training 3/3 epoch (loss 0.3870):  84%|████████▍ | 14310/16950 [2:36:18<24:50,  1.77it/s]Training 3/3 epoch (loss 0.0062):  84%|████████▍ | 14310/16950 [2:36:19<24:50,  1.77it/s]Training 3/3 epoch (loss 0.0062):  84%|████████▍ | 14311/16950 [2:36:19<26:29,  1.66it/s]Training 3/3 epoch (loss 0.1992):  84%|████████▍ | 14311/16950 [2:36:19<26:29,  1.66it/s]Training 3/3 epoch (loss 0.1992):  84%|████████▍ | 14312/16950 [2:36:19<23:23,  1.88it/s]Training 3/3 epoch (loss 0.0414):  84%|████████▍ | 14312/16950 [2:36:19<23:23,  1.88it/s]Training 3/3 epoch (loss 0.0414):  84%|████████▍ | 14313/16950 [2:36:19<20:43,  2.12it/s]Training 3/3 epoch (loss 0.2682):  84%|████████▍ | 14313/16950 [2:36:20<20:43,  2.12it/s]Training 3/3 epoch (loss 0.2682):  84%|████████▍ | 14314/16950 [2:36:20<23:38,  1.86it/s]Training 3/3 epoch (loss 0.0009):  84%|████████▍ | 14314/16950 [2:36:21<23:38,  1.86it/s]Training 3/3 epoch (loss 0.0009):  84%|████████▍ | 14315/16950 [2:36:21<29:22,  1.49it/s]Training 3/3 epoch (loss 0.0948):  84%|████████▍ | 14315/16950 [2:36:22<29:22,  1.49it/s]Training 3/3 epoch (loss 0.0948):  84%|████████▍ | 14316/16950 [2:36:22<30:04,  1.46it/s]Training 3/3 epoch (loss 0.0003):  84%|████████▍ | 14316/16950 [2:36:22<30:04,  1.46it/s]Training 3/3 epoch (loss 0.0003):  84%|████████▍ | 14317/16950 [2:36:22<29:05,  1.51it/s]Training 3/3 epoch (loss 0.0006):  84%|████████▍ | 14317/16950 [2:36:23<29:05,  1.51it/s]Training 3/3 epoch (loss 0.0006):  84%|████████▍ | 14318/16950 [2:36:23<28:40,  1.53it/s]Training 3/3 epoch (loss 0.0212):  84%|████████▍ | 14318/16950 [2:36:24<28:40,  1.53it/s]Training 3/3 epoch (loss 0.0212):  84%|████████▍ | 14319/16950 [2:36:24<29:13,  1.50it/s]Training 3/3 epoch (loss 0.4449):  84%|████████▍ | 14319/16950 [2:36:24<29:13,  1.50it/s]Training 3/3 epoch (loss 0.4449):  84%|████████▍ | 14320/16950 [2:36:24<29:49,  1.47it/s]Training 3/3 epoch (loss 0.0294):  84%|████████▍ | 14320/16950 [2:36:25<29:49,  1.47it/s]Training 3/3 epoch (loss 0.0294):  84%|████████▍ | 14321/16950 [2:36:25<30:44,  1.43it/s]Training 3/3 epoch (loss 0.3304):  84%|████████▍ | 14321/16950 [2:36:26<30:44,  1.43it/s]Training 3/3 epoch (loss 0.3304):  84%|████████▍ | 14322/16950 [2:36:26<29:50,  1.47it/s]Training 3/3 epoch (loss 0.0012):  84%|████████▍ | 14322/16950 [2:36:26<29:50,  1.47it/s]Training 3/3 epoch (loss 0.0012):  85%|████████▍ | 14323/16950 [2:36:26<28:45,  1.52it/s]Training 3/3 epoch (loss 0.0067):  85%|████████▍ | 14323/16950 [2:36:27<28:45,  1.52it/s]Training 3/3 epoch (loss 0.0067):  85%|████████▍ | 14324/16950 [2:36:27<28:34,  1.53it/s]Training 3/3 epoch (loss 0.0183):  85%|████████▍ | 14324/16950 [2:36:28<28:34,  1.53it/s]Training 3/3 epoch (loss 0.0183):  85%|████████▍ | 14325/16950 [2:36:28<26:26,  1.65it/s]Training 3/3 epoch (loss 0.0013):  85%|████████▍ | 14325/16950 [2:36:28<26:26,  1.65it/s]Training 3/3 epoch (loss 0.0013):  85%|████████▍ | 14326/16950 [2:36:28<23:59,  1.82it/s]Training 3/3 epoch (loss 0.0109):  85%|████████▍ | 14326/16950 [2:36:29<23:59,  1.82it/s]Training 3/3 epoch (loss 0.0109):  85%|████████▍ | 14327/16950 [2:36:29<25:06,  1.74it/s]Training 3/3 epoch (loss 0.0006):  85%|████████▍ | 14327/16950 [2:36:29<25:06,  1.74it/s]Training 3/3 epoch (loss 0.0006):  85%|████████▍ | 14328/16950 [2:36:29<23:52,  1.83it/s]Training 3/3 epoch (loss 0.0941):  85%|████████▍ | 14328/16950 [2:36:30<23:52,  1.83it/s]Training 3/3 epoch (loss 0.0941):  85%|████████▍ | 14329/16950 [2:36:30<24:54,  1.75it/s]Training 3/3 epoch (loss 0.0236):  85%|████████▍ | 14329/16950 [2:36:30<24:54,  1.75it/s]Training 3/3 epoch (loss 0.0236):  85%|████████▍ | 14330/16950 [2:36:30<24:44,  1.76it/s]Training 3/3 epoch (loss 0.0005):  85%|████████▍ | 14330/16950 [2:36:31<24:44,  1.76it/s]Training 3/3 epoch (loss 0.0005):  85%|████████▍ | 14331/16950 [2:36:31<29:30,  1.48it/s]Training 3/3 epoch (loss 0.0034):  85%|████████▍ | 14331/16950 [2:36:32<29:30,  1.48it/s]Training 3/3 epoch (loss 0.0034):  85%|████████▍ | 14332/16950 [2:36:32<30:14,  1.44it/s]Training 3/3 epoch (loss 0.0001):  85%|████████▍ | 14332/16950 [2:36:32<30:14,  1.44it/s]Training 3/3 epoch (loss 0.0001):  85%|████████▍ | 14333/16950 [2:36:32<27:23,  1.59it/s]Training 3/3 epoch (loss 0.2458):  85%|████████▍ | 14333/16950 [2:36:33<27:23,  1.59it/s]Training 3/3 epoch (loss 0.2458):  85%|████████▍ | 14334/16950 [2:36:33<24:32,  1.78it/s]Training 3/3 epoch (loss 0.2127):  85%|████████▍ | 14334/16950 [2:36:34<24:32,  1.78it/s]Training 3/3 epoch (loss 0.2127):  85%|████████▍ | 14335/16950 [2:36:34<26:09,  1.67it/s]Training 3/3 epoch (loss 0.0299):  85%|████████▍ | 14335/16950 [2:36:34<26:09,  1.67it/s]Training 3/3 epoch (loss 0.0299):  85%|████████▍ | 14336/16950 [2:36:34<26:34,  1.64it/s]Training 3/3 epoch (loss 0.0192):  85%|████████▍ | 14336/16950 [2:36:35<26:34,  1.64it/s]Training 3/3 epoch (loss 0.0192):  85%|████████▍ | 14337/16950 [2:36:35<25:21,  1.72it/s]Training 3/3 epoch (loss 0.0021):  85%|████████▍ | 14337/16950 [2:36:35<25:21,  1.72it/s]Training 3/3 epoch (loss 0.0021):  85%|████████▍ | 14338/16950 [2:36:35<23:41,  1.84it/s]Training 3/3 epoch (loss 0.0006):  85%|████████▍ | 14338/16950 [2:36:36<23:41,  1.84it/s]Training 3/3 epoch (loss 0.0006):  85%|████████▍ | 14339/16950 [2:36:36<24:14,  1.80it/s]Training 3/3 epoch (loss 0.6051):  85%|████████▍ | 14339/16950 [2:36:36<24:14,  1.80it/s]Training 3/3 epoch (loss 0.6051):  85%|████████▍ | 14340/16950 [2:36:36<22:29,  1.93it/s]Training 3/3 epoch (loss 0.0001):  85%|████████▍ | 14340/16950 [2:36:37<22:29,  1.93it/s]Training 3/3 epoch (loss 0.0001):  85%|████████▍ | 14341/16950 [2:36:37<20:47,  2.09it/s]Training 3/3 epoch (loss 0.4616):  85%|████████▍ | 14341/16950 [2:36:37<20:47,  2.09it/s]Training 3/3 epoch (loss 0.4616):  85%|████████▍ | 14342/16950 [2:36:37<22:11,  1.96it/s]Training 3/3 epoch (loss 0.0960):  85%|████████▍ | 14342/16950 [2:36:38<22:11,  1.96it/s]Training 3/3 epoch (loss 0.0960):  85%|████████▍ | 14343/16950 [2:36:38<24:05,  1.80it/s]Training 3/3 epoch (loss 0.4143):  85%|████████▍ | 14343/16950 [2:36:38<24:05,  1.80it/s]Training 3/3 epoch (loss 0.4143):  85%|████████▍ | 14344/16950 [2:36:38<22:11,  1.96it/s]Training 3/3 epoch (loss 0.3168):  85%|████████▍ | 14344/16950 [2:36:39<22:11,  1.96it/s]Training 3/3 epoch (loss 0.3168):  85%|████████▍ | 14345/16950 [2:36:39<23:05,  1.88it/s]Training 3/3 epoch (loss 0.0085):  85%|████████▍ | 14345/16950 [2:36:39<23:05,  1.88it/s]Training 3/3 epoch (loss 0.0085):  85%|████████▍ | 14346/16950 [2:36:39<23:43,  1.83it/s]Training 3/3 epoch (loss 0.0036):  85%|████████▍ | 14346/16950 [2:36:40<23:43,  1.83it/s]Training 3/3 epoch (loss 0.0036):  85%|████████▍ | 14347/16950 [2:36:40<23:23,  1.85it/s]Training 3/3 epoch (loss 0.1780):  85%|████████▍ | 14347/16950 [2:36:40<23:23,  1.85it/s]Training 3/3 epoch (loss 0.1780):  85%|████████▍ | 14348/16950 [2:36:40<23:55,  1.81it/s]Training 3/3 epoch (loss 0.0269):  85%|████████▍ | 14348/16950 [2:36:41<23:55,  1.81it/s]Training 3/3 epoch (loss 0.0269):  85%|████████▍ | 14349/16950 [2:36:41<23:47,  1.82it/s]Training 3/3 epoch (loss 0.0479):  85%|████████▍ | 14349/16950 [2:36:42<23:47,  1.82it/s]Training 3/3 epoch (loss 0.0479):  85%|████████▍ | 14350/16950 [2:36:42<24:35,  1.76it/s]Training 3/3 epoch (loss 0.0000):  85%|████████▍ | 14350/16950 [2:36:42<24:35,  1.76it/s]Training 3/3 epoch (loss 0.0000):  85%|████████▍ | 14351/16950 [2:36:42<24:36,  1.76it/s]Training 3/3 epoch (loss 0.0321):  85%|████████▍ | 14351/16950 [2:36:43<24:36,  1.76it/s]Training 3/3 epoch (loss 0.0321):  85%|████████▍ | 14352/16950 [2:36:43<25:16,  1.71it/s]Training 3/3 epoch (loss 0.0480):  85%|████████▍ | 14352/16950 [2:36:44<25:16,  1.71it/s]Training 3/3 epoch (loss 0.0480):  85%|████████▍ | 14353/16950 [2:36:44<28:06,  1.54it/s]Training 3/3 epoch (loss 0.0557):  85%|████████▍ | 14353/16950 [2:36:44<28:06,  1.54it/s]Training 3/3 epoch (loss 0.0557):  85%|████████▍ | 14354/16950 [2:36:44<26:19,  1.64it/s]Training 3/3 epoch (loss 0.0005):  85%|████████▍ | 14354/16950 [2:36:45<26:19,  1.64it/s]Training 3/3 epoch (loss 0.0005):  85%|████████▍ | 14355/16950 [2:36:45<24:18,  1.78it/s]Training 3/3 epoch (loss 0.6350):  85%|████████▍ | 14355/16950 [2:36:45<24:18,  1.78it/s]Training 3/3 epoch (loss 0.6350):  85%|████████▍ | 14356/16950 [2:36:45<28:26,  1.52it/s]Training 3/3 epoch (loss 0.1310):  85%|████████▍ | 14356/16950 [2:36:46<28:26,  1.52it/s]Training 3/3 epoch (loss 0.1310):  85%|████████▍ | 14357/16950 [2:36:46<29:32,  1.46it/s]Training 3/3 epoch (loss 0.0003):  85%|████████▍ | 14357/16950 [2:36:47<29:32,  1.46it/s]Training 3/3 epoch (loss 0.0003):  85%|████████▍ | 14358/16950 [2:36:47<29:03,  1.49it/s]Training 3/3 epoch (loss 0.0175):  85%|████████▍ | 14358/16950 [2:36:47<29:03,  1.49it/s]Training 3/3 epoch (loss 0.0175):  85%|████████▍ | 14359/16950 [2:36:47<28:30,  1.51it/s]Training 3/3 epoch (loss 0.5492):  85%|████████▍ | 14359/16950 [2:36:48<28:30,  1.51it/s]Training 3/3 epoch (loss 0.5492):  85%|████████▍ | 14360/16950 [2:36:48<29:13,  1.48it/s]Training 3/3 epoch (loss 0.3371):  85%|████████▍ | 14360/16950 [2:36:49<29:13,  1.48it/s]Training 3/3 epoch (loss 0.3371):  85%|████████▍ | 14361/16950 [2:36:49<30:55,  1.40it/s]Training 3/3 epoch (loss 0.0058):  85%|████████▍ | 14361/16950 [2:36:50<30:55,  1.40it/s]Training 3/3 epoch (loss 0.0058):  85%|████████▍ | 14362/16950 [2:36:50<28:26,  1.52it/s]Training 3/3 epoch (loss 0.0264):  85%|████████▍ | 14362/16950 [2:36:50<28:26,  1.52it/s]Training 3/3 epoch (loss 0.0264):  85%|████████▍ | 14363/16950 [2:36:50<28:00,  1.54it/s]Training 3/3 epoch (loss 0.0034):  85%|████████▍ | 14363/16950 [2:36:51<28:00,  1.54it/s]Training 3/3 epoch (loss 0.0034):  85%|████████▍ | 14364/16950 [2:36:51<25:52,  1.67it/s]Training 3/3 epoch (loss 0.0002):  85%|████████▍ | 14364/16950 [2:36:51<25:52,  1.67it/s]Training 3/3 epoch (loss 0.0002):  85%|████████▍ | 14365/16950 [2:36:51<25:56,  1.66it/s]Training 3/3 epoch (loss 0.0003):  85%|████████▍ | 14365/16950 [2:36:52<25:56,  1.66it/s]Training 3/3 epoch (loss 0.0003):  85%|████████▍ | 14366/16950 [2:36:52<23:58,  1.80it/s]Training 3/3 epoch (loss 0.0055):  85%|████████▍ | 14366/16950 [2:36:52<23:58,  1.80it/s]Training 3/3 epoch (loss 0.0055):  85%|████████▍ | 14367/16950 [2:36:52<22:45,  1.89it/s]Training 3/3 epoch (loss 0.3375):  85%|████████▍ | 14367/16950 [2:36:53<22:45,  1.89it/s]Training 3/3 epoch (loss 0.3375):  85%|████████▍ | 14368/16950 [2:36:53<24:50,  1.73it/s]Training 3/3 epoch (loss 0.0021):  85%|████████▍ | 14368/16950 [2:36:54<24:50,  1.73it/s]Training 3/3 epoch (loss 0.0021):  85%|████████▍ | 14369/16950 [2:36:54<26:15,  1.64it/s]Training 3/3 epoch (loss 0.0012):  85%|████████▍ | 14369/16950 [2:36:54<26:15,  1.64it/s]Training 3/3 epoch (loss 0.0012):  85%|████████▍ | 14370/16950 [2:36:54<24:22,  1.76it/s]Training 3/3 epoch (loss 0.4263):  85%|████████▍ | 14370/16950 [2:36:54<24:22,  1.76it/s]Training 3/3 epoch (loss 0.4263):  85%|████████▍ | 14371/16950 [2:36:54<22:31,  1.91it/s]Training 3/3 epoch (loss 0.0109):  85%|████████▍ | 14371/16950 [2:36:55<22:31,  1.91it/s]Training 3/3 epoch (loss 0.0109):  85%|████████▍ | 14372/16950 [2:36:55<26:00,  1.65it/s]Training 3/3 epoch (loss 0.4567):  85%|████████▍ | 14372/16950 [2:36:56<26:00,  1.65it/s]Training 3/3 epoch (loss 0.4567):  85%|████████▍ | 14373/16950 [2:36:56<24:31,  1.75it/s]Training 3/3 epoch (loss 0.0044):  85%|████████▍ | 14373/16950 [2:36:56<24:31,  1.75it/s]Training 3/3 epoch (loss 0.0044):  85%|████████▍ | 14374/16950 [2:36:56<25:55,  1.66it/s]Training 3/3 epoch (loss 0.2062):  85%|████████▍ | 14374/16950 [2:36:57<25:55,  1.66it/s]Training 3/3 epoch (loss 0.2062):  85%|████████▍ | 14375/16950 [2:36:57<24:54,  1.72it/s]Training 3/3 epoch (loss 0.2686):  85%|████████▍ | 14375/16950 [2:36:57<24:54,  1.72it/s]Training 3/3 epoch (loss 0.2686):  85%|████████▍ | 14376/16950 [2:36:57<23:51,  1.80it/s]Training 3/3 epoch (loss 0.4435):  85%|████████▍ | 14376/16950 [2:36:58<23:51,  1.80it/s]Training 3/3 epoch (loss 0.4435):  85%|████████▍ | 14377/16950 [2:36:58<24:14,  1.77it/s]Training 3/3 epoch (loss 0.0014):  85%|████████▍ | 14377/16950 [2:36:58<24:14,  1.77it/s]Training 3/3 epoch (loss 0.0014):  85%|████████▍ | 14378/16950 [2:36:58<23:09,  1.85it/s]Training 3/3 epoch (loss 0.0178):  85%|████████▍ | 14378/16950 [2:36:59<23:09,  1.85it/s]Training 3/3 epoch (loss 0.0178):  85%|████████▍ | 14379/16950 [2:36:59<23:49,  1.80it/s]Training 3/3 epoch (loss 0.0048):  85%|████████▍ | 14379/16950 [2:37:00<23:49,  1.80it/s]Training 3/3 epoch (loss 0.0048):  85%|████████▍ | 14380/16950 [2:37:00<23:46,  1.80it/s]Training 3/3 epoch (loss 0.3126):  85%|████████▍ | 14380/16950 [2:37:00<23:46,  1.80it/s]Training 3/3 epoch (loss 0.3126):  85%|████████▍ | 14381/16950 [2:37:00<21:06,  2.03it/s]Training 3/3 epoch (loss 0.0015):  85%|████████▍ | 14381/16950 [2:37:00<21:06,  2.03it/s]Training 3/3 epoch (loss 0.0015):  85%|████████▍ | 14382/16950 [2:37:00<20:26,  2.09it/s]Training 3/3 epoch (loss 0.0000):  85%|████████▍ | 14382/16950 [2:37:01<20:26,  2.09it/s]Training 3/3 epoch (loss 0.0000):  85%|████████▍ | 14383/16950 [2:37:01<20:40,  2.07it/s]Training 3/3 epoch (loss 0.2311):  85%|████████▍ | 14383/16950 [2:37:02<20:40,  2.07it/s]Training 3/3 epoch (loss 0.2311):  85%|████████▍ | 14384/16950 [2:37:02<23:06,  1.85it/s]Training 3/3 epoch (loss 0.4477):  85%|████████▍ | 14384/16950 [2:37:02<23:06,  1.85it/s]Training 3/3 epoch (loss 0.4477):  85%|████████▍ | 14385/16950 [2:37:02<23:55,  1.79it/s]Training 3/3 epoch (loss 0.2353):  85%|████████▍ | 14385/16950 [2:37:03<23:55,  1.79it/s]Training 3/3 epoch (loss 0.2353):  85%|████████▍ | 14386/16950 [2:37:03<24:50,  1.72it/s]Training 3/3 epoch (loss 0.3736):  85%|████████▍ | 14386/16950 [2:37:03<24:50,  1.72it/s]Training 3/3 epoch (loss 0.3736):  85%|████████▍ | 14387/16950 [2:37:03<25:09,  1.70it/s]Training 3/3 epoch (loss 0.0211):  85%|████████▍ | 14387/16950 [2:37:04<25:09,  1.70it/s]Training 3/3 epoch (loss 0.0211):  85%|████████▍ | 14388/16950 [2:37:04<24:35,  1.74it/s]Training 3/3 epoch (loss 0.0267):  85%|████████▍ | 14388/16950 [2:37:05<24:35,  1.74it/s]Training 3/3 epoch (loss 0.0267):  85%|████████▍ | 14389/16950 [2:37:05<28:49,  1.48it/s]Training 3/3 epoch (loss 0.0662):  85%|████████▍ | 14389/16950 [2:37:06<28:49,  1.48it/s]Training 3/3 epoch (loss 0.0662):  85%|████████▍ | 14390/16950 [2:37:06<34:23,  1.24it/s]Training 3/3 epoch (loss 0.1899):  85%|████████▍ | 14390/16950 [2:37:07<34:23,  1.24it/s]Training 3/3 epoch (loss 0.1899):  85%|████████▍ | 14391/16950 [2:37:07<32:23,  1.32it/s]Training 3/3 epoch (loss 0.4293):  85%|████████▍ | 14391/16950 [2:37:07<32:23,  1.32it/s]Training 3/3 epoch (loss 0.4293):  85%|████████▍ | 14392/16950 [2:37:07<27:45,  1.54it/s]Training 3/3 epoch (loss 0.0982):  85%|████████▍ | 14392/16950 [2:37:08<27:45,  1.54it/s]Training 3/3 epoch (loss 0.0982):  85%|████████▍ | 14393/16950 [2:37:08<25:15,  1.69it/s]Training 3/3 epoch (loss 0.4158):  85%|████████▍ | 14393/16950 [2:37:08<25:15,  1.69it/s]Training 3/3 epoch (loss 0.4158):  85%|████████▍ | 14394/16950 [2:37:08<28:41,  1.48it/s]Training 3/3 epoch (loss 0.4362):  85%|████████▍ | 14394/16950 [2:37:09<28:41,  1.48it/s]Training 3/3 epoch (loss 0.4362):  85%|████████▍ | 14395/16950 [2:37:09<27:28,  1.55it/s]Training 3/3 epoch (loss 0.3436):  85%|████████▍ | 14395/16950 [2:37:10<27:28,  1.55it/s]Training 3/3 epoch (loss 0.3436):  85%|████████▍ | 14396/16950 [2:37:10<28:41,  1.48it/s]Training 3/3 epoch (loss 0.0026):  85%|████████▍ | 14396/16950 [2:37:11<28:41,  1.48it/s]Training 3/3 epoch (loss 0.0026):  85%|████████▍ | 14397/16950 [2:37:11<30:57,  1.37it/s]Training 3/3 epoch (loss 0.0045):  85%|████████▍ | 14397/16950 [2:37:11<30:57,  1.37it/s]Training 3/3 epoch (loss 0.0045):  85%|████████▍ | 14398/16950 [2:37:11<28:13,  1.51it/s]Training 3/3 epoch (loss 0.0461):  85%|████████▍ | 14398/16950 [2:37:12<28:13,  1.51it/s]Training 3/3 epoch (loss 0.0461):  85%|████████▍ | 14399/16950 [2:37:12<27:01,  1.57it/s]Training 3/3 epoch (loss 0.1577):  85%|████████▍ | 14399/16950 [2:37:12<27:01,  1.57it/s]Training 3/3 epoch (loss 0.1577):  85%|████████▍ | 14400/16950 [2:37:12<24:38,  1.73it/s]Training 3/3 epoch (loss 0.0039):  85%|████████▍ | 14400/16950 [2:37:13<24:38,  1.73it/s]Training 3/3 epoch (loss 0.0039):  85%|████████▍ | 14401/16950 [2:37:13<25:18,  1.68it/s]Training 3/3 epoch (loss 0.0034):  85%|████████▍ | 14401/16950 [2:37:13<25:18,  1.68it/s]Training 3/3 epoch (loss 0.0034):  85%|████████▍ | 14402/16950 [2:37:13<22:26,  1.89it/s]Training 3/3 epoch (loss 0.0017):  85%|████████▍ | 14402/16950 [2:37:14<22:26,  1.89it/s]Training 3/3 epoch (loss 0.0017):  85%|████████▍ | 14403/16950 [2:37:14<23:42,  1.79it/s]Training 3/3 epoch (loss 0.0011):  85%|████████▍ | 14403/16950 [2:37:14<23:42,  1.79it/s]Training 3/3 epoch (loss 0.0011):  85%|████████▍ | 14404/16950 [2:37:14<25:56,  1.64it/s]Training 3/3 epoch (loss 0.0015):  85%|████████▍ | 14404/16950 [2:37:15<25:56,  1.64it/s]Training 3/3 epoch (loss 0.0015):  85%|████████▍ | 14405/16950 [2:37:15<25:57,  1.63it/s]Training 3/3 epoch (loss 0.0042):  85%|████████▍ | 14405/16950 [2:37:16<25:57,  1.63it/s]Training 3/3 epoch (loss 0.0042):  85%|████████▍ | 14406/16950 [2:37:16<25:16,  1.68it/s]Training 3/3 epoch (loss 0.1814):  85%|████████▍ | 14406/16950 [2:37:16<25:16,  1.68it/s]Training 3/3 epoch (loss 0.1814):  85%|████████▍ | 14407/16950 [2:37:16<25:17,  1.68it/s]Training 3/3 epoch (loss 0.4846):  85%|████████▍ | 14407/16950 [2:37:17<25:17,  1.68it/s]Training 3/3 epoch (loss 0.4846):  85%|████████▌ | 14408/16950 [2:37:17<28:42,  1.48it/s]Training 3/3 epoch (loss 0.0004):  85%|████████▌ | 14408/16950 [2:37:18<28:42,  1.48it/s]Training 3/3 epoch (loss 0.0004):  85%|████████▌ | 14409/16950 [2:37:18<29:00,  1.46it/s]Training 3/3 epoch (loss 0.3323):  85%|████████▌ | 14409/16950 [2:37:18<29:00,  1.46it/s]Training 3/3 epoch (loss 0.3323):  85%|████████▌ | 14410/16950 [2:37:18<28:24,  1.49it/s]Training 3/3 epoch (loss 0.0326):  85%|████████▌ | 14410/16950 [2:37:19<28:24,  1.49it/s]Training 3/3 epoch (loss 0.0326):  85%|████████▌ | 14411/16950 [2:37:19<25:11,  1.68it/s]Training 3/3 epoch (loss 0.3573):  85%|████████▌ | 14411/16950 [2:37:19<25:11,  1.68it/s]Training 3/3 epoch (loss 0.3573):  85%|████████▌ | 14412/16950 [2:37:19<22:48,  1.86it/s]Training 3/3 epoch (loss 0.1057):  85%|████████▌ | 14412/16950 [2:37:20<22:48,  1.86it/s]Training 3/3 epoch (loss 0.1057):  85%|████████▌ | 14413/16950 [2:37:20<23:16,  1.82it/s]Training 3/3 epoch (loss 0.0138):  85%|████████▌ | 14413/16950 [2:37:21<23:16,  1.82it/s]Training 3/3 epoch (loss 0.0138):  85%|████████▌ | 14414/16950 [2:37:21<25:12,  1.68it/s]Training 3/3 epoch (loss 0.0309):  85%|████████▌ | 14414/16950 [2:37:21<25:12,  1.68it/s]Training 3/3 epoch (loss 0.0309):  85%|████████▌ | 14415/16950 [2:37:21<26:57,  1.57it/s]Training 3/3 epoch (loss 0.2186):  85%|████████▌ | 14415/16950 [2:37:22<26:57,  1.57it/s]Training 3/3 epoch (loss 0.2186):  85%|████████▌ | 14416/16950 [2:37:22<24:22,  1.73it/s]Training 3/3 epoch (loss 0.0240):  85%|████████▌ | 14416/16950 [2:37:22<24:22,  1.73it/s]Training 3/3 epoch (loss 0.0240):  85%|████████▌ | 14417/16950 [2:37:22<22:13,  1.90it/s]Training 3/3 epoch (loss 0.0522):  85%|████████▌ | 14417/16950 [2:37:23<22:13,  1.90it/s]Training 3/3 epoch (loss 0.0522):  85%|████████▌ | 14418/16950 [2:37:23<24:07,  1.75it/s]Training 3/3 epoch (loss 0.0072):  85%|████████▌ | 14418/16950 [2:37:23<24:07,  1.75it/s]Training 3/3 epoch (loss 0.0072):  85%|████████▌ | 14419/16950 [2:37:23<25:24,  1.66it/s]Training 3/3 epoch (loss 0.0003):  85%|████████▌ | 14419/16950 [2:37:24<25:24,  1.66it/s]Training 3/3 epoch (loss 0.0003):  85%|████████▌ | 14420/16950 [2:37:24<24:28,  1.72it/s]Training 3/3 epoch (loss 0.0018):  85%|████████▌ | 14420/16950 [2:37:25<24:28,  1.72it/s]Training 3/3 epoch (loss 0.0018):  85%|████████▌ | 14421/16950 [2:37:25<24:01,  1.75it/s]Training 3/3 epoch (loss 0.0663):  85%|████████▌ | 14421/16950 [2:37:25<24:01,  1.75it/s]Training 3/3 epoch (loss 0.0663):  85%|████████▌ | 14422/16950 [2:37:25<22:22,  1.88it/s]Training 3/3 epoch (loss 0.0062):  85%|████████▌ | 14422/16950 [2:37:25<22:22,  1.88it/s]Training 3/3 epoch (loss 0.0062):  85%|████████▌ | 14423/16950 [2:37:25<21:46,  1.93it/s]Training 3/3 epoch (loss 0.0004):  85%|████████▌ | 14423/16950 [2:37:26<21:46,  1.93it/s]Training 3/3 epoch (loss 0.0004):  85%|████████▌ | 14424/16950 [2:37:26<23:15,  1.81it/s]Training 3/3 epoch (loss 0.0617):  85%|████████▌ | 14424/16950 [2:37:27<23:15,  1.81it/s]Training 3/3 epoch (loss 0.0617):  85%|████████▌ | 14425/16950 [2:37:27<23:17,  1.81it/s]Training 3/3 epoch (loss 0.0095):  85%|████████▌ | 14425/16950 [2:37:27<23:17,  1.81it/s]Training 3/3 epoch (loss 0.0095):  85%|████████▌ | 14426/16950 [2:37:27<24:34,  1.71it/s]Training 3/3 epoch (loss 0.0299):  85%|████████▌ | 14426/16950 [2:37:28<24:34,  1.71it/s]Training 3/3 epoch (loss 0.0299):  85%|████████▌ | 14427/16950 [2:37:28<23:48,  1.77it/s]Training 3/3 epoch (loss 0.0115):  85%|████████▌ | 14427/16950 [2:37:28<23:48,  1.77it/s]Training 3/3 epoch (loss 0.0115):  85%|████████▌ | 14428/16950 [2:37:28<24:44,  1.70it/s]Training 3/3 epoch (loss 0.0003):  85%|████████▌ | 14428/16950 [2:37:29<24:44,  1.70it/s]Training 3/3 epoch (loss 0.0003):  85%|████████▌ | 14429/16950 [2:37:29<21:36,  1.95it/s]Training 3/3 epoch (loss 0.0888):  85%|████████▌ | 14429/16950 [2:37:29<21:36,  1.95it/s]Training 3/3 epoch (loss 0.0888):  85%|████████▌ | 14430/16950 [2:37:29<22:34,  1.86it/s]Training 3/3 epoch (loss 0.1840):  85%|████████▌ | 14430/16950 [2:37:30<22:34,  1.86it/s]Training 3/3 epoch (loss 0.1840):  85%|████████▌ | 14431/16950 [2:37:30<23:33,  1.78it/s]Training 3/3 epoch (loss 0.2175):  85%|████████▌ | 14431/16950 [2:37:31<23:33,  1.78it/s]Training 3/3 epoch (loss 0.2175):  85%|████████▌ | 14432/16950 [2:37:31<22:54,  1.83it/s]Training 3/3 epoch (loss 0.2471):  85%|████████▌ | 14432/16950 [2:37:31<22:54,  1.83it/s]Training 3/3 epoch (loss 0.2471):  85%|████████▌ | 14433/16950 [2:37:31<23:46,  1.76it/s]Training 3/3 epoch (loss 0.0287):  85%|████████▌ | 14433/16950 [2:37:32<23:46,  1.76it/s]Training 3/3 epoch (loss 0.0287):  85%|████████▌ | 14434/16950 [2:37:32<25:47,  1.63it/s]Training 3/3 epoch (loss 0.0086):  85%|████████▌ | 14434/16950 [2:37:32<25:47,  1.63it/s]Training 3/3 epoch (loss 0.0086):  85%|████████▌ | 14435/16950 [2:37:32<24:12,  1.73it/s]Training 3/3 epoch (loss 0.0594):  85%|████████▌ | 14435/16950 [2:37:33<24:12,  1.73it/s]Training 3/3 epoch (loss 0.0594):  85%|████████▌ | 14436/16950 [2:37:33<24:21,  1.72it/s]Training 3/3 epoch (loss 0.0993):  85%|████████▌ | 14436/16950 [2:37:34<24:21,  1.72it/s]Training 3/3 epoch (loss 0.0993):  85%|████████▌ | 14437/16950 [2:37:34<23:58,  1.75it/s]Training 3/3 epoch (loss 0.0090):  85%|████████▌ | 14437/16950 [2:37:34<23:58,  1.75it/s]Training 3/3 epoch (loss 0.0090):  85%|████████▌ | 14438/16950 [2:37:34<22:13,  1.88it/s]Training 3/3 epoch (loss 0.0135):  85%|████████▌ | 14438/16950 [2:37:35<22:13,  1.88it/s]Training 3/3 epoch (loss 0.0135):  85%|████████▌ | 14439/16950 [2:37:35<22:57,  1.82it/s]Training 3/3 epoch (loss 0.7506):  85%|████████▌ | 14439/16950 [2:37:36<22:57,  1.82it/s]Training 3/3 epoch (loss 0.7506):  85%|████████▌ | 14440/16950 [2:37:36<29:59,  1.39it/s]Training 3/3 epoch (loss 0.4940):  85%|████████▌ | 14440/16950 [2:37:36<29:59,  1.39it/s]Training 3/3 epoch (loss 0.4940):  85%|████████▌ | 14441/16950 [2:37:36<30:38,  1.36it/s]Training 3/3 epoch (loss 0.0023):  85%|████████▌ | 14441/16950 [2:37:37<30:38,  1.36it/s]Training 3/3 epoch (loss 0.0023):  85%|████████▌ | 14442/16950 [2:37:37<27:40,  1.51it/s]Training 3/3 epoch (loss 0.5798):  85%|████████▌ | 14442/16950 [2:37:37<27:40,  1.51it/s]Training 3/3 epoch (loss 0.5798):  85%|████████▌ | 14443/16950 [2:37:37<23:43,  1.76it/s]Training 3/3 epoch (loss 0.0019):  85%|████████▌ | 14443/16950 [2:37:38<23:43,  1.76it/s]Training 3/3 epoch (loss 0.0019):  85%|████████▌ | 14444/16950 [2:37:38<22:48,  1.83it/s]Training 3/3 epoch (loss 0.3769):  85%|████████▌ | 14444/16950 [2:37:38<22:48,  1.83it/s]Training 3/3 epoch (loss 0.3769):  85%|████████▌ | 14445/16950 [2:37:38<24:35,  1.70it/s]Training 3/3 epoch (loss 0.0041):  85%|████████▌ | 14445/16950 [2:37:39<24:35,  1.70it/s]Training 3/3 epoch (loss 0.0041):  85%|████████▌ | 14446/16950 [2:37:39<24:44,  1.69it/s]Training 3/3 epoch (loss 0.0018):  85%|████████▌ | 14446/16950 [2:37:40<24:44,  1.69it/s]Training 3/3 epoch (loss 0.0018):  85%|████████▌ | 14447/16950 [2:37:40<25:59,  1.61it/s]Training 3/3 epoch (loss 0.0266):  85%|████████▌ | 14447/16950 [2:37:40<25:59,  1.61it/s]Training 3/3 epoch (loss 0.0266):  85%|████████▌ | 14448/16950 [2:37:40<25:19,  1.65it/s]Training 3/3 epoch (loss 0.1064):  85%|████████▌ | 14448/16950 [2:37:41<25:19,  1.65it/s]Training 3/3 epoch (loss 0.1064):  85%|████████▌ | 14449/16950 [2:37:41<26:18,  1.58it/s]Training 3/3 epoch (loss 0.2960):  85%|████████▌ | 14449/16950 [2:37:41<26:18,  1.58it/s]Training 3/3 epoch (loss 0.2960):  85%|████████▌ | 14450/16950 [2:37:41<23:02,  1.81it/s]Training 3/3 epoch (loss 0.0464):  85%|████████▌ | 14450/16950 [2:37:42<23:02,  1.81it/s]Training 3/3 epoch (loss 0.0464):  85%|████████▌ | 14451/16950 [2:37:42<21:07,  1.97it/s]Training 3/3 epoch (loss 0.0243):  85%|████████▌ | 14451/16950 [2:37:43<21:07,  1.97it/s]Training 3/3 epoch (loss 0.0243):  85%|████████▌ | 14452/16950 [2:37:43<24:00,  1.73it/s]Training 3/3 epoch (loss 0.3078):  85%|████████▌ | 14452/16950 [2:37:43<24:00,  1.73it/s]Training 3/3 epoch (loss 0.3078):  85%|████████▌ | 14453/16950 [2:37:43<22:53,  1.82it/s]Training 3/3 epoch (loss 0.2504):  85%|████████▌ | 14453/16950 [2:37:43<22:53,  1.82it/s]Training 3/3 epoch (loss 0.2504):  85%|████████▌ | 14454/16950 [2:37:43<19:57,  2.08it/s]Training 3/3 epoch (loss 0.0046):  85%|████████▌ | 14454/16950 [2:37:44<19:57,  2.08it/s]Training 3/3 epoch (loss 0.0046):  85%|████████▌ | 14455/16950 [2:37:44<18:41,  2.23it/s]Training 3/3 epoch (loss 0.0002):  85%|████████▌ | 14455/16950 [2:37:44<18:41,  2.23it/s]Training 3/3 epoch (loss 0.0002):  85%|████████▌ | 14456/16950 [2:37:44<18:29,  2.25it/s]Training 3/3 epoch (loss 0.1742):  85%|████████▌ | 14456/16950 [2:37:45<18:29,  2.25it/s]Training 3/3 epoch (loss 0.1742):  85%|████████▌ | 14457/16950 [2:37:45<18:33,  2.24it/s]Training 3/3 epoch (loss 0.3110):  85%|████████▌ | 14457/16950 [2:37:45<18:33,  2.24it/s]Training 3/3 epoch (loss 0.3110):  85%|████████▌ | 14458/16950 [2:37:45<16:48,  2.47it/s]Training 3/3 epoch (loss 0.0647):  85%|████████▌ | 14458/16950 [2:37:46<16:48,  2.47it/s]Training 3/3 epoch (loss 0.0647):  85%|████████▌ | 14459/16950 [2:37:46<21:30,  1.93it/s]Training 3/3 epoch (loss 0.0001):  85%|████████▌ | 14459/16950 [2:37:46<21:30,  1.93it/s]Training 3/3 epoch (loss 0.0001):  85%|████████▌ | 14460/16950 [2:37:46<21:34,  1.92it/s]Training 3/3 epoch (loss 0.0013):  85%|████████▌ | 14460/16950 [2:37:47<21:34,  1.92it/s]Training 3/3 epoch (loss 0.0013):  85%|████████▌ | 14461/16950 [2:37:47<28:22,  1.46it/s]Training 3/3 epoch (loss 0.3104):  85%|████████▌ | 14461/16950 [2:37:48<28:22,  1.46it/s]Training 3/3 epoch (loss 0.3104):  85%|████████▌ | 14462/16950 [2:37:48<27:36,  1.50it/s]Training 3/3 epoch (loss 0.2010):  85%|████████▌ | 14462/16950 [2:37:48<27:36,  1.50it/s]Training 3/3 epoch (loss 0.2010):  85%|████████▌ | 14463/16950 [2:37:48<26:29,  1.56it/s]Training 3/3 epoch (loss 0.0126):  85%|████████▌ | 14463/16950 [2:37:49<26:29,  1.56it/s]Training 3/3 epoch (loss 0.0126):  85%|████████▌ | 14464/16950 [2:37:49<27:09,  1.53it/s]Training 3/3 epoch (loss 0.0066):  85%|████████▌ | 14464/16950 [2:37:50<27:09,  1.53it/s]Training 3/3 epoch (loss 0.0066):  85%|████████▌ | 14465/16950 [2:37:50<24:57,  1.66it/s]Training 3/3 epoch (loss 0.0236):  85%|████████▌ | 14465/16950 [2:37:50<24:57,  1.66it/s]Training 3/3 epoch (loss 0.0236):  85%|████████▌ | 14466/16950 [2:37:50<23:57,  1.73it/s]Training 3/3 epoch (loss 0.4318):  85%|████████▌ | 14466/16950 [2:37:51<23:57,  1.73it/s]Training 3/3 epoch (loss 0.4318):  85%|████████▌ | 14467/16950 [2:37:51<28:54,  1.43it/s]Training 3/3 epoch (loss 0.0019):  85%|████████▌ | 14467/16950 [2:37:52<28:54,  1.43it/s]Training 3/3 epoch (loss 0.0019):  85%|████████▌ | 14468/16950 [2:37:52<27:22,  1.51it/s]Training 3/3 epoch (loss 0.5684):  85%|████████▌ | 14468/16950 [2:37:52<27:22,  1.51it/s]Training 3/3 epoch (loss 0.5684):  85%|████████▌ | 14469/16950 [2:37:52<24:49,  1.67it/s]Training 3/3 epoch (loss 0.2679):  85%|████████▌ | 14469/16950 [2:37:53<24:49,  1.67it/s]Training 3/3 epoch (loss 0.2679):  85%|████████▌ | 14470/16950 [2:37:53<24:31,  1.69it/s]Training 3/3 epoch (loss 0.3328):  85%|████████▌ | 14470/16950 [2:37:53<24:31,  1.69it/s]Training 3/3 epoch (loss 0.3328):  85%|████████▌ | 14471/16950 [2:37:53<22:08,  1.87it/s]Training 3/3 epoch (loss 0.0076):  85%|████████▌ | 14471/16950 [2:37:54<22:08,  1.87it/s]Training 3/3 epoch (loss 0.0076):  85%|████████▌ | 14472/16950 [2:37:54<23:56,  1.73it/s]Training 3/3 epoch (loss 0.0063):  85%|████████▌ | 14472/16950 [2:37:54<23:56,  1.73it/s]Training 3/3 epoch (loss 0.0063):  85%|████████▌ | 14473/16950 [2:37:54<23:47,  1.74it/s]Training 3/3 epoch (loss 0.0044):  85%|████████▌ | 14473/16950 [2:37:55<23:47,  1.74it/s]Training 3/3 epoch (loss 0.0044):  85%|████████▌ | 14474/16950 [2:37:55<22:50,  1.81it/s]Training 3/3 epoch (loss nan):  85%|████████▌ | 14474/16950 [2:37:56<22:50,  1.81it/s]   Training 3/3 epoch (loss nan):  85%|████████▌ | 14475/16950 [2:37:56<29:07,  1.42it/s]Training 3/3 epoch (loss 0.2942):  85%|████████▌ | 14475/16950 [2:37:57<29:07,  1.42it/s]Training 3/3 epoch (loss 0.2942):  85%|████████▌ | 14476/16950 [2:37:57<35:01,  1.18it/s]Training 3/3 epoch (loss 0.0067):  85%|████████▌ | 14476/16950 [2:37:58<35:01,  1.18it/s]Training 3/3 epoch (loss 0.0067):  85%|████████▌ | 14477/16950 [2:37:58<34:01,  1.21it/s]Training 3/3 epoch (loss 0.3912):  85%|████████▌ | 14477/16950 [2:37:58<34:01,  1.21it/s]Training 3/3 epoch (loss 0.3912):  85%|████████▌ | 14478/16950 [2:37:58<31:09,  1.32it/s]Training 3/3 epoch (loss 0.1392):  85%|████████▌ | 14478/16950 [2:37:59<31:09,  1.32it/s]Training 3/3 epoch (loss 0.1392):  85%|████████▌ | 14479/16950 [2:37:59<28:16,  1.46it/s]Training 3/3 epoch (loss 0.1421):  85%|████████▌ | 14479/16950 [2:38:00<28:16,  1.46it/s]Training 3/3 epoch (loss 0.1421):  85%|████████▌ | 14480/16950 [2:38:00<30:27,  1.35it/s]Training 3/3 epoch (loss 0.3784):  85%|████████▌ | 14480/16950 [2:38:01<30:27,  1.35it/s]Training 3/3 epoch (loss 0.3784):  85%|████████▌ | 14481/16950 [2:38:01<33:22,  1.23it/s]Training 3/3 epoch (loss 0.0082):  85%|████████▌ | 14481/16950 [2:38:02<33:22,  1.23it/s]Training 3/3 epoch (loss 0.0082):  85%|████████▌ | 14482/16950 [2:38:02<34:58,  1.18it/s]Training 3/3 epoch (loss 0.0071):  85%|████████▌ | 14482/16950 [2:38:03<34:58,  1.18it/s]Training 3/3 epoch (loss 0.0071):  85%|████████▌ | 14483/16950 [2:38:03<33:40,  1.22it/s]Training 3/3 epoch (loss 0.0002):  85%|████████▌ | 14483/16950 [2:38:03<33:40,  1.22it/s]Training 3/3 epoch (loss 0.0002):  85%|████████▌ | 14484/16950 [2:38:03<29:36,  1.39it/s]Training 3/3 epoch (loss 0.0228):  85%|████████▌ | 14484/16950 [2:38:04<29:36,  1.39it/s]Training 3/3 epoch (loss 0.0228):  85%|████████▌ | 14485/16950 [2:38:04<27:27,  1.50it/s]Training 3/3 epoch (loss 0.1833):  85%|████████▌ | 14485/16950 [2:38:04<27:27,  1.50it/s]Training 3/3 epoch (loss 0.1833):  85%|████████▌ | 14486/16950 [2:38:04<25:33,  1.61it/s]Training 3/3 epoch (loss 0.0178):  85%|████████▌ | 14486/16950 [2:38:05<25:33,  1.61it/s]Training 3/3 epoch (loss 0.0178):  85%|████████▌ | 14487/16950 [2:38:05<26:06,  1.57it/s]Training 3/3 epoch (loss 0.0009):  85%|████████▌ | 14487/16950 [2:38:05<26:06,  1.57it/s]Training 3/3 epoch (loss 0.0009):  85%|████████▌ | 14488/16950 [2:38:05<24:28,  1.68it/s]Training 3/3 epoch (loss 0.5744):  85%|████████▌ | 14488/16950 [2:38:06<24:28,  1.68it/s]Training 3/3 epoch (loss 0.5744):  85%|████████▌ | 14489/16950 [2:38:06<24:32,  1.67it/s]Training 3/3 epoch (loss 0.4433):  85%|████████▌ | 14489/16950 [2:38:07<24:32,  1.67it/s]Training 3/3 epoch (loss 0.4433):  85%|████████▌ | 14490/16950 [2:38:07<25:35,  1.60it/s]Training 3/3 epoch (loss 0.4164):  85%|████████▌ | 14490/16950 [2:38:07<25:35,  1.60it/s]Training 3/3 epoch (loss 0.4164):  85%|████████▌ | 14491/16950 [2:38:07<26:25,  1.55it/s]Training 3/3 epoch (loss 0.0015):  85%|████████▌ | 14491/16950 [2:38:08<26:25,  1.55it/s]Training 3/3 epoch (loss 0.0015):  85%|████████▌ | 14492/16950 [2:38:08<24:42,  1.66it/s]Training 3/3 epoch (loss 0.0320):  85%|████████▌ | 14492/16950 [2:38:09<24:42,  1.66it/s]Training 3/3 epoch (loss 0.0320):  86%|████████▌ | 14493/16950 [2:38:09<29:25,  1.39it/s]Training 3/3 epoch (loss 0.0224):  86%|████████▌ | 14493/16950 [2:38:10<29:25,  1.39it/s]Training 3/3 epoch (loss 0.0224):  86%|████████▌ | 14494/16950 [2:38:10<30:12,  1.35it/s]Training 3/3 epoch (loss 0.0002):  86%|████████▌ | 14494/16950 [2:38:10<30:12,  1.35it/s]Training 3/3 epoch (loss 0.0002):  86%|████████▌ | 14495/16950 [2:38:10<26:59,  1.52it/s]Training 3/3 epoch (loss 0.0096):  86%|████████▌ | 14495/16950 [2:38:11<26:59,  1.52it/s]Training 3/3 epoch (loss 0.0096):  86%|████████▌ | 14496/16950 [2:38:11<26:26,  1.55it/s]Training 3/3 epoch (loss 0.0024):  86%|████████▌ | 14496/16950 [2:38:11<26:26,  1.55it/s]Training 3/3 epoch (loss 0.0024):  86%|████████▌ | 14497/16950 [2:38:11<25:29,  1.60it/s]Training 3/3 epoch (loss 0.1529):  86%|████████▌ | 14497/16950 [2:38:12<25:29,  1.60it/s]Training 3/3 epoch (loss 0.1529):  86%|████████▌ | 14498/16950 [2:38:12<25:43,  1.59it/s]Training 3/3 epoch (loss 0.0000):  86%|████████▌ | 14498/16950 [2:38:12<25:43,  1.59it/s]Training 3/3 epoch (loss 0.0000):  86%|████████▌ | 14499/16950 [2:38:12<25:51,  1.58it/s]Training 3/3 epoch (loss 0.0006):  86%|████████▌ | 14499/16950 [2:38:13<25:51,  1.58it/s]Training 3/3 epoch (loss 0.0006):  86%|████████▌ | 14500/16950 [2:38:13<24:29,  1.67it/s]Training 3/3 epoch (loss 0.0561):  86%|████████▌ | 14500/16950 [2:38:14<24:29,  1.67it/s]Training 3/3 epoch (loss 0.0561):  86%|████████▌ | 14501/16950 [2:38:14<24:57,  1.64it/s]Training 3/3 epoch (loss 0.0091):  86%|████████▌ | 14501/16950 [2:38:14<24:57,  1.64it/s]Training 3/3 epoch (loss 0.0091):  86%|████████▌ | 14502/16950 [2:38:14<23:31,  1.73it/s]Training 3/3 epoch (loss 0.0463):  86%|████████▌ | 14502/16950 [2:38:15<23:31,  1.73it/s]Training 3/3 epoch (loss 0.0463):  86%|████████▌ | 14503/16950 [2:38:15<22:17,  1.83it/s]Training 3/3 epoch (loss 0.2208):  86%|████████▌ | 14503/16950 [2:38:15<22:17,  1.83it/s]Training 3/3 epoch (loss 0.2208):  86%|████████▌ | 14504/16950 [2:38:15<22:08,  1.84it/s]Training 3/3 epoch (loss 0.2976):  86%|████████▌ | 14504/16950 [2:38:16<22:08,  1.84it/s]Training 3/3 epoch (loss 0.2976):  86%|████████▌ | 14505/16950 [2:38:16<23:51,  1.71it/s]Training 3/3 epoch (loss 0.0011):  86%|████████▌ | 14505/16950 [2:38:16<23:51,  1.71it/s]Training 3/3 epoch (loss 0.0011):  86%|████████▌ | 14506/16950 [2:38:16<23:49,  1.71it/s]Training 3/3 epoch (loss 0.0012):  86%|████████▌ | 14506/16950 [2:38:17<23:49,  1.71it/s]Training 3/3 epoch (loss 0.0012):  86%|████████▌ | 14507/16950 [2:38:17<23:23,  1.74it/s]Training 3/3 epoch (loss 0.0247):  86%|████████▌ | 14507/16950 [2:38:18<23:23,  1.74it/s]Training 3/3 epoch (loss 0.0247):  86%|████████▌ | 14508/16950 [2:38:18<24:11,  1.68it/s]Training 3/3 epoch (loss 0.4365):  86%|████████▌ | 14508/16950 [2:38:18<24:11,  1.68it/s]Training 3/3 epoch (loss 0.4365):  86%|████████▌ | 14509/16950 [2:38:18<22:34,  1.80it/s]Training 3/3 epoch (loss 0.1319):  86%|████████▌ | 14509/16950 [2:38:19<22:34,  1.80it/s]Training 3/3 epoch (loss 0.1319):  86%|████████▌ | 14510/16950 [2:38:19<22:15,  1.83it/s]Training 3/3 epoch (loss 0.0200):  86%|████████▌ | 14510/16950 [2:38:20<22:15,  1.83it/s]Training 3/3 epoch (loss 0.0200):  86%|████████▌ | 14511/16950 [2:38:20<26:41,  1.52it/s]Training 3/3 epoch (loss 0.0166):  86%|████████▌ | 14511/16950 [2:38:20<26:41,  1.52it/s]Training 3/3 epoch (loss 0.0166):  86%|████████▌ | 14512/16950 [2:38:20<25:03,  1.62it/s]Training 3/3 epoch (loss 0.1398):  86%|████████▌ | 14512/16950 [2:38:20<25:03,  1.62it/s]Training 3/3 epoch (loss 0.1398):  86%|████████▌ | 14513/16950 [2:38:20<22:39,  1.79it/s]Training 3/3 epoch (loss 0.3288):  86%|████████▌ | 14513/16950 [2:38:21<22:39,  1.79it/s]Training 3/3 epoch (loss 0.3288):  86%|████████▌ | 14514/16950 [2:38:21<23:38,  1.72it/s]Training 3/3 epoch (loss 0.0781):  86%|████████▌ | 14514/16950 [2:38:22<23:38,  1.72it/s]Training 3/3 epoch (loss 0.0781):  86%|████████▌ | 14515/16950 [2:38:22<23:23,  1.73it/s]Training 3/3 epoch (loss 0.3279):  86%|████████▌ | 14515/16950 [2:38:22<23:23,  1.73it/s]Training 3/3 epoch (loss 0.3279):  86%|████████▌ | 14516/16950 [2:38:22<21:23,  1.90it/s]Training 3/3 epoch (loss 0.0386):  86%|████████▌ | 14516/16950 [2:38:23<21:23,  1.90it/s]Training 3/3 epoch (loss 0.0386):  86%|████████▌ | 14517/16950 [2:38:23<28:36,  1.42it/s]Training 3/3 epoch (loss 0.0000):  86%|████████▌ | 14517/16950 [2:38:24<28:36,  1.42it/s]Training 3/3 epoch (loss 0.0000):  86%|████████▌ | 14518/16950 [2:38:24<25:07,  1.61it/s]Training 3/3 epoch (loss 0.8607):  86%|████████▌ | 14518/16950 [2:38:25<25:07,  1.61it/s]Training 3/3 epoch (loss 0.8607):  86%|████████▌ | 14519/16950 [2:38:25<29:12,  1.39it/s]Training 3/3 epoch (loss 0.1526):  86%|████████▌ | 14519/16950 [2:38:25<29:12,  1.39it/s]Training 3/3 epoch (loss 0.1526):  86%|████████▌ | 14520/16950 [2:38:25<26:39,  1.52it/s]Training 3/3 epoch (loss 0.3630):  86%|████████▌ | 14520/16950 [2:38:25<26:39,  1.52it/s]Training 3/3 epoch (loss 0.3630):  86%|████████▌ | 14521/16950 [2:38:25<23:40,  1.71it/s]Training 3/3 epoch (loss 0.6171):  86%|████████▌ | 14521/16950 [2:38:26<23:40,  1.71it/s]Training 3/3 epoch (loss 0.6171):  86%|████████▌ | 14522/16950 [2:38:26<21:02,  1.92it/s]Training 3/3 epoch (loss 0.0740):  86%|████████▌ | 14522/16950 [2:38:26<21:02,  1.92it/s]Training 3/3 epoch (loss 0.0740):  86%|████████▌ | 14523/16950 [2:38:26<20:17,  1.99it/s]Training 3/3 epoch (loss 0.1994):  86%|████████▌ | 14523/16950 [2:38:27<20:17,  1.99it/s]Training 3/3 epoch (loss 0.1994):  86%|████████▌ | 14524/16950 [2:38:27<22:28,  1.80it/s]Training 3/3 epoch (loss 0.0002):  86%|████████▌ | 14524/16950 [2:38:28<22:28,  1.80it/s]Training 3/3 epoch (loss 0.0002):  86%|████████▌ | 14525/16950 [2:38:28<22:43,  1.78it/s]Training 3/3 epoch (loss 0.1122):  86%|████████▌ | 14525/16950 [2:38:28<22:43,  1.78it/s]Training 3/3 epoch (loss 0.1122):  86%|████████▌ | 14526/16950 [2:38:28<21:42,  1.86it/s]Training 3/3 epoch (loss 0.5724):  86%|████████▌ | 14526/16950 [2:38:29<21:42,  1.86it/s]Training 3/3 epoch (loss 0.5724):  86%|████████▌ | 14527/16950 [2:38:29<27:07,  1.49it/s]Training 3/3 epoch (loss 0.0052):  86%|████████▌ | 14527/16950 [2:38:30<27:07,  1.49it/s]Training 3/3 epoch (loss 0.0052):  86%|████████▌ | 14528/16950 [2:38:30<26:38,  1.52it/s]Training 3/3 epoch (loss 0.0222):  86%|████████▌ | 14528/16950 [2:38:30<26:38,  1.52it/s]Training 3/3 epoch (loss 0.0222):  86%|████████▌ | 14529/16950 [2:38:30<24:25,  1.65it/s]Training 3/3 epoch (loss 0.0003):  86%|████████▌ | 14529/16950 [2:38:31<24:25,  1.65it/s]Training 3/3 epoch (loss 0.0003):  86%|████████▌ | 14530/16950 [2:38:31<24:40,  1.63it/s]Training 3/3 epoch (loss 0.0007):  86%|████████▌ | 14530/16950 [2:38:31<24:40,  1.63it/s]Training 3/3 epoch (loss 0.0007):  86%|████████▌ | 14531/16950 [2:38:31<23:32,  1.71it/s]Training 3/3 epoch (loss 0.0134):  86%|████████▌ | 14531/16950 [2:38:32<23:32,  1.71it/s]Training 3/3 epoch (loss 0.0134):  86%|████████▌ | 14532/16950 [2:38:32<23:07,  1.74it/s]Training 3/3 epoch (loss 0.0006):  86%|████████▌ | 14532/16950 [2:38:32<23:07,  1.74it/s]Training 3/3 epoch (loss 0.0006):  86%|████████▌ | 14533/16950 [2:38:32<23:34,  1.71it/s]Training 3/3 epoch (loss 0.0035):  86%|████████▌ | 14533/16950 [2:38:33<23:34,  1.71it/s]Training 3/3 epoch (loss 0.0035):  86%|████████▌ | 14534/16950 [2:38:33<28:13,  1.43it/s]Training 3/3 epoch (loss 0.0027):  86%|████████▌ | 14534/16950 [2:38:34<28:13,  1.43it/s]Training 3/3 epoch (loss 0.0027):  86%|████████▌ | 14535/16950 [2:38:34<27:35,  1.46it/s]Training 3/3 epoch (loss 0.0072):  86%|████████▌ | 14535/16950 [2:38:34<27:35,  1.46it/s]Training 3/3 epoch (loss 0.0072):  86%|████████▌ | 14536/16950 [2:38:34<24:15,  1.66it/s]Training 3/3 epoch (loss 0.4104):  86%|████████▌ | 14536/16950 [2:38:35<24:15,  1.66it/s]Training 3/3 epoch (loss 0.4104):  86%|████████▌ | 14537/16950 [2:38:35<23:51,  1.69it/s]Training 3/3 epoch (loss 0.0491):  86%|████████▌ | 14537/16950 [2:38:36<23:51,  1.69it/s]Training 3/3 epoch (loss 0.0491):  86%|████████▌ | 14538/16950 [2:38:36<24:44,  1.62it/s]Training 3/3 epoch (loss 0.0096):  86%|████████▌ | 14538/16950 [2:38:36<24:44,  1.62it/s]Training 3/3 epoch (loss 0.0096):  86%|████████▌ | 14539/16950 [2:38:36<23:43,  1.69it/s]Training 3/3 epoch (loss 0.1613):  86%|████████▌ | 14539/16950 [2:38:37<23:43,  1.69it/s]Training 3/3 epoch (loss 0.1613):  86%|████████▌ | 14540/16950 [2:38:37<26:23,  1.52it/s]Training 3/3 epoch (loss 0.0075):  86%|████████▌ | 14540/16950 [2:38:38<26:23,  1.52it/s]Training 3/3 epoch (loss 0.0075):  86%|████████▌ | 14541/16950 [2:38:38<28:15,  1.42it/s]Training 3/3 epoch (loss 0.0350):  86%|████████▌ | 14541/16950 [2:38:39<28:15,  1.42it/s]Training 3/3 epoch (loss 0.0350):  86%|████████▌ | 14542/16950 [2:38:39<28:32,  1.41it/s]Training 3/3 epoch (loss 0.0462):  86%|████████▌ | 14542/16950 [2:38:39<28:32,  1.41it/s]Training 3/3 epoch (loss 0.0462):  86%|████████▌ | 14543/16950 [2:38:39<27:28,  1.46it/s]Training 3/3 epoch (loss 0.5071):  86%|████████▌ | 14543/16950 [2:38:40<27:28,  1.46it/s]Training 3/3 epoch (loss 0.5071):  86%|████████▌ | 14544/16950 [2:38:40<24:41,  1.62it/s]Training 3/3 epoch (loss 0.2985):  86%|████████▌ | 14544/16950 [2:38:40<24:41,  1.62it/s]Training 3/3 epoch (loss 0.2985):  86%|████████▌ | 14545/16950 [2:38:40<23:30,  1.71it/s]Training 3/3 epoch (loss 0.0434):  86%|████████▌ | 14545/16950 [2:38:41<23:30,  1.71it/s]Training 3/3 epoch (loss 0.0434):  86%|████████▌ | 14546/16950 [2:38:41<24:17,  1.65it/s]Training 3/3 epoch (loss 0.3920):  86%|████████▌ | 14546/16950 [2:38:41<24:17,  1.65it/s]Training 3/3 epoch (loss 0.3920):  86%|████████▌ | 14547/16950 [2:38:41<21:12,  1.89it/s]Training 3/3 epoch (loss 0.2585):  86%|████████▌ | 14547/16950 [2:38:42<21:12,  1.89it/s]Training 3/3 epoch (loss 0.2585):  86%|████████▌ | 14548/16950 [2:38:42<21:07,  1.90it/s]Training 3/3 epoch (loss 0.2491):  86%|████████▌ | 14548/16950 [2:38:42<21:07,  1.90it/s]Training 3/3 epoch (loss 0.2491):  86%|████████▌ | 14549/16950 [2:38:42<22:11,  1.80it/s]Training 3/3 epoch (loss 0.4989):  86%|████████▌ | 14549/16950 [2:38:43<22:11,  1.80it/s]Training 3/3 epoch (loss 0.4989):  86%|████████▌ | 14550/16950 [2:38:43<26:18,  1.52it/s]Training 3/3 epoch (loss 0.1885):  86%|████████▌ | 14550/16950 [2:38:44<26:18,  1.52it/s]Training 3/3 epoch (loss 0.1885):  86%|████████▌ | 14551/16950 [2:38:44<23:27,  1.70it/s]Training 3/3 epoch (loss 0.2701):  86%|████████▌ | 14551/16950 [2:38:44<23:27,  1.70it/s]Training 3/3 epoch (loss 0.2701):  86%|████████▌ | 14552/16950 [2:38:44<25:52,  1.55it/s]Training 3/3 epoch (loss 0.0137):  86%|████████▌ | 14552/16950 [2:38:45<25:52,  1.55it/s]Training 3/3 epoch (loss 0.0137):  86%|████████▌ | 14553/16950 [2:38:45<25:39,  1.56it/s]Training 3/3 epoch (loss 0.2328):  86%|████████▌ | 14553/16950 [2:38:45<25:39,  1.56it/s]Training 3/3 epoch (loss 0.2328):  86%|████████▌ | 14554/16950 [2:38:45<21:43,  1.84it/s]Training 3/3 epoch (loss 0.1081):  86%|████████▌ | 14554/16950 [2:38:46<21:43,  1.84it/s]Training 3/3 epoch (loss 0.1081):  86%|████████▌ | 14555/16950 [2:38:46<21:15,  1.88it/s]Training 3/3 epoch (loss 0.0002):  86%|████████▌ | 14555/16950 [2:38:46<21:15,  1.88it/s]Training 3/3 epoch (loss 0.0002):  86%|████████▌ | 14556/16950 [2:38:46<20:11,  1.98it/s]Training 3/3 epoch (loss 0.0298):  86%|████████▌ | 14556/16950 [2:38:47<20:11,  1.98it/s]Training 3/3 epoch (loss 0.0298):  86%|████████▌ | 14557/16950 [2:38:47<21:30,  1.85it/s]Training 3/3 epoch (loss 0.0024):  86%|████████▌ | 14557/16950 [2:38:48<21:30,  1.85it/s]Training 3/3 epoch (loss 0.0024):  86%|████████▌ | 14558/16950 [2:38:48<22:39,  1.76it/s]Training 3/3 epoch (loss 0.0133):  86%|████████▌ | 14558/16950 [2:38:48<22:39,  1.76it/s]Training 3/3 epoch (loss 0.0133):  86%|████████▌ | 14559/16950 [2:38:48<23:15,  1.71it/s]Training 3/3 epoch (loss 0.1604):  86%|████████▌ | 14559/16950 [2:38:49<23:15,  1.71it/s]Training 3/3 epoch (loss 0.1604):  86%|████████▌ | 14560/16950 [2:38:49<24:14,  1.64it/s]Training 3/3 epoch (loss 0.0171):  86%|████████▌ | 14560/16950 [2:38:50<24:14,  1.64it/s]Training 3/3 epoch (loss 0.0171):  86%|████████▌ | 14561/16950 [2:38:50<24:15,  1.64it/s]Training 3/3 epoch (loss 0.0938):  86%|████████▌ | 14561/16950 [2:38:50<24:15,  1.64it/s]Training 3/3 epoch (loss 0.0938):  86%|████████▌ | 14562/16950 [2:38:50<26:14,  1.52it/s]Training 3/3 epoch (loss 0.1620):  86%|████████▌ | 14562/16950 [2:38:51<26:14,  1.52it/s]Training 3/3 epoch (loss 0.1620):  86%|████████▌ | 14563/16950 [2:38:51<26:46,  1.49it/s]Training 3/3 epoch (loss 0.3937):  86%|████████▌ | 14563/16950 [2:38:51<26:46,  1.49it/s]Training 3/3 epoch (loss 0.3937):  86%|████████▌ | 14564/16950 [2:38:51<23:47,  1.67it/s]Training 3/3 epoch (loss 0.3757):  86%|████████▌ | 14564/16950 [2:38:52<23:47,  1.67it/s]Training 3/3 epoch (loss 0.3757):  86%|████████▌ | 14565/16950 [2:38:52<21:06,  1.88it/s]Training 3/3 epoch (loss 0.6222):  86%|████████▌ | 14565/16950 [2:38:53<21:06,  1.88it/s]Training 3/3 epoch (loss 0.6222):  86%|████████▌ | 14566/16950 [2:38:53<23:30,  1.69it/s]Training 3/3 epoch (loss 0.3104):  86%|████████▌ | 14566/16950 [2:38:53<23:30,  1.69it/s]Training 3/3 epoch (loss 0.3104):  86%|████████▌ | 14567/16950 [2:38:53<24:01,  1.65it/s]Training 3/3 epoch (loss 0.3986):  86%|████████▌ | 14567/16950 [2:38:54<24:01,  1.65it/s]Training 3/3 epoch (loss 0.3986):  86%|████████▌ | 14568/16950 [2:38:54<24:18,  1.63it/s]Training 3/3 epoch (loss 0.0021):  86%|████████▌ | 14568/16950 [2:38:54<24:18,  1.63it/s]Training 3/3 epoch (loss 0.0021):  86%|████████▌ | 14569/16950 [2:38:54<22:54,  1.73it/s]Training 3/3 epoch (loss 0.1282):  86%|████████▌ | 14569/16950 [2:38:55<22:54,  1.73it/s]Training 3/3 epoch (loss 0.1282):  86%|████████▌ | 14570/16950 [2:38:55<23:11,  1.71it/s]Training 3/3 epoch (loss 0.0040):  86%|████████▌ | 14570/16950 [2:38:55<23:11,  1.71it/s]Training 3/3 epoch (loss 0.0040):  86%|████████▌ | 14571/16950 [2:38:55<22:25,  1.77it/s]Training 3/3 epoch (loss 0.3095):  86%|████████▌ | 14571/16950 [2:38:56<22:25,  1.77it/s]Training 3/3 epoch (loss 0.3095):  86%|████████▌ | 14572/16950 [2:38:56<22:59,  1.72it/s]Training 3/3 epoch (loss 0.0089):  86%|████████▌ | 14572/16950 [2:38:57<22:59,  1.72it/s]Training 3/3 epoch (loss 0.0089):  86%|████████▌ | 14573/16950 [2:38:57<21:54,  1.81it/s]Training 3/3 epoch (loss 0.0002):  86%|████████▌ | 14573/16950 [2:38:57<21:54,  1.81it/s]Training 3/3 epoch (loss 0.0002):  86%|████████▌ | 14574/16950 [2:38:57<22:37,  1.75it/s]Training 3/3 epoch (loss 0.0050):  86%|████████▌ | 14574/16950 [2:38:58<22:37,  1.75it/s]Training 3/3 epoch (loss 0.0050):  86%|████████▌ | 14575/16950 [2:38:58<23:11,  1.71it/s]Training 3/3 epoch (loss 0.4238):  86%|████████▌ | 14575/16950 [2:38:58<23:11,  1.71it/s]Training 3/3 epoch (loss 0.4238):  86%|████████▌ | 14576/16950 [2:38:58<21:44,  1.82it/s]Training 3/3 epoch (loss 0.0459):  86%|████████▌ | 14576/16950 [2:38:59<21:44,  1.82it/s]Training 3/3 epoch (loss 0.0459):  86%|████████▌ | 14577/16950 [2:38:59<22:22,  1.77it/s]Training 3/3 epoch (loss 0.3860):  86%|████████▌ | 14577/16950 [2:38:59<22:22,  1.77it/s]Training 3/3 epoch (loss 0.3860):  86%|████████▌ | 14578/16950 [2:38:59<21:10,  1.87it/s]Training 3/3 epoch (loss 0.0946):  86%|████████▌ | 14578/16950 [2:39:00<21:10,  1.87it/s]Training 3/3 epoch (loss 0.0946):  86%|████████▌ | 14579/16950 [2:39:00<20:55,  1.89it/s]Training 3/3 epoch (loss 0.0016):  86%|████████▌ | 14579/16950 [2:39:00<20:55,  1.89it/s]Training 3/3 epoch (loss 0.0016):  86%|████████▌ | 14580/16950 [2:39:00<22:09,  1.78it/s]Training 3/3 epoch (loss 0.0027):  86%|████████▌ | 14580/16950 [2:39:01<22:09,  1.78it/s]Training 3/3 epoch (loss 0.0027):  86%|████████▌ | 14581/16950 [2:39:01<21:24,  1.84it/s]Training 3/3 epoch (loss 0.0017):  86%|████████▌ | 14581/16950 [2:39:01<21:24,  1.84it/s]Training 3/3 epoch (loss 0.0017):  86%|████████▌ | 14582/16950 [2:39:01<21:43,  1.82it/s]Training 3/3 epoch (loss 0.2542):  86%|████████▌ | 14582/16950 [2:39:02<21:43,  1.82it/s]Training 3/3 epoch (loss 0.2542):  86%|████████▌ | 14583/16950 [2:39:02<22:33,  1.75it/s]Training 3/3 epoch (loss 0.3948):  86%|████████▌ | 14583/16950 [2:39:03<22:33,  1.75it/s]Training 3/3 epoch (loss 0.3948):  86%|████████▌ | 14584/16950 [2:39:03<22:07,  1.78it/s]Training 3/3 epoch (loss 0.0001):  86%|████████▌ | 14584/16950 [2:39:03<22:07,  1.78it/s]Training 3/3 epoch (loss 0.0001):  86%|████████▌ | 14585/16950 [2:39:03<22:01,  1.79it/s]Training 3/3 epoch (loss 0.0023):  86%|████████▌ | 14585/16950 [2:39:04<22:01,  1.79it/s]Training 3/3 epoch (loss 0.0023):  86%|████████▌ | 14586/16950 [2:39:04<20:59,  1.88it/s]Training 3/3 epoch (loss 0.0000):  86%|████████▌ | 14586/16950 [2:39:04<20:59,  1.88it/s]Training 3/3 epoch (loss 0.0000):  86%|████████▌ | 14587/16950 [2:39:04<18:24,  2.14it/s]Training 3/3 epoch (loss 0.3957):  86%|████████▌ | 14587/16950 [2:39:05<18:24,  2.14it/s]Training 3/3 epoch (loss 0.3957):  86%|████████▌ | 14588/16950 [2:39:05<19:55,  1.98it/s]Training 3/3 epoch (loss 0.0242):  86%|████████▌ | 14588/16950 [2:39:05<19:55,  1.98it/s]Training 3/3 epoch (loss 0.0242):  86%|████████▌ | 14589/16950 [2:39:05<23:46,  1.65it/s]Training 3/3 epoch (loss 0.1139):  86%|████████▌ | 14589/16950 [2:39:06<23:46,  1.65it/s]Training 3/3 epoch (loss 0.1139):  86%|████████▌ | 14590/16950 [2:39:06<21:51,  1.80it/s]Training 3/3 epoch (loss 0.4158):  86%|████████▌ | 14590/16950 [2:39:07<21:51,  1.80it/s]Training 3/3 epoch (loss 0.4158):  86%|████████▌ | 14591/16950 [2:39:07<23:11,  1.70it/s]Training 3/3 epoch (loss nan):  86%|████████▌ | 14591/16950 [2:39:08<23:11,  1.70it/s]   Training 3/3 epoch (loss nan):  86%|████████▌ | 14592/16950 [2:39:08<30:05,  1.31it/s]Training 3/3 epoch (loss 0.3405):  86%|████████▌ | 14592/16950 [2:39:08<30:05,  1.31it/s]Training 3/3 epoch (loss 0.3405):  86%|████████▌ | 14593/16950 [2:39:08<29:52,  1.31it/s]Training 3/3 epoch (loss 0.4300):  86%|████████▌ | 14593/16950 [2:39:09<29:52,  1.31it/s]Training 3/3 epoch (loss 0.4300):  86%|████████▌ | 14594/16950 [2:39:09<28:48,  1.36it/s]Training 3/3 epoch (loss 0.0066):  86%|████████▌ | 14594/16950 [2:39:10<28:48,  1.36it/s]Training 3/3 epoch (loss 0.0066):  86%|████████▌ | 14595/16950 [2:39:10<26:34,  1.48it/s]Training 3/3 epoch (loss 0.0004):  86%|████████▌ | 14595/16950 [2:39:10<26:34,  1.48it/s]Training 3/3 epoch (loss 0.0004):  86%|████████▌ | 14596/16950 [2:39:10<23:06,  1.70it/s]Training 3/3 epoch (loss 0.1024):  86%|████████▌ | 14596/16950 [2:39:11<23:06,  1.70it/s]Training 3/3 epoch (loss 0.1024):  86%|████████▌ | 14597/16950 [2:39:11<21:57,  1.79it/s]Training 3/3 epoch (loss 0.1971):  86%|████████▌ | 14597/16950 [2:39:11<21:57,  1.79it/s]Training 3/3 epoch (loss 0.1971):  86%|████████▌ | 14598/16950 [2:39:11<22:04,  1.78it/s]Training 3/3 epoch (loss 0.0275):  86%|████████▌ | 14598/16950 [2:39:12<22:04,  1.78it/s]Training 3/3 epoch (loss 0.0275):  86%|████████▌ | 14599/16950 [2:39:12<22:56,  1.71it/s]Training 3/3 epoch (loss 0.0002):  86%|████████▌ | 14599/16950 [2:39:12<22:56,  1.71it/s]Training 3/3 epoch (loss 0.0002):  86%|████████▌ | 14600/16950 [2:39:12<21:13,  1.85it/s]Training 3/3 epoch (loss 0.0041):  86%|████████▌ | 14600/16950 [2:39:13<21:13,  1.85it/s]Training 3/3 epoch (loss 0.0041):  86%|████████▌ | 14601/16950 [2:39:13<24:15,  1.61it/s]Training 3/3 epoch (loss 0.0066):  86%|████████▌ | 14601/16950 [2:39:14<24:15,  1.61it/s]Training 3/3 epoch (loss 0.0066):  86%|████████▌ | 14602/16950 [2:39:14<23:37,  1.66it/s]Training 3/3 epoch (loss 0.2998):  86%|████████▌ | 14602/16950 [2:39:14<23:37,  1.66it/s]Training 3/3 epoch (loss 0.2998):  86%|████████▌ | 14603/16950 [2:39:14<24:33,  1.59it/s]Training 3/3 epoch (loss 0.0192):  86%|████████▌ | 14603/16950 [2:39:15<24:33,  1.59it/s]Training 3/3 epoch (loss 0.0192):  86%|████████▌ | 14604/16950 [2:39:15<22:57,  1.70it/s]Training 3/3 epoch (loss 0.2352):  86%|████████▌ | 14604/16950 [2:39:15<22:57,  1.70it/s]Training 3/3 epoch (loss 0.2352):  86%|████████▌ | 14605/16950 [2:39:15<20:49,  1.88it/s]Training 3/3 epoch (loss 0.0000):  86%|████████▌ | 14605/16950 [2:39:16<20:49,  1.88it/s]Training 3/3 epoch (loss 0.0000):  86%|████████▌ | 14606/16950 [2:39:16<21:45,  1.80it/s]Training 3/3 epoch (loss 0.0022):  86%|████████▌ | 14606/16950 [2:39:16<21:45,  1.80it/s]Training 3/3 epoch (loss 0.0022):  86%|████████▌ | 14607/16950 [2:39:16<21:44,  1.80it/s]Training 3/3 epoch (loss 0.0771):  86%|████████▌ | 14607/16950 [2:39:17<21:44,  1.80it/s]Training 3/3 epoch (loss 0.0771):  86%|████████▌ | 14608/16950 [2:39:17<22:46,  1.71it/s]Training 3/3 epoch (loss 0.0223):  86%|████████▌ | 14608/16950 [2:39:18<22:46,  1.71it/s]Training 3/3 epoch (loss 0.0223):  86%|████████▌ | 14609/16950 [2:39:18<24:32,  1.59it/s]Training 3/3 epoch (loss 0.1271):  86%|████████▌ | 14609/16950 [2:39:19<24:32,  1.59it/s]Training 3/3 epoch (loss 0.1271):  86%|████████▌ | 14610/16950 [2:39:19<31:10,  1.25it/s]Training 3/3 epoch (loss 0.1744):  86%|████████▌ | 14610/16950 [2:39:19<31:10,  1.25it/s]Training 3/3 epoch (loss 0.1744):  86%|████████▌ | 14611/16950 [2:39:19<28:38,  1.36it/s]Training 3/3 epoch (loss 0.0033):  86%|████████▌ | 14611/16950 [2:39:20<28:38,  1.36it/s]Training 3/3 epoch (loss 0.0033):  86%|████████▌ | 14612/16950 [2:39:20<26:25,  1.47it/s]Training 3/3 epoch (loss 0.0006):  86%|████████▌ | 14612/16950 [2:39:20<26:25,  1.47it/s]Training 3/3 epoch (loss 0.0006):  86%|████████▌ | 14613/16950 [2:39:20<23:31,  1.66it/s]Training 3/3 epoch (loss 0.3210):  86%|████████▌ | 14613/16950 [2:39:22<23:31,  1.66it/s]Training 3/3 epoch (loss 0.3210):  86%|████████▌ | 14614/16950 [2:39:22<29:11,  1.33it/s]Training 3/3 epoch (loss 0.0199):  86%|████████▌ | 14614/16950 [2:39:22<29:11,  1.33it/s]Training 3/3 epoch (loss 0.0199):  86%|████████▌ | 14615/16950 [2:39:22<26:52,  1.45it/s]Training 3/3 epoch (loss 0.0019):  86%|████████▌ | 14615/16950 [2:39:23<26:52,  1.45it/s]Training 3/3 epoch (loss 0.0019):  86%|████████▌ | 14616/16950 [2:39:23<24:12,  1.61it/s]Training 3/3 epoch (loss 0.0075):  86%|████████▌ | 14616/16950 [2:39:23<24:12,  1.61it/s]Training 3/3 epoch (loss 0.0075):  86%|████████▌ | 14617/16950 [2:39:23<23:46,  1.64it/s]Training 3/3 epoch (loss 0.0370):  86%|████████▌ | 14617/16950 [2:39:24<23:46,  1.64it/s]Training 3/3 epoch (loss 0.0370):  86%|████████▌ | 14618/16950 [2:39:24<22:39,  1.72it/s]Training 3/3 epoch (loss 0.3185):  86%|████████▌ | 14618/16950 [2:39:24<22:39,  1.72it/s]Training 3/3 epoch (loss 0.3185):  86%|████████▌ | 14619/16950 [2:39:24<20:33,  1.89it/s]Training 3/3 epoch (loss 0.4307):  86%|████████▌ | 14619/16950 [2:39:25<20:33,  1.89it/s]Training 3/3 epoch (loss 0.4307):  86%|████████▋ | 14620/16950 [2:39:25<22:13,  1.75it/s]Training 3/3 epoch (loss 0.0004):  86%|████████▋ | 14620/16950 [2:39:25<22:13,  1.75it/s]Training 3/3 epoch (loss 0.0004):  86%|████████▋ | 14621/16950 [2:39:25<21:05,  1.84it/s]Training 3/3 epoch (loss 0.0049):  86%|████████▋ | 14621/16950 [2:39:26<21:05,  1.84it/s]Training 3/3 epoch (loss 0.0049):  86%|████████▋ | 14622/16950 [2:39:26<19:32,  1.99it/s]Training 3/3 epoch (loss 0.1611):  86%|████████▋ | 14622/16950 [2:39:26<19:32,  1.99it/s]Training 3/3 epoch (loss 0.1611):  86%|████████▋ | 14623/16950 [2:39:26<21:10,  1.83it/s]Training 3/3 epoch (loss 0.1720):  86%|████████▋ | 14623/16950 [2:39:27<21:10,  1.83it/s]Training 3/3 epoch (loss 0.1720):  86%|████████▋ | 14624/16950 [2:39:27<21:03,  1.84it/s]Training 3/3 epoch (loss 0.2718):  86%|████████▋ | 14624/16950 [2:39:27<21:03,  1.84it/s]Training 3/3 epoch (loss 0.2718):  86%|████████▋ | 14625/16950 [2:39:27<22:12,  1.74it/s]Training 3/3 epoch (loss 0.0335):  86%|████████▋ | 14625/16950 [2:39:28<22:12,  1.74it/s]Training 3/3 epoch (loss 0.0335):  86%|████████▋ | 14626/16950 [2:39:28<22:19,  1.73it/s]Training 3/3 epoch (loss 0.0083):  86%|████████▋ | 14626/16950 [2:39:29<22:19,  1.73it/s]Training 3/3 epoch (loss 0.0083):  86%|████████▋ | 14627/16950 [2:39:29<21:45,  1.78it/s]Training 3/3 epoch (loss 0.4728):  86%|████████▋ | 14627/16950 [2:39:29<21:45,  1.78it/s]Training 3/3 epoch (loss 0.4728):  86%|████████▋ | 14628/16950 [2:39:29<20:36,  1.88it/s]Training 3/3 epoch (loss 0.0408):  86%|████████▋ | 14628/16950 [2:39:30<20:36,  1.88it/s]Training 3/3 epoch (loss 0.0408):  86%|████████▋ | 14629/16950 [2:39:30<24:08,  1.60it/s]Training 3/3 epoch (loss 0.0037):  86%|████████▋ | 14629/16950 [2:39:30<24:08,  1.60it/s]Training 3/3 epoch (loss 0.0037):  86%|████████▋ | 14630/16950 [2:39:30<23:15,  1.66it/s]Training 3/3 epoch (loss 0.2083):  86%|████████▋ | 14630/16950 [2:39:31<23:15,  1.66it/s]Training 3/3 epoch (loss 0.2083):  86%|████████▋ | 14631/16950 [2:39:31<23:04,  1.68it/s]Training 3/3 epoch (loss 0.1348):  86%|████████▋ | 14631/16950 [2:39:32<23:04,  1.68it/s]Training 3/3 epoch (loss 0.1348):  86%|████████▋ | 14632/16950 [2:39:32<22:15,  1.74it/s]Training 3/3 epoch (loss 0.5603):  86%|████████▋ | 14632/16950 [2:39:33<22:15,  1.74it/s]Training 3/3 epoch (loss 0.5603):  86%|████████▋ | 14633/16950 [2:39:33<28:10,  1.37it/s]Training 3/3 epoch (loss 0.0108):  86%|████████▋ | 14633/16950 [2:39:33<28:10,  1.37it/s]Training 3/3 epoch (loss 0.0108):  86%|████████▋ | 14634/16950 [2:39:33<25:45,  1.50it/s]Training 3/3 epoch (loss 0.3541):  86%|████████▋ | 14634/16950 [2:39:34<25:45,  1.50it/s]Training 3/3 epoch (loss 0.3541):  86%|████████▋ | 14635/16950 [2:39:34<23:10,  1.66it/s]Training 3/3 epoch (loss 0.0197):  86%|████████▋ | 14635/16950 [2:39:34<23:10,  1.66it/s]Training 3/3 epoch (loss 0.0197):  86%|████████▋ | 14636/16950 [2:39:34<20:12,  1.91it/s]Training 3/3 epoch (loss 0.1425):  86%|████████▋ | 14636/16950 [2:39:34<20:12,  1.91it/s]Training 3/3 epoch (loss 0.1425):  86%|████████▋ | 14637/16950 [2:39:34<20:01,  1.93it/s]Training 3/3 epoch (loss 0.0320):  86%|████████▋ | 14637/16950 [2:39:35<20:01,  1.93it/s]Training 3/3 epoch (loss 0.0320):  86%|████████▋ | 14638/16950 [2:39:35<19:20,  1.99it/s]Training 3/3 epoch (loss 0.0466):  86%|████████▋ | 14638/16950 [2:39:36<19:20,  1.99it/s]Training 3/3 epoch (loss 0.0466):  86%|████████▋ | 14639/16950 [2:39:36<21:05,  1.83it/s]Training 3/3 epoch (loss 0.0545):  86%|████████▋ | 14639/16950 [2:39:36<21:05,  1.83it/s]Training 3/3 epoch (loss 0.0545):  86%|████████▋ | 14640/16950 [2:39:36<24:34,  1.57it/s]Training 3/3 epoch (loss 0.0350):  86%|████████▋ | 14640/16950 [2:39:37<24:34,  1.57it/s]Training 3/3 epoch (loss 0.0350):  86%|████████▋ | 14641/16950 [2:39:37<27:44,  1.39it/s]Training 3/3 epoch (loss 0.0010):  86%|████████▋ | 14641/16950 [2:39:38<27:44,  1.39it/s]Training 3/3 epoch (loss 0.0010):  86%|████████▋ | 14642/16950 [2:39:38<28:05,  1.37it/s]Training 3/3 epoch (loss 0.1749):  86%|████████▋ | 14642/16950 [2:39:39<28:05,  1.37it/s]Training 3/3 epoch (loss 0.1749):  86%|████████▋ | 14643/16950 [2:39:39<25:22,  1.52it/s]Training 3/3 epoch (loss 0.0050):  86%|████████▋ | 14643/16950 [2:39:39<25:22,  1.52it/s]Training 3/3 epoch (loss 0.0050):  86%|████████▋ | 14644/16950 [2:39:39<25:24,  1.51it/s]Training 3/3 epoch (loss 0.1544):  86%|████████▋ | 14644/16950 [2:39:40<25:24,  1.51it/s]Training 3/3 epoch (loss 0.1544):  86%|████████▋ | 14645/16950 [2:39:40<30:54,  1.24it/s]Training 3/3 epoch (loss 0.0007):  86%|████████▋ | 14645/16950 [2:39:41<30:54,  1.24it/s]Training 3/3 epoch (loss 0.0007):  86%|████████▋ | 14646/16950 [2:39:41<30:55,  1.24it/s]Training 3/3 epoch (loss 0.0359):  86%|████████▋ | 14646/16950 [2:39:42<30:55,  1.24it/s]Training 3/3 epoch (loss 0.0359):  86%|████████▋ | 14647/16950 [2:39:42<27:00,  1.42it/s]Training 3/3 epoch (loss 0.4704):  86%|████████▋ | 14647/16950 [2:39:42<27:00,  1.42it/s]Training 3/3 epoch (loss 0.4704):  86%|████████▋ | 14648/16950 [2:39:42<25:58,  1.48it/s]Training 3/3 epoch (loss 0.2859):  86%|████████▋ | 14648/16950 [2:39:43<25:58,  1.48it/s]Training 3/3 epoch (loss 0.2859):  86%|████████▋ | 14649/16950 [2:39:43<24:44,  1.55it/s]Training 3/3 epoch (loss 0.0576):  86%|████████▋ | 14649/16950 [2:39:43<24:44,  1.55it/s]Training 3/3 epoch (loss 0.0576):  86%|████████▋ | 14650/16950 [2:39:43<22:17,  1.72it/s]Training 3/3 epoch (loss 0.0013):  86%|████████▋ | 14650/16950 [2:39:44<22:17,  1.72it/s]Training 3/3 epoch (loss 0.0013):  86%|████████▋ | 14651/16950 [2:39:44<22:25,  1.71it/s]Training 3/3 epoch (loss 0.1282):  86%|████████▋ | 14651/16950 [2:39:44<22:25,  1.71it/s]Training 3/3 epoch (loss 0.1282):  86%|████████▋ | 14652/16950 [2:39:44<21:44,  1.76it/s]Training 3/3 epoch (loss 0.0008):  86%|████████▋ | 14652/16950 [2:39:45<21:44,  1.76it/s]Training 3/3 epoch (loss 0.0008):  86%|████████▋ | 14653/16950 [2:39:45<19:33,  1.96it/s]Training 3/3 epoch (loss 0.1978):  86%|████████▋ | 14653/16950 [2:39:45<19:33,  1.96it/s]Training 3/3 epoch (loss 0.1978):  86%|████████▋ | 14654/16950 [2:39:45<19:03,  2.01it/s]Training 3/3 epoch (loss 0.0058):  86%|████████▋ | 14654/16950 [2:39:46<19:03,  2.01it/s]Training 3/3 epoch (loss 0.0058):  86%|████████▋ | 14655/16950 [2:39:46<20:22,  1.88it/s]Training 3/3 epoch (loss 0.0228):  86%|████████▋ | 14655/16950 [2:39:46<20:22,  1.88it/s]Training 3/3 epoch (loss 0.0228):  86%|████████▋ | 14656/16950 [2:39:46<21:46,  1.76it/s]Training 3/3 epoch (loss 0.2990):  86%|████████▋ | 14656/16950 [2:39:47<21:46,  1.76it/s]Training 3/3 epoch (loss 0.2990):  86%|████████▋ | 14657/16950 [2:39:47<21:17,  1.79it/s]Training 3/3 epoch (loss 0.0046):  86%|████████▋ | 14657/16950 [2:39:48<21:17,  1.79it/s]Training 3/3 epoch (loss 0.0046):  86%|████████▋ | 14658/16950 [2:39:48<21:44,  1.76it/s]Training 3/3 epoch (loss 0.3348):  86%|████████▋ | 14658/16950 [2:39:48<21:44,  1.76it/s]Training 3/3 epoch (loss 0.3348):  86%|████████▋ | 14659/16950 [2:39:48<21:34,  1.77it/s]Training 3/3 epoch (loss 0.0064):  86%|████████▋ | 14659/16950 [2:39:49<21:34,  1.77it/s]Training 3/3 epoch (loss 0.0064):  86%|████████▋ | 14660/16950 [2:39:49<22:20,  1.71it/s]Training 3/3 epoch (loss 0.0011):  86%|████████▋ | 14660/16950 [2:39:50<22:20,  1.71it/s]Training 3/3 epoch (loss 0.0011):  86%|████████▋ | 14661/16950 [2:39:50<23:52,  1.60it/s]Training 3/3 epoch (loss 0.0089):  86%|████████▋ | 14661/16950 [2:39:50<23:52,  1.60it/s]Training 3/3 epoch (loss 0.0089):  87%|████████▋ | 14662/16950 [2:39:50<27:20,  1.39it/s]Training 3/3 epoch (loss 0.3422):  87%|████████▋ | 14662/16950 [2:39:52<27:20,  1.39it/s]Training 3/3 epoch (loss 0.3422):  87%|████████▋ | 14663/16950 [2:39:52<31:23,  1.21it/s]Training 3/3 epoch (loss 0.0012):  87%|████████▋ | 14663/16950 [2:39:52<31:23,  1.21it/s]Training 3/3 epoch (loss 0.0012):  87%|████████▋ | 14664/16950 [2:39:52<30:02,  1.27it/s]Training 3/3 epoch (loss 0.0003):  87%|████████▋ | 14664/16950 [2:39:53<30:02,  1.27it/s]Training 3/3 epoch (loss 0.0003):  87%|████████▋ | 14665/16950 [2:39:53<26:58,  1.41it/s]Training 3/3 epoch (loss 0.0005):  87%|████████▋ | 14665/16950 [2:39:53<26:58,  1.41it/s]Training 3/3 epoch (loss 0.0005):  87%|████████▋ | 14666/16950 [2:39:53<26:03,  1.46it/s]Training 3/3 epoch (loss 0.0061):  87%|████████▋ | 14666/16950 [2:39:54<26:03,  1.46it/s]Training 3/3 epoch (loss 0.0061):  87%|████████▋ | 14667/16950 [2:39:54<28:22,  1.34it/s]Training 3/3 epoch (loss 0.0678):  87%|████████▋ | 14667/16950 [2:39:55<28:22,  1.34it/s]Training 3/3 epoch (loss 0.0678):  87%|████████▋ | 14668/16950 [2:39:55<28:13,  1.35it/s]Training 3/3 epoch (loss 0.0117):  87%|████████▋ | 14668/16950 [2:39:55<28:13,  1.35it/s]Training 3/3 epoch (loss 0.0117):  87%|████████▋ | 14669/16950 [2:39:56<25:19,  1.50it/s]Training 3/3 epoch (loss 0.0353):  87%|████████▋ | 14669/16950 [2:39:56<25:19,  1.50it/s]Training 3/3 epoch (loss 0.0353):  87%|████████▋ | 14670/16950 [2:39:56<24:11,  1.57it/s]Training 3/3 epoch (loss 0.0008):  87%|████████▋ | 14670/16950 [2:39:57<24:11,  1.57it/s]Training 3/3 epoch (loss 0.0008):  87%|████████▋ | 14671/16950 [2:39:57<22:17,  1.70it/s]Training 3/3 epoch (loss 0.0153):  87%|████████▋ | 14671/16950 [2:39:57<22:17,  1.70it/s]Training 3/3 epoch (loss 0.0153):  87%|████████▋ | 14672/16950 [2:39:57<20:31,  1.85it/s]Training 3/3 epoch (loss 0.0113):  87%|████████▋ | 14672/16950 [2:39:58<20:31,  1.85it/s]Training 3/3 epoch (loss 0.0113):  87%|████████▋ | 14673/16950 [2:39:58<25:52,  1.47it/s]Training 3/3 epoch (loss 0.0008):  87%|████████▋ | 14673/16950 [2:39:59<25:52,  1.47it/s]Training 3/3 epoch (loss 0.0008):  87%|████████▋ | 14674/16950 [2:39:59<26:29,  1.43it/s]Training 3/3 epoch (loss 0.3033):  87%|████████▋ | 14674/16950 [2:39:59<26:29,  1.43it/s]Training 3/3 epoch (loss 0.3033):  87%|████████▋ | 14675/16950 [2:39:59<23:23,  1.62it/s]Training 3/3 epoch (loss 0.0246):  87%|████████▋ | 14675/16950 [2:40:00<23:23,  1.62it/s]Training 3/3 epoch (loss 0.0246):  87%|████████▋ | 14676/16950 [2:40:00<23:16,  1.63it/s]Training 3/3 epoch (loss 0.0622):  87%|████████▋ | 14676/16950 [2:40:00<23:16,  1.63it/s]Training 3/3 epoch (loss 0.0622):  87%|████████▋ | 14677/16950 [2:40:00<21:30,  1.76it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14677/16950 [2:40:01<21:30,  1.76it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14678/16950 [2:40:01<21:31,  1.76it/s]Training 3/3 epoch (loss 0.3761):  87%|████████▋ | 14678/16950 [2:40:01<21:31,  1.76it/s]Training 3/3 epoch (loss 0.3761):  87%|████████▋ | 14679/16950 [2:40:01<20:41,  1.83it/s]Training 3/3 epoch (loss 0.0088):  87%|████████▋ | 14679/16950 [2:40:02<20:41,  1.83it/s]Training 3/3 epoch (loss 0.0088):  87%|████████▋ | 14680/16950 [2:40:02<19:53,  1.90it/s]Training 3/3 epoch (loss 0.0018):  87%|████████▋ | 14680/16950 [2:40:02<19:53,  1.90it/s]Training 3/3 epoch (loss 0.0018):  87%|████████▋ | 14681/16950 [2:40:02<18:25,  2.05it/s]Training 3/3 epoch (loss 0.0009):  87%|████████▋ | 14681/16950 [2:40:03<18:25,  2.05it/s]Training 3/3 epoch (loss 0.0009):  87%|████████▋ | 14682/16950 [2:40:03<21:24,  1.77it/s]Training 3/3 epoch (loss 0.0004):  87%|████████▋ | 14682/16950 [2:40:04<21:24,  1.77it/s]Training 3/3 epoch (loss 0.0004):  87%|████████▋ | 14683/16950 [2:40:04<22:47,  1.66it/s]Training 3/3 epoch (loss 0.0052):  87%|████████▋ | 14683/16950 [2:40:04<22:47,  1.66it/s]Training 3/3 epoch (loss 0.0052):  87%|████████▋ | 14684/16950 [2:40:04<24:07,  1.57it/s]Training 3/3 epoch (loss 0.0024):  87%|████████▋ | 14684/16950 [2:40:05<24:07,  1.57it/s]Training 3/3 epoch (loss 0.0024):  87%|████████▋ | 14685/16950 [2:40:05<28:22,  1.33it/s]Training 3/3 epoch (loss 0.0992):  87%|████████▋ | 14685/16950 [2:40:06<28:22,  1.33it/s]Training 3/3 epoch (loss 0.0992):  87%|████████▋ | 14686/16950 [2:40:06<26:11,  1.44it/s]Training 3/3 epoch (loss 0.0565):  87%|████████▋ | 14686/16950 [2:40:07<26:11,  1.44it/s]Training 3/3 epoch (loss 0.0565):  87%|████████▋ | 14687/16950 [2:40:07<25:34,  1.47it/s]Training 3/3 epoch (loss 0.2987):  87%|████████▋ | 14687/16950 [2:40:07<25:34,  1.47it/s]Training 3/3 epoch (loss 0.2987):  87%|████████▋ | 14688/16950 [2:40:07<23:25,  1.61it/s]Training 3/3 epoch (loss 0.0014):  87%|████████▋ | 14688/16950 [2:40:08<23:25,  1.61it/s]Training 3/3 epoch (loss 0.0014):  87%|████████▋ | 14689/16950 [2:40:08<21:55,  1.72it/s]Training 3/3 epoch (loss 0.5692):  87%|████████▋ | 14689/16950 [2:40:08<21:55,  1.72it/s]Training 3/3 epoch (loss 0.5692):  87%|████████▋ | 14690/16950 [2:40:08<26:06,  1.44it/s]Training 3/3 epoch (loss 0.0219):  87%|████████▋ | 14690/16950 [2:40:09<26:06,  1.44it/s]Training 3/3 epoch (loss 0.0219):  87%|████████▋ | 14691/16950 [2:40:09<24:23,  1.54it/s]Training 3/3 epoch (loss 0.1022):  87%|████████▋ | 14691/16950 [2:40:10<24:23,  1.54it/s]Training 3/3 epoch (loss 0.1022):  87%|████████▋ | 14692/16950 [2:40:10<23:03,  1.63it/s]Training 3/3 epoch (loss 0.2391):  87%|████████▋ | 14692/16950 [2:40:11<23:03,  1.63it/s]Training 3/3 epoch (loss 0.2391):  87%|████████▋ | 14693/16950 [2:40:11<28:22,  1.33it/s]Training 3/3 epoch (loss 0.0002):  87%|████████▋ | 14693/16950 [2:40:11<28:22,  1.33it/s]Training 3/3 epoch (loss 0.0002):  87%|████████▋ | 14694/16950 [2:40:11<29:16,  1.28it/s]Training 3/3 epoch (loss 0.0040):  87%|████████▋ | 14694/16950 [2:40:12<29:16,  1.28it/s]Training 3/3 epoch (loss 0.0040):  87%|████████▋ | 14695/16950 [2:40:12<26:45,  1.40it/s]Training 3/3 epoch (loss 0.0564):  87%|████████▋ | 14695/16950 [2:40:13<26:45,  1.40it/s]Training 3/3 epoch (loss 0.0564):  87%|████████▋ | 14696/16950 [2:40:13<27:52,  1.35it/s]Training 3/3 epoch (loss 0.0074):  87%|████████▋ | 14696/16950 [2:40:14<27:52,  1.35it/s]Training 3/3 epoch (loss 0.0074):  87%|████████▋ | 14697/16950 [2:40:14<28:01,  1.34it/s]Training 3/3 epoch (loss 0.0005):  87%|████████▋ | 14697/16950 [2:40:14<28:01,  1.34it/s]Training 3/3 epoch (loss 0.0005):  87%|████████▋ | 14698/16950 [2:40:14<25:06,  1.49it/s]Training 3/3 epoch (loss 0.0121):  87%|████████▋ | 14698/16950 [2:40:14<25:06,  1.49it/s]Training 3/3 epoch (loss 0.0121):  87%|████████▋ | 14699/16950 [2:40:14<22:13,  1.69it/s]Training 3/3 epoch (loss 0.0132):  87%|████████▋ | 14699/16950 [2:40:15<22:13,  1.69it/s]Training 3/3 epoch (loss 0.0132):  87%|████████▋ | 14700/16950 [2:40:15<21:17,  1.76it/s]Training 3/3 epoch (loss 0.0005):  87%|████████▋ | 14700/16950 [2:40:15<21:17,  1.76it/s]Training 3/3 epoch (loss 0.0005):  87%|████████▋ | 14701/16950 [2:40:15<20:20,  1.84it/s]Training 3/3 epoch (loss 0.0048):  87%|████████▋ | 14701/16950 [2:40:16<20:20,  1.84it/s]Training 3/3 epoch (loss 0.0048):  87%|████████▋ | 14702/16950 [2:40:16<20:38,  1.81it/s]Training 3/3 epoch (loss 0.2744):  87%|████████▋ | 14702/16950 [2:40:17<20:38,  1.81it/s]Training 3/3 epoch (loss 0.2744):  87%|████████▋ | 14703/16950 [2:40:17<24:55,  1.50it/s]Training 3/3 epoch (loss 0.2016):  87%|████████▋ | 14703/16950 [2:40:18<24:55,  1.50it/s]Training 3/3 epoch (loss 0.2016):  87%|████████▋ | 14704/16950 [2:40:18<25:38,  1.46it/s]Training 3/3 epoch (loss 0.1608):  87%|████████▋ | 14704/16950 [2:40:18<25:38,  1.46it/s]Training 3/3 epoch (loss 0.1608):  87%|████████▋ | 14705/16950 [2:40:18<22:19,  1.68it/s]Training 3/3 epoch (loss 0.0037):  87%|████████▋ | 14705/16950 [2:40:19<22:19,  1.68it/s]Training 3/3 epoch (loss 0.0037):  87%|████████▋ | 14706/16950 [2:40:19<21:31,  1.74it/s]Training 3/3 epoch (loss 0.5069):  87%|████████▋ | 14706/16950 [2:40:20<21:31,  1.74it/s]Training 3/3 epoch (loss 0.5069):  87%|████████▋ | 14707/16950 [2:40:20<27:02,  1.38it/s]Training 3/3 epoch (loss 0.1077):  87%|████████▋ | 14707/16950 [2:40:20<27:02,  1.38it/s]Training 3/3 epoch (loss 0.1077):  87%|████████▋ | 14708/16950 [2:40:20<26:12,  1.43it/s]Training 3/3 epoch (loss 0.6412):  87%|████████▋ | 14708/16950 [2:40:21<26:12,  1.43it/s]Training 3/3 epoch (loss 0.6412):  87%|████████▋ | 14709/16950 [2:40:21<28:41,  1.30it/s]Training 3/3 epoch (loss 0.0305):  87%|████████▋ | 14709/16950 [2:40:22<28:41,  1.30it/s]Training 3/3 epoch (loss 0.0305):  87%|████████▋ | 14710/16950 [2:40:22<31:50,  1.17it/s]Training 3/3 epoch (loss 0.0203):  87%|████████▋ | 14710/16950 [2:40:23<31:50,  1.17it/s]Training 3/3 epoch (loss 0.0203):  87%|████████▋ | 14711/16950 [2:40:23<27:43,  1.35it/s]Training 3/3 epoch (loss 0.3883):  87%|████████▋ | 14711/16950 [2:40:23<27:43,  1.35it/s]Training 3/3 epoch (loss 0.3883):  87%|████████▋ | 14712/16950 [2:40:23<24:48,  1.50it/s]Training 3/3 epoch (loss 0.0148):  87%|████████▋ | 14712/16950 [2:40:24<24:48,  1.50it/s]Training 3/3 epoch (loss 0.0148):  87%|████████▋ | 14713/16950 [2:40:24<22:39,  1.65it/s]Training 3/3 epoch (loss 0.0040):  87%|████████▋ | 14713/16950 [2:40:24<22:39,  1.65it/s]Training 3/3 epoch (loss 0.0040):  87%|████████▋ | 14714/16950 [2:40:24<21:25,  1.74it/s]Training 3/3 epoch (loss 0.0061):  87%|████████▋ | 14714/16950 [2:40:25<21:25,  1.74it/s]Training 3/3 epoch (loss 0.0061):  87%|████████▋ | 14715/16950 [2:40:25<20:24,  1.82it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14715/16950 [2:40:25<20:24,  1.82it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14716/16950 [2:40:25<19:55,  1.87it/s]Training 3/3 epoch (loss 0.7897):  87%|████████▋ | 14716/16950 [2:40:26<19:55,  1.87it/s]Training 3/3 epoch (loss 0.7897):  87%|████████▋ | 14717/16950 [2:40:26<25:37,  1.45it/s]Training 3/3 epoch (loss 0.3711):  87%|████████▋ | 14717/16950 [2:40:27<25:37,  1.45it/s]Training 3/3 epoch (loss 0.3711):  87%|████████▋ | 14718/16950 [2:40:27<25:09,  1.48it/s]Training 3/3 epoch (loss 0.0056):  87%|████████▋ | 14718/16950 [2:40:27<25:09,  1.48it/s]Training 3/3 epoch (loss 0.0056):  87%|████████▋ | 14719/16950 [2:40:27<23:04,  1.61it/s]Training 3/3 epoch (loss 0.0273):  87%|████████▋ | 14719/16950 [2:40:28<23:04,  1.61it/s]Training 3/3 epoch (loss 0.0273):  87%|████████▋ | 14720/16950 [2:40:28<26:03,  1.43it/s]Training 3/3 epoch (loss 0.2306):  87%|████████▋ | 14720/16950 [2:40:29<26:03,  1.43it/s]Training 3/3 epoch (loss 0.2306):  87%|████████▋ | 14721/16950 [2:40:29<25:16,  1.47it/s]Training 3/3 epoch (loss 0.0073):  87%|████████▋ | 14721/16950 [2:40:30<25:16,  1.47it/s]Training 3/3 epoch (loss 0.0073):  87%|████████▋ | 14722/16950 [2:40:30<24:49,  1.50it/s]Training 3/3 epoch (loss 0.2938):  87%|████████▋ | 14722/16950 [2:40:30<24:49,  1.50it/s]Training 3/3 epoch (loss 0.2938):  87%|████████▋ | 14723/16950 [2:40:30<22:33,  1.65it/s]Training 3/3 epoch (loss 0.0522):  87%|████████▋ | 14723/16950 [2:40:30<22:33,  1.65it/s]Training 3/3 epoch (loss 0.0522):  87%|████████▋ | 14724/16950 [2:40:30<19:52,  1.87it/s]Training 3/3 epoch (loss 0.0044):  87%|████████▋ | 14724/16950 [2:40:31<19:52,  1.87it/s]Training 3/3 epoch (loss 0.0044):  87%|████████▋ | 14725/16950 [2:40:31<20:23,  1.82it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14725/16950 [2:40:31<20:23,  1.82it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14726/16950 [2:40:31<19:37,  1.89it/s]Training 3/3 epoch (loss 0.0048):  87%|████████▋ | 14726/16950 [2:40:32<19:37,  1.89it/s]Training 3/3 epoch (loss 0.0048):  87%|████████▋ | 14727/16950 [2:40:32<19:21,  1.91it/s]Training 3/3 epoch (loss 0.0222):  87%|████████▋ | 14727/16950 [2:40:33<19:21,  1.91it/s]Training 3/3 epoch (loss 0.0222):  87%|████████▋ | 14728/16950 [2:40:33<20:19,  1.82it/s]Training 3/3 epoch (loss 0.1965):  87%|████████▋ | 14728/16950 [2:40:34<20:19,  1.82it/s]Training 3/3 epoch (loss 0.1965):  87%|████████▋ | 14729/16950 [2:40:34<24:11,  1.53it/s]Training 3/3 epoch (loss 0.0002):  87%|████████▋ | 14729/16950 [2:40:34<24:11,  1.53it/s]Training 3/3 epoch (loss 0.0002):  87%|████████▋ | 14730/16950 [2:40:34<23:23,  1.58it/s]Training 3/3 epoch (loss 0.0060):  87%|████████▋ | 14730/16950 [2:40:35<23:23,  1.58it/s]Training 3/3 epoch (loss 0.0060):  87%|████████▋ | 14731/16950 [2:40:35<26:13,  1.41it/s]Training 3/3 epoch (loss 0.4793):  87%|████████▋ | 14731/16950 [2:40:36<26:13,  1.41it/s]Training 3/3 epoch (loss 0.4793):  87%|████████▋ | 14732/16950 [2:40:36<26:39,  1.39it/s]Training 3/3 epoch (loss 0.3452):  87%|████████▋ | 14732/16950 [2:40:36<26:39,  1.39it/s]Training 3/3 epoch (loss 0.3452):  87%|████████▋ | 14733/16950 [2:40:36<24:03,  1.54it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14733/16950 [2:40:37<24:03,  1.54it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14734/16950 [2:40:37<22:19,  1.65it/s]Training 3/3 epoch (loss 0.0268):  87%|████████▋ | 14734/16950 [2:40:37<22:19,  1.65it/s]Training 3/3 epoch (loss 0.0268):  87%|████████▋ | 14735/16950 [2:40:37<22:18,  1.65it/s]Training 3/3 epoch (loss 0.0215):  87%|████████▋ | 14735/16950 [2:40:38<22:18,  1.65it/s]Training 3/3 epoch (loss 0.0215):  87%|████████▋ | 14736/16950 [2:40:38<23:16,  1.59it/s]Training 3/3 epoch (loss 0.0086):  87%|████████▋ | 14736/16950 [2:40:38<23:16,  1.59it/s]Training 3/3 epoch (loss 0.0086):  87%|████████▋ | 14737/16950 [2:40:38<21:17,  1.73it/s]Training 3/3 epoch (loss 0.0075):  87%|████████▋ | 14737/16950 [2:40:39<21:17,  1.73it/s]Training 3/3 epoch (loss 0.0075):  87%|████████▋ | 14738/16950 [2:40:39<18:24,  2.00it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14738/16950 [2:40:39<18:24,  2.00it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14739/16950 [2:40:39<17:45,  2.07it/s]Training 3/3 epoch (loss 0.0057):  87%|████████▋ | 14739/16950 [2:40:40<17:45,  2.07it/s]Training 3/3 epoch (loss 0.0057):  87%|████████▋ | 14740/16950 [2:40:40<18:07,  2.03it/s]Training 3/3 epoch (loss 0.0379):  87%|████████▋ | 14740/16950 [2:40:40<18:07,  2.03it/s]Training 3/3 epoch (loss 0.0379):  87%|████████▋ | 14741/16950 [2:40:40<17:44,  2.08it/s]Training 3/3 epoch (loss 0.0105):  87%|████████▋ | 14741/16950 [2:40:41<17:44,  2.08it/s]Training 3/3 epoch (loss 0.0105):  87%|████████▋ | 14742/16950 [2:40:41<18:16,  2.01it/s]Training 3/3 epoch (loss 0.0009):  87%|████████▋ | 14742/16950 [2:40:41<18:16,  2.01it/s]Training 3/3 epoch (loss 0.0009):  87%|████████▋ | 14743/16950 [2:40:41<17:54,  2.05it/s]Training 3/3 epoch (loss 0.0051):  87%|████████▋ | 14743/16950 [2:40:42<17:54,  2.05it/s]Training 3/3 epoch (loss 0.0051):  87%|████████▋ | 14744/16950 [2:40:42<18:14,  2.01it/s]Training 3/3 epoch (loss 0.2856):  87%|████████▋ | 14744/16950 [2:40:42<18:14,  2.01it/s]Training 3/3 epoch (loss 0.2856):  87%|████████▋ | 14745/16950 [2:40:42<17:27,  2.11it/s]Training 3/3 epoch (loss 0.0021):  87%|████████▋ | 14745/16950 [2:40:43<17:27,  2.11it/s]Training 3/3 epoch (loss 0.0021):  87%|████████▋ | 14746/16950 [2:40:43<17:47,  2.06it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14746/16950 [2:40:43<17:47,  2.06it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14747/16950 [2:40:43<18:05,  2.03it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14747/16950 [2:40:44<18:05,  2.03it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14748/16950 [2:40:44<18:43,  1.96it/s]Training 3/3 epoch (loss 0.0157):  87%|████████▋ | 14748/16950 [2:40:44<18:43,  1.96it/s]Training 3/3 epoch (loss 0.0157):  87%|████████▋ | 14749/16950 [2:40:44<17:59,  2.04it/s]Training 3/3 epoch (loss 0.0003):  87%|████████▋ | 14749/16950 [2:40:45<17:59,  2.04it/s]Training 3/3 epoch (loss 0.0003):  87%|████████▋ | 14750/16950 [2:40:45<20:04,  1.83it/s]Training 3/3 epoch (loss 0.2637):  87%|████████▋ | 14750/16950 [2:40:45<20:04,  1.83it/s]Training 3/3 epoch (loss 0.2637):  87%|████████▋ | 14751/16950 [2:40:45<19:16,  1.90it/s]Training 3/3 epoch (loss 0.1074):  87%|████████▋ | 14751/16950 [2:40:46<19:16,  1.90it/s]Training 3/3 epoch (loss 0.1074):  87%|████████▋ | 14752/16950 [2:40:46<22:44,  1.61it/s]Training 3/3 epoch (loss 0.0013):  87%|████████▋ | 14752/16950 [2:40:47<22:44,  1.61it/s]Training 3/3 epoch (loss 0.0013):  87%|████████▋ | 14753/16950 [2:40:47<26:15,  1.39it/s]Training 3/3 epoch (loss 0.0007):  87%|████████▋ | 14753/16950 [2:40:48<26:15,  1.39it/s]Training 3/3 epoch (loss 0.0007):  87%|████████▋ | 14754/16950 [2:40:48<24:12,  1.51it/s]Training 3/3 epoch (loss 0.3061):  87%|████████▋ | 14754/16950 [2:40:48<24:12,  1.51it/s]Training 3/3 epoch (loss 0.3061):  87%|████████▋ | 14755/16950 [2:40:48<21:15,  1.72it/s]Training 3/3 epoch (loss 0.0002):  87%|████████▋ | 14755/16950 [2:40:49<21:15,  1.72it/s]Training 3/3 epoch (loss 0.0002):  87%|████████▋ | 14756/16950 [2:40:49<20:48,  1.76it/s]Training 3/3 epoch (loss 0.3704):  87%|████████▋ | 14756/16950 [2:40:50<20:48,  1.76it/s]Training 3/3 epoch (loss 0.3704):  87%|████████▋ | 14757/16950 [2:40:50<25:01,  1.46it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14757/16950 [2:40:50<25:01,  1.46it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14758/16950 [2:40:50<24:21,  1.50it/s]Training 3/3 epoch (loss 0.1187):  87%|████████▋ | 14758/16950 [2:40:51<24:21,  1.50it/s]Training 3/3 epoch (loss 0.1187):  87%|████████▋ | 14759/16950 [2:40:51<23:12,  1.57it/s]Training 3/3 epoch (loss 0.3408):  87%|████████▋ | 14759/16950 [2:40:51<23:12,  1.57it/s]Training 3/3 epoch (loss 0.3408):  87%|████████▋ | 14760/16950 [2:40:51<23:04,  1.58it/s]Training 3/3 epoch (loss 0.0006):  87%|████████▋ | 14760/16950 [2:40:52<23:04,  1.58it/s]Training 3/3 epoch (loss 0.0006):  87%|████████▋ | 14761/16950 [2:40:52<23:02,  1.58it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14761/16950 [2:40:53<23:02,  1.58it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14762/16950 [2:40:53<23:16,  1.57it/s]Training 3/3 epoch (loss 0.0004):  87%|████████▋ | 14762/16950 [2:40:53<23:16,  1.57it/s]Training 3/3 epoch (loss 0.0004):  87%|████████▋ | 14763/16950 [2:40:53<22:58,  1.59it/s]Training 3/3 epoch (loss 0.2184):  87%|████████▋ | 14763/16950 [2:40:54<22:58,  1.59it/s]Training 3/3 epoch (loss 0.2184):  87%|████████▋ | 14764/16950 [2:40:54<23:34,  1.55it/s]Training 3/3 epoch (loss 0.0004):  87%|████████▋ | 14764/16950 [2:40:54<23:34,  1.55it/s]Training 3/3 epoch (loss 0.0004):  87%|████████▋ | 14765/16950 [2:40:54<21:28,  1.70it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14765/16950 [2:40:55<21:28,  1.70it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14766/16950 [2:40:55<20:04,  1.81it/s]Training 3/3 epoch (loss 0.0062):  87%|████████▋ | 14766/16950 [2:40:55<20:04,  1.81it/s]Training 3/3 epoch (loss 0.0062):  87%|████████▋ | 14767/16950 [2:40:55<18:20,  1.98it/s]Training 3/3 epoch (loss 0.0828):  87%|████████▋ | 14767/16950 [2:40:56<18:20,  1.98it/s]Training 3/3 epoch (loss 0.0828):  87%|████████▋ | 14768/16950 [2:40:56<19:35,  1.86it/s]Training 3/3 epoch (loss 0.0037):  87%|████████▋ | 14768/16950 [2:40:56<19:35,  1.86it/s]Training 3/3 epoch (loss 0.0037):  87%|████████▋ | 14769/16950 [2:40:56<19:39,  1.85it/s]Training 3/3 epoch (loss 0.2787):  87%|████████▋ | 14769/16950 [2:40:57<19:39,  1.85it/s]Training 3/3 epoch (loss 0.2787):  87%|████████▋ | 14770/16950 [2:40:57<18:38,  1.95it/s]Training 3/3 epoch (loss 0.3499):  87%|████████▋ | 14770/16950 [2:40:57<18:38,  1.95it/s]Training 3/3 epoch (loss 0.3499):  87%|████████▋ | 14771/16950 [2:40:57<17:30,  2.08it/s]Training 3/3 epoch (loss 0.0021):  87%|████████▋ | 14771/16950 [2:40:58<17:30,  2.08it/s]Training 3/3 epoch (loss 0.0021):  87%|████████▋ | 14772/16950 [2:40:58<17:01,  2.13it/s]Training 3/3 epoch (loss 0.0723):  87%|████████▋ | 14772/16950 [2:40:58<17:01,  2.13it/s]Training 3/3 epoch (loss 0.0723):  87%|████████▋ | 14773/16950 [2:40:58<19:46,  1.83it/s]Training 3/3 epoch (loss 0.2048):  87%|████████▋ | 14773/16950 [2:40:59<19:46,  1.83it/s]Training 3/3 epoch (loss 0.2048):  87%|████████▋ | 14774/16950 [2:40:59<21:24,  1.69it/s]Training 3/3 epoch (loss 0.0029):  87%|████████▋ | 14774/16950 [2:41:00<21:24,  1.69it/s]Training 3/3 epoch (loss 0.0029):  87%|████████▋ | 14775/16950 [2:41:00<22:10,  1.63it/s]Training 3/3 epoch (loss 0.2686):  87%|████████▋ | 14775/16950 [2:41:00<22:10,  1.63it/s]Training 3/3 epoch (loss 0.2686):  87%|████████▋ | 14776/16950 [2:41:00<23:13,  1.56it/s]Training 3/3 epoch (loss 0.0119):  87%|████████▋ | 14776/16950 [2:41:01<23:13,  1.56it/s]Training 3/3 epoch (loss 0.0119):  87%|████████▋ | 14777/16950 [2:41:01<21:44,  1.67it/s]Training 3/3 epoch (loss 0.1442):  87%|████████▋ | 14777/16950 [2:41:02<21:44,  1.67it/s]Training 3/3 epoch (loss 0.1442):  87%|████████▋ | 14778/16950 [2:41:02<23:05,  1.57it/s]Training 3/3 epoch (loss 0.0002):  87%|████████▋ | 14778/16950 [2:41:02<23:05,  1.57it/s]Training 3/3 epoch (loss 0.0002):  87%|████████▋ | 14779/16950 [2:41:02<21:50,  1.66it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14779/16950 [2:41:03<21:50,  1.66it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14780/16950 [2:41:03<20:47,  1.74it/s]Training 3/3 epoch (loss 0.2442):  87%|████████▋ | 14780/16950 [2:41:03<20:47,  1.74it/s]Training 3/3 epoch (loss 0.2442):  87%|████████▋ | 14781/16950 [2:41:03<21:46,  1.66it/s]Training 3/3 epoch (loss 0.0201):  87%|████████▋ | 14781/16950 [2:41:04<21:46,  1.66it/s]Training 3/3 epoch (loss 0.0201):  87%|████████▋ | 14782/16950 [2:41:04<21:12,  1.70it/s]Training 3/3 epoch (loss 0.0028):  87%|████████▋ | 14782/16950 [2:41:04<21:12,  1.70it/s]Training 3/3 epoch (loss 0.0028):  87%|████████▋ | 14783/16950 [2:41:04<20:42,  1.74it/s]Training 3/3 epoch (loss 0.0074):  87%|████████▋ | 14783/16950 [2:41:05<20:42,  1.74it/s]Training 3/3 epoch (loss 0.0074):  87%|████████▋ | 14784/16950 [2:41:05<19:31,  1.85it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14784/16950 [2:41:06<19:31,  1.85it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14785/16950 [2:41:06<22:28,  1.61it/s]Training 3/3 epoch (loss 0.0229):  87%|████████▋ | 14785/16950 [2:41:06<22:28,  1.61it/s]Training 3/3 epoch (loss 0.0229):  87%|████████▋ | 14786/16950 [2:41:06<20:51,  1.73it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14786/16950 [2:41:07<20:51,  1.73it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14787/16950 [2:41:07<21:30,  1.68it/s]Training 3/3 epoch (loss 0.5746):  87%|████████▋ | 14787/16950 [2:41:08<21:30,  1.68it/s]Training 3/3 epoch (loss 0.5746):  87%|████████▋ | 14788/16950 [2:41:08<24:17,  1.48it/s]Training 3/3 epoch (loss 0.0186):  87%|████████▋ | 14788/16950 [2:41:08<24:17,  1.48it/s]Training 3/3 epoch (loss 0.0186):  87%|████████▋ | 14789/16950 [2:41:08<24:56,  1.44it/s]Training 3/3 epoch (loss 0.0055):  87%|████████▋ | 14789/16950 [2:41:09<24:56,  1.44it/s]Training 3/3 epoch (loss 0.0055):  87%|████████▋ | 14790/16950 [2:41:09<24:45,  1.45it/s]Training 3/3 epoch (loss 0.0033):  87%|████████▋ | 14790/16950 [2:41:10<24:45,  1.45it/s]Training 3/3 epoch (loss 0.0033):  87%|████████▋ | 14791/16950 [2:41:10<24:30,  1.47it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14791/16950 [2:41:10<24:30,  1.47it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14792/16950 [2:41:10<23:00,  1.56it/s]Training 3/3 epoch (loss 0.0692):  87%|████████▋ | 14792/16950 [2:41:11<23:00,  1.56it/s]Training 3/3 epoch (loss 0.0692):  87%|████████▋ | 14793/16950 [2:41:11<24:37,  1.46it/s]Training 3/3 epoch (loss 0.6142):  87%|████████▋ | 14793/16950 [2:41:12<24:37,  1.46it/s]Training 3/3 epoch (loss 0.6142):  87%|████████▋ | 14794/16950 [2:41:12<23:42,  1.52it/s]Training 3/3 epoch (loss 0.0015):  87%|████████▋ | 14794/16950 [2:41:13<23:42,  1.52it/s]Training 3/3 epoch (loss 0.0015):  87%|████████▋ | 14795/16950 [2:41:13<26:23,  1.36it/s]Training 3/3 epoch (loss 0.1248):  87%|████████▋ | 14795/16950 [2:41:13<26:23,  1.36it/s]Training 3/3 epoch (loss 0.1248):  87%|████████▋ | 14796/16950 [2:41:13<26:59,  1.33it/s]Training 3/3 epoch (loss 0.0023):  87%|████████▋ | 14796/16950 [2:41:14<26:59,  1.33it/s]Training 3/3 epoch (loss 0.0023):  87%|████████▋ | 14797/16950 [2:41:14<27:13,  1.32it/s]Training 3/3 epoch (loss 0.7034):  87%|████████▋ | 14797/16950 [2:41:15<27:13,  1.32it/s]Training 3/3 epoch (loss 0.7034):  87%|████████▋ | 14798/16950 [2:41:15<29:09,  1.23it/s]Training 3/3 epoch (loss 0.0093):  87%|████████▋ | 14798/16950 [2:41:16<29:09,  1.23it/s]Training 3/3 epoch (loss 0.0093):  87%|████████▋ | 14799/16950 [2:41:16<28:58,  1.24it/s]Training 3/3 epoch (loss 0.1711):  87%|████████▋ | 14799/16950 [2:41:17<28:58,  1.24it/s]Training 3/3 epoch (loss 0.1711):  87%|████████▋ | 14800/16950 [2:41:17<28:09,  1.27it/s]Training 3/3 epoch (loss 0.0464):  87%|████████▋ | 14800/16950 [2:41:17<28:09,  1.27it/s]Training 3/3 epoch (loss 0.0464):  87%|████████▋ | 14801/16950 [2:41:17<27:41,  1.29it/s]Training 3/3 epoch (loss 0.0834):  87%|████████▋ | 14801/16950 [2:41:19<27:41,  1.29it/s]Training 3/3 epoch (loss 0.0834):  87%|████████▋ | 14802/16950 [2:41:19<32:16,  1.11it/s]Training 3/3 epoch (loss 0.0301):  87%|████████▋ | 14802/16950 [2:41:19<32:16,  1.11it/s]Training 3/3 epoch (loss 0.0301):  87%|████████▋ | 14803/16950 [2:41:19<30:28,  1.17it/s]Training 3/3 epoch (loss 0.0156):  87%|████████▋ | 14803/16950 [2:41:20<30:28,  1.17it/s]Training 3/3 epoch (loss 0.0156):  87%|████████▋ | 14804/16950 [2:41:20<26:46,  1.34it/s]Training 3/3 epoch (loss 0.2745):  87%|████████▋ | 14804/16950 [2:41:21<26:46,  1.34it/s]Training 3/3 epoch (loss 0.2745):  87%|████████▋ | 14805/16950 [2:41:21<30:01,  1.19it/s]Training 3/3 epoch (loss 0.1698):  87%|████████▋ | 14805/16950 [2:41:22<30:01,  1.19it/s]Training 3/3 epoch (loss 0.1698):  87%|████████▋ | 14806/16950 [2:41:22<27:11,  1.31it/s]Training 3/3 epoch (loss 0.0005):  87%|████████▋ | 14806/16950 [2:41:22<27:11,  1.31it/s]Training 3/3 epoch (loss 0.0005):  87%|████████▋ | 14807/16950 [2:41:22<25:55,  1.38it/s]Training 3/3 epoch (loss 0.1189):  87%|████████▋ | 14807/16950 [2:41:23<25:55,  1.38it/s]Training 3/3 epoch (loss 0.1189):  87%|████████▋ | 14808/16950 [2:41:23<23:07,  1.54it/s]Training 3/3 epoch (loss 0.4523):  87%|████████▋ | 14808/16950 [2:41:23<23:07,  1.54it/s]Training 3/3 epoch (loss 0.4523):  87%|████████▋ | 14809/16950 [2:41:23<20:48,  1.71it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14809/16950 [2:41:24<20:48,  1.71it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14810/16950 [2:41:24<22:12,  1.61it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14810/16950 [2:41:24<22:12,  1.61it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14811/16950 [2:41:24<20:30,  1.74it/s]Training 3/3 epoch (loss 0.3314):  87%|████████▋ | 14811/16950 [2:41:25<20:30,  1.74it/s]Training 3/3 epoch (loss 0.3314):  87%|████████▋ | 14812/16950 [2:41:25<19:58,  1.78it/s]Training 3/3 epoch (loss 0.1272):  87%|████████▋ | 14812/16950 [2:41:25<19:58,  1.78it/s]Training 3/3 epoch (loss 0.1272):  87%|████████▋ | 14813/16950 [2:41:25<20:26,  1.74it/s]Training 3/3 epoch (loss 0.0066):  87%|████████▋ | 14813/16950 [2:41:26<20:26,  1.74it/s]Training 3/3 epoch (loss 0.0066):  87%|████████▋ | 14814/16950 [2:41:26<18:57,  1.88it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14814/16950 [2:41:26<18:57,  1.88it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14815/16950 [2:41:26<18:49,  1.89it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14815/16950 [2:41:27<18:49,  1.89it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14816/16950 [2:41:27<19:24,  1.83it/s]Training 3/3 epoch (loss 0.0034):  87%|████████▋ | 14816/16950 [2:41:28<19:24,  1.83it/s]Training 3/3 epoch (loss 0.0034):  87%|████████▋ | 14817/16950 [2:41:28<20:41,  1.72it/s]Training 3/3 epoch (loss 0.0127):  87%|████████▋ | 14817/16950 [2:41:28<20:41,  1.72it/s]Training 3/3 epoch (loss 0.0127):  87%|████████▋ | 14818/16950 [2:41:28<23:11,  1.53it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14818/16950 [2:41:29<23:11,  1.53it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14819/16950 [2:41:29<22:13,  1.60it/s]Training 3/3 epoch (loss 0.1736):  87%|████████▋ | 14819/16950 [2:41:30<22:13,  1.60it/s]Training 3/3 epoch (loss 0.1736):  87%|████████▋ | 14820/16950 [2:41:30<22:23,  1.59it/s]Training 3/3 epoch (loss 0.2710):  87%|████████▋ | 14820/16950 [2:41:31<22:23,  1.59it/s]Training 3/3 epoch (loss 0.2710):  87%|████████▋ | 14821/16950 [2:41:31<26:40,  1.33it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14821/16950 [2:41:31<26:40,  1.33it/s]Training 3/3 epoch (loss 0.0000):  87%|████████▋ | 14822/16950 [2:41:31<25:24,  1.40it/s]Training 3/3 epoch (loss 0.0074):  87%|████████▋ | 14822/16950 [2:41:32<25:24,  1.40it/s]Training 3/3 epoch (loss 0.0074):  87%|████████▋ | 14823/16950 [2:41:32<23:49,  1.49it/s]Training 3/3 epoch (loss 0.0537):  87%|████████▋ | 14823/16950 [2:41:33<23:49,  1.49it/s]Training 3/3 epoch (loss 0.0537):  87%|████████▋ | 14824/16950 [2:41:33<24:21,  1.45it/s]Training 3/3 epoch (loss 0.0012):  87%|████████▋ | 14824/16950 [2:41:33<24:21,  1.45it/s]Training 3/3 epoch (loss 0.0012):  87%|████████▋ | 14825/16950 [2:41:33<23:19,  1.52it/s]Training 3/3 epoch (loss 0.1224):  87%|████████▋ | 14825/16950 [2:41:34<23:19,  1.52it/s]Training 3/3 epoch (loss 0.1224):  87%|████████▋ | 14826/16950 [2:41:34<21:51,  1.62it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14826/16950 [2:41:34<21:51,  1.62it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14827/16950 [2:41:34<20:08,  1.76it/s]Training 3/3 epoch (loss 0.3885):  87%|████████▋ | 14827/16950 [2:41:35<20:08,  1.76it/s]Training 3/3 epoch (loss 0.3885):  87%|████████▋ | 14828/16950 [2:41:35<18:31,  1.91it/s]Training 3/3 epoch (loss 0.0056):  87%|████████▋ | 14828/16950 [2:41:35<18:31,  1.91it/s]Training 3/3 epoch (loss 0.0056):  87%|████████▋ | 14829/16950 [2:41:35<19:22,  1.82it/s]Training 3/3 epoch (loss 0.0041):  87%|████████▋ | 14829/16950 [2:41:36<19:22,  1.82it/s]Training 3/3 epoch (loss 0.0041):  87%|████████▋ | 14830/16950 [2:41:36<19:04,  1.85it/s]Training 3/3 epoch (loss 0.0116):  87%|████████▋ | 14830/16950 [2:41:37<19:04,  1.85it/s]Training 3/3 epoch (loss 0.0116):  87%|████████▋ | 14831/16950 [2:41:37<23:13,  1.52it/s]Training 3/3 epoch (loss 0.0001):  87%|████████▋ | 14831/16950 [2:41:37<23:13,  1.52it/s]Training 3/3 epoch (loss 0.0001):  88%|████████▊ | 14832/16950 [2:41:37<21:27,  1.65it/s]Training 3/3 epoch (loss 0.0260):  88%|████████▊ | 14832/16950 [2:41:37<21:27,  1.65it/s]Training 3/3 epoch (loss 0.0260):  88%|████████▊ | 14833/16950 [2:41:37<19:05,  1.85it/s]Training 3/3 epoch (loss 0.6678):  88%|████████▊ | 14833/16950 [2:41:38<19:05,  1.85it/s]Training 3/3 epoch (loss 0.6678):  88%|████████▊ | 14834/16950 [2:41:38<17:16,  2.04it/s]Training 3/3 epoch (loss 0.0358):  88%|████████▊ | 14834/16950 [2:41:38<17:16,  2.04it/s]Training 3/3 epoch (loss 0.0358):  88%|████████▊ | 14835/16950 [2:41:38<18:27,  1.91it/s]Training 3/3 epoch (loss 0.3951):  88%|████████▊ | 14835/16950 [2:41:39<18:27,  1.91it/s]Training 3/3 epoch (loss 0.3951):  88%|████████▊ | 14836/16950 [2:41:39<21:58,  1.60it/s]Training 3/3 epoch (loss 0.0015):  88%|████████▊ | 14836/16950 [2:41:40<21:58,  1.60it/s]Training 3/3 epoch (loss 0.0015):  88%|████████▊ | 14837/16950 [2:41:40<22:03,  1.60it/s]Training 3/3 epoch (loss 0.0017):  88%|████████▊ | 14837/16950 [2:41:40<22:03,  1.60it/s]Training 3/3 epoch (loss 0.0017):  88%|████████▊ | 14838/16950 [2:41:40<19:23,  1.81it/s]Training 3/3 epoch (loss 0.0543):  88%|████████▊ | 14838/16950 [2:41:41<19:23,  1.81it/s]Training 3/3 epoch (loss 0.0543):  88%|████████▊ | 14839/16950 [2:41:41<19:52,  1.77it/s]Training 3/3 epoch (loss 0.0285):  88%|████████▊ | 14839/16950 [2:41:41<19:52,  1.77it/s]Training 3/3 epoch (loss 0.0285):  88%|████████▊ | 14840/16950 [2:41:41<19:37,  1.79it/s]Training 3/3 epoch (loss 0.0005):  88%|████████▊ | 14840/16950 [2:41:42<19:37,  1.79it/s]Training 3/3 epoch (loss 0.0005):  88%|████████▊ | 14841/16950 [2:41:42<20:37,  1.70it/s]Training 3/3 epoch (loss 0.3443):  88%|████████▊ | 14841/16950 [2:41:43<20:37,  1.70it/s]Training 3/3 epoch (loss 0.3443):  88%|████████▊ | 14842/16950 [2:41:43<21:16,  1.65it/s]Training 3/3 epoch (loss 0.4128):  88%|████████▊ | 14842/16950 [2:41:43<21:16,  1.65it/s]Training 3/3 epoch (loss 0.4128):  88%|████████▊ | 14843/16950 [2:41:43<20:19,  1.73it/s]Training 3/3 epoch (loss 0.0576):  88%|████████▊ | 14843/16950 [2:41:44<20:19,  1.73it/s]Training 3/3 epoch (loss 0.0576):  88%|████████▊ | 14844/16950 [2:41:44<19:39,  1.79it/s]Training 3/3 epoch (loss 0.1960):  88%|████████▊ | 14844/16950 [2:41:44<19:39,  1.79it/s]Training 3/3 epoch (loss 0.1960):  88%|████████▊ | 14845/16950 [2:41:44<20:22,  1.72it/s]Training 3/3 epoch (loss 0.0851):  88%|████████▊ | 14845/16950 [2:41:45<20:22,  1.72it/s]Training 3/3 epoch (loss 0.0851):  88%|████████▊ | 14846/16950 [2:41:45<21:44,  1.61it/s]Training 3/3 epoch (loss 0.0023):  88%|████████▊ | 14846/16950 [2:41:46<21:44,  1.61it/s]Training 3/3 epoch (loss 0.0023):  88%|████████▊ | 14847/16950 [2:41:46<21:07,  1.66it/s]Training 3/3 epoch (loss 0.8921):  88%|████████▊ | 14847/16950 [2:41:46<21:07,  1.66it/s]Training 3/3 epoch (loss 0.8921):  88%|████████▊ | 14848/16950 [2:41:46<18:45,  1.87it/s]Training 3/3 epoch (loss 0.3564):  88%|████████▊ | 14848/16950 [2:41:47<18:45,  1.87it/s]Training 3/3 epoch (loss 0.3564):  88%|████████▊ | 14849/16950 [2:41:47<17:49,  1.96it/s]Training 3/3 epoch (loss 0.3658):  88%|████████▊ | 14849/16950 [2:41:47<17:49,  1.96it/s]Training 3/3 epoch (loss 0.3658):  88%|████████▊ | 14850/16950 [2:41:47<17:25,  2.01it/s]Training 3/3 epoch (loss 0.0898):  88%|████████▊ | 14850/16950 [2:41:48<17:25,  2.01it/s]Training 3/3 epoch (loss 0.0898):  88%|████████▊ | 14851/16950 [2:41:48<19:40,  1.78it/s]Training 3/3 epoch (loss 0.0208):  88%|████████▊ | 14851/16950 [2:41:49<19:40,  1.78it/s]Training 3/3 epoch (loss 0.0208):  88%|████████▊ | 14852/16950 [2:41:49<24:46,  1.41it/s]Training 3/3 epoch (loss 0.0003):  88%|████████▊ | 14852/16950 [2:41:49<24:46,  1.41it/s]Training 3/3 epoch (loss 0.0003):  88%|████████▊ | 14853/16950 [2:41:49<23:34,  1.48it/s]Training 3/3 epoch (loss 0.0101):  88%|████████▊ | 14853/16950 [2:41:50<23:34,  1.48it/s]Training 3/3 epoch (loss 0.0101):  88%|████████▊ | 14854/16950 [2:41:50<21:47,  1.60it/s]Training 3/3 epoch (loss 0.0023):  88%|████████▊ | 14854/16950 [2:41:51<21:47,  1.60it/s]Training 3/3 epoch (loss 0.0023):  88%|████████▊ | 14855/16950 [2:41:51<22:06,  1.58it/s]Training 3/3 epoch (loss 0.4689):  88%|████████▊ | 14855/16950 [2:41:51<22:06,  1.58it/s]Training 3/3 epoch (loss 0.4689):  88%|████████▊ | 14856/16950 [2:41:51<19:59,  1.75it/s]Training 3/3 epoch (loss 0.0052):  88%|████████▊ | 14856/16950 [2:41:51<19:59,  1.75it/s]Training 3/3 epoch (loss 0.0052):  88%|████████▊ | 14857/16950 [2:41:51<19:30,  1.79it/s]Training 3/3 epoch (loss 0.0471):  88%|████████▊ | 14857/16950 [2:41:52<19:30,  1.79it/s]Training 3/3 epoch (loss 0.0471):  88%|████████▊ | 14858/16950 [2:41:52<22:30,  1.55it/s]Training 3/3 epoch (loss 0.2917):  88%|████████▊ | 14858/16950 [2:41:53<22:30,  1.55it/s]Training 3/3 epoch (loss 0.2917):  88%|████████▊ | 14859/16950 [2:41:53<22:36,  1.54it/s]Training 3/3 epoch (loss 0.0652):  88%|████████▊ | 14859/16950 [2:41:54<22:36,  1.54it/s]Training 3/3 epoch (loss 0.0652):  88%|████████▊ | 14860/16950 [2:41:54<21:38,  1.61it/s]Training 3/3 epoch (loss 0.0009):  88%|████████▊ | 14860/16950 [2:41:54<21:38,  1.61it/s]Training 3/3 epoch (loss 0.0009):  88%|████████▊ | 14861/16950 [2:41:54<21:46,  1.60it/s]Training 3/3 epoch (loss 0.4640):  88%|████████▊ | 14861/16950 [2:41:55<21:46,  1.60it/s]Training 3/3 epoch (loss 0.4640):  88%|████████▊ | 14862/16950 [2:41:55<21:56,  1.59it/s]Training 3/3 epoch (loss 0.5619):  88%|████████▊ | 14862/16950 [2:41:55<21:56,  1.59it/s]Training 3/3 epoch (loss 0.5619):  88%|████████▊ | 14863/16950 [2:41:55<20:16,  1.72it/s]Training 3/3 epoch (loss 0.0558):  88%|████████▊ | 14863/16950 [2:41:56<20:16,  1.72it/s]Training 3/3 epoch (loss 0.0558):  88%|████████▊ | 14864/16950 [2:41:56<22:08,  1.57it/s]Training 3/3 epoch (loss 0.0007):  88%|████████▊ | 14864/16950 [2:41:57<22:08,  1.57it/s]Training 3/3 epoch (loss 0.0007):  88%|████████▊ | 14865/16950 [2:41:57<22:23,  1.55it/s]Training 3/3 epoch (loss 0.0012):  88%|████████▊ | 14865/16950 [2:41:57<22:23,  1.55it/s]Training 3/3 epoch (loss 0.0012):  88%|████████▊ | 14866/16950 [2:41:57<23:11,  1.50it/s]Training 3/3 epoch (loss 0.0502):  88%|████████▊ | 14866/16950 [2:41:58<23:11,  1.50it/s]Training 3/3 epoch (loss 0.0502):  88%|████████▊ | 14867/16950 [2:41:58<22:05,  1.57it/s]Training 3/3 epoch (loss 0.1714):  88%|████████▊ | 14867/16950 [2:41:58<22:05,  1.57it/s]Training 3/3 epoch (loss 0.1714):  88%|████████▊ | 14868/16950 [2:41:58<20:42,  1.68it/s]Training 3/3 epoch (loss 0.1001):  88%|████████▊ | 14868/16950 [2:41:59<20:42,  1.68it/s]Training 3/3 epoch (loss 0.1001):  88%|████████▊ | 14869/16950 [2:41:59<22:01,  1.58it/s]Training 3/3 epoch (loss 0.0083):  88%|████████▊ | 14869/16950 [2:42:00<22:01,  1.58it/s]Training 3/3 epoch (loss 0.0083):  88%|████████▊ | 14870/16950 [2:42:00<22:45,  1.52it/s]Training 3/3 epoch (loss 0.0045):  88%|████████▊ | 14870/16950 [2:42:00<22:45,  1.52it/s]Training 3/3 epoch (loss 0.0045):  88%|████████▊ | 14871/16950 [2:42:00<21:21,  1.62it/s]Training 3/3 epoch (loss 0.0007):  88%|████████▊ | 14871/16950 [2:42:01<21:21,  1.62it/s]Training 3/3 epoch (loss 0.0007):  88%|████████▊ | 14872/16950 [2:42:01<21:04,  1.64it/s]Training 3/3 epoch (loss 0.4932):  88%|████████▊ | 14872/16950 [2:42:02<21:04,  1.64it/s]Training 3/3 epoch (loss 0.4932):  88%|████████▊ | 14873/16950 [2:42:02<20:25,  1.69it/s]Training 3/3 epoch (loss 0.0362):  88%|████████▊ | 14873/16950 [2:42:02<20:25,  1.69it/s]Training 3/3 epoch (loss 0.0362):  88%|████████▊ | 14874/16950 [2:42:02<20:55,  1.65it/s]Training 3/3 epoch (loss 0.0053):  88%|████████▊ | 14874/16950 [2:42:03<20:55,  1.65it/s]Training 3/3 epoch (loss 0.0053):  88%|████████▊ | 14875/16950 [2:42:03<19:43,  1.75it/s]Training 3/3 epoch (loss 0.2478):  88%|████████▊ | 14875/16950 [2:42:03<19:43,  1.75it/s]Training 3/3 epoch (loss 0.2478):  88%|████████▊ | 14876/16950 [2:42:03<17:01,  2.03it/s]Training 3/3 epoch (loss 0.0917):  88%|████████▊ | 14876/16950 [2:42:03<17:01,  2.03it/s]Training 3/3 epoch (loss 0.0917):  88%|████████▊ | 14877/16950 [2:42:03<16:36,  2.08it/s]Training 3/3 epoch (loss 0.1802):  88%|████████▊ | 14877/16950 [2:42:04<16:36,  2.08it/s]Training 3/3 epoch (loss 0.1802):  88%|████████▊ | 14878/16950 [2:42:04<16:12,  2.13it/s]Training 3/3 epoch (loss 0.0020):  88%|████████▊ | 14878/16950 [2:42:05<16:12,  2.13it/s]Training 3/3 epoch (loss 0.0020):  88%|████████▊ | 14879/16950 [2:42:05<18:16,  1.89it/s]Training 3/3 epoch (loss 0.1082):  88%|████████▊ | 14879/16950 [2:42:05<18:16,  1.89it/s]Training 3/3 epoch (loss 0.1082):  88%|████████▊ | 14880/16950 [2:42:05<17:22,  1.99it/s]Training 3/3 epoch (loss 0.3885):  88%|████████▊ | 14880/16950 [2:42:06<17:22,  1.99it/s]Training 3/3 epoch (loss 0.3885):  88%|████████▊ | 14881/16950 [2:42:06<22:20,  1.54it/s]Training 3/3 epoch (loss 0.7823):  88%|████████▊ | 14881/16950 [2:42:06<22:20,  1.54it/s]Training 3/3 epoch (loss 0.7823):  88%|████████▊ | 14882/16950 [2:42:06<19:42,  1.75it/s]Training 3/3 epoch (loss 0.4672):  88%|████████▊ | 14882/16950 [2:42:07<19:42,  1.75it/s]Training 3/3 epoch (loss 0.4672):  88%|████████▊ | 14883/16950 [2:42:07<20:22,  1.69it/s]Training 3/3 epoch (loss 0.5248):  88%|████████▊ | 14883/16950 [2:42:08<20:22,  1.69it/s]Training 3/3 epoch (loss 0.5248):  88%|████████▊ | 14884/16950 [2:42:08<21:32,  1.60it/s]Training 3/3 epoch (loss 0.6649):  88%|████████▊ | 14884/16950 [2:42:08<21:32,  1.60it/s]Training 3/3 epoch (loss 0.6649):  88%|████████▊ | 14885/16950 [2:42:08<21:30,  1.60it/s]Training 3/3 epoch (loss 0.0005):  88%|████████▊ | 14885/16950 [2:42:09<21:30,  1.60it/s]Training 3/3 epoch (loss 0.0005):  88%|████████▊ | 14886/16950 [2:42:09<21:05,  1.63it/s]Training 3/3 epoch (loss 0.1121):  88%|████████▊ | 14886/16950 [2:42:09<21:05,  1.63it/s]Training 3/3 epoch (loss 0.1121):  88%|████████▊ | 14887/16950 [2:42:09<18:58,  1.81it/s]Training 3/3 epoch (loss 0.0037):  88%|████████▊ | 14887/16950 [2:42:10<18:58,  1.81it/s]Training 3/3 epoch (loss 0.0037):  88%|████████▊ | 14888/16950 [2:42:10<18:31,  1.86it/s]Training 3/3 epoch (loss 0.0022):  88%|████████▊ | 14888/16950 [2:42:11<18:31,  1.86it/s]Training 3/3 epoch (loss 0.0022):  88%|████████▊ | 14889/16950 [2:42:11<20:29,  1.68it/s]Training 3/3 epoch (loss 0.1785):  88%|████████▊ | 14889/16950 [2:42:11<20:29,  1.68it/s]Training 3/3 epoch (loss 0.1785):  88%|████████▊ | 14890/16950 [2:42:11<21:50,  1.57it/s]Training 3/3 epoch (loss 0.0772):  88%|████████▊ | 14890/16950 [2:42:12<21:50,  1.57it/s]Training 3/3 epoch (loss 0.0772):  88%|████████▊ | 14891/16950 [2:42:12<22:48,  1.50it/s]Training 3/3 epoch (loss 0.0037):  88%|████████▊ | 14891/16950 [2:42:13<22:48,  1.50it/s]Training 3/3 epoch (loss 0.0037):  88%|████████▊ | 14892/16950 [2:42:13<25:07,  1.37it/s]Training 3/3 epoch (loss 0.5843):  88%|████████▊ | 14892/16950 [2:42:14<25:07,  1.37it/s]Training 3/3 epoch (loss 0.5843):  88%|████████▊ | 14893/16950 [2:42:14<25:31,  1.34it/s]Training 3/3 epoch (loss 0.5030):  88%|████████▊ | 14893/16950 [2:42:15<25:31,  1.34it/s]Training 3/3 epoch (loss 0.5030):  88%|████████▊ | 14894/16950 [2:42:15<26:47,  1.28it/s]Training 3/3 epoch (loss 0.0089):  88%|████████▊ | 14894/16950 [2:42:15<26:47,  1.28it/s]Training 3/3 epoch (loss 0.0089):  88%|████████▊ | 14895/16950 [2:42:15<25:10,  1.36it/s]Training 3/3 epoch (loss 0.0031):  88%|████████▊ | 14895/16950 [2:42:16<25:10,  1.36it/s]Training 3/3 epoch (loss 0.0031):  88%|████████▊ | 14896/16950 [2:42:16<22:19,  1.53it/s]Training 3/3 epoch (loss 0.1216):  88%|████████▊ | 14896/16950 [2:42:16<22:19,  1.53it/s]Training 3/3 epoch (loss 0.1216):  88%|████████▊ | 14897/16950 [2:42:16<21:50,  1.57it/s]Training 3/3 epoch (loss 0.2876):  88%|████████▊ | 14897/16950 [2:42:17<21:50,  1.57it/s]Training 3/3 epoch (loss 0.2876):  88%|████████▊ | 14898/16950 [2:42:17<21:46,  1.57it/s]Training 3/3 epoch (loss 0.0002):  88%|████████▊ | 14898/16950 [2:42:17<21:46,  1.57it/s]Training 3/3 epoch (loss 0.0002):  88%|████████▊ | 14899/16950 [2:42:17<20:22,  1.68it/s]Training 3/3 epoch (loss 0.0079):  88%|████████▊ | 14899/16950 [2:42:18<20:22,  1.68it/s]Training 3/3 epoch (loss 0.0079):  88%|████████▊ | 14900/16950 [2:42:18<18:13,  1.87it/s]Training 3/3 epoch (loss 0.0110):  88%|████████▊ | 14900/16950 [2:42:18<18:13,  1.87it/s]Training 3/3 epoch (loss 0.0110):  88%|████████▊ | 14901/16950 [2:42:18<19:18,  1.77it/s]Training 3/3 epoch (loss 0.0007):  88%|████████▊ | 14901/16950 [2:42:19<19:18,  1.77it/s]Training 3/3 epoch (loss 0.0007):  88%|████████▊ | 14902/16950 [2:42:19<18:31,  1.84it/s]Training 3/3 epoch (loss 0.0001):  88%|████████▊ | 14902/16950 [2:42:19<18:31,  1.84it/s]Training 3/3 epoch (loss 0.0001):  88%|████████▊ | 14903/16950 [2:42:19<16:32,  2.06it/s]Training 3/3 epoch (loss 0.0184):  88%|████████▊ | 14903/16950 [2:42:20<16:32,  2.06it/s]Training 3/3 epoch (loss 0.0184):  88%|████████▊ | 14904/16950 [2:42:20<17:47,  1.92it/s]Training 3/3 epoch (loss 0.7088):  88%|████████▊ | 14904/16950 [2:42:20<17:47,  1.92it/s]Training 3/3 epoch (loss 0.7088):  88%|████████▊ | 14905/16950 [2:42:20<17:19,  1.97it/s]Training 3/3 epoch (loss 0.0315):  88%|████████▊ | 14905/16950 [2:42:21<17:19,  1.97it/s]Training 3/3 epoch (loss 0.0315):  88%|████████▊ | 14906/16950 [2:42:21<16:31,  2.06it/s]Training 3/3 epoch (loss 0.7418):  88%|████████▊ | 14906/16950 [2:42:21<16:31,  2.06it/s]Training 3/3 epoch (loss 0.7418):  88%|████████▊ | 14907/16950 [2:42:21<15:35,  2.18it/s]Training 3/3 epoch (loss 0.0783):  88%|████████▊ | 14907/16950 [2:42:22<15:35,  2.18it/s]Training 3/3 epoch (loss 0.0783):  88%|████████▊ | 14908/16950 [2:42:22<14:32,  2.34it/s]Training 3/3 epoch (loss 0.0409):  88%|████████▊ | 14908/16950 [2:42:22<14:32,  2.34it/s]Training 3/3 epoch (loss 0.0409):  88%|████████▊ | 14909/16950 [2:42:22<16:18,  2.09it/s]Training 3/3 epoch (loss 0.1152):  88%|████████▊ | 14909/16950 [2:42:23<16:18,  2.09it/s]Training 3/3 epoch (loss 0.1152):  88%|████████▊ | 14910/16950 [2:42:23<16:40,  2.04it/s]Training 3/3 epoch (loss 0.0020):  88%|████████▊ | 14910/16950 [2:42:23<16:40,  2.04it/s]Training 3/3 epoch (loss 0.0020):  88%|████████▊ | 14911/16950 [2:42:23<17:53,  1.90it/s]Training 3/3 epoch (loss 0.1471):  88%|████████▊ | 14911/16950 [2:42:24<17:53,  1.90it/s]Training 3/3 epoch (loss 0.1471):  88%|████████▊ | 14912/16950 [2:42:24<16:56,  2.01it/s]Training 3/3 epoch (loss 0.2486):  88%|████████▊ | 14912/16950 [2:42:24<16:56,  2.01it/s]Training 3/3 epoch (loss 0.2486):  88%|████████▊ | 14913/16950 [2:42:24<17:42,  1.92it/s]Training 3/3 epoch (loss 0.0031):  88%|████████▊ | 14913/16950 [2:42:25<17:42,  1.92it/s]Training 3/3 epoch (loss 0.0031):  88%|████████▊ | 14914/16950 [2:42:25<19:03,  1.78it/s]Training 3/3 epoch (loss 0.0107):  88%|████████▊ | 14914/16950 [2:42:25<19:03,  1.78it/s]Training 3/3 epoch (loss 0.0107):  88%|████████▊ | 14915/16950 [2:42:25<18:31,  1.83it/s]Training 3/3 epoch (loss 0.6627):  88%|████████▊ | 14915/16950 [2:42:26<18:31,  1.83it/s]Training 3/3 epoch (loss 0.6627):  88%|████████▊ | 14916/16950 [2:42:26<18:53,  1.79it/s]Training 3/3 epoch (loss 0.4339):  88%|████████▊ | 14916/16950 [2:42:27<18:53,  1.79it/s]Training 3/3 epoch (loss 0.4339):  88%|████████▊ | 14917/16950 [2:42:27<22:46,  1.49it/s]Training 3/3 epoch (loss 0.0449):  88%|████████▊ | 14917/16950 [2:42:27<22:46,  1.49it/s]Training 3/3 epoch (loss 0.0449):  88%|████████▊ | 14918/16950 [2:42:27<21:03,  1.61it/s]Training 3/3 epoch (loss 0.0200):  88%|████████▊ | 14918/16950 [2:42:28<21:03,  1.61it/s]Training 3/3 epoch (loss 0.0200):  88%|████████▊ | 14919/16950 [2:42:28<19:27,  1.74it/s]Training 3/3 epoch (loss 0.5602):  88%|████████▊ | 14919/16950 [2:42:28<19:27,  1.74it/s]Training 3/3 epoch (loss 0.5602):  88%|████████▊ | 14920/16950 [2:42:28<18:38,  1.81it/s]Training 3/3 epoch (loss 0.0070):  88%|████████▊ | 14920/16950 [2:42:29<18:38,  1.81it/s]Training 3/3 epoch (loss 0.0070):  88%|████████▊ | 14921/16950 [2:42:29<20:51,  1.62it/s]Training 3/3 epoch (loss 0.0020):  88%|████████▊ | 14921/16950 [2:42:30<20:51,  1.62it/s]Training 3/3 epoch (loss 0.0020):  88%|████████▊ | 14922/16950 [2:42:30<19:26,  1.74it/s]Training 3/3 epoch (loss 0.1074):  88%|████████▊ | 14922/16950 [2:42:31<19:26,  1.74it/s]Training 3/3 epoch (loss 0.1074):  88%|████████▊ | 14923/16950 [2:42:31<25:08,  1.34it/s]Training 3/3 epoch (loss 0.6218):  88%|████████▊ | 14923/16950 [2:42:31<25:08,  1.34it/s]Training 3/3 epoch (loss 0.6218):  88%|████████▊ | 14924/16950 [2:42:31<22:43,  1.49it/s]Training 3/3 epoch (loss 0.0218):  88%|████████▊ | 14924/16950 [2:42:32<22:43,  1.49it/s]Training 3/3 epoch (loss 0.0218):  88%|████████▊ | 14925/16950 [2:42:32<20:49,  1.62it/s]Training 3/3 epoch (loss 0.0127):  88%|████████▊ | 14925/16950 [2:42:32<20:49,  1.62it/s]Training 3/3 epoch (loss 0.0127):  88%|████████▊ | 14926/16950 [2:42:32<20:30,  1.65it/s]Training 3/3 epoch (loss 0.0024):  88%|████████▊ | 14926/16950 [2:42:33<20:30,  1.65it/s]Training 3/3 epoch (loss 0.0024):  88%|████████▊ | 14927/16950 [2:42:33<18:47,  1.79it/s]Training 3/3 epoch (loss 0.2416):  88%|████████▊ | 14927/16950 [2:42:33<18:47,  1.79it/s]Training 3/3 epoch (loss 0.2416):  88%|████████▊ | 14928/16950 [2:42:33<17:28,  1.93it/s]Training 3/3 epoch (loss 0.3003):  88%|████████▊ | 14928/16950 [2:42:34<17:28,  1.93it/s]Training 3/3 epoch (loss 0.3003):  88%|████████▊ | 14929/16950 [2:42:34<15:34,  2.16it/s]Training 3/3 epoch (loss 0.0612):  88%|████████▊ | 14929/16950 [2:42:34<15:34,  2.16it/s]Training 3/3 epoch (loss 0.0612):  88%|████████▊ | 14930/16950 [2:42:34<15:18,  2.20it/s]Training 3/3 epoch (loss 0.0058):  88%|████████▊ | 14930/16950 [2:42:35<15:18,  2.20it/s]Training 3/3 epoch (loss 0.0058):  88%|████████▊ | 14931/16950 [2:42:35<15:41,  2.14it/s]Training 3/3 epoch (loss 0.4558):  88%|████████▊ | 14931/16950 [2:42:35<15:41,  2.14it/s]Training 3/3 epoch (loss 0.4558):  88%|████████▊ | 14932/16950 [2:42:35<14:52,  2.26it/s]Training 3/3 epoch (loss 0.1064):  88%|████████▊ | 14932/16950 [2:42:35<14:52,  2.26it/s]Training 3/3 epoch (loss 0.1064):  88%|████████▊ | 14933/16950 [2:42:35<15:56,  2.11it/s]Training 3/3 epoch (loss 0.2236):  88%|████████▊ | 14933/16950 [2:42:36<15:56,  2.11it/s]Training 3/3 epoch (loss 0.2236):  88%|████████▊ | 14934/16950 [2:42:36<16:32,  2.03it/s]Training 3/3 epoch (loss 0.2139):  88%|████████▊ | 14934/16950 [2:42:37<16:32,  2.03it/s]Training 3/3 epoch (loss 0.2139):  88%|████████▊ | 14935/16950 [2:42:37<17:35,  1.91it/s]Training 3/3 epoch (loss 0.1244):  88%|████████▊ | 14935/16950 [2:42:37<17:35,  1.91it/s]Training 3/3 epoch (loss 0.1244):  88%|████████▊ | 14936/16950 [2:42:37<19:22,  1.73it/s]Training 3/3 epoch (loss 0.1909):  88%|████████▊ | 14936/16950 [2:42:38<19:22,  1.73it/s]Training 3/3 epoch (loss 0.1909):  88%|████████▊ | 14937/16950 [2:42:38<19:45,  1.70it/s]Training 3/3 epoch (loss 0.6329):  88%|████████▊ | 14937/16950 [2:42:39<19:45,  1.70it/s]Training 3/3 epoch (loss 0.6329):  88%|████████▊ | 14938/16950 [2:42:39<23:42,  1.41it/s]Training 3/3 epoch (loss 0.5275):  88%|████████▊ | 14938/16950 [2:42:40<23:42,  1.41it/s]Training 3/3 epoch (loss 0.5275):  88%|████████▊ | 14939/16950 [2:42:40<27:52,  1.20it/s]Training 3/3 epoch (loss 0.0292):  88%|████████▊ | 14939/16950 [2:42:41<27:52,  1.20it/s]Training 3/3 epoch (loss 0.0292):  88%|████████▊ | 14940/16950 [2:42:41<27:00,  1.24it/s]Training 3/3 epoch (loss 0.0003):  88%|████████▊ | 14940/16950 [2:42:41<27:00,  1.24it/s]Training 3/3 epoch (loss 0.0003):  88%|████████▊ | 14941/16950 [2:42:41<24:06,  1.39it/s]Training 3/3 epoch (loss 0.0049):  88%|████████▊ | 14941/16950 [2:42:42<24:06,  1.39it/s]Training 3/3 epoch (loss 0.0049):  88%|████████▊ | 14942/16950 [2:42:42<21:49,  1.53it/s]Training 3/3 epoch (loss 0.2764):  88%|████████▊ | 14942/16950 [2:42:43<21:49,  1.53it/s]Training 3/3 epoch (loss 0.2764):  88%|████████▊ | 14943/16950 [2:42:43<22:19,  1.50it/s]Training 3/3 epoch (loss 0.0529):  88%|████████▊ | 14943/16950 [2:42:43<22:19,  1.50it/s]Training 3/3 epoch (loss 0.0529):  88%|████████▊ | 14944/16950 [2:42:43<21:24,  1.56it/s]Training 3/3 epoch (loss 0.0001):  88%|████████▊ | 14944/16950 [2:42:43<21:24,  1.56it/s]Training 3/3 epoch (loss 0.0001):  88%|████████▊ | 14945/16950 [2:42:43<18:49,  1.78it/s]Training 3/3 epoch (loss 0.4479):  88%|████████▊ | 14945/16950 [2:42:44<18:49,  1.78it/s]Training 3/3 epoch (loss 0.4479):  88%|████████▊ | 14946/16950 [2:42:44<16:21,  2.04it/s]Training 3/3 epoch (loss 0.2360):  88%|████████▊ | 14946/16950 [2:42:44<16:21,  2.04it/s]Training 3/3 epoch (loss 0.2360):  88%|████████▊ | 14947/16950 [2:42:44<15:08,  2.20it/s]Training 3/3 epoch (loss 0.0020):  88%|████████▊ | 14947/16950 [2:42:45<15:08,  2.20it/s]Training 3/3 epoch (loss 0.0020):  88%|████████▊ | 14948/16950 [2:42:45<15:28,  2.16it/s]Training 3/3 epoch (loss 0.4378):  88%|████████▊ | 14948/16950 [2:42:45<15:28,  2.16it/s]Training 3/3 epoch (loss 0.4378):  88%|████████▊ | 14949/16950 [2:42:45<15:58,  2.09it/s]Training 3/3 epoch (loss 0.3951):  88%|████████▊ | 14949/16950 [2:42:46<15:58,  2.09it/s]Training 3/3 epoch (loss 0.3951):  88%|████████▊ | 14950/16950 [2:42:46<20:31,  1.62it/s]Training 3/3 epoch (loss 0.2759):  88%|████████▊ | 14950/16950 [2:42:47<20:31,  1.62it/s]Training 3/3 epoch (loss 0.2759):  88%|████████▊ | 14951/16950 [2:42:47<20:53,  1.59it/s]Training 3/3 epoch (loss 0.3101):  88%|████████▊ | 14951/16950 [2:42:47<20:53,  1.59it/s]Training 3/3 epoch (loss 0.3101):  88%|████████▊ | 14952/16950 [2:42:47<21:41,  1.54it/s]Training 3/3 epoch (loss 0.0507):  88%|████████▊ | 14952/16950 [2:42:48<21:41,  1.54it/s]Training 3/3 epoch (loss 0.0507):  88%|████████▊ | 14953/16950 [2:42:48<22:13,  1.50it/s]Training 3/3 epoch (loss 0.4203):  88%|████████▊ | 14953/16950 [2:42:49<22:13,  1.50it/s]Training 3/3 epoch (loss 0.4203):  88%|████████▊ | 14954/16950 [2:42:49<20:43,  1.61it/s]Training 3/3 epoch (loss 0.0008):  88%|████████▊ | 14954/16950 [2:42:49<20:43,  1.61it/s]Training 3/3 epoch (loss 0.0008):  88%|████████▊ | 14955/16950 [2:42:49<19:54,  1.67it/s]Training 3/3 epoch (loss 0.0269):  88%|████████▊ | 14955/16950 [2:42:50<19:54,  1.67it/s]Training 3/3 epoch (loss 0.0269):  88%|████████▊ | 14956/16950 [2:42:50<20:14,  1.64it/s]Training 3/3 epoch (loss 0.0007):  88%|████████▊ | 14956/16950 [2:42:50<20:14,  1.64it/s]Training 3/3 epoch (loss 0.0007):  88%|████████▊ | 14957/16950 [2:42:50<17:32,  1.89it/s]Training 3/3 epoch (loss 0.0004):  88%|████████▊ | 14957/16950 [2:42:51<17:32,  1.89it/s]Training 3/3 epoch (loss 0.0004):  88%|████████▊ | 14958/16950 [2:42:51<17:19,  1.92it/s]Training 3/3 epoch (loss 0.4068):  88%|████████▊ | 14958/16950 [2:42:51<17:19,  1.92it/s]Training 3/3 epoch (loss 0.4068):  88%|████████▊ | 14959/16950 [2:42:51<16:05,  2.06it/s]Training 3/3 epoch (loss 0.0691):  88%|████████▊ | 14959/16950 [2:42:52<16:05,  2.06it/s]Training 3/3 epoch (loss 0.0691):  88%|████████▊ | 14960/16950 [2:42:52<17:31,  1.89it/s]Training 3/3 epoch (loss 0.0335):  88%|████████▊ | 14960/16950 [2:42:52<17:31,  1.89it/s]Training 3/3 epoch (loss 0.0335):  88%|████████▊ | 14961/16950 [2:42:52<16:37,  1.99it/s]Training 3/3 epoch (loss 0.3055):  88%|████████▊ | 14961/16950 [2:42:52<16:37,  1.99it/s]Training 3/3 epoch (loss 0.3055):  88%|████████▊ | 14962/16950 [2:42:52<14:28,  2.29it/s]Training 3/3 epoch (loss 0.0048):  88%|████████▊ | 14962/16950 [2:42:53<14:28,  2.29it/s]Training 3/3 epoch (loss 0.0048):  88%|████████▊ | 14963/16950 [2:42:53<13:59,  2.37it/s]Training 3/3 epoch (loss 0.0087):  88%|████████▊ | 14963/16950 [2:42:53<13:59,  2.37it/s]Training 3/3 epoch (loss 0.0087):  88%|████████▊ | 14964/16950 [2:42:53<15:08,  2.19it/s]Training 3/3 epoch (loss 0.0009):  88%|████████▊ | 14964/16950 [2:42:54<15:08,  2.19it/s]Training 3/3 epoch (loss 0.0009):  88%|████████▊ | 14965/16950 [2:42:54<15:11,  2.18it/s]Training 3/3 epoch (loss 0.2257):  88%|████████▊ | 14965/16950 [2:42:54<15:11,  2.18it/s]Training 3/3 epoch (loss 0.2257):  88%|████████▊ | 14966/16950 [2:42:54<16:34,  2.00it/s]Training 3/3 epoch (loss 0.0031):  88%|████████▊ | 14966/16950 [2:42:55<16:34,  2.00it/s]Training 3/3 epoch (loss 0.0031):  88%|████████▊ | 14967/16950 [2:42:55<18:48,  1.76it/s]Training 3/3 epoch (loss 0.4137):  88%|████████▊ | 14967/16950 [2:42:56<18:48,  1.76it/s]Training 3/3 epoch (loss 0.4137):  88%|████████▊ | 14968/16950 [2:42:56<18:56,  1.74it/s]Training 3/3 epoch (loss 0.0114):  88%|████████▊ | 14968/16950 [2:42:56<18:56,  1.74it/s]Training 3/3 epoch (loss 0.0114):  88%|████████▊ | 14969/16950 [2:42:56<18:25,  1.79it/s]Training 3/3 epoch (loss 0.0260):  88%|████████▊ | 14969/16950 [2:42:57<18:25,  1.79it/s]Training 3/3 epoch (loss 0.0260):  88%|████████▊ | 14970/16950 [2:42:57<19:34,  1.69it/s]Training 3/3 epoch (loss 0.0266):  88%|████████▊ | 14970/16950 [2:42:58<19:34,  1.69it/s]Training 3/3 epoch (loss 0.0266):  88%|████████▊ | 14971/16950 [2:42:58<21:14,  1.55it/s]Training 3/3 epoch (loss 0.4094):  88%|████████▊ | 14971/16950 [2:42:59<21:14,  1.55it/s]Training 3/3 epoch (loss 0.4094):  88%|████████▊ | 14972/16950 [2:42:59<25:00,  1.32it/s]Training 3/3 epoch (loss 0.2941):  88%|████████▊ | 14972/16950 [2:42:59<25:00,  1.32it/s]Training 3/3 epoch (loss 0.2941):  88%|████████▊ | 14973/16950 [2:42:59<22:58,  1.43it/s]Training 3/3 epoch (loss 0.2498):  88%|████████▊ | 14973/16950 [2:43:00<22:58,  1.43it/s]Training 3/3 epoch (loss 0.2498):  88%|████████▊ | 14974/16950 [2:43:00<21:13,  1.55it/s]Training 3/3 epoch (loss 0.0822):  88%|████████▊ | 14974/16950 [2:43:00<21:13,  1.55it/s]Training 3/3 epoch (loss 0.0822):  88%|████████▊ | 14975/16950 [2:43:00<19:49,  1.66it/s]Training 3/3 epoch (loss 0.0006):  88%|████████▊ | 14975/16950 [2:43:01<19:49,  1.66it/s]Training 3/3 epoch (loss 0.0006):  88%|████████▊ | 14976/16950 [2:43:01<18:34,  1.77it/s]Training 3/3 epoch (loss 0.0043):  88%|████████▊ | 14976/16950 [2:43:01<18:34,  1.77it/s]Training 3/3 epoch (loss 0.0043):  88%|████████▊ | 14977/16950 [2:43:01<17:36,  1.87it/s]Training 3/3 epoch (loss 0.0816):  88%|████████▊ | 14977/16950 [2:43:02<17:36,  1.87it/s]Training 3/3 epoch (loss 0.0816):  88%|████████▊ | 14978/16950 [2:43:02<18:27,  1.78it/s]Training 3/3 epoch (loss 0.0154):  88%|████████▊ | 14978/16950 [2:43:03<18:27,  1.78it/s]Training 3/3 epoch (loss 0.0154):  88%|████████▊ | 14979/16950 [2:43:03<19:01,  1.73it/s]Training 3/3 epoch (loss 0.0289):  88%|████████▊ | 14979/16950 [2:43:03<19:01,  1.73it/s]Training 3/3 epoch (loss 0.0289):  88%|████████▊ | 14980/16950 [2:43:03<19:34,  1.68it/s]Training 3/3 epoch (loss 0.0385):  88%|████████▊ | 14980/16950 [2:43:04<19:34,  1.68it/s]Training 3/3 epoch (loss 0.0385):  88%|████████▊ | 14981/16950 [2:43:04<19:49,  1.65it/s]Training 3/3 epoch (loss 0.1190):  88%|████████▊ | 14981/16950 [2:43:05<19:49,  1.65it/s]Training 3/3 epoch (loss 0.1190):  88%|████████▊ | 14982/16950 [2:43:05<22:40,  1.45it/s]Training 3/3 epoch (loss 0.2806):  88%|████████▊ | 14982/16950 [2:43:05<22:40,  1.45it/s]Training 3/3 epoch (loss 0.2806):  88%|████████▊ | 14983/16950 [2:43:05<20:22,  1.61it/s]Training 3/3 epoch (loss 0.3900):  88%|████████▊ | 14983/16950 [2:43:06<20:22,  1.61it/s]Training 3/3 epoch (loss 0.3900):  88%|████████▊ | 14984/16950 [2:43:06<20:02,  1.63it/s]Training 3/3 epoch (loss 0.6183):  88%|████████▊ | 14984/16950 [2:43:07<20:02,  1.63it/s]Training 3/3 epoch (loss 0.6183):  88%|████████▊ | 14985/16950 [2:43:07<24:09,  1.36it/s]Training 3/3 epoch (loss 0.3362):  88%|████████▊ | 14985/16950 [2:43:07<24:09,  1.36it/s]Training 3/3 epoch (loss 0.3362):  88%|████████▊ | 14986/16950 [2:43:07<22:28,  1.46it/s]Training 3/3 epoch (loss 0.1218):  88%|████████▊ | 14986/16950 [2:43:08<22:28,  1.46it/s]Training 3/3 epoch (loss 0.1218):  88%|████████▊ | 14987/16950 [2:43:08<22:07,  1.48it/s]Training 3/3 epoch (loss 0.0688):  88%|████████▊ | 14987/16950 [2:43:09<22:07,  1.48it/s]Training 3/3 epoch (loss 0.0688):  88%|████████▊ | 14988/16950 [2:43:09<21:01,  1.56it/s]Training 3/3 epoch (loss 0.0888):  88%|████████▊ | 14988/16950 [2:43:09<21:01,  1.56it/s]Training 3/3 epoch (loss 0.0888):  88%|████████▊ | 14989/16950 [2:43:09<19:37,  1.67it/s]Training 3/3 epoch (loss 0.0126):  88%|████████▊ | 14989/16950 [2:43:10<19:37,  1.67it/s]Training 3/3 epoch (loss 0.0126):  88%|████████▊ | 14990/16950 [2:43:10<19:06,  1.71it/s]Training 3/3 epoch (loss 0.2549):  88%|████████▊ | 14990/16950 [2:43:10<19:06,  1.71it/s]Training 3/3 epoch (loss 0.2549):  88%|████████▊ | 14991/16950 [2:43:10<17:11,  1.90it/s]Training 3/3 epoch (loss 0.0006):  88%|████████▊ | 14991/16950 [2:43:10<17:11,  1.90it/s]Training 3/3 epoch (loss 0.0006):  88%|████████▊ | 14992/16950 [2:43:10<16:10,  2.02it/s]Training 3/3 epoch (loss 0.0002):  88%|████████▊ | 14992/16950 [2:43:11<16:10,  2.02it/s]Training 3/3 epoch (loss 0.0002):  88%|████████▊ | 14993/16950 [2:43:11<15:46,  2.07it/s]Training 3/3 epoch (loss 0.5895):  88%|████████▊ | 14993/16950 [2:43:11<15:46,  2.07it/s]Training 3/3 epoch (loss 0.5895):  88%|████████▊ | 14994/16950 [2:43:11<15:13,  2.14it/s]Training 3/3 epoch (loss 0.0000):  88%|████████▊ | 14994/16950 [2:43:12<15:13,  2.14it/s]Training 3/3 epoch (loss 0.0000):  88%|████████▊ | 14995/16950 [2:43:12<14:08,  2.30it/s]Training 3/3 epoch (loss 0.3722):  88%|████████▊ | 14995/16950 [2:43:12<14:08,  2.30it/s]Training 3/3 epoch (loss 0.3722):  88%|████████▊ | 14996/16950 [2:43:12<13:18,  2.45it/s]Training 3/3 epoch (loss 0.4965):  88%|████████▊ | 14996/16950 [2:43:13<13:18,  2.45it/s]Training 3/3 epoch (loss 0.4965):  88%|████████▊ | 14997/16950 [2:43:13<16:57,  1.92it/s]Training 3/3 epoch (loss 0.0052):  88%|████████▊ | 14997/16950 [2:43:13<16:57,  1.92it/s]Training 3/3 epoch (loss 0.0052):  88%|████████▊ | 14998/16950 [2:43:13<17:28,  1.86it/s]Training 3/3 epoch (loss 0.0016):  88%|████████▊ | 14998/16950 [2:43:14<17:28,  1.86it/s]Training 3/3 epoch (loss 0.0016):  88%|████████▊ | 14999/16950 [2:43:14<15:42,  2.07it/s]Training 3/3 epoch (loss 0.0640):  88%|████████▊ | 14999/16950 [2:43:14<15:42,  2.07it/s]Training 3/3 epoch (loss 0.0640):  88%|████████▊ | 15000/16950 [2:43:14<16:53,  1.92it/s]Training 3/3 epoch (loss 0.2206):  88%|████████▊ | 15000/16950 [2:43:15<16:53,  1.92it/s]Training 3/3 epoch (loss 0.2206):  89%|████████▊ | 15001/16950 [2:43:15<18:39,  1.74it/s]Training 3/3 epoch (loss 0.3870):  89%|████████▊ | 15001/16950 [2:43:16<18:39,  1.74it/s]Training 3/3 epoch (loss 0.3870):  89%|████████▊ | 15002/16950 [2:43:16<20:29,  1.58it/s]Training 3/3 epoch (loss 0.0011):  89%|████████▊ | 15002/16950 [2:43:16<20:29,  1.58it/s]Training 3/3 epoch (loss 0.0011):  89%|████████▊ | 15003/16950 [2:43:16<18:33,  1.75it/s]Training 3/3 epoch (loss 0.0036):  89%|████████▊ | 15003/16950 [2:43:17<18:33,  1.75it/s]Training 3/3 epoch (loss 0.0036):  89%|████████▊ | 15004/16950 [2:43:17<17:42,  1.83it/s]Training 3/3 epoch (loss 0.0080):  89%|████████▊ | 15004/16950 [2:43:17<17:42,  1.83it/s]Training 3/3 epoch (loss 0.0080):  89%|████████▊ | 15005/16950 [2:43:17<17:24,  1.86it/s]Training 3/3 epoch (loss 0.0005):  89%|████████▊ | 15005/16950 [2:43:18<17:24,  1.86it/s]Training 3/3 epoch (loss 0.0005):  89%|████████▊ | 15006/16950 [2:43:18<17:24,  1.86it/s]Training 3/3 epoch (loss 0.0001):  89%|████████▊ | 15006/16950 [2:43:18<17:24,  1.86it/s]Training 3/3 epoch (loss 0.0001):  89%|████████▊ | 15007/16950 [2:43:18<18:29,  1.75it/s]Training 3/3 epoch (loss 0.0053):  89%|████████▊ | 15007/16950 [2:43:19<18:29,  1.75it/s]Training 3/3 epoch (loss 0.0053):  89%|████████▊ | 15008/16950 [2:43:19<18:17,  1.77it/s]Training 3/3 epoch (loss 0.0008):  89%|████████▊ | 15008/16950 [2:43:20<18:17,  1.77it/s]Training 3/3 epoch (loss 0.0008):  89%|████████▊ | 15009/16950 [2:43:20<18:47,  1.72it/s]Training 3/3 epoch (loss 0.2183):  89%|████████▊ | 15009/16950 [2:43:20<18:47,  1.72it/s]Training 3/3 epoch (loss 0.2183):  89%|████████▊ | 15010/16950 [2:43:20<19:36,  1.65it/s]Training 3/3 epoch (loss 0.0011):  89%|████████▊ | 15010/16950 [2:43:21<19:36,  1.65it/s]Training 3/3 epoch (loss 0.0011):  89%|████████▊ | 15011/16950 [2:43:21<18:19,  1.76it/s]Training 3/3 epoch (loss 0.1462):  89%|████████▊ | 15011/16950 [2:43:21<18:19,  1.76it/s]Training 3/3 epoch (loss 0.1462):  89%|████████▊ | 15012/16950 [2:43:21<17:28,  1.85it/s]Training 3/3 epoch (loss 0.0005):  89%|████████▊ | 15012/16950 [2:43:22<17:28,  1.85it/s]Training 3/3 epoch (loss 0.0005):  89%|████████▊ | 15013/16950 [2:43:22<16:58,  1.90it/s]Training 3/3 epoch (loss 0.0454):  89%|████████▊ | 15013/16950 [2:43:22<16:58,  1.90it/s]Training 3/3 epoch (loss 0.0454):  89%|████████▊ | 15014/16950 [2:43:22<18:14,  1.77it/s]Training 3/3 epoch (loss 0.0724):  89%|████████▊ | 15014/16950 [2:43:23<18:14,  1.77it/s]Training 3/3 epoch (loss 0.0724):  89%|████████▊ | 15015/16950 [2:43:23<18:26,  1.75it/s]Training 3/3 epoch (loss 0.6660):  89%|████████▊ | 15015/16950 [2:43:23<18:26,  1.75it/s]Training 3/3 epoch (loss 0.6660):  89%|████████▊ | 15016/16950 [2:43:23<17:18,  1.86it/s]Training 3/3 epoch (loss 0.3208):  89%|████████▊ | 15016/16950 [2:43:24<17:18,  1.86it/s]Training 3/3 epoch (loss 0.3208):  89%|████████▊ | 15017/16950 [2:43:24<19:36,  1.64it/s]Training 3/3 epoch (loss 0.0045):  89%|████████▊ | 15017/16950 [2:43:25<19:36,  1.64it/s]Training 3/3 epoch (loss 0.0045):  89%|████████▊ | 15018/16950 [2:43:25<19:50,  1.62it/s]Training 3/3 epoch (loss 0.0057):  89%|████████▊ | 15018/16950 [2:43:25<19:50,  1.62it/s]Training 3/3 epoch (loss 0.0057):  89%|████████▊ | 15019/16950 [2:43:25<19:14,  1.67it/s]Training 3/3 epoch (loss 0.2071):  89%|████████▊ | 15019/16950 [2:43:26<19:14,  1.67it/s]Training 3/3 epoch (loss 0.2071):  89%|████████▊ | 15020/16950 [2:43:26<21:10,  1.52it/s]Training 3/3 epoch (loss 0.0475):  89%|████████▊ | 15020/16950 [2:43:27<21:10,  1.52it/s]Training 3/3 epoch (loss 0.0475):  89%|████████▊ | 15021/16950 [2:43:27<20:24,  1.58it/s]Training 3/3 epoch (loss 0.0044):  89%|████████▊ | 15021/16950 [2:43:27<20:24,  1.58it/s]Training 3/3 epoch (loss 0.0044):  89%|████████▊ | 15022/16950 [2:43:27<20:30,  1.57it/s]Training 3/3 epoch (loss 0.2523):  89%|████████▊ | 15022/16950 [2:43:28<20:30,  1.57it/s]Training 3/3 epoch (loss 0.2523):  89%|████████▊ | 15023/16950 [2:43:28<20:11,  1.59it/s]Training 3/3 epoch (loss 0.4349):  89%|████████▊ | 15023/16950 [2:43:29<20:11,  1.59it/s]Training 3/3 epoch (loss 0.4349):  89%|████████▊ | 15024/16950 [2:43:29<20:07,  1.60it/s]Training 3/3 epoch (loss 0.2595):  89%|████████▊ | 15024/16950 [2:43:29<20:07,  1.60it/s]Training 3/3 epoch (loss 0.2595):  89%|████████▊ | 15025/16950 [2:43:29<20:19,  1.58it/s]Training 3/3 epoch (loss 0.7038):  89%|████████▊ | 15025/16950 [2:43:30<20:19,  1.58it/s]Training 3/3 epoch (loss 0.7038):  89%|████████▊ | 15026/16950 [2:43:30<25:05,  1.28it/s]Training 3/3 epoch (loss 0.0211):  89%|████████▊ | 15026/16950 [2:43:31<25:05,  1.28it/s]Training 3/3 epoch (loss 0.0211):  89%|████████▊ | 15027/16950 [2:43:31<23:40,  1.35it/s]Training 3/3 epoch (loss 0.0018):  89%|████████▊ | 15027/16950 [2:43:32<23:40,  1.35it/s]Training 3/3 epoch (loss 0.0018):  89%|████████▊ | 15028/16950 [2:43:32<25:40,  1.25it/s]Training 3/3 epoch (loss 0.0048):  89%|████████▊ | 15028/16950 [2:43:33<25:40,  1.25it/s]Training 3/3 epoch (loss 0.0048):  89%|████████▊ | 15029/16950 [2:43:33<23:50,  1.34it/s]Training 3/3 epoch (loss 0.0166):  89%|████████▊ | 15029/16950 [2:43:33<23:50,  1.34it/s]Training 3/3 epoch (loss 0.0166):  89%|████████▊ | 15030/16950 [2:43:33<22:28,  1.42it/s]Training 3/3 epoch (loss 0.3666):  89%|████████▊ | 15030/16950 [2:43:34<22:28,  1.42it/s]Training 3/3 epoch (loss 0.3666):  89%|████████▊ | 15031/16950 [2:43:34<20:31,  1.56it/s]Training 3/3 epoch (loss 0.6380):  89%|████████▊ | 15031/16950 [2:43:34<20:31,  1.56it/s]Training 3/3 epoch (loss 0.6380):  89%|████████▊ | 15032/16950 [2:43:34<22:08,  1.44it/s]Training 3/3 epoch (loss 0.0035):  89%|████████▊ | 15032/16950 [2:43:35<22:08,  1.44it/s]Training 3/3 epoch (loss 0.0035):  89%|████████▊ | 15033/16950 [2:43:35<21:30,  1.49it/s]Training 3/3 epoch (loss 0.1231):  89%|████████▊ | 15033/16950 [2:43:36<21:30,  1.49it/s]Training 3/3 epoch (loss 0.1231):  89%|████████▊ | 15034/16950 [2:43:36<19:38,  1.63it/s]Training 3/3 epoch (loss 0.0014):  89%|████████▊ | 15034/16950 [2:43:36<19:38,  1.63it/s]Training 3/3 epoch (loss 0.0014):  89%|████████▊ | 15035/16950 [2:43:36<20:31,  1.55it/s]Training 3/3 epoch (loss 0.0333):  89%|████████▊ | 15035/16950 [2:43:37<20:31,  1.55it/s]Training 3/3 epoch (loss 0.0333):  89%|████████▊ | 15036/16950 [2:43:37<20:30,  1.56it/s]Training 3/3 epoch (loss 0.3178):  89%|████████▊ | 15036/16950 [2:43:37<20:30,  1.56it/s]Training 3/3 epoch (loss 0.3178):  89%|████████▊ | 15037/16950 [2:43:37<18:41,  1.71it/s]Training 3/3 epoch (loss 0.0049):  89%|████████▊ | 15037/16950 [2:43:38<18:41,  1.71it/s]Training 3/3 epoch (loss 0.0049):  89%|████████▊ | 15038/16950 [2:43:38<18:41,  1.70it/s]Training 3/3 epoch (loss 0.1061):  89%|████████▊ | 15038/16950 [2:43:39<18:41,  1.70it/s]Training 3/3 epoch (loss 0.1061):  89%|████████▊ | 15039/16950 [2:43:39<18:37,  1.71it/s]Training 3/3 epoch (loss 0.0009):  89%|████████▊ | 15039/16950 [2:43:39<18:37,  1.71it/s]Training 3/3 epoch (loss 0.0009):  89%|████████▊ | 15040/16950 [2:43:39<18:06,  1.76it/s]Training 3/3 epoch (loss 0.0200):  89%|████████▊ | 15040/16950 [2:43:40<18:06,  1.76it/s]Training 3/3 epoch (loss 0.0200):  89%|████████▊ | 15041/16950 [2:43:40<19:14,  1.65it/s]Training 3/3 epoch (loss 0.0116):  89%|████████▊ | 15041/16950 [2:43:40<19:14,  1.65it/s]Training 3/3 epoch (loss 0.0116):  89%|████████▊ | 15042/16950 [2:43:40<18:31,  1.72it/s]Training 3/3 epoch (loss 0.6926):  89%|████████▊ | 15042/16950 [2:43:41<18:31,  1.72it/s]Training 3/3 epoch (loss 0.6926):  89%|████████▊ | 15043/16950 [2:43:41<19:00,  1.67it/s]Training 3/3 epoch (loss 0.0471):  89%|████████▊ | 15043/16950 [2:43:41<19:00,  1.67it/s]Training 3/3 epoch (loss 0.0471):  89%|████████▉ | 15044/16950 [2:43:41<17:28,  1.82it/s]Training 3/3 epoch (loss 0.0062):  89%|████████▉ | 15044/16950 [2:43:42<17:28,  1.82it/s]Training 3/3 epoch (loss 0.0062):  89%|████████▉ | 15045/16950 [2:43:42<18:23,  1.73it/s]Training 3/3 epoch (loss 0.5545):  89%|████████▉ | 15045/16950 [2:43:43<18:23,  1.73it/s]Training 3/3 epoch (loss 0.5545):  89%|████████▉ | 15046/16950 [2:43:43<17:38,  1.80it/s]Training 3/3 epoch (loss 0.3796):  89%|████████▉ | 15046/16950 [2:43:43<17:38,  1.80it/s]Training 3/3 epoch (loss 0.3796):  89%|████████▉ | 15047/16950 [2:43:43<16:56,  1.87it/s]Training 3/3 epoch (loss 0.0227):  89%|████████▉ | 15047/16950 [2:43:43<16:56,  1.87it/s]Training 3/3 epoch (loss 0.0227):  89%|████████▉ | 15048/16950 [2:43:43<16:08,  1.96it/s]Training 3/3 epoch (loss 0.2756):  89%|████████▉ | 15048/16950 [2:43:44<16:08,  1.96it/s]Training 3/3 epoch (loss 0.2756):  89%|████████▉ | 15049/16950 [2:43:44<17:29,  1.81it/s]Training 3/3 epoch (loss 0.1853):  89%|████████▉ | 15049/16950 [2:43:45<17:29,  1.81it/s]Training 3/3 epoch (loss 0.1853):  89%|████████▉ | 15050/16950 [2:43:45<19:33,  1.62it/s]Training 3/3 epoch (loss 0.3294):  89%|████████▉ | 15050/16950 [2:43:46<19:33,  1.62it/s]Training 3/3 epoch (loss 0.3294):  89%|████████▉ | 15051/16950 [2:43:46<20:56,  1.51it/s]Training 3/3 epoch (loss 0.4065):  89%|████████▉ | 15051/16950 [2:43:46<20:56,  1.51it/s]Training 3/3 epoch (loss 0.4065):  89%|████████▉ | 15052/16950 [2:43:46<20:19,  1.56it/s]Training 3/3 epoch (loss 0.4025):  89%|████████▉ | 15052/16950 [2:43:47<20:19,  1.56it/s]Training 3/3 epoch (loss 0.4025):  89%|████████▉ | 15053/16950 [2:43:47<23:58,  1.32it/s]Training 3/3 epoch (loss 0.0212):  89%|████████▉ | 15053/16950 [2:43:48<23:58,  1.32it/s]Training 3/3 epoch (loss 0.0212):  89%|████████▉ | 15054/16950 [2:43:48<22:01,  1.43it/s]Training 3/3 epoch (loss 0.1451):  89%|████████▉ | 15054/16950 [2:43:48<22:01,  1.43it/s]Training 3/3 epoch (loss 0.1451):  89%|████████▉ | 15055/16950 [2:43:48<19:10,  1.65it/s]Training 3/3 epoch (loss 0.0157):  89%|████████▉ | 15055/16950 [2:43:49<19:10,  1.65it/s]Training 3/3 epoch (loss 0.0157):  89%|████████▉ | 15056/16950 [2:43:49<19:33,  1.61it/s]Training 3/3 epoch (loss 0.0565):  89%|████████▉ | 15056/16950 [2:43:50<19:33,  1.61it/s]Training 3/3 epoch (loss 0.0565):  89%|████████▉ | 15057/16950 [2:43:50<19:39,  1.60it/s]Training 3/3 epoch (loss 0.3658):  89%|████████▉ | 15057/16950 [2:43:50<19:39,  1.60it/s]Training 3/3 epoch (loss 0.3658):  89%|████████▉ | 15058/16950 [2:43:50<20:02,  1.57it/s]Training 3/3 epoch (loss 0.6526):  89%|████████▉ | 15058/16950 [2:43:51<20:02,  1.57it/s]Training 3/3 epoch (loss 0.6526):  89%|████████▉ | 15059/16950 [2:43:51<18:03,  1.75it/s]Training 3/3 epoch (loss 0.0136):  89%|████████▉ | 15059/16950 [2:43:51<18:03,  1.75it/s]Training 3/3 epoch (loss 0.0136):  89%|████████▉ | 15060/16950 [2:43:51<16:23,  1.92it/s]Training 3/3 epoch (loss 0.0004):  89%|████████▉ | 15060/16950 [2:43:51<16:23,  1.92it/s]Training 3/3 epoch (loss 0.0004):  89%|████████▉ | 15061/16950 [2:43:51<15:05,  2.09it/s]Training 3/3 epoch (loss 0.0231):  89%|████████▉ | 15061/16950 [2:43:52<15:05,  2.09it/s]Training 3/3 epoch (loss 0.0231):  89%|████████▉ | 15062/16950 [2:43:52<16:04,  1.96it/s]Training 3/3 epoch (loss 0.0073):  89%|████████▉ | 15062/16950 [2:43:52<16:04,  1.96it/s]Training 3/3 epoch (loss 0.0073):  89%|████████▉ | 15063/16950 [2:43:52<15:16,  2.06it/s]Training 3/3 epoch (loss 0.0006):  89%|████████▉ | 15063/16950 [2:43:53<15:16,  2.06it/s]Training 3/3 epoch (loss 0.0006):  89%|████████▉ | 15064/16950 [2:43:53<13:32,  2.32it/s]Training 3/3 epoch (loss 0.0107):  89%|████████▉ | 15064/16950 [2:43:53<13:32,  2.32it/s]Training 3/3 epoch (loss 0.0107):  89%|████████▉ | 15065/16950 [2:43:53<15:46,  1.99it/s]Training 3/3 epoch (loss 0.0050):  89%|████████▉ | 15065/16950 [2:43:54<15:46,  1.99it/s]Training 3/3 epoch (loss 0.0050):  89%|████████▉ | 15066/16950 [2:43:54<18:38,  1.68it/s]Training 3/3 epoch (loss 0.0054):  89%|████████▉ | 15066/16950 [2:43:55<18:38,  1.68it/s]Training 3/3 epoch (loss 0.0054):  89%|████████▉ | 15067/16950 [2:43:55<19:19,  1.62it/s]Training 3/3 epoch (loss 0.2467):  89%|████████▉ | 15067/16950 [2:43:56<19:19,  1.62it/s]Training 3/3 epoch (loss 0.2467):  89%|████████▉ | 15068/16950 [2:43:56<20:08,  1.56it/s]Training 3/3 epoch (loss 0.4530):  89%|████████▉ | 15068/16950 [2:43:56<20:08,  1.56it/s]Training 3/3 epoch (loss 0.4530):  89%|████████▉ | 15069/16950 [2:43:56<20:24,  1.54it/s]Training 3/3 epoch (loss 0.0001):  89%|████████▉ | 15069/16950 [2:43:57<20:24,  1.54it/s]Training 3/3 epoch (loss 0.0001):  89%|████████▉ | 15070/16950 [2:43:57<18:26,  1.70it/s]Training 3/3 epoch (loss 0.0003):  89%|████████▉ | 15070/16950 [2:43:57<18:26,  1.70it/s]Training 3/3 epoch (loss 0.0003):  89%|████████▉ | 15071/16950 [2:43:57<17:14,  1.82it/s]Training 3/3 epoch (loss 0.0001):  89%|████████▉ | 15071/16950 [2:43:58<17:14,  1.82it/s]Training 3/3 epoch (loss 0.0001):  89%|████████▉ | 15072/16950 [2:43:58<17:08,  1.83it/s]Training 3/3 epoch (loss 0.0190):  89%|████████▉ | 15072/16950 [2:43:58<17:08,  1.83it/s]Training 3/3 epoch (loss 0.0190):  89%|████████▉ | 15073/16950 [2:43:58<17:14,  1.81it/s]Training 3/3 epoch (loss 0.0363):  89%|████████▉ | 15073/16950 [2:43:59<17:14,  1.81it/s]Training 3/3 epoch (loss 0.0363):  89%|████████▉ | 15074/16950 [2:43:59<17:10,  1.82it/s]Training 3/3 epoch (loss 0.0256):  89%|████████▉ | 15074/16950 [2:43:59<17:10,  1.82it/s]Training 3/3 epoch (loss 0.0256):  89%|████████▉ | 15075/16950 [2:43:59<16:38,  1.88it/s]Training 3/3 epoch (loss 0.0312):  89%|████████▉ | 15075/16950 [2:44:00<16:38,  1.88it/s]Training 3/3 epoch (loss 0.0312):  89%|████████▉ | 15076/16950 [2:44:00<17:23,  1.80it/s]Training 3/3 epoch (loss 0.0000):  89%|████████▉ | 15076/16950 [2:44:00<17:23,  1.80it/s]Training 3/3 epoch (loss 0.0000):  89%|████████▉ | 15077/16950 [2:44:00<17:14,  1.81it/s]Training 3/3 epoch (loss 0.0477):  89%|████████▉ | 15077/16950 [2:44:01<17:14,  1.81it/s]Training 3/3 epoch (loss 0.0477):  89%|████████▉ | 15078/16950 [2:44:01<16:26,  1.90it/s]Training 3/3 epoch (loss 0.0006):  89%|████████▉ | 15078/16950 [2:44:01<16:26,  1.90it/s]Training 3/3 epoch (loss 0.0006):  89%|████████▉ | 15079/16950 [2:44:01<16:31,  1.89it/s]Training 3/3 epoch (loss 0.4569):  89%|████████▉ | 15079/16950 [2:44:03<16:31,  1.89it/s]Training 3/3 epoch (loss 0.4569):  89%|████████▉ | 15080/16950 [2:44:03<21:45,  1.43it/s]Training 3/3 epoch (loss 0.3396):  89%|████████▉ | 15080/16950 [2:44:03<21:45,  1.43it/s]Training 3/3 epoch (loss 0.3396):  89%|████████▉ | 15081/16950 [2:44:03<20:49,  1.50it/s]Training 3/3 epoch (loss 0.0190):  89%|████████▉ | 15081/16950 [2:44:04<20:49,  1.50it/s]Training 3/3 epoch (loss 0.0190):  89%|████████▉ | 15082/16950 [2:44:04<19:51,  1.57it/s]Training 3/3 epoch (loss 0.0231):  89%|████████▉ | 15082/16950 [2:44:04<19:51,  1.57it/s]Training 3/3 epoch (loss 0.0231):  89%|████████▉ | 15083/16950 [2:44:04<19:13,  1.62it/s]Training 3/3 epoch (loss 0.0131):  89%|████████▉ | 15083/16950 [2:44:05<19:13,  1.62it/s]Training 3/3 epoch (loss 0.0131):  89%|████████▉ | 15084/16950 [2:44:05<19:54,  1.56it/s]Training 3/3 epoch (loss 0.0032):  89%|████████▉ | 15084/16950 [2:44:05<19:54,  1.56it/s]Training 3/3 epoch (loss 0.0032):  89%|████████▉ | 15085/16950 [2:44:05<19:05,  1.63it/s]Training 3/3 epoch (loss 0.0107):  89%|████████▉ | 15085/16950 [2:44:06<19:05,  1.63it/s]Training 3/3 epoch (loss 0.0107):  89%|████████▉ | 15086/16950 [2:44:06<18:25,  1.69it/s]Training 3/3 epoch (loss 0.6969):  89%|████████▉ | 15086/16950 [2:44:07<18:25,  1.69it/s]Training 3/3 epoch (loss 0.6969):  89%|████████▉ | 15087/16950 [2:44:07<23:24,  1.33it/s]Training 3/3 epoch (loss 0.1367):  89%|████████▉ | 15087/16950 [2:44:08<23:24,  1.33it/s]Training 3/3 epoch (loss 0.1367):  89%|████████▉ | 15088/16950 [2:44:08<20:36,  1.51it/s]Training 3/3 epoch (loss 0.0046):  89%|████████▉ | 15088/16950 [2:44:08<20:36,  1.51it/s]Training 3/3 epoch (loss 0.0046):  89%|████████▉ | 15089/16950 [2:44:08<20:07,  1.54it/s]Training 3/3 epoch (loss 0.0019):  89%|████████▉ | 15089/16950 [2:44:09<20:07,  1.54it/s]Training 3/3 epoch (loss 0.0019):  89%|████████▉ | 15090/16950 [2:44:09<18:33,  1.67it/s]Training 3/3 epoch (loss 0.1084):  89%|████████▉ | 15090/16950 [2:44:09<18:33,  1.67it/s]Training 3/3 epoch (loss 0.1084):  89%|████████▉ | 15091/16950 [2:44:09<17:16,  1.79it/s]Training 3/3 epoch (loss 0.0711):  89%|████████▉ | 15091/16950 [2:44:10<17:16,  1.79it/s]Training 3/3 epoch (loss 0.0711):  89%|████████▉ | 15092/16950 [2:44:10<21:00,  1.47it/s]Training 3/3 epoch (loss 0.3248):  89%|████████▉ | 15092/16950 [2:44:11<21:00,  1.47it/s]Training 3/3 epoch (loss 0.3248):  89%|████████▉ | 15093/16950 [2:44:11<21:59,  1.41it/s]Training 3/3 epoch (loss 0.0517):  89%|████████▉ | 15093/16950 [2:44:12<21:59,  1.41it/s]Training 3/3 epoch (loss 0.0517):  89%|████████▉ | 15094/16950 [2:44:12<20:56,  1.48it/s]Training 3/3 epoch (loss 0.0002):  89%|████████▉ | 15094/16950 [2:44:12<20:56,  1.48it/s]Training 3/3 epoch (loss 0.0002):  89%|████████▉ | 15095/16950 [2:44:12<20:32,  1.51it/s]Training 3/3 epoch (loss 0.2450):  89%|████████▉ | 15095/16950 [2:44:13<20:32,  1.51it/s]Training 3/3 epoch (loss 0.2450):  89%|████████▉ | 15096/16950 [2:44:13<20:07,  1.54it/s]Training 3/3 epoch (loss 0.0001):  89%|████████▉ | 15096/16950 [2:44:14<20:07,  1.54it/s]Training 3/3 epoch (loss 0.0001):  89%|████████▉ | 15097/16950 [2:44:14<20:55,  1.48it/s]Training 3/3 epoch (loss 0.0367):  89%|████████▉ | 15097/16950 [2:44:14<20:55,  1.48it/s]Training 3/3 epoch (loss 0.0367):  89%|████████▉ | 15098/16950 [2:44:14<20:22,  1.52it/s]Training 3/3 epoch (loss 0.3936):  89%|████████▉ | 15098/16950 [2:44:15<20:22,  1.52it/s]Training 3/3 epoch (loss 0.3936):  89%|████████▉ | 15099/16950 [2:44:15<20:47,  1.48it/s]Training 3/3 epoch (loss 0.0058):  89%|████████▉ | 15099/16950 [2:44:15<20:47,  1.48it/s]Training 3/3 epoch (loss 0.0058):  89%|████████▉ | 15100/16950 [2:44:15<19:11,  1.61it/s]Training 3/3 epoch (loss 0.0107):  89%|████████▉ | 15100/16950 [2:44:16<19:11,  1.61it/s]Training 3/3 epoch (loss 0.0107):  89%|████████▉ | 15101/16950 [2:44:16<17:19,  1.78it/s]Training 3/3 epoch (loss 0.1238):  89%|████████▉ | 15101/16950 [2:44:16<17:19,  1.78it/s]Training 3/3 epoch (loss 0.1238):  89%|████████▉ | 15102/16950 [2:44:16<17:54,  1.72it/s]Training 3/3 epoch (loss 0.0003):  89%|████████▉ | 15102/16950 [2:44:17<17:54,  1.72it/s]Training 3/3 epoch (loss 0.0003):  89%|████████▉ | 15103/16950 [2:44:17<17:04,  1.80it/s]Training 3/3 epoch (loss 0.0013):  89%|████████▉ | 15103/16950 [2:44:17<17:04,  1.80it/s]Training 3/3 epoch (loss 0.0013):  89%|████████▉ | 15104/16950 [2:44:17<17:35,  1.75it/s]Training 3/3 epoch (loss 0.1295):  89%|████████▉ | 15104/16950 [2:44:18<17:35,  1.75it/s]Training 3/3 epoch (loss 0.1295):  89%|████████▉ | 15105/16950 [2:44:18<16:30,  1.86it/s]Training 3/3 epoch (loss 0.1699):  89%|████████▉ | 15105/16950 [2:44:18<16:30,  1.86it/s]Training 3/3 epoch (loss 0.1699):  89%|████████▉ | 15106/16950 [2:44:18<14:48,  2.07it/s]Training 3/3 epoch (loss 0.0010):  89%|████████▉ | 15106/16950 [2:44:19<14:48,  2.07it/s]Training 3/3 epoch (loss 0.0010):  89%|████████▉ | 15107/16950 [2:44:19<16:06,  1.91it/s]Training 3/3 epoch (loss 0.0079):  89%|████████▉ | 15107/16950 [2:44:19<16:06,  1.91it/s]Training 3/3 epoch (loss 0.0079):  89%|████████▉ | 15108/16950 [2:44:19<14:51,  2.07it/s]Training 3/3 epoch (loss 0.3397):  89%|████████▉ | 15108/16950 [2:44:20<14:51,  2.07it/s]Training 3/3 epoch (loss 0.3397):  89%|████████▉ | 15109/16950 [2:44:20<14:16,  2.15it/s]Training 3/3 epoch (loss 0.3823):  89%|████████▉ | 15109/16950 [2:44:20<14:16,  2.15it/s]Training 3/3 epoch (loss 0.3823):  89%|████████▉ | 15110/16950 [2:44:20<13:33,  2.26it/s]Training 3/3 epoch (loss 0.0418):  89%|████████▉ | 15110/16950 [2:44:21<13:33,  2.26it/s]Training 3/3 epoch (loss 0.0418):  89%|████████▉ | 15111/16950 [2:44:21<14:49,  2.07it/s]Training 3/3 epoch (loss 0.0518):  89%|████████▉ | 15111/16950 [2:44:21<14:49,  2.07it/s]Training 3/3 epoch (loss 0.0518):  89%|████████▉ | 15112/16950 [2:44:21<15:24,  1.99it/s]Training 3/3 epoch (loss 0.0187):  89%|████████▉ | 15112/16950 [2:44:22<15:24,  1.99it/s]Training 3/3 epoch (loss 0.0187):  89%|████████▉ | 15113/16950 [2:44:22<15:10,  2.02it/s]Training 3/3 epoch (loss 0.3832):  89%|████████▉ | 15113/16950 [2:44:22<15:10,  2.02it/s]Training 3/3 epoch (loss 0.3832):  89%|████████▉ | 15114/16950 [2:44:22<14:34,  2.10it/s]Training 3/3 epoch (loss 0.0242):  89%|████████▉ | 15114/16950 [2:44:23<14:34,  2.10it/s]Training 3/3 epoch (loss 0.0242):  89%|████████▉ | 15115/16950 [2:44:23<16:05,  1.90it/s]Training 3/3 epoch (loss 0.0518):  89%|████████▉ | 15115/16950 [2:44:23<16:05,  1.90it/s]Training 3/3 epoch (loss 0.0518):  89%|████████▉ | 15116/16950 [2:44:23<16:43,  1.83it/s]Training 3/3 epoch (loss 0.4386):  89%|████████▉ | 15116/16950 [2:44:24<16:43,  1.83it/s]Training 3/3 epoch (loss 0.4386):  89%|████████▉ | 15117/16950 [2:44:24<16:58,  1.80it/s]Training 3/3 epoch (loss 0.2551):  89%|████████▉ | 15117/16950 [2:44:24<16:58,  1.80it/s]Training 3/3 epoch (loss 0.2551):  89%|████████▉ | 15118/16950 [2:44:24<15:47,  1.93it/s]Training 3/3 epoch (loss 0.0030):  89%|████████▉ | 15118/16950 [2:44:25<15:47,  1.93it/s]Training 3/3 epoch (loss 0.0030):  89%|████████▉ | 15119/16950 [2:44:25<15:25,  1.98it/s]Training 3/3 epoch (loss 0.0744):  89%|████████▉ | 15119/16950 [2:44:25<15:25,  1.98it/s]Training 3/3 epoch (loss 0.0744):  89%|████████▉ | 15120/16950 [2:44:25<14:51,  2.05it/s]Training 3/3 epoch (loss 0.0125):  89%|████████▉ | 15120/16950 [2:44:26<14:51,  2.05it/s]Training 3/3 epoch (loss 0.0125):  89%|████████▉ | 15121/16950 [2:44:26<17:36,  1.73it/s]Training 3/3 epoch (loss 0.5133):  89%|████████▉ | 15121/16950 [2:44:27<17:36,  1.73it/s]Training 3/3 epoch (loss 0.5133):  89%|████████▉ | 15122/16950 [2:44:27<17:18,  1.76it/s]Training 3/3 epoch (loss 0.0150):  89%|████████▉ | 15122/16950 [2:44:27<17:18,  1.76it/s]Training 3/3 epoch (loss 0.0150):  89%|████████▉ | 15123/16950 [2:44:27<18:18,  1.66it/s]Training 3/3 epoch (loss 0.0002):  89%|████████▉ | 15123/16950 [2:44:28<18:18,  1.66it/s]Training 3/3 epoch (loss 0.0002):  89%|████████▉ | 15124/16950 [2:44:28<17:19,  1.76it/s]Training 3/3 epoch (loss 0.1939):  89%|████████▉ | 15124/16950 [2:44:29<17:19,  1.76it/s]Training 3/3 epoch (loss 0.1939):  89%|████████▉ | 15125/16950 [2:44:29<18:55,  1.61it/s]Training 3/3 epoch (loss 0.4816):  89%|████████▉ | 15125/16950 [2:44:29<18:55,  1.61it/s]Training 3/3 epoch (loss 0.4816):  89%|████████▉ | 15126/16950 [2:44:29<17:58,  1.69it/s]Training 3/3 epoch (loss 0.2342):  89%|████████▉ | 15126/16950 [2:44:30<17:58,  1.69it/s]Training 3/3 epoch (loss 0.2342):  89%|████████▉ | 15127/16950 [2:44:30<16:19,  1.86it/s]Training 3/3 epoch (loss 0.0001):  89%|████████▉ | 15127/16950 [2:44:30<16:19,  1.86it/s]Training 3/3 epoch (loss 0.0001):  89%|████████▉ | 15128/16950 [2:44:30<14:56,  2.03it/s]Training 3/3 epoch (loss 0.1835):  89%|████████▉ | 15128/16950 [2:44:31<14:56,  2.03it/s]Training 3/3 epoch (loss 0.1835):  89%|████████▉ | 15129/16950 [2:44:31<16:42,  1.82it/s]Training 3/3 epoch (loss 0.0416):  89%|████████▉ | 15129/16950 [2:44:31<16:42,  1.82it/s]Training 3/3 epoch (loss 0.0416):  89%|████████▉ | 15130/16950 [2:44:31<16:47,  1.81it/s]Training 3/3 epoch (loss 0.1927):  89%|████████▉ | 15130/16950 [2:44:32<16:47,  1.81it/s]Training 3/3 epoch (loss 0.1927):  89%|████████▉ | 15131/16950 [2:44:32<15:43,  1.93it/s]Training 3/3 epoch (loss 0.0219):  89%|████████▉ | 15131/16950 [2:44:32<15:43,  1.93it/s]Training 3/3 epoch (loss 0.0219):  89%|████████▉ | 15132/16950 [2:44:32<16:38,  1.82it/s]Training 3/3 epoch (loss 0.0078):  89%|████████▉ | 15132/16950 [2:44:33<16:38,  1.82it/s]Training 3/3 epoch (loss 0.0078):  89%|████████▉ | 15133/16950 [2:44:33<17:35,  1.72it/s]Training 3/3 epoch (loss 0.0048):  89%|████████▉ | 15133/16950 [2:44:33<17:35,  1.72it/s]Training 3/3 epoch (loss 0.0048):  89%|████████▉ | 15134/16950 [2:44:33<16:29,  1.84it/s]Training 3/3 epoch (loss 0.0231):  89%|████████▉ | 15134/16950 [2:44:34<16:29,  1.84it/s]Training 3/3 epoch (loss 0.0231):  89%|████████▉ | 15135/16950 [2:44:34<15:12,  1.99it/s]Training 3/3 epoch (loss 0.1049):  89%|████████▉ | 15135/16950 [2:44:35<15:12,  1.99it/s]Training 3/3 epoch (loss 0.1049):  89%|████████▉ | 15136/16950 [2:44:35<18:14,  1.66it/s]Training 3/3 epoch (loss 0.0301):  89%|████████▉ | 15136/16950 [2:44:35<18:14,  1.66it/s]Training 3/3 epoch (loss 0.0301):  89%|████████▉ | 15137/16950 [2:44:35<19:46,  1.53it/s]Training 3/3 epoch (loss 0.0001):  89%|████████▉ | 15137/16950 [2:44:36<19:46,  1.53it/s]Training 3/3 epoch (loss 0.0001):  89%|████████▉ | 15138/16950 [2:44:36<17:53,  1.69it/s]Training 3/3 epoch (loss 0.4054):  89%|████████▉ | 15138/16950 [2:44:36<17:53,  1.69it/s]Training 3/3 epoch (loss 0.4054):  89%|████████▉ | 15139/16950 [2:44:36<18:52,  1.60it/s]Training 3/3 epoch (loss 0.0015):  89%|████████▉ | 15139/16950 [2:44:37<18:52,  1.60it/s]Training 3/3 epoch (loss 0.0015):  89%|████████▉ | 15140/16950 [2:44:37<19:52,  1.52it/s]Training 3/3 epoch (loss 0.0073):  89%|████████▉ | 15140/16950 [2:44:38<19:52,  1.52it/s]Training 3/3 epoch (loss 0.0073):  89%|████████▉ | 15141/16950 [2:44:38<20:00,  1.51it/s]Training 3/3 epoch (loss 0.4226):  89%|████████▉ | 15141/16950 [2:44:38<20:00,  1.51it/s]Training 3/3 epoch (loss 0.4226):  89%|████████▉ | 15142/16950 [2:44:38<18:36,  1.62it/s]Training 3/3 epoch (loss 0.0420):  89%|████████▉ | 15142/16950 [2:44:39<18:36,  1.62it/s]Training 3/3 epoch (loss 0.0420):  89%|████████▉ | 15143/16950 [2:44:39<17:20,  1.74it/s]Training 3/3 epoch (loss 0.1904):  89%|████████▉ | 15143/16950 [2:44:39<17:20,  1.74it/s]Training 3/3 epoch (loss 0.1904):  89%|████████▉ | 15144/16950 [2:44:39<15:51,  1.90it/s]Training 3/3 epoch (loss 0.0140):  89%|████████▉ | 15144/16950 [2:44:40<15:51,  1.90it/s]Training 3/3 epoch (loss 0.0140):  89%|████████▉ | 15145/16950 [2:44:40<16:59,  1.77it/s]Training 3/3 epoch (loss 0.0039):  89%|████████▉ | 15145/16950 [2:44:41<16:59,  1.77it/s]Training 3/3 epoch (loss 0.0039):  89%|████████▉ | 15146/16950 [2:44:41<17:16,  1.74it/s]Training 3/3 epoch (loss 0.0006):  89%|████████▉ | 15146/16950 [2:44:41<17:16,  1.74it/s]Training 3/3 epoch (loss 0.0006):  89%|████████▉ | 15147/16950 [2:44:41<16:18,  1.84it/s]Training 3/3 epoch (loss 0.4487):  89%|████████▉ | 15147/16950 [2:44:42<16:18,  1.84it/s]Training 3/3 epoch (loss 0.4487):  89%|████████▉ | 15148/16950 [2:44:42<15:50,  1.90it/s]Training 3/3 epoch (loss 0.3038):  89%|████████▉ | 15148/16950 [2:44:42<15:50,  1.90it/s]Training 3/3 epoch (loss 0.3038):  89%|████████▉ | 15149/16950 [2:44:42<16:43,  1.80it/s]Training 3/3 epoch (loss 0.0017):  89%|████████▉ | 15149/16950 [2:44:43<16:43,  1.80it/s]Training 3/3 epoch (loss 0.0017):  89%|████████▉ | 15150/16950 [2:44:43<17:38,  1.70it/s]Training 3/3 epoch (loss 0.0048):  89%|████████▉ | 15150/16950 [2:44:43<17:38,  1.70it/s]Training 3/3 epoch (loss 0.0048):  89%|████████▉ | 15151/16950 [2:44:43<18:10,  1.65it/s]Training 3/3 epoch (loss 0.0037):  89%|████████▉ | 15151/16950 [2:44:44<18:10,  1.65it/s]Training 3/3 epoch (loss 0.0037):  89%|████████▉ | 15152/16950 [2:44:44<18:02,  1.66it/s]Training 3/3 epoch (loss 0.0000):  89%|████████▉ | 15152/16950 [2:44:45<18:02,  1.66it/s]Training 3/3 epoch (loss 0.0000):  89%|████████▉ | 15153/16950 [2:44:45<17:08,  1.75it/s]Training 3/3 epoch (loss 0.0009):  89%|████████▉ | 15153/16950 [2:44:45<17:08,  1.75it/s]Training 3/3 epoch (loss 0.0009):  89%|████████▉ | 15154/16950 [2:44:45<16:55,  1.77it/s]Training 3/3 epoch (loss 0.3519):  89%|████████▉ | 15154/16950 [2:44:46<16:55,  1.77it/s]Training 3/3 epoch (loss 0.3519):  89%|████████▉ | 15155/16950 [2:44:46<22:19,  1.34it/s]Training 3/3 epoch (loss 0.0113):  89%|████████▉ | 15155/16950 [2:44:47<22:19,  1.34it/s]Training 3/3 epoch (loss 0.0113):  89%|████████▉ | 15156/16950 [2:44:47<19:44,  1.51it/s]Training 3/3 epoch (loss 0.1866):  89%|████████▉ | 15156/16950 [2:44:47<19:44,  1.51it/s]Training 3/3 epoch (loss 0.1866):  89%|████████▉ | 15157/16950 [2:44:47<19:40,  1.52it/s]Training 3/3 epoch (loss 0.0019):  89%|████████▉ | 15157/16950 [2:44:48<19:40,  1.52it/s]Training 3/3 epoch (loss 0.0019):  89%|████████▉ | 15158/16950 [2:44:48<19:06,  1.56it/s]Training 3/3 epoch (loss 0.1803):  89%|████████▉ | 15158/16950 [2:44:49<19:06,  1.56it/s]Training 3/3 epoch (loss 0.1803):  89%|████████▉ | 15159/16950 [2:44:49<20:41,  1.44it/s]Training 3/3 epoch (loss 0.0215):  89%|████████▉ | 15159/16950 [2:44:49<20:41,  1.44it/s]Training 3/3 epoch (loss 0.0215):  89%|████████▉ | 15160/16950 [2:44:49<19:53,  1.50it/s]Training 3/3 epoch (loss 0.0008):  89%|████████▉ | 15160/16950 [2:44:50<19:53,  1.50it/s]Training 3/3 epoch (loss 0.0008):  89%|████████▉ | 15161/16950 [2:44:50<17:51,  1.67it/s]Training 3/3 epoch (loss 0.0234):  89%|████████▉ | 15161/16950 [2:44:50<17:51,  1.67it/s]Training 3/3 epoch (loss 0.0234):  89%|████████▉ | 15162/16950 [2:44:50<17:59,  1.66it/s]Training 3/3 epoch (loss 0.2015):  89%|████████▉ | 15162/16950 [2:44:51<17:59,  1.66it/s]Training 3/3 epoch (loss 0.2015):  89%|████████▉ | 15163/16950 [2:44:51<17:28,  1.70it/s]Training 3/3 epoch (loss 0.2598):  89%|████████▉ | 15163/16950 [2:44:52<17:28,  1.70it/s]Training 3/3 epoch (loss 0.2598):  89%|████████▉ | 15164/16950 [2:44:52<18:15,  1.63it/s]Training 3/3 epoch (loss 0.4643):  89%|████████▉ | 15164/16950 [2:44:53<18:15,  1.63it/s]Training 3/3 epoch (loss 0.4643):  89%|████████▉ | 15165/16950 [2:44:53<21:12,  1.40it/s]Training 3/3 epoch (loss 0.0103):  89%|████████▉ | 15165/16950 [2:44:53<21:12,  1.40it/s]Training 3/3 epoch (loss 0.0103):  89%|████████▉ | 15166/16950 [2:44:53<22:36,  1.32it/s]Training 3/3 epoch (loss 0.0042):  89%|████████▉ | 15166/16950 [2:44:54<22:36,  1.32it/s]Training 3/3 epoch (loss 0.0042):  89%|████████▉ | 15167/16950 [2:44:54<20:25,  1.46it/s]Training 3/3 epoch (loss 0.4376):  89%|████████▉ | 15167/16950 [2:44:54<20:25,  1.46it/s]Training 3/3 epoch (loss 0.4376):  89%|████████▉ | 15168/16950 [2:44:54<18:32,  1.60it/s]Training 3/3 epoch (loss 0.0670):  89%|████████▉ | 15168/16950 [2:44:55<18:32,  1.60it/s]Training 3/3 epoch (loss 0.0670):  89%|████████▉ | 15169/16950 [2:44:55<17:16,  1.72it/s]Training 3/3 epoch (loss 0.0246):  89%|████████▉ | 15169/16950 [2:44:56<17:16,  1.72it/s]Training 3/3 epoch (loss 0.0246):  89%|████████▉ | 15170/16950 [2:44:56<17:05,  1.73it/s]Training 3/3 epoch (loss 0.2416):  89%|████████▉ | 15170/16950 [2:44:56<17:05,  1.73it/s]Training 3/3 epoch (loss 0.2416):  90%|████████▉ | 15171/16950 [2:44:56<17:08,  1.73it/s]Training 3/3 epoch (loss 0.0122):  90%|████████▉ | 15171/16950 [2:44:57<17:08,  1.73it/s]Training 3/3 epoch (loss 0.0122):  90%|████████▉ | 15172/16950 [2:44:57<19:41,  1.50it/s]Training 3/3 epoch (loss 0.0550):  90%|████████▉ | 15172/16950 [2:44:57<19:41,  1.50it/s]Training 3/3 epoch (loss 0.0550):  90%|████████▉ | 15173/16950 [2:44:57<17:57,  1.65it/s]Training 3/3 epoch (loss 0.2742):  90%|████████▉ | 15173/16950 [2:44:58<17:57,  1.65it/s]Training 3/3 epoch (loss 0.2742):  90%|████████▉ | 15174/16950 [2:44:58<17:51,  1.66it/s]Training 3/3 epoch (loss 0.7314):  90%|████████▉ | 15174/16950 [2:44:58<17:51,  1.66it/s]Training 3/3 epoch (loss 0.7314):  90%|████████▉ | 15175/16950 [2:44:58<16:31,  1.79it/s]Training 3/3 epoch (loss nan):  90%|████████▉ | 15175/16950 [2:45:00<16:31,  1.79it/s]   Training 3/3 epoch (loss nan):  90%|████████▉ | 15176/16950 [2:45:00<20:52,  1.42it/s]Training 3/3 epoch (loss 0.0009):  90%|████████▉ | 15176/16950 [2:45:00<20:52,  1.42it/s]Training 3/3 epoch (loss 0.0009):  90%|████████▉ | 15177/16950 [2:45:00<19:35,  1.51it/s]Training 3/3 epoch (loss 0.0195):  90%|████████▉ | 15177/16950 [2:45:01<19:35,  1.51it/s]Training 3/3 epoch (loss 0.0195):  90%|████████▉ | 15178/16950 [2:45:01<17:53,  1.65it/s]Training 3/3 epoch (loss 0.0072):  90%|████████▉ | 15178/16950 [2:45:01<17:53,  1.65it/s]Training 3/3 epoch (loss 0.0072):  90%|████████▉ | 15179/16950 [2:45:01<16:04,  1.84it/s]Training 3/3 epoch (loss 0.2576):  90%|████████▉ | 15179/16950 [2:45:02<16:04,  1.84it/s]Training 3/3 epoch (loss 0.2576):  90%|████████▉ | 15180/16950 [2:45:02<16:19,  1.81it/s]Training 3/3 epoch (loss 0.3704):  90%|████████▉ | 15180/16950 [2:45:03<16:19,  1.81it/s]Training 3/3 epoch (loss 0.3704):  90%|████████▉ | 15181/16950 [2:45:03<20:28,  1.44it/s]Training 3/3 epoch (loss 0.0063):  90%|████████▉ | 15181/16950 [2:45:03<20:28,  1.44it/s]Training 3/3 epoch (loss 0.0063):  90%|████████▉ | 15182/16950 [2:45:03<19:56,  1.48it/s]Training 3/3 epoch (loss 0.2307):  90%|████████▉ | 15182/16950 [2:45:04<19:56,  1.48it/s]Training 3/3 epoch (loss 0.2307):  90%|████████▉ | 15183/16950 [2:45:04<20:11,  1.46it/s]Training 3/3 epoch (loss 0.2065):  90%|████████▉ | 15183/16950 [2:45:04<20:11,  1.46it/s]Training 3/3 epoch (loss 0.2065):  90%|████████▉ | 15184/16950 [2:45:04<18:01,  1.63it/s]Training 3/3 epoch (loss 0.3583):  90%|████████▉ | 15184/16950 [2:45:05<18:01,  1.63it/s]Training 3/3 epoch (loss 0.3583):  90%|████████▉ | 15185/16950 [2:45:05<16:02,  1.83it/s]Training 3/3 epoch (loss 0.0323):  90%|████████▉ | 15185/16950 [2:45:05<16:02,  1.83it/s]Training 3/3 epoch (loss 0.0323):  90%|████████▉ | 15186/16950 [2:45:05<16:27,  1.79it/s]Training 3/3 epoch (loss 0.0012):  90%|████████▉ | 15186/16950 [2:45:06<16:27,  1.79it/s]Training 3/3 epoch (loss 0.0012):  90%|████████▉ | 15187/16950 [2:45:06<16:24,  1.79it/s]Training 3/3 epoch (loss 0.0182):  90%|████████▉ | 15187/16950 [2:45:06<16:24,  1.79it/s]Training 3/3 epoch (loss 0.0182):  90%|████████▉ | 15188/16950 [2:45:06<14:57,  1.96it/s]Training 3/3 epoch (loss 0.1257):  90%|████████▉ | 15188/16950 [2:45:07<14:57,  1.96it/s]Training 3/3 epoch (loss 0.1257):  90%|████████▉ | 15189/16950 [2:45:07<16:13,  1.81it/s]Training 3/3 epoch (loss 1.0296):  90%|████████▉ | 15189/16950 [2:45:08<16:13,  1.81it/s]Training 3/3 epoch (loss 1.0296):  90%|████████▉ | 15190/16950 [2:45:08<18:13,  1.61it/s]Training 3/3 epoch (loss 0.0069):  90%|████████▉ | 15190/16950 [2:45:08<18:13,  1.61it/s]Training 3/3 epoch (loss 0.0069):  90%|████████▉ | 15191/16950 [2:45:08<18:28,  1.59it/s]Training 3/3 epoch (loss 0.0055):  90%|████████▉ | 15191/16950 [2:45:09<18:28,  1.59it/s]Training 3/3 epoch (loss 0.0055):  90%|████████▉ | 15192/16950 [2:45:09<17:18,  1.69it/s]Training 3/3 epoch (loss 0.1649):  90%|████████▉ | 15192/16950 [2:45:10<17:18,  1.69it/s]Training 3/3 epoch (loss 0.1649):  90%|████████▉ | 15193/16950 [2:45:10<19:19,  1.52it/s]Training 3/3 epoch (loss 0.0224):  90%|████████▉ | 15193/16950 [2:45:10<19:19,  1.52it/s]Training 3/3 epoch (loss 0.0224):  90%|████████▉ | 15194/16950 [2:45:10<19:43,  1.48it/s]Training 3/3 epoch (loss 0.1464):  90%|████████▉ | 15194/16950 [2:45:11<19:43,  1.48it/s]Training 3/3 epoch (loss 0.1464):  90%|████████▉ | 15195/16950 [2:45:11<18:23,  1.59it/s]Training 3/3 epoch (loss 0.7007):  90%|████████▉ | 15195/16950 [2:45:12<18:23,  1.59it/s]Training 3/3 epoch (loss 0.7007):  90%|████████▉ | 15196/16950 [2:45:12<20:27,  1.43it/s]Training 3/3 epoch (loss 0.3289):  90%|████████▉ | 15196/16950 [2:45:13<20:27,  1.43it/s]Training 3/3 epoch (loss 0.3289):  90%|████████▉ | 15197/16950 [2:45:13<21:18,  1.37it/s]Training 3/3 epoch (loss 0.0015):  90%|████████▉ | 15197/16950 [2:45:13<21:18,  1.37it/s]Training 3/3 epoch (loss 0.0015):  90%|████████▉ | 15198/16950 [2:45:13<19:46,  1.48it/s]Training 3/3 epoch (loss 0.0542):  90%|████████▉ | 15198/16950 [2:45:14<19:46,  1.48it/s]Training 3/3 epoch (loss 0.0542):  90%|████████▉ | 15199/16950 [2:45:14<18:05,  1.61it/s]Training 3/3 epoch (loss 0.0000):  90%|████████▉ | 15199/16950 [2:45:14<18:05,  1.61it/s]Training 3/3 epoch (loss 0.0000):  90%|████████▉ | 15200/16950 [2:45:14<16:35,  1.76it/s]Training 3/3 epoch (loss 0.0799):  90%|████████▉ | 15200/16950 [2:45:15<16:35,  1.76it/s]Training 3/3 epoch (loss 0.0799):  90%|████████▉ | 15201/16950 [2:45:15<16:27,  1.77it/s]Training 3/3 epoch (loss 0.0257):  90%|████████▉ | 15201/16950 [2:45:15<16:27,  1.77it/s]Training 3/3 epoch (loss 0.0257):  90%|████████▉ | 15202/16950 [2:45:15<17:52,  1.63it/s]Training 3/3 epoch (loss 0.0137):  90%|████████▉ | 15202/16950 [2:45:16<17:52,  1.63it/s]Training 3/3 epoch (loss 0.0137):  90%|████████▉ | 15203/16950 [2:45:16<18:00,  1.62it/s]Training 3/3 epoch (loss 0.0008):  90%|████████▉ | 15203/16950 [2:45:16<18:00,  1.62it/s]Training 3/3 epoch (loss 0.0008):  90%|████████▉ | 15204/16950 [2:45:16<16:48,  1.73it/s]Training 3/3 epoch (loss 0.0151):  90%|████████▉ | 15204/16950 [2:45:17<16:48,  1.73it/s]Training 3/3 epoch (loss 0.0151):  90%|████████▉ | 15205/16950 [2:45:17<17:18,  1.68it/s]Training 3/3 epoch (loss 0.0114):  90%|████████▉ | 15205/16950 [2:45:18<17:18,  1.68it/s]Training 3/3 epoch (loss 0.0114):  90%|████████▉ | 15206/16950 [2:45:18<16:44,  1.74it/s]Training 3/3 epoch (loss 0.0402):  90%|████████▉ | 15206/16950 [2:45:18<16:44,  1.74it/s]Training 3/3 epoch (loss 0.0402):  90%|████████▉ | 15207/16950 [2:45:18<15:35,  1.86it/s]Training 3/3 epoch (loss 0.0035):  90%|████████▉ | 15207/16950 [2:45:19<15:35,  1.86it/s]Training 3/3 epoch (loss 0.0035):  90%|████████▉ | 15208/16950 [2:45:19<16:22,  1.77it/s]Training 3/3 epoch (loss 0.4464):  90%|████████▉ | 15208/16950 [2:45:20<16:22,  1.77it/s]Training 3/3 epoch (loss 0.4464):  90%|████████▉ | 15209/16950 [2:45:20<20:32,  1.41it/s]Training 3/3 epoch (loss 0.0263):  90%|████████▉ | 15209/16950 [2:45:20<20:32,  1.41it/s]Training 3/3 epoch (loss 0.0263):  90%|████████▉ | 15210/16950 [2:45:20<18:45,  1.55it/s]Training 3/3 epoch (loss 0.0006):  90%|████████▉ | 15210/16950 [2:45:21<18:45,  1.55it/s]Training 3/3 epoch (loss 0.0006):  90%|████████▉ | 15211/16950 [2:45:21<18:51,  1.54it/s]Training 3/3 epoch (loss 0.0080):  90%|████████▉ | 15211/16950 [2:45:22<18:51,  1.54it/s]Training 3/3 epoch (loss 0.0080):  90%|████████▉ | 15212/16950 [2:45:22<19:42,  1.47it/s]Training 3/3 epoch (loss 0.0045):  90%|████████▉ | 15212/16950 [2:45:22<19:42,  1.47it/s]Training 3/3 epoch (loss 0.0045):  90%|████████▉ | 15213/16950 [2:45:22<18:16,  1.58it/s]Training 3/3 epoch (loss 0.4517):  90%|████████▉ | 15213/16950 [2:45:23<18:16,  1.58it/s]Training 3/3 epoch (loss 0.4517):  90%|████████▉ | 15214/16950 [2:45:23<17:01,  1.70it/s]Training 3/3 epoch (loss 0.3845):  90%|████████▉ | 15214/16950 [2:45:23<17:01,  1.70it/s]Training 3/3 epoch (loss 0.3845):  90%|████████▉ | 15215/16950 [2:45:23<16:47,  1.72it/s]Training 3/3 epoch (loss 0.0427):  90%|████████▉ | 15215/16950 [2:45:24<16:47,  1.72it/s]Training 3/3 epoch (loss 0.0427):  90%|████████▉ | 15216/16950 [2:45:24<17:30,  1.65it/s]Training 3/3 epoch (loss 0.1028):  90%|████████▉ | 15216/16950 [2:45:25<17:30,  1.65it/s]Training 3/3 epoch (loss 0.1028):  90%|████████▉ | 15217/16950 [2:45:25<17:34,  1.64it/s]Training 3/3 epoch (loss 0.0648):  90%|████████▉ | 15217/16950 [2:45:25<17:34,  1.64it/s]Training 3/3 epoch (loss 0.0648):  90%|████████▉ | 15218/16950 [2:45:25<18:11,  1.59it/s]Training 3/3 epoch (loss 0.0770):  90%|████████▉ | 15218/16950 [2:45:26<18:11,  1.59it/s]Training 3/3 epoch (loss 0.0770):  90%|████████▉ | 15219/16950 [2:45:26<17:35,  1.64it/s]Training 3/3 epoch (loss 0.0029):  90%|████████▉ | 15219/16950 [2:45:26<17:35,  1.64it/s]Training 3/3 epoch (loss 0.0029):  90%|████████▉ | 15220/16950 [2:45:26<16:49,  1.71it/s]Training 3/3 epoch (loss 0.0030):  90%|████████▉ | 15220/16950 [2:45:27<16:49,  1.71it/s]Training 3/3 epoch (loss 0.0030):  90%|████████▉ | 15221/16950 [2:45:27<17:45,  1.62it/s]Training 3/3 epoch (loss 0.2630):  90%|████████▉ | 15221/16950 [2:45:27<17:45,  1.62it/s]Training 3/3 epoch (loss 0.2630):  90%|████████▉ | 15222/16950 [2:45:27<16:12,  1.78it/s]Training 3/3 epoch (loss 0.0283):  90%|████████▉ | 15222/16950 [2:45:28<16:12,  1.78it/s]Training 3/3 epoch (loss 0.0283):  90%|████████▉ | 15223/16950 [2:45:28<15:28,  1.86it/s]Training 3/3 epoch (loss 0.0008):  90%|████████▉ | 15223/16950 [2:45:28<15:28,  1.86it/s]Training 3/3 epoch (loss 0.0008):  90%|████████▉ | 15224/16950 [2:45:28<14:42,  1.96it/s]Training 3/3 epoch (loss 0.1642):  90%|████████▉ | 15224/16950 [2:45:29<14:42,  1.96it/s]Training 3/3 epoch (loss 0.1642):  90%|████████▉ | 15225/16950 [2:45:29<13:24,  2.14it/s]Training 3/3 epoch (loss 0.0011):  90%|████████▉ | 15225/16950 [2:45:29<13:24,  2.14it/s]Training 3/3 epoch (loss 0.0011):  90%|████████▉ | 15226/16950 [2:45:29<13:57,  2.06it/s]Training 3/3 epoch (loss 0.0024):  90%|████████▉ | 15226/16950 [2:45:30<13:57,  2.06it/s]Training 3/3 epoch (loss 0.0024):  90%|████████▉ | 15227/16950 [2:45:30<15:46,  1.82it/s]Training 3/3 epoch (loss 0.2218):  90%|████████▉ | 15227/16950 [2:45:30<15:46,  1.82it/s]Training 3/3 epoch (loss 0.2218):  90%|████████▉ | 15228/16950 [2:45:30<13:56,  2.06it/s]Training 3/3 epoch (loss 0.0061):  90%|████████▉ | 15228/16950 [2:45:31<13:56,  2.06it/s]Training 3/3 epoch (loss 0.0061):  90%|████████▉ | 15229/16950 [2:45:31<14:46,  1.94it/s]Training 3/3 epoch (loss 0.9183):  90%|████████▉ | 15229/16950 [2:45:31<14:46,  1.94it/s]Training 3/3 epoch (loss 0.9183):  90%|████████▉ | 15230/16950 [2:45:31<14:22,  1.99it/s]Training 3/3 epoch (loss 0.4870):  90%|████████▉ | 15230/16950 [2:45:32<14:22,  1.99it/s]Training 3/3 epoch (loss 0.4870):  90%|████████▉ | 15231/16950 [2:45:32<13:59,  2.05it/s]Training 3/3 epoch (loss 0.5013):  90%|████████▉ | 15231/16950 [2:45:32<13:59,  2.05it/s]Training 3/3 epoch (loss 0.5013):  90%|████████▉ | 15232/16950 [2:45:32<15:09,  1.89it/s]Training 3/3 epoch (loss 0.0065):  90%|████████▉ | 15232/16950 [2:45:33<15:09,  1.89it/s]Training 3/3 epoch (loss 0.0065):  90%|████████▉ | 15233/16950 [2:45:33<14:26,  1.98it/s]Training 3/3 epoch (loss 0.1202):  90%|████████▉ | 15233/16950 [2:45:33<14:26,  1.98it/s]Training 3/3 epoch (loss 0.1202):  90%|████████▉ | 15234/16950 [2:45:33<13:09,  2.17it/s]Training 3/3 epoch (loss 0.5122):  90%|████████▉ | 15234/16950 [2:45:34<13:09,  2.17it/s]Training 3/3 epoch (loss 0.5122):  90%|████████▉ | 15235/16950 [2:45:34<15:04,  1.90it/s]Training 3/3 epoch (loss 0.0676):  90%|████████▉ | 15235/16950 [2:45:35<15:04,  1.90it/s]Training 3/3 epoch (loss 0.0676):  90%|████████▉ | 15236/16950 [2:45:35<17:12,  1.66it/s]Training 3/3 epoch (loss 0.0003):  90%|████████▉ | 15236/16950 [2:45:35<17:12,  1.66it/s]Training 3/3 epoch (loss 0.0003):  90%|████████▉ | 15237/16950 [2:45:35<16:31,  1.73it/s]Training 3/3 epoch (loss 0.0409):  90%|████████▉ | 15237/16950 [2:45:36<16:31,  1.73it/s]Training 3/3 epoch (loss 0.0409):  90%|████████▉ | 15238/16950 [2:45:36<17:17,  1.65it/s]Training 3/3 epoch (loss 0.0617):  90%|████████▉ | 15238/16950 [2:45:36<17:17,  1.65it/s]Training 3/3 epoch (loss 0.0617):  90%|████████▉ | 15239/16950 [2:45:36<17:05,  1.67it/s]Training 3/3 epoch (loss 0.0004):  90%|████████▉ | 15239/16950 [2:45:37<17:05,  1.67it/s]Training 3/3 epoch (loss 0.0004):  90%|████████▉ | 15240/16950 [2:45:37<18:12,  1.57it/s]Training 3/3 epoch (loss 0.4273):  90%|████████▉ | 15240/16950 [2:45:38<18:12,  1.57it/s]Training 3/3 epoch (loss 0.4273):  90%|████████▉ | 15241/16950 [2:45:38<18:32,  1.54it/s]Training 3/3 epoch (loss 0.7972):  90%|████████▉ | 15241/16950 [2:45:39<18:32,  1.54it/s]Training 3/3 epoch (loss 0.7972):  90%|████████▉ | 15242/16950 [2:45:39<21:23,  1.33it/s]Training 3/3 epoch (loss 0.0001):  90%|████████▉ | 15242/16950 [2:45:40<21:23,  1.33it/s]Training 3/3 epoch (loss 0.0001):  90%|████████▉ | 15243/16950 [2:45:40<21:11,  1.34it/s]Training 3/3 epoch (loss 0.0019):  90%|████████▉ | 15243/16950 [2:45:40<21:11,  1.34it/s]Training 3/3 epoch (loss 0.0019):  90%|████████▉ | 15244/16950 [2:45:40<18:48,  1.51it/s]Training 3/3 epoch (loss 0.7366):  90%|████████▉ | 15244/16950 [2:45:41<18:48,  1.51it/s]Training 3/3 epoch (loss 0.7366):  90%|████████▉ | 15245/16950 [2:45:41<18:49,  1.51it/s]Training 3/3 epoch (loss 0.0609):  90%|████████▉ | 15245/16950 [2:45:41<18:49,  1.51it/s]Training 3/3 epoch (loss 0.0609):  90%|████████▉ | 15246/16950 [2:45:41<19:35,  1.45it/s]Training 3/3 epoch (loss 0.0600):  90%|████████▉ | 15246/16950 [2:45:42<19:35,  1.45it/s]Training 3/3 epoch (loss 0.0600):  90%|████████▉ | 15247/16950 [2:45:42<18:01,  1.58it/s]Training 3/3 epoch (loss 0.2723):  90%|████████▉ | 15247/16950 [2:45:43<18:01,  1.58it/s]Training 3/3 epoch (loss 0.2723):  90%|████████▉ | 15248/16950 [2:45:43<18:01,  1.57it/s]Training 3/3 epoch (loss 0.0325):  90%|████████▉ | 15248/16950 [2:45:43<18:01,  1.57it/s]Training 3/3 epoch (loss 0.0325):  90%|████████▉ | 15249/16950 [2:45:43<18:19,  1.55it/s]Training 3/3 epoch (loss 0.2272):  90%|████████▉ | 15249/16950 [2:45:44<18:19,  1.55it/s]Training 3/3 epoch (loss 0.2272):  90%|████████▉ | 15250/16950 [2:45:44<16:33,  1.71it/s]Training 3/3 epoch (loss 0.2874):  90%|████████▉ | 15250/16950 [2:45:44<16:33,  1.71it/s]Training 3/3 epoch (loss 0.2874):  90%|████████▉ | 15251/16950 [2:45:44<14:57,  1.89it/s]Training 3/3 epoch (loss 0.4513):  90%|████████▉ | 15251/16950 [2:45:45<14:57,  1.89it/s]Training 3/3 epoch (loss 0.4513):  90%|████████▉ | 15252/16950 [2:45:45<17:28,  1.62it/s]Training 3/3 epoch (loss 0.0021):  90%|████████▉ | 15252/16950 [2:45:45<17:28,  1.62it/s]Training 3/3 epoch (loss 0.0021):  90%|████████▉ | 15253/16950 [2:45:45<16:51,  1.68it/s]Training 3/3 epoch (loss 0.3457):  90%|████████▉ | 15253/16950 [2:45:46<16:51,  1.68it/s]Training 3/3 epoch (loss 0.3457):  90%|████████▉ | 15254/16950 [2:45:46<17:08,  1.65it/s]Training 3/3 epoch (loss 0.0000):  90%|████████▉ | 15254/16950 [2:45:47<17:08,  1.65it/s]Training 3/3 epoch (loss 0.0000):  90%|█████████ | 15255/16950 [2:45:47<16:07,  1.75it/s]Training 3/3 epoch (loss 0.0010):  90%|█████████ | 15255/16950 [2:45:47<16:07,  1.75it/s]Training 3/3 epoch (loss 0.0010):  90%|█████████ | 15256/16950 [2:45:47<14:59,  1.88it/s]Training 3/3 epoch (loss 0.0047):  90%|█████████ | 15256/16950 [2:45:48<14:59,  1.88it/s]Training 3/3 epoch (loss 0.0047):  90%|█████████ | 15257/16950 [2:45:48<14:59,  1.88it/s]Training 3/3 epoch (loss 0.0083):  90%|█████████ | 15257/16950 [2:45:49<14:59,  1.88it/s]Training 3/3 epoch (loss 0.0083):  90%|█████████ | 15258/16950 [2:45:49<19:31,  1.44it/s]Training 3/3 epoch (loss 0.0052):  90%|█████████ | 15258/16950 [2:45:49<19:31,  1.44it/s]Training 3/3 epoch (loss 0.0052):  90%|█████████ | 15259/16950 [2:45:49<19:35,  1.44it/s]Training 3/3 epoch (loss 0.3165):  90%|█████████ | 15259/16950 [2:45:50<19:35,  1.44it/s]Training 3/3 epoch (loss 0.3165):  90%|█████████ | 15260/16950 [2:45:50<18:53,  1.49it/s]Training 3/3 epoch (loss 0.0429):  90%|█████████ | 15260/16950 [2:45:51<18:53,  1.49it/s]Training 3/3 epoch (loss 0.0429):  90%|█████████ | 15261/16950 [2:45:51<21:04,  1.34it/s]Training 3/3 epoch (loss 0.0094):  90%|█████████ | 15261/16950 [2:45:51<21:04,  1.34it/s]Training 3/3 epoch (loss 0.0094):  90%|█████████ | 15262/16950 [2:45:51<19:11,  1.47it/s]Training 3/3 epoch (loss 0.4284):  90%|█████████ | 15262/16950 [2:45:52<19:11,  1.47it/s]Training 3/3 epoch (loss 0.4284):  90%|█████████ | 15263/16950 [2:45:52<16:56,  1.66it/s]Training 3/3 epoch (loss 0.1362):  90%|█████████ | 15263/16950 [2:45:53<16:56,  1.66it/s]Training 3/3 epoch (loss 0.1362):  90%|█████████ | 15264/16950 [2:45:53<19:04,  1.47it/s]Training 3/3 epoch (loss 0.0501):  90%|█████████ | 15264/16950 [2:45:53<19:04,  1.47it/s]Training 3/3 epoch (loss 0.0501):  90%|█████████ | 15265/16950 [2:45:53<18:40,  1.50it/s]Training 3/3 epoch (loss 0.0020):  90%|█████████ | 15265/16950 [2:45:54<18:40,  1.50it/s]Training 3/3 epoch (loss 0.0020):  90%|█████████ | 15266/16950 [2:45:54<17:19,  1.62it/s]Training 3/3 epoch (loss 0.0068):  90%|█████████ | 15266/16950 [2:45:54<17:19,  1.62it/s]Training 3/3 epoch (loss 0.0068):  90%|█████████ | 15267/16950 [2:45:54<15:57,  1.76it/s]Training 3/3 epoch (loss 0.0078):  90%|█████████ | 15267/16950 [2:45:55<15:57,  1.76it/s]Training 3/3 epoch (loss 0.0078):  90%|█████████ | 15268/16950 [2:45:55<14:43,  1.90it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15268/16950 [2:45:55<14:43,  1.90it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15269/16950 [2:45:55<13:34,  2.06it/s]Training 3/3 epoch (loss 0.0608):  90%|█████████ | 15269/16950 [2:45:56<13:34,  2.06it/s]Training 3/3 epoch (loss 0.0608):  90%|█████████ | 15270/16950 [2:45:56<13:50,  2.02it/s]Training 3/3 epoch (loss 0.0373):  90%|█████████ | 15270/16950 [2:45:56<13:50,  2.02it/s]Training 3/3 epoch (loss 0.0373):  90%|█████████ | 15271/16950 [2:45:56<13:23,  2.09it/s]Training 3/3 epoch (loss 0.0019):  90%|█████████ | 15271/16950 [2:45:57<13:23,  2.09it/s]Training 3/3 epoch (loss 0.0019):  90%|█████████ | 15272/16950 [2:45:57<14:44,  1.90it/s]Training 3/3 epoch (loss 0.0073):  90%|█████████ | 15272/16950 [2:45:57<14:44,  1.90it/s]Training 3/3 epoch (loss 0.0073):  90%|█████████ | 15273/16950 [2:45:57<15:15,  1.83it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15273/16950 [2:45:58<15:15,  1.83it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15274/16950 [2:45:58<14:53,  1.88it/s]Training 3/3 epoch (loss 0.0217):  90%|█████████ | 15274/16950 [2:45:58<14:53,  1.88it/s]Training 3/3 epoch (loss 0.0217):  90%|█████████ | 15275/16950 [2:45:58<15:52,  1.76it/s]Training 3/3 epoch (loss 0.0213):  90%|█████████ | 15275/16950 [2:45:59<15:52,  1.76it/s]Training 3/3 epoch (loss 0.0213):  90%|█████████ | 15276/16950 [2:45:59<15:44,  1.77it/s]Training 3/3 epoch (loss 0.0006):  90%|█████████ | 15276/16950 [2:45:59<15:44,  1.77it/s]Training 3/3 epoch (loss 0.0006):  90%|█████████ | 15277/16950 [2:45:59<14:26,  1.93it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15277/16950 [2:46:00<14:26,  1.93it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15278/16950 [2:46:00<13:41,  2.04it/s]Training 3/3 epoch (loss 0.4938):  90%|█████████ | 15278/16950 [2:46:00<13:41,  2.04it/s]Training 3/3 epoch (loss 0.4938):  90%|█████████ | 15279/16950 [2:46:00<14:45,  1.89it/s]Training 3/3 epoch (loss 0.0002):  90%|█████████ | 15279/16950 [2:46:01<14:45,  1.89it/s]Training 3/3 epoch (loss 0.0002):  90%|█████████ | 15280/16950 [2:46:01<15:56,  1.75it/s]Training 3/3 epoch (loss 0.0007):  90%|█████████ | 15280/16950 [2:46:02<15:56,  1.75it/s]Training 3/3 epoch (loss 0.0007):  90%|█████████ | 15281/16950 [2:46:02<15:26,  1.80it/s]Training 3/3 epoch (loss 0.0492):  90%|█████████ | 15281/16950 [2:46:02<15:26,  1.80it/s]Training 3/3 epoch (loss 0.0492):  90%|█████████ | 15282/16950 [2:46:02<14:49,  1.87it/s]Training 3/3 epoch (loss 0.0346):  90%|█████████ | 15282/16950 [2:46:02<14:49,  1.87it/s]Training 3/3 epoch (loss 0.0346):  90%|█████████ | 15283/16950 [2:46:02<12:49,  2.17it/s]Training 3/3 epoch (loss 0.0000):  90%|█████████ | 15283/16950 [2:46:03<12:49,  2.17it/s]Training 3/3 epoch (loss 0.0000):  90%|█████████ | 15284/16950 [2:46:03<11:16,  2.46it/s]Training 3/3 epoch (loss 0.3878):  90%|█████████ | 15284/16950 [2:46:04<11:16,  2.46it/s]Training 3/3 epoch (loss 0.3878):  90%|█████████ | 15285/16950 [2:46:04<16:51,  1.65it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15285/16950 [2:46:04<16:51,  1.65it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15286/16950 [2:46:04<16:36,  1.67it/s]Training 3/3 epoch (loss 0.4778):  90%|█████████ | 15286/16950 [2:46:05<16:36,  1.67it/s]Training 3/3 epoch (loss 0.4778):  90%|█████████ | 15287/16950 [2:46:05<16:17,  1.70it/s]Training 3/3 epoch (loss 0.1581):  90%|█████████ | 15287/16950 [2:46:06<16:17,  1.70it/s]Training 3/3 epoch (loss 0.1581):  90%|█████████ | 15288/16950 [2:46:06<17:17,  1.60it/s]Training 3/3 epoch (loss 0.1667):  90%|█████████ | 15288/16950 [2:46:06<17:17,  1.60it/s]Training 3/3 epoch (loss 0.1667):  90%|█████████ | 15289/16950 [2:46:06<16:14,  1.70it/s]Training 3/3 epoch (loss 0.0115):  90%|█████████ | 15289/16950 [2:46:07<16:14,  1.70it/s]Training 3/3 epoch (loss 0.0115):  90%|█████████ | 15290/16950 [2:46:07<16:17,  1.70it/s]Training 3/3 epoch (loss 0.3213):  90%|█████████ | 15290/16950 [2:46:07<16:17,  1.70it/s]Training 3/3 epoch (loss 0.3213):  90%|█████████ | 15291/16950 [2:46:07<15:46,  1.75it/s]Training 3/3 epoch (loss 0.4450):  90%|█████████ | 15291/16950 [2:46:08<15:46,  1.75it/s]Training 3/3 epoch (loss 0.4450):  90%|█████████ | 15292/16950 [2:46:08<15:19,  1.80it/s]Training 3/3 epoch (loss 0.0567):  90%|█████████ | 15292/16950 [2:46:09<15:19,  1.80it/s]Training 3/3 epoch (loss 0.0567):  90%|█████████ | 15293/16950 [2:46:09<17:34,  1.57it/s]Training 3/3 epoch (loss 0.0226):  90%|█████████ | 15293/16950 [2:46:09<17:34,  1.57it/s]Training 3/3 epoch (loss 0.0226):  90%|█████████ | 15294/16950 [2:46:09<17:05,  1.62it/s]Training 3/3 epoch (loss 0.0014):  90%|█████████ | 15294/16950 [2:46:10<17:05,  1.62it/s]Training 3/3 epoch (loss 0.0014):  90%|█████████ | 15295/16950 [2:46:10<15:48,  1.74it/s]Training 3/3 epoch (loss 0.9371):  90%|█████████ | 15295/16950 [2:46:10<15:48,  1.74it/s]Training 3/3 epoch (loss 0.9371):  90%|█████████ | 15296/16950 [2:46:10<18:10,  1.52it/s]Training 3/3 epoch (loss 0.0045):  90%|█████████ | 15296/16950 [2:46:11<18:10,  1.52it/s]Training 3/3 epoch (loss 0.0045):  90%|█████████ | 15297/16950 [2:46:11<18:00,  1.53it/s]Training 3/3 epoch (loss 0.0058):  90%|█████████ | 15297/16950 [2:46:12<18:00,  1.53it/s]Training 3/3 epoch (loss 0.0058):  90%|█████████ | 15298/16950 [2:46:12<16:26,  1.67it/s]Training 3/3 epoch (loss 0.0062):  90%|█████████ | 15298/16950 [2:46:12<16:26,  1.67it/s]Training 3/3 epoch (loss 0.0062):  90%|█████████ | 15299/16950 [2:46:12<14:40,  1.88it/s]Training 3/3 epoch (loss 0.0046):  90%|█████████ | 15299/16950 [2:46:12<14:40,  1.88it/s]Training 3/3 epoch (loss 0.0046):  90%|█████████ | 15300/16950 [2:46:12<13:54,  1.98it/s]Training 3/3 epoch (loss 0.5736):  90%|█████████ | 15300/16950 [2:46:13<13:54,  1.98it/s]Training 3/3 epoch (loss 0.5736):  90%|█████████ | 15301/16950 [2:46:13<13:10,  2.09it/s]Training 3/3 epoch (loss 0.0313):  90%|█████████ | 15301/16950 [2:46:14<13:10,  2.09it/s]Training 3/3 epoch (loss 0.0313):  90%|█████████ | 15302/16950 [2:46:14<15:32,  1.77it/s]Training 3/3 epoch (loss 0.1577):  90%|█████████ | 15302/16950 [2:46:14<15:32,  1.77it/s]Training 3/3 epoch (loss 0.1577):  90%|█████████ | 15303/16950 [2:46:14<16:10,  1.70it/s]Training 3/3 epoch (loss 0.0002):  90%|█████████ | 15303/16950 [2:46:15<16:10,  1.70it/s]Training 3/3 epoch (loss 0.0002):  90%|█████████ | 15304/16950 [2:46:15<16:18,  1.68it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15304/16950 [2:46:15<16:18,  1.68it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15305/16950 [2:46:15<15:50,  1.73it/s]Training 3/3 epoch (loss 0.0013):  90%|█████████ | 15305/16950 [2:46:16<15:50,  1.73it/s]Training 3/3 epoch (loss 0.0013):  90%|█████████ | 15306/16950 [2:46:16<15:38,  1.75it/s]Training 3/3 epoch (loss 0.1397):  90%|█████████ | 15306/16950 [2:46:17<15:38,  1.75it/s]Training 3/3 epoch (loss 0.1397):  90%|█████████ | 15307/16950 [2:46:17<16:26,  1.67it/s]Training 3/3 epoch (loss 0.0015):  90%|█████████ | 15307/16950 [2:46:17<16:26,  1.67it/s]Training 3/3 epoch (loss 0.0015):  90%|█████████ | 15308/16950 [2:46:17<16:10,  1.69it/s]Training 3/3 epoch (loss 0.0080):  90%|█████████ | 15308/16950 [2:46:18<16:10,  1.69it/s]Training 3/3 epoch (loss 0.0080):  90%|█████████ | 15309/16950 [2:46:18<18:58,  1.44it/s]Training 3/3 epoch (loss 0.0164):  90%|█████████ | 15309/16950 [2:46:19<18:58,  1.44it/s]Training 3/3 epoch (loss 0.0164):  90%|█████████ | 15310/16950 [2:46:19<17:41,  1.54it/s]Training 3/3 epoch (loss 0.3284):  90%|█████████ | 15310/16950 [2:46:20<17:41,  1.54it/s]Training 3/3 epoch (loss 0.3284):  90%|█████████ | 15311/16950 [2:46:20<19:48,  1.38it/s]Training 3/3 epoch (loss 0.6966):  90%|█████████ | 15311/16950 [2:46:21<19:48,  1.38it/s]Training 3/3 epoch (loss 0.6966):  90%|█████████ | 15312/16950 [2:46:21<24:09,  1.13it/s]Training 3/3 epoch (loss 0.0081):  90%|█████████ | 15312/16950 [2:46:22<24:09,  1.13it/s]Training 3/3 epoch (loss 0.0081):  90%|█████████ | 15313/16950 [2:46:22<27:03,  1.01it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15313/16950 [2:46:23<27:03,  1.01it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15314/16950 [2:46:23<23:14,  1.17it/s]Training 3/3 epoch (loss 0.0123):  90%|█████████ | 15314/16950 [2:46:23<23:14,  1.17it/s]Training 3/3 epoch (loss 0.0123):  90%|█████████ | 15315/16950 [2:46:23<19:34,  1.39it/s]Training 3/3 epoch (loss 0.1102):  90%|█████████ | 15315/16950 [2:46:23<19:34,  1.39it/s]Training 3/3 epoch (loss 0.1102):  90%|█████████ | 15316/16950 [2:46:23<16:42,  1.63it/s]Training 3/3 epoch (loss 0.0040):  90%|█████████ | 15316/16950 [2:46:24<16:42,  1.63it/s]Training 3/3 epoch (loss 0.0040):  90%|█████████ | 15317/16950 [2:46:24<16:16,  1.67it/s]Training 3/3 epoch (loss 0.3881):  90%|█████████ | 15317/16950 [2:46:25<16:16,  1.67it/s]Training 3/3 epoch (loss 0.3881):  90%|█████████ | 15318/16950 [2:46:25<19:16,  1.41it/s]Training 3/3 epoch (loss 0.3248):  90%|█████████ | 15318/16950 [2:46:25<19:16,  1.41it/s]Training 3/3 epoch (loss 0.3248):  90%|█████████ | 15319/16950 [2:46:25<17:35,  1.54it/s]Training 3/3 epoch (loss 0.0015):  90%|█████████ | 15319/16950 [2:46:26<17:35,  1.54it/s]Training 3/3 epoch (loss 0.0015):  90%|█████████ | 15320/16950 [2:46:26<15:17,  1.78it/s]Training 3/3 epoch (loss 0.0150):  90%|█████████ | 15320/16950 [2:46:26<15:17,  1.78it/s]Training 3/3 epoch (loss 0.0150):  90%|█████████ | 15321/16950 [2:46:26<15:36,  1.74it/s]Training 3/3 epoch (loss 0.0008):  90%|█████████ | 15321/16950 [2:46:27<15:36,  1.74it/s]Training 3/3 epoch (loss 0.0008):  90%|█████████ | 15322/16950 [2:46:27<16:15,  1.67it/s]Training 3/3 epoch (loss 0.0036):  90%|█████████ | 15322/16950 [2:46:28<16:15,  1.67it/s]Training 3/3 epoch (loss 0.0036):  90%|█████████ | 15323/16950 [2:46:28<17:26,  1.55it/s]Training 3/3 epoch (loss 0.0022):  90%|█████████ | 15323/16950 [2:46:29<17:26,  1.55it/s]Training 3/3 epoch (loss 0.0022):  90%|█████████ | 15324/16950 [2:46:29<19:32,  1.39it/s]Training 3/3 epoch (loss 0.0002):  90%|█████████ | 15324/16950 [2:46:29<19:32,  1.39it/s]Training 3/3 epoch (loss 0.0002):  90%|█████████ | 15325/16950 [2:46:29<19:21,  1.40it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15325/16950 [2:46:30<19:21,  1.40it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15326/16950 [2:46:30<16:57,  1.60it/s]Training 3/3 epoch (loss 0.0245):  90%|█████████ | 15326/16950 [2:46:30<16:57,  1.60it/s]Training 3/3 epoch (loss 0.0245):  90%|█████████ | 15327/16950 [2:46:30<15:37,  1.73it/s]Training 3/3 epoch (loss 0.2474):  90%|█████████ | 15327/16950 [2:46:31<15:37,  1.73it/s]Training 3/3 epoch (loss 0.2474):  90%|█████████ | 15328/16950 [2:46:31<14:05,  1.92it/s]Training 3/3 epoch (loss 0.0275):  90%|█████████ | 15328/16950 [2:46:31<14:05,  1.92it/s]Training 3/3 epoch (loss 0.0275):  90%|█████████ | 15329/16950 [2:46:31<12:44,  2.12it/s]Training 3/3 epoch (loss 0.3033):  90%|█████████ | 15329/16950 [2:46:32<12:44,  2.12it/s]Training 3/3 epoch (loss 0.3033):  90%|█████████ | 15330/16950 [2:46:32<14:05,  1.92it/s]Training 3/3 epoch (loss 0.1409):  90%|█████████ | 15330/16950 [2:46:33<14:05,  1.92it/s]Training 3/3 epoch (loss 0.1409):  90%|█████████ | 15331/16950 [2:46:33<18:45,  1.44it/s]Training 3/3 epoch (loss 0.1028):  90%|█████████ | 15331/16950 [2:46:33<18:45,  1.44it/s]Training 3/3 epoch (loss 0.1028):  90%|█████████ | 15332/16950 [2:46:33<18:24,  1.47it/s]Training 3/3 epoch (loss 0.0108):  90%|█████████ | 15332/16950 [2:46:34<18:24,  1.47it/s]Training 3/3 epoch (loss 0.0108):  90%|█████████ | 15333/16950 [2:46:34<20:02,  1.34it/s]Training 3/3 epoch (loss 0.0000):  90%|█████████ | 15333/16950 [2:46:35<20:02,  1.34it/s]Training 3/3 epoch (loss 0.0000):  90%|█████████ | 15334/16950 [2:46:35<19:09,  1.41it/s]Training 3/3 epoch (loss 0.0885):  90%|█████████ | 15334/16950 [2:46:36<19:09,  1.41it/s]Training 3/3 epoch (loss 0.0885):  90%|█████████ | 15335/16950 [2:46:36<18:05,  1.49it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15335/16950 [2:46:36<18:05,  1.49it/s]Training 3/3 epoch (loss 0.0001):  90%|█████████ | 15336/16950 [2:46:36<16:15,  1.65it/s]Training 3/3 epoch (loss 0.2964):  90%|█████████ | 15336/16950 [2:46:36<16:15,  1.65it/s]Training 3/3 epoch (loss 0.2964):  90%|█████████ | 15337/16950 [2:46:36<15:10,  1.77it/s]Training 3/3 epoch (loss 0.3000):  90%|█████████ | 15337/16950 [2:46:37<15:10,  1.77it/s]Training 3/3 epoch (loss 0.3000):  90%|█████████ | 15338/16950 [2:46:37<16:06,  1.67it/s]Training 3/3 epoch (loss 0.0868):  90%|█████████ | 15338/16950 [2:46:38<16:06,  1.67it/s]Training 3/3 epoch (loss 0.0868):  90%|█████████ | 15339/16950 [2:46:38<15:33,  1.73it/s]Training 3/3 epoch (loss 0.0308):  90%|█████████ | 15339/16950 [2:46:38<15:33,  1.73it/s]Training 3/3 epoch (loss 0.0308):  91%|█████████ | 15340/16950 [2:46:38<15:23,  1.74it/s]Training 3/3 epoch (loss 0.0132):  91%|█████████ | 15340/16950 [2:46:39<15:23,  1.74it/s]Training 3/3 epoch (loss 0.0132):  91%|█████████ | 15341/16950 [2:46:39<16:15,  1.65it/s]Training 3/3 epoch (loss 0.0029):  91%|█████████ | 15341/16950 [2:46:39<16:15,  1.65it/s]Training 3/3 epoch (loss 0.0029):  91%|█████████ | 15342/16950 [2:46:39<15:18,  1.75it/s]Training 3/3 epoch (loss 0.0381):  91%|█████████ | 15342/16950 [2:46:40<15:18,  1.75it/s]Training 3/3 epoch (loss 0.0381):  91%|█████████ | 15343/16950 [2:46:40<13:37,  1.97it/s]Training 3/3 epoch (loss 0.0000):  91%|█████████ | 15343/16950 [2:46:40<13:37,  1.97it/s]Training 3/3 epoch (loss 0.0000):  91%|█████████ | 15344/16950 [2:46:40<12:49,  2.09it/s]Training 3/3 epoch (loss 0.0402):  91%|█████████ | 15344/16950 [2:46:41<12:49,  2.09it/s]Training 3/3 epoch (loss 0.0402):  91%|█████████ | 15345/16950 [2:46:41<14:17,  1.87it/s]Training 3/3 epoch (loss 0.0048):  91%|█████████ | 15345/16950 [2:46:41<14:17,  1.87it/s]Training 3/3 epoch (loss 0.0048):  91%|█████████ | 15346/16950 [2:46:41<15:22,  1.74it/s]Training 3/3 epoch (loss 0.0027):  91%|█████████ | 15346/16950 [2:46:42<15:22,  1.74it/s]Training 3/3 epoch (loss 0.0027):  91%|█████████ | 15347/16950 [2:46:42<16:09,  1.65it/s]Training 3/3 epoch (loss 0.0051):  91%|█████████ | 15347/16950 [2:46:43<16:09,  1.65it/s]Training 3/3 epoch (loss 0.0051):  91%|█████████ | 15348/16950 [2:46:43<16:09,  1.65it/s]Training 3/3 epoch (loss 0.3961):  91%|█████████ | 15348/16950 [2:46:43<16:09,  1.65it/s]Training 3/3 epoch (loss 0.3961):  91%|█████████ | 15349/16950 [2:46:43<16:44,  1.59it/s]Training 3/3 epoch (loss 0.0001):  91%|█████████ | 15349/16950 [2:46:44<16:44,  1.59it/s]Training 3/3 epoch (loss 0.0001):  91%|█████████ | 15350/16950 [2:46:44<17:05,  1.56it/s]Training 3/3 epoch (loss nan):  91%|█████████ | 15350/16950 [2:46:45<17:05,  1.56it/s]   Training 3/3 epoch (loss nan):  91%|█████████ | 15351/16950 [2:46:45<21:08,  1.26it/s]Training 3/3 epoch (loss 0.0055):  91%|█████████ | 15351/16950 [2:46:46<21:08,  1.26it/s]Training 3/3 epoch (loss 0.0055):  91%|█████████ | 15352/16950 [2:46:46<19:42,  1.35it/s]Training 3/3 epoch (loss 0.1948):  91%|█████████ | 15352/16950 [2:46:46<19:42,  1.35it/s]Training 3/3 epoch (loss 0.1948):  91%|█████████ | 15353/16950 [2:46:46<16:18,  1.63it/s]Training 3/3 epoch (loss 0.2838):  91%|█████████ | 15353/16950 [2:46:47<16:18,  1.63it/s]Training 3/3 epoch (loss 0.2838):  91%|█████████ | 15354/16950 [2:46:47<16:12,  1.64it/s]Training 3/3 epoch (loss 0.0000):  91%|█████████ | 15354/16950 [2:46:47<16:12,  1.64it/s]Training 3/3 epoch (loss 0.0000):  91%|█████████ | 15355/16950 [2:46:47<16:20,  1.63it/s]Training 3/3 epoch (loss 0.0113):  91%|█████████ | 15355/16950 [2:46:48<16:20,  1.63it/s]Training 3/3 epoch (loss 0.0113):  91%|█████████ | 15356/16950 [2:46:48<17:07,  1.55it/s]Training 3/3 epoch (loss 0.0073):  91%|█████████ | 15356/16950 [2:46:49<17:07,  1.55it/s]Training 3/3 epoch (loss 0.0073):  91%|█████████ | 15357/16950 [2:46:49<17:37,  1.51it/s]Training 3/3 epoch (loss 0.0006):  91%|█████████ | 15357/16950 [2:46:49<17:37,  1.51it/s]Training 3/3 epoch (loss 0.0006):  91%|█████████ | 15358/16950 [2:46:49<16:37,  1.60it/s]Training 3/3 epoch (loss 0.0022):  91%|█████████ | 15358/16950 [2:46:50<16:37,  1.60it/s]Training 3/3 epoch (loss 0.0022):  91%|█████████ | 15359/16950 [2:46:50<15:23,  1.72it/s]Training 3/3 epoch (loss 0.0154):  91%|█████████ | 15359/16950 [2:46:50<15:23,  1.72it/s]Training 3/3 epoch (loss 0.0154):  91%|█████████ | 15360/16950 [2:46:50<14:19,  1.85it/s]Training 3/3 epoch (loss 0.0000):  91%|█████████ | 15360/16950 [2:46:51<14:19,  1.85it/s]Training 3/3 epoch (loss 0.0000):  91%|█████████ | 15361/16950 [2:46:51<12:51,  2.06it/s]Training 3/3 epoch (loss 0.4985):  91%|█████████ | 15361/16950 [2:46:52<12:51,  2.06it/s]Training 3/3 epoch (loss 0.4985):  91%|█████████ | 15362/16950 [2:46:52<17:12,  1.54it/s]Training 3/3 epoch (loss 0.0557):  91%|█████████ | 15362/16950 [2:46:52<17:12,  1.54it/s]Training 3/3 epoch (loss 0.0557):  91%|█████████ | 15363/16950 [2:46:52<17:12,  1.54it/s]Training 3/3 epoch (loss 0.0371):  91%|█████████ | 15363/16950 [2:46:53<17:12,  1.54it/s]Training 3/3 epoch (loss 0.0371):  91%|█████████ | 15364/16950 [2:46:53<16:47,  1.57it/s]Training 3/3 epoch (loss 0.0099):  91%|█████████ | 15364/16950 [2:46:54<16:47,  1.57it/s]Training 3/3 epoch (loss 0.0099):  91%|█████████ | 15365/16950 [2:46:54<17:24,  1.52it/s]Training 3/3 epoch (loss 0.0009):  91%|█████████ | 15365/16950 [2:46:54<17:24,  1.52it/s]Training 3/3 epoch (loss 0.0009):  91%|█████████ | 15366/16950 [2:46:54<16:08,  1.64it/s]Training 3/3 epoch (loss 0.0006):  91%|█████████ | 15366/16950 [2:46:55<16:08,  1.64it/s]Training 3/3 epoch (loss 0.0006):  91%|█████████ | 15367/16950 [2:46:55<15:54,  1.66it/s]Training 3/3 epoch (loss 0.0179):  91%|█████████ | 15367/16950 [2:46:55<15:54,  1.66it/s]Training 3/3 epoch (loss 0.0179):  91%|█████████ | 15368/16950 [2:46:55<16:35,  1.59it/s]Training 3/3 epoch (loss 0.4031):  91%|█████████ | 15368/16950 [2:46:57<16:35,  1.59it/s]Training 3/3 epoch (loss 0.4031):  91%|█████████ | 15369/16950 [2:46:57<20:06,  1.31it/s]Training 3/3 epoch (loss 0.1575):  91%|█████████ | 15369/16950 [2:46:57<20:06,  1.31it/s]Training 3/3 epoch (loss 0.1575):  91%|█████████ | 15370/16950 [2:46:57<19:21,  1.36it/s]Training 3/3 epoch (loss 0.2370):  91%|█████████ | 15370/16950 [2:46:58<19:21,  1.36it/s]Training 3/3 epoch (loss 0.2370):  91%|█████████ | 15371/16950 [2:46:58<17:06,  1.54it/s]Training 3/3 epoch (loss 0.0030):  91%|█████████ | 15371/16950 [2:46:59<17:06,  1.54it/s]Training 3/3 epoch (loss 0.0030):  91%|█████████ | 15372/16950 [2:46:59<21:04,  1.25it/s]Training 3/3 epoch (loss 0.1394):  91%|█████████ | 15372/16950 [2:46:59<21:04,  1.25it/s]Training 3/3 epoch (loss 0.1394):  91%|█████████ | 15373/16950 [2:46:59<19:14,  1.37it/s]Training 3/3 epoch (loss 0.4943):  91%|█████████ | 15373/16950 [2:47:00<19:14,  1.37it/s]Training 3/3 epoch (loss 0.4943):  91%|█████████ | 15374/16950 [2:47:00<19:55,  1.32it/s]Training 3/3 epoch (loss 0.0014):  91%|█████████ | 15374/16950 [2:47:01<19:55,  1.32it/s]Training 3/3 epoch (loss 0.0014):  91%|█████████ | 15375/16950 [2:47:01<18:24,  1.43it/s]Training 3/3 epoch (loss 0.4766):  91%|█████████ | 15375/16950 [2:47:01<18:24,  1.43it/s]Training 3/3 epoch (loss 0.4766):  91%|█████████ | 15376/16950 [2:47:01<17:27,  1.50it/s]Training 3/3 epoch (loss 1.0542):  91%|█████████ | 15376/16950 [2:47:02<17:27,  1.50it/s]Training 3/3 epoch (loss 1.0542):  91%|█████████ | 15377/16950 [2:47:02<17:41,  1.48it/s]Training 3/3 epoch (loss 0.2000):  91%|█████████ | 15377/16950 [2:47:03<17:41,  1.48it/s]Training 3/3 epoch (loss 0.2000):  91%|█████████ | 15378/16950 [2:47:03<16:23,  1.60it/s]Training 3/3 epoch (loss 0.5351):  91%|█████████ | 15378/16950 [2:47:03<16:23,  1.60it/s]Training 3/3 epoch (loss 0.5351):  91%|█████████ | 15379/16950 [2:47:03<17:44,  1.48it/s]Training 3/3 epoch (loss 0.0720):  91%|█████████ | 15379/16950 [2:47:04<17:44,  1.48it/s]Training 3/3 epoch (loss 0.0720):  91%|█████████ | 15380/16950 [2:47:04<17:36,  1.49it/s]Training 3/3 epoch (loss 0.0502):  91%|█████████ | 15380/16950 [2:47:05<17:36,  1.49it/s]Training 3/3 epoch (loss 0.0502):  91%|█████████ | 15381/16950 [2:47:05<17:55,  1.46it/s]Training 3/3 epoch (loss 0.0733):  91%|█████████ | 15381/16950 [2:47:05<17:55,  1.46it/s]Training 3/3 epoch (loss 0.0733):  91%|█████████ | 15382/16950 [2:47:05<16:19,  1.60it/s]Training 3/3 epoch (loss 0.3055):  91%|█████████ | 15382/16950 [2:47:06<16:19,  1.60it/s]Training 3/3 epoch (loss 0.3055):  91%|█████████ | 15383/16950 [2:47:06<14:01,  1.86it/s]Training 3/3 epoch (loss 0.2754):  91%|█████████ | 15383/16950 [2:47:06<14:01,  1.86it/s]Training 3/3 epoch (loss 0.2754):  91%|█████████ | 15384/16950 [2:47:06<17:24,  1.50it/s]Training 3/3 epoch (loss 0.0598):  91%|█████████ | 15384/16950 [2:47:07<17:24,  1.50it/s]Training 3/3 epoch (loss 0.0598):  91%|█████████ | 15385/16950 [2:47:07<17:55,  1.46it/s]Training 3/3 epoch (loss 0.3201):  91%|█████████ | 15385/16950 [2:47:08<17:55,  1.46it/s]Training 3/3 epoch (loss 0.3201):  91%|█████████ | 15386/16950 [2:47:08<17:55,  1.45it/s]Training 3/3 epoch (loss 0.0024):  91%|█████████ | 15386/16950 [2:47:09<17:55,  1.45it/s]Training 3/3 epoch (loss 0.0024):  91%|█████████ | 15387/16950 [2:47:09<20:09,  1.29it/s]Training 3/3 epoch (loss 0.0004):  91%|█████████ | 15387/16950 [2:47:10<20:09,  1.29it/s]Training 3/3 epoch (loss 0.0004):  91%|█████████ | 15388/16950 [2:47:10<20:26,  1.27it/s]Training 3/3 epoch (loss 0.0012):  91%|█████████ | 15388/16950 [2:47:10<20:26,  1.27it/s]Training 3/3 epoch (loss 0.0012):  91%|█████████ | 15389/16950 [2:47:10<18:34,  1.40it/s]Training 3/3 epoch (loss 0.4628):  91%|█████████ | 15389/16950 [2:47:11<18:34,  1.40it/s]Training 3/3 epoch (loss 0.4628):  91%|█████████ | 15390/16950 [2:47:11<19:42,  1.32it/s]Training 3/3 epoch (loss 0.1860):  91%|█████████ | 15390/16950 [2:47:12<19:42,  1.32it/s]Training 3/3 epoch (loss 0.1860):  91%|█████████ | 15391/16950 [2:47:12<20:51,  1.25it/s]Training 3/3 epoch (loss 0.0023):  91%|█████████ | 15391/16950 [2:47:13<20:51,  1.25it/s]Training 3/3 epoch (loss 0.0023):  91%|█████████ | 15392/16950 [2:47:13<20:13,  1.28it/s]Training 3/3 epoch (loss 0.4135):  91%|█████████ | 15392/16950 [2:47:13<20:13,  1.28it/s]Training 3/3 epoch (loss 0.4135):  91%|█████████ | 15393/16950 [2:47:13<18:17,  1.42it/s]Training 3/3 epoch (loss 0.0283):  91%|█████████ | 15393/16950 [2:47:14<18:17,  1.42it/s]Training 3/3 epoch (loss 0.0283):  91%|█████████ | 15394/16950 [2:47:14<15:34,  1.67it/s]Training 3/3 epoch (loss 0.0016):  91%|█████████ | 15394/16950 [2:47:14<15:34,  1.67it/s]Training 3/3 epoch (loss 0.0016):  91%|█████████ | 15395/16950 [2:47:14<14:57,  1.73it/s]Training 3/3 epoch (loss 0.1403):  91%|█████████ | 15395/16950 [2:47:15<14:57,  1.73it/s]Training 3/3 epoch (loss 0.1403):  91%|█████████ | 15396/16950 [2:47:15<14:49,  1.75it/s]Training 3/3 epoch (loss 0.0119):  91%|█████████ | 15396/16950 [2:47:15<14:49,  1.75it/s]Training 3/3 epoch (loss 0.0119):  91%|█████████ | 15397/16950 [2:47:15<15:24,  1.68it/s]Training 3/3 epoch (loss 0.3173):  91%|█████████ | 15397/16950 [2:47:16<15:24,  1.68it/s]Training 3/3 epoch (loss 0.3173):  91%|█████████ | 15398/16950 [2:47:16<13:41,  1.89it/s]Training 3/3 epoch (loss 0.0555):  91%|█████████ | 15398/16950 [2:47:17<13:41,  1.89it/s]Training 3/3 epoch (loss 0.0555):  91%|█████████ | 15399/16950 [2:47:17<16:12,  1.60it/s]Training 3/3 epoch (loss 0.1989):  91%|█████████ | 15399/16950 [2:47:17<16:12,  1.60it/s]Training 3/3 epoch (loss 0.1989):  91%|█████████ | 15400/16950 [2:47:17<17:14,  1.50it/s]Training 3/3 epoch (loss 0.1041):  91%|█████████ | 15400/16950 [2:47:18<17:14,  1.50it/s]Training 3/3 epoch (loss 0.1041):  91%|█████████ | 15401/16950 [2:47:18<17:03,  1.51it/s]Training 3/3 epoch (loss 0.0058):  91%|█████████ | 15401/16950 [2:47:19<17:03,  1.51it/s]Training 3/3 epoch (loss 0.0058):  91%|█████████ | 15402/16950 [2:47:19<16:36,  1.55it/s]Training 3/3 epoch (loss 0.4719):  91%|█████████ | 15402/16950 [2:47:20<16:36,  1.55it/s]Training 3/3 epoch (loss 0.4719):  91%|█████████ | 15403/16950 [2:47:20<20:37,  1.25it/s]Training 3/3 epoch (loss 0.2559):  91%|█████████ | 15403/16950 [2:47:20<20:37,  1.25it/s]Training 3/3 epoch (loss 0.2559):  91%|█████████ | 15404/16950 [2:47:20<18:18,  1.41it/s]Training 3/3 epoch (loss 0.0484):  91%|█████████ | 15404/16950 [2:47:21<18:18,  1.41it/s]Training 3/3 epoch (loss 0.0484):  91%|█████████ | 15405/16950 [2:47:21<17:24,  1.48it/s]Training 3/3 epoch (loss 0.0004):  91%|█████████ | 15405/16950 [2:47:21<17:24,  1.48it/s]Training 3/3 epoch (loss 0.0004):  91%|█████████ | 15406/16950 [2:47:21<15:24,  1.67it/s]Training 3/3 epoch (loss 0.0571):  91%|█████████ | 15406/16950 [2:47:22<15:24,  1.67it/s]Training 3/3 epoch (loss 0.0571):  91%|█████████ | 15407/16950 [2:47:22<14:13,  1.81it/s]Training 3/3 epoch (loss 0.0001):  91%|█████████ | 15407/16950 [2:47:22<14:13,  1.81it/s]Training 3/3 epoch (loss 0.0001):  91%|█████████ | 15408/16950 [2:47:22<13:18,  1.93it/s]Training 3/3 epoch (loss 0.5222):  91%|█████████ | 15408/16950 [2:47:23<13:18,  1.93it/s]Training 3/3 epoch (loss 0.5222):  91%|█████████ | 15409/16950 [2:47:23<15:23,  1.67it/s]Training 3/3 epoch (loss 0.0002):  91%|█████████ | 15409/16950 [2:47:23<15:23,  1.67it/s]Training 3/3 epoch (loss 0.0002):  91%|█████████ | 15410/16950 [2:47:23<14:32,  1.76it/s]Training 3/3 epoch (loss 0.0037):  91%|█████████ | 15410/16950 [2:47:24<14:32,  1.76it/s]Training 3/3 epoch (loss 0.0037):  91%|█████████ | 15411/16950 [2:47:24<13:34,  1.89it/s]Training 3/3 epoch (loss 0.0524):  91%|█████████ | 15411/16950 [2:47:25<13:34,  1.89it/s]Training 3/3 epoch (loss 0.0524):  91%|█████████ | 15412/16950 [2:47:25<14:33,  1.76it/s]Training 3/3 epoch (loss 0.0180):  91%|█████████ | 15412/16950 [2:47:25<14:33,  1.76it/s]Training 3/3 epoch (loss 0.0180):  91%|█████████ | 15413/16950 [2:47:25<15:27,  1.66it/s]Training 3/3 epoch (loss 0.1690):  91%|█████████ | 15413/16950 [2:47:26<15:27,  1.66it/s]Training 3/3 epoch (loss 0.1690):  91%|█████████ | 15414/16950 [2:47:26<17:33,  1.46it/s]Training 3/3 epoch (loss 0.0058):  91%|█████████ | 15414/16950 [2:47:27<17:33,  1.46it/s]Training 3/3 epoch (loss 0.0058):  91%|█████████ | 15415/16950 [2:47:27<17:15,  1.48it/s]Training 3/3 epoch (loss 0.0004):  91%|█████████ | 15415/16950 [2:47:27<17:15,  1.48it/s]Training 3/3 epoch (loss 0.0004):  91%|█████████ | 15416/16950 [2:47:27<16:53,  1.51it/s]Training 3/3 epoch (loss 0.0007):  91%|█████████ | 15416/16950 [2:47:28<16:53,  1.51it/s]Training 3/3 epoch (loss 0.0007):  91%|█████████ | 15417/16950 [2:47:28<15:01,  1.70it/s]Training 3/3 epoch (loss 0.0001):  91%|█████████ | 15417/16950 [2:47:28<15:01,  1.70it/s]Training 3/3 epoch (loss 0.0001):  91%|█████████ | 15418/16950 [2:47:28<13:23,  1.91it/s]Training 3/3 epoch (loss 0.0038):  91%|█████████ | 15418/16950 [2:47:29<13:23,  1.91it/s]Training 3/3 epoch (loss 0.0038):  91%|█████████ | 15419/16950 [2:47:29<13:29,  1.89it/s]Training 3/3 epoch (loss 0.3168):  91%|█████████ | 15419/16950 [2:47:29<13:29,  1.89it/s]Training 3/3 epoch (loss 0.3168):  91%|█████████ | 15420/16950 [2:47:29<14:54,  1.71it/s]Training 3/3 epoch (loss 0.1281):  91%|█████████ | 15420/16950 [2:47:30<14:54,  1.71it/s]Training 3/3 epoch (loss 0.1281):  91%|█████████ | 15421/16950 [2:47:30<16:03,  1.59it/s]Training 3/3 epoch (loss 0.0526):  91%|█████████ | 15421/16950 [2:47:31<16:03,  1.59it/s]Training 3/3 epoch (loss 0.0526):  91%|█████████ | 15422/16950 [2:47:31<17:20,  1.47it/s]Training 3/3 epoch (loss 0.0009):  91%|█████████ | 15422/16950 [2:47:32<17:20,  1.47it/s]Training 3/3 epoch (loss 0.0009):  91%|█████████ | 15423/16950 [2:47:32<21:03,  1.21it/s]Training 3/3 epoch (loss 0.0002):  91%|█████████ | 15423/16950 [2:47:32<21:03,  1.21it/s]Training 3/3 epoch (loss 0.0002):  91%|█████████ | 15424/16950 [2:47:32<17:19,  1.47it/s]Training 3/3 epoch (loss 0.3816):  91%|█████████ | 15424/16950 [2:47:33<17:19,  1.47it/s]Training 3/3 epoch (loss 0.3816):  91%|█████████ | 15425/16950 [2:47:33<18:46,  1.35it/s]Training 3/3 epoch (loss 0.5119):  91%|█████████ | 15425/16950 [2:47:34<18:46,  1.35it/s]Training 3/3 epoch (loss 0.5119):  91%|█████████ | 15426/16950 [2:47:34<20:54,  1.21it/s]Training 3/3 epoch (loss 0.3504):  91%|█████████ | 15426/16950 [2:47:35<20:54,  1.21it/s]Training 3/3 epoch (loss 0.3504):  91%|█████████ | 15427/16950 [2:47:35<19:37,  1.29it/s]Training 3/3 epoch (loss 0.2597):  91%|█████████ | 15427/16950 [2:47:36<19:37,  1.29it/s]Training 3/3 epoch (loss 0.2597):  91%|█████████ | 15428/16950 [2:47:36<17:36,  1.44it/s]Training 3/3 epoch (loss 0.0231):  91%|█████████ | 15428/16950 [2:47:36<17:36,  1.44it/s]Training 3/3 epoch (loss 0.0231):  91%|█████████ | 15429/16950 [2:47:36<16:07,  1.57it/s]Training 3/3 epoch (loss 0.4935):  91%|█████████ | 15429/16950 [2:47:37<16:07,  1.57it/s]Training 3/3 epoch (loss 0.4935):  91%|█████████ | 15430/16950 [2:47:37<15:11,  1.67it/s]Training 3/3 epoch (loss 0.0002):  91%|█████████ | 15430/16950 [2:47:37<15:11,  1.67it/s]Training 3/3 epoch (loss 0.0002):  91%|█████████ | 15431/16950 [2:47:37<13:39,  1.85it/s]Training 3/3 epoch (loss 0.2256):  91%|█████████ | 15431/16950 [2:47:37<13:39,  1.85it/s]Training 3/3 epoch (loss 0.2256):  91%|█████████ | 15432/16950 [2:47:37<12:14,  2.07it/s]Training 3/3 epoch (loss 0.0054):  91%|█████████ | 15432/16950 [2:47:38<12:14,  2.07it/s]Training 3/3 epoch (loss 0.0054):  91%|█████████ | 15433/16950 [2:47:38<13:14,  1.91it/s]Training 3/3 epoch (loss 0.0114):  91%|█████████ | 15433/16950 [2:47:39<13:14,  1.91it/s]Training 3/3 epoch (loss 0.0114):  91%|█████████ | 15434/16950 [2:47:39<14:24,  1.75it/s]Training 3/3 epoch (loss 0.0012):  91%|█████████ | 15434/16950 [2:47:39<14:24,  1.75it/s]Training 3/3 epoch (loss 0.0012):  91%|█████████ | 15435/16950 [2:47:39<14:32,  1.74it/s]Training 3/3 epoch (loss 0.2350):  91%|█████████ | 15435/16950 [2:47:40<14:32,  1.74it/s]Training 3/3 epoch (loss 0.2350):  91%|█████████ | 15436/16950 [2:47:40<14:38,  1.72it/s]Training 3/3 epoch (loss 0.0940):  91%|█████████ | 15436/16950 [2:47:40<14:38,  1.72it/s]Training 3/3 epoch (loss 0.0940):  91%|█████████ | 15437/16950 [2:47:40<14:21,  1.76it/s]Training 3/3 epoch (loss 0.5245):  91%|█████████ | 15437/16950 [2:47:41<14:21,  1.76it/s]Training 3/3 epoch (loss 0.5245):  91%|█████████ | 15438/16950 [2:47:41<14:04,  1.79it/s]Training 3/3 epoch (loss 0.0014):  91%|█████████ | 15438/16950 [2:47:41<14:04,  1.79it/s]Training 3/3 epoch (loss 0.0014):  91%|█████████ | 15439/16950 [2:47:41<13:47,  1.83it/s]Training 3/3 epoch (loss 0.1998):  91%|█████████ | 15439/16950 [2:47:42<13:47,  1.83it/s]Training 3/3 epoch (loss 0.1998):  91%|█████████ | 15440/16950 [2:47:42<13:09,  1.91it/s]Training 3/3 epoch (loss 0.3475):  91%|█████████ | 15440/16950 [2:47:42<13:09,  1.91it/s]Training 3/3 epoch (loss 0.3475):  91%|█████████ | 15441/16950 [2:47:42<13:57,  1.80it/s]Training 3/3 epoch (loss 0.0034):  91%|█████████ | 15441/16950 [2:47:43<13:57,  1.80it/s]Training 3/3 epoch (loss 0.0034):  91%|█████████ | 15442/16950 [2:47:43<14:46,  1.70it/s]Training 3/3 epoch (loss 0.0128):  91%|█████████ | 15442/16950 [2:47:44<14:46,  1.70it/s]Training 3/3 epoch (loss 0.0128):  91%|█████████ | 15443/16950 [2:47:44<14:02,  1.79it/s]Training 3/3 epoch (loss 0.0236):  91%|█████████ | 15443/16950 [2:47:44<14:02,  1.79it/s]Training 3/3 epoch (loss 0.0236):  91%|█████████ | 15444/16950 [2:47:44<13:34,  1.85it/s]Training 3/3 epoch (loss 0.1915):  91%|█████████ | 15444/16950 [2:47:45<13:34,  1.85it/s]Training 3/3 epoch (loss 0.1915):  91%|█████████ | 15445/16950 [2:47:45<12:55,  1.94it/s]Training 3/3 epoch (loss 0.0004):  91%|█████████ | 15445/16950 [2:47:45<12:55,  1.94it/s]Training 3/3 epoch (loss 0.0004):  91%|█████████ | 15446/16950 [2:47:45<13:34,  1.85it/s]Training 3/3 epoch (loss 0.0012):  91%|█████████ | 15446/16950 [2:47:46<13:34,  1.85it/s]Training 3/3 epoch (loss 0.0012):  91%|█████████ | 15447/16950 [2:47:46<12:58,  1.93it/s]Training 3/3 epoch (loss 0.0032):  91%|█████████ | 15447/16950 [2:47:46<12:58,  1.93it/s]Training 3/3 epoch (loss 0.0032):  91%|█████████ | 15448/16950 [2:47:46<11:46,  2.12it/s]Training 3/3 epoch (loss 0.0499):  91%|█████████ | 15448/16950 [2:47:47<11:46,  2.12it/s]Training 3/3 epoch (loss 0.0499):  91%|█████████ | 15449/16950 [2:47:47<12:24,  2.02it/s]Training 3/3 epoch (loss 0.0094):  91%|█████████ | 15449/16950 [2:47:47<12:24,  2.02it/s]Training 3/3 epoch (loss 0.0094):  91%|█████████ | 15450/16950 [2:47:47<12:29,  2.00it/s]Training 3/3 epoch (loss 0.0015):  91%|█████████ | 15450/16950 [2:47:48<12:29,  2.00it/s]Training 3/3 epoch (loss 0.0015):  91%|█████████ | 15451/16950 [2:47:48<12:18,  2.03it/s]Training 3/3 epoch (loss 0.7489):  91%|█████████ | 15451/16950 [2:47:48<12:18,  2.03it/s]Training 3/3 epoch (loss 0.7489):  91%|█████████ | 15452/16950 [2:47:48<12:40,  1.97it/s]Training 3/3 epoch (loss 0.0732):  91%|█████████ | 15452/16950 [2:47:49<12:40,  1.97it/s]Training 3/3 epoch (loss 0.0732):  91%|█████████ | 15453/16950 [2:47:49<12:35,  1.98it/s]Training 3/3 epoch (loss 0.0778):  91%|█████████ | 15453/16950 [2:47:49<12:35,  1.98it/s]Training 3/3 epoch (loss 0.0778):  91%|█████████ | 15454/16950 [2:47:49<13:38,  1.83it/s]Training 3/3 epoch (loss 0.4501):  91%|█████████ | 15454/16950 [2:47:50<13:38,  1.83it/s]Training 3/3 epoch (loss 0.4501):  91%|█████████ | 15455/16950 [2:47:50<16:08,  1.54it/s]Training 3/3 epoch (loss 0.0138):  91%|█████████ | 15455/16950 [2:47:51<16:08,  1.54it/s]Training 3/3 epoch (loss 0.0138):  91%|█████████ | 15456/16950 [2:47:51<15:43,  1.58it/s]Training 3/3 epoch (loss 0.0301):  91%|█████████ | 15456/16950 [2:47:51<15:43,  1.58it/s]Training 3/3 epoch (loss 0.0301):  91%|█████████ | 15457/16950 [2:47:51<14:58,  1.66it/s]Training 3/3 epoch (loss 0.0808):  91%|█████████ | 15457/16950 [2:47:52<14:58,  1.66it/s]Training 3/3 epoch (loss 0.0808):  91%|█████████ | 15458/16950 [2:47:52<14:09,  1.76it/s]Training 3/3 epoch (loss 0.4686):  91%|█████████ | 15458/16950 [2:47:52<14:09,  1.76it/s]Training 3/3 epoch (loss 0.4686):  91%|█████████ | 15459/16950 [2:47:52<12:53,  1.93it/s]Training 3/3 epoch (loss 0.0882):  91%|█████████ | 15459/16950 [2:47:53<12:53,  1.93it/s]Training 3/3 epoch (loss 0.0882):  91%|█████████ | 15460/16950 [2:47:53<15:14,  1.63it/s]Training 3/3 epoch (loss 0.0097):  91%|█████████ | 15460/16950 [2:47:54<15:14,  1.63it/s]Training 3/3 epoch (loss 0.0097):  91%|█████████ | 15461/16950 [2:47:54<14:48,  1.68it/s]Training 3/3 epoch (loss 0.0082):  91%|█████████ | 15461/16950 [2:47:54<14:48,  1.68it/s]Training 3/3 epoch (loss 0.0082):  91%|█████████ | 15462/16950 [2:47:54<14:44,  1.68it/s]Training 3/3 epoch (loss 0.2514):  91%|█████████ | 15462/16950 [2:47:55<14:44,  1.68it/s]Training 3/3 epoch (loss 0.2514):  91%|█████████ | 15463/16950 [2:47:55<14:37,  1.70it/s]Training 3/3 epoch (loss 0.1525):  91%|█████████ | 15463/16950 [2:47:55<14:37,  1.70it/s]Training 3/3 epoch (loss 0.1525):  91%|█████████ | 15464/16950 [2:47:55<12:50,  1.93it/s]Training 3/3 epoch (loss 0.0220):  91%|█████████ | 15464/16950 [2:47:56<12:50,  1.93it/s]Training 3/3 epoch (loss 0.0220):  91%|█████████ | 15465/16950 [2:47:56<13:41,  1.81it/s]Training 3/3 epoch (loss 0.5763):  91%|█████████ | 15465/16950 [2:47:56<13:41,  1.81it/s]Training 3/3 epoch (loss 0.5763):  91%|█████████ | 15466/16950 [2:47:56<13:37,  1.82it/s]Training 3/3 epoch (loss 0.3823):  91%|█████████ | 15466/16950 [2:47:57<13:37,  1.82it/s]Training 3/3 epoch (loss 0.3823):  91%|█████████▏| 15467/16950 [2:47:57<12:56,  1.91it/s]Training 3/3 epoch (loss 0.0012):  91%|█████████▏| 15467/16950 [2:47:57<12:56,  1.91it/s]Training 3/3 epoch (loss 0.0012):  91%|█████████▏| 15468/16950 [2:47:57<12:00,  2.06it/s]Training 3/3 epoch (loss 0.3660):  91%|█████████▏| 15468/16950 [2:47:58<12:00,  2.06it/s]Training 3/3 epoch (loss 0.3660):  91%|█████████▏| 15469/16950 [2:47:58<14:08,  1.75it/s]Training 3/3 epoch (loss 0.0390):  91%|█████████▏| 15469/16950 [2:47:59<14:08,  1.75it/s]Training 3/3 epoch (loss 0.0390):  91%|█████████▏| 15470/16950 [2:47:59<17:06,  1.44it/s]Training 3/3 epoch (loss 0.0022):  91%|█████████▏| 15470/16950 [2:47:59<17:06,  1.44it/s]Training 3/3 epoch (loss 0.0022):  91%|█████████▏| 15471/16950 [2:47:59<16:25,  1.50it/s]Training 3/3 epoch (loss 0.0042):  91%|█████████▏| 15471/16950 [2:48:00<16:25,  1.50it/s]Training 3/3 epoch (loss 0.0042):  91%|█████████▏| 15472/16950 [2:48:00<16:13,  1.52it/s]Training 3/3 epoch (loss 0.0183):  91%|█████████▏| 15472/16950 [2:48:01<16:13,  1.52it/s]Training 3/3 epoch (loss 0.0183):  91%|█████████▏| 15473/16950 [2:48:01<14:38,  1.68it/s]Training 3/3 epoch (loss 0.0004):  91%|█████████▏| 15473/16950 [2:48:01<14:38,  1.68it/s]Training 3/3 epoch (loss 0.0004):  91%|█████████▏| 15474/16950 [2:48:01<13:37,  1.80it/s]Training 3/3 epoch (loss 0.0040):  91%|█████████▏| 15474/16950 [2:48:02<13:37,  1.80it/s]Training 3/3 epoch (loss 0.0040):  91%|█████████▏| 15475/16950 [2:48:02<14:21,  1.71it/s]Training 3/3 epoch (loss nan):  91%|█████████▏| 15475/16950 [2:48:03<14:21,  1.71it/s]   Training 3/3 epoch (loss nan):  91%|█████████▏| 15476/16950 [2:48:03<18:25,  1.33it/s]Training 3/3 epoch (loss 0.0642):  91%|█████████▏| 15476/16950 [2:48:03<18:25,  1.33it/s]Training 3/3 epoch (loss 0.0642):  91%|█████████▏| 15477/16950 [2:48:03<18:09,  1.35it/s]Training 3/3 epoch (loss 0.0022):  91%|█████████▏| 15477/16950 [2:48:04<18:09,  1.35it/s]Training 3/3 epoch (loss 0.0022):  91%|█████████▏| 15478/16950 [2:48:04<16:07,  1.52it/s]Training 3/3 epoch (loss 0.0001):  91%|█████████▏| 15478/16950 [2:48:05<16:07,  1.52it/s]Training 3/3 epoch (loss 0.0001):  91%|█████████▏| 15479/16950 [2:48:05<15:45,  1.56it/s]Training 3/3 epoch (loss 0.0153):  91%|█████████▏| 15479/16950 [2:48:05<15:45,  1.56it/s]Training 3/3 epoch (loss 0.0153):  91%|█████████▏| 15480/16950 [2:48:05<14:33,  1.68it/s]Training 3/3 epoch (loss 0.0029):  91%|█████████▏| 15480/16950 [2:48:05<14:33,  1.68it/s]Training 3/3 epoch (loss 0.0029):  91%|█████████▏| 15481/16950 [2:48:05<13:11,  1.86it/s]Training 3/3 epoch (loss 0.1596):  91%|█████████▏| 15481/16950 [2:48:06<13:11,  1.86it/s]Training 3/3 epoch (loss 0.1596):  91%|█████████▏| 15482/16950 [2:48:06<13:28,  1.82it/s]Training 3/3 epoch (loss 0.2392):  91%|█████████▏| 15482/16950 [2:48:07<13:28,  1.82it/s]Training 3/3 epoch (loss 0.2392):  91%|█████████▏| 15483/16950 [2:48:07<13:08,  1.86it/s]Training 3/3 epoch (loss 0.4342):  91%|█████████▏| 15483/16950 [2:48:07<13:08,  1.86it/s]Training 3/3 epoch (loss 0.4342):  91%|█████████▏| 15484/16950 [2:48:07<13:00,  1.88it/s]Training 3/3 epoch (loss 0.0135):  91%|█████████▏| 15484/16950 [2:48:07<13:00,  1.88it/s]Training 3/3 epoch (loss 0.0135):  91%|█████████▏| 15485/16950 [2:48:07<12:05,  2.02it/s]Training 3/3 epoch (loss 0.0001):  91%|█████████▏| 15485/16950 [2:48:08<12:05,  2.02it/s]Training 3/3 epoch (loss 0.0001):  91%|█████████▏| 15486/16950 [2:48:08<11:13,  2.17it/s]Training 3/3 epoch (loss 0.0058):  91%|█████████▏| 15486/16950 [2:48:08<11:13,  2.17it/s]Training 3/3 epoch (loss 0.0058):  91%|█████████▏| 15487/16950 [2:48:08<11:53,  2.05it/s]Training 3/3 epoch (loss 0.0270):  91%|█████████▏| 15487/16950 [2:48:09<11:53,  2.05it/s]Training 3/3 epoch (loss 0.0270):  91%|█████████▏| 15488/16950 [2:48:09<12:37,  1.93it/s]Training 3/3 epoch (loss 0.3388):  91%|█████████▏| 15488/16950 [2:48:09<12:37,  1.93it/s]Training 3/3 epoch (loss 0.3388):  91%|█████████▏| 15489/16950 [2:48:09<11:55,  2.04it/s]Training 3/3 epoch (loss 0.0000):  91%|█████████▏| 15489/16950 [2:48:10<11:55,  2.04it/s]Training 3/3 epoch (loss 0.0000):  91%|█████████▏| 15490/16950 [2:48:10<11:41,  2.08it/s]Training 3/3 epoch (loss 0.0081):  91%|█████████▏| 15490/16950 [2:48:10<11:41,  2.08it/s]Training 3/3 epoch (loss 0.0081):  91%|█████████▏| 15491/16950 [2:48:10<10:38,  2.29it/s]Training 3/3 epoch (loss 0.3361):  91%|█████████▏| 15491/16950 [2:48:11<10:38,  2.29it/s]Training 3/3 epoch (loss 0.3361):  91%|█████████▏| 15492/16950 [2:48:11<13:34,  1.79it/s]Training 3/3 epoch (loss 0.0052):  91%|█████████▏| 15492/16950 [2:48:12<13:34,  1.79it/s]Training 3/3 epoch (loss 0.0052):  91%|█████████▏| 15493/16950 [2:48:12<13:26,  1.81it/s]Training 3/3 epoch (loss 0.0289):  91%|█████████▏| 15493/16950 [2:48:12<13:26,  1.81it/s]Training 3/3 epoch (loss 0.0289):  91%|█████████▏| 15494/16950 [2:48:12<13:16,  1.83it/s]Training 3/3 epoch (loss 0.0597):  91%|█████████▏| 15494/16950 [2:48:13<13:16,  1.83it/s]Training 3/3 epoch (loss 0.0597):  91%|█████████▏| 15495/16950 [2:48:13<12:16,  1.97it/s]Training 3/3 epoch (loss 0.4165):  91%|█████████▏| 15495/16950 [2:48:13<12:16,  1.97it/s]Training 3/3 epoch (loss 0.4165):  91%|█████████▏| 15496/16950 [2:48:13<13:16,  1.83it/s]Training 3/3 epoch (loss 0.0528):  91%|█████████▏| 15496/16950 [2:48:14<13:16,  1.83it/s]Training 3/3 epoch (loss 0.0528):  91%|█████████▏| 15497/16950 [2:48:14<13:25,  1.80it/s]Training 3/3 epoch (loss 0.0066):  91%|█████████▏| 15497/16950 [2:48:14<13:25,  1.80it/s]Training 3/3 epoch (loss 0.0066):  91%|█████████▏| 15498/16950 [2:48:14<12:43,  1.90it/s]Training 3/3 epoch (loss 0.0626):  91%|█████████▏| 15498/16950 [2:48:15<12:43,  1.90it/s]Training 3/3 epoch (loss 0.0626):  91%|█████████▏| 15499/16950 [2:48:15<16:26,  1.47it/s]Training 3/3 epoch (loss 0.4507):  91%|█████████▏| 15499/16950 [2:48:16<16:26,  1.47it/s]Training 3/3 epoch (loss 0.4507):  91%|█████████▏| 15500/16950 [2:48:16<19:08,  1.26it/s]Training 3/3 epoch (loss 0.0277):  91%|█████████▏| 15500/16950 [2:48:17<19:08,  1.26it/s]Training 3/3 epoch (loss 0.0277):  91%|█████████▏| 15501/16950 [2:48:17<19:30,  1.24it/s]Training 3/3 epoch (loss 0.1354):  91%|█████████▏| 15501/16950 [2:48:18<19:30,  1.24it/s]Training 3/3 epoch (loss 0.1354):  91%|█████████▏| 15502/16950 [2:48:18<17:31,  1.38it/s]Training 3/3 epoch (loss 0.0039):  91%|█████████▏| 15502/16950 [2:48:18<17:31,  1.38it/s]Training 3/3 epoch (loss 0.0039):  91%|█████████▏| 15503/16950 [2:48:18<15:02,  1.60it/s]Training 3/3 epoch (loss 0.0001):  91%|█████████▏| 15503/16950 [2:48:19<15:02,  1.60it/s]Training 3/3 epoch (loss 0.0001):  91%|█████████▏| 15504/16950 [2:48:19<15:09,  1.59it/s]Training 3/3 epoch (loss 0.3612):  91%|█████████▏| 15504/16950 [2:48:20<15:09,  1.59it/s]Training 3/3 epoch (loss 0.3612):  91%|█████████▏| 15505/16950 [2:48:20<16:41,  1.44it/s]Training 3/3 epoch (loss 0.0027):  91%|█████████▏| 15505/16950 [2:48:20<16:41,  1.44it/s]Training 3/3 epoch (loss 0.0027):  91%|█████████▏| 15506/16950 [2:48:20<15:34,  1.55it/s]Training 3/3 epoch (loss 0.0399):  91%|█████████▏| 15506/16950 [2:48:21<15:34,  1.55it/s]Training 3/3 epoch (loss 0.0399):  91%|█████████▏| 15507/16950 [2:48:21<15:23,  1.56it/s]Training 3/3 epoch (loss 0.0730):  91%|█████████▏| 15507/16950 [2:48:21<15:23,  1.56it/s]Training 3/3 epoch (loss 0.0730):  91%|█████████▏| 15508/16950 [2:48:21<16:14,  1.48it/s]Training 3/3 epoch (loss 0.4694):  91%|█████████▏| 15508/16950 [2:48:22<16:14,  1.48it/s]Training 3/3 epoch (loss 0.4694):  91%|█████████▏| 15509/16950 [2:48:22<16:39,  1.44it/s]Training 3/3 epoch (loss 0.1115):  91%|█████████▏| 15509/16950 [2:48:23<16:39,  1.44it/s]Training 3/3 epoch (loss 0.1115):  92%|█████████▏| 15510/16950 [2:48:23<15:13,  1.58it/s]Training 3/3 epoch (loss 0.0203):  92%|█████████▏| 15510/16950 [2:48:23<15:13,  1.58it/s]Training 3/3 epoch (loss 0.0203):  92%|█████████▏| 15511/16950 [2:48:23<13:26,  1.79it/s]Training 3/3 epoch (loss 0.0150):  92%|█████████▏| 15511/16950 [2:48:24<13:26,  1.79it/s]Training 3/3 epoch (loss 0.0150):  92%|█████████▏| 15512/16950 [2:48:24<13:24,  1.79it/s]Training 3/3 epoch (loss 0.0124):  92%|█████████▏| 15512/16950 [2:48:24<13:24,  1.79it/s]Training 3/3 epoch (loss 0.0124):  92%|█████████▏| 15513/16950 [2:48:24<14:12,  1.69it/s]Training 3/3 epoch (loss 0.0107):  92%|█████████▏| 15513/16950 [2:48:25<14:12,  1.69it/s]Training 3/3 epoch (loss 0.0107):  92%|█████████▏| 15514/16950 [2:48:25<13:21,  1.79it/s]Training 3/3 epoch (loss 0.4461):  92%|█████████▏| 15514/16950 [2:48:25<13:21,  1.79it/s]Training 3/3 epoch (loss 0.4461):  92%|█████████▏| 15515/16950 [2:48:25<13:46,  1.74it/s]Training 3/3 epoch (loss 0.4196):  92%|█████████▏| 15515/16950 [2:48:26<13:46,  1.74it/s]Training 3/3 epoch (loss 0.4196):  92%|█████████▏| 15516/16950 [2:48:26<13:52,  1.72it/s]Training 3/3 epoch (loss 0.0090):  92%|█████████▏| 15516/16950 [2:48:26<13:52,  1.72it/s]Training 3/3 epoch (loss 0.0090):  92%|█████████▏| 15517/16950 [2:48:26<12:51,  1.86it/s]Training 3/3 epoch (loss 0.0286):  92%|█████████▏| 15517/16950 [2:48:27<12:51,  1.86it/s]Training 3/3 epoch (loss 0.0286):  92%|█████████▏| 15518/16950 [2:48:27<13:41,  1.74it/s]Training 3/3 epoch (loss 0.2475):  92%|█████████▏| 15518/16950 [2:48:28<13:41,  1.74it/s]Training 3/3 epoch (loss 0.2475):  92%|█████████▏| 15519/16950 [2:48:28<12:50,  1.86it/s]Training 3/3 epoch (loss 0.3184):  92%|█████████▏| 15519/16950 [2:48:28<12:50,  1.86it/s]Training 3/3 epoch (loss 0.3184):  92%|█████████▏| 15520/16950 [2:48:28<12:45,  1.87it/s]Training 3/3 epoch (loss 0.1009):  92%|█████████▏| 15520/16950 [2:48:29<12:45,  1.87it/s]Training 3/3 epoch (loss 0.1009):  92%|█████████▏| 15521/16950 [2:48:29<12:36,  1.89it/s]Training 3/3 epoch (loss 0.3288):  92%|█████████▏| 15521/16950 [2:48:29<12:36,  1.89it/s]Training 3/3 epoch (loss 0.3288):  92%|█████████▏| 15522/16950 [2:48:29<14:00,  1.70it/s]Training 3/3 epoch (loss 0.0028):  92%|█████████▏| 15522/16950 [2:48:30<14:00,  1.70it/s]Training 3/3 epoch (loss 0.0028):  92%|█████████▏| 15523/16950 [2:48:30<13:59,  1.70it/s]Training 3/3 epoch (loss 0.5209):  92%|█████████▏| 15523/16950 [2:48:30<13:59,  1.70it/s]Training 3/3 epoch (loss 0.5209):  92%|█████████▏| 15524/16950 [2:48:30<12:49,  1.85it/s]Training 3/3 epoch (loss 0.4904):  92%|█████████▏| 15524/16950 [2:48:32<12:49,  1.85it/s]Training 3/3 epoch (loss 0.4904):  92%|█████████▏| 15525/16950 [2:48:32<17:13,  1.38it/s]Training 3/3 epoch (loss 0.0284):  92%|█████████▏| 15525/16950 [2:48:32<17:13,  1.38it/s]Training 3/3 epoch (loss 0.0284):  92%|█████████▏| 15526/16950 [2:48:32<15:37,  1.52it/s]Training 3/3 epoch (loss 0.0084):  92%|█████████▏| 15526/16950 [2:48:33<15:37,  1.52it/s]Training 3/3 epoch (loss 0.0084):  92%|█████████▏| 15527/16950 [2:48:33<16:16,  1.46it/s]Training 3/3 epoch (loss 0.2030):  92%|█████████▏| 15527/16950 [2:48:33<16:16,  1.46it/s]Training 3/3 epoch (loss 0.2030):  92%|█████████▏| 15528/16950 [2:48:33<15:04,  1.57it/s]Training 3/3 epoch (loss 0.0082):  92%|█████████▏| 15528/16950 [2:48:34<15:04,  1.57it/s]Training 3/3 epoch (loss 0.0082):  92%|█████████▏| 15529/16950 [2:48:34<14:09,  1.67it/s]Training 3/3 epoch (loss 0.0024):  92%|█████████▏| 15529/16950 [2:48:34<14:09,  1.67it/s]Training 3/3 epoch (loss 0.0024):  92%|█████████▏| 15530/16950 [2:48:34<13:56,  1.70it/s]Training 3/3 epoch (loss 0.3838):  92%|█████████▏| 15530/16950 [2:48:35<13:56,  1.70it/s]Training 3/3 epoch (loss 0.3838):  92%|█████████▏| 15531/16950 [2:48:35<13:01,  1.82it/s]Training 3/3 epoch (loss 0.1603):  92%|█████████▏| 15531/16950 [2:48:35<13:01,  1.82it/s]Training 3/3 epoch (loss 0.1603):  92%|█████████▏| 15532/16950 [2:48:35<13:17,  1.78it/s]Training 3/3 epoch (loss 0.0025):  92%|█████████▏| 15532/16950 [2:48:36<13:17,  1.78it/s]Training 3/3 epoch (loss 0.0025):  92%|█████████▏| 15533/16950 [2:48:36<12:22,  1.91it/s]Training 3/3 epoch (loss 0.0410):  92%|█████████▏| 15533/16950 [2:48:37<12:22,  1.91it/s]Training 3/3 epoch (loss 0.0410):  92%|█████████▏| 15534/16950 [2:48:37<14:18,  1.65it/s]Training 3/3 epoch (loss 0.2091):  92%|█████████▏| 15534/16950 [2:48:37<14:18,  1.65it/s]Training 3/3 epoch (loss 0.2091):  92%|█████████▏| 15535/16950 [2:48:37<15:17,  1.54it/s]Training 3/3 epoch (loss 0.4317):  92%|█████████▏| 15535/16950 [2:48:38<15:17,  1.54it/s]Training 3/3 epoch (loss 0.4317):  92%|█████████▏| 15536/16950 [2:48:38<13:11,  1.79it/s]Training 3/3 epoch (loss 0.0237):  92%|█████████▏| 15536/16950 [2:48:38<13:11,  1.79it/s]Training 3/3 epoch (loss 0.0237):  92%|█████████▏| 15537/16950 [2:48:38<13:26,  1.75it/s]Training 3/3 epoch (loss 0.4429):  92%|█████████▏| 15537/16950 [2:48:39<13:26,  1.75it/s]Training 3/3 epoch (loss 0.4429):  92%|█████████▏| 15538/16950 [2:48:39<11:51,  1.98it/s]Training 3/3 epoch (loss 0.0091):  92%|█████████▏| 15538/16950 [2:48:39<11:51,  1.98it/s]Training 3/3 epoch (loss 0.0091):  92%|█████████▏| 15539/16950 [2:48:39<12:18,  1.91it/s]Training 3/3 epoch (loss 0.6088):  92%|█████████▏| 15539/16950 [2:48:40<12:18,  1.91it/s]Training 3/3 epoch (loss 0.6088):  92%|█████████▏| 15540/16950 [2:48:40<14:26,  1.63it/s]Training 3/3 epoch (loss 0.0000):  92%|█████████▏| 15540/16950 [2:48:41<14:26,  1.63it/s]Training 3/3 epoch (loss 0.0000):  92%|█████████▏| 15541/16950 [2:48:41<13:43,  1.71it/s]Training 3/3 epoch (loss 0.5194):  92%|█████████▏| 15541/16950 [2:48:41<13:43,  1.71it/s]Training 3/3 epoch (loss 0.5194):  92%|█████████▏| 15542/16950 [2:48:41<15:21,  1.53it/s]Training 3/3 epoch (loss 0.0021):  92%|█████████▏| 15542/16950 [2:48:42<15:21,  1.53it/s]Training 3/3 epoch (loss 0.0021):  92%|█████████▏| 15543/16950 [2:48:42<15:22,  1.52it/s]Training 3/3 epoch (loss 0.0117):  92%|█████████▏| 15543/16950 [2:48:43<15:22,  1.52it/s]Training 3/3 epoch (loss 0.0117):  92%|█████████▏| 15544/16950 [2:48:43<17:53,  1.31it/s]Training 3/3 epoch (loss 0.3917):  92%|█████████▏| 15544/16950 [2:48:44<17:53,  1.31it/s]Training 3/3 epoch (loss 0.3917):  92%|█████████▏| 15545/16950 [2:48:44<19:29,  1.20it/s]Training 3/3 epoch (loss 0.2985):  92%|█████████▏| 15545/16950 [2:48:45<19:29,  1.20it/s]Training 3/3 epoch (loss 0.2985):  92%|█████████▏| 15546/16950 [2:48:45<17:18,  1.35it/s]Training 3/3 epoch (loss 0.0043):  92%|█████████▏| 15546/16950 [2:48:45<17:18,  1.35it/s]Training 3/3 epoch (loss 0.0043):  92%|█████████▏| 15547/16950 [2:48:45<14:46,  1.58it/s]Training 3/3 epoch (loss 0.0024):  92%|█████████▏| 15547/16950 [2:48:46<14:46,  1.58it/s]Training 3/3 epoch (loss 0.0024):  92%|█████████▏| 15548/16950 [2:48:46<14:55,  1.56it/s]Training 3/3 epoch (loss 0.0000):  92%|█████████▏| 15548/16950 [2:48:46<14:55,  1.56it/s]Training 3/3 epoch (loss 0.0000):  92%|█████████▏| 15549/16950 [2:48:46<13:46,  1.70it/s]Training 3/3 epoch (loss 0.0735):  92%|█████████▏| 15549/16950 [2:48:47<13:46,  1.70it/s]Training 3/3 epoch (loss 0.0735):  92%|█████████▏| 15550/16950 [2:48:47<14:07,  1.65it/s]Training 3/3 epoch (loss 0.4046):  92%|█████████▏| 15550/16950 [2:48:48<14:07,  1.65it/s]Training 3/3 epoch (loss 0.4046):  92%|█████████▏| 15551/16950 [2:48:48<15:45,  1.48it/s]Training 3/3 epoch (loss 0.1210):  92%|█████████▏| 15551/16950 [2:48:48<15:45,  1.48it/s]Training 3/3 epoch (loss 0.1210):  92%|█████████▏| 15552/16950 [2:48:48<15:21,  1.52it/s]Training 3/3 epoch (loss 0.2262):  92%|█████████▏| 15552/16950 [2:48:49<15:21,  1.52it/s]Training 3/3 epoch (loss 0.2262):  92%|█████████▏| 15553/16950 [2:48:49<13:07,  1.77it/s]Training 3/3 epoch (loss 0.0060):  92%|█████████▏| 15553/16950 [2:48:49<13:07,  1.77it/s]Training 3/3 epoch (loss 0.0060):  92%|█████████▏| 15554/16950 [2:48:49<13:07,  1.77it/s]Training 3/3 epoch (loss 0.2756):  92%|█████████▏| 15554/16950 [2:48:50<13:07,  1.77it/s]Training 3/3 epoch (loss 0.2756):  92%|█████████▏| 15555/16950 [2:48:50<14:19,  1.62it/s]Training 3/3 epoch (loss 0.2756):  92%|█████████▏| 15555/16950 [2:48:51<14:19,  1.62it/s]Training 3/3 epoch (loss 0.2756):  92%|█████████▏| 15556/16950 [2:48:51<15:21,  1.51it/s]Training 3/3 epoch (loss 0.0610):  92%|█████████▏| 15556/16950 [2:48:51<15:21,  1.51it/s]Training 3/3 epoch (loss 0.0610):  92%|█████████▏| 15557/16950 [2:48:51<14:32,  1.60it/s]Training 3/3 epoch (loss 0.0029):  92%|█████████▏| 15557/16950 [2:48:52<14:32,  1.60it/s]Training 3/3 epoch (loss 0.0029):  92%|█████████▏| 15558/16950 [2:48:52<13:11,  1.76it/s]Training 3/3 epoch (loss 0.0183):  92%|█████████▏| 15558/16950 [2:48:52<13:11,  1.76it/s]Training 3/3 epoch (loss 0.0183):  92%|█████████▏| 15559/16950 [2:48:52<12:28,  1.86it/s]Training 3/3 epoch (loss 0.4841):  92%|█████████▏| 15559/16950 [2:48:53<12:28,  1.86it/s]Training 3/3 epoch (loss 0.4841):  92%|█████████▏| 15560/16950 [2:48:53<16:47,  1.38it/s]Training 3/3 epoch (loss 0.0699):  92%|█████████▏| 15560/16950 [2:48:54<16:47,  1.38it/s]Training 3/3 epoch (loss 0.0699):  92%|█████████▏| 15561/16950 [2:48:54<16:53,  1.37it/s]Training 3/3 epoch (loss 0.0035):  92%|█████████▏| 15561/16950 [2:48:54<16:53,  1.37it/s]Training 3/3 epoch (loss 0.0035):  92%|█████████▏| 15562/16950 [2:48:54<15:03,  1.54it/s]Training 3/3 epoch (loss 0.0046):  92%|█████████▏| 15562/16950 [2:48:55<15:03,  1.54it/s]Training 3/3 epoch (loss 0.0046):  92%|█████████▏| 15563/16950 [2:48:55<13:56,  1.66it/s]Training 3/3 epoch (loss 0.6428):  92%|█████████▏| 15563/16950 [2:48:56<13:56,  1.66it/s]Training 3/3 epoch (loss 0.6428):  92%|█████████▏| 15564/16950 [2:48:56<14:23,  1.61it/s]Training 3/3 epoch (loss 0.2179):  92%|█████████▏| 15564/16950 [2:48:56<14:23,  1.61it/s]Training 3/3 epoch (loss 0.2179):  92%|█████████▏| 15565/16950 [2:48:56<12:59,  1.78it/s]Training 3/3 epoch (loss 0.0028):  92%|█████████▏| 15565/16950 [2:48:57<12:59,  1.78it/s]Training 3/3 epoch (loss 0.0028):  92%|█████████▏| 15566/16950 [2:48:57<13:05,  1.76it/s]Training 3/3 epoch (loss 0.0020):  92%|█████████▏| 15566/16950 [2:48:57<13:05,  1.76it/s]Training 3/3 epoch (loss 0.0020):  92%|█████████▏| 15567/16950 [2:48:57<12:43,  1.81it/s]Training 3/3 epoch (loss 0.2991):  92%|█████████▏| 15567/16950 [2:48:58<12:43,  1.81it/s]Training 3/3 epoch (loss 0.2991):  92%|█████████▏| 15568/16950 [2:48:58<15:40,  1.47it/s]Training 3/3 epoch (loss 0.2816):  92%|█████████▏| 15568/16950 [2:48:59<15:40,  1.47it/s]Training 3/3 epoch (loss 0.2816):  92%|█████████▏| 15569/16950 [2:48:59<15:02,  1.53it/s]Training 3/3 epoch (loss 0.0721):  92%|█████████▏| 15569/16950 [2:48:59<15:02,  1.53it/s]Training 3/3 epoch (loss 0.0721):  92%|█████████▏| 15570/16950 [2:48:59<14:24,  1.60it/s]Training 3/3 epoch (loss 0.2928):  92%|█████████▏| 15570/16950 [2:49:00<14:24,  1.60it/s]Training 3/3 epoch (loss 0.2928):  92%|█████████▏| 15571/16950 [2:49:00<14:38,  1.57it/s]Training 3/3 epoch (loss 0.0168):  92%|█████████▏| 15571/16950 [2:49:00<14:38,  1.57it/s]Training 3/3 epoch (loss 0.0168):  92%|█████████▏| 15572/16950 [2:49:00<13:47,  1.67it/s]Training 3/3 epoch (loss 0.2143):  92%|█████████▏| 15572/16950 [2:49:01<13:47,  1.67it/s]Training 3/3 epoch (loss 0.2143):  92%|█████████▏| 15573/16950 [2:49:01<13:59,  1.64it/s]Training 3/3 epoch (loss 0.0001):  92%|█████████▏| 15573/16950 [2:49:02<13:59,  1.64it/s]Training 3/3 epoch (loss 0.0001):  92%|█████████▏| 15574/16950 [2:49:02<12:59,  1.76it/s]Training 3/3 epoch (loss 0.0098):  92%|█████████▏| 15574/16950 [2:49:02<12:59,  1.76it/s]Training 3/3 epoch (loss 0.0098):  92%|█████████▏| 15575/16950 [2:49:02<12:21,  1.85it/s]Training 3/3 epoch (loss 0.0060):  92%|█████████▏| 15575/16950 [2:49:02<12:21,  1.85it/s]Training 3/3 epoch (loss 0.0060):  92%|█████████▏| 15576/16950 [2:49:02<12:03,  1.90it/s]Training 3/3 epoch (loss 0.0072):  92%|█████████▏| 15576/16950 [2:49:03<12:03,  1.90it/s]Training 3/3 epoch (loss 0.0072):  92%|█████████▏| 15577/16950 [2:49:03<11:45,  1.95it/s]Training 3/3 epoch (loss 0.1388):  92%|█████████▏| 15577/16950 [2:49:04<11:45,  1.95it/s]Training 3/3 epoch (loss 0.1388):  92%|█████████▏| 15578/16950 [2:49:04<11:49,  1.93it/s]Training 3/3 epoch (loss 0.0304):  92%|█████████▏| 15578/16950 [2:49:04<11:49,  1.93it/s]Training 3/3 epoch (loss 0.0304):  92%|█████████▏| 15579/16950 [2:49:04<11:24,  2.00it/s]Training 3/3 epoch (loss 0.1678):  92%|█████████▏| 15579/16950 [2:49:05<11:24,  2.00it/s]Training 3/3 epoch (loss 0.1678):  92%|█████████▏| 15580/16950 [2:49:05<12:07,  1.88it/s]Training 3/3 epoch (loss 0.0057):  92%|█████████▏| 15580/16950 [2:49:05<12:07,  1.88it/s]Training 3/3 epoch (loss 0.0057):  92%|█████████▏| 15581/16950 [2:49:05<11:56,  1.91it/s]Training 3/3 epoch (loss 0.4409):  92%|█████████▏| 15581/16950 [2:49:06<11:56,  1.91it/s]Training 3/3 epoch (loss 0.4409):  92%|█████████▏| 15582/16950 [2:49:06<13:48,  1.65it/s]Training 3/3 epoch (loss 0.4800):  92%|█████████▏| 15582/16950 [2:49:06<13:48,  1.65it/s]Training 3/3 epoch (loss 0.4800):  92%|█████████▏| 15583/16950 [2:49:06<13:54,  1.64it/s]Training 3/3 epoch (loss 0.0015):  92%|█████████▏| 15583/16950 [2:49:07<13:54,  1.64it/s]Training 3/3 epoch (loss 0.0015):  92%|█████████▏| 15584/16950 [2:49:07<12:58,  1.75it/s]Training 3/3 epoch (loss 0.0001):  92%|█████████▏| 15584/16950 [2:49:08<12:58,  1.75it/s]Training 3/3 epoch (loss 0.0001):  92%|█████████▏| 15585/16950 [2:49:08<12:47,  1.78it/s]Training 3/3 epoch (loss 0.0000):  92%|█████████▏| 15585/16950 [2:49:08<12:47,  1.78it/s]Training 3/3 epoch (loss 0.0000):  92%|█████████▏| 15586/16950 [2:49:08<13:16,  1.71it/s]Training 3/3 epoch (loss 0.0008):  92%|█████████▏| 15586/16950 [2:49:09<13:16,  1.71it/s]Training 3/3 epoch (loss 0.0008):  92%|█████████▏| 15587/16950 [2:49:09<13:43,  1.66it/s]Training 3/3 epoch (loss 0.9967):  92%|█████████▏| 15587/16950 [2:49:10<13:43,  1.66it/s]Training 3/3 epoch (loss 0.9967):  92%|█████████▏| 15588/16950 [2:49:10<16:13,  1.40it/s]Training 3/3 epoch (loss 0.0001):  92%|█████████▏| 15588/16950 [2:49:10<16:13,  1.40it/s]Training 3/3 epoch (loss 0.0001):  92%|█████████▏| 15589/16950 [2:49:10<16:03,  1.41it/s]Training 3/3 epoch (loss 0.1160):  92%|█████████▏| 15589/16950 [2:49:11<16:03,  1.41it/s]Training 3/3 epoch (loss 0.1160):  92%|█████████▏| 15590/16950 [2:49:11<14:55,  1.52it/s]Training 3/3 epoch (loss 0.0032):  92%|█████████▏| 15590/16950 [2:49:12<14:55,  1.52it/s]Training 3/3 epoch (loss 0.0032):  92%|█████████▏| 15591/16950 [2:49:12<13:48,  1.64it/s]Training 3/3 epoch (loss 0.5288):  92%|█████████▏| 15591/16950 [2:49:12<13:48,  1.64it/s]Training 3/3 epoch (loss 0.5288):  92%|█████████▏| 15592/16950 [2:49:12<13:37,  1.66it/s]Training 3/3 epoch (loss 0.2765):  92%|█████████▏| 15592/16950 [2:49:13<13:37,  1.66it/s]Training 3/3 epoch (loss 0.2765):  92%|█████████▏| 15593/16950 [2:49:13<12:45,  1.77it/s]Training 3/3 epoch (loss 0.0008):  92%|█████████▏| 15593/16950 [2:49:13<12:45,  1.77it/s]Training 3/3 epoch (loss 0.0008):  92%|█████████▏| 15594/16950 [2:49:13<13:00,  1.74it/s]Training 3/3 epoch (loss 0.8672):  92%|█████████▏| 15594/16950 [2:49:14<13:00,  1.74it/s]Training 3/3 epoch (loss 0.8672):  92%|█████████▏| 15595/16950 [2:49:14<16:27,  1.37it/s]Training 3/3 epoch (loss 0.0003):  92%|█████████▏| 15595/16950 [2:49:15<16:27,  1.37it/s]Training 3/3 epoch (loss 0.0003):  92%|█████████▏| 15596/16950 [2:49:15<15:28,  1.46it/s]Training 3/3 epoch (loss 0.0448):  92%|█████████▏| 15596/16950 [2:49:15<15:28,  1.46it/s]Training 3/3 epoch (loss 0.0448):  92%|█████████▏| 15597/16950 [2:49:15<14:06,  1.60it/s]Training 3/3 epoch (loss 0.4861):  92%|█████████▏| 15597/16950 [2:49:16<14:06,  1.60it/s]Training 3/3 epoch (loss 0.4861):  92%|█████████▏| 15598/16950 [2:49:16<12:32,  1.80it/s]Training 3/3 epoch (loss 0.3600):  92%|█████████▏| 15598/16950 [2:49:16<12:32,  1.80it/s]Training 3/3 epoch (loss 0.3600):  92%|█████████▏| 15599/16950 [2:49:16<12:53,  1.75it/s]Training 3/3 epoch (loss 0.0052):  92%|█████████▏| 15599/16950 [2:49:17<12:53,  1.75it/s]Training 3/3 epoch (loss 0.0052):  92%|█████████▏| 15600/16950 [2:49:17<12:45,  1.76it/s]Training 3/3 epoch (loss 0.7008):  92%|█████████▏| 15600/16950 [2:49:18<12:45,  1.76it/s]Training 3/3 epoch (loss 0.7008):  92%|█████████▏| 15601/16950 [2:49:18<16:06,  1.40it/s]Training 3/3 epoch (loss 0.3310):  92%|█████████▏| 15601/16950 [2:49:19<16:06,  1.40it/s]Training 3/3 epoch (loss 0.3310):  92%|█████████▏| 15602/16950 [2:49:19<15:14,  1.47it/s]Training 3/3 epoch (loss 0.0774):  92%|█████████▏| 15602/16950 [2:49:19<15:14,  1.47it/s]Training 3/3 epoch (loss 0.0774):  92%|█████████▏| 15603/16950 [2:49:19<14:51,  1.51it/s]Training 3/3 epoch (loss 0.0004):  92%|█████████▏| 15603/16950 [2:49:20<14:51,  1.51it/s]Training 3/3 epoch (loss 0.0004):  92%|█████████▏| 15604/16950 [2:49:20<15:09,  1.48it/s]Training 3/3 epoch (loss 0.2576):  92%|█████████▏| 15604/16950 [2:49:21<15:09,  1.48it/s]Training 3/3 epoch (loss 0.2576):  92%|█████████▏| 15605/16950 [2:49:21<16:58,  1.32it/s]Training 3/3 epoch (loss 0.0000):  92%|█████████▏| 15605/16950 [2:49:21<16:58,  1.32it/s]Training 3/3 epoch (loss 0.0000):  92%|█████████▏| 15606/16950 [2:49:21<15:16,  1.47it/s]Training 3/3 epoch (loss 0.0000):  92%|█████████▏| 15606/16950 [2:49:22<15:16,  1.47it/s]Training 3/3 epoch (loss 0.0000):  92%|█████████▏| 15607/16950 [2:49:22<14:12,  1.57it/s]Training 3/3 epoch (loss 0.2988):  92%|█████████▏| 15607/16950 [2:49:22<14:12,  1.57it/s]Training 3/3 epoch (loss 0.2988):  92%|█████████▏| 15608/16950 [2:49:22<13:14,  1.69it/s]Training 3/3 epoch (loss 0.0097):  92%|█████████▏| 15608/16950 [2:49:23<13:14,  1.69it/s]Training 3/3 epoch (loss 0.0097):  92%|█████████▏| 15609/16950 [2:49:23<12:04,  1.85it/s]Training 3/3 epoch (loss 0.6527):  92%|█████████▏| 15609/16950 [2:49:24<12:04,  1.85it/s]Training 3/3 epoch (loss 0.6527):  92%|█████████▏| 15610/16950 [2:49:24<14:15,  1.57it/s]Training 3/3 epoch (loss 0.0089):  92%|█████████▏| 15610/16950 [2:49:24<14:15,  1.57it/s]Training 3/3 epoch (loss 0.0089):  92%|█████████▏| 15611/16950 [2:49:24<13:49,  1.61it/s]Training 3/3 epoch (loss 0.0259):  92%|█████████▏| 15611/16950 [2:49:25<13:49,  1.61it/s]Training 3/3 epoch (loss 0.0259):  92%|█████████▏| 15612/16950 [2:49:25<12:55,  1.73it/s]Training 3/3 epoch (loss 0.0271):  92%|█████████▏| 15612/16950 [2:49:25<12:55,  1.73it/s]Training 3/3 epoch (loss 0.0271):  92%|█████████▏| 15613/16950 [2:49:25<11:50,  1.88it/s]Training 3/3 epoch (loss 0.0000):  92%|█████████▏| 15613/16950 [2:49:26<11:50,  1.88it/s]Training 3/3 epoch (loss 0.0000):  92%|█████████▏| 15614/16950 [2:49:26<11:32,  1.93it/s]Training 3/3 epoch (loss 0.1565):  92%|█████████▏| 15614/16950 [2:49:26<11:32,  1.93it/s]Training 3/3 epoch (loss 0.1565):  92%|█████████▏| 15615/16950 [2:49:26<11:44,  1.90it/s]Training 3/3 epoch (loss 0.0048):  92%|█████████▏| 15615/16950 [2:49:27<11:44,  1.90it/s]Training 3/3 epoch (loss 0.0048):  92%|█████████▏| 15616/16950 [2:49:27<11:53,  1.87it/s]Training 3/3 epoch (loss 0.0214):  92%|█████████▏| 15616/16950 [2:49:27<11:53,  1.87it/s]Training 3/3 epoch (loss 0.0214):  92%|█████████▏| 15617/16950 [2:49:27<11:53,  1.87it/s]Training 3/3 epoch (loss 0.0664):  92%|█████████▏| 15617/16950 [2:49:28<11:53,  1.87it/s]Training 3/3 epoch (loss 0.0664):  92%|█████████▏| 15618/16950 [2:49:28<13:00,  1.71it/s]Training 3/3 epoch (loss 0.0011):  92%|█████████▏| 15618/16950 [2:49:28<13:00,  1.71it/s]Training 3/3 epoch (loss 0.0011):  92%|█████████▏| 15619/16950 [2:49:28<12:44,  1.74it/s]Training 3/3 epoch (loss 0.0757):  92%|█████████▏| 15619/16950 [2:49:29<12:44,  1.74it/s]Training 3/3 epoch (loss 0.0757):  92%|█████████▏| 15620/16950 [2:49:29<14:28,  1.53it/s]Training 3/3 epoch (loss 0.0012):  92%|█████████▏| 15620/16950 [2:49:30<14:28,  1.53it/s]Training 3/3 epoch (loss 0.0012):  92%|█████████▏| 15621/16950 [2:49:30<13:42,  1.62it/s]Training 3/3 epoch (loss 0.0006):  92%|█████████▏| 15621/16950 [2:49:30<13:42,  1.62it/s]Training 3/3 epoch (loss 0.0006):  92%|█████████▏| 15622/16950 [2:49:30<13:00,  1.70it/s]Training 3/3 epoch (loss 0.2162):  92%|█████████▏| 15622/16950 [2:49:31<13:00,  1.70it/s]Training 3/3 epoch (loss 0.2162):  92%|█████████▏| 15623/16950 [2:49:31<12:57,  1.71it/s]Training 3/3 epoch (loss 0.0668):  92%|█████████▏| 15623/16950 [2:49:32<12:57,  1.71it/s]Training 3/3 epoch (loss 0.0668):  92%|█████████▏| 15624/16950 [2:49:32<14:54,  1.48it/s]Training 3/3 epoch (loss 0.0181):  92%|█████████▏| 15624/16950 [2:49:32<14:54,  1.48it/s]Training 3/3 epoch (loss 0.0181):  92%|█████████▏| 15625/16950 [2:49:32<13:23,  1.65it/s]Training 3/3 epoch (loss 0.0007):  92%|█████████▏| 15625/16950 [2:49:33<13:23,  1.65it/s]Training 3/3 epoch (loss 0.0007):  92%|█████████▏| 15626/16950 [2:49:33<13:32,  1.63it/s]Training 3/3 epoch (loss 0.2702):  92%|█████████▏| 15626/16950 [2:49:33<13:32,  1.63it/s]Training 3/3 epoch (loss 0.2702):  92%|█████████▏| 15627/16950 [2:49:33<13:19,  1.66it/s]Training 3/3 epoch (loss 0.0043):  92%|█████████▏| 15627/16950 [2:49:34<13:19,  1.66it/s]Training 3/3 epoch (loss 0.0043):  92%|█████████▏| 15628/16950 [2:49:34<13:47,  1.60it/s]Training 3/3 epoch (loss 0.0026):  92%|█████████▏| 15628/16950 [2:49:35<13:47,  1.60it/s]Training 3/3 epoch (loss 0.0026):  92%|█████████▏| 15629/16950 [2:49:35<14:14,  1.55it/s]Training 3/3 epoch (loss 0.0065):  92%|█████████▏| 15629/16950 [2:49:36<14:14,  1.55it/s]Training 3/3 epoch (loss 0.0065):  92%|█████████▏| 15630/16950 [2:49:36<14:12,  1.55it/s]Training 3/3 epoch (loss 0.0150):  92%|█████████▏| 15630/16950 [2:49:36<14:12,  1.55it/s]Training 3/3 epoch (loss 0.0150):  92%|█████████▏| 15631/16950 [2:49:36<15:46,  1.39it/s]Training 3/3 epoch (loss 0.0660):  92%|█████████▏| 15631/16950 [2:49:37<15:46,  1.39it/s]Training 3/3 epoch (loss 0.0660):  92%|█████████▏| 15632/16950 [2:49:37<13:51,  1.59it/s]Training 3/3 epoch (loss 0.1248):  92%|█████████▏| 15632/16950 [2:49:38<13:51,  1.59it/s]Training 3/3 epoch (loss 0.1248):  92%|█████████▏| 15633/16950 [2:49:38<14:12,  1.55it/s]Training 3/3 epoch (loss 0.0294):  92%|█████████▏| 15633/16950 [2:49:38<14:12,  1.55it/s]Training 3/3 epoch (loss 0.0294):  92%|█████████▏| 15634/16950 [2:49:38<13:37,  1.61it/s]Training 3/3 epoch (loss 0.0920):  92%|█████████▏| 15634/16950 [2:49:39<13:37,  1.61it/s]Training 3/3 epoch (loss 0.0920):  92%|█████████▏| 15635/16950 [2:49:39<14:14,  1.54it/s]Training 3/3 epoch (loss 0.0070):  92%|█████████▏| 15635/16950 [2:49:39<14:14,  1.54it/s]Training 3/3 epoch (loss 0.0070):  92%|█████████▏| 15636/16950 [2:49:39<13:13,  1.66it/s]Training 3/3 epoch (loss 0.4776):  92%|█████████▏| 15636/16950 [2:49:40<13:13,  1.66it/s]Training 3/3 epoch (loss 0.4776):  92%|█████████▏| 15637/16950 [2:49:40<13:06,  1.67it/s]Training 3/3 epoch (loss 0.1886):  92%|█████████▏| 15637/16950 [2:49:40<13:06,  1.67it/s]Training 3/3 epoch (loss 0.1886):  92%|█████████▏| 15638/16950 [2:49:40<12:56,  1.69it/s]Training 3/3 epoch (loss 0.0004):  92%|█████████▏| 15638/16950 [2:49:41<12:56,  1.69it/s]Training 3/3 epoch (loss 0.0004):  92%|█████████▏| 15639/16950 [2:49:41<12:31,  1.74it/s]Training 3/3 epoch (loss 0.0000):  92%|█████████▏| 15639/16950 [2:49:41<12:31,  1.74it/s]Training 3/3 epoch (loss 0.0000):  92%|█████████▏| 15640/16950 [2:49:41<10:54,  2.00it/s]Training 3/3 epoch (loss 0.0028):  92%|█████████▏| 15640/16950 [2:49:42<10:54,  2.00it/s]Training 3/3 epoch (loss 0.0028):  92%|█████████▏| 15641/16950 [2:49:42<10:33,  2.07it/s]Training 3/3 epoch (loss 0.1405):  92%|█████████▏| 15641/16950 [2:49:43<10:33,  2.07it/s]Training 3/3 epoch (loss 0.1405):  92%|█████████▏| 15642/16950 [2:49:43<14:58,  1.46it/s]Training 3/3 epoch (loss 0.0004):  92%|█████████▏| 15642/16950 [2:49:43<14:58,  1.46it/s]Training 3/3 epoch (loss 0.0004):  92%|█████████▏| 15643/16950 [2:49:43<13:47,  1.58it/s]Training 3/3 epoch (loss 0.0024):  92%|█████████▏| 15643/16950 [2:49:44<13:47,  1.58it/s]Training 3/3 epoch (loss 0.0024):  92%|█████████▏| 15644/16950 [2:49:44<12:28,  1.75it/s]Training 3/3 epoch (loss 0.3510):  92%|█████████▏| 15644/16950 [2:49:45<12:28,  1.75it/s]Training 3/3 epoch (loss 0.3510):  92%|█████████▏| 15645/16950 [2:49:45<14:44,  1.48it/s]Training 3/3 epoch (loss 0.1942):  92%|█████████▏| 15645/16950 [2:49:45<14:44,  1.48it/s]Training 3/3 epoch (loss 0.1942):  92%|█████████▏| 15646/16950 [2:49:45<14:12,  1.53it/s]Training 3/3 epoch (loss 0.0264):  92%|█████████▏| 15646/16950 [2:49:46<14:12,  1.53it/s]Training 3/3 epoch (loss 0.0264):  92%|█████████▏| 15647/16950 [2:49:46<14:34,  1.49it/s]Training 3/3 epoch (loss 0.3257):  92%|█████████▏| 15647/16950 [2:49:47<14:34,  1.49it/s]Training 3/3 epoch (loss 0.3257):  92%|█████████▏| 15648/16950 [2:49:47<15:03,  1.44it/s]Training 3/3 epoch (loss 0.0013):  92%|█████████▏| 15648/16950 [2:49:47<15:03,  1.44it/s]Training 3/3 epoch (loss 0.0013):  92%|█████████▏| 15649/16950 [2:49:47<13:55,  1.56it/s]Training 3/3 epoch (loss 0.0575):  92%|█████████▏| 15649/16950 [2:49:48<13:55,  1.56it/s]Training 3/3 epoch (loss 0.0575):  92%|█████████▏| 15650/16950 [2:49:48<12:57,  1.67it/s]Training 3/3 epoch (loss 0.1786):  92%|█████████▏| 15650/16950 [2:49:49<12:57,  1.67it/s]Training 3/3 epoch (loss 0.1786):  92%|█████████▏| 15651/16950 [2:49:49<14:38,  1.48it/s]Training 3/3 epoch (loss 0.0004):  92%|█████████▏| 15651/16950 [2:49:49<14:38,  1.48it/s]Training 3/3 epoch (loss 0.0004):  92%|█████████▏| 15652/16950 [2:49:49<14:33,  1.49it/s]Training 3/3 epoch (loss 0.0355):  92%|█████████▏| 15652/16950 [2:49:50<14:33,  1.49it/s]Training 3/3 epoch (loss 0.0355):  92%|█████████▏| 15653/16950 [2:49:50<13:30,  1.60it/s]Training 3/3 epoch (loss 0.1058):  92%|█████████▏| 15653/16950 [2:49:51<13:30,  1.60it/s]Training 3/3 epoch (loss 0.1058):  92%|█████████▏| 15654/16950 [2:49:51<13:46,  1.57it/s]Training 3/3 epoch (loss 0.0001):  92%|█████████▏| 15654/16950 [2:49:51<13:46,  1.57it/s]Training 3/3 epoch (loss 0.0001):  92%|█████████▏| 15655/16950 [2:49:51<13:13,  1.63it/s]Training 3/3 epoch (loss 0.1239):  92%|█████████▏| 15655/16950 [2:49:52<13:13,  1.63it/s]Training 3/3 epoch (loss 0.1239):  92%|█████████▏| 15656/16950 [2:49:52<12:15,  1.76it/s]Training 3/3 epoch (loss 0.0030):  92%|█████████▏| 15656/16950 [2:49:52<12:15,  1.76it/s]Training 3/3 epoch (loss 0.0030):  92%|█████████▏| 15657/16950 [2:49:52<12:14,  1.76it/s]Training 3/3 epoch (loss 0.0004):  92%|█████████▏| 15657/16950 [2:49:53<12:14,  1.76it/s]Training 3/3 epoch (loss 0.0004):  92%|█████████▏| 15658/16950 [2:49:53<11:39,  1.85it/s]Training 3/3 epoch (loss 0.2617):  92%|█████████▏| 15658/16950 [2:49:54<11:39,  1.85it/s]Training 3/3 epoch (loss 0.2617):  92%|█████████▏| 15659/16950 [2:49:54<15:08,  1.42it/s]Training 3/3 epoch (loss 0.4486):  92%|█████████▏| 15659/16950 [2:49:54<15:08,  1.42it/s]Training 3/3 epoch (loss 0.4486):  92%|█████████▏| 15660/16950 [2:49:54<14:37,  1.47it/s]Training 3/3 epoch (loss 0.0085):  92%|█████████▏| 15660/16950 [2:49:55<14:37,  1.47it/s]Training 3/3 epoch (loss 0.0085):  92%|█████████▏| 15661/16950 [2:49:55<14:23,  1.49it/s]Training 3/3 epoch (loss 0.0114):  92%|█████████▏| 15661/16950 [2:49:56<14:23,  1.49it/s]Training 3/3 epoch (loss 0.0114):  92%|█████████▏| 15662/16950 [2:49:56<15:17,  1.40it/s]Training 3/3 epoch (loss 0.0083):  92%|█████████▏| 15662/16950 [2:49:56<15:17,  1.40it/s]Training 3/3 epoch (loss 0.0083):  92%|█████████▏| 15663/16950 [2:49:56<15:10,  1.41it/s]Training 3/3 epoch (loss 0.0155):  92%|█████████▏| 15663/16950 [2:49:57<15:10,  1.41it/s]Training 3/3 epoch (loss 0.0155):  92%|█████████▏| 15664/16950 [2:49:57<13:25,  1.60it/s]Training 3/3 epoch (loss 0.1544):  92%|█████████▏| 15664/16950 [2:49:58<13:25,  1.60it/s]Training 3/3 epoch (loss 0.1544):  92%|█████████▏| 15665/16950 [2:49:58<14:23,  1.49it/s]Training 3/3 epoch (loss 0.0001):  92%|█████████▏| 15665/16950 [2:49:58<14:23,  1.49it/s]Training 3/3 epoch (loss 0.0001):  92%|█████████▏| 15666/16950 [2:49:58<13:47,  1.55it/s]Training 3/3 epoch (loss 0.0006):  92%|█████████▏| 15666/16950 [2:49:59<13:47,  1.55it/s]Training 3/3 epoch (loss 0.0006):  92%|█████████▏| 15667/16950 [2:49:59<12:52,  1.66it/s]Training 3/3 epoch (loss 0.0007):  92%|█████████▏| 15667/16950 [2:49:59<12:52,  1.66it/s]Training 3/3 epoch (loss 0.0007):  92%|█████████▏| 15668/16950 [2:49:59<11:55,  1.79it/s]Training 3/3 epoch (loss 0.0379):  92%|█████████▏| 15668/16950 [2:50:00<11:55,  1.79it/s]Training 3/3 epoch (loss 0.0379):  92%|█████████▏| 15669/16950 [2:50:00<12:08,  1.76it/s]Training 3/3 epoch (loss 0.0017):  92%|█████████▏| 15669/16950 [2:50:01<12:08,  1.76it/s]Training 3/3 epoch (loss 0.0017):  92%|█████████▏| 15670/16950 [2:50:01<13:59,  1.53it/s]Training 3/3 epoch (loss 0.1047):  92%|█████████▏| 15670/16950 [2:50:01<13:59,  1.53it/s]Training 3/3 epoch (loss 0.1047):  92%|█████████▏| 15671/16950 [2:50:01<13:59,  1.52it/s]Training 3/3 epoch (loss 0.5799):  92%|█████████▏| 15671/16950 [2:50:02<13:59,  1.52it/s]Training 3/3 epoch (loss 0.5799):  92%|█████████▏| 15672/16950 [2:50:02<13:13,  1.61it/s]Training 3/3 epoch (loss 0.0335):  92%|█████████▏| 15672/16950 [2:50:03<13:13,  1.61it/s]Training 3/3 epoch (loss 0.0335):  92%|█████████▏| 15673/16950 [2:50:03<13:44,  1.55it/s]Training 3/3 epoch (loss 0.3657):  92%|█████████▏| 15673/16950 [2:50:03<13:44,  1.55it/s]Training 3/3 epoch (loss 0.3657):  92%|█████████▏| 15674/16950 [2:50:03<12:13,  1.74it/s]Training 3/3 epoch (loss 0.2302):  92%|█████████▏| 15674/16950 [2:50:03<12:13,  1.74it/s]Training 3/3 epoch (loss 0.2302):  92%|█████████▏| 15675/16950 [2:50:03<11:01,  1.93it/s]Training 3/3 epoch (loss 0.1691):  92%|█████████▏| 15675/16950 [2:50:04<11:01,  1.93it/s]Training 3/3 epoch (loss 0.1691):  92%|█████████▏| 15676/16950 [2:50:04<10:02,  2.11it/s]Training 3/3 epoch (loss 0.0008):  92%|█████████▏| 15676/16950 [2:50:04<10:02,  2.11it/s]Training 3/3 epoch (loss 0.0008):  92%|█████████▏| 15677/16950 [2:50:04<10:55,  1.94it/s]Training 3/3 epoch (loss 0.3868):  92%|█████████▏| 15677/16950 [2:50:06<10:55,  1.94it/s]Training 3/3 epoch (loss 0.3868):  92%|█████████▏| 15678/16950 [2:50:06<15:10,  1.40it/s]Training 3/3 epoch (loss 0.6705):  92%|█████████▏| 15678/16950 [2:50:06<15:10,  1.40it/s]Training 3/3 epoch (loss 0.6705):  93%|█████████▎| 15679/16950 [2:50:06<14:32,  1.46it/s]Training 3/3 epoch (loss 0.1648):  93%|█████████▎| 15679/16950 [2:50:07<14:32,  1.46it/s]Training 3/3 epoch (loss 0.1648):  93%|█████████▎| 15680/16950 [2:50:07<13:10,  1.61it/s]Training 3/3 epoch (loss 0.0002):  93%|█████████▎| 15680/16950 [2:50:07<13:10,  1.61it/s]Training 3/3 epoch (loss 0.0002):  93%|█████████▎| 15681/16950 [2:50:07<12:23,  1.71it/s]Training 3/3 epoch (loss 0.4120):  93%|█████████▎| 15681/16950 [2:50:08<12:23,  1.71it/s]Training 3/3 epoch (loss 0.4120):  93%|█████████▎| 15682/16950 [2:50:08<11:59,  1.76it/s]Training 3/3 epoch (loss 0.0002):  93%|█████████▎| 15682/16950 [2:50:08<11:59,  1.76it/s]Training 3/3 epoch (loss 0.0002):  93%|█████████▎| 15683/16950 [2:50:08<11:54,  1.77it/s]Training 3/3 epoch (loss 0.4025):  93%|█████████▎| 15683/16950 [2:50:09<11:54,  1.77it/s]Training 3/3 epoch (loss 0.4025):  93%|█████████▎| 15684/16950 [2:50:09<12:27,  1.69it/s]Training 3/3 epoch (loss 0.0086):  93%|█████████▎| 15684/16950 [2:50:09<12:27,  1.69it/s]Training 3/3 epoch (loss 0.0086):  93%|█████████▎| 15685/16950 [2:50:09<11:50,  1.78it/s]Training 3/3 epoch (loss 0.1640):  93%|█████████▎| 15685/16950 [2:50:10<11:50,  1.78it/s]Training 3/3 epoch (loss 0.1640):  93%|█████████▎| 15686/16950 [2:50:10<13:49,  1.52it/s]Training 3/3 epoch (loss 0.0123):  93%|█████████▎| 15686/16950 [2:50:11<13:49,  1.52it/s]Training 3/3 epoch (loss 0.0123):  93%|█████████▎| 15687/16950 [2:50:11<12:58,  1.62it/s]Training 3/3 epoch (loss 0.2790):  93%|█████████▎| 15687/16950 [2:50:11<12:58,  1.62it/s]Training 3/3 epoch (loss 0.2790):  93%|█████████▎| 15688/16950 [2:50:11<12:04,  1.74it/s]Training 3/3 epoch (loss 0.4380):  93%|█████████▎| 15688/16950 [2:50:12<12:04,  1.74it/s]Training 3/3 epoch (loss 0.4380):  93%|█████████▎| 15689/16950 [2:50:12<10:49,  1.94it/s]Training 3/3 epoch (loss 0.0845):  93%|█████████▎| 15689/16950 [2:50:12<10:49,  1.94it/s]Training 3/3 epoch (loss 0.0845):  93%|█████████▎| 15690/16950 [2:50:12<11:17,  1.86it/s]Training 3/3 epoch (loss 0.0003):  93%|█████████▎| 15690/16950 [2:50:13<11:17,  1.86it/s]Training 3/3 epoch (loss 0.0003):  93%|█████████▎| 15691/16950 [2:50:13<12:08,  1.73it/s]Training 3/3 epoch (loss 0.0799):  93%|█████████▎| 15691/16950 [2:50:13<12:08,  1.73it/s]Training 3/3 epoch (loss 0.0799):  93%|█████████▎| 15692/16950 [2:50:13<11:53,  1.76it/s]Training 3/3 epoch (loss 0.2055):  93%|█████████▎| 15692/16950 [2:50:14<11:53,  1.76it/s]Training 3/3 epoch (loss 0.2055):  93%|█████████▎| 15693/16950 [2:50:14<12:56,  1.62it/s]Training 3/3 epoch (loss 0.0007):  93%|█████████▎| 15693/16950 [2:50:15<12:56,  1.62it/s]Training 3/3 epoch (loss 0.0007):  93%|█████████▎| 15694/16950 [2:50:15<12:02,  1.74it/s]Training 3/3 epoch (loss 0.1455):  93%|█████████▎| 15694/16950 [2:50:15<12:02,  1.74it/s]Training 3/3 epoch (loss 0.1455):  93%|█████████▎| 15695/16950 [2:50:15<12:27,  1.68it/s]Training 3/3 epoch (loss 0.0004):  93%|█████████▎| 15695/16950 [2:50:16<12:27,  1.68it/s]Training 3/3 epoch (loss 0.0004):  93%|█████████▎| 15696/16950 [2:50:16<12:15,  1.70it/s]Training 3/3 epoch (loss 0.0660):  93%|█████████▎| 15696/16950 [2:50:16<12:15,  1.70it/s]Training 3/3 epoch (loss 0.0660):  93%|█████████▎| 15697/16950 [2:50:16<12:22,  1.69it/s]Training 3/3 epoch (loss 0.3883):  93%|█████████▎| 15697/16950 [2:50:17<12:22,  1.69it/s]Training 3/3 epoch (loss 0.3883):  93%|█████████▎| 15698/16950 [2:50:17<12:29,  1.67it/s]Training 3/3 epoch (loss 0.1934):  93%|█████████▎| 15698/16950 [2:50:17<12:29,  1.67it/s]Training 3/3 epoch (loss 0.1934):  93%|█████████▎| 15699/16950 [2:50:17<11:10,  1.87it/s]Training 3/3 epoch (loss 0.0703):  93%|█████████▎| 15699/16950 [2:50:18<11:10,  1.87it/s]Training 3/3 epoch (loss 0.0703):  93%|█████████▎| 15700/16950 [2:50:18<11:28,  1.81it/s]Training 3/3 epoch (loss 0.0072):  93%|█████████▎| 15700/16950 [2:50:19<11:28,  1.81it/s]Training 3/3 epoch (loss 0.0072):  93%|█████████▎| 15701/16950 [2:50:19<12:52,  1.62it/s]Training 3/3 epoch (loss 0.1832):  93%|█████████▎| 15701/16950 [2:50:19<12:52,  1.62it/s]Training 3/3 epoch (loss 0.1832):  93%|█████████▎| 15702/16950 [2:50:19<11:25,  1.82it/s]Training 3/3 epoch (loss 0.0480):  93%|█████████▎| 15702/16950 [2:50:20<11:25,  1.82it/s]Training 3/3 epoch (loss 0.0480):  93%|█████████▎| 15703/16950 [2:50:20<11:59,  1.73it/s]Training 3/3 epoch (loss 0.0140):  93%|█████████▎| 15703/16950 [2:50:21<11:59,  1.73it/s]Training 3/3 epoch (loss 0.0140):  93%|█████████▎| 15704/16950 [2:50:21<12:34,  1.65it/s]Training 3/3 epoch (loss 0.6648):  93%|█████████▎| 15704/16950 [2:50:21<12:34,  1.65it/s]Training 3/3 epoch (loss 0.6648):  93%|█████████▎| 15705/16950 [2:50:21<12:21,  1.68it/s]Training 3/3 epoch (loss 0.0093):  93%|█████████▎| 15705/16950 [2:50:22<12:21,  1.68it/s]Training 3/3 epoch (loss 0.0093):  93%|█████████▎| 15706/16950 [2:50:22<12:28,  1.66it/s]Training 3/3 epoch (loss 0.0085):  93%|█████████▎| 15706/16950 [2:50:22<12:28,  1.66it/s]Training 3/3 epoch (loss 0.0085):  93%|█████████▎| 15707/16950 [2:50:22<11:52,  1.75it/s]Training 3/3 epoch (loss 0.0853):  93%|█████████▎| 15707/16950 [2:50:23<11:52,  1.75it/s]Training 3/3 epoch (loss 0.0853):  93%|█████████▎| 15708/16950 [2:50:23<12:15,  1.69it/s]Training 3/3 epoch (loss 0.1534):  93%|█████████▎| 15708/16950 [2:50:24<12:15,  1.69it/s]Training 3/3 epoch (loss 0.1534):  93%|█████████▎| 15709/16950 [2:50:24<14:46,  1.40it/s]Training 3/3 epoch (loss 0.0328):  93%|█████████▎| 15709/16950 [2:50:25<14:46,  1.40it/s]Training 3/3 epoch (loss 0.0328):  93%|█████████▎| 15710/16950 [2:50:25<16:18,  1.27it/s]Training 3/3 epoch (loss 0.0000):  93%|█████████▎| 15710/16950 [2:50:25<16:18,  1.27it/s]Training 3/3 epoch (loss 0.0000):  93%|█████████▎| 15711/16950 [2:50:25<13:58,  1.48it/s]Training 3/3 epoch (loss 0.1473):  93%|█████████▎| 15711/16950 [2:50:26<13:58,  1.48it/s]Training 3/3 epoch (loss 0.1473):  93%|█████████▎| 15712/16950 [2:50:26<11:57,  1.73it/s]Training 3/3 epoch (loss 0.2363):  93%|█████████▎| 15712/16950 [2:50:26<11:57,  1.73it/s]Training 3/3 epoch (loss 0.2363):  93%|█████████▎| 15713/16950 [2:50:26<12:00,  1.72it/s]Training 3/3 epoch (loss 0.0769):  93%|█████████▎| 15713/16950 [2:50:27<12:00,  1.72it/s]Training 3/3 epoch (loss 0.0769):  93%|█████████▎| 15714/16950 [2:50:27<12:17,  1.68it/s]Training 3/3 epoch (loss 0.0107):  93%|█████████▎| 15714/16950 [2:50:27<12:17,  1.68it/s]Training 3/3 epoch (loss 0.0107):  93%|█████████▎| 15715/16950 [2:50:27<11:37,  1.77it/s]Training 3/3 epoch (loss 0.0208):  93%|█████████▎| 15715/16950 [2:50:28<11:37,  1.77it/s]Training 3/3 epoch (loss 0.0208):  93%|█████████▎| 15716/16950 [2:50:28<11:58,  1.72it/s]Training 3/3 epoch (loss 0.0016):  93%|█████████▎| 15716/16950 [2:50:29<11:58,  1.72it/s]Training 3/3 epoch (loss 0.0016):  93%|█████████▎| 15717/16950 [2:50:29<15:39,  1.31it/s]Training 3/3 epoch (loss 0.0678):  93%|█████████▎| 15717/16950 [2:50:30<15:39,  1.31it/s]Training 3/3 epoch (loss 0.0678):  93%|█████████▎| 15718/16950 [2:50:30<15:23,  1.33it/s]Training 3/3 epoch (loss 0.2088):  93%|█████████▎| 15718/16950 [2:50:30<15:23,  1.33it/s]Training 3/3 epoch (loss 0.2088):  93%|█████████▎| 15719/16950 [2:50:30<13:33,  1.51it/s]Training 3/3 epoch (loss 0.0853):  93%|█████████▎| 15719/16950 [2:50:31<13:33,  1.51it/s]Training 3/3 epoch (loss 0.0853):  93%|█████████▎| 15720/16950 [2:50:31<12:27,  1.65it/s]Training 3/3 epoch (loss 0.0020):  93%|█████████▎| 15720/16950 [2:50:32<12:27,  1.65it/s]Training 3/3 epoch (loss 0.0020):  93%|█████████▎| 15721/16950 [2:50:32<15:20,  1.34it/s]Training 3/3 epoch (loss 0.0259):  93%|█████████▎| 15721/16950 [2:50:32<15:20,  1.34it/s]Training 3/3 epoch (loss 0.0259):  93%|█████████▎| 15722/16950 [2:50:32<14:35,  1.40it/s]Training 3/3 epoch (loss 0.0337):  93%|█████████▎| 15722/16950 [2:50:33<14:35,  1.40it/s]Training 3/3 epoch (loss 0.0337):  93%|█████████▎| 15723/16950 [2:50:33<14:22,  1.42it/s]Training 3/3 epoch (loss 0.1331):  93%|█████████▎| 15723/16950 [2:50:34<14:22,  1.42it/s]Training 3/3 epoch (loss 0.1331):  93%|█████████▎| 15724/16950 [2:50:34<13:00,  1.57it/s]Training 3/3 epoch (loss 0.0478):  93%|█████████▎| 15724/16950 [2:50:34<13:00,  1.57it/s]Training 3/3 epoch (loss 0.0478):  93%|█████████▎| 15725/16950 [2:50:34<12:04,  1.69it/s]Training 3/3 epoch (loss 0.3183):  93%|█████████▎| 15725/16950 [2:50:34<12:04,  1.69it/s]Training 3/3 epoch (loss 0.3183):  93%|█████████▎| 15726/16950 [2:50:34<10:50,  1.88it/s]Training 3/3 epoch (loss 0.0225):  93%|█████████▎| 15726/16950 [2:50:35<10:50,  1.88it/s]Training 3/3 epoch (loss 0.0225):  93%|█████████▎| 15727/16950 [2:50:35<10:48,  1.89it/s]Training 3/3 epoch (loss 0.0967):  93%|█████████▎| 15727/16950 [2:50:36<10:48,  1.89it/s]Training 3/3 epoch (loss 0.0967):  93%|█████████▎| 15728/16950 [2:50:36<10:35,  1.92it/s]Training 3/3 epoch (loss 0.1864):  93%|█████████▎| 15728/16950 [2:50:36<10:35,  1.92it/s]Training 3/3 epoch (loss 0.1864):  93%|█████████▎| 15729/16950 [2:50:36<13:16,  1.53it/s]Training 3/3 epoch (loss 0.0408):  93%|█████████▎| 15729/16950 [2:50:37<13:16,  1.53it/s]Training 3/3 epoch (loss 0.0408):  93%|█████████▎| 15730/16950 [2:50:37<13:46,  1.48it/s]Training 3/3 epoch (loss 0.2699):  93%|█████████▎| 15730/16950 [2:50:38<13:46,  1.48it/s]Training 3/3 epoch (loss 0.2699):  93%|█████████▎| 15731/16950 [2:50:38<12:55,  1.57it/s]Training 3/3 epoch (loss 0.0018):  93%|█████████▎| 15731/16950 [2:50:38<12:55,  1.57it/s]Training 3/3 epoch (loss 0.0018):  93%|█████████▎| 15732/16950 [2:50:38<13:16,  1.53it/s]Training 3/3 epoch (loss 0.2750):  93%|█████████▎| 15732/16950 [2:50:39<13:16,  1.53it/s]Training 3/3 epoch (loss 0.2750):  93%|█████████▎| 15733/16950 [2:50:39<11:34,  1.75it/s]Training 3/3 epoch (loss 0.0087):  93%|█████████▎| 15733/16950 [2:50:40<11:34,  1.75it/s]Training 3/3 epoch (loss 0.0087):  93%|█████████▎| 15734/16950 [2:50:40<12:11,  1.66it/s]Training 3/3 epoch (loss 0.0004):  93%|█████████▎| 15734/16950 [2:50:40<12:11,  1.66it/s]Training 3/3 epoch (loss 0.0004):  93%|█████████▎| 15735/16950 [2:50:40<13:59,  1.45it/s]Training 3/3 epoch (loss 0.0006):  93%|█████████▎| 15735/16950 [2:50:41<13:59,  1.45it/s]Training 3/3 epoch (loss 0.0006):  93%|█████████▎| 15736/16950 [2:50:41<13:22,  1.51it/s]Training 3/3 epoch (loss 0.0021):  93%|█████████▎| 15736/16950 [2:50:42<13:22,  1.51it/s]Training 3/3 epoch (loss 0.0021):  93%|█████████▎| 15737/16950 [2:50:42<12:46,  1.58it/s]Training 3/3 epoch (loss 0.0324):  93%|█████████▎| 15737/16950 [2:50:42<12:46,  1.58it/s]Training 3/3 epoch (loss 0.0324):  93%|█████████▎| 15738/16950 [2:50:42<12:33,  1.61it/s]Training 3/3 epoch (loss 0.2259):  93%|█████████▎| 15738/16950 [2:50:43<12:33,  1.61it/s]Training 3/3 epoch (loss 0.2259):  93%|█████████▎| 15739/16950 [2:50:43<11:50,  1.70it/s]Training 3/3 epoch (loss 0.0129):  93%|█████████▎| 15739/16950 [2:50:43<11:50,  1.70it/s]Training 3/3 epoch (loss 0.0129):  93%|█████████▎| 15740/16950 [2:50:43<12:27,  1.62it/s]Training 3/3 epoch (loss 0.0075):  93%|█████████▎| 15740/16950 [2:50:44<12:27,  1.62it/s]Training 3/3 epoch (loss 0.0075):  93%|█████████▎| 15741/16950 [2:50:44<11:42,  1.72it/s]Training 3/3 epoch (loss 0.0281):  93%|█████████▎| 15741/16950 [2:50:44<11:42,  1.72it/s]Training 3/3 epoch (loss 0.0281):  93%|█████████▎| 15742/16950 [2:50:44<11:00,  1.83it/s]Training 3/3 epoch (loss 0.0037):  93%|█████████▎| 15742/16950 [2:50:45<11:00,  1.83it/s]Training 3/3 epoch (loss 0.0037):  93%|█████████▎| 15743/16950 [2:50:45<10:57,  1.84it/s]Training 3/3 epoch (loss 0.0448):  93%|█████████▎| 15743/16950 [2:50:45<10:57,  1.84it/s]Training 3/3 epoch (loss 0.0448):  93%|█████████▎| 15744/16950 [2:50:45<11:06,  1.81it/s]Training 3/3 epoch (loss 0.0043):  93%|█████████▎| 15744/16950 [2:50:46<11:06,  1.81it/s]Training 3/3 epoch (loss 0.0043):  93%|█████████▎| 15745/16950 [2:50:46<10:51,  1.85it/s]Training 3/3 epoch (loss 0.0569):  93%|█████████▎| 15745/16950 [2:50:47<10:51,  1.85it/s]Training 3/3 epoch (loss 0.0569):  93%|█████████▎| 15746/16950 [2:50:47<13:13,  1.52it/s]Training 3/3 epoch (loss 0.5555):  93%|█████████▎| 15746/16950 [2:50:47<13:13,  1.52it/s]Training 3/3 epoch (loss 0.5555):  93%|█████████▎| 15747/16950 [2:50:47<12:14,  1.64it/s]Training 3/3 epoch (loss 0.6714):  93%|█████████▎| 15747/16950 [2:50:48<12:14,  1.64it/s]Training 3/3 epoch (loss 0.6714):  93%|█████████▎| 15748/16950 [2:50:48<11:10,  1.79it/s]Training 3/3 epoch (loss 0.0228):  93%|█████████▎| 15748/16950 [2:50:48<11:10,  1.79it/s]Training 3/3 epoch (loss 0.0228):  93%|█████████▎| 15749/16950 [2:50:48<10:42,  1.87it/s]Training 3/3 epoch (loss 0.2129):  93%|█████████▎| 15749/16950 [2:50:49<10:42,  1.87it/s]Training 3/3 epoch (loss 0.2129):  93%|█████████▎| 15750/16950 [2:50:49<10:11,  1.96it/s]Training 3/3 epoch (loss 0.0110):  93%|█████████▎| 15750/16950 [2:50:49<10:11,  1.96it/s]Training 3/3 epoch (loss 0.0110):  93%|█████████▎| 15751/16950 [2:50:49<10:53,  1.84it/s]Training 3/3 epoch (loss 0.2296):  93%|█████████▎| 15751/16950 [2:50:50<10:53,  1.84it/s]Training 3/3 epoch (loss 0.2296):  93%|█████████▎| 15752/16950 [2:50:50<11:23,  1.75it/s]Training 3/3 epoch (loss 0.3751):  93%|█████████▎| 15752/16950 [2:50:50<11:23,  1.75it/s]Training 3/3 epoch (loss 0.3751):  93%|█████████▎| 15753/16950 [2:50:50<10:54,  1.83it/s]Training 3/3 epoch (loss 0.3618):  93%|█████████▎| 15753/16950 [2:50:51<10:54,  1.83it/s]Training 3/3 epoch (loss 0.3618):  93%|█████████▎| 15754/16950 [2:50:51<10:28,  1.90it/s]Training 3/3 epoch (loss 0.0391):  93%|█████████▎| 15754/16950 [2:50:51<10:28,  1.90it/s]Training 3/3 epoch (loss 0.0391):  93%|█████████▎| 15755/16950 [2:50:51<10:31,  1.89it/s]Training 3/3 epoch (loss 0.0034):  93%|█████████▎| 15755/16950 [2:50:52<10:31,  1.89it/s]Training 3/3 epoch (loss 0.0034):  93%|█████████▎| 15756/16950 [2:50:52<11:22,  1.75it/s]Training 3/3 epoch (loss 0.0011):  93%|█████████▎| 15756/16950 [2:50:53<11:22,  1.75it/s]Training 3/3 epoch (loss 0.0011):  93%|█████████▎| 15757/16950 [2:50:53<10:37,  1.87it/s]Training 3/3 epoch (loss 0.0006):  93%|█████████▎| 15757/16950 [2:50:53<10:37,  1.87it/s]Training 3/3 epoch (loss 0.0006):  93%|█████████▎| 15758/16950 [2:50:53<10:10,  1.95it/s]Training 3/3 epoch (loss 0.0069):  93%|█████████▎| 15758/16950 [2:50:54<10:10,  1.95it/s]Training 3/3 epoch (loss 0.0069):  93%|█████████▎| 15759/16950 [2:50:54<11:17,  1.76it/s]Training 3/3 epoch (loss 0.0053):  93%|█████████▎| 15759/16950 [2:50:54<11:17,  1.76it/s]Training 3/3 epoch (loss 0.0053):  93%|█████████▎| 15760/16950 [2:50:54<10:36,  1.87it/s]Training 3/3 epoch (loss 0.0883):  93%|█████████▎| 15760/16950 [2:50:55<10:36,  1.87it/s]Training 3/3 epoch (loss 0.0883):  93%|█████████▎| 15761/16950 [2:50:55<10:19,  1.92it/s]Training 3/3 epoch (loss 0.3594):  93%|█████████▎| 15761/16950 [2:50:55<10:19,  1.92it/s]Training 3/3 epoch (loss 0.3594):  93%|█████████▎| 15762/16950 [2:50:55<10:33,  1.88it/s]Training 3/3 epoch (loss 0.3387):  93%|█████████▎| 15762/16950 [2:50:56<10:33,  1.88it/s]Training 3/3 epoch (loss 0.3387):  93%|█████████▎| 15763/16950 [2:50:56<09:23,  2.11it/s]Training 3/3 epoch (loss 0.0143):  93%|█████████▎| 15763/16950 [2:50:56<09:23,  2.11it/s]Training 3/3 epoch (loss 0.0143):  93%|█████████▎| 15764/16950 [2:50:56<11:31,  1.71it/s]Training 3/3 epoch (loss 0.0090):  93%|█████████▎| 15764/16950 [2:50:57<11:31,  1.71it/s]Training 3/3 epoch (loss 0.0090):  93%|█████████▎| 15765/16950 [2:50:57<11:50,  1.67it/s]Training 3/3 epoch (loss 0.0012):  93%|█████████▎| 15765/16950 [2:50:58<11:50,  1.67it/s]Training 3/3 epoch (loss 0.0012):  93%|█████████▎| 15766/16950 [2:50:58<12:14,  1.61it/s]Training 3/3 epoch (loss 0.0034):  93%|█████████▎| 15766/16950 [2:50:58<12:14,  1.61it/s]Training 3/3 epoch (loss 0.0034):  93%|█████████▎| 15767/16950 [2:50:58<12:46,  1.54it/s]Training 3/3 epoch (loss 0.2743):  93%|█████████▎| 15767/16950 [2:50:59<12:46,  1.54it/s]Training 3/3 epoch (loss 0.2743):  93%|█████████▎| 15768/16950 [2:50:59<12:06,  1.63it/s]Training 3/3 epoch (loss 0.0054):  93%|█████████▎| 15768/16950 [2:51:00<12:06,  1.63it/s]Training 3/3 epoch (loss 0.0054):  93%|█████████▎| 15769/16950 [2:51:00<11:44,  1.68it/s]Training 3/3 epoch (loss 0.0370):  93%|█████████▎| 15769/16950 [2:51:00<11:44,  1.68it/s]Training 3/3 epoch (loss 0.0370):  93%|█████████▎| 15770/16950 [2:51:00<10:28,  1.88it/s]Training 3/3 epoch (loss 0.0030):  93%|█████████▎| 15770/16950 [2:51:00<10:28,  1.88it/s]Training 3/3 epoch (loss 0.0030):  93%|█████████▎| 15771/16950 [2:51:00<09:28,  2.07it/s]Training 3/3 epoch (loss 0.5486):  93%|█████████▎| 15771/16950 [2:51:01<09:28,  2.07it/s]Training 3/3 epoch (loss 0.5486):  93%|█████████▎| 15772/16950 [2:51:01<13:22,  1.47it/s]Training 3/3 epoch (loss 0.7020):  93%|█████████▎| 15772/16950 [2:51:02<13:22,  1.47it/s]Training 3/3 epoch (loss 0.7020):  93%|█████████▎| 15773/16950 [2:51:02<15:11,  1.29it/s]Training 3/3 epoch (loss 0.0140):  93%|█████████▎| 15773/16950 [2:51:03<15:11,  1.29it/s]Training 3/3 epoch (loss 0.0140):  93%|█████████▎| 15774/16950 [2:51:03<14:46,  1.33it/s]Training 3/3 epoch (loss 0.0083):  93%|█████████▎| 15774/16950 [2:51:04<14:46,  1.33it/s]Training 3/3 epoch (loss 0.0083):  93%|█████████▎| 15775/16950 [2:51:04<13:42,  1.43it/s]Training 3/3 epoch (loss 0.0570):  93%|█████████▎| 15775/16950 [2:51:04<13:42,  1.43it/s]Training 3/3 epoch (loss 0.0570):  93%|█████████▎| 15776/16950 [2:51:04<13:26,  1.46it/s]Training 3/3 epoch (loss 0.0336):  93%|█████████▎| 15776/16950 [2:51:05<13:26,  1.46it/s]Training 3/3 epoch (loss 0.0336):  93%|█████████▎| 15777/16950 [2:51:05<15:25,  1.27it/s]Training 3/3 epoch (loss 0.3211):  93%|█████████▎| 15777/16950 [2:51:06<15:25,  1.27it/s]Training 3/3 epoch (loss 0.3211):  93%|█████████▎| 15778/16950 [2:51:06<13:47,  1.42it/s]Training 3/3 epoch (loss 0.0047):  93%|█████████▎| 15778/16950 [2:51:06<13:47,  1.42it/s]Training 3/3 epoch (loss 0.0047):  93%|█████████▎| 15779/16950 [2:51:06<12:33,  1.55it/s]Training 3/3 epoch (loss 0.0122):  93%|█████████▎| 15779/16950 [2:51:07<12:33,  1.55it/s]Training 3/3 epoch (loss 0.0122):  93%|█████████▎| 15780/16950 [2:51:07<11:20,  1.72it/s]Training 3/3 epoch (loss 0.4306):  93%|█████████▎| 15780/16950 [2:51:07<11:20,  1.72it/s]Training 3/3 epoch (loss 0.4306):  93%|█████████▎| 15781/16950 [2:51:07<10:32,  1.85it/s]Training 3/3 epoch (loss 0.0001):  93%|█████████▎| 15781/16950 [2:51:08<10:32,  1.85it/s]Training 3/3 epoch (loss 0.0001):  93%|█████████▎| 15782/16950 [2:51:08<09:45,  2.00it/s]Training 3/3 epoch (loss 0.0015):  93%|█████████▎| 15782/16950 [2:51:08<09:45,  2.00it/s]Training 3/3 epoch (loss 0.0015):  93%|█████████▎| 15783/16950 [2:51:08<09:09,  2.12it/s]Training 3/3 epoch (loss 0.0722):  93%|█████████▎| 15783/16950 [2:51:09<09:09,  2.12it/s]Training 3/3 epoch (loss 0.0722):  93%|█████████▎| 15784/16950 [2:51:09<08:53,  2.19it/s]Training 3/3 epoch (loss 0.4437):  93%|█████████▎| 15784/16950 [2:51:09<08:53,  2.19it/s]Training 3/3 epoch (loss 0.4437):  93%|█████████▎| 15785/16950 [2:51:09<08:35,  2.26it/s]Training 3/3 epoch (loss 0.1230):  93%|█████████▎| 15785/16950 [2:51:10<08:35,  2.26it/s]Training 3/3 epoch (loss 0.1230):  93%|█████████▎| 15786/16950 [2:51:10<11:52,  1.63it/s]Training 3/3 epoch (loss 0.2807):  93%|█████████▎| 15786/16950 [2:51:11<11:52,  1.63it/s]Training 3/3 epoch (loss 0.2807):  93%|█████████▎| 15787/16950 [2:51:11<11:33,  1.68it/s]Training 3/3 epoch (loss 0.3610):  93%|█████████▎| 15787/16950 [2:51:12<11:33,  1.68it/s]Training 3/3 epoch (loss 0.3610):  93%|█████████▎| 15788/16950 [2:51:12<14:03,  1.38it/s]Training 3/3 epoch (loss 0.0060):  93%|█████████▎| 15788/16950 [2:51:12<14:03,  1.38it/s]Training 3/3 epoch (loss 0.0060):  93%|█████████▎| 15789/16950 [2:51:12<13:27,  1.44it/s]Training 3/3 epoch (loss 0.5249):  93%|█████████▎| 15789/16950 [2:51:13<13:27,  1.44it/s]Training 3/3 epoch (loss 0.5249):  93%|█████████▎| 15790/16950 [2:51:13<14:31,  1.33it/s]Training 3/3 epoch (loss 0.0510):  93%|█████████▎| 15790/16950 [2:51:14<14:31,  1.33it/s]Training 3/3 epoch (loss 0.0510):  93%|█████████▎| 15791/16950 [2:51:14<13:10,  1.47it/s]Training 3/3 epoch (loss 0.0044):  93%|█████████▎| 15791/16950 [2:51:14<13:10,  1.47it/s]Training 3/3 epoch (loss 0.0044):  93%|█████████▎| 15792/16950 [2:51:14<12:58,  1.49it/s]Training 3/3 epoch (loss 0.0051):  93%|█████████▎| 15792/16950 [2:51:15<12:58,  1.49it/s]Training 3/3 epoch (loss 0.0051):  93%|█████████▎| 15793/16950 [2:51:15<12:31,  1.54it/s]Training 3/3 epoch (loss 0.0035):  93%|█████████▎| 15793/16950 [2:51:16<12:31,  1.54it/s]Training 3/3 epoch (loss 0.0035):  93%|█████████▎| 15794/16950 [2:51:16<12:53,  1.49it/s]Training 3/3 epoch (loss 0.0817):  93%|█████████▎| 15794/16950 [2:51:16<12:53,  1.49it/s]Training 3/3 epoch (loss 0.0817):  93%|█████████▎| 15795/16950 [2:51:16<13:03,  1.47it/s]Training 3/3 epoch (loss 0.0382):  93%|█████████▎| 15795/16950 [2:51:17<13:03,  1.47it/s]Training 3/3 epoch (loss 0.0382):  93%|█████████▎| 15796/16950 [2:51:17<13:05,  1.47it/s]Training 3/3 epoch (loss 0.1263):  93%|█████████▎| 15796/16950 [2:51:17<13:05,  1.47it/s]Training 3/3 epoch (loss 0.1263):  93%|█████████▎| 15797/16950 [2:51:17<12:27,  1.54it/s]Training 3/3 epoch (loss 0.0036):  93%|█████████▎| 15797/16950 [2:51:18<12:27,  1.54it/s]Training 3/3 epoch (loss 0.0036):  93%|█████████▎| 15798/16950 [2:51:18<10:40,  1.80it/s]Training 3/3 epoch (loss 0.6367):  93%|█████████▎| 15798/16950 [2:51:18<10:40,  1.80it/s]Training 3/3 epoch (loss 0.6367):  93%|█████████▎| 15799/16950 [2:51:18<09:42,  1.98it/s]Training 3/3 epoch (loss 0.0008):  93%|█████████▎| 15799/16950 [2:51:19<09:42,  1.98it/s]Training 3/3 epoch (loss 0.0008):  93%|█████████▎| 15800/16950 [2:51:19<10:17,  1.86it/s]Training 3/3 epoch (loss 0.0015):  93%|█████████▎| 15800/16950 [2:51:19<10:17,  1.86it/s]Training 3/3 epoch (loss 0.0015):  93%|█████████▎| 15801/16950 [2:51:19<10:05,  1.90it/s]Training 3/3 epoch (loss 0.1111):  93%|█████████▎| 15801/16950 [2:51:20<10:05,  1.90it/s]Training 3/3 epoch (loss 0.1111):  93%|█████████▎| 15802/16950 [2:51:20<11:03,  1.73it/s]Training 3/3 epoch (loss 0.0018):  93%|█████████▎| 15802/16950 [2:51:21<11:03,  1.73it/s]Training 3/3 epoch (loss 0.0018):  93%|█████████▎| 15803/16950 [2:51:21<13:13,  1.45it/s]Training 3/3 epoch (loss 0.0142):  93%|█████████▎| 15803/16950 [2:51:22<13:13,  1.45it/s]Training 3/3 epoch (loss 0.0142):  93%|█████████▎| 15804/16950 [2:51:22<12:42,  1.50it/s]Training 3/3 epoch (loss 0.0935):  93%|█████████▎| 15804/16950 [2:51:22<12:42,  1.50it/s]Training 3/3 epoch (loss 0.0935):  93%|█████████▎| 15805/16950 [2:51:22<11:32,  1.65it/s]Training 3/3 epoch (loss 0.0184):  93%|█████████▎| 15805/16950 [2:51:23<11:32,  1.65it/s]Training 3/3 epoch (loss 0.0184):  93%|█████████▎| 15806/16950 [2:51:23<11:45,  1.62it/s]Training 3/3 epoch (loss 0.0028):  93%|█████████▎| 15806/16950 [2:51:23<11:45,  1.62it/s]Training 3/3 epoch (loss 0.0028):  93%|█████████▎| 15807/16950 [2:51:23<12:29,  1.53it/s]Training 3/3 epoch (loss 0.0286):  93%|█████████▎| 15807/16950 [2:51:24<12:29,  1.53it/s]Training 3/3 epoch (loss 0.0286):  93%|█████████▎| 15808/16950 [2:51:24<11:54,  1.60it/s]Training 3/3 epoch (loss 0.1333):  93%|█████████▎| 15808/16950 [2:51:25<11:54,  1.60it/s]Training 3/3 epoch (loss 0.1333):  93%|█████████▎| 15809/16950 [2:51:25<13:13,  1.44it/s]Training 3/3 epoch (loss 0.0160):  93%|█████████▎| 15809/16950 [2:51:25<13:13,  1.44it/s]Training 3/3 epoch (loss 0.0160):  93%|█████████▎| 15810/16950 [2:51:25<12:48,  1.48it/s]Training 3/3 epoch (loss 0.3700):  93%|█████████▎| 15810/16950 [2:51:26<12:48,  1.48it/s]Training 3/3 epoch (loss 0.3700):  93%|█████████▎| 15811/16950 [2:51:26<12:33,  1.51it/s]Training 3/3 epoch (loss 0.2143):  93%|█████████▎| 15811/16950 [2:51:27<12:33,  1.51it/s]Training 3/3 epoch (loss 0.2143):  93%|█████████▎| 15812/16950 [2:51:27<11:23,  1.67it/s]Training 3/3 epoch (loss 0.0030):  93%|█████████▎| 15812/16950 [2:51:27<11:23,  1.67it/s]Training 3/3 epoch (loss 0.0030):  93%|█████████▎| 15813/16950 [2:51:27<10:19,  1.84it/s]Training 3/3 epoch (loss 0.0295):  93%|█████████▎| 15813/16950 [2:51:28<10:19,  1.84it/s]Training 3/3 epoch (loss 0.0295):  93%|█████████▎| 15814/16950 [2:51:28<10:46,  1.76it/s]Training 3/3 epoch (loss 0.0445):  93%|█████████▎| 15814/16950 [2:51:28<10:46,  1.76it/s]Training 3/3 epoch (loss 0.0445):  93%|█████████▎| 15815/16950 [2:51:28<11:28,  1.65it/s]Training 3/3 epoch (loss 0.0814):  93%|█████████▎| 15815/16950 [2:51:29<11:28,  1.65it/s]Training 3/3 epoch (loss 0.0814):  93%|█████████▎| 15816/16950 [2:51:29<11:16,  1.68it/s]Training 3/3 epoch (loss 0.4084):  93%|█████████▎| 15816/16950 [2:51:29<11:16,  1.68it/s]Training 3/3 epoch (loss 0.4084):  93%|█████████▎| 15817/16950 [2:51:29<10:08,  1.86it/s]Training 3/3 epoch (loss 0.5026):  93%|█████████▎| 15817/16950 [2:51:30<10:08,  1.86it/s]Training 3/3 epoch (loss 0.5026):  93%|█████████▎| 15818/16950 [2:51:30<08:59,  2.10it/s]Training 3/3 epoch (loss 0.0620):  93%|█████████▎| 15818/16950 [2:51:30<08:59,  2.10it/s]Training 3/3 epoch (loss 0.0620):  93%|█████████▎| 15819/16950 [2:51:30<09:00,  2.09it/s]Training 3/3 epoch (loss 0.0109):  93%|█████████▎| 15819/16950 [2:51:31<09:00,  2.09it/s]Training 3/3 epoch (loss 0.0109):  93%|█████████▎| 15820/16950 [2:51:31<09:56,  1.89it/s]Training 3/3 epoch (loss 0.2947):  93%|█████████▎| 15820/16950 [2:51:31<09:56,  1.89it/s]Training 3/3 epoch (loss 0.2947):  93%|█████████▎| 15821/16950 [2:51:31<10:13,  1.84it/s]Training 3/3 epoch (loss 0.0060):  93%|█████████▎| 15821/16950 [2:51:32<10:13,  1.84it/s]Training 3/3 epoch (loss 0.0060):  93%|█████████▎| 15822/16950 [2:51:32<11:51,  1.59it/s]Training 3/3 epoch (loss 0.0070):  93%|█████████▎| 15822/16950 [2:51:33<11:51,  1.59it/s]Training 3/3 epoch (loss 0.0070):  93%|█████████▎| 15823/16950 [2:51:33<11:48,  1.59it/s]Training 3/3 epoch (loss 0.0004):  93%|█████████▎| 15823/16950 [2:51:33<11:48,  1.59it/s]Training 3/3 epoch (loss 0.0004):  93%|█████████▎| 15824/16950 [2:51:33<11:17,  1.66it/s]Training 3/3 epoch (loss 0.2767):  93%|█████████▎| 15824/16950 [2:51:34<11:17,  1.66it/s]Training 3/3 epoch (loss 0.2767):  93%|█████████▎| 15825/16950 [2:51:34<13:41,  1.37it/s]Training 3/3 epoch (loss 0.0000):  93%|█████████▎| 15825/16950 [2:51:35<13:41,  1.37it/s]Training 3/3 epoch (loss 0.0000):  93%|█████████▎| 15826/16950 [2:51:35<11:34,  1.62it/s]Training 3/3 epoch (loss 0.3091):  93%|█████████▎| 15826/16950 [2:51:35<11:34,  1.62it/s]Training 3/3 epoch (loss 0.3091):  93%|█████████▎| 15827/16950 [2:51:35<10:32,  1.78it/s]Training 3/3 epoch (loss 0.4040):  93%|█████████▎| 15827/16950 [2:51:36<10:32,  1.78it/s]Training 3/3 epoch (loss 0.4040):  93%|█████████▎| 15828/16950 [2:51:36<11:54,  1.57it/s]Training 3/3 epoch (loss 0.0002):  93%|█████████▎| 15828/16950 [2:51:37<11:54,  1.57it/s]Training 3/3 epoch (loss 0.0002):  93%|█████████▎| 15829/16950 [2:51:37<12:41,  1.47it/s]Training 3/3 epoch (loss 0.2059):  93%|█████████▎| 15829/16950 [2:51:37<12:41,  1.47it/s]Training 3/3 epoch (loss 0.2059):  93%|█████████▎| 15830/16950 [2:51:37<11:43,  1.59it/s]Training 3/3 epoch (loss 0.3970):  93%|█████████▎| 15830/16950 [2:51:38<11:43,  1.59it/s]Training 3/3 epoch (loss 0.3970):  93%|█████████▎| 15831/16950 [2:51:38<10:23,  1.80it/s]Training 3/3 epoch (loss 0.0829):  93%|█████████▎| 15831/16950 [2:51:38<10:23,  1.80it/s]Training 3/3 epoch (loss 0.0829):  93%|█████████▎| 15832/16950 [2:51:38<09:17,  2.01it/s]Training 3/3 epoch (loss 0.0294):  93%|█████████▎| 15832/16950 [2:51:39<09:17,  2.01it/s]Training 3/3 epoch (loss 0.0294):  93%|█████████▎| 15833/16950 [2:51:39<10:06,  1.84it/s]Training 3/3 epoch (loss 0.0045):  93%|█████████▎| 15833/16950 [2:51:39<10:06,  1.84it/s]Training 3/3 epoch (loss 0.0045):  93%|█████████▎| 15834/16950 [2:51:39<10:37,  1.75it/s]Training 3/3 epoch (loss 0.0009):  93%|█████████▎| 15834/16950 [2:51:40<10:37,  1.75it/s]Training 3/3 epoch (loss 0.0009):  93%|█████████▎| 15835/16950 [2:51:40<10:47,  1.72it/s]Training 3/3 epoch (loss 0.2958):  93%|█████████▎| 15835/16950 [2:51:40<10:47,  1.72it/s]Training 3/3 epoch (loss 0.2958):  93%|█████████▎| 15836/16950 [2:51:40<10:38,  1.74it/s]Training 3/3 epoch (loss 0.0041):  93%|█████████▎| 15836/16950 [2:51:41<10:38,  1.74it/s]Training 3/3 epoch (loss 0.0041):  93%|█████████▎| 15837/16950 [2:51:41<10:50,  1.71it/s]Training 3/3 epoch (loss 0.0057):  93%|█████████▎| 15837/16950 [2:51:42<10:50,  1.71it/s]Training 3/3 epoch (loss 0.0057):  93%|█████████▎| 15838/16950 [2:51:42<10:38,  1.74it/s]Training 3/3 epoch (loss 0.0011):  93%|█████████▎| 15838/16950 [2:51:42<10:38,  1.74it/s]Training 3/3 epoch (loss 0.0011):  93%|█████████▎| 15839/16950 [2:51:42<09:17,  1.99it/s]Training 3/3 epoch (loss 0.0005):  93%|█████████▎| 15839/16950 [2:51:42<09:17,  1.99it/s]Training 3/3 epoch (loss 0.0005):  93%|█████████▎| 15840/16950 [2:51:42<09:07,  2.03it/s]Training 3/3 epoch (loss 0.0097):  93%|█████████▎| 15840/16950 [2:51:43<09:07,  2.03it/s]Training 3/3 epoch (loss 0.0097):  93%|█████████▎| 15841/16950 [2:51:43<09:07,  2.03it/s]Training 3/3 epoch (loss 0.0206):  93%|█████████▎| 15841/16950 [2:51:43<09:07,  2.03it/s]Training 3/3 epoch (loss 0.0206):  93%|█████████▎| 15842/16950 [2:51:43<09:05,  2.03it/s]Training 3/3 epoch (loss 0.0020):  93%|█████████▎| 15842/16950 [2:51:44<09:05,  2.03it/s]Training 3/3 epoch (loss 0.0020):  93%|█████████▎| 15843/16950 [2:51:44<09:02,  2.04it/s]Training 3/3 epoch (loss 0.0081):  93%|█████████▎| 15843/16950 [2:51:45<09:02,  2.04it/s]Training 3/3 epoch (loss 0.0081):  93%|█████████▎| 15844/16950 [2:51:45<10:10,  1.81it/s]Training 3/3 epoch (loss 0.0148):  93%|█████████▎| 15844/16950 [2:51:45<10:10,  1.81it/s]Training 3/3 epoch (loss 0.0148):  93%|█████████▎| 15845/16950 [2:51:45<10:05,  1.82it/s]Training 3/3 epoch (loss 0.0251):  93%|█████████▎| 15845/16950 [2:51:46<10:05,  1.82it/s]Training 3/3 epoch (loss 0.0251):  93%|█████████▎| 15846/16950 [2:51:46<10:14,  1.80it/s]Training 3/3 epoch (loss 0.1505):  93%|█████████▎| 15846/16950 [2:51:46<10:14,  1.80it/s]Training 3/3 epoch (loss 0.1505):  93%|█████████▎| 15847/16950 [2:51:46<09:40,  1.90it/s]Training 3/3 epoch (loss 0.0041):  93%|█████████▎| 15847/16950 [2:51:47<09:40,  1.90it/s]Training 3/3 epoch (loss 0.0041):  93%|█████████▎| 15848/16950 [2:51:47<09:52,  1.86it/s]Training 3/3 epoch (loss 0.3649):  93%|█████████▎| 15848/16950 [2:51:48<09:52,  1.86it/s]Training 3/3 epoch (loss 0.3649):  94%|█████████▎| 15849/16950 [2:51:48<11:40,  1.57it/s]Training 3/3 epoch (loss 0.0676):  94%|█████████▎| 15849/16950 [2:51:48<11:40,  1.57it/s]Training 3/3 epoch (loss 0.0676):  94%|█████████▎| 15850/16950 [2:51:48<12:39,  1.45it/s]Training 3/3 epoch (loss 0.5526):  94%|█████████▎| 15850/16950 [2:51:49<12:39,  1.45it/s]Training 3/3 epoch (loss 0.5526):  94%|█████████▎| 15851/16950 [2:51:49<12:03,  1.52it/s]Training 3/3 epoch (loss 0.6942):  94%|█████████▎| 15851/16950 [2:51:49<12:03,  1.52it/s]Training 3/3 epoch (loss 0.6942):  94%|█████████▎| 15852/16950 [2:51:49<10:44,  1.70it/s]Training 3/3 epoch (loss 0.0010):  94%|█████████▎| 15852/16950 [2:51:50<10:44,  1.70it/s]Training 3/3 epoch (loss 0.0010):  94%|█████████▎| 15853/16950 [2:51:50<12:29,  1.46it/s]Training 3/3 epoch (loss 0.1305):  94%|█████████▎| 15853/16950 [2:51:51<12:29,  1.46it/s]Training 3/3 epoch (loss 0.1305):  94%|█████████▎| 15854/16950 [2:51:51<12:08,  1.50it/s]Training 3/3 epoch (loss 0.0074):  94%|█████████▎| 15854/16950 [2:51:52<12:08,  1.50it/s]Training 3/3 epoch (loss 0.0074):  94%|█████████▎| 15855/16950 [2:51:52<12:55,  1.41it/s]Training 3/3 epoch (loss 0.0486):  94%|█████████▎| 15855/16950 [2:51:52<12:55,  1.41it/s]Training 3/3 epoch (loss 0.0486):  94%|█████████▎| 15856/16950 [2:51:52<11:39,  1.56it/s]Training 3/3 epoch (loss 0.0047):  94%|█████████▎| 15856/16950 [2:51:53<11:39,  1.56it/s]Training 3/3 epoch (loss 0.0047):  94%|█████████▎| 15857/16950 [2:51:53<11:52,  1.53it/s]Training 3/3 epoch (loss 0.0007):  94%|█████████▎| 15857/16950 [2:51:53<11:52,  1.53it/s]Training 3/3 epoch (loss 0.0007):  94%|█████████▎| 15858/16950 [2:51:53<10:49,  1.68it/s]Training 3/3 epoch (loss 0.0178):  94%|█████████▎| 15858/16950 [2:51:54<10:49,  1.68it/s]Training 3/3 epoch (loss 0.0178):  94%|█████████▎| 15859/16950 [2:51:54<10:57,  1.66it/s]Training 3/3 epoch (loss 0.1046):  94%|█████████▎| 15859/16950 [2:51:55<10:57,  1.66it/s]Training 3/3 epoch (loss 0.1046):  94%|█████████▎| 15860/16950 [2:51:55<11:16,  1.61it/s]Training 3/3 epoch (loss 0.4512):  94%|█████████▎| 15860/16950 [2:51:55<11:16,  1.61it/s]Training 3/3 epoch (loss 0.4512):  94%|█████████▎| 15861/16950 [2:51:55<10:47,  1.68it/s]Training 3/3 epoch (loss 0.6014):  94%|█████████▎| 15861/16950 [2:51:56<10:47,  1.68it/s]Training 3/3 epoch (loss 0.6014):  94%|█████████▎| 15862/16950 [2:51:56<12:37,  1.44it/s]Training 3/3 epoch (loss 0.3701):  94%|█████████▎| 15862/16950 [2:51:57<12:37,  1.44it/s]Training 3/3 epoch (loss 0.3701):  94%|█████████▎| 15863/16950 [2:51:57<12:20,  1.47it/s]Training 3/3 epoch (loss 0.1996):  94%|█████████▎| 15863/16950 [2:51:57<12:20,  1.47it/s]Training 3/3 epoch (loss 0.1996):  94%|█████████▎| 15864/16950 [2:51:57<10:54,  1.66it/s]Training 3/3 epoch (loss 0.0003):  94%|█████████▎| 15864/16950 [2:51:58<10:54,  1.66it/s]Training 3/3 epoch (loss 0.0003):  94%|█████████▎| 15865/16950 [2:51:58<13:19,  1.36it/s]Training 3/3 epoch (loss 0.0003):  94%|█████████▎| 15865/16950 [2:51:59<13:19,  1.36it/s]Training 3/3 epoch (loss 0.0003):  94%|█████████▎| 15866/16950 [2:51:59<12:16,  1.47it/s]Training 3/3 epoch (loss 0.0152):  94%|█████████▎| 15866/16950 [2:51:59<12:16,  1.47it/s]Training 3/3 epoch (loss 0.0152):  94%|█████████▎| 15867/16950 [2:51:59<11:44,  1.54it/s]Training 3/3 epoch (loss 0.2466):  94%|█████████▎| 15867/16950 [2:52:00<11:44,  1.54it/s]Training 3/3 epoch (loss 0.2466):  94%|█████████▎| 15868/16950 [2:52:00<12:06,  1.49it/s]Training 3/3 epoch (loss 0.0003):  94%|█████████▎| 15868/16950 [2:52:01<12:06,  1.49it/s]Training 3/3 epoch (loss 0.0003):  94%|█████████▎| 15869/16950 [2:52:01<12:13,  1.47it/s]Training 3/3 epoch (loss 0.0464):  94%|█████████▎| 15869/16950 [2:52:01<12:13,  1.47it/s]Training 3/3 epoch (loss 0.0464):  94%|█████████▎| 15870/16950 [2:52:01<11:13,  1.60it/s]Training 3/3 epoch (loss 0.4737):  94%|█████████▎| 15870/16950 [2:52:02<11:13,  1.60it/s]Training 3/3 epoch (loss 0.4737):  94%|█████████▎| 15871/16950 [2:52:02<11:43,  1.53it/s]Training 3/3 epoch (loss 0.2231):  94%|█████████▎| 15871/16950 [2:52:02<11:43,  1.53it/s]Training 3/3 epoch (loss 0.2231):  94%|█████████▎| 15872/16950 [2:52:02<10:50,  1.66it/s]Training 3/3 epoch (loss 0.0847):  94%|█████████▎| 15872/16950 [2:52:03<10:50,  1.66it/s]Training 3/3 epoch (loss 0.0847):  94%|█████████▎| 15873/16950 [2:52:03<09:49,  1.83it/s]Training 3/3 epoch (loss 0.0000):  94%|█████████▎| 15873/16950 [2:52:03<09:49,  1.83it/s]Training 3/3 epoch (loss 0.0000):  94%|█████████▎| 15874/16950 [2:52:03<09:17,  1.93it/s]Training 3/3 epoch (loss 0.0238):  94%|█████████▎| 15874/16950 [2:52:04<09:17,  1.93it/s]Training 3/3 epoch (loss 0.0238):  94%|█████████▎| 15875/16950 [2:52:04<09:41,  1.85it/s]Training 3/3 epoch (loss 0.0245):  94%|█████████▎| 15875/16950 [2:52:05<09:41,  1.85it/s]Training 3/3 epoch (loss 0.0245):  94%|█████████▎| 15876/16950 [2:52:05<11:30,  1.56it/s]Training 3/3 epoch (loss 0.0031):  94%|█████████▎| 15876/16950 [2:52:06<11:30,  1.56it/s]Training 3/3 epoch (loss 0.0031):  94%|█████████▎| 15877/16950 [2:52:06<11:50,  1.51it/s]Training 3/3 epoch (loss 0.0933):  94%|█████████▎| 15877/16950 [2:52:06<11:50,  1.51it/s]Training 3/3 epoch (loss 0.0933):  94%|█████████▎| 15878/16950 [2:52:06<12:58,  1.38it/s]Training 3/3 epoch (loss 0.1453):  94%|█████████▎| 15878/16950 [2:52:07<12:58,  1.38it/s]Training 3/3 epoch (loss 0.1453):  94%|█████████▎| 15879/16950 [2:52:07<12:10,  1.47it/s]Training 3/3 epoch (loss 0.0003):  94%|█████████▎| 15879/16950 [2:52:07<12:10,  1.47it/s]Training 3/3 epoch (loss 0.0003):  94%|█████████▎| 15880/16950 [2:52:07<11:06,  1.60it/s]Training 3/3 epoch (loss 0.5883):  94%|█████████▎| 15880/16950 [2:52:08<11:06,  1.60it/s]Training 3/3 epoch (loss 0.5883):  94%|█████████▎| 15881/16950 [2:52:08<10:08,  1.76it/s]Training 3/3 epoch (loss 0.1459):  94%|█████████▎| 15881/16950 [2:52:09<10:08,  1.76it/s]Training 3/3 epoch (loss 0.1459):  94%|█████████▎| 15882/16950 [2:52:09<11:19,  1.57it/s]Training 3/3 epoch (loss 0.0002):  94%|█████████▎| 15882/16950 [2:52:09<11:19,  1.57it/s]Training 3/3 epoch (loss 0.0002):  94%|█████████▎| 15883/16950 [2:52:09<11:32,  1.54it/s]Training 3/3 epoch (loss 0.0101):  94%|█████████▎| 15883/16950 [2:52:10<11:32,  1.54it/s]Training 3/3 epoch (loss 0.0101):  94%|█████████▎| 15884/16950 [2:52:10<10:43,  1.66it/s]Training 3/3 epoch (loss 0.0361):  94%|█████████▎| 15884/16950 [2:52:11<10:43,  1.66it/s]Training 3/3 epoch (loss 0.0361):  94%|█████████▎| 15885/16950 [2:52:11<10:57,  1.62it/s]Training 3/3 epoch (loss 0.5185):  94%|█████████▎| 15885/16950 [2:52:11<10:57,  1.62it/s]Training 3/3 epoch (loss 0.5185):  94%|█████████▎| 15886/16950 [2:52:11<12:18,  1.44it/s]Training 3/3 epoch (loss 0.0005):  94%|█████████▎| 15886/16950 [2:52:12<12:18,  1.44it/s]Training 3/3 epoch (loss 0.0005):  94%|█████████▎| 15887/16950 [2:52:12<11:31,  1.54it/s]Training 3/3 epoch (loss 0.0114):  94%|█████████▎| 15887/16950 [2:52:12<11:31,  1.54it/s]Training 3/3 epoch (loss 0.0114):  94%|█████████▎| 15888/16950 [2:52:12<10:52,  1.63it/s]Training 3/3 epoch (loss 0.0199):  94%|█████████▎| 15888/16950 [2:52:13<10:52,  1.63it/s]Training 3/3 epoch (loss 0.0199):  94%|█████████▎| 15889/16950 [2:52:13<11:16,  1.57it/s]Training 3/3 epoch (loss 0.1625):  94%|█████████▎| 15889/16950 [2:52:14<11:16,  1.57it/s]Training 3/3 epoch (loss 0.1625):  94%|█████████▎| 15890/16950 [2:52:14<11:25,  1.55it/s]Training 3/3 epoch (loss 0.0489):  94%|█████████▎| 15890/16950 [2:52:15<11:25,  1.55it/s]Training 3/3 epoch (loss 0.0489):  94%|█████████▍| 15891/16950 [2:52:15<12:01,  1.47it/s]Training 3/3 epoch (loss 0.0535):  94%|█████████▍| 15891/16950 [2:52:15<12:01,  1.47it/s]Training 3/3 epoch (loss 0.0535):  94%|█████████▍| 15892/16950 [2:52:15<12:55,  1.36it/s]Training 3/3 epoch (loss 0.1087):  94%|█████████▍| 15892/16950 [2:52:16<12:55,  1.36it/s]Training 3/3 epoch (loss 0.1087):  94%|█████████▍| 15893/16950 [2:52:16<13:12,  1.33it/s]Training 3/3 epoch (loss 0.3913):  94%|█████████▍| 15893/16950 [2:52:17<13:12,  1.33it/s]Training 3/3 epoch (loss 0.3913):  94%|█████████▍| 15894/16950 [2:52:17<12:03,  1.46it/s]Training 3/3 epoch (loss 0.0973):  94%|█████████▍| 15894/16950 [2:52:17<12:03,  1.46it/s]Training 3/3 epoch (loss 0.0973):  94%|█████████▍| 15895/16950 [2:52:17<10:41,  1.65it/s]Training 3/3 epoch (loss 0.0035):  94%|█████████▍| 15895/16950 [2:52:18<10:41,  1.65it/s]Training 3/3 epoch (loss 0.0035):  94%|█████████▍| 15896/16950 [2:52:18<09:28,  1.86it/s]Training 3/3 epoch (loss 0.1734):  94%|█████████▍| 15896/16950 [2:52:18<09:28,  1.86it/s]Training 3/3 epoch (loss 0.1734):  94%|█████████▍| 15897/16950 [2:52:18<10:08,  1.73it/s]Training 3/3 epoch (loss 0.0161):  94%|█████████▍| 15897/16950 [2:52:19<10:08,  1.73it/s]Training 3/3 epoch (loss 0.0161):  94%|█████████▍| 15898/16950 [2:52:19<10:25,  1.68it/s]Training 3/3 epoch (loss 0.0024):  94%|█████████▍| 15898/16950 [2:52:19<10:25,  1.68it/s]Training 3/3 epoch (loss 0.0024):  94%|█████████▍| 15899/16950 [2:52:19<10:27,  1.68it/s]Training 3/3 epoch (loss 0.0024):  94%|█████████▍| 15899/16950 [2:52:20<10:27,  1.68it/s]Training 3/3 epoch (loss 0.0024):  94%|█████████▍| 15900/16950 [2:52:20<12:18,  1.42it/s]Training 3/3 epoch (loss 0.0048):  94%|█████████▍| 15900/16950 [2:52:21<12:18,  1.42it/s]Training 3/3 epoch (loss 0.0048):  94%|█████████▍| 15901/16950 [2:52:21<11:34,  1.51it/s]Training 3/3 epoch (loss 0.0178):  94%|█████████▍| 15901/16950 [2:52:22<11:34,  1.51it/s]Training 3/3 epoch (loss 0.0178):  94%|█████████▍| 15902/16950 [2:52:22<13:15,  1.32it/s]Training 3/3 epoch (loss 0.0003):  94%|█████████▍| 15902/16950 [2:52:23<13:15,  1.32it/s]Training 3/3 epoch (loss 0.0003):  94%|█████████▍| 15903/16950 [2:52:23<12:43,  1.37it/s]Training 3/3 epoch (loss 0.0000):  94%|█████████▍| 15903/16950 [2:52:23<12:43,  1.37it/s]Training 3/3 epoch (loss 0.0000):  94%|█████████▍| 15904/16950 [2:52:23<12:10,  1.43it/s]Training 3/3 epoch (loss 0.0004):  94%|█████████▍| 15904/16950 [2:52:24<12:10,  1.43it/s]Training 3/3 epoch (loss 0.0004):  94%|█████████▍| 15905/16950 [2:52:24<11:16,  1.54it/s]Training 3/3 epoch (loss 0.5489):  94%|█████████▍| 15905/16950 [2:52:25<11:16,  1.54it/s]Training 3/3 epoch (loss 0.5489):  94%|█████████▍| 15906/16950 [2:52:25<11:40,  1.49it/s]Training 3/3 epoch (loss 0.0028):  94%|█████████▍| 15906/16950 [2:52:25<11:40,  1.49it/s]Training 3/3 epoch (loss 0.0028):  94%|█████████▍| 15907/16950 [2:52:25<09:50,  1.76it/s]Training 3/3 epoch (loss 0.0405):  94%|█████████▍| 15907/16950 [2:52:25<09:50,  1.76it/s]Training 3/3 epoch (loss 0.0405):  94%|█████████▍| 15908/16950 [2:52:25<09:39,  1.80it/s]Training 3/3 epoch (loss 0.2571):  94%|█████████▍| 15908/16950 [2:52:26<09:39,  1.80it/s]Training 3/3 epoch (loss 0.2571):  94%|█████████▍| 15909/16950 [2:52:26<09:43,  1.78it/s]Training 3/3 epoch (loss 0.0034):  94%|█████████▍| 15909/16950 [2:52:27<09:43,  1.78it/s]Training 3/3 epoch (loss 0.0034):  94%|█████████▍| 15910/16950 [2:52:27<10:24,  1.66it/s]Training 3/3 epoch (loss 0.0297):  94%|█████████▍| 15910/16950 [2:52:27<10:24,  1.66it/s]Training 3/3 epoch (loss 0.0297):  94%|█████████▍| 15911/16950 [2:52:27<09:31,  1.82it/s]Training 3/3 epoch (loss 0.4250):  94%|█████████▍| 15911/16950 [2:52:28<09:31,  1.82it/s]Training 3/3 epoch (loss 0.4250):  94%|█████████▍| 15912/16950 [2:52:28<11:08,  1.55it/s]Training 3/3 epoch (loss 0.7782):  94%|█████████▍| 15912/16950 [2:52:29<11:08,  1.55it/s]Training 3/3 epoch (loss 0.7782):  94%|█████████▍| 15913/16950 [2:52:29<13:11,  1.31it/s]Training 3/3 epoch (loss 0.0002):  94%|█████████▍| 15913/16950 [2:52:29<13:11,  1.31it/s]Training 3/3 epoch (loss 0.0002):  94%|█████████▍| 15914/16950 [2:52:29<11:35,  1.49it/s]Training 3/3 epoch (loss 0.0040):  94%|█████████▍| 15914/16950 [2:52:30<11:35,  1.49it/s]Training 3/3 epoch (loss 0.0040):  94%|█████████▍| 15915/16950 [2:52:30<11:16,  1.53it/s]Training 3/3 epoch (loss 0.0025):  94%|█████████▍| 15915/16950 [2:52:31<11:16,  1.53it/s]Training 3/3 epoch (loss 0.0025):  94%|█████████▍| 15916/16950 [2:52:31<10:53,  1.58it/s]Training 3/3 epoch (loss 0.0493):  94%|█████████▍| 15916/16950 [2:52:31<10:53,  1.58it/s]Training 3/3 epoch (loss 0.0493):  94%|█████████▍| 15917/16950 [2:52:31<11:12,  1.54it/s]Training 3/3 epoch (loss 0.0108):  94%|█████████▍| 15917/16950 [2:52:32<11:12,  1.54it/s]Training 3/3 epoch (loss 0.0108):  94%|█████████▍| 15918/16950 [2:52:32<10:55,  1.57it/s]Training 3/3 epoch (loss 0.2004):  94%|█████████▍| 15918/16950 [2:52:32<10:55,  1.57it/s]Training 3/3 epoch (loss 0.2004):  94%|█████████▍| 15919/16950 [2:52:32<09:36,  1.79it/s]Training 3/3 epoch (loss 0.0001):  94%|█████████▍| 15919/16950 [2:52:33<09:36,  1.79it/s]Training 3/3 epoch (loss 0.0001):  94%|█████████▍| 15920/16950 [2:52:33<09:34,  1.79it/s]Training 3/3 epoch (loss 0.0291):  94%|█████████▍| 15920/16950 [2:52:33<09:34,  1.79it/s]Training 3/3 epoch (loss 0.0291):  94%|█████████▍| 15921/16950 [2:52:33<08:47,  1.95it/s]Training 3/3 epoch (loss 0.0004):  94%|█████████▍| 15921/16950 [2:52:34<08:47,  1.95it/s]Training 3/3 epoch (loss 0.0004):  94%|█████████▍| 15922/16950 [2:52:34<08:00,  2.14it/s]Training 3/3 epoch (loss 0.2244):  94%|█████████▍| 15922/16950 [2:52:34<08:00,  2.14it/s]Training 3/3 epoch (loss 0.2244):  94%|█████████▍| 15923/16950 [2:52:34<08:55,  1.92it/s]Training 3/3 epoch (loss 0.3783):  94%|█████████▍| 15923/16950 [2:52:35<08:55,  1.92it/s]Training 3/3 epoch (loss 0.3783):  94%|█████████▍| 15924/16950 [2:52:35<11:38,  1.47it/s]Training 3/3 epoch (loss 0.2674):  94%|█████████▍| 15924/16950 [2:52:36<11:38,  1.47it/s]Training 3/3 epoch (loss 0.2674):  94%|█████████▍| 15925/16950 [2:52:36<11:56,  1.43it/s]Training 3/3 epoch (loss 0.3453):  94%|█████████▍| 15925/16950 [2:52:37<11:56,  1.43it/s]Training 3/3 epoch (loss 0.3453):  94%|█████████▍| 15926/16950 [2:52:37<10:50,  1.57it/s]Training 3/3 epoch (loss 0.0076):  94%|█████████▍| 15926/16950 [2:52:37<10:50,  1.57it/s]Training 3/3 epoch (loss 0.0076):  94%|█████████▍| 15927/16950 [2:52:37<10:03,  1.69it/s]Training 3/3 epoch (loss 0.0006):  94%|█████████▍| 15927/16950 [2:52:37<10:03,  1.69it/s]Training 3/3 epoch (loss 0.0006):  94%|█████████▍| 15928/16950 [2:52:37<08:54,  1.91it/s]Training 3/3 epoch (loss 0.0698):  94%|█████████▍| 15928/16950 [2:52:38<08:54,  1.91it/s]Training 3/3 epoch (loss 0.0698):  94%|█████████▍| 15929/16950 [2:52:38<09:33,  1.78it/s]Training 3/3 epoch (loss 0.4286):  94%|█████████▍| 15929/16950 [2:52:39<09:33,  1.78it/s]Training 3/3 epoch (loss 0.4286):  94%|█████████▍| 15930/16950 [2:52:39<10:33,  1.61it/s]Training 3/3 epoch (loss 0.0382):  94%|█████████▍| 15930/16950 [2:52:39<10:33,  1.61it/s]Training 3/3 epoch (loss 0.0382):  94%|█████████▍| 15931/16950 [2:52:39<10:46,  1.58it/s]Training 3/3 epoch (loss 0.0063):  94%|█████████▍| 15931/16950 [2:52:40<10:46,  1.58it/s]Training 3/3 epoch (loss 0.0063):  94%|█████████▍| 15932/16950 [2:52:40<10:37,  1.60it/s]Training 3/3 epoch (loss 0.0021):  94%|█████████▍| 15932/16950 [2:52:41<10:37,  1.60it/s]Training 3/3 epoch (loss 0.0021):  94%|█████████▍| 15933/16950 [2:52:41<10:39,  1.59it/s]Training 3/3 epoch (loss 0.0016):  94%|█████████▍| 15933/16950 [2:52:41<10:39,  1.59it/s]Training 3/3 epoch (loss 0.0016):  94%|█████████▍| 15934/16950 [2:52:41<10:47,  1.57it/s]Training 3/3 epoch (loss 0.0007):  94%|█████████▍| 15934/16950 [2:52:42<10:47,  1.57it/s]Training 3/3 epoch (loss 0.0007):  94%|█████████▍| 15935/16950 [2:52:42<09:48,  1.72it/s]Training 3/3 epoch (loss 0.1712):  94%|█████████▍| 15935/16950 [2:52:42<09:48,  1.72it/s]Training 3/3 epoch (loss 0.1712):  94%|█████████▍| 15936/16950 [2:52:42<09:13,  1.83it/s]Training 3/3 epoch (loss 0.0118):  94%|█████████▍| 15936/16950 [2:52:43<09:13,  1.83it/s]Training 3/3 epoch (loss 0.0118):  94%|█████████▍| 15937/16950 [2:52:43<09:13,  1.83it/s]Training 3/3 epoch (loss 0.1672):  94%|█████████▍| 15937/16950 [2:52:43<09:13,  1.83it/s]Training 3/3 epoch (loss 0.1672):  94%|█████████▍| 15938/16950 [2:52:43<08:44,  1.93it/s]Training 3/3 epoch (loss 0.0007):  94%|█████████▍| 15938/16950 [2:52:44<08:44,  1.93it/s]Training 3/3 epoch (loss 0.0007):  94%|█████████▍| 15939/16950 [2:52:44<07:59,  2.11it/s]Training 3/3 epoch (loss 0.0000):  94%|█████████▍| 15939/16950 [2:52:44<07:59,  2.11it/s]Training 3/3 epoch (loss 0.0000):  94%|█████████▍| 15940/16950 [2:52:44<07:49,  2.15it/s]Training 3/3 epoch (loss 0.0053):  94%|█████████▍| 15940/16950 [2:52:45<07:49,  2.15it/s]Training 3/3 epoch (loss 0.0053):  94%|█████████▍| 15941/16950 [2:52:45<07:51,  2.14it/s]Training 3/3 epoch (loss 0.2936):  94%|█████████▍| 15941/16950 [2:52:45<07:51,  2.14it/s]Training 3/3 epoch (loss 0.2936):  94%|█████████▍| 15942/16950 [2:52:45<07:34,  2.22it/s]Training 3/3 epoch (loss 0.0395):  94%|█████████▍| 15942/16950 [2:52:46<07:34,  2.22it/s]Training 3/3 epoch (loss 0.0395):  94%|█████████▍| 15943/16950 [2:52:46<07:56,  2.11it/s]Training 3/3 epoch (loss 0.0880):  94%|█████████▍| 15943/16950 [2:52:46<07:56,  2.11it/s]Training 3/3 epoch (loss 0.0880):  94%|█████████▍| 15944/16950 [2:52:46<07:41,  2.18it/s]Training 3/3 epoch (loss 0.0064):  94%|█████████▍| 15944/16950 [2:52:47<07:41,  2.18it/s]Training 3/3 epoch (loss 0.0064):  94%|█████████▍| 15945/16950 [2:52:47<08:11,  2.04it/s]Training 3/3 epoch (loss 0.0349):  94%|█████████▍| 15945/16950 [2:52:47<08:11,  2.04it/s]Training 3/3 epoch (loss 0.0349):  94%|█████████▍| 15946/16950 [2:52:47<10:07,  1.65it/s]Training 3/3 epoch (loss 0.5782):  94%|█████████▍| 15946/16950 [2:52:48<10:07,  1.65it/s]Training 3/3 epoch (loss 0.5782):  94%|█████████▍| 15947/16950 [2:52:48<10:37,  1.57it/s]Training 3/3 epoch (loss 0.0191):  94%|█████████▍| 15947/16950 [2:52:49<10:37,  1.57it/s]Training 3/3 epoch (loss 0.0191):  94%|█████████▍| 15948/16950 [2:52:49<10:24,  1.60it/s]Training 3/3 epoch (loss 0.0085):  94%|█████████▍| 15948/16950 [2:52:50<10:24,  1.60it/s]Training 3/3 epoch (loss 0.0085):  94%|█████████▍| 15949/16950 [2:52:50<11:37,  1.44it/s]Training 3/3 epoch (loss 0.0002):  94%|█████████▍| 15949/16950 [2:52:50<11:37,  1.44it/s]Training 3/3 epoch (loss 0.0002):  94%|█████████▍| 15950/16950 [2:52:50<11:03,  1.51it/s]Training 3/3 epoch (loss 0.0321):  94%|█████████▍| 15950/16950 [2:52:51<11:03,  1.51it/s]Training 3/3 epoch (loss 0.0321):  94%|█████████▍| 15951/16950 [2:52:51<11:29,  1.45it/s]Training 3/3 epoch (loss 0.0077):  94%|█████████▍| 15951/16950 [2:52:52<11:29,  1.45it/s]Training 3/3 epoch (loss 0.0077):  94%|█████████▍| 15952/16950 [2:52:52<11:10,  1.49it/s]Training 3/3 epoch (loss 0.0036):  94%|█████████▍| 15952/16950 [2:52:52<11:10,  1.49it/s]Training 3/3 epoch (loss 0.0036):  94%|█████████▍| 15953/16950 [2:52:52<10:15,  1.62it/s]Training 3/3 epoch (loss 0.0277):  94%|█████████▍| 15953/16950 [2:52:53<10:15,  1.62it/s]Training 3/3 epoch (loss 0.0277):  94%|█████████▍| 15954/16950 [2:52:53<10:21,  1.60it/s]Training 3/3 epoch (loss 0.0074):  94%|█████████▍| 15954/16950 [2:52:53<10:21,  1.60it/s]Training 3/3 epoch (loss 0.0074):  94%|█████████▍| 15955/16950 [2:52:53<09:36,  1.73it/s]Training 3/3 epoch (loss 0.2705):  94%|█████████▍| 15955/16950 [2:52:54<09:36,  1.73it/s]Training 3/3 epoch (loss 0.2705):  94%|█████████▍| 15956/16950 [2:52:54<09:58,  1.66it/s]Training 3/3 epoch (loss 0.0009):  94%|█████████▍| 15956/16950 [2:52:54<09:58,  1.66it/s]Training 3/3 epoch (loss 0.0009):  94%|█████████▍| 15957/16950 [2:52:54<09:35,  1.72it/s]Training 3/3 epoch (loss 0.0116):  94%|█████████▍| 15957/16950 [2:52:55<09:35,  1.72it/s]Training 3/3 epoch (loss 0.0116):  94%|█████████▍| 15958/16950 [2:52:55<09:09,  1.80it/s]Training 3/3 epoch (loss 0.0001):  94%|█████████▍| 15958/16950 [2:52:55<09:09,  1.80it/s]Training 3/3 epoch (loss 0.0001):  94%|█████████▍| 15959/16950 [2:52:55<08:39,  1.91it/s]Training 3/3 epoch (loss 0.0013):  94%|█████████▍| 15959/16950 [2:52:56<08:39,  1.91it/s]Training 3/3 epoch (loss 0.0013):  94%|█████████▍| 15960/16950 [2:52:56<07:59,  2.07it/s]Training 3/3 epoch (loss 0.3498):  94%|█████████▍| 15960/16950 [2:52:56<07:59,  2.07it/s]Training 3/3 epoch (loss 0.3498):  94%|█████████▍| 15961/16950 [2:52:56<09:42,  1.70it/s]Training 3/3 epoch (loss 0.1669):  94%|█████████▍| 15961/16950 [2:52:57<09:42,  1.70it/s]Training 3/3 epoch (loss 0.1669):  94%|█████████▍| 15962/16950 [2:52:57<10:43,  1.54it/s]Training 3/3 epoch (loss 0.2746):  94%|█████████▍| 15962/16950 [2:52:58<10:43,  1.54it/s]Training 3/3 epoch (loss 0.2746):  94%|█████████▍| 15963/16950 [2:52:58<10:58,  1.50it/s]Training 3/3 epoch (loss 0.0616):  94%|█████████▍| 15963/16950 [2:52:59<10:58,  1.50it/s]Training 3/3 epoch (loss 0.0616):  94%|█████████▍| 15964/16950 [2:52:59<10:37,  1.55it/s]Training 3/3 epoch (loss 0.0509):  94%|█████████▍| 15964/16950 [2:52:59<10:37,  1.55it/s]Training 3/3 epoch (loss 0.0509):  94%|█████████▍| 15965/16950 [2:52:59<10:24,  1.58it/s]Training 3/3 epoch (loss 0.0311):  94%|█████████▍| 15965/16950 [2:53:00<10:24,  1.58it/s]Training 3/3 epoch (loss 0.0311):  94%|█████████▍| 15966/16950 [2:53:00<10:47,  1.52it/s]Training 3/3 epoch (loss 0.3060):  94%|█████████▍| 15966/16950 [2:53:01<10:47,  1.52it/s]Training 3/3 epoch (loss 0.3060):  94%|█████████▍| 15967/16950 [2:53:01<11:04,  1.48it/s]Training 3/3 epoch (loss 0.0006):  94%|█████████▍| 15967/16950 [2:53:01<11:04,  1.48it/s]Training 3/3 epoch (loss 0.0006):  94%|█████████▍| 15968/16950 [2:53:01<09:59,  1.64it/s]Training 3/3 epoch (loss 0.0007):  94%|█████████▍| 15968/16950 [2:53:02<09:59,  1.64it/s]Training 3/3 epoch (loss 0.0007):  94%|█████████▍| 15969/16950 [2:53:02<10:23,  1.57it/s]Training 3/3 epoch (loss 0.0010):  94%|█████████▍| 15969/16950 [2:53:02<10:23,  1.57it/s]Training 3/3 epoch (loss 0.0010):  94%|█████████▍| 15970/16950 [2:53:02<10:48,  1.51it/s]Training 3/3 epoch (loss 0.0001):  94%|█████████▍| 15970/16950 [2:53:03<10:48,  1.51it/s]Training 3/3 epoch (loss 0.0001):  94%|█████████▍| 15971/16950 [2:53:03<09:47,  1.67it/s]Training 3/3 epoch (loss 0.3749):  94%|█████████▍| 15971/16950 [2:53:04<09:47,  1.67it/s]Training 3/3 epoch (loss 0.3749):  94%|█████████▍| 15972/16950 [2:53:04<09:44,  1.67it/s]Training 3/3 epoch (loss 0.0181):  94%|█████████▍| 15972/16950 [2:53:04<09:44,  1.67it/s]Training 3/3 epoch (loss 0.0181):  94%|█████████▍| 15973/16950 [2:53:04<09:51,  1.65it/s]Training 3/3 epoch (loss 0.0184):  94%|█████████▍| 15973/16950 [2:53:05<09:51,  1.65it/s]Training 3/3 epoch (loss 0.0184):  94%|█████████▍| 15974/16950 [2:53:05<10:51,  1.50it/s]Training 3/3 epoch (loss 0.3174):  94%|█████████▍| 15974/16950 [2:53:06<10:51,  1.50it/s]Training 3/3 epoch (loss 0.3174):  94%|█████████▍| 15975/16950 [2:53:06<12:46,  1.27it/s]Training 3/3 epoch (loss 0.1693):  94%|█████████▍| 15975/16950 [2:53:06<12:46,  1.27it/s]Training 3/3 epoch (loss 0.1693):  94%|█████████▍| 15976/16950 [2:53:06<11:05,  1.46it/s]Training 3/3 epoch (loss 0.0352):  94%|█████████▍| 15976/16950 [2:53:07<11:05,  1.46it/s]Training 3/3 epoch (loss 0.0352):  94%|█████████▍| 15977/16950 [2:53:07<11:55,  1.36it/s]Training 3/3 epoch (loss 0.0914):  94%|█████████▍| 15977/16950 [2:53:08<11:55,  1.36it/s]Training 3/3 epoch (loss 0.0914):  94%|█████████▍| 15978/16950 [2:53:08<11:27,  1.41it/s]Training 3/3 epoch (loss 0.0015):  94%|█████████▍| 15978/16950 [2:53:09<11:27,  1.41it/s]Training 3/3 epoch (loss 0.0015):  94%|█████████▍| 15979/16950 [2:53:09<10:49,  1.49it/s]Training 3/3 epoch (loss 0.1720):  94%|█████████▍| 15979/16950 [2:53:09<10:49,  1.49it/s]Training 3/3 epoch (loss 0.1720):  94%|█████████▍| 15980/16950 [2:53:09<09:33,  1.69it/s]Training 3/3 epoch (loss 0.0034):  94%|█████████▍| 15980/16950 [2:53:09<09:33,  1.69it/s]Training 3/3 epoch (loss 0.0034):  94%|█████████▍| 15981/16950 [2:53:09<08:51,  1.82it/s]Training 3/3 epoch (loss 0.0024):  94%|█████████▍| 15981/16950 [2:53:10<08:51,  1.82it/s]Training 3/3 epoch (loss 0.0024):  94%|█████████▍| 15982/16950 [2:53:10<10:15,  1.57it/s]Training 3/3 epoch (loss 0.0177):  94%|█████████▍| 15982/16950 [2:53:11<10:15,  1.57it/s]Training 3/3 epoch (loss 0.0177):  94%|█████████▍| 15983/16950 [2:53:11<11:44,  1.37it/s]Training 3/3 epoch (loss 0.0137):  94%|█████████▍| 15983/16950 [2:53:12<11:44,  1.37it/s]Training 3/3 epoch (loss 0.0137):  94%|█████████▍| 15984/16950 [2:53:12<10:48,  1.49it/s]Training 3/3 epoch (loss 0.1257):  94%|█████████▍| 15984/16950 [2:53:12<10:48,  1.49it/s]Training 3/3 epoch (loss 0.1257):  94%|█████████▍| 15985/16950 [2:53:12<10:07,  1.59it/s]Training 3/3 epoch (loss 0.0770):  94%|█████████▍| 15985/16950 [2:53:13<10:07,  1.59it/s]Training 3/3 epoch (loss 0.0770):  94%|█████████▍| 15986/16950 [2:53:13<09:53,  1.63it/s]Training 3/3 epoch (loss 0.3564):  94%|█████████▍| 15986/16950 [2:53:14<09:53,  1.63it/s]Training 3/3 epoch (loss 0.3564):  94%|█████████▍| 15987/16950 [2:53:14<10:14,  1.57it/s]Training 3/3 epoch (loss 0.0000):  94%|█████████▍| 15987/16950 [2:53:14<10:14,  1.57it/s]Training 3/3 epoch (loss 0.0000):  94%|█████████▍| 15988/16950 [2:53:14<09:45,  1.64it/s]Training 3/3 epoch (loss 0.0201):  94%|█████████▍| 15988/16950 [2:53:15<09:45,  1.64it/s]Training 3/3 epoch (loss 0.0201):  94%|█████████▍| 15989/16950 [2:53:15<10:06,  1.58it/s]Training 3/3 epoch (loss 0.2994):  94%|█████████▍| 15989/16950 [2:53:16<10:06,  1.58it/s]Training 3/3 epoch (loss 0.2994):  94%|█████████▍| 15990/16950 [2:53:16<12:13,  1.31it/s]Training 3/3 epoch (loss 0.0693):  94%|█████████▍| 15990/16950 [2:53:16<12:13,  1.31it/s]Training 3/3 epoch (loss 0.0693):  94%|█████████▍| 15991/16950 [2:53:16<11:24,  1.40it/s]Training 3/3 epoch (loss 0.1183):  94%|█████████▍| 15991/16950 [2:53:17<11:24,  1.40it/s]Training 3/3 epoch (loss 0.1183):  94%|█████████▍| 15992/16950 [2:53:17<11:19,  1.41it/s]Training 3/3 epoch (loss 0.0117):  94%|█████████▍| 15992/16950 [2:53:18<11:19,  1.41it/s]Training 3/3 epoch (loss 0.0117):  94%|█████████▍| 15993/16950 [2:53:18<10:48,  1.47it/s]Training 3/3 epoch (loss 0.0232):  94%|█████████▍| 15993/16950 [2:53:18<10:48,  1.47it/s]Training 3/3 epoch (loss 0.0232):  94%|█████████▍| 15994/16950 [2:53:18<10:15,  1.55it/s]Training 3/3 epoch (loss 0.5852):  94%|█████████▍| 15994/16950 [2:53:19<10:15,  1.55it/s]Training 3/3 epoch (loss 0.5852):  94%|█████████▍| 15995/16950 [2:53:19<09:38,  1.65it/s]Training 3/3 epoch (loss 0.2673):  94%|█████████▍| 15995/16950 [2:53:19<09:38,  1.65it/s]Training 3/3 epoch (loss 0.2673):  94%|█████████▍| 15996/16950 [2:53:19<09:08,  1.74it/s]Training 3/3 epoch (loss 0.0026):  94%|█████████▍| 15996/16950 [2:53:20<09:08,  1.74it/s]Training 3/3 epoch (loss 0.0026):  94%|█████████▍| 15997/16950 [2:53:20<09:12,  1.72it/s]Training 3/3 epoch (loss 0.0352):  94%|█████████▍| 15997/16950 [2:53:21<09:12,  1.72it/s]Training 3/3 epoch (loss 0.0352):  94%|█████████▍| 15998/16950 [2:53:21<09:31,  1.66it/s]Training 3/3 epoch (loss 0.4544):  94%|█████████▍| 15998/16950 [2:53:22<09:31,  1.66it/s]Training 3/3 epoch (loss 0.4544):  94%|█████████▍| 15999/16950 [2:53:22<11:06,  1.43it/s]Training 3/3 epoch (loss 0.0040):  94%|█████████▍| 15999/16950 [2:53:22<11:06,  1.43it/s]Training 3/3 epoch (loss 0.0040):  94%|█████████▍| 16000/16950 [2:53:22<10:21,  1.53it/s]Training 3/3 epoch (loss 0.2868):  94%|█████████▍| 16000/16950 [2:53:22<10:21,  1.53it/s]Training 3/3 epoch (loss 0.2868):  94%|█████████▍| 16001/16950 [2:53:22<08:58,  1.76it/s]Training 3/3 epoch (loss 0.4815):  94%|█████████▍| 16001/16950 [2:53:23<08:58,  1.76it/s]Training 3/3 epoch (loss 0.4815):  94%|█████████▍| 16002/16950 [2:53:23<09:06,  1.74it/s]Training 3/3 epoch (loss 0.6038):  94%|█████████▍| 16002/16950 [2:53:24<09:06,  1.74it/s]Training 3/3 epoch (loss 0.6038):  94%|█████████▍| 16003/16950 [2:53:24<11:55,  1.32it/s]Training 3/3 epoch (loss 0.0060):  94%|█████████▍| 16003/16950 [2:53:25<11:55,  1.32it/s]Training 3/3 epoch (loss 0.0060):  94%|█████████▍| 16004/16950 [2:53:25<11:02,  1.43it/s]Training 3/3 epoch (loss 0.0089):  94%|█████████▍| 16004/16950 [2:53:25<11:02,  1.43it/s]Training 3/3 epoch (loss 0.0089):  94%|█████████▍| 16005/16950 [2:53:25<10:37,  1.48it/s]Training 3/3 epoch (loss 0.0003):  94%|█████████▍| 16005/16950 [2:53:26<10:37,  1.48it/s]Training 3/3 epoch (loss 0.0003):  94%|█████████▍| 16006/16950 [2:53:26<09:38,  1.63it/s]Training 3/3 epoch (loss 0.1414):  94%|█████████▍| 16006/16950 [2:53:26<09:38,  1.63it/s]Training 3/3 epoch (loss 0.1414):  94%|█████████▍| 16007/16950 [2:53:26<09:18,  1.69it/s]Training 3/3 epoch (loss 0.2670):  94%|█████████▍| 16007/16950 [2:53:27<09:18,  1.69it/s]Training 3/3 epoch (loss 0.2670):  94%|█████████▍| 16008/16950 [2:53:27<08:29,  1.85it/s]Training 3/3 epoch (loss 0.4009):  94%|█████████▍| 16008/16950 [2:53:28<08:29,  1.85it/s]Training 3/3 epoch (loss 0.4009):  94%|█████████▍| 16009/16950 [2:53:28<09:28,  1.65it/s]Training 3/3 epoch (loss 0.0147):  94%|█████████▍| 16009/16950 [2:53:28<09:28,  1.65it/s]Training 3/3 epoch (loss 0.0147):  94%|█████████▍| 16010/16950 [2:53:28<10:10,  1.54it/s]Training 3/3 epoch (loss 0.1388):  94%|█████████▍| 16010/16950 [2:53:29<10:10,  1.54it/s]Training 3/3 epoch (loss 0.1388):  94%|█████████▍| 16011/16950 [2:53:29<09:19,  1.68it/s]Training 3/3 epoch (loss 0.8972):  94%|█████████▍| 16011/16950 [2:53:30<09:19,  1.68it/s]Training 3/3 epoch (loss 0.8972):  94%|█████████▍| 16012/16950 [2:53:30<11:54,  1.31it/s]Training 3/3 epoch (loss 0.3387):  94%|█████████▍| 16012/16950 [2:53:31<11:54,  1.31it/s]Training 3/3 epoch (loss 0.3387):  94%|█████████▍| 16013/16950 [2:53:31<11:13,  1.39it/s]Training 3/3 epoch (loss 0.0267):  94%|█████████▍| 16013/16950 [2:53:31<11:13,  1.39it/s]Training 3/3 epoch (loss 0.0267):  94%|█████████▍| 16014/16950 [2:53:31<10:35,  1.47it/s]Training 3/3 epoch (loss 0.0386):  94%|█████████▍| 16014/16950 [2:53:32<10:35,  1.47it/s]Training 3/3 epoch (loss 0.0386):  94%|█████████▍| 16015/16950 [2:53:32<10:00,  1.56it/s]Training 3/3 epoch (loss 0.6447):  94%|█████████▍| 16015/16950 [2:53:32<10:00,  1.56it/s]Training 3/3 epoch (loss 0.6447):  94%|█████████▍| 16016/16950 [2:53:32<09:00,  1.73it/s]Training 3/3 epoch (loss 0.1427):  94%|█████████▍| 16016/16950 [2:53:33<09:00,  1.73it/s]Training 3/3 epoch (loss 0.1427):  94%|█████████▍| 16017/16950 [2:53:33<08:27,  1.84it/s]Training 3/3 epoch (loss 0.3425):  94%|█████████▍| 16017/16950 [2:53:33<08:27,  1.84it/s]Training 3/3 epoch (loss 0.3425):  95%|█████████▍| 16018/16950 [2:53:33<07:44,  2.01it/s]Training 3/3 epoch (loss 0.0108):  95%|█████████▍| 16018/16950 [2:53:33<07:44,  2.01it/s]Training 3/3 epoch (loss 0.0108):  95%|█████████▍| 16019/16950 [2:53:33<07:13,  2.15it/s]Training 3/3 epoch (loss 0.0046):  95%|█████████▍| 16019/16950 [2:53:34<07:13,  2.15it/s]Training 3/3 epoch (loss 0.0046):  95%|█████████▍| 16020/16950 [2:53:34<07:41,  2.01it/s]Training 3/3 epoch (loss 0.0895):  95%|█████████▍| 16020/16950 [2:53:34<07:41,  2.01it/s]Training 3/3 epoch (loss 0.0895):  95%|█████████▍| 16021/16950 [2:53:34<07:32,  2.05it/s]Training 3/3 epoch (loss 0.3024):  95%|█████████▍| 16021/16950 [2:53:35<07:32,  2.05it/s]Training 3/3 epoch (loss 0.3024):  95%|█████████▍| 16022/16950 [2:53:35<07:38,  2.02it/s]Training 3/3 epoch (loss 0.0438):  95%|█████████▍| 16022/16950 [2:53:35<07:38,  2.02it/s]Training 3/3 epoch (loss 0.0438):  95%|█████████▍| 16023/16950 [2:53:35<07:31,  2.05it/s]Training 3/3 epoch (loss 0.0261):  95%|█████████▍| 16023/16950 [2:53:36<07:31,  2.05it/s]Training 3/3 epoch (loss 0.0261):  95%|█████████▍| 16024/16950 [2:53:36<08:26,  1.83it/s]Training 3/3 epoch (loss 0.0132):  95%|█████████▍| 16024/16950 [2:53:37<08:26,  1.83it/s]Training 3/3 epoch (loss 0.0132):  95%|█████████▍| 16025/16950 [2:53:37<08:17,  1.86it/s]Training 3/3 epoch (loss 0.0037):  95%|█████████▍| 16025/16950 [2:53:37<08:17,  1.86it/s]Training 3/3 epoch (loss 0.0037):  95%|█████████▍| 16026/16950 [2:53:37<09:03,  1.70it/s]Training 3/3 epoch (loss 0.5428):  95%|█████████▍| 16026/16950 [2:53:38<09:03,  1.70it/s]Training 3/3 epoch (loss 0.5428):  95%|█████████▍| 16027/16950 [2:53:38<11:53,  1.29it/s]Training 3/3 epoch (loss 0.0189):  95%|█████████▍| 16027/16950 [2:53:39<11:53,  1.29it/s]Training 3/3 epoch (loss 0.0189):  95%|█████████▍| 16028/16950 [2:53:39<11:08,  1.38it/s]Training 3/3 epoch (loss 0.0004):  95%|█████████▍| 16028/16950 [2:53:40<11:08,  1.38it/s]Training 3/3 epoch (loss 0.0004):  95%|█████████▍| 16029/16950 [2:53:40<09:53,  1.55it/s]Training 3/3 epoch (loss 0.4422):  95%|█████████▍| 16029/16950 [2:53:40<09:53,  1.55it/s]Training 3/3 epoch (loss 0.4422):  95%|█████████▍| 16030/16950 [2:53:40<08:56,  1.71it/s]Training 3/3 epoch (loss 0.0072):  95%|█████████▍| 16030/16950 [2:53:40<08:56,  1.71it/s]Training 3/3 epoch (loss 0.0072):  95%|█████████▍| 16031/16950 [2:53:40<08:13,  1.86it/s]Training 3/3 epoch (loss 0.0000):  95%|█████████▍| 16031/16950 [2:53:41<08:13,  1.86it/s]Training 3/3 epoch (loss 0.0000):  95%|█████████▍| 16032/16950 [2:53:41<07:53,  1.94it/s]Training 3/3 epoch (loss 0.0461):  95%|█████████▍| 16032/16950 [2:53:42<07:53,  1.94it/s]Training 3/3 epoch (loss 0.0461):  95%|█████████▍| 16033/16950 [2:53:42<08:25,  1.82it/s]Training 3/3 epoch (loss 0.0028):  95%|█████████▍| 16033/16950 [2:53:42<08:25,  1.82it/s]Training 3/3 epoch (loss 0.0028):  95%|█████████▍| 16034/16950 [2:53:42<08:33,  1.78it/s]Training 3/3 epoch (loss 0.0094):  95%|█████████▍| 16034/16950 [2:53:43<08:33,  1.78it/s]Training 3/3 epoch (loss 0.0094):  95%|█████████▍| 16035/16950 [2:53:43<08:21,  1.83it/s]Training 3/3 epoch (loss 0.0005):  95%|█████████▍| 16035/16950 [2:53:43<08:21,  1.83it/s]Training 3/3 epoch (loss 0.0005):  95%|█████████▍| 16036/16950 [2:53:43<08:41,  1.75it/s]Training 3/3 epoch (loss 0.0433):  95%|█████████▍| 16036/16950 [2:53:44<08:41,  1.75it/s]Training 3/3 epoch (loss 0.0433):  95%|█████████▍| 16037/16950 [2:53:44<08:16,  1.84it/s]Training 3/3 epoch (loss 0.0388):  95%|█████████▍| 16037/16950 [2:53:44<08:16,  1.84it/s]Training 3/3 epoch (loss 0.0388):  95%|█████████▍| 16038/16950 [2:53:44<08:15,  1.84it/s]Training 3/3 epoch (loss 0.0565):  95%|█████████▍| 16038/16950 [2:53:45<08:15,  1.84it/s]Training 3/3 epoch (loss 0.0565):  95%|█████████▍| 16039/16950 [2:53:45<08:56,  1.70it/s]Training 3/3 epoch (loss 0.0088):  95%|█████████▍| 16039/16950 [2:53:45<08:56,  1.70it/s]Training 3/3 epoch (loss 0.0088):  95%|█████████▍| 16040/16950 [2:53:45<08:24,  1.80it/s]Training 3/3 epoch (loss 0.0050):  95%|█████████▍| 16040/16950 [2:53:46<08:24,  1.80it/s]Training 3/3 epoch (loss 0.0050):  95%|█████████▍| 16041/16950 [2:53:46<07:45,  1.95it/s]Training 3/3 epoch (loss 0.0516):  95%|█████████▍| 16041/16950 [2:53:46<07:45,  1.95it/s]Training 3/3 epoch (loss 0.0516):  95%|█████████▍| 16042/16950 [2:53:46<08:15,  1.83it/s]Training 3/3 epoch (loss 0.0003):  95%|█████████▍| 16042/16950 [2:53:47<08:15,  1.83it/s]Training 3/3 epoch (loss 0.0003):  95%|█████████▍| 16043/16950 [2:53:47<07:43,  1.96it/s]Training 3/3 epoch (loss 0.0067):  95%|█████████▍| 16043/16950 [2:53:47<07:43,  1.96it/s]Training 3/3 epoch (loss 0.0067):  95%|█████████▍| 16044/16950 [2:53:47<07:53,  1.91it/s]Training 3/3 epoch (loss 0.3443):  95%|█████████▍| 16044/16950 [2:53:48<07:53,  1.91it/s]Training 3/3 epoch (loss 0.3443):  95%|█████████▍| 16045/16950 [2:53:48<08:47,  1.71it/s]Training 3/3 epoch (loss 0.5131):  95%|█████████▍| 16045/16950 [2:53:49<08:47,  1.71it/s]Training 3/3 epoch (loss 0.5131):  95%|█████████▍| 16046/16950 [2:53:49<08:04,  1.87it/s]Training 3/3 epoch (loss 0.0427):  95%|█████████▍| 16046/16950 [2:53:49<08:04,  1.87it/s]Training 3/3 epoch (loss 0.0427):  95%|█████████▍| 16047/16950 [2:53:49<08:18,  1.81it/s]Training 3/3 epoch (loss 0.0046):  95%|█████████▍| 16047/16950 [2:53:50<08:18,  1.81it/s]Training 3/3 epoch (loss 0.0046):  95%|█████████▍| 16048/16950 [2:53:50<09:37,  1.56it/s]Training 3/3 epoch (loss 0.3474):  95%|█████████▍| 16048/16950 [2:53:51<09:37,  1.56it/s]Training 3/3 epoch (loss 0.3474):  95%|█████████▍| 16049/16950 [2:53:51<09:24,  1.60it/s]Training 3/3 epoch (loss 0.0462):  95%|█████████▍| 16049/16950 [2:53:51<09:24,  1.60it/s]Training 3/3 epoch (loss 0.0462):  95%|█████████▍| 16050/16950 [2:53:51<09:29,  1.58it/s]Training 3/3 epoch (loss 0.1528):  95%|█████████▍| 16050/16950 [2:53:52<09:29,  1.58it/s]Training 3/3 epoch (loss 0.1528):  95%|█████████▍| 16051/16950 [2:53:52<08:44,  1.71it/s]Training 3/3 epoch (loss 0.0033):  95%|█████████▍| 16051/16950 [2:53:52<08:44,  1.71it/s]Training 3/3 epoch (loss 0.0033):  95%|█████████▍| 16052/16950 [2:53:52<07:54,  1.89it/s]Training 3/3 epoch (loss 0.0028):  95%|█████████▍| 16052/16950 [2:53:53<07:54,  1.89it/s]Training 3/3 epoch (loss 0.0028):  95%|█████████▍| 16053/16950 [2:53:53<08:28,  1.76it/s]Training 3/3 epoch (loss 0.1578):  95%|█████████▍| 16053/16950 [2:53:53<08:28,  1.76it/s]Training 3/3 epoch (loss 0.1578):  95%|█████████▍| 16054/16950 [2:53:53<08:29,  1.76it/s]Training 3/3 epoch (loss 0.0029):  95%|█████████▍| 16054/16950 [2:53:54<08:29,  1.76it/s]Training 3/3 epoch (loss 0.0029):  95%|█████████▍| 16055/16950 [2:53:54<08:40,  1.72it/s]Training 3/3 epoch (loss 0.1643):  95%|█████████▍| 16055/16950 [2:53:55<08:40,  1.72it/s]Training 3/3 epoch (loss 0.1643):  95%|█████████▍| 16056/16950 [2:53:55<08:27,  1.76it/s]Training 3/3 epoch (loss 0.0150):  95%|█████████▍| 16056/16950 [2:53:55<08:27,  1.76it/s]Training 3/3 epoch (loss 0.0150):  95%|█████████▍| 16057/16950 [2:53:55<09:39,  1.54it/s]Training 3/3 epoch (loss 0.1979):  95%|█████████▍| 16057/16950 [2:53:56<09:39,  1.54it/s]Training 3/3 epoch (loss 0.1979):  95%|█████████▍| 16058/16950 [2:53:56<08:43,  1.70it/s]Training 3/3 epoch (loss 0.2986):  95%|█████████▍| 16058/16950 [2:53:56<08:43,  1.70it/s]Training 3/3 epoch (loss 0.2986):  95%|█████████▍| 16059/16950 [2:53:56<08:23,  1.77it/s]Training 3/3 epoch (loss 0.0656):  95%|█████████▍| 16059/16950 [2:53:57<08:23,  1.77it/s]Training 3/3 epoch (loss 0.0656):  95%|█████████▍| 16060/16950 [2:53:57<08:24,  1.76it/s]Training 3/3 epoch (loss 0.0130):  95%|█████████▍| 16060/16950 [2:53:57<08:24,  1.76it/s]Training 3/3 epoch (loss 0.0130):  95%|█████████▍| 16061/16950 [2:53:57<08:21,  1.77it/s]Training 3/3 epoch (loss 0.0001):  95%|█████████▍| 16061/16950 [2:53:58<08:21,  1.77it/s]Training 3/3 epoch (loss 0.0001):  95%|█████████▍| 16062/16950 [2:53:58<08:34,  1.73it/s]Training 3/3 epoch (loss 0.0093):  95%|█████████▍| 16062/16950 [2:53:59<08:34,  1.73it/s]Training 3/3 epoch (loss 0.0093):  95%|█████████▍| 16063/16950 [2:53:59<08:47,  1.68it/s]Training 3/3 epoch (loss 0.3966):  95%|█████████▍| 16063/16950 [2:54:00<08:47,  1.68it/s]Training 3/3 epoch (loss 0.3966):  95%|█████████▍| 16064/16950 [2:54:00<11:05,  1.33it/s]Training 3/3 epoch (loss 0.0516):  95%|█████████▍| 16064/16950 [2:54:00<11:05,  1.33it/s]Training 3/3 epoch (loss 0.0516):  95%|█████████▍| 16065/16950 [2:54:00<10:40,  1.38it/s]Training 3/3 epoch (loss 0.3694):  95%|█████████▍| 16065/16950 [2:54:01<10:40,  1.38it/s]Training 3/3 epoch (loss 0.3694):  95%|█████████▍| 16066/16950 [2:54:01<11:21,  1.30it/s]Training 3/3 epoch (loss 0.4206):  95%|█████████▍| 16066/16950 [2:54:02<11:21,  1.30it/s]Training 3/3 epoch (loss 0.4206):  95%|█████████▍| 16067/16950 [2:54:02<10:33,  1.39it/s]Training 3/3 epoch (loss 0.0124):  95%|█████████▍| 16067/16950 [2:54:03<10:33,  1.39it/s]Training 3/3 epoch (loss 0.0124):  95%|█████████▍| 16068/16950 [2:54:03<09:50,  1.49it/s]Training 3/3 epoch (loss 0.4579):  95%|█████████▍| 16068/16950 [2:54:03<09:50,  1.49it/s]Training 3/3 epoch (loss 0.4579):  95%|█████████▍| 16069/16950 [2:54:03<08:51,  1.66it/s]Training 3/3 epoch (loss 0.5667):  95%|█████████▍| 16069/16950 [2:54:04<08:51,  1.66it/s]Training 3/3 epoch (loss 0.5667):  95%|█████████▍| 16070/16950 [2:54:04<09:55,  1.48it/s]Training 3/3 epoch (loss 0.0017):  95%|█████████▍| 16070/16950 [2:54:05<09:55,  1.48it/s]Training 3/3 epoch (loss 0.0017):  95%|█████████▍| 16071/16950 [2:54:05<09:58,  1.47it/s]Training 3/3 epoch (loss 0.2258):  95%|█████████▍| 16071/16950 [2:54:05<09:58,  1.47it/s]Training 3/3 epoch (loss 0.2258):  95%|█████████▍| 16072/16950 [2:54:05<09:46,  1.50it/s]Training 3/3 epoch (loss 0.0004):  95%|█████████▍| 16072/16950 [2:54:06<09:46,  1.50it/s]Training 3/3 epoch (loss 0.0004):  95%|█████████▍| 16073/16950 [2:54:06<08:41,  1.68it/s]Training 3/3 epoch (loss 0.0130):  95%|█████████▍| 16073/16950 [2:54:06<08:41,  1.68it/s]Training 3/3 epoch (loss 0.0130):  95%|█████████▍| 16074/16950 [2:54:06<09:53,  1.48it/s]Training 3/3 epoch (loss 0.0021):  95%|█████████▍| 16074/16950 [2:54:07<09:53,  1.48it/s]Training 3/3 epoch (loss 0.0021):  95%|█████████▍| 16075/16950 [2:54:07<09:06,  1.60it/s]Training 3/3 epoch (loss 0.5091):  95%|█████████▍| 16075/16950 [2:54:07<09:06,  1.60it/s]Training 3/3 epoch (loss 0.5091):  95%|█████████▍| 16076/16950 [2:54:07<07:59,  1.82it/s]Training 3/3 epoch (loss 0.4416):  95%|█████████▍| 16076/16950 [2:54:08<07:59,  1.82it/s]Training 3/3 epoch (loss 0.4416):  95%|█████████▍| 16077/16950 [2:54:08<07:59,  1.82it/s]Training 3/3 epoch (loss 0.0011):  95%|█████████▍| 16077/16950 [2:54:09<07:59,  1.82it/s]Training 3/3 epoch (loss 0.0011):  95%|█████████▍| 16078/16950 [2:54:09<08:27,  1.72it/s]Training 3/3 epoch (loss 0.1207):  95%|█████████▍| 16078/16950 [2:54:09<08:27,  1.72it/s]Training 3/3 epoch (loss 0.1207):  95%|█████████▍| 16079/16950 [2:54:09<08:44,  1.66it/s]Training 3/3 epoch (loss 0.0270):  95%|█████████▍| 16079/16950 [2:54:10<08:44,  1.66it/s]Training 3/3 epoch (loss 0.0270):  95%|█████████▍| 16080/16950 [2:54:10<10:23,  1.40it/s]Training 3/3 epoch (loss 0.0135):  95%|█████████▍| 16080/16950 [2:54:11<10:23,  1.40it/s]Training 3/3 epoch (loss 0.0135):  95%|█████████▍| 16081/16950 [2:54:11<11:42,  1.24it/s]Training 3/3 epoch (loss 0.1184):  95%|█████████▍| 16081/16950 [2:54:12<11:42,  1.24it/s]Training 3/3 epoch (loss 0.1184):  95%|█████████▍| 16082/16950 [2:54:12<10:34,  1.37it/s]Training 3/3 epoch (loss 0.3359):  95%|█████████▍| 16082/16950 [2:54:12<10:34,  1.37it/s]Training 3/3 epoch (loss 0.3359):  95%|█████████▍| 16083/16950 [2:54:12<09:29,  1.52it/s]Training 3/3 epoch (loss 0.0135):  95%|█████████▍| 16083/16950 [2:54:13<09:29,  1.52it/s]Training 3/3 epoch (loss 0.0135):  95%|█████████▍| 16084/16950 [2:54:13<08:32,  1.69it/s]Training 3/3 epoch (loss 0.0004):  95%|█████████▍| 16084/16950 [2:54:13<08:32,  1.69it/s]Training 3/3 epoch (loss 0.0004):  95%|█████████▍| 16085/16950 [2:54:13<08:08,  1.77it/s]Training 3/3 epoch (loss 0.0002):  95%|█████████▍| 16085/16950 [2:54:14<08:08,  1.77it/s]Training 3/3 epoch (loss 0.0002):  95%|█████████▍| 16086/16950 [2:54:14<07:28,  1.93it/s]Training 3/3 epoch (loss 0.0301):  95%|█████████▍| 16086/16950 [2:54:14<07:28,  1.93it/s]Training 3/3 epoch (loss 0.0301):  95%|█████████▍| 16087/16950 [2:54:14<08:41,  1.66it/s]Training 3/3 epoch (loss 0.0009):  95%|█████████▍| 16087/16950 [2:54:15<08:41,  1.66it/s]Training 3/3 epoch (loss 0.0009):  95%|█████████▍| 16088/16950 [2:54:15<08:15,  1.74it/s]Training 3/3 epoch (loss 0.0111):  95%|█████████▍| 16088/16950 [2:54:16<08:15,  1.74it/s]Training 3/3 epoch (loss 0.0111):  95%|█████████▍| 16089/16950 [2:54:16<09:25,  1.52it/s]Training 3/3 epoch (loss 0.0336):  95%|█████████▍| 16089/16950 [2:54:17<09:25,  1.52it/s]Training 3/3 epoch (loss 0.0336):  95%|█████████▍| 16090/16950 [2:54:17<11:40,  1.23it/s]Training 3/3 epoch (loss 0.0197):  95%|█████████▍| 16090/16950 [2:54:17<11:40,  1.23it/s]Training 3/3 epoch (loss 0.0197):  95%|█████████▍| 16091/16950 [2:54:17<10:30,  1.36it/s]Training 3/3 epoch (loss 0.3257):  95%|█████████▍| 16091/16950 [2:54:18<10:30,  1.36it/s]Training 3/3 epoch (loss 0.3257):  95%|█████████▍| 16092/16950 [2:54:18<09:11,  1.56it/s]Training 3/3 epoch (loss 0.0003):  95%|█████████▍| 16092/16950 [2:54:18<09:11,  1.56it/s]Training 3/3 epoch (loss 0.0003):  95%|█████████▍| 16093/16950 [2:54:18<08:39,  1.65it/s]Training 3/3 epoch (loss 0.2369):  95%|█████████▍| 16093/16950 [2:54:19<08:39,  1.65it/s]Training 3/3 epoch (loss 0.2369):  95%|█████████▍| 16094/16950 [2:54:19<09:48,  1.45it/s]Training 3/3 epoch (loss 0.0022):  95%|█████████▍| 16094/16950 [2:54:20<09:48,  1.45it/s]Training 3/3 epoch (loss 0.0022):  95%|█████████▍| 16095/16950 [2:54:20<09:33,  1.49it/s]Training 3/3 epoch (loss 0.0126):  95%|█████████▍| 16095/16950 [2:54:21<09:33,  1.49it/s]Training 3/3 epoch (loss 0.0126):  95%|█████████▍| 16096/16950 [2:54:21<09:14,  1.54it/s]Training 3/3 epoch (loss 0.2713):  95%|█████████▍| 16096/16950 [2:54:21<09:14,  1.54it/s]Training 3/3 epoch (loss 0.2713):  95%|█████████▍| 16097/16950 [2:54:21<10:24,  1.37it/s]Training 3/3 epoch (loss 0.0130):  95%|█████████▍| 16097/16950 [2:54:22<10:24,  1.37it/s]Training 3/3 epoch (loss 0.0130):  95%|█████████▍| 16098/16950 [2:54:22<10:34,  1.34it/s]Training 3/3 epoch (loss 0.0540):  95%|█████████▍| 16098/16950 [2:54:23<10:34,  1.34it/s]Training 3/3 epoch (loss 0.0540):  95%|█████████▍| 16099/16950 [2:54:23<10:10,  1.39it/s]Training 3/3 epoch (loss 0.3572):  95%|█████████▍| 16099/16950 [2:54:23<10:10,  1.39it/s]Training 3/3 epoch (loss 0.3572):  95%|█████████▍| 16100/16950 [2:54:23<09:17,  1.52it/s]Training 3/3 epoch (loss 0.0006):  95%|█████████▍| 16100/16950 [2:54:24<09:17,  1.52it/s]Training 3/3 epoch (loss 0.0006):  95%|█████████▍| 16101/16950 [2:54:24<10:14,  1.38it/s]Training 3/3 epoch (loss 0.0043):  95%|█████████▍| 16101/16950 [2:54:25<10:14,  1.38it/s]Training 3/3 epoch (loss 0.0043):  95%|█████████▍| 16102/16950 [2:54:25<09:01,  1.57it/s]Training 3/3 epoch (loss 0.0003):  95%|█████████▍| 16102/16950 [2:54:25<09:01,  1.57it/s]Training 3/3 epoch (loss 0.0003):  95%|█████████▌| 16103/16950 [2:54:25<07:59,  1.77it/s]Training 3/3 epoch (loss 0.0036):  95%|█████████▌| 16103/16950 [2:54:26<07:59,  1.77it/s]Training 3/3 epoch (loss 0.0036):  95%|█████████▌| 16104/16950 [2:54:26<08:01,  1.76it/s]Training 3/3 epoch (loss 0.5507):  95%|█████████▌| 16104/16950 [2:54:27<08:01,  1.76it/s]Training 3/3 epoch (loss 0.5507):  95%|█████████▌| 16105/16950 [2:54:27<09:07,  1.54it/s]Training 3/3 epoch (loss 0.0010):  95%|█████████▌| 16105/16950 [2:54:27<09:07,  1.54it/s]Training 3/3 epoch (loss 0.0010):  95%|█████████▌| 16106/16950 [2:54:27<09:05,  1.55it/s]Training 3/3 epoch (loss 0.0087):  95%|█████████▌| 16106/16950 [2:54:28<09:05,  1.55it/s]Training 3/3 epoch (loss 0.0087):  95%|█████████▌| 16107/16950 [2:54:28<08:41,  1.62it/s]Training 3/3 epoch (loss 0.1748):  95%|█████████▌| 16107/16950 [2:54:28<08:41,  1.62it/s]Training 3/3 epoch (loss 0.1748):  95%|█████████▌| 16108/16950 [2:54:28<07:51,  1.79it/s]Training 3/3 epoch (loss 0.2344):  95%|█████████▌| 16108/16950 [2:54:29<07:51,  1.79it/s]Training 3/3 epoch (loss 0.2344):  95%|█████████▌| 16109/16950 [2:54:29<08:01,  1.75it/s]Training 3/3 epoch (loss 0.3002):  95%|█████████▌| 16109/16950 [2:54:29<08:01,  1.75it/s]Training 3/3 epoch (loss 0.3002):  95%|█████████▌| 16110/16950 [2:54:29<07:26,  1.88it/s]Training 3/3 epoch (loss 0.0194):  95%|█████████▌| 16110/16950 [2:54:30<07:26,  1.88it/s]Training 3/3 epoch (loss 0.0194):  95%|█████████▌| 16111/16950 [2:54:30<07:48,  1.79it/s]Training 3/3 epoch (loss 0.3037):  95%|█████████▌| 16111/16950 [2:54:30<07:48,  1.79it/s]Training 3/3 epoch (loss 0.3037):  95%|█████████▌| 16112/16950 [2:54:30<08:23,  1.66it/s]Training 3/3 epoch (loss 0.0000):  95%|█████████▌| 16112/16950 [2:54:31<08:23,  1.66it/s]Training 3/3 epoch (loss 0.0000):  95%|█████████▌| 16113/16950 [2:54:31<07:58,  1.75it/s]Training 3/3 epoch (loss 0.0006):  95%|█████████▌| 16113/16950 [2:54:31<07:58,  1.75it/s]Training 3/3 epoch (loss 0.0006):  95%|█████████▌| 16114/16950 [2:54:31<07:36,  1.83it/s]Training 3/3 epoch (loss 0.0001):  95%|█████████▌| 16114/16950 [2:54:32<07:36,  1.83it/s]Training 3/3 epoch (loss 0.0001):  95%|█████████▌| 16115/16950 [2:54:32<07:23,  1.88it/s]Training 3/3 epoch (loss 0.0123):  95%|█████████▌| 16115/16950 [2:54:33<07:23,  1.88it/s]Training 3/3 epoch (loss 0.0123):  95%|█████████▌| 16116/16950 [2:54:33<08:25,  1.65it/s]Training 3/3 epoch (loss 0.6521):  95%|█████████▌| 16116/16950 [2:54:33<08:25,  1.65it/s]Training 3/3 epoch (loss 0.6521):  95%|█████████▌| 16117/16950 [2:54:33<08:59,  1.54it/s]Training 3/3 epoch (loss 0.0003):  95%|█████████▌| 16117/16950 [2:54:34<08:59,  1.54it/s]Training 3/3 epoch (loss 0.0003):  95%|█████████▌| 16118/16950 [2:54:34<07:46,  1.79it/s]Training 3/3 epoch (loss 0.2055):  95%|█████████▌| 16118/16950 [2:54:34<07:46,  1.79it/s]Training 3/3 epoch (loss 0.2055):  95%|█████████▌| 16119/16950 [2:54:34<07:20,  1.89it/s]Training 3/3 epoch (loss 0.0227):  95%|█████████▌| 16119/16950 [2:54:35<07:20,  1.89it/s]Training 3/3 epoch (loss 0.0227):  95%|█████████▌| 16120/16950 [2:54:35<08:31,  1.62it/s]Training 3/3 epoch (loss 0.0001):  95%|█████████▌| 16120/16950 [2:54:36<08:31,  1.62it/s]Training 3/3 epoch (loss 0.0001):  95%|█████████▌| 16121/16950 [2:54:36<07:57,  1.74it/s]Training 3/3 epoch (loss 0.3996):  95%|█████████▌| 16121/16950 [2:54:36<07:57,  1.74it/s]Training 3/3 epoch (loss 0.3996):  95%|█████████▌| 16122/16950 [2:54:36<08:14,  1.68it/s]Training 3/3 epoch (loss 0.0745):  95%|█████████▌| 16122/16950 [2:54:37<08:14,  1.68it/s]Training 3/3 epoch (loss 0.0745):  95%|█████████▌| 16123/16950 [2:54:37<08:05,  1.70it/s]Training 3/3 epoch (loss 0.0002):  95%|█████████▌| 16123/16950 [2:54:37<08:05,  1.70it/s]Training 3/3 epoch (loss 0.0002):  95%|█████████▌| 16124/16950 [2:54:37<07:20,  1.87it/s]Training 3/3 epoch (loss 0.2841):  95%|█████████▌| 16124/16950 [2:54:38<07:20,  1.87it/s]Training 3/3 epoch (loss 0.2841):  95%|█████████▌| 16125/16950 [2:54:38<08:29,  1.62it/s]Training 3/3 epoch (loss 0.1840):  95%|█████████▌| 16125/16950 [2:54:39<08:29,  1.62it/s]Training 3/3 epoch (loss 0.1840):  95%|█████████▌| 16126/16950 [2:54:39<09:35,  1.43it/s]Training 3/3 epoch (loss 0.5331):  95%|█████████▌| 16126/16950 [2:54:40<09:35,  1.43it/s]Training 3/3 epoch (loss 0.5331):  95%|█████████▌| 16127/16950 [2:54:40<09:07,  1.50it/s]Training 3/3 epoch (loss 0.0576):  95%|█████████▌| 16127/16950 [2:54:40<09:07,  1.50it/s]Training 3/3 epoch (loss 0.0576):  95%|█████████▌| 16128/16950 [2:54:40<09:38,  1.42it/s]Training 3/3 epoch (loss 0.0006):  95%|█████████▌| 16128/16950 [2:54:41<09:38,  1.42it/s]Training 3/3 epoch (loss 0.0006):  95%|█████████▌| 16129/16950 [2:54:41<09:18,  1.47it/s]Training 3/3 epoch (loss 0.0010):  95%|█████████▌| 16129/16950 [2:54:42<09:18,  1.47it/s]Training 3/3 epoch (loss 0.0010):  95%|█████████▌| 16130/16950 [2:54:42<10:04,  1.36it/s]Training 3/3 epoch (loss 0.0353):  95%|█████████▌| 16130/16950 [2:54:42<10:04,  1.36it/s]Training 3/3 epoch (loss 0.0353):  95%|█████████▌| 16131/16950 [2:54:42<09:06,  1.50it/s]Training 3/3 epoch (loss 0.0002):  95%|█████████▌| 16131/16950 [2:54:43<09:06,  1.50it/s]Training 3/3 epoch (loss 0.0002):  95%|█████████▌| 16132/16950 [2:54:43<08:27,  1.61it/s]Training 3/3 epoch (loss 0.1617):  95%|█████████▌| 16132/16950 [2:54:43<08:27,  1.61it/s]Training 3/3 epoch (loss 0.1617):  95%|█████████▌| 16133/16950 [2:54:43<07:52,  1.73it/s]Training 3/3 epoch (loss 0.0263):  95%|█████████▌| 16133/16950 [2:54:44<07:52,  1.73it/s]Training 3/3 epoch (loss 0.0263):  95%|█████████▌| 16134/16950 [2:54:44<07:31,  1.81it/s]Training 3/3 epoch (loss 0.0054):  95%|█████████▌| 16134/16950 [2:54:44<07:31,  1.81it/s]Training 3/3 epoch (loss 0.0054):  95%|█████████▌| 16135/16950 [2:54:44<06:56,  1.95it/s]Training 3/3 epoch (loss 0.0240):  95%|█████████▌| 16135/16950 [2:54:45<06:56,  1.95it/s]Training 3/3 epoch (loss 0.0240):  95%|█████████▌| 16136/16950 [2:54:45<07:16,  1.86it/s]Training 3/3 epoch (loss 0.0001):  95%|█████████▌| 16136/16950 [2:54:45<07:16,  1.86it/s]Training 3/3 epoch (loss 0.0001):  95%|█████████▌| 16137/16950 [2:54:45<06:56,  1.95it/s]Training 3/3 epoch (loss 0.2305):  95%|█████████▌| 16137/16950 [2:54:46<06:56,  1.95it/s]Training 3/3 epoch (loss 0.2305):  95%|█████████▌| 16138/16950 [2:54:46<07:05,  1.91it/s]Training 3/3 epoch (loss 0.0069):  95%|█████████▌| 16138/16950 [2:54:46<07:05,  1.91it/s]Training 3/3 epoch (loss 0.0069):  95%|█████████▌| 16139/16950 [2:54:46<07:16,  1.86it/s]Training 3/3 epoch (loss 0.2390):  95%|█████████▌| 16139/16950 [2:54:47<07:16,  1.86it/s]Training 3/3 epoch (loss 0.2390):  95%|█████████▌| 16140/16950 [2:54:47<07:08,  1.89it/s]Training 3/3 epoch (loss 0.0719):  95%|█████████▌| 16140/16950 [2:54:47<07:08,  1.89it/s]Training 3/3 epoch (loss 0.0719):  95%|█████████▌| 16141/16950 [2:54:47<07:07,  1.89it/s]Training 3/3 epoch (loss 0.0515):  95%|█████████▌| 16141/16950 [2:54:48<07:07,  1.89it/s]Training 3/3 epoch (loss 0.0515):  95%|█████████▌| 16142/16950 [2:54:48<06:55,  1.95it/s]Training 3/3 epoch (loss 0.0727):  95%|█████████▌| 16142/16950 [2:54:48<06:55,  1.95it/s]Training 3/3 epoch (loss 0.0727):  95%|█████████▌| 16143/16950 [2:54:48<07:12,  1.87it/s]Training 3/3 epoch (loss 0.0108):  95%|█████████▌| 16143/16950 [2:54:49<07:12,  1.87it/s]Training 3/3 epoch (loss 0.0108):  95%|█████████▌| 16144/16950 [2:54:49<07:03,  1.90it/s]Training 3/3 epoch (loss 0.6308):  95%|█████████▌| 16144/16950 [2:54:49<07:03,  1.90it/s]Training 3/3 epoch (loss 0.6308):  95%|█████████▌| 16145/16950 [2:54:49<06:09,  2.18it/s]Training 3/3 epoch (loss 0.1096):  95%|█████████▌| 16145/16950 [2:54:50<06:09,  2.18it/s]Training 3/3 epoch (loss 0.1096):  95%|█████████▌| 16146/16950 [2:54:50<05:58,  2.24it/s]Training 3/3 epoch (loss 0.0076):  95%|█████████▌| 16146/16950 [2:54:50<05:58,  2.24it/s]Training 3/3 epoch (loss 0.0076):  95%|█████████▌| 16147/16950 [2:54:50<06:19,  2.12it/s]Training 3/3 epoch (loss 0.0189):  95%|█████████▌| 16147/16950 [2:54:51<06:19,  2.12it/s]Training 3/3 epoch (loss 0.0189):  95%|█████████▌| 16148/16950 [2:54:51<06:23,  2.09it/s]Training 3/3 epoch (loss 0.0037):  95%|█████████▌| 16148/16950 [2:54:51<06:23,  2.09it/s]Training 3/3 epoch (loss 0.0037):  95%|█████████▌| 16149/16950 [2:54:51<06:47,  1.97it/s]Training 3/3 epoch (loss 0.6962):  95%|█████████▌| 16149/16950 [2:54:52<06:47,  1.97it/s]Training 3/3 epoch (loss 0.6962):  95%|█████████▌| 16150/16950 [2:54:52<07:34,  1.76it/s]Training 3/3 epoch (loss 0.1991):  95%|█████████▌| 16150/16950 [2:54:52<07:34,  1.76it/s]Training 3/3 epoch (loss 0.1991):  95%|█████████▌| 16151/16950 [2:54:52<07:11,  1.85it/s]Training 3/3 epoch (loss 0.2156):  95%|█████████▌| 16151/16950 [2:54:53<07:11,  1.85it/s]Training 3/3 epoch (loss 0.2156):  95%|█████████▌| 16152/16950 [2:54:53<06:31,  2.04it/s]Training 3/3 epoch (loss 0.0100):  95%|█████████▌| 16152/16950 [2:54:53<06:31,  2.04it/s]Training 3/3 epoch (loss 0.0100):  95%|█████████▌| 16153/16950 [2:54:53<06:41,  1.98it/s]Training 3/3 epoch (loss 0.0066):  95%|█████████▌| 16153/16950 [2:54:54<06:41,  1.98it/s]Training 3/3 epoch (loss 0.0066):  95%|█████████▌| 16154/16950 [2:54:54<07:09,  1.85it/s]Training 3/3 epoch (loss 0.0218):  95%|█████████▌| 16154/16950 [2:54:55<07:09,  1.85it/s]Training 3/3 epoch (loss 0.0218):  95%|█████████▌| 16155/16950 [2:54:55<07:17,  1.82it/s]Training 3/3 epoch (loss 0.0285):  95%|█████████▌| 16155/16950 [2:54:55<07:17,  1.82it/s]Training 3/3 epoch (loss 0.0285):  95%|█████████▌| 16156/16950 [2:54:55<07:18,  1.81it/s]Training 3/3 epoch (loss 0.2138):  95%|█████████▌| 16156/16950 [2:54:56<07:18,  1.81it/s]Training 3/3 epoch (loss 0.2138):  95%|█████████▌| 16157/16950 [2:54:56<08:13,  1.61it/s]Training 3/3 epoch (loss 0.6767):  95%|█████████▌| 16157/16950 [2:54:56<08:13,  1.61it/s]Training 3/3 epoch (loss 0.6767):  95%|█████████▌| 16158/16950 [2:54:56<07:36,  1.73it/s]Training 3/3 epoch (loss 0.3414):  95%|█████████▌| 16158/16950 [2:54:57<07:36,  1.73it/s]Training 3/3 epoch (loss 0.3414):  95%|█████████▌| 16159/16950 [2:54:57<07:17,  1.81it/s]Training 3/3 epoch (loss 0.2135):  95%|█████████▌| 16159/16950 [2:54:58<07:17,  1.81it/s]Training 3/3 epoch (loss 0.2135):  95%|█████████▌| 16160/16950 [2:54:58<07:40,  1.72it/s]Training 3/3 epoch (loss 0.2542):  95%|█████████▌| 16160/16950 [2:54:58<07:40,  1.72it/s]Training 3/3 epoch (loss 0.2542):  95%|█████████▌| 16161/16950 [2:54:58<08:15,  1.59it/s]Training 3/3 epoch (loss 0.2824):  95%|█████████▌| 16161/16950 [2:54:59<08:15,  1.59it/s]Training 3/3 epoch (loss 0.2824):  95%|█████████▌| 16162/16950 [2:54:59<08:12,  1.60it/s]Training 3/3 epoch (loss 0.5484):  95%|█████████▌| 16162/16950 [2:55:00<08:12,  1.60it/s]Training 3/3 epoch (loss 0.5484):  95%|█████████▌| 16163/16950 [2:55:00<09:26,  1.39it/s]Training 3/3 epoch (loss 0.1467):  95%|█████████▌| 16163/16950 [2:55:00<09:26,  1.39it/s]Training 3/3 epoch (loss 0.1467):  95%|█████████▌| 16164/16950 [2:55:00<08:42,  1.50it/s]Training 3/3 epoch (loss 0.3188):  95%|█████████▌| 16164/16950 [2:55:01<08:42,  1.50it/s]Training 3/3 epoch (loss 0.3188):  95%|█████████▌| 16165/16950 [2:55:01<07:57,  1.64it/s]Training 3/3 epoch (loss 0.1495):  95%|█████████▌| 16165/16950 [2:55:01<07:57,  1.64it/s]Training 3/3 epoch (loss 0.1495):  95%|█████████▌| 16166/16950 [2:55:01<07:43,  1.69it/s]Training 3/3 epoch (loss 0.7012):  95%|█████████▌| 16166/16950 [2:55:02<07:43,  1.69it/s]Training 3/3 epoch (loss 0.7012):  95%|█████████▌| 16167/16950 [2:55:02<07:43,  1.69it/s]Training 3/3 epoch (loss 0.0195):  95%|█████████▌| 16167/16950 [2:55:03<07:43,  1.69it/s]Training 3/3 epoch (loss 0.0195):  95%|█████████▌| 16168/16950 [2:55:03<07:30,  1.73it/s]Training 3/3 epoch (loss 0.3911):  95%|█████████▌| 16168/16950 [2:55:04<07:30,  1.73it/s]Training 3/3 epoch (loss 0.3911):  95%|█████████▌| 16169/16950 [2:55:04<09:45,  1.33it/s]Training 3/3 epoch (loss 0.0203):  95%|█████████▌| 16169/16950 [2:55:04<09:45,  1.33it/s]Training 3/3 epoch (loss 0.0203):  95%|█████████▌| 16170/16950 [2:55:04<09:00,  1.44it/s]Training 3/3 epoch (loss 0.0009):  95%|█████████▌| 16170/16950 [2:55:05<09:00,  1.44it/s]Training 3/3 epoch (loss 0.0009):  95%|█████████▌| 16171/16950 [2:55:05<08:31,  1.52it/s]Training 3/3 epoch (loss 0.0009):  95%|█████████▌| 16171/16950 [2:55:05<08:31,  1.52it/s]Training 3/3 epoch (loss 0.0009):  95%|█████████▌| 16172/16950 [2:55:05<07:59,  1.62it/s]Training 3/3 epoch (loss 0.4021):  95%|█████████▌| 16172/16950 [2:55:06<07:59,  1.62it/s]Training 3/3 epoch (loss 0.4021):  95%|█████████▌| 16173/16950 [2:55:06<07:37,  1.70it/s]Training 3/3 epoch (loss 0.4372):  95%|█████████▌| 16173/16950 [2:55:06<07:37,  1.70it/s]Training 3/3 epoch (loss 0.4372):  95%|█████████▌| 16174/16950 [2:55:06<07:09,  1.81it/s]Training 3/3 epoch (loss 0.0091):  95%|█████████▌| 16174/16950 [2:55:07<07:09,  1.81it/s]Training 3/3 epoch (loss 0.0091):  95%|█████████▌| 16175/16950 [2:55:07<07:00,  1.84it/s]Training 3/3 epoch (loss 0.3281):  95%|█████████▌| 16175/16950 [2:55:07<07:00,  1.84it/s]Training 3/3 epoch (loss 0.3281):  95%|█████████▌| 16176/16950 [2:55:07<06:34,  1.96it/s]Training 3/3 epoch (loss 0.0001):  95%|█████████▌| 16176/16950 [2:55:08<06:34,  1.96it/s]Training 3/3 epoch (loss 0.0001):  95%|█████████▌| 16177/16950 [2:55:08<06:42,  1.92it/s]Training 3/3 epoch (loss 0.0005):  95%|█████████▌| 16177/16950 [2:55:08<06:42,  1.92it/s]Training 3/3 epoch (loss 0.0005):  95%|█████████▌| 16178/16950 [2:55:08<06:41,  1.92it/s]Training 3/3 epoch (loss 0.0103):  95%|█████████▌| 16178/16950 [2:55:09<06:41,  1.92it/s]Training 3/3 epoch (loss 0.0103):  95%|█████████▌| 16179/16950 [2:55:09<06:49,  1.88it/s]Training 3/3 epoch (loss 0.0009):  95%|█████████▌| 16179/16950 [2:55:09<06:49,  1.88it/s]Training 3/3 epoch (loss 0.0009):  95%|█████████▌| 16180/16950 [2:55:09<06:41,  1.92it/s]Training 3/3 epoch (loss 0.0270):  95%|█████████▌| 16180/16950 [2:55:10<06:41,  1.92it/s]Training 3/3 epoch (loss 0.0270):  95%|█████████▌| 16181/16950 [2:55:10<07:08,  1.79it/s]Training 3/3 epoch (loss 0.0478):  95%|█████████▌| 16181/16950 [2:55:11<07:08,  1.79it/s]Training 3/3 epoch (loss 0.0478):  95%|█████████▌| 16182/16950 [2:55:11<07:44,  1.65it/s]Training 3/3 epoch (loss 0.0004):  95%|█████████▌| 16182/16950 [2:55:11<07:44,  1.65it/s]Training 3/3 epoch (loss 0.0004):  95%|█████████▌| 16183/16950 [2:55:11<07:25,  1.72it/s]Training 3/3 epoch (loss 0.0124):  95%|█████████▌| 16183/16950 [2:55:12<07:25,  1.72it/s]Training 3/3 epoch (loss 0.0124):  95%|█████████▌| 16184/16950 [2:55:12<07:12,  1.77it/s]Training 3/3 epoch (loss 0.0046):  95%|█████████▌| 16184/16950 [2:55:12<07:12,  1.77it/s]Training 3/3 epoch (loss 0.0046):  95%|█████████▌| 16185/16950 [2:55:12<07:23,  1.73it/s]Training 3/3 epoch (loss 0.1285):  95%|█████████▌| 16185/16950 [2:55:13<07:23,  1.73it/s]Training 3/3 epoch (loss 0.1285):  95%|█████████▌| 16186/16950 [2:55:13<07:07,  1.79it/s]Training 3/3 epoch (loss 0.2148):  95%|█████████▌| 16186/16950 [2:55:13<07:07,  1.79it/s]Training 3/3 epoch (loss 0.2148):  95%|█████████▌| 16187/16950 [2:55:13<06:51,  1.85it/s]Training 3/3 epoch (loss 0.0368):  95%|█████████▌| 16187/16950 [2:55:14<06:51,  1.85it/s]Training 3/3 epoch (loss 0.0368):  96%|█████████▌| 16188/16950 [2:55:14<06:27,  1.97it/s]Training 3/3 epoch (loss 0.0068):  96%|█████████▌| 16188/16950 [2:55:14<06:27,  1.97it/s]Training 3/3 epoch (loss 0.0068):  96%|█████████▌| 16189/16950 [2:55:14<06:05,  2.08it/s]Training 3/3 epoch (loss 0.0366):  96%|█████████▌| 16189/16950 [2:55:15<06:05,  2.08it/s]Training 3/3 epoch (loss 0.0366):  96%|█████████▌| 16190/16950 [2:55:15<06:01,  2.10it/s]Training 3/3 epoch (loss 0.0006):  96%|█████████▌| 16190/16950 [2:55:15<06:01,  2.10it/s]Training 3/3 epoch (loss 0.0006):  96%|█████████▌| 16191/16950 [2:55:15<05:39,  2.24it/s]Training 3/3 epoch (loss 0.4003):  96%|█████████▌| 16191/16950 [2:55:16<05:39,  2.24it/s]Training 3/3 epoch (loss 0.4003):  96%|█████████▌| 16192/16950 [2:55:16<05:36,  2.25it/s]Training 3/3 epoch (loss 0.0028):  96%|█████████▌| 16192/16950 [2:55:16<05:36,  2.25it/s]Training 3/3 epoch (loss 0.0028):  96%|█████████▌| 16193/16950 [2:55:16<06:02,  2.09it/s]Training 3/3 epoch (loss 0.1770):  96%|█████████▌| 16193/16950 [2:55:17<06:02,  2.09it/s]Training 3/3 epoch (loss 0.1770):  96%|█████████▌| 16194/16950 [2:55:17<06:10,  2.04it/s]Training 3/3 epoch (loss 0.0090):  96%|█████████▌| 16194/16950 [2:55:17<06:10,  2.04it/s]Training 3/3 epoch (loss 0.0090):  96%|█████████▌| 16195/16950 [2:55:17<05:59,  2.10it/s]Training 3/3 epoch (loss 0.0014):  96%|█████████▌| 16195/16950 [2:55:18<05:59,  2.10it/s]Training 3/3 epoch (loss 0.0014):  96%|█████████▌| 16196/16950 [2:55:18<05:51,  2.14it/s]Training 3/3 epoch (loss 0.0449):  96%|█████████▌| 16196/16950 [2:55:19<05:51,  2.14it/s]Training 3/3 epoch (loss 0.0449):  96%|█████████▌| 16197/16950 [2:55:19<07:47,  1.61it/s]Training 3/3 epoch (loss 0.0180):  96%|█████████▌| 16197/16950 [2:55:19<07:47,  1.61it/s]Training 3/3 epoch (loss 0.0180):  96%|█████████▌| 16198/16950 [2:55:19<08:27,  1.48it/s]Training 3/3 epoch (loss 0.0037):  96%|█████████▌| 16198/16950 [2:55:20<08:27,  1.48it/s]Training 3/3 epoch (loss 0.0037):  96%|█████████▌| 16199/16950 [2:55:20<07:20,  1.70it/s]Training 3/3 epoch (loss 0.4267):  96%|█████████▌| 16199/16950 [2:55:20<07:20,  1.70it/s]Training 3/3 epoch (loss 0.4267):  96%|█████████▌| 16200/16950 [2:55:20<07:08,  1.75it/s]Training 3/3 epoch (loss 0.0080):  96%|█████████▌| 16200/16950 [2:55:21<07:08,  1.75it/s]Training 3/3 epoch (loss 0.0080):  96%|█████████▌| 16201/16950 [2:55:21<06:18,  1.98it/s]Training 3/3 epoch (loss 0.0012):  96%|█████████▌| 16201/16950 [2:55:21<06:18,  1.98it/s]Training 3/3 epoch (loss 0.0012):  96%|█████████▌| 16202/16950 [2:55:21<06:19,  1.97it/s]Training 3/3 epoch (loss 0.2666):  96%|█████████▌| 16202/16950 [2:55:22<06:19,  1.97it/s]Training 3/3 epoch (loss 0.2666):  96%|█████████▌| 16203/16950 [2:55:22<06:27,  1.93it/s]Training 3/3 epoch (loss 0.0034):  96%|█████████▌| 16203/16950 [2:55:22<06:27,  1.93it/s]Training 3/3 epoch (loss 0.0034):  96%|█████████▌| 16204/16950 [2:55:22<07:31,  1.65it/s]Training 3/3 epoch (loss 0.4530):  96%|█████████▌| 16204/16950 [2:55:23<07:31,  1.65it/s]Training 3/3 epoch (loss 0.4530):  96%|█████████▌| 16205/16950 [2:55:23<07:33,  1.64it/s]Training 3/3 epoch (loss 0.4117):  96%|█████████▌| 16205/16950 [2:55:24<07:33,  1.64it/s]Training 3/3 epoch (loss 0.4117):  96%|█████████▌| 16206/16950 [2:55:24<07:28,  1.66it/s]Training 3/3 epoch (loss 0.2962):  96%|█████████▌| 16206/16950 [2:55:24<07:28,  1.66it/s]Training 3/3 epoch (loss 0.2962):  96%|█████████▌| 16207/16950 [2:55:24<06:48,  1.82it/s]Training 3/3 epoch (loss 0.0812):  96%|█████████▌| 16207/16950 [2:55:24<06:48,  1.82it/s]Training 3/3 epoch (loss 0.0812):  96%|█████████▌| 16208/16950 [2:55:24<06:09,  2.01it/s]Training 3/3 epoch (loss 0.1306):  96%|█████████▌| 16208/16950 [2:55:25<06:09,  2.01it/s]Training 3/3 epoch (loss 0.1306):  96%|█████████▌| 16209/16950 [2:55:25<08:00,  1.54it/s]Training 3/3 epoch (loss 0.5268):  96%|█████████▌| 16209/16950 [2:55:26<08:00,  1.54it/s]Training 3/3 epoch (loss 0.5268):  96%|█████████▌| 16210/16950 [2:55:26<08:39,  1.43it/s]Training 3/3 epoch (loss 0.2604):  96%|█████████▌| 16210/16950 [2:55:27<08:39,  1.43it/s]Training 3/3 epoch (loss 0.2604):  96%|█████████▌| 16211/16950 [2:55:27<07:56,  1.55it/s]Training 3/3 epoch (loss 0.0201):  96%|█████████▌| 16211/16950 [2:55:27<07:56,  1.55it/s]Training 3/3 epoch (loss 0.0201):  96%|█████████▌| 16212/16950 [2:55:27<07:54,  1.55it/s]Training 3/3 epoch (loss 0.0046):  96%|█████████▌| 16212/16950 [2:55:28<07:54,  1.55it/s]Training 3/3 epoch (loss 0.0046):  96%|█████████▌| 16213/16950 [2:55:28<08:03,  1.52it/s]Training 3/3 epoch (loss 0.2119):  96%|█████████▌| 16213/16950 [2:55:29<08:03,  1.52it/s]Training 3/3 epoch (loss 0.2119):  96%|█████████▌| 16214/16950 [2:55:29<09:41,  1.27it/s]Training 3/3 epoch (loss 0.3349):  96%|█████████▌| 16214/16950 [2:55:30<09:41,  1.27it/s]Training 3/3 epoch (loss 0.3349):  96%|█████████▌| 16215/16950 [2:55:30<10:00,  1.22it/s]Training 3/3 epoch (loss 0.1027):  96%|█████████▌| 16215/16950 [2:55:30<10:00,  1.22it/s]Training 3/3 epoch (loss 0.1027):  96%|█████████▌| 16216/16950 [2:55:30<08:14,  1.48it/s]Training 3/3 epoch (loss 0.3827):  96%|█████████▌| 16216/16950 [2:55:31<08:14,  1.48it/s]Training 3/3 epoch (loss 0.3827):  96%|█████████▌| 16217/16950 [2:55:31<07:36,  1.61it/s]Training 3/3 epoch (loss nan):  96%|█████████▌| 16217/16950 [2:55:32<07:36,  1.61it/s]   Training 3/3 epoch (loss nan):  96%|█████████▌| 16218/16950 [2:55:32<09:29,  1.29it/s]Training 3/3 epoch (loss 0.4719):  96%|█████████▌| 16218/16950 [2:55:33<09:29,  1.29it/s]Training 3/3 epoch (loss 0.4719):  96%|█████████▌| 16219/16950 [2:55:33<08:47,  1.39it/s]Training 3/3 epoch (loss 0.0003):  96%|█████████▌| 16219/16950 [2:55:33<08:47,  1.39it/s]Training 3/3 epoch (loss 0.0003):  96%|█████████▌| 16220/16950 [2:55:33<08:05,  1.50it/s]Training 3/3 epoch (loss 0.1863):  96%|█████████▌| 16220/16950 [2:55:34<08:05,  1.50it/s]Training 3/3 epoch (loss 0.1863):  96%|█████████▌| 16221/16950 [2:55:34<07:31,  1.61it/s]Training 3/3 epoch (loss 0.0101):  96%|█████████▌| 16221/16950 [2:55:34<07:31,  1.61it/s]Training 3/3 epoch (loss 0.0101):  96%|█████████▌| 16222/16950 [2:55:34<06:50,  1.77it/s]Training 3/3 epoch (loss 0.3533):  96%|█████████▌| 16222/16950 [2:55:35<06:50,  1.77it/s]Training 3/3 epoch (loss 0.3533):  96%|█████████▌| 16223/16950 [2:55:35<07:02,  1.72it/s]Training 3/3 epoch (loss 0.0098):  96%|█████████▌| 16223/16950 [2:55:35<07:02,  1.72it/s]Training 3/3 epoch (loss 0.0098):  96%|█████████▌| 16224/16950 [2:55:35<06:52,  1.76it/s]Training 3/3 epoch (loss 0.0060):  96%|█████████▌| 16224/16950 [2:55:36<06:52,  1.76it/s]Training 3/3 epoch (loss 0.0060):  96%|█████████▌| 16225/16950 [2:55:36<07:17,  1.66it/s]Training 3/3 epoch (loss 0.0009):  96%|█████████▌| 16225/16950 [2:55:37<07:17,  1.66it/s]Training 3/3 epoch (loss 0.0009):  96%|█████████▌| 16226/16950 [2:55:37<07:26,  1.62it/s]Training 3/3 epoch (loss 0.0325):  96%|█████████▌| 16226/16950 [2:55:37<07:26,  1.62it/s]Training 3/3 epoch (loss 0.0325):  96%|█████████▌| 16227/16950 [2:55:37<07:00,  1.72it/s]Training 3/3 epoch (loss 0.0016):  96%|█████████▌| 16227/16950 [2:55:38<07:00,  1.72it/s]Training 3/3 epoch (loss 0.0016):  96%|█████████▌| 16228/16950 [2:55:38<06:53,  1.75it/s]Training 3/3 epoch (loss 0.0025):  96%|█████████▌| 16228/16950 [2:55:38<06:53,  1.75it/s]Training 3/3 epoch (loss 0.0025):  96%|█████████▌| 16229/16950 [2:55:38<07:28,  1.61it/s]Training 3/3 epoch (loss 0.0056):  96%|█████████▌| 16229/16950 [2:55:39<07:28,  1.61it/s]Training 3/3 epoch (loss 0.0056):  96%|█████████▌| 16230/16950 [2:55:39<07:23,  1.62it/s]Training 3/3 epoch (loss 0.5465):  96%|█████████▌| 16230/16950 [2:55:39<07:23,  1.62it/s]Training 3/3 epoch (loss 0.5465):  96%|█████████▌| 16231/16950 [2:55:39<06:26,  1.86it/s]Training 3/3 epoch (loss 0.0721):  96%|█████████▌| 16231/16950 [2:55:40<06:26,  1.86it/s]Training 3/3 epoch (loss 0.0721):  96%|█████████▌| 16232/16950 [2:55:40<07:30,  1.59it/s]Training 3/3 epoch (loss 0.0123):  96%|█████████▌| 16232/16950 [2:55:41<07:30,  1.59it/s]Training 3/3 epoch (loss 0.0123):  96%|█████████▌| 16233/16950 [2:55:41<07:37,  1.57it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▌| 16233/16950 [2:55:42<07:37,  1.57it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▌| 16234/16950 [2:55:42<07:25,  1.61it/s]Training 3/3 epoch (loss 0.0037):  96%|█████████▌| 16234/16950 [2:55:42<07:25,  1.61it/s]Training 3/3 epoch (loss 0.0037):  96%|█████████▌| 16235/16950 [2:55:42<06:47,  1.75it/s]Training 3/3 epoch (loss 0.3840):  96%|█████████▌| 16235/16950 [2:55:43<06:47,  1.75it/s]Training 3/3 epoch (loss 0.3840):  96%|█████████▌| 16236/16950 [2:55:43<06:46,  1.75it/s]Training 3/3 epoch (loss 0.0010):  96%|█████████▌| 16236/16950 [2:55:43<06:46,  1.75it/s]Training 3/3 epoch (loss 0.0010):  96%|█████████▌| 16237/16950 [2:55:43<06:16,  1.89it/s]Training 3/3 epoch (loss 0.0834):  96%|█████████▌| 16237/16950 [2:55:43<06:16,  1.89it/s]Training 3/3 epoch (loss 0.0834):  96%|█████████▌| 16238/16950 [2:55:43<05:50,  2.03it/s]Training 3/3 epoch (loss 0.2514):  96%|█████████▌| 16238/16950 [2:55:44<05:50,  2.03it/s]Training 3/3 epoch (loss 0.2514):  96%|█████████▌| 16239/16950 [2:55:44<06:08,  1.93it/s]Training 3/3 epoch (loss 0.0075):  96%|█████████▌| 16239/16950 [2:55:45<06:08,  1.93it/s]Training 3/3 epoch (loss 0.0075):  96%|█████████▌| 16240/16950 [2:55:45<06:24,  1.85it/s]Training 3/3 epoch (loss 0.0039):  96%|█████████▌| 16240/16950 [2:55:45<06:24,  1.85it/s]Training 3/3 epoch (loss 0.0039):  96%|█████████▌| 16241/16950 [2:55:45<06:41,  1.77it/s]Training 3/3 epoch (loss 0.4377):  96%|█████████▌| 16241/16950 [2:55:46<06:41,  1.77it/s]Training 3/3 epoch (loss 0.4377):  96%|█████████▌| 16242/16950 [2:55:46<06:57,  1.70it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▌| 16242/16950 [2:55:46<06:57,  1.70it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▌| 16243/16950 [2:55:46<06:33,  1.79it/s]Training 3/3 epoch (loss 0.2588):  96%|█████████▌| 16243/16950 [2:55:47<06:33,  1.79it/s]Training 3/3 epoch (loss 0.2588):  96%|█████████▌| 16244/16950 [2:55:47<06:16,  1.87it/s]Training 3/3 epoch (loss 0.0143):  96%|█████████▌| 16244/16950 [2:55:47<06:16,  1.87it/s]Training 3/3 epoch (loss 0.0143):  96%|█████████▌| 16245/16950 [2:55:47<06:50,  1.72it/s]Training 3/3 epoch (loss 0.0370):  96%|█████████▌| 16245/16950 [2:55:48<06:50,  1.72it/s]Training 3/3 epoch (loss 0.0370):  96%|█████████▌| 16246/16950 [2:55:48<07:45,  1.51it/s]Training 3/3 epoch (loss 0.0158):  96%|█████████▌| 16246/16950 [2:55:49<07:45,  1.51it/s]Training 3/3 epoch (loss 0.0158):  96%|█████████▌| 16247/16950 [2:55:49<08:35,  1.36it/s]Training 3/3 epoch (loss 0.1479):  96%|█████████▌| 16247/16950 [2:55:50<08:35,  1.36it/s]Training 3/3 epoch (loss 0.1479):  96%|█████████▌| 16248/16950 [2:55:50<08:04,  1.45it/s]Training 3/3 epoch (loss 0.0246):  96%|█████████▌| 16248/16950 [2:55:51<08:04,  1.45it/s]Training 3/3 epoch (loss 0.0246):  96%|█████████▌| 16249/16950 [2:55:51<08:26,  1.38it/s]Training 3/3 epoch (loss 0.3412):  96%|█████████▌| 16249/16950 [2:55:51<08:26,  1.38it/s]Training 3/3 epoch (loss 0.3412):  96%|█████████▌| 16250/16950 [2:55:51<07:51,  1.48it/s]Training 3/3 epoch (loss 0.0068):  96%|█████████▌| 16250/16950 [2:55:52<07:51,  1.48it/s]Training 3/3 epoch (loss 0.0068):  96%|█████████▌| 16251/16950 [2:55:52<07:25,  1.57it/s]Training 3/3 epoch (loss 0.1377):  96%|█████████▌| 16251/16950 [2:55:52<07:25,  1.57it/s]Training 3/3 epoch (loss 0.1377):  96%|█████████▌| 16252/16950 [2:55:52<06:56,  1.68it/s]Training 3/3 epoch (loss 0.0017):  96%|█████████▌| 16252/16950 [2:55:53<06:56,  1.68it/s]Training 3/3 epoch (loss 0.0017):  96%|█████████▌| 16253/16950 [2:55:53<07:11,  1.61it/s]Training 3/3 epoch (loss 0.0689):  96%|█████████▌| 16253/16950 [2:55:53<07:11,  1.61it/s]Training 3/3 epoch (loss 0.0689):  96%|█████████▌| 16254/16950 [2:55:53<06:47,  1.71it/s]Training 3/3 epoch (loss 0.5012):  96%|█████████▌| 16254/16950 [2:55:54<06:47,  1.71it/s]Training 3/3 epoch (loss 0.5012):  96%|█████████▌| 16255/16950 [2:55:54<06:52,  1.69it/s]Training 3/3 epoch (loss 0.0392):  96%|█████████▌| 16255/16950 [2:55:54<06:52,  1.69it/s]Training 3/3 epoch (loss 0.0392):  96%|█████████▌| 16256/16950 [2:55:54<06:17,  1.84it/s]Training 3/3 epoch (loss 0.0015):  96%|█████████▌| 16256/16950 [2:55:55<06:17,  1.84it/s]Training 3/3 epoch (loss 0.0015):  96%|█████████▌| 16257/16950 [2:55:55<05:57,  1.94it/s]Training 3/3 epoch (loss 0.0044):  96%|█████████▌| 16257/16950 [2:55:55<05:57,  1.94it/s]Training 3/3 epoch (loss 0.0044):  96%|█████████▌| 16258/16950 [2:55:55<05:21,  2.15it/s]Training 3/3 epoch (loss 0.3848):  96%|█████████▌| 16258/16950 [2:55:56<05:21,  2.15it/s]Training 3/3 epoch (loss 0.3848):  96%|█████████▌| 16259/16950 [2:55:56<04:54,  2.35it/s]Training 3/3 epoch (loss 0.0296):  96%|█████████▌| 16259/16950 [2:55:56<04:54,  2.35it/s]Training 3/3 epoch (loss 0.0296):  96%|█████████▌| 16260/16950 [2:55:56<05:28,  2.10it/s]Training 3/3 epoch (loss 0.0144):  96%|█████████▌| 16260/16950 [2:55:57<05:28,  2.10it/s]Training 3/3 epoch (loss 0.0144):  96%|█████████▌| 16261/16950 [2:55:57<05:32,  2.07it/s]Training 3/3 epoch (loss 0.0001):  96%|█████████▌| 16261/16950 [2:55:57<05:32,  2.07it/s]Training 3/3 epoch (loss 0.0001):  96%|█████████▌| 16262/16950 [2:55:57<05:39,  2.02it/s]Training 3/3 epoch (loss 0.5095):  96%|█████████▌| 16262/16950 [2:55:58<05:39,  2.02it/s]Training 3/3 epoch (loss 0.5095):  96%|█████████▌| 16263/16950 [2:55:58<07:46,  1.47it/s]Training 3/3 epoch (loss 0.0068):  96%|█████████▌| 16263/16950 [2:55:59<07:46,  1.47it/s]Training 3/3 epoch (loss 0.0068):  96%|█████████▌| 16264/16950 [2:55:59<08:08,  1.40it/s]Training 3/3 epoch (loss 0.4049):  96%|█████████▌| 16264/16950 [2:56:00<08:08,  1.40it/s]Training 3/3 epoch (loss 0.4049):  96%|█████████▌| 16265/16950 [2:56:00<07:53,  1.45it/s]Training 3/3 epoch (loss 0.0440):  96%|█████████▌| 16265/16950 [2:56:00<07:53,  1.45it/s]Training 3/3 epoch (loss 0.0440):  96%|█████████▌| 16266/16950 [2:56:00<07:49,  1.46it/s]Training 3/3 epoch (loss 0.0004):  96%|█████████▌| 16266/16950 [2:56:01<07:49,  1.46it/s]Training 3/3 epoch (loss 0.0004):  96%|█████████▌| 16267/16950 [2:56:01<07:27,  1.53it/s]Training 3/3 epoch (loss 0.0169):  96%|█████████▌| 16267/16950 [2:56:02<07:27,  1.53it/s]Training 3/3 epoch (loss 0.0169):  96%|█████████▌| 16268/16950 [2:56:02<07:29,  1.52it/s]Training 3/3 epoch (loss 0.5646):  96%|█████████▌| 16268/16950 [2:56:02<07:29,  1.52it/s]Training 3/3 epoch (loss 0.5646):  96%|█████████▌| 16269/16950 [2:56:02<06:55,  1.64it/s]Training 3/3 epoch (loss 0.2782):  96%|█████████▌| 16269/16950 [2:56:03<06:55,  1.64it/s]Training 3/3 epoch (loss 0.2782):  96%|█████████▌| 16270/16950 [2:56:03<06:07,  1.85it/s]Training 3/3 epoch (loss 0.0295):  96%|█████████▌| 16270/16950 [2:56:03<06:07,  1.85it/s]Training 3/3 epoch (loss 0.0295):  96%|█████████▌| 16271/16950 [2:56:03<05:50,  1.94it/s]Training 3/3 epoch (loss 0.0381):  96%|█████████▌| 16271/16950 [2:56:04<05:50,  1.94it/s]Training 3/3 epoch (loss 0.0381):  96%|█████████▌| 16272/16950 [2:56:04<06:06,  1.85it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▌| 16272/16950 [2:56:04<06:06,  1.85it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▌| 16273/16950 [2:56:04<06:34,  1.72it/s]Training 3/3 epoch (loss 0.5277):  96%|█████████▌| 16273/16950 [2:56:05<06:34,  1.72it/s]Training 3/3 epoch (loss 0.5277):  96%|█████████▌| 16274/16950 [2:56:05<07:31,  1.50it/s]Training 3/3 epoch (loss 0.0267):  96%|█████████▌| 16274/16950 [2:56:06<07:31,  1.50it/s]Training 3/3 epoch (loss 0.0267):  96%|█████████▌| 16275/16950 [2:56:06<07:16,  1.55it/s]Training 3/3 epoch (loss 0.5527):  96%|█████████▌| 16275/16950 [2:56:06<07:16,  1.55it/s]Training 3/3 epoch (loss 0.5527):  96%|█████████▌| 16276/16950 [2:56:06<06:26,  1.74it/s]Training 3/3 epoch (loss 0.1062):  96%|█████████▌| 16276/16950 [2:56:07<06:26,  1.74it/s]Training 3/3 epoch (loss 0.1062):  96%|█████████▌| 16277/16950 [2:56:07<05:59,  1.87it/s]Training 3/3 epoch (loss 0.0004):  96%|█████████▌| 16277/16950 [2:56:07<05:59,  1.87it/s]Training 3/3 epoch (loss 0.0004):  96%|█████████▌| 16278/16950 [2:56:07<06:12,  1.80it/s]Training 3/3 epoch (loss 0.0087):  96%|█████████▌| 16278/16950 [2:56:08<06:12,  1.80it/s]Training 3/3 epoch (loss 0.0087):  96%|█████████▌| 16279/16950 [2:56:08<06:08,  1.82it/s]Training 3/3 epoch (loss 0.1582):  96%|█████████▌| 16279/16950 [2:56:08<06:08,  1.82it/s]Training 3/3 epoch (loss 0.1582):  96%|█████████▌| 16280/16950 [2:56:08<05:40,  1.97it/s]Training 3/3 epoch (loss 0.0021):  96%|█████████▌| 16280/16950 [2:56:09<05:40,  1.97it/s]Training 3/3 epoch (loss 0.0021):  96%|█████████▌| 16281/16950 [2:56:09<05:18,  2.10it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▌| 16281/16950 [2:56:09<05:18,  2.10it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▌| 16282/16950 [2:56:09<05:07,  2.17it/s]Training 3/3 epoch (loss 0.3644):  96%|█████████▌| 16282/16950 [2:56:09<05:07,  2.17it/s]Training 3/3 epoch (loss 0.3644):  96%|█████████▌| 16283/16950 [2:56:09<04:45,  2.33it/s]Training 3/3 epoch (loss 0.0050):  96%|█████████▌| 16283/16950 [2:56:10<04:45,  2.33it/s]Training 3/3 epoch (loss 0.0050):  96%|█████████▌| 16284/16950 [2:56:10<04:40,  2.38it/s]Training 3/3 epoch (loss 0.0159):  96%|█████████▌| 16284/16950 [2:56:10<04:40,  2.38it/s]Training 3/3 epoch (loss 0.0159):  96%|█████████▌| 16285/16950 [2:56:10<05:00,  2.21it/s]Training 3/3 epoch (loss 0.4677):  96%|█████████▌| 16285/16950 [2:56:11<05:00,  2.21it/s]Training 3/3 epoch (loss 0.4677):  96%|█████████▌| 16286/16950 [2:56:11<07:05,  1.56it/s]Training 3/3 epoch (loss 0.0940):  96%|█████████▌| 16286/16950 [2:56:12<07:05,  1.56it/s]Training 3/3 epoch (loss 0.0940):  96%|█████████▌| 16287/16950 [2:56:12<07:35,  1.45it/s]Training 3/3 epoch (loss 0.4739):  96%|█████████▌| 16287/16950 [2:56:13<07:35,  1.45it/s]Training 3/3 epoch (loss 0.4739):  96%|█████████▌| 16288/16950 [2:56:13<07:35,  1.45it/s]Training 3/3 epoch (loss 0.2688):  96%|█████████▌| 16288/16950 [2:56:13<07:35,  1.45it/s]Training 3/3 epoch (loss 0.2688):  96%|█████████▌| 16289/16950 [2:56:13<06:50,  1.61it/s]Training 3/3 epoch (loss 0.0022):  96%|█████████▌| 16289/16950 [2:56:14<06:50,  1.61it/s]Training 3/3 epoch (loss 0.0022):  96%|█████████▌| 16290/16950 [2:56:14<06:56,  1.58it/s]Training 3/3 epoch (loss 0.3755):  96%|█████████▌| 16290/16950 [2:56:14<06:56,  1.58it/s]Training 3/3 epoch (loss 0.3755):  96%|█████████▌| 16291/16950 [2:56:14<06:43,  1.63it/s]Training 3/3 epoch (loss 0.0129):  96%|█████████▌| 16291/16950 [2:56:15<06:43,  1.63it/s]Training 3/3 epoch (loss 0.0129):  96%|█████████▌| 16292/16950 [2:56:15<06:20,  1.73it/s]Training 3/3 epoch (loss 0.8210):  96%|█████████▌| 16292/16950 [2:56:15<06:20,  1.73it/s]Training 3/3 epoch (loss 0.8210):  96%|█████████▌| 16293/16950 [2:56:15<05:44,  1.91it/s]Training 3/3 epoch (loss 0.4742):  96%|█████████▌| 16293/16950 [2:56:16<05:44,  1.91it/s]Training 3/3 epoch (loss 0.4742):  96%|█████████▌| 16294/16950 [2:56:16<06:38,  1.65it/s]Training 3/3 epoch (loss 0.0019):  96%|█████████▌| 16294/16950 [2:56:17<06:38,  1.65it/s]Training 3/3 epoch (loss 0.0019):  96%|█████████▌| 16295/16950 [2:56:17<07:04,  1.54it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▌| 16295/16950 [2:56:17<07:04,  1.54it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▌| 16296/16950 [2:56:17<06:28,  1.68it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▌| 16296/16950 [2:56:18<06:28,  1.68it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▌| 16297/16950 [2:56:18<06:28,  1.68it/s]Training 3/3 epoch (loss 0.0067):  96%|█████████▌| 16297/16950 [2:56:19<06:28,  1.68it/s]Training 3/3 epoch (loss 0.0067):  96%|█████████▌| 16298/16950 [2:56:19<06:15,  1.74it/s]Training 3/3 epoch (loss 0.0057):  96%|█████████▌| 16298/16950 [2:56:19<06:15,  1.74it/s]Training 3/3 epoch (loss 0.0057):  96%|█████████▌| 16299/16950 [2:56:19<06:11,  1.75it/s]Training 3/3 epoch (loss 0.0109):  96%|█████████▌| 16299/16950 [2:56:20<06:11,  1.75it/s]Training 3/3 epoch (loss 0.0109):  96%|█████████▌| 16300/16950 [2:56:20<07:08,  1.52it/s]Training 3/3 epoch (loss 0.0091):  96%|█████████▌| 16300/16950 [2:56:21<07:08,  1.52it/s]Training 3/3 epoch (loss 0.0091):  96%|█████████▌| 16301/16950 [2:56:21<07:26,  1.45it/s]Training 3/3 epoch (loss 0.0075):  96%|█████████▌| 16301/16950 [2:56:21<07:26,  1.45it/s]Training 3/3 epoch (loss 0.0075):  96%|█████████▌| 16302/16950 [2:56:21<07:10,  1.50it/s]Training 3/3 epoch (loss 0.9517):  96%|█████████▌| 16302/16950 [2:56:22<07:10,  1.50it/s]Training 3/3 epoch (loss 0.9517):  96%|█████████▌| 16303/16950 [2:56:22<07:50,  1.37it/s]Training 3/3 epoch (loss 0.0047):  96%|█████████▌| 16303/16950 [2:56:23<07:50,  1.37it/s]Training 3/3 epoch (loss 0.0047):  96%|█████████▌| 16304/16950 [2:56:23<07:23,  1.46it/s]Training 3/3 epoch (loss 0.2898):  96%|█████████▌| 16304/16950 [2:56:24<07:23,  1.46it/s]Training 3/3 epoch (loss 0.2898):  96%|█████████▌| 16305/16950 [2:56:24<07:59,  1.34it/s]Training 3/3 epoch (loss 0.6675):  96%|█████████▌| 16305/16950 [2:56:24<07:59,  1.34it/s]Training 3/3 epoch (loss 0.6675):  96%|█████████▌| 16306/16950 [2:56:24<08:16,  1.30it/s]Training 3/3 epoch (loss 0.0572):  96%|█████████▌| 16306/16950 [2:56:25<08:16,  1.30it/s]Training 3/3 epoch (loss 0.0572):  96%|█████████▌| 16307/16950 [2:56:25<07:26,  1.44it/s]Training 3/3 epoch (loss 0.0094):  96%|█████████▌| 16307/16950 [2:56:26<07:26,  1.44it/s]Training 3/3 epoch (loss 0.0094):  96%|█████████▌| 16308/16950 [2:56:26<07:12,  1.48it/s]Training 3/3 epoch (loss 0.0026):  96%|█████████▌| 16308/16950 [2:56:26<07:12,  1.48it/s]Training 3/3 epoch (loss 0.0026):  96%|█████████▌| 16309/16950 [2:56:26<06:35,  1.62it/s]Training 3/3 epoch (loss 0.1762):  96%|█████████▌| 16309/16950 [2:56:27<06:35,  1.62it/s]Training 3/3 epoch (loss 0.1762):  96%|█████████▌| 16310/16950 [2:56:27<06:40,  1.60it/s]Training 3/3 epoch (loss 0.0097):  96%|█████████▌| 16310/16950 [2:56:28<06:40,  1.60it/s]Training 3/3 epoch (loss 0.0097):  96%|█████████▌| 16311/16950 [2:56:28<07:06,  1.50it/s]Training 3/3 epoch (loss 0.0004):  96%|█████████▌| 16311/16950 [2:56:28<07:06,  1.50it/s]Training 3/3 epoch (loss 0.0004):  96%|█████████▌| 16312/16950 [2:56:28<06:47,  1.57it/s]Training 3/3 epoch (loss 0.0157):  96%|█████████▌| 16312/16950 [2:56:29<06:47,  1.57it/s]Training 3/3 epoch (loss 0.0157):  96%|█████████▌| 16313/16950 [2:56:29<06:37,  1.60it/s]Training 3/3 epoch (loss 0.2684):  96%|█████████▌| 16313/16950 [2:56:30<06:37,  1.60it/s]Training 3/3 epoch (loss 0.2684):  96%|█████████▌| 16314/16950 [2:56:30<07:30,  1.41it/s]Training 3/3 epoch (loss 0.0028):  96%|█████████▌| 16314/16950 [2:56:30<07:30,  1.41it/s]Training 3/3 epoch (loss 0.0028):  96%|█████████▋| 16315/16950 [2:56:30<07:41,  1.38it/s]Training 3/3 epoch (loss 0.0000):  96%|█████████▋| 16315/16950 [2:56:31<07:41,  1.38it/s]Training 3/3 epoch (loss 0.0000):  96%|█████████▋| 16316/16950 [2:56:31<07:17,  1.45it/s]Training 3/3 epoch (loss 0.2945):  96%|█████████▋| 16316/16950 [2:56:31<07:17,  1.45it/s]Training 3/3 epoch (loss 0.2945):  96%|█████████▋| 16317/16950 [2:56:31<06:48,  1.55it/s]Training 3/3 epoch (loss 0.0021):  96%|█████████▋| 16317/16950 [2:56:32<06:48,  1.55it/s]Training 3/3 epoch (loss 0.0021):  96%|█████████▋| 16318/16950 [2:56:32<06:37,  1.59it/s]Training 3/3 epoch (loss 0.3642):  96%|█████████▋| 16318/16950 [2:56:33<06:37,  1.59it/s]Training 3/3 epoch (loss 0.3642):  96%|█████████▋| 16319/16950 [2:56:33<07:37,  1.38it/s]Training 3/3 epoch (loss 0.1965):  96%|█████████▋| 16319/16950 [2:56:34<07:37,  1.38it/s]Training 3/3 epoch (loss 0.1965):  96%|█████████▋| 16320/16950 [2:56:34<07:03,  1.49it/s]Training 3/3 epoch (loss 0.1412):  96%|█████████▋| 16320/16950 [2:56:34<07:03,  1.49it/s]Training 3/3 epoch (loss 0.1412):  96%|█████████▋| 16321/16950 [2:56:34<06:55,  1.51it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▋| 16321/16950 [2:56:35<06:55,  1.51it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▋| 16322/16950 [2:56:35<06:32,  1.60it/s]Training 3/3 epoch (loss 0.0037):  96%|█████████▋| 16322/16950 [2:56:35<06:32,  1.60it/s]Training 3/3 epoch (loss 0.0037):  96%|█████████▋| 16323/16950 [2:56:35<06:28,  1.62it/s]Training 3/3 epoch (loss 0.0046):  96%|█████████▋| 16323/16950 [2:56:36<06:28,  1.62it/s]Training 3/3 epoch (loss 0.0046):  96%|█████████▋| 16324/16950 [2:56:36<06:24,  1.63it/s]Training 3/3 epoch (loss 0.0344):  96%|█████████▋| 16324/16950 [2:56:37<06:24,  1.63it/s]Training 3/3 epoch (loss 0.0344):  96%|█████████▋| 16325/16950 [2:56:37<06:16,  1.66it/s]Training 3/3 epoch (loss 0.6253):  96%|█████████▋| 16325/16950 [2:56:37<06:16,  1.66it/s]Training 3/3 epoch (loss 0.6253):  96%|█████████▋| 16326/16950 [2:56:37<05:28,  1.90it/s]Training 3/3 epoch (loss 0.0019):  96%|█████████▋| 16326/16950 [2:56:37<05:28,  1.90it/s]Training 3/3 epoch (loss 0.0019):  96%|█████████▋| 16327/16950 [2:56:37<05:06,  2.04it/s]Training 3/3 epoch (loss 0.0221):  96%|█████████▋| 16327/16950 [2:56:38<05:06,  2.04it/s]Training 3/3 epoch (loss 0.0221):  96%|█████████▋| 16328/16950 [2:56:38<05:12,  1.99it/s]Training 3/3 epoch (loss 0.0291):  96%|█████████▋| 16328/16950 [2:56:39<05:12,  1.99it/s]Training 3/3 epoch (loss 0.0291):  96%|█████████▋| 16329/16950 [2:56:39<05:55,  1.75it/s]Training 3/3 epoch (loss 0.0256):  96%|█████████▋| 16329/16950 [2:56:39<05:55,  1.75it/s]Training 3/3 epoch (loss 0.0256):  96%|█████████▋| 16330/16950 [2:56:39<06:15,  1.65it/s]Training 3/3 epoch (loss 0.0206):  96%|█████████▋| 16330/16950 [2:56:40<06:15,  1.65it/s]Training 3/3 epoch (loss 0.0206):  96%|█████████▋| 16331/16950 [2:56:40<05:51,  1.76it/s]Training 3/3 epoch (loss 0.0177):  96%|█████████▋| 16331/16950 [2:56:40<05:51,  1.76it/s]Training 3/3 epoch (loss 0.0177):  96%|█████████▋| 16332/16950 [2:56:40<06:17,  1.64it/s]Training 3/3 epoch (loss 0.8224):  96%|█████████▋| 16332/16950 [2:56:41<06:17,  1.64it/s]Training 3/3 epoch (loss 0.8224):  96%|█████████▋| 16333/16950 [2:56:41<06:23,  1.61it/s]Training 3/3 epoch (loss 0.0018):  96%|█████████▋| 16333/16950 [2:56:42<06:23,  1.61it/s]Training 3/3 epoch (loss 0.0018):  96%|█████████▋| 16334/16950 [2:56:42<06:28,  1.58it/s]Training 3/3 epoch (loss 0.5495):  96%|█████████▋| 16334/16950 [2:56:42<06:28,  1.58it/s]Training 3/3 epoch (loss 0.5495):  96%|█████████▋| 16335/16950 [2:56:42<06:04,  1.69it/s]Training 3/3 epoch (loss 0.0939):  96%|█████████▋| 16335/16950 [2:56:43<06:04,  1.69it/s]Training 3/3 epoch (loss 0.0939):  96%|█████████▋| 16336/16950 [2:56:43<05:56,  1.72it/s]Training 3/3 epoch (loss 0.0012):  96%|█████████▋| 16336/16950 [2:56:43<05:56,  1.72it/s]Training 3/3 epoch (loss 0.0012):  96%|█████████▋| 16337/16950 [2:56:43<05:53,  1.73it/s]Training 3/3 epoch (loss 0.0601):  96%|█████████▋| 16337/16950 [2:56:44<05:53,  1.73it/s]Training 3/3 epoch (loss 0.0601):  96%|█████████▋| 16338/16950 [2:56:44<05:31,  1.85it/s]Training 3/3 epoch (loss 0.0353):  96%|█████████▋| 16338/16950 [2:56:44<05:31,  1.85it/s]Training 3/3 epoch (loss 0.0353):  96%|█████████▋| 16339/16950 [2:56:44<05:04,  2.00it/s]Training 3/3 epoch (loss 0.0138):  96%|█████████▋| 16339/16950 [2:56:45<05:04,  2.00it/s]Training 3/3 epoch (loss 0.0138):  96%|█████████▋| 16340/16950 [2:56:45<04:30,  2.26it/s]Training 3/3 epoch (loss 0.0041):  96%|█████████▋| 16340/16950 [2:56:45<04:30,  2.26it/s]Training 3/3 epoch (loss 0.0041):  96%|█████████▋| 16341/16950 [2:56:45<05:13,  1.94it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▋| 16341/16950 [2:56:46<05:13,  1.94it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▋| 16342/16950 [2:56:46<05:14,  1.93it/s]Training 3/3 epoch (loss 0.0364):  96%|█████████▋| 16342/16950 [2:56:46<05:14,  1.93it/s]Training 3/3 epoch (loss 0.0364):  96%|█████████▋| 16343/16950 [2:56:46<05:20,  1.89it/s]Training 3/3 epoch (loss 0.0128):  96%|█████████▋| 16343/16950 [2:56:47<05:20,  1.89it/s]Training 3/3 epoch (loss 0.0128):  96%|█████████▋| 16344/16950 [2:56:47<05:16,  1.91it/s]Training 3/3 epoch (loss 0.4403):  96%|█████████▋| 16344/16950 [2:56:48<05:16,  1.91it/s]Training 3/3 epoch (loss 0.4403):  96%|█████████▋| 16345/16950 [2:56:48<06:57,  1.45it/s]Training 3/3 epoch (loss 0.5562):  96%|█████████▋| 16345/16950 [2:56:49<06:57,  1.45it/s]Training 3/3 epoch (loss 0.5562):  96%|█████████▋| 16346/16950 [2:56:49<08:07,  1.24it/s]Training 3/3 epoch (loss 0.4701):  96%|█████████▋| 16346/16950 [2:56:50<08:07,  1.24it/s]Training 3/3 epoch (loss 0.4701):  96%|█████████▋| 16347/16950 [2:56:50<07:55,  1.27it/s]Training 3/3 epoch (loss 0.2568):  96%|█████████▋| 16347/16950 [2:56:50<07:55,  1.27it/s]Training 3/3 epoch (loss 0.2568):  96%|█████████▋| 16348/16950 [2:56:50<07:16,  1.38it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▋| 16348/16950 [2:56:51<07:16,  1.38it/s]Training 3/3 epoch (loss 0.0002):  96%|█████████▋| 16349/16950 [2:56:51<06:33,  1.53it/s]Training 3/3 epoch (loss 0.6452):  96%|█████████▋| 16349/16950 [2:56:52<06:33,  1.53it/s]Training 3/3 epoch (loss 0.6452):  96%|█████████▋| 16350/16950 [2:56:52<07:23,  1.35it/s]Training 3/3 epoch (loss 0.3720):  96%|█████████▋| 16350/16950 [2:56:53<07:23,  1.35it/s]Training 3/3 epoch (loss 0.3720):  96%|█████████▋| 16351/16950 [2:56:53<08:03,  1.24it/s]Training 3/3 epoch (loss 0.0257):  96%|█████████▋| 16351/16950 [2:56:53<08:03,  1.24it/s]Training 3/3 epoch (loss 0.0257):  96%|█████████▋| 16352/16950 [2:56:53<06:42,  1.49it/s]Training 3/3 epoch (loss 0.0372):  96%|█████████▋| 16352/16950 [2:56:53<06:42,  1.49it/s]Training 3/3 epoch (loss 0.0372):  96%|█████████▋| 16353/16950 [2:56:53<05:41,  1.75it/s]Training 3/3 epoch (loss 0.0028):  96%|█████████▋| 16353/16950 [2:56:54<05:41,  1.75it/s]Training 3/3 epoch (loss 0.0028):  96%|█████████▋| 16354/16950 [2:56:54<06:21,  1.56it/s]Training 3/3 epoch (loss 0.0858):  96%|█████████▋| 16354/16950 [2:56:55<06:21,  1.56it/s]Training 3/3 epoch (loss 0.0858):  96%|█████████▋| 16355/16950 [2:56:55<06:13,  1.59it/s]Training 3/3 epoch (loss 0.0697):  96%|█████████▋| 16355/16950 [2:56:56<06:13,  1.59it/s]Training 3/3 epoch (loss 0.0697):  96%|█████████▋| 16356/16950 [2:56:56<06:41,  1.48it/s]Training 3/3 epoch (loss 0.2502):  96%|█████████▋| 16356/16950 [2:56:56<06:41,  1.48it/s]Training 3/3 epoch (loss 0.2502):  97%|█████████▋| 16357/16950 [2:56:56<05:59,  1.65it/s]Training 3/3 epoch (loss 0.0111):  97%|█████████▋| 16357/16950 [2:56:57<05:59,  1.65it/s]Training 3/3 epoch (loss 0.0111):  97%|█████████▋| 16358/16950 [2:56:57<07:19,  1.35it/s]Training 3/3 epoch (loss 0.1224):  97%|█████████▋| 16358/16950 [2:56:58<07:19,  1.35it/s]Training 3/3 epoch (loss 0.1224):  97%|█████████▋| 16359/16950 [2:56:58<07:13,  1.36it/s]Training 3/3 epoch (loss 0.0005):  97%|█████████▋| 16359/16950 [2:56:58<07:13,  1.36it/s]Training 3/3 epoch (loss 0.0005):  97%|█████████▋| 16360/16950 [2:56:58<06:57,  1.41it/s]Training 3/3 epoch (loss 0.0086):  97%|█████████▋| 16360/16950 [2:56:59<06:57,  1.41it/s]Training 3/3 epoch (loss 0.0086):  97%|█████████▋| 16361/16950 [2:56:59<06:50,  1.43it/s]Training 3/3 epoch (loss 0.0002):  97%|█████████▋| 16361/16950 [2:57:00<06:50,  1.43it/s]Training 3/3 epoch (loss 0.0002):  97%|█████████▋| 16362/16950 [2:57:00<06:04,  1.61it/s]Training 3/3 epoch (loss 0.0067):  97%|█████████▋| 16362/16950 [2:57:00<06:04,  1.61it/s]Training 3/3 epoch (loss 0.0067):  97%|█████████▋| 16363/16950 [2:57:00<05:30,  1.78it/s]Training 3/3 epoch (loss 0.0023):  97%|█████████▋| 16363/16950 [2:57:01<05:30,  1.78it/s]Training 3/3 epoch (loss 0.0023):  97%|█████████▋| 16364/16950 [2:57:01<05:52,  1.66it/s]Training 3/3 epoch (loss 0.3398):  97%|█████████▋| 16364/16950 [2:57:01<05:52,  1.66it/s]Training 3/3 epoch (loss 0.3398):  97%|█████████▋| 16365/16950 [2:57:01<06:11,  1.57it/s]Training 3/3 epoch (loss 0.0371):  97%|█████████▋| 16365/16950 [2:57:02<06:11,  1.57it/s]Training 3/3 epoch (loss 0.0371):  97%|█████████▋| 16366/16950 [2:57:02<05:42,  1.71it/s]Training 3/3 epoch (loss nan):  97%|█████████▋| 16366/16950 [2:57:03<05:42,  1.71it/s]   Training 3/3 epoch (loss nan):  97%|█████████▋| 16367/16950 [2:57:03<07:07,  1.36it/s]Training 3/3 epoch (loss 0.0009):  97%|█████████▋| 16367/16950 [2:57:04<07:07,  1.36it/s]Training 3/3 epoch (loss 0.0009):  97%|█████████▋| 16368/16950 [2:57:04<08:06,  1.20it/s]Training 3/3 epoch (loss 0.2615):  97%|█████████▋| 16368/16950 [2:57:04<08:06,  1.20it/s]Training 3/3 epoch (loss 0.2615):  97%|█████████▋| 16369/16950 [2:57:04<07:00,  1.38it/s]Training 3/3 epoch (loss 0.0104):  97%|█████████▋| 16369/16950 [2:57:05<07:00,  1.38it/s]Training 3/3 epoch (loss 0.0104):  97%|█████████▋| 16370/16950 [2:57:05<07:06,  1.36it/s]Training 3/3 epoch (loss 0.3040):  97%|█████████▋| 16370/16950 [2:57:06<07:06,  1.36it/s]Training 3/3 epoch (loss 0.3040):  97%|█████████▋| 16371/16950 [2:57:06<06:14,  1.55it/s]Training 3/3 epoch (loss 0.3445):  97%|█████████▋| 16371/16950 [2:57:07<06:14,  1.55it/s]Training 3/3 epoch (loss 0.3445):  97%|█████████▋| 16372/16950 [2:57:07<06:46,  1.42it/s]Training 3/3 epoch (loss 0.0065):  97%|█████████▋| 16372/16950 [2:57:07<06:46,  1.42it/s]Training 3/3 epoch (loss 0.0065):  97%|█████████▋| 16373/16950 [2:57:07<06:46,  1.42it/s]Training 3/3 epoch (loss 0.3743):  97%|█████████▋| 16373/16950 [2:57:08<06:46,  1.42it/s]Training 3/3 epoch (loss 0.3743):  97%|█████████▋| 16374/16950 [2:57:08<06:09,  1.56it/s]Training 3/3 epoch (loss 0.4881):  97%|█████████▋| 16374/16950 [2:57:08<06:09,  1.56it/s]Training 3/3 epoch (loss 0.4881):  97%|█████████▋| 16375/16950 [2:57:08<06:31,  1.47it/s]Training 3/3 epoch (loss 0.0655):  97%|█████████▋| 16375/16950 [2:57:09<06:31,  1.47it/s]Training 3/3 epoch (loss 0.0655):  97%|█████████▋| 16376/16950 [2:57:09<06:30,  1.47it/s]Training 3/3 epoch (loss 0.0398):  97%|█████████▋| 16376/16950 [2:57:10<06:30,  1.47it/s]Training 3/3 epoch (loss 0.0398):  97%|█████████▋| 16377/16950 [2:57:10<06:06,  1.56it/s]Training 3/3 epoch (loss 0.0970):  97%|█████████▋| 16377/16950 [2:57:10<06:06,  1.56it/s]Training 3/3 epoch (loss 0.0970):  97%|█████████▋| 16378/16950 [2:57:10<06:13,  1.53it/s]Training 3/3 epoch (loss 0.0503):  97%|█████████▋| 16378/16950 [2:57:11<06:13,  1.53it/s]Training 3/3 epoch (loss 0.0503):  97%|█████████▋| 16379/16950 [2:57:11<06:08,  1.55it/s]Training 3/3 epoch (loss 0.0029):  97%|█████████▋| 16379/16950 [2:57:12<06:08,  1.55it/s]Training 3/3 epoch (loss 0.0029):  97%|█████████▋| 16380/16950 [2:57:12<06:20,  1.50it/s]Training 3/3 epoch (loss 0.0028):  97%|█████████▋| 16380/16950 [2:57:12<06:20,  1.50it/s]Training 3/3 epoch (loss 0.0028):  97%|█████████▋| 16381/16950 [2:57:12<05:55,  1.60it/s]Training 3/3 epoch (loss 0.0211):  97%|█████████▋| 16381/16950 [2:57:13<05:55,  1.60it/s]Training 3/3 epoch (loss 0.0211):  97%|█████████▋| 16382/16950 [2:57:13<05:50,  1.62it/s]Training 3/3 epoch (loss nan):  97%|█████████▋| 16382/16950 [2:57:14<05:50,  1.62it/s]   Training 3/3 epoch (loss nan):  97%|█████████▋| 16383/16950 [2:57:14<07:10,  1.32it/s]Training 3/3 epoch (loss 0.3016):  97%|█████████▋| 16383/16950 [2:57:15<07:10,  1.32it/s]Training 3/3 epoch (loss 0.3016):  97%|█████████▋| 16384/16950 [2:57:15<06:42,  1.41it/s]Training 3/3 epoch (loss 0.0113):  97%|█████████▋| 16384/16950 [2:57:15<06:42,  1.41it/s]Training 3/3 epoch (loss 0.0113):  97%|█████████▋| 16385/16950 [2:57:15<06:17,  1.50it/s]Training 3/3 epoch (loss 0.0105):  97%|█████████▋| 16385/16950 [2:57:16<06:17,  1.50it/s]Training 3/3 epoch (loss 0.0105):  97%|█████████▋| 16386/16950 [2:57:16<06:12,  1.52it/s]Training 3/3 epoch (loss 0.6698):  97%|█████████▋| 16386/16950 [2:57:16<06:12,  1.52it/s]Training 3/3 epoch (loss 0.6698):  97%|█████████▋| 16387/16950 [2:57:16<05:38,  1.66it/s]Training 3/3 epoch (loss 0.0011):  97%|█████████▋| 16387/16950 [2:57:17<05:38,  1.66it/s]Training 3/3 epoch (loss 0.0011):  97%|█████████▋| 16388/16950 [2:57:17<05:41,  1.65it/s]Training 3/3 epoch (loss 0.3721):  97%|█████████▋| 16388/16950 [2:57:17<05:41,  1.65it/s]Training 3/3 epoch (loss 0.3721):  97%|█████████▋| 16389/16950 [2:57:17<05:25,  1.72it/s]Training 3/3 epoch (loss 0.0000):  97%|█████████▋| 16389/16950 [2:57:18<05:25,  1.72it/s]Training 3/3 epoch (loss 0.0000):  97%|█████████▋| 16390/16950 [2:57:18<05:14,  1.78it/s]Training 3/3 epoch (loss 0.5170):  97%|█████████▋| 16390/16950 [2:57:18<05:14,  1.78it/s]Training 3/3 epoch (loss 0.5170):  97%|█████████▋| 16391/16950 [2:57:18<04:45,  1.96it/s]Training 3/3 epoch (loss 0.0165):  97%|█████████▋| 16391/16950 [2:57:19<04:45,  1.96it/s]Training 3/3 epoch (loss 0.0165):  97%|█████████▋| 16392/16950 [2:57:19<04:20,  2.14it/s]Training 3/3 epoch (loss 0.0002):  97%|█████████▋| 16392/16950 [2:57:19<04:20,  2.14it/s]Training 3/3 epoch (loss 0.0002):  97%|█████████▋| 16393/16950 [2:57:19<04:14,  2.19it/s]Training 3/3 epoch (loss 0.0135):  97%|█████████▋| 16393/16950 [2:57:20<04:14,  2.19it/s]Training 3/3 epoch (loss 0.0135):  97%|█████████▋| 16394/16950 [2:57:20<04:44,  1.95it/s]Training 3/3 epoch (loss 0.8352):  97%|█████████▋| 16394/16950 [2:57:20<04:44,  1.95it/s]Training 3/3 epoch (loss 0.8352):  97%|█████████▋| 16395/16950 [2:57:20<04:40,  1.98it/s]Training 3/3 epoch (loss 0.0038):  97%|█████████▋| 16395/16950 [2:57:21<04:40,  1.98it/s]Training 3/3 epoch (loss 0.0038):  97%|█████████▋| 16396/16950 [2:57:21<05:11,  1.78it/s]Training 3/3 epoch (loss 0.0001):  97%|█████████▋| 16396/16950 [2:57:22<05:11,  1.78it/s]Training 3/3 epoch (loss 0.0001):  97%|█████████▋| 16397/16950 [2:57:22<05:45,  1.60it/s]Training 3/3 epoch (loss 0.0031):  97%|█████████▋| 16397/16950 [2:57:22<05:45,  1.60it/s]Training 3/3 epoch (loss 0.0031):  97%|█████████▋| 16398/16950 [2:57:22<05:24,  1.70it/s]Training 3/3 epoch (loss 0.0082):  97%|█████████▋| 16398/16950 [2:57:23<05:24,  1.70it/s]Training 3/3 epoch (loss 0.0082):  97%|█████████▋| 16399/16950 [2:57:23<06:12,  1.48it/s]Training 3/3 epoch (loss 0.2486):  97%|█████████▋| 16399/16950 [2:57:24<06:12,  1.48it/s]Training 3/3 epoch (loss 0.2486):  97%|█████████▋| 16400/16950 [2:57:24<07:13,  1.27it/s]Training 3/3 epoch (loss 0.0111):  97%|█████████▋| 16400/16950 [2:57:25<07:13,  1.27it/s]Training 3/3 epoch (loss 0.0111):  97%|█████████▋| 16401/16950 [2:57:25<06:26,  1.42it/s]Training 3/3 epoch (loss 0.0001):  97%|█████████▋| 16401/16950 [2:57:25<06:26,  1.42it/s]Training 3/3 epoch (loss 0.0001):  97%|█████████▋| 16402/16950 [2:57:25<05:37,  1.62it/s]Training 3/3 epoch (loss 0.0652):  97%|█████████▋| 16402/16950 [2:57:25<05:37,  1.62it/s]Training 3/3 epoch (loss 0.0652):  97%|█████████▋| 16403/16950 [2:57:25<05:15,  1.74it/s]Training 3/3 epoch (loss 0.0059):  97%|█████████▋| 16403/16950 [2:57:26<05:15,  1.74it/s]Training 3/3 epoch (loss 0.0059):  97%|█████████▋| 16404/16950 [2:57:26<05:24,  1.68it/s]Training 3/3 epoch (loss 0.0312):  97%|█████████▋| 16404/16950 [2:57:27<05:24,  1.68it/s]Training 3/3 epoch (loss 0.0312):  97%|█████████▋| 16405/16950 [2:57:27<05:55,  1.53it/s]Training 3/3 epoch (loss 0.1057):  97%|█████████▋| 16405/16950 [2:57:28<05:55,  1.53it/s]Training 3/3 epoch (loss 0.1057):  97%|█████████▋| 16406/16950 [2:57:28<05:46,  1.57it/s]Training 3/3 epoch (loss 0.0000):  97%|█████████▋| 16406/16950 [2:57:28<05:46,  1.57it/s]Training 3/3 epoch (loss 0.0000):  97%|█████████▋| 16407/16950 [2:57:28<05:22,  1.68it/s]Training 3/3 epoch (loss 0.3367):  97%|█████████▋| 16407/16950 [2:57:29<05:22,  1.68it/s]Training 3/3 epoch (loss 0.3367):  97%|█████████▋| 16408/16950 [2:57:29<05:24,  1.67it/s]Training 3/3 epoch (loss 0.0609):  97%|█████████▋| 16408/16950 [2:57:30<05:24,  1.67it/s]Training 3/3 epoch (loss 0.0609):  97%|█████████▋| 16409/16950 [2:57:30<06:51,  1.31it/s]Training 3/3 epoch (loss 0.0081):  97%|█████████▋| 16409/16950 [2:57:30<06:51,  1.31it/s]Training 3/3 epoch (loss 0.0081):  97%|█████████▋| 16410/16950 [2:57:30<06:37,  1.36it/s]Training 3/3 epoch (loss 0.0523):  97%|█████████▋| 16410/16950 [2:57:31<06:37,  1.36it/s]Training 3/3 epoch (loss 0.0523):  97%|█████████▋| 16411/16950 [2:57:31<06:58,  1.29it/s]Training 3/3 epoch (loss 0.0792):  97%|█████████▋| 16411/16950 [2:57:32<06:58,  1.29it/s]Training 3/3 epoch (loss 0.0792):  97%|█████████▋| 16412/16950 [2:57:32<06:51,  1.31it/s]Training 3/3 epoch (loss 0.1063):  97%|█████████▋| 16412/16950 [2:57:33<06:51,  1.31it/s]Training 3/3 epoch (loss 0.1063):  97%|█████████▋| 16413/16950 [2:57:33<06:16,  1.43it/s]Training 3/3 epoch (loss 0.0002):  97%|█████████▋| 16413/16950 [2:57:33<06:16,  1.43it/s]Training 3/3 epoch (loss 0.0002):  97%|█████████▋| 16414/16950 [2:57:33<05:44,  1.55it/s]Training 3/3 epoch (loss 0.0229):  97%|█████████▋| 16414/16950 [2:57:34<05:44,  1.55it/s]Training 3/3 epoch (loss 0.0229):  97%|█████████▋| 16415/16950 [2:57:34<05:43,  1.56it/s]Training 3/3 epoch (loss 0.0042):  97%|█████████▋| 16415/16950 [2:57:35<05:43,  1.56it/s]Training 3/3 epoch (loss 0.0042):  97%|█████████▋| 16416/16950 [2:57:35<06:24,  1.39it/s]Training 3/3 epoch (loss 0.1121):  97%|█████████▋| 16416/16950 [2:57:35<06:24,  1.39it/s]Training 3/3 epoch (loss 0.1121):  97%|█████████▋| 16417/16950 [2:57:35<06:11,  1.43it/s]Training 3/3 epoch (loss 0.0185):  97%|█████████▋| 16417/16950 [2:57:36<06:11,  1.43it/s]Training 3/3 epoch (loss 0.0185):  97%|█████████▋| 16418/16950 [2:57:36<05:51,  1.51it/s]Training 3/3 epoch (loss 0.0681):  97%|█████████▋| 16418/16950 [2:57:36<05:51,  1.51it/s]Training 3/3 epoch (loss 0.0681):  97%|█████████▋| 16419/16950 [2:57:36<05:44,  1.54it/s]Training 3/3 epoch (loss 0.7003):  97%|█████████▋| 16419/16950 [2:57:38<05:44,  1.54it/s]Training 3/3 epoch (loss 0.7003):  97%|█████████▋| 16420/16950 [2:57:38<06:45,  1.31it/s]Training 3/3 epoch (loss 0.0000):  97%|█████████▋| 16420/16950 [2:57:38<06:45,  1.31it/s]Training 3/3 epoch (loss 0.0000):  97%|█████████▋| 16421/16950 [2:57:38<06:06,  1.44it/s]Training 3/3 epoch (loss 0.0778):  97%|█████████▋| 16421/16950 [2:57:39<06:06,  1.44it/s]Training 3/3 epoch (loss 0.0778):  97%|█████████▋| 16422/16950 [2:57:39<05:56,  1.48it/s]Training 3/3 epoch (loss 0.2873):  97%|█████████▋| 16422/16950 [2:57:39<05:56,  1.48it/s]Training 3/3 epoch (loss 0.2873):  97%|█████████▋| 16423/16950 [2:57:39<06:09,  1.43it/s]Training 3/3 epoch (loss 0.4873):  97%|█████████▋| 16423/16950 [2:57:40<06:09,  1.43it/s]Training 3/3 epoch (loss 0.4873):  97%|█████████▋| 16424/16950 [2:57:40<05:30,  1.59it/s]Training 3/3 epoch (loss 0.0032):  97%|█████████▋| 16424/16950 [2:57:41<05:30,  1.59it/s]Training 3/3 epoch (loss 0.0032):  97%|█████████▋| 16425/16950 [2:57:41<05:34,  1.57it/s]Training 3/3 epoch (loss 0.0019):  97%|█████████▋| 16425/16950 [2:57:41<05:34,  1.57it/s]Training 3/3 epoch (loss 0.0019):  97%|█████████▋| 16426/16950 [2:57:41<05:12,  1.68it/s]Training 3/3 epoch (loss 0.7293):  97%|█████████▋| 16426/16950 [2:57:41<05:12,  1.68it/s]Training 3/3 epoch (loss 0.7293):  97%|█████████▋| 16427/16950 [2:57:41<04:43,  1.84it/s]Training 3/3 epoch (loss 0.0001):  97%|█████████▋| 16427/16950 [2:57:42<04:43,  1.84it/s]Training 3/3 epoch (loss 0.0001):  97%|█████████▋| 16428/16950 [2:57:42<04:29,  1.93it/s]Training 3/3 epoch (loss 0.1228):  97%|█████████▋| 16428/16950 [2:57:42<04:29,  1.93it/s]Training 3/3 epoch (loss 0.1228):  97%|█████████▋| 16429/16950 [2:57:42<04:30,  1.93it/s]Training 3/3 epoch (loss 0.0030):  97%|█████████▋| 16429/16950 [2:57:43<04:30,  1.93it/s]Training 3/3 epoch (loss 0.0030):  97%|█████████▋| 16430/16950 [2:57:43<04:27,  1.94it/s]Training 3/3 epoch (loss 0.0001):  97%|█████████▋| 16430/16950 [2:57:43<04:27,  1.94it/s]Training 3/3 epoch (loss 0.0001):  97%|█████████▋| 16431/16950 [2:57:43<04:17,  2.01it/s]Training 3/3 epoch (loss 0.0012):  97%|█████████▋| 16431/16950 [2:57:44<04:17,  2.01it/s]Training 3/3 epoch (loss 0.0012):  97%|█████████▋| 16432/16950 [2:57:44<04:27,  1.94it/s]Training 3/3 epoch (loss 0.1386):  97%|█████████▋| 16432/16950 [2:57:45<04:27,  1.94it/s]Training 3/3 epoch (loss 0.1386):  97%|█████████▋| 16433/16950 [2:57:45<05:53,  1.46it/s]Training 3/3 epoch (loss 0.0421):  97%|█████████▋| 16433/16950 [2:57:46<05:53,  1.46it/s]Training 3/3 epoch (loss 0.0421):  97%|█████████▋| 16434/16950 [2:57:46<05:57,  1.45it/s]Training 3/3 epoch (loss 0.4100):  97%|█████████▋| 16434/16950 [2:57:46<05:57,  1.45it/s]Training 3/3 epoch (loss 0.4100):  97%|█████████▋| 16435/16950 [2:57:46<05:26,  1.58it/s]Training 3/3 epoch (loss 0.2234):  97%|█████████▋| 16435/16950 [2:57:47<05:26,  1.58it/s]Training 3/3 epoch (loss 0.2234):  97%|█████████▋| 16436/16950 [2:57:47<04:54,  1.75it/s]Training 3/3 epoch (loss 0.0040):  97%|█████████▋| 16436/16950 [2:57:47<04:54,  1.75it/s]Training 3/3 epoch (loss 0.0040):  97%|█████████▋| 16437/16950 [2:57:47<04:27,  1.92it/s]Training 3/3 epoch (loss 0.2571):  97%|█████████▋| 16437/16950 [2:57:48<04:27,  1.92it/s]Training 3/3 epoch (loss 0.2571):  97%|█████████▋| 16438/16950 [2:57:48<04:53,  1.74it/s]Training 3/3 epoch (loss 0.2956):  97%|█████████▋| 16438/16950 [2:57:48<04:53,  1.74it/s]Training 3/3 epoch (loss 0.2956):  97%|█████████▋| 16439/16950 [2:57:48<05:09,  1.65it/s]Training 3/3 epoch (loss 0.3037):  97%|█████████▋| 16439/16950 [2:57:49<05:09,  1.65it/s]Training 3/3 epoch (loss 0.3037):  97%|█████████▋| 16440/16950 [2:57:49<05:21,  1.59it/s]Training 3/3 epoch (loss 0.2760):  97%|█████████▋| 16440/16950 [2:57:50<05:21,  1.59it/s]Training 3/3 epoch (loss 0.2760):  97%|█████████▋| 16441/16950 [2:57:50<06:03,  1.40it/s]Training 3/3 epoch (loss 0.0660):  97%|█████████▋| 16441/16950 [2:57:51<06:03,  1.40it/s]Training 3/3 epoch (loss 0.0660):  97%|█████████▋| 16442/16950 [2:57:51<05:51,  1.45it/s]Training 3/3 epoch (loss 0.0001):  97%|█████████▋| 16442/16950 [2:57:51<05:51,  1.45it/s]Training 3/3 epoch (loss 0.0001):  97%|█████████▋| 16443/16950 [2:57:51<04:51,  1.74it/s]Training 3/3 epoch (loss 0.0019):  97%|█████████▋| 16443/16950 [2:57:51<04:51,  1.74it/s]Training 3/3 epoch (loss 0.0019):  97%|█████████▋| 16444/16950 [2:57:51<04:30,  1.87it/s]Training 3/3 epoch (loss 0.0016):  97%|█████████▋| 16444/16950 [2:57:52<04:30,  1.87it/s]Training 3/3 epoch (loss 0.0016):  97%|█████████▋| 16445/16950 [2:57:52<04:46,  1.76it/s]Training 3/3 epoch (loss 0.1342):  97%|█████████▋| 16445/16950 [2:57:53<04:46,  1.76it/s]Training 3/3 epoch (loss 0.1342):  97%|█████████▋| 16446/16950 [2:57:53<04:45,  1.77it/s]Training 3/3 epoch (loss 0.0421):  97%|█████████▋| 16446/16950 [2:57:53<04:45,  1.77it/s]Training 3/3 epoch (loss 0.0421):  97%|█████████▋| 16447/16950 [2:57:53<04:37,  1.82it/s]Training 3/3 epoch (loss 0.0409):  97%|█████████▋| 16447/16950 [2:57:53<04:37,  1.82it/s]Training 3/3 epoch (loss 0.0409):  97%|█████████▋| 16448/16950 [2:57:53<04:00,  2.09it/s]Training 3/3 epoch (loss 0.5640):  97%|█████████▋| 16448/16950 [2:57:54<04:00,  2.09it/s]Training 3/3 epoch (loss 0.5640):  97%|█████████▋| 16449/16950 [2:57:54<03:39,  2.28it/s]Training 3/3 epoch (loss 0.1160):  97%|█████████▋| 16449/16950 [2:57:54<03:39,  2.28it/s]Training 3/3 epoch (loss 0.1160):  97%|█████████▋| 16450/16950 [2:57:54<03:36,  2.31it/s]Training 3/3 epoch (loss 0.0320):  97%|█████████▋| 16450/16950 [2:57:55<03:36,  2.31it/s]Training 3/3 epoch (loss 0.0320):  97%|█████████▋| 16451/16950 [2:57:55<03:44,  2.22it/s]Training 3/3 epoch (loss 0.0403):  97%|█████████▋| 16451/16950 [2:57:55<03:44,  2.22it/s]Training 3/3 epoch (loss 0.0403):  97%|█████████▋| 16452/16950 [2:57:55<04:15,  1.95it/s]Training 3/3 epoch (loss 0.0022):  97%|█████████▋| 16452/16950 [2:57:57<04:15,  1.95it/s]Training 3/3 epoch (loss 0.0022):  97%|█████████▋| 16453/16950 [2:57:57<05:42,  1.45it/s]Training 3/3 epoch (loss 0.0781):  97%|█████████▋| 16453/16950 [2:57:57<05:42,  1.45it/s]Training 3/3 epoch (loss 0.0781):  97%|█████████▋| 16454/16950 [2:57:57<05:30,  1.50it/s]Training 3/3 epoch (loss 0.0394):  97%|█████████▋| 16454/16950 [2:57:58<05:30,  1.50it/s]Training 3/3 epoch (loss 0.0394):  97%|█████████▋| 16455/16950 [2:57:58<04:51,  1.70it/s]Training 3/3 epoch (loss 0.3925):  97%|█████████▋| 16455/16950 [2:57:58<04:51,  1.70it/s]Training 3/3 epoch (loss 0.3925):  97%|█████████▋| 16456/16950 [2:57:58<04:30,  1.82it/s]Training 3/3 epoch (loss 0.0382):  97%|█████████▋| 16456/16950 [2:57:59<04:30,  1.82it/s]Training 3/3 epoch (loss 0.0382):  97%|█████████▋| 16457/16950 [2:57:59<04:34,  1.80it/s]Training 3/3 epoch (loss 0.0001):  97%|█████████▋| 16457/16950 [2:57:59<04:34,  1.80it/s]Training 3/3 epoch (loss 0.0001):  97%|█████████▋| 16458/16950 [2:57:59<04:49,  1.70it/s]Training 3/3 epoch (loss 0.5323):  97%|█████████▋| 16458/16950 [2:58:00<04:49,  1.70it/s]Training 3/3 epoch (loss 0.5323):  97%|█████████▋| 16459/16950 [2:58:00<05:30,  1.49it/s]Training 3/3 epoch (loss 0.3840):  97%|█████████▋| 16459/16950 [2:58:01<05:30,  1.49it/s]Training 3/3 epoch (loss 0.3840):  97%|█████████▋| 16460/16950 [2:58:01<05:20,  1.53it/s]Training 3/3 epoch (loss 0.0165):  97%|█████████▋| 16460/16950 [2:58:01<05:20,  1.53it/s]Training 3/3 epoch (loss 0.0165):  97%|█████████▋| 16461/16950 [2:58:01<05:09,  1.58it/s]Training 3/3 epoch (loss 0.4128):  97%|█████████▋| 16461/16950 [2:58:02<05:09,  1.58it/s]Training 3/3 epoch (loss 0.4128):  97%|█████████▋| 16462/16950 [2:58:02<04:53,  1.66it/s]Training 3/3 epoch (loss 0.0504):  97%|█████████▋| 16462/16950 [2:58:03<04:53,  1.66it/s]Training 3/3 epoch (loss 0.0504):  97%|█████████▋| 16463/16950 [2:58:03<06:16,  1.29it/s]Training 3/3 epoch (loss 0.0003):  97%|█████████▋| 16463/16950 [2:58:04<06:16,  1.29it/s]Training 3/3 epoch (loss 0.0003):  97%|█████████▋| 16464/16950 [2:58:04<06:12,  1.30it/s]Training 3/3 epoch (loss 0.1709):  97%|█████████▋| 16464/16950 [2:58:04<06:12,  1.30it/s]Training 3/3 epoch (loss 0.1709):  97%|█████████▋| 16465/16950 [2:58:04<05:45,  1.40it/s]Training 3/3 epoch (loss 0.0027):  97%|█████████▋| 16465/16950 [2:58:05<05:45,  1.40it/s]Training 3/3 epoch (loss 0.0027):  97%|█████████▋| 16466/16950 [2:58:05<05:09,  1.57it/s]Training 3/3 epoch (loss 0.9577):  97%|█████████▋| 16466/16950 [2:58:05<05:09,  1.57it/s]Training 3/3 epoch (loss 0.9577):  97%|█████████▋| 16467/16950 [2:58:05<05:03,  1.59it/s]Training 3/3 epoch (loss 0.0151):  97%|█████████▋| 16467/16950 [2:58:06<05:03,  1.59it/s]Training 3/3 epoch (loss 0.0151):  97%|█████████▋| 16468/16950 [2:58:06<05:10,  1.55it/s]Training 3/3 epoch (loss 0.0007):  97%|█████████▋| 16468/16950 [2:58:07<05:10,  1.55it/s]Training 3/3 epoch (loss 0.0007):  97%|█████████▋| 16469/16950 [2:58:07<05:05,  1.57it/s]Training 3/3 epoch (loss 0.1436):  97%|█████████▋| 16469/16950 [2:58:07<05:05,  1.57it/s]Training 3/3 epoch (loss 0.1436):  97%|█████████▋| 16470/16950 [2:58:07<04:57,  1.61it/s]Training 3/3 epoch (loss 0.0006):  97%|█████████▋| 16470/16950 [2:58:08<04:57,  1.61it/s]Training 3/3 epoch (loss 0.0006):  97%|█████████▋| 16471/16950 [2:58:08<04:41,  1.70it/s]Training 3/3 epoch (loss 0.2864):  97%|█████████▋| 16471/16950 [2:58:08<04:41,  1.70it/s]Training 3/3 epoch (loss 0.2864):  97%|█████████▋| 16472/16950 [2:58:08<04:53,  1.63it/s]Training 3/3 epoch (loss 0.0951):  97%|█████████▋| 16472/16950 [2:58:09<04:53,  1.63it/s]Training 3/3 epoch (loss 0.0951):  97%|█████████▋| 16473/16950 [2:58:09<04:46,  1.67it/s]Training 3/3 epoch (loss 0.2953):  97%|█████████▋| 16473/16950 [2:58:10<04:46,  1.67it/s]Training 3/3 epoch (loss 0.2953):  97%|█████████▋| 16474/16950 [2:58:10<04:30,  1.76it/s]Training 3/3 epoch (loss 0.0283):  97%|█████████▋| 16474/16950 [2:58:10<04:30,  1.76it/s]Training 3/3 epoch (loss 0.0283):  97%|█████████▋| 16475/16950 [2:58:10<04:27,  1.77it/s]Training 3/3 epoch (loss 0.3681):  97%|█████████▋| 16475/16950 [2:58:10<04:27,  1.77it/s]Training 3/3 epoch (loss 0.3681):  97%|█████████▋| 16476/16950 [2:58:10<04:01,  1.96it/s]Training 3/3 epoch (loss 0.0002):  97%|█████████▋| 16476/16950 [2:58:11<04:01,  1.96it/s]Training 3/3 epoch (loss 0.0002):  97%|█████████▋| 16477/16950 [2:58:11<03:44,  2.11it/s]Training 3/3 epoch (loss 0.2150):  97%|█████████▋| 16477/16950 [2:58:11<03:44,  2.11it/s]Training 3/3 epoch (loss 0.2150):  97%|█████████▋| 16478/16950 [2:58:11<03:39,  2.15it/s]Training 3/3 epoch (loss 0.5282):  97%|█████████▋| 16478/16950 [2:58:12<03:39,  2.15it/s]Training 3/3 epoch (loss 0.5282):  97%|█████████▋| 16479/16950 [2:58:12<04:14,  1.85it/s]Training 3/3 epoch (loss 0.0238):  97%|█████████▋| 16479/16950 [2:58:13<04:14,  1.85it/s]Training 3/3 epoch (loss 0.0238):  97%|█████████▋| 16480/16950 [2:58:13<04:22,  1.79it/s]Training 3/3 epoch (loss 0.0092):  97%|█████████▋| 16480/16950 [2:58:13<04:22,  1.79it/s]Training 3/3 epoch (loss 0.0092):  97%|█████████▋| 16481/16950 [2:58:13<04:19,  1.81it/s]Training 3/3 epoch (loss 0.0024):  97%|█████████▋| 16481/16950 [2:58:14<04:19,  1.81it/s]Training 3/3 epoch (loss 0.0024):  97%|█████████▋| 16482/16950 [2:58:14<03:58,  1.96it/s]Training 3/3 epoch (loss 0.3122):  97%|█████████▋| 16482/16950 [2:58:14<03:58,  1.96it/s]Training 3/3 epoch (loss 0.3122):  97%|█████████▋| 16483/16950 [2:58:14<03:52,  2.01it/s]Training 3/3 epoch (loss 0.6198):  97%|█████████▋| 16483/16950 [2:58:15<03:52,  2.01it/s]Training 3/3 epoch (loss 0.6198):  97%|█████████▋| 16484/16950 [2:58:15<04:23,  1.77it/s]Training 3/3 epoch (loss 0.0000):  97%|█████████▋| 16484/16950 [2:58:15<04:23,  1.77it/s]Training 3/3 epoch (loss 0.0000):  97%|█████████▋| 16485/16950 [2:58:15<04:29,  1.72it/s]Training 3/3 epoch (loss 0.0237):  97%|█████████▋| 16485/16950 [2:58:16<04:29,  1.72it/s]Training 3/3 epoch (loss 0.0237):  97%|█████████▋| 16486/16950 [2:58:16<04:26,  1.74it/s]Training 3/3 epoch (loss 0.2983):  97%|█████████▋| 16486/16950 [2:58:17<04:26,  1.74it/s]Training 3/3 epoch (loss 0.2983):  97%|█████████▋| 16487/16950 [2:58:17<04:33,  1.69it/s]Training 3/3 epoch (loss 0.0552):  97%|█████████▋| 16487/16950 [2:58:17<04:33,  1.69it/s]Training 3/3 epoch (loss 0.0552):  97%|█████████▋| 16488/16950 [2:58:17<04:32,  1.69it/s]Training 3/3 epoch (loss 0.2771):  97%|█████████▋| 16488/16950 [2:58:18<04:32,  1.69it/s]Training 3/3 epoch (loss 0.2771):  97%|█████████▋| 16489/16950 [2:58:18<04:46,  1.61it/s]Training 3/3 epoch (loss 0.0007):  97%|█████████▋| 16489/16950 [2:58:18<04:46,  1.61it/s]Training 3/3 epoch (loss 0.0007):  97%|█████████▋| 16490/16950 [2:58:18<04:28,  1.71it/s]Training 3/3 epoch (loss 0.0004):  97%|█████████▋| 16490/16950 [2:58:19<04:28,  1.71it/s]Training 3/3 epoch (loss 0.0004):  97%|█████████▋| 16491/16950 [2:58:19<04:35,  1.66it/s]Training 3/3 epoch (loss 0.0072):  97%|█████████▋| 16491/16950 [2:58:19<04:35,  1.66it/s]Training 3/3 epoch (loss 0.0072):  97%|█████████▋| 16492/16950 [2:58:19<04:16,  1.79it/s]Training 3/3 epoch (loss 0.1643):  97%|█████████▋| 16492/16950 [2:58:20<04:16,  1.79it/s]Training 3/3 epoch (loss 0.1643):  97%|█████████▋| 16493/16950 [2:58:20<04:02,  1.88it/s]Training 3/3 epoch (loss 0.0062):  97%|█████████▋| 16493/16950 [2:58:20<04:02,  1.88it/s]Training 3/3 epoch (loss 0.0062):  97%|█████████▋| 16494/16950 [2:58:20<03:49,  1.98it/s]Training 3/3 epoch (loss 0.1671):  97%|█████████▋| 16494/16950 [2:58:21<03:49,  1.98it/s]Training 3/3 epoch (loss 0.1671):  97%|█████████▋| 16495/16950 [2:58:21<03:54,  1.94it/s]Training 3/3 epoch (loss 0.0667):  97%|█████████▋| 16495/16950 [2:58:22<03:54,  1.94it/s]Training 3/3 epoch (loss 0.0667):  97%|█████████▋| 16496/16950 [2:58:22<04:16,  1.77it/s]Training 3/3 epoch (loss 0.0075):  97%|█████████▋| 16496/16950 [2:58:22<04:16,  1.77it/s]Training 3/3 epoch (loss 0.0075):  97%|█████████▋| 16497/16950 [2:58:22<04:05,  1.84it/s]Training 3/3 epoch (loss 0.3760):  97%|█████████▋| 16497/16950 [2:58:22<04:05,  1.84it/s]Training 3/3 epoch (loss 0.3760):  97%|█████████▋| 16498/16950 [2:58:22<03:47,  1.99it/s]Training 3/3 epoch (loss 0.0018):  97%|█████████▋| 16498/16950 [2:58:23<03:47,  1.99it/s]Training 3/3 epoch (loss 0.0018):  97%|█████████▋| 16499/16950 [2:58:23<03:50,  1.96it/s]Training 3/3 epoch (loss 0.1362):  97%|█████████▋| 16499/16950 [2:58:24<03:50,  1.96it/s]Training 3/3 epoch (loss 0.1362):  97%|█████████▋| 16500/16950 [2:58:24<04:13,  1.77it/s]Training 3/3 epoch (loss 0.0422):  97%|█████████▋| 16500/16950 [2:58:24<04:13,  1.77it/s]Training 3/3 epoch (loss 0.0422):  97%|█████████▋| 16501/16950 [2:58:24<04:15,  1.76it/s]Training 3/3 epoch (loss 0.2762):  97%|█████████▋| 16501/16950 [2:58:25<04:15,  1.76it/s]Training 3/3 epoch (loss 0.2762):  97%|█████████▋| 16502/16950 [2:58:25<04:38,  1.61it/s]Training 3/3 epoch (loss 0.4081):  97%|█████████▋| 16502/16950 [2:58:26<04:38,  1.61it/s]Training 3/3 epoch (loss 0.4081):  97%|█████████▋| 16503/16950 [2:58:26<04:56,  1.51it/s]Training 3/3 epoch (loss 0.1285):  97%|█████████▋| 16503/16950 [2:58:26<04:56,  1.51it/s]Training 3/3 epoch (loss 0.1285):  97%|█████████▋| 16504/16950 [2:58:26<04:49,  1.54it/s]Training 3/3 epoch (loss 0.0167):  97%|█████████▋| 16504/16950 [2:58:27<04:49,  1.54it/s]Training 3/3 epoch (loss 0.0167):  97%|█████████▋| 16505/16950 [2:58:27<04:19,  1.72it/s]Training 3/3 epoch (loss 0.0182):  97%|█████████▋| 16505/16950 [2:58:27<04:19,  1.72it/s]Training 3/3 epoch (loss 0.0182):  97%|█████████▋| 16506/16950 [2:58:27<04:12,  1.76it/s]Training 3/3 epoch (loss 0.4741):  97%|█████████▋| 16506/16950 [2:58:28<04:12,  1.76it/s]Training 3/3 epoch (loss 0.4741):  97%|█████████▋| 16507/16950 [2:58:28<04:56,  1.49it/s]Training 3/3 epoch (loss 0.2483):  97%|█████████▋| 16507/16950 [2:58:29<04:56,  1.49it/s]Training 3/3 epoch (loss 0.2483):  97%|█████████▋| 16508/16950 [2:58:29<04:25,  1.67it/s]Training 3/3 epoch (loss 0.2408):  97%|█████████▋| 16508/16950 [2:58:29<04:25,  1.67it/s]Training 3/3 epoch (loss 0.2408):  97%|█████████▋| 16509/16950 [2:58:29<04:00,  1.84it/s]Training 3/3 epoch (loss 0.0307):  97%|█████████▋| 16509/16950 [2:58:30<04:00,  1.84it/s]Training 3/3 epoch (loss 0.0307):  97%|█████████▋| 16510/16950 [2:58:30<03:43,  1.97it/s]Training 3/3 epoch (loss 0.0028):  97%|█████████▋| 16510/16950 [2:58:30<03:43,  1.97it/s]Training 3/3 epoch (loss 0.0028):  97%|█████████▋| 16511/16950 [2:58:30<03:39,  2.00it/s]Training 3/3 epoch (loss 0.0260):  97%|█████████▋| 16511/16950 [2:58:31<03:39,  2.00it/s]Training 3/3 epoch (loss 0.0260):  97%|█████████▋| 16512/16950 [2:58:31<04:10,  1.75it/s]Training 3/3 epoch (loss 0.4833):  97%|█████████▋| 16512/16950 [2:58:32<04:10,  1.75it/s]Training 3/3 epoch (loss 0.4833):  97%|█████████▋| 16513/16950 [2:58:32<04:58,  1.47it/s]Training 3/3 epoch (loss 0.0087):  97%|█████████▋| 16513/16950 [2:58:32<04:58,  1.47it/s]Training 3/3 epoch (loss 0.0087):  97%|█████████▋| 16514/16950 [2:58:32<04:34,  1.59it/s]Training 3/3 epoch (loss 0.0021):  97%|█████████▋| 16514/16950 [2:58:33<04:34,  1.59it/s]Training 3/3 epoch (loss 0.0021):  97%|█████████▋| 16515/16950 [2:58:33<04:34,  1.58it/s]Training 3/3 epoch (loss 0.5619):  97%|█████████▋| 16515/16950 [2:58:34<04:34,  1.58it/s]Training 3/3 epoch (loss 0.5619):  97%|█████████▋| 16516/16950 [2:58:34<04:46,  1.51it/s]Training 3/3 epoch (loss 0.2744):  97%|█████████▋| 16516/16950 [2:58:34<04:46,  1.51it/s]Training 3/3 epoch (loss 0.2744):  97%|█████████▋| 16517/16950 [2:58:34<04:24,  1.63it/s]Training 3/3 epoch (loss 0.3543):  97%|█████████▋| 16517/16950 [2:58:35<04:24,  1.63it/s]Training 3/3 epoch (loss 0.3543):  97%|█████████▋| 16518/16950 [2:58:35<05:10,  1.39it/s]Training 3/3 epoch (loss 0.1408):  97%|█████████▋| 16518/16950 [2:58:36<05:10,  1.39it/s]Training 3/3 epoch (loss 0.1408):  97%|█████████▋| 16519/16950 [2:58:36<05:37,  1.28it/s]Training 3/3 epoch (loss 0.0134):  97%|█████████▋| 16519/16950 [2:58:37<05:37,  1.28it/s]Training 3/3 epoch (loss 0.0134):  97%|█████████▋| 16520/16950 [2:58:37<05:11,  1.38it/s]Training 3/3 epoch (loss 0.0542):  97%|█████████▋| 16520/16950 [2:58:37<05:11,  1.38it/s]Training 3/3 epoch (loss 0.0542):  97%|█████████▋| 16521/16950 [2:58:37<04:57,  1.44it/s]Training 3/3 epoch (loss 0.7812):  97%|█████████▋| 16521/16950 [2:58:38<04:57,  1.44it/s]Training 3/3 epoch (loss 0.7812):  97%|█████████▋| 16522/16950 [2:58:38<04:27,  1.60it/s]Training 3/3 epoch (loss 0.4764):  97%|█████████▋| 16522/16950 [2:58:38<04:27,  1.60it/s]Training 3/3 epoch (loss 0.4764):  97%|█████████▋| 16523/16950 [2:58:38<04:52,  1.46it/s]Training 3/3 epoch (loss 0.0172):  97%|█████████▋| 16523/16950 [2:58:40<04:52,  1.46it/s]Training 3/3 epoch (loss 0.0172):  97%|█████████▋| 16524/16950 [2:58:40<05:53,  1.21it/s]Training 3/3 epoch (loss 0.6214):  97%|█████████▋| 16524/16950 [2:58:40<05:53,  1.21it/s]Training 3/3 epoch (loss 0.6214):  97%|█████████▋| 16525/16950 [2:58:40<05:03,  1.40it/s]Training 3/3 epoch (loss 0.0087):  97%|█████████▋| 16525/16950 [2:58:40<05:03,  1.40it/s]Training 3/3 epoch (loss 0.0087):  97%|█████████▋| 16526/16950 [2:58:40<04:15,  1.66it/s]Training 3/3 epoch (loss 0.0730):  97%|█████████▋| 16526/16950 [2:58:41<04:15,  1.66it/s]Training 3/3 epoch (loss 0.0730):  98%|█████████▊| 16527/16950 [2:58:41<04:01,  1.75it/s]Training 3/3 epoch (loss 0.2383):  98%|█████████▊| 16527/16950 [2:58:41<04:01,  1.75it/s]Training 3/3 epoch (loss 0.2383):  98%|█████████▊| 16528/16950 [2:58:41<04:02,  1.74it/s]Training 3/3 epoch (loss 0.2571):  98%|█████████▊| 16528/16950 [2:58:42<04:02,  1.74it/s]Training 3/3 epoch (loss 0.2571):  98%|█████████▊| 16529/16950 [2:58:42<03:49,  1.84it/s]Training 3/3 epoch (loss 0.0417):  98%|█████████▊| 16529/16950 [2:58:42<03:49,  1.84it/s]Training 3/3 epoch (loss 0.0417):  98%|█████████▊| 16530/16950 [2:58:42<03:41,  1.90it/s]Training 3/3 epoch (loss 0.0477):  98%|█████████▊| 16530/16950 [2:58:43<03:41,  1.90it/s]Training 3/3 epoch (loss 0.0477):  98%|█████████▊| 16531/16950 [2:58:43<03:37,  1.93it/s]Training 3/3 epoch (loss 0.0008):  98%|█████████▊| 16531/16950 [2:58:44<03:37,  1.93it/s]Training 3/3 epoch (loss 0.0008):  98%|█████████▊| 16532/16950 [2:58:44<03:40,  1.89it/s]Training 3/3 epoch (loss 0.0022):  98%|█████████▊| 16532/16950 [2:58:44<03:40,  1.89it/s]Training 3/3 epoch (loss 0.0022):  98%|█████████▊| 16533/16950 [2:58:44<03:51,  1.80it/s]Training 3/3 epoch (loss 0.1912):  98%|█████████▊| 16533/16950 [2:58:44<03:51,  1.80it/s]Training 3/3 epoch (loss 0.1912):  98%|█████████▊| 16534/16950 [2:58:45<03:28,  2.00it/s]Training 3/3 epoch (loss 0.1710):  98%|█████████▊| 16534/16950 [2:58:45<03:28,  2.00it/s]Training 3/3 epoch (loss 0.1710):  98%|█████████▊| 16535/16950 [2:58:45<03:09,  2.19it/s]Training 3/3 epoch (loss 0.3663):  98%|█████████▊| 16535/16950 [2:58:46<03:09,  2.19it/s]Training 3/3 epoch (loss 0.3663):  98%|█████████▊| 16536/16950 [2:58:46<04:10,  1.65it/s]Training 3/3 epoch (loss 0.0357):  98%|█████████▊| 16536/16950 [2:58:46<04:10,  1.65it/s]Training 3/3 epoch (loss 0.0357):  98%|█████████▊| 16537/16950 [2:58:46<04:16,  1.61it/s]Training 3/3 epoch (loss 0.0017):  98%|█████████▊| 16537/16950 [2:58:47<04:16,  1.61it/s]Training 3/3 epoch (loss 0.0017):  98%|█████████▊| 16538/16950 [2:58:47<04:19,  1.59it/s]Training 3/3 epoch (loss 0.0037):  98%|█████████▊| 16538/16950 [2:58:48<04:19,  1.59it/s]Training 3/3 epoch (loss 0.0037):  98%|█████████▊| 16539/16950 [2:58:48<04:15,  1.61it/s]Training 3/3 epoch (loss 0.0028):  98%|█████████▊| 16539/16950 [2:58:48<04:15,  1.61it/s]Training 3/3 epoch (loss 0.0028):  98%|█████████▊| 16540/16950 [2:58:48<04:17,  1.59it/s]Training 3/3 epoch (loss 0.4351):  98%|█████████▊| 16540/16950 [2:58:49<04:17,  1.59it/s]Training 3/3 epoch (loss 0.4351):  98%|█████████▊| 16541/16950 [2:58:49<04:01,  1.69it/s]Training 3/3 epoch (loss 0.0406):  98%|█████████▊| 16541/16950 [2:58:50<04:01,  1.69it/s]Training 3/3 epoch (loss 0.0406):  98%|█████████▊| 16542/16950 [2:58:50<04:29,  1.51it/s]Training 3/3 epoch (loss 0.0078):  98%|█████████▊| 16542/16950 [2:58:50<04:29,  1.51it/s]Training 3/3 epoch (loss 0.0078):  98%|█████████▊| 16543/16950 [2:58:50<04:36,  1.47it/s]Training 3/3 epoch (loss 0.0299):  98%|█████████▊| 16543/16950 [2:58:51<04:36,  1.47it/s]Training 3/3 epoch (loss 0.0299):  98%|█████████▊| 16544/16950 [2:58:51<04:14,  1.59it/s]Training 3/3 epoch (loss 0.0384):  98%|█████████▊| 16544/16950 [2:58:52<04:14,  1.59it/s]Training 3/3 epoch (loss 0.0384):  98%|█████████▊| 16545/16950 [2:58:52<04:13,  1.60it/s]Training 3/3 epoch (loss 0.0122):  98%|█████████▊| 16545/16950 [2:58:52<04:13,  1.60it/s]Training 3/3 epoch (loss 0.0122):  98%|█████████▊| 16546/16950 [2:58:52<04:40,  1.44it/s]Training 3/3 epoch (loss 0.3250):  98%|█████████▊| 16546/16950 [2:58:53<04:40,  1.44it/s]Training 3/3 epoch (loss 0.3250):  98%|█████████▊| 16547/16950 [2:58:53<04:25,  1.52it/s]Training 3/3 epoch (loss 0.0011):  98%|█████████▊| 16547/16950 [2:58:54<04:25,  1.52it/s]Training 3/3 epoch (loss 0.0011):  98%|█████████▊| 16548/16950 [2:58:54<04:20,  1.54it/s]Training 3/3 epoch (loss 0.6337):  98%|█████████▊| 16548/16950 [2:58:54<04:20,  1.54it/s]Training 3/3 epoch (loss 0.6337):  98%|█████████▊| 16549/16950 [2:58:54<04:04,  1.64it/s]Training 3/3 epoch (loss 0.0068):  98%|█████████▊| 16549/16950 [2:58:55<04:04,  1.64it/s]Training 3/3 epoch (loss 0.0068):  98%|█████████▊| 16550/16950 [2:58:55<03:48,  1.75it/s]Training 3/3 epoch (loss 0.2071):  98%|█████████▊| 16550/16950 [2:58:55<03:48,  1.75it/s]Training 3/3 epoch (loss 0.2071):  98%|█████████▊| 16551/16950 [2:58:55<03:40,  1.81it/s]Training 3/3 epoch (loss 0.0630):  98%|█████████▊| 16551/16950 [2:58:56<03:40,  1.81it/s]Training 3/3 epoch (loss 0.0630):  98%|█████████▊| 16552/16950 [2:58:56<04:18,  1.54it/s]Training 3/3 epoch (loss 0.0004):  98%|█████████▊| 16552/16950 [2:58:57<04:18,  1.54it/s]Training 3/3 epoch (loss 0.0004):  98%|█████████▊| 16553/16950 [2:58:57<04:06,  1.61it/s]Training 3/3 epoch (loss 0.0296):  98%|█████████▊| 16553/16950 [2:58:57<04:06,  1.61it/s]Training 3/3 epoch (loss 0.0296):  98%|█████████▊| 16554/16950 [2:58:57<04:17,  1.54it/s]Training 3/3 epoch (loss 0.0031):  98%|█████████▊| 16554/16950 [2:58:58<04:17,  1.54it/s]Training 3/3 epoch (loss 0.0031):  98%|█████████▊| 16555/16950 [2:58:58<04:05,  1.61it/s]Training 3/3 epoch (loss 0.1291):  98%|█████████▊| 16555/16950 [2:58:58<04:05,  1.61it/s]Training 3/3 epoch (loss 0.1291):  98%|█████████▊| 16556/16950 [2:58:58<03:48,  1.73it/s]Training 3/3 epoch (loss 0.0006):  98%|█████████▊| 16556/16950 [2:58:59<03:48,  1.73it/s]Training 3/3 epoch (loss 0.0006):  98%|█████████▊| 16557/16950 [2:58:59<03:41,  1.77it/s]Training 3/3 epoch (loss 0.0093):  98%|█████████▊| 16557/16950 [2:58:59<03:41,  1.77it/s]Training 3/3 epoch (loss 0.0093):  98%|█████████▊| 16558/16950 [2:58:59<03:52,  1.69it/s]Training 3/3 epoch (loss 0.0009):  98%|█████████▊| 16558/16950 [2:59:00<03:52,  1.69it/s]Training 3/3 epoch (loss 0.0009):  98%|█████████▊| 16559/16950 [2:59:00<03:30,  1.86it/s]Training 3/3 epoch (loss 0.0138):  98%|█████████▊| 16559/16950 [2:59:01<03:30,  1.86it/s]Training 3/3 epoch (loss 0.0138):  98%|█████████▊| 16560/16950 [2:59:01<03:44,  1.74it/s]Training 3/3 epoch (loss 0.0014):  98%|█████████▊| 16560/16950 [2:59:01<03:44,  1.74it/s]Training 3/3 epoch (loss 0.0014):  98%|█████████▊| 16561/16950 [2:59:01<03:31,  1.84it/s]Training 3/3 epoch (loss 0.0048):  98%|█████████▊| 16561/16950 [2:59:01<03:31,  1.84it/s]Training 3/3 epoch (loss 0.0048):  98%|█████████▊| 16562/16950 [2:59:01<03:19,  1.94it/s]Training 3/3 epoch (loss 0.0207):  98%|█████████▊| 16562/16950 [2:59:02<03:19,  1.94it/s]Training 3/3 epoch (loss 0.0207):  98%|█████████▊| 16563/16950 [2:59:02<03:20,  1.93it/s]Training 3/3 epoch (loss 0.3021):  98%|█████████▊| 16563/16950 [2:59:03<03:20,  1.93it/s]Training 3/3 epoch (loss 0.3021):  98%|█████████▊| 16564/16950 [2:59:03<03:33,  1.81it/s]Training 3/3 epoch (loss 0.0307):  98%|█████████▊| 16564/16950 [2:59:03<03:33,  1.81it/s]Training 3/3 epoch (loss 0.0307):  98%|█████████▊| 16565/16950 [2:59:03<03:46,  1.70it/s]Training 3/3 epoch (loss 0.0041):  98%|█████████▊| 16565/16950 [2:59:04<03:46,  1.70it/s]Training 3/3 epoch (loss 0.0041):  98%|█████████▊| 16566/16950 [2:59:04<04:19,  1.48it/s]Training 3/3 epoch (loss 0.0360):  98%|█████████▊| 16566/16950 [2:59:05<04:19,  1.48it/s]Training 3/3 epoch (loss 0.0360):  98%|█████████▊| 16567/16950 [2:59:05<04:07,  1.55it/s]Training 3/3 epoch (loss 0.2536):  98%|█████████▊| 16567/16950 [2:59:05<04:07,  1.55it/s]Training 3/3 epoch (loss 0.2536):  98%|█████████▊| 16568/16950 [2:59:05<03:45,  1.69it/s]Training 3/3 epoch (loss 0.0004):  98%|█████████▊| 16568/16950 [2:59:06<03:45,  1.69it/s]Training 3/3 epoch (loss 0.0004):  98%|█████████▊| 16569/16950 [2:59:06<03:21,  1.89it/s]Training 3/3 epoch (loss 0.0021):  98%|█████████▊| 16569/16950 [2:59:06<03:21,  1.89it/s]Training 3/3 epoch (loss 0.0021):  98%|█████████▊| 16570/16950 [2:59:06<03:13,  1.96it/s]Training 3/3 epoch (loss 0.0020):  98%|█████████▊| 16570/16950 [2:59:07<03:13,  1.96it/s]Training 3/3 epoch (loss 0.0020):  98%|█████████▊| 16571/16950 [2:59:07<03:05,  2.05it/s]Training 3/3 epoch (loss 0.0295):  98%|█████████▊| 16571/16950 [2:59:07<03:05,  2.05it/s]Training 3/3 epoch (loss 0.0295):  98%|█████████▊| 16572/16950 [2:59:07<03:18,  1.91it/s]Training 3/3 epoch (loss 0.0047):  98%|█████████▊| 16572/16950 [2:59:08<03:18,  1.91it/s]Training 3/3 epoch (loss 0.0047):  98%|█████████▊| 16573/16950 [2:59:08<03:37,  1.73it/s]Training 3/3 epoch (loss 0.1533):  98%|█████████▊| 16573/16950 [2:59:08<03:37,  1.73it/s]Training 3/3 epoch (loss 0.1533):  98%|█████████▊| 16574/16950 [2:59:08<03:25,  1.83it/s]Training 3/3 epoch (loss 0.0056):  98%|█████████▊| 16574/16950 [2:59:09<03:25,  1.83it/s]Training 3/3 epoch (loss 0.0056):  98%|█████████▊| 16575/16950 [2:59:09<04:00,  1.56it/s]Training 3/3 epoch (loss 0.0770):  98%|█████████▊| 16575/16950 [2:59:10<04:00,  1.56it/s]Training 3/3 epoch (loss 0.0770):  98%|█████████▊| 16576/16950 [2:59:10<03:54,  1.59it/s]Training 3/3 epoch (loss 0.0453):  98%|█████████▊| 16576/16950 [2:59:10<03:54,  1.59it/s]Training 3/3 epoch (loss 0.0453):  98%|█████████▊| 16577/16950 [2:59:10<03:33,  1.75it/s]Training 3/3 epoch (loss 0.5380):  98%|█████████▊| 16577/16950 [2:59:11<03:33,  1.75it/s]Training 3/3 epoch (loss 0.5380):  98%|█████████▊| 16578/16950 [2:59:11<03:07,  1.99it/s]Training 3/3 epoch (loss 0.0243):  98%|█████████▊| 16578/16950 [2:59:11<03:07,  1.99it/s]Training 3/3 epoch (loss 0.0243):  98%|█████████▊| 16579/16950 [2:59:11<03:17,  1.88it/s]Training 3/3 epoch (loss 0.3542):  98%|█████████▊| 16579/16950 [2:59:12<03:17,  1.88it/s]Training 3/3 epoch (loss 0.3542):  98%|█████████▊| 16580/16950 [2:59:12<03:11,  1.93it/s]Training 3/3 epoch (loss 0.1331):  98%|█████████▊| 16580/16950 [2:59:12<03:11,  1.93it/s]Training 3/3 epoch (loss 0.1331):  98%|█████████▊| 16581/16950 [2:59:12<03:07,  1.97it/s]Training 3/3 epoch (loss 0.0001):  98%|█████████▊| 16581/16950 [2:59:13<03:07,  1.97it/s]Training 3/3 epoch (loss 0.0001):  98%|█████████▊| 16582/16950 [2:59:13<03:01,  2.03it/s]Training 3/3 epoch (loss 0.0011):  98%|█████████▊| 16582/16950 [2:59:14<03:01,  2.03it/s]Training 3/3 epoch (loss 0.0011):  98%|█████████▊| 16583/16950 [2:59:14<04:02,  1.51it/s]Training 3/3 epoch (loss 0.0631):  98%|█████████▊| 16583/16950 [2:59:14<04:02,  1.51it/s]Training 3/3 epoch (loss 0.0631):  98%|█████████▊| 16584/16950 [2:59:14<04:22,  1.39it/s]Training 3/3 epoch (loss 0.3620):  98%|█████████▊| 16584/16950 [2:59:15<04:22,  1.39it/s]Training 3/3 epoch (loss 0.3620):  98%|█████████▊| 16585/16950 [2:59:15<04:20,  1.40it/s]Training 3/3 epoch (loss 0.0136):  98%|█████████▊| 16585/16950 [2:59:16<04:20,  1.40it/s]Training 3/3 epoch (loss 0.0136):  98%|█████████▊| 16586/16950 [2:59:16<04:34,  1.32it/s]Training 3/3 epoch (loss 0.0757):  98%|█████████▊| 16586/16950 [2:59:17<04:34,  1.32it/s]Training 3/3 epoch (loss 0.0757):  98%|█████████▊| 16587/16950 [2:59:17<04:15,  1.42it/s]Training 3/3 epoch (loss 0.0218):  98%|█████████▊| 16587/16950 [2:59:17<04:15,  1.42it/s]Training 3/3 epoch (loss 0.0218):  98%|█████████▊| 16588/16950 [2:59:17<04:32,  1.33it/s]Training 3/3 epoch (loss 0.0320):  98%|█████████▊| 16588/16950 [2:59:18<04:32,  1.33it/s]Training 3/3 epoch (loss 0.0320):  98%|█████████▊| 16589/16950 [2:59:18<04:18,  1.40it/s]Training 3/3 epoch (loss 0.0001):  98%|█████████▊| 16589/16950 [2:59:19<04:18,  1.40it/s]Training 3/3 epoch (loss 0.0001):  98%|█████████▊| 16590/16950 [2:59:19<04:14,  1.42it/s]Training 3/3 epoch (loss 0.0105):  98%|█████████▊| 16590/16950 [2:59:19<04:14,  1.42it/s]Training 3/3 epoch (loss 0.0105):  98%|█████████▊| 16591/16950 [2:59:19<03:50,  1.56it/s]Training 3/3 epoch (loss 0.3598):  98%|█████████▊| 16591/16950 [2:59:20<03:50,  1.56it/s]Training 3/3 epoch (loss 0.3598):  98%|█████████▊| 16592/16950 [2:59:20<03:47,  1.57it/s]Training 3/3 epoch (loss 0.0848):  98%|█████████▊| 16592/16950 [2:59:21<03:47,  1.57it/s]Training 3/3 epoch (loss 0.0848):  98%|█████████▊| 16593/16950 [2:59:21<03:44,  1.59it/s]Training 3/3 epoch (loss 0.0444):  98%|█████████▊| 16593/16950 [2:59:21<03:44,  1.59it/s]Training 3/3 epoch (loss 0.0444):  98%|█████████▊| 16594/16950 [2:59:21<03:47,  1.56it/s]Training 3/3 epoch (loss 0.0081):  98%|█████████▊| 16594/16950 [2:59:22<03:47,  1.56it/s]Training 3/3 epoch (loss 0.0081):  98%|█████████▊| 16595/16950 [2:59:22<03:38,  1.63it/s]Training 3/3 epoch (loss 0.0007):  98%|█████████▊| 16595/16950 [2:59:22<03:38,  1.63it/s]Training 3/3 epoch (loss 0.0007):  98%|█████████▊| 16596/16950 [2:59:22<03:28,  1.70it/s]Training 3/3 epoch (loss 0.0001):  98%|█████████▊| 16596/16950 [2:59:23<03:28,  1.70it/s]Training 3/3 epoch (loss 0.0001):  98%|█████████▊| 16597/16950 [2:59:23<03:06,  1.89it/s]Training 3/3 epoch (loss 0.0072):  98%|█████████▊| 16597/16950 [2:59:23<03:06,  1.89it/s]Training 3/3 epoch (loss 0.0072):  98%|█████████▊| 16598/16950 [2:59:23<03:23,  1.73it/s]Training 3/3 epoch (loss 0.0787):  98%|█████████▊| 16598/16950 [2:59:24<03:23,  1.73it/s]Training 3/3 epoch (loss 0.0787):  98%|█████████▊| 16599/16950 [2:59:24<03:34,  1.64it/s]Training 3/3 epoch (loss 0.0821):  98%|█████████▊| 16599/16950 [2:59:25<03:34,  1.64it/s]Training 3/3 epoch (loss 0.0821):  98%|█████████▊| 16600/16950 [2:59:25<03:40,  1.59it/s]Training 3/3 epoch (loss 0.1058):  98%|█████████▊| 16600/16950 [2:59:25<03:40,  1.59it/s]Training 3/3 epoch (loss 0.1058):  98%|█████████▊| 16601/16950 [2:59:25<03:35,  1.62it/s]Training 3/3 epoch (loss 0.0009):  98%|█████████▊| 16601/16950 [2:59:26<03:35,  1.62it/s]Training 3/3 epoch (loss 0.0009):  98%|█████████▊| 16602/16950 [2:59:26<03:27,  1.67it/s]Training 3/3 epoch (loss 0.2416):  98%|█████████▊| 16602/16950 [2:59:26<03:27,  1.67it/s]Training 3/3 epoch (loss 0.2416):  98%|█████████▊| 16603/16950 [2:59:26<03:12,  1.81it/s]Training 3/3 epoch (loss 0.0001):  98%|█████████▊| 16603/16950 [2:59:27<03:12,  1.81it/s]Training 3/3 epoch (loss 0.0001):  98%|█████████▊| 16604/16950 [2:59:27<03:11,  1.81it/s]Training 3/3 epoch (loss 0.0014):  98%|█████████▊| 16604/16950 [2:59:27<03:11,  1.81it/s]Training 3/3 epoch (loss 0.0014):  98%|█████████▊| 16605/16950 [2:59:27<03:04,  1.87it/s]Training 3/3 epoch (loss 0.0009):  98%|█████████▊| 16605/16950 [2:59:28<03:04,  1.87it/s]Training 3/3 epoch (loss 0.0009):  98%|█████████▊| 16606/16950 [2:59:28<02:54,  1.97it/s]Training 3/3 epoch (loss 0.4317):  98%|█████████▊| 16606/16950 [2:59:29<02:54,  1.97it/s]Training 3/3 epoch (loss 0.4317):  98%|█████████▊| 16607/16950 [2:59:29<03:40,  1.56it/s]Training 3/3 epoch (loss 0.0043):  98%|█████████▊| 16607/16950 [2:59:29<03:40,  1.56it/s]Training 3/3 epoch (loss 0.0043):  98%|█████████▊| 16608/16950 [2:59:29<03:41,  1.54it/s]Training 3/3 epoch (loss 0.0043):  98%|█████████▊| 16608/16950 [2:59:30<03:41,  1.54it/s]Training 3/3 epoch (loss 0.0043):  98%|█████████▊| 16609/16950 [2:59:30<03:26,  1.65it/s]Training 3/3 epoch (loss 0.2419):  98%|█████████▊| 16609/16950 [2:59:30<03:26,  1.65it/s]Training 3/3 epoch (loss 0.2419):  98%|█████████▊| 16610/16950 [2:59:30<03:08,  1.80it/s]Training 3/3 epoch (loss 0.0044):  98%|█████████▊| 16610/16950 [2:59:31<03:08,  1.80it/s]Training 3/3 epoch (loss 0.0044):  98%|█████████▊| 16611/16950 [2:59:31<03:43,  1.52it/s]Training 3/3 epoch (loss 0.4513):  98%|█████████▊| 16611/16950 [2:59:32<03:43,  1.52it/s]Training 3/3 epoch (loss 0.4513):  98%|█████████▊| 16612/16950 [2:59:32<03:12,  1.76it/s]Training 3/3 epoch (loss nan):  98%|█████████▊| 16612/16950 [2:59:33<03:12,  1.76it/s]   Training 3/3 epoch (loss nan):  98%|█████████▊| 16613/16950 [2:59:33<04:06,  1.37it/s]Training 3/3 epoch (loss 0.0164):  98%|█████████▊| 16613/16950 [2:59:33<04:06,  1.37it/s]Training 3/3 epoch (loss 0.0164):  98%|█████████▊| 16614/16950 [2:59:33<04:01,  1.39it/s]Training 3/3 epoch (loss nan):  98%|█████████▊| 16614/16950 [2:59:35<04:01,  1.39it/s]   Training 3/3 epoch (loss nan):  98%|█████████▊| 16615/16950 [2:59:35<04:43,  1.18it/s]Training 3/3 epoch (loss 0.0089):  98%|█████████▊| 16615/16950 [2:59:35<04:43,  1.18it/s]Training 3/3 epoch (loss 0.0089):  98%|█████████▊| 16616/16950 [2:59:35<04:32,  1.22it/s]Training 3/3 epoch (loss 0.0008):  98%|█████████▊| 16616/16950 [2:59:36<04:32,  1.22it/s]Training 3/3 epoch (loss 0.0008):  98%|█████████▊| 16617/16950 [2:59:36<04:08,  1.34it/s]Training 3/3 epoch (loss 0.3087):  98%|█████████▊| 16617/16950 [2:59:36<04:08,  1.34it/s]Training 3/3 epoch (loss 0.3087):  98%|█████████▊| 16618/16950 [2:59:36<03:44,  1.48it/s]Training 3/3 epoch (loss 0.0202):  98%|█████████▊| 16618/16950 [2:59:37<03:44,  1.48it/s]Training 3/3 epoch (loss 0.0202):  98%|█████████▊| 16619/16950 [2:59:37<03:45,  1.46it/s]Training 3/3 epoch (loss 0.0191):  98%|█████████▊| 16619/16950 [2:59:38<03:45,  1.46it/s]Training 3/3 epoch (loss 0.0191):  98%|█████████▊| 16620/16950 [2:59:38<03:33,  1.55it/s]Training 3/3 epoch (loss 0.0005):  98%|█████████▊| 16620/16950 [2:59:38<03:33,  1.55it/s]Training 3/3 epoch (loss 0.0005):  98%|█████████▊| 16621/16950 [2:59:38<03:30,  1.57it/s]Training 3/3 epoch (loss 0.0023):  98%|█████████▊| 16621/16950 [2:59:39<03:30,  1.57it/s]Training 3/3 epoch (loss 0.0023):  98%|█████████▊| 16622/16950 [2:59:39<03:45,  1.46it/s]Training 3/3 epoch (loss 0.0073):  98%|█████████▊| 16622/16950 [2:59:40<03:45,  1.46it/s]Training 3/3 epoch (loss 0.0073):  98%|█████████▊| 16623/16950 [2:59:40<03:27,  1.57it/s]Training 3/3 epoch (loss 0.2795):  98%|█████████▊| 16623/16950 [2:59:40<03:27,  1.57it/s]Training 3/3 epoch (loss 0.2795):  98%|█████████▊| 16624/16950 [2:59:40<03:31,  1.54it/s]Training 3/3 epoch (loss 0.3679):  98%|█████████▊| 16624/16950 [2:59:41<03:31,  1.54it/s]Training 3/3 epoch (loss 0.3679):  98%|█████████▊| 16625/16950 [2:59:41<03:12,  1.69it/s]Training 3/3 epoch (loss 0.3890):  98%|█████████▊| 16625/16950 [2:59:41<03:12,  1.69it/s]Training 3/3 epoch (loss 0.3890):  98%|█████████▊| 16626/16950 [2:59:41<02:51,  1.89it/s]Training 3/3 epoch (loss 0.0000):  98%|█████████▊| 16626/16950 [2:59:41<02:51,  1.89it/s]Training 3/3 epoch (loss 0.0000):  98%|█████████▊| 16627/16950 [2:59:41<02:36,  2.06it/s]Training 3/3 epoch (loss 0.0019):  98%|█████████▊| 16627/16950 [2:59:42<02:36,  2.06it/s]Training 3/3 epoch (loss 0.0019):  98%|█████████▊| 16628/16950 [2:59:42<02:45,  1.95it/s]Training 3/3 epoch (loss 0.3232):  98%|█████████▊| 16628/16950 [2:59:43<02:45,  1.95it/s]Training 3/3 epoch (loss 0.3232):  98%|█████████▊| 16629/16950 [2:59:43<02:36,  2.05it/s]Training 3/3 epoch (loss 0.0305):  98%|█████████▊| 16629/16950 [2:59:43<02:36,  2.05it/s]Training 3/3 epoch (loss 0.0305):  98%|█████████▊| 16630/16950 [2:59:43<02:33,  2.08it/s]Training 3/3 epoch (loss 0.0245):  98%|█████████▊| 16630/16950 [2:59:44<02:33,  2.08it/s]Training 3/3 epoch (loss 0.0245):  98%|█████████▊| 16631/16950 [2:59:44<02:48,  1.90it/s]Training 3/3 epoch (loss 0.2635):  98%|█████████▊| 16631/16950 [2:59:44<02:48,  1.90it/s]Training 3/3 epoch (loss 0.2635):  98%|█████████▊| 16632/16950 [2:59:44<02:51,  1.86it/s]Training 3/3 epoch (loss 0.0418):  98%|█████████▊| 16632/16950 [2:59:45<02:51,  1.86it/s]Training 3/3 epoch (loss 0.0418):  98%|█████████▊| 16633/16950 [2:59:45<02:54,  1.81it/s]Training 3/3 epoch (loss 0.0237):  98%|█████████▊| 16633/16950 [2:59:45<02:54,  1.81it/s]Training 3/3 epoch (loss 0.0237):  98%|█████████▊| 16634/16950 [2:59:45<02:54,  1.81it/s]Training 3/3 epoch (loss 0.0083):  98%|█████████▊| 16634/16950 [2:59:46<02:54,  1.81it/s]Training 3/3 epoch (loss 0.0083):  98%|█████████▊| 16635/16950 [2:59:46<03:02,  1.73it/s]Training 3/3 epoch (loss 0.1094):  98%|█████████▊| 16635/16950 [2:59:47<03:02,  1.73it/s]Training 3/3 epoch (loss 0.1094):  98%|█████████▊| 16636/16950 [2:59:47<03:09,  1.66it/s]Training 3/3 epoch (loss 0.2548):  98%|█████████▊| 16636/16950 [2:59:47<03:09,  1.66it/s]Training 3/3 epoch (loss 0.2548):  98%|█████████▊| 16637/16950 [2:59:47<02:55,  1.79it/s]Training 3/3 epoch (loss 0.0001):  98%|█████████▊| 16637/16950 [2:59:47<02:55,  1.79it/s]Training 3/3 epoch (loss 0.0001):  98%|█████████▊| 16638/16950 [2:59:47<02:42,  1.92it/s]Training 3/3 epoch (loss 0.5896):  98%|█████████▊| 16638/16950 [2:59:48<02:42,  1.92it/s]Training 3/3 epoch (loss 0.5896):  98%|█████████▊| 16639/16950 [2:59:48<02:39,  1.95it/s]Training 3/3 epoch (loss 0.4420):  98%|█████████▊| 16639/16950 [2:59:48<02:39,  1.95it/s]Training 3/3 epoch (loss 0.4420):  98%|█████████▊| 16640/16950 [2:59:48<02:26,  2.12it/s]Training 3/3 epoch (loss 0.0713):  98%|█████████▊| 16640/16950 [2:59:49<02:26,  2.12it/s]Training 3/3 epoch (loss 0.0713):  98%|█████████▊| 16641/16950 [2:59:49<03:02,  1.69it/s]Training 3/3 epoch (loss 0.3208):  98%|█████████▊| 16641/16950 [2:59:50<03:02,  1.69it/s]Training 3/3 epoch (loss 0.3208):  98%|█████████▊| 16642/16950 [2:59:50<03:02,  1.69it/s]Training 3/3 epoch (loss 0.0142):  98%|█████████▊| 16642/16950 [2:59:50<03:02,  1.69it/s]Training 3/3 epoch (loss 0.0142):  98%|█████████▊| 16643/16950 [2:59:50<03:04,  1.66it/s]Training 3/3 epoch (loss 0.0040):  98%|█████████▊| 16643/16950 [2:59:51<03:04,  1.66it/s]Training 3/3 epoch (loss 0.0040):  98%|█████████▊| 16644/16950 [2:59:51<03:03,  1.67it/s]Training 3/3 epoch (loss 0.2372):  98%|█████████▊| 16644/16950 [2:59:52<03:03,  1.67it/s]Training 3/3 epoch (loss 0.2372):  98%|█████████▊| 16645/16950 [2:59:52<03:04,  1.65it/s]Training 3/3 epoch (loss 0.3115):  98%|█████████▊| 16645/16950 [2:59:52<03:04,  1.65it/s]Training 3/3 epoch (loss 0.3115):  98%|█████████▊| 16646/16950 [2:59:52<03:22,  1.50it/s]Training 3/3 epoch (loss 0.0017):  98%|█████████▊| 16646/16950 [2:59:53<03:22,  1.50it/s]Training 3/3 epoch (loss 0.0017):  98%|█████████▊| 16647/16950 [2:59:53<03:10,  1.59it/s]Training 3/3 epoch (loss 0.0498):  98%|█████████▊| 16647/16950 [2:59:54<03:10,  1.59it/s]Training 3/3 epoch (loss 0.0498):  98%|█████████▊| 16648/16950 [2:59:54<03:16,  1.54it/s]Training 3/3 epoch (loss 0.2803):  98%|█████████▊| 16648/16950 [2:59:54<03:16,  1.54it/s]Training 3/3 epoch (loss 0.2803):  98%|█████████▊| 16649/16950 [2:59:54<03:02,  1.65it/s]Training 3/3 epoch (loss 0.1545):  98%|█████████▊| 16649/16950 [2:59:55<03:02,  1.65it/s]Training 3/3 epoch (loss 0.1545):  98%|█████████▊| 16650/16950 [2:59:55<03:03,  1.63it/s]Training 3/3 epoch (loss 0.0453):  98%|█████████▊| 16650/16950 [2:59:55<03:03,  1.63it/s]Training 3/3 epoch (loss 0.0453):  98%|█████████▊| 16651/16950 [2:59:55<03:02,  1.64it/s]Training 3/3 epoch (loss 0.0609):  98%|█████████▊| 16651/16950 [2:59:56<03:02,  1.64it/s]Training 3/3 epoch (loss 0.0609):  98%|█████████▊| 16652/16950 [2:59:56<02:53,  1.72it/s]Training 3/3 epoch (loss 0.0009):  98%|█████████▊| 16652/16950 [2:59:57<02:53,  1.72it/s]Training 3/3 epoch (loss 0.0009):  98%|█████████▊| 16653/16950 [2:59:57<03:04,  1.61it/s]Training 3/3 epoch (loss 0.4123):  98%|█████████▊| 16653/16950 [2:59:57<03:04,  1.61it/s]Training 3/3 epoch (loss 0.4123):  98%|█████████▊| 16654/16950 [2:59:57<02:52,  1.72it/s]Training 3/3 epoch (loss 0.0017):  98%|█████████▊| 16654/16950 [2:59:58<02:52,  1.72it/s]Training 3/3 epoch (loss 0.0017):  98%|█████████▊| 16655/16950 [2:59:58<03:00,  1.63it/s]Training 3/3 epoch (loss 0.3300):  98%|█████████▊| 16655/16950 [2:59:58<03:00,  1.63it/s]Training 3/3 epoch (loss 0.3300):  98%|█████████▊| 16656/16950 [2:59:58<02:52,  1.70it/s]Training 3/3 epoch (loss 0.2539):  98%|█████████▊| 16656/16950 [2:59:59<02:52,  1.70it/s]Training 3/3 epoch (loss 0.2539):  98%|█████████▊| 16657/16950 [2:59:59<02:52,  1.70it/s]Training 3/3 epoch (loss 0.0022):  98%|█████████▊| 16657/16950 [2:59:59<02:52,  1.70it/s]Training 3/3 epoch (loss 0.0022):  98%|█████████▊| 16658/16950 [2:59:59<02:42,  1.79it/s]Training 3/3 epoch (loss 0.1788):  98%|█████████▊| 16658/16950 [3:00:00<02:42,  1.79it/s]Training 3/3 epoch (loss 0.1788):  98%|█████████▊| 16659/16950 [3:00:00<02:55,  1.65it/s]Training 3/3 epoch (loss 0.0164):  98%|█████████▊| 16659/16950 [3:00:01<02:55,  1.65it/s]Training 3/3 epoch (loss 0.0164):  98%|█████████▊| 16660/16950 [3:00:01<03:07,  1.55it/s]Training 3/3 epoch (loss 0.0001):  98%|█████████▊| 16660/16950 [3:00:01<03:07,  1.55it/s]Training 3/3 epoch (loss 0.0001):  98%|█████████▊| 16661/16950 [3:00:01<02:51,  1.69it/s]Training 3/3 epoch (loss 0.2611):  98%|█████████▊| 16661/16950 [3:00:02<02:51,  1.69it/s]Training 3/3 epoch (loss 0.2611):  98%|█████████▊| 16662/16950 [3:00:02<02:34,  1.86it/s]Training 3/3 epoch (loss 0.0004):  98%|█████████▊| 16662/16950 [3:00:02<02:34,  1.86it/s]Training 3/3 epoch (loss 0.0004):  98%|█████████▊| 16663/16950 [3:00:02<02:41,  1.78it/s]Training 3/3 epoch (loss 0.4562):  98%|█████████▊| 16663/16950 [3:00:03<02:41,  1.78it/s]Training 3/3 epoch (loss 0.4562):  98%|█████████▊| 16664/16950 [3:00:03<02:29,  1.92it/s]Training 3/3 epoch (loss 0.1088):  98%|█████████▊| 16664/16950 [3:00:04<02:29,  1.92it/s]Training 3/3 epoch (loss 0.1088):  98%|█████████▊| 16665/16950 [3:00:04<02:56,  1.61it/s]Training 3/3 epoch (loss 0.0467):  98%|█████████▊| 16665/16950 [3:00:04<02:56,  1.61it/s]Training 3/3 epoch (loss 0.0467):  98%|█████████▊| 16666/16950 [3:00:04<02:52,  1.65it/s]Training 3/3 epoch (loss 0.0012):  98%|█████████▊| 16666/16950 [3:00:05<02:52,  1.65it/s]Training 3/3 epoch (loss 0.0012):  98%|█████████▊| 16667/16950 [3:00:05<02:48,  1.68it/s]Training 3/3 epoch (loss 0.0734):  98%|█████████▊| 16667/16950 [3:00:06<02:48,  1.68it/s]Training 3/3 epoch (loss 0.0734):  98%|█████████▊| 16668/16950 [3:00:06<02:59,  1.57it/s]Training 3/3 epoch (loss 0.0043):  98%|█████████▊| 16668/16950 [3:00:06<02:59,  1.57it/s]Training 3/3 epoch (loss 0.0043):  98%|█████████▊| 16669/16950 [3:00:06<02:53,  1.62it/s]Training 3/3 epoch (loss 0.0171):  98%|█████████▊| 16669/16950 [3:00:07<02:53,  1.62it/s]Training 3/3 epoch (loss 0.0171):  98%|█████████▊| 16670/16950 [3:00:07<02:55,  1.60it/s]Training 3/3 epoch (loss 0.0293):  98%|█████████▊| 16670/16950 [3:00:07<02:55,  1.60it/s]Training 3/3 epoch (loss 0.0293):  98%|█████████▊| 16671/16950 [3:00:07<02:47,  1.66it/s]Training 3/3 epoch (loss 0.0085):  98%|█████████▊| 16671/16950 [3:00:08<02:47,  1.66it/s]Training 3/3 epoch (loss 0.0085):  98%|█████████▊| 16672/16950 [3:00:08<02:37,  1.76it/s]Training 3/3 epoch (loss 0.0600):  98%|█████████▊| 16672/16950 [3:00:08<02:37,  1.76it/s]Training 3/3 epoch (loss 0.0600):  98%|█████████▊| 16673/16950 [3:00:08<02:26,  1.89it/s]Training 3/3 epoch (loss 0.2006):  98%|█████████▊| 16673/16950 [3:00:09<02:26,  1.89it/s]Training 3/3 epoch (loss 0.2006):  98%|█████████▊| 16674/16950 [3:00:09<02:24,  1.90it/s]Training 3/3 epoch (loss 0.2215):  98%|█████████▊| 16674/16950 [3:00:09<02:24,  1.90it/s]Training 3/3 epoch (loss 0.2215):  98%|█████████▊| 16675/16950 [3:00:09<02:33,  1.80it/s]Training 3/3 epoch (loss 0.5073):  98%|█████████▊| 16675/16950 [3:00:10<02:33,  1.80it/s]Training 3/3 epoch (loss 0.5073):  98%|█████████▊| 16676/16950 [3:00:10<02:38,  1.73it/s]Training 3/3 epoch (loss 0.0057):  98%|█████████▊| 16676/16950 [3:00:11<02:38,  1.73it/s]Training 3/3 epoch (loss 0.0057):  98%|█████████▊| 16677/16950 [3:00:11<02:38,  1.73it/s]Training 3/3 epoch (loss 0.0011):  98%|█████████▊| 16677/16950 [3:00:11<02:38,  1.73it/s]Training 3/3 epoch (loss 0.0011):  98%|█████████▊| 16678/16950 [3:00:11<02:21,  1.92it/s]Training 3/3 epoch (loss 0.3636):  98%|█████████▊| 16678/16950 [3:00:11<02:21,  1.92it/s]Training 3/3 epoch (loss 0.3636):  98%|█████████▊| 16679/16950 [3:00:11<02:11,  2.06it/s]Training 3/3 epoch (loss 0.0009):  98%|█████████▊| 16679/16950 [3:00:12<02:11,  2.06it/s]Training 3/3 epoch (loss 0.0009):  98%|█████████▊| 16680/16950 [3:00:12<02:23,  1.88it/s]Training 3/3 epoch (loss 0.5265):  98%|█████████▊| 16680/16950 [3:00:13<02:23,  1.88it/s]Training 3/3 epoch (loss 0.5265):  98%|█████████▊| 16681/16950 [3:00:13<02:24,  1.86it/s]Training 3/3 epoch (loss 0.0018):  98%|█████████▊| 16681/16950 [3:00:13<02:24,  1.86it/s]Training 3/3 epoch (loss 0.0018):  98%|█████████▊| 16682/16950 [3:00:13<02:49,  1.58it/s]Training 3/3 epoch (loss 0.3071):  98%|█████████▊| 16682/16950 [3:00:14<02:49,  1.58it/s]Training 3/3 epoch (loss 0.3071):  98%|█████████▊| 16683/16950 [3:00:14<02:54,  1.53it/s]Training 3/3 epoch (loss 0.3401):  98%|█████████▊| 16683/16950 [3:00:15<02:54,  1.53it/s]Training 3/3 epoch (loss 0.3401):  98%|█████████▊| 16684/16950 [3:00:15<02:44,  1.62it/s]Training 3/3 epoch (loss 0.0032):  98%|█████████▊| 16684/16950 [3:00:15<02:44,  1.62it/s]Training 3/3 epoch (loss 0.0032):  98%|█████████▊| 16685/16950 [3:00:15<02:27,  1.80it/s]Training 3/3 epoch (loss 0.0816):  98%|█████████▊| 16685/16950 [3:00:16<02:27,  1.80it/s]Training 3/3 epoch (loss 0.0816):  98%|█████████▊| 16686/16950 [3:00:16<02:46,  1.58it/s]Training 3/3 epoch (loss 0.3596):  98%|█████████▊| 16686/16950 [3:00:17<02:46,  1.58it/s]Training 3/3 epoch (loss 0.3596):  98%|█████████▊| 16687/16950 [3:00:17<02:53,  1.51it/s]Training 3/3 epoch (loss 0.0068):  98%|█████████▊| 16687/16950 [3:00:17<02:53,  1.51it/s]Training 3/3 epoch (loss 0.0068):  98%|█████████▊| 16688/16950 [3:00:17<02:37,  1.66it/s]Training 3/3 epoch (loss 0.4794):  98%|█████████▊| 16688/16950 [3:00:18<02:37,  1.66it/s]Training 3/3 epoch (loss 0.4794):  98%|█████████▊| 16689/16950 [3:00:18<02:26,  1.79it/s]Training 3/3 epoch (loss 0.6238):  98%|█████████▊| 16689/16950 [3:00:18<02:26,  1.79it/s]Training 3/3 epoch (loss 0.6238):  98%|█████████▊| 16690/16950 [3:00:18<02:47,  1.55it/s]Training 3/3 epoch (loss 0.4030):  98%|█████████▊| 16690/16950 [3:00:19<02:47,  1.55it/s]Training 3/3 epoch (loss 0.4030):  98%|█████████▊| 16691/16950 [3:00:19<02:42,  1.60it/s]Training 3/3 epoch (loss 0.1462):  98%|█████████▊| 16691/16950 [3:00:20<02:42,  1.60it/s]Training 3/3 epoch (loss 0.1462):  98%|█████████▊| 16692/16950 [3:00:20<02:42,  1.58it/s]Training 3/3 epoch (loss 0.0000):  98%|█████████▊| 16692/16950 [3:00:20<02:42,  1.58it/s]Training 3/3 epoch (loss 0.0000):  98%|█████████▊| 16693/16950 [3:00:20<02:28,  1.73it/s]Training 3/3 epoch (loss 0.1176):  98%|█████████▊| 16693/16950 [3:00:21<02:28,  1.73it/s]Training 3/3 epoch (loss 0.1176):  98%|█████████▊| 16694/16950 [3:00:21<02:29,  1.71it/s]Training 3/3 epoch (loss 0.0061):  98%|█████████▊| 16694/16950 [3:00:21<02:29,  1.71it/s]Training 3/3 epoch (loss 0.0061):  98%|█████████▊| 16695/16950 [3:00:21<02:28,  1.72it/s]Training 3/3 epoch (loss 0.2963):  98%|█████████▊| 16695/16950 [3:00:22<02:28,  1.72it/s]Training 3/3 epoch (loss 0.2963):  99%|█████████▊| 16696/16950 [3:00:22<02:21,  1.79it/s]Training 3/3 epoch (loss 0.1393):  99%|█████████▊| 16696/16950 [3:00:22<02:21,  1.79it/s]Training 3/3 epoch (loss 0.1393):  99%|█████████▊| 16697/16950 [3:00:22<02:13,  1.89it/s]Training 3/3 epoch (loss 0.0045):  99%|█████████▊| 16697/16950 [3:00:23<02:13,  1.89it/s]Training 3/3 epoch (loss 0.0045):  99%|█████████▊| 16698/16950 [3:00:23<02:23,  1.75it/s]Training 3/3 epoch (loss 0.0004):  99%|█████████▊| 16698/16950 [3:00:23<02:23,  1.75it/s]Training 3/3 epoch (loss 0.0004):  99%|█████████▊| 16699/16950 [3:00:23<02:19,  1.80it/s]Training 3/3 epoch (loss 0.0059):  99%|█████████▊| 16699/16950 [3:00:24<02:19,  1.80it/s]Training 3/3 epoch (loss 0.0059):  99%|█████████▊| 16700/16950 [3:00:24<02:21,  1.77it/s]Training 3/3 epoch (loss 0.2229):  99%|█████████▊| 16700/16950 [3:00:25<02:21,  1.77it/s]Training 3/3 epoch (loss 0.2229):  99%|█████████▊| 16701/16950 [3:00:25<02:55,  1.42it/s]Training 3/3 epoch (loss nan):  99%|█████████▊| 16701/16950 [3:00:26<02:55,  1.42it/s]   Training 3/3 epoch (loss nan):  99%|█████████▊| 16702/16950 [3:00:26<03:32,  1.17it/s]Training 3/3 epoch (loss 0.7795):  99%|█████████▊| 16702/16950 [3:00:27<03:32,  1.17it/s]Training 3/3 epoch (loss 0.7795):  99%|█████████▊| 16703/16950 [3:00:27<03:54,  1.05it/s]Training 3/3 epoch (loss 0.0053):  99%|█████████▊| 16703/16950 [3:00:28<03:54,  1.05it/s]Training 3/3 epoch (loss 0.0053):  99%|█████████▊| 16704/16950 [3:00:28<03:20,  1.23it/s]Training 3/3 epoch (loss 0.0298):  99%|█████████▊| 16704/16950 [3:00:28<03:20,  1.23it/s]Training 3/3 epoch (loss 0.0298):  99%|█████████▊| 16705/16950 [3:00:28<02:57,  1.38it/s]Training 3/3 epoch (loss 0.0218):  99%|█████████▊| 16705/16950 [3:00:29<02:57,  1.38it/s]Training 3/3 epoch (loss 0.0218):  99%|█████████▊| 16706/16950 [3:00:29<02:40,  1.52it/s]Training 3/3 epoch (loss 0.0013):  99%|█████████▊| 16706/16950 [3:00:29<02:40,  1.52it/s]Training 3/3 epoch (loss 0.0013):  99%|█████████▊| 16707/16950 [3:00:29<02:31,  1.61it/s]Training 3/3 epoch (loss 0.3634):  99%|█████████▊| 16707/16950 [3:00:30<02:31,  1.61it/s]Training 3/3 epoch (loss 0.3634):  99%|█████████▊| 16708/16950 [3:00:30<02:48,  1.44it/s]Training 3/3 epoch (loss 0.0133):  99%|█████████▊| 16708/16950 [3:00:31<02:48,  1.44it/s]Training 3/3 epoch (loss 0.0133):  99%|█████████▊| 16709/16950 [3:00:31<02:51,  1.41it/s]Training 3/3 epoch (loss 0.0412):  99%|█████████▊| 16709/16950 [3:00:32<02:51,  1.41it/s]Training 3/3 epoch (loss 0.0412):  99%|█████████▊| 16710/16950 [3:00:32<02:51,  1.40it/s]Training 3/3 epoch (loss 0.0001):  99%|█████████▊| 16710/16950 [3:00:32<02:51,  1.40it/s]Training 3/3 epoch (loss 0.0001):  99%|█████████▊| 16711/16950 [3:00:32<02:39,  1.50it/s]Training 3/3 epoch (loss 0.3473):  99%|█████████▊| 16711/16950 [3:00:33<02:39,  1.50it/s]Training 3/3 epoch (loss 0.3473):  99%|█████████▊| 16712/16950 [3:00:33<02:36,  1.52it/s]Training 3/3 epoch (loss 0.0351):  99%|█████████▊| 16712/16950 [3:00:34<02:36,  1.52it/s]Training 3/3 epoch (loss 0.0351):  99%|█████████▊| 16713/16950 [3:00:34<02:26,  1.62it/s]Training 3/3 epoch (loss 0.4091):  99%|█████████▊| 16713/16950 [3:00:34<02:26,  1.62it/s]Training 3/3 epoch (loss 0.4091):  99%|█████████▊| 16714/16950 [3:00:34<02:42,  1.45it/s]Training 3/3 epoch (loss 0.0250):  99%|█████████▊| 16714/16950 [3:00:35<02:42,  1.45it/s]Training 3/3 epoch (loss 0.0250):  99%|█████████▊| 16715/16950 [3:00:35<02:47,  1.40it/s]Training 3/3 epoch (loss 0.2681):  99%|█████████▊| 16715/16950 [3:00:36<02:47,  1.40it/s]Training 3/3 epoch (loss 0.2681):  99%|█████████▊| 16716/16950 [3:00:36<02:55,  1.33it/s]Training 3/3 epoch (loss 0.0598):  99%|█████████▊| 16716/16950 [3:00:37<02:55,  1.33it/s]Training 3/3 epoch (loss 0.0598):  99%|█████████▊| 16717/16950 [3:00:37<02:48,  1.39it/s]Training 3/3 epoch (loss 0.0058):  99%|█████████▊| 16717/16950 [3:00:37<02:48,  1.39it/s]Training 3/3 epoch (loss 0.0058):  99%|█████████▊| 16718/16950 [3:00:37<02:35,  1.49it/s]Training 3/3 epoch (loss 0.0358):  99%|█████████▊| 16718/16950 [3:00:38<02:35,  1.49it/s]Training 3/3 epoch (loss 0.0358):  99%|█████████▊| 16719/16950 [3:00:38<02:36,  1.48it/s]Training 3/3 epoch (loss 0.0005):  99%|█████████▊| 16719/16950 [3:00:38<02:36,  1.48it/s]Training 3/3 epoch (loss 0.0005):  99%|█████████▊| 16720/16950 [3:00:38<02:32,  1.51it/s]Training 3/3 epoch (loss 0.0009):  99%|█████████▊| 16720/16950 [3:00:39<02:32,  1.51it/s]Training 3/3 epoch (loss 0.0009):  99%|█████████▊| 16721/16950 [3:00:39<02:21,  1.62it/s]Training 3/3 epoch (loss 0.0041):  99%|█████████▊| 16721/16950 [3:00:40<02:21,  1.62it/s]Training 3/3 epoch (loss 0.0041):  99%|█████████▊| 16722/16950 [3:00:40<02:16,  1.67it/s]Training 3/3 epoch (loss 0.3818):  99%|█████████▊| 16722/16950 [3:00:40<02:16,  1.67it/s]Training 3/3 epoch (loss 0.3818):  99%|█████████▊| 16723/16950 [3:00:40<02:18,  1.64it/s]Training 3/3 epoch (loss 0.4106):  99%|█████████▊| 16723/16950 [3:00:41<02:18,  1.64it/s]Training 3/3 epoch (loss 0.4106):  99%|█████████▊| 16724/16950 [3:00:41<02:15,  1.67it/s]Training 3/3 epoch (loss 0.3706):  99%|█████████▊| 16724/16950 [3:00:41<02:15,  1.67it/s]Training 3/3 epoch (loss 0.3706):  99%|█████████▊| 16725/16950 [3:00:41<02:06,  1.78it/s]Training 3/3 epoch (loss 0.0000):  99%|█████████▊| 16725/16950 [3:00:42<02:06,  1.78it/s]Training 3/3 epoch (loss 0.0000):  99%|█████████▊| 16726/16950 [3:00:42<01:48,  2.06it/s]Training 3/3 epoch (loss 0.3283):  99%|█████████▊| 16726/16950 [3:00:42<01:48,  2.06it/s]Training 3/3 epoch (loss 0.3283):  99%|█████████▊| 16727/16950 [3:00:42<01:46,  2.10it/s]Training 3/3 epoch (loss 0.0011):  99%|█████████▊| 16727/16950 [3:00:42<01:46,  2.10it/s]Training 3/3 epoch (loss 0.0011):  99%|█████████▊| 16728/16950 [3:00:42<01:41,  2.20it/s]Training 3/3 epoch (loss 0.0023):  99%|█████████▊| 16728/16950 [3:00:43<01:41,  2.20it/s]Training 3/3 epoch (loss 0.0023):  99%|█████████▊| 16729/16950 [3:00:43<01:45,  2.10it/s]Training 3/3 epoch (loss 0.2368):  99%|█████████▊| 16729/16950 [3:00:43<01:45,  2.10it/s]Training 3/3 epoch (loss 0.2368):  99%|█████████▊| 16730/16950 [3:00:43<01:47,  2.04it/s]Training 3/3 epoch (loss 0.0084):  99%|█████████▊| 16730/16950 [3:00:44<01:47,  2.04it/s]Training 3/3 epoch (loss 0.0084):  99%|█████████▊| 16731/16950 [3:00:44<01:48,  2.01it/s]Training 3/3 epoch (loss 0.0001):  99%|█████████▊| 16731/16950 [3:00:44<01:48,  2.01it/s]Training 3/3 epoch (loss 0.0001):  99%|█████████▊| 16732/16950 [3:00:44<01:43,  2.11it/s]Training 3/3 epoch (loss 0.0001):  99%|█████████▊| 16732/16950 [3:00:45<01:43,  2.11it/s]Training 3/3 epoch (loss 0.0001):  99%|█████████▊| 16733/16950 [3:00:45<01:36,  2.24it/s]Training 3/3 epoch (loss 0.0011):  99%|█████████▊| 16733/16950 [3:00:45<01:36,  2.24it/s]Training 3/3 epoch (loss 0.0011):  99%|█████████▊| 16734/16950 [3:00:45<01:48,  1.98it/s]Training 3/3 epoch (loss 0.4818):  99%|█████████▊| 16734/16950 [3:00:46<01:48,  1.98it/s]Training 3/3 epoch (loss 0.4818):  99%|█████████▊| 16735/16950 [3:00:46<01:44,  2.07it/s]Training 3/3 epoch (loss 0.5397):  99%|█████████▊| 16735/16950 [3:00:46<01:44,  2.07it/s]Training 3/3 epoch (loss 0.5397):  99%|█████████▊| 16736/16950 [3:00:46<01:47,  2.00it/s]Training 3/3 epoch (loss 0.0012):  99%|█████████▊| 16736/16950 [3:00:47<01:47,  2.00it/s]Training 3/3 epoch (loss 0.0012):  99%|█████████▊| 16737/16950 [3:00:47<01:42,  2.08it/s]Training 3/3 epoch (loss 0.0006):  99%|█████████▊| 16737/16950 [3:00:47<01:42,  2.08it/s]Training 3/3 epoch (loss 0.0006):  99%|█████████▊| 16738/16950 [3:00:47<01:45,  2.01it/s]Training 3/3 epoch (loss 0.0468):  99%|█████████▊| 16738/16950 [3:00:48<01:45,  2.01it/s]Training 3/3 epoch (loss 0.0468):  99%|█████████▉| 16739/16950 [3:00:48<01:41,  2.07it/s]Training 3/3 epoch (loss 0.0557):  99%|█████████▉| 16739/16950 [3:00:48<01:41,  2.07it/s]Training 3/3 epoch (loss 0.0557):  99%|█████████▉| 16740/16950 [3:00:48<01:46,  1.97it/s]Training 3/3 epoch (loss 0.0144):  99%|█████████▉| 16740/16950 [3:00:49<01:46,  1.97it/s]Training 3/3 epoch (loss 0.0144):  99%|█████████▉| 16741/16950 [3:00:49<01:54,  1.82it/s]Training 3/3 epoch (loss 0.3242):  99%|█████████▉| 16741/16950 [3:00:50<01:54,  1.82it/s]Training 3/3 epoch (loss 0.3242):  99%|█████████▉| 16742/16950 [3:00:50<02:00,  1.73it/s]Training 3/3 epoch (loss 0.1293):  99%|█████████▉| 16742/16950 [3:00:50<02:00,  1.73it/s]Training 3/3 epoch (loss 0.1293):  99%|█████████▉| 16743/16950 [3:00:50<01:53,  1.83it/s]Training 3/3 epoch (loss 0.0083):  99%|█████████▉| 16743/16950 [3:00:51<01:53,  1.83it/s]Training 3/3 epoch (loss 0.0083):  99%|█████████▉| 16744/16950 [3:00:51<01:56,  1.76it/s]Training 3/3 epoch (loss 0.0024):  99%|█████████▉| 16744/16950 [3:00:51<01:56,  1.76it/s]Training 3/3 epoch (loss 0.0024):  99%|█████████▉| 16745/16950 [3:00:51<02:05,  1.63it/s]Training 3/3 epoch (loss 0.0013):  99%|█████████▉| 16745/16950 [3:00:52<02:05,  1.63it/s]Training 3/3 epoch (loss 0.0013):  99%|█████████▉| 16746/16950 [3:00:52<02:07,  1.60it/s]Training 3/3 epoch (loss 0.0160):  99%|█████████▉| 16746/16950 [3:00:53<02:07,  1.60it/s]Training 3/3 epoch (loss 0.0160):  99%|█████████▉| 16747/16950 [3:00:53<02:00,  1.68it/s]Training 3/3 epoch (loss 0.4601):  99%|█████████▉| 16747/16950 [3:00:53<02:00,  1.68it/s]Training 3/3 epoch (loss 0.4601):  99%|█████████▉| 16748/16950 [3:00:53<02:07,  1.59it/s]Training 3/3 epoch (loss 0.0033):  99%|█████████▉| 16748/16950 [3:00:54<02:07,  1.59it/s]Training 3/3 epoch (loss 0.0033):  99%|█████████▉| 16749/16950 [3:00:54<02:10,  1.55it/s]Training 3/3 epoch (loss 0.0634):  99%|█████████▉| 16749/16950 [3:00:55<02:10,  1.55it/s]Training 3/3 epoch (loss 0.0634):  99%|█████████▉| 16750/16950 [3:00:55<02:07,  1.57it/s]Training 3/3 epoch (loss 0.0372):  99%|█████████▉| 16750/16950 [3:00:55<02:07,  1.57it/s]Training 3/3 epoch (loss 0.0372):  99%|█████████▉| 16751/16950 [3:00:55<01:58,  1.67it/s]Training 3/3 epoch (loss 0.3053):  99%|█████████▉| 16751/16950 [3:00:56<01:58,  1.67it/s]Training 3/3 epoch (loss 0.3053):  99%|█████████▉| 16752/16950 [3:00:56<01:51,  1.77it/s]Training 3/3 epoch (loss 0.4181):  99%|█████████▉| 16752/16950 [3:00:56<01:51,  1.77it/s]Training 3/3 epoch (loss 0.4181):  99%|█████████▉| 16753/16950 [3:00:56<01:42,  1.93it/s]Training 3/3 epoch (loss 0.1257):  99%|█████████▉| 16753/16950 [3:00:56<01:42,  1.93it/s]Training 3/3 epoch (loss 0.1257):  99%|█████████▉| 16754/16950 [3:00:56<01:32,  2.13it/s]Training 3/3 epoch (loss 0.0001):  99%|█████████▉| 16754/16950 [3:00:57<01:32,  2.13it/s]Training 3/3 epoch (loss 0.0001):  99%|█████████▉| 16755/16950 [3:00:57<01:35,  2.04it/s]Training 3/3 epoch (loss 0.2292):  99%|█████████▉| 16755/16950 [3:00:58<01:35,  2.04it/s]Training 3/3 epoch (loss 0.2292):  99%|█████████▉| 16756/16950 [3:00:58<01:42,  1.90it/s]Training 3/3 epoch (loss 0.2841):  99%|█████████▉| 16756/16950 [3:00:58<01:42,  1.90it/s]Training 3/3 epoch (loss 0.2841):  99%|█████████▉| 16757/16950 [3:00:58<01:43,  1.86it/s]Training 3/3 epoch (loss 0.0578):  99%|█████████▉| 16757/16950 [3:00:59<01:43,  1.86it/s]Training 3/3 epoch (loss 0.0578):  99%|█████████▉| 16758/16950 [3:00:59<01:48,  1.77it/s]Training 3/3 epoch (loss 0.3786):  99%|█████████▉| 16758/16950 [3:00:59<01:48,  1.77it/s]Training 3/3 epoch (loss 0.3786):  99%|█████████▉| 16759/16950 [3:00:59<01:48,  1.76it/s]Training 3/3 epoch (loss 0.3210):  99%|█████████▉| 16759/16950 [3:01:00<01:48,  1.76it/s]Training 3/3 epoch (loss 0.3210):  99%|█████████▉| 16760/16950 [3:01:00<01:44,  1.81it/s]Training 3/3 epoch (loss 0.0001):  99%|█████████▉| 16760/16950 [3:01:00<01:44,  1.81it/s]Training 3/3 epoch (loss 0.0001):  99%|█████████▉| 16761/16950 [3:01:00<01:44,  1.81it/s]Training 3/3 epoch (loss 0.0201):  99%|█████████▉| 16761/16950 [3:01:01<01:44,  1.81it/s]Training 3/3 epoch (loss 0.0201):  99%|█████████▉| 16762/16950 [3:01:01<01:51,  1.69it/s]Training 3/3 epoch (loss 0.0385):  99%|█████████▉| 16762/16950 [3:01:02<01:51,  1.69it/s]Training 3/3 epoch (loss 0.0385):  99%|█████████▉| 16763/16950 [3:01:02<02:02,  1.53it/s]Training 3/3 epoch (loss 0.0682):  99%|█████████▉| 16763/16950 [3:01:03<02:02,  1.53it/s]Training 3/3 epoch (loss 0.0682):  99%|█████████▉| 16764/16950 [3:01:03<02:01,  1.53it/s]Training 3/3 epoch (loss 0.4203):  99%|█████████▉| 16764/16950 [3:01:03<02:01,  1.53it/s]Training 3/3 epoch (loss 0.4203):  99%|█████████▉| 16765/16950 [3:01:03<01:50,  1.67it/s]Training 3/3 epoch (loss 0.0013):  99%|█████████▉| 16765/16950 [3:01:04<01:50,  1.67it/s]Training 3/3 epoch (loss 0.0013):  99%|█████████▉| 16766/16950 [3:01:04<01:47,  1.71it/s]Training 3/3 epoch (loss 0.0221):  99%|█████████▉| 16766/16950 [3:01:04<01:47,  1.71it/s]Training 3/3 epoch (loss 0.0221):  99%|█████████▉| 16767/16950 [3:01:04<01:55,  1.59it/s]Training 3/3 epoch (loss 0.0031):  99%|█████████▉| 16767/16950 [3:01:05<01:55,  1.59it/s]Training 3/3 epoch (loss 0.0031):  99%|█████████▉| 16768/16950 [3:01:05<01:55,  1.57it/s]Training 3/3 epoch (loss 0.2684):  99%|█████████▉| 16768/16950 [3:01:06<01:55,  1.57it/s]Training 3/3 epoch (loss 0.2684):  99%|█████████▉| 16769/16950 [3:01:06<01:50,  1.63it/s]Training 3/3 epoch (loss 0.2939):  99%|█████████▉| 16769/16950 [3:01:06<01:50,  1.63it/s]Training 3/3 epoch (loss 0.2939):  99%|█████████▉| 16770/16950 [3:01:06<01:38,  1.83it/s]Training 3/3 epoch (loss 0.3995):  99%|█████████▉| 16770/16950 [3:01:07<01:38,  1.83it/s]Training 3/3 epoch (loss 0.3995):  99%|█████████▉| 16771/16950 [3:01:07<02:06,  1.41it/s]Training 3/3 epoch (loss 0.0043):  99%|█████████▉| 16771/16950 [3:01:08<02:06,  1.41it/s]Training 3/3 epoch (loss 0.0043):  99%|█████████▉| 16772/16950 [3:01:08<01:59,  1.48it/s]Training 3/3 epoch (loss 0.3755):  99%|█████████▉| 16772/16950 [3:01:08<01:59,  1.48it/s]Training 3/3 epoch (loss 0.3755):  99%|█████████▉| 16773/16950 [3:01:08<01:46,  1.66it/s]Training 3/3 epoch (loss 0.3498):  99%|█████████▉| 16773/16950 [3:01:08<01:46,  1.66it/s]Training 3/3 epoch (loss 0.3498):  99%|█████████▉| 16774/16950 [3:01:08<01:30,  1.94it/s]Training 3/3 epoch (loss 0.6286):  99%|█████████▉| 16774/16950 [3:01:09<01:30,  1.94it/s]Training 3/3 epoch (loss 0.6286):  99%|█████████▉| 16775/16950 [3:01:09<01:55,  1.52it/s]Training 3/3 epoch (loss 0.1874):  99%|█████████▉| 16775/16950 [3:01:10<01:55,  1.52it/s]Training 3/3 epoch (loss 0.1874):  99%|█████████▉| 16776/16950 [3:01:10<01:48,  1.61it/s]Training 3/3 epoch (loss 0.0010):  99%|█████████▉| 16776/16950 [3:01:10<01:48,  1.61it/s]Training 3/3 epoch (loss 0.0010):  99%|█████████▉| 16777/16950 [3:01:10<01:35,  1.82it/s]Training 3/3 epoch (loss 0.5809):  99%|█████████▉| 16777/16950 [3:01:11<01:35,  1.82it/s]Training 3/3 epoch (loss 0.5809):  99%|█████████▉| 16778/16950 [3:01:11<01:42,  1.68it/s]Training 3/3 epoch (loss 0.0044):  99%|█████████▉| 16778/16950 [3:01:11<01:42,  1.68it/s]Training 3/3 epoch (loss 0.0044):  99%|█████████▉| 16779/16950 [3:01:11<01:37,  1.76it/s]Training 3/3 epoch (loss 0.5495):  99%|█████████▉| 16779/16950 [3:01:13<01:37,  1.76it/s]Training 3/3 epoch (loss 0.5495):  99%|█████████▉| 16780/16950 [3:01:13<02:01,  1.40it/s]Training 3/3 epoch (loss 0.0239):  99%|█████████▉| 16780/16950 [3:01:13<02:01,  1.40it/s]Training 3/3 epoch (loss 0.0239):  99%|█████████▉| 16781/16950 [3:01:13<02:13,  1.26it/s]Training 3/3 epoch (loss 0.5858):  99%|█████████▉| 16781/16950 [3:01:14<02:13,  1.26it/s]Training 3/3 epoch (loss 0.5858):  99%|█████████▉| 16782/16950 [3:01:14<02:00,  1.40it/s]Training 3/3 epoch (loss 0.0030):  99%|█████████▉| 16782/16950 [3:01:15<02:00,  1.40it/s]Training 3/3 epoch (loss 0.0030):  99%|█████████▉| 16783/16950 [3:01:15<01:50,  1.52it/s]Training 3/3 epoch (loss 0.4396):  99%|█████████▉| 16783/16950 [3:01:15<01:50,  1.52it/s]Training 3/3 epoch (loss 0.4396):  99%|█████████▉| 16784/16950 [3:01:15<01:38,  1.69it/s]Training 3/3 epoch (loss 0.0005):  99%|█████████▉| 16784/16950 [3:01:15<01:38,  1.69it/s]Training 3/3 epoch (loss 0.0005):  99%|█████████▉| 16785/16950 [3:01:15<01:30,  1.82it/s]Training 3/3 epoch (loss 0.0241):  99%|█████████▉| 16785/16950 [3:01:16<01:30,  1.82it/s]Training 3/3 epoch (loss 0.0241):  99%|█████████▉| 16786/16950 [3:01:16<01:29,  1.83it/s]Training 3/3 epoch (loss 0.4597):  99%|█████████▉| 16786/16950 [3:01:16<01:29,  1.83it/s]Training 3/3 epoch (loss 0.4597):  99%|█████████▉| 16787/16950 [3:01:16<01:23,  1.95it/s]Training 3/3 epoch (loss 0.0027):  99%|█████████▉| 16787/16950 [3:01:17<01:23,  1.95it/s]Training 3/3 epoch (loss 0.0027):  99%|█████████▉| 16788/16950 [3:01:17<01:18,  2.06it/s]Training 3/3 epoch (loss 0.0055):  99%|█████████▉| 16788/16950 [3:01:17<01:18,  2.06it/s]Training 3/3 epoch (loss 0.0055):  99%|█████████▉| 16789/16950 [3:01:17<01:19,  2.03it/s]Training 3/3 epoch (loss 0.4118):  99%|█████████▉| 16789/16950 [3:01:18<01:19,  2.03it/s]Training 3/3 epoch (loss 0.4118):  99%|█████████▉| 16790/16950 [3:01:18<01:15,  2.12it/s]Training 3/3 epoch (loss 0.0055):  99%|█████████▉| 16790/16950 [3:01:18<01:15,  2.12it/s]Training 3/3 epoch (loss 0.0055):  99%|█████████▉| 16791/16950 [3:01:18<01:14,  2.15it/s]Training 3/3 epoch (loss 0.3534):  99%|█████████▉| 16791/16950 [3:01:19<01:14,  2.15it/s]Training 3/3 epoch (loss 0.3534):  99%|█████████▉| 16792/16950 [3:01:19<01:30,  1.74it/s]Training 3/3 epoch (loss 0.0192):  99%|█████████▉| 16792/16950 [3:01:19<01:30,  1.74it/s]Training 3/3 epoch (loss 0.0192):  99%|█████████▉| 16793/16950 [3:01:19<01:23,  1.89it/s]Training 3/3 epoch (loss 0.0040):  99%|█████████▉| 16793/16950 [3:01:20<01:23,  1.89it/s]Training 3/3 epoch (loss 0.0040):  99%|█████████▉| 16794/16950 [3:01:20<01:37,  1.60it/s]Training 3/3 epoch (loss 0.0163):  99%|█████████▉| 16794/16950 [3:01:21<01:37,  1.60it/s]Training 3/3 epoch (loss 0.0163):  99%|█████████▉| 16795/16950 [3:01:21<01:54,  1.35it/s]Training 3/3 epoch (loss 0.1850):  99%|█████████▉| 16795/16950 [3:01:22<01:54,  1.35it/s]Training 3/3 epoch (loss 0.1850):  99%|█████████▉| 16796/16950 [3:01:22<02:10,  1.18it/s]Training 3/3 epoch (loss 0.1112):  99%|█████████▉| 16796/16950 [3:01:23<02:10,  1.18it/s]Training 3/3 epoch (loss 0.1112):  99%|█████████▉| 16797/16950 [3:01:23<01:57,  1.30it/s]Training 3/3 epoch (loss 0.0418):  99%|█████████▉| 16797/16950 [3:01:24<01:57,  1.30it/s]Training 3/3 epoch (loss 0.0418):  99%|█████████▉| 16798/16950 [3:01:24<01:52,  1.35it/s]Training 3/3 epoch (loss 0.2031):  99%|█████████▉| 16798/16950 [3:01:25<01:52,  1.35it/s]Training 3/3 epoch (loss 0.2031):  99%|█████████▉| 16799/16950 [3:01:25<01:58,  1.27it/s]Training 3/3 epoch (loss 0.3073):  99%|█████████▉| 16799/16950 [3:01:25<01:58,  1.27it/s]Training 3/3 epoch (loss 0.3073):  99%|█████████▉| 16800/16950 [3:01:25<01:45,  1.42it/s]Training 3/3 epoch (loss 0.0259):  99%|█████████▉| 16800/16950 [3:01:26<01:45,  1.42it/s]Training 3/3 epoch (loss 0.0259):  99%|█████████▉| 16801/16950 [3:01:26<01:48,  1.37it/s]Training 3/3 epoch (loss 0.0008):  99%|█████████▉| 16801/16950 [3:01:27<01:48,  1.37it/s]Training 3/3 epoch (loss 0.0008):  99%|█████████▉| 16802/16950 [3:01:27<01:46,  1.38it/s]Training 3/3 epoch (loss 0.0970):  99%|█████████▉| 16802/16950 [3:01:27<01:46,  1.38it/s]Training 3/3 epoch (loss 0.0970):  99%|█████████▉| 16803/16950 [3:01:27<01:43,  1.42it/s]Training 3/3 epoch (loss 0.0014):  99%|█████████▉| 16803/16950 [3:01:28<01:43,  1.42it/s]Training 3/3 epoch (loss 0.0014):  99%|█████████▉| 16804/16950 [3:01:28<01:37,  1.50it/s]Training 3/3 epoch (loss 0.2893):  99%|█████████▉| 16804/16950 [3:01:28<01:37,  1.50it/s]Training 3/3 epoch (loss 0.2893):  99%|█████████▉| 16805/16950 [3:01:28<01:36,  1.50it/s]Training 3/3 epoch (loss 0.0000):  99%|█████████▉| 16805/16950 [3:01:29<01:36,  1.50it/s]Training 3/3 epoch (loss 0.0000):  99%|█████████▉| 16806/16950 [3:01:29<01:28,  1.63it/s]Training 3/3 epoch (loss 0.0888):  99%|█████████▉| 16806/16950 [3:01:30<01:28,  1.63it/s]Training 3/3 epoch (loss 0.0888):  99%|█████████▉| 16807/16950 [3:01:30<01:25,  1.66it/s]Training 3/3 epoch (loss 0.3325):  99%|█████████▉| 16807/16950 [3:01:30<01:25,  1.66it/s]Training 3/3 epoch (loss 0.3325):  99%|█████████▉| 16808/16950 [3:01:30<01:20,  1.77it/s]Training 3/3 epoch (loss 0.0054):  99%|█████████▉| 16808/16950 [3:01:31<01:20,  1.77it/s]Training 3/3 epoch (loss 0.0054):  99%|█████████▉| 16809/16950 [3:01:31<01:16,  1.85it/s]Training 3/3 epoch (loss 0.0000):  99%|█████████▉| 16809/16950 [3:01:31<01:16,  1.85it/s]Training 3/3 epoch (loss 0.0000):  99%|█████████▉| 16810/16950 [3:01:31<01:14,  1.87it/s]Training 3/3 epoch (loss 0.0000):  99%|█████████▉| 16810/16950 [3:01:31<01:14,  1.87it/s]Training 3/3 epoch (loss 0.0000):  99%|█████████▉| 16811/16950 [3:01:31<01:11,  1.94it/s]Training 3/3 epoch (loss 0.3051):  99%|█████████▉| 16811/16950 [3:01:32<01:11,  1.94it/s]Training 3/3 epoch (loss 0.3051):  99%|█████████▉| 16812/16950 [3:01:32<01:06,  2.07it/s]Training 3/3 epoch (loss 0.0005):  99%|█████████▉| 16812/16950 [3:01:33<01:06,  2.07it/s]Training 3/3 epoch (loss 0.0005):  99%|█████████▉| 16813/16950 [3:01:33<01:30,  1.52it/s]Training 3/3 epoch (loss 0.0879):  99%|█████████▉| 16813/16950 [3:01:34<01:30,  1.52it/s]Training 3/3 epoch (loss 0.0879):  99%|█████████▉| 16814/16950 [3:01:34<01:36,  1.41it/s]Training 3/3 epoch (loss 0.0036):  99%|█████████▉| 16814/16950 [3:01:34<01:36,  1.41it/s]Training 3/3 epoch (loss 0.0036):  99%|█████████▉| 16815/16950 [3:01:34<01:21,  1.65it/s]Training 3/3 epoch (loss 0.0147):  99%|█████████▉| 16815/16950 [3:01:35<01:21,  1.65it/s]Training 3/3 epoch (loss 0.0147):  99%|█████████▉| 16816/16950 [3:01:35<01:25,  1.57it/s]Training 3/3 epoch (loss 0.0077):  99%|█████████▉| 16816/16950 [3:01:36<01:25,  1.57it/s]Training 3/3 epoch (loss 0.0077):  99%|█████████▉| 16817/16950 [3:01:36<01:24,  1.57it/s]Training 3/3 epoch (loss 0.5577):  99%|█████████▉| 16817/16950 [3:01:36<01:24,  1.57it/s]Training 3/3 epoch (loss 0.5577):  99%|█████████▉| 16818/16950 [3:01:36<01:17,  1.71it/s]Training 3/3 epoch (loss 0.5757):  99%|█████████▉| 16818/16950 [3:01:37<01:17,  1.71it/s]Training 3/3 epoch (loss 0.5757):  99%|█████████▉| 16819/16950 [3:01:37<01:17,  1.68it/s]Training 3/3 epoch (loss 0.0078):  99%|█████████▉| 16819/16950 [3:01:37<01:17,  1.68it/s]Training 3/3 epoch (loss 0.0078):  99%|█████████▉| 16820/16950 [3:01:37<01:14,  1.76it/s]Training 3/3 epoch (loss 0.0041):  99%|█████████▉| 16820/16950 [3:01:38<01:14,  1.76it/s]Training 3/3 epoch (loss 0.0041):  99%|█████████▉| 16821/16950 [3:01:38<01:15,  1.71it/s]Training 3/3 epoch (loss 0.2010):  99%|█████████▉| 16821/16950 [3:01:38<01:15,  1.71it/s]Training 3/3 epoch (loss 0.2010):  99%|█████████▉| 16822/16950 [3:01:38<01:08,  1.86it/s]Training 3/3 epoch (loss 0.0107):  99%|█████████▉| 16822/16950 [3:01:39<01:08,  1.86it/s]Training 3/3 epoch (loss 0.0107):  99%|█████████▉| 16823/16950 [3:01:39<01:05,  1.94it/s]Training 3/3 epoch (loss 0.3410):  99%|█████████▉| 16823/16950 [3:01:39<01:05,  1.94it/s]Training 3/3 epoch (loss 0.3410):  99%|█████████▉| 16824/16950 [3:01:39<01:09,  1.82it/s]Training 3/3 epoch (loss 0.0107):  99%|█████████▉| 16824/16950 [3:01:40<01:09,  1.82it/s]Training 3/3 epoch (loss 0.0107):  99%|█████████▉| 16825/16950 [3:01:40<01:15,  1.66it/s]Training 3/3 epoch (loss 0.7496):  99%|█████████▉| 16825/16950 [3:01:40<01:15,  1.66it/s]Training 3/3 epoch (loss 0.7496):  99%|█████████▉| 16826/16950 [3:01:40<01:10,  1.76it/s]Training 3/3 epoch (loss 0.0146):  99%|█████████▉| 16826/16950 [3:01:41<01:10,  1.76it/s]Training 3/3 epoch (loss 0.0146):  99%|█████████▉| 16827/16950 [3:01:41<01:17,  1.58it/s]Training 3/3 epoch (loss 0.0146):  99%|█████████▉| 16827/16950 [3:01:42<01:17,  1.58it/s]Training 3/3 epoch (loss 0.0146):  99%|█████████▉| 16828/16950 [3:01:42<01:19,  1.53it/s]Training 3/3 epoch (loss 0.4015):  99%|█████████▉| 16828/16950 [3:01:43<01:19,  1.53it/s]Training 3/3 epoch (loss 0.4015):  99%|█████████▉| 16829/16950 [3:01:43<01:23,  1.45it/s]Training 3/3 epoch (loss 0.1084):  99%|█████████▉| 16829/16950 [3:01:43<01:23,  1.45it/s]Training 3/3 epoch (loss 0.1084):  99%|█████████▉| 16830/16950 [3:01:43<01:16,  1.57it/s]Training 3/3 epoch (loss 0.4307):  99%|█████████▉| 16830/16950 [3:01:44<01:16,  1.57it/s]Training 3/3 epoch (loss 0.4307):  99%|█████████▉| 16831/16950 [3:01:44<01:26,  1.37it/s]Training 3/3 epoch (loss 0.0019):  99%|█████████▉| 16831/16950 [3:01:45<01:26,  1.37it/s]Training 3/3 epoch (loss 0.0019):  99%|█████████▉| 16832/16950 [3:01:45<01:23,  1.41it/s]Training 3/3 epoch (loss 0.4223):  99%|█████████▉| 16832/16950 [3:01:45<01:23,  1.41it/s]Training 3/3 epoch (loss 0.4223):  99%|█████████▉| 16833/16950 [3:01:45<01:14,  1.58it/s]Training 3/3 epoch (loss 0.0064):  99%|█████████▉| 16833/16950 [3:01:46<01:14,  1.58it/s]Training 3/3 epoch (loss 0.0064):  99%|█████████▉| 16834/16950 [3:01:46<01:07,  1.71it/s]Training 3/3 epoch (loss 0.1010):  99%|█████████▉| 16834/16950 [3:01:46<01:07,  1.71it/s]Training 3/3 epoch (loss 0.1010):  99%|█████████▉| 16835/16950 [3:01:46<01:04,  1.79it/s]Training 3/3 epoch (loss 0.0297):  99%|█████████▉| 16835/16950 [3:01:47<01:04,  1.79it/s]Training 3/3 epoch (loss 0.0297):  99%|█████████▉| 16836/16950 [3:01:47<01:20,  1.42it/s]Training 3/3 epoch (loss 0.1880):  99%|█████████▉| 16836/16950 [3:01:48<01:20,  1.42it/s]Training 3/3 epoch (loss 0.1880):  99%|█████████▉| 16837/16950 [3:01:48<01:14,  1.53it/s]Training 3/3 epoch (loss 0.1843):  99%|█████████▉| 16837/16950 [3:01:49<01:14,  1.53it/s]Training 3/3 epoch (loss 0.1843):  99%|█████████▉| 16838/16950 [3:01:49<01:20,  1.40it/s]Training 3/3 epoch (loss 0.0007):  99%|█████████▉| 16838/16950 [3:01:49<01:20,  1.40it/s]Training 3/3 epoch (loss 0.0007):  99%|█████████▉| 16839/16950 [3:01:49<01:12,  1.52it/s]Training 3/3 epoch (loss 0.0091):  99%|█████████▉| 16839/16950 [3:01:50<01:12,  1.52it/s]Training 3/3 epoch (loss 0.0091):  99%|█████████▉| 16840/16950 [3:01:50<01:08,  1.61it/s]Training 3/3 epoch (loss 0.0001):  99%|█████████▉| 16840/16950 [3:01:50<01:08,  1.61it/s]Training 3/3 epoch (loss 0.0001):  99%|█████████▉| 16841/16950 [3:01:50<01:04,  1.69it/s]Training 3/3 epoch (loss 0.0000):  99%|█████████▉| 16841/16950 [3:01:51<01:04,  1.69it/s]Training 3/3 epoch (loss 0.0000):  99%|█████████▉| 16842/16950 [3:01:51<01:00,  1.80it/s]Training 3/3 epoch (loss 0.0204):  99%|█████████▉| 16842/16950 [3:01:51<01:00,  1.80it/s]Training 3/3 epoch (loss 0.0204):  99%|█████████▉| 16843/16950 [3:01:51<00:58,  1.83it/s]Training 3/3 epoch (loss 0.1835):  99%|█████████▉| 16843/16950 [3:01:52<00:58,  1.83it/s]Training 3/3 epoch (loss 0.1835):  99%|█████████▉| 16844/16950 [3:01:52<01:02,  1.70it/s]Training 3/3 epoch (loss 0.0029):  99%|█████████▉| 16844/16950 [3:01:53<01:02,  1.70it/s]Training 3/3 epoch (loss 0.0029):  99%|█████████▉| 16845/16950 [3:01:53<01:13,  1.42it/s]Training 3/3 epoch (loss 0.1425):  99%|█████████▉| 16845/16950 [3:01:53<01:13,  1.42it/s]Training 3/3 epoch (loss 0.1425):  99%|█████████▉| 16846/16950 [3:01:53<01:08,  1.53it/s]Training 3/3 epoch (loss 0.0990):  99%|█████████▉| 16846/16950 [3:01:54<01:08,  1.53it/s]Training 3/3 epoch (loss 0.0990):  99%|█████████▉| 16847/16950 [3:01:54<01:02,  1.65it/s]Training 3/3 epoch (loss 0.2508):  99%|█████████▉| 16847/16950 [3:01:54<01:02,  1.65it/s]Training 3/3 epoch (loss 0.2508):  99%|█████████▉| 16848/16950 [3:01:54<00:55,  1.84it/s]Training 3/3 epoch (loss 0.0024):  99%|█████████▉| 16848/16950 [3:01:55<00:55,  1.84it/s]Training 3/3 epoch (loss 0.0024):  99%|█████████▉| 16849/16950 [3:01:55<01:03,  1.60it/s]Training 3/3 epoch (loss 0.2462):  99%|█████████▉| 16849/16950 [3:01:56<01:03,  1.60it/s]Training 3/3 epoch (loss 0.2462):  99%|█████████▉| 16850/16950 [3:01:56<00:54,  1.82it/s]Training 3/3 epoch (loss 0.0359):  99%|█████████▉| 16850/16950 [3:01:56<00:54,  1.82it/s]Training 3/3 epoch (loss 0.0359):  99%|█████████▉| 16851/16950 [3:01:56<01:03,  1.57it/s]Training 3/3 epoch (loss 0.3957):  99%|█████████▉| 16851/16950 [3:01:57<01:03,  1.57it/s]Training 3/3 epoch (loss 0.3957):  99%|█████████▉| 16852/16950 [3:01:57<00:56,  1.73it/s]Training 3/3 epoch (loss 0.0027):  99%|█████████▉| 16852/16950 [3:01:57<00:56,  1.73it/s]Training 3/3 epoch (loss 0.0027):  99%|█████████▉| 16853/16950 [3:01:57<00:58,  1.67it/s]Training 3/3 epoch (loss 0.1300):  99%|█████████▉| 16853/16950 [3:01:58<00:58,  1.67it/s]Training 3/3 epoch (loss 0.1300):  99%|█████████▉| 16854/16950 [3:01:58<00:54,  1.75it/s]Training 3/3 epoch (loss 0.0048):  99%|█████████▉| 16854/16950 [3:01:59<00:54,  1.75it/s]Training 3/3 epoch (loss 0.0048):  99%|█████████▉| 16855/16950 [3:01:59<00:53,  1.78it/s]Training 3/3 epoch (loss 0.1986):  99%|█████████▉| 16855/16950 [3:01:59<00:53,  1.78it/s]Training 3/3 epoch (loss 0.1986):  99%|█████████▉| 16856/16950 [3:01:59<00:56,  1.68it/s]Training 3/3 epoch (loss 0.0037):  99%|█████████▉| 16856/16950 [3:02:00<00:56,  1.68it/s]Training 3/3 epoch (loss 0.0037):  99%|█████████▉| 16857/16950 [3:02:00<00:56,  1.66it/s]Training 3/3 epoch (loss 0.5150):  99%|█████████▉| 16857/16950 [3:02:00<00:56,  1.66it/s]Training 3/3 epoch (loss 0.5150):  99%|█████████▉| 16858/16950 [3:02:00<00:47,  1.94it/s]Training 3/3 epoch (loss 0.0070):  99%|█████████▉| 16858/16950 [3:02:01<00:47,  1.94it/s]Training 3/3 epoch (loss 0.0070):  99%|█████████▉| 16859/16950 [3:02:01<00:51,  1.78it/s]Training 3/3 epoch (loss 0.0005):  99%|█████████▉| 16859/16950 [3:02:01<00:51,  1.78it/s]Training 3/3 epoch (loss 0.0005):  99%|█████████▉| 16860/16950 [3:02:01<00:47,  1.91it/s]Training 3/3 epoch (loss 0.0068):  99%|█████████▉| 16860/16950 [3:02:02<00:47,  1.91it/s]Training 3/3 epoch (loss 0.0068):  99%|█████████▉| 16861/16950 [3:02:02<00:48,  1.84it/s]Training 3/3 epoch (loss 0.0107):  99%|█████████▉| 16861/16950 [3:02:02<00:48,  1.84it/s]Training 3/3 epoch (loss 0.0107):  99%|█████████▉| 16862/16950 [3:02:02<00:49,  1.78it/s]Training 3/3 epoch (loss 0.2896):  99%|█████████▉| 16862/16950 [3:02:03<00:49,  1.78it/s]Training 3/3 epoch (loss 0.2896):  99%|█████████▉| 16863/16950 [3:02:03<00:45,  1.91it/s]Training 3/3 epoch (loss 0.5011):  99%|█████████▉| 16863/16950 [3:02:03<00:45,  1.91it/s]Training 3/3 epoch (loss 0.5011):  99%|█████████▉| 16864/16950 [3:02:03<00:42,  2.05it/s]Training 3/3 epoch (loss 0.0003):  99%|█████████▉| 16864/16950 [3:02:04<00:42,  2.05it/s]Training 3/3 epoch (loss 0.0003):  99%|█████████▉| 16865/16950 [3:02:04<00:39,  2.13it/s]Training 3/3 epoch (loss 0.5221):  99%|█████████▉| 16865/16950 [3:02:04<00:39,  2.13it/s]Training 3/3 epoch (loss 0.5221): 100%|█████████▉| 16866/16950 [3:02:04<00:43,  1.93it/s]Training 3/3 epoch (loss 0.0323): 100%|█████████▉| 16866/16950 [3:02:05<00:43,  1.93it/s]Training 3/3 epoch (loss 0.0323): 100%|█████████▉| 16867/16950 [3:02:05<00:42,  1.96it/s]Training 3/3 epoch (loss 0.0010): 100%|█████████▉| 16867/16950 [3:02:05<00:42,  1.96it/s]Training 3/3 epoch (loss 0.0010): 100%|█████████▉| 16868/16950 [3:02:05<00:44,  1.85it/s]Training 3/3 epoch (loss 0.0066): 100%|█████████▉| 16868/16950 [3:02:07<00:44,  1.85it/s]Training 3/3 epoch (loss 0.0066): 100%|█████████▉| 16869/16950 [3:02:07<00:57,  1.40it/s]Training 3/3 epoch (loss 0.0002): 100%|█████████▉| 16869/16950 [3:02:07<00:57,  1.40it/s]Training 3/3 epoch (loss 0.0002): 100%|█████████▉| 16870/16950 [3:02:07<00:55,  1.45it/s]Training 3/3 epoch (loss 0.0240): 100%|█████████▉| 16870/16950 [3:02:08<00:55,  1.45it/s]Training 3/3 epoch (loss 0.0240): 100%|█████████▉| 16871/16950 [3:02:08<00:50,  1.56it/s]Training 3/3 epoch (loss 0.0030): 100%|█████████▉| 16871/16950 [3:02:08<00:50,  1.56it/s]Training 3/3 epoch (loss 0.0030): 100%|█████████▉| 16872/16950 [3:02:08<00:44,  1.75it/s]Training 3/3 epoch (loss 0.0001): 100%|█████████▉| 16872/16950 [3:02:09<00:44,  1.75it/s]Training 3/3 epoch (loss 0.0001): 100%|█████████▉| 16873/16950 [3:02:09<00:43,  1.79it/s]Training 3/3 epoch (loss 0.0002): 100%|█████████▉| 16873/16950 [3:02:09<00:43,  1.79it/s]Training 3/3 epoch (loss 0.0002): 100%|█████████▉| 16874/16950 [3:02:09<00:41,  1.82it/s]Training 3/3 epoch (loss 0.1516): 100%|█████████▉| 16874/16950 [3:02:10<00:41,  1.82it/s]Training 3/3 epoch (loss 0.1516): 100%|█████████▉| 16875/16950 [3:02:10<00:44,  1.69it/s]Training 3/3 epoch (loss 0.2153): 100%|█████████▉| 16875/16950 [3:02:10<00:44,  1.69it/s]Training 3/3 epoch (loss 0.2153): 100%|█████████▉| 16876/16950 [3:02:10<00:44,  1.66it/s]Training 3/3 epoch (loss 0.0002): 100%|█████████▉| 16876/16950 [3:02:11<00:44,  1.66it/s]Training 3/3 epoch (loss 0.0002): 100%|█████████▉| 16877/16950 [3:02:11<00:44,  1.62it/s]Training 3/3 epoch (loss 0.0063): 100%|█████████▉| 16877/16950 [3:02:12<00:44,  1.62it/s]Training 3/3 epoch (loss 0.0063): 100%|█████████▉| 16878/16950 [3:02:12<00:44,  1.62it/s]Training 3/3 epoch (loss nan): 100%|█████████▉| 16878/16950 [3:02:13<00:44,  1.62it/s]   Training 3/3 epoch (loss nan): 100%|█████████▉| 16879/16950 [3:02:13<00:54,  1.31it/s]Training 3/3 epoch (loss 0.3699): 100%|█████████▉| 16879/16950 [3:02:13<00:54,  1.31it/s]Training 3/3 epoch (loss 0.3699): 100%|█████████▉| 16880/16950 [3:02:13<00:44,  1.56it/s]Training 3/3 epoch (loss 0.0632): 100%|█████████▉| 16880/16950 [3:02:14<00:44,  1.56it/s]Training 3/3 epoch (loss 0.0632): 100%|█████████▉| 16881/16950 [3:02:14<00:40,  1.70it/s]Training 3/3 epoch (loss 0.4948): 100%|█████████▉| 16881/16950 [3:02:14<00:40,  1.70it/s]Training 3/3 epoch (loss 0.4948): 100%|█████████▉| 16882/16950 [3:02:14<00:37,  1.84it/s]Training 3/3 epoch (loss 0.0005): 100%|█████████▉| 16882/16950 [3:02:15<00:37,  1.84it/s]Training 3/3 epoch (loss 0.0005): 100%|█████████▉| 16883/16950 [3:02:15<00:36,  1.84it/s]Training 3/3 epoch (loss 0.0855): 100%|█████████▉| 16883/16950 [3:02:16<00:36,  1.84it/s]Training 3/3 epoch (loss 0.0855): 100%|█████████▉| 16884/16950 [3:02:16<00:42,  1.55it/s]Training 3/3 epoch (loss 0.0807): 100%|█████████▉| 16884/16950 [3:02:16<00:42,  1.55it/s]Training 3/3 epoch (loss 0.0807): 100%|█████████▉| 16885/16950 [3:02:16<00:40,  1.60it/s]Training 3/3 epoch (loss 0.0092): 100%|█████████▉| 16885/16950 [3:02:17<00:40,  1.60it/s]Training 3/3 epoch (loss 0.0092): 100%|█████████▉| 16886/16950 [3:02:17<00:39,  1.61it/s]Training 3/3 epoch (loss 0.0120): 100%|█████████▉| 16886/16950 [3:02:17<00:39,  1.61it/s]Training 3/3 epoch (loss 0.0120): 100%|█████████▉| 16887/16950 [3:02:17<00:36,  1.70it/s]Training 3/3 epoch (loss 0.4012): 100%|█████████▉| 16887/16950 [3:02:18<00:36,  1.70it/s]Training 3/3 epoch (loss 0.4012): 100%|█████████▉| 16888/16950 [3:02:18<00:36,  1.71it/s]Training 3/3 epoch (loss 0.0000): 100%|█████████▉| 16888/16950 [3:02:18<00:36,  1.71it/s]Training 3/3 epoch (loss 0.0000): 100%|█████████▉| 16889/16950 [3:02:18<00:34,  1.75it/s]Training 3/3 epoch (loss 0.0128): 100%|█████████▉| 16889/16950 [3:02:19<00:34,  1.75it/s]Training 3/3 epoch (loss 0.0128): 100%|█████████▉| 16890/16950 [3:02:19<00:30,  1.99it/s]Training 3/3 epoch (loss 0.0275): 100%|█████████▉| 16890/16950 [3:02:19<00:30,  1.99it/s]Training 3/3 epoch (loss 0.0275): 100%|█████████▉| 16891/16950 [3:02:19<00:28,  2.07it/s]Training 3/3 epoch (loss 1.0092): 100%|█████████▉| 16891/16950 [3:02:20<00:28,  2.07it/s]Training 3/3 epoch (loss 1.0092): 100%|█████████▉| 16892/16950 [3:02:20<00:39,  1.46it/s]Training 3/3 epoch (loss 0.0000): 100%|█████████▉| 16892/16950 [3:02:21<00:39,  1.46it/s]Training 3/3 epoch (loss 0.0000): 100%|█████████▉| 16893/16950 [3:02:21<00:36,  1.57it/s]Training 3/3 epoch (loss 0.7868): 100%|█████████▉| 16893/16950 [3:02:21<00:36,  1.57it/s]Training 3/3 epoch (loss 0.7868): 100%|█████████▉| 16894/16950 [3:02:21<00:32,  1.71it/s]Training 3/3 epoch (loss 0.0096): 100%|█████████▉| 16894/16950 [3:02:22<00:32,  1.71it/s]Training 3/3 epoch (loss 0.0096): 100%|█████████▉| 16895/16950 [3:02:22<00:29,  1.86it/s]Training 3/3 epoch (loss 0.0001): 100%|█████████▉| 16895/16950 [3:02:22<00:29,  1.86it/s]Training 3/3 epoch (loss 0.0001): 100%|█████████▉| 16896/16950 [3:02:22<00:29,  1.83it/s]Training 3/3 epoch (loss 0.0007): 100%|█████████▉| 16896/16950 [3:02:23<00:29,  1.83it/s]Training 3/3 epoch (loss 0.0007): 100%|█████████▉| 16897/16950 [3:02:23<00:28,  1.85it/s]Training 3/3 epoch (loss 0.3231): 100%|█████████▉| 16897/16950 [3:02:24<00:28,  1.85it/s]Training 3/3 epoch (loss 0.3231): 100%|█████████▉| 16898/16950 [3:02:24<00:31,  1.67it/s]Training 3/3 epoch (loss 0.2845): 100%|█████████▉| 16898/16950 [3:02:24<00:31,  1.67it/s]Training 3/3 epoch (loss 0.2845): 100%|█████████▉| 16899/16950 [3:02:24<00:27,  1.86it/s]Training 3/3 epoch (loss 1.0613): 100%|█████████▉| 16899/16950 [3:02:25<00:27,  1.86it/s]Training 3/3 epoch (loss 1.0613): 100%|█████████▉| 16900/16950 [3:02:25<00:31,  1.58it/s]Training 3/3 epoch (loss 0.0001): 100%|█████████▉| 16900/16950 [3:02:26<00:31,  1.58it/s]Training 3/3 epoch (loss 0.0001): 100%|█████████▉| 16901/16950 [3:02:26<00:32,  1.49it/s]Training 3/3 epoch (loss 0.0622): 100%|█████████▉| 16901/16950 [3:02:26<00:32,  1.49it/s]Training 3/3 epoch (loss 0.0622): 100%|█████████▉| 16902/16950 [3:02:26<00:31,  1.52it/s]Training 3/3 epoch (loss 0.0763): 100%|█████████▉| 16902/16950 [3:02:27<00:31,  1.52it/s]Training 3/3 epoch (loss 0.0763): 100%|█████████▉| 16903/16950 [3:02:27<00:29,  1.61it/s]Training 3/3 epoch (loss 0.0006): 100%|█████████▉| 16903/16950 [3:02:27<00:29,  1.61it/s]Training 3/3 epoch (loss 0.0006): 100%|█████████▉| 16904/16950 [3:02:27<00:24,  1.90it/s]Training 3/3 epoch (loss 0.5510): 100%|█████████▉| 16904/16950 [3:02:28<00:24,  1.90it/s]Training 3/3 epoch (loss 0.5510): 100%|█████████▉| 16905/16950 [3:02:28<00:24,  1.83it/s]Training 3/3 epoch (loss 0.0001): 100%|█████████▉| 16905/16950 [3:02:28<00:24,  1.83it/s]Training 3/3 epoch (loss 0.0001): 100%|█████████▉| 16906/16950 [3:02:28<00:22,  1.95it/s]Training 3/3 epoch (loss 0.5083): 100%|█████████▉| 16906/16950 [3:02:29<00:22,  1.95it/s]Training 3/3 epoch (loss 0.5083): 100%|█████████▉| 16907/16950 [3:02:29<00:23,  1.86it/s]Training 3/3 epoch (loss 0.5808): 100%|█████████▉| 16907/16950 [3:02:29<00:23,  1.86it/s]Training 3/3 epoch (loss 0.5808): 100%|█████████▉| 16908/16950 [3:02:29<00:19,  2.11it/s]Training 3/3 epoch (loss 0.0071): 100%|█████████▉| 16908/16950 [3:02:30<00:19,  2.11it/s]Training 3/3 epoch (loss 0.0071): 100%|█████████▉| 16909/16950 [3:02:30<00:22,  1.79it/s]Training 3/3 epoch (loss 0.0003): 100%|█████████▉| 16909/16950 [3:02:30<00:22,  1.79it/s]Training 3/3 epoch (loss 0.0003): 100%|█████████▉| 16910/16950 [3:02:30<00:23,  1.72it/s]Training 3/3 epoch (loss 0.1860): 100%|█████████▉| 16910/16950 [3:02:31<00:23,  1.72it/s]Training 3/3 epoch (loss 0.1860): 100%|█████████▉| 16911/16950 [3:02:31<00:21,  1.85it/s]Training 3/3 epoch (loss 0.0057): 100%|█████████▉| 16911/16950 [3:02:31<00:21,  1.85it/s]Training 3/3 epoch (loss 0.0057): 100%|█████████▉| 16912/16950 [3:02:31<00:20,  1.81it/s]Training 3/3 epoch (loss 0.5756): 100%|█████████▉| 16912/16950 [3:02:32<00:20,  1.81it/s]Training 3/3 epoch (loss 0.5756): 100%|█████████▉| 16913/16950 [3:02:32<00:24,  1.52it/s]Training 3/3 epoch (loss 0.0278): 100%|█████████▉| 16913/16950 [3:02:33<00:24,  1.52it/s]Training 3/3 epoch (loss 0.0278): 100%|█████████▉| 16914/16950 [3:02:33<00:22,  1.57it/s]Training 3/3 epoch (loss 0.0005): 100%|█████████▉| 16914/16950 [3:02:33<00:22,  1.57it/s]Training 3/3 epoch (loss 0.0005): 100%|█████████▉| 16915/16950 [3:02:33<00:21,  1.63it/s]Training 3/3 epoch (loss 0.3266): 100%|█████████▉| 16915/16950 [3:02:34<00:21,  1.63it/s]Training 3/3 epoch (loss 0.3266): 100%|█████████▉| 16916/16950 [3:02:34<00:19,  1.73it/s]Training 3/3 epoch (loss 0.0215): 100%|█████████▉| 16916/16950 [3:02:34<00:19,  1.73it/s]Training 3/3 epoch (loss 0.0215): 100%|█████████▉| 16917/16950 [3:02:34<00:17,  1.89it/s]Training 3/3 epoch (loss 0.6855): 100%|█████████▉| 16917/16950 [3:02:35<00:17,  1.89it/s]Training 3/3 epoch (loss 0.6855): 100%|█████████▉| 16918/16950 [3:02:35<00:18,  1.78it/s]Training 3/3 epoch (loss 0.0699): 100%|█████████▉| 16918/16950 [3:02:36<00:18,  1.78it/s]Training 3/3 epoch (loss 0.0699): 100%|█████████▉| 16919/16950 [3:02:36<00:18,  1.67it/s]Training 3/3 epoch (loss 0.0001): 100%|█████████▉| 16919/16950 [3:02:36<00:18,  1.67it/s]Training 3/3 epoch (loss 0.0001): 100%|█████████▉| 16920/16950 [3:02:36<00:16,  1.83it/s]Training 3/3 epoch (loss 0.6243): 100%|█████████▉| 16920/16950 [3:02:37<00:16,  1.83it/s]Training 3/3 epoch (loss 0.6243): 100%|█████████▉| 16921/16950 [3:02:37<00:18,  1.53it/s]Training 3/3 epoch (loss 0.0619): 100%|█████████▉| 16921/16950 [3:02:38<00:18,  1.53it/s]Training 3/3 epoch (loss 0.0619): 100%|█████████▉| 16922/16950 [3:02:38<00:18,  1.54it/s]Training 3/3 epoch (loss 0.0038): 100%|█████████▉| 16922/16950 [3:02:38<00:18,  1.54it/s]Training 3/3 epoch (loss 0.0038): 100%|█████████▉| 16923/16950 [3:02:38<00:17,  1.58it/s]Training 3/3 epoch (loss 0.1912): 100%|█████████▉| 16923/16950 [3:02:39<00:17,  1.58it/s]Training 3/3 epoch (loss 0.1912): 100%|█████████▉| 16924/16950 [3:02:39<00:19,  1.32it/s]Training 3/3 epoch (loss 0.2793): 100%|█████████▉| 16924/16950 [3:02:40<00:19,  1.32it/s]Training 3/3 epoch (loss 0.2793): 100%|█████████▉| 16925/16950 [3:02:40<00:17,  1.47it/s]Training 3/3 epoch (loss 0.6247): 100%|█████████▉| 16925/16950 [3:02:40<00:17,  1.47it/s]Training 3/3 epoch (loss 0.6247): 100%|█████████▉| 16926/16950 [3:02:40<00:14,  1.66it/s]Training 3/3 epoch (loss 0.3933): 100%|█████████▉| 16926/16950 [3:02:41<00:14,  1.66it/s]Training 3/3 epoch (loss 0.3933): 100%|█████████▉| 16927/16950 [3:02:41<00:13,  1.65it/s]Training 3/3 epoch (loss 0.1963): 100%|█████████▉| 16927/16950 [3:02:42<00:13,  1.65it/s]Training 3/3 epoch (loss 0.1963): 100%|█████████▉| 16928/16950 [3:02:42<00:13,  1.59it/s]Training 3/3 epoch (loss 0.0007): 100%|█████████▉| 16928/16950 [3:02:42<00:13,  1.59it/s]Training 3/3 epoch (loss 0.0007): 100%|█████████▉| 16929/16950 [3:02:42<00:11,  1.80it/s]Training 3/3 epoch (loss 0.0476): 100%|█████████▉| 16929/16950 [3:02:42<00:11,  1.80it/s]Training 3/3 epoch (loss 0.0476): 100%|█████████▉| 16930/16950 [3:02:42<00:10,  1.86it/s]Training 3/3 epoch (loss 0.0005): 100%|█████████▉| 16930/16950 [3:02:43<00:10,  1.86it/s]Training 3/3 epoch (loss 0.0005): 100%|█████████▉| 16931/16950 [3:02:43<00:09,  1.96it/s]Training 3/3 epoch (loss 0.0019): 100%|█████████▉| 16931/16950 [3:02:44<00:09,  1.96it/s]Training 3/3 epoch (loss 0.0019): 100%|█████████▉| 16932/16950 [3:02:44<00:10,  1.65it/s]Training 3/3 epoch (loss 0.2275): 100%|█████████▉| 16932/16950 [3:02:44<00:10,  1.65it/s]Training 3/3 epoch (loss 0.2275): 100%|█████████▉| 16933/16950 [3:02:44<00:10,  1.68it/s]Training 3/3 epoch (loss 0.0050): 100%|█████████▉| 16933/16950 [3:02:45<00:10,  1.68it/s]Training 3/3 epoch (loss 0.0050): 100%|█████████▉| 16934/16950 [3:02:45<00:08,  1.97it/s]Training 3/3 epoch (loss 0.0660): 100%|█████████▉| 16934/16950 [3:02:45<00:08,  1.97it/s]Training 3/3 epoch (loss 0.0660): 100%|█████████▉| 16935/16950 [3:02:45<00:07,  1.96it/s]Training 3/3 epoch (loss 0.0677): 100%|█████████▉| 16935/16950 [3:02:46<00:07,  1.96it/s]Training 3/3 epoch (loss 0.0677): 100%|█████████▉| 16936/16950 [3:02:46<00:07,  1.77it/s]Training 3/3 epoch (loss 0.2826): 100%|█████████▉| 16936/16950 [3:02:46<00:07,  1.77it/s]Training 3/3 epoch (loss 0.2826): 100%|█████████▉| 16937/16950 [3:02:46<00:07,  1.83it/s]Training 3/3 epoch (loss 0.3575): 100%|█████████▉| 16937/16950 [3:02:47<00:07,  1.83it/s]Training 3/3 epoch (loss 0.3575): 100%|█████████▉| 16938/16950 [3:02:47<00:08,  1.42it/s]Training 3/3 epoch (loss 0.0014): 100%|█████████▉| 16938/16950 [3:02:48<00:08,  1.42it/s]Training 3/3 epoch (loss 0.0014): 100%|█████████▉| 16939/16950 [3:02:48<00:07,  1.47it/s]Training 3/3 epoch (loss 0.3778): 100%|█████████▉| 16939/16950 [3:02:48<00:07,  1.47it/s]Training 3/3 epoch (loss 0.3778): 100%|█████████▉| 16940/16950 [3:02:48<00:06,  1.57it/s]Training 3/3 epoch (loss 0.0003): 100%|█████████▉| 16940/16950 [3:02:49<00:06,  1.57it/s]Training 3/3 epoch (loss 0.0003): 100%|█████████▉| 16941/16950 [3:02:49<00:05,  1.57it/s]Training 3/3 epoch (loss 0.0236): 100%|█████████▉| 16941/16950 [3:02:50<00:05,  1.57it/s]Training 3/3 epoch (loss 0.0236): 100%|█████████▉| 16942/16950 [3:02:50<00:05,  1.52it/s]Training 3/3 epoch (loss 0.0071): 100%|█████████▉| 16942/16950 [3:02:51<00:05,  1.52it/s]Training 3/3 epoch (loss 0.0071): 100%|█████████▉| 16943/16950 [3:02:51<00:04,  1.48it/s]Training 3/3 epoch (loss 0.0102): 100%|█████████▉| 16943/16950 [3:02:51<00:04,  1.48it/s]Training 3/3 epoch (loss 0.0102): 100%|█████████▉| 16944/16950 [3:02:51<00:04,  1.44it/s]Training 3/3 epoch (loss 0.0574): 100%|█████████▉| 16944/16950 [3:02:52<00:04,  1.44it/s]Training 3/3 epoch (loss 0.0574): 100%|█████████▉| 16945/16950 [3:02:52<00:03,  1.31it/s]Training 3/3 epoch (loss 0.1312): 100%|█████████▉| 16945/16950 [3:02:53<00:03,  1.31it/s]Training 3/3 epoch (loss 0.1312): 100%|█████████▉| 16946/16950 [3:02:53<00:03,  1.33it/s]Training 3/3 epoch (loss 0.7857): 100%|█████████▉| 16946/16950 [3:02:53<00:03,  1.33it/s]Training 3/3 epoch (loss 0.7857): 100%|█████████▉| 16947/16950 [3:02:53<00:01,  1.51it/s]Training 3/3 epoch (loss 0.5219): 100%|█████████▉| 16947/16950 [3:02:54<00:01,  1.51it/s]Training 3/3 epoch (loss 0.5219): 100%|█████████▉| 16948/16950 [3:02:54<00:01,  1.47it/s]Training 3/3 epoch (loss 0.3859): 100%|█████████▉| 16948/16950 [3:02:55<00:01,  1.47it/s]Training 3/3 epoch (loss 0.3859): 100%|█████████▉| 16949/16950 [3:02:55<00:00,  1.25it/s]Training 3/3 epoch (loss 0.0331): 100%|█████████▉| 16949/16950 [3:02:56<00:00,  1.25it/s]Training 3/3 epoch (loss 0.0331): 100%|██████████| 16950/16950 [3:02:56<00:00,  1.35it/s]                                                                                         Training 3/3 epoch (loss 0.0331): 100%|██████████| 16950/16950 [3:02:56<00:00,  1.35it/s]Training 3/3 epoch (loss 0.0331): 100%|██████████| 16950/16950 [3:06:43<00:00,  1.51it/s]
+/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/peft/utils/save_and_load.py:220: UserWarning: Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`.
+  warnings.warn("Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`.")
+wandb:                                                                                
+wandb: 
+wandb: Run history:
+wandb:            eval/max_log_ratio ▁▇██
+wandb: eval/mean_important_log_ratio ▁▇██
+wandb:            eval/min_log_ratio ▁███
+wandb:                     eval/step ▁▃▆█
+wandb:                   train/epoch ▁▁▁▁▁▂▂▂▂▂▃▃▃▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▆▆▆▆▆▆▇▇▇███
+wandb:                    train/loss ▁▂▁█▁▁▅▇▂▇▂▃▃▅▆▅▂▁▁▁▃▃▆▄▂▁▂▂▁▁▁▂▁▁▇▁▁▁▁▂
+wandb:                      train/lr ▄▅▅▆█████████▇▇▇▇▇▇▇▇▆▅▅▅▄▄▄▃▃▃▂▂▁▁▁▁▁▁▁
+wandb:                    train/step ▁▁▂▂▂▂▂▂▃▃▃▃▃▃▃▃▄▄▄▄▄▄▄▅▅▅▅▆▆▆▆▇▇▇▇▇▇▇▇█
+wandb: 
+wandb: Run summary:
+wandb:            eval/max_log_ratio 192
+wandb: eval/mean_important_log_ratio 71.5
+wandb:            eval/min_log_ratio 0.01733
+wandb:                     eval/step 16950
+wandb:                   train/epoch 3
+wandb:                    train/loss 0.03306
+wandb:                      train/lr 0.0
+wandb:                    train/step 16950
+wandb: 
+wandb: 🚀 View run tools-sft-2025-05-08-21-21-54 at: https://wandb.ai/alelab/TOOLS-SFT/runs/is8630ik
+wandb: ⭐️ View project at: https://wandb.ai/alelab/TOOLS-SFT
+wandb: Synced 5 W&B file(s), 0 media file(s), 0 artifact file(s) and 0 other file(s)
+wandb: Find logs at: /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_212154-is8630ik/logs
+[rank0]:[W509 00:28:43.266551307 ProcessGroupNCCL.cpp:1250] Warning: WARNING: process group has NOT been destroyed before we destruct ProcessGroupNCCL. On normal program exit, the application should call destroy_process_group to ensure that any pending NCCL operations have finished in this process. In rare cases this process can exit before this point and block the progress of another member of the process group. This constraint has always been present,  but this warning has only been added since PyTorch 2.4 (function operator())
diff --git a/stdout.log b/stdout.log
new file mode 100644
index 0000000000000000000000000000000000000000..7fb78228639a3f5e3f41d7b656ea46baa2bed0c7
--- /dev/null
+++ b/stdout.log
@@ -0,0 +1,50 @@
+--------- Environment sanity check ---------
+shell:        ./sft-tools.sh running under bash 5.0.17(1)-release
+conda env:    pda
+python:       /home/panda/miniconda3/envs/pda/bin/python
+sys.executable : /home/panda/miniconda3/envs/pda/bin/python
+python version : 3.11.11
+CONDA_PREFIX   : /home/panda/miniconda3/envs/pda
+deepspeed:    /home/panda/miniconda3/envs/pda/bin/deepspeed
+--------------------------------------------
+[2025-05-08 20:43:00,175] [INFO] [real_accelerator.py:239:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-05-08 20:43:02,239] [WARNING] [runner.py:215:fetch_hostfile] Unable to find hostfile, will proceed with training with local resources only.
+Detected VISIBLE_DEVICES=0,1: setting --include=localhost:0,1
+[2025-05-08 20:43:02,239] [INFO] [runner.py:605:main] cmd = /home/panda/miniconda3/envs/pda/bin/python -u -m deepspeed.launcher.launch --world_info=eyJsb2NhbGhvc3QiOiBbMCwgMV19 --master_addr=127.0.0.1 --master_port=35777 --module --enable_each_rank_log=None safe_rlhf.algorithms.tools_ft --train_datasets tools --model_name_or_path meta-llama/Llama-3.1-8B-Instruct --cache_dir /home/panda/pda-llm/cache/sft-tools --important_sft false --max_length 2048 --trust_remote_code True --epochs 3 --per_device_train_batch_size 1 --per_device_eval_batch_size 1 --gradient_accumulation_steps 48 --gradient_checkpointing --learning_rate 1e-4 --lr_scheduler_type cosine --lr_warmup_ratio 0.1 --weight_decay 0.0 --seed 42 --output_dir /home/panda/pda-llm/output/sft-tools/run-false-1-10 --log_type wandb --log_project TOOLS-SFT --zero_stage 0 --offload none --safety_ratio_tol 10 --resilient_coeff 1 --lora_r 16 --lora_alpha 32 --lora_dropout 0.05 --bf16 True --fp16 False --tf32 False
+[2025-05-08 20:43:03,384] [INFO] [real_accelerator.py:239:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-05-08 20:43:05,396] [INFO] [launch.py:146:main] WORLD INFO DICT: {'localhost': [0, 1]}
+[2025-05-08 20:43:05,396] [INFO] [launch.py:152:main] nnodes=1, num_local_procs=2, node_rank=0
+[2025-05-08 20:43:05,396] [INFO] [launch.py:163:main] global_rank_mapping=defaultdict(<class 'list'>, {'localhost': [0, 1]})
+[2025-05-08 20:43:05,396] [INFO] [launch.py:164:main] dist_world_size=2
+[2025-05-08 20:43:05,396] [INFO] [launch.py:168:main] Setting CUDA_VISIBLE_DEVICES=0,1
+[2025-05-08 20:43:05,396] [INFO] [launch.py:256:main] process 1548317 spawned with command: ['/home/panda/miniconda3/envs/pda/bin/python', '-u', '-m', 'safe_rlhf.algorithms.tools_ft', '--local_rank=0', '--train_datasets', 'tools', '--model_name_or_path', 'meta-llama/Llama-3.1-8B-Instruct', '--cache_dir', '/home/panda/pda-llm/cache/sft-tools', '--important_sft', 'false', '--max_length', '2048', '--trust_remote_code', 'True', '--epochs', '3', '--per_device_train_batch_size', '1', '--per_device_eval_batch_size', '1', '--gradient_accumulation_steps', '48', '--gradient_checkpointing', '--learning_rate', '1e-4', '--lr_scheduler_type', 'cosine', '--lr_warmup_ratio', '0.1', '--weight_decay', '0.0', '--seed', '42', '--output_dir', '/home/panda/pda-llm/output/sft-tools/run-false-1-10', '--log_type', 'wandb', '--log_project', 'TOOLS-SFT', '--zero_stage', '0', '--offload', 'none', '--safety_ratio_tol', '10', '--resilient_coeff', '1', '--lora_r', '16', '--lora_alpha', '32', '--lora_dropout', '0.05', '--bf16', 'True', '--fp16', 'False', '--tf32', 'False']
+[2025-05-08 20:43:05,397] [INFO] [launch.py:256:main] process 1548318 spawned with command: ['/home/panda/miniconda3/envs/pda/bin/python', '-u', '-m', 'safe_rlhf.algorithms.tools_ft', '--local_rank=1', '--train_datasets', 'tools', '--model_name_or_path', 'meta-llama/Llama-3.1-8B-Instruct', '--cache_dir', '/home/panda/pda-llm/cache/sft-tools', '--important_sft', 'false', '--max_length', '2048', '--trust_remote_code', 'True', '--epochs', '3', '--per_device_train_batch_size', '1', '--per_device_eval_batch_size', '1', '--gradient_accumulation_steps', '48', '--gradient_checkpointing', '--learning_rate', '1e-4', '--lr_scheduler_type', 'cosine', '--lr_warmup_ratio', '0.1', '--weight_decay', '0.0', '--seed', '42', '--output_dir', '/home/panda/pda-llm/output/sft-tools/run-false-1-10', '--log_type', 'wandb', '--log_project', 'TOOLS-SFT', '--zero_stage', '0', '--offload', 'none', '--safety_ratio_tol', '10', '--resilient_coeff', '1', '--lora_r', '16', '--lora_alpha', '32', '--lora_dropout', '0.05', '--bf16', 'True', '--fp16', 'False', '--tf32', 'False']
+[2025-05-08 20:43:06,560] [INFO] [real_accelerator.py:239:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-05-08 20:43:06,564] [INFO] [real_accelerator.py:239:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-05-08 20:43:09,694] [INFO] [comm.py:669:init_distributed] cdb=None
+[2025-05-08 20:43:09,706] [INFO] [comm.py:669:init_distributed] cdb=None
+[2025-05-08 20:43:09,707] [INFO] [comm.py:700:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+Set logger level to WARNING.
+calculating baseline ...
+calculating baseline ...
+Computing baseline logprobs...
+ninja: no work to do.
+Time to load fused_adam op: 0.032095909118652344 seconds
+Saving computed baseline logprobs to /home/panda/pda-llm/cache/sft-tools/cached_baseline_logprobs.pt
+Saved baseline logprobs successfully
+ninja: no work to do.
+Time to load fused_adam op: 0.034185171127319336 seconds
+***** Running training *****
+
+***** Evaluating at the beginning *****
+
+***** Evaluating at epoch 1/3 *****
+
+***** Evaluating at epoch 2/3 *****
+
+***** Evaluating at epoch 3/3 *****
+Saving model to "/home/panda/pda-llm/output/sft-tools/run-false-1-10" ...
+Saving Hugging Face Checkpoints...
+[2025-05-09 00:28:41,058] [INFO] [launch.py:351:main] Process 1548318 exits successfully.
+Model saved!
+[2025-05-09 00:28:45,059] [INFO] [launch.py:351:main] Process 1548317 exits successfully.
diff --git a/tokenizer.json b/tokenizer.json
new file mode 100644
index 0000000000000000000000000000000000000000..6c121de2e8c636f5025887b6f8041dc7ba379ea7
--- /dev/null
+++ b/tokenizer.json
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:65b66ccdde0ce45c83b06f31e9f11272cade6aff26ec3cc9d6c49ede82b3ee2d
+size 17210383
diff --git a/tokenizer_config.json b/tokenizer_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..d1613fb66d55f8779ee8427b9db3d2a2d9910017
--- /dev/null
+++ b/tokenizer_config.json
@@ -0,0 +1,2082 @@
+{
+  "added_tokens_decoder": {
+    "128000": {
+      "content": "<|begin_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128001": {
+      "content": "<|end_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128002": {
+      "content": "<|reserved_special_token_0|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128003": {
+      "content": "<|reserved_special_token_1|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128004": {
+      "content": "<|finetune_right_pad_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128005": {
+      "content": "<|reserved_special_token_2|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128006": {
+      "content": "<|start_header_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128007": {
+      "content": "<|end_header_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128008": {
+      "content": "<|eom_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128009": {
+      "content": "<|eot_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128010": {
+      "content": "<|python_tag|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128011": {
+      "content": "<|reserved_special_token_3|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128012": {
+      "content": "<|reserved_special_token_4|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128013": {
+      "content": "<|reserved_special_token_5|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128014": {
+      "content": "<|reserved_special_token_6|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128015": {
+      "content": "<|reserved_special_token_7|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128016": {
+      "content": "<|reserved_special_token_8|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128017": {
+      "content": "<|reserved_special_token_9|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128018": {
+      "content": "<|reserved_special_token_10|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128019": {
+      "content": "<|reserved_special_token_11|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128020": {
+      "content": "<|reserved_special_token_12|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128021": {
+      "content": "<|reserved_special_token_13|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128022": {
+      "content": "<|reserved_special_token_14|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128023": {
+      "content": "<|reserved_special_token_15|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128024": {
+      "content": "<|reserved_special_token_16|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128025": {
+      "content": "<|reserved_special_token_17|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128026": {
+      "content": "<|reserved_special_token_18|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128027": {
+      "content": "<|reserved_special_token_19|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128028": {
+      "content": "<|reserved_special_token_20|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128029": {
+      "content": "<|reserved_special_token_21|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128030": {
+      "content": "<|reserved_special_token_22|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128031": {
+      "content": "<|reserved_special_token_23|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128032": {
+      "content": "<|reserved_special_token_24|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128033": {
+      "content": "<|reserved_special_token_25|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128034": {
+      "content": "<|reserved_special_token_26|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128035": {
+      "content": "<|reserved_special_token_27|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128036": {
+      "content": "<|reserved_special_token_28|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128037": {
+      "content": "<|reserved_special_token_29|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128038": {
+      "content": "<|reserved_special_token_30|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128039": {
+      "content": "<|reserved_special_token_31|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128040": {
+      "content": "<|reserved_special_token_32|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128041": {
+      "content": "<|reserved_special_token_33|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128042": {
+      "content": "<|reserved_special_token_34|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128043": {
+      "content": "<|reserved_special_token_35|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128044": {
+      "content": "<|reserved_special_token_36|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128045": {
+      "content": "<|reserved_special_token_37|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128046": {
+      "content": "<|reserved_special_token_38|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128047": {
+      "content": "<|reserved_special_token_39|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128048": {
+      "content": "<|reserved_special_token_40|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128049": {
+      "content": "<|reserved_special_token_41|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128050": {
+      "content": "<|reserved_special_token_42|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128051": {
+      "content": "<|reserved_special_token_43|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128052": {
+      "content": "<|reserved_special_token_44|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128053": {
+      "content": "<|reserved_special_token_45|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128054": {
+      "content": "<|reserved_special_token_46|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128055": {
+      "content": "<|reserved_special_token_47|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128056": {
+      "content": "<|reserved_special_token_48|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128057": {
+      "content": "<|reserved_special_token_49|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128058": {
+      "content": "<|reserved_special_token_50|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128059": {
+      "content": "<|reserved_special_token_51|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128060": {
+      "content": "<|reserved_special_token_52|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128061": {
+      "content": "<|reserved_special_token_53|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128062": {
+      "content": "<|reserved_special_token_54|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128063": {
+      "content": "<|reserved_special_token_55|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128064": {
+      "content": "<|reserved_special_token_56|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128065": {
+      "content": "<|reserved_special_token_57|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128066": {
+      "content": "<|reserved_special_token_58|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128067": {
+      "content": "<|reserved_special_token_59|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128068": {
+      "content": "<|reserved_special_token_60|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128069": {
+      "content": "<|reserved_special_token_61|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128070": {
+      "content": "<|reserved_special_token_62|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128071": {
+      "content": "<|reserved_special_token_63|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128072": {
+      "content": "<|reserved_special_token_64|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128073": {
+      "content": "<|reserved_special_token_65|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128074": {
+      "content": "<|reserved_special_token_66|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128075": {
+      "content": "<|reserved_special_token_67|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128076": {
+      "content": "<|reserved_special_token_68|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128077": {
+      "content": "<|reserved_special_token_69|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128078": {
+      "content": "<|reserved_special_token_70|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128079": {
+      "content": "<|reserved_special_token_71|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128080": {
+      "content": "<|reserved_special_token_72|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128081": {
+      "content": "<|reserved_special_token_73|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128082": {
+      "content": "<|reserved_special_token_74|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128083": {
+      "content": "<|reserved_special_token_75|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128084": {
+      "content": "<|reserved_special_token_76|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128085": {
+      "content": "<|reserved_special_token_77|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128086": {
+      "content": "<|reserved_special_token_78|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128087": {
+      "content": "<|reserved_special_token_79|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128088": {
+      "content": "<|reserved_special_token_80|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128089": {
+      "content": "<|reserved_special_token_81|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128090": {
+      "content": "<|reserved_special_token_82|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128091": {
+      "content": "<|reserved_special_token_83|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128092": {
+      "content": "<|reserved_special_token_84|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128093": {
+      "content": "<|reserved_special_token_85|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128094": {
+      "content": "<|reserved_special_token_86|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128095": {
+      "content": "<|reserved_special_token_87|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128096": {
+      "content": "<|reserved_special_token_88|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128097": {
+      "content": "<|reserved_special_token_89|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128098": {
+      "content": "<|reserved_special_token_90|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128099": {
+      "content": "<|reserved_special_token_91|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128100": {
+      "content": "<|reserved_special_token_92|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128101": {
+      "content": "<|reserved_special_token_93|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128102": {
+      "content": "<|reserved_special_token_94|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128103": {
+      "content": "<|reserved_special_token_95|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128104": {
+      "content": "<|reserved_special_token_96|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128105": {
+      "content": "<|reserved_special_token_97|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128106": {
+      "content": "<|reserved_special_token_98|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128107": {
+      "content": "<|reserved_special_token_99|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128108": {
+      "content": "<|reserved_special_token_100|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128109": {
+      "content": "<|reserved_special_token_101|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128110": {
+      "content": "<|reserved_special_token_102|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128111": {
+      "content": "<|reserved_special_token_103|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128112": {
+      "content": "<|reserved_special_token_104|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128113": {
+      "content": "<|reserved_special_token_105|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128114": {
+      "content": "<|reserved_special_token_106|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128115": {
+      "content": "<|reserved_special_token_107|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128116": {
+      "content": "<|reserved_special_token_108|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128117": {
+      "content": "<|reserved_special_token_109|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128118": {
+      "content": "<|reserved_special_token_110|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128119": {
+      "content": "<|reserved_special_token_111|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128120": {
+      "content": "<|reserved_special_token_112|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128121": {
+      "content": "<|reserved_special_token_113|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128122": {
+      "content": "<|reserved_special_token_114|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128123": {
+      "content": "<|reserved_special_token_115|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128124": {
+      "content": "<|reserved_special_token_116|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128125": {
+      "content": "<|reserved_special_token_117|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128126": {
+      "content": "<|reserved_special_token_118|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128127": {
+      "content": "<|reserved_special_token_119|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128128": {
+      "content": "<|reserved_special_token_120|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128129": {
+      "content": "<|reserved_special_token_121|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128130": {
+      "content": "<|reserved_special_token_122|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128131": {
+      "content": "<|reserved_special_token_123|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128132": {
+      "content": "<|reserved_special_token_124|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128133": {
+      "content": "<|reserved_special_token_125|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128134": {
+      "content": "<|reserved_special_token_126|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128135": {
+      "content": "<|reserved_special_token_127|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128136": {
+      "content": "<|reserved_special_token_128|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128137": {
+      "content": "<|reserved_special_token_129|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128138": {
+      "content": "<|reserved_special_token_130|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128139": {
+      "content": "<|reserved_special_token_131|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128140": {
+      "content": "<|reserved_special_token_132|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128141": {
+      "content": "<|reserved_special_token_133|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128142": {
+      "content": "<|reserved_special_token_134|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128143": {
+      "content": "<|reserved_special_token_135|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128144": {
+      "content": "<|reserved_special_token_136|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128145": {
+      "content": "<|reserved_special_token_137|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128146": {
+      "content": "<|reserved_special_token_138|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128147": {
+      "content": "<|reserved_special_token_139|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128148": {
+      "content": "<|reserved_special_token_140|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128149": {
+      "content": "<|reserved_special_token_141|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128150": {
+      "content": "<|reserved_special_token_142|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128151": {
+      "content": "<|reserved_special_token_143|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128152": {
+      "content": "<|reserved_special_token_144|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128153": {
+      "content": "<|reserved_special_token_145|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128154": {
+      "content": "<|reserved_special_token_146|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128155": {
+      "content": "<|reserved_special_token_147|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128156": {
+      "content": "<|reserved_special_token_148|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128157": {
+      "content": "<|reserved_special_token_149|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128158": {
+      "content": "<|reserved_special_token_150|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128159": {
+      "content": "<|reserved_special_token_151|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128160": {
+      "content": "<|reserved_special_token_152|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128161": {
+      "content": "<|reserved_special_token_153|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128162": {
+      "content": "<|reserved_special_token_154|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128163": {
+      "content": "<|reserved_special_token_155|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128164": {
+      "content": "<|reserved_special_token_156|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128165": {
+      "content": "<|reserved_special_token_157|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128166": {
+      "content": "<|reserved_special_token_158|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128167": {
+      "content": "<|reserved_special_token_159|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128168": {
+      "content": "<|reserved_special_token_160|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128169": {
+      "content": "<|reserved_special_token_161|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128170": {
+      "content": "<|reserved_special_token_162|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128171": {
+      "content": "<|reserved_special_token_163|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128172": {
+      "content": "<|reserved_special_token_164|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128173": {
+      "content": "<|reserved_special_token_165|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128174": {
+      "content": "<|reserved_special_token_166|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128175": {
+      "content": "<|reserved_special_token_167|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128176": {
+      "content": "<|reserved_special_token_168|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128177": {
+      "content": "<|reserved_special_token_169|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128178": {
+      "content": "<|reserved_special_token_170|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128179": {
+      "content": "<|reserved_special_token_171|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128180": {
+      "content": "<|reserved_special_token_172|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128181": {
+      "content": "<|reserved_special_token_173|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128182": {
+      "content": "<|reserved_special_token_174|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128183": {
+      "content": "<|reserved_special_token_175|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128184": {
+      "content": "<|reserved_special_token_176|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128185": {
+      "content": "<|reserved_special_token_177|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128186": {
+      "content": "<|reserved_special_token_178|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128187": {
+      "content": "<|reserved_special_token_179|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128188": {
+      "content": "<|reserved_special_token_180|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128189": {
+      "content": "<|reserved_special_token_181|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128190": {
+      "content": "<|reserved_special_token_182|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128191": {
+      "content": "<|reserved_special_token_183|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128192": {
+      "content": "<|reserved_special_token_184|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128193": {
+      "content": "<|reserved_special_token_185|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128194": {
+      "content": "<|reserved_special_token_186|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128195": {
+      "content": "<|reserved_special_token_187|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128196": {
+      "content": "<|reserved_special_token_188|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128197": {
+      "content": "<|reserved_special_token_189|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128198": {
+      "content": "<|reserved_special_token_190|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128199": {
+      "content": "<|reserved_special_token_191|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128200": {
+      "content": "<|reserved_special_token_192|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128201": {
+      "content": "<|reserved_special_token_193|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128202": {
+      "content": "<|reserved_special_token_194|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128203": {
+      "content": "<|reserved_special_token_195|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128204": {
+      "content": "<|reserved_special_token_196|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128205": {
+      "content": "<|reserved_special_token_197|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128206": {
+      "content": "<|reserved_special_token_198|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128207": {
+      "content": "<|reserved_special_token_199|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128208": {
+      "content": "<|reserved_special_token_200|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128209": {
+      "content": "<|reserved_special_token_201|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128210": {
+      "content": "<|reserved_special_token_202|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128211": {
+      "content": "<|reserved_special_token_203|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128212": {
+      "content": "<|reserved_special_token_204|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128213": {
+      "content": "<|reserved_special_token_205|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128214": {
+      "content": "<|reserved_special_token_206|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128215": {
+      "content": "<|reserved_special_token_207|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128216": {
+      "content": "<|reserved_special_token_208|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128217": {
+      "content": "<|reserved_special_token_209|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128218": {
+      "content": "<|reserved_special_token_210|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128219": {
+      "content": "<|reserved_special_token_211|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128220": {
+      "content": "<|reserved_special_token_212|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128221": {
+      "content": "<|reserved_special_token_213|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128222": {
+      "content": "<|reserved_special_token_214|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128223": {
+      "content": "<|reserved_special_token_215|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128224": {
+      "content": "<|reserved_special_token_216|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128225": {
+      "content": "<|reserved_special_token_217|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128226": {
+      "content": "<|reserved_special_token_218|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128227": {
+      "content": "<|reserved_special_token_219|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128228": {
+      "content": "<|reserved_special_token_220|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128229": {
+      "content": "<|reserved_special_token_221|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128230": {
+      "content": "<|reserved_special_token_222|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128231": {
+      "content": "<|reserved_special_token_223|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128232": {
+      "content": "<|reserved_special_token_224|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128233": {
+      "content": "<|reserved_special_token_225|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128234": {
+      "content": "<|reserved_special_token_226|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128235": {
+      "content": "<|reserved_special_token_227|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128236": {
+      "content": "<|reserved_special_token_228|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128237": {
+      "content": "<|reserved_special_token_229|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128238": {
+      "content": "<|reserved_special_token_230|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128239": {
+      "content": "<|reserved_special_token_231|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128240": {
+      "content": "<|reserved_special_token_232|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128241": {
+      "content": "<|reserved_special_token_233|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128242": {
+      "content": "<|reserved_special_token_234|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128243": {
+      "content": "<|reserved_special_token_235|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128244": {
+      "content": "<|reserved_special_token_236|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128245": {
+      "content": "<|reserved_special_token_237|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128246": {
+      "content": "<|reserved_special_token_238|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128247": {
+      "content": "<|reserved_special_token_239|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128248": {
+      "content": "<|reserved_special_token_240|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128249": {
+      "content": "<|reserved_special_token_241|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128250": {
+      "content": "<|reserved_special_token_242|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128251": {
+      "content": "<|reserved_special_token_243|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128252": {
+      "content": "<|reserved_special_token_244|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128253": {
+      "content": "<|reserved_special_token_245|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128254": {
+      "content": "<|reserved_special_token_246|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128255": {
+      "content": "<|reserved_special_token_247|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128256": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128257": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|begin_of_text|>",
+  "chat_template": "{{- bos_token }}\n{%- if custom_tools is defined %}\n    {%- set tools = custom_tools %}\n{%- endif %}\n{%- if not tools_in_user_message is defined %}\n    {%- set tools_in_user_message = true %}\n{%- endif %}\n{%- if not date_string is defined %}\n    {%- set date_string = \"26 Jul 2024\" %}\n{%- endif %}\n{%- if not tools is defined %}\n    {%- set tools = none %}\n{%- endif %}\n\n{#- This block extracts the system message, so we can slot it into the right place. #}\n{%- if messages[0]['role'] == 'system' %}\n    {%- set system_message = messages[0]['content']|trim %}\n    {%- set messages = messages[1:] %}\n{%- else %}\n    {%- set system_message = \"\" %}\n{%- endif %}\n\n{#- System message + builtin tools #}\n{{- \"<|start_header_id|>system<|end_header_id|>\\n\\n\" }}\n{%- if builtin_tools is defined or tools is not none %}\n    {{- \"Environment: ipython\\n\" }}\n{%- endif %}\n{%- if builtin_tools is defined %}\n    {{- \"Tools: \" + builtin_tools | reject('equalto', 'code_interpreter') | join(\", \") + \"\\n\\n\"}}\n{%- endif %}\n{{- \"Cutting Knowledge Date: December 2023\\n\" }}\n{{- \"Today Date: \" + date_string + \"\\n\\n\" }}\n{%- if tools is not none and not tools_in_user_message %}\n    {{- \"You have access to the following functions. To call a function, please respond with JSON for a function call.\" }}\n    {{- 'Respond in the format {\"name\": function name, \"parameters\": dictionary of argument name and its value}.' }}\n    {{- \"Do not use variables.\\n\\n\" }}\n    {%- for t in tools %}\n        {{- t | tojson(indent=4) }}\n        {{- \"\\n\\n\" }}\n    {%- endfor %}\n{%- endif %}\n{{- system_message }}\n{{- \"<|eot_id|>\" }}\n\n{#- Custom tools are passed in a user message with some extra guidance #}\n{%- if tools_in_user_message and not tools is none %}\n    {#- Extract the first user message so we can plug it in here #}\n    {%- if messages | length != 0 %}\n        {%- set first_user_message = messages[0]['content']|trim %}\n        {%- set messages = messages[1:] %}\n    {%- else %}\n        {{- raise_exception(\"Cannot put tools in the first user message when there's no first user message!\") }}\n{%- endif %}\n    {{- '<|start_header_id|>user<|end_header_id|>\\n\\n' -}}\n    {{- \"Given the following functions, please respond with a JSON for a function call \" }}\n    {{- \"with its proper arguments that best answers the given prompt.\\n\\n\" }}\n    {{- 'Respond in the format {\"name\": function name, \"parameters\": dictionary of argument name and its value}.' }}\n    {{- \"Do not use variables.\\n\\n\" }}\n    {%- for t in tools %}\n        {{- t | tojson(indent=4) }}\n        {{- \"\\n\\n\" }}\n    {%- endfor %}\n    {{- first_user_message + \"<|eot_id|>\"}}\n{%- endif %}\n\n{%- for message in messages %}\n    {%- if not (message.role == 'ipython' or message.role == 'tool' or 'tool_calls' in message) %}\n        {{- '<|start_header_id|>' + message['role'] + '<|end_header_id|>\\n\\n'+ message['content'] | trim + '<|eot_id|>' }}\n    {%- elif 'tool_calls' in message %}\n        {%- if not message.tool_calls|length == 1 %}\n            {{- raise_exception(\"This model only supports single tool-calls at once!\") }}\n        {%- endif %}\n        {%- set tool_call = message.tool_calls[0].function %}\n        {%- if builtin_tools is defined and tool_call.name in builtin_tools %}\n            {{- '<|start_header_id|>assistant<|end_header_id|>\\n\\n' -}}\n            {{- \"<|python_tag|>\" + tool_call.name + \".call(\" }}\n            {%- for arg_name, arg_val in tool_call.arguments | items %}\n                {{- arg_name + '=\"' + arg_val + '\"' }}\n                {%- if not loop.last %}\n                    {{- \", \" }}\n                {%- endif %}\n                {%- endfor %}\n            {{- \")\" }}\n        {%- else  %}\n            {{- '<|start_header_id|>assistant<|end_header_id|>\\n\\n' -}}\n            {{- '{\"name\": \"' + tool_call.name + '\", ' }}\n            {{- '\"parameters\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- \"}\" }}\n        {%- endif %}\n        {%- if builtin_tools is defined %}\n            {#- This means we're in ipython mode #}\n            {{- \"<|eom_id|>\" }}\n        {%- else %}\n            {{- \"<|eot_id|>\" }}\n        {%- endif %}\n    {%- elif message.role == \"tool\" or message.role == \"ipython\" %}\n        {{- \"<|start_header_id|>ipython<|end_header_id|>\\n\\n\" }}\n        {%- if message.content is mapping or message.content is iterable %}\n            {{- message.content | tojson }}\n        {%- else %}\n            {{- message.content }}\n        {%- endif %}\n        {{- \"<|eot_id|>\" }}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|start_header_id|>assistant<|end_header_id|>\\n\\n' }}\n{%- endif %}\n",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|eot_id|>",
+  "extra_special_tokens": {},
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 2048,
+  "pad_token": "<pad>",
+  "padding_side": "right",
+  "tokenizer_class": "PreTrainedTokenizer",
+  "unk_token": "<unk>"
+}
diff --git a/wandb/debug-internal.log b/wandb/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..d37033d7f8e5ba7af95d0fef4bc3dd9187388fa4
--- /dev/null
+++ b/wandb/debug-internal.log
@@ -0,0 +1,18 @@
+{"time":"2025-05-08T21:21:54.561866061-04:00","level":"INFO","msg":"stream: starting","core version":"0.19.10","symlink path":"/home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_212154-is8630ik/logs/debug-core.log"}
+{"time":"2025-05-08T21:21:54.740453474-04:00","level":"INFO","msg":"created new stream","id":"is8630ik"}
+{"time":"2025-05-08T21:21:54.740487984-04:00","level":"INFO","msg":"stream: started","id":"is8630ik"}
+{"time":"2025-05-08T21:21:54.740504345-04:00","level":"INFO","msg":"writer: Do: started","stream_id":"is8630ik"}
+{"time":"2025-05-08T21:21:54.740556706-04:00","level":"INFO","msg":"handler: started","stream_id":"is8630ik"}
+{"time":"2025-05-08T21:21:54.740592257-04:00","level":"INFO","msg":"sender: started","stream_id":"is8630ik"}
+{"time":"2025-05-08T21:21:54.884261607-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-05-08T21:21:54.884293377-04:00","level":"WARN","msg":"handleCodeSave: program relative path is empty"}
+{"time":"2025-05-08T21:21:54.884348759-04:00","level":"ERROR","msg":"git repo not found","error":"repository does not exist"}
+{"time":"2025-05-09T00:28:41.16342178-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-05-09T00:28:41.163499301-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-05-09T00:28:41.635621981-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-05-09T00:28:41.760403458-04:00","level":"INFO","msg":"handler: operation stats","stats":{}}
+{"time":"2025-05-09T00:28:41.773696754-04:00","level":"INFO","msg":"stream: closing","id":"is8630ik"}
+{"time":"2025-05-09T00:28:41.773713434-04:00","level":"INFO","msg":"handler: closed","stream_id":"is8630ik"}
+{"time":"2025-05-09T00:28:41.773723895-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":"is8630ik"}
+{"time":"2025-05-09T00:28:41.773731765-04:00","level":"INFO","msg":"sender: closed","stream_id":"is8630ik"}
+{"time":"2025-05-09T00:28:41.773786876-04:00","level":"INFO","msg":"stream: closed","id":"is8630ik"}
diff --git a/wandb/debug.log b/wandb/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..c0d34bc4185ae49d7b75ac0313612476f5540c1c
--- /dev/null
+++ b/wandb/debug.log
@@ -0,0 +1,29 @@
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_setup.py:_flush():68] Current SDK version is 0.19.10
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_setup.py:_flush():68] Configure stats pid to 1548317
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_setup.py:_flush():68] Loading settings from /home/panda/.config/wandb/settings
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_setup.py:_flush():68] Loading settings from /home/panda/pda-llm/scripts/wandb/settings
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_setup.py:_flush():68] Loading settings from environment variables
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_init.py:setup_run_log_directory():724] Logging user logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_212154-is8630ik/logs/debug.log
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_init.py:setup_run_log_directory():725] Logging internal logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_212154-is8630ik/logs/debug-internal.log
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_init.py:init():852] calling init triggers
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_init.py:init():857] wandb.init called with sweep_config: {}
+config: {'model_name_or_path': 'meta-llama/Llama-3.1-8B-Instruct', 'recompute_baseline': False, 'cache_dir': '/home/panda/pda-llm/cache/sft-tools', 'max_length': 2048, 'trust_remote_code': True, 'train_datasets': [('tools', {'proportion': 1.0})], 'eval_datasets': None, 'safety_ratio_tol': 10.0, 'important_sft': False, 'resilient_coeff': 1.0, 'epochs': 3, 'per_device_train_batch_size': 1, 'per_device_eval_batch_size': 1, 'gradient_accumulation_steps': 48, 'gradient_checkpointing': True, 'lr': 0.0001, 'lr_scheduler_type': <SchedulerType.COSINE: 'cosine'>, 'lr_warmup_ratio': 0.1, 'weight_decay': 0.0, 'seed': 42, 'fp16': False, 'bf16': True, 'tf32': False, 'lora_r': 16, 'lora_alpha': 32, 'lora_dropout': 0.05, 'eval_strategy': 'epoch', 'eval_interval': 1000000, 'need_eval': True, 'eval_split_ratio': None, 'output_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_type': 'wandb', 'log_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_project': 'TOOLS-SFT', 'log_run_name': 'tools-sft-2025-05-08-21-21-54', 'save_16bit': False, 'save_interval': 1000000, 'local_rank': 0, 'zero_stage': 0, 'offload': 'none', 'deepspeed': False, 'deepspeed_config': None, 'deepscale': False, 'deepscale_config': None, 'global_rank': 0, 'device': device(type='cuda', index=0), 'num_update_steps_per_epoch': 118, 'total_training_steps': 354, '_wandb': {}}
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_init.py:init():893] starting backend
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_init.py:init():897] sending inform_init request
+2025-05-08 21:21:54,558 INFO    MainThread:1548317 [backend.py:_multiprocessing_setup():101] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-05-08 21:21:54,558 INFO    MainThread:1548317 [wandb_init.py:init():907] backend started and connected
+2025-05-08 21:21:54,559 INFO    MainThread:1548317 [wandb_init.py:init():1002] updated telemetry
+2025-05-08 21:21:54,564 INFO    MainThread:1548317 [wandb_init.py:init():1026] communicating run to backend with 90.0 second timeout
+2025-05-08 21:21:54,882 INFO    MainThread:1548317 [wandb_init.py:init():1101] starting run threads in backend
+2025-05-08 21:21:54,947 INFO    MainThread:1548317 [wandb_run.py:_console_start():2566] atexit reg
+2025-05-08 21:21:54,947 INFO    MainThread:1548317 [wandb_run.py:_redirect():2414] redirect: wrap_raw
+2025-05-08 21:21:54,947 INFO    MainThread:1548317 [wandb_run.py:_redirect():2483] Wrapping output streams.
+2025-05-08 21:21:54,947 INFO    MainThread:1548317 [wandb_run.py:_redirect():2506] Redirects installed.
+2025-05-08 21:21:54,948 INFO    MainThread:1548317 [wandb_init.py:init():1147] run started, returning control to user process
+2025-05-09 00:28:41,160 INFO    MainThread:1548317 [wandb_run.py:_finish():2314] finishing run alelab/TOOLS-SFT/is8630ik
+2025-05-09 00:28:41,162 INFO    MainThread:1548317 [wandb_run.py:_atexit_cleanup():2531] got exitcode: 0
+2025-05-09 00:28:41,162 INFO    MainThread:1548317 [wandb_run.py:_restore():2513] restore
+2025-05-09 00:28:41,162 INFO    MainThread:1548317 [wandb_run.py:_restore():2519] restore done
+2025-05-09 00:28:41,762 INFO    MainThread:1548317 [wandb_run.py:_footer_history_summary_info():4160] rendering history
+2025-05-09 00:28:41,765 INFO    MainThread:1548317 [wandb_run.py:_footer_history_summary_info():4192] rendering summary
+2025-05-09 00:28:41,773 INFO    MainThread:1548317 [wandb_run.py:_footer_sync_info():4121] logging synced files
diff --git a/wandb/run-20250508_005928-1jhxkbtl/files/config.yaml b/wandb/run-20250508_005928-1jhxkbtl/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..2a16b8ac5486c1bd5159f1ac719e24e9946a5800
--- /dev/null
+++ b/wandb/run-20250508_005928-1jhxkbtl/files/config.yaml
@@ -0,0 +1,133 @@
+_wandb:
+    value:
+        cli_version: 0.19.10
+        m: []
+        python_version: 3.11.11
+        t:
+            "1":
+                - 1
+                - 11
+                - 49
+                - 51
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 11
+                - 49
+                - 51
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 13
+                - 16
+                - 23
+                - 55
+            "4": 3.11.11
+            "5": 0.19.10
+            "6": 4.49.0
+            "8":
+                - 5
+            "12": 0.19.10
+            "13": linux-x86_64
+bf16:
+    value: false
+cache_dir:
+    value: /home/panda/pda-llm/cache/sft-tools
+deepscale:
+    value: false
+deepscale_config:
+    value: null
+deepspeed:
+    value: false
+deepspeed_config:
+    value: null
+device:
+    value: cuda:0
+epochs:
+    value: 3
+eval_datasets:
+    value: null
+eval_interval:
+    value: 1000000
+eval_split_ratio:
+    value: null
+eval_strategy:
+    value: epoch
+fp16:
+    value: true
+global_rank:
+    value: 0
+gradient_accumulation_steps:
+    value: 12
+gradient_checkpointing:
+    value: true
+important_sft:
+    value: false
+local_rank:
+    value: 0
+log_dir:
+    value: /home/panda/pda-llm/output/sft-tools/run-false-1-10
+log_project:
+    value: TOOLS-SFT
+log_run_name:
+    value: tools-sft-2025-05-08-00-59-27
+log_type:
+    value: wandb
+lora_alpha:
+    value: 32
+lora_dropout:
+    value: 0.05
+lora_r:
+    value: 16
+lr:
+    value: 0.0001
+lr_scheduler_type:
+    value: COSINE
+lr_warmup_ratio:
+    value: 0.1
+max_length:
+    value: 4096
+model_name_or_path:
+    value: meta-llama/Llama-3.1-8B-Instruct
+need_eval:
+    value: true
+num_update_steps_per_epoch:
+    value: 236
+offload:
+    value: none
+output_dir:
+    value: /home/panda/pda-llm/output/sft-tools/run-false-1-10
+per_device_eval_batch_size:
+    value: 4
+per_device_train_batch_size:
+    value: 4
+recompute_baseline:
+    value: false
+resilient_coeff:
+    value: 1
+safety_ratio_tol:
+    value: 10
+save_16bit:
+    value: false
+save_interval:
+    value: 1000000
+seed:
+    value: 42
+tf32:
+    value: true
+total_training_steps:
+    value: 708
+train_datasets:
+    value:
+        - - tools
+          - proportion: 1
+trust_remote_code:
+    value: true
+weight_decay:
+    value: 0
+zero_stage:
+    value: 0
diff --git a/wandb/run-20250508_005928-1jhxkbtl/files/output.log b/wandb/run-20250508_005928-1jhxkbtl/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..5e368e38e767dd86d259aebbf6fb94d2ec03adfa
--- /dev/null
+++ b/wandb/run-20250508_005928-1jhxkbtl/files/output.log
@@ -0,0 +1,33 @@
+***** Running training *****
+Training 1/3 epoch:   0%|          | 0/8475 [00:00<?, ?it/s]Traceback (most recent call last):
+
+***** Evaluating at the beginning *****
+  File "<frozen runpy>", line 198, in _run_module_as_main
+  File "<frozen runpy>", line 88, in _run_code
+  File "/home/panda/pda-llm/safe_rlhf/algorithms/tools_ft/__main__.py", line 23, in <module>
+    sys.exit(main())
+             ^^^^^^
+  File "/home/panda/pda-llm/safe_rlhf/algorithms/tools_ft/main.py", line 366, in main
+    trainer.train()
+  File "/home/panda/pda-llm/safe_rlhf/trainers/supervised_tools_trainer.py", line 292, in train
+    self.logger.log(self.eval(), step=0)
+                    ^^^^^^^^^^^
+  File "/home/panda/pda-llm/safe_rlhf/trainers/supervised_tools_trainer.py", line 344, in eval
+    is_important = batch['is_important']
+                   ~~~~~^^^^^^^^^^^^^^^^
+KeyError: 'is_important'
+[rank0]: Traceback (most recent call last):
+[rank0]:   File "<frozen runpy>", line 198, in _run_module_as_main
+[rank0]:   File "<frozen runpy>", line 88, in _run_code
+[rank0]:   File "/home/panda/pda-llm/safe_rlhf/algorithms/tools_ft/__main__.py", line 23, in <module>
+[rank0]:     sys.exit(main())
+[rank0]:              ^^^^^^
+[rank0]:   File "/home/panda/pda-llm/safe_rlhf/algorithms/tools_ft/main.py", line 366, in main
+[rank0]:     trainer.train()
+[rank0]:   File "/home/panda/pda-llm/safe_rlhf/trainers/supervised_tools_trainer.py", line 292, in train
+[rank0]:     self.logger.log(self.eval(), step=0)
+[rank0]:                     ^^^^^^^^^^^
+[rank0]:   File "/home/panda/pda-llm/safe_rlhf/trainers/supervised_tools_trainer.py", line 344, in eval
+[rank0]:     is_important = batch['is_important']
+[rank0]:                    ~~~~~^^^^^^^^^^^^^^^^
+[rank0]: KeyError: 'is_important'
diff --git a/wandb/run-20250508_005928-1jhxkbtl/files/requirements.txt b/wandb/run-20250508_005928-1jhxkbtl/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..e2b7f5395d84a9b80d09934d0e417c5884a7edca
--- /dev/null
+++ b/wandb/run-20250508_005928-1jhxkbtl/files/requirements.txt
@@ -0,0 +1,108 @@
+PySocks==1.7.1
+certifi==2025.4.26
+nvidia-ml-py==12.535.133
+mkl_fft==1.3.11
+urllib3==2.3.0
+charset-normalizer==3.3.2
+smmap==4.0.0
+xxhash==3.5.0
+tzdata==2025.2
+deepspeed==0.16.7
+gmpy2==2.2.1
+pydantic==2.10.3
+tqdm==4.67.1
+pyparsing==3.2.0
+Markdown==3.8
+pydantic_core==2.27.1
+hjson==3.1.0
+mkl_random==1.2.8
+sentry-sdk==2.18.0
+tokenizers==0.21.0
+wandb==0.19.10
+einops==0.8.1
+Bottleneck==1.4.2
+msgpack==1.1.0
+fsspec==2024.12.0
+mdurl==0.1.0
+wheel==0.45.1
+networkx==3.4.2
+nvitop==1.5.0
+sympy==1.13.1
+MarkupSafe==3.0.2
+numexpr==2.10.1
+tensorboard_data_server==0.7.0
+markdown-it-py==2.2.0
+six==1.17.0
+idna==3.7
+docker-pycreds==0.4.0
+GitPython==3.1.43
+ninja==1.11.1.4
+fonttools==4.55.3
+annotated-types==0.6.0
+cycler==0.11.0
+py-cpuinfo==9.0.0
+accelerate==1.6.0
+filelock==3.17.0
+pytz==2024.1
+rich==13.9.4
+appdirs==1.4.4
+click==8.1.8
+Jinja2==3.1.6
+unicodedata2==15.1.0
+pillow==11.1.0
+transformers==4.49.0
+peft==0.15.2
+python-dateutil==2.9.0.post0
+requests==2.32.3
+Werkzeug==3.1.3
+setuptools==78.1.1
+gitdb==4.0.7
+torch==2.5.1
+scipy==1.15.2
+sentencepiece==0.2.0
+dill==0.3.8
+psutil==5.9.0
+contourpy==1.3.1
+grpcio==1.71.0
+optree==0.14.1
+safetensors==0.5.3
+mpmath==1.3.0
+packaging==24.2
+pyarrow==19.0.0
+PyYAML==6.0.2
+pandas==2.2.3
+tensorboard==2.19.0
+regex==2024.11.6
+pip==25.1
+Brotli==1.0.9
+mkl-service==2.4.0
+matplotlib==3.10.0
+Pygments==2.19.1
+absl-py==2.1.0
+triton==3.1.0
+multiprocess==0.70.15
+platformdirs==4.3.7
+numpy==2.0.1
+protobuf==5.29.3
+datasets==3.6.0
+eval_type_backport==0.2.2
+typing_extensions==4.12.2
+kiwisolver==1.4.8
+setproctitle==1.2.2
+huggingface_hub==0.29.2
+jaraco.text==3.12.1
+backports.tarfile==1.2.0
+importlib_metadata==8.0.0
+jaraco.context==5.3.0
+more-itertools==10.3.0
+wheel==0.45.1
+jaraco.collections==5.1.0
+platformdirs==4.2.2
+autocommand==2.2.2
+zipp==3.19.2
+tomli==2.0.1
+typeguard==4.3.0
+packaging==24.2
+inflect==7.3.1
+typing_extensions==4.12.2
+jaraco.functools==4.0.1
diff --git a/wandb/run-20250508_005928-1jhxkbtl/files/wandb-metadata.json b/wandb/run-20250508_005928-1jhxkbtl/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..9e4acc7c957740a7a3a1f37aafbe5fc4e7574c20
--- /dev/null
+++ b/wandb/run-20250508_005928-1jhxkbtl/files/wandb-metadata.json
@@ -0,0 +1,106 @@
+{
+  "os":  "Linux-5.15.0-138-generic-x86_64-with-glibc2.31",
+  "python":  "CPython 3.11.11",
+  "startedAt":  "2025-05-08T04:59:28.129836Z",
+  "args":  [
+    "--local_rank=0",
+    "--train_datasets",
+    "tools",
+    "--model_name_or_path",
+    "meta-llama/Llama-3.1-8B-Instruct",
+    "--cache_dir",
+    "/home/panda/pda-llm/cache/sft-tools",
+    "--important_sft",
+    "false",
+    "--max_length",
+    "4096",
+    "--trust_remote_code",
+    "True",
+    "--epochs",
+    "3",
+    "--per_device_train_batch_size",
+    "4",
+    "--per_device_eval_batch_size",
+    "4",
+    "--gradient_accumulation_steps",
+    "12",
+    "--gradient_checkpointing",
+    "--learning_rate",
+    "1e-4",
+    "--lr_scheduler_type",
+    "cosine",
+    "--lr_warmup_ratio",
+    "0.1",
+    "--weight_decay",
+    "0.0",
+    "--seed",
+    "42",
+    "--output_dir",
+    "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+    "--log_type",
+    "wandb",
+    "--log_project",
+    "TOOLS-SFT",
+    "--zero_stage",
+    "0",
+    "--offload",
+    "none",
+    "--safety_ratio_tol",
+    "10",
+    "--resilient_coeff",
+    "1",
+    "--lora_r",
+    "16",
+    "--lora_alpha",
+    "32",
+    "--lora_dropout",
+    "0.05",
+    "--bf16",
+    "False",
+    "--fp16",
+    "True",
+    "--tf32",
+    "True"
+  ],
+  "program":  "-m safe_rlhf.algorithms.tools_ft.__main__",
+  "git":  {
+    "remote":  "git@github.com:IgnacioBoero/pda-llm.git",
+    "commit":  "2f331e2abf3b7b76829bc02cfb20143a948f9298"
+  },
+  "email":  "iboero@upenn.edu",
+  "root":  "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+  "host":  "plaza",
+  "executable":  "/home/panda/miniconda3/envs/pda/bin/python",
+  "cpu_count":  24,
+  "cpu_count_logical":  48,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  2,
+  "disk":  {
+    "/":  {
+      "total":  "982820896768",
+      "used":  "886362767360"
+    }
+  },
+  "memory":  {
+    "total":  "270090010624"
+  },
+  "cpu":  {
+    "count":  24,
+    "countLogical":  48
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "12.4"
+}
\ No newline at end of file
diff --git a/wandb/run-20250508_005928-1jhxkbtl/files/wandb-summary.json b/wandb/run-20250508_005928-1jhxkbtl/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..6c37fe1cbbb8aed86fd461a79642cb991e4d35cf
--- /dev/null
+++ b/wandb/run-20250508_005928-1jhxkbtl/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":0}}
\ No newline at end of file
diff --git a/wandb/run-20250508_005928-1jhxkbtl/logs/debug-core.log b/wandb/run-20250508_005928-1jhxkbtl/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..5694109a088c37b30b19a6f020582068e5d0dd85
--- /dev/null
+++ b/wandb/run-20250508_005928-1jhxkbtl/logs/debug-core.log
@@ -0,0 +1,15 @@
+{"time":"2025-05-08T00:59:27.792254317-04:00","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmpgz00y30n/port-770208.txt","pid":770208,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false}
+{"time":"2025-05-08T00:59:27.798415148-04:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":770208}
+{"time":"2025-05-08T00:59:27.798422588-04:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":34881,"Zone":""}}
+{"time":"2025-05-08T00:59:27.976670485-04:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:41134"}
+{"time":"2025-05-08T00:59:28.131725052-04:00","level":"INFO","msg":"handleInformInit: received","streamId":"1jhxkbtl","id":"127.0.0.1:41134"}
+{"time":"2025-05-08T00:59:28.326665772-04:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"1jhxkbtl","id":"127.0.0.1:41134"}
+{"time":"2025-05-08T00:59:29.41791717-04:00","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"1jhxkbtl","id":"127.0.0.1:41134"}
+{"time":"2025-05-08T00:59:29.418040741-04:00","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"1jhxkbtl","id":"127.0.0.1:41134"}
+{"time":"2025-05-08T00:59:30.418475132-04:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:41134"}
+{"time":"2025-05-08T00:59:30.418514823-04:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:41134"}
+{"time":"2025-05-08T00:59:30.418524663-04:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2025-05-08T00:59:30.418559823-04:00","level":"INFO","msg":"connection: closing","id":"127.0.0.1:41134"}
+{"time":"2025-05-08T00:59:30.418645274-04:00","level":"INFO","msg":"connection: closed successfully","id":"127.0.0.1:41134"}
+{"time":"2025-05-08T00:59:30.418654894-04:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:41134"}
+{"time":"2025-05-08T00:59:30.418665734-04:00","level":"INFO","msg":"server is closed"}
diff --git a/wandb/run-20250508_005928-1jhxkbtl/logs/debug-internal.log b/wandb/run-20250508_005928-1jhxkbtl/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..2280fd6b4d1686d30bac45e668ffb0115eeccda0
--- /dev/null
+++ b/wandb/run-20250508_005928-1jhxkbtl/logs/debug-internal.log
@@ -0,0 +1,18 @@
+{"time":"2025-05-08T00:59:28.132017565-04:00","level":"INFO","msg":"stream: starting","core version":"0.19.10","symlink path":"/home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_005928-1jhxkbtl/logs/debug-core.log"}
+{"time":"2025-05-08T00:59:28.326622421-04:00","level":"INFO","msg":"created new stream","id":"1jhxkbtl"}
+{"time":"2025-05-08T00:59:28.326657422-04:00","level":"INFO","msg":"stream: started","id":"1jhxkbtl"}
+{"time":"2025-05-08T00:59:28.326676812-04:00","level":"INFO","msg":"writer: Do: started","stream_id":"1jhxkbtl"}
+{"time":"2025-05-08T00:59:28.326745383-04:00","level":"INFO","msg":"sender: started","stream_id":"1jhxkbtl"}
+{"time":"2025-05-08T00:59:28.326827564-04:00","level":"INFO","msg":"handler: started","stream_id":"1jhxkbtl"}
+{"time":"2025-05-08T00:59:28.55136741-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-05-08T00:59:28.551407061-04:00","level":"WARN","msg":"handleCodeSave: program relative path is empty"}
+{"time":"2025-05-08T00:59:28.551479361-04:00","level":"ERROR","msg":"git repo not found","error":"repository does not exist"}
+{"time":"2025-05-08T00:59:28.645082906-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-05-08T00:59:28.645130137-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-05-08T00:59:29.314315271-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-05-08T00:59:29.414164881-04:00","level":"INFO","msg":"handler: operation stats","stats":{}}
+{"time":"2025-05-08T00:59:29.417948-04:00","level":"INFO","msg":"stream: closing","id":"1jhxkbtl"}
+{"time":"2025-05-08T00:59:29.41796369-04:00","level":"INFO","msg":"handler: closed","stream_id":"1jhxkbtl"}
+{"time":"2025-05-08T00:59:29.41797832-04:00","level":"INFO","msg":"sender: closed","stream_id":"1jhxkbtl"}
+{"time":"2025-05-08T00:59:29.41797466-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":"1jhxkbtl"}
+{"time":"2025-05-08T00:59:29.418031771-04:00","level":"INFO","msg":"stream: closed","id":"1jhxkbtl"}
diff --git a/wandb/run-20250508_005928-1jhxkbtl/logs/debug.log b/wandb/run-20250508_005928-1jhxkbtl/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..21d6a654d03c0f5bfc8f702f24e6a75d51b23f03
--- /dev/null
+++ b/wandb/run-20250508_005928-1jhxkbtl/logs/debug.log
@@ -0,0 +1,29 @@
+2025-05-08 00:59:28,127 INFO    MainThread:770208 [wandb_setup.py:_flush():68] Current SDK version is 0.19.10
+2025-05-08 00:59:28,127 INFO    MainThread:770208 [wandb_setup.py:_flush():68] Configure stats pid to 770208
+2025-05-08 00:59:28,127 INFO    MainThread:770208 [wandb_setup.py:_flush():68] Loading settings from /home/panda/.config/wandb/settings
+2025-05-08 00:59:28,127 INFO    MainThread:770208 [wandb_setup.py:_flush():68] Loading settings from /home/panda/pda-llm/scripts/wandb/settings
+2025-05-08 00:59:28,127 INFO    MainThread:770208 [wandb_setup.py:_flush():68] Loading settings from environment variables
+2025-05-08 00:59:28,127 INFO    MainThread:770208 [wandb_init.py:setup_run_log_directory():724] Logging user logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_005928-1jhxkbtl/logs/debug.log
+2025-05-08 00:59:28,127 INFO    MainThread:770208 [wandb_init.py:setup_run_log_directory():725] Logging internal logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_005928-1jhxkbtl/logs/debug-internal.log
+2025-05-08 00:59:28,127 INFO    MainThread:770208 [wandb_init.py:init():852] calling init triggers
+2025-05-08 00:59:28,127 INFO    MainThread:770208 [wandb_init.py:init():857] wandb.init called with sweep_config: {}
+config: {'model_name_or_path': 'meta-llama/Llama-3.1-8B-Instruct', 'recompute_baseline': False, 'cache_dir': '/home/panda/pda-llm/cache/sft-tools', 'max_length': 4096, 'trust_remote_code': True, 'train_datasets': [('tools', {'proportion': 1.0})], 'eval_datasets': None, 'safety_ratio_tol': 10.0, 'important_sft': False, 'resilient_coeff': 1.0, 'epochs': 3, 'per_device_train_batch_size': 4, 'per_device_eval_batch_size': 4, 'gradient_accumulation_steps': 12, 'gradient_checkpointing': True, 'lr': 0.0001, 'lr_scheduler_type': <SchedulerType.COSINE: 'cosine'>, 'lr_warmup_ratio': 0.1, 'weight_decay': 0.0, 'seed': 42, 'fp16': True, 'bf16': False, 'tf32': True, 'lora_r': 16, 'lora_alpha': 32, 'lora_dropout': 0.05, 'eval_strategy': 'epoch', 'eval_interval': 1000000, 'need_eval': True, 'eval_split_ratio': None, 'output_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_type': 'wandb', 'log_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_project': 'TOOLS-SFT', 'log_run_name': 'tools-sft-2025-05-08-00-59-27', 'save_16bit': False, 'save_interval': 1000000, 'local_rank': 0, 'zero_stage': 0, 'offload': 'none', 'deepspeed': False, 'deepspeed_config': None, 'deepscale': False, 'deepscale_config': None, 'global_rank': 0, 'device': device(type='cuda', index=0), 'num_update_steps_per_epoch': 236, 'total_training_steps': 708, '_wandb': {}}
+2025-05-08 00:59:28,127 INFO    MainThread:770208 [wandb_init.py:init():893] starting backend
+2025-05-08 00:59:28,127 INFO    MainThread:770208 [wandb_init.py:init():897] sending inform_init request
+2025-05-08 00:59:28,129 INFO    MainThread:770208 [backend.py:_multiprocessing_setup():101] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-05-08 00:59:28,129 INFO    MainThread:770208 [wandb_init.py:init():907] backend started and connected
+2025-05-08 00:59:28,131 INFO    MainThread:770208 [wandb_init.py:init():1002] updated telemetry
+2025-05-08 00:59:28,136 INFO    MainThread:770208 [wandb_init.py:init():1026] communicating run to backend with 90.0 second timeout
+2025-05-08 00:59:28,548 INFO    MainThread:770208 [wandb_init.py:init():1101] starting run threads in backend
+2025-05-08 00:59:28,603 INFO    MainThread:770208 [wandb_run.py:_console_start():2566] atexit reg
+2025-05-08 00:59:28,604 INFO    MainThread:770208 [wandb_run.py:_redirect():2414] redirect: wrap_raw
+2025-05-08 00:59:28,604 INFO    MainThread:770208 [wandb_run.py:_redirect():2483] Wrapping output streams.
+2025-05-08 00:59:28,604 INFO    MainThread:770208 [wandb_run.py:_redirect():2506] Redirects installed.
+2025-05-08 00:59:28,605 INFO    MainThread:770208 [wandb_init.py:init():1147] run started, returning control to user process
+2025-05-08 00:59:28,613 INFO    MainThread:770208 [wandb_run.py:_finish():2314] finishing run alelab/TOOLS-SFT/1jhxkbtl
+2025-05-08 00:59:28,613 INFO    MainThread:770208 [wandb_run.py:_atexit_cleanup():2531] got exitcode: 0
+2025-05-08 00:59:28,613 INFO    MainThread:770208 [wandb_run.py:_restore():2513] restore
+2025-05-08 00:59:28,613 INFO    MainThread:770208 [wandb_run.py:_restore():2519] restore done
+2025-05-08 00:59:29,417 INFO    MainThread:770208 [wandb_run.py:_footer_history_summary_info():4160] rendering history
+2025-05-08 00:59:29,417 INFO    MainThread:770208 [wandb_run.py:_footer_history_summary_info():4192] rendering summary
+2025-05-08 00:59:29,417 INFO    MainThread:770208 [wandb_run.py:_footer_sync_info():4121] logging synced files
diff --git a/wandb/run-20250508_005928-1jhxkbtl/run-1jhxkbtl.wandb b/wandb/run-20250508_005928-1jhxkbtl/run-1jhxkbtl.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..8c90a2891fc969130f56b83118fb8a0f9f468db1
Binary files /dev/null and b/wandb/run-20250508_005928-1jhxkbtl/run-1jhxkbtl.wandb differ
diff --git a/wandb/run-20250508_160817-0lem0nck/files/output.log b/wandb/run-20250508_160817-0lem0nck/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..1b5e843da6aaa40067b4b60ea36e77ebabe44d36
--- /dev/null
+++ b/wandb/run-20250508_160817-0lem0nck/files/output.log
@@ -0,0 +1,2 @@
+***** Running training *****
+Training 1/3 epoch (loss 0.1149):   0%|          | 10/16950 [00:05<2:23:52,  1.96it/s]
diff --git a/wandb/run-20250508_160817-0lem0nck/files/requirements.txt b/wandb/run-20250508_160817-0lem0nck/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..71b302373526f7bd332d0d4bad620c97b4da950d
--- /dev/null
+++ b/wandb/run-20250508_160817-0lem0nck/files/requirements.txt
@@ -0,0 +1,137 @@
+PySocks==1.7.1
+pip==25.1.1
+certifi==2025.4.26
+parso==0.8.4
+wcwidth==0.2.13
+nvidia-ml-py==12.535.133
+mkl_fft==1.3.11
+urllib3==2.3.0
+charset-normalizer==3.3.2
+transformers==4.51.3
+smmap==4.0.0
+xxhash==3.5.0
+platformdirs==4.3.8
+tzdata==2025.2
+ipython==9.2.0
+deepspeed==0.16.7
+gmpy2==2.2.1
+pydantic==2.10.3
+tqdm==4.67.1
+pyparsing==3.2.0
+exceptiongroup==1.2.2
+tokenizers==0.21.1
+Markdown==3.8
+matplotlib-inline==0.1.7
+jupyter_core==5.7.2
+pydantic_core==2.27.1
+hjson==3.1.0
+mkl_random==1.2.8
+ipykernel==6.29.5
+sentry-sdk==2.18.0
+wandb==0.19.10
+einops==0.8.1
+prompt_toolkit==3.0.51
+Bottleneck==1.4.2
+msgpack==1.1.0
+fsspec==2024.12.0
+mdurl==0.1.0
+executing==2.2.0
+wheel==0.45.1
+bitsandbytes==0.45.5
+networkx==3.4.2
+comm==0.2.2
+asttokens==3.0.0
+nvitop==1.5.0
+sympy==1.13.1
+MarkupSafe==3.0.2
+numexpr==2.10.1
+tensorboard_data_server==0.7.0
+markdown-it-py==2.2.0
+six==1.17.0
+idna==3.7
+docker-pycreds==0.4.0
+jedi==0.19.2
+GitPython==3.1.43
+pure_eval==0.2.3
+ninja==1.11.1.4
+setuptools==80.1.0
+fonttools==4.55.3
+annotated-types==0.6.0
+psutil==7.0.0
+cycler==0.11.0
+py-cpuinfo==9.0.0
+accelerate==1.6.0
+filelock==3.17.0
+pytz==2024.1
+rich==13.9.4
+appdirs==1.4.4
+click==8.1.8
+Jinja2==3.1.6
+unicodedata2==15.1.0
+pillow==11.1.0
+traitlets==5.14.3
+stack_data==0.6.3
+peft==0.15.2
+python-dateutil==2.9.0.post0
+requests==2.32.3
+Werkzeug==3.1.3
+gitdb==4.0.7
+torch==2.5.1
+scipy==1.15.2
+sentencepiece==0.2.0
+huggingface-hub==0.31.1
+dill==0.3.8
+pexpect==4.9.0
+pickleshare==0.7.5
+ptyprocess==0.7.0
+contourpy==1.3.1
+grpcio==1.71.0
+optree==0.14.1
+safetensors==0.5.3
+mpmath==1.3.0
+nest_asyncio==1.6.0
+pyarrow==19.0.0
+PyYAML==6.0.2
+decorator==5.2.1
+pandas==2.2.3
+tensorboard==2.19.0
+zipp==3.21.0
+regex==2024.11.6
+Brotli==1.0.9
+mkl-service==2.4.0
+matplotlib==3.10.0
+Pygments==2.19.1
+absl-py==2.1.0
+hf-xet==1.1.0
+packaging==25.0
+jupyter_client==8.6.3
+triton==3.1.0
+multiprocess==0.70.15
+debugpy==1.8.14
+numpy==2.0.1
+protobuf==5.29.3
+tornado==6.4.2
+datasets==3.6.0
+eval_type_backport==0.2.2
+typing_extensions==4.12.2
+kiwisolver==1.4.8
+pyzmq==26.4.0
+ipython_pygments_lexers==1.1.1
+setproctitle==1.2.2
+importlib_metadata==8.6.1
+jaraco.text==3.12.1
+backports.tarfile==1.2.0
+importlib_metadata==8.0.0
+jaraco.context==5.3.0
+more-itertools==10.3.0
+wheel==0.45.1
+jaraco.collections==5.1.0
+platformdirs==4.2.2
+autocommand==2.2.2
+zipp==3.19.2
+tomli==2.0.1
+typeguard==4.3.0
+packaging==24.2
+inflect==7.3.1
+typing_extensions==4.12.2
+jaraco.functools==4.0.1
diff --git a/wandb/run-20250508_160817-0lem0nck/files/wandb-metadata.json b/wandb/run-20250508_160817-0lem0nck/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..f5805aaa293f9aa234d58abca154486d1b77419f
--- /dev/null
+++ b/wandb/run-20250508_160817-0lem0nck/files/wandb-metadata.json
@@ -0,0 +1,106 @@
+{
+  "os":  "Linux-5.15.0-138-generic-x86_64-with-glibc2.31",
+  "python":  "CPython 3.11.11",
+  "startedAt":  "2025-05-08T20:08:17.504166Z",
+  "args":  [
+    "--local_rank=0",
+    "--train_datasets",
+    "tools",
+    "--model_name_or_path",
+    "meta-llama/Llama-3.1-8B-Instruct",
+    "--cache_dir",
+    "/home/panda/pda-llm/cache/sft-tools",
+    "--important_sft",
+    "false",
+    "--max_length",
+    "4096",
+    "--trust_remote_code",
+    "True",
+    "--epochs",
+    "3",
+    "--per_device_train_batch_size",
+    "1",
+    "--per_device_eval_batch_size",
+    "1",
+    "--gradient_accumulation_steps",
+    "48",
+    "--gradient_checkpointing",
+    "--learning_rate",
+    "1e-4",
+    "--lr_scheduler_type",
+    "cosine",
+    "--lr_warmup_ratio",
+    "0.1",
+    "--weight_decay",
+    "0.0",
+    "--seed",
+    "42",
+    "--output_dir",
+    "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+    "--log_type",
+    "wandb",
+    "--log_project",
+    "TOOLS-SFT",
+    "--zero_stage",
+    "0",
+    "--offload",
+    "none",
+    "--safety_ratio_tol",
+    "10",
+    "--resilient_coeff",
+    "1",
+    "--lora_r",
+    "16",
+    "--lora_alpha",
+    "32",
+    "--lora_dropout",
+    "0.05",
+    "--bf16",
+    "False",
+    "--fp16",
+    "True",
+    "--tf32",
+    "False"
+  ],
+  "program":  "-m safe_rlhf.algorithms.tools_ft.__main__",
+  "git":  {
+    "remote":  "git@github.com:IgnacioBoero/pda-llm.git",
+    "commit":  "3e25c5a329b7cfcf30b4af51d00c42fd38478aba"
+  },
+  "email":  "iboero@upenn.edu",
+  "root":  "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+  "host":  "plaza",
+  "executable":  "/home/panda/miniconda3/envs/pda/bin/python",
+  "cpu_count":  24,
+  "cpu_count_logical":  48,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  2,
+  "disk":  {
+    "/":  {
+      "total":  "982820896768",
+      "used":  "888964751360"
+    }
+  },
+  "memory":  {
+    "total":  "270090010624"
+  },
+  "cpu":  {
+    "count":  24,
+    "countLogical":  48
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "12.4"
+}
\ No newline at end of file
diff --git a/wandb/run-20250508_160817-0lem0nck/logs/debug-core.log b/wandb/run-20250508_160817-0lem0nck/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..9a11e63163170153266b8797d097e6479471a783
--- /dev/null
+++ b/wandb/run-20250508_160817-0lem0nck/logs/debug-core.log
@@ -0,0 +1,7 @@
+{"time":"2025-05-08T16:08:17.190213216-04:00","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmpmnui6ecd/port-1356767.txt","pid":1356767,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false}
+{"time":"2025-05-08T16:08:17.196180277-04:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":1356767}
+{"time":"2025-05-08T16:08:17.196169706-04:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":33129,"Zone":""}}
+{"time":"2025-05-08T16:08:17.376078695-04:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:43214"}
+{"time":"2025-05-08T16:08:17.506096175-04:00","level":"INFO","msg":"handleInformInit: received","streamId":"0lem0nck","id":"127.0.0.1:43214"}
+{"time":"2025-05-08T16:08:17.699304314-04:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"0lem0nck","id":"127.0.0.1:43214"}
+{"time":"2025-05-08T16:08:23.606079392-04:00","level":"INFO","msg":"received shutdown signal","signal":15}
diff --git a/wandb/run-20250508_160817-0lem0nck/logs/debug-internal.log b/wandb/run-20250508_160817-0lem0nck/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..bc3d7d49cc5601b7d5dac9970ccdb580b9c3d781
--- /dev/null
+++ b/wandb/run-20250508_160817-0lem0nck/logs/debug-internal.log
@@ -0,0 +1,9 @@
+{"time":"2025-05-08T16:08:17.506377451-04:00","level":"INFO","msg":"stream: starting","core version":"0.19.10","symlink path":"/home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_160817-0lem0nck/logs/debug-core.log"}
+{"time":"2025-05-08T16:08:17.699250973-04:00","level":"INFO","msg":"created new stream","id":"0lem0nck"}
+{"time":"2025-05-08T16:08:17.699295584-04:00","level":"INFO","msg":"stream: started","id":"0lem0nck"}
+{"time":"2025-05-08T16:08:17.699316065-04:00","level":"INFO","msg":"writer: Do: started","stream_id":"0lem0nck"}
+{"time":"2025-05-08T16:08:17.699320815-04:00","level":"INFO","msg":"handler: started","stream_id":"0lem0nck"}
+{"time":"2025-05-08T16:08:17.699350985-04:00","level":"INFO","msg":"sender: started","stream_id":"0lem0nck"}
+{"time":"2025-05-08T16:08:17.867900772-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-05-08T16:08:17.867932482-04:00","level":"WARN","msg":"handleCodeSave: program relative path is empty"}
+{"time":"2025-05-08T16:08:17.867991013-04:00","level":"ERROR","msg":"git repo not found","error":"repository does not exist"}
diff --git a/wandb/run-20250508_160817-0lem0nck/logs/debug.log b/wandb/run-20250508_160817-0lem0nck/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..86f6f2e318d6e864e09ef0b291f42bcd9c4282dc
--- /dev/null
+++ b/wandb/run-20250508_160817-0lem0nck/logs/debug.log
@@ -0,0 +1,22 @@
+2025-05-08 16:08:17,501 INFO    MainThread:1356767 [wandb_setup.py:_flush():68] Current SDK version is 0.19.10
+2025-05-08 16:08:17,501 INFO    MainThread:1356767 [wandb_setup.py:_flush():68] Configure stats pid to 1356767
+2025-05-08 16:08:17,501 INFO    MainThread:1356767 [wandb_setup.py:_flush():68] Loading settings from /home/panda/.config/wandb/settings
+2025-05-08 16:08:17,501 INFO    MainThread:1356767 [wandb_setup.py:_flush():68] Loading settings from /home/panda/pda-llm/scripts/wandb/settings
+2025-05-08 16:08:17,501 INFO    MainThread:1356767 [wandb_setup.py:_flush():68] Loading settings from environment variables
+2025-05-08 16:08:17,501 INFO    MainThread:1356767 [wandb_init.py:setup_run_log_directory():724] Logging user logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_160817-0lem0nck/logs/debug.log
+2025-05-08 16:08:17,501 INFO    MainThread:1356767 [wandb_init.py:setup_run_log_directory():725] Logging internal logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_160817-0lem0nck/logs/debug-internal.log
+2025-05-08 16:08:17,501 INFO    MainThread:1356767 [wandb_init.py:init():852] calling init triggers
+2025-05-08 16:08:17,502 INFO    MainThread:1356767 [wandb_init.py:init():857] wandb.init called with sweep_config: {}
+config: {'model_name_or_path': 'meta-llama/Llama-3.1-8B-Instruct', 'recompute_baseline': False, 'cache_dir': '/home/panda/pda-llm/cache/sft-tools', 'max_length': 4096, 'trust_remote_code': True, 'train_datasets': [('tools', {'proportion': 1.0})], 'eval_datasets': None, 'safety_ratio_tol': 10.0, 'important_sft': False, 'resilient_coeff': 1.0, 'epochs': 3, 'per_device_train_batch_size': 1, 'per_device_eval_batch_size': 1, 'gradient_accumulation_steps': 48, 'gradient_checkpointing': True, 'lr': 0.0001, 'lr_scheduler_type': <SchedulerType.COSINE: 'cosine'>, 'lr_warmup_ratio': 0.1, 'weight_decay': 0.0, 'seed': 42, 'fp16': True, 'bf16': False, 'tf32': False, 'lora_r': 16, 'lora_alpha': 32, 'lora_dropout': 0.05, 'eval_strategy': 'epoch', 'eval_interval': 1000000, 'need_eval': False, 'eval_split_ratio': None, 'output_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_type': 'wandb', 'log_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_project': 'TOOLS-SFT', 'log_run_name': 'tools-sft-2025-05-08-16-08-17', 'save_16bit': False, 'save_interval': 1000000, 'local_rank': 0, 'zero_stage': 0, 'offload': 'none', 'deepspeed': False, 'deepspeed_config': None, 'deepscale': False, 'deepscale_config': None, 'global_rank': 0, 'device': device(type='cuda', index=0), 'num_update_steps_per_epoch': 118, 'total_training_steps': 354, '_wandb': {}}
+2025-05-08 16:08:17,502 INFO    MainThread:1356767 [wandb_init.py:init():893] starting backend
+2025-05-08 16:08:17,502 INFO    MainThread:1356767 [wandb_init.py:init():897] sending inform_init request
+2025-05-08 16:08:17,503 INFO    MainThread:1356767 [backend.py:_multiprocessing_setup():101] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-05-08 16:08:17,504 INFO    MainThread:1356767 [wandb_init.py:init():907] backend started and connected
+2025-05-08 16:08:17,505 INFO    MainThread:1356767 [wandb_init.py:init():1002] updated telemetry
+2025-05-08 16:08:17,510 INFO    MainThread:1356767 [wandb_init.py:init():1026] communicating run to backend with 90.0 second timeout
+2025-05-08 16:08:17,865 INFO    MainThread:1356767 [wandb_init.py:init():1101] starting run threads in backend
+2025-05-08 16:08:17,927 INFO    MainThread:1356767 [wandb_run.py:_console_start():2566] atexit reg
+2025-05-08 16:08:17,927 INFO    MainThread:1356767 [wandb_run.py:_redirect():2414] redirect: wrap_raw
+2025-05-08 16:08:17,927 INFO    MainThread:1356767 [wandb_run.py:_redirect():2483] Wrapping output streams.
+2025-05-08 16:08:17,927 INFO    MainThread:1356767 [wandb_run.py:_redirect():2506] Redirects installed.
+2025-05-08 16:08:17,929 INFO    MainThread:1356767 [wandb_init.py:init():1147] run started, returning control to user process
diff --git a/wandb/run-20250508_160817-0lem0nck/run-0lem0nck.wandb b/wandb/run-20250508_160817-0lem0nck/run-0lem0nck.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/wandb/run-20250508_160902-sm1tkrdz/files/output.log b/wandb/run-20250508_160902-sm1tkrdz/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..97394f483c61ec0ae3fb5128f58d181845eecce9
--- /dev/null
+++ b/wandb/run-20250508_160902-sm1tkrdz/files/output.log
@@ -0,0 +1,2 @@
+***** Running training *****
+Training 1/3 epoch (loss 0.0966):   0%|          | 48/16950 [00:31<3:03:57,  1.53it/s]
diff --git a/wandb/run-20250508_160902-sm1tkrdz/files/requirements.txt b/wandb/run-20250508_160902-sm1tkrdz/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..71b302373526f7bd332d0d4bad620c97b4da950d
--- /dev/null
+++ b/wandb/run-20250508_160902-sm1tkrdz/files/requirements.txt
@@ -0,0 +1,137 @@
+PySocks==1.7.1
+pip==25.1.1
+certifi==2025.4.26
+parso==0.8.4
+wcwidth==0.2.13
+nvidia-ml-py==12.535.133
+mkl_fft==1.3.11
+urllib3==2.3.0
+charset-normalizer==3.3.2
+transformers==4.51.3
+smmap==4.0.0
+xxhash==3.5.0
+platformdirs==4.3.8
+tzdata==2025.2
+ipython==9.2.0
+deepspeed==0.16.7
+gmpy2==2.2.1
+pydantic==2.10.3
+tqdm==4.67.1
+pyparsing==3.2.0
+exceptiongroup==1.2.2
+tokenizers==0.21.1
+Markdown==3.8
+matplotlib-inline==0.1.7
+jupyter_core==5.7.2
+pydantic_core==2.27.1
+hjson==3.1.0
+mkl_random==1.2.8
+ipykernel==6.29.5
+sentry-sdk==2.18.0
+wandb==0.19.10
+einops==0.8.1
+prompt_toolkit==3.0.51
+Bottleneck==1.4.2
+msgpack==1.1.0
+fsspec==2024.12.0
+mdurl==0.1.0
+executing==2.2.0
+wheel==0.45.1
+bitsandbytes==0.45.5
+networkx==3.4.2
+comm==0.2.2
+asttokens==3.0.0
+nvitop==1.5.0
+sympy==1.13.1
+MarkupSafe==3.0.2
+numexpr==2.10.1
+tensorboard_data_server==0.7.0
+markdown-it-py==2.2.0
+six==1.17.0
+idna==3.7
+docker-pycreds==0.4.0
+jedi==0.19.2
+GitPython==3.1.43
+pure_eval==0.2.3
+ninja==1.11.1.4
+setuptools==80.1.0
+fonttools==4.55.3
+annotated-types==0.6.0
+psutil==7.0.0
+cycler==0.11.0
+py-cpuinfo==9.0.0
+accelerate==1.6.0
+filelock==3.17.0
+pytz==2024.1
+rich==13.9.4
+appdirs==1.4.4
+click==8.1.8
+Jinja2==3.1.6
+unicodedata2==15.1.0
+pillow==11.1.0
+traitlets==5.14.3
+stack_data==0.6.3
+peft==0.15.2
+python-dateutil==2.9.0.post0
+requests==2.32.3
+Werkzeug==3.1.3
+gitdb==4.0.7
+torch==2.5.1
+scipy==1.15.2
+sentencepiece==0.2.0
+huggingface-hub==0.31.1
+dill==0.3.8
+pexpect==4.9.0
+pickleshare==0.7.5
+ptyprocess==0.7.0
+contourpy==1.3.1
+grpcio==1.71.0
+optree==0.14.1
+safetensors==0.5.3
+mpmath==1.3.0
+nest_asyncio==1.6.0
+pyarrow==19.0.0
+PyYAML==6.0.2
+decorator==5.2.1
+pandas==2.2.3
+tensorboard==2.19.0
+zipp==3.21.0
+regex==2024.11.6
+Brotli==1.0.9
+mkl-service==2.4.0
+matplotlib==3.10.0
+Pygments==2.19.1
+absl-py==2.1.0
+hf-xet==1.1.0
+packaging==25.0
+jupyter_client==8.6.3
+triton==3.1.0
+multiprocess==0.70.15
+debugpy==1.8.14
+numpy==2.0.1
+protobuf==5.29.3
+tornado==6.4.2
+datasets==3.6.0
+eval_type_backport==0.2.2
+typing_extensions==4.12.2
+kiwisolver==1.4.8
+pyzmq==26.4.0
+ipython_pygments_lexers==1.1.1
+setproctitle==1.2.2
+importlib_metadata==8.6.1
+jaraco.text==3.12.1
+backports.tarfile==1.2.0
+importlib_metadata==8.0.0
+jaraco.context==5.3.0
+more-itertools==10.3.0
+wheel==0.45.1
+jaraco.collections==5.1.0
+platformdirs==4.2.2
+autocommand==2.2.2
+zipp==3.19.2
+tomli==2.0.1
+typeguard==4.3.0
+packaging==24.2
+inflect==7.3.1
+typing_extensions==4.12.2
+jaraco.functools==4.0.1
diff --git a/wandb/run-20250508_160902-sm1tkrdz/files/wandb-metadata.json b/wandb/run-20250508_160902-sm1tkrdz/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..02feaccb1a10b585c3682dcc4fb2a93a548aa3e9
--- /dev/null
+++ b/wandb/run-20250508_160902-sm1tkrdz/files/wandb-metadata.json
@@ -0,0 +1,106 @@
+{
+  "os":  "Linux-5.15.0-138-generic-x86_64-with-glibc2.31",
+  "python":  "CPython 3.11.11",
+  "startedAt":  "2025-05-08T20:09:02.642208Z",
+  "args":  [
+    "--local_rank=0",
+    "--train_datasets",
+    "tools",
+    "--model_name_or_path",
+    "meta-llama/Llama-3.1-8B-Instruct",
+    "--cache_dir",
+    "/home/panda/pda-llm/cache/sft-tools",
+    "--important_sft",
+    "false",
+    "--max_length",
+    "4096",
+    "--trust_remote_code",
+    "True",
+    "--epochs",
+    "3",
+    "--per_device_train_batch_size",
+    "1",
+    "--per_device_eval_batch_size",
+    "1",
+    "--gradient_accumulation_steps",
+    "48",
+    "--gradient_checkpointing",
+    "--learning_rate",
+    "1e-4",
+    "--lr_scheduler_type",
+    "cosine",
+    "--lr_warmup_ratio",
+    "0.1",
+    "--weight_decay",
+    "0.0",
+    "--seed",
+    "42",
+    "--output_dir",
+    "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+    "--log_type",
+    "wandb",
+    "--log_project",
+    "TOOLS-SFT",
+    "--zero_stage",
+    "0",
+    "--offload",
+    "none",
+    "--safety_ratio_tol",
+    "10",
+    "--resilient_coeff",
+    "1",
+    "--lora_r",
+    "16",
+    "--lora_alpha",
+    "32",
+    "--lora_dropout",
+    "0.05",
+    "--bf16",
+    "False",
+    "--fp16",
+    "True",
+    "--tf32",
+    "False"
+  ],
+  "program":  "-m safe_rlhf.algorithms.tools_ft.__main__",
+  "git":  {
+    "remote":  "git@github.com:IgnacioBoero/pda-llm.git",
+    "commit":  "3e25c5a329b7cfcf30b4af51d00c42fd38478aba"
+  },
+  "email":  "iboero@upenn.edu",
+  "root":  "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+  "host":  "plaza",
+  "executable":  "/home/panda/miniconda3/envs/pda/bin/python",
+  "cpu_count":  24,
+  "cpu_count_logical":  48,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  2,
+  "disk":  {
+    "/":  {
+      "total":  "982820896768",
+      "used":  "888964878336"
+    }
+  },
+  "memory":  {
+    "total":  "270090010624"
+  },
+  "cpu":  {
+    "count":  24,
+    "countLogical":  48
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "12.4"
+}
\ No newline at end of file
diff --git a/wandb/run-20250508_160902-sm1tkrdz/logs/debug-core.log b/wandb/run-20250508_160902-sm1tkrdz/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..122f46d7e09b4f222a0e652f810daa93e359a7bc
--- /dev/null
+++ b/wandb/run-20250508_160902-sm1tkrdz/logs/debug-core.log
@@ -0,0 +1,7 @@
+{"time":"2025-05-08T16:09:02.351406897-04:00","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmpab3smczz/port-1359956.txt","pid":1359956,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false}
+{"time":"2025-05-08T16:09:02.357060512-04:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":1359956}
+{"time":"2025-05-08T16:09:02.357067772-04:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":34899,"Zone":""}}
+{"time":"2025-05-08T16:09:02.536932502-04:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:52382"}
+{"time":"2025-05-08T16:09:02.644160501-04:00","level":"INFO","msg":"handleInformInit: received","streamId":"sm1tkrdz","id":"127.0.0.1:52382"}
+{"time":"2025-05-08T16:09:02.838054407-04:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"sm1tkrdz","id":"127.0.0.1:52382"}
+{"time":"2025-05-08T16:09:35.696088794-04:00","level":"INFO","msg":"received shutdown signal","signal":15}
diff --git a/wandb/run-20250508_160902-sm1tkrdz/logs/debug-internal.log b/wandb/run-20250508_160902-sm1tkrdz/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..8b119000b623d220b62c9a110ad8497c802553ca
--- /dev/null
+++ b/wandb/run-20250508_160902-sm1tkrdz/logs/debug-internal.log
@@ -0,0 +1,9 @@
+{"time":"2025-05-08T16:09:02.644440987-04:00","level":"INFO","msg":"stream: starting","core version":"0.19.10","symlink path":"/home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_160902-sm1tkrdz/logs/debug-core.log"}
+{"time":"2025-05-08T16:09:02.838002086-04:00","level":"INFO","msg":"created new stream","id":"sm1tkrdz"}
+{"time":"2025-05-08T16:09:02.838045347-04:00","level":"INFO","msg":"stream: started","id":"sm1tkrdz"}
+{"time":"2025-05-08T16:09:02.838062637-04:00","level":"INFO","msg":"writer: Do: started","stream_id":"sm1tkrdz"}
+{"time":"2025-05-08T16:09:02.838103338-04:00","level":"INFO","msg":"handler: started","stream_id":"sm1tkrdz"}
+{"time":"2025-05-08T16:09:02.838129438-04:00","level":"INFO","msg":"sender: started","stream_id":"sm1tkrdz"}
+{"time":"2025-05-08T16:09:02.986767932-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-05-08T16:09:02.986795302-04:00","level":"WARN","msg":"handleCodeSave: program relative path is empty"}
+{"time":"2025-05-08T16:09:02.986852694-04:00","level":"ERROR","msg":"git repo not found","error":"repository does not exist"}
diff --git a/wandb/run-20250508_160902-sm1tkrdz/logs/debug.log b/wandb/run-20250508_160902-sm1tkrdz/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..dcf027abd6d100016fccbb90f35906775d29ed06
--- /dev/null
+++ b/wandb/run-20250508_160902-sm1tkrdz/logs/debug.log
@@ -0,0 +1,22 @@
+2025-05-08 16:09:02,639 INFO    MainThread:1359956 [wandb_setup.py:_flush():68] Current SDK version is 0.19.10
+2025-05-08 16:09:02,639 INFO    MainThread:1359956 [wandb_setup.py:_flush():68] Configure stats pid to 1359956
+2025-05-08 16:09:02,639 INFO    MainThread:1359956 [wandb_setup.py:_flush():68] Loading settings from /home/panda/.config/wandb/settings
+2025-05-08 16:09:02,639 INFO    MainThread:1359956 [wandb_setup.py:_flush():68] Loading settings from /home/panda/pda-llm/scripts/wandb/settings
+2025-05-08 16:09:02,639 INFO    MainThread:1359956 [wandb_setup.py:_flush():68] Loading settings from environment variables
+2025-05-08 16:09:02,639 INFO    MainThread:1359956 [wandb_init.py:setup_run_log_directory():724] Logging user logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_160902-sm1tkrdz/logs/debug.log
+2025-05-08 16:09:02,639 INFO    MainThread:1359956 [wandb_init.py:setup_run_log_directory():725] Logging internal logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_160902-sm1tkrdz/logs/debug-internal.log
+2025-05-08 16:09:02,639 INFO    MainThread:1359956 [wandb_init.py:init():852] calling init triggers
+2025-05-08 16:09:02,639 INFO    MainThread:1359956 [wandb_init.py:init():857] wandb.init called with sweep_config: {}
+config: {'model_name_or_path': 'meta-llama/Llama-3.1-8B-Instruct', 'recompute_baseline': False, 'cache_dir': '/home/panda/pda-llm/cache/sft-tools', 'max_length': 4096, 'trust_remote_code': True, 'train_datasets': [('tools', {'proportion': 1.0})], 'eval_datasets': None, 'safety_ratio_tol': 10.0, 'important_sft': False, 'resilient_coeff': 1.0, 'epochs': 3, 'per_device_train_batch_size': 1, 'per_device_eval_batch_size': 1, 'gradient_accumulation_steps': 48, 'gradient_checkpointing': True, 'lr': 0.0001, 'lr_scheduler_type': <SchedulerType.COSINE: 'cosine'>, 'lr_warmup_ratio': 0.1, 'weight_decay': 0.0, 'seed': 42, 'fp16': True, 'bf16': False, 'tf32': False, 'lora_r': 16, 'lora_alpha': 32, 'lora_dropout': 0.05, 'eval_strategy': 'epoch', 'eval_interval': 1000000, 'need_eval': False, 'eval_split_ratio': None, 'output_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_type': 'wandb', 'log_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_project': 'TOOLS-SFT', 'log_run_name': 'tools-sft-2025-05-08-16-09-02', 'save_16bit': False, 'save_interval': 1000000, 'local_rank': 0, 'zero_stage': 0, 'offload': 'none', 'deepspeed': False, 'deepspeed_config': None, 'deepscale': False, 'deepscale_config': None, 'global_rank': 0, 'device': device(type='cuda', index=0), 'num_update_steps_per_epoch': 118, 'total_training_steps': 354, '_wandb': {}}
+2025-05-08 16:09:02,639 INFO    MainThread:1359956 [wandb_init.py:init():893] starting backend
+2025-05-08 16:09:02,639 INFO    MainThread:1359956 [wandb_init.py:init():897] sending inform_init request
+2025-05-08 16:09:02,642 INFO    MainThread:1359956 [backend.py:_multiprocessing_setup():101] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-05-08 16:09:02,642 INFO    MainThread:1359956 [wandb_init.py:init():907] backend started and connected
+2025-05-08 16:09:02,643 INFO    MainThread:1359956 [wandb_init.py:init():1002] updated telemetry
+2025-05-08 16:09:02,648 INFO    MainThread:1359956 [wandb_init.py:init():1026] communicating run to backend with 90.0 second timeout
+2025-05-08 16:09:02,984 INFO    MainThread:1359956 [wandb_init.py:init():1101] starting run threads in backend
+2025-05-08 16:09:03,046 INFO    MainThread:1359956 [wandb_run.py:_console_start():2566] atexit reg
+2025-05-08 16:09:03,046 INFO    MainThread:1359956 [wandb_run.py:_redirect():2414] redirect: wrap_raw
+2025-05-08 16:09:03,046 INFO    MainThread:1359956 [wandb_run.py:_redirect():2483] Wrapping output streams.
+2025-05-08 16:09:03,046 INFO    MainThread:1359956 [wandb_run.py:_redirect():2506] Redirects installed.
+2025-05-08 16:09:03,048 INFO    MainThread:1359956 [wandb_init.py:init():1147] run started, returning control to user process
diff --git a/wandb/run-20250508_160902-sm1tkrdz/run-sm1tkrdz.wandb b/wandb/run-20250508_160902-sm1tkrdz/run-sm1tkrdz.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..ac45b567630f5585072bc6324fa142b963febac9
Binary files /dev/null and b/wandb/run-20250508_160902-sm1tkrdz/run-sm1tkrdz.wandb differ
diff --git a/wandb/run-20250508_183954-8zs3b4m6/files/config.yaml b/wandb/run-20250508_183954-8zs3b4m6/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..f53be718868bc2293426c148cf1383aefbe8cf2c
--- /dev/null
+++ b/wandb/run-20250508_183954-8zs3b4m6/files/config.yaml
@@ -0,0 +1,133 @@
+_wandb:
+    value:
+        cli_version: 0.19.10
+        m: []
+        python_version: 3.11.11
+        t:
+            "1":
+                - 1
+                - 11
+                - 49
+                - 51
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 11
+                - 49
+                - 51
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 13
+                - 16
+                - 23
+                - 55
+            "4": 3.11.11
+            "5": 0.19.10
+            "6": 4.51.3
+            "8":
+                - 5
+            "12": 0.19.10
+            "13": linux-x86_64
+bf16:
+    value: true
+cache_dir:
+    value: /home/panda/pda-llm/cache/sft-tools
+deepscale:
+    value: false
+deepscale_config:
+    value: null
+deepspeed:
+    value: false
+deepspeed_config:
+    value: null
+device:
+    value: cuda:0
+epochs:
+    value: 3
+eval_datasets:
+    value: null
+eval_interval:
+    value: 1000000
+eval_split_ratio:
+    value: null
+eval_strategy:
+    value: epoch
+fp16:
+    value: false
+global_rank:
+    value: 0
+gradient_accumulation_steps:
+    value: 24
+gradient_checkpointing:
+    value: true
+important_sft:
+    value: false
+local_rank:
+    value: 0
+log_dir:
+    value: /home/panda/pda-llm/output/sft-tools/run-false-1-10
+log_project:
+    value: TOOLS-SFT
+log_run_name:
+    value: tools-sft-2025-05-08-18-39-54
+log_type:
+    value: wandb
+lora_alpha:
+    value: 32
+lora_dropout:
+    value: 0.05
+lora_r:
+    value: 16
+lr:
+    value: 0.0001
+lr_scheduler_type:
+    value: COSINE
+lr_warmup_ratio:
+    value: 0.1
+max_length:
+    value: 4096
+model_name_or_path:
+    value: meta-llama/Llama-3.1-8B-Instruct
+need_eval:
+    value: true
+num_update_steps_per_epoch:
+    value: 118
+offload:
+    value: none
+output_dir:
+    value: /home/panda/pda-llm/output/sft-tools/run-false-1-10
+per_device_eval_batch_size:
+    value: 2
+per_device_train_batch_size:
+    value: 2
+recompute_baseline:
+    value: false
+resilient_coeff:
+    value: 1
+safety_ratio_tol:
+    value: 10
+save_16bit:
+    value: false
+save_interval:
+    value: 1000000
+seed:
+    value: 42
+tf32:
+    value: false
+total_training_steps:
+    value: 354
+train_datasets:
+    value:
+        - - tools
+          - proportion: 1
+trust_remote_code:
+    value: true
+weight_decay:
+    value: 0
+zero_stage:
+    value: 0
diff --git a/wandb/run-20250508_183954-8zs3b4m6/files/output.log b/wandb/run-20250508_183954-8zs3b4m6/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..b36e3568eeebaf7f234e753453f4e45da253c298
--- /dev/null
+++ b/wandb/run-20250508_183954-8zs3b4m6/files/output.log
@@ -0,0 +1,33 @@
+***** Running training *****
+Training 1/3 epoch:   0%|          | 0/8475 [00:00<?, ?it/s]Traceback (most recent call last):
+
+***** Evaluating at the beginning *****
+  File "<frozen runpy>", line 198, in _run_module_as_main
+  File "<frozen runpy>", line 88, in _run_code
+  File "/home/panda/pda-llm/safe_rlhf/algorithms/tools_ft/__main__.py", line 23, in <module>
+    sys.exit(main())
+             ^^^^^^
+  File "/home/panda/pda-llm/safe_rlhf/algorithms/tools_ft/main.py", line 367, in main
+    trainer.train()
+  File "/home/panda/pda-llm/safe_rlhf/trainers/supervised_tools_trainer.py", line 292, in train
+    self.logger.log(self.eval(), step=0)
+                    ^^^^^^^^^^^
+  File "/home/panda/pda-llm/safe_rlhf/trainers/supervised_tools_trainer.py", line 361, in eval
+    safe_log_ratios = safe_log_ratios.cpu().numpy()
+                      ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+TypeError: Got unsupported ScalarType BFloat16
+[rank0]: Traceback (most recent call last):
+[rank0]:   File "<frozen runpy>", line 198, in _run_module_as_main
+[rank0]:   File "<frozen runpy>", line 88, in _run_code
+[rank0]:   File "/home/panda/pda-llm/safe_rlhf/algorithms/tools_ft/__main__.py", line 23, in <module>
+[rank0]:     sys.exit(main())
+[rank0]:              ^^^^^^
+[rank0]:   File "/home/panda/pda-llm/safe_rlhf/algorithms/tools_ft/main.py", line 367, in main
+[rank0]:     trainer.train()
+[rank0]:   File "/home/panda/pda-llm/safe_rlhf/trainers/supervised_tools_trainer.py", line 292, in train
+[rank0]:     self.logger.log(self.eval(), step=0)
+[rank0]:                     ^^^^^^^^^^^
+[rank0]:   File "/home/panda/pda-llm/safe_rlhf/trainers/supervised_tools_trainer.py", line 361, in eval
+[rank0]:     safe_log_ratios = safe_log_ratios.cpu().numpy()
+[rank0]:                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+[rank0]: TypeError: Got unsupported ScalarType BFloat16
diff --git a/wandb/run-20250508_183954-8zs3b4m6/files/requirements.txt b/wandb/run-20250508_183954-8zs3b4m6/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..71b302373526f7bd332d0d4bad620c97b4da950d
--- /dev/null
+++ b/wandb/run-20250508_183954-8zs3b4m6/files/requirements.txt
@@ -0,0 +1,137 @@
+PySocks==1.7.1
+pip==25.1.1
+certifi==2025.4.26
+parso==0.8.4
+wcwidth==0.2.13
+nvidia-ml-py==12.535.133
+mkl_fft==1.3.11
+urllib3==2.3.0
+charset-normalizer==3.3.2
+transformers==4.51.3
+smmap==4.0.0
+xxhash==3.5.0
+platformdirs==4.3.8
+tzdata==2025.2
+ipython==9.2.0
+deepspeed==0.16.7
+gmpy2==2.2.1
+pydantic==2.10.3
+tqdm==4.67.1
+pyparsing==3.2.0
+exceptiongroup==1.2.2
+tokenizers==0.21.1
+Markdown==3.8
+matplotlib-inline==0.1.7
+jupyter_core==5.7.2
+pydantic_core==2.27.1
+hjson==3.1.0
+mkl_random==1.2.8
+ipykernel==6.29.5
+sentry-sdk==2.18.0
+wandb==0.19.10
+einops==0.8.1
+prompt_toolkit==3.0.51
+Bottleneck==1.4.2
+msgpack==1.1.0
+fsspec==2024.12.0
+mdurl==0.1.0
+executing==2.2.0
+wheel==0.45.1
+bitsandbytes==0.45.5
+networkx==3.4.2
+comm==0.2.2
+asttokens==3.0.0
+nvitop==1.5.0
+sympy==1.13.1
+MarkupSafe==3.0.2
+numexpr==2.10.1
+tensorboard_data_server==0.7.0
+markdown-it-py==2.2.0
+six==1.17.0
+idna==3.7
+docker-pycreds==0.4.0
+jedi==0.19.2
+GitPython==3.1.43
+pure_eval==0.2.3
+ninja==1.11.1.4
+setuptools==80.1.0
+fonttools==4.55.3
+annotated-types==0.6.0
+psutil==7.0.0
+cycler==0.11.0
+py-cpuinfo==9.0.0
+accelerate==1.6.0
+filelock==3.17.0
+pytz==2024.1
+rich==13.9.4
+appdirs==1.4.4
+click==8.1.8
+Jinja2==3.1.6
+unicodedata2==15.1.0
+pillow==11.1.0
+traitlets==5.14.3
+stack_data==0.6.3
+peft==0.15.2
+python-dateutil==2.9.0.post0
+requests==2.32.3
+Werkzeug==3.1.3
+gitdb==4.0.7
+torch==2.5.1
+scipy==1.15.2
+sentencepiece==0.2.0
+huggingface-hub==0.31.1
+dill==0.3.8
+pexpect==4.9.0
+pickleshare==0.7.5
+ptyprocess==0.7.0
+contourpy==1.3.1
+grpcio==1.71.0
+optree==0.14.1
+safetensors==0.5.3
+mpmath==1.3.0
+nest_asyncio==1.6.0
+pyarrow==19.0.0
+PyYAML==6.0.2
+decorator==5.2.1
+pandas==2.2.3
+tensorboard==2.19.0
+zipp==3.21.0
+regex==2024.11.6
+Brotli==1.0.9
+mkl-service==2.4.0
+matplotlib==3.10.0
+Pygments==2.19.1
+absl-py==2.1.0
+hf-xet==1.1.0
+packaging==25.0
+jupyter_client==8.6.3
+triton==3.1.0
+multiprocess==0.70.15
+debugpy==1.8.14
+numpy==2.0.1
+protobuf==5.29.3
+tornado==6.4.2
+datasets==3.6.0
+eval_type_backport==0.2.2
+typing_extensions==4.12.2
+kiwisolver==1.4.8
+pyzmq==26.4.0
+ipython_pygments_lexers==1.1.1
+setproctitle==1.2.2
+importlib_metadata==8.6.1
+jaraco.text==3.12.1
+backports.tarfile==1.2.0
+importlib_metadata==8.0.0
+jaraco.context==5.3.0
+more-itertools==10.3.0
+wheel==0.45.1
+jaraco.collections==5.1.0
+platformdirs==4.2.2
+autocommand==2.2.2
+zipp==3.19.2
+tomli==2.0.1
+typeguard==4.3.0
+packaging==24.2
+inflect==7.3.1
+typing_extensions==4.12.2
+jaraco.functools==4.0.1
diff --git a/wandb/run-20250508_183954-8zs3b4m6/files/wandb-metadata.json b/wandb/run-20250508_183954-8zs3b4m6/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..95ccdd3c60a61a5a49dfecb93ecf6e2c7e9a27b5
--- /dev/null
+++ b/wandb/run-20250508_183954-8zs3b4m6/files/wandb-metadata.json
@@ -0,0 +1,106 @@
+{
+  "os":  "Linux-5.15.0-138-generic-x86_64-with-glibc2.31",
+  "python":  "CPython 3.11.11",
+  "startedAt":  "2025-05-08T22:39:54.527119Z",
+  "args":  [
+    "--local_rank=0",
+    "--train_datasets",
+    "tools",
+    "--model_name_or_path",
+    "meta-llama/Llama-3.1-8B-Instruct",
+    "--cache_dir",
+    "/home/panda/pda-llm/cache/sft-tools",
+    "--important_sft",
+    "false",
+    "--max_length",
+    "4096",
+    "--trust_remote_code",
+    "True",
+    "--epochs",
+    "3",
+    "--per_device_train_batch_size",
+    "2",
+    "--per_device_eval_batch_size",
+    "2",
+    "--gradient_accumulation_steps",
+    "24",
+    "--gradient_checkpointing",
+    "--learning_rate",
+    "1e-4",
+    "--lr_scheduler_type",
+    "cosine",
+    "--lr_warmup_ratio",
+    "0.1",
+    "--weight_decay",
+    "0.0",
+    "--seed",
+    "42",
+    "--output_dir",
+    "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+    "--log_type",
+    "wandb",
+    "--log_project",
+    "TOOLS-SFT",
+    "--zero_stage",
+    "0",
+    "--offload",
+    "none",
+    "--safety_ratio_tol",
+    "10",
+    "--resilient_coeff",
+    "1",
+    "--lora_r",
+    "16",
+    "--lora_alpha",
+    "32",
+    "--lora_dropout",
+    "0.05",
+    "--bf16",
+    "True",
+    "--fp16",
+    "False",
+    "--tf32",
+    "False"
+  ],
+  "program":  "-m safe_rlhf.algorithms.tools_ft.__main__",
+  "git":  {
+    "remote":  "git@github.com:IgnacioBoero/pda-llm.git",
+    "commit":  "3e25c5a329b7cfcf30b4af51d00c42fd38478aba"
+  },
+  "email":  "iboero@upenn.edu",
+  "root":  "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+  "host":  "plaza",
+  "executable":  "/home/panda/miniconda3/envs/pda/bin/python",
+  "cpu_count":  24,
+  "cpu_count_logical":  48,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  2,
+  "disk":  {
+    "/":  {
+      "total":  "982820896768",
+      "used":  "888969158656"
+    }
+  },
+  "memory":  {
+    "total":  "270090010624"
+  },
+  "cpu":  {
+    "count":  24,
+    "countLogical":  48
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "12.4"
+}
\ No newline at end of file
diff --git a/wandb/run-20250508_183954-8zs3b4m6/files/wandb-summary.json b/wandb/run-20250508_183954-8zs3b4m6/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..1e721ee0e6a3739077251a63440b7756199b1b46
--- /dev/null
+++ b/wandb/run-20250508_183954-8zs3b4m6/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":234}}
\ No newline at end of file
diff --git a/wandb/run-20250508_183954-8zs3b4m6/logs/debug-core.log b/wandb/run-20250508_183954-8zs3b4m6/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..b613cb41fb229dcbe39a6a648c2b44791160f025
--- /dev/null
+++ b/wandb/run-20250508_183954-8zs3b4m6/logs/debug-core.log
@@ -0,0 +1,15 @@
+{"time":"2025-05-08T18:39:54.176871407-04:00","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmpm9rm19xp/port-1436037.txt","pid":1436037,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false}
+{"time":"2025-05-08T18:39:54.182885566-04:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":1436037}
+{"time":"2025-05-08T18:39:54.182859406-04:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":46483,"Zone":""}}
+{"time":"2025-05-08T18:39:54.363158642-04:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:44756"}
+{"time":"2025-05-08T18:39:54.529022063-04:00","level":"INFO","msg":"handleInformInit: received","streamId":"8zs3b4m6","id":"127.0.0.1:44756"}
+{"time":"2025-05-08T18:39:54.721870969-04:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"8zs3b4m6","id":"127.0.0.1:44756"}
+{"time":"2025-05-08T18:43:49.728612807-04:00","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"8zs3b4m6","id":"127.0.0.1:44756"}
+{"time":"2025-05-08T18:43:49.72878048-04:00","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"8zs3b4m6","id":"127.0.0.1:44756"}
+{"time":"2025-05-08T18:43:50.729045178-04:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:44756"}
+{"time":"2025-05-08T18:43:50.729069669-04:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:44756"}
+{"time":"2025-05-08T18:43:50.729078859-04:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2025-05-08T18:43:50.729084919-04:00","level":"INFO","msg":"connection: closing","id":"127.0.0.1:44756"}
+{"time":"2025-05-08T18:43:50.72916792-04:00","level":"INFO","msg":"connection: closed successfully","id":"127.0.0.1:44756"}
+{"time":"2025-05-08T18:43:50.729198191-04:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:44756"}
+{"time":"2025-05-08T18:43:50.729212691-04:00","level":"INFO","msg":"server is closed"}
diff --git a/wandb/run-20250508_183954-8zs3b4m6/logs/debug-internal.log b/wandb/run-20250508_183954-8zs3b4m6/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..e32549d45cc78fb97b55316d9e3bb3b0b380d377
--- /dev/null
+++ b/wandb/run-20250508_183954-8zs3b4m6/logs/debug-internal.log
@@ -0,0 +1,18 @@
+{"time":"2025-05-08T18:39:54.529292648-04:00","level":"INFO","msg":"stream: starting","core version":"0.19.10","symlink path":"/home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_183954-8zs3b4m6/logs/debug-core.log"}
+{"time":"2025-05-08T18:39:54.721820928-04:00","level":"INFO","msg":"created new stream","id":"8zs3b4m6"}
+{"time":"2025-05-08T18:39:54.721862709-04:00","level":"INFO","msg":"stream: started","id":"8zs3b4m6"}
+{"time":"2025-05-08T18:39:54.72190933-04:00","level":"INFO","msg":"handler: started","stream_id":"8zs3b4m6"}
+{"time":"2025-05-08T18:39:54.7218919-04:00","level":"INFO","msg":"writer: Do: started","stream_id":"8zs3b4m6"}
+{"time":"2025-05-08T18:39:54.721943141-04:00","level":"INFO","msg":"sender: started","stream_id":"8zs3b4m6"}
+{"time":"2025-05-08T18:39:55.093280788-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-05-08T18:39:55.093320509-04:00","level":"WARN","msg":"handleCodeSave: program relative path is empty"}
+{"time":"2025-05-08T18:39:55.09338449-04:00","level":"ERROR","msg":"git repo not found","error":"repository does not exist"}
+{"time":"2025-05-08T18:43:49.04487936-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-05-08T18:43:49.045105404-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-05-08T18:43:49.452801239-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-05-08T18:43:49.726313582-04:00","level":"INFO","msg":"handler: operation stats","stats":{}}
+{"time":"2025-05-08T18:43:49.728641487-04:00","level":"INFO","msg":"stream: closing","id":"8zs3b4m6"}
+{"time":"2025-05-08T18:43:49.728657388-04:00","level":"INFO","msg":"handler: closed","stream_id":"8zs3b4m6"}
+{"time":"2025-05-08T18:43:49.728667428-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":"8zs3b4m6"}
+{"time":"2025-05-08T18:43:49.728696378-04:00","level":"INFO","msg":"sender: closed","stream_id":"8zs3b4m6"}
+{"time":"2025-05-08T18:43:49.72877225-04:00","level":"INFO","msg":"stream: closed","id":"8zs3b4m6"}
diff --git a/wandb/run-20250508_183954-8zs3b4m6/logs/debug.log b/wandb/run-20250508_183954-8zs3b4m6/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..7642ad12837c9e959156f8965ebaaac42ab8eea0
--- /dev/null
+++ b/wandb/run-20250508_183954-8zs3b4m6/logs/debug.log
@@ -0,0 +1,29 @@
+2025-05-08 18:39:54,524 INFO    MainThread:1436037 [wandb_setup.py:_flush():68] Current SDK version is 0.19.10
+2025-05-08 18:39:54,524 INFO    MainThread:1436037 [wandb_setup.py:_flush():68] Configure stats pid to 1436037
+2025-05-08 18:39:54,524 INFO    MainThread:1436037 [wandb_setup.py:_flush():68] Loading settings from /home/panda/.config/wandb/settings
+2025-05-08 18:39:54,524 INFO    MainThread:1436037 [wandb_setup.py:_flush():68] Loading settings from /home/panda/pda-llm/scripts/wandb/settings
+2025-05-08 18:39:54,524 INFO    MainThread:1436037 [wandb_setup.py:_flush():68] Loading settings from environment variables
+2025-05-08 18:39:54,524 INFO    MainThread:1436037 [wandb_init.py:setup_run_log_directory():724] Logging user logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_183954-8zs3b4m6/logs/debug.log
+2025-05-08 18:39:54,524 INFO    MainThread:1436037 [wandb_init.py:setup_run_log_directory():725] Logging internal logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_183954-8zs3b4m6/logs/debug-internal.log
+2025-05-08 18:39:54,524 INFO    MainThread:1436037 [wandb_init.py:init():852] calling init triggers
+2025-05-08 18:39:54,524 INFO    MainThread:1436037 [wandb_init.py:init():857] wandb.init called with sweep_config: {}
+config: {'model_name_or_path': 'meta-llama/Llama-3.1-8B-Instruct', 'recompute_baseline': False, 'cache_dir': '/home/panda/pda-llm/cache/sft-tools', 'max_length': 4096, 'trust_remote_code': True, 'train_datasets': [('tools', {'proportion': 1.0})], 'eval_datasets': None, 'safety_ratio_tol': 10.0, 'important_sft': False, 'resilient_coeff': 1.0, 'epochs': 3, 'per_device_train_batch_size': 2, 'per_device_eval_batch_size': 2, 'gradient_accumulation_steps': 24, 'gradient_checkpointing': True, 'lr': 0.0001, 'lr_scheduler_type': <SchedulerType.COSINE: 'cosine'>, 'lr_warmup_ratio': 0.1, 'weight_decay': 0.0, 'seed': 42, 'fp16': False, 'bf16': True, 'tf32': False, 'lora_r': 16, 'lora_alpha': 32, 'lora_dropout': 0.05, 'eval_strategy': 'epoch', 'eval_interval': 1000000, 'need_eval': True, 'eval_split_ratio': None, 'output_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_type': 'wandb', 'log_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_project': 'TOOLS-SFT', 'log_run_name': 'tools-sft-2025-05-08-18-39-54', 'save_16bit': False, 'save_interval': 1000000, 'local_rank': 0, 'zero_stage': 0, 'offload': 'none', 'deepspeed': False, 'deepspeed_config': None, 'deepscale': False, 'deepscale_config': None, 'global_rank': 0, 'device': device(type='cuda', index=0), 'num_update_steps_per_epoch': 118, 'total_training_steps': 354, '_wandb': {}}
+2025-05-08 18:39:54,525 INFO    MainThread:1436037 [wandb_init.py:init():893] starting backend
+2025-05-08 18:39:54,525 INFO    MainThread:1436037 [wandb_init.py:init():897] sending inform_init request
+2025-05-08 18:39:54,526 INFO    MainThread:1436037 [backend.py:_multiprocessing_setup():101] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-05-08 18:39:54,526 INFO    MainThread:1436037 [wandb_init.py:init():907] backend started and connected
+2025-05-08 18:39:54,528 INFO    MainThread:1436037 [wandb_init.py:init():1002] updated telemetry
+2025-05-08 18:39:54,534 INFO    MainThread:1436037 [wandb_init.py:init():1026] communicating run to backend with 90.0 second timeout
+2025-05-08 18:39:55,090 INFO    MainThread:1436037 [wandb_init.py:init():1101] starting run threads in backend
+2025-05-08 18:39:55,157 INFO    MainThread:1436037 [wandb_run.py:_console_start():2566] atexit reg
+2025-05-08 18:39:55,157 INFO    MainThread:1436037 [wandb_run.py:_redirect():2414] redirect: wrap_raw
+2025-05-08 18:39:55,157 INFO    MainThread:1436037 [wandb_run.py:_redirect():2483] Wrapping output streams.
+2025-05-08 18:39:55,157 INFO    MainThread:1436037 [wandb_run.py:_redirect():2506] Redirects installed.
+2025-05-08 18:39:55,158 INFO    MainThread:1436037 [wandb_init.py:init():1147] run started, returning control to user process
+2025-05-08 18:43:49,004 INFO    MainThread:1436037 [wandb_run.py:_finish():2314] finishing run alelab/TOOLS-SFT/8zs3b4m6
+2025-05-08 18:43:49,005 INFO    MainThread:1436037 [wandb_run.py:_atexit_cleanup():2531] got exitcode: 0
+2025-05-08 18:43:49,005 INFO    MainThread:1436037 [wandb_run.py:_restore():2513] restore
+2025-05-08 18:43:49,005 INFO    MainThread:1436037 [wandb_run.py:_restore():2519] restore done
+2025-05-08 18:43:49,727 INFO    MainThread:1436037 [wandb_run.py:_footer_history_summary_info():4160] rendering history
+2025-05-08 18:43:49,728 INFO    MainThread:1436037 [wandb_run.py:_footer_history_summary_info():4192] rendering summary
+2025-05-08 18:43:49,728 INFO    MainThread:1436037 [wandb_run.py:_footer_sync_info():4121] logging synced files
diff --git a/wandb/run-20250508_183954-8zs3b4m6/run-8zs3b4m6.wandb b/wandb/run-20250508_183954-8zs3b4m6/run-8zs3b4m6.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..addad4f8e9365f5f95527300e1f81a8c54a20386
Binary files /dev/null and b/wandb/run-20250508_183954-8zs3b4m6/run-8zs3b4m6.wandb differ
diff --git a/wandb/run-20250508_190248-2v7dhhsz/files/config.yaml b/wandb/run-20250508_190248-2v7dhhsz/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..e2cefd0bf196aa2f0beaf2a01a5ee67e163b68da
--- /dev/null
+++ b/wandb/run-20250508_190248-2v7dhhsz/files/config.yaml
@@ -0,0 +1,134 @@
+_wandb:
+    value:
+        cli_version: 0.19.10
+        m: []
+        python_version: 3.11.11
+        t:
+            "1":
+                - 1
+                - 11
+                - 49
+                - 51
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 11
+                - 49
+                - 51
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 13
+                - 16
+                - 23
+                - 55
+                - 61
+            "4": 3.11.11
+            "5": 0.19.10
+            "6": 4.51.3
+            "8":
+                - 5
+            "12": 0.19.10
+            "13": linux-x86_64
+bf16:
+    value: true
+cache_dir:
+    value: /home/panda/pda-llm/cache/sft-tools
+deepscale:
+    value: false
+deepscale_config:
+    value: null
+deepspeed:
+    value: false
+deepspeed_config:
+    value: null
+device:
+    value: cuda:0
+epochs:
+    value: 3
+eval_datasets:
+    value: null
+eval_interval:
+    value: 1000000
+eval_split_ratio:
+    value: null
+eval_strategy:
+    value: epoch
+fp16:
+    value: false
+global_rank:
+    value: 0
+gradient_accumulation_steps:
+    value: 24
+gradient_checkpointing:
+    value: true
+important_sft:
+    value: false
+local_rank:
+    value: 0
+log_dir:
+    value: /home/panda/pda-llm/output/sft-tools/run-false-1-10
+log_project:
+    value: TOOLS-SFT
+log_run_name:
+    value: tools-sft-2025-05-08-19-02-47
+log_type:
+    value: wandb
+lora_alpha:
+    value: 32
+lora_dropout:
+    value: 0.05
+lora_r:
+    value: 16
+lr:
+    value: 0.0001
+lr_scheduler_type:
+    value: COSINE
+lr_warmup_ratio:
+    value: 0.1
+max_length:
+    value: 4096
+model_name_or_path:
+    value: meta-llama/Llama-3.1-8B-Instruct
+need_eval:
+    value: true
+num_update_steps_per_epoch:
+    value: 118
+offload:
+    value: none
+output_dir:
+    value: /home/panda/pda-llm/output/sft-tools/run-false-1-10
+per_device_eval_batch_size:
+    value: 2
+per_device_train_batch_size:
+    value: 2
+recompute_baseline:
+    value: false
+resilient_coeff:
+    value: 1
+safety_ratio_tol:
+    value: 10
+save_16bit:
+    value: false
+save_interval:
+    value: 1000000
+seed:
+    value: 42
+tf32:
+    value: false
+total_training_steps:
+    value: 354
+train_datasets:
+    value:
+        - - tools
+          - proportion: 1
+trust_remote_code:
+    value: true
+weight_decay:
+    value: 0
+zero_stage:
+    value: 0
diff --git a/wandb/run-20250508_190248-2v7dhhsz/files/output.log b/wandb/run-20250508_190248-2v7dhhsz/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..74fa91b8c2727bdf87afbab2550c8e5acc7096b4
--- /dev/null
+++ b/wandb/run-20250508_190248-2v7dhhsz/files/output.log
@@ -0,0 +1,141 @@
+***** Running training *****
+Training 1/3 epoch:   0%|          | 0/8475 [00:00<?, ?it/s]Traceback (most recent call last):
+
+***** Evaluating at the beginning *****
+  File "<frozen runpy>", line 198, in _run_module_as_main
+  File "<frozen runpy>", line 88, in _run_code
+  File "/home/panda/pda-llm/safe_rlhf/algorithms/tools_ft/__main__.py", line 23, in <module>
+    sys.exit(main())
+             ^^^^^^
+  File "/home/panda/pda-llm/safe_rlhf/algorithms/tools_ft/main.py", line 367, in main
+    trainer.train()
+  File "/home/panda/pda-llm/safe_rlhf/trainers/supervised_tools_trainer.py", line 292, in train
+    self.logger.log(self.eval(), step=0)
+  File "/home/panda/pda-llm/safe_rlhf/utils.py", line 195, in wrapper
+    return func(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^
+  File "/home/panda/pda-llm/safe_rlhf/logger.py", line 158, in log
+    self.wandb.log(metrics, step=step)
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 406, in wrapper
+    return func(self, *args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 503, in wrapper
+    return func(self, *args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 464, in wrapper_fn
+    return func(self, *args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 451, in wrapper
+    return func(self, *args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 2064, in log
+    self._log(data=data, step=step, commit=commit)
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 1776, in _log
+    self._partial_history_callback(data, step, commit)
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 406, in wrapper
+    return func(self, *args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 1603, in _partial_history_callback
+    self._backend.interface.publish_partial_history(
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/interface/interface.py", line 674, in publish_partial_history
+    data = history_dict_to_json(run, data, step=user_step, ignore_copy_err=True)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/data_types/utils.py", line 54, in history_dict_to_json
+    payload[key] = val_to_json(
+                   ^^^^^^^^^^^^
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/data_types/utils.py", line 162, in val_to_json
+    val.bind_to_run(run, key, namespace)
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/data_types/table.py", line 510, in bind_to_run
+    util.json_dump_safer(data, fp)
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/util.py", line 812, in json_dump_safer
+    return dump(obj, fp, cls=WandBJSONEncoder, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/json/__init__.py", line 179, in dump
+    for chunk in iterable:
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/json/encoder.py", line 432, in _iterencode
+    yield from _iterencode_dict(o, _current_indent_level)
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/json/encoder.py", line 406, in _iterencode_dict
+    yield from chunks
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/json/encoder.py", line 326, in _iterencode_list
+    yield from chunks
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/json/encoder.py", line 326, in _iterencode_list
+    yield from chunks
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/json/encoder.py", line 439, in _iterencode
+    o = _default(o)
+        ^^^^^^^^^^^
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/util.py", line 763, in default
+    tmp_obj, converted = json_friendly(obj)
+                         ^^^^^^^^^^^^^^^^^^
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/util.py", line 595, in json_friendly
+    obj = obj.cpu().detach().numpy()
+          ^^^^^^^^^^^^^^^^^^^^^^^^^^
+TypeError: Got unsupported ScalarType BFloat16
+[rank0]: Traceback (most recent call last):
+[rank0]:   File "<frozen runpy>", line 198, in _run_module_as_main
+[rank0]:   File "<frozen runpy>", line 88, in _run_code
+[rank0]:   File "/home/panda/pda-llm/safe_rlhf/algorithms/tools_ft/__main__.py", line 23, in <module>
+[rank0]:     sys.exit(main())
+[rank0]:              ^^^^^^
+[rank0]:   File "/home/panda/pda-llm/safe_rlhf/algorithms/tools_ft/main.py", line 367, in main
+[rank0]:     trainer.train()
+[rank0]:   File "/home/panda/pda-llm/safe_rlhf/trainers/supervised_tools_trainer.py", line 292, in train
+[rank0]:     self.logger.log(self.eval(), step=0)
+[rank0]:   File "/home/panda/pda-llm/safe_rlhf/utils.py", line 195, in wrapper
+[rank0]:     return func(*args, **kwargs)
+[rank0]:            ^^^^^^^^^^^^^^^^^^^^^
+[rank0]:   File "/home/panda/pda-llm/safe_rlhf/logger.py", line 158, in log
+[rank0]:     self.wandb.log(metrics, step=step)
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 406, in wrapper
+[rank0]:     return func(self, *args, **kwargs)
+[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 503, in wrapper
+[rank0]:     return func(self, *args, **kwargs)
+[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 464, in wrapper_fn
+[rank0]:     return func(self, *args, **kwargs)
+[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 451, in wrapper
+[rank0]:     return func(self, *args, **kwargs)
+[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 2064, in log
+[rank0]:     self._log(data=data, step=step, commit=commit)
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 1776, in _log
+[rank0]:     self._partial_history_callback(data, step, commit)
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 406, in wrapper
+[rank0]:     return func(self, *args, **kwargs)
+[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 1603, in _partial_history_callback
+[rank0]:     self._backend.interface.publish_partial_history(
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/interface/interface.py", line 674, in publish_partial_history
+[rank0]:     data = history_dict_to_json(run, data, step=user_step, ignore_copy_err=True)
+[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/data_types/utils.py", line 54, in history_dict_to_json
+[rank0]:     payload[key] = val_to_json(
+[rank0]:                    ^^^^^^^^^^^^
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/data_types/utils.py", line 162, in val_to_json
+[rank0]:     val.bind_to_run(run, key, namespace)
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/data_types/table.py", line 510, in bind_to_run
+[rank0]:     util.json_dump_safer(data, fp)
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/util.py", line 812, in json_dump_safer
+[rank0]:     return dump(obj, fp, cls=WandBJSONEncoder, **kwargs)
+[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/json/__init__.py", line 179, in dump
+[rank0]:     for chunk in iterable:
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/json/encoder.py", line 432, in _iterencode
+[rank0]:     yield from _iterencode_dict(o, _current_indent_level)
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/json/encoder.py", line 406, in _iterencode_dict
+[rank0]:     yield from chunks
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/json/encoder.py", line 326, in _iterencode_list
+[rank0]:     yield from chunks
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/json/encoder.py", line 326, in _iterencode_list
+[rank0]:     yield from chunks
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/json/encoder.py", line 439, in _iterencode
+[rank0]:     o = _default(o)
+[rank0]:         ^^^^^^^^^^^
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/util.py", line 763, in default
+[rank0]:     tmp_obj, converted = json_friendly(obj)
+[rank0]:                          ^^^^^^^^^^^^^^^^^^
+[rank0]:   File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/util.py", line 595, in json_friendly
+[rank0]:     obj = obj.cpu().detach().numpy()
+[rank0]:           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+[rank0]: TypeError: Got unsupported ScalarType BFloat16
diff --git a/wandb/run-20250508_190248-2v7dhhsz/files/requirements.txt b/wandb/run-20250508_190248-2v7dhhsz/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..71b302373526f7bd332d0d4bad620c97b4da950d
--- /dev/null
+++ b/wandb/run-20250508_190248-2v7dhhsz/files/requirements.txt
@@ -0,0 +1,137 @@
+PySocks==1.7.1
+pip==25.1.1
+certifi==2025.4.26
+parso==0.8.4
+wcwidth==0.2.13
+nvidia-ml-py==12.535.133
+mkl_fft==1.3.11
+urllib3==2.3.0
+charset-normalizer==3.3.2
+transformers==4.51.3
+smmap==4.0.0
+xxhash==3.5.0
+platformdirs==4.3.8
+tzdata==2025.2
+ipython==9.2.0
+deepspeed==0.16.7
+gmpy2==2.2.1
+pydantic==2.10.3
+tqdm==4.67.1
+pyparsing==3.2.0
+exceptiongroup==1.2.2
+tokenizers==0.21.1
+Markdown==3.8
+matplotlib-inline==0.1.7
+jupyter_core==5.7.2
+pydantic_core==2.27.1
+hjson==3.1.0
+mkl_random==1.2.8
+ipykernel==6.29.5
+sentry-sdk==2.18.0
+wandb==0.19.10
+einops==0.8.1
+prompt_toolkit==3.0.51
+Bottleneck==1.4.2
+msgpack==1.1.0
+fsspec==2024.12.0
+mdurl==0.1.0
+executing==2.2.0
+wheel==0.45.1
+bitsandbytes==0.45.5
+networkx==3.4.2
+comm==0.2.2
+asttokens==3.0.0
+nvitop==1.5.0
+sympy==1.13.1
+MarkupSafe==3.0.2
+numexpr==2.10.1
+tensorboard_data_server==0.7.0
+markdown-it-py==2.2.0
+six==1.17.0
+idna==3.7
+docker-pycreds==0.4.0
+jedi==0.19.2
+GitPython==3.1.43
+pure_eval==0.2.3
+ninja==1.11.1.4
+setuptools==80.1.0
+fonttools==4.55.3
+annotated-types==0.6.0
+psutil==7.0.0
+cycler==0.11.0
+py-cpuinfo==9.0.0
+accelerate==1.6.0
+filelock==3.17.0
+pytz==2024.1
+rich==13.9.4
+appdirs==1.4.4
+click==8.1.8
+Jinja2==3.1.6
+unicodedata2==15.1.0
+pillow==11.1.0
+traitlets==5.14.3
+stack_data==0.6.3
+peft==0.15.2
+python-dateutil==2.9.0.post0
+requests==2.32.3
+Werkzeug==3.1.3
+gitdb==4.0.7
+torch==2.5.1
+scipy==1.15.2
+sentencepiece==0.2.0
+huggingface-hub==0.31.1
+dill==0.3.8
+pexpect==4.9.0
+pickleshare==0.7.5
+ptyprocess==0.7.0
+contourpy==1.3.1
+grpcio==1.71.0
+optree==0.14.1
+safetensors==0.5.3
+mpmath==1.3.0
+nest_asyncio==1.6.0
+pyarrow==19.0.0
+PyYAML==6.0.2
+decorator==5.2.1
+pandas==2.2.3
+tensorboard==2.19.0
+zipp==3.21.0
+regex==2024.11.6
+Brotli==1.0.9
+mkl-service==2.4.0
+matplotlib==3.10.0
+Pygments==2.19.1
+absl-py==2.1.0
+hf-xet==1.1.0
+packaging==25.0
+jupyter_client==8.6.3
+triton==3.1.0
+multiprocess==0.70.15
+debugpy==1.8.14
+numpy==2.0.1
+protobuf==5.29.3
+tornado==6.4.2
+datasets==3.6.0
+eval_type_backport==0.2.2
+typing_extensions==4.12.2
+kiwisolver==1.4.8
+pyzmq==26.4.0
+ipython_pygments_lexers==1.1.1
+setproctitle==1.2.2
+importlib_metadata==8.6.1
+jaraco.text==3.12.1
+backports.tarfile==1.2.0
+importlib_metadata==8.0.0
+jaraco.context==5.3.0
+more-itertools==10.3.0
+wheel==0.45.1
+jaraco.collections==5.1.0
+platformdirs==4.2.2
+autocommand==2.2.2
+zipp==3.19.2
+tomli==2.0.1
+typeguard==4.3.0
+packaging==24.2
+inflect==7.3.1
+typing_extensions==4.12.2
+jaraco.functools==4.0.1
diff --git a/wandb/run-20250508_190248-2v7dhhsz/files/wandb-metadata.json b/wandb/run-20250508_190248-2v7dhhsz/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..5d0b2fef20add4052c96dfd07e9dcc9b46c4526b
--- /dev/null
+++ b/wandb/run-20250508_190248-2v7dhhsz/files/wandb-metadata.json
@@ -0,0 +1,106 @@
+{
+  "os":  "Linux-5.15.0-138-generic-x86_64-with-glibc2.31",
+  "python":  "CPython 3.11.11",
+  "startedAt":  "2025-05-08T23:02:48.306604Z",
+  "args":  [
+    "--local_rank=0",
+    "--train_datasets",
+    "tools",
+    "--model_name_or_path",
+    "meta-llama/Llama-3.1-8B-Instruct",
+    "--cache_dir",
+    "/home/panda/pda-llm/cache/sft-tools",
+    "--important_sft",
+    "false",
+    "--max_length",
+    "4096",
+    "--trust_remote_code",
+    "True",
+    "--epochs",
+    "3",
+    "--per_device_train_batch_size",
+    "2",
+    "--per_device_eval_batch_size",
+    "2",
+    "--gradient_accumulation_steps",
+    "24",
+    "--gradient_checkpointing",
+    "--learning_rate",
+    "1e-4",
+    "--lr_scheduler_type",
+    "cosine",
+    "--lr_warmup_ratio",
+    "0.1",
+    "--weight_decay",
+    "0.0",
+    "--seed",
+    "42",
+    "--output_dir",
+    "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+    "--log_type",
+    "wandb",
+    "--log_project",
+    "TOOLS-SFT",
+    "--zero_stage",
+    "0",
+    "--offload",
+    "none",
+    "--safety_ratio_tol",
+    "10",
+    "--resilient_coeff",
+    "1",
+    "--lora_r",
+    "16",
+    "--lora_alpha",
+    "32",
+    "--lora_dropout",
+    "0.05",
+    "--bf16",
+    "True",
+    "--fp16",
+    "False",
+    "--tf32",
+    "False"
+  ],
+  "program":  "-m safe_rlhf.algorithms.tools_ft.__main__",
+  "git":  {
+    "remote":  "git@github.com:IgnacioBoero/pda-llm.git",
+    "commit":  "3e25c5a329b7cfcf30b4af51d00c42fd38478aba"
+  },
+  "email":  "iboero@upenn.edu",
+  "root":  "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+  "host":  "plaza",
+  "executable":  "/home/panda/miniconda3/envs/pda/bin/python",
+  "cpu_count":  24,
+  "cpu_count_logical":  48,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  2,
+  "disk":  {
+    "/":  {
+      "total":  "982820896768",
+      "used":  "888971706368"
+    }
+  },
+  "memory":  {
+    "total":  "270090010624"
+  },
+  "cpu":  {
+    "count":  24,
+    "countLogical":  48
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "12.4"
+}
\ No newline at end of file
diff --git a/wandb/run-20250508_190248-2v7dhhsz/files/wandb-summary.json b/wandb/run-20250508_190248-2v7dhhsz/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..5998a97095cb161150819561b7d0ecdc63597dd3
--- /dev/null
+++ b/wandb/run-20250508_190248-2v7dhhsz/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":280}}
\ No newline at end of file
diff --git a/wandb/run-20250508_190248-2v7dhhsz/logs/debug-core.log b/wandb/run-20250508_190248-2v7dhhsz/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..689a2e8da92d37763a266f95e36418103861091c
--- /dev/null
+++ b/wandb/run-20250508_190248-2v7dhhsz/logs/debug-core.log
@@ -0,0 +1,14 @@
+{"time":"2025-05-08T19:02:47.960541849-04:00","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmpihmishva/port-1477147.txt","pid":1477147,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false}
+{"time":"2025-05-08T19:02:47.966289105-04:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":1477147}
+{"time":"2025-05-08T19:02:47.966293555-04:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":41139,"Zone":""}}
+{"time":"2025-05-08T19:02:48.147653935-04:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:35080"}
+{"time":"2025-05-08T19:02:48.308576825-04:00","level":"INFO","msg":"handleInformInit: received","streamId":"2v7dhhsz","id":"127.0.0.1:35080"}
+{"time":"2025-05-08T19:02:48.512505858-04:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"2v7dhhsz","id":"127.0.0.1:35080"}
+{"time":"2025-05-08T19:07:29.938545851-04:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:35080"}
+{"time":"2025-05-08T19:07:29.938626302-04:00","level":"INFO","msg":"connection: closing","id":"127.0.0.1:35080"}
+{"time":"2025-05-08T19:07:29.938655533-04:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2025-05-08T19:07:29.938762645-04:00","level":"INFO","msg":"connection: closed successfully","id":"127.0.0.1:35080"}
+{"time":"2025-05-08T19:07:30.213249369-04:00","level":"ERROR","msg":"processOutgoingData: flush error","error":"write tcp 127.0.0.1:41139->127.0.0.1:35080: use of closed network connection","id":"127.0.0.1:35080"}
+{"time":"2025-05-08T19:07:30.213368232-04:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:35080"}
+{"time":"2025-05-08T19:07:30.213382952-04:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:35080"}
+{"time":"2025-05-08T19:07:30.213392242-04:00","level":"INFO","msg":"server is closed"}
diff --git a/wandb/run-20250508_190248-2v7dhhsz/logs/debug-internal.log b/wandb/run-20250508_190248-2v7dhhsz/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..34f5d55f61c69aa4572d9d6190d4075134b9b161
--- /dev/null
+++ b/wandb/run-20250508_190248-2v7dhhsz/logs/debug-internal.log
@@ -0,0 +1,18 @@
+{"time":"2025-05-08T19:02:48.3088284-04:00","level":"INFO","msg":"stream: starting","core version":"0.19.10","symlink path":"/home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_190248-2v7dhhsz/logs/debug-core.log"}
+{"time":"2025-05-08T19:02:48.512462137-04:00","level":"INFO","msg":"created new stream","id":"2v7dhhsz"}
+{"time":"2025-05-08T19:02:48.512497528-04:00","level":"INFO","msg":"stream: started","id":"2v7dhhsz"}
+{"time":"2025-05-08T19:02:48.512513028-04:00","level":"INFO","msg":"writer: Do: started","stream_id":"2v7dhhsz"}
+{"time":"2025-05-08T19:02:48.512533188-04:00","level":"INFO","msg":"handler: started","stream_id":"2v7dhhsz"}
+{"time":"2025-05-08T19:02:48.51259588-04:00","level":"INFO","msg":"sender: started","stream_id":"2v7dhhsz"}
+{"time":"2025-05-08T19:02:48.704760577-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-05-08T19:02:48.704823668-04:00","level":"WARN","msg":"handleCodeSave: program relative path is empty"}
+{"time":"2025-05-08T19:02:48.704894959-04:00","level":"ERROR","msg":"git repo not found","error":"repository does not exist"}
+{"time":"2025-05-08T19:07:28.85735877-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-05-08T19:07:28.857413541-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-05-08T19:07:29.938677033-04:00","level":"INFO","msg":"stream: closing","id":"2v7dhhsz"}
+{"time":"2025-05-08T19:07:29.938711754-04:00","level":"WARN","msg":"sender: received Exit record more than once, ignoring"}
+{"time":"2025-05-08T19:07:29.98872358-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-05-08T19:07:30.213208069-04:00","level":"INFO","msg":"handler: closed","stream_id":"2v7dhhsz"}
+{"time":"2025-05-08T19:07:30.213244659-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":"2v7dhhsz"}
+{"time":"2025-05-08T19:07:30.2132889-04:00","level":"INFO","msg":"sender: closed","stream_id":"2v7dhhsz"}
+{"time":"2025-05-08T19:07:30.213314711-04:00","level":"INFO","msg":"stream: closed","id":"2v7dhhsz"}
diff --git a/wandb/run-20250508_190248-2v7dhhsz/logs/debug.log b/wandb/run-20250508_190248-2v7dhhsz/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..700b6393998050709842cd64f16cc803a9ff316a
--- /dev/null
+++ b/wandb/run-20250508_190248-2v7dhhsz/logs/debug.log
@@ -0,0 +1,47 @@
+2025-05-08 19:02:48,303 INFO    MainThread:1477147 [wandb_setup.py:_flush():68] Current SDK version is 0.19.10
+2025-05-08 19:02:48,304 INFO    MainThread:1477147 [wandb_setup.py:_flush():68] Configure stats pid to 1477147
+2025-05-08 19:02:48,304 INFO    MainThread:1477147 [wandb_setup.py:_flush():68] Loading settings from /home/panda/.config/wandb/settings
+2025-05-08 19:02:48,304 INFO    MainThread:1477147 [wandb_setup.py:_flush():68] Loading settings from /home/panda/pda-llm/scripts/wandb/settings
+2025-05-08 19:02:48,304 INFO    MainThread:1477147 [wandb_setup.py:_flush():68] Loading settings from environment variables
+2025-05-08 19:02:48,304 INFO    MainThread:1477147 [wandb_init.py:setup_run_log_directory():724] Logging user logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_190248-2v7dhhsz/logs/debug.log
+2025-05-08 19:02:48,304 INFO    MainThread:1477147 [wandb_init.py:setup_run_log_directory():725] Logging internal logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_190248-2v7dhhsz/logs/debug-internal.log
+2025-05-08 19:02:48,304 INFO    MainThread:1477147 [wandb_init.py:init():852] calling init triggers
+2025-05-08 19:02:48,304 INFO    MainThread:1477147 [wandb_init.py:init():857] wandb.init called with sweep_config: {}
+config: {'model_name_or_path': 'meta-llama/Llama-3.1-8B-Instruct', 'recompute_baseline': False, 'cache_dir': '/home/panda/pda-llm/cache/sft-tools', 'max_length': 4096, 'trust_remote_code': True, 'train_datasets': [('tools', {'proportion': 1.0})], 'eval_datasets': None, 'safety_ratio_tol': 10.0, 'important_sft': False, 'resilient_coeff': 1.0, 'epochs': 3, 'per_device_train_batch_size': 2, 'per_device_eval_batch_size': 2, 'gradient_accumulation_steps': 24, 'gradient_checkpointing': True, 'lr': 0.0001, 'lr_scheduler_type': <SchedulerType.COSINE: 'cosine'>, 'lr_warmup_ratio': 0.1, 'weight_decay': 0.0, 'seed': 42, 'fp16': False, 'bf16': True, 'tf32': False, 'lora_r': 16, 'lora_alpha': 32, 'lora_dropout': 0.05, 'eval_strategy': 'epoch', 'eval_interval': 1000000, 'need_eval': True, 'eval_split_ratio': None, 'output_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_type': 'wandb', 'log_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_project': 'TOOLS-SFT', 'log_run_name': 'tools-sft-2025-05-08-19-02-47', 'save_16bit': False, 'save_interval': 1000000, 'local_rank': 0, 'zero_stage': 0, 'offload': 'none', 'deepspeed': False, 'deepspeed_config': None, 'deepscale': False, 'deepscale_config': None, 'global_rank': 0, 'device': device(type='cuda', index=0), 'num_update_steps_per_epoch': 118, 'total_training_steps': 354, '_wandb': {}}
+2025-05-08 19:02:48,304 INFO    MainThread:1477147 [wandb_init.py:init():893] starting backend
+2025-05-08 19:02:48,304 INFO    MainThread:1477147 [wandb_init.py:init():897] sending inform_init request
+2025-05-08 19:02:48,306 INFO    MainThread:1477147 [backend.py:_multiprocessing_setup():101] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-05-08 19:02:48,306 INFO    MainThread:1477147 [wandb_init.py:init():907] backend started and connected
+2025-05-08 19:02:48,308 INFO    MainThread:1477147 [wandb_init.py:init():1002] updated telemetry
+2025-05-08 19:02:48,314 INFO    MainThread:1477147 [wandb_init.py:init():1026] communicating run to backend with 90.0 second timeout
+2025-05-08 19:02:48,702 INFO    MainThread:1477147 [wandb_init.py:init():1101] starting run threads in backend
+2025-05-08 19:02:48,765 INFO    MainThread:1477147 [wandb_run.py:_console_start():2566] atexit reg
+2025-05-08 19:02:48,765 INFO    MainThread:1477147 [wandb_run.py:_redirect():2414] redirect: wrap_raw
+2025-05-08 19:02:48,765 INFO    MainThread:1477147 [wandb_run.py:_redirect():2483] Wrapping output streams.
+2025-05-08 19:02:48,765 INFO    MainThread:1477147 [wandb_run.py:_redirect():2506] Redirects installed.
+2025-05-08 19:02:48,766 INFO    MainThread:1477147 [wandb_init.py:init():1147] run started, returning control to user process
+2025-05-08 19:07:28,824 INFO    MainThread:1477147 [wandb_run.py:_finish():2314] finishing run alelab/TOOLS-SFT/2v7dhhsz
+2025-05-08 19:07:28,824 INFO    MainThread:1477147 [wandb_run.py:_atexit_cleanup():2531] got exitcode: 0
+2025-05-08 19:07:28,824 INFO    MainThread:1477147 [wandb_run.py:_restore():2513] restore
+2025-05-08 19:07:28,824 INFO    MainThread:1477147 [wandb_run.py:_restore():2519] restore done
+2025-05-08 19:07:29,825 INFO    MainThread:1477147 [wandb_run.py:_restore():2513] restore
+2025-05-08 19:07:29,825 INFO    MainThread:1477147 [wandb_run.py:_restore():2519] restore done
+2025-05-08 19:07:29,825 ERROR   MainThread:1477147 [wandb_run.py:_atexit_cleanup():2552] Problem finishing run
+Traceback (most recent call last):
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 2543, in _atexit_cleanup
+    self._on_finish()
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/wandb_run.py", line 2799, in _on_finish
+    wait_with_progress(
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/mailbox/wait_with_progress.py", line 24, in wait_with_progress
+    return wait_all_with_progress(
+           ^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/mailbox/wait_with_progress.py", line 87, in wait_all_with_progress
+    return asyncio_compat.run(progress_loop_with_timeout)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/wandb/sdk/lib/asyncio_compat.py", line 27, in run
+    future = executor.submit(runner.run, fn)
+             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/panda/miniconda3/envs/pda/lib/python3.11/concurrent/futures/thread.py", line 169, in submit
+    raise RuntimeError('cannot schedule new futures after '
+RuntimeError: cannot schedule new futures after interpreter shutdown
+2025-05-08 19:07:29,938 INFO    MsgRouterThr:1477147 [mailbox.py:close():129] [no run ID] Closing mailbox, abandoning 2 handles.
diff --git a/wandb/run-20250508_190248-2v7dhhsz/run-2v7dhhsz.wandb b/wandb/run-20250508_190248-2v7dhhsz/run-2v7dhhsz.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..ce1bc2edb68de3562cae81ad92dacb50beaa7147
Binary files /dev/null and b/wandb/run-20250508_190248-2v7dhhsz/run-2v7dhhsz.wandb differ
diff --git a/wandb/run-20250508_192410-bvjuhkx9/files/output.log b/wandb/run-20250508_192410-bvjuhkx9/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..d7a3c4bfe2ab4ebcc6f2729646cce46fcd5ca277
--- /dev/null
+++ b/wandb/run-20250508_192410-bvjuhkx9/files/output.log
@@ -0,0 +1,4 @@
+***** Running training *****
+Training 1/3 epoch (loss 1.2245):   2%|▏         | 277/16950 [07:23<3:07:41,  1.48it/s]  
+
+***** Evaluating at the beginning *****
diff --git a/wandb/run-20250508_192410-bvjuhkx9/files/requirements.txt b/wandb/run-20250508_192410-bvjuhkx9/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..71b302373526f7bd332d0d4bad620c97b4da950d
--- /dev/null
+++ b/wandb/run-20250508_192410-bvjuhkx9/files/requirements.txt
@@ -0,0 +1,137 @@
+PySocks==1.7.1
+pip==25.1.1
+certifi==2025.4.26
+parso==0.8.4
+wcwidth==0.2.13
+nvidia-ml-py==12.535.133
+mkl_fft==1.3.11
+urllib3==2.3.0
+charset-normalizer==3.3.2
+transformers==4.51.3
+smmap==4.0.0
+xxhash==3.5.0
+platformdirs==4.3.8
+tzdata==2025.2
+ipython==9.2.0
+deepspeed==0.16.7
+gmpy2==2.2.1
+pydantic==2.10.3
+tqdm==4.67.1
+pyparsing==3.2.0
+exceptiongroup==1.2.2
+tokenizers==0.21.1
+Markdown==3.8
+matplotlib-inline==0.1.7
+jupyter_core==5.7.2
+pydantic_core==2.27.1
+hjson==3.1.0
+mkl_random==1.2.8
+ipykernel==6.29.5
+sentry-sdk==2.18.0
+wandb==0.19.10
+einops==0.8.1
+prompt_toolkit==3.0.51
+Bottleneck==1.4.2
+msgpack==1.1.0
+fsspec==2024.12.0
+mdurl==0.1.0
+executing==2.2.0
+wheel==0.45.1
+bitsandbytes==0.45.5
+networkx==3.4.2
+comm==0.2.2
+asttokens==3.0.0
+nvitop==1.5.0
+sympy==1.13.1
+MarkupSafe==3.0.2
+numexpr==2.10.1
+tensorboard_data_server==0.7.0
+markdown-it-py==2.2.0
+six==1.17.0
+idna==3.7
+docker-pycreds==0.4.0
+jedi==0.19.2
+GitPython==3.1.43
+pure_eval==0.2.3
+ninja==1.11.1.4
+setuptools==80.1.0
+fonttools==4.55.3
+annotated-types==0.6.0
+psutil==7.0.0
+cycler==0.11.0
+py-cpuinfo==9.0.0
+accelerate==1.6.0
+filelock==3.17.0
+pytz==2024.1
+rich==13.9.4
+appdirs==1.4.4
+click==8.1.8
+Jinja2==3.1.6
+unicodedata2==15.1.0
+pillow==11.1.0
+traitlets==5.14.3
+stack_data==0.6.3
+peft==0.15.2
+python-dateutil==2.9.0.post0
+requests==2.32.3
+Werkzeug==3.1.3
+gitdb==4.0.7
+torch==2.5.1
+scipy==1.15.2
+sentencepiece==0.2.0
+huggingface-hub==0.31.1
+dill==0.3.8
+pexpect==4.9.0
+pickleshare==0.7.5
+ptyprocess==0.7.0
+contourpy==1.3.1
+grpcio==1.71.0
+optree==0.14.1
+safetensors==0.5.3
+mpmath==1.3.0
+nest_asyncio==1.6.0
+pyarrow==19.0.0
+PyYAML==6.0.2
+decorator==5.2.1
+pandas==2.2.3
+tensorboard==2.19.0
+zipp==3.21.0
+regex==2024.11.6
+Brotli==1.0.9
+mkl-service==2.4.0
+matplotlib==3.10.0
+Pygments==2.19.1
+absl-py==2.1.0
+hf-xet==1.1.0
+packaging==25.0
+jupyter_client==8.6.3
+triton==3.1.0
+multiprocess==0.70.15
+debugpy==1.8.14
+numpy==2.0.1
+protobuf==5.29.3
+tornado==6.4.2
+datasets==3.6.0
+eval_type_backport==0.2.2
+typing_extensions==4.12.2
+kiwisolver==1.4.8
+pyzmq==26.4.0
+ipython_pygments_lexers==1.1.1
+setproctitle==1.2.2
+importlib_metadata==8.6.1
+jaraco.text==3.12.1
+backports.tarfile==1.2.0
+importlib_metadata==8.0.0
+jaraco.context==5.3.0
+more-itertools==10.3.0
+wheel==0.45.1
+jaraco.collections==5.1.0
+platformdirs==4.2.2
+autocommand==2.2.2
+zipp==3.19.2
+tomli==2.0.1
+typeguard==4.3.0
+packaging==24.2
+inflect==7.3.1
+typing_extensions==4.12.2
+jaraco.functools==4.0.1
diff --git a/wandb/run-20250508_192410-bvjuhkx9/files/wandb-metadata.json b/wandb/run-20250508_192410-bvjuhkx9/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..3a8dee75b4ccf56c453befb0a5fd9814e18b846a
--- /dev/null
+++ b/wandb/run-20250508_192410-bvjuhkx9/files/wandb-metadata.json
@@ -0,0 +1,106 @@
+{
+  "os":  "Linux-5.15.0-138-generic-x86_64-with-glibc2.31",
+  "python":  "CPython 3.11.11",
+  "startedAt":  "2025-05-08T23:24:10.153063Z",
+  "args":  [
+    "--local_rank=0",
+    "--train_datasets",
+    "tools",
+    "--model_name_or_path",
+    "meta-llama/Llama-3.1-8B-Instruct",
+    "--cache_dir",
+    "/home/panda/pda-llm/cache/sft-tools",
+    "--important_sft",
+    "false",
+    "--max_length",
+    "4096",
+    "--trust_remote_code",
+    "True",
+    "--epochs",
+    "3",
+    "--per_device_train_batch_size",
+    "1",
+    "--per_device_eval_batch_size",
+    "1",
+    "--gradient_accumulation_steps",
+    "24",
+    "--gradient_checkpointing",
+    "--learning_rate",
+    "1e-4",
+    "--lr_scheduler_type",
+    "cosine",
+    "--lr_warmup_ratio",
+    "0.1",
+    "--weight_decay",
+    "0.0",
+    "--seed",
+    "42",
+    "--output_dir",
+    "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+    "--log_type",
+    "wandb",
+    "--log_project",
+    "TOOLS-SFT",
+    "--zero_stage",
+    "0",
+    "--offload",
+    "none",
+    "--safety_ratio_tol",
+    "10",
+    "--resilient_coeff",
+    "1",
+    "--lora_r",
+    "16",
+    "--lora_alpha",
+    "32",
+    "--lora_dropout",
+    "0.05",
+    "--bf16",
+    "True",
+    "--fp16",
+    "False",
+    "--tf32",
+    "False"
+  ],
+  "program":  "-m safe_rlhf.algorithms.tools_ft.__main__",
+  "git":  {
+    "remote":  "git@github.com:IgnacioBoero/pda-llm.git",
+    "commit":  "3e25c5a329b7cfcf30b4af51d00c42fd38478aba"
+  },
+  "email":  "iboero@upenn.edu",
+  "root":  "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+  "host":  "plaza",
+  "executable":  "/home/panda/miniconda3/envs/pda/bin/python",
+  "cpu_count":  24,
+  "cpu_count_logical":  48,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  2,
+  "disk":  {
+    "/":  {
+      "total":  "982820896768",
+      "used":  "888972967936"
+    }
+  },
+  "memory":  {
+    "total":  "270090010624"
+  },
+  "cpu":  {
+    "count":  24,
+    "countLogical":  48
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "12.4"
+}
\ No newline at end of file
diff --git a/wandb/run-20250508_192410-bvjuhkx9/logs/debug-core.log b/wandb/run-20250508_192410-bvjuhkx9/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..6cc1d182b3754a78a9904972ba7941acf676820b
--- /dev/null
+++ b/wandb/run-20250508_192410-bvjuhkx9/logs/debug-core.log
@@ -0,0 +1,7 @@
+{"time":"2025-05-08T19:24:09.82237144-04:00","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmpm7ixav89/port-1493943.txt","pid":1493943,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false}
+{"time":"2025-05-08T19:24:09.828178485-04:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":42089,"Zone":""}}
+{"time":"2025-05-08T19:24:09.828213636-04:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":1493943}
+{"time":"2025-05-08T19:24:10.006299553-04:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:33400"}
+{"time":"2025-05-08T19:24:10.156512128-04:00","level":"INFO","msg":"handleInformInit: received","streamId":"bvjuhkx9","id":"127.0.0.1:33400"}
+{"time":"2025-05-08T19:24:10.359218782-04:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"bvjuhkx9","id":"127.0.0.1:33400"}
+{"time":"2025-05-08T19:31:37.213002082-04:00","level":"INFO","msg":"received shutdown signal","signal":15}
diff --git a/wandb/run-20250508_192410-bvjuhkx9/logs/debug-internal.log b/wandb/run-20250508_192410-bvjuhkx9/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..00ba703bc805d41ca409c07cf6cae5e19295e318
--- /dev/null
+++ b/wandb/run-20250508_192410-bvjuhkx9/logs/debug-internal.log
@@ -0,0 +1,9 @@
+{"time":"2025-05-08T19:24:10.156798224-04:00","level":"INFO","msg":"stream: starting","core version":"0.19.10","symlink path":"/home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_192410-bvjuhkx9/logs/debug-core.log"}
+{"time":"2025-05-08T19:24:10.359168401-04:00","level":"INFO","msg":"created new stream","id":"bvjuhkx9"}
+{"time":"2025-05-08T19:24:10.359210061-04:00","level":"INFO","msg":"stream: started","id":"bvjuhkx9"}
+{"time":"2025-05-08T19:24:10.359221702-04:00","level":"INFO","msg":"writer: Do: started","stream_id":"bvjuhkx9"}
+{"time":"2025-05-08T19:24:10.359274803-04:00","level":"INFO","msg":"sender: started","stream_id":"bvjuhkx9"}
+{"time":"2025-05-08T19:24:10.359247342-04:00","level":"INFO","msg":"handler: started","stream_id":"bvjuhkx9"}
+{"time":"2025-05-08T19:24:10.503713274-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-05-08T19:24:10.503761015-04:00","level":"WARN","msg":"handleCodeSave: program relative path is empty"}
+{"time":"2025-05-08T19:24:10.503813646-04:00","level":"ERROR","msg":"git repo not found","error":"repository does not exist"}
diff --git a/wandb/run-20250508_192410-bvjuhkx9/logs/debug.log b/wandb/run-20250508_192410-bvjuhkx9/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..306193443d9ea3abeaf1050688a561ec6101bb2c
--- /dev/null
+++ b/wandb/run-20250508_192410-bvjuhkx9/logs/debug.log
@@ -0,0 +1,22 @@
+2025-05-08 19:24:10,150 INFO    MainThread:1493943 [wandb_setup.py:_flush():68] Current SDK version is 0.19.10
+2025-05-08 19:24:10,150 INFO    MainThread:1493943 [wandb_setup.py:_flush():68] Configure stats pid to 1493943
+2025-05-08 19:24:10,150 INFO    MainThread:1493943 [wandb_setup.py:_flush():68] Loading settings from /home/panda/.config/wandb/settings
+2025-05-08 19:24:10,150 INFO    MainThread:1493943 [wandb_setup.py:_flush():68] Loading settings from /home/panda/pda-llm/scripts/wandb/settings
+2025-05-08 19:24:10,150 INFO    MainThread:1493943 [wandb_setup.py:_flush():68] Loading settings from environment variables
+2025-05-08 19:24:10,150 INFO    MainThread:1493943 [wandb_init.py:setup_run_log_directory():724] Logging user logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_192410-bvjuhkx9/logs/debug.log
+2025-05-08 19:24:10,150 INFO    MainThread:1493943 [wandb_init.py:setup_run_log_directory():725] Logging internal logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_192410-bvjuhkx9/logs/debug-internal.log
+2025-05-08 19:24:10,150 INFO    MainThread:1493943 [wandb_init.py:init():852] calling init triggers
+2025-05-08 19:24:10,150 INFO    MainThread:1493943 [wandb_init.py:init():857] wandb.init called with sweep_config: {}
+config: {'model_name_or_path': 'meta-llama/Llama-3.1-8B-Instruct', 'recompute_baseline': False, 'cache_dir': '/home/panda/pda-llm/cache/sft-tools', 'max_length': 4096, 'trust_remote_code': True, 'train_datasets': [('tools', {'proportion': 1.0})], 'eval_datasets': None, 'safety_ratio_tol': 10.0, 'important_sft': False, 'resilient_coeff': 1.0, 'epochs': 3, 'per_device_train_batch_size': 1, 'per_device_eval_batch_size': 1, 'gradient_accumulation_steps': 24, 'gradient_checkpointing': True, 'lr': 0.0001, 'lr_scheduler_type': <SchedulerType.COSINE: 'cosine'>, 'lr_warmup_ratio': 0.1, 'weight_decay': 0.0, 'seed': 42, 'fp16': False, 'bf16': True, 'tf32': False, 'lora_r': 16, 'lora_alpha': 32, 'lora_dropout': 0.05, 'eval_strategy': 'epoch', 'eval_interval': 1000000, 'need_eval': True, 'eval_split_ratio': None, 'output_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_type': 'wandb', 'log_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_project': 'TOOLS-SFT', 'log_run_name': 'tools-sft-2025-05-08-19-24-09', 'save_16bit': False, 'save_interval': 1000000, 'local_rank': 0, 'zero_stage': 0, 'offload': 'none', 'deepspeed': False, 'deepspeed_config': None, 'deepscale': False, 'deepscale_config': None, 'global_rank': 0, 'device': device(type='cuda', index=0), 'num_update_steps_per_epoch': 236, 'total_training_steps': 708, '_wandb': {}}
+2025-05-08 19:24:10,150 INFO    MainThread:1493943 [wandb_init.py:init():893] starting backend
+2025-05-08 19:24:10,150 INFO    MainThread:1493943 [wandb_init.py:init():897] sending inform_init request
+2025-05-08 19:24:10,152 INFO    MainThread:1493943 [backend.py:_multiprocessing_setup():101] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-05-08 19:24:10,152 INFO    MainThread:1493943 [wandb_init.py:init():907] backend started and connected
+2025-05-08 19:24:10,154 INFO    MainThread:1493943 [wandb_init.py:init():1002] updated telemetry
+2025-05-08 19:24:10,160 INFO    MainThread:1493943 [wandb_init.py:init():1026] communicating run to backend with 90.0 second timeout
+2025-05-08 19:24:10,501 INFO    MainThread:1493943 [wandb_init.py:init():1101] starting run threads in backend
+2025-05-08 19:24:10,567 INFO    MainThread:1493943 [wandb_run.py:_console_start():2566] atexit reg
+2025-05-08 19:24:10,568 INFO    MainThread:1493943 [wandb_run.py:_redirect():2414] redirect: wrap_raw
+2025-05-08 19:24:10,568 INFO    MainThread:1493943 [wandb_run.py:_redirect():2483] Wrapping output streams.
+2025-05-08 19:24:10,568 INFO    MainThread:1493943 [wandb_run.py:_redirect():2506] Redirects installed.
+2025-05-08 19:24:10,569 INFO    MainThread:1493943 [wandb_init.py:init():1147] run started, returning control to user process
diff --git a/wandb/run-20250508_192410-bvjuhkx9/run-bvjuhkx9.wandb b/wandb/run-20250508_192410-bvjuhkx9/run-bvjuhkx9.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..482226ea15d9aa4febffbb60e928e33bd152f61e
--- /dev/null
+++ b/wandb/run-20250508_192410-bvjuhkx9/run-bvjuhkx9.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5d93fab7ce997c8c7c3003593d553cca8a51958f86a1dc2741b6d2033a70d328
+size 229376
diff --git a/wandb/run-20250508_195305-eg5dmumm/files/output.log b/wandb/run-20250508_195305-eg5dmumm/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..6c859fbd815f2298f4775a87cfa97dfc135033b1
--- /dev/null
+++ b/wandb/run-20250508_195305-eg5dmumm/files/output.log
@@ -0,0 +1,2 @@
+***** Running training *****
+Training 1/3 epoch (loss 1.2252):   2%|▏         | 277/16950 [02:50<3:15:41,  1.42it/s]
diff --git a/wandb/run-20250508_195305-eg5dmumm/files/requirements.txt b/wandb/run-20250508_195305-eg5dmumm/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..71b302373526f7bd332d0d4bad620c97b4da950d
--- /dev/null
+++ b/wandb/run-20250508_195305-eg5dmumm/files/requirements.txt
@@ -0,0 +1,137 @@
+PySocks==1.7.1
+pip==25.1.1
+certifi==2025.4.26
+parso==0.8.4
+wcwidth==0.2.13
+nvidia-ml-py==12.535.133
+mkl_fft==1.3.11
+urllib3==2.3.0
+charset-normalizer==3.3.2
+transformers==4.51.3
+smmap==4.0.0
+xxhash==3.5.0
+platformdirs==4.3.8
+tzdata==2025.2
+ipython==9.2.0
+deepspeed==0.16.7
+gmpy2==2.2.1
+pydantic==2.10.3
+tqdm==4.67.1
+pyparsing==3.2.0
+exceptiongroup==1.2.2
+tokenizers==0.21.1
+Markdown==3.8
+matplotlib-inline==0.1.7
+jupyter_core==5.7.2
+pydantic_core==2.27.1
+hjson==3.1.0
+mkl_random==1.2.8
+ipykernel==6.29.5
+sentry-sdk==2.18.0
+wandb==0.19.10
+einops==0.8.1
+prompt_toolkit==3.0.51
+Bottleneck==1.4.2
+msgpack==1.1.0
+fsspec==2024.12.0
+mdurl==0.1.0
+executing==2.2.0
+wheel==0.45.1
+bitsandbytes==0.45.5
+networkx==3.4.2
+comm==0.2.2
+asttokens==3.0.0
+nvitop==1.5.0
+sympy==1.13.1
+MarkupSafe==3.0.2
+numexpr==2.10.1
+tensorboard_data_server==0.7.0
+markdown-it-py==2.2.0
+six==1.17.0
+idna==3.7
+docker-pycreds==0.4.0
+jedi==0.19.2
+GitPython==3.1.43
+pure_eval==0.2.3
+ninja==1.11.1.4
+setuptools==80.1.0
+fonttools==4.55.3
+annotated-types==0.6.0
+psutil==7.0.0
+cycler==0.11.0
+py-cpuinfo==9.0.0
+accelerate==1.6.0
+filelock==3.17.0
+pytz==2024.1
+rich==13.9.4
+appdirs==1.4.4
+click==8.1.8
+Jinja2==3.1.6
+unicodedata2==15.1.0
+pillow==11.1.0
+traitlets==5.14.3
+stack_data==0.6.3
+peft==0.15.2
+python-dateutil==2.9.0.post0
+requests==2.32.3
+Werkzeug==3.1.3
+gitdb==4.0.7
+torch==2.5.1
+scipy==1.15.2
+sentencepiece==0.2.0
+huggingface-hub==0.31.1
+dill==0.3.8
+pexpect==4.9.0
+pickleshare==0.7.5
+ptyprocess==0.7.0
+contourpy==1.3.1
+grpcio==1.71.0
+optree==0.14.1
+safetensors==0.5.3
+mpmath==1.3.0
+nest_asyncio==1.6.0
+pyarrow==19.0.0
+PyYAML==6.0.2
+decorator==5.2.1
+pandas==2.2.3
+tensorboard==2.19.0
+zipp==3.21.0
+regex==2024.11.6
+Brotli==1.0.9
+mkl-service==2.4.0
+matplotlib==3.10.0
+Pygments==2.19.1
+absl-py==2.1.0
+hf-xet==1.1.0
+packaging==25.0
+jupyter_client==8.6.3
+triton==3.1.0
+multiprocess==0.70.15
+debugpy==1.8.14
+numpy==2.0.1
+protobuf==5.29.3
+tornado==6.4.2
+datasets==3.6.0
+eval_type_backport==0.2.2
+typing_extensions==4.12.2
+kiwisolver==1.4.8
+pyzmq==26.4.0
+ipython_pygments_lexers==1.1.1
+setproctitle==1.2.2
+importlib_metadata==8.6.1
+jaraco.text==3.12.1
+backports.tarfile==1.2.0
+importlib_metadata==8.0.0
+jaraco.context==5.3.0
+more-itertools==10.3.0
+wheel==0.45.1
+jaraco.collections==5.1.0
+platformdirs==4.2.2
+autocommand==2.2.2
+zipp==3.19.2
+tomli==2.0.1
+typeguard==4.3.0
+packaging==24.2
+inflect==7.3.1
+typing_extensions==4.12.2
+jaraco.functools==4.0.1
diff --git a/wandb/run-20250508_195305-eg5dmumm/files/wandb-metadata.json b/wandb/run-20250508_195305-eg5dmumm/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..4ff7d6d19bd64ca0cd605038f33232f3413125fa
--- /dev/null
+++ b/wandb/run-20250508_195305-eg5dmumm/files/wandb-metadata.json
@@ -0,0 +1,106 @@
+{
+  "os":  "Linux-5.15.0-138-generic-x86_64-with-glibc2.31",
+  "python":  "CPython 3.11.11",
+  "startedAt":  "2025-05-08T23:53:05.519065Z",
+  "args":  [
+    "--local_rank=0",
+    "--train_datasets",
+    "tools",
+    "--model_name_or_path",
+    "meta-llama/Llama-3.1-8B-Instruct",
+    "--cache_dir",
+    "/home/panda/pda-llm/cache/sft-tools",
+    "--important_sft",
+    "false",
+    "--max_length",
+    "4096",
+    "--trust_remote_code",
+    "True",
+    "--epochs",
+    "3",
+    "--per_device_train_batch_size",
+    "1",
+    "--per_device_eval_batch_size",
+    "1",
+    "--gradient_accumulation_steps",
+    "24",
+    "--gradient_checkpointing",
+    "--learning_rate",
+    "1e-4",
+    "--lr_scheduler_type",
+    "cosine",
+    "--lr_warmup_ratio",
+    "0.1",
+    "--weight_decay",
+    "0.0",
+    "--seed",
+    "42",
+    "--output_dir",
+    "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+    "--log_type",
+    "wandb",
+    "--log_project",
+    "TOOLS-SFT",
+    "--zero_stage",
+    "0",
+    "--offload",
+    "none",
+    "--safety_ratio_tol",
+    "10",
+    "--resilient_coeff",
+    "1",
+    "--lora_r",
+    "16",
+    "--lora_alpha",
+    "32",
+    "--lora_dropout",
+    "0.05",
+    "--bf16",
+    "True",
+    "--fp16",
+    "False",
+    "--tf32",
+    "False"
+  ],
+  "program":  "-m safe_rlhf.algorithms.tools_ft.__main__",
+  "git":  {
+    "remote":  "git@github.com:IgnacioBoero/pda-llm.git",
+    "commit":  "3e25c5a329b7cfcf30b4af51d00c42fd38478aba"
+  },
+  "email":  "iboero@upenn.edu",
+  "root":  "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+  "host":  "plaza",
+  "executable":  "/home/panda/miniconda3/envs/pda/bin/python",
+  "cpu_count":  24,
+  "cpu_count_logical":  48,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  2,
+  "disk":  {
+    "/":  {
+      "total":  "982820896768",
+      "used":  "888974594048"
+    }
+  },
+  "memory":  {
+    "total":  "270090010624"
+  },
+  "cpu":  {
+    "count":  24,
+    "countLogical":  48
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "12.4"
+}
\ No newline at end of file
diff --git a/wandb/run-20250508_195305-eg5dmumm/logs/debug-core.log b/wandb/run-20250508_195305-eg5dmumm/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..30f175db739be1452e13480015db12fa7e07255c
--- /dev/null
+++ b/wandb/run-20250508_195305-eg5dmumm/logs/debug-core.log
@@ -0,0 +1,7 @@
+{"time":"2025-05-08T19:53:05.178546582-04:00","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmpzz5ecly8/port-1513282.txt","pid":1513282,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false}
+{"time":"2025-05-08T19:53:05.184358662-04:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":1513282}
+{"time":"2025-05-08T19:53:05.184343092-04:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":37623,"Zone":""}}
+{"time":"2025-05-08T19:53:05.364749873-04:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:42854"}
+{"time":"2025-05-08T19:53:05.521830994-04:00","level":"INFO","msg":"handleInformInit: received","streamId":"eg5dmumm","id":"127.0.0.1:42854"}
+{"time":"2025-05-08T19:53:05.715689443-04:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"eg5dmumm","id":"127.0.0.1:42854"}
+{"time":"2025-05-08T19:56:00.128045328-04:00","level":"INFO","msg":"received shutdown signal","signal":15}
diff --git a/wandb/run-20250508_195305-eg5dmumm/logs/debug-internal.log b/wandb/run-20250508_195305-eg5dmumm/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..6f1c10a90db27ade4f608e5916d1dfa4b5a7e0c1
--- /dev/null
+++ b/wandb/run-20250508_195305-eg5dmumm/logs/debug-internal.log
@@ -0,0 +1,9 @@
+{"time":"2025-05-08T19:53:05.522072549-04:00","level":"INFO","msg":"stream: starting","core version":"0.19.10","symlink path":"/home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_195305-eg5dmumm/logs/debug-core.log"}
+{"time":"2025-05-08T19:53:05.715632182-04:00","level":"INFO","msg":"created new stream","id":"eg5dmumm"}
+{"time":"2025-05-08T19:53:05.715680643-04:00","level":"INFO","msg":"stream: started","id":"eg5dmumm"}
+{"time":"2025-05-08T19:53:05.715707744-04:00","level":"INFO","msg":"handler: started","stream_id":"eg5dmumm"}
+{"time":"2025-05-08T19:53:05.715714574-04:00","level":"INFO","msg":"writer: Do: started","stream_id":"eg5dmumm"}
+{"time":"2025-05-08T19:53:05.715744524-04:00","level":"INFO","msg":"sender: started","stream_id":"eg5dmumm"}
+{"time":"2025-05-08T19:53:05.882615356-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-05-08T19:53:05.882643227-04:00","level":"WARN","msg":"handleCodeSave: program relative path is empty"}
+{"time":"2025-05-08T19:53:05.882703378-04:00","level":"ERROR","msg":"git repo not found","error":"repository does not exist"}
diff --git a/wandb/run-20250508_195305-eg5dmumm/logs/debug.log b/wandb/run-20250508_195305-eg5dmumm/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..4432340e5bf6fbad0bbaddfcb8b1097530d0b77f
--- /dev/null
+++ b/wandb/run-20250508_195305-eg5dmumm/logs/debug.log
@@ -0,0 +1,22 @@
+2025-05-08 19:53:05,516 INFO    MainThread:1513282 [wandb_setup.py:_flush():68] Current SDK version is 0.19.10
+2025-05-08 19:53:05,516 INFO    MainThread:1513282 [wandb_setup.py:_flush():68] Configure stats pid to 1513282
+2025-05-08 19:53:05,516 INFO    MainThread:1513282 [wandb_setup.py:_flush():68] Loading settings from /home/panda/.config/wandb/settings
+2025-05-08 19:53:05,516 INFO    MainThread:1513282 [wandb_setup.py:_flush():68] Loading settings from /home/panda/pda-llm/scripts/wandb/settings
+2025-05-08 19:53:05,516 INFO    MainThread:1513282 [wandb_setup.py:_flush():68] Loading settings from environment variables
+2025-05-08 19:53:05,516 INFO    MainThread:1513282 [wandb_init.py:setup_run_log_directory():724] Logging user logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_195305-eg5dmumm/logs/debug.log
+2025-05-08 19:53:05,516 INFO    MainThread:1513282 [wandb_init.py:setup_run_log_directory():725] Logging internal logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_195305-eg5dmumm/logs/debug-internal.log
+2025-05-08 19:53:05,516 INFO    MainThread:1513282 [wandb_init.py:init():852] calling init triggers
+2025-05-08 19:53:05,516 INFO    MainThread:1513282 [wandb_init.py:init():857] wandb.init called with sweep_config: {}
+config: {'model_name_or_path': 'meta-llama/Llama-3.1-8B-Instruct', 'recompute_baseline': False, 'cache_dir': '/home/panda/pda-llm/cache/sft-tools', 'max_length': 4096, 'trust_remote_code': True, 'train_datasets': [('tools', {'proportion': 1.0})], 'eval_datasets': None, 'safety_ratio_tol': 10.0, 'important_sft': False, 'resilient_coeff': 1.0, 'epochs': 3, 'per_device_train_batch_size': 1, 'per_device_eval_batch_size': 1, 'gradient_accumulation_steps': 24, 'gradient_checkpointing': True, 'lr': 0.0001, 'lr_scheduler_type': <SchedulerType.COSINE: 'cosine'>, 'lr_warmup_ratio': 0.1, 'weight_decay': 0.0, 'seed': 42, 'fp16': False, 'bf16': True, 'tf32': False, 'lora_r': 16, 'lora_alpha': 32, 'lora_dropout': 0.05, 'eval_strategy': 'epoch', 'eval_interval': 1000000, 'need_eval': False, 'eval_split_ratio': None, 'output_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_type': 'wandb', 'log_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_project': 'TOOLS-SFT', 'log_run_name': 'tools-sft-2025-05-08-19-53-05', 'save_16bit': False, 'save_interval': 1000000, 'local_rank': 0, 'zero_stage': 0, 'offload': 'none', 'deepspeed': False, 'deepspeed_config': None, 'deepscale': False, 'deepscale_config': None, 'global_rank': 0, 'device': device(type='cuda', index=0), 'num_update_steps_per_epoch': 236, 'total_training_steps': 708, '_wandb': {}}
+2025-05-08 19:53:05,516 INFO    MainThread:1513282 [wandb_init.py:init():893] starting backend
+2025-05-08 19:53:05,516 INFO    MainThread:1513282 [wandb_init.py:init():897] sending inform_init request
+2025-05-08 19:53:05,518 INFO    MainThread:1513282 [backend.py:_multiprocessing_setup():101] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-05-08 19:53:05,518 INFO    MainThread:1513282 [wandb_init.py:init():907] backend started and connected
+2025-05-08 19:53:05,521 INFO    MainThread:1513282 [wandb_init.py:init():1002] updated telemetry
+2025-05-08 19:53:05,527 INFO    MainThread:1513282 [wandb_init.py:init():1026] communicating run to backend with 90.0 second timeout
+2025-05-08 19:53:05,880 INFO    MainThread:1513282 [wandb_init.py:init():1101] starting run threads in backend
+2025-05-08 19:53:05,945 INFO    MainThread:1513282 [wandb_run.py:_console_start():2566] atexit reg
+2025-05-08 19:53:05,945 INFO    MainThread:1513282 [wandb_run.py:_redirect():2414] redirect: wrap_raw
+2025-05-08 19:53:05,945 INFO    MainThread:1513282 [wandb_run.py:_redirect():2483] Wrapping output streams.
+2025-05-08 19:53:05,945 INFO    MainThread:1513282 [wandb_run.py:_redirect():2506] Redirects installed.
+2025-05-08 19:53:05,946 INFO    MainThread:1513282 [wandb_init.py:init():1147] run started, returning control to user process
diff --git a/wandb/run-20250508_195305-eg5dmumm/run-eg5dmumm.wandb b/wandb/run-20250508_195305-eg5dmumm/run-eg5dmumm.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..d5f1722a10063a776f1e635ea56b5ccae2297149
--- /dev/null
+++ b/wandb/run-20250508_195305-eg5dmumm/run-eg5dmumm.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:77775e6c57a7d09999c20c0b9ecb06d6e6d8c179a239b81fee8fb2b0a589476b
+size 229376
diff --git a/wandb/run-20250508_200345-11tfsh2x/files/output.log b/wandb/run-20250508_200345-11tfsh2x/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..96fc640765a28284b44ca00e7ed0cb0d98691b73
--- /dev/null
+++ b/wandb/run-20250508_200345-11tfsh2x/files/output.log
@@ -0,0 +1,2 @@
+***** Running training *****
+Training 1/3 epoch (loss 0.1382):   2%|▏         | 322/16950 [03:15<2:55:07,  1.58it/s]
diff --git a/wandb/run-20250508_200345-11tfsh2x/files/requirements.txt b/wandb/run-20250508_200345-11tfsh2x/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..71b302373526f7bd332d0d4bad620c97b4da950d
--- /dev/null
+++ b/wandb/run-20250508_200345-11tfsh2x/files/requirements.txt
@@ -0,0 +1,137 @@
+PySocks==1.7.1
+pip==25.1.1
+certifi==2025.4.26
+parso==0.8.4
+wcwidth==0.2.13
+nvidia-ml-py==12.535.133
+mkl_fft==1.3.11
+urllib3==2.3.0
+charset-normalizer==3.3.2
+transformers==4.51.3
+smmap==4.0.0
+xxhash==3.5.0
+platformdirs==4.3.8
+tzdata==2025.2
+ipython==9.2.0
+deepspeed==0.16.7
+gmpy2==2.2.1
+pydantic==2.10.3
+tqdm==4.67.1
+pyparsing==3.2.0
+exceptiongroup==1.2.2
+tokenizers==0.21.1
+Markdown==3.8
+matplotlib-inline==0.1.7
+jupyter_core==5.7.2
+pydantic_core==2.27.1
+hjson==3.1.0
+mkl_random==1.2.8
+ipykernel==6.29.5
+sentry-sdk==2.18.0
+wandb==0.19.10
+einops==0.8.1
+prompt_toolkit==3.0.51
+Bottleneck==1.4.2
+msgpack==1.1.0
+fsspec==2024.12.0
+mdurl==0.1.0
+executing==2.2.0
+wheel==0.45.1
+bitsandbytes==0.45.5
+networkx==3.4.2
+comm==0.2.2
+asttokens==3.0.0
+nvitop==1.5.0
+sympy==1.13.1
+MarkupSafe==3.0.2
+numexpr==2.10.1
+tensorboard_data_server==0.7.0
+markdown-it-py==2.2.0
+six==1.17.0
+idna==3.7
+docker-pycreds==0.4.0
+jedi==0.19.2
+GitPython==3.1.43
+pure_eval==0.2.3
+ninja==1.11.1.4
+setuptools==80.1.0
+fonttools==4.55.3
+annotated-types==0.6.0
+psutil==7.0.0
+cycler==0.11.0
+py-cpuinfo==9.0.0
+accelerate==1.6.0
+filelock==3.17.0
+pytz==2024.1
+rich==13.9.4
+appdirs==1.4.4
+click==8.1.8
+Jinja2==3.1.6
+unicodedata2==15.1.0
+pillow==11.1.0
+traitlets==5.14.3
+stack_data==0.6.3
+peft==0.15.2
+python-dateutil==2.9.0.post0
+requests==2.32.3
+Werkzeug==3.1.3
+gitdb==4.0.7
+torch==2.5.1
+scipy==1.15.2
+sentencepiece==0.2.0
+huggingface-hub==0.31.1
+dill==0.3.8
+pexpect==4.9.0
+pickleshare==0.7.5
+ptyprocess==0.7.0
+contourpy==1.3.1
+grpcio==1.71.0
+optree==0.14.1
+safetensors==0.5.3
+mpmath==1.3.0
+nest_asyncio==1.6.0
+pyarrow==19.0.0
+PyYAML==6.0.2
+decorator==5.2.1
+pandas==2.2.3
+tensorboard==2.19.0
+zipp==3.21.0
+regex==2024.11.6
+Brotli==1.0.9
+mkl-service==2.4.0
+matplotlib==3.10.0
+Pygments==2.19.1
+absl-py==2.1.0
+hf-xet==1.1.0
+packaging==25.0
+jupyter_client==8.6.3
+triton==3.1.0
+multiprocess==0.70.15
+debugpy==1.8.14
+numpy==2.0.1
+protobuf==5.29.3
+tornado==6.4.2
+datasets==3.6.0
+eval_type_backport==0.2.2
+typing_extensions==4.12.2
+kiwisolver==1.4.8
+pyzmq==26.4.0
+ipython_pygments_lexers==1.1.1
+setproctitle==1.2.2
+importlib_metadata==8.6.1
+jaraco.text==3.12.1
+backports.tarfile==1.2.0
+importlib_metadata==8.0.0
+jaraco.context==5.3.0
+more-itertools==10.3.0
+wheel==0.45.1
+jaraco.collections==5.1.0
+platformdirs==4.2.2
+autocommand==2.2.2
+zipp==3.19.2
+tomli==2.0.1
+typeguard==4.3.0
+packaging==24.2
+inflect==7.3.1
+typing_extensions==4.12.2
+jaraco.functools==4.0.1
diff --git a/wandb/run-20250508_200345-11tfsh2x/files/wandb-metadata.json b/wandb/run-20250508_200345-11tfsh2x/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..fd821d3bb4b348ed673a1deb4c20c2e9729fc251
--- /dev/null
+++ b/wandb/run-20250508_200345-11tfsh2x/files/wandb-metadata.json
@@ -0,0 +1,106 @@
+{
+  "os":  "Linux-5.15.0-138-generic-x86_64-with-glibc2.31",
+  "python":  "CPython 3.11.11",
+  "startedAt":  "2025-05-09T00:03:45.425570Z",
+  "args":  [
+    "--local_rank=0",
+    "--train_datasets",
+    "tools",
+    "--model_name_or_path",
+    "meta-llama/Llama-3.1-8B-Instruct",
+    "--cache_dir",
+    "/home/panda/pda-llm/cache/sft-tools",
+    "--important_sft",
+    "false",
+    "--max_length",
+    "2048",
+    "--trust_remote_code",
+    "True",
+    "--epochs",
+    "3",
+    "--per_device_train_batch_size",
+    "1",
+    "--per_device_eval_batch_size",
+    "1",
+    "--gradient_accumulation_steps",
+    "48",
+    "--gradient_checkpointing",
+    "--learning_rate",
+    "1e-4",
+    "--lr_scheduler_type",
+    "cosine",
+    "--lr_warmup_ratio",
+    "0.1",
+    "--weight_decay",
+    "0.0",
+    "--seed",
+    "42",
+    "--output_dir",
+    "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+    "--log_type",
+    "wandb",
+    "--log_project",
+    "TOOLS-SFT",
+    "--zero_stage",
+    "0",
+    "--offload",
+    "none",
+    "--safety_ratio_tol",
+    "10",
+    "--resilient_coeff",
+    "1",
+    "--lora_r",
+    "16",
+    "--lora_alpha",
+    "32",
+    "--lora_dropout",
+    "0.05",
+    "--bf16",
+    "True",
+    "--fp16",
+    "False",
+    "--tf32",
+    "False"
+  ],
+  "program":  "-m safe_rlhf.algorithms.tools_ft.__main__",
+  "git":  {
+    "remote":  "git@github.com:IgnacioBoero/pda-llm.git",
+    "commit":  "3e25c5a329b7cfcf30b4af51d00c42fd38478aba"
+  },
+  "email":  "iboero@upenn.edu",
+  "root":  "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+  "host":  "plaza",
+  "executable":  "/home/panda/miniconda3/envs/pda/bin/python",
+  "cpu_count":  24,
+  "cpu_count_logical":  48,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  2,
+  "disk":  {
+    "/":  {
+      "total":  "982820896768",
+      "used":  "888978477056"
+    }
+  },
+  "memory":  {
+    "total":  "270090010624"
+  },
+  "cpu":  {
+    "count":  24,
+    "countLogical":  48
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "12.4"
+}
\ No newline at end of file
diff --git a/wandb/run-20250508_200345-11tfsh2x/logs/debug-core.log b/wandb/run-20250508_200345-11tfsh2x/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..6d9b6f8f76ae39a7957085934680421fe32ec5fa
--- /dev/null
+++ b/wandb/run-20250508_200345-11tfsh2x/logs/debug-core.log
@@ -0,0 +1,7 @@
+{"time":"2025-05-08T20:03:45.106333664-04:00","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmpm1f2r9ji/port-1521451.txt","pid":1521451,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false}
+{"time":"2025-05-08T20:03:45.112205483-04:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":1521451}
+{"time":"2025-05-08T20:03:45.112199702-04:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":39791,"Zone":""}}
+{"time":"2025-05-08T20:03:45.291091092-04:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:38834"}
+{"time":"2025-05-08T20:03:45.427445086-04:00","level":"INFO","msg":"handleInformInit: received","streamId":"11tfsh2x","id":"127.0.0.1:38834"}
+{"time":"2025-05-08T20:03:45.603023788-04:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"11tfsh2x","id":"127.0.0.1:38834"}
+{"time":"2025-05-08T20:07:01.95135013-04:00","level":"INFO","msg":"received shutdown signal","signal":15}
diff --git a/wandb/run-20250508_200345-11tfsh2x/logs/debug-internal.log b/wandb/run-20250508_200345-11tfsh2x/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..decc0e06bbad4bcdfb9602a53e5d5907597cdd55
--- /dev/null
+++ b/wandb/run-20250508_200345-11tfsh2x/logs/debug-internal.log
@@ -0,0 +1,9 @@
+{"time":"2025-05-08T20:03:45.427702031-04:00","level":"INFO","msg":"stream: starting","core version":"0.19.10","symlink path":"/home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_200345-11tfsh2x/logs/debug-core.log"}
+{"time":"2025-05-08T20:03:45.602972307-04:00","level":"INFO","msg":"created new stream","id":"11tfsh2x"}
+{"time":"2025-05-08T20:03:45.603015138-04:00","level":"INFO","msg":"stream: started","id":"11tfsh2x"}
+{"time":"2025-05-08T20:03:45.603036709-04:00","level":"INFO","msg":"writer: Do: started","stream_id":"11tfsh2x"}
+{"time":"2025-05-08T20:03:45.603052919-04:00","level":"INFO","msg":"handler: started","stream_id":"11tfsh2x"}
+{"time":"2025-05-08T20:03:45.60309844-04:00","level":"INFO","msg":"sender: started","stream_id":"11tfsh2x"}
+{"time":"2025-05-08T20:03:45.789794907-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-05-08T20:03:45.789827868-04:00","level":"WARN","msg":"handleCodeSave: program relative path is empty"}
+{"time":"2025-05-08T20:03:45.789885869-04:00","level":"ERROR","msg":"git repo not found","error":"repository does not exist"}
diff --git a/wandb/run-20250508_200345-11tfsh2x/logs/debug.log b/wandb/run-20250508_200345-11tfsh2x/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..7fa5c3b4d8e9935dcb0c321339b18d101b259dd5
--- /dev/null
+++ b/wandb/run-20250508_200345-11tfsh2x/logs/debug.log
@@ -0,0 +1,22 @@
+2025-05-08 20:03:45,422 INFO    MainThread:1521451 [wandb_setup.py:_flush():68] Current SDK version is 0.19.10
+2025-05-08 20:03:45,423 INFO    MainThread:1521451 [wandb_setup.py:_flush():68] Configure stats pid to 1521451
+2025-05-08 20:03:45,423 INFO    MainThread:1521451 [wandb_setup.py:_flush():68] Loading settings from /home/panda/.config/wandb/settings
+2025-05-08 20:03:45,423 INFO    MainThread:1521451 [wandb_setup.py:_flush():68] Loading settings from /home/panda/pda-llm/scripts/wandb/settings
+2025-05-08 20:03:45,423 INFO    MainThread:1521451 [wandb_setup.py:_flush():68] Loading settings from environment variables
+2025-05-08 20:03:45,423 INFO    MainThread:1521451 [wandb_init.py:setup_run_log_directory():724] Logging user logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_200345-11tfsh2x/logs/debug.log
+2025-05-08 20:03:45,423 INFO    MainThread:1521451 [wandb_init.py:setup_run_log_directory():725] Logging internal logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_200345-11tfsh2x/logs/debug-internal.log
+2025-05-08 20:03:45,423 INFO    MainThread:1521451 [wandb_init.py:init():852] calling init triggers
+2025-05-08 20:03:45,423 INFO    MainThread:1521451 [wandb_init.py:init():857] wandb.init called with sweep_config: {}
+config: {'model_name_or_path': 'meta-llama/Llama-3.1-8B-Instruct', 'recompute_baseline': False, 'cache_dir': '/home/panda/pda-llm/cache/sft-tools', 'max_length': 2048, 'trust_remote_code': True, 'train_datasets': [('tools', {'proportion': 1.0})], 'eval_datasets': None, 'safety_ratio_tol': 10.0, 'important_sft': False, 'resilient_coeff': 1.0, 'epochs': 3, 'per_device_train_batch_size': 1, 'per_device_eval_batch_size': 1, 'gradient_accumulation_steps': 48, 'gradient_checkpointing': True, 'lr': 0.0001, 'lr_scheduler_type': <SchedulerType.COSINE: 'cosine'>, 'lr_warmup_ratio': 0.1, 'weight_decay': 0.0, 'seed': 42, 'fp16': False, 'bf16': True, 'tf32': False, 'lora_r': 16, 'lora_alpha': 32, 'lora_dropout': 0.05, 'eval_strategy': 'epoch', 'eval_interval': 1000000, 'need_eval': False, 'eval_split_ratio': None, 'output_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_type': 'wandb', 'log_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_project': 'TOOLS-SFT', 'log_run_name': 'tools-sft-2025-05-08-20-03-45', 'save_16bit': False, 'save_interval': 1000000, 'local_rank': 0, 'zero_stage': 0, 'offload': 'none', 'deepspeed': False, 'deepspeed_config': None, 'deepscale': False, 'deepscale_config': None, 'global_rank': 0, 'device': device(type='cuda', index=0), 'num_update_steps_per_epoch': 118, 'total_training_steps': 354, '_wandb': {}}
+2025-05-08 20:03:45,423 INFO    MainThread:1521451 [wandb_init.py:init():893] starting backend
+2025-05-08 20:03:45,423 INFO    MainThread:1521451 [wandb_init.py:init():897] sending inform_init request
+2025-05-08 20:03:45,425 INFO    MainThread:1521451 [backend.py:_multiprocessing_setup():101] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-05-08 20:03:45,425 INFO    MainThread:1521451 [wandb_init.py:init():907] backend started and connected
+2025-05-08 20:03:45,427 INFO    MainThread:1521451 [wandb_init.py:init():1002] updated telemetry
+2025-05-08 20:03:45,433 INFO    MainThread:1521451 [wandb_init.py:init():1026] communicating run to backend with 90.0 second timeout
+2025-05-08 20:03:45,787 INFO    MainThread:1521451 [wandb_init.py:init():1101] starting run threads in backend
+2025-05-08 20:03:45,850 INFO    MainThread:1521451 [wandb_run.py:_console_start():2566] atexit reg
+2025-05-08 20:03:45,850 INFO    MainThread:1521451 [wandb_run.py:_redirect():2414] redirect: wrap_raw
+2025-05-08 20:03:45,850 INFO    MainThread:1521451 [wandb_run.py:_redirect():2483] Wrapping output streams.
+2025-05-08 20:03:45,850 INFO    MainThread:1521451 [wandb_run.py:_redirect():2506] Redirects installed.
+2025-05-08 20:03:45,852 INFO    MainThread:1521451 [wandb_init.py:init():1147] run started, returning control to user process
diff --git a/wandb/run-20250508_200345-11tfsh2x/run-11tfsh2x.wandb b/wandb/run-20250508_200345-11tfsh2x/run-11tfsh2x.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..7d9ca2a7c0b99eed16abff8bbb2488ec056d2a6f
--- /dev/null
+++ b/wandb/run-20250508_200345-11tfsh2x/run-11tfsh2x.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:482e4443af9fff6620a3802caaa139af0aecc06f1ce4e56001d93c489d683362
+size 262144
diff --git a/wandb/run-20250508_200812-r9ll1pfp/files/output.log b/wandb/run-20250508_200812-r9ll1pfp/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..4bc3c057626a9080af6800cd6294aaaa5aeb2233
--- /dev/null
+++ b/wandb/run-20250508_200812-r9ll1pfp/files/output.log
@@ -0,0 +1,4 @@
+***** Running training *****
+Training 1/3 epoch (loss 0.6629):  18%|█▊        | 2973/16950 [34:26<2:26:27,  1.59it/s] 
+
+***** Evaluating at the beginning *****
diff --git a/wandb/run-20250508_200812-r9ll1pfp/files/requirements.txt b/wandb/run-20250508_200812-r9ll1pfp/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..71b302373526f7bd332d0d4bad620c97b4da950d
--- /dev/null
+++ b/wandb/run-20250508_200812-r9ll1pfp/files/requirements.txt
@@ -0,0 +1,137 @@
+PySocks==1.7.1
+pip==25.1.1
+certifi==2025.4.26
+parso==0.8.4
+wcwidth==0.2.13
+nvidia-ml-py==12.535.133
+mkl_fft==1.3.11
+urllib3==2.3.0
+charset-normalizer==3.3.2
+transformers==4.51.3
+smmap==4.0.0
+xxhash==3.5.0
+platformdirs==4.3.8
+tzdata==2025.2
+ipython==9.2.0
+deepspeed==0.16.7
+gmpy2==2.2.1
+pydantic==2.10.3
+tqdm==4.67.1
+pyparsing==3.2.0
+exceptiongroup==1.2.2
+tokenizers==0.21.1
+Markdown==3.8
+matplotlib-inline==0.1.7
+jupyter_core==5.7.2
+pydantic_core==2.27.1
+hjson==3.1.0
+mkl_random==1.2.8
+ipykernel==6.29.5
+sentry-sdk==2.18.0
+wandb==0.19.10
+einops==0.8.1
+prompt_toolkit==3.0.51
+Bottleneck==1.4.2
+msgpack==1.1.0
+fsspec==2024.12.0
+mdurl==0.1.0
+executing==2.2.0
+wheel==0.45.1
+bitsandbytes==0.45.5
+networkx==3.4.2
+comm==0.2.2
+asttokens==3.0.0
+nvitop==1.5.0
+sympy==1.13.1
+MarkupSafe==3.0.2
+numexpr==2.10.1
+tensorboard_data_server==0.7.0
+markdown-it-py==2.2.0
+six==1.17.0
+idna==3.7
+docker-pycreds==0.4.0
+jedi==0.19.2
+GitPython==3.1.43
+pure_eval==0.2.3
+ninja==1.11.1.4
+setuptools==80.1.0
+fonttools==4.55.3
+annotated-types==0.6.0
+psutil==7.0.0
+cycler==0.11.0
+py-cpuinfo==9.0.0
+accelerate==1.6.0
+filelock==3.17.0
+pytz==2024.1
+rich==13.9.4
+appdirs==1.4.4
+click==8.1.8
+Jinja2==3.1.6
+unicodedata2==15.1.0
+pillow==11.1.0
+traitlets==5.14.3
+stack_data==0.6.3
+peft==0.15.2
+python-dateutil==2.9.0.post0
+requests==2.32.3
+Werkzeug==3.1.3
+gitdb==4.0.7
+torch==2.5.1
+scipy==1.15.2
+sentencepiece==0.2.0
+huggingface-hub==0.31.1
+dill==0.3.8
+pexpect==4.9.0
+pickleshare==0.7.5
+ptyprocess==0.7.0
+contourpy==1.3.1
+grpcio==1.71.0
+optree==0.14.1
+safetensors==0.5.3
+mpmath==1.3.0
+nest_asyncio==1.6.0
+pyarrow==19.0.0
+PyYAML==6.0.2
+decorator==5.2.1
+pandas==2.2.3
+tensorboard==2.19.0
+zipp==3.21.0
+regex==2024.11.6
+Brotli==1.0.9
+mkl-service==2.4.0
+matplotlib==3.10.0
+Pygments==2.19.1
+absl-py==2.1.0
+hf-xet==1.1.0
+packaging==25.0
+jupyter_client==8.6.3
+triton==3.1.0
+multiprocess==0.70.15
+debugpy==1.8.14
+numpy==2.0.1
+protobuf==5.29.3
+tornado==6.4.2
+datasets==3.6.0
+eval_type_backport==0.2.2
+typing_extensions==4.12.2
+kiwisolver==1.4.8
+pyzmq==26.4.0
+ipython_pygments_lexers==1.1.1
+setproctitle==1.2.2
+importlib_metadata==8.6.1
+jaraco.text==3.12.1
+backports.tarfile==1.2.0
+importlib_metadata==8.0.0
+jaraco.context==5.3.0
+more-itertools==10.3.0
+wheel==0.45.1
+jaraco.collections==5.1.0
+platformdirs==4.2.2
+autocommand==2.2.2
+zipp==3.19.2
+tomli==2.0.1
+typeguard==4.3.0
+packaging==24.2
+inflect==7.3.1
+typing_extensions==4.12.2
+jaraco.functools==4.0.1
diff --git a/wandb/run-20250508_200812-r9ll1pfp/files/wandb-metadata.json b/wandb/run-20250508_200812-r9ll1pfp/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..443e7fa5ab2b9cd5574cadfa3e01824c7528d6f4
--- /dev/null
+++ b/wandb/run-20250508_200812-r9ll1pfp/files/wandb-metadata.json
@@ -0,0 +1,106 @@
+{
+  "os":  "Linux-5.15.0-138-generic-x86_64-with-glibc2.31",
+  "python":  "CPython 3.11.11",
+  "startedAt":  "2025-05-09T00:08:12.242292Z",
+  "args":  [
+    "--local_rank=0",
+    "--train_datasets",
+    "tools",
+    "--model_name_or_path",
+    "meta-llama/Llama-3.1-8B-Instruct",
+    "--cache_dir",
+    "/home/panda/pda-llm/cache/sft-tools",
+    "--important_sft",
+    "false",
+    "--max_length",
+    "2048",
+    "--trust_remote_code",
+    "True",
+    "--epochs",
+    "3",
+    "--per_device_train_batch_size",
+    "1",
+    "--per_device_eval_batch_size",
+    "1",
+    "--gradient_accumulation_steps",
+    "48",
+    "--gradient_checkpointing",
+    "--learning_rate",
+    "1e-4",
+    "--lr_scheduler_type",
+    "cosine",
+    "--lr_warmup_ratio",
+    "0.1",
+    "--weight_decay",
+    "0.0",
+    "--seed",
+    "42",
+    "--output_dir",
+    "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+    "--log_type",
+    "wandb",
+    "--log_project",
+    "TOOLS-SFT",
+    "--zero_stage",
+    "0",
+    "--offload",
+    "none",
+    "--safety_ratio_tol",
+    "10",
+    "--resilient_coeff",
+    "1",
+    "--lora_r",
+    "16",
+    "--lora_alpha",
+    "32",
+    "--lora_dropout",
+    "0.05",
+    "--bf16",
+    "True",
+    "--fp16",
+    "False",
+    "--tf32",
+    "False"
+  ],
+  "program":  "-m safe_rlhf.algorithms.tools_ft.__main__",
+  "git":  {
+    "remote":  "git@github.com:IgnacioBoero/pda-llm.git",
+    "commit":  "3e25c5a329b7cfcf30b4af51d00c42fd38478aba"
+  },
+  "email":  "iboero@upenn.edu",
+  "root":  "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+  "host":  "plaza",
+  "executable":  "/home/panda/miniconda3/envs/pda/bin/python",
+  "cpu_count":  24,
+  "cpu_count_logical":  48,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  2,
+  "disk":  {
+    "/":  {
+      "total":  "982820896768",
+      "used":  "888978935808"
+    }
+  },
+  "memory":  {
+    "total":  "270090010624"
+  },
+  "cpu":  {
+    "count":  24,
+    "countLogical":  48
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "12.4"
+}
\ No newline at end of file
diff --git a/wandb/run-20250508_200812-r9ll1pfp/logs/debug-core.log b/wandb/run-20250508_200812-r9ll1pfp/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..bf5109dd1c6ef62d0d52f7500d9d0a9f46b4ab82
--- /dev/null
+++ b/wandb/run-20250508_200812-r9ll1pfp/logs/debug-core.log
@@ -0,0 +1,7 @@
+{"time":"2025-05-08T20:08:11.923316769-04:00","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmp4qh6mtww/port-1525237.txt","pid":1525237,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false}
+{"time":"2025-05-08T20:08:11.929274359-04:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":1525237}
+{"time":"2025-05-08T20:08:11.929273519-04:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":39583,"Zone":""}}
+{"time":"2025-05-08T20:08:12.107579258-04:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:54756"}
+{"time":"2025-05-08T20:08:12.244322974-04:00","level":"INFO","msg":"handleInformInit: received","streamId":"r9ll1pfp","id":"127.0.0.1:54756"}
+{"time":"2025-05-08T20:08:12.42003295-04:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"r9ll1pfp","id":"127.0.0.1:54756"}
+{"time":"2025-05-08T20:42:39.674287806-04:00","level":"INFO","msg":"received shutdown signal","signal":15}
diff --git a/wandb/run-20250508_200812-r9ll1pfp/logs/debug-internal.log b/wandb/run-20250508_200812-r9ll1pfp/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..4ab7cc27fa4392be05b448ebe41148821c380364
--- /dev/null
+++ b/wandb/run-20250508_200812-r9ll1pfp/logs/debug-internal.log
@@ -0,0 +1,11 @@
+{"time":"2025-05-08T20:08:12.24464186-04:00","level":"INFO","msg":"stream: starting","core version":"0.19.10","symlink path":"/home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_200812-r9ll1pfp/logs/debug-core.log"}
+{"time":"2025-05-08T20:08:12.419977979-04:00","level":"INFO","msg":"created new stream","id":"r9ll1pfp"}
+{"time":"2025-05-08T20:08:12.42002456-04:00","level":"INFO","msg":"stream: started","id":"r9ll1pfp"}
+{"time":"2025-05-08T20:08:12.420050511-04:00","level":"INFO","msg":"handler: started","stream_id":"r9ll1pfp"}
+{"time":"2025-05-08T20:08:12.420061401-04:00","level":"INFO","msg":"writer: Do: started","stream_id":"r9ll1pfp"}
+{"time":"2025-05-08T20:08:12.420107742-04:00","level":"INFO","msg":"sender: started","stream_id":"r9ll1pfp"}
+{"time":"2025-05-08T20:08:12.597153795-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-05-08T20:08:12.597212296-04:00","level":"WARN","msg":"handleCodeSave: program relative path is empty"}
+{"time":"2025-05-08T20:08:12.597274918-04:00","level":"ERROR","msg":"git repo not found","error":"repository does not exist"}
+{"time":"2025-05-08T20:42:39.655861396-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-05-08T20:42:39.655921007-04:00","level":"INFO","msg":"Stopped system monitor"}
diff --git a/wandb/run-20250508_200812-r9ll1pfp/logs/debug.log b/wandb/run-20250508_200812-r9ll1pfp/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..61eb0d4e4a6e142653f9019d82970e2d9ad1a696
--- /dev/null
+++ b/wandb/run-20250508_200812-r9ll1pfp/logs/debug.log
@@ -0,0 +1,26 @@
+2025-05-08 20:08:12,239 INFO    MainThread:1525237 [wandb_setup.py:_flush():68] Current SDK version is 0.19.10
+2025-05-08 20:08:12,239 INFO    MainThread:1525237 [wandb_setup.py:_flush():68] Configure stats pid to 1525237
+2025-05-08 20:08:12,239 INFO    MainThread:1525237 [wandb_setup.py:_flush():68] Loading settings from /home/panda/.config/wandb/settings
+2025-05-08 20:08:12,239 INFO    MainThread:1525237 [wandb_setup.py:_flush():68] Loading settings from /home/panda/pda-llm/scripts/wandb/settings
+2025-05-08 20:08:12,239 INFO    MainThread:1525237 [wandb_setup.py:_flush():68] Loading settings from environment variables
+2025-05-08 20:08:12,239 INFO    MainThread:1525237 [wandb_init.py:setup_run_log_directory():724] Logging user logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_200812-r9ll1pfp/logs/debug.log
+2025-05-08 20:08:12,239 INFO    MainThread:1525237 [wandb_init.py:setup_run_log_directory():725] Logging internal logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_200812-r9ll1pfp/logs/debug-internal.log
+2025-05-08 20:08:12,240 INFO    MainThread:1525237 [wandb_init.py:init():852] calling init triggers
+2025-05-08 20:08:12,240 INFO    MainThread:1525237 [wandb_init.py:init():857] wandb.init called with sweep_config: {}
+config: {'model_name_or_path': 'meta-llama/Llama-3.1-8B-Instruct', 'recompute_baseline': False, 'cache_dir': '/home/panda/pda-llm/cache/sft-tools', 'max_length': 2048, 'trust_remote_code': True, 'train_datasets': [('tools', {'proportion': 1.0})], 'eval_datasets': None, 'safety_ratio_tol': 10.0, 'important_sft': False, 'resilient_coeff': 1.0, 'epochs': 3, 'per_device_train_batch_size': 1, 'per_device_eval_batch_size': 1, 'gradient_accumulation_steps': 48, 'gradient_checkpointing': True, 'lr': 0.0001, 'lr_scheduler_type': <SchedulerType.COSINE: 'cosine'>, 'lr_warmup_ratio': 0.1, 'weight_decay': 0.0, 'seed': 42, 'fp16': False, 'bf16': True, 'tf32': False, 'lora_r': 16, 'lora_alpha': 32, 'lora_dropout': 0.05, 'eval_strategy': 'epoch', 'eval_interval': 1000000, 'need_eval': True, 'eval_split_ratio': None, 'output_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_type': 'wandb', 'log_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_project': 'TOOLS-SFT', 'log_run_name': 'tools-sft-2025-05-08-20-08-11', 'save_16bit': False, 'save_interval': 1000000, 'local_rank': 0, 'zero_stage': 0, 'offload': 'none', 'deepspeed': False, 'deepspeed_config': None, 'deepscale': False, 'deepscale_config': None, 'global_rank': 0, 'device': device(type='cuda', index=0), 'num_update_steps_per_epoch': 118, 'total_training_steps': 354, '_wandb': {}}
+2025-05-08 20:08:12,240 INFO    MainThread:1525237 [wandb_init.py:init():893] starting backend
+2025-05-08 20:08:12,240 INFO    MainThread:1525237 [wandb_init.py:init():897] sending inform_init request
+2025-05-08 20:08:12,242 INFO    MainThread:1525237 [backend.py:_multiprocessing_setup():101] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-05-08 20:08:12,242 INFO    MainThread:1525237 [wandb_init.py:init():907] backend started and connected
+2025-05-08 20:08:12,243 INFO    MainThread:1525237 [wandb_init.py:init():1002] updated telemetry
+2025-05-08 20:08:12,250 INFO    MainThread:1525237 [wandb_init.py:init():1026] communicating run to backend with 90.0 second timeout
+2025-05-08 20:08:12,594 INFO    MainThread:1525237 [wandb_init.py:init():1101] starting run threads in backend
+2025-05-08 20:08:12,659 INFO    MainThread:1525237 [wandb_run.py:_console_start():2566] atexit reg
+2025-05-08 20:08:12,659 INFO    MainThread:1525237 [wandb_run.py:_redirect():2414] redirect: wrap_raw
+2025-05-08 20:08:12,659 INFO    MainThread:1525237 [wandb_run.py:_redirect():2483] Wrapping output streams.
+2025-05-08 20:08:12,659 INFO    MainThread:1525237 [wandb_run.py:_redirect():2506] Redirects installed.
+2025-05-08 20:08:12,661 INFO    MainThread:1525237 [wandb_init.py:init():1147] run started, returning control to user process
+2025-05-08 20:42:39,655 INFO    MainThread:1525237 [wandb_run.py:_finish():2314] finishing run alelab/TOOLS-SFT/r9ll1pfp
+2025-05-08 20:42:39,655 INFO    MainThread:1525237 [wandb_run.py:_atexit_cleanup():2531] got exitcode: 0
+2025-05-08 20:42:39,655 INFO    MainThread:1525237 [wandb_run.py:_restore():2513] restore
+2025-05-08 20:42:39,655 INFO    MainThread:1525237 [wandb_run.py:_restore():2519] restore done
diff --git a/wandb/run-20250508_200812-r9ll1pfp/run-r9ll1pfp.wandb b/wandb/run-20250508_200812-r9ll1pfp/run-r9ll1pfp.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..2bf041431b732664adf2910c5be690461de5cae9
--- /dev/null
+++ b/wandb/run-20250508_200812-r9ll1pfp/run-r9ll1pfp.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f5905e280278c394658f5270c5a695a04c9b91303a4562df73d46ca263f57661
+size 2490368
diff --git a/wandb/run-20250508_212154-is8630ik/files/config.yaml b/wandb/run-20250508_212154-is8630ik/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..566a2bda79248236b1e455a226b22be58dc42b4d
--- /dev/null
+++ b/wandb/run-20250508_212154-is8630ik/files/config.yaml
@@ -0,0 +1,134 @@
+_wandb:
+    value:
+        cli_version: 0.19.10
+        m: []
+        python_version: 3.11.11
+        t:
+            "1":
+                - 1
+                - 11
+                - 49
+                - 51
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 11
+                - 49
+                - 51
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 13
+                - 16
+                - 23
+                - 55
+                - 61
+            "4": 3.11.11
+            "5": 0.19.10
+            "6": 4.51.3
+            "8":
+                - 5
+            "12": 0.19.10
+            "13": linux-x86_64
+bf16:
+    value: true
+cache_dir:
+    value: /home/panda/pda-llm/cache/sft-tools
+deepscale:
+    value: false
+deepscale_config:
+    value: null
+deepspeed:
+    value: false
+deepspeed_config:
+    value: null
+device:
+    value: cuda:0
+epochs:
+    value: 3
+eval_datasets:
+    value: null
+eval_interval:
+    value: 1000000
+eval_split_ratio:
+    value: null
+eval_strategy:
+    value: epoch
+fp16:
+    value: false
+global_rank:
+    value: 0
+gradient_accumulation_steps:
+    value: 48
+gradient_checkpointing:
+    value: true
+important_sft:
+    value: false
+local_rank:
+    value: 0
+log_dir:
+    value: /home/panda/pda-llm/output/sft-tools/run-false-1-10
+log_project:
+    value: TOOLS-SFT
+log_run_name:
+    value: tools-sft-2025-05-08-21-21-54
+log_type:
+    value: wandb
+lora_alpha:
+    value: 32
+lora_dropout:
+    value: 0.05
+lora_r:
+    value: 16
+lr:
+    value: 0.0001
+lr_scheduler_type:
+    value: COSINE
+lr_warmup_ratio:
+    value: 0.1
+max_length:
+    value: 2048
+model_name_or_path:
+    value: meta-llama/Llama-3.1-8B-Instruct
+need_eval:
+    value: true
+num_update_steps_per_epoch:
+    value: 118
+offload:
+    value: none
+output_dir:
+    value: /home/panda/pda-llm/output/sft-tools/run-false-1-10
+per_device_eval_batch_size:
+    value: 1
+per_device_train_batch_size:
+    value: 1
+recompute_baseline:
+    value: false
+resilient_coeff:
+    value: 1
+safety_ratio_tol:
+    value: 10
+save_16bit:
+    value: false
+save_interval:
+    value: 1000000
+seed:
+    value: 42
+tf32:
+    value: false
+total_training_steps:
+    value: 354
+train_datasets:
+    value:
+        - - tools
+          - proportion: 1
+trust_remote_code:
+    value: true
+weight_decay:
+    value: 0
+zero_stage:
+    value: 0
diff --git a/wandb/run-20250508_212154-is8630ik/files/output.log b/wandb/run-20250508_212154-is8630ik/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..373ed12d67671ffe62f212d5f9e083983a8a79dc
--- /dev/null
+++ b/wandb/run-20250508_212154-is8630ik/files/output.log
@@ -0,0 +1,15 @@
+***** Running training *****
+Training 3/3 epoch (loss 0.0331): 100%|██████████| 16950/16950 [3:06:43<00:00,  1.51it/s]    
+
+***** Evaluating at the beginning *****
+
+***** Evaluating at epoch 1/3 *****
+
+***** Evaluating at epoch 2/3 *****
+
+***** Evaluating at epoch 3/3 *****
+Saving model to "/home/panda/pda-llm/output/sft-tools/run-false-1-10" ...
+Saving Hugging Face Checkpoints...
+/home/panda/miniconda3/envs/pda/lib/python3.11/site-packages/peft/utils/save_and_load.py:220: UserWarning: Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`.
+  warnings.warn("Setting `save_embedding_layers` to `True` as embedding layers found in `target_modules`.")
+Model saved!
diff --git a/wandb/run-20250508_212154-is8630ik/files/requirements.txt b/wandb/run-20250508_212154-is8630ik/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..71b302373526f7bd332d0d4bad620c97b4da950d
--- /dev/null
+++ b/wandb/run-20250508_212154-is8630ik/files/requirements.txt
@@ -0,0 +1,137 @@
+PySocks==1.7.1
+pip==25.1.1
+certifi==2025.4.26
+parso==0.8.4
+wcwidth==0.2.13
+nvidia-ml-py==12.535.133
+mkl_fft==1.3.11
+urllib3==2.3.0
+charset-normalizer==3.3.2
+transformers==4.51.3
+smmap==4.0.0
+xxhash==3.5.0
+platformdirs==4.3.8
+tzdata==2025.2
+ipython==9.2.0
+deepspeed==0.16.7
+gmpy2==2.2.1
+pydantic==2.10.3
+tqdm==4.67.1
+pyparsing==3.2.0
+exceptiongroup==1.2.2
+tokenizers==0.21.1
+Markdown==3.8
+matplotlib-inline==0.1.7
+jupyter_core==5.7.2
+pydantic_core==2.27.1
+hjson==3.1.0
+mkl_random==1.2.8
+ipykernel==6.29.5
+sentry-sdk==2.18.0
+wandb==0.19.10
+einops==0.8.1
+prompt_toolkit==3.0.51
+Bottleneck==1.4.2
+msgpack==1.1.0
+fsspec==2024.12.0
+mdurl==0.1.0
+executing==2.2.0
+wheel==0.45.1
+bitsandbytes==0.45.5
+networkx==3.4.2
+comm==0.2.2
+asttokens==3.0.0
+nvitop==1.5.0
+sympy==1.13.1
+MarkupSafe==3.0.2
+numexpr==2.10.1
+tensorboard_data_server==0.7.0
+markdown-it-py==2.2.0
+six==1.17.0
+idna==3.7
+docker-pycreds==0.4.0
+jedi==0.19.2
+GitPython==3.1.43
+pure_eval==0.2.3
+ninja==1.11.1.4
+setuptools==80.1.0
+fonttools==4.55.3
+annotated-types==0.6.0
+psutil==7.0.0
+cycler==0.11.0
+py-cpuinfo==9.0.0
+accelerate==1.6.0
+filelock==3.17.0
+pytz==2024.1
+rich==13.9.4
+appdirs==1.4.4
+click==8.1.8
+Jinja2==3.1.6
+unicodedata2==15.1.0
+pillow==11.1.0
+traitlets==5.14.3
+stack_data==0.6.3
+peft==0.15.2
+python-dateutil==2.9.0.post0
+requests==2.32.3
+Werkzeug==3.1.3
+gitdb==4.0.7
+torch==2.5.1
+scipy==1.15.2
+sentencepiece==0.2.0
+huggingface-hub==0.31.1
+dill==0.3.8
+pexpect==4.9.0
+pickleshare==0.7.5
+ptyprocess==0.7.0
+contourpy==1.3.1
+grpcio==1.71.0
+optree==0.14.1
+safetensors==0.5.3
+mpmath==1.3.0
+nest_asyncio==1.6.0
+pyarrow==19.0.0
+PyYAML==6.0.2
+decorator==5.2.1
+pandas==2.2.3
+tensorboard==2.19.0
+zipp==3.21.0
+regex==2024.11.6
+Brotli==1.0.9
+mkl-service==2.4.0
+matplotlib==3.10.0
+Pygments==2.19.1
+absl-py==2.1.0
+hf-xet==1.1.0
+packaging==25.0
+jupyter_client==8.6.3
+triton==3.1.0
+multiprocess==0.70.15
+debugpy==1.8.14
+numpy==2.0.1
+protobuf==5.29.3
+tornado==6.4.2
+datasets==3.6.0
+eval_type_backport==0.2.2
+typing_extensions==4.12.2
+kiwisolver==1.4.8
+pyzmq==26.4.0
+ipython_pygments_lexers==1.1.1
+setproctitle==1.2.2
+importlib_metadata==8.6.1
+jaraco.text==3.12.1
+backports.tarfile==1.2.0
+importlib_metadata==8.0.0
+jaraco.context==5.3.0
+more-itertools==10.3.0
+wheel==0.45.1
+jaraco.collections==5.1.0
+platformdirs==4.2.2
+autocommand==2.2.2
+zipp==3.19.2
+tomli==2.0.1
+typeguard==4.3.0
+packaging==24.2
+inflect==7.3.1
+typing_extensions==4.12.2
+jaraco.functools==4.0.1
diff --git a/wandb/run-20250508_212154-is8630ik/files/wandb-metadata.json b/wandb/run-20250508_212154-is8630ik/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..cd2a9114655a855a988bfed89dcfe949567e9263
--- /dev/null
+++ b/wandb/run-20250508_212154-is8630ik/files/wandb-metadata.json
@@ -0,0 +1,106 @@
+{
+  "os":  "Linux-5.15.0-138-generic-x86_64-with-glibc2.31",
+  "python":  "CPython 3.11.11",
+  "startedAt":  "2025-05-09T01:21:54.558480Z",
+  "args":  [
+    "--local_rank=0",
+    "--train_datasets",
+    "tools",
+    "--model_name_or_path",
+    "meta-llama/Llama-3.1-8B-Instruct",
+    "--cache_dir",
+    "/home/panda/pda-llm/cache/sft-tools",
+    "--important_sft",
+    "false",
+    "--max_length",
+    "2048",
+    "--trust_remote_code",
+    "True",
+    "--epochs",
+    "3",
+    "--per_device_train_batch_size",
+    "1",
+    "--per_device_eval_batch_size",
+    "1",
+    "--gradient_accumulation_steps",
+    "48",
+    "--gradient_checkpointing",
+    "--learning_rate",
+    "1e-4",
+    "--lr_scheduler_type",
+    "cosine",
+    "--lr_warmup_ratio",
+    "0.1",
+    "--weight_decay",
+    "0.0",
+    "--seed",
+    "42",
+    "--output_dir",
+    "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+    "--log_type",
+    "wandb",
+    "--log_project",
+    "TOOLS-SFT",
+    "--zero_stage",
+    "0",
+    "--offload",
+    "none",
+    "--safety_ratio_tol",
+    "10",
+    "--resilient_coeff",
+    "1",
+    "--lora_r",
+    "16",
+    "--lora_alpha",
+    "32",
+    "--lora_dropout",
+    "0.05",
+    "--bf16",
+    "True",
+    "--fp16",
+    "False",
+    "--tf32",
+    "False"
+  ],
+  "program":  "-m safe_rlhf.algorithms.tools_ft.__main__",
+  "git":  {
+    "remote":  "git@github.com:IgnacioBoero/pda-llm.git",
+    "commit":  "3e25c5a329b7cfcf30b4af51d00c42fd38478aba"
+  },
+  "email":  "iboero@upenn.edu",
+  "root":  "/home/panda/pda-llm/output/sft-tools/run-false-1-10",
+  "host":  "plaza",
+  "executable":  "/home/panda/miniconda3/envs/pda/bin/python",
+  "cpu_count":  24,
+  "cpu_count_logical":  48,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  2,
+  "disk":  {
+    "/":  {
+      "total":  "982820896768",
+      "used":  "889025499136"
+    }
+  },
+  "memory":  {
+    "total":  "270090010624"
+  },
+  "cpu":  {
+    "count":  24,
+    "countLogical":  48
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "12.4"
+}
\ No newline at end of file
diff --git a/wandb/run-20250508_212154-is8630ik/files/wandb-summary.json b/wandb/run-20250508_212154-is8630ik/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..24e2f76aa0afe1ec007e513e230825b879efc2a5
--- /dev/null
+++ b/wandb/run-20250508_212154-is8630ik/files/wandb-summary.json
@@ -0,0 +1 @@
+{"eval/hist_log_ratio":{"bins":[0.017333984375,3.017578125,6.015625,9.015625,12.015625,15.015625,18.015625,21.015625,24.015625,27.015625,30.015625,33.03125,36.03125,39.03125,42.03125,45.03125,48.03125,51.03125,54.03125,57.03125,60.03125,63.03125,66,69,72,75,78,81,84,87,90,93,96,99,102,105,108,111,114,117,120,123,126,129,132,135,138,141,144,147,150,153,156,159,162,165,168,171,174,177,180,183,186,189,192],"_type":"histogram","values":[1,1,1,1,7,6,4,12,13,22,35,42,28,38,37,25,32,23,14,18,12,9,26,13,24,15,24,13,29,20,29,11,21,16,29,11,13,14,14,5,19,11,12,1,6,6,3,1,9,4,3,1,1,2,2,0,3,1,2,0,0,1,0,1]},"train/lr":2.4246824991525087e-09,"eval/min_log_ratio":0.017333984375,"_timestamp":1.7467649187762368e+09,"_runtime":11206.604924269,"_step":16950,"train/epoch":3,"eval/step":16950,"_wandb":{"runtime":11206},"eval/mean_important_log_ratio":71.5,"eval/max_log_ratio":192,"train/step":16950,"train/loss":0.03305719792842865}
\ No newline at end of file
diff --git a/wandb/run-20250508_212154-is8630ik/logs/debug-core.log b/wandb/run-20250508_212154-is8630ik/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..860c5805585c2e11f073c67a20682476a780a0fd
--- /dev/null
+++ b/wandb/run-20250508_212154-is8630ik/logs/debug-core.log
@@ -0,0 +1,15 @@
+{"time":"2025-05-08T21:21:54.231261668-04:00","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmpy4cwdbnf/port-1548317.txt","pid":1548317,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false}
+{"time":"2025-05-08T21:21:54.237187926-04:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":1548317}
+{"time":"2025-05-08T21:21:54.237146955-04:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":45581,"Zone":""}}
+{"time":"2025-05-08T21:21:54.417525407-04:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:60288"}
+{"time":"2025-05-08T21:21:54.561577635-04:00","level":"INFO","msg":"handleInformInit: received","streamId":"is8630ik","id":"127.0.0.1:60288"}
+{"time":"2025-05-08T21:21:54.740496215-04:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"is8630ik","id":"127.0.0.1:60288"}
+{"time":"2025-05-09T00:28:41.773667114-04:00","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"is8630ik","id":"127.0.0.1:60288"}
+{"time":"2025-05-09T00:28:41.773796316-04:00","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"is8630ik","id":"127.0.0.1:60288"}
+{"time":"2025-05-09T00:28:42.76336349-04:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:60288"}
+{"time":"2025-05-09T00:28:42.76339462-04:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:60288"}
+{"time":"2025-05-09T00:28:42.763405881-04:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2025-05-09T00:28:42.763424251-04:00","level":"INFO","msg":"connection: closing","id":"127.0.0.1:60288"}
+{"time":"2025-05-09T00:28:42.763530093-04:00","level":"INFO","msg":"connection: closed successfully","id":"127.0.0.1:60288"}
+{"time":"2025-05-09T00:28:42.763549613-04:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:60288"}
+{"time":"2025-05-09T00:28:42.763559364-04:00","level":"INFO","msg":"server is closed"}
diff --git a/wandb/run-20250508_212154-is8630ik/logs/debug-internal.log b/wandb/run-20250508_212154-is8630ik/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..d37033d7f8e5ba7af95d0fef4bc3dd9187388fa4
--- /dev/null
+++ b/wandb/run-20250508_212154-is8630ik/logs/debug-internal.log
@@ -0,0 +1,18 @@
+{"time":"2025-05-08T21:21:54.561866061-04:00","level":"INFO","msg":"stream: starting","core version":"0.19.10","symlink path":"/home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_212154-is8630ik/logs/debug-core.log"}
+{"time":"2025-05-08T21:21:54.740453474-04:00","level":"INFO","msg":"created new stream","id":"is8630ik"}
+{"time":"2025-05-08T21:21:54.740487984-04:00","level":"INFO","msg":"stream: started","id":"is8630ik"}
+{"time":"2025-05-08T21:21:54.740504345-04:00","level":"INFO","msg":"writer: Do: started","stream_id":"is8630ik"}
+{"time":"2025-05-08T21:21:54.740556706-04:00","level":"INFO","msg":"handler: started","stream_id":"is8630ik"}
+{"time":"2025-05-08T21:21:54.740592257-04:00","level":"INFO","msg":"sender: started","stream_id":"is8630ik"}
+{"time":"2025-05-08T21:21:54.884261607-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-05-08T21:21:54.884293377-04:00","level":"WARN","msg":"handleCodeSave: program relative path is empty"}
+{"time":"2025-05-08T21:21:54.884348759-04:00","level":"ERROR","msg":"git repo not found","error":"repository does not exist"}
+{"time":"2025-05-09T00:28:41.16342178-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-05-09T00:28:41.163499301-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-05-09T00:28:41.635621981-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-05-09T00:28:41.760403458-04:00","level":"INFO","msg":"handler: operation stats","stats":{}}
+{"time":"2025-05-09T00:28:41.773696754-04:00","level":"INFO","msg":"stream: closing","id":"is8630ik"}
+{"time":"2025-05-09T00:28:41.773713434-04:00","level":"INFO","msg":"handler: closed","stream_id":"is8630ik"}
+{"time":"2025-05-09T00:28:41.773723895-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":"is8630ik"}
+{"time":"2025-05-09T00:28:41.773731765-04:00","level":"INFO","msg":"sender: closed","stream_id":"is8630ik"}
+{"time":"2025-05-09T00:28:41.773786876-04:00","level":"INFO","msg":"stream: closed","id":"is8630ik"}
diff --git a/wandb/run-20250508_212154-is8630ik/logs/debug.log b/wandb/run-20250508_212154-is8630ik/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..c0d34bc4185ae49d7b75ac0313612476f5540c1c
--- /dev/null
+++ b/wandb/run-20250508_212154-is8630ik/logs/debug.log
@@ -0,0 +1,29 @@
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_setup.py:_flush():68] Current SDK version is 0.19.10
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_setup.py:_flush():68] Configure stats pid to 1548317
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_setup.py:_flush():68] Loading settings from /home/panda/.config/wandb/settings
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_setup.py:_flush():68] Loading settings from /home/panda/pda-llm/scripts/wandb/settings
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_setup.py:_flush():68] Loading settings from environment variables
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_init.py:setup_run_log_directory():724] Logging user logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_212154-is8630ik/logs/debug.log
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_init.py:setup_run_log_directory():725] Logging internal logs to /home/panda/pda-llm/output/sft-tools/run-false-1-10/wandb/run-20250508_212154-is8630ik/logs/debug-internal.log
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_init.py:init():852] calling init triggers
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_init.py:init():857] wandb.init called with sweep_config: {}
+config: {'model_name_or_path': 'meta-llama/Llama-3.1-8B-Instruct', 'recompute_baseline': False, 'cache_dir': '/home/panda/pda-llm/cache/sft-tools', 'max_length': 2048, 'trust_remote_code': True, 'train_datasets': [('tools', {'proportion': 1.0})], 'eval_datasets': None, 'safety_ratio_tol': 10.0, 'important_sft': False, 'resilient_coeff': 1.0, 'epochs': 3, 'per_device_train_batch_size': 1, 'per_device_eval_batch_size': 1, 'gradient_accumulation_steps': 48, 'gradient_checkpointing': True, 'lr': 0.0001, 'lr_scheduler_type': <SchedulerType.COSINE: 'cosine'>, 'lr_warmup_ratio': 0.1, 'weight_decay': 0.0, 'seed': 42, 'fp16': False, 'bf16': True, 'tf32': False, 'lora_r': 16, 'lora_alpha': 32, 'lora_dropout': 0.05, 'eval_strategy': 'epoch', 'eval_interval': 1000000, 'need_eval': True, 'eval_split_ratio': None, 'output_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_type': 'wandb', 'log_dir': '/home/panda/pda-llm/output/sft-tools/run-false-1-10', 'log_project': 'TOOLS-SFT', 'log_run_name': 'tools-sft-2025-05-08-21-21-54', 'save_16bit': False, 'save_interval': 1000000, 'local_rank': 0, 'zero_stage': 0, 'offload': 'none', 'deepspeed': False, 'deepspeed_config': None, 'deepscale': False, 'deepscale_config': None, 'global_rank': 0, 'device': device(type='cuda', index=0), 'num_update_steps_per_epoch': 118, 'total_training_steps': 354, '_wandb': {}}
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_init.py:init():893] starting backend
+2025-05-08 21:21:54,556 INFO    MainThread:1548317 [wandb_init.py:init():897] sending inform_init request
+2025-05-08 21:21:54,558 INFO    MainThread:1548317 [backend.py:_multiprocessing_setup():101] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-05-08 21:21:54,558 INFO    MainThread:1548317 [wandb_init.py:init():907] backend started and connected
+2025-05-08 21:21:54,559 INFO    MainThread:1548317 [wandb_init.py:init():1002] updated telemetry
+2025-05-08 21:21:54,564 INFO    MainThread:1548317 [wandb_init.py:init():1026] communicating run to backend with 90.0 second timeout
+2025-05-08 21:21:54,882 INFO    MainThread:1548317 [wandb_init.py:init():1101] starting run threads in backend
+2025-05-08 21:21:54,947 INFO    MainThread:1548317 [wandb_run.py:_console_start():2566] atexit reg
+2025-05-08 21:21:54,947 INFO    MainThread:1548317 [wandb_run.py:_redirect():2414] redirect: wrap_raw
+2025-05-08 21:21:54,947 INFO    MainThread:1548317 [wandb_run.py:_redirect():2483] Wrapping output streams.
+2025-05-08 21:21:54,947 INFO    MainThread:1548317 [wandb_run.py:_redirect():2506] Redirects installed.
+2025-05-08 21:21:54,948 INFO    MainThread:1548317 [wandb_init.py:init():1147] run started, returning control to user process
+2025-05-09 00:28:41,160 INFO    MainThread:1548317 [wandb_run.py:_finish():2314] finishing run alelab/TOOLS-SFT/is8630ik
+2025-05-09 00:28:41,162 INFO    MainThread:1548317 [wandb_run.py:_atexit_cleanup():2531] got exitcode: 0
+2025-05-09 00:28:41,162 INFO    MainThread:1548317 [wandb_run.py:_restore():2513] restore
+2025-05-09 00:28:41,162 INFO    MainThread:1548317 [wandb_run.py:_restore():2519] restore done
+2025-05-09 00:28:41,762 INFO    MainThread:1548317 [wandb_run.py:_footer_history_summary_info():4160] rendering history
+2025-05-09 00:28:41,765 INFO    MainThread:1548317 [wandb_run.py:_footer_history_summary_info():4192] rendering summary
+2025-05-09 00:28:41,773 INFO    MainThread:1548317 [wandb_run.py:_footer_sync_info():4121] logging synced files
diff --git a/wandb/run-20250508_212154-is8630ik/run-is8630ik.wandb b/wandb/run-20250508_212154-is8630ik/run-is8630ik.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..6a569b1512558004fca4b166ee0ffaf404d777e0
--- /dev/null
+++ b/wandb/run-20250508_212154-is8630ik/run-is8630ik.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:67d65b4dc2493dac7ae1ddb04d23cfbac6e5a5a21bc3eccadf7336bf25261f72
+size 14778518